Badanie przy użyciu technik PCA, ICA i UMAP reprezentacji latentnych sygnałów EEG uzyskanych za pomocą modelu uczenia maszynowego MINetP
Badanie przy użyciu technik PCA, ICA i UMAP reprezentacji latentnych sygnałów EEG uzyskanych za pomocą modelu uczenia maszynowego MINetP
Abstrakt (PL)
W niniejszej pracy przeanalizowano reprezentacje latentne generowane przez model sieci neuronowej MINetP, będącej siecią konwolucyjną wyposażoną w mechanizm uwagi. Analizę przeprowadzono z wykorzystaniem trzech technik redukcji wymiarowości (ICA, PCA, UMAP) oraz klasyfikatora regresji logistycznej. Rozważano dwa zadania: klasyfikację norma/patologia oraz klasyfikację szpitali na podstawie oryginalnej bądź zredukowanej przestrzeni latentnej. Celem badania jest przeprowadzenie takiej modyfikacji cech wyjściowych z modelu, aby zminimalizować skuteczność klasyfikacji drugiego zadania, jednocześnie zachowując (lub poprawiając) wyniki modelu w pierwszym zadaniu. Gdyby gorsza klasyfikacja szpitali, korelowała z poprawną klasyfikacją norma/patologia, znaczyłoby to, że model odznacza się generalizacją na dane spoza rozważanej bazy szpitali. Do oceny działania klasyfikatora zastosowano krzywą ROC oraz metryki AUC i MCC. Najlepsze rezultaty w kontekście redukcji wymiarów reprezentacji latentnych uzyskano przy użyciu metody UMAP, ponieważ znacząco pogorszyła ona klasyfikację szpitali, jednocześnie zachowując większość informacji potrzebnych do rozróżnienia pacjentów zdrowych i chorych. Skuteczność UMAP w tej analizie wynika prawdopodobnie z faktu, że jest to metoda, która skupia się na lokalnych odległościach między punktami, ignorując ogólne zależności w danych. UMAP wykorzystano również do wizualizacji rozkładu danych zarówno po przetwarzaniu wstępnym, jak i dla danych surowych, jednak analiza ta nie ujawniła istotnych struktur mogących wspomóc interpretację. Dodatkowo, przeprowadzono analizę najistotniejszych składowych uzyskanych za pomocą metod ICA i PCA. Zbadano sygnały EEG, które najsilniej maksymalizowały konkretne komponenty i stworzono dla nich macierze korelacji między kanałami EEG oraz wykresy widm mocy dla poszczególnych elektrod. W tej części analizy nie uzyskano jednak oczekiwanych rezultatów– nie udało się jednoznacznie ustalić, jakie właściwości sygnału reprezentują główne składowe PCA i ICA. Wynika to najprawdopodobniej z faktu, że model MINetP nie jest przystosowany do ekstrakcji z sygnału cech, które mogą być badane przez klasyczne metody analizy EEG.
Abstrakt (EN)
In this study, latent representations generated by the MINetP neural network model, a convolutional network equipped with an attention mechanism, were analyzed. The analysis was conducted using three dimensionality reduction techniques (ICA, PCA, UMAP) and a logistic regression classifier. Two tasks were considered: classification of normal/pathological cases and classification of hospitals based on the original or reduced latent space. The aim of the study is to modify the output features of the model in such a way as to minimize the performance of the second classification task, while maintaining (or improving) the results of the model in the first task. If poorer hospital classification correlates with correct normal/pathological classification, it would indicate that the model generalizes well to data from outside the considered set of hospitals. To evaluate the classifier’s performance, the ROC curve and the AUC and MCC metrics were used. The best results in terms of dimensionality reduction of the latent representations were obtained using the UMAP method, as it significantly impaired hospital classification while preserving most of the information needed to distinguish between healthy and sick patients. The effectiveness of UMAP in this analysis likely stems from the fact that it focuses on local distances between points, ignoring global relationships in the data. UMAP was also used to visualize the data distribution both after preprocessing and for raw data; however, this analysis did not reveal any significant structures that could support interpretation. Additionally, an analysis of the most important components obtained using ICA and PCA methods was performed. EEG signals that most strongly maximized specific components were examined, and correlation matrices between EEG channels and power spectrum plots for individual electrodes were created. However, this part of the analysis did not yield the expected results – it was not possible to clearly determine what signal properties the main components of PCA and ICA represent. This is most likely due to the fact that the MINetP model is not designed to extract features from the signal that can be examined using classical EEG analysis methods.
An Investigation Using PCA, ICA, and UMAP Techniques of Latent Representations of EEG Signals Obtained with the MINetP Machine Learning Model