Praca magisterska
Brak miniatury
Licencja

ClosedAccessDostęp zamknięty

Analysis of relations between protein markers in cells from tumor neighborhoods with BERT-like models

Autor
Sygnowski, Maciej
Promotor
Szczurek, Ewa
Data publikacji
2025
Abstrakt (PL)

W ostatnich latach nastąpił gwałtowny rozwój zastosowań architektur podobnych do transformerów w wielu zadaniach, w tym w wizji komputerowej, przetwarzaniu języka naturalnego czy generowaniu mowy. Większość z tych modeli można podzielić na dwie kategorie: skoncentrowane na generacji oraz skoncentrowane na tworzeniu reprezentacji. Wśród podejść skoncentrowanych na tworzeniu reprezentacji architektura BERT wyróżnia się wszechstronnością, skutecznością i wydajnością. W niniejszej pracy zastosowaliśmy architekturę BERT do danych opartych na IMC pochodzących z konsorcjum Immucan. Praca ta pokazuje, że BERT, zastosowany do zbioru danych dotyczących sekwencji markerów białkowych w komórce, odkrywa relacje między markerami białkowymi i osiąga wysoką dokładność zarówno w zadaniu przewidywania typu komórki, jak i w zadaniu przewidywania markerów. Relacje między markerami białkowymi dostarczają kluczowych informacji na temat procesów biologicznych, mechanizmów chorobowych oraz potencjalnych celów terapeutycznych. Na zbiorze danych zawierającym ekspresje markerów białkowych w formie pokubełkowanej nasz model osiągnął dokładność 86,87% w zadaniu przewidywania typu komórki, podczas gdy Random Forest, znany ze swojej wysokiej wydajności w pracy z danymi tabelarycznymi, osiągnął dokładność 86,45% na tym samym zbiorze danych. Nasz model w zadaniu przewidywania markerów z użyciem zamaskowanej atencji dla przewidywanych markerów białkowych był w stanie osiągnąć dokładność top3 na poziomie 80,03%. Warto podkreślić dwa markery białkowe, dla których model osiągnął dokładność top3 powyżej 90%: CD45RO (93,52%) i CD4 (90,71%).

Abstrakt (EN)

The last few years saw a burst of the applications of transformer-like architectures in multipletasks, including computer vision, natural language processing, or speech generation. Most of these models fall intro two categories: generation-centered and representation-centered. Among representation-centered approaches, the BERT architecture is notable for its versatility, effectiveness, and efficiency. In this thesis, we applied BERT architecture to IMC-based data from the Immucan consortium. This thesis shows that BERT, when applied to dataset of protein marker sequences of a cell, finds protein marker relations and achieves high accuracy in cell type prediction task as well as in marker prediction task. The relations between protein markers provide critical insight into biological processes, disease mechanisms, and potential therapeutic targets. On the binned marker expression dataset, in the cell type prediction task, our model achieved an accuracy of 86.87%, while Random Forest, well known for its high performance on tabular data, achieved 86.45% on the same dataset. Our model in the marker prediction task with masked attention for predicted protein markers was able to achieve 80.03% top3 accuracy. Worth highlighting are two protein markers for which model achieved top3 accuracy over 90%: CD45RO (93.52%) and CD4 (90.71%).

Słowa kluczowe PL
Uczenie maszynowe
Uczenie Głębokie
BERT
Transformer
Predykcja Markerów Białkowych
Predykcja Typów Komórek
Inny tytuł
Analiza powiązań markerów białkowych w komórkach z mikrootoczeń nowotworowych z pomocą modeli na podstawie architektury BERT
Wydawca
Uniwersytet Warszawski
Data obrony
2025-01-17
Licencja otwartego dostępu
Dostęp zamknięty