Praca magisterska
Brak miniatury
Licencja

ClosedAccessDostęp zamknięty
 

Analysis of relations between protein markers in cells from tumor neighborhoods with BERT-like models

dc.abstract.enThe last few years saw a burst of the applications of transformer-like architectures in multipletasks, including computer vision, natural language processing, or speech generation. Most of these models fall intro two categories: generation-centered and representation-centered. Among representation-centered approaches, the BERT architecture is notable for its versatility, effectiveness, and efficiency. In this thesis, we applied BERT architecture to IMC-based data from the Immucan consortium. This thesis shows that BERT, when applied to dataset of protein marker sequences of a cell, finds protein marker relations and achieves high accuracy in cell type prediction task as well as in marker prediction task. The relations between protein markers provide critical insight into biological processes, disease mechanisms, and potential therapeutic targets. On the binned marker expression dataset, in the cell type prediction task, our model achieved an accuracy of 86.87%, while Random Forest, well known for its high performance on tabular data, achieved 86.45% on the same dataset. Our model in the marker prediction task with masked attention for predicted protein markers was able to achieve 80.03% top3 accuracy. Worth highlighting are two protein markers for which model achieved top3 accuracy over 90%: CD45RO (93.52%) and CD4 (90.71%).
dc.abstract.plW ostatnich latach nastąpił gwałtowny rozwój zastosowań architektur podobnych do transformerów w wielu zadaniach, w tym w wizji komputerowej, przetwarzaniu języka naturalnego czy generowaniu mowy. Większość z tych modeli można podzielić na dwie kategorie: skoncentrowane na generacji oraz skoncentrowane na tworzeniu reprezentacji. Wśród podejść skoncentrowanych na tworzeniu reprezentacji architektura BERT wyróżnia się wszechstronnością, skutecznością i wydajnością. W niniejszej pracy zastosowaliśmy architekturę BERT do danych opartych na IMC pochodzących z konsorcjum Immucan. Praca ta pokazuje, że BERT, zastosowany do zbioru danych dotyczących sekwencji markerów białkowych w komórce, odkrywa relacje między markerami białkowymi i osiąga wysoką dokładność zarówno w zadaniu przewidywania typu komórki, jak i w zadaniu przewidywania markerów. Relacje między markerami białkowymi dostarczają kluczowych informacji na temat procesów biologicznych, mechanizmów chorobowych oraz potencjalnych celów terapeutycznych. Na zbiorze danych zawierającym ekspresje markerów białkowych w formie pokubełkowanej nasz model osiągnął dokładność 86,87% w zadaniu przewidywania typu komórki, podczas gdy Random Forest, znany ze swojej wysokiej wydajności w pracy z danymi tabelarycznymi, osiągnął dokładność 86,45% na tym samym zbiorze danych. Nasz model w zadaniu przewidywania markerów z użyciem zamaskowanej atencji dla przewidywanych markerów białkowych był w stanie osiągnąć dokładność top3 na poziomie 80,03%. Warto podkreślić dwa markery białkowe, dla których model osiągnął dokładność top3 powyżej 90%: CD45RO (93,52%) i CD4 (90,71%).
dc.affiliationUniwersytet Warszawski
dc.affiliation.departmentWydział Matematyki, Informatyki i Mechaniki
dc.contributor.authorSygnowski, Maciej
dc.date.accessioned2025-01-20T14:44:11Z
dc.date.available2025-01-20T14:44:11Z
dc.date.defence2025-01-17
dc.date.issued2025
dc.date.submitted2025-01-14
dc.description.promoterSzczurek, Ewa
dc.description.reviewerSzczurek, Ewa
dc.description.reviewerGogolewski, Krzysztof
dc.identifier.apd227835
dc.identifier.urihttps://repozytorium.uw.edu.pl//handle/item/165673
dc.languageen
dc.language.otherpl
dc.publisherUniwersytet Warszawski
dc.rightsClosedAccess
dc.subject.enMachine Learning
dc.subject.enDeep Learning
dc.subject.enBERT
dc.subject.enTransformer
dc.subject.enProtein Marker Prediction
dc.subject.enCell Type Prediction
dc.subject.plUczenie maszynowe
dc.subject.plUczenie Głębokie
dc.subject.plBERT
dc.subject.plTransformer
dc.subject.plPredykcja Markerów Białkowych
dc.subject.plPredykcja Typów Komórek
dc.titleAnalysis of relations between protein markers in cells from tumor neighborhoods with BERT-like models
dc.title.alternativeAnaliza powiązań markerów białkowych w komórkach z mikrootoczeń nowotworowych z pomocą modeli na podstawie architektury BERT
dc.typeMasterThesis
dspace.entity.typePublication