Licencja
Machine learning polymer models of three-dimensional chromatin organization in human lymphoblastoid cells
Abstrakt (PL)
W pracy prezentujemy zastosowanie uczenia maszynowego do przewidywania trójwymiarowej struktury ludzkiego genomu w oparciu o jednowymiarowe dane sekwencyjne, epigenomiczne, miejsca wiązania czynników transkrypcyjnych oraz symulacje biofizyczne oparte na polimerach, w celu wyjaśnienia daleko-zasięgowych oddziaływań chromatynowych zaobserwowanych w danych z eksperymentów ChIA-PET przeprowadzonych dla komórek limfoblastoidalnych. Stworzono modele oparte na lasach losowych, gradient boosting machine (ang., GBM) i głębokim uczeniu, a następnie oceniono je pod względem przewidywania wysoko-rozdzielczych interakcji wewnątrz domen topologicznych (ang. TADs). Przewidziane interakcje są spójne z interakcjami mediowanymi przez CTCF i RNAPOL2 pochodzącymi z eksperymentu długo-odczytowego ChIA-PET dla linii komórkowej GM12878. Przeanalizowano istotność informacji sekwencyjnej i stanu chromatyny zdefiniowanego przez dane epigenomiczne zarówno kiedy używano ich osobno jak i razem. Następnie, zaprojektowano trójwymiarowe modele domen chromatynowych (ang. CCDs) wykorzystując dane eksperymentalne (ChIA-PET) oraz przewidziane interakcje. Wstępne wyniki wskazują na wysokie podobieństwo pomiędzy tymi dwoma typami trójwymiarowych modeli obliczeniowych (zbudowanych z danych eksperymentalnych lub przewidzianych interakcji). Obserwacja ta potwierdza powiązanie pomiędzy sekwencją genomu, epigenomiką, profilem czynników transkrypcyjnych oraz interakcjami trójwymiarowymi chromatyny.
Abstrakt (EN)
We present machine learning models of human genome three-dimensional structure that combine one dimensional (linear) sequence specificity, epigenomic information, and transcription factor binding profiles, with the polymer-based biophysical simulations in order to explain the extensive long-range chromatin looping observed in ChIA-PET experiments for lymphoblastoid cells. Random Forest, Gradient Boosting Machine (GBM), and Deep Learning models were constructed and evaluated, when predicting high-resolution interactions within Topologically Associating Domains (TADs). The predicted interactions are consistent with the experimental long-read ChIA-PET interactions mediated by CTCF and RNAPOL2 for GM12878 cell line. The contribution of sequence information and chromatin state defined by epigenomic features to the prediction task is analyzed and reported, when using them separately and combined. Furthermore, we design three-dimensional models of chromatin contact domains (CCDs) using real (ChIA-PET) and predicted looping interactions. Initial results show a similarity between both types of 3D computational models (constructed from experimental or predicted interactions). This observation confirms the association between genome sequence, epigenomic and transcription factor profiles, and three-dimensional interactions.