Praca doktorska
Miniatura
Licencja

FairUseKorzystanie z tego materiału możliwe jest zgodnie z właściwymi przepisami o dozwolonym użytku lub o innych wyjątkach przewidzianych w przepisach prawa. Korzystanie w szerszym zakresie wymaga uzyskania zgody uprawnionego.

Modeling transcription factor complex binding to eukaryotic genomes

Autor
Jankowski, Aleksander
Promotor
Tiuryn, Jerzy
Data publikacji
2014-10-20
Abstrakt (PL)

Wiązanie czynników transkrypcyjnych do specyficznych motywów w elementach regulatorowych znajdujących się w genomach organizmów eukariotycznych jest zazwyczaj badane dla każdego z czynników oddzielnie, bez uwzględniania wpływu pozostałych. Jednakże w celu pełnego poznania mechanizmów regulacji transkrypcji należy rozstrzygnąć, które czynniki transkrypcyjne wiążą się kooperatywnie do DNA jako dimery lub kompleksy wyższego rzędu, a także poznać dokładną naturę tych oddziaływań. Do tej pory znana jest tylko niewielka liczba takich kooperatywnych kompleksów.W tej pracy przedstawiamy wielkoskalową i specyficzną dla poszczególnych typów komórek metodę przewidywania dimeryzacji czynników transkrypcyjnych na DNA. Stosujemy ją do danych o nadwrażliwości na DNazę I, reprezentując możliwe kompleksów czynników transkrypcyjnych przez odpowiednie kompleksy ich motywów. Następnie analizujemy występowanie tych kompleksów w regionach otwartej chromatyny specyficznych dla poszczególnych typów komórek. W ten sposób przewidzieliśmy 603 istotnie nadreprezentowanych dimerów czynników transkrypcyjnych, spośród których zdecydowana większość nie była wcześniej znana. Nasze przewidywania obejmują 69% (20 z 29) zbioru znanych dimerów, który zebraliśmy z istniejącej literatury biochemicznej. Przewidywania były również niezależnie potwierdzone przez ewolucyjną konserwację, a także przez ilościową zmienność w profilach cięcia DNazą I.Co istotne, zarówno znane, jak i przewidywane dimery czynników transkrypcyjnych niemal zawsze były zwarte i sztywnie rozmieszczone. Sugeruje to, że dimeryzacja czynników transkrypcyjnych zachodzi w bezpośredniej ich bliskości, co narzuca ścisłe ograniczenia w strukturze kompleksu związanego z DNA. Stosując naszą metodę do danych ChIP-seq, ustaliliśmy ogólną zasadę regulującą strukturę kompleksów złożonych z dwóch czynników transkrypcyjnych i DNA, mianowicie, że ich elastyczność jest skorelowana z odstępem między motywami tych czynników na sekwencji DNA, prawdopodobnie będąc jego konsekwencją.Aby umożliwić upowszechnienie naszej metody, opracowaliśmy program TACO, który przyjmuje jako wejście dowolny zbiór genomowych elementów regulatorowych i przewiduje dimery czynników transkrypcyjnych specyficzne dla poszczególnych typów komórek w oparciu o nadreprezentację kompleksów motywów. Jest to pierwsze narzędzie tego typu, które obsługuje kompleksy złożone z nachodzących na siebie motywów. Takie kompleksy są cechą wielu znanych dimerów czynników transkrypcyjnych. Na podstawie porównania ze wspomnianym zbiorem 29 znanych dimerów, stwierdziliśmy że nasza metoda prześciga istniejące, iTFs i SpaMo.Pod koniec pracy przedstawiamy program MOCCA, będący nowatorską obliczeniową metodą identyfikacji poszczególnych miejsc wiązania czynników transkrypcyjnych, na postawie informacji o sekwencji genomu oraz danych eksperymentalnych specyficznych dla typów komórek, takich jak dane DNase-seq. Łączymy zalety dwóch poprzednich podejść, CENTIPEDE i Wellingtona, zachowując przy tym rozsądnie ograniczoną liczbę wolnych parametrów w modelu. Nasza metoda jest wyjątkowa przez to, że dopuszcza by pojedynczy czynnik transkrypcyjny miał wiele różnych stanów wiązania z DNA, różniących się profilami cięcia DNazą I oraz ogólną liczbą tych cięć.

Abstrakt (EN)

The binding of transcription factors (TFs) to their specific motifs in genomic regulatory elements of eukaryotic organisms is commonly studied in isolation. However, in order to elucidate the mechanisms of transcriptional regulation, it is essential to determine which TFs bind DNA cooperatively as dimers or higher order complexes, and to infer the precise nature of these interactions. So far, only a small number of such cooperative complexes are known.In this thesis, we present a method for predicting cell-type–specific TF-TF dimerization on DNA on a large scale. We applied it to DNase I hypersensitivity data, representing the universe of possible TF complexes by their corresponding motif complexes, and analyzed their occurrence at cell-type–specific DNase I hypersensitive sites. This way, we predicted 603 highly significant cell-type–specific TF dimers, the vast majority of which are novel. Our predictions included 69% (20/29) of the known dimeric complexes manually compiled from the existing biochemical literature. The predictions were also independently supported by evolutionary conservation, as well as quantitative variation in DNase I digestion patterns.Notably, the known and predicted TF dimers were almost always highly compact and rigidly spaced, suggesting that TFs dimerize in close proximity to their partners, which results in strict constraints on the structure of the DNA-bound complex. Applying our method to ChIP-seq data, we uncovered a general principle governing the structure of TF-TF-DNA ternary complexes, namely that the flexibility of the complex is correlated with, and most likely a consequence of, inter-motif spacing.To allow for a broad adoption of our method, we developed TACO, a software tool that takes as input any genome-wide set of regulatory elements and predicts cell-type–specific TF dimers based on enrichment of motif complexes. This is the first tool of such kind that can accommodate motif complexes composed of overlapping motifs, which are a characteristic feature of many known TF dimers. Our method comprehensively outperforms the existing approaches, iTFs and SpaMo, when benchmarked on a reference set of 29 known dimers.Finally, we propose MOCCA, a novel computational method to identify individual TF binding sites from genome sequence information and cell-type–specific experimental data, such as DNase-seq. We combine the strengths of its predecessors, CENTIPEDE and Wellington, while keeping the number of free parameters in the model reasonably low. Our method is unique in allowing for multiple binding modes for a single TF, differing in their cut profile and overall number of DNase I cuts.

Słowa kluczowe PL
kompleksy czynników transkrypcyjnych
kooperatywne wiązanie
dimeryzacja
motywy sekwencji DNA
elementy regulatorowe
Inny tytuł
Modelowanie wiązania kompleksów czynników transkrypcyjnych w genomach eukariotycznych
Data obrony
2015-05-14
Licencja otwartego dostępu
Dozwolony użytek