Licencja
Analiza różnicowej ekspresji genów w populacjach bakterii
Analiza różnicowej ekspresji genów w populacjach bakterii
Abstrakt (PL)
Bakterie oraz inne mikroorganizmy można spotkać w praktycznie każdym środowisku. Zamieszkują nie tylko glebę czy oceany, ale też ludzkie ciało. Poszczególne regiony ciała, takie jak skóra, jama ustna, czy jelita, zapewniają różne warunki środowiskowe, więc są zamieszkiwane przez odrębne, wielogatunkowe populacje mikroorganizmów - mikrobioty. Skład gatunkowy mikrobioty jelitowej różni się pomiędzy poszczególnymi osobnikami i zależy od wielu czynników, np. diety. Ma również wpływ na stan zdrowia. Niedawny rozwój technologii sekwencjonowania znacznie ułatwił badanie zmienności takich wielogatunkowych populacji, jak również ekspresji ich genów. Problem postawiony w tej rozprawie dotyczy właśnie identyfikacji różnicowej ekspresji na podstawie krótkich odczytów pochodzących z sekwencjonowania meta transkryptomu. Jednym z elementów tej pracy jest analiza danych eksperymentalnych pochodzących z sekwencjonowania mRNA wyekstrahowanego z mysich odchodów. Próbki te pochodzą z eksperymentu, w którym myszy karmione są dwoma rodzajami karmy - standardową oraz wysokotłuszczową, w celu identyfikacji różnic w mikrobiomie wynikających z diety. W tej pracy przedstawiony jest przegląd istniejących metod dostosowanych do analizy danych metagenomicznych oraz transkryptomicznych, a także porównane jest ich działanie na danych metatranskryptomicznych. Pokazana jest także możliwość wykorzystania pseudomapowania do zliczania odczytów oraz asemblacja de novo. Następnie przedstawione jest porównanie skuteczności opublikowanych metod asemblacji bazujących na dwóch najważniejszych koncepcjach: grafie de Bruijna i grafifie nałożeń sekwencji (overlap-layout-consensus). Rozdział 4 przedstawia szczególny wariant problemu asemblacji - asemblacja różnicowych transkryptów i wykazuje, że jedną z trudności z rozwi¡zaniem tego problemu przy użyciu grafu de Bruijna jest nieaddytywność zliczeń odczytów w ścieżce. Bierze się ona z tego, że jeden odczyt może być przypisany do więcej niż jednego wierzchołka. Przeszkoda ta nie występuje dla grafu nałożeń, w którym wierzchołek odpowiada jednemu odczytowi, ani dla uproszczonej jego wersji, w której jeden wierzchołek może reprezentować więcej niż jeden odczyt. Dla grafu nałożeń jest natomiast potencjalnie wykładnicza liczba rozwiązań optymalnych. Z tego powodu w sekcji 4.2 zaprezentowane są różne warianty zachłannych heurystycznych algorytmów do rozwiązania problemu znajdowania różnicowych transkryptów bezpośrednio w grafie nałożeń. Podejścia maksymalizujące długość kontigu zwracają inne sekwencje niż wersja maksymalizująca krotność zmiany - zbiory wykorzystanych w ścieżkach krawędzi różnią się. Chociaż sumaryczna długość oraz liczba sekwencji uzyskanych przez dowolną z heurystyk jest mniejsza niż najlepszej spośród metod asemblacji, na podstawie porównania z bazami sekwencji referencyjnych możemy stwierdzić, że zawierają one prawdopodobnie mniej kontigów hybrydowych, w związku z czym są one bardziej wiarygodne jako prawidłowe transkrypty.
Abstrakt (EN)
Bacteria and other microorganisms can be found in virtually any environment. They live not only in the soil and oceans, but also in the human body. Different regions of the body, such as the skin, mouth and intestines, provide different environmental conditions, so they are inhabited by distinct, multispecies populations of microorganisms - microbiota. Species composition of so called gut microbiota varies between individuals and depends on many factors, such as diet, and also affects he alth. Recent advances in sequencing technologies facilitated studying variability of such multispecies populations as well as their gene expression. The problem raised in this dissertation concerns precisely the identification of differential expression using short reads from metatranscriptome sequencing. First part of this thesis presents analysis of experimental data from sequencing of mRNA extracted from mouse faeces. These samples were derived from an experiment in which mice are fed two types of food - standard and high-fat, to identify differen ces in the microbiome resulting from the diet. This thesis provides an overview and comparison of existing methods that are commonly used for metagenomic and trans criptomic data analysis on experimental metatranscriptomic data. The possibility of using pseudo-mapping to count reads is also presented, as well as a comparison of the effectiveness of the published assembly methods based on the two most important concepts: de Bruijn graphs and string graphs (overlap-layout-consensus graphs). Chapter 4 presents a special variant of the assembly problem - the assembly of differential transcripts, and shows that one of the difficulties with solving this problem using the de Bruijn graph is the non-additivity of the read counts in the path. This is because one read may be assigned to more than one vertex. This obstacle does not exist for the overlap graph, in which the vertex corresponds to one read, nor for its simplified version in which one vertex can represent more than one read. For the overlap graph, however, there is a potentially exponential number of optimal solutions. For this reason, section 4.2 presents various greedy heuristic approaches to solving the problem of finding differential transcripts directly in the graph. The approach that maximize the contig length return different sequences than the fold change version - the sets used in the edge paths differ. Although the total length and number of sequences obtained by any of the heuristics is smaller than the best of the assembly methods, their reliability seems to be higher thanks to lower expected fraction of hybrid contigs.
Differential expression analysis in populations of bacteria