Praca doktorska
Ładowanie...
Miniatura
Licencja

CC-BYCC-BY - Uznanie autorstwa

HMM-based Method for Identifying Enrichment in Signal from Sequencing-based Experiments

Autor
Macioszek, Anna
Promotor
Wilczyński, Bartosz
Data publikacji
2023-03-14
Abstrakt (PL)

Wraz z rozwojem tak zwanych technik sekwencjonowania drugiej generacji (NGS - Next Generation Sequencing) opracowano wiele protokołów dla opierających się na nich eksperymentów. Kluczowym elementem analiz ich wyników dla wielu z nich jest procedura zwana po angielsku peakcalling, mająca na celu zidentyfikowanie obszarów wzbogaconych w sygnale pokrywającym genom. Istnieje wiele narzędzi które wykonują tę procedurę (zwanych peakcallerami), jednak wciąż w wielu przypadkach nie dają one satysfakcjonujących wyników. W tej rozprawie przedstawiam nowe narzędzie do procedury identyfikowania wzbogaceń, zwane HERON - HiddEn maRkov mOdel based peakcalliNg. HERON jest przeznaczony do analizy sygnału zawierającego długie obszary o słabym wzbogaceniu; przykładem takiego sygnału jest ten pochodzący z eksperymentu ChIP-seq przeprowadzonego na modyfikacji H3K27me3. HERON opiera się na ukrytych modelach Markowa z emisjami ciągłymi. W niniejszej pracy porównuję go do trzech innych peakcallerów - MACSa, SICERa oraz BayesPeaka. Ich działanie jest ocenione na wielu danych symulowanych oraz dwóch zbiorach danych eksperymentalnych, pochodzących ze zdrowej i rakowej tkanki ludzkiej. Ponadto przedstawiony jest pakiet do symulowania danych z eksperymentów opartych na NGS. Za jego pomocą wspomniane cztery peakcallery zostały przetestowane w różnych scenariuszach oraz zidentyfikowano ich mocne oraz słabe strony. Pokazuję, że HERON daje bardziej wiarygodne wyniki niż pozostałe testowane peakcallery na danych zawierających długie obszary wzbogacenia.

Abstrakt (EN)

With the advent of so-called Next-Generation Sequencing (NGS), many protocols for NGS-based experiments emerged. For many of them, a crucial step in a downstream analysis is a procedure called peakcalling, that aims at identifying enrichment in signal over a genome. While there are many tools available for peakcalling, still in many cases they yield unsatisfactory results. In this dissertation a new tool for peakcalling is described, called HERON - HiddEn MaRkov mOdel based peakcalliNg. It is intended to work well with signal that contains long, weakly enriched peaks, similar to signals resulting from ChIP-seq against H3K27me3 or H3K9me3 modifications. It is based on Hidden Markov Model with continuous emissions. HERON is compared to three other peakcalling tools - MACS, SICER and BayesPeak. Their performance is assessed on many simulated and two sets of experimental data, coming from healthy and cancerous human tissues. Additionally, a package for simulating various data from NGS-based experiments is shown. Using this package, the four peakcallers were tested in various scenarios and their strengths and weaknesses were identified. It is shown that HERON returns more reliable results than other peakcallers for signal with long peaks.

Słowa kluczowe PL
sekwencjonowanie drugiej generacji
eksperymenty oparte na NGS
identyfikacja wzbogaceń
peakcalling
Inny tytuł
Oparta na HMM-ach metoda identifikowania wzbogacenia w sygnale z eksperymentów opartych na sekwencjonowaniu
Data obrony
2023-03-16
Licencja otwartego dostępu
Uznanie autorstwa