Praca doktorska
Ɓadowanie...
Miniatura
Licencja

CC-BYCC-BY - Uznanie autorstwa
 

Algorithms and Computational Models in Chemical Analysis

Uproszczony widok
dc.abstract.enIn the present work, we undertake two problems of computational chemistry: retention time alignment and synthetic accessibility scoring. For the former one, we present the Alignstein, an algorithm for LC-MS retention time alignment by feature matching. We show that the algorithm can find the correspondence appropriately even for signals of swapped elution order. We achieve this by taking advantage of the generalization of the Wasserstein distance as mass spectra and feature dissimilarity measure. It allows us to incorporate all signal information and compare features not only by monoisotopic mass but also by their spatial properties or signal distribution. We validate the algorithm on publicly available benchmark datasets obtaining competitive results. Finally, we show that it can detect the information contained in the tandem mass spectrum by the spatial properties of LC-MS chromatograms. For the latter problem, we design three different synthetic accessibility scores. The first one is based on a manually prepared set of descriptors, computed on molecules from the database. This model uses stochastic gradient descent to model the distribution of descriptors and predict the likelihood of molecule structure. The second model is based on the same set of descriptors but applies supervised learning to predict compound synthetic accessibility. It requires creating a part dataset representing infeasible molecules, for which we use the bootstrap method. The last model is based on semisupervised learning for outliers detection: One Class SVM. It does not require creating part of the dataset corresponding to non-existent molecules. Moreover, we trained it on extended-connectivity fingerprints, which allows for capturing all possible structural patterns. In this work, we discuss their applicability as a preretrosynthesis heuristic, their limitations, as well as verify the correctness of their predictions. One of the challenges of designing new synthetic accessibility scores is their verification with a ground-truth dataset. To this point, we assess if synthetic accessibility scores: SAscore, SCScore, RAscore, SYBA, and previously described OCSVM-based score can reliably predict out-comes and complexity of the retrosynthesis planning performed by the AiZynthFinder tool. Moreover, by in-depth analysis of AiZynthFinder search trees, we assess if synthetic accessibility scores can speed up retrosynthesis planning by better prioritizing partial synthetic routes.
dc.abstract.enW niniejszej pracy podejmujemy dwa problemy chemii obliczeniowej: problem uliniowienia czasu retencji w chromatografii cieczowej oraz problem przewidywania syntezowalnoƛci cząsteczek. W przypadku pierwszego z nich przedstawiamy Alignsteina, algorytm do uliniowienia czasu retencji metodą mapowania cech. Pokazujemy, ĆŒe algorytm ten moĆŒe poprawnie znaleĆșć odpowiednioƛć sygnaƂów nawet o zamienionej kolejnoƛci elucji. Aby to osiągnąć, korzystamy z uogĂłlnienia dystansu Wassersteina jako miary podobieƄstwa widm masowych. Pozwala nam uwzględnić wszystkie informacje o cechach i porĂłwnywać je nie tylko na podstawie rĂłĆŒnicy masy monoizotopowej, ale takĆŒe ich wƂaƛciwoƛci przestrzennych, czy rozkƂadu sygnaƂu. Weryfikujemy algorytm na publicznie dostępnych zestawach danych porĂłwnawczych, uzyskując konkurencyjne wyniki. Na koniec pokazujemy, ĆŒe moĆŒe wykryć informacje zawarte w tandemowym widmie masowym za pomocą przestrzennych wƂaƛciwoƛci chromatogramĂłw. Dla drugiego problemu projektujemy trzy rĂłĆŒne modele oceny syntezowalnoƛci cząsteczek. Pierwszy oparty jest na ręcznie przygotowanym zestawie deskryptorĂłw cząsteczek. Model ten wykorzystuje metodę stochastycznego spadku wzdƂuĆŒ gradientu do modelowania rozkƂadu deskryptorĂłw i przewidywania prawdopodobieƄstwa struktury cząsteczki. Drugi model opiera się na tym samym zestawie deskryptorĂłw, ale wykorzystuje uczenie nadzorowane do syntezowalnoƛci związkĂłw chemicznych. Wymaga on, aby zbiĂłr treningowy zawieraƂ elementy reprezentujące nieistniejące cząsteczki Tworzymy je stosując metodę bootstrap. Ostatni model oparty jest na uczeniu częƛciowo nadzorowanym stworzonym celu do wykrywania anomalii w zbiorach treningowych: jednoklasowego SVM. Nie wymaga on tworzenia częƛci zbioru treningowego odpowiadającej nieistniejącym cząsteczkom. Co więcej, wytrenowaliƛmy go na ECFP, numerycznej reprezentacji cząsteczek, ktĂłra pozwala na zakodowanie obecnoƛci wszystkich moĆŒliwych wzorcĂłw strukturalnych. W tej pracy omawiamy poprawnoƛć predykcji modeli do przewidywania syntezowalnoƛci, a takĆŒe ich ograniczenia. Jednym z wyzwaƄ związanych z projektowaniem nowych modeli do oceny syntezowalnoƛci cząsteczek jest ich weryfikacja na dobrze opisanym zbiorze danych. W tym celu analizujemy, czy modele do oceny syntezowalnoƛci: SAscore, SCScore, RAscore, SYBA a takĆŒe wczeƛniej opisany model oparty na jednoklasowym SVM mogą wiarygodnie przewidywać wyniki i zƂoĆŒonoƛć planowania retrosyntetycznego. Ponadto dogƂębnie analizujemy drzewa przeszukiwania narzędzia AiZynthFinder i oceniamy, czy modele do oceny syntezowalnoƛci mogą przyspieszyć planowanie retrosyntetyczne poprzez lepsze priorytetyzowanie częƛciowych wynikĂłw.
dc.affiliation.departmentWydziaƂ Matematyki, Informatyki i Mechaniki
dc.contributor.authorSkoraczyƄski, Grzegorz
dc.date.accessioned2023-09-26T11:05:59Z
dc.date.available2023-09-26T11:05:59Z
dc.date.defence2023-10-06
dc.date.issued2023-09-26
dc.description.promoterMiasojedow, BƂaĆŒej
dc.identifier.urihttps://repozytorium.uw.edu.pl//handle/item/4676
dc.language.isoen
dc.rightsCC-BY
dc.rightsCC-BY
dc.rights.uriCC-BY
dc.subject.ensynthetic accessibility
dc.subject.enWasserstein distance
dc.subject.enretention time alignment
dc.subject.ensyntezowalnoƛć
dc.subject.enodlegƂoƛć Wassersteina
dc.subject.enuliniowienie czasu retencji
dc.titleAlgorithms and Computational Models in Chemical Analysis
dc.title.alternativeAlgorytmy i modele obliczeniowe w analizie chemicznej
dc.typeDoctoralThesis
dspace.entity.typePublication