Praca doktorska
Ładowanie...
Miniatura
Licencja

CC-BYCC-BY - Uznanie autorstwa
 

Algorithms and Computational Models in Chemical Analysis

Uproszczony widok
dc.abstract.enIn the present work, we undertake two problems of computational chemistry: retention time alignment and synthetic accessibility scoring. For the former one, we present the Alignstein, an algorithm for LC-MS retention time alignment by feature matching. We show that the algorithm can find the correspondence appropriately even for signals of swapped elution order. We achieve this by taking advantage of the generalization of the Wasserstein distance as mass spectra and feature dissimilarity measure. It allows us to incorporate all signal information and compare features not only by monoisotopic mass but also by their spatial properties or signal distribution. We validate the algorithm on publicly available benchmark datasets obtaining competitive results. Finally, we show that it can detect the information contained in the tandem mass spectrum by the spatial properties of LC-MS chromatograms. For the latter problem, we design three different synthetic accessibility scores. The first one is based on a manually prepared set of descriptors, computed on molecules from the database. This model uses stochastic gradient descent to model the distribution of descriptors and predict the likelihood of molecule structure. The second model is based on the same set of descriptors but applies supervised learning to predict compound synthetic accessibility. It requires creating a part dataset representing infeasible molecules, for which we use the bootstrap method. The last model is based on semisupervised learning for outliers detection: One Class SVM. It does not require creating part of the dataset corresponding to non-existent molecules. Moreover, we trained it on extended-connectivity fingerprints, which allows for capturing all possible structural patterns. In this work, we discuss their applicability as a preretrosynthesis heuristic, their limitations, as well as verify the correctness of their predictions. One of the challenges of designing new synthetic accessibility scores is their verification with a ground-truth dataset. To this point, we assess if synthetic accessibility scores: SAscore, SCScore, RAscore, SYBA, and previously described OCSVM-based score can reliably predict out-comes and complexity of the retrosynthesis planning performed by the AiZynthFinder tool. Moreover, by in-depth analysis of AiZynthFinder search trees, we assess if synthetic accessibility scores can speed up retrosynthesis planning by better prioritizing partial synthetic routes.
dc.abstract.enW niniejszej pracy podejmujemy dwa problemy chemii obliczeniowej: problem uliniowienia czasu retencji w chromatografii cieczowej oraz problem przewidywania syntezowalności cząsteczek. W przypadku pierwszego z nich przedstawiamy Alignsteina, algorytm do uliniowienia czasu retencji metodą mapowania cech. Pokazujemy, że algorytm ten może poprawnie znaleźć odpowiedniość sygnałów nawet o zamienionej kolejności elucji. Aby to osiągnąć, korzystamy z uogólnienia dystansu Wassersteina jako miary podobieństwa widm masowych. Pozwala nam uwzględnić wszystkie informacje o cechach i porównywać je nie tylko na podstawie różnicy masy monoizotopowej, ale także ich właściwości przestrzennych, czy rozkładu sygnału. Weryfikujemy algorytm na publicznie dostępnych zestawach danych porównawczych, uzyskując konkurencyjne wyniki. Na koniec pokazujemy, że może wykryć informacje zawarte w tandemowym widmie masowym za pomocą przestrzennych właściwości chromatogramów. Dla drugiego problemu projektujemy trzy różne modele oceny syntezowalności cząsteczek. Pierwszy oparty jest na ręcznie przygotowanym zestawie deskryptorów cząsteczek. Model ten wykorzystuje metodę stochastycznego spadku wzdłuż gradientu do modelowania rozkładu deskryptorów i przewidywania prawdopodobieństwa struktury cząsteczki. Drugi model opiera się na tym samym zestawie deskryptorów, ale wykorzystuje uczenie nadzorowane do syntezowalności związków chemicznych. Wymaga on, aby zbiór treningowy zawierał elementy reprezentujące nieistniejące cząsteczki Tworzymy je stosując metodę bootstrap. Ostatni model oparty jest na uczeniu częściowo nadzorowanym stworzonym celu do wykrywania anomalii w zbiorach treningowych: jednoklasowego SVM. Nie wymaga on tworzenia części zbioru treningowego odpowiadającej nieistniejącym cząsteczkom. Co więcej, wytrenowaliśmy go na ECFP, numerycznej reprezentacji cząsteczek, która pozwala na zakodowanie obecności wszystkich możliwych wzorców strukturalnych. W tej pracy omawiamy poprawność predykcji modeli do przewidywania syntezowalności, a także ich ograniczenia. Jednym z wyzwań związanych z projektowaniem nowych modeli do oceny syntezowalności cząsteczek jest ich weryfikacja na dobrze opisanym zbiorze danych. W tym celu analizujemy, czy modele do oceny syntezowalności: SAscore, SCScore, RAscore, SYBA a także wcześniej opisany model oparty na jednoklasowym SVM mogą wiarygodnie przewidywać wyniki i złożoność planowania retrosyntetycznego. Ponadto dogłębnie analizujemy drzewa przeszukiwania narzędzia AiZynthFinder i oceniamy, czy modele do oceny syntezowalności mogą przyspieszyć planowanie retrosyntetyczne poprzez lepsze priorytetyzowanie częściowych wyników.
dc.affiliation.departmentWydział Matematyki, Informatyki i Mechaniki
dc.contributor.authorSkoraczyński, Grzegorz
dc.date.accessioned2023-09-26T11:05:59Z
dc.date.available2023-09-26T11:05:59Z
dc.date.defence2023-10-06
dc.date.issued2023-09-26
dc.description.promoterMiasojedow, Błażej
dc.identifier.urihttps://repozytorium.uw.edu.pl//handle/item/4676
dc.language.isoen
dc.rightsCC-BY
dc.rightsCC-BY
dc.rights.uriCC-BY
dc.subject.ensynthetic accessibility
dc.subject.enWasserstein distance
dc.subject.enretention time alignment
dc.subject.ensyntezowalność
dc.subject.enodległość Wassersteina
dc.subject.enuliniowienie czasu retencji
dc.titleAlgorithms and Computational Models in Chemical Analysis
dc.title.alternativeAlgorytmy i modele obliczeniowe w analizie chemicznej
dc.typeDoctoralThesis
dspace.entity.typePublication