Praca doktorska
Ćadowanie...
Licencja
Algorithms and Computational Models in Chemical Analysis
dc.abstract.en | In the present work, we undertake two problems of computational chemistry: retention time alignment and synthetic accessibility scoring. For the former one, we present the Alignstein, an algorithm for LC-MS retention time alignment by feature matching. We show that the algorithm can find the correspondence appropriately even for signals of swapped elution order. We achieve this by taking advantage of the generalization of the Wasserstein distance as mass spectra and feature dissimilarity measure. It allows us to incorporate all signal information and compare features not only by monoisotopic mass but also by their spatial properties or signal distribution. We validate the algorithm on publicly available benchmark datasets obtaining competitive results. Finally, we show that it can detect the information contained in the tandem mass spectrum by the spatial properties of LC-MS chromatograms. For the latter problem, we design three different synthetic accessibility scores. The first one is based on a manually prepared set of descriptors, computed on molecules from the database. This model uses stochastic gradient descent to model the distribution of descriptors and predict the likelihood of molecule structure. The second model is based on the same set of descriptors but applies supervised learning to predict compound synthetic accessibility. It requires creating a part dataset representing infeasible molecules, for which we use the bootstrap method. The last model is based on semisupervised learning for outliers detection: One Class SVM. It does not require creating part of the dataset corresponding to non-existent molecules. Moreover, we trained it on extended-connectivity fingerprints, which allows for capturing all possible structural patterns. In this work, we discuss their applicability as a preretrosynthesis heuristic, their limitations, as well as verify the correctness of their predictions. One of the challenges of designing new synthetic accessibility scores is their verification with a ground-truth dataset. To this point, we assess if synthetic accessibility scores: SAscore, SCScore, RAscore, SYBA, and previously described OCSVM-based score can reliably predict out-comes and complexity of the retrosynthesis planning performed by the AiZynthFinder tool. Moreover, by in-depth analysis of AiZynthFinder search trees, we assess if synthetic accessibility scores can speed up retrosynthesis planning by better prioritizing partial synthetic routes. |
dc.abstract.en | W niniejszej pracy podejmujemy dwa problemy chemii obliczeniowej: problem uliniowienia czasu retencji w chromatografii cieczowej oraz problem przewidywania syntezowalnoĆci czÄ steczek. W przypadku pierwszego z nich przedstawiamy Alignsteina, algorytm do uliniowienia czasu retencji metodÄ mapowania cech. Pokazujemy, ĆŒe algorytm ten moĆŒe poprawnie znaleĆșÄ odpowiednioĆÄ sygnaĆĂłw nawet o zamienionej kolejnoĆci elucji. Aby to osiÄ gnÄ Ä, korzystamy z uogĂłlnienia dystansu Wassersteina jako miary podobieĆstwa widm masowych. Pozwala nam uwzglÄdniÄ wszystkie informacje o cechach i porĂłwnywaÄ je nie tylko na podstawie rĂłĆŒnicy masy monoizotopowej, ale takĆŒe ich wĆaĆciwoĆci przestrzennych, czy rozkĆadu sygnaĆu. Weryfikujemy algorytm na publicznie dostÄpnych zestawach danych porĂłwnawczych, uzyskujÄ c konkurencyjne wyniki. Na koniec pokazujemy, ĆŒe moĆŒe wykryÄ informacje zawarte w tandemowym widmie masowym za pomocÄ przestrzennych wĆaĆciwoĆci chromatogramĂłw. Dla drugiego problemu projektujemy trzy rĂłĆŒne modele oceny syntezowalnoĆci czÄ steczek. Pierwszy oparty jest na rÄcznie przygotowanym zestawie deskryptorĂłw czÄ steczek. Model ten wykorzystuje metodÄ stochastycznego spadku wzdĆuĆŒ gradientu do modelowania rozkĆadu deskryptorĂłw i przewidywania prawdopodobieĆstwa struktury czÄ steczki. Drugi model opiera siÄ na tym samym zestawie deskryptorĂłw, ale wykorzystuje uczenie nadzorowane do syntezowalnoĆci zwiÄ zkĂłw chemicznych. Wymaga on, aby zbiĂłr treningowy zawieraĆ elementy reprezentujÄ ce nieistniejÄ ce czÄ steczki Tworzymy je stosujÄ c metodÄ bootstrap. Ostatni model oparty jest na uczeniu czÄĆciowo nadzorowanym stworzonym celu do wykrywania anomalii w zbiorach treningowych: jednoklasowego SVM. Nie wymaga on tworzenia czÄĆci zbioru treningowego odpowiadajÄ cej nieistniejÄ cym czÄ steczkom. Co wiÄcej, wytrenowaliĆmy go na ECFP, numerycznej reprezentacji czÄ steczek, ktĂłra pozwala na zakodowanie obecnoĆci wszystkich moĆŒliwych wzorcĂłw strukturalnych. W tej pracy omawiamy poprawnoĆÄ predykcji modeli do przewidywania syntezowalnoĆci, a takĆŒe ich ograniczenia. Jednym z wyzwaĆ zwiÄ zanych z projektowaniem nowych modeli do oceny syntezowalnoĆci czÄ steczek jest ich weryfikacja na dobrze opisanym zbiorze danych. W tym celu analizujemy, czy modele do oceny syntezowalnoĆci: SAscore, SCScore, RAscore, SYBA a takĆŒe wczeĆniej opisany model oparty na jednoklasowym SVM mogÄ wiarygodnie przewidywaÄ wyniki i zĆoĆŒonoĆÄ planowania retrosyntetycznego. Ponadto dogĆÄbnie analizujemy drzewa przeszukiwania narzÄdzia AiZynthFinder i oceniamy, czy modele do oceny syntezowalnoĆci mogÄ przyspieszyÄ planowanie retrosyntetyczne poprzez lepsze priorytetyzowanie czÄĆciowych wynikĂłw. |
dc.affiliation.department | WydziaĆ Matematyki, Informatyki i Mechaniki |
dc.contributor.author | SkoraczyĆski, Grzegorz |
dc.date.accessioned | 2023-09-26T11:05:59Z |
dc.date.available | 2023-09-26T11:05:59Z |
dc.date.defence | 2023-10-06 |
dc.date.issued | 2023-09-26 |
dc.description.promoter | Miasojedow, BĆaĆŒej |
dc.identifier.uri | https://repozytorium.uw.edu.pl//handle/item/4676 |
dc.language.iso | en |
dc.rights | CC-BY |
dc.rights | CC-BY |
dc.rights.uri | CC-BY |
dc.subject.en | synthetic accessibility |
dc.subject.en | Wasserstein distance |
dc.subject.en | retention time alignment |
dc.subject.en | syntezowalnoĆÄ |
dc.subject.en | odlegĆoĆÄ Wassersteina |
dc.subject.en | uliniowienie czasu retencji |
dc.title | Algorithms and Computational Models in Chemical Analysis |
dc.title.alternative | Algorytmy i modele obliczeniowe w analizie chemicznej |
dc.type | DoctoralThesis |
dspace.entity.type | Publication |