Wykorzystanie metod głębokiego uczenia maszynowego w gruboziarnistych symulacjach układów białkowych
ORCID
Abstract (PL)
Metody głębokiego uczenia maszynowego oraz rosnąca ostatnio ilość danych ewolucyjnych i zasobów obliczeniowych spowodowały przełom w rozwiązywaniu struktury przestrzennej białka. Najbardziej popularny aktualnie program AlfaFold rozwiązuje struktury białek z dużo wyższą dokładnością niż dotychczas stosowane metody oparte na fizyce bądź statystyce. Struktury te są następnie wykorzystywane w symulacjach dynamiki układów białkowych w celu np. badania oddziaływań białko-lek bądź białko-przeciwciało. Ze względu na duże rozmiary takich układów często stosuje się modele gruboziarniste, które zapewniają niższy koszt obliczeniowy w porównaniu do modeli pełnoatomowych. W niniejszej pracy połączono głębokie uczenie maszynowe z gruboziarnistym modelowaniem układów białkowych w celach poprawy wydajności oraz dokładności wyników. Znacząco ulepszono gruboziarnisty model SURPASS dodając do niego periodyczne warunki brzegowe oraz wielołańcuchowość. Podmieniona została również funkcja energii dotycząca wiązań wodorowych na nowo opracowany oraz szybszy potencjał gruboziarnisty. Dodatkowo opracowano dwa programy wykorzystujące uczenie maszynowe. Jeden do przypisywania struktury drugorzędowej o nazwie HECA, a drugi do odbudowy łańcucha głównego z pozycji węgli α o nazwie deepBBQ. Oba te programy uzyskały najlepszą dokładność w porównaniu z aktualnie dostępnymi narzędziami. Wraz z nową wersją modelu SURPASS oraz dowolnym narzędziem pełnoatomowym mogą one tworzyć wieloskalowy algorytm do modelowania molekularnego.
Abstract (EN)
Deep machine learning methods and the recently increasing amount of evolutionary data and computational resources have caused a breakthrough in solving the spatial structure of proteins. The currently most popular tool AlphaFold solves protein structures with much higher accuracy than previously used methods which were based on physics or statistics. These structures are then used in simulations of the dynamics of protein systems to, for example, study protein-drug or protein-antibody interactions. Due to the large size of such systems, coarse-grained models are often used, which provide a lower computational cost compared to full-atom models. In this study, deep machine learning was combined with coarse-grained modeling of protein systems for the purposes of improving the performance and accuracy of the results. The coarse-grained SURPASS model was significantly improved with the addition of periodic boundary conditions and multi-chain. The energy function for hydrogen bonds was also replaced with a newly developed coarse-grained and faster potential. In addition, two programs using machine learning were developed. One for assigning secondary structure called HECA, and the other for rebuilding the main chain from the position of α carbons called deepBBQ. Both of these programs have achieved the best accuracy compared to currently available tools. Together with the new version of the SURPASS model and any full-atom tool, they can create a multi-scale algorithm for molecular modeling.