Licencja
Analysis of structural biology results with the use of advanced data mining methods including machine learning techniques
Abstrakt (PL)
Zrozumienie trójwymiarowych struktur biomolekuł ma kluczowe znaczenie dla zrozumienia ich funkcji w zdrowiu, chorobie i ewolucji wszystkich organizmów. Szczególnie interesujące są małe cząsteczki, które wpływają na zachowanie białek. Takie substancje, zwane ligandami, mogą być lekami lub substratami reakcji katalizowanej przez daną makromolekułę. Mechanizm działania i interakcje między małym związkiem chemicznym a biomolekułą mają kluczowe znaczenie dla projektowania leków. Ze względu na dużą liczbę potencjalnych celów molekularnych, różnorodność związków chemicznych oraz wielowymiarowość danych z nimi związanych, próby manualnego projektowania leków są zazwyczaj tylko częścią programu nauczania studentów uczących się podstaw tego procesu. Tradycyjne narzędzia bioinformatyczne w połączeniu z uczeniem maszynowym i technikami eksploracji danych mogą być realnym podejściem do odkrywania leków. W tym kontekście proponujemy trzy główne cele niniejszej pracy. Po pierwsze, opracowanie narzędzia, które pomoże w identyfikacji ligandów w strukturach białkowo--małocząsteczkowych uzyskanych metodami krystalografii rentgenowskiej. Następnie stworzenie łatwego w obsłudze narzędzia do eksploracji danych zawartych w strukturach białek. I wreszcie, zdefiniowanie najlepszych praktyk w analizach strukturalnych ligandów poprzez eksplorację danych. Cele te osiągnięto dzięki opracowaniu narzędzi takich jak ChekMyBlob i BioShell 3.0, których przydatność potwierdziliśmy w analizie geometrii małych cząsteczek, HEPES i MES, występujących w strukturach białkowych.
Abstrakt (EN)
Understanding the three-dimensional structures of biomolecules is crucial for comprehending their function in all organisms' health, sickness, and evolution. Of particular interest are small molecules that influence the behaviour of proteins. Such substances, called ligands, can be drugs or substrates for a reaction catalyzed by a given macromolecule. The mechanism of action and interactions between a small chemical compound and a biomolecule are critical to drug design. Due to the large number of potential molecular targets, the diversity of chemical compounds, and the multidimensionality of the data associated with them, manual drug design attempts are typically only part of the curriculum for students learning the basics of this process. Traditional bioinformatics tools combined with machine learning and data mining techniques can be a viable approach to drug discovery. In this context, I propose three main objectives for this thesis. Firstly, the development of a tool that will aid ligand identification in protein-small molecule structures obtained by X-ray crystallography. Next, the creation of an easy-to-use tool for data mining the information contained in protein structures. And finally, to define best practices in ligand structural analyses through a practical data mining study. These goals were achieved by developing tools such as CheckMyBlob and BioShell 3.0, the usefulness of which we confirmed in the analysis of small molecules, HEPES and MES, geometry present in protein structures.