Sequence and structure diversity of PD-(D/E)XK phosphodiesterases

Autor
Steczkiewicz Kamil
Promotor
Bartnik Ewa
Ginalski Krzysztof
Data publikacji
Abstrakt (PL)

Fosfodiesterazy PD-(D/E)XK tworzą zróżnicowaną sekwencyjnie i strukturalnie nadrodzinę białek. Początkowo identyfikowane były jako enzymy restrykcyjne, będące istotnym elementem bakteryjnych systemów restrykcji i modyfikacji DNA. Obecnie wiadomo, że występują w organizmach należących do wszystkich domen życia i uczestniczą m.in. w naprawie i ochronie materiału genetycznego, transpozycji, dojrzewaniu tRNA oraz translacji. Funkcjonują jako endonukleazy, egzonukleazy, fosfatazy lub, jeśli są nieaktywne enzymatycznie, wiążą kwasy nukleinowe. W zależności od pełnionej funkcji wykazują specyficzność substratową względem określonej sekwencji nukleotydowej (np. endonukleazy restrykcyjne) lub struktury przestrzennej kwasu nukleinowego (np. rezolwazy). Pomimo zróżnicowania funkcji i mechanizmów działania, fosfodiesterazy PD-(D/E)XK charakteryzują się zachowaniem wspólnego rdzenia strukturalnego będącego rusztowaniem dla centrum aktywnego, które w kanonicznej postaci składa się z trzech aminokwasów (kwasu asparaginowego, D; kwasu glutaminowego, E; lizyny, K). Jednocześnie, różnorodności funkcji w obrębie tej nadrodziny białek towarzyszy znaczna zmienność sekwencyjna oraz strukturalna. Założeniem niniejszej rozprawy doktorskiej było zidentyfikowanie wszystkich rodzin białek należących do nadrodziny fosfodiesteraz PD-(D/E)XK oraz zaproponowanie ich spójnej klasyfikacji. Wykrywanie podobieństw sekwencyjnych, będące podstawą opisanych w niniejszej rozprawie prac, przeprowadziłem z wykorzystaniem metody Meta-BASIC opartej na porównywaniu meta profili, łączących informację sekwencyjną z przewidywaną informacją o strukturze drugorzędowej. Porównywanie meta profili sekwencyjnych pozwala na wykrywanie homologii między białkami znacznie różniącymi się na poziomie sekwencyjnym, lecz ciągle zachowującymi podobieństwo strukturalne. Metodę tę zastosowałem do przewidywania struktury i funkcji dla białek należących do rodzin DUF2401 oraz DUF2319. Wykazałem, że białka z rodziny DUF2401 są aktywnymi homologami hydrolaz glikozylowych. Jako białka związane ze ścianą komórkową mogą brać udział w procesie modyfikacji struktury ściany komórkowej, np. u drożdży podczas pączkowania. Przeprowadziłem również analizę bioinformatyczną białek z rodziny DUF2319, w której wykazałem, że te błonowe białka są odległymi homologami hydrolaz alfa/ beta. Ponadto wskazałem na zachowanie aminokwasów katalitycznych, charakterystycznych dla tej klasy enzymów, co może świadczyć o ich potencjalnej aktywności hydrolitycznej. Białka te występują głównie w organizmach zasiedlających środowiska bogate w tłuszcze. Analiza architektury operonów dla białek z tej rodziny pozwoliła na postawienie hipotezy o ich roli w początkowych etapach metabolizmu tłuszczów. Opracowaną w wyżej opisanych projektach metodologię wykorzystałem do analizy jednej z najbardziej zróżnicowanych pod względem sekwencyjnym i strukturalnym nadrodzin białek, jaką są fosfodiesterazy PD-(D/E)XK. Badania rozpocząłem od wybrania 60 rodzin białkowych, sklasyfikowanych w bazie Pfam jako fosfodiesterazy PD-(D/E)XK. Traktując je jako początkowy zbiór znanych reprezentantów nadrodziny, rozpocząłem poszukiwania rodzin białkowych, homologicznych w obrębie domeny fosfodiesterazy PD-(D/E)XK. Wykrycie podobieństw sekwencyjnych pomiędzy ewolucyjnie odległymi przedstawicielami nadrodziny PD-(D/E)XK wymagało wykorzystania zaawansowanych metod bioinformatycznych, w tym podejścia tranzytywnego oraz analizy mapowań o różnej wiarygodności wspartej dodatkowym modelowaniem oraz ekspercką wiedzą z zakresu struktury i funkcji analizowanych białek. W wyniku przeprowadzonych prac zidentyfikowałem 118 rodzin białkowych opisanych w bazie Pfam, 49 rodzin z bazy COG, 11 rodzin z bazy KOG oraz 99 struktur PDB. Klastrowanie sekwencyjne obejmujące wszystkie znalezione rodziny i struktury pozwoliło na wyróżnienie 121 grup białek. Ostateczny zbiór fosfodiesteraz PD-(D/E)XK zawiera enzymy restrykcyjne, enzymy uczestniczące w naprawie DNA, nukleazy splicingowe tRNA, liczne egzonukleazy oraz białka wiążące kwasy nukleinowe. Pięć zidentyfikowanych rodzin nie posiadało adnotacji strukturalnej i funkcjonalnej; są to: DUF4420 (PF14390), DUF3883 (PF13020), DUF4263 (PF14082), COG5482 oraz COG1395. W przypadku kolejnych sześciu rodzin znana była jedynie funkcja, nie znano natomiast ich struktury przestrzennej. Należą do nich: endonukleazy restrykcyjne Tsp45I (PF06300), HaeII (PF09554), Eco47II (PF09553), ScaI (PF09569) i HpaII (PF09561) oraz białka uczestniczące w regulacji transkrypcji Replic_Relax (PF13814). Dla każdej ze 121 grup zidentyfikowałem domenę fosfodiesterazy PD-(D/E)XK oraz wskazałem aminokwasy, które tworzą jej centrum aktywne. Dane te mogą stanowić punkt wyjścia dla dalszych badań doświadczalnych prowadzących do poznania szczegółowej funkcji dla niescharakteryzowanych przedstawicieli tej nadrodziny białek. Dalsza analiza architektury centrum aktywnego wykazała istnienie wielu nieopisanych dotąd przypadków migracji aminokwasów katalitycznych. Opisałem również zmienność strukturalną tych białek ze szczególnym uwzględnieniem cyklicznych permutacji struktur drugorzędowych oraz insercji dodatkowych elementów strukturalnych. Wynikiem pracy jest spójna, jednorodna i unikatowa klasyfikacja nadrodziny fosfodiesteraz PD-(D/E)XK. Jednym ze zidentyfikowanych przeze mnie białek należących do nadrodziny fosfodiesteraz PD- (D/E)XK był niescharakteryzowany dotychczas enzym ludzki – Ddk1, dla którego zbudowałem model struktury przestrzennej, wskazałem położenie aminokwasów tworzących centrum aktywne oraz zaproponowałem funkcję nukleazy. Przewidywania teoretyczne zostały potwierdzone przez grupę prof. Andrzeja Dziembowskiego, która wykazała eksperymentalnie, że Ddk1 jest mitochondrialną, funkcjonującą jako monomer nukleazą procesującą jednoniciowe DNA. Przeprowadzone przeze mnie analizy bioinformatyczne pozwoliły na szczegółowe wyjaśnienie obserwowanych własności białka Ddk1 w kontekście strukturalnym. Podsumowując, w swojej pracy doktorskiej przewidziałem strukturę i funkcję dla białek należących do rodzin DUF2401 oraz DUF2319, dokonałem całościowej klasyfikacji fosfodiesteraz PD-(D/E)XK oraz zidentyfikowałem 11 nowych rodzin białkowych należących do tej nadrodziny, jak również zaproponowałem mechanizm działania ludzkiej nukleazy Ddk1, który został potwierdzony doświadczalnie. W skład niniejszej rozprawy wchodzą cztery publikacje:

  1. Steczkiewicz K, Knizewski L, Rychlewski L, Ginalski K (2010) TOS1 is circularly permuted 1,3- beta-glucanase. Cell Cycle 9:201-204.
  2. Lazniewski M, Steczkiewicz K, Knizewski L, Wawer I, Ginalski K (2011) Novel transmembrane lipases of alpha/beta hydrolase fold. FEBS Lett 585:870-874.
  3. Steczkiewicz K, Muszewska A, Knizewski L, Rychlewski L, Ginalski K (2012) Sequence, structure and functional diversity of PD-(D/E)XK phosphodiesterase superfamily. Nucleic Acids Res 40:7016-
  4. Szczesny RJ, Hejnowicz MS, Steczkiewicz K, Muszewska A, Borowski LS, Ginalski K, Dziembowski A (2013) Identification of a novel human mitochondrial endo-/exonuclease Ddk1/c20orf72 necessary for maintenance of proper 7S DNA levels. Nucleic Acids Res 41:3144-3161. Publikacja „Sequence, structure and functional diversity of PD-(D/E)XK phosphodiesterase superfamily” została wyróżniona przez redakcję czasopisma Nucleic Acid Research jako NAR’s featured article (5% najlepszych artykułów publikowanych w czasopiśmie pod względem oryginalności, znaczenia oraz wartości naukowej).

Abstrakt (EN)

PD-(D/E)XK phosphodiesterases form a highly diverse superfamily of proteins. Initially, they were identified solely as restriction enzymes – an essential part of bacterial restriction-modification systems. Currently, these proteins can be found in species from all domains of life, and are known to participate in genetic material protection and repair, transposition, tRNA maturation and translation. The PD- (D/E)XK proteins function as endonucleases, exonucleases, phosphatases or, when catalytically inactive, bind a variety of nucleic acids. Depending on their function they can be either sequence-specific (e.g. restriction endonucleases) or structure-specific (e.g. resolvases). In spite of the great variability in function and mechanisms of action, PD-(D/E)XK phosphodiesterases retain a common structural core, which constitutes a scaffold for the active site residues (aspartic acid, D; glutamic acid, E; lysine, K). The diversity of functions performed by representatives of this superfamily is correlated with a high variability in sequence and structure. The main objective of this dissertation was to identify the complete set of protein families belonging to PD-(D/E)XK superfamily and provide their general, consistent classification. Homology detection, which is a central issue in this thesis, was carried out using a highly sensitive method (Meta-BASIC) based on the comparison of meta profiles that combine sequence profile with predicted secondary structure. Application of meta profiles allows to detect homology between highly diverged proteins that lack significant sequence similarity but still retain common structural features. I applied this method for structure and function prediction for uncharacterized protein families, DUF2401 and DUF2319. In particular, I have shown that proteins belonging to the DUF2401 family are potentially active homologs of glycosyl hydrolases. Being covalently bound to the cell wall they can be engaged in cell wall modification, e.g. during the budding process in yeasts. I also performed bioinformatics analyses for DUF2319 family showing that these membrane proteins are distant homologs of alpha/beta hydrolases. Additionally, I identified conserved active site residues characteristic for this class of enzymes, what may hint at their hydrolytic activity. DUF2319 proteins are encoded primarily in the genomes of organisms inhabiting lipid-rich environments. The detailed analysis of operon conservation allowed me to hypothesize that these proteins are involved in the initial steps of lipid metabolism. Methodology developed in the aforementioned projects was used to study one of the most diverse protein superfamilies, the PD-(D/E)XK phosphodiesterases. Using the initial set of superfamily representatives classified in Pfam database I performed sequence-based searches in order to identify protein families containing PD-(D/E)XK domain. Homology detection for evolutionary distant representatives of the PD-(D/E)XK superfamily required an application of advanced bioinformatics methods, including transitive searches and detailed analyses of mappings with various confidence scores. The most difficult predictions were additionally confirmed with molecular modeling aided by expert knowledge on structure and function of the analyzed proteins. Consequently, I have identified 118 protein families from Pfam, 49 families from COG and 11 from KOG databases, and 99 PDB structures. Sequence clustering covering all identified families and structures allowed me to define 121 protein groups. The final set of PD-(D/E)XK phosphodiesterases consists of restriction enzymes, DNA repair enzymes, tRNA splicing endonucleases, numerous exonucleases and nucleic acid binding proteins. Five of the newly annotated families had neither structural nor functional annotation; these are: DUF4420 (PF14390), DUF3883 (PF13020), DUF4263 (PF14082), COG5482 and COG1395. For the next six families functional annotation was available, yet they were not structurally studied. These include restriction endonucleases: Tsp45I (PF06300), HaeII (PF09554), Eco47II (PF09553), ScaI (PF09569) and HpaII (PF09561), and transcription regulation-related proteins Replic_Relax (PF13814). For every of the 121 groups I have identified the PD-(D/E)XK domain and pointed out catalytic residues, if present. Such information is valuable for designing further experimental studies aiming at elucidation of the detailed function for uncharacterized proteins belonging to this superfamily. Further analyses of active site architectures indicated a variety of newly identified migrations of key active site residues. I also described structural divergence within the superfamily, including circular permutations and insertions of additional structural elements. My work has resulted in consistent and unique classification of proteins belonging to the PD-(D/E)XK superfamily. One of the identified PD-(D/E)XK phosphodiesterase superfamily members was an uncharacterized human protein Ddk1. Using homology modeling methods I built a 3D model of the Ddk1 structure, pointed out residues involved in active site formation and proposed that Ddk1 functions as a nuclease. These theoretical predictions were confirmed by the group of prof. Dziembowski, who have shown experimentally that Ddk1 is a mitochondrial, monomeric exonuclease processing ssDNA. Additional bioinformatics analyses allowed for detailed interpretation of the observed properties of Ddk1 in a structural context. Concluding, in my thesis I have predicted structure and function for proteins belonging to DUF2401 and DUF2319 families. I have also provided a general classification of PD-(D/E)XK phosphodiesterases and assigned 11 new protein families to this superfamily. Moreover, I have proposed a detailed biological role for the uncharacterized human protein Ddk1, which was subsequently confirmed in experiments. The presented dissertation is based on four articles:

  1. Steczkiewicz K, Knizewski L, Rychlewski L, Ginalski K (2010) TOS1 is circularly permuted 1,3- beta-glucanase. Cell Cycle 9:201-204.
  2. Lazniewski M, Steczkiewicz K, Knizewski L, Wawer I, Ginalski K (2011) Novel transmembrane lipases of alpha/beta hydrolase fold. FEBS Lett 585:870-874.
  3. Steczkiewicz K, Muszewska A, Knizewski L, Rychlewski L, Ginalski K (2012) Sequence, structure and functional diversity of PD-(D/E)XK phosphodiesterase superfamily. Nucleic Acids Res 40:7016-
  4. Szczesny RJ, Hejnowicz MS, Steczkiewicz K, Muszewska A, Borowski LS, Ginalski K, Dziembowski A (2013) Identification of a novel human mitochondrial endo-/exonuclease Ddk1/c20orf72 necessary for maintenance of proper 7S DNA levels. Nucleic Acids Res 41:3144-3161. Article “Sequence, structure and functional diversity of PD-(D/E)XK phosphodiesterase superfamily” was awarded by Nucleic Acid Research journal as NAR’s featured article (it represents the top 5% of papers in terms of originality, significance and scientific excellence).

Inny tytuł

Zróżnicowanie sekwencyjne i strukturalne fosfodiesteraz PD-(D/E)XK

Data obrony
2013-10-07
Licencja otwartego dostępu
Dostęp zamknięty