PPPPrrrrooootttteeeeiiiinnnn SSSSttttrrrruuuuccccttttuuuurrrreeee aaaannnndddd EEEEnnnnzzzzyyyymmmmeeee CCCCaaaattttaaaallllyyyyssssiiiissss:::: KKKKnnnnoooowwwwlllleeeeddddggggeeee----BBBBaaaasssseeeedddd PPPPrrrrooootttteeeeiiiinnnn LLLLoooooooopppp PPPPrrrreeeeddddiiiiccccttttiiiioooonnnn aaaannnndddd AAAAbbbb IIIInnnniiiittttiiiioooo EEEEqqqquuuuiiiilllliiiibbbbrrrriiiiuuuummmm CCCCoooonnnnssssttttaaaannnntttt EEEEssssttttiiiimmmmaaaattttiiiioooonnnn Inaugural-Dissertation zur Erlangung des Doktorgrades der Mathematisch-Naturwissenschaftlichen Fakultät der Universität zu Köln vorgelegt von Quoc-Vu Ha Ngoc aus Bonn Köln, April 2008 1. Berichterstatter: Universitätsprofessor Prof. Dr. D. Schomburg 2. Berichterstatter: Universitätsprofessor Prof. Dr. H. W. Klein Tag der mündlichen Prüfung: 25. April 2008 DDDDaaaannnnkkkkssssaaaagggguuuunnnngggg Prof. Dr. Dietmar Schomburg danke ich besonders für die Möglichkeit diese Dissertation durchführen zu können. Seine kompetente und herzliche Betreuung waren für mich eine große Bereicherung. Für seine Unterstützung und sein Vertrauen über die Jahre möchte ich mich herzlich bedanken. Sehr herzlich möchte ich auch Prof. Dr. Helmut W. Klein für die freundliche Übernahme des Zweitgutachtens danken. Dr. Gerd Wohlfahrt danke ich für die angenehme und erfolgreiche Zusammenarbeit bei der Loopvorhersage. Mein Dank gilt auch Dr. Kai Hartmann in dem ich neben einem zuverlässigen stets hilfsbereiten Kollegen auch einen guten Freund gefunden habe, der mir bei der Vorhersage der Gleichgewichtskonstanten mit Rat und Sachverstand zur Seite stand. Bedanken möchte ich mich auch bei Dr. Lars Packschies für die persönliche Betreuung bei der Bedienung der quantenmechanischen Software. Seine Hilfsbereitschaft, seine anregenden Ideen und sein Engagement haben wesentlich zum Gelingen dieses Projektes beigetragen. Besonders bedanke ich mich bei meinen Eltern für ihre Geduld, ihre beständige Unterstützung, und dass sie stets für mich da waren. AAAAbbbbssssttttrrrraaaacccctttt Prediction methods in the field of bioinformatics can be divided into ab initio and knowledge-based methods. The work in this thesis investigates the importance of anchor group positioning in knowledge-based protein loop prediction as well as the ab initio estimation of equilibrium constants using Density Functional Theory (DFT). The maximum possible prediction quality of knowledge-based loop prediction was examined for 595 insertions and 589 deletions with respect to gap length, fragment length, amino acid type, secondary structure and relative solvent accessibility while applying all possible anchor group positions for the fitting of loops between 3 and 12 residues in length. It was possible to predict 74.3 % of insertions and 83.7 % of deletions within an RMS deviation of < 1.5 Å between template and target structure using a knowledge-based fragment databank based on structures of the Protein Databank (PDB). The analysis showed that the importance of anchor group positioning increases with gap length and that medium fragments with lengths between 5-8 residues perform better than shorter or longer fragments. In addition, better predictions were obtained when anchor groups consisted of hydrophobic residues, were located within secondary structures such as helices and beta sheets, or had low relative solvent accessibilities. A test based on targeted anchor group selection using a combination of the above criteria showed an improvement in prediction quality compared to a random selection of anchor groups. Density Functional Theory (DFT) with a b3lyp/6-311g++ (d,p) basis set was used in combination with a preceding molecular mechanics conformational search to estimate the standard transformed Gibbs free energies of reaction (∆G°’) for a set of 45 enzyme-catalyzed r reactions at standard biochemical conditions (pH 7 and 298.15 K). For reactions from EC group 1 and EC groups 5 and 6, the calculated ∆G°’ values deviated from the experimental r values by an average of 2.49 kcal/mol and 5.50 kcal/mol, respectively. This data was comparable to the values calculated using group contribution method by Mavrovouniotis (Mavrovouniotis, J.Biol.Chem 1991; 266:14440-45), where the mean error was 2.76 kcal/mol for reactions from EC group 1 and 4.76 kcal/mol for reactions from EC groups 5 and 6. The mean error for the entire set of reactions was 10.30 kcal/mol. These results are very promising, considering that purely structural information was used, and the method can be improved by further optimization. ZZZZuuuussssaaaammmmmmmmeeeennnnffffaaaassssssssuuuunnnngggg Vorhersagemethoden auf dem Gebiet der Bioinformatik lassen sich unterscheiden zwischen ab initio und wissensbasierten Methoden. In dieser Dissertation wird sowohl der Einfluss der Ankergruppenpositionierung auf die Qualität der wissensbasierten Loopvorhersage untersucht, sowie eine ab initio Abschätzung von Gleichgewichtskonstanten mithilfe der Dichte Funktional Theorie (DFT) vorgenommen. Für die wissensbasierte Loopvorhersage von 595 Insertionen und 589 Deletionen wurde die maximal mögliche Vorhersagequalität in Abhängigkeit von Gaplänge, Fragmentgröße, Aminosäuretyp, Sekundärstruktur und relativer Lösungsmittel- zugänglichkeit ermittelt. Dabei wurden alle Ankergruppenpositionen berücksichtigt, die bei einer Modellierung von Loops zwischen 3 und 12 Aminosäureresten möglich waren. 74.3 % der Insertionen und 83.7 % der Deletionen könnten mit einer RMS Abweichung von unter 1.5 Å zwischen Leit- und Zielstruktur anhand einer PDB-Struktur basierten Fragmentdatenbank vorausgesagt werden. Die Untersuchungen ergaben, dass der Einfluss der Ankergruppenpositionierung mit Länge der Gaps zunimmt, und dass mittellange Fragmente zwischen 5 und 8 Aminosäurereste bessere Vorhersageergebnisse erzielen, als kurze oder lange Fragmente. Ausserdem wurden bessere Vorhersagen erreicht, wenn die Ankergruppen entweder aus hydrophoben Aminosäureresten bestanden, innerhalb von Sekundärstrukturen wie Helices oder Beta-Faltblätter lagen, oder eine niedrige Lösungsmittelzugänglichkeit besaßen. In einem Test wurden die Ankergruppen durch Kombination der oben genannten Kriterien gezielt ausgewählt, wodurch, im Vergleich zur zufälligen Ankergruppenwahl, eine deutliche Verbesserung der maximalen Vorhersagequalität erzielt wurde. Für 45 Enzymreaktionen unter Standardbedingungen (pH 7 und 298.15K) wurden die freien Reaktionsenthalpien (∆G°’) über quantenmechanische Berechnung der freien r Enthalpien der Metabolite bestimmt, und die Vorhersagequalität durch Vergleich mit den experimentell ermittelten Gleichgewichtskonstanten untersucht. Die Berechnung der freien Enthalpien der Metabolite erfolgte nach molekularmechanischer Konformations- minimierung unter Anwendung der Dichte Funktional Theorie (DFT) mit dem b3lyp/6-311g++ (d,p) Basissatz. Die berechneten freien Reaktionsenthalpien unterschieden sich im Durchschnitt von den experimentellen Werten um 2.49 kcal/mol bei Reaktionen der EC Gruppe 1, und um 5.50 kcal/mol bei Reaktionen der EC Gruppen 5 und 6. Diese Werte waren vergleichbar mit denen, die durch Anwendung der Inkrementmethode von Mavrovouniotis (Mavrovouniotis, J.Biol.Chem 1991; 266:14440-45) erzielt wurden. Dort lag der Durchschnittsfehler bei 2.76 kcal/mol für Reaktionen der EC Gruppe 1, und 4.76 kcal/mol für Reaktionen der EC Gruppen 5 und 6. Für den gesamten Satz der Reaktionen betrug der Vorhersagefehler im Durchschnitt 10.30 kcal/mol. Diese Resultate können als sehr vielversprechend gewertet werden, da ausschliesslich reine Strukturinformationen verwandt wurden, und sie können durch weitere Optimierung der Methode noch verbessert werden. LLLLiiiisssstttt ooooffff AAAAbbbbbbbbrrrreeeevvvviiiiaaaattttiiiioooonnnnssss aaaannnndddd CCCCoooonnnnssssttttaaaannnnttttssss ∆G°’ - Total standard transformed Gibbs free energy (298.15K, I=0, 1M, pH7) tot ∆G° - Total standard Gibbs free energy (298.15K, I=0, 1M) tot ∆G° - Standard Gibbs free energy of formation (298.15K, I=0, 1M) f ∆G°’ - Standard transformed Gibbs free energy of formation f (298.15K, I=0, 1M, pH7) ∆G° - Standard Gibbs free energy of reaction (298.15K, I=0, 1M) r ∆G°’ - Standard transformed Gibbs free energy of reaction (298.15K, I=0, 1M, pH7) r a.u. - Atomic units (1 a.u. = 1 Hartree = 2625.5 kJ/mol) COSMO - Conductor-like Screening Model DFT - Density Functional Theory EC - Enzyme Commission FSSP - Families of Structurally Similar Proteins I - Ionic Strength (mol/l) K - Equilibrium Constant K’ - Apparent Equilibrium Constant kcal and kJ - Kilocalories and Kilojoules (1 kcal = 4.184 kJ) MMFF - Merck Molecular Force Field NBS - National Bureau of Standards NIST - National Institute of Standards and Technology PDB - Protein Databank PM3 - Parametrized Model Number 3 R - Gas Constant (R= 8.314472 J K-1 mol-1) SCOP - Structural Classification of Proteins LLLLiiiisssstttt ooooffff FFFFiiiigggguuuurrrreeeessss Figure 2.1: The 20 Naturally Occurring Proteinogenic Amino Acids................................7 Figure 2.2: Peptide Bond Formation....................................................................................8 Figure 2.3: Venn Diagram of Amino Acid Properties.......................................................10 Figure 2.4: Ramachandran Plot..........................................................................................12 Figure 2.5: Right-Handed α-Helix and Parallel/Anti-Parallel β-Sheet............................14 Figure 2.6: Supersecondary Structure Elements................................................................17 Figure 2.7: Energy Landscape of Protein Folding..............................................................21 Figure 2.8: CATH Protein Classification System...............................................................25 Figure 2.9: Decomposition of Glutamate at pH 7 into Functional Groups......................52 Figure 2.10: Effect of Polarization Functions on Neighboring Orbitals.............................60 Figure 2.11: Solvent Accessible Surface...............................................................................63 Figure 4.1: Maximum Prediction Quality..........................................................................86 Figure 4.2: Maximum Prediction Quality sorted by Gap Length.....................................88 Figure 4.3: Influence of Loop Fragment Length................................................................90 Figure 4.4: Influence of Amino Acid Type........................................................................92 Figure 4.5: Influence of Secondary Structure....................................................................94 Figure 4.6: Influence of Relative Solvent Accessibility.....................................................96 Figure 4.7: Prediction using Combination of Criteria.......................................................97 Figure 4.8: Prediction using Combined Odds Ratios vs. Random Anchor Groups.........98 Figure 4.9: Mean Absolute Error for Estimation of ∆G °’...............................................103 r LLLLiiiisssstttt ooooffff TTTTaaaabbbblllleeeessss Table 2.1: Frequency of Occurrence of Amino Acids......................................................10 Table 2.2: Parameters for Common Regular Polypeptide Conformations......................13 Table 2.3: Protein Data Bank (PDB) Statistics of February 2008....................................32 Table 2.4: Top Level EC Numbers (EC Groups)...............................................................35 Table 2.5: Calculation of ∆G°’ of Glutamate using Group Contributions......................52 r Table 2.6: Nomenclature for Split-Valence Basis Sets by Pople......................................58 Table 3.1: Fragment Databank Based on all Structures from PDB 2/98. ........................70 Table 3.2: Test Data Set of Loops with all Possible Anchor Group Positions.................72 Table 3.3: Input Commands for Gaussian 03....................................................................79 Table 4.1: Maximum Prediction Quality for Test Data Set.............................................86 Table 4.2: Maximum Prediction Quality sorted by Gap Length.....................................87 Table 4.3: Prediction Quality sorted by Length of Loop Fragments...............................89 Table 4.4: Prediction Quality sorted by Individual Amino Acids...................................91 Table 4.5: Prediction Quality sorted by Amino Acid Type.............................................92 Table 4.6: Prediction Quality sorted by Secondary Structure Combination..................93 Table 4.7: Prediction Quality sorted by Relative Solvent Accessibility..........................95 Table 4.8: Prediction using Combination of Criteria.......................................................98 Table 4.9: Effect of Conformational Search on Gibbs Free Energy of Reaction (∆G°’).99 r Table 4.10: Effect of Solvation Model on Gibbs Free Energy of Reaction (∆G°’)..........100 r Table 4.11: Standard Transformed Gibbs Free Energies of Reaction (∆G°’)..................101 r Table 6.1: Standard Servers and Software Packages used in this Project......................119 Table 6.2: List of Reactions for Estimation of Reaction Equilibrium using DFT.........120 Table 6.3: Total Standard Gibbs Free Energies of Metabolites determined by DFT....122
Description: