Bioinformatik Methoden zur Vorhersage von RNA- und Proteinstrukturen Gerhard Steger Springer Basel AG Autor Dr. Gerhard Steger Heinrich-Heine-Universität Düsseldorf Institut für Physikalische Biologie Universitätsstraße 1, Geb. 26.12.U1 D-40225 Düsseldorf Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbiografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar. ISBN 978-3-7643-6951-4 ISBN 978-3-0348-7984-2 (eBook) DOI 10.1007/978-3-0348-7984-2 Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funk sendung, der Mikroverfilmung, der Wiedergabe auf photomechanischem oder ähnlichem Weg und der Speicherung in Datenverarbeitungsanlagen bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheber rechtsgesetzes in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungs pflichtig. Zuwiderhandlungen unterliegen den Strafbedingungen des Urheberrechts. © 2003 Springer Basel AG Ursprünglich erschienen bei Birkhäuser Verlag, Basel, Switzerland 2003 Computer-to-plate Vorlage durch den Autor erstellt Umschlaggestaltung: Micha Lotrovsky, CH-4106 Therwil, Schweiz Gedruckt auf säurefreiem Papier, hergestellt aus chlorfrei gebleichtem Zellstoff. TCF = ISBN 978-3-7643-6951-4 987654321 www.birkhauser-science.com Inhaltsverzeichnis Vorwort ............................................. ix Strukturvorhersage von Nukleinsäuren 1 1. Struktur und Funktion von RN A . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1 RNA-Struktur .................................... 4 1.2 Thermodynamik der RNA-Faltung .................... . 15 1.3 Kinetik der RNA-Faltung ........................... . 21 1.4 RNA-Struktur-Bestimmung 22 1.5 RNA-Funktionen ................................. . 35 2. Kooperative Gleichgewichte in doppelsträngigen Nukleinsäuren .... 39 2.1 Einfaches chemisches Gleichgewicht zwischen Isomeren ....... 40 2.2 Protonierungsgleichgewicht ........................... 42 2.3 Modell für Denaturierung von doppelsträngiger Nukleinsäure 44 3. Graphen und Alignments ................................ 57 3.1 Globales paarweises Alignment ........................ 57 3.2 Varianten des paarweisen Alignments ................... 63 3.3 Kosten für Lücken ................................. 65 3.4 Multiple Alignments ................................ 66 VI Inhaltsverzeichnis 4. RNA-Sekundärstruktur-Vorhersage per Graphentheorie . . . . . . . . .. 73 4.1 Definition von Sekundär- und Tertiärstruktur ............. 74 4.2 Tinoco-Plot ..................................... . 75 4.3 Zahl möglicher Strukturen 76 4.4 Struktur mit maximaler Zahl Basenpaare ................ . 78 4.5 Strukturen mit submaximaler Zahl Basenpaare ........... . 79 4.6 Energie-Werte für RNA-Sekundärstrukturen ............. . 84 4.7 Thermodynamisch optimale Sekundärstrukturen 86 4.8 Bestimmung von Strukturverteilungen .................. . 86 4.9 Qualität der Vorhersage von Strukturen und Strukturverteilungen ............................... . 92 4.10 Tertiärstrukturvorhersage ............................ 94 4.11 Simultane Optimierung von Struktur und Alignment ........ 94 5. RNA-Sekundärstruktur-Vorhersage per Informationstheorie . . . . . .. 95 5.1 Kommunikationstheorie ............................. 96 5.2 "Sequence Logos": Darstellung der Information in Alignments 100 5.3 "Expected mutual information rate" oder "rate of information transmission" ..................................... 103 5.4 Maximal gewichtete Zuordnungen ...................... 105 5.5 Optimierung der Konsensus-Struktur . . . . . . . . . . . . . . . . . . .. 108 5.6 ConStruct........................................ 111 6. RNA-Sekundärstruktur-Vorhersage mit Genetischen Algorithmen 115 6.1 Prinzip eines Genetischen Algorithmus .................. 116 6.2 Beispiel für Genetischen Algorithmus . . . . . . . . . . . . . . . . . . .. 117 6.3 Vorhersage von RNA-Sekundärstruktur .................. 119 6.4 Vorhersage des Faltungswegs von RNA-Sekundärstruktur 120 6.5 Programmierter Zelltod durch hok/sok des Plasmids R1 122 7. RNA-Sekundärstrukturfaltung ............................ 127 7.1 Toleranzschwellen-Algorithmus ........................ 128 7.2 Sintflut-Algorithmus................................ 130 7.3 Kinetische Parameter für Strukturbildung ................ 130 7.4 RNA-Faltung durch Lösung der "master equation" .......... 132 7.5 Vorhersage von RNA-Faltung ......................... 135 Inhaltsverzeichnis vii Strukturvorhersage von Proteinen 147 8. Protein-Struktur 149 8.1 Aminosäuren als Bausteine .......................... . 150 8.2 Die Polypeptidkette ............................... . 154 8.3 Die Peptidbindung ................................ . 154 8.4 Ramachandran-Plot 156 8.5 Sekundärstrukturen 158 8.6 Supersekundärstrukturen ........................... . 163 8.7 Tertiärstrukturen ................................. . 169 8.8 Folds und Superfolds, Familien und Superfamilien ......... . 173 8.9 Quartärstrukturen ................................ . 174 9. Energetik von Protein-Strukturen ............... .......... . 175 9.1 Nicht-kovalente Wechselwirkungen, die die Proteinstruktur bestimmen ...................................... . 177 9.2 Salzbrücken ..................................... . 183 9.3 Molekulare Packung ............................... . 183 10. Protein-Sekundärstruktur-Vorhersage ...................... . 185 10.1 Sekundärstruktur nach Chou & Fasman (1978) ........... . 189 10.2 Sekundärstruktur nach Garnier et al. (1978) 191 10.3 Hydropathie und Amphiphilie von ex-Helices 194 10.4 Antigenitätsindex nach Jameson & Wolf (1988) ........... . 197 11. Qualität von Vorhersagen ............................... . 199 11.1 Eine binäre Aussage oder eine Aussage mit Wertebereich .... . 200 11.2 Aussagen mit mehr als zwei Klassen 203 11.3 Objektive Prüfung von Vorhersagen 205 12. Vorhersage von Transmembran-Helices per Hidden-Markov-Modell .. 207 12.1 Markov-Ketten ................................... . 208 12.2 Hidden-Markov-Modell ............................. . 209 12.3 Hidden-Markov-Modelle zur Sequenz-Analyse ............ . 210 12.4 Transmembran-Helices per Hidden-Markov-Modell (TMHMM) 214 12.5 Qualität von Programmen zur Vorhersage von Transmembranregionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 viii Inhaltsverzeichnis 13. Protein-Sekundärstruktur-Vorhersage per Neuronalem Netz . . . . . .. 219 13.1 Neuronale Netze ....... . . . . . . . . . . . . . . . . . . . . . . . . . . .. 220 13.2 PHD - Strukturvorhersage unter Verwendung evolutionärer Information ...................................... 232 13.3 Ausgabebeispiel von PHD ............................ 238 13.4 Vorhersage von Signalpeptiden und Signalankern ........... 241 14. ProteinfaItung mit ab-initio-Methoden 247 14.1 Elemente der ab-iniiio-Methoden 248 14.2 Stand der Forschung in MD-Simulationen ................ 251 15. Inverse ProteinfaItung - "Threading" ....................... 253 15.1 3D-1D-Profile für Threading .......................... 257 15.2 Verbesserungen des Algorithmus ....................... 261 15.3 Strukturvorhersage mit GenThreader .................... 265 16. ProteinfaItung per Homologie-Modellierung . . . . . . . . . . . . . . . . . .. 269 16.1 Identifizierung von verwandten Proteinen mit bekannter 3D-Struktur ...................................... 272 16.2 Alignment der Target-Sequenz mit dem Template .......... 272 16.3 Loop-Modellierung ................................. 273 16.4 Modellierung der Seitenketten ......................... 274 16.5 Fehler bei der Homologie-Modellierung 275 16.6 Modell-Bewertung 278 Literaturverzeichnis .................................... 279 Index zu Programmen 295 Index. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 297 Vorwort Inhalt: Der Inhalt dieses Buchs folgt einer zweifachen Absicht: zum einen soll das jeweilige Gebiet der Nukleinsäure- bzw. Protein-Strukturvorhersage ab gedeckt werden und zum anderen soll in jedem Kapitel (mindestens) eine informationstechnische Methode behandelt werden. Hier soll dann nicht nur der Algorithmus vorgestellt werden, sondern mindestens eine Implementati on und damit erzielbare Ergebnisse anhand eines biologischen Beispiels dis kutiert werden. Das Buch ist also nicht ein Handbuch mit Click-Anweisungen für diverse Web-basierte Computer-Werkzeuge, sondern eher eine Darstel lung von Informatik-Methoden anhand konkreter biologischer Themen. In den Nukleinsäure- bzw. Proteinstruktur einleitenden Kapiteln 1 bzw. 8 und 9 werden einige biochemische und biophysikalische Grundlagen erläutert, auf denen die in den darauf folgenden Kapiteln behandelten Algo rithmen aufbauen. Sie sollen also zum Verständnis des behandelten Problems und der zu seiner Lösung eingesetzten informationstechnischen Methoden nützlich sein. Zielgruppe/Ursprung: Dieses Buch ist eine überarbeitete Version eines Vorle sungsmanuskripts für eine einsemestrige Bioinformatik-Vorlesung an der Heinrich-Heine-Universität Düsseldorf. Diese und eine weitere Bioinforma tik-Vorlesung sind für solche Studierenden des Diplomstudiengangs Biologie prüfungsrelevant, die das "kombinierte Nebenfach" Bioinformatik belegen. Zu diesem Nebenfach zählen "biologische" Vorlesungen, Praktika und Se minare in Bioinformatik und "nicht-biologische" Vorlesungen und Praktika in Informatik und Mathematik. Mit umgekehrtem Vorzeichen gilt ähnliches für Studierende im Bachelor/Master-Studiengang Informatik mit Studien schwerpunkt Bioinformatik in Kombination mit dem Nebenfach Biologie. Referenzen: In jedem Kapitel werden zahlreiche Literaturhinweise zu wei terführenden oder alternativen Algorithmen und Methoden, Originalarbei ten und Übersichtsartikeln gegeben; dies sollte es erleichtern, sich in je des der in den Kapiteln behandelten Themen tiefer einzuarbeiten. Dazu oder auch zur praktischen Anwendung von Methoden sind an vielen Stel len Web-Adressen angegeben. Diese sind leider dynamischer als einem lieb x Vorwort sein kann; allerdings ist nach meiner Erfahrung jede Seite mit Hilfe des an gegebenen Namens und Inhalts in einer Suchmaschine1 auch nach Jahren noch auffindbar. Dank: Das vorliegende Buch wurde in LJ\TEX 2 erstellt; Zeichnungen und Grafiken wurden mit sketch :3, gimp ,1 und GLE [) angefertigt. Danke an die Entwickler; keines der Programme hat mich im Stich gelassen. Weiterhin gilt mein Dank den DiplomandInnen und Doktoranden, die sich an der Suche nach Tippfeh lern und Ungereimtheiten im Manuskript beteiligt haben (in alphabetischer Reihenfolge): Ali Akin, Tanja Gesell, Stefan A. Gräf, Cynthia Sharma, Ralph Schunk und Andreas Wilm. Bei Herrn G. Nagel bedanke ich mich ganz be sonders für seine gründliche Fehlersuche. Verbleibende Fehler, unzulängliche Beschreibungen etc. gehen natürlich zu meinen Lasten. Düsseldorf, den 27. Januar 2003 Gerhard Steger 1 http://www.google.de/ 2 http://www.dante.de :l http://sketch.sourceforge . net 4 http://www.gimp.org 5 ftp://ftp.rz.uni-duesseldorf.de/pub/graphics/gle/ Strukturvorhersage von Nukleinsäuren