Bioinformatyka Wykład 9. E. Banachowicz Zakład Biofizyki Molekularnej IF UAM http://www.amu.edu.pl/~ewas Modelowanie struktur białek Przewidywanie struktury drugorzędowej Rozpoznanie pofałdowania (Fold recognition; threading) Modelowanie porównawcze (Homology modelling) Ab initio (de novo) 2 Wykład 9, 2010/2011 1
Modelowanie homologiczne/porównawcze (oparte na homologii) Homology Modelling Modelowanie nieznanej struktury w oparciu o znane struktury co najmniej jednego homologicznego białka na razie najlepsza metoda modelowania przy dużym % identyczności sekwencji przewidywany model jest równie dobry jak eksperymentalny 3 Rozpoznanie pofałdowania (Fold Recognition) Polega na znalezieniu pofałdowania (z bazy znanych pofałdowań), które jest najbardziej zgodne z sekwencją białka dobre wyniki w przypadku, gdy nie ma homologa (albo nie można go znaleźć przez porównanie sekwencji. (poprzedza modelowanie homologiczne) Nie da dobrego wyniku jeśli białko ma nowe, nieznane pofałdowanie 4 Wykład 9, 2010/2011 2
Modelowanie Ab Initio Modelowanie struktury białka na podstawie podstawowych oddziaływań miedzyatomowych Teoretycznie możliwe, ale wymagające intensywnych obliczeń nadaje się dla małych cząsteczek może dawać pożyteczne informacje o pofałdowaniu nieprzewidywalne; dobre rezultaty dla małych fragmentów 5 Jaka metoda? 6 Wykład 9, 2010/2011 3
Algorytm procedury szukania struktury Sekwencja białka Dane eksperymentalne dopasowanie wielosekwencyne Przeszukanie Baz Danych podział na domeny homolog w PDB? NIE przewidywanie struktury II-rz. rozpoznanie pofałdowania TAK analiza rodzin strukturaknych dopasowanie strukturalne TAK przewidziano? modelowanie porównawcze dopasowanie sekwencji do struktury NIE Model struktury trzeciorzędowej przewidywanie struktury III-rz. 7 Modelowanie homologiczne (threading) Sekwencja białka Dane eksperymentalne dopasowanie wielosekwencyne Przeszukanie Baz Danych podział na domeny homolog w PDB? NIE przewidywanie struktury II-rz. rozpoznanie pofałdowania TAK analiza rodzin strukturaknych dopasowanie strukturalne TAK przewidziano? modelowanie porównawcze dopasowanie sekwencji do struktury NIE Model struktury trzeciorzędowej przewidywanie struktury III-rz. 8 Wykład 9, 2010/2011 4
Rozpoznanie pofałdowania Sekwencja białka Dane eksperymentalne dopasowanie wielosekwencyne Przeszukanie Baz Danych podział na domeny homolog w PDB? NIE przewidywanie struktury II-rz. rozpoznanie pofałdowania TAK analiza rodzin strukturaknych dopasowanie strukturalne TAK przewidziano? modelowanie porównawcze dopasowanie sekwencji do struktury NIE Model struktury trzeciorzędowej przewidywanie struktury III-rz. 9 Modelowanie ab initio Sekwencja białka Dane eksperymentalne dopasowanie wielosekwencyne Przeszukanie Baz Danych podział na domeny homolog w PDB? NIE przewidywanie struktury II-rz. rozpoznanie pofałdowania TAK analiza rodzin strukturaknych dopasowanie strukturalne TAK przewidziano? modelowanie porównawcze dopasowanie sekwencji do struktury NIE Model struktury trzeciorzędowej przewidywanie struktury III-rz. 10 Wykład 9, 2010/2011 5
Podobieństwo a homologia Programy do zestawień sekwencji mierzą IDENTYCZNOŚĆ i PODOBIEŃSTWO a nie HOMOLOGIE Przewidywania: Identyczność > 75%: model doskonałej Identyczność > 50%: model dobrej jakości Identyczność > 35%: model średniej jakości Identyczność > 20%: modelowanie zwykle możliwe Identyczność < 20%: wymagane zastosowanie rozpoznania pofałdowania 11 Przewidywanie struktury III-rzędowej Modelowanie homologiczne (threading) 12 Wykład 9, 2010/2011 6
Modelowanie homologiczne (threading) Sekwencja białka Dane eksperymentalne dopasowanie wielosekwencyne Przeszukanie Baz Danych podział na domeny homolog w PDB? NIE przewidywanie struktury II-rz. rozpoznanie pofałdowania TAK analiza rodzin strukturaknych dopasowanie strukturalne TAK przewidziano? modelowanie porównawcze dopasowanie sekwencji do struktury NIE Model struktury trzeciorzędowej przewidywanie struktury III-rz. 13 Modelowanie homologiczne Szablon Model str. Natywna Wykład 9, 2010/2011 7
Modelowanie Homologiczne - porównawcze Założenie - sekwencje homologiczne posiadają takie samo pofałdowanie Sekwencje niespokrewnione mogą posiadać takie samo pofałdowanie pewne motywy posiadają znaną strukturę np. palec cynkowy 15 Rozpoznanie pofałdowania Sekwencja białka Dane eksperymentalne dopasowanie wielosekwencyne Przeszukanie Baz Danych podział na domeny homolog w PDB? NIE przewidywanie struktury II-rz. rozpoznanie pofałdowania TAK analiza rodzin strukturaknych dopasowanie strukturalne TAK przewidziano? modelowanie porównawcze dopasowanie sekwencji do struktury NIE Model struktury trzeciorzędowej przewidywanie struktury III-rz. Wykład 9, 2010/2011 8
Rozpoznanie pofałdowania CASP Critical Assessment of techniques for protein Structure Prediction 18 Wykład 9, 2010/2011 9
Protein Structure Prediction Center Zadaniem Centrum jest ocenianie metod (postępu) przewidywania struktury 3D białek CASP - Critical Assessment of techniques for protein Structure Prediction jest międzynarodowym eksperymentem, który ma pozwolić ocenić bieżący poziom przewidywania struktur. CASP1 (1994) CASP2 (1996) 42 struktury (9 miesięcy), 70 grup (152 osoby) CASP3 (1998) 43 struktury, 120 grup (w kategorii 3D: 61) CASP4 (2000) 43 struktury, 160 grup + 38 serwerów (w kategorii 3D: 111) CASP5 (2002 )67 struktur, 187 grup + 72 serwery (w kategorii 3D: 175) CASP6 (2004) 85 struktur, 201 grup + 65 serwery (w kategorii 3D: 166) CASP7 (2006) 104 struktur, 207 grup + 98 serwery (w kategorii 3D: 178) CASP8 (2008) 128 (57) struktur, 112 grup + 121 serwery (w kategorii 3D: 161, w tym 70 serwerów) Protein Structure Prediction Center University of California, Davis Członkowie i współpracownicy: Maciej Milostan Politechnika Poznańska Andriy Kryshtafovych Genome Center, University of California, Krzysztof Fidelis dyrektor Centrum Pawel Daniluk Wydział Fizyki UW Viktor Nakonechnyj Zinovii Dmytriv Centrum Lukasz Szjkowski - Lawrence Livermore National Laboratory, California Oleh Krysko -Bioinformatics at UC Davis Volker Eyrich Columbia University Ceslovas Venclovas Laboratory of Bioinformatics Institute of Biotechnology, Vilnius, Lithuania Adam Zemla Lawrence Livermore National Laboratory, California Krzysztof Lazarski Midwest Center for StructuralGenomics and Structural Biology Center, Biosciences, Argonne National Laboratory Wykład 9, 2010/2011 10
Kategoryzacja targetów FM - free modeling CM_H Comparative modeling: hard CM_M Comparative modeling: medium CM_E Comparative modeling: easy CASP 8 22 Wykład 9, 2010/2011 11
24 Wykład 9, 2010/2011 12
25 26 Wykład 9, 2010/2011 13
28 Wykład 9, 2010/2011 14
29 Identczność : 96% - model trywialny 30 Wykład 9, 2010/2011 15
31 32 Wykład 9, 2010/2011 16
33 34 Wykład 9, 2010/2011 17
brak 2eej_A!? 35 36 Wykład 9, 2010/2011 18
37 38 Wykład 9, 2010/2011 19
39 40 Wykład 9, 2010/2011 20
41 42 Wykład 9, 2010/2011 21
43 44 Wykład 9, 2010/2011 22
45 46 Wykład 9, 2010/2011 23
47 T0387 model 4th PDZ domain of PDZ domain containing protein 1 (PDZK1A) from Homo sapiens 48 Wykład 9, 2010/2011 24
Klasyfikacja modeli FM Free modeling CM_H Comparative modeling: hard CM_M Comparative modeling: medium CM_E Comparative modeling: easy T0405, T0419, T0443, T0465, T0478, T0496, T0504 T0391, T0393, T0394, T0401, T0414, T0416, T0417, T0420, T0427, T0434, T0436, T0446, T0449, T0454, T0464, T0471, T0472, T0485, T0498, T0506, T0507, T0512 T0389, T0392, T0402, T0406, T0408, T0411, T0412, T0415, T0422, T0424, T0425, T0431, T0433, T0435, T0437, T0440, T0441, T0445, T0448, T0451, T0456, T0459, T0463, T0469, T0473, T0475, T0477, T0480, T0481, T0483, T0490, T0492, T0493, T0494, T0497, T0502, T0503, T0505, T0509, T0511 T0387, T0388, T0390, T0396, T0398, T0400, T0404, T0410, T0418, T0423, T0426, T0428, T0432, T0438, T0442, T0444, T0447, T0450, T0452, T0453, T0455, T0458, T0461, T0470, T0474, T0479, T0484, T0486, T0488, T0491, T0499, T0508 Wykład 9, 2010/2011 25
T0424 (model średni) T0424 model struktura natywna Wykład 9, 2010/2011 26
T0424 -superpozycja Wykład 9, 2010/2011 27
T390 model łatwy Wykład 9, 2010/2011 28
T390s T390 model Wykład 9, 2010/2011 29
T429 Wykład 9, 2010/2011 30
model tandem tudor domains of the E3 ubiquitin-protein ligase UHRF1 from Homo sapiens T407 Wykład 9, 2010/2011 31
T407 T0407 Domena 2 Domena 1 Wykład 9, 2010/2011 32
T0407 PHP metal-dependent phosphoesterase (YP_001300751.1) from Bacteroides vulgatus Polskie grupy AMU-Biology Urszula Baraniak Anna Czerwoniec 475 Human 12 osób 353 models for 98 3D targets 6 models for 6 FN targets A-TASSER EB_AMU_Physics Anna Jagielska 149 Human Jeffrey Skolnick Liliana Wroblewska 337 Human Ewa Banachowicz 595 models for 119 3D targets 169 models for 115 3D targets 1 models for 1 FN targets FrankensteinLong 172 Human Michal Gajda 334 models for 70 3D targets Michal Gajda GeneSilico Michal Boniecki Janusz Bujnicki 371 Human Jerzy Orlowski Wojtek Potrzebowski 257 models for 52 3D targets Kolinski Pawel Gniewek Michal Jamroz Stanislaw Jaworski 493 Human Sebastian Kmiecik Andrzej Kolinski. 11 osób 236 models for 53 3D targets KudlatyPredHuman 267 Human Marcin Pawlowski 52 models for 15 3D targets ProtAnG Scheraga Maciej Antczak Piotr Lukasiak 110 Human Maciej Milostan Grzegorz Palik Urszula Kozlowska Jozef Adam Liwo 324 Human Stanislaw Oldziej Harold Scheraga 30 models for 30 3D targets 155 models for 31 3D targets Wykład 9, 2010/2011 33
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101 105 109 113 117 121 125 129 133 137 141 145 149 153 157 161 165 80 Cumulative Z-score (GDT_TS) 70 60 TASSER -Skolnik GenSilico - Bujnicki 50 A-TASSER -Skolnik 40 EB_AMU_Phys AMU_Biol 30 Koliński 20 ProtAnG_Lukasiak 10 0 80 70 60 TASSER -Skolnik GenSilico - Bujnicki bez serwerów 50 A-TASSER -Skolnik 40 EB_AMU_Phys AMU_Biol 30 Koliński 20 ProtAnG_Lukasiak 10 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 Wykład 9, 2010/2011 34
by Jane S. Richardson) GDT _TS GDT_TS - GlobalDistanceTest_TotalScore GDT_TS = (GDT_P1 + GDT_P2 + GDT_P4 + GDT_P8)/4, gdzie GDT_Pn oznaczają % aminokwasów w odległości mniejszej niż cutoff <= nå (1,2,4,8 Å) Wykład 9, 2010/2011 35
Modelowanie porównawcze Wymaga sekwencji homologicznych Wzorców opartych na rodzinach sekwencji co raz mniej nowych rodzajów struktur! Przyrost struktur w PDB Przyrost unikalnych pofałdowań w CATH CATH: Protein Structure Classification. Wykład 9, 2010/2011 36
Pułapki 73 Modelowanie homologiczne - HCR - Wykład 9, 2010/2011 37
Dane eksperymentalne Agnieszka Olejnik, Justyna Broniarczyk HCR-alpha helix coiled coil rod homologue - podobieństwo strukturalne do innych białek komórkowych obrębie superhelisy alfa locus genu HCR znajduje się na chromosomie 6p21.3 gen HCR obejmuje 15788 pz genomowego DNA 15 różnych transkryptów - kodują 10 różnych białek transkrypty dla białek HCR ulegają alternatywnemu składaniu (splicingowi) (?) Istnieje wiele polimorficznych form białka HCR różniących się strukturą drugorzędową największe z białek 808 aa posiada masę cząsteczkową 91,6 kda (?) przypuszczalnie zawiera sygnał lokalizacji jądrowej (aa 98-104 PGRRGRS) (?)białko jądrowe (?) przypuszczalnie posiadające motyw zamka leucynowego (?) tworzy dimery potencjalny regulator transkrypcji odgrywa rolę w regulacji proliferacji keratynocytów rozpoznanie białka (co już o nim wiadomo: struktura, funkcja, oddziaływania - NCBI, ExPASy,) analiza sekwencji: domeny, matryce, motywy, miejsca modyfikacji, charakterystyczne obszary model struktury drugorzędowej model struktury trzeciorzędowej Wykład 9, 2010/2011 38
ENTREZ Gene Przeszukanie Baz Danych NCBI: Q8TD31 Przeszukanie Baz Danych Wykład 9, 2010/2011 39
BLINK ExPASy Przeszukanie Baz Danych Wykład 9, 2010/2011 40
HCR BLAST (szukanie homologów) 81 podobieństwo! 82 Wykład 9, 2010/2011 41
BLAST wobec PDB 83 84 Wykład 9, 2010/2011 42
Algorytm procedury szukania struktury Sekwencja białka Dane eksperymentalne dopasowanie wielosekwencyne Przeszukanie Baz Danych podział na domeny homolog w PDB? NIE przewidywanie struktury II-rz. rozpoznanie pofałdowania TAK analiza rodzin strukturaknych dopasowanie strukturalne TAK przewidziano? modelowanie porównawcze dopasowanie sekwencji do struktury NIE Model struktury trzeciorzędowej przewidywanie struktury III-rz. 85 Podział na domeny NCBI: CDD(A Conserved Domain Database and Search Service) Pfam SMART SBASE Wykład 9, 2010/2011 43
Podział na domeny 87 NCBI CD Wykład 9, 2010/2011 44
Pfam SMART Wykład 9, 2010/2011 45
Algorytm procedury szukania struktury Sekwencja białka Dane eksperymentalne dopasowanie wielosekwencyne Przeszukanie Baz Danych podział na domeny homolog w PDB? NIE przewidywanie struktury II-rz. rozpoznanie pofałdowania TAK analiza rodzin strukturaknych dopasowanie strukturalne TAK przewidziano? modelowanie porównawcze dopasowanie sekwencji do struktury NIE Model struktury trzeciorzędowej przewidywanie struktury III-rz. 91 Rozpoznanie struktury II-rzędowej i pofałdowania JNet A Neural Network Protein Secondary Structure Prediction Method (http://www.compbio.dundee.ac.uk/~www-jpred/jnet/) ELM -Eukaryotic Linear Motif resource for functional sites in proteins (http://elm.eu.org/) --- nnpredict - University of California at San Francisco (UCSF) PSIpred - Various protein structure prediction methods at Brunel University SOPMA 92 Wykład 9, 2010/2011 46
Przeszukiwanie Baz Danych podział na domeny 93 SBase Wykład 9, 2010/2011 47
27-782: gnl CDD 27218, pfam07111, HCR, Alpha helical coiled-coil rod protein (HCR). This family consists of several mammalian alpha helical coiled-coil rod HCR proteins. The function of HCR is unknown but it has been implicated in psoriasis in humans and is thought to affect keratinocyte proliferation. 81-679:gnl CDD 16998, pfam01576, Myosin_tail_1, Myosin tail. The myosin molecule is a multi-subunit complex made up of two heavy chains and four light chains it is a fundamental contractile protein found in all eukaryote cell types. This family consists of the coiled-coil myosin heavy chain tail region. The coiled-coil is composed of the tail from two molecules of myosin. These can then assemble into the macromolecular thick filament. The coiled-coil region provides the structural backbone the thick filament. 115-681: gnl CDD 23781, pfam05557, MAD, Mitotic checkpoint protein. This family consists of several eukaryotic mitotic checkpoint (Mitotic arrest deficient or MAD) proteins. The mitotic spindle checkpoint monitors proper attachment of the bipolar spindle to the kinetochores of aligned sister chromatids and causes a cell cycle arrest in prometaphase when failures occur. Multiple components of the mitotic spindle checkpoint have been identified in yeast and higher eukaryotes. In S.cerevisiae, the existence of a Mad1- dependent complex containing Mad2, Mad3, Bub3 and Cdc20 has been demonstrated. 101-664: gnl CDD 10293, COG0419, SbcC, ATPase involved in DNA repair [DNA replication, recombination, and repair] 99-700: gnl CDD 10914, COG1196, Smc, Chromosome segregation ATPases [Cell division and chromosome partitioning] Wykład 9, 2010/2011 48
ModBase ModBase Wykład 9, 2010/2011 49
ModBase servery - struktura IIrz. PSIpred - Prediction of secondary structure from multiple sequences PROF - Secondary Structure Prediction System PHDsec: the PredictProtein server at EMBL PREDATOR: another EMBL server NNPREDICT server at UCSF NSSP server at Baylor College of Medicine Implementation of GOR method in Leeds GOR at the University of Southampton JPRED Secondary structure prediction server at EBI Wykład 9, 2010/2011 50
PIR Peptide Match Results PSIpred struktura drugorzędowa Wykład 9, 2010/2011 51
coils - COILS: http://www.ch.embnet.org/software/coils_form.html Wykład 9, 2010/2011 52
3D-PSSM Fold Recognition http://www.sbg.bio.ic.ac.uk/3dpssm/ 115 116 Wykład 9, 2010/2011 53
117 118 Wykład 9, 2010/2011 54
Apolipoprotein A1/A4/E family Prefoldin subunit Ezrin/radixin/moesin family Intermediate filament protein TolA protein Synaphin protein Tropomyosin 119 Modeller jedna z możliwych struktur HCR Wykład 9, 2010/2011 55
motyw zamka leucynowego (jedna nić) Modeller: fragment:154-632 (na strukturze miozyny) obszar bogaty w Gln Wykład 9, 2010/2011 56
MultiCoil Coiled-coil 123 Metaserver Bioinfo.pl 124 Wykład 9, 2010/2011 57
125 126 Wykład 9, 2010/2011 58
127 2TMA_A: tropomyosin Dopasowanie sekwencji HCR: 360-649 możliwe modele 1C1G_A: (contractile protein : crystal structure of tropomyosin) dopasowanie sekwencji HCR 184-475 C1CII: dopasowanie sekwencji HCR 2-537, SCOP: f.1.1 1CII: Crystal structure of colicin Ia dopasowanie sekwencji HCR: 95-560,, SCOP: f.1.1 (rożne dopasowania 1CII zaproponowane przez różne serery) 128 Wykład 9, 2010/2011 59
1HCI: triple-helix coiled coil : crystal structure of the rod domain of alpha-actinin Dopasowanie sekwencji 323-782, SCOP: a.7.1 1SJJ_A:Actinin SCOP: a.7.1 129 1TR2, 1ST6: cell adhesion : crystal structure of human full-length vinculin, A cell adhesion : crystal structure of a cytoskeletal protein dopasowanie sekwencji HCR: 10-764, SCOP: a.24.9 130 Wykład 9, 2010/2011 60
Dwa różne modele HCR_1SJJ HCR_1CII 131 HCR jako dimer Model CCHCR1 według 1CII jako dimer. Model CCHCR1 według 1SJJ jako dimer 132 Wykład 9, 2010/2011 61
Analiza modeli 3D białka CCHCR1 Verify3D-HCR_1SJJ 0.6 0.5 0.4 0.3 0.2 0.1 0-0.1 1-0.2-0.3 Verify3D-HCR_1CII 0.5 0.4 0.3 0.2 0.1 0 1-0.1-0.2-0.3 133 Na razie modelu nie można zweryfikować Wykład 9, 2010/2011 62
Koniec Wykład 9, 2010/2011 63