Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO Bogumil Konopka 1, Jean-Christophe Nebel 2, Malgorzata Kotulska 1 * 1 Politechnika Wrocławska, Wydział Podstawowych Problemów Techniki, Instytut Inżynierii Biomedycznej i Pomiarowej 2 Kingston University, aculty of Computing Information Systems and Mathematics, UK
Plan prezentacji Czym są programy MQA? Proponowany algorytm oceny jakości Relacja struktura3d/funkcja białek Walidacja narzędzia Slajd 2
Czym są programy MQA Model Quality Assessment - definicja problemu Programy MQA szacują jakość modeli białek, których struktura nie jest znana. Obraz uzyskany w PyMOL Slajd 3
Określenie jakości modelu Główne założenie: Istnieje silny związek pomiędzy funkcją i strukturą białka STRUKTURA UNKCJA Slajd 4
Określenie jakości modelu Sekwencja aminokwasowa unkcja Slajd 5a
Określenie jakości modelu Sekwencja aminokwasowa unkcja Model 3D białka Slajd 5b
Określenie jakości modelu Sekwencja aminokwasowa unkcja Model 3D białka Białka podobne (poszukiwania w bazie danych) (L. Holm, C. Sander 1993) unkcje białek (terminy GO) Slajd 5c
Określenie jakości modelu Sekwencja aminokwasowa unkcja (Nat. Genet.. May 2000;25(1):25-9) Model 3D białka Gene Ontology Białka podobne (poszukiwania w bazie danych) (L. Holm, C. Sander 1993) unkcje białek (terminy GO) X Slajd 5d
Określenie jakości modelu Sekwencja aminokwasowa unkcja (Nat. Genet.. May 2000;25(1):25-9) Model 3D białka Gene Ontology ( J. Z. Wang,et. al 2007) Białka podobne (poszukiwania w bazie danych) (L. Holm, C. Sander 1993) unkcje białek (terminy GO) X Slajd 5e
Określenie jakości modelu Sekwencja aminokwasowa unkcja (Nat. Genet.. May 2000;25(1):25-9) Model 3D białka Gene Ontology ( J. Z. Wang,et. al 2007) Białka podobne (poszukiwania w bazie danych) (L. Holm, C. Sander 1993) unkcje białek (terminy GO) X Slajd 5f
Określenie jakości modelu Prawdziwy pozytywny struktura jest podobna do modelu i ma funkcję zbliżoną do funkcji celu przewidywania ałszywy pozytywny struktura jest podobna do modelu, lecz funkcja jest różna niż funkcja celu przewidywań Slajd 6
Określenie jakości modelu Prawdziwy pozytywny struktura jest podobna do modelu i ma funkcję zbliżoną do funkcji celu przewidywania ałszywy pozytywny struktura jest podobna do modelu, lecz funkcja jest różna niż funkcja celu przewidywań Podobieństwo funkcji > wartość progowa Podobieństwo funkcji < wartość progowa Slajd 6
Określenie jakości modelu Sekwencja aminokwasowa unkcja (Nat. Genet.. May 2000;25(1):25-9) Model 3D białka Gene Ontology ( J. Z. Wang,et. al 2007) Białka podobne (poszukiwania w bazie danych) (L. Holm, C. Sander 1993) unkcje białek (terminy GO) X Slajd 5g
Określenie jakości modelu Sekwencja aminokwasowa unkcja (Nat. Genet.. May 2000;25(1):25-9) Model 3D białka Gene Ontology ( J. Z. Wang,et. al 2007) Krzywe dla wszystkich wartości progowych Białka podobne (poszukiwania w bazie danych) (L. Holm, C. Sander 1993) unkcje białek (terminy GO) X Slajd 5h
Określenie jakości modelu AUC calculated at different similarity tresholds 1 0.8 AUC 0.6 0.4 0.2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Similarity treshold 1py6a.pdb_pdb90 Pole pod krzywą jest miarą jakości badanego modelu Slajd 7
GOBA GeneOntology-Based Assessment Proponowane miary jakości meta_auc meta_auc_y uwzględnia stopień podobieństwa strukturalnego poszczególnych sąsiadów strukturalnych meta_auc2 uwzględnia ogólny poziom podobieństwa sąsiadów strukturalnych Slajd 8
GOBA GeneOntology-Based Assessment Walidacja narzędzia modele idealne Cele CASP8 71 spośród 121 znana funkcja Zbadano idealne modele struktury natywne Modele idealne - wyniki uzyskane przez struktury natywne Czestotliwość 16 14 12 10 8 6 4 2 0 Less 0.421 0.489 0.558 0.627 0.696 0.765 0.834 0.903 More Przedziały meta_auc Meta_AUC Meta_AUCsr = 0.754 SD = 0.127 Slajd 9
Analiza związku struktura 3D/funkcja w białkach Relacja podobieństwa strukturalnego i funkcyjnego 1.2 Podobieństwo semantyczne funkcji 1 0.8 0.6 0.4 0.2 0 0 10 20 30 40 50 Podobieństwo strukturalne DALI Z- Score Pearson s R = 0.597 Slajd 10
GOBA GeneOntology-Based Assessment Walidacja narzędzia predykcje CASP8 Analizie poddano: 13009 modeli* 27 różnych celów (31) Punkt odniesienia obiektywna miara jakości GDT_TS (A.Zemla, 2003) *Modele pobrano z http://predictioncenter.org/download_area/casp8 Slajd 11
GOBA GeneOntology-Based Assessment Walidacja narzędzia predykcje CASP8 Walidacja aplikacji oraz miary "meta_auc" 1.2 1 meta_auc 0.8 0.6 0.4 meta_auc 0.2 0 0 20 40 60 80 100 120 GDT_TS Pearson s R = 0.511 Slajd 12
GOBA GeneOntology-Based Assessment Walidacja narzędzia predykcje CASP8 Korelacja stworzonych miar z GDT_TS, obliczona dla modeli poszczególnych celów meta_auc correlations distribution meta_aucy correlation distribution 12 14 10 12 requency 8 6 4 requency 10 8 6 4 2 2 0-0.6-0.4-0.2 0 0.2 0.4 0.6 0.8 1 0-0.6-0.4-0.2 0 0.2 0.4 0.6 0.8 1 R Bins R Bins Rsr = 0.454 Rsr = 0.521 Slajd 13
GOBA GeneOntology-Based Assessment Walidacja narzędzia predykcje CASP8 meta_auc correlations distribution meta_auc2 correlations distribution 12 12 10 10 requency 8 6 4 requency 8 6 4 2 2 0 0-0.6-0.4-0.2 0 0.2 0.4 0.6 0.8 1-0.6-0.4-0.2 0 0.2 0.4 0.6 0.8 1 R Bins R Bins Rsr = 0.454 Rsr = - 0.167 Slajd 14
Podsumowanie Stworzono aplikację (GOBA) szacującą jakość modeli strukturalnych białek. Narzędzie poprawnie rozpoznaje idealne modele: Średni wynik 0.754 Dla najlepszej testowanej miary uzyskano dodatnią korelację wyników z obiektywną miarą jakości - R = 0.51 Dla badanej grupy białek, na podstawie podobieństwa funkcyjnego dwóch cząsteczek można wyznaczyć górną graniczną wartość ich podobieństwa strukturalnego. Slajd 15
Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO Bogumil Konopka 1, Jean-Christophe Nebel 2, Malgorzata Kotulska 1 * 1 Politechnika Wrocławska, Wydział Podstawowych Problemów Techniki, Instytut Inżynierii Biomedycznej i Pomiarowej 2 Kingston University, aculty of Computing Information Systems and Mathematics, UK
Slajdy dodatkowe
Opracowane miary jakości meta_auc meta_aucy meta_auc2 x= 1 P total y= 1 TP total x= 1 P total y=z sc 1 TP total AUC 2 = AUC max Z max Z median Z
Analiza związku struktura 3D/funkcja w białkach Wpływ wielkości białka na związek struktura/funkcja Wpływ stopnia uszczegółowienia opisu funkcj białka na relację struktura/funkcja 1 1 0.8 0.8 Pearson's R 0.6 0.4 0.2 Pearson's R 0.6 0.4 0.2 0 0 100 200 300 400 500 600 700 800 Długość łańcuch aminokwasowego 0 0 2 4 6 8 10 Liczba przypisanych terminów GO
Procedura oceny DALI Distance matrix alignement Obliczane są odległości między atomami C α Opierając się na odległościach można zindetyfikować: Struktury drugorzędowe (SS) Odziaływania pomiędzy SS Metoda umożliwia wyszukiwanie podobjeństw między białkami, bezwzględu na skład aminokwasowy L.Holm, C. Sander, Protein Structure Comparison by Alignment of Distance Matrices, J.Mol.Biol 233 p.123-138 (1993)
Procedura oceny GO Gene Ontology Terminy GO: Cellular Component lokalizacja, Biological Process proces biologiczny, Molecular unction pełniona funkcja The Gene Ontology Consortium. Gene ontology: tool for the unification of biology. Nat. Genet.. May 2000;25(1):25-9.
Procedura oceny Model 3D DALI Terminy GO sąsiadów strukturalnych Terminy GO celu Krzywe ROC