Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

Podobne dokumenty
Modelowanie interakcji helis transmembranowych

Podobieństwo semantyczne w ontologiach biomedycznych

RMSD - Ocena jakości wybranych molekularnych struktur przestrzennych

Przewidywanie struktury kanału białkowego z wykorzystaniem probabilistycznych gramatyk formalnych oraz modelu ciągłego przepływu jonów

Model Poissona-Nernsta-Plancka w predykcji struktury kanałów białkowych

Bioinformatyka wykład 3.I.2008

Bioinformatyka wykład 10.I.2008

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

Bioinformatyka wykład 10

Bioinformatyka wykład 8, 27.XI.2012

Bioinformatyka wykład 11, 11.I.2011 Białkowa bioinformatyka strukturalna c.d.

Dopasowania par sekwencji DNA

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Kamila Muraszkowska Znaczenie wąskich gardeł w sieciach białkowych. źródło: (3)

Analiza stanów gry na potrzeby UCT w DVRP

Porównywanie i dopasowywanie sekwencji

Bioinformatyczne bazy danych

9. Praktyczna ocena jakości klasyfikacji

Recenzja. Warszawa, dnia 22 października 2018 r.

WZORCE LOGIKI APLIKACJI Reużywalne składniki wymagań

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Bioinformatyczne bazy danych

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

METODY INŻYNIERII WIEDZY

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Bioinformatyka II Modelowanie struktury białek

W każdym zadaniu za 0, 1, 2, 3, 4 poprawne odpowiedzi otrzymuje się odpowiednio 0, 1, 3, 6, 10 punktów.

Sztuczna inteligencja : Algorytm KNN

Porównywanie i dopasowywanie sekwencji

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Wyznaczanie minimalnej odważki jako element kwalifikacji operacyjnej procesu walidacji dla wagi analitycznej.

Czy za wszystkie straty energii w sieci 110 kv odpowiada spółka dystrybucyjna?

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Asocjacyjna reprezentacja danych i wnioskowanie

Motywacja. Do tej pory: Dzisiaj:

Bioinformatyka II Modelowanie struktury białek

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

Statystyczna analiza danych

DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM. Procedura szacowania niepewności


Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

INFORMATYKA POZIOM ROZSZERZONY

INFORMATYKA POZIOM ROZSZERZONY

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Bioinformatyka wykład 9

INFORMATYKA POZIOM ROZSZERZONY

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

KARTA KURSU. Metody biologii molekularnej w ochronie środowiska. Molecular biological methods in environmental protection. Kod Punktacja ECTS* 2

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Pomiar gotowości szkolnej uczniów za pomocą skali quasi-obserwacyjnej

były jedynie sekwencje aminokwasowe, a także wykorzystał go do oszacowania aktywności przeciwdrobnoustrojowej wybranych bakteriocyn.

Procedura szacowania niepewności

Kontrola i zapewnienie jakości wyników

METODY INŻYNIERII WIEDZY

PageRank. Bartosz Makuracki. 28 listopada B. Makuracki PageRank

System wspomagania harmonogramowania przedsięwzięć budowlanych

Metoda cyfrowej korelacji obrazu w badaniach geosyntetyków i innych materiałów drogowych

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Process Analytical Technology (PAT),

Agnieszka Nowak Brzezińska

Projektowanie (design) Eurostat

Część II Uwaga: wszystkie wyniki muszą być odzwierciedleniem dołączonej komputerowej realizacji obliczeń.

PRZYRÓWNANIE SEKWENCJI

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

CZEŚĆ PIERWSZA. Wymagania na poszczególne oceny,,matematyka wokół nas Klasa III I. POTĘGI

Metody ograniczenia przestrzeni poszukiwań w modelowaniu nieznanych struktur białkowych

Politechnika Wrocławska, Katedra Inżynierii Biomedycznej Systemy Pomiarowo-Diagnostyczne, laboratorium

Przewodnik. DynaMed Plus.

PRÓBNY SPRAWDZIAN SZÓSTOKLASISTY Z OPERONEM

STATYSTYKA MATEMATYCZNA

Ekonometria. Zajęcia

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Bioinformatyka wykład 12, 18.I.2011 Białkowa bioinformatyka strukturalna c.d.

Bazy danych do rejestracji termograficznych badań medycznych

Plan. Zakres badań teorii optymalizacji. Teoria optymalizacji. Teoria optymalizacji a badania operacyjne. Badania operacyjne i teoria optymalizacji

ADNOTACJE WARIANTÓW GENETYCZNYCH

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

TRANSFORMACJE I JAKOŚĆ DANYCH

Lista rankingowa negatywnie zaopiniowanych wniosków Wspólne Przedsięwzięcie TANGO

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Badania wpływu charakterystyki dokładnościowej korekt różnicowych na poprawne wyznaczenie nieoznaczoności w pozycjonowaniu GNSS-RTK

Analiza współzależności dwóch cech I

Układy i Systemy Elektromedyczne

SciFinder. Wyszukiwanie substancji chemicznych

Nowoczesne systemy ekspresji genów

Wykład 9 Wnioskowanie o średnich

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

INFOBAZY 2014 VII KRAJOWA KONFERENCJA NAUKOWA INSPIRACJA - INTEGRACJA - IMPLEMENTACJA

Informatyka w medycynie Punkt widzenia kardiologa

Technologie informacyjne - wykład 12 -

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Transkrypt:

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO Bogumil Konopka 1, Jean-Christophe Nebel 2, Malgorzata Kotulska 1 * 1 Politechnika Wrocławska, Wydział Podstawowych Problemów Techniki, Instytut Inżynierii Biomedycznej i Pomiarowej 2 Kingston University, aculty of Computing Information Systems and Mathematics, UK

Plan prezentacji Czym są programy MQA? Proponowany algorytm oceny jakości Relacja struktura3d/funkcja białek Walidacja narzędzia Slajd 2

Czym są programy MQA Model Quality Assessment - definicja problemu Programy MQA szacują jakość modeli białek, których struktura nie jest znana. Obraz uzyskany w PyMOL Slajd 3

Określenie jakości modelu Główne założenie: Istnieje silny związek pomiędzy funkcją i strukturą białka STRUKTURA UNKCJA Slajd 4

Określenie jakości modelu Sekwencja aminokwasowa unkcja Slajd 5a

Określenie jakości modelu Sekwencja aminokwasowa unkcja Model 3D białka Slajd 5b

Określenie jakości modelu Sekwencja aminokwasowa unkcja Model 3D białka Białka podobne (poszukiwania w bazie danych) (L. Holm, C. Sander 1993) unkcje białek (terminy GO) Slajd 5c

Określenie jakości modelu Sekwencja aminokwasowa unkcja (Nat. Genet.. May 2000;25(1):25-9) Model 3D białka Gene Ontology Białka podobne (poszukiwania w bazie danych) (L. Holm, C. Sander 1993) unkcje białek (terminy GO) X Slajd 5d

Określenie jakości modelu Sekwencja aminokwasowa unkcja (Nat. Genet.. May 2000;25(1):25-9) Model 3D białka Gene Ontology ( J. Z. Wang,et. al 2007) Białka podobne (poszukiwania w bazie danych) (L. Holm, C. Sander 1993) unkcje białek (terminy GO) X Slajd 5e

Określenie jakości modelu Sekwencja aminokwasowa unkcja (Nat. Genet.. May 2000;25(1):25-9) Model 3D białka Gene Ontology ( J. Z. Wang,et. al 2007) Białka podobne (poszukiwania w bazie danych) (L. Holm, C. Sander 1993) unkcje białek (terminy GO) X Slajd 5f

Określenie jakości modelu Prawdziwy pozytywny struktura jest podobna do modelu i ma funkcję zbliżoną do funkcji celu przewidywania ałszywy pozytywny struktura jest podobna do modelu, lecz funkcja jest różna niż funkcja celu przewidywań Slajd 6

Określenie jakości modelu Prawdziwy pozytywny struktura jest podobna do modelu i ma funkcję zbliżoną do funkcji celu przewidywania ałszywy pozytywny struktura jest podobna do modelu, lecz funkcja jest różna niż funkcja celu przewidywań Podobieństwo funkcji > wartość progowa Podobieństwo funkcji < wartość progowa Slajd 6

Określenie jakości modelu Sekwencja aminokwasowa unkcja (Nat. Genet.. May 2000;25(1):25-9) Model 3D białka Gene Ontology ( J. Z. Wang,et. al 2007) Białka podobne (poszukiwania w bazie danych) (L. Holm, C. Sander 1993) unkcje białek (terminy GO) X Slajd 5g

Określenie jakości modelu Sekwencja aminokwasowa unkcja (Nat. Genet.. May 2000;25(1):25-9) Model 3D białka Gene Ontology ( J. Z. Wang,et. al 2007) Krzywe dla wszystkich wartości progowych Białka podobne (poszukiwania w bazie danych) (L. Holm, C. Sander 1993) unkcje białek (terminy GO) X Slajd 5h

Określenie jakości modelu AUC calculated at different similarity tresholds 1 0.8 AUC 0.6 0.4 0.2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Similarity treshold 1py6a.pdb_pdb90 Pole pod krzywą jest miarą jakości badanego modelu Slajd 7

GOBA GeneOntology-Based Assessment Proponowane miary jakości meta_auc meta_auc_y uwzględnia stopień podobieństwa strukturalnego poszczególnych sąsiadów strukturalnych meta_auc2 uwzględnia ogólny poziom podobieństwa sąsiadów strukturalnych Slajd 8

GOBA GeneOntology-Based Assessment Walidacja narzędzia modele idealne Cele CASP8 71 spośród 121 znana funkcja Zbadano idealne modele struktury natywne Modele idealne - wyniki uzyskane przez struktury natywne Czestotliwość 16 14 12 10 8 6 4 2 0 Less 0.421 0.489 0.558 0.627 0.696 0.765 0.834 0.903 More Przedziały meta_auc Meta_AUC Meta_AUCsr = 0.754 SD = 0.127 Slajd 9

Analiza związku struktura 3D/funkcja w białkach Relacja podobieństwa strukturalnego i funkcyjnego 1.2 Podobieństwo semantyczne funkcji 1 0.8 0.6 0.4 0.2 0 0 10 20 30 40 50 Podobieństwo strukturalne DALI Z- Score Pearson s R = 0.597 Slajd 10

GOBA GeneOntology-Based Assessment Walidacja narzędzia predykcje CASP8 Analizie poddano: 13009 modeli* 27 różnych celów (31) Punkt odniesienia obiektywna miara jakości GDT_TS (A.Zemla, 2003) *Modele pobrano z http://predictioncenter.org/download_area/casp8 Slajd 11

GOBA GeneOntology-Based Assessment Walidacja narzędzia predykcje CASP8 Walidacja aplikacji oraz miary "meta_auc" 1.2 1 meta_auc 0.8 0.6 0.4 meta_auc 0.2 0 0 20 40 60 80 100 120 GDT_TS Pearson s R = 0.511 Slajd 12

GOBA GeneOntology-Based Assessment Walidacja narzędzia predykcje CASP8 Korelacja stworzonych miar z GDT_TS, obliczona dla modeli poszczególnych celów meta_auc correlations distribution meta_aucy correlation distribution 12 14 10 12 requency 8 6 4 requency 10 8 6 4 2 2 0-0.6-0.4-0.2 0 0.2 0.4 0.6 0.8 1 0-0.6-0.4-0.2 0 0.2 0.4 0.6 0.8 1 R Bins R Bins Rsr = 0.454 Rsr = 0.521 Slajd 13

GOBA GeneOntology-Based Assessment Walidacja narzędzia predykcje CASP8 meta_auc correlations distribution meta_auc2 correlations distribution 12 12 10 10 requency 8 6 4 requency 8 6 4 2 2 0 0-0.6-0.4-0.2 0 0.2 0.4 0.6 0.8 1-0.6-0.4-0.2 0 0.2 0.4 0.6 0.8 1 R Bins R Bins Rsr = 0.454 Rsr = - 0.167 Slajd 14

Podsumowanie Stworzono aplikację (GOBA) szacującą jakość modeli strukturalnych białek. Narzędzie poprawnie rozpoznaje idealne modele: Średni wynik 0.754 Dla najlepszej testowanej miary uzyskano dodatnią korelację wyników z obiektywną miarą jakości - R = 0.51 Dla badanej grupy białek, na podstawie podobieństwa funkcyjnego dwóch cząsteczek można wyznaczyć górną graniczną wartość ich podobieństwa strukturalnego. Slajd 15

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO Bogumil Konopka 1, Jean-Christophe Nebel 2, Malgorzata Kotulska 1 * 1 Politechnika Wrocławska, Wydział Podstawowych Problemów Techniki, Instytut Inżynierii Biomedycznej i Pomiarowej 2 Kingston University, aculty of Computing Information Systems and Mathematics, UK

Slajdy dodatkowe

Opracowane miary jakości meta_auc meta_aucy meta_auc2 x= 1 P total y= 1 TP total x= 1 P total y=z sc 1 TP total AUC 2 = AUC max Z max Z median Z

Analiza związku struktura 3D/funkcja w białkach Wpływ wielkości białka na związek struktura/funkcja Wpływ stopnia uszczegółowienia opisu funkcj białka na relację struktura/funkcja 1 1 0.8 0.8 Pearson's R 0.6 0.4 0.2 Pearson's R 0.6 0.4 0.2 0 0 100 200 300 400 500 600 700 800 Długość łańcuch aminokwasowego 0 0 2 4 6 8 10 Liczba przypisanych terminów GO

Procedura oceny DALI Distance matrix alignement Obliczane są odległości między atomami C α Opierając się na odległościach można zindetyfikować: Struktury drugorzędowe (SS) Odziaływania pomiędzy SS Metoda umożliwia wyszukiwanie podobjeństw między białkami, bezwzględu na skład aminokwasowy L.Holm, C. Sander, Protein Structure Comparison by Alignment of Distance Matrices, J.Mol.Biol 233 p.123-138 (1993)

Procedura oceny GO Gene Ontology Terminy GO: Cellular Component lokalizacja, Biological Process proces biologiczny, Molecular unction pełniona funkcja The Gene Ontology Consortium. Gene ontology: tool for the unification of biology. Nat. Genet.. May 2000;25(1):25-9.

Procedura oceny Model 3D DALI Terminy GO sąsiadów strukturalnych Terminy GO celu Krzywe ROC