Podobieństwo semantyczne w ontologiach biomedycznych

Podobieństwo semantyczne w ontologiach biomedycznych Bogumił Konopka Politechnika Wrocławska Wydział Podstawowych Problemów Techniki Instytut Inżynierii Biomedycznej i Pomiarowej KN Bio Nanopor

Plan prezentacji Wstęp definicje GO (gene ontology) Przykład ontologii Miary podobieństwa semantycznego Porównywanie terminów Porównywanie zbiorów terminów Ocena poprawności Ontologia Podobieństwo semantyczne Przykłady zastosowań

Wstęp Ontologia Ontologia [gr. on óntos będący, byt, óntos on rzeczywiście będący, istniejący, lógos słowo, nauka, teoria ], filozficzna nauka o bycie; w sensie pierwotnym termin używany od XVII w. (J. Clauberg, Ch. Wolff) zamiennie ze starszą nazwą metafizyka; odnosi się do arystotelesowskiej filozofii pierwszej jako do nauki o bycie jako bycie, następnie do kontynuacji jej rozważań w teorii bytu, zajmującej się bytem w jego naturze powszechnym; Encyklopedia PWN Ontologia od lat 70 tych XX w. jest terminem wykorzystywanym w informatyce.

Wstęp ontologia Ontologia w informatyce wykorzystuje: Kategoryzację przyporządkowanie obiektu do określonej klasy obiektów (na podstawie cech) Hierarchizację klasy umiejscowione są w hierarchicznej strukturze. Klasy dziedziczą cechy z klas nadrzędnych. Ontologia słownik, zbiór powiązanych terminów

Wstęp ontologia

Wstęp podobieństwo semantyczne Semantyka językoznawcza nauka o znaczeniu wyrazów

Wstęp podobieństwo semantyczne Semantyka językoznawcza nauka o znaczeniu wyrazów Podobieństwo semantyczne podobieństwo znaczenia

Gene Ontology GO Cel Standaryzacja opisu genów oraz białek Zadania Tworzenie i kontrola słownika wyrażeń Opisywanie obiektów Dostarczenie narzędzi do przetwarzania zgromadzonych danych Struktura Molecular function (8660) Biological Process (17893) Cellular Component (2625)

Gene Ontology GO

Gene Ontology GO Opisywany obiekt: 2he4A > Q15599 Molecular function Biological Process Cellular Component GO:0005515 GO:0006461 GO:0016324 GO:0008022 GO:0048839 GO:0016020 GO:0016247 GO:0012505 GO:0005886 GO:0005737 GO:0005634

Gene Ontology GO Opisywany obiekt: 2he4A > Q15599 Molecular function protein binding protein C terminus binding channel regulator activity Biological Process protein complex assembly inner ear development Cellular Component nucleus cytoplasm plasma membrane membrane apical plasma membrane extrinsic to membrane

Miary podobieństwa semantycznego

Miary bazujące na krawędziach Metody mierzące odległość pomiędzy terminami Metody mierzące wspólną drogę do korzenia drzewa

Miary bazujące na krawędziach Zaleta bardzo intuicyjne, zbliżone do sposobu wnioskowania ludzi Podstawowe założenia: Węzły i krawędzie są rozmieszczone równomiernie Krawędzie na tym samym poziomie w grafie odpowiadają tej samej odległości semantycznej (znaczeniowej)

Miary bazujące na węzłach

Miary bazujące na węzłach Wykorzystują właściwości porównywanych terminów, terminów poprzedzających ( przodków ) lub terminów następujących ( dzieci ). Np. Information Content IC (informatywność) IC= log p c p(c) prawdopodobieństwo wystąpienia terminu c w określonej bazie p (c) oblicza się jako częstotliwość przypisań danego terminu; IC oblicza się również wykorzystując liczbę dzieci terminu;

Miary bazujące na węzłach MICA (Most Informative Common Ancestor) DCA (Disjoint Common Ancestor)

Miary bazujące na węzłach Najbardziej popularne miary podobieństwa semantycznego korzystające z IC. Resnik sim Res c 1, c 2 = IC c MICA Lin Jian & Conrath sim JC c 1, c 2 =1 IC c 1 IC c 2 2xIC c MICA Schlicker 2xIC c MCIA sim Lin c 1, c 2 = IC c 1 IC c 2 sim Rel c 1, c 2 =sim Lin c 1, c2 x 1 p c A Cx termin x p(ca)- prawdopodobieństwo wystąpienia danego przodka w bazie (A -> Ancestor)

Miary bazujące na węzłach Zalety metod korzystających z IC: Mniej wrażliwe na zmienną odległość znaczeniową pomiędzy terminami Mniej wrażliwe na nierównomierny rozkład terminów w grafie Wady: Na częstotliwość przypisywania danego terminu mają wpływ trendy w nauce

Porównywanie zbiorów terminów

Porównywanie zbiorów terminów Porównywanie parami: Wszystkie pary Najlepsze pary Metody łączenia wyników: Średnia Maksimum Suma GO:0043229 GO:0043231 GO:0043227 0.475 0.593 GO:0005622 0.700 0.588

Porównywanie zbiorów terminów

Porównywanie zbiorów terminów Najlepsze rozwiązanie porównywania zbirów to średnia z najlepiej pasujących par. wypośrodkowanie pomiędzy metodami wykorzystującymi maksimum, a uśredniającymi

Porównywanie zbiorów terminów Najlepsze rozwiązanie porównywania zbirów to średnia z najlepiej pasujących par. wypośrodkowanie pomiędzy metodami wykorzystującymi maksimum, a uśredniającymi GO:0043229 GO:0043231 GO:0043227 0.475 0.593 GO:0005622 0.700 0.588

Ocena poprawności miary Nie ma obiektywnego punktu odniesienia. Można wykorzystywać inne właściwości, aby ocenić stopień podobieństwa: Podobieństwo sekwencji aminokwasowej korelacja (ograniczenie do noniea) Ekseprymenty ekspresji genów korelacja Wyniki klasyfikacji białek... IEA Inferred Electronically Annotation

Ocena poprawności miary Żadna z metod opisanych w literaturze nie została uznana za najlepszą Skuteczność metod zmienia się w zależności od: Pierwotnego przeznaczenia Bazy danych Stosowanej miary skuteczności

Zastosowania Ocena skuteczności metod przewidywania funkcji białek Przewidywanie odziaływań białko białko Przewidywanie lokalizacji białka Ocena istotność powiązań pomiędzy koekspresjonowanymi genami...

Bibligrafia Semantic Similarity in Biomedical Ontologies, C. Pesquita, D. Faria, A. O. Falca, P. Lord, F. M. Couto, PLOS Computational Biology, July 2009, vol. 5, Iss. 7 A new method to measure the semantic similarity of GO terms, J. Z. Wang, Z. Du, R. Payattakool, P. S. Yu and Chin Fu Chen, Bioinformatics, Vol. 23 no. 10 2007, p. 12741281 www.geneontology.org http://bioinformatics.clemson.edu/g SESAME Zdjęcia strona tytułowa: http://docs.huihoo.com/nltk/0.9.5/en/ch02.html http://nodebox.net/code/index.php/graph http://lsdis.cs.uga.edu/projects/glycomics/report/report2006.html