Podobieństwo semantyczne w ontologiach biomedycznych

Podobne dokumenty
Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

Ontologie, czyli o inteligentnych danych

Reprezentacja wiedzy ontologie, logiki deskrypcyjne

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

Kamila Muraszkowska Znaczenie wąskich gardeł w sieciach białkowych. źródło: (3)

Pojęcia to. porównanie trzech sposobów ujmowania pojęć. Monika Marczak IP, UAM

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

TEORETYCZNE PODSTAWY INFORMATYKI

MODELE LINIOWE. Dr Wioleta Drobik

Testowanie hipotez statystycznych

Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych

STATYSTYKA MATEMATYCZNA

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

POISSONOWSKA APROKSYMACJA W SYSTEMACH NIEZAWODNOŚCIOWYCH

Bazy danych. dr inż. Andrzej Macioł

Zagadnienia (1/3) Data-flow diagramy przepływów danych ERD diagramy związków encji Diagramy obiektowe w UML (ang. Unified Modeling Language)

Agnieszka Nowak Brzezińska

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Parametryzacja obrazu na potrzeby algorytmów decyzyjnych

1. KEGG 2. GO. 3. Klastry

Bazy danych. dr inż. Andrzej Macioł

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

AUTOMATYZACJA PROCESÓW CIĄGŁYCH I WSADOWYCH

Diagramy obiegu dokumentów a UML w modelowaniu procesów biznesowych. Stanisław Niepostyn, Ilona Bluemke Instytut Informatyki, Politechnika Warszawska

Klasyfikacja metodą Bayesa

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Teoria grafów dla małolatów. Andrzej Przemysław Urbański Instytut Informatyki Politechnika Poznańska

KARTA PRZEDMIOTU. (pieczęć wydziału)

STATYSTYKA MATEMATYCZNA

CLUSTERING. Metody grupowania danych

Politechnika Wrocławska, Katedra Inżynierii Biomedycznej Systemy Pomiarowo-Diagnostyczne, laboratorium

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

EDU TALENT - serwis pomocy w pisaniu prac magisterskich i licencjackich dla studentów

kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2

Wprowadzenie do analizy korelacji i regresji

Motywacja. Do tej pory: Dzisiaj:

Spis treści. Dzień 1. I Wprowadzenie (wersja 0906) II Dostęp do danych bieżących specyfikacja OPC Data Access (wersja 0906) Kurs OPC S7

Metodologia badań naukowych

KLASYFIKACJA. Słownik języka polskiego

Zagadnienia do próbnych matur z poziomu podstawowego.

W2 Podstawy rachunku prawdopodobieństwa (przypomnienie)

ZARZĄDZANIE JAKOŚCIĄ Wykład: czas trwania: WYKŁAD I KWALITOLOGIA TEORIA JAKOŚCI. 15x45/10 ~ 67 minuty. czyli: 16:00 do 17:07

Kurs Chemometrii Poznań 28 listopad 2006

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Informatyka w medycynie Punkt widzenia kardiologa

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Grafy Alberta-Barabasiego

Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych

Analiza niepewności pomiarów

Trafność czyli określanie obszaru zastosowania testu

W poszukiwaniu sensu w świecie widzialnym

EWA KRZYWICKA-BLUM, HALINA KLIMCZAK

STATYSTYKA I DOŚWIADCZALNICTWO

Rok akademicki: 2014/2015 Kod: EIB BN-s Punkty ECTS: 3. Kierunek: Inżynieria Biomedyczna Specjalność: Bionanotechnologie

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Modelowanie i Programowanie Obiektowe

Modelowanie sieci złożonych

Elementy statystyki wielowymiarowej

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III

Nowe narzędzia zarządzania jakością

Harmonogramowanie przedsięwzięć

Wstęp do logiki. Kto jasno i konsekwentnie myśli, ściśle i z ładem się wyraża,

Kurs OPC S7. Spis treści. Dzień 1. I OPC motywacja, zakres zastosowań, podstawowe pojęcia dostępne specyfikacje (wersja 1501)

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Modelowanie interakcji helis transmembranowych

Bazy danych. Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Wykład 3: Model związków encji.

Metody analizy spójności i zgodności kolekcji dokumentów WWW

Akademia Wychowania Fizycznego i Sportu w Gdańsku SYLABUS NA CYKL KSZTAŁCENIA

0.1. Diagram klas i pakietów

BAZY DANYCH model związków encji. Opracował: dr inż. Piotr Suchomski

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Wstęp do Biologii Obliczeniowej

Marian OSTWALD. Politechnika Poznańska Instytut Mechaniki Stosowanej INŻYNIERIA SYSTEMÓW. Materiały pomocnicze do wykładów.

Wyznaczanie optymalnej trasy problem komiwojażera

4.3 Grupowanie według podobieństwa

Inżynieria oprogramowania. Część 8: Metoda szacowania ryzyka - PERT

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Spis treści WSTĘP... 9

Statystyka w pracy badawczej nauczyciela

Spis treści tomu pierwszego

TRANSFORMACJE I JAKOŚĆ DANYCH

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

Psychometria. Psychologia potoczna. Psychometria (z gr. psyche dusza, metria miara) Plan wykładów. Plan wykładów. Wprowadzenie w problematykę zajęć

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Architektury i technologie integracji danych

Bazy danych TERMINOLOGIA

Uczelnia Łazarskiego Wydział Medyczny Kierunek Lekarski

Co to jest znaczenie? Współczesne koncepcje znaczenia i najważn. i najważniejsze teorie semantyczne

Wprowadzenie do metodologii modelowania systemów informacyjnych. Strategia (1) Strategia (2) Etapy Ŝycia systemu informacyjnego

Transkrypt:

Podobieństwo semantyczne w ontologiach biomedycznych Bogumił Konopka Politechnika Wrocławska Wydział Podstawowych Problemów Techniki Instytut Inżynierii Biomedycznej i Pomiarowej KN Bio Nanopor

Plan prezentacji Wstęp definicje GO (gene ontology) Przykład ontologii Miary podobieństwa semantycznego Porównywanie terminów Porównywanie zbiorów terminów Ocena poprawności Ontologia Podobieństwo semantyczne Przykłady zastosowań

Wstęp Ontologia Ontologia [gr. on óntos będący, byt, óntos on rzeczywiście będący, istniejący, lógos słowo, nauka, teoria ], filozficzna nauka o bycie; w sensie pierwotnym termin używany od XVII w. (J. Clauberg, Ch. Wolff) zamiennie ze starszą nazwą metafizyka; odnosi się do arystotelesowskiej filozofii pierwszej jako do nauki o bycie jako bycie, następnie do kontynuacji jej rozważań w teorii bytu, zajmującej się bytem w jego naturze powszechnym; Encyklopedia PWN Ontologia od lat 70 tych XX w. jest terminem wykorzystywanym w informatyce.

Wstęp ontologia Ontologia w informatyce wykorzystuje: Kategoryzację przyporządkowanie obiektu do określonej klasy obiektów (na podstawie cech) Hierarchizację klasy umiejscowione są w hierarchicznej strukturze. Klasy dziedziczą cechy z klas nadrzędnych. Ontologia słownik, zbiór powiązanych terminów

Wstęp ontologia

Wstęp podobieństwo semantyczne Semantyka językoznawcza nauka o znaczeniu wyrazów

Wstęp podobieństwo semantyczne Semantyka językoznawcza nauka o znaczeniu wyrazów Podobieństwo semantyczne podobieństwo znaczenia

Gene Ontology GO Cel Standaryzacja opisu genów oraz białek Zadania Tworzenie i kontrola słownika wyrażeń Opisywanie obiektów Dostarczenie narzędzi do przetwarzania zgromadzonych danych Struktura Molecular function (8660) Biological Process (17893) Cellular Component (2625)

Gene Ontology GO

Gene Ontology GO

Gene Ontology GO

Gene Ontology GO

Gene Ontology GO

Gene Ontology GO

Gene Ontology GO Opisywany obiekt: 2he4A > Q15599 Molecular function Biological Process Cellular Component GO:0005515 GO:0006461 GO:0016324 GO:0008022 GO:0048839 GO:0016020 GO:0016247 GO:0012505 GO:0005886 GO:0005737 GO:0005634

Gene Ontology GO Opisywany obiekt: 2he4A > Q15599 Molecular function protein binding protein C terminus binding channel regulator activity Biological Process protein complex assembly inner ear development Cellular Component nucleus cytoplasm plasma membrane membrane apical plasma membrane extrinsic to membrane

Miary podobieństwa semantycznego

Miary podobieństwa semantycznego

Miary podobieństwa semantycznego

Miary podobieństwa semantycznego

Miary bazujące na krawędziach Metody mierzące odległość pomiędzy terminami Metody mierzące wspólną drogę do korzenia drzewa

Miary bazujące na krawędziach Metody mierzące odległość pomiędzy terminami Metody mierzące wspólną drogę do korzenia drzewa

Miary bazujące na krawędziach Metody mierzące odległość pomiędzy terminami Metody mierzące wspólną drogę do korzenia drzewa

Miary bazujące na krawędziach Metody mierzące odległość pomiędzy terminami Metody mierzące wspólną drogę do korzenia drzewa

Miary bazujące na krawędziach Metody mierzące odległość pomiędzy terminami Metody mierzące wspólną drogę do korzenia drzewa

Miary bazujące na krawędziach Zaleta bardzo intuicyjne, zbliżone do sposobu wnioskowania ludzi Podstawowe założenia: Węzły i krawędzie są rozmieszczone równomiernie Krawędzie na tym samym poziomie w grafie odpowiadają tej samej odległości semantycznej (znaczeniowej)

Miary bazujące na węzłach

Miary bazujące na węzłach Wykorzystują właściwości porównywanych terminów, terminów poprzedzających ( przodków ) lub terminów następujących ( dzieci ). Np. Information Content IC (informatywność) IC= log p c p(c) prawdopodobieństwo wystąpienia terminu c w określonej bazie p (c) oblicza się jako częstotliwość przypisań danego terminu; IC oblicza się również wykorzystując liczbę dzieci terminu;

Miary bazujące na węzłach Wykorzystują właściwości porównywanych terminów, terminów poprzedzających ( przodków ) lub terminów następujących ( dzieci ). Np. Information Content IC (informatywność) IC= log p c p(c) prawdopodobieństwo wystąpienia terminu c w określonej bazie p (c) oblicza się jako częstotliwość przypisań danego terminu; IC oblicza się również wykorzystując liczbę dzieci terminu;

Miary bazujące na węzłach MICA (Most Informative Common Ancestor) DCA (Disjoint Common Ancestor)

Miary bazujące na węzłach MICA (Most Informative Common Ancestor) DCA (Disjoint Common Ancestor)

Miary bazujące na węzłach Najbardziej popularne miary podobieństwa semantycznego korzystające z IC. Resnik sim Res c 1, c 2 = IC c MICA Lin Jian & Conrath sim JC c 1, c 2 =1 IC c 1 IC c 2 2xIC c MICA Schlicker 2xIC c MCIA sim Lin c 1, c 2 = IC c 1 IC c 2 sim Rel c 1, c 2 =sim Lin c 1, c2 x 1 p c A Cx termin x p(ca)- prawdopodobieństwo wystąpienia danego przodka w bazie (A -> Ancestor)

Miary bazujące na węzłach Zalety metod korzystających z IC: Mniej wrażliwe na zmienną odległość znaczeniową pomiędzy terminami Mniej wrażliwe na nierównomierny rozkład terminów w grafie Wady: Na częstotliwość przypisywania danego terminu mają wpływ trendy w nauce

Porównywanie zbiorów terminów

Porównywanie zbiorów terminów Porównywanie parami: Wszystkie pary Najlepsze pary Metody łączenia wyników: Średnia Maksimum Suma GO:0043229 GO:0043231 GO:0043227 0.475 0.593 GO:0005622 0.700 0.588

Porównywanie zbiorów terminów

Porównywanie zbiorów terminów Najlepsze rozwiązanie porównywania zbirów to średnia z najlepiej pasujących par. wypośrodkowanie pomiędzy metodami wykorzystującymi maksimum, a uśredniającymi

Porównywanie zbiorów terminów Najlepsze rozwiązanie porównywania zbirów to średnia z najlepiej pasujących par. wypośrodkowanie pomiędzy metodami wykorzystującymi maksimum, a uśredniającymi GO:0043229 GO:0043231 GO:0043227 0.475 0.593 GO:0005622 0.700 0.588

Ocena poprawności miary Nie ma obiektywnego punktu odniesienia. Można wykorzystywać inne właściwości, aby ocenić stopień podobieństwa: Podobieństwo sekwencji aminokwasowej korelacja (ograniczenie do noniea) Ekseprymenty ekspresji genów korelacja Wyniki klasyfikacji białek... IEA Inferred Electronically Annotation

Ocena poprawności miary Żadna z metod opisanych w literaturze nie została uznana za najlepszą Skuteczność metod zmienia się w zależności od: Pierwotnego przeznaczenia Bazy danych Stosowanej miary skuteczności

Zastosowania Ocena skuteczności metod przewidywania funkcji białek Przewidywanie odziaływań białko białko Przewidywanie lokalizacji białka Ocena istotność powiązań pomiędzy koekspresjonowanymi genami...

Bibligrafia Semantic Similarity in Biomedical Ontologies, C. Pesquita, D. Faria, A. O. Falca, P. Lord, F. M. Couto, PLOS Computational Biology, July 2009, vol. 5, Iss. 7 A new method to measure the semantic similarity of GO terms, J. Z. Wang, Z. Du, R. Payattakool, P. S. Yu and Chin Fu Chen, Bioinformatics, Vol. 23 no. 10 2007, p. 12741281 www.geneontology.org http://bioinformatics.clemson.edu/g SESAME Zdjęcia strona tytułowa: http://docs.huihoo.com/nltk/0.9.5/en/ch02.html http://nodebox.net/code/index.php/graph http://lsdis.cs.uga.edu/projects/glycomics/report/report2006.html