Bioinformatyka Laboratorium, 30h. Michał Bereta

Podobne dokumenty
Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Bioinformatyka Laboratorium, 30h. Michał Bereta

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Drzewa filogenetyczne jako matematyczny model relacji pokrewieństwa. dr inż. Damian Bogdanowicz

Acknowledgement. Drzewa filogenetyczne

Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji

Analizy filogenetyczne

MSA i analizy filogenetyczne

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Bioinformatyka Laboratorium, 30h. Michał Bereta

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

klasyfikacja fenetyczna (numeryczna)

Filogenetyka molekularna I. Krzysztof Spalik Zakład Filogenetyki Molekularnej i Ewolucji

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Filogenetyka molekularna I. Krzysztof Spalik

Bioinformatyka Laboratorium, 30h. Michał Bereta

Filogenetyka molekularna I

Rycina 1. Zasięg i zagęszczenie łosi (liczba osobników/1000 ha) w Polsce w roku 2010 oraz rozmieszczenie 29 analizowanych populacji łosi.

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

46 Olimpiada Biologiczna

Algorytmy kombinatoryczne w bioinformatyce

Bioinformatyka Laboratorium, 30h. Michał Bereta

Wstęp do Biologii Obliczeniowej

Porównywanie i dopasowywanie sekwencji

46 Olimpiada Biologiczna

Bioinformatyka. Program UGENE

ep do obliczeniowej biologii molekularnej (J. Tiuryn, wykĺady nr. 12 i 13; 25 stycznia 2006) 8 Konstrukcja drzew filogenetycznych

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Pracownia Astronomiczna. Zapisywanie wyników pomiarów i niepewności Cyfry znaczące i zaokrąglanie Przenoszenie błędu

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Java Podstawy. Michał Bereta

Data Mining z wykorzystaniem programu Rapid Miner

Definicja sieci. Sieć Petriego jest czwórką C = ( P, T, I, O ), gdzie: P = { p 1, p 2,, p n } T = { t 1, t 2,, t m }

ALGORYTMY KONSTRUOWANIA DENDROGRAMÓW STOSOWANYCH PRZY ANALIZIE FILOGENETYCZNEJ MIKROORGANIZMÓW

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Wyróżniamy dwa typy zadań projektowych.

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15

Modelowanie sieci złożonych

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

CMAES. Zapis algorytmu. Generacja populacji oraz selekcja Populacja q i (t) w kroku t generowana jest w następujący sposób:

Filogenetyka. Dr inż. Magdalena Święcicka, dr hab. Marcin Filipecki. Katedra Genetyki, Hodowli i Biotechnologii Roślin, SGGW

Badanie doboru naturalnego na poziomie molekularnym

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

TEORETYCZNE PODSTAWY INFORMATYKI

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Sortowanie. Bartman Jacek Algorytmy i struktury

Pętle instrukcje powtórzeo

Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku.

Algorytmy zrandomizowane

METODY STATYSTYCZNE W BIOLOGII

Porównanie systemów automatycznej generacji reguł działających w oparciu o algorytm sekwencyjnego pokrywania oraz drzewa decyzji

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

Monte Carlo, bootstrap, jacknife

Filogenetyka. Dr Marek D. Koter, dr hab. Marcin Filipecki. Katedra Genetyki, Hodowli i Biotechnologii Roślin, SGGW

Spacery losowe generowanie realizacji procesu losowego

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Elementy modelowania matematycznego

Def. Kod jednoznacznie definiowalny Def. Kod przedrostkowy Def. Kod optymalny. Przykłady kodów. Kody optymalne

Algorytmy i struktury danych

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Testowanie hipotez statystycznych

ALGORYTMY I STRUKTURY DANYCH

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Przedziały ufności. Poziom istotności = α (zwykle 0.05) Poziom ufności = 1 α Przedział ufności dla parametru μ = taki przedział [a,b], dla którego

SPOSÓB WYKONANIA OBLICZEŃ I FORMATOWANIA KOMÓREK

BIOINFORMATYKA. Copyright 2011, Joanna Szyda

PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

MODELE SIECIOWE 1. Drzewo rozpinające 2. Najkrótsza droga 3. Zagadnienie maksymalnego przepływu źródłem ujściem

Struktury Danych i Złożoność Obliczeniowa

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Zaliczenie. Ćwiczenia (zaliczenie = min. 15 punktów)

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Porównywanie i dopasowywanie sekwencji

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Podstawy OpenCL część 2

PRZYRÓWNANIE SEKWENCJI

STATYSTYKA MATEMATYCZNA

Temat 1: Pojęcie gry, gry macierzowe: dominacje i punkty siodłowe

Układy VLSI Bramki 1.0

Algorytmy Równoległe i Rozproszone Część V - Model PRAM II

Transkrypt:

Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1

Filogenetyka molekularna wykorzystuje informację zawartą w sekwencjach aminokwasów lub nukleotydów do kontrukcji drzew filogonetycznych, pozwalających odtworzyd dogę ewolucyjną. 2

Podstawowe pojęcia: Równoważnośd drzew Drzewo ukorzenione vs drzewo nieukorzenione Korzeo reprezentuje wspólnego (nieznanego przodka) Długośd gałęzi może (lecz nie musi) reprezentowad oszacowanej odległości ewolucyjnej 3

Drzewo nieukorzenione A i j C B D 4

Drzewo ukorzenione niesie więcej informacji niż drzewo nieukorzenione Przekształcenie drzewa nieukorzenionego w ukorzenione poprzez Określenie grupy zewnętrzenej Np. Torbacze dla ssaków łożyskowych Metodę punktu środkowego Umieszczenie korzenia w środku najdłuższej gałęzi drzewa nieukorzenionego 5

Uwaga: Wiele programów zakłada, że pierwsza podana sekwencja powinna byd użyta jako grupa zewnętrzna. 6

Klad grupa wszystkich gatunków wychodzących od wspólnego przodka 7

Procedura Wybierz sekwencje (homologiczne) Zbyt odległe sekwencje nie dają dobrych wyników Zbyt podobne nie niosą wystarczająco informacji Przyjmij pewien model ewolucji (np. JC lub nowsze) Wykonaj dopasowanie wielu sekwencji Częste ręczne poprawki Określ tablice odległości każdej z par sekwencji Wybierz algorytm tworzenia drzewa 8

Ogólna procedura tworzenia drzewa Połącz najbliższe dwa skupiska w jedno większa skupisko Oblicz odległości między wszystkimi skupiskami Powtarzaj poprzednie kroki dopóki wszystkie gatunki nie zostaną połączone w jedno skupisko 9

Poszczególne algorytmy różnią się konkretną realizacją. Np. Jak policzyd odległości między skupiskami, które zawierają po więcej niż jednej sekwencji? 10

Metoda średnich połączeo (UPGMA ang. unweighted pair group method with arithmetic mean) Hipoteza zegara molekularnego (ewolucja wszystkich gatunków zachodzi w tym samym tempie) Wysokośd drzewa to połowa średniej odległości pomiędzy sekwencjami z dwóch skupisk łączonych jako ostatnie Najprostsza metoda Odległośd między skupiskami liczona jest jako średnia z odległości każdej możliwej pary sekwencji Bezpośrednio tworzy korzeo (połączenie dwóch ostatnich skupisk) Ma szereg ograniczeo 11

Ultrametrycznośd Dla dowolnych trzech gatunków opisywanych przez drzewo UPGMA najdłuższe dwie z trzech łączących je odległości są sobie równe. UPGMA tworzy macierz czasów specjacji, która jest dokładnie ultrametryczna. Jeśli spełniona jest hipoteza zegara ewolucyjnego, to odległości ewolucyjne są tylko w przybliżeniu ultrametryczne (gdyż wciąż ewolucja jest losowa). Jeśli ewolucja zachodzi w różnym tempie zasada ultrametrycznośd jest złamana (bardziej rzeczywisty przypadek). Stąd UPGMA często nie daje wiarygodnych wyników 12

Metoda przyłączania sąsiadów (NJ - ang. Neighbourhood Joining) Tworzy nieukorzenione drzewo Drzewa mają własnośd addytywności tzn. odległości między gatunkami (liśdmi)są równe sumie długości łączących je gałęzi. Jeśli macierz jest ultrametryczna to jest addytywna; w drugą stronę zależnośd nie zawsze jest spełniona W rzeczywistości oryginalne macierze odległości nie są dokładnie addytywne, dlatego metoda NJ również będzie miała przybliżony charakter 13

Metoda bootstrap Ewolucja jest procesem losowym, zatem zmierzone odległości również podlegają wahaniom Celem metody bootstrap jest zmierzenie jak ta losowośd wpływa na konstruowanie drzewa Porównaniu podlegają drzewa skonstruowane na podstawie losowo wygenerowanych dopasowao sekwencji, nieznaczenie różniących się od zadanego dopasowania oryginalnego. 14

Generowanie dopasowao Każde wygenerowane dopasowanie ma taką samą długośd jak oryginalne Generowane dopasowanie jest tworzone przez losowanie kolumn z doapsowania oryginalego Losowanie jest z powtórzeniami, tzn. Kolumny mogą się powtarzad Uwaga: metody filogenetyczne traktują każdą kolumnę niezależnie od innych (tzn. kolejnośd kolumn nie ma znaczenia) 15

Wykonuje się od 100 do 1000 generowao losowych dopasowao Dla każdego tworzy się drzewo W drzewie oryginalnym każdy węzeł otrzymuje tzw. wartość bootstrap, czyli odsetek wygenerowanych drzew, w których obserwowano dokładnie takie samo rozgałęzienie. Im mniejsza taka wartośd tym mniej wiarygodne dane rozgałęzienie 16

Drzewo konsensusowe Określ zestaw wszystkich kladów, które pojawiają się podczas generowania drzew Sortuj zgodnie z malejącą wartością bootstrap Konstruuj drzewo konsensusowe rozpoczynając od kladu z nawiększą wartością bootstrap, takiego, który nie wprowadza sprzeczności z wcześniej przyłączonymi kladami. 17

Jakie opcje udostępnia tworzenia drzew filogenetycznych udostępnia program UGENE w zakresie? Algorytmu Modelu ewolucji (określania macierzy odległości) Możliwośd użycia rozkładu gamma do modelowania nierównomierności ewolucji Różne czestości transwersji / tranzycji Możliwości wykorzystania metody bootstrap I tworzenia drzewa konsensusowego 18

19

Zadanie: Dla danych z pliku CytBDNA.txt przygotuj drzewa filogenetyczne wychodząc z dopasowania wielosekwencyjnego otrzymanego z każdego dostępnego algortymu (użyj domyślnych wartości parametrów) Dla każdego takiego drzewa zbuduj również drzewo konsensusowe Czy / w jakich przypadkach widad różnice między otrzymanymi drzewami Upenij się, że potrafisz odczytad wartości bootstrap każdego węzla w drzewie konsensusowym 20

Przykładowe drzewo konsensusowe z wartościami bootstrap 21