Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1

Filogenetyka molekularna wykorzystuje informację zawartą w sekwencjach aminokwasów lub nukleotydów do kontrukcji drzew filogonetycznych, pozwalających odtworzyd dogę ewolucyjną. 2

Podstawowe pojęcia: Równoważnośd drzew Drzewo ukorzenione vs drzewo nieukorzenione Korzeo reprezentuje wspólnego (nieznanego przodka) Długośd gałęzi może (lecz nie musi) reprezentowad oszacowanej odległości ewolucyjnej 3

Drzewo nieukorzenione A i j C B D 4

Drzewo ukorzenione niesie więcej informacji niż drzewo nieukorzenione Przekształcenie drzewa nieukorzenionego w ukorzenione poprzez Określenie grupy zewnętrzenej Np. Torbacze dla ssaków łożyskowych Metodę punktu środkowego Umieszczenie korzenia w środku najdłuższej gałęzi drzewa nieukorzenionego 5

Uwaga: Wiele programów zakłada, że pierwsza podana sekwencja powinna byd użyta jako grupa zewnętrzna. 6

Klad grupa wszystkich gatunków wychodzących od wspólnego przodka 7

Procedura Wybierz sekwencje (homologiczne) Zbyt odległe sekwencje nie dają dobrych wyników Zbyt podobne nie niosą wystarczająco informacji Przyjmij pewien model ewolucji (np. JC lub nowsze) Wykonaj dopasowanie wielu sekwencji Częste ręczne poprawki Określ tablice odległości każdej z par sekwencji Wybierz algorytm tworzenia drzewa 8

Ogólna procedura tworzenia drzewa Połącz najbliższe dwa skupiska w jedno większa skupisko Oblicz odległości między wszystkimi skupiskami Powtarzaj poprzednie kroki dopóki wszystkie gatunki nie zostaną połączone w jedno skupisko 9

Poszczególne algorytmy różnią się konkretną realizacją. Np. Jak policzyd odległości między skupiskami, które zawierają po więcej niż jednej sekwencji? 10

Metoda średnich połączeo (UPGMA ang. unweighted pair group method with arithmetic mean) Hipoteza zegara molekularnego (ewolucja wszystkich gatunków zachodzi w tym samym tempie) Wysokośd drzewa to połowa średniej odległości pomiędzy sekwencjami z dwóch skupisk łączonych jako ostatnie Najprostsza metoda Odległośd między skupiskami liczona jest jako średnia z odległości każdej możliwej pary sekwencji Bezpośrednio tworzy korzeo (połączenie dwóch ostatnich skupisk) Ma szereg ograniczeo 11

Ultrametrycznośd Dla dowolnych trzech gatunków opisywanych przez drzewo UPGMA najdłuższe dwie z trzech łączących je odległości są sobie równe. UPGMA tworzy macierz czasów specjacji, która jest dokładnie ultrametryczna. Jeśli spełniona jest hipoteza zegara ewolucyjnego, to odległości ewolucyjne są tylko w przybliżeniu ultrametryczne (gdyż wciąż ewolucja jest losowa). Jeśli ewolucja zachodzi w różnym tempie zasada ultrametrycznośd jest złamana (bardziej rzeczywisty przypadek). Stąd UPGMA często nie daje wiarygodnych wyników 12

Metoda przyłączania sąsiadów (NJ - ang. Neighbourhood Joining) Tworzy nieukorzenione drzewo Drzewa mają własnośd addytywności tzn. odległości między gatunkami (liśdmi)są równe sumie długości łączących je gałęzi. Jeśli macierz jest ultrametryczna to jest addytywna; w drugą stronę zależnośd nie zawsze jest spełniona W rzeczywistości oryginalne macierze odległości nie są dokładnie addytywne, dlatego metoda NJ również będzie miała przybliżony charakter 13

Metoda bootstrap Ewolucja jest procesem losowym, zatem zmierzone odległości również podlegają wahaniom Celem metody bootstrap jest zmierzenie jak ta losowośd wpływa na konstruowanie drzewa Porównaniu podlegają drzewa skonstruowane na podstawie losowo wygenerowanych dopasowao sekwencji, nieznaczenie różniących się od zadanego dopasowania oryginalnego. 14

Generowanie dopasowao Każde wygenerowane dopasowanie ma taką samą długośd jak oryginalne Generowane dopasowanie jest tworzone przez losowanie kolumn z doapsowania oryginalego Losowanie jest z powtórzeniami, tzn. Kolumny mogą się powtarzad Uwaga: metody filogenetyczne traktują każdą kolumnę niezależnie od innych (tzn. kolejnośd kolumn nie ma znaczenia) 15

Wykonuje się od 100 do 1000 generowao losowych dopasowao Dla każdego tworzy się drzewo W drzewie oryginalnym każdy węzeł otrzymuje tzw. wartość bootstrap, czyli odsetek wygenerowanych drzew, w których obserwowano dokładnie takie samo rozgałęzienie. Im mniejsza taka wartośd tym mniej wiarygodne dane rozgałęzienie 16

Drzewo konsensusowe Określ zestaw wszystkich kladów, które pojawiają się podczas generowania drzew Sortuj zgodnie z malejącą wartością bootstrap Konstruuj drzewo konsensusowe rozpoczynając od kladu z nawiększą wartością bootstrap, takiego, który nie wprowadza sprzeczności z wcześniej przyłączonymi kladami. 17

Jakie opcje udostępnia tworzenia drzew filogenetycznych udostępnia program UGENE w zakresie? Algorytmu Modelu ewolucji (określania macierzy odległości) Możliwośd użycia rozkładu gamma do modelowania nierównomierności ewolucji Różne czestości transwersji / tranzycji Możliwości wykorzystania metody bootstrap I tworzenia drzewa konsensusowego 18

Zadanie: Dla danych z pliku CytBDNA.txt przygotuj drzewa filogenetyczne wychodząc z dopasowania wielosekwencyjnego otrzymanego z każdego dostępnego algortymu (użyj domyślnych wartości parametrów) Dla każdego takiego drzewa zbuduj również drzewo konsensusowe Czy / w jakich przypadkach widad różnice między otrzymanymi drzewami Upenij się, że potrafisz odczytad wartości bootstrap każdego węzla w drzewie konsensusowym 20

Przykładowe drzewo konsensusowe z wartościami bootstrap 21