Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1
Filogenetyka molekularna wykorzystuje informację zawartą w sekwencjach aminokwasów lub nukleotydów do kontrukcji drzew filogonetycznych, pozwalających odtworzyd dogę ewolucyjną (kolejnośd specjacji). Wykorzystuje się sekwencje homologiczne. 2
Metody konstruowania drzew filogenetycznych Metody odległościowe Metoda parsymonii Metoda największej wiarygodności 3
Podstawowe pojęcia: Równoważnośd drzew 4
Podstawowe pojęcia: Długośd gałęzi może (lecz nie musi) reprezentowad oszacowanej odległości ewolucyjnej 5
Podstawowe pojęcia: Długośd gałęzi może (lecz nie musi) reprezentowad oszacowanej odległości ewolucyjnej 6
Podstawowe pojęcia: Drzewo ukorzenione vs drzewo nieukorzenione Korzeo reprezentuje wspólnego (nieznanego przodka) 7
8
Drzewo nieukorzenione A i j C B D 9
10
Drzewo ukorzenione niesie więcej informacji niż drzewo nieukorzenione Przekształcenie drzewa nieukorzenionego w ukorzenione poprzez Określenie grupy zewnętrzenej Np. Torbacze dla ssaków łożyskowych Metodę punktu środkowego Umieszczenie korzenia w środku najdłuższej gałęzi drzewa nieukorzenionego 11
Uwaga: Wiele programów zakłada, że pierwsza podana sekwencja powinna byd użyta jako grupa zewnętrzna. 12
Klad grupa wszystkich gatunków wychodzących od wspólnego przodka 13
Procedura Wybierz sekwencje (homologiczne) Zbyt odległe sekwencje nie dają dobrych wyników Zbyt podobne nie niosą wystarczająco informacji Przyjmij pewien model ewolucji (np. JC lub nowsze) Wykonaj dopasowanie wielu sekwencji Częste ręczne poprawki Określ tablice odległości każdej z par sekwencji Wybierz algorytm tworzenia drzewa 14
Procedura Wybierz sekwencje (homologiczne) 15
Procedura Określ tablice odległości każdej z par sekwencji 16
Powstałe drzewo (metoda UPGMA) 17
Ogólna procedura tworzenia drzewa Połącz najbliższe dwa skupiska w jedno większa skupisko Oblicz odległości między wszystkimi skupiskami Powtarzaj poprzednie kroki dopóki wszystkie gatunki nie zostaną połączone w jedno skupisko 18
Poszczególne algorytmy różnią się konkretną realizacją. Np. Jak policzyd odległości między skupiskami, które zawierają po więcej niż jednej sekwencji? 19
Metoda średnich połączeo (UPGMA ang. unweighted pair group method with arithmetic mean) Hipoteza zegara molekularnego (ewolucja wszystkich gatunków zachodzi w tym samym tempie) Wysokośd drzewa to połowa średniej odległości pomiędzy sekwencjami z dwóch skupisk łączonych jako ostatnie Najprostsza metoda Odległośd między skupiskami liczona jest jako średnia z odległości każdej możliwej pary sekwencji Bezpośrednio tworzy korzeo (połączenie dwóch ostatnich skupisk) Ma szereg ograniczeo 20
Ultrametrycznośd Dla dowolnych trzech gatunków opisywanych przez drzewo UPGMA najdłuższe dwie z trzech łączących je odległości są sobie równe. UPGMA tworzy macierz czasów specjacji, która jest dokładnie ultrametryczna. Jeśli spełniona jest hipoteza zegara ewolucyjnego, to odległości ewolucyjne są tylko w przybliżeniu ultrametryczne (gdyż wciąż ewolucja jest losowa). Jeśli ewolucja zachodzi w różnym tempie zasada ultrametrycznośd jest złamana (bardziej rzeczywisty przypadek). Stąd UPGMA często nie daje wiarygodnych wyników 21
Metoda przyłączania sąsiadów (NJ - ang. Neighbourhood Joining) Tworzy nieukorzenione drzewo Drzewa mają własnośd addytywności tzn. odległości między gatunkami (liśdmi)są równe sumie długości łączących je gałęzi. Jeśli macierz jest ultrametryczna to jest addytywna; w drugą stronę zależnośd nie zawsze jest spełniona W rzeczywistości oryginalne macierze odległości nie są dokładnie addytywne, dlatego metoda NJ również będzie miała przybliżony charakter 22
Metoda przyłączania sąsiadów Sąsiędzi gdy gałęzie od nich biegnące łączą się w najbliższym, tym samym węźle. Addytywnośd: d AC = d Ai + d ij + d jc A i B sąsiedzi C i D sąsiedzi A i C nie sąsiedzi Metoda przyłączania sąsiada umożliwia konstrukcję drzewa addytywnego, w którym odległości między gatunkami będą najlepszym możliwym przybliżeniem odległości ewolucyjnych w oryginalnej macierzy odległości. Jeśli ta macierz jest dokladnie addytywna, metoda NJ gwarantuje kontrukcję poprawnego drzewa. 23
Metoda przyłączania sąsiadów Początek procedury zbiór niepołączonych liści (sekwencji). Połącznie dwóch liści (i oraz j) skutkuje dodaniem nowego węzła n. W kolejnych krokach węzły już włączone do drzewa są pomijane (ciemniejszy kolor na rys. b). Po każdej iteracji liczba węzłów zmniejszy się o 1. Kontynuacja dopóki wszystkie węzły nie zostaną połączone. 24
Metoda przyłączania sąsiadów Umieszczając nowy węzeł w drzewie musimy znad jego odległośd od każdego innego węzła, np. k. Aby wyznaczyd te odległości korzystamy z założenia addytywności odległości. 25
Metoda przyłączania sąsiadów Umieszczając nowy węzeł w drzewie musimy znad jego odległośd od każdego innego węzła, np. k. Aby wyznaczyd te odległości korzystamy z założenia addytywności odległości. 26
Metoda przyłączania sąsiadów Umieszczając nowy węzeł w drzewie musimy znad jego odległośd od każdego innego węzła, np. k. Aby wyznaczyd te odległości korzystamy z założenia addytywności odległości. Problem: zależy od wybranego k. Dla innych k możemy dostad nieznacznie 27 inne wartości.
Problem - rozwiązanie N całkowita liczba wolnych węzłów Ostatecznie, uśredniając : Analogicznie dla d jn. 28
Metoda przyłączania sąsiadów Jak wybierad i oraz j do połącznia? Łączyd należy takie i oraz j, dla któych minimalna jest odległośd policzona według wzoru: 29
Metoda przyłączania sąsiadów 30
31
Wniosek: wiewióreczniki są grupą siostrzaną do wyraków. Jest to błędny wniosek od strony biologicznej. Należy ostrożnie podchodzid do interpretacji powstałych drzew. 32
Metoda przyłączania sąsiadów Złożonośd obliczeniowa O(N 2 ) Dokładna jeśli macierz odległości jest addytywna Duża szansa na dobre wyniki jeśli macierz odległości jest prawie addytywna Macierz może nie byd addytywna w wyniku zastosowania błędnej metody wyznaczania odległości ewolucyjnej lub niedokładnego dopasowania wielosekwencyjnego. 33
Metoda bootstrap Ewolucja jest procesem losowym, zatem zmierzone odległości również podlegają wahaniom Celem metody bootstrap jest zmierzenie jak ta losowośd wpływa na konstruowanie drzewa Porównaniu podlegają drzewa skonstruowane na podstawie losowo wygenerowanych dopasowao sekwencji, nieznaczenie różniących się od zadanego dopasowania oryginalnego. 34
Generowanie dopasowao Każde wygenerowane dopasowanie ma taką samą długośd jak oryginalne Generowane dopasowanie jest tworzone przez losowanie kolumn z dopasowania oryginalnego Losowanie jest z powtórzeniami, tzn. kolumny mogą się powtarzad Uwaga: metody filogenetyczne traktują każdą kolumnę niezależnie od innych (tzn. kolejnośd kolumn nie ma znaczenia) 35
Metoda bootstrap 36
Wykonuje się od 100 do 1000 generowao losowych dopasowao Dla każdego tworzy się drzewo W drzewie oryginalnym każdy węzeł otrzymuje tzw. wartość bootstrap, czyli odsetek wygenerowanych drzew, w których obserwowano dokładnie takie samo rozgałęzienie. Im mniejsza taka wartośd tym mniej wiarygodne dane rozgałęzienie 37
Drzewo konsensusowe Określ zestaw wszystkich kladów, które pojawiają się podczas generowania drzew Sortuj zgodnie z malejącą wartością bootstrap Konstruuj drzewo konsensusowe rozpoczynając od kladu z nawiększą wartością bootstrap, takiego, który nie wprowadza sprzeczności z wcześniej przyłączonymi kladami. 38
Jakie opcje tworzenia drzew filogenetycznych udostępnia program UGENE w zakresie? Algorytmu Modelu ewolucji (określania macierzy odległości) Możliwośd użycia rozkładu gamma do modelowania nierównomierności ewolucji Różne czestości transwersji / tranzycji Możliwości wykorzystania metody bootstrap i tworzenia drzewa konsensusowego 39
40
Zadanie: Dla danych z pliku CytBDNA.txt przygotuj drzewa filogenetyczne wychodząc z dopasowania wielosekwencyjnego otrzymanego z każdego dostępnego algortymu (użyj domyślnych wartości parametrów) Dla każdego takiego drzewa zbuduj również drzewo konsensusowe Czy / w jakich przypadkach widad różnice między otrzymanymi drzewami Upenij się, że potrafisz odczytad wartości bootstrap każdego węzła w drzewie konsensusowym 41
Przykładowe drzewo konsensusowe z wartościami bootstrap 42