Wstęp do filogenetyki molekulanej Kzysztof Tuowski
Co to jest filogeneza? Filogeneza (z g. filos gatunek, ód i genesis pochodzenie) to doga ozwoju odowego, pochodzenie i zmiany ewolucyjne gupy oganizmów, zwykle gatunków Temin wpowadzony pzez Ensta Haeckela w 1866 oku Filogenetyka ma na celu ustalenie elacji pokewieństwa gatunków, zaówno istniejących, jak i wymałych Infomacje mogą zostać pzedstawione w postaci «dzewa genealogicznego» zwanego dzewem filogenetycznym
Dzewo filogenezy jako stuktua danych Dzewo filogenetyczne T można ozumieć jako stuktuę danych o pewnych szczególnych własnościach: Posiada wyóżniony zbió L(T) (mocy n) zbió gatunków żyjących obecnie Każdy liść ma pzypoządkowaną unikalną etykietę na ogół jest to liczba ze zbiou {1, 2,..., n} albo nazwa: «ododendon», «świeząb» itp. Wyóżniane szczególne odziny dzew: Ze względu na wyóżniony kozeń: nieukozenione, ukozenione Ze względu na ilość ozgałęzień: binane Najbadziej natualną epezentacją dzew filogenetycznych jest gaf T = (V, E) Dzewo nie zawiea z eguły wiezchołków wewnętznych stopnia 2, gdyż nie niosą one żadnych infomacji Zbió liści dzewa T jest ówny L(T)
Dzewa nieukozenione opis Dzewo nieukozenione możemy opisać w postaci gafu: Wiezchołki wewnętzne V(T)\L(T) to wspólni pzodkowie Możliwy jest ównież opis zbioami: Rozbicie zbiou L dowolna paa {A, B} spełniająca waunki: A L, B L, A B =, A B = L Rozbicie jest tywialne, gdy A = 1 Rozbicia {A, B} {C, D} dla zbiou L są zgodne, gdy dokładnie jeden zbió spośód: A C, A D, B C, B D jest pusty Rodzina zgodnych ozbić δ(t) dla dzewa T o liściach L zawiea wszystkie ozbicia powstałe pzez usunięcie pewnej kawędzi z T Okazuje się, że zgodna odzina ozbić δ zawieająca wszystkie ozbicia tywialne {v, L \ {v}} dla v L jednoznacznie okeśla topologię nieukozenionego dzewa T, któe spełnia δ(t) = δ Bez uwzględnienia wiezchołków stopnia 2
Dzewa nieukozenione pzykład Dzewo T: Rodzina zgodnych ozbić δ(t): Od kawędzi a: {1}, {2, 3, 4, 5, 6} 1 a d f Od kawędzi b: {2}, {1, 3, 4, 5, 6} Od kawędzi c: {3}, {1, 2, 4, 5, 6} b c e g h Od kawędzi d: {1, 2, 3}, {4, 5, 6} Od kawędzi e: {4}, {1, 2, 3, 5, 6} 2 3 4 5 6 Od kawędzi f: {1, 2, 3, 4}, {5, 6} Od kawędzi g: {5}, {1, 2, 3, 4, 6} Od kawędzi h: {6}, {1, 2, 3, 4, 5} Oba powyższe opisy są ównoważne i pzejścia między nimi można dokonać w czasie liniowym usunięcie ozbicia (nietywialnego) = ściągnięcie kawędzi (wewnętznej) dodanie ozbicia (nietywialnego, zgodnego) = ozdzielenie wiezchołka (wewnętznego) na dwa połączone kawędzią
Dzewa ukozenione opis Kozeń wyóżniony wiezchołek wewnętzny, pzedstawiający najstaszego pzodka gupy Dzewo ukozenione ównież możemy opisać: Za pomocą gafu Za pomocą zbioów W gafie pzedstawiającym dzewo ukozenione można zoientować wszystkie kawędzie od kozenia w kieunku liści Klaste zbió liści A L(T) będących potomkami wiezchołka w dzewie T (waz z nim samym) Klaste A jest tywialny jeśli A = 1 lub A = L(T) Klasty A, B są zgodne, jeśli A B, B A lub A B = Zgodny zbió klastów δ(t) odpowiadających wszystkim wiezchołkom dzewa T okeśla jednoznacznie jego topologię
Dzewa ukozenione pzykład Dzewo T: Zbió klastów δ(t): Od wiezchołka : {1, 2, 3, 4, 5, 6} a b Od wiezchołka a: {1, 2, 3} 1 Od wiezchołka b: {5, 6} Od wiezchołka 1: {1} Od wiezchołka 2: {2} 2 3 4 5 6 Od wiezchołka 3: {3} itd. I te opisy są ównoważne, ównież między nimi można dokonać pzejścia w czasie liniowym usunięcie klasta (nietywialnego) = ściągnięcie kawędzi (wewnętznej) dodanie klasta (nietywialnego, zgodnego) = ozdzielenie wiezchołka wewnętznego na dwa, połączone kawędzią
Równoważność dzew Dzewa filogenetyczne T 1 i T 2 są ównoważne, gdy: Gafy odpowiadające T 1 i T 2 są izomoficzne Izomofizm zachowuje etykiety pzypoządkowane liściom (tj. odwzoowuje liść z T 1 o etykiecie 1 w liść z T 2 o etykiecie 1 itd.) Dla dzew ukozenionych: izomofizm zachowuje odwzoowanie kozenia 1 w kozeń 2 1 2 T 1 T 1 T 2 2 3 4 5 6 2 1 3 6 5 4 1 T 3 T 4 1 3 4 6 5 2 3 4 5 6 T 1 i T 2 są ównoważne, gdy mają ówne odziny ozbić/klastów
Dzewa binane Niosą najwięcej infomacji o pzebiegu ewolucji W dzewie binanym ukozenionym: deg() = 2 (outdeg() = 2) Dla dowolnego wiezchołka wewnętznego v zachodzi deg(v) = 3 (indeg(v) = 1 i outdeg(v) = 2) Dzewo binane ukozenione o n liściach ma: n 1 wiezchołków wewnętznych 2n 2 kawędzi W dzewie binanym nieukozenionym każdy wiezchołek wewnętzny ma stopień 3 Dzewo binane nieukozenione o n liściach ma: n 2 wiezchołków wewnętznych 2n 3 kawędzi
Dzewa binane c.d. Pytanie: Ile istnieje óżnych (tj. nieównoważnych) dzew binanych o n liściach? Każde dzewo binane ukozenione o n liściach odpowiada dokładnie jednemu dzewu binanemu nieukozenionemu o n + 1 liściach Wystaczy do kozenia dołączyć nowy liść 1 2 3 4 1 2 5 3 4
Dzewa binane c.d. Każde dzewo binane nieukozenione o n liściach odpowiada 2n 3 dzewom binanym ukozenionym o n liściach Umieszczając kozeń na dowolnie wybanej kawędzi dzewa otzymujemy dzewo ukozenione 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Tempo wzostu Oznaczenia: U(n) liczba ukozenionych dzew binanych o n liściach N(n) liczba nieukozenionych dzew binanych o n liściach Spełnione ówności: N(n + 1) = U(n) U(n) = (2n 3)N(n) Waunek początkowy: U(2) = 1 Rozwiązując tak postawiony układ otzymujemy, że: N(n) = (2n 5)!! = 1 3... (2n 5) U(n) = (2n 3)!! = 1 3... (2n 3) Liczba dzew ośnie supewykładniczo waz ze wzostem n: Dla n = 10: N(n) 2 mln Dla n = 20: N(n) 2.2 x 10 20
Dzewa nieukozenione i ukozenione poównanie Dzewa nieukozenione: Gaf nieskieowany lub odzina zgodnych ozbić d(t) Dzewo binane o n liściach ma 2n 2 wiezchołków Istnieje (2n 5)!! óżnych dzew binanych o n liściach Dzewa ukozenione: Gaf skieowany lub odzina klastów d(t) Wyóżniony wiezchołek kozenia : wspólny pzodek i infomacja o zależnościach czasowych Dzewo binane o n liściach ma 2n 1 wiezchołków Istnieje (2n 3)!! óżnych dzew binanych o n liściach
Cechy filogenetyczne Dane źódłowe: Cechy opisowe: «ma pióa», «chodzi, podpieając się kłykciami» «ma skzydła» Niefunkcjonalne fagmenty DNA (np. makey) Regulowanie ekspesji potein pzez inne poteiny Cechy opisowe mogą nieść niewiele infomacji, szczególnie gdy kilka gatunków niezależnie wykształciło daną własność Najważniejszymi badanymi cechami są cechy binane i nieodwacalne: Mutacje i indele są losowe, pawdopodobieństwo odwócenia się cechy jest znikome Równie małe jest pawdopodobieństwo, że u dwóch gatunków niezależnie pojawi się jednakowa zmiana
Poblem doskonałej filogenezy Dla n obiektów i m cech można wyznaczyć maciez M pzedstawiającą pzynależność cech do obiektów M(p, i) = 1 obiekt p posiada cechę i, 0 bak cechy Poblem doskonałej filogenezy (pefect phylogeny). Czy dla danej maciezy binanej M ozmiau n x m istnieje dzewo filogenetyczne (ukozenione) spełniające własności: Każdy z n obiektów odpowiada dokładnie jednemu liściowi z T Każda z m cech odpowiada dokładnie jednej kawędzi z T Dla każdego obiektu p cechy odpowiadające kawędziom na dodze od kozenia do p oznaczają cechy występujące w p
Poblem doskonałej filogenezy Pzyjmowane są z eguły dodatkowe założenia, wynikające z biologicznych obsewacji: Kozeń odpowiada obiektowi, któy nie posiada żadnej z m cech Nie istnieje w dzewie ścieżka, na któej dwukotnie modyfikowana jest jedna cecha cechy są nieodwacalne Nie każda maciez ma odpowiadające dzewo filogenetyczne: I II III IV I III 1 1 1 0 0 2 0 0 1 0 3 1 0 0 0 4 0 0 1 1 II 1 3 2 IV 4 Bak dzewa filogenetycznego I II III IV 1 1 1 0 0 2 0 1 1 0 3 1 0 0 0 4 1 0 1 1
Poszukiwanie dzewa doskonałej filogenezy Dla ułatwienia wykonajmy wstępne pzetwazanie: Taktując każdą kolumnę (cechę) M jako liczbę binaną należy posotować kolumny nieosnąco pzy użyciu sotowania pozycyjnego otzymana maciez będzie oznaczana M' Oczywiście ozwiązanie poblemu dla M i M' jest identyczne Oznaczmy pzez O i zbió obiektów, któe posiadają cechę odpowiadającą i-tej kolumnie w maciezy M' Lemat 1. Jeśli O i O j, to i > j Twiedzenie. Maciezy M odpowiada pewne dzewo filogenetyczne T wtwg. dla dowolnych 1 i, j n zachodzi jeden z pzypadków: O i O j, O i O j, O i O j =
Dowód «w pawą stonę» Dowód. W pzeciwnym azem istniałyby elementy x O i \ O j, y O j \ O i, z O i O j i w dzewie T musiałyby istnieć ścieżki: Od do x: zawieająca e i, ale nie e j Od do y: zawieająca e j, ale nie e i Od do z: zawieająca e i i e j Dla dowolnych dwóch kawędzi odpowiadających cechom i, j zachodzi dokładnie jedna z tzech możliwości: Kawędź e i leży na ścieżce od kawędzi e j do kozenia Kawędź e j leży na ścieżce od kawędzi e i do kozenia Dla pewnego wiezchołka v kawędzie e i i e j leżą w óżnych poddzewach wyznaczonych pzez kawędzie wychodzące z v
Dowód «w lewą stonę» Dowód konstukcyjny popawność twozenia dzewa Rozważmy dowolne obiekty p i q Niech k = max {1 i n: M'(p, i) = M'(q, i) = 1} Oczywiście M'(p, k) = M'(q, k) = 1 Zauważmy, że jeśli dla pewnego i < k zachodzi M'(p, i) = 1, to ównocześnie M'(q, i) = 1 Ponieważ M'(p, k) = M'(p, i) = 1, to p O i O j Ponieważ i < k, to z założenia dowodu wynika, że O k O i Skoo O k O i i M'(q, k) = 1, to M'(q, i) = 1 Ponieważ ównież można zamienić p i q miejscami mamy: M'(p, i) = M'(q, i) dla i k M'(p, i) = M'(q, i) dla i > k tylko gdy M'(p, i) = M'(q, i) = 0
Pzykład działania algoytmu Dla zapewnienia, że żaden ciąg cech obiektu (M'(p, i)) nie jest pefiksem ciągu cech innego obiektu (M'(q, i)), dodaje się znak końca $ To zapewnia, że wszystkie obiekty z M odpowiadają liściom w T Wystaczy zbudować z powstałych ciągów dla każdego obiektu p dzewo słownikowe Każde dwa ciągi dla p i q mają wspólne początkowe k znaków Powyżej k-tego znaku żaden znak nie pojawia się w p i q naaz Pzykład: I II III IV I III 1 1 1 0 0 2 0 0 1 0 3 1 0 0 0 4 0 0 1 1 II $ $ $ 1 3 2 IV $ 4
Algoytm doskonałej filogenezy Można skonstuować następujący algoytm ozwiązania: Taktując każdą kolumnę (cechę) M jako liczbę binaną posotuj kolumny nieosnąco pzy użyciu sotowania pozycyjnego. Nazwij posotowaną maciez M' Dla każdego zędu (obiektu) w M' wyznacz ciąg cech obecnych w obiekcie Zbuduj dzewo słownikowe T w opaciu o n ciągów cech z koku popzedniego T jest dzewem doskonałej filogenezy dla M Algoytm da się zaimplementować, aby działał w czasie O(mn)
Opeacje na dzewach Opeacja ściągnięcia: Usunięcie kawędzi z dzewa i utożsamienie jej końców Opeacja ta definiuje częściowy poządek w uniwesum dzew Opeacją odwotną jest opeacja ozszezenia: podział wiezchołka na dwa, połączone kawędzią Dzewo T' ozszeza dzewo T, gdy T może być skonstuowane popzez pewną liczbę opeacji ściągnięcia wykonaną na dzewie T' Dzewo T' zawiea wszystkie infomacje, któe znajdują się w dzewie T Dzewo T można otzymać z pewnego poddzewa indukowanego w T', wyznaczonego popzez najkótsze ścieżki łączące liście L(T) oaz ściągnięcie wiezchołków stopnia 2
Pzykład dzewa ozszezającego T T' 1 2 5 3 4 1 2 3 4
Poblem kompatybilności zbiou dzew Mając dany pewien zestaw dzew można szukać dzewa zawieającego wszystkie infomacje zawate w odzinie dzew Poblem: Dla odziny dzew F = {T 1, T 2, T k } poszukiwane jest dzewo T ozszezające wszystkie dzewa z F Poblemem jest ównież pytanie o samo istnienie dzewa kompatybilnego T czyli o kompatybilność odziny dzew Jeśli dzewa mają ten sam zbió liści, to poblem jest w P: wystaczy zbadać zgodność ozbić/klastów δ(t i ) W ogólnym pzypadku: Dla dzew ukozenionych poblem jest wielomianowy Dla dzew nieukozenionych poblem jest NP-tudny dla T i > 3
Algoytm kompatybilności zbiou dzew Dla pzypadku odziny dzew o tym samym zbioze liści można zastosować metodę klastową/ozbiciową: Należy spawdzić zgodność klastów lub odziny ozbić dla zbiou δ(t) = Ti F δ(t i ) jeśli jest zgodna, to odpowiednie dzewo filogenetyczne istnieje Istnieje odpowiednia metoda bazująca na maciezach, ale ozwiązanie jest zdecydowanie mniej oczywiste 1 2 5 3 4 5 5 3 4 1 2 1 2 3 T 1 T 2 T 4
Dzewa nieukozenione i ukozenione poównanie Dzewa nieukozenione: Gaf nieskieowany lub odzina zgodnych ozbić d(t) Dzewo binane o n liściach ma 2n 2 wiezchołków Istnieje (2n 5)!! óżnych dzew binanych o n liściach Poblem kompatybilności odziny dzew jest NP-tudny Pzy założeniu o jednakowym zbioze liści poblem jest wielomianowy Dzewa ukozenione: Gaf skieowany lub odzina klastów d(t) Wyóżniony wiezchołek kozenia: wspólny pzodek i infomacja o zależnościach czasowych Dzewo binane o n liściach ma 2n 1 wiezchołków Istnieje (2n 3)!! óżnych dzew binanych o n liściach Poblem kompatybilności odziny dzew jest P
Dzewo konsensusu pełnego Czasem cel jest inny: zamiast konstuować dzewo zawieające wszystkie infomacje zależy nam na wydobyciu infomacji potwiedzonych pzez wszystkie dzewa Poblem: Dla odziny dzew ukozenionych F = {T 1, T 2, T k } poszukiwane jest dzewo CT zawieające wspólne infomacje dla całej odziny F Dzewo konsensusu dokładnego (pełnego) definiujemy jako dzewo zawieające tylko te klasty, któe są wspólne dla wszystkich dzew z odziny: δ(ct) = T F δ(t) Skoo dla każdego dzewa T zachodzi δ(ct) δ(t), to zbió klastów δ(ct) także jest zgodny Zatem zbió klastów δ(ct) jednoznacznie wyznacza T Analogicznie, podobny poblem dla dzew nieukozenionych ozwiązać można bioąc wspólne zgodne ozbicia
Dzewo konsensusu częściowego Czasem jednak wystacza poszukiwanie tylko infomacji, któe występują w pewnej części dzew Poblem: Dla odziny dzew ukozenionych F = {T 1, T 2, T k } poszukiwane jest dzewo CT X zawieające wspólne infomacje dla co najmniej X% dzew z odziny F Dzewo konsensusu częściowego (X-pocentowego) definiujemy jako dzewo zawieające tylko te klasty, któe są wspólne dla co najmniej X% dzew z odziny F Oczywiście konsensus 100-pocentowy jest tożsamy z konsensusem pełnym
Dzewo konsensusu częściowego pzykład 1 2 3 1 2 5 5 4 5 3 4 1 2 3 T 1 T 2 T 3 4 1 2 3 4 5 1 2 5 CT 100 CT 66 3 4
Dzewo konsensusu częściowego c.d. Okazuje się, że dla X 50 odzina klastów δ(ct X ) może nie być zgodna Skoo odzina nie jest zgodna, to nie odpowiada ona żadnemu dzewu filogenetycznemu Dla X > 50 nie ma takiego poblemu: Załóżmy, że pewien klaste A należy do δ(ct X ) Każde δ(t i ) jest zgodne: dowolny klaste B niezgodny z A nie może wystąpić w żadnym dzewie T i, w któym występuje A Dzew niezawieających A jest (100 X)%, czyli mniej niż X%: B na pewno nie pojawi się w dzewie konsensusu Oznacza to, że dzewo konsensusu ma sens dla X > 50, stąd mowa jest o dzewach konsensusu większościowego
Metyki dla dzew filogenetycznych Ze względów paktycznych wato zdefiniować metykę na odzinie dzew T o n liściach poetykietowanych liczbami 1, 2,..., n Metyki wymagają m.in. metody pzeszukiwania gadientowego lub inne heuystyki bazujące na badaniu sąsiedztwa dzewa Metyka podziałów (Splits, RF, Robinson-Fould) Dla dwóch dzew T 1 i T 2 ich odległość jest definiowana jako liczba opeacji ozszezenia/ściągnięcia wymaganych do pzejścia od T 1 do T 2 Inna definicja okeśla odległość jako δ(t 1 ) δ(t 2 ) czyli moc XORa na odzinach ozbić δ(t 1 ) i δ(t 2 ) Zaleta: Badzo łatwe obliczanie odległości między dzewami Wada: Dużo dzew w niewielkiej odległości
Metyki dla dzew filogenetycznych Zamiana najbliższych sąsiadów (Neaest Neighbou Intechange) Dla dowolnej kawędzi wewnętznej opeacja polega na zamianie dwóch poddzew wg schematu: T 1 T 3 T 1 T 2 T 2 T 4 T 1 T 2 T 4 T 3 T 3 Metyka zamiany sąsiadów Dla dwóch dzew T 1 i T 2 ich odległość jest definiowana jako minimalna liczba opeacji zamiany sąsiadów wymaganych do pzejścia od T 1 do T 2 Zamiana sąsiadów odpowiada wstawieniu i usunięciu pojedynczej kawędzi Każde dzewo ma 2n 6 sąsiadów T 4
Metyki dla dzew filogenetycznych Pzesadzanie poddzew (Subtee Puning and Regafting) Wybó i usunięcie kawędzi e = {a, b} dzielącej dzewo na 2 dzewa A i B Usunięcie b z B Wybanie kawędzi w B i utwozenie na niej wiezchołka c Połączenie a i c nową kawędzią Metyka pzesadzania poddzew Dla dwóch dzew T 1 i T 2 ich odległość jest definiowana jako minimalna liczba opeacji zamiany sąsiadów wymaganych do pzejścia od T 1 do T 2
Metyki dla dzew filogenetycznych Bisekcje i złączenia (Tee Bisection Reconnection) Wybó i usunięcie kawędzi e = {a, b} dzielącej dzewo na 2 dzewa A i B Usunięcie a z A i b z B Wybanie kawędzi w A i utwozenie na niej wiezchołka c Wybanie kawędzi w B i utwozenie na niej wiezchołka d Połączenie c i d nową kawędzią Metyka bisekcji i złączeń Dla dwóch dzew T 1 i T 2 ich odległość jest definiowana jako minimalna liczba opeacji zamiany sąsiadów wymaganych do pzejścia od T 1 do T 2 Ostatnie tzy metyki wywodzą się z metod definiowania sąsiedztwa w uniwesum dzew Ich wadą jest bak efektywnego algoytmu obliczającego d(t 1, T 2 )
THE END Pezentacja w wesji: EB.final[2010]PptRip[Pl]-Xteme Nowa jakość pezentacji. Slajdy zostały specjalnie dopasowane do Twojej wesji filmu.