Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1

Metoda NJ (przyłączania sąsiadów) umożliwia tworzenie drzewa addytywnego: odległości ewolucyjne między sekwencjami wyznaczone na podstawie sumy długości gałęzi w drzewie są w przybliżeniu równe odległościom zawartym w źródłowej macierzy odległości. 2

Miara różnic między tymi odległościami: średnie kwadratowe odchylenie Wartośd E można wykorzystad jako ocenę drzewa. Ogólnie, chcemy mied drzewo, które ma jak najmniejszą wartośd E. Znaczy to, że najmniej różni się od danych wejściowych. 3

Jeśli macierz odległości jest addytywna to można znaleźd drzewo, dla którego E jest równe zeru. Często nie jest to możliwe: liczba par sekwencji = N(N-1)/2 liczba optymalizowanych niezależnych długości gałęzi w nieukorzenionym drzewie = 2N-3 4

Algorytmy UPGMA oraz NJ są dobrze zdefiniowane, ale nie mają wbudowanego kryterium porównywania drzew (konstruują jedynie jedno drzewo). Alternatywne podejście: budowad drzewa różnymi metodami i wybrad to, dla którego E jest najmniejsze. 5

Inne kryteria oceny drzew: kryterium maksymalnej wiarygodności kryterium parsymonii 6

Kryterium maksymalnej wiarygodności Za najlepsze uważa się takie drzewo, które w najbardziej prawdopodobny sposób tłumaczy obserwowaną zmiennośd w danych sekwencjach. 7

Kryterium parsymonii Wybiera się takie drzewo, które obserwowaną zmiennośd z danym zbiorze sekwencji tłumaczy za pomocą jak najmniejszej liczby podstawieo. 8

Przeszukiwanie przestrzeni drzew Można wykonad bez względu na sposób oceny/porównywania drzew Szukamy poprawionych wersji aktualnego drzewa poprzez pewne modyfiikacje aktualnego Rodzaj optymalizacji zachłannej 9

Przestrzeo drzew dla danego zbioru sekwencji Wszystkie możliwe drzewa o różnej topologii, które można wyznaczyd dla tych sekwencji. Notacja!! oznacza iloczyn liczb nieparzystych, np. 9!! = 9 * 7 * 5 * 3 * 1 10

W przestrzenii drzew, dwa drzewa uważamy za sąsiadów, jeśli róznice między nimi można sprowadzid do pojedynczej zmiany topologii, którą określa się jako wymiana najbliższych sąsiadów (ang. nearestneighbor interchange, NNI). NNI: wybierz gałąź łączącą dwa jego węzły (tzn. gałąź wewnętrzną) wyróżnione zostają przez to dwa drzewa podrzędne drzewo podrzędne - może zawierad jeden liśd lub rozgałęzioną topologię zastąp drzewo podrzędne z jednego kooca gałęzi wewnętrznej drzewem podrzędnym z drugiego kooca 11

1, 2, 3 sąsiedzi (każde z nich może byd utworzone z innego przez jedno NNI). 12

1 i 4 - nie są sąsiadami, nie można 1 zmienid w 4 za pomocą 1 NNI (ale można za pomocą dwóch NNI). Zmiana 1 w 4 wymaga procedury zwanej wycięciem i przeszczepieniem dzrewa podrzędnego (ang. subtree pruning and regrafitin, SPR). Jest to procedura dalszego zasięgu w przestrzeni drzew niż NNI. 13

Inną operacją dalekiego zasięgu jest przepołowienie drzewa i ponowne jego połączenie: Wybierz i usuo gałąź wewnętrzną powstają dwa drzewa podrzędne Wybierz po jednej z terminalnych gałęzi każdego poddrzewa i połącz je w nową gałąź wewnętrzną 14

Metoda przeszukiwanie przestrzeni drzew Algorytm wspinaczkowy (optymalizacja zachłanna): przyjmij pewne kryterium porównywania drzew zacznij od pewnego drzewa (może to byd np. wynik algorytmu NJ) porównuj to drzewo z sąsiadami i zamieniaj jeśli znalezione drzewo jest lepsze powtarzaj dopóki aktualne drzewo jest gorsze od któregokolwiek sąsiada Algorytm ten nie gwarantuje znalezienia optimum globalnego. 15

Wersja 2: Kolejne punkty początkowe w przestrzeni poszukiwao (drzewa), generuj dla coraz większej liczby sekwencji. Pobieraj przy tym sewkencje w losowej kolejności Dla trzech sekwencji istnieje tylko jedna topologia drzewa nieukorzenionego Dodawaj pojedynczo kolejne sekwencje, za każdym razem optymalizując powstałe drzewo przez algortym wspinaczkowy z NNI Zakoocz po dodaniu wszystkich sekwencji. Wykonaj powyższe wielokrotnie (za każdym razem inna losowa kolejnośd przyłączania sekwencji) 16

Inne, poza NNI, operacje na drzewach (zmiany dalekiego zasięgu) wprowadzają zbyt wielkie zmiany w topologii drzewa i często są zbyt zbliżone do losowego generowania kolejnych drzew. Można okazjonalnie dopuścid akceptację drzewa o gorszej ocenie w celu umożliwienia algorytmowi "wyskoczenia" z optimum lokalnego. 17

Wiarygodnośd drzewa Jest to prawdopodobieostwo, że parametry wyznaczonego drzew poprawnie opisują związki ewolucyjne między poszczególnymi sekwencjami. Poszukiwane jest drzewo o maksymalnej wiarygodności (ang. maximum likelihood, ML) 18

Wiarygodnośd drzewa Parametry drzew, które bierze się pod uwagę: topologia drzewa długości galęzi drzewa wskaźniki tempa podstawieo częstości występowania zasad stosunek liczby tranzycji do transwersji Można optymalizowad jednocześnie wszystkie te parametry. Można również optymalziowad jedynie topologię i długości gałęzi (pozostałe parametry ustalone) 19

Wiarygodnośd drzewa Często drzewa będą miały niewielkie różnice w ocenie swojej wierygodności. Można wtedy określid, czy te różnice są statystycznie istotne (test Kishino i Hasegawy). 20

Obliczanie wiarygodności drzewa pierwszy krok odbywa się dla określonej pozycji n dopasowania wielosekwencyjnego Wiarygodnośd hipotezy, że wspólny przodek obu sekwencji miał na pozycji n zasadę X to: P ij (t) - prawdopodobieostwa podstawieo obliczone na podstawie odpowiedniego modelu ewolucji Powyższe można obliczyd dla wszystkich czterech możliwych wartości X. 21

Dla węzła Y: Kontynuując do węzła W: Co z węzłem Z? 22

Wiarygodnośd całego drzewa dla pozycji n to suma czterech wartości - dla W równego dowolnej wartości ze zbioru {A, C, T, G} Założenie: prawdopodobieostwo a priori wystąpienia każdej z czterech zasad na pozycji n w sekwencji przodka jest opisywana przez częstośd występowania zasad w stanie równowagi, zgodnie z wybranym modelem ewolucyjnym. 23

Obliczenia przeprowadza się rekurencyjnie od liści do korzenia. Wiarygodnośd nie zależy od położenia korzenia korzeo można umieści w dowolnym miejscu. Procedurę powtarza się dla każdej pozycji zakładając niezleżnośd przebiegu ewolucji na każdej pozycji 24

Wiarygodnośd drzewa dla całego dopasowania, L tot, to iloczyn wartości wiarygodności dla poszczególnych pozycji. Wykorzystując logarytm można uniknąd mnożenia i wykorzystad sumowanie Poszukiwane drzewo ML to drzewo o najmniej ujemnej wartości lnl tot 25

Przykład Czasami nie ma wątpliwośd co do części kladów - wiadomo, że pewne gatunki są bliżej ze sobą spokrewnione. Każdy klad jest wcześniej optymalizowany przez np. algorytm NJ. Pytanie - jak połączyd klady? Można optymalizowad długości gałęzi we wcześnie zdefiniowanych kladach, ale nie można zmieniad topologi. Pokrewieostwo między kladami może byd opisane przez 105 różnych topologicznie, nieukorzenionych drzew. Możliwe jest wyczerpujące przejrzenie wszystkich możliwych topologii i wybranie tego o największej wiarygodności. 26

Zastosowanie ML z modelem JC (Jukesa- Cantora) daje drzewo takie samo jak dla algortymu NJ. 27

JC zakłada jednakową częstośd A, C, T, G. W rzeczywistości dla tych sekwencji: A : 37.5% C : 24.7% G : 12.6% U : 25.2% Zakładając stosunek tranzycji do transwersji różny od 1 oraz model HKY oraz inwariantnośd na pewnych odcinkach sewkencji, metoda ML daje inne drzewo: 28

Wiewióreczniki nie są już uznawane za grupę siostrzaną do wyraków. 29

Kryterium parsymonii Ma swoje wykorzystanie w badaniach filogenetycznych prowadzonych na podstawie cech morfologicznych. Kryterium: Z możliwych rozwiązao wybieraj takie, które wymaga minimalnej liczby arbitralnych założeo. 30

Przykład 0 - cecha przodka (np. struktura kooczyny) 1 - cecha gatunku potomnego 31

Preferujemy drzewo A, gdyż zakłada ono, że nowa cecha wykształciła się jeden raz. 32

Ogólnie, musimy dysponowad zestawem wielu cech, które wykształciły się w różnych okresach czasu. Synapomorfa - ewolucyjnie wspólna cecha gatunków Idealnie - chcemy mied taki zbiór synapomorf, z których każda odpowiadałaby za inne rozgałęzienie w drzewie. Algortymy wykorzystujące kryterium parsymonii wykorzystują podejście heurystyczne uwzględnia się możliwośd utraty cechy stounkowo mało prawdopodobne jest wykształcenie się tej samej cechy u różnych gatunków niezależnie wykształcenie się cechy ma większą wagę niż jej utrata jednak - możliwa homoplazja - cechy wykształciły się niezależnie więcej niż jeden raz fałszywe synapomorfy 33

Parsymonia z danymi molekularnymi Każdą pozycję w dopasowaniu wielosekwencyjnym traktuje się jak cechę. Każde podstawienie zmienia stan cechy. Szukane jest drzewo, które wymagad będzie minimalnej liczby podstawieo. Ale - nie jest znana sekwencja przodka - nie można ustalid kierunku zmian Używane do oceny drzew nieukorzenionych. 34

Nie wszystkie pozycje są informatywne. Ta sama reszta we wszystkich sekwencjach na danej pozycji: brak informacji filogenetycznej. Tylko jeden gatunek z inną resztą - również nieinformatywny: tylko jedna gałąź wyróżniona, pozostałe topologie drzew nierozróżnialne przy zastosowaniu kryterium parsymonii. Wniosek: Aby pozycja dopasowania była informatywna, musi zawierad co najmniej dwa rodzaje reszt, z których każda musi występowad na tej pozycji co najmniej dwa razy. 36

Metoda ML czy kryterium parsymonii? Parsymonia Zaleta - szybkośd Unika się zakładania jakiegokolwiek modelu ewolucji Np. niebezpieczne jest stosowanie modelu JC - zakłada jednakowe częstości występowania reszt oraz jednakowe tempo podstawieo 37

Metoda ML czy kryterium parsymonii? Jednak: parsymonia - podobne założenia Wszystkie typy podstawieo mają taki sam wkład w liczoną parsymonię Zmiany na wszystkich pozycjach mają taką samą wagę Stosowanie modelu HKY poprawiło działanie meotdy ML Podobnie można przypisywad wagi w metodzie parsymonii, ale problemem jest dobór odpowiednich wag. Meotda ML optymalizuje swoje parametry przez maksymalizację funkcji wiarygodności. Lepsze zdaje się wykorzystanie modeli ewolucji takich jakie mamy niż nie korzystanie z nich w ogóle. 38