181 Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami. 3. D T(D) poprzez algorytm łączenia sąsiadów 182 D D* : macierz łącząca sąsiadów n Niech TotDist i = k=1 D i,k Definiujemy D* następująco: D i,i = 0 D i,j = n 2 D i,j TotDist i TotDist i Twierdzenie: Dla danej macierzy addytywnej D, najmniejszy element D i,j macierzy łączącej sąsiadów odpowiada parze sąsiadujących liści i oraz j w T(D) 1
3. D T(D) poprzez algorytm łączenia sąsiadów 183 3. D T(D) poprzez algorytm łączenia sąsiadów 184 2
Skąd pochodzi SARS? 185 Skąd pochodzi SARS? 186 Macierz odległości wyznaczono w oparciu dopasowanie dla poszczególnych par białka Spike pobranego z wirusa SARS-CoV uzyskanego od różnych pacjentów. Jest także wirus od palm civet. 3
X Drzewo filogenetyczne bazujące na symbolach 187 Metody dyskretne rekonstrukcji drzewa ewolucji 188 Dane jest n sekwencji DNA o długości m każda. Mamy zatem macierz dopasowania w rozmiarze n x m. Species A Species B Species C Species D Species E ATGGCTATTCTTATAGTACG ATCGCTAGTCTTATATTACA TTCACTAGACCTGTGGTCCA TTGACCAGACCTGTGGTCCG TTGACCAGTTCTCTAGTTCG Można ją przetransformować na macierz odległości, ale nigdy w drugą stronę. Informacja o dopasowaniu jest bezpowrotnie tracona przy tej transformacji n x m macierz dopasowania tra Nie ma nsf transformacji or ma powrotnej cja n x n macierz odległości Lepsza technika: algorytm rekonstrukcji drzewa bazujący na symbolach umożliwia badanie ewolucji dla każdego znaku. 4
Parsymonia w rekonstrukcji drzewa filogenetycznego 189 Parsymonia (oszczędność): kryterium optymalizacyjne - szukamy takiego drzewa, które wyznacza najmniejszą liczbę zdarzeń ewolucyjnych ( podstawienia, zamiany, itp.) Brzytwa Ockhama Przykład: Szukaj najprostszego wyjaśnienia dla danych { ATCG, ATCC, ACGG} Problem parsymonii inaczej 190 Znaki naszego drzewa to brwi i usta. Każdy z nich może być w dwóch stanach. Dobierz etykiety węzłów wewnętrznych tak by wynik parsymonii był najmniejszy. 5
Drzewo filogenetyczne bazujące na symbolach 191 Dwie klasy problemów: małej parsymonii : zakładamy, że struktura drzewa jest dana wielkiej parsymonii : struktura drzewa jest dowolna. Drzewo filogenetyczne bazujące na symbolach 192 Każdy wierzchołek v z drzewa T wyznacza poddrzewo o korzeniu: wierzchołków osiągalnych z v. Etykieta v ma zbierać własności dzieci wierzchołka v. Niech s k (v) to wynik parsymonii dla poddrzewa v uzyskany przy założeniu, ze w v umieszczono znak k, czyli Algorytm dynamiczny s k (v) = min (s i(daughter(v)) + δ i,k ) + min (s j(son(v)) + δ j,k ) all symbols i all symbols j Warunki początkowe algorytmu: s k (v) = 0 dla v = k dla v k 6
Wartości początkowe Algorytm Sankoffa 193 Character: wektor dostępnych znaków (u nas ACGT) Tag: znacznik, czy węzeł był już obsłużony ripe: dojrzały węzeł ma Tag równy 0, ale jego dzieci maja Tag równe 1 194 7
Algorytm Sankoffa z inną punktacją 195 9 7 8 9 A T G C? A C Mała parsymonia na drzewie nieukorzenionym 196 8
Problem wielkiej parsymonii Problem NP-zupełny Przykłady drzew o 4 liściach Ilość drzew ukorzenionych o n liściach : T(n) dla n = 2, 3, 4, 5, 6, 7, 8, 9, 10,. to Problem przeszukiwania przestrzeni drzew 198 Wszystkie drzewa swobodne o pięciu liściach. Drzewa sąsiadujące (poprzez transformację zamiany najbliższych sąsiadów ) są połączone krawędzią Algorytm zachłanny Monte Carlo przeszukuje przestrzeń drzew 9