Drzewa filogenetyczne jako matematyczny model relacji pokrewieństwa dr inż. Damian Bogdanowicz
Sprawa R. Schmidt a z Lafayette Podczas rutynowych badań u pielęgniarki Janet Allen stwierdzono obecność wirusa HIV. Brak możliwych źródeł zakażenia. Hipoteza Allen: wirus został wstrzyknięty umyślnie podczas zastrzyku witaminowego wykonanego przez byłego partnera pielęgniarki - lekarza Richard a Schmidt a. Policji udało się zidentyfikować jednego z pacjentów Schmidt a, którego krew mogłaby być źródłem wirusa. 003 Mary S. Gibbs, GNN, Pytanie Czy można obiektywnie zweryfikować prawdopodobieństwo wersji Janet Allen? Problem HIV szybko mutuje proste porównanie materiału genetycznego na ogół nie daje wyniku. Idea Przy porównywaniu materiału należy uwzględnić mechanizmy ewolucji. Jak to zrobić?
Nieukorzenione drzewa filogenetyczne Drzewa filogenetyczne obrazują ewolucyjne związki pomiędzy różnymi gatunkami lub organizmami. Węzły wewnętrzne odpowiadają przodkom odpowiednich gatunków. e a c b d Odległość ewolucyjna dzieląca poszczególne węzły. Obecnie istniejące gatunki przedstawiane są jako liście drzewa.
czas Drzewa filogenetyczne z korzeniem korzeń 30 mln korzeń mln 7 mln a b c d b c d a Oba drzewa przedstawiają te same relacje pokrewieństwa (mają tą samą topologię).
Drzewo życia Czy ludzie są bardziej spokrewnieni z nietoperzami, czy z kangurami? Neal Olander, http://www.tellapallet.com człowiek, kangur człowiek, nietoperz
Drzewa filogenetyczne jak wiele ich jest? Liczba n-listnych drzew nieukorzenionych binarnych: Liczba n-listnych drzew ukorzenionych binarnych: U n 1 3... (n 5) (n 4)! ( n )! n 1 n e n n R n (n )! ( n 1)! 1 3... (n 3) n 1 Przykłady: U 8 = 10 395 U 10 = 07 05 U 0. 10 0 R 8 = 135 135 R 10 = 34 459 45 R 0 8.0 10 1 U 60 5.01 10 94 Więcej niż szacunkowa liczba atomów w obserwowanym wszechświecie 10 80
Źródła informacji Tradycyjne: cechy morfologiczne, np. liczba nóg, kształt dzioba. Obecnie: dane molekularne, np. DNA (RNA) lub sekwencje aminokwasów. DNA (sekwencja liter A, C, T, G): ACTGACTCTGCCCTCA CTAAACTC Rozmiary genomów: Wirus (HIV) 9. 10 3 Bakteria (Escherichia coli) 4.6 10 6 Muszka owocówka 1.8 10 8 Człowiek (ok. 760MB) 3. 10 9 Paris japonica 1.5 10 11 www.sciencedaily.com/releases/010/10/10100710641.htm
Konstrukcja drzew - metody odległościowe Metody odległościowe opierają się na dostarczonej wraz ze zbiorem gatunków macierzy odległości, odzwierciedlającej ich dystans ewolucyjny. Metoda średnich połączeń (ang. Unweighted Pair Group Method with Arithmetic Mean - UPGMA) Metoda przyłączania sąsiada (ang. Neighbor Joining - NJ) Przybliżone (heurystyczne) metody przeszukiwania przestrzeni drzew A GCTTT CGTTAGA B ACTTT TGTTAGA C ACTTT CGAAAGA D ACTTA CGTTTCT E AGATA CGTTTGA Modele ewolucji - określają sposób pomiaru dystansu ewolucyjnego A B C D E A 0 4 6 6 B 0 4 6 6 C 0 6 6 D 0 4 E 0 Matematyka i informatyka 1 1 1 1 1 A B C D E
Metoda średnich połączeń (UPGMA) 1 A B C D A 0 6 6 B 0 6 6 C 0 4 D 0 1 1 d {A,B},{C} =(d {A},{C} +d {B},{C} )/= (6 + 6)/ = 6 A B d {A,B},{D} =(d {A},{D} +d {B},{D} )/= (6 + 6)/ = 6 A,B C D A,B 0 6 6 C 0 4 D 0 1 1 A B C D d {A,B},{C,D} =(d {A},{C} +d {A},{D} +d {B},{C} +d {B},{C} )/4= 6 3 A,B C,D A,B 0 6 C,D 0 1 1 1 A B C D
Metoda średnich połączeń - własności 1 A 1 1 1 3 4 C E D B Test A B C D E A 0 5 4 7 6 B 0 7 10 9 UPGMA C 0 7 6 D 0 5 E 0 0.75 1.5 1 3.5.5 A C B D E Założenia hipotezy zegara molekularnego są naruszone W metodzie UPGMA obowiązuje hipoteza zegara molekularnego tzn. ewolucja różnych gatunków zachodzi w tym samym tempie - rzadko spotykane w praktyce. UPGMA odtwarza poprawne drzewo, jeśli wejściowa macierz jest ultrametryczna. Macierz odległości jest ultrametryczna dla dowolnych 3 gatunków najdłuższe dwie odległości je dzielące są sobie równe (tzw. warunek trzech punktów).
Metoda przyłączania sąsiada (NJ) B A 4 1 1 C 3 E D Test NJ A B C D E A 0 5 4 7 6 B 0 7 10 9 C 0 7 6 D 0 5 E 0 Ewolucja różnych gatunków może zachodzić w różnym tempie. Odtwarza poprawne drzewo, dla addytywnej macierzy odległości. Macierz odległości jest addytywna dla dowolnych 4 gatunków i,j,k,l co najmniej dwie wartości spośród d ij + d kl, d ik + d jl, d il + d jk przyjmują największą wartość (tzw. warunek czterech punktów). Metoda NJ jest bardziej użyteczna niż UPGMA, lecz macierze odległości spotykane w praktyce zazwyczaj nie spełniają warunku addytywności.
Długości krawędzi dla danej topologii Problem Mamy daną addytywną macierz odległości oraz znamy topologię drzewa, jak wyznaczyć długości krawędzi? A B C A a A 0 d AB d AC B 0 d BC C 0 B b c C a + b = d AB a + c = d AC b + c = d BC a = (d AB + d AC d BC )/ b = (d AB + d BC d AC )/ c = (d AC + d BC d AB )/ Ogólnie: n-3 zmiennych, możemy utworzyć n(n-1)/ równań. Dla n = 4: 5 zmiennych, 6 równań.
Metody przybliżone Problem Mamy daną macierz odległości (niekoniecznie addytywną) oraz znamy topologię drzewa, jak wyznaczyć długości krawędzi? A B C D A 0 d AB d AC d AD B 0 d BC d BD C 0 d CD D 0 i, j L, i j A B a b T ErrT ( dij dij ) gdzie L zbiór liści w drzewie T, e c d C D Poszukajmy długości krawędzi, tak aby najlepiej pasowały do danej macierzy {d ij }. d T ij odległość między liśćmi i,j w T Err ( d AB a b) ( d AC a e c) ( d AD a e d) ( d BC b e c) ( d BD b e d) ( d CD c d) Jest efektywna metoda!
Przeszukiwanie zbioru drzew Wejście: macierz {d ij } Err T T T 1 T 3 ( d i, j L, i j T4 ij d T ij ) Wybieramy drzewo o zadanej topologii i obliczamy długości krawędzi, tak by Err było najmniejsze. Oceniamy otrzymane drzewo używając wybranego kryterium: Metoda najmniejszych kwadratów minimalizacja Err, Metoda minimalnych odległości (Minimum Evolution) minimalizacja sumy długości krawędzi. Przechodzimy do kolejnego drzewa. Przejrzenie wszystkich możliwości (?), dla U 60 5.01 10 94 nieefektywne! W praktyce stosuje się algorytmy heurystyczne.
Metody filogenetyczne w sądzie debiut w USA Lekarz oskarżony o zarażenie wirusem HIV byłej partnerki, poprzez wstrzyknięcie jej krwi chorego pacjenta. HIV - duże tempo ewolucji, wiele szczepów w jednym organizmie. Sekwencje pacjenta Sekwencje poszkodowanej A. Thanukos, Evol Educ Outreach, 010, 3(4):563 57 Sekwencje poszkodowanej wewnątrz grupy sekwencji pacjenta - kierunek zakażenia. R. Schmidt a uznano winnym i skazano na 50 lat więzienia. Sekwencje od osób z Lafayette i okolic Michael L. Metzker et al. PNAS 00;99:149-1497
Jak cofnąć czas? W 1999 r. 6 osób z personelu medycznego, przybyłych do jednego ze szpitali w Libii, zostało oskarżonych o umyślne zakażenie wirusem HIV ponad 400 dzieci. Sekwencje zarażonych dzieci tworzą klaster, co wskazuje na pojedyncze źródło. Ustalono, że wspólny przodek klastra istniał przed przyjazdem medyków. A. Thanukos, Evolution: Education and Outreach, 010, 3(4):563 57
Europejska wieża Babel skąd pochodzi j. polski? Problem Gdzie znajduje się pierwotna ojczyzna języka indoeuropejskiego? Teoria pontycko-kaspijska (kurhanowa) na północ od M. Kaspijskiego język powstał ok. 5000-6000 lat temu, używany przez wojujących koczowników, rozprzestrzenił się w wyniku podbojów części Europy i Azji. Teoria anatolijska w Anatolii, tereny dzisiejszej Turcji język powstał ok. 8000-9500 lat temu, używany przez rolnicze ludy, rozprzestrzenił się wraz z rozpowszechnieniem się rolnictwa. http://language.cs.auckland.ac.nz/the-indo-european-question/
Zastosowania metod filogenetycznych - lingwistyka Problem Gdzie znajduje się pierwotna ojczyzna języka indoeuropejskiego? Dane Teoria pontycko-kaspijska (kurhanowa) ok. 5000-6000 lat temu Teoria anatolijska ok. 8000-9500 lat temu Ponad 6000 grup wyrazów pokrewnych pochodzących z 103 języków. Uwzględniono historyczne daty, np. wyodrębnienie się języka rumuńskiego z łaciny po 70 roku. Polski wszyscy woda matka Angielski all water mother Niemiecki alle wasser mutter Francuski tout eau mère Włoski tutto acqua madre Polski Angielski Niemiecki Francuski Włoski 1 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 0 1 0 1 1 0 0 1 0 1 1
Zastosowania metod filogenetycznych - lingwistyka Problem Gdzie znajduje się pierwotna ojczyzna języka indoeuropejskiego? Teoria pontycko-kaspijska (kurhanowa) ok. 5000-6000 lat temu Teoria anatolijska ok. 8000-9500 lat temu Powstanie języka ok. 8000 lat temu. R. Bouckaert i in., Science, 01, 337(6097):957-960
Zastosowania metod filogenetycznych tomografia sieciowa Problem (tomografia sieciowa) Jak poznać strukturę i parametry sieci komputerowej wyłącznie na podstawie pomiarów pośrednich? Parametry połączeń prędkość, jakość połączenia (np. średnia liczba utraconych pakietów), opóźnienie. A A B C D A??? Pomiary A 0 d AB d AC d AD B 0 d BC d BD C 0 d CD D 0 B C D Metody odległościowe B C D Znajomość struktury i parametrów pozwala lepiej monitorować działanie sieci oraz dokonywać optymalizacji dotyczących przydzielania zasobów i funkcjonowania aplikacji sieciowych.
Dziękuję za uwagę