Rekonstrukcja Filoinformatyka

Podobne dokumenty
Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Parazytologia W6. Dabert Wstęp do parazytologii ewolucyjnej Teoria analizy ko filogenetycznej

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji

Bioinformatyka Laboratorium, 30h. Michał Bereta

klasyfikacja fenetyczna (numeryczna)

Filogenetyka molekularna I. Krzysztof Spalik

Analizy filogenetyczne

Acknowledgement. Drzewa filogenetyczne

Filogenetyka molekularna I. Krzysztof Spalik Zakład Filogenetyki Molekularnej i Ewolucji

Filogenetyka molekularna I

plezjomorfie: podobieństwa dziedziczone po dalszych przodkach (c. atawistyczna)

Recenzja rozprawy doktorskiej. mgr Marcina Jana Kamińskiego. pt. Grupa rodzajowa Ectateus (Coleoptera: Tenebrionidae) filogeneza i klasyfikacja.

Ograniczenia środowiskowe nie budzą wielu kontrowersji, co nie znaczy że rozumiemy do końca proces powstawania adaptacji fizjologicznych.

Wstęp do Biologii Obliczeniowej

Bioinformatyka Laboratorium, 30h. Michał Bereta

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Bioinformatyka Laboratorium, 30h. Michał Bereta

Dopasowanie sekwencji (sequence alignment)

Bioinformatyka Laboratorium, 30h. Michał Bereta

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Aproksymacja funkcji a regresja symboliczna

Drzewa filogenetyczne jako matematyczny model relacji pokrewieństwa. dr inż. Damian Bogdanowicz

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Ewolucjonizm NEODARWINIZM. Dr Jacek Francikowski Uniwersyteckie Towarzystwo Naukowe Uniwersytet Śląski w Katowicach

Porównywanie i dopasowywanie sekwencji

Konstrukcja drzew filogenetycznych podstawy teoretyczne.

PRZYRÓWNANIE SEKWENCJI

Mikroekonometria 9. Mikołaj Czajkowski Wiktor Budziński

Metoda dokładnej rekonstrukcji drzew filogenetycznych genów. współczynników substytucji dla genów i gatunków

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.

Rycina 1. Zasięg i zagęszczenie łosi (liczba osobników/1000 ha) w Polsce w roku 2010 oraz rozmieszczenie 29 analizowanych populacji łosi.

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

46 Olimpiada Biologiczna

STATYSTYKA MATEMATYCZNA

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Wyróżniamy dwa typy zadań projektowych.

CLUSTERING. Metody grupowania danych

Hierarchiczna analiza skupień

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Transformacja wiedzy w budowie i eksploatacji maszyn

Teoria ewolucji. Podstawy wspólne pochodzenie.

Teoria ewolucji. Losy gatunków: specjacja i wymieranie. Podstawy ewolucji molekularnej

Kierunek i poziom studiów: Biologia, poziom drugi Sylabus modułu: Filogenetyka i taksonomia roślin i zwierząt dla EKOP

Porównywanie i dopasowywanie sekwencji

METODY STATYSTYCZNE W BIOLOGII

Wykład 5: Statystyki opisowe (część 2)

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Algorytmy genetyczne w interpolacji wielomianowej

Analiza składowych głównych. Wprowadzenie

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

znalezienia elementu w zbiorze, gdy w nim jest; dołączenia nowego elementu w odpowiednie miejsce, aby zbiór pozostał nadal uporządkowany.

Statystyczne sterowanie procesem

Testowanie hipotez statystycznych

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Budowanie drzewa filogenetycznego

Biologia medyczna, materiały dla studentów

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

ALGORYTMY KONSTRUOWANIA DENDROGRAMÓW STOSOWANYCH PRZY ANALIZIE FILOGENETYCZNEJ MIKROORGANIZMÓW

Filogenetyka. Dr Marek D. Koter, dr hab. Marcin Filipecki. Katedra Genetyki, Hodowli i Biotechnologii Roślin, SGGW

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

FILOGENETYKA. Bioinformatyka, wykład. 8 c.d. 0)

Algorytmy genetyczne

Ekologia wyk. 1. wiedza z zakresu zarówno matematyki, biologii, fizyki, chemii, rozumienia modeli matematycznych

BIOINFORMATYKA. Copyright 2011, Joanna Szyda

Krzysztof Spalik 1, Marcin Piwczyński 2

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

MSA i analizy filogenetyczne

Algorytm. Krótka historia algorytmów

Mitochondrialna Ewa;

Algorytmy genetyczne

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

METODY STATYSTYCZNE W BIOLOGII

Statystyka matematyczna i ekonometria

Algorytmy kombinatoryczne w bioinformatyce

Systemy uczące się Lab 4

Zmienność ewolucyjna. Ewolucja molekularna

Metody probabilistyczne klasyfikatory bayesowskie

Wprowadzenie do analizy korelacji i regresji

FILOGENETYKA. Bioinformatyka, wykład 7 (24.XI.200..XI.2008)

Wykład 3 Hipotezy statystyczne

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

METODY STATYSTYCZNE W BIOLOGII

METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład 3-4. Parametry i wybrane rozkłady zmiennych losowych

Transkrypt:

Rekonstrukcja Filoinformatyka filogenii TTTTTTTTAAAAATTTTTTTCTTTTAAA Jacek Dabert Zakład Morfologii Zwierząt UAM

Do czego służy analiza filogenetyczna? Do rekonstrukcji historycznych związków filogenetycznych pomiędzy taksonami. W aplikacjach biomedycznych np. epidemiologii i medycynie sądowej W badaniach molekularnych nad organizacją genomu i strukturą genów. W badaniach nad powstawaniem nowych alleli i szczepów laboratoryjnych W studiach porównawczych w ekologii i etologii W badaniu procesów fizjologicznych Generalnie na wszystkich polach, w których dokonuje się porównań między obiektami lub procesami.

Tematyka wykładu 1. Podstawowe terminy stosowane w rekonstrukcji filogenii. 2. Przygotowanie matrycy danych. 3. Algorytmy do konstrukcji drzew filogenetycznych. 4. Poszczególne etapy komputerowej analizy filogenetycznej danych molekularnych. 5. Analiza statystyczna uzyskanych wyników. 6. Procedura total evidence. 7. Współbieżne zdarzenia ewolucyjne.

Taksony naturalne i sztuczne a. grupa monofiletyczna, b. grupa parafiletyczna, c. grupa polifiletyczna

Podstawowe terminy dotyczące drzew filogenetycznych

Przykładowe rodzaje cech stosowanych w rekonstrukcji filogenii

Typy matryc danych matryca dystansów matryca cech

Nexus Data Editor

Czy cechy morfologiczne są nadal istotne? Wady bardziej homoplastyczne niż molekularne (?) ukierunkowane konwergencje tanie Zalety możliwość korzystania ze źródeł muzealnych ograniczona liczba cech trudności w znalezieniu cech homologicznych między odległymi taksonami taksony wymarłe mogą być analizowane głównie na podstawie danych morfologicznych dane morfologiczne mogą być testowalne na wszystkich etapach analizy filogenetycznej

Metody konstruowania drzew filogenetycznych Metoda obliczeniowa optymalizacja Parsymonia Maximum Likelihood wnioskowanie Bayesowskie Minimum Evolution Least Squares analiza klastrów UPGMA Neighbor-Joining Cechy Dystanse

Zegar molekularny Koncepcja zegara molekularnego (Zuckerlandl i Pauling, 1965) postuluje równe tempo substytucji we wszystkich liniach ewolucyjnych. Dzięki danym fosylnym możliwe jest kalibrowanie zegara i określanie bezwzględnego czasu dywergencji. x 2 13 13 mln lat

UPGMA UPGMA (unweighted pair group method with arithmetic mean) to najprostsza metoda grupująca taksony według ogólnego podobieństwa lub odległości. Pracuje wyłącznie na matrycach dystansowych np. hybrydyzacja DNA-DNA lub konstruowanych z danych sekwencyjnych na podstawie ilości substytucji. UPGMA umożliwia określenie długości gałęzi (odlegości ewolucyjnej) jak i uporządkowania gałęzi. Zakłada stały zegar molekularny możliwe jest teoretycznie oszacowanie czasu dywergencji na podstawie różnic w sekwencjach.

Jak działa UPGMA A C B D OTU A-C A BB C D A-C A - 8 8,5 7 11,5 12 B - 9 14 B - 14 C - 11 D -- Matryca dystansowa zredukowana substytucje/100 nukleotydów 1. Znajdź najbliższą parę gatunków. 2. Połącz oba te gatunki w klaster. 3. Policz na nowo pozostałe dystanse jako średnią od A-C. 4. Idź do kroku 1 i powtórz procedurę.

Warunek trzech punktów Aby analiza UPGMA mogła być przeprowadzona z sukcesem dane muszą być zultrametryzowane. Oznacza to, że dla dowolnych trzech taksonów (x, y, z) dystanse (d) pomiędzy nimi muszą spełniać następujące wyrażenie: d(x,z) max (d(x,y), d(y,z)) Powyższą formułę nazywa się także warunkiem trzech punktów.

Neighbor-Joining (NJ) Metoda koncepcyjnie zbliżona do analizy klastrów, jednak dopuszcza niejednakowe tempo zmian molekularnych wśród gałęzi. Zasada analizy NJ: Wyszukiwanie par taksonów (sąsiadów=neighbors), które minimalizują totalną długość gałęzi na każdym etapie grupowania taksonów początkowo zgrupowanych w całkowicie politomicznym drzewie ( gwiazda ).

Jak działa NJ 1. Inicjalne drzewo ma postać w pełni politomicznej gwiazdy. B B C (D,(C,E)) D (((A,B),H),(G,F)) ((((A,B),H),(G,F)),(D,(C,E))) ((A,B),H) (A,B) A (C,E) E A H H A B G F D F 2. Losowo wybierana jest para sekwencji i łączona gałęzią z centrum gwiazdy. Liczona jest całkowita długość gałęzi drzewa. Para jest zwracana do gwiazdy. 3. Powtarzane jest to ze wszystkimi możliwymi kombinacjami par, aż do znalezienia drzewa o najmniejszej całkowitej długości gałęzi. Para sekwencji z tego drzewa sąsiaduje ze sobą w finalnym drzewie. C 4. Para ta jest tymczasowo kombinowana (G,F) G w jednostkę, włączana do gwiazdy E krótszej o jedną gałąź i matryca dystansów liczona jest na nowo. 5. Procedura jest powtarzana tak długo, aż wszyscy sąsiedzi zostaną znalezieni i otrzymamy gotowe drzewo.

Maksymalna wiarygodność (maximum likelihood,, ML) Metoda stosowana niemal wyłącznie do danych sekwencyjnych Stosunkowo skomplikowana podstawa teoretyczna i znaczne wymagania co do mocy sprzętu obliczeniowego. ML zakłada określony, niekiedy złożony model ewolucji sekwencji. Celem analizy ML jest odpowiedź na pytanie: Jakie jest prawdopodobieństwo P powstania obserwowanych danych D (w tym wypadku alignmentu wielu sekwencji) dla danej topologii drzewa filogenetycznego T przy określonym modelu ewolucji?

Wnioskowanie bayesowskie (BI, Bayesian inference) Metoda zbliżona koncepcyjnie do ML Celem analizy BI jest odpowiedź na pytanie: Jakie jest prawdopodobieństwo P, że dana topologia drzewa T przy określonym modelu ewolucji jest prawdziwa dla obserwowanych danych D (w tym wypadku alignmentu wielu sekwencji)? ML: P(D/T) BI: P (T/D) Formuła Bayesa: P(T/D) P(T) P(D/T) = P(D)

Modele ewolucji sekwencji Modele mogą dotyczyć różnych aspektów ewolucji sekwencji: Różnorodnego stosunku transwersji do tranzycji. Odmiennej frekwencji nukleotydów. Różnorodnego tempa ewolucji w poszczególnych miejscach sekwencji. Różnorodnego tempa ewolucji (=substytucji) w ramach linii (poszczególnych taksonów) czy całych partii drzewa. Bogactwo parametrów modeli ma pozytywne i negatywne strony: im więcej parametrów do testowania tym lepiej można dopasować model do konkretnych danych. im więcej parametrów do testowania tym wyższa wariancja oszacowania.

Long-branch attraction (LBA) albo Strefa Felsensteina W przypadku taksonów wykazujących bardzo wysokie tempo ewolucji (=substytucji) liczba synapomorfii może być wyższa dla bardziej odległych taksonów. W ten sposób taksony o słabszym tempie substytucji mogą błędnie grupować się ze sobą, a o długich gałęziach ze sobą lub outgrupą. Procedury ML oraz wnioskowanie bayesowskie są najbardziej odporne na ten problem, jeśli zostanie zastosowany odpowiedni model substytucji prawidłowe drzewo błędne drzewo

Maksymalna Parsymonia (MP) Założeniem jest, że ewolucja przebiega najkrótszą z możliwych dróg (zasada parsymonii). Jest metodą bardziej ewolucyjnie rygorystyczną niż metody dystansowe. Zasada analizy MP: Porównywane są wszystkie możliwe topologie drzew. To drzewo, które wymaga w sumie najmniejszej liczby zmian poszczególnych cech (substytucji i delecji/insercji) jest najlepszym drzewem.

Odmiany analizy MP 1. parsymonia Wagnera zezwala na rewersje, wszystkie cechy uporządkowane. 2. parsymonia Dollo cecha pojawia się tylko raz, możliwa jest rewersja do cechy ancestralnej. 3. parsymonia Camina-Sokala najostrzejsza, zmiany ewolucyjne są nieodwracalne (=Dollo + brak rewersji). 4. parsymonia ogólna dopuszczane są wszystkie możliwe sytuacje z trzech poprzednich, stosowane indywidualnie do określonych cech lub ich grup.

Cechy 1 2 3 4 5 Apomorfie i plezjomorfie B A 1 A 2 A 0 1 A A C konwergencja T G C lub paralelizm G G G 2 3 4 5 C A C G T C A T A A T T C A apomorfie i plezjomorfie to homologie konwergencje, paralelizmy i rewersje to homoplazje synapomorfia symplezjomorfia Wspólny przodek A 1 i A 2 A C apomorfia plezjomorfia rewersja Wspólny przodek B i A 0

Cechy informatywne i nieinformatywne Sekwencja Pozycja 1: nieinformatywna Pozycja 1 G G G G 2 A T T T 3 C T G G 4 A C T G 5 A A G G Pozycja 2: nieinformatywna Pozycja 3: nieinformatywna Pozycja 4: nieinformatywna Pozycja 5: informatywna

Argumentacja cech Cechy binarne niespolaryzowane Cechy binarne spolaryzowane Nieuporządkowana i niespolaryzowana seria przekształceń Seria uporządkowana i niespolaryzowana Seria uporządkowana i spolaryzowana

Ważenie tranzycje/transwersje transwersje za pomocą step matrices Tranzycje substytucje między purynami (A G) lub pirymidynami (C T). Transwersje substytucje między purynami a pirymidynami (A T, C G, A C, T G).

Ograniczenia metody exhaustive exhaustive dla MP Analizowane są wszystkie możliwe drzewa, dzięki czemu gwarantowane jest znalezienie najkrótszego drzewa. Bardzo czasochłonna i możliwa do zastosowania jedynie dla małych matryc danych (do 12 taksonów).

Procedura branch-and and-bound i heurystyczna B&B znajduje optymalne drzewo (-a), ale tylko dla matryc ~ 20 taksonów. LA>L A L=LCL H nie gwarantuje znalezienia optymalnego drzewa, ale matryce mogą być znacznie większe. LB=L B LC<L C D LD>L

Wady i zalety poszczególnych algorytmów Metoda UPGMA NJ ML Zalety bardzo prosta i bardzo szybka bardzo szybka (długie sekwencje, bootstrap) akceptuje linie wykazujące różne tempo ewolucji odporna na LBA dobre statystyczne podstawy sprawdza różne topologie używa całą informację z sekwencji dedykowana do danych sekwencyjnych Wady bardzo czuła na różne tempo ewolucji grupowanie możliwe jest jedynie, jeśli dane są ultrametryczne tzn. spełniają warunek trzech punktów informacja z sekwencji jest zredukowana (dystanse) daje tylko jedno możliwe drzewo silnie zależy od rodzaju zastosowanego modelu ewolucji bardzo wolna i wymaga dużej mocy komputera (BI szybsza) rezultaty zależą od zastosowanego modelu ewolucji MP jedyna w pełni kladystyczna metoda można identyfikować obszary problematyczne nie redukuje informacji z sekwencji sprawdza różnorodne drzewa (hipotezy) bardzo powolna dla nawet niedużych matryc, nawet dla strategii branch-and-bound nie wykorzystuje pełnej informacji z sekwencji (tylko informatywne) nie zakłada modelu ewolucji nie daje informacji o długości gałęzi

Wady i zalety poszczególnych algorytmów Generalnie wszystkie metody dystansowe są fenetyczne - konstruują drzewa poprzez grupowanie OTU na podstawie ogólnego podobieństwa (morfologicznego, sekwencji itp.). A ogólne podobieństwo nie koniecznie musi odzwierciedlać prawdziwe pokrewieństwo filogenetyczne. Natomiast metody ML, BI i MP, choć koncepcyjnie lepiej zakotwiczone w procesach ewolucyjnych, są ekstremalnie wymagające w stosunku do mocy obliczeniowej komputerów, a mnogość parametrów opcjonalnych może w efekcie wpłynąć na rekonstrukcję w trudny do oszacowania sposób (subiektywizm badacza).

Który algorytm jest najlepszy dla danych sekwencyjnych? ML i BI lepsze od pozostałych jeśli nierówne tempo substytucji pomiędzy liniami ewolucyjnymi

Podstawowe etapy analizy filogenetycznej na przykładzie procedury MP 1. Wybór markera do rozwiązania problemu na określonym poziomie taksonomicznym. 2. Alignment. 3. Skonstruowanie matrycy danych. 4. Zadanie odpowiednich parametrów wejściowych. 5. Przeprowadzenie analizy komputerowej. 6. Analiza statystyczna uzyskanych wyników. 6. Wizualizacja i interpretacja wyników.

Metoda a poziom taksonomiczny

Marker a poziom taksonomiczny 16S rrna

Test skośności na obecność sygnału filogenetycznego g 1 = n i= 1 ns 3 T T i 3 Liczba drzew silny sygnał słaby sygnał T - długość drzewa n liczba drzew o długości T s - odchylenie standardowe Długość drzewa

Podstawowe parametry statystyczne drzew MP - Ilość kroków (L) suma zmian cech na wszystkich gałęziach. Dla danego zestawu cech najlepszym jest drzewo o najmniejszej liczbie kroków. - Współczynnik konsystencji cechy m minimalna możliwa liczba kroków s faktyczna liczba kroków - Współczynnik retencji cechy g minimalna liczba kroków dla najgorszej możliwości tzn. całkowitej politomii c = r = m s g s g m - Współczynniki złożone M = m1+m2...+mn S = s1+s2...+sn G = g1+g2...+gn CI = M S R = G S G M

Wartość krytyczna CI

Metody próbkowania (resampling( resampling) Są to metody statystyczne służące do określenia stabilności kladów. Pobierane są wielokrotnie losowe próbki (pseudoreplikacje) z danych. Konstruowane są drzewka z wszystkich pseudoreplikacji i procedura powtarzana jest wielokrotnie ( np. 1000 razy) Następnie liczony jest 50% majority rule consensus. Częstotliwość pojawiania się poszczególnych kladów w drzewie konsensusowym stanowi miarę stabilności testowanej topologii drzewa filogenetycznego. Stosowane do wszelkich danych dyskretnych, także dystansowych.

Jackknife Losowo pobierane do próbki cechy (dystanse) bez zwracania danych do oryginalnej matrycy. Symulacje wykazały, że najodpowiedniejszą wielkością próbki jest 1/e (ok. 36,8%) danych. oryginalna matryca N=42 próbka N=15 Av.calidridis1 tatgaatgaattttctgagaactgttttttctg--ttttt-c Av.calidridis2 tatgaatgaattttctgagaactgttttttctg--ttttt-c Av.calidridis3 tatgaatgaattttctgagaactgttttttctg--ttttt-c Av.calidridisalp tatgaatgaattttctaagggttggtttttttg--ttttt-c Av.phalaropi tatgaatgaatttactatgaattttttct---gaattttttc Av.philomachi tatgaatgaattttctgaaaattttttttt--a--tttattc Av.totanigla1 tatgaatgaatgttctaaaaattttttttt--g--ttttttc Av.totanigla2 tatgaatgaatgttctaaaaattttttttt--g--ttttttc Av.totanitot1 tatgaatgaattttctaaaaattttttttt--g--ttttttc Av.totanitot2 tatgaatgaattttctaaaaattttttttt--g--ttttttc Av.tretekiae tatgaatgaattttctaataattttttttt--g--ttttttc Av.tringae tatgaatgaattttctaataatttttattattg--ttttt-- Procedura ta jest powtarzana wielokrotnie (np. 1000 razy) i za każdym razem z próbki budowane jest drzewo (-a) filogenetyczne. Następnie konstruowany jest konsensus.

Bootstrap Losowo pobierane są pseudoreplikacje i, w odróżnieniu do jackknife, dane zwracane są do oryginalnej matrycy. Wielkość próbki jest taka sama jak matrycy oryginalnej. Oznacza to, że pewne pseudoreplikacje są pobierane więcej niż jeden raz. oryginalna matryca N=42 próbka N=42 Av.calidridis1 Av.calidridis2 Av.calidridis3 Av.calidridisalp Av.phalaropi Av.philomachi Av.totanigla1 Av.totanigla2 Av.totanitot1 Av.totanitot2 Av.tretekiae Av.tringae tatgaatgaattttctgagaactgttttttctg--ttttt-c tatgaatgaattttctgagaactgttttttctg--ttttt-c tatgaatgaattttctgagaactgttttttctg--ttttt-c tatgaatgaattttctaagggttggtttttttg--ttttt-c tatgaatgaatttactatgaattttttct---gaattttttc tatgaatgaattttctgaaaattttttttt--a--tttattc tatgaatgaatgttctaaaaattttttttt--g--ttttttc tatgaatgaatgttctaaaaattttttttt--g--ttttttc tatgaatgaattttctaaaaattttttttt--g--ttttttc tatgaatgaattttctaaaaattttttttt--g--ttttttc tatgaatgaattttctaataattttttttt--g--ttttttc tatgaatgaattttctaataatttttattattg--ttttt--

Bootstrap wartości krytyczne

Indeks Bremera (decay index) Indeks ten wskazuje jaka liczba dodatkowych kroków ewolucyjnych jest potrzebna by uzyskać drzewo, w którym dany klad jest zlikwidowany tzn. tworzy politomię. Stosowany wyłącznie w analizie parsymonii. Plutarchusia chelopus Sikyonemus diplectron Eurysyringobia spinigera 1 drzewo MP, L = 100 3 drzewa MP, L 103 3 3 Limosilichus limosae Phyllochaeta bouveti Phyllochaeta interifolia

Consensus tree Rodzaj drzewa Odpowiada na pytanie Wady i zalety Strict Adams Majority Jakie grupy są zawsze monofiletyczne? 1. Jakie jest drzewko o najwyższej rozdzielczości, które będzie rozpoznawało problematyczne taksony? 2. Czy drzewka są logicznie spójne? Jakie jest podsumowanie konkurujących drzewek gdzie przeważa dominujący wzór? 1. Możliwa ekstremalna utrata rozdzielczości 2. Użyteczne jako rekonstrukcja filogenii wyłącznie, jeśli identyczne z jednym z oryginalnych MP drzewek 1. Dziwne umiejscowienie taksonów, które nie występuje w żadnym oryginalnym drzewku 2. Użyteczne jako rekonstrukcja filogenii wyłącznie, jeśli identyczne z jednym z oryginalnych MP drzewek 1. Najużyteczniejszy, gdy jest bardzo mało sprzecznych danych 2. Użyteczne jako rekonstrukcja filogenii wyłącznie, jeśli identyczne z jednym z oryginalnych MP drzewek

Optymizacja drzew ACCTRAN, DELTRAN Optymizacja drzew dokonywana jest a posteriori w celu prześledzenia ewolucji poszczególnych cech na gałęziach najbardziej parsymonicznego drzewa. ACCTRAN (Accelerated Transformation) przy jednakowo parsymonicznych rozwiązaniach faworyzowane są rewersje. Nowy stan cechy jest uruchamiany tak szybko, jak jest to możliwe (bliżej nasady drzewa). DELTRAN (Delayed Transformation) przy jednakowo parsymonicznych rozwiązaniach faworyzowane są paralelizmy. Nowy stan cechy jest uruchamiany tak późno, jak jest to możliwe (bliżej góry drzewa).

Śledzenie ewolucji cechy na drzewie rewersja paralelizm T A T A A T A T A A 1 2 3 4 5 1 2 3 4 5 ACCTRAN DELTRAN A W obu przypadkach 2 kroki ewolucyjne A

Total evidence czy metoda konsensusowa? Total evidence jest definiowana jako równoczesna rekonstrukcja filogenetyczna wszystkich niepodzielonych danych (jedna matryca) dostępnych dla analizowanych taksonów. Metoda konsensusowa ( zgodność taksonomiczna ) poszukuje uzgodnienia hipotez uzyskanych z analizy różnych zbiorów danych.

Współbieżne zdarzenia ewolucyjne Wyróżnia się 4 główne typy równoległych zdarzeń ewolucyjnych zachodzących na różnych poziomach organizacji życia: Biogeografia Koewolucja Drzewa genowe Kodywergencja Wikariancja Kospecjacja Kodywergencja genów Duplikacja Specjacja sympatryczna Duplikacja linii Duplikacja genów Sortowanie Wymieranie Sortowanie linii Sortowanie genów Przeskok Dyspersja Zmiana żywiciela Transfer horyzontalny

Drzewa gatunkowe a kladogramy areałowe Pangea Laurasia Eurazja Ameryka Północna Australia Amphilina foliacea Amphilina japonica Gigantolina elongata Gigantolina magna Gondwana Indo-Malaje Afryka Ameryka Południowa Schiz. paragonophora Schizochoerus janickii Schizochoerus africanus Schizochoerus liguloideus

Drzewa genowe a drzewa gatunkowe

Zjawiska kofilogenetyczne 1 2 1 2 1 2 1 2 1 2 1 kospecjacja inercja (brak specjacji) spóźnienie na łódkę wymarcie zjawisko X duplikacja zjawiska sortowania

Zjawiska kofilogenetyczne po zmianie żywiciela (transfer horyzontalny) 1 2 1 2 1 2 1 2 specjacja po zmianie żywiciela specjacja i wymieranie po zmianie żywiciela brak specjacji po zmianie żywiciela brak specjacji i wymieranie po zmianie żywiciela

Zgodne topologie drzew gospodarzy i pasożytów Gospodarze czas tempo Pasożyty tempo ewolucji i czas specjacji różne - pseudokospecjacja tempo ewolucji różne, relatywny czas specjacji identyczny tempo ewolucji i czas specjacji identyczne

Niezgodne topologie drzew gospodarzy i pasożytów Transfer horyzontalny G1 G2 P1 P2 czas G3 P3 Duplikacja i sortowanie G1 P1 Po duplikacji wymieranie: 2 w linii P3 1 w linii P1-P2 G2 G3 P2 P3 P1 P2 P3

Niezgodne topologie c.d. Transfer horyzontalny G1 G2 P1 P2 P2 młodszy niż gospodarz czas G3 P3 Sortowanie (wymarcie) G1 P1 Oszacowanie czasu kladogenezy P1-P2 może pomóc w decyzji między możliwościami G2 G3 P2 P3 P2 starszy niż gospodarz

Założenia metodyczne analizy kospecjacji 1. Precyzyjnie opracowana systematyka, zarówno gospodarzy jak i pasożytów (symbiontów, komensali) 2. Solidnie udokumentowane rekonstrukcje filogenii obu partnerów 3. Intensywne (kompletne) zebranie pasożytów (symbiontów, komensali) z opracowywanych kladów (linii ewolucyjnych) 4. Molekularne filogenie oparte na homologicznych markerach dla obu partnerów 5. Porównanie rekonstrukcji filogenii obu partnerów za pomocą metod ilościowych w celu wykrycia zjawisk kospecjacji i statystyczne przetestowanie prawdopodobieństwa nieprzypadkowości obserwowanego paralelizmu ewolucyjnego

Parsymonia Brooksa kontra TreeMap założenia wady testowanie statystyczne oprogramowanie Parsymonia Brooksa pasożyty zamienione na kod binarny - przecenia przeskoki pomiędzy gospodarzami nie tak (wstępna wersja PACT) TreeMap mapowanie topologii drzew - przecenia sortowania i duplikacje - niedocenia kospecjacje tak tak (TreeMap )

Wszoły (Mallophaga( Mallophaga; Phthiraptera) ) i goffery (Rodentia; Geomyidae) wg Page, 2001

Przykład filogenia Avenzoariinae Avenzoariinae to podrodzina roztoczy, które są komensalami występującymi na piórach ptaków siewkowych (Charadriiformes). 0,5 mm

MORPHOLOGY SEQUENCES Total evidence COMBINED Freyana anatina Bdellorhynchus Freyana polymorphus anatina 20 26 Bonnetella Pteronyssoides fusca striatus 10 Zachvatkinia Scutulanyssus larica obscurus 3 Bdellorhynchus polymorphus Bychovskiata subcharadrii 16 Bonnetella fusca Bychovskiata squatarolae 4 13 Zachvatkinia larica 1 Bychovskiata intermedia 5 Bychovskiata subcharadrii 5 5 Bychovskiata charadrii Ovofreyana kurbanovae 11 10 5 6 Bychovskiata semipalmati 8 3 Bychovskiata squatarolae 2 4 5 Bychovskiata Bychovskiata hypoleuci intermedia 8 15 3 Bychovskiata Bychovskiata dubia 14 charadrii 25 16 2 Ovofreyana Bychovskiata kurbanovae semipalmati 23 17 Pseudavenzoaria Bychovskiata indica hypoleuci 4 Bychovskiata dubia 4 Pseudavenzoaria ochropodis 3 20 Pomeranzevia ninnii Bregetovia mucronata Pseudavenzoaria 2indica 15 Bregetovia limosae Pseudavenzoaria 4 ochropodis 4 10 24 Bregetovia obtusolobata 20 Bregetovia mucronata 2 5 Avenzoaria totani 1-1 20 Bregetovia limosae 9 0 3 Avenzoaria 27 Bregetovia totani 2-1 obtusolobata 4 Avenzoaria Avenzoaria tringae terekiae 3 Avenzoaria 1 Avenzoaria phalaropi calidridis 1-1 5 6 Avenzoaria Avenzoaria calidridis 1-1 calidridis 2 12 2 5 Avenzoaria philomachi Avenzoaria calidridis 2 9 3 0 Avenzoaria phalaropi 3 1 Avenzoaria philomachi 1 Avenzoaria tringae Avenzoaria terekiae 3 Avenzoaria totani 1-1 1 Pomeranzevia 4 ninnii Avenzoaria totani 2-1 Pteronyssoides striatus 20 Scutulanyssus obscurus 4 Filogenia Avenzoariinae (c.d.) Drzewo morfologiczne jest stabilne w bazalnych partiach i słabo potwierdzone na szczycie. Drzewo molekularne ma słabe potwierdzenie u nasady, lecz ma bardzo dobrą rozdzielczość w szczytowych partiach. Drzewo kombinowane ma zalety obu poprzednich.

Drzewa uzgodnione (reconciled( trees) Avenzoariinae i ptaków siewkowych (Charadriiformes) Liczba drzew 3000 2500 2000 1500 1000 500 0 kospecjacja duplikacja zmiana żywiciela sortowanie 1 2 3 4 5 6 7 8 9 10 11 12 13 Liczba kos pe cjacji 2:10 000 Avenzoariinae ptaki siewkowe P - Numenius arquata M - Pomeranzevia ninnii P Limosa limosa M Bregetovia limosae P Phalaropus lobatus M Avenzoaria phalaropi P Xenus cinereus M Avenzoaria terekiae P Philomachus pugnax M Avenzoaria philomachi P Calidris alpina M - Avevzoaria calidridis 2 P - Calidris temminckii M - Avenzoaria calidridis 1-1 P Actitis hypoleucos M Bychovskiata charadrii P - Tringa glareola M - Avenzoaria totani 1-1 P - Tringa totanus M - Avenzoaria totani 2-1 P - Tringa nebularia M - Avenzoaria tringae M - Bregetovia obtusolobata P - Tringa erythropus M - Bregetovia mucronata P - Tringa solitaria M - Pseudavenzoaria indica P - Tringa ochropus M - Pseudavenzoaria ochropodis P - Himantopus himantopus M Bychovskiata subcharadrii P - Pluvialis squatarola M Bychovskiata squatarolae P - Vanellus leucurus M - Ovofreyana kurbanovae P - Charadrius leschenaulti M - Bychovskiata intermedia P - Charadrius dubius M - Bychovskiata dubia P - Charadrius hiaticula M - Bychovskiata charadrii P - Charadrius semipalmatus M - Bychovskiata semipalmati

Problematyczna filogenia mew co na to Thecarthra?

227 Oprogramowanie filogenetyczne

Niezbędnik Mały filogenetyk

PAUP Maksymalna Parsymonia Maximul Likelihood Neighbor-joining

Neighbor-joining MEGA

Maximum Likelihood PHYML

Wnioskowanie Bayesowskie MrBayes

MrBayes

Testowanie zegara molekularnego + -

Kalkulacja modeli substytucji

Graficzna prezentacja wyników TreeView Macclade WinClada Mesquite

Programy filogenetyczne EXECUTOR (emulator Maca): http://www.ardi.com/ardi.php PAUP: http://paup.csit.fsu.edu/ PHYLIP: http://evolution.genetics.washington.edu/phylip.html MEGA: http://www.megasoftware.net/ MrBAYES: http://mrbayes.csit.fsu.edu/index.php PHYML: http://atgc.lirmm.fr/phyml/ MODELTEST: http://darwin.uvigo.es/software/modeltest.html MrMODELTEST: http://www.ebc.uu.se/systzoo/staff/nylander.html AUTODECAY: http://www.bergianska.se/index_forskning_soft.html TIMER: http://www.bio.psu.edu/people/faculty/nei/software.htm r8s: http://ginger.ucdavis.edu/sandlab/software/software.htm TREEVIEW, NDE, TREEMAP, COMPONENT, GENETREE: http://taxonomy.zoology.gla.ac.uk/rod/rod.html MACCLADE: http://macclade.org/macclade.html w/w i inne programy: http://evolution.genetics.washington.edu/phylip/software.html