Filogenetyka Dr Marek D. Koter, dr hab. Marcin Filipecki Katedra Genetyki, Hodowli i Biotechnologii Roślin, SGGW 1
Twórcy teorii ewolucji Charles Darwin Jean Baptiste de Lamarck Podróż HMS Beagle 2
i zbrodniczy szarlatan. Trofim Denisowicz Łysenko Gen i chromosom Thomas Hunt Morgan Gregor Mendel 3
Kościół Katolicki wobec ewolucji Katolik.pl Filogenetyka Cel rekonstrukcja historii ewolucji wszystkich organizmów Klasyczne podejście: historia ewolucji jest odtwarzana na podstawie porównań cech morfologicznych i fizjologicznych badanych organizmów. 4
Cechy, które mogą być użyte do budowy drzewa rzędów owadów: Poruszanie się Okrycie stwardniałym oskórkiem lub kokonem, Widoczność niezupełnie rozwiniętych narządów Widoczność niecałkowicie wykształconych i nie funkcjonujących odnóży, Widoczność zawiązków skrzydeł Widoczność aparatu gębowego Zdolność do aktywnego poruszania się Pełne wykształcenie narządów lokomotorycznych Pełne wykształcenie zmysłów Obecność członowanych odnóży krocznych Liczba członowanych odnóży krocznych Obecność pseudopodiów Liczba pseudopodiów Geny, które bierze się najczęściej do budowy drzew genów: Cytochrom B NADH dehydrogenase subunit I (ND1) 18S RNA 28S RNA 5
Filogenetyka Molekularne podejście: zadaniem filogenetyki molekularnej jest zrekonstruowanie związków filogenetycznych między badanymi sekwencjami Podstawowe założenie w filogenetyce molekularnej: sekwencje przodka mutują w sekwencje potomków podobne gatunki są genetycznie blisko spokrewnione Mechanizmy ewolucji Mutacje w genach Mutacje są rozprzestrzeniane w populacji poprzez dryf genetyczny i/lub selekcję naturalną Duplikacja i rekombinacja genów 6
tempo mutacji zależy od regionu w genomie, genie, rodzaju genu; częściej obserwuje się podstawienia w III pozycji kodonów; CCG (prolina) zmiana G na jakikolwiek nt nie powoduje zmiany aminokwasu CTG (leucyna) zmiana C-T nie powoduje zmian zmiana SYNONIMICZNA zmiana NIESYNONIMICZNA częściej obserwuje się podstawienia typu tranzycji (purynapuryna, pirymidyna-pirymidyna) niż transwersji; częściej obserwowane są podstawienia między aminokwasami podobnymi do siebie, ze względu na swoje właściwości biochemiczne, biofizyczne, np.: izoleucyna lecyna walina izoleucyna Kwas asparaginowy kwas glutaminowy OBOWIĄZUJĄCE SYMBOLE AMINOKWASÓW Symbol 3-literowy znaczenie kodony A Ala Alanina GCT, GCC, GCA, GCG B Asp, Asn Asparagina, Asparaginian GAT, GAC, AAT, AAC C Cys Cysteina TGT, TGC D Asp Asparaginian GAT, GAC E Glu Glutaminian GAA, GAG F Phe Fenyloalanina TTT, TTC G Gly Glicyna GGT, GGC, GGA, GGG H His Histydyna CAT, CAC I Ile Izoleucyna ATT, ATC, ATA K Lys Lizyna AAA, AAG L Leu Leucyna TTG, TTA, CTT, CTC, CTA, CTG M Met Metionina ATG N Asn Asparagina AAT, AAC P Pro Prolina CCT, CCC, CCA, CCG Q Gln Glutamina CAA, CAG R Arg Arginina CGT, CGC, CGA, CGG, AGA, AGG S Ser Seryna TCT, TCC, TCA, TCG, AGT, AGC T Thr Treonina ACT, ACC, ACA, ACG V Val Walina GTT, GTC, GTA, GTG W Trp Tryptofan TGG X Xxx Nieznany Y Tyr Tyrozyna TAT, TAC Z Glu, Gln Glutaminian, Glutamina GAA, GAG, CAA, CAG * End Terminator TAA, TAG, TGA 7
rzadko obserwuje się podstawienia między aminokwasami bardzo różniącymi się swoimi właściwościami: tryptofan izoleucyna rzadko obserwuje się podstawienia między aminokwasami pełniącymi ważne role w białkach: tryptofan (TGG) na kodon stop (TAG) mutacje missens jeden aminokwas zastępowany innym mutacje nonsens terminacja translacji zmiana ramki odczytu Wyrazem analiz filogenetycznych są drzewa filogenetyczne między cząsteczkami drzewo genów lub organizmami drzewo gatunków 8
Korzeń wspólny przodek dla wszystkich taksonów Gałąź obrazuje związki ewolucyjne między porównywanymi jednostkami taksonomicznymi Długość gałęzi zazwyczaj reprezentuje liczbę zmian, które się zdarzyły w danej linii ewolucyjnej Węzeł reprezentuje miejsce rozgałęzień jednostek taksonimicznych (populacji, organizmu, genu). Liść reprezentuje aktualnie analizowaną jednostkę taksonomiczną Drzewa ukorzenione i nieukorzenione znany wspólny przodek lub istnieje hipoteza na temat wspólnego przodka / nieznany wspólny przodek Topologia drzewa Długość gałęzi (czas ewolucji, ilość zmian) 9
Przykładowe drzewa filogenetyczne Po co konstruuje się drzewa filogenetyczne? Poznanie i zrozumienie historii ewolucyjnej Mapowanie różnicowania szczepów patogennych do opracowania szczepionek Wsparcie dla epidemiologów Choroby infekcyjne Defekty genetyczne Narzędzie do przewidywania funkcji nowo odkrytych genów Badania różnicowania układów biologicznych Poznanie ekologii mikroorganizmów 10
Filogenetyka zwana jest czasem kladystyką Klad zbiór potomków pochodzących od pojedynczego przodka Podstawowe założenia kladystyki: 1. każda grupa organizmów jest spokrewniona przez pochodzenie od wspólnego przodka 2. kladogeneza ma charakter bifurkacyjny (rozwidlający się) 3. zmiany w cechach pojawiają się w liniach filogenetycznych z upływem czasu Drzewo genów: bifurkacja mutacja Drzewo gatunków: bifurkacja specjacja Mutacja warunek niezbędny, ale nie zawsze wystarczający do specjacji 11
Często zapominamy o: I Domniemany znak równości między podobieństwem zestawu cech (np. nukleotydów), a pochodzeniem II Mutacje somatyczne mutacje genetyczne Mutacja DNA lub białka wydziela się z tkanek somatycznych, dla filogenezy istotne są tylko mutacje w gametach III Cechy używane do budowy drzewa gatunków mają się nijak do cech używanych do budowy drzewa genów Homolog, ortolog, paralog 12
Horyzontalny transfer genów Niektóre domyślne założenia kladystyki: sekwencje są poprawne sekwencje są homologiczne Podobieństwo to wielkość obserwowalna, którą można określić np. jako % identycznych aminokwasów. Homologia określa wspólne pochodzenie porównywanych genów (to może być wniosek wyciągnięty z analizy podobieństwa) Termin homologiczne oznacza odziedziczone po wspólnym przodku 13
Niektóre domyślne założenia kladystyki (cd): każda pozycja w sekwencjach dopasowanych (alignment) jest homologiczna z każdą odpowiednią pozycją w tym dopasowaniu różnorodność sekwencji w danym zbiorze jest na tyle duża, że zawiera filogenetyczne sygnały, odpowiednie do rozwiązania postawionego problemu Jakich sekwencji użyć? DNA (mt, rdna, powoli czy szybko ewoluujące) Bardzo szczegółowe, niejednolite tempo mutacji cdna/rna Użyteczne dla bardziej odległych sekwencji homologicznych Sekwencje białkowe Użyteczne do badania większości odległych sekwencji homologicznych, możliwość konstrukcji bardzo rozległych ewolucyjnie drzew, bardziej jednolite tempo zmienności mutacyjnej, więcej elementów zmienności 14
Sekwencje rybosomowego 16S RNA Występują we wszystkich organizmach Są wysoce konserwatywne Nadają się do konstruowania bardzo rozległych ewolucyjnie drzew Znane dla kilkudziesięciu tysięcy organizmów, głównie prokariotycznych Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Co jest obliczane? Topologia drzewa porządek (kolejność) odgałęzień i korzeń Długość odgałęzień (czas ewolucji) Sekwencje przodków Wartości pokrewieństwa (np. prawdopodobieństwo poszczególnych przemian) Wiarygodność drzewa 15
Etapy analizy Pobranie sekwencji DNA/RNA/białka Wzajemne dopasowanie sekwencji (multiple alignment) Obliczanie dystansów dla poszczególnych par Konstruowanie drzewa: topologia + długość odgałęzień Oszacowanie wiarygodności Wizualizacja Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Dopasowywanie sekwencji (Multiple Sequence Alignment) Dopasowanie spokrewnionych sekwencji w taki sposób, żeby odpowiadające sobie pozycje znajdowały się w tej samej kolumnie Wypełnienie brakujących miejsca kreskami (delecje, insercje) Każda kolumna znaków staje się pojedynczym elementem do dalszych obliczeń filogenetycznych Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski 16
Dopasowanie i porównanie wielu sekwencji Celem porównania wielu sekwencji jest ułożenie w kolumnach aminokwasów (nukleotydów) pochodzących od jednego aminokwasu (nukleotydu) w białku (genie) wspólnego przodka we wszystkich sekwencjach od niego pochodzących. Wstawienie przerwy Porównanie parami Porównanie parami wszystkich sekwencji - seq_1 & seq_ 2 0.91 seq_ 1 & seq_ 3 0.23 seq_ 8 & seq_ 9 0.87 17
Porównanie wielu sekwencji W oparciu o dendrogram przewodni zaczyna się porównywanie grup sekwencji. Drzewo przewodnie wskazuje, które sekwencje są najbliższe a więc najpierw porównuje się te łatwe, a trudniejsze zostawia się na potem. 18
Sekwencje nieułożone a b c d e mthislgslyshktaktingsdeaskmewhf mthvslgsmyshktgrtingsdqaskkmewhy mshisitmyshktartidgseqaskmewhy mthipigsmyshktaravngseqasklqwhy mthipigsmystartincseqasklewhy Porównanie wielu sekwencji C D E mthipigsmyshktaravngseqasklqwhy mthipigsmys--tartincseqasklewhy A B 19
Porównanie wielu sekwencji C D E A B mthipigsmyshktaravngseqasklqwhy mthipigsmys--tartincseqasklewhy mthislgslyshktaktingsdeas-kmewhf mthvslgsmyshktgrtingsdqaskkmewhy Porównanie wielu sekwencji C D E A B mshisi-tmyshktartidgseqaskmewhy mthipigsmyshktaravngseqasklqwhy mthipigsmys--tartincseqasklewhy mthislgslyshktaktingsdeas-kmewhf mthvslgsmyshktgrtingsdqaskkmewhy 20
Porównanie wielu sekwencji C D E A B mshisi-tmyshktartidgseqas-kmewhy mthipigsmyshktaravngseqas-klqwhy mthipigsmys--tartincseqas-klewhy mthislgslyshktaktingsdeas-kmewhf mthvslgsmyshktgrtingsdqaskkmewhy Sekwencje ułożone a b c d e mthislgslyshktaktingsdeas-kmewhf mthvslgsmyshktgrtingsdqaskkmewhy mshisi-tmyshktartidgseqas-kmewhy mthipigsmyshktaravngseqas-klqwhy mthipigsmys--tartincseqas-klewhy 21
Metody obliczeniowe konstruowania drzew filogenetycznych Metody analizy odległościowe (distance methods) met. średnich połączeń (UPGMA; unweighted pair group method with arithmetic mean, - met. przyłączania sąsiadów (NJ; neighbor joining) - met. Fitch-Margoliash (FM) - met. minimalnych odległości (ME) Metody oparte na cechach (character based methods) - met. największej oszczędności (MP; Maximum Parsimony) - met. największej wiarygodności (ML; Maximum Likelihood) - met. oparta na statystyce Bayesa (BI: Bayesian Inference) Łączenie drzew - drzewa konsensusowe, superdrzewa Budowa dendrogramu przewodniego Skonstruowanie dendrogramu przewodniego w oparciu o porównania parami Metoda średnich połączeń - UPGMA unweighted pair group method with arithmetic mean (PileUp & Clustal V) Metoda przyłączania sąsiada - Neighbor-Joining (NJ) (Clustal W, Clustal X) 22
Metody odległościowe Odległość wyrażana jest w ułamkach miejsc, którymi różnią się między sobą 2 sekwencje w wielokrotnym przyrównaniu Para sekwencji różniąca się w 10% miejsc jest bliżej spokrewniona niż para różniąca się w 30%. Metody odległościowe przodek linia potomna liczba zmian A C A 0 A C G 1 A C 0 C 23
Metoda nieważona grupowania parami ze średnią arytmetyczną UPGMA program znajduje najpierw parę taksonów, którą dzieli najmniejsza różnica i ustala punkt rozejścia między nimi, czyli węzeł, w połowie odległości. łączy je w klaster i wpisuje do nowej macierzy odległości dzielące ten klaster od pozostałych powtarzanie tych etapów, aż macierz zostanie zredukowana do 1 obiektu 24
UPGMA - krok 1 A B C D E A 0 6 9 11 9 B 6 0 7 9 7 C 9 7 0 8 6 D 11 9 8 0 4 E 9 7 6 4 0 D E UPGMA - krok 2 A B C DE A 0 6 9 10 B 6 0 7 8 C 9 7 0 7 DE 10 8 7 0 D E A B 25
UPGMA - krok 3 AB C DE AB 0 8 9 C 8 0 7 DE 9 7 0 C D E A B UPGMA - krok 4 AB CDE AB 0 8.5 CDE 8.5 0 C D E A B 26
A B C D E 1. 2. A 0 6 9 11 9 B 6 0 7 9 7 C 9 7 0 8 6 D 11 9 8 0 4 E 9 7 6 4 0 AB C DE AB 0 8 9 C 8 0 7 DE 9 7 0 C D E A B D E 3. 4. A B C DE A 0 6 9 10 B 6 0 7 8 C 9 7 0 7 DE 10 8 7 0 AB CDE AB 0 8.5 CDE 8.5 0 D E A B C D E A B UPGMA Hipoteza zegara molekularnego ewolucja różnych gatunków zachodzi w takim samym tempie (FAŁSZ) Rzadko używana metoda przez filogenetyków, nadal popularna w epidemiologii drobnoustrojów 27
Metody odległościowe przyłączanie sąsiadów (NJ) umożliwia konstruowanie nieukorzenionych drzew drzewa addytywne odległość pomiędzy gatunkami reprezentowanymi przez liście drzewa są równe sumie długości łączących je gałęzi (odległości od obu taksonów do węzła nie muszą być identyczne) i n j Metody oparte na cechach metoda największej oszczędności (MP) metoda największej wiarygodności (ML) metoda oparta na statystyce Bayesowskiej 28
Metoda największej oszczędności (MP) Metoda parsymonii (oszczędności) najodpowiedniejsze jest takie drzewo, w którym potrzebujemy najmniejszej liczby zmian do wyjaśnienia danych występujących jako przyrównanie sekwencji. Kryterium parsymonii Które drzewo jest najprostszym wytłumaczeniem obserwowanego zróżnicowania cechy między gatunkami? + wykształcenie się cechy * utracenie cechy + + * + + A B C D A D C B A C D B 29
Metoda największej wiarygodności Poszukiwanie drzewa, które zgodnie z określonym modelem ewolucji maksymalnie uwiarygodnia dane. Wiarygodność obliczamy dla: topologii drzewa długości gałęzi wartości wskaźników tempa podstawień (częstość występowania zasady, liczba tranzycji / liczby transwersji) Wyznaczenie wartości ML może posłużyć do utworzenia rankingu alternatywnych drzew. Metoda bootstrap Pozwala oszacować wiarygodność rozgałęzień w drzewach Porównuje topologię drzewa dla losowo wygenerowanych dopasowań sekwencji (100 1000 dopasowań) Drzewo z wartościami bootstrap (odsetek wygenerowanych drzew, w których obserwowano dokładnie takie samo rozgałęzienie linii ewolucyjnych) 30
Charlie Sheen Thomas Bayes 31
32
33
Dobór właściwego algorytmu Niedyskretny charakter zmiennych jednostek, duża ilość danych, niewielkie zasoby obliczeniowe ==> Metoda najbliższego sąsiedztwa (Neighbor joining) Dyskretny charakter zmiennych, niewielka liczba mutacji/homoplazja ==> Maximum Parsimony Dyskretny charakter zmiennych, ograniczona długość sekwencji, występowanie zjawiska homoplazji ==>Maximum Likelihood Dyskretny charakter zmiennych, wiele gatunków ==>Superdrzewo Kompletne genomy ==>Filogeneza całych genomów 34