FILOGENETYKA Bioinformatyka, wykład 7 (24.XI.200.XI.2008) krzysztof_pawlowski@sggw.pl
Filogenetyka Cel rekonstrukcja historii ewolucji wszystkich organizmów. Klasyczne podejście: historia ewolucji jest odtwarzana na podstawie porównań cech morfologicznych i fizjologicznych badanych organizmów.
zadaniem filogenetyki molekularnej jest zrekonstruowanie związków filogenetycznych między badanymi sekwencjami podstawowe założenia w filogenetyce molekularnej: sekwencje przodka mutują w sekwencje potomków podobne gatunki sąs genetycznie blisko spokrewnione wyrazem analiz filogenetycznych są drzewa filogenetyczne
Tree of life (Darwin)
eukarionty Tree of life (dziś) archea bakterie
kręgowce grzyby rośliny
Taksony mono- i polifiletyczne
liść liść gatunek A gałąź gatunek C węzeł gatunek A gatunek B korzeń gatunek B węzeł długość gałę łęzi gatunek D gałąź długość gałę łęzi gatunek E gatunek C przykładowe nieukorzenione drzewo filogenetyczne przykładowe ukorzenione drzewo filogenetyczne
Węze zeł - reprezentuje jednostkę taksonomiczną (populację, organizm, gen). Może przedstawiać współcześnie istniejący takson, jak i jego przodka. Gałąź - obrazuje związki ewolucyjne między porównywanymi jednostkami taksonomicznymi. Długość gałę łęzi - zazwyczaj reprezentuje liczbę zmian, które się zdarzyły w danej linii ewolucyjnej. Korzeń - wspólny przodek dla wszystkich taksonów. Liść - reprezentuje aktualnie analizowaną jednostkę taksonomiczną.
Mechanizmy ewolucji - Mutacje w genach. Mutacje są rozprzestrzeniane w populacji poprzez dryf genetyczny lub/i selekcję naturalną - Duplikacja i rekombinacja genów.
Etapy analizy filogenetycznej Dobór i dopasowane sekwencji Wybór modelu substytucji Wybór metody oceny odległości ewolucyjnej Konstrukcja drzewka Ocena i analiza skonstruowanego drzewka
Dopasowanie wielu sekwencji Multiple sequence alignment (MSA) 16S rrna Thermus ruber UCCGAUGC-UAAAGA-CCGAAG=CUCAA=CUUCGG=GGGU=GCGUUGGA Th. thermophilus UCCCAUGU-GAAAGA-CCACGG=CUCAA=CCGUGG=GGGA=GCGUGGGA E.coli UCAGAUGU-GAAAUC-CCCGGG=CUCAA=CCUGGG=AACU=GCAUCUGA Ancyst.nidulans UCUGUUGU-CAAAGC-GUGGGG=CUCAA=CCUCAU=ACAG=GCAAUGGA B.subtilis UCUGAUGU-GAAAGC-CCCCGG=CUCAA=CCGGGG=AGGG=UCAUUGGA Chl.aurantiacus UCGGCGCU-GAAAGC-GCCCCG=CUUAA=CGGGGC=GAGG=CGCGCCGA match ** *** * ** ** * **
Metody tworzenia drzewek filogenetycznych Grupa sekwencji homologicznych Dopasowanie wielu sekwencji Silne podobieństwo sekwencji? tak Metoda maksymalnej parsymoni - MP nie Rozpoznawalne podobieństwo sekwencji? nie Metoda maksymalnej wiarygodności -ML tak Metody oparte na odległościach (dystansowe) Sprawdzanie poprawności rekonstrukcji
Metoda maksymalnej parsymonii - MP Drzewko filogenetyczne skonstruowane metodą MP to takie, które wymaga najmniejszej liczby zmian aby wyjaśnić obserwowane różnice w analizowanych sekwencjach
Metoda MP Seq1 Seq2 Seq3 Seq4 A A G A G T G C A A G C C G T G C G A G A T A T C C A A G A G A T C C G Miejsce informatywne dla sekwencji nukleotydowych to takie, w którym obserwuje się przynajmniej dwa różne nukleotydy i są one prezentowane przynajmniej w dwóch sekwencjach. 1 2 1 3 1 2 3 4 2 4 4 3
Position of sequences on the tree 1 2 3 4 1 3 2 4 1 2 4 3 Position 2 Seq1 Seq2 Seq3 Seq4 A A G A G T G C A A G C C G T G C G A G A T A T C C A A G A G A T C C G Position 3 mutacja Position 4 Position 5 Position 7 Position 8 Sum 11 10 12
Metoda maksymalnej wiarygodności Maksimum likelihood (ML) Drzewko filogenetyczne skonstruowane metodą ML to takie, które z największym prawdopodobieńswtem odtwarza obserwowane dane
Maximum likelihood method (ML) 1. Wyliczana jest wiarygodność (prawdopodobieństwo - L) dla każdego informatywnego miejsca 2. Następnie sumowane są wszystkie wartości L dla każdego możliwego drzewa 3. Porównywane są ze sobą wartości L dla każdego możliwego drzewa i wybierane jest to, które ma najwyższą wartość L - całościowe czyli Wybierane jest to drzewo, które przy danym modelu najbardziej pasuje do analizowanych danych
Rekonstrukcja drzewa metodą ML Sekwencja 1: ACGCGTTGGG Sekwencja 2: ACGCGTTGGG Sekwencja 3: ACGCAATGAA Sekwencja 4: AGACAGGGAA Analizujemy kolumnę Proponujemy układ drzewa Proponujemy układ nukleotydów Prawd = P(T) * P(T G) * P(G A) = 0.25*10-6 *10-6? ATGC Przydzielenie nukleotydów T? ATGC? ATGC T G 1 2 3 4 T T A G T T A G Likelihood konkretnej pozycji jest sumą prawdopodobieństw wszystkich możliwych rekonstrukcji przodków dla wybranego modelu.
Hipoteza zegara molekularnego (MC) Zaproponowana przez Zuckerkandla i Paulinga w roku 1962. Opiera się na założeniu, że tempo ewolucji (akumulacja mutacji) sekwencji nukleotydowej czy aminokwasowej jest w przybliżeniu stałe. Czyli różnice między sekwencjami dwóch gatunków są proporcjonalne do czasu jaki upłynął od momentu gdy oba gatunki miały wspólnego przodka.
tempo mutacji zależy y od regionu w genomie, genie, rodzaju genu, częś ęściej obserwuje się podstawienia w III pozycjach kodonów częś ęściej obserwuje się podstawienia typu tranzycji niż transwersji częś ęściej obserwuje się podstawienia między aminokwasami a podobnymi do siebie, ze względu na swoje właściwow ciwości biochemiczne, biofizyczne np.: rzadko obserwuje się podstawienia między aminokwasami a pełni niącymi ważne role w białkach, jak: cysteina (C) czy tryptofan (W) rewersja izoleucyna (I) leucyna (L), valina (V) izoleucyna (I), kwas asparaginowy (D) kwas glutaminowy (E), rzadko obserwuje się podstawienia między aminokwasami bardzo różniącymi się swoimi własnow asnościami tryptofan (W) izoleucyna (I) niektóre aminokwasy, takie jak: asparagina (N),, kwas asparaginowy (D), seryna (S) mutują częś ęściej niż inne możliwo liwość wystąpienia wielokrotnych podstawień
Protein Rate (mean replacements per site per 10 9 years) Fibrinopeptides 8.3 Insulin C 2.4 Ribonuclease Haemoglobins 2.1 1.0 Cytochrome C 0.3 Histone H4 0.01
przodek 2 zmiany w stosunku do przodka 5 zmian w stosunku do przodka 6 zmian w stosunku do przodka 4 zmian w stosunku do przodka 5 zmian w stosunku do przodka potomek MELSKLTGDPAREKELKMLMELSKLTGDPAPFVYRVLKRL MELSKTTGDPARRKELKMLMELSKLTGDPAPFVYRVLKRL MELSKTTGDPARRKELSMLMKLSKLTGDPAPFVYRVGKRL MELSKTTGDPARQKELSMLMKLSKLTGDPAPFYYRVGKRL MELSKLTGDPARQKELSMLMKLSKLTGDPAPFVYRVGKRL MELSKLTGDPARQKELSMLWKLSKLTGDRAPFVYRVLKRL rzeczywista liczba podstawień 2 zmiany 3 zmiany 2 zmiany 2 zmiana 3 zmiany = 12 zmian różnice między sekwencjami niedoszacowanie zaobserwowana liczba różnic nic czas ewolucji
tranzycje i transwersje
Macierze substutucji nukleotydów Juckes-Cantor K80 (Kimura) TN93 (Tamura-Nei, 93) TN93 rozróżnia tranzycje i transwersje, oraz typ tranzycji: czy zaszła ona między purynami czy pirymidynami
Percent Accepted Mutation PAM1 - M. Dayhoff 1978r. Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val A R N D C Q E G H I L K M F P S T W Y V Ala A 9867 2 9 10 3 8 17 21 2 6 4 2 6 2 22 35 32 0 2 18 Arg R 1 9913 1 0 1 10 0 0 10 3 1 19 4 1 4 6 1 8 0 1 Asn N 4 1 9822 36 0element 4 6 6M21 3 1 13 0 1 2 20 9 1 4 1 IJ tej macierzy reprezentuje Asp D 6 0 42 9859 0 6 53 6 4 1 0 3 0 0 1 5 3 0 0 1 Cys C 1 1 0 0 9973prawdopodobieństwo 0 0 0 1 1 0 0 0z jakim 0 1 aminokwas 5 1 0 3 2 Gln Q 3 9 4 5 0w 9876 kolumnie 27 1 23 j zostanie 1 3 6 4podstawiony 0 6 2 2 przez 0 0 1 Glu E 10 0 7 56 0 35 9865 4 2 3 1 4 1 0 3 4 2 0 1 2 Gly G 21 1 12 11 1aminokwas 3 7 9935 1z wiersza 0 1 2 i1w 1czasie 3 21 3 0 0 5 His H 1 8 18 3 1ewolucyjnym 20 1 0 9912 01 PAM 1 1 0 2 3 1 1 1 4 1 Ile I 2 2 3 1 2 1 2 0 0 9872 9 2 12 7 0 1 7 0 1 33 Leu L 3 1 3 0 0 6 1 1 4 22 9947 2 45 13 3 1 3 4 2 15 Lys K 2 37 25 6 0 12 7 2 2 4 19926 20 0 3 8 11 0 1 1 Met M 1 1 0 0 0 2 0 0 0 5 8 4 9874 1 0 1 2 0 0 4 Phe F 1 1 1 0 0 0 0 1 2 8 6 0 4 9946 0 2 1 3 28 0 Pro P 13 5 2 1 1 8 3 2 5 1 2 2 1 19926 12 4 0 0 2 element diagonalny M Ser S 28 11 34 7 11 4 6 16 2 2 ii 1 7 4 3 17 9840 38 5 2 2 Thr T 22 2prawdopodobieństwo, 13 4 1 3 2 2 1 11 że określa 2 dany 8 6 1 5 329871 0 2 9 Trp W 0 2aminokwas 0 0 0 0 nie 0 ulegnie 0 0 0 0 0 0 1 0 1 09976 1 0 Tyr T 1 0substytucji 3 0 3 0 w 1tym 0 czasie 4 1 1 0 0 21 0 1 1 29945 1 Val V 13 2 1 1 3 2 2 3 3 57 11 1 17 1 3 2 10 0 29901 Elementy pomnożone zostały przez 10 000
M. Dayhoff i współpracownicy pracownicy 1978r. JEDNOSTKA PAM (Percent ercent Accepted Mutation) miara odległości ewolucyjnej między sekwencjami. 1 PAM odpowiada takiemu czasowi ewolucyjnemu, podczas którego, w porównywanych sekwencjach, zmianie ulegnie 1 aminokwas na 100 (ok. 1 mln lat) 1000 aminokwasów MELSKLTGDPAPFVYRVLKR... SKLTGDPAP... KVVFRISESPMIFKAYPLDI... MELSKLTGDPA... REKELKMLMELSKLTGDPAPFVYRVLKRL... LDIVLSSLIHEREKELKML MELSKLTDDPAPFVYRYLKR... SKLTQDPAP... KVVFRISRSPWIFKAVPLDI... MELSKTTGDPA... REKELDMLMELSKLTGDPAPFVYRVFKRL... LDIVLSSLIHERRKELKML Zmianie uległo 10/1000 = 1/100 aminokwasów, czyli 1% 10 zmienionych aminokwasów
Ewolucyjna macierz PAM Macierz PAM - Percent Accepted Mutations (Dayhoff i współpr pr.. 1978) Utworzona przez porównanie blisko spokrewnionych sekwencji białek (ponad 85% identyczności) ci) o znanych powiązaniach filogenetycznych; naliczenie 1572 zmian zaakceptowanych (przez selekcję) ) w 71 grupach białek. Uwzględnia mutabilności poszczególnych aminokwasów MWTVSALV SALVGQ MWTVSALV SALVGQ MWTASALV SALVGQ MWTVSALV SALVLQ MWTASALV SALVGQ MWTVSALV SALVLQ V -> A G -> L
Macierz PAM log odds Wyliczenie wartości log odds: log odds = log (Po/ o/pe) Po obserwowana częstotliwo stotliwość występowania mutacji Pe oczekiwana częstotliwo stotliwość występowania mutacji (losowa) jeżeli eli log odds < 0: dana substytucja zachodzi rzadziej niż należało o się spodziewać jeżeli eli log odds > 0: dana substytucja zachodzi częś ęściej niż należało o się spodziewać (np.. +1 oznacza, że e dana substytucja jest obserwowana 10 razy częś ęściej niż należało o się spodziewać) jeżeli eli log odds = 0: dana substytucja zachodzi z taką samą często stością jak w sekwencji losowej
A R N D C Q E G H I L K M F P S T W Y V A 2 R -22 6 N 0 0 2 D 0-11 2 4 C -2-4 -4-55 12 Q 0 1 1 2-55 4 E 0-11 1 3-55 2 4 G 1-33 0 1-3 -11 0 5 H -11 2 2 1-33 3 1-22 6 I -1-2 -2-2 -2-2 -2-3 -22 5 L -2-3 -3-4 -6-2 -3-4 -22 2 6 K -11 3 1 0-55 1 0-22 0-2 -33 5 M -11 0-2 -3-5 -1-2 -3-22 2 4 0 6 F -4-4 -4-6 -4-5 -5-5 -22 1 2-55 0 9 Rzadkie aminokwasy mają duże e wagi P 1 0-1 -1-33 0-1 -11 0-2 -3-1 -2-55 6 S 1 0 1 0 0-11 0 1-1 -1-33 0-2 -33 1 2 T 1-11 0 0-2 -11 0 0-11 0-22 0-1 -33 0 1 3 Pospolite aminokwasy mają małe e wagi W -66 2-4 -7-8 -5-7 -7-3 -5-2 -3-44 0-6 -2-55 17 Y -3-4 -2-44 0-4 -4-55 0-1 -1-4 -22 7-5 -3-33 0 10 V 0-2 -2-2 -2-2 -2-1 -22 4 2-22 2-1 -1-11 0-6 -22 4
A R N D C Q E G H I L K M F P S T W Y V A 2 R -22 6 N 0 0 2 D 0-11 2 4 C -2-4 -4-55 12 Q 0 1 1 2-55 4 E 0-11 1 3-55 2 4 G 1-33 0 1-3 -11 0 5 H -11 2 2 1-33 3 1-22 6 I -1-2 -2-2 -2-2 -2-3 -22 5 L -2-3 -3-4 -6-2 -3-4 -22 2 6 K -11 3 1 0-55 1 0-22 0-2 -33 5 M -11 0-2 -3-5 -1-2 -3-22 2 4 0 6 F -4-4 -4-6 -4-5 -5-5 -22 1 2-55 0 9 P 1 0-1 -1-33 0-1 -11 0-2 -3-1 -2-55 6 S 1 0 1 0 0-11 0 1-1 -1-33 0-2 -33 1 2 T 1-11 0 0-2 -11 0 0-11 0-22 0-1 -33 0 1 3 Dodatnie wartości dla częstszych podstawień W -66 2-4 -7-8 -5-7 -7-3 -5-2 -3-44 0-6 -2-55 17 Y -3-4 -2-44 0-4 -4-55 0-1 -1-4 -22 7-5 -3-33 0 10 V 0-2 -2-2 -2-2 -2-1 -22 4 2-22 2-1 -1-11 0-6 -22 4
A R N D C Q E G H I L K M F P S T W Y V A 2 R -22 6 N 0 0 2 D 0-11 2 4 C -2-4 -4-55 12 Q 0 1 1 2-55 4 E 0-11 1 3-55 2 4 G 1-33 0 1-3 -11 0 5 H -11 2 2 1-33 3 1-22 6 I -1-2 -2-2 -2-2 -2-3 -22 5 L -2-3 -3-4 -6-2 -3-4 -22 2 6 K -11 3 1 0-55 1 0-22 0-2 -33 5 M -11 0-2 -3-5 -1-2 -3-22 2 4 0 6 F -4-4 -4-6 -4-5 -5-5 -22 1 2-55 0 9 P 1 0-1 -1-33 0-1 -11 0-2 -3-1 -2-55 6 S 1 0 1 0 0-11 0 1-1 -1-33 0-2 -33 1 2 T 1-11 0 0-2 -11 0 0-11 0-22 0-1 -33 0 1 3 Ujemne wartości dla rzadkich podstawień W -66 2-4 -7-8 -5-7 -7-3 -5-2 -3-44 0-6 -2-55 17 Y -3-4 -2-44 0-4 -4-55 0-1 -1-4 -22 7-5 -3-33 0 10 V 0-2 -2-2 -2-2 -2-1 -22 4 2-22 2-1 -1-11 0-6 -22 4
Ewolucyjna macierz PAM Ekstrapolowanie często stości podstawień zaobserwowanych na krótkich dystansach na dłuższe d dystansy ewolucyjne mnożenie macierzy przez siebie uzyskanie serii tablic PAM: PAM1 -> > PAM60, PAM80, PAM120, PAM250 Podobieństwo: 99% 60% 50% 40% 20% Liczba podstawień na miejsce: 0.01 0.6 0.8 1.2 2.5
Macierz PAM wady z powodu założeń: Podstawienia aminokwasów w zachodzą niezależnie od siebie. W rzeczywistości ci zmiany w różnych r regionach sekwencji sąs ze sobą skorelowane. Te same tempo podstawień w różnych r regionach sekwencji. W rzeczywistości ci różne r regiony wykazują różny stopień konserwatywności i ewoluują z różnąr prędko dkością. W różnych r regionach różne r podstawienia zdarzają się z różnąr często stością. Często stość poszczególnych podstawień nie zmieniają się w czasie. W rzeczywistości ci często stości podstawień mogą się zmieniać w czasie.
Macierz BLOSUM Macierz BLOSUM BLOcks Substitution Matrix (Henikoff i Henikoff 1992) Utworzona przez porównanie około o 2000 zachowanych bloków w (regionów sekwencji) w ponad 500 rodzinach białek o różnej r odległości ewolucyjnej. Bloki sąs regionami sekwencji odpowiedzialnymi za podobną funkcję biochemiczną lub strukturę. Macierze dla różnych r odległości ewolucyjnych zostały y wyliczone z porównania sekwencji odpowiednio odległych: BLOSUM30 bloki sekwencji o co najmniej 30% identyczności ci reszt aminokwasowych BLOSUM62 bloki sekwencji o co najmniej 62% identyczności ci reszt aminokwasowych BLOSUM80 bloki sekwencji o co najmniej 80% identyczności ci reszt aminokwasowych
Macierz BLOSUM BLOcks Substitution Matrix bloki
A 4 A R N D C Q E G H I L K M F P S T W Y V R -11 5 N -22 0 6 D -2-22 1 6 C 0-3 -3-33 9 Q -11 1 0 0-33 5 E -11 0 0 2-44 2 5 G 0-22 0-1 -3-2 -22 6 H -22 0 1-1 -33 0 0-22 8 Macierz BLOSUM62 I -1-3 -3-3 -1-3 -3-4 -33 4 L -1-2 -3-4 -1-2 -3-4 -33 2 4 K -11 2 0-1 -33 1 1-2 -1-3 -22 5 M -1-1 -2-3 -11 0-2 -3-22 1 2-11 5 F -2-3 -3-3 -2-3 -3-3 -11 0 0-33 0 6 P -1-2 -2-1 -3-1 -1-2 -2-3 -3-1 -2-44 7 S 1-11 1 0-11 0 0 0-1 -2-22 0-1 -2-11 4
PAM Vs. BLOSUM PAM100 =~ BLOSUM90 PAM120 =~ BLOSUM80 PAM160 =~ BLOSUM60 Bardziej odległe sekwencje PAM200 =~ BLOSUM52 PAM250 =~ BLOSUM45
Inne macierze substutucji aminokwasowów Oparte na kodzie genetycznym - związane zane z kodowaniem aminokwasów w przez kodony (Fitch( 1966; Benner i współpr pr.. 1994) Uwzględniaj dniające właściwow ciwości fizyko-chemiczne aminokwasów w (Vogt( i współpr pr.. 1995) i podobieństwo strukturalne łańcuchów w bocznych (Feng( i współpr pr.. 1985) Uwzględniaj dniające strukturę trzeciorzędow dową (Risler i współpr pr.. 1988; Johnson i Overington 1993; Henikoff i Henikoff 1993; Sander i Schneider 1991) Macierz dwupeptydów (Gonnet i współpr pr.. 1994) - 400 x 400, uwzględnia wpływ przyległych ych aminokwasów w na często stość substytucji Macierz PAM z uwzględnieniem białek transmembranowych (Jones i współpr pr. 1994)
Etapy analizy filogenetycznej Dobór i dopasowane sekwencji Wybór modelu substytucji Wybór metody oceny odległości ewolucyjnej Konstrukcja drzewka Ocena i analiza skonstruowanego drzewka
UPMGA Unweighted Pair Group Method with Arithmetic Mean 0.047 0.047 0.056 0. 094 0.108 Human Chimpanzee Gorilla Orangutan Gibbon FM Fitch - Margoliash
NJ - Neighbour joining A E D A A E B C B B D C
Ocena poprawności rekonstrukcji filogenetycznej metoda bootstrap Site OTU 1 2 3 4 5 6 7 8 9 10 1 2 3 4 A A C C Site OTU 1 2 3 4 5 6 7 8 9 10 1 2 3 4 T C A G A T C T A G T T A G A A C T A G T T C G A T C G A G T T C T A A G G A C C T T T T A T A A A A A G G G C C C C G A A A A T A T A T T T T A A A A oryginalne dopasowanie powtórne dopasowanie 1 2 3 4 1 3 2 4 Losujemy nowe kolumny dopasowania (z powtórzeniami!) Powtarzamy 100-1000 i tworzymy drzewko konsensusowe
Wartości bootstrap: > 95% topologia drzewka bardzo prawdopodobna < 75% nie ma wystarczająco silnych dowodów potwierdzających taką topologię drzewka co wcale nie oznacza, że nie jest ona prawidłowa!!!