FILOGENETYKA Bioinformatyka, wykład 8 c.d. (7.XII.2010) 0) krzysztof_pawlowski@sggw.pl
Filogenetyka Cel rekonstrukcja historii ewolucji wszystkich organizmów. Klasyczne podejście: historia ewolucji jest odtwarzana na podstawie porównań cech morfologicznych i fizjologicznych badanych organizmów.
zadaniem filogenetyki molekularnej jest zrekonstruowanie związków filogenetycznych między badanymi sekwencjami podstawowe założenia w filogenetyce molekularnej: sekwencje przodka mutują w sekwencje potomków podobne gatunki sąs genetycznie blisko spokrewnione wyrazem analiz filogenetycznych są drzewa filogenetyczne
Tree of life (Darwin)
eukarionty Tree of life (dziś) archea bakterie
kręgowce grzyby rośliny
Tree of life? Biology Direct 2009, 4:33
Genome Biology 2006, 7:116
Taksony mono- i polifiletyczne
Węze Długość Liść zeł Gałąź - -reprezentuje gałę Korzeń -łęzi obrazuje - zazwyczaj - wspólny jednostkę aktualnie związki przodek reprezentuje taksonomiczną ewolucyjne analizowaną dla wszystkich liczbę między jednostkę (populację, zmian, porównywanymi taksonów. taksonomiczną. które organizm, się zdarzyły gen). Może przedstawiaćjednostkami współcześnie w danej linii taksonomicznymi. istniejący ewolucyjnej. takson, jak i jego przodka. liść liść gatunek A gałąź gatunek C węzeł gatunek A gatunek B korzeń gatunek B węzeł długość gałę łęzi gatunek D gałąź długość gałę łęzi gatunek E gatunek C przykładowe nieukorzenione drzewo filogenetyczne przykładowe ukorzenione drzewo filogenetyczne
Mechanizmy ewolucji - Mutacje w genach. Mutacje są rozprzestrzeniane w populacji poprzez dryf genetyczny lub/i selekcję naturalną - Duplikacja i rekombinacja genów.
Etapy analizy filogenetycznej Dobór i dopasowane sekwencji Wybór modelu substytucji Wybór metody oceny odległości ewolucyjnej Konstrukcja drzewka Ocena i analiza skonstruowanego drzewka
Dopasowanie wielu sekwencji Multiple sequence alignment (MSA) 16S rrna Thermus ruber UCCGAUGC-UAAAGA-CCGAAG=CUCAA=CUUCGG=GGGU=GCGUUGGA Th. thermophilus UCCCAUGU-GAAAGA-CCACGG=CUCAA=CCGUGG=GGGA=GCGUGGGA E.coli UCAGAUGU-GAAAUC-CCCGGG=CUCAA=CCUGGG=AACU=GCAUCUGA Ancyst.nidulans UCUGUUGU-CAAAGC-GUGGGG=CUCAA=CCUCAU=ACAG=GCAAUGGA B.subtilis UCUGAUGU-GAAAGC-CCCCGG=CUCAA=CCGGGG=AGGG=UCAUUGGA Chl.aurantiacus UCGGCGCU-GAAAGC-GCCCCG=CUUAA=CGGGGC=GAGG=CGCGCCGA match ** *** * ** ** * **
Metody tworzenia drzewek filogenetycznych Grupa sekwencji homologicznych Dopasowanie wielu sekwencji Silne podobieństwo sekwencji? tak Metoda maksymalnej parsymoni - MP nie Rozpoznawalne podobieństwo sekwencji? nie Metoda maksymalnej wiarygodności -ML tak Metody oparte na odległościach (dystansowe) Sprawdzanie poprawności rekonstrukcji
Metoda maksymalnej parsymonii - MP Drzewko filogenetyczne skonstruowane metodą MP to takie, które wymaga najmniejszej liczby zmian aby wyjaśnić obserwowane różnice w analizowanych sekwencjach
Metoda MP Seq1 Seq2 Seq3 Seq4 A A G A G T G C A A G C C G T G C G A G A T A T C C A A G A G A T C C G Miejsce informatywne dla sekwencji nukleotydowych to takie, w którym obserwuje się przynajmniej dwa różne nukleotydy i są one prezentowane przynajmniej w dwóch sekwencjach. 1 2 1 3 1 2 3 4 2 4 4 3
Position of sequences on the tree 1 2 3 4 1 3 2 4 1 2 4 3 Position 2 Seq1 Seq2 Seq3 Seq4 A A G A G T G C A A G C C G T G C G A G A T A T C C A A G A G A T C C G Position 3 mutacja Position 4 Position 5 Position 7 Position 8 Sum 11 10 12
Metoda maksymalnej wiarygodności Maksimum likelihood (ML) Drzewko filogenetyczne skonstruowane metodą ML to takie, które z największym prawdopodobieństwem odtwarza obserwowane dane
Maximum likelihood method (ML) 1. Wyliczana jest wiarygodność (prawdopodobieństwo - L) dla każdego informatywnego miejsca 2. Następnie sumowane są wszystkie wartości L dla każdego możliwego drzewa 3. Porównywane są ze sobą wartości L dla każdego możliwego drzewa i wybierane jest to, które ma najwyższą wartość L - całościowe czyli Wybierane jest to drzewo, które przy danym modelu najbardziej pasuje do analizowanych danych
Rekonstrukcja drzewa metodą ML Sekwencja 1: ACGCGTTGGG Sekwencja 2: ACGCGTTGGG Sekwencja 3: ACGCAATGAA Sekwencja 4: AGACAGGGAA Analizujemy kolumnę Proponujemy układ drzewa Proponujemy układ nukleotydów Prawd = P(T) * P(T G) * P(G A) = 0.25*10-6 *10-6? ATGC Przydzielenie nukleotydów T? ATGC? ATGC T G 1 2 3 4 T T A G T T A G Likelihood konkretnej pozycji jest sumą prawdopodobieństw wszystkich możliwych rekonstrukcji przodków dla wybranego modelu.
p dystans 123456789...33 Taxa a: AgggCTggTTCGgAGTCgTTAAg-ggAT--AAA Taxa b: AAgg-TggCTCTgAATTgTTCgg-gCTT-CgAA Taxa b: AAggCTgACTTTgAATTgTTCAgCgCTTACgAg Taxa b: AAgg-TTgCTCTgAACTgTTCggCgCTTACgAA * * * * * * ** ** ** Taxa i: AGGGCTGGTTCGGAGTCGTTAAG-GGAT--AAA Taxa j: AAGG-TGGCTCTGAATTGTTCGG-GCTT-CGAA Długość dopasowania: n = 33 Całkowita liczba różnic: nd = 12 zaobserwowane n d 12 Dij = = = 0.3636... n 33
sek.1 sek.2 A G D A E R G K K L F E S R A A Q C S A A G D A E R G K K L F E S S A A R C S C sek.3 A G D A N R G K I I M E S R A N R C S C sek.4 A G N A N R G K I L M E S R S N R C S C 1 2 3 4 1-2 - 3-4 - 3/20 = 0,15 7/20 = 0,35 8/20 = 0,4 6/20 = 0,3 7/20 = 0,35 3/20 = 0,15 20 1 2 a = 0,1 0,1 b = 0,05 0,05 e = 0,2 c = 0,05 0,05 d = 0,1 0,1 3 4
Hipoteza zegara molekularnego (MC) Zaproponowana przez Zuckerkandla i Paulinga w roku 1962. Opiera się na założeniu, że tempo ewolucji (akumulacja mutacji) sekwencji nukleotydowej czy aminokwasowej jest w przybliżeniu stałe. Czyli różnice między sekwencjami dwóch gatunków są proporcjonalne do czasu jaki upłynął od momentu gdy oba gatunki miały wspólnego przodka.
tempo mutacji zależy y od regionu w genomie, genie, rodzaju genu, częś ęściej obserwuje się podstawienia w III pozycjach kodonów częś ęściej obserwuje się podstawienia typu tranzycji niż transwersji częś ęściej obserwuje się podstawienia między aminokwasami a podobnymi do siebie, ze względu na swoje właściwow ciwości biochemiczne, biofizyczne np.: rzadko obserwuje się podstawienia między aminokwasami a pełni niącymi ważne role w białkach, jak: cysteina (C) czy tryptofan (W) rewersja izoleucyna (I) leucyna (L), valina (V) izoleucyna (I), kwas asparaginowy (D) kwas glutaminowy (E), rzadko obserwuje się podstawienia między aminokwasami bardzo różniącymi się swoimi własnow asnościami tryptofan (W) izoleucyna (I) niektóre aminokwasy, takie jak: asparagina (N),, kwas asparaginowy (D), seryna (S) mutują częś ęściej niż inne możliwo liwość wystąpienia wielokrotnych podstawień
Protein Rate (mean replacements per site per 10 9 years) Fibrinopeptides 8.3 Insulin C 2.4 Ribonuclease Haemoglobins 2.1 1.0 Cytochrome C 0.3 Histone H4 0.01
przodek 2 zmiany w stosunku do przodka 5 zmian w stosunku do przodka 6 zmian w stosunku do przodka 4 zmian w stosunku do przodka 5 zmian w stosunku do przodka potomek MELSKLTGDPAREKELKMLMELSKLTGDPAPFVYRVLKRL MELSKTTGDPARRKELKMLMELSKLTGDPAPFVYRVLKRL MELSKTTGDPARRKELSMLMKLSKLTGDPAPFVYRVGKRL MELSKTTGDPARQKELSMLMKLSKLTGDPAPFYYRVGKRL MELSKLTGDPARQKELSMLMKLSKLTGDPAPFVYRVGKRL MELSKLTGDPARQKELSMLWKLSKLTGDRAPFVYRVLKRL rzeczywista liczba podstawień 2 zmiany 3 zmiany 2 zmiany 2 zmiana 3 zmiany = 12 zmian różnice między sekwencjami niedoszacowanie zaobserwowana liczba różnic nic czas ewolucji
tranzycje i transwersje
Macierze substutucji nukleotydów Juckes-Cantor K80 (Kimura) TN93 (Tamura-Nei, 93) TN93 rozróżnia tranzycje i transwersje, oraz typ tranzycji: czy zaszła ona między purynami czy pirymidynami
Percent Accepted Mutation PAM1 - M. Dayhoff 1978r. Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val A R N D C Q E G H I L K M F P S T W Y V Ala A 9867 2 9 10 3 8 17 21 2 6 4 2 6 2 22 35 32 0 2 18 Arg R 1 9913 1 0 1 10 0 0 10 3 1 19 4 1 4 6 1 8 0 1 Asn N 4 1 9822 36 0element 4 6 6M21 3 1 13 0 1 2 20 9 1 4 1 IJ tej macierzy reprezentuje Asp D 6 0 42 9859 0 6 53 6 4 1 0 3 0 0 1 5 3 0 0 1 Cys C 1 1 0 0 9973prawdopodobieństwo 0 0 0 1 1 0 0 0z jakim 0 1 aminokwas 5 1 0 3 2 Gln Q 3 9 4 5 0w 9876 kolumnie 27 1 23 j zostanie 1 3 6 4podstawiony 0 6 2 2 przez 0 0 1 Glu E 10 0 7 56 0 35 9865 4 2 3 1 4 1 0 3 4 2 0 1 2 Gly G 21 1 12 11 1aminokwas 3 7 9935 1z wiersza 0 1 2 i1w 1czasie 3 21 3 0 0 5 His H 1 8 18 3 1ewolucyjnym 20 1 0 9912 01 PAM 1 1 0 2 3 1 1 1 4 1 Ile I 2 2 3 1 2 1 2 0 0 9872 9 2 12 7 0 1 7 0 1 33 Leu L 3 1 3 0 0 6 1 1 4 22 9947 2 45 13 3 1 3 4 2 15 Lys K 2 37 25 6 0 12 7 2 2 4 19926 20 0 3 8 11 0 1 1 Met M 1 1 0 0 0 2 0 0 0 5 8 4 9874 1 0 1 2 0 0 4 Phe F 1 1 1 0 0 0 0 1 2 8 6 0 4 9946 0 2 1 3 28 0 Pro P 13 5 2 1 1 8 3 2 5 1 2 2 1 19926 12 4 0 0 2 element diagonalny M Ser S 28 11 34 7 11 4 6 16 2 2 ii 1 7 4 3 17 9840 38 5 2 2 Thr T 22 2prawdopodobieństwo, 13 4 1 3 2 2 1 11 że określa 2 dany 8 6 1 5 329871 0 2 9 Trp W 0 2aminokwas 0 0 0 0 nie 0 ulegnie 0 0 0 0 0 0 1 0 1 09976 1 0 Tyr T 1 0substytucji 3 0 3 0 w 1tym 0 czasie 4 1 1 0 0 21 0 1 1 29945 1 Val V 13 2 1 1 3 2 2 3 3 57 11 1 17 1 3 2 10 0 29901 Elementy pomnożone zostały przez 10 000
M. Dayhoff i współpracownicy pracownicy 1978r. JEDNOSTKA PAM (Percent ercent Accepted Mutation) miara odległości ewolucyjnej między sekwencjami. 1 PAM odpowiada takiemu czasowi ewolucyjnemu, podczas którego, w porównywanych sekwencjach, zmianie ulegnie 1 aminokwas na 100 (ok. 1 mln lat) 1000 aminokwasów MELSKLTGDPAPFVYRVLKR... SKLTGDPAP... KVVFRISESPMIFKAYPLDI... MELSKLTGDPA... REKELKMLMELSKLTGDPAPFVYRVLKRL... LDIVLSSLIHEREKELKML MELSKLTDDPAPFVYRYLKR... SKLTQDPAP... KVVFRISRSPWIFKAVPLDI... MELSKTTGDPA... REKELDMLMELSKLTGDPAPFVYRVFKRL... LDIVLSSLIHERRKELKML Zmianie uległo 10/1000 = 1/100 aminokwasów, czyli 1% 10 zmienionych aminokwasów
Ewolucyjna macierz PAM Macierz PAM - Percent Accepted Mutations (Dayhoff i współpr pr.. 1978) Utworzona przez porównanie blisko spokrewnionych sekwencji białek (ponad 85% identyczności) ci) o znanych powiązaniach filogenetycznych; naliczenie 1572 zmian zaakceptowanych (przez selekcję) ) w 71 grupach białek. Uwzględnia mutabilności poszczególnych aminokwasów MWTVSALV SALVGQ MWTVSALV SALVGQ MWTASALV SALVGQ MWTVSALV SALVLQ MWTASALV SALVGQ MWTVSALV SALVLQ V -> A G -> L
Macierz PAM log odds Wyliczenie wartości log odds: log odds = log (Po/ o/pe) Po obserwowana częstotliwo stotliwość występowania mutacji Pe oczekiwana częstotliwo stotliwość występowania mutacji (losowa) jeżeli eli log odds < 0: dana substytucja zachodzi rzadziej niż należało o się spodziewać jeżeli eli log odds > 0: dana substytucja zachodzi częś ęściej niż należało o się spodziewać (np. +1 oznacza, że e dana substytucja jest obserwowana 10 razy częś ęściej niż należało o się spodziewać) jeżeli eli log odds = 0: dana substytucja zachodzi z taką samą często stością jak w sekwencji losowej
A R N D C Q E G H I L K M F P S T W Y V A 2 R -22 6 N 0 0 2 D 0-11 2 4 C -2-4 -4-55 12 Q 0 1 1 2-55 4 E 0-11 1 3-55 2 4 G 1-33 0 1-3 -11 0 5 H -11 2 2 1-33 3 1-22 6 I -1-2 -2-2 -2-2 -2-3 -22 5 L -2-3 -3-4 -6-2 -3-4 -22 2 6 K -11 3 1 0-55 1 0-22 0-2 -33 5 M -11 0-2 -3-5 -1-2 -3-22 2 4 0 6 F -4-4 -4-6 -4-5 -5-5 -22 1 2-55 0 9 Rzadkie aminokwasy mają duże e wagi P 1 0-1 -1-33 0-1 -11 0-2 -3-1 -2-55 6 S 1 0 1 0 0-11 0 1-1 -1-33 0-2 -33 1 2 T 1-11 0 0-2 -11 0 0-11 0-22 0-1 -33 0 1 3 Pospolite aminokwasy mają małe e wagi Dodatnie wartości dla częstszych podstawień Ujemne wartości dla rzadkich podstawień W -66 2-4 -7-8 -5-7 -7-3 -5-2 -3-44 0-6 -2-55 17 Y -3-4 -2-44 0-4 -4-55 0-1 -1-4 -22 7-5 -3-33 0 10 V 0-2 -2-2 -2-2 -2-1 -22 4 2-22 2-1 -1-11 0-6 -22 4
Ewolucyjna macierz PAM Ekstrapolowanie często stości podstawień zaobserwowanych na krótkich dystansach na dłuższe d dystansy ewolucyjne mnożenie macierzy przez siebie uzyskanie serii tablic PAM: PAM1 -> > PAM60, PAM80, PAM120, PAM250 Podobieństwo: 99% 60% 50% 40% 20% Liczba podstawień na miejsce: 0.01 0.6 0.8 1.2 2.5