FILOGENETYKA Bioinformatyka,, wykład 7 (29.XI.2007) krzysztof_pawlowski@sggw.pl
Filogenetyka Cel rekonstrukcja historii ewolucji wszystkich organizmów. Klasyczne podejście: historia ewolucji jest odtwarzana na podstawie porównań cech morfologicznych i fizjologicznych badanych organizmów.
zadaniem filogenetyki molekularnej jest zrekonstruowanie związków filogenetycznych między badanymi sekwencjami podstawowe założenia w filogenetyce molekularnej: sekwencje przodka mutują w sekwencje potomków podobne gatunki sąs genetycznie blisko spokrewnione wyrazem analiz filogenetycznych są drzewa filogenetyczne
Węzeł - reprezentuje jednostkę taksonomiczną (populację, organizm, gen). Może przedstawiać współcześnie istniejący takson, jak i jego przodka. Gałąź - obrazuje związki ewolucyjne między porównywanymi jednostkami taksonomicznymi. Liść - reprezentuje aktualnie analizowaną jednostkę taksonomiczną. Długość gałę łęzi - zazwyczaj reprezentuje liczbę zmian, które się zdarzyły w danej linii ewolucyjnej. Korzeń - wspólny przodek dla wszystkich taksonów. liść gatunek A gałąź gatunek C węzeł liść gatunek A korzeń gatunek B gatunek B węzeł gatunek E dług. gałę łęzi gatunek D długość gałę łęzi gatunek C gałąź
liść liść gatunek A gałąź gatunek C węzeł gatunek A gatunek B korzeń gatunek B węzeł długość gałę łęzi gatunek D gałąź długość gałę łęzi gatunek E gatunek C przykładowe nieukorzenione drzewo filogenetyczne przykładowe ukorzenione drzewo filogenetyczne
Mechanizmy ewolucji - Mutacje w genach. Mutacje są rozprzestrzeniane w populacji poprzez dryf genetyczne lub/i naturalna selekcję - Duplikacja i rekombinacja genów.
MUTACJE PUNKTOWE NIEZMUTOWANE DNA G A T C A C C T G T A C C A C T A G T G G A C A T G G T G A T T C A C C T G T A C C A C T A A G T G G A C A T G G T DELECJA G A T G T C A C C T G T A C C A C T A C A G T G G A C A T G G T G A T T C A C C T G T A C C A C T A G G T G G A C A T G G T INSERCJA SUBSTYTUCJA (podstawienie)
Duplikacja i rekombinacja genów Nowe geny/białka powstają także poprzez duplikacje i rekombinacje już istniejących genów. Globina u przodka duplikacja Gen 1 + Gen 2 globina globina hemoglobina mioglobina Nowy gen Duplikacja Recombinacja cja
Etapy analizy filogenetycznej Dobór i dopasowane sekwencji Wybór modelu substytucji Wybór metody oceny odległości ewolucyjnej Konstrukcja drzewka Ocena i analiza skonstruowanego drzewka
Wielokrotne e dopasowanie Multiple sequence alignment (MSA) Alignment 16S rrna Thermus ruber UCCGAUGC-UAAAGA-CCGAAG=CUCAA=CUUCGG=GGGU=GCGUUGGA Th. thermophilus UCCCAUGU-GAAAGA-CCACGG=CUCAA=CCGUGG=GGGA=GCGUGGGA E.coli UCAGAUGU-GAAAUC-CCCGGG=CUCAA=CCUGGG=AACU=GCAUCUGA Ancyst.nidulans UCUGUUGU-CAAAGC-GUGGGG=CUCAA=CCUCAU=ACAG=GCAAUGGA B.subtilis UCUGAUGU-GAAAGC-CCCCGG=CUCAA=CCGGGG=AGGG=UCAUUGGA Chl.aurantiacus UCGGCGCU-GAAAGC-GCCCCG=CUUAA=CGGGGC=GAGG=CGCGCCGA match ** *** * ** ** * **
Metody tworzenia drzewek filogenetycznych Grupa sekwencji homologicznych Multiple sequence alignments (MSA) wielokrotny aligment Silne podobieństwo sekwencji? tak Metoda maksymalnej parsymoni - MP nie Rozpoznawalne podobieństwo sekwencji? nie Metoda maksymalnej wiarygodności -ML tak Metody oparte na odległościach (dystansowe) Sprawdzanie poprawności rekonstrukcji
Metoda maksymalnej parsymonii - MP Drzewko filogenetyczne skonstruowane metodą MP to takie, które wymaga najmniejszej liczby zmian aby wyjaśnić obserwowane różnice w analizowanych sekwencjach
Metoda MP Seq1 Seq2 Seq3 Seq4 A A G A G T G C A A G C C G T G C G A G A T A T C C A A G A G A T C C G Miejsce informatywne dla sekwencji nukloetydowych to takie, w którym obserwuje się przynajmniej dwa różne nukleotydy i są one prezentowane przynajmnie w dwóch sekwencjach. 1 2 1 3 1 2 3 4 2 4 4 3
Position of sequences on the tree 1 2 3 4 1 3 2 4 1 2 4 3 Position 2 Seq1 Seq2 Seq3 Seq4 A A G A G T G C A A G C C G T G C G A G A T A T C C A A G A G A T C C G Position 3 mutacja Position 4 Position 5 Position 7 Position 8 Sum 11 10 12
Metoda maksymalnej wiarygodności Maksimum likelihood (ML) Drzewko filogenetyczne skonstruowane metodą ML to takie, które z największym prawdopodobieńswtem odtwarza obserwowane dane
Maximum likelihood method (ML) 1. Wyliczana jest wiarygodność (prawdopodobieństwo - L) dla każdego informatywnego miejsca 2. Następnie sumowane są wszystkie wartości L dla każdego możliwego drzewa 3. Porównywane są ze sobą wartości L dla każdego możliwego drzewa i wybierane jest to, które ma najwyższą wartość L - całościowe czyli Wybierane jest to drzewo, które przy danym modelu najbardziej pasuje do analizowanych danych
Rekonstrukcja drzewa metodą ML Sekwencja 1: ACGCGTTGGG Sekwencja 2: ACGCGTTGGG Sekwencja 3: ACGCAATGAA Sekwencja 4: AGACAGGGAA Analizujemy kolumnę Proponujemy układ drzewa Proponujemy układ nukleotydów Prawd = P(T) * P(T G) * P(G A) = 0.25*10-6 *10-6? ATGC Przydzielenie nukleotydów T? ATGC? ATGC T G 1 2 3 4 T T A G T T A G Likelihood konkretnej pozycji jest sumą prawdopodobieństw wszystkich możliwych rekonstrukcji przodków dla wybranego modelu.
p dystans 123456789...33 Taxa a: AgggCTggTTCGgAGTCgTTAAg-ggAT--AAA Taxa b: AAgg-TggCTCTgAATTgTTCgg-gCTT-CgAA Taxa b: AAggCTgACTTTgAATTgTTCAgCgCTTACgAg Taxa b: AAgg-TTgCTCTgAACTgTTCggCgCTTACgAA * * * * * * ** ** ** Taxa i: AGGGCTGGTTCGGAGTCGTTAAG-GGAT--AAA Taxa j: AAGG-TGGCTCTGAATTGTTCGG-GCTT-CGAA Długość aligmentu : n = 33 Całkowita liczba różnic: nd = 12 zaobserwowane n d 12 Dij = = = 0.3636... n 33
sek.1 A G D A E R G K K L F E S R A A Q C S A sek.2 A G D A E R G K K L F E S S A A R C S C sek.3 A G D A N R G K I I M E S R A N R C S C sek.4 A G N A N R G K I L M E S R S N R C S C 1 2 3 4 1-2 - 3-4 - 3/20 = 0,15 7/20 = 0,35 8/20 = 0,4 6/20 = 0,3 7/20 = 0,35 3/20 = 0,15 20 1 2 a = 0,1 0,1 b = 0,05 0,05 e = 0,2 c = 0,05 0,05 d = 0,1 0,1 3 4
Hipoteza zegara molekularnego (MC) Zaproponowana przez Zuckerkandla i Paulinga w roku 1962. Opiera się na założeniu, że tempo ewolucji (akumulacja mutacji) sekwencji nukleotydowej czy aminokwasowej jest w przybliżeniu stałe. Czyli różnice między sekwencjami dwóch gatunków są proporcjonalne do czasu jaki upłynął od momentu gdy oba gatunki miały wspólnego przodka.
tempo mutacji zależy y od regionu w genomie, genie, rodzaju genu, częś ęściej obserwuje się podstawienia w III pozycjach kodonów częś ęściej obserwuje się podstawienia typu tranzycji niż transwersji częś ęściej obserwuje się podstawienia między aminokwasami a podobnymi do siebie, ze względu na swoje właściwow ciwości biochemiczne, biofizyczne np.: rzadko obserwuje się podstawienia między aminokwasami a pełni niącymi ważne role w białkach, jak: cysteina (C) czy tryptofan (W) rewersja izoleucyna (I) leucyna (L), valina (V) izoleucyna (I), kwas asparaginowy (D) kwas glutaminowy (E), rzadko obserwuje się podstawienia między aminokwasami bardzo różniącymi się swoimi własnow asnościami tryptofan (W) izoleucyna (I) niektóre aminokwasy, takie jak: asparagina (N),, kwas asparaginowy (D), seryna (S) mutują częś ęściej niż inne możliwo liwość wystąpienia wielokrotnych podstawień
Protein Rate (mean replacements per site per 10 9 years) Fibrinopeptides 8.3 Insulin C 2.4 Ribonuclease Haemoglobins 2.1 1.0 Cytochrome C 0.3 Histone H4 0.01
przodek 2 zmiany w stosunku do przodka 5 zmian w stosunku do przodka 6 zmian w stosunku do przodka 4 zmian w stosunku do przodka 5 zmian w stosunku do przodka potomek MELSKLTGDPAREKELKMLMELSKLTGDPAPFVYRVLKRL MELSKTTGDPARRKELKMLMELSKLTGDPAPFVYRVLKRL MELSKTTGDPARRKELSMLMKLSKLTGDPAPFVYRVGKRL MELSKTTGDPARQKELSMLMKLSKLTGDPAPFYYRVGKRL MELSKLTGDPARQKELSMLMKLSKLTGDPAPFVYRVGKRL MELSKLTGDPARQKELSMLWKLSKLTGDRAPFVYRVLKRL rzeczywista liczba podstawień 2 zmiany 3 zmiany 2 zmiany 2 zmiana 3 zmiany = 12 zmian różnice między sekwencjami niedoszacowanie zaobserwowana liczba różnic nic czas ewolucji
Macierze substutucji nukleotydów Juckes-Cantor K80 2 parametrowy model Kimury TN93 (Tamura-Nei, 93) TN93 rozróżnia tranzycje i transwersje, oraz typ tranzycji czy zaszła ona między purynami czy pirymidynami
Percent Accepted Mutation PAM1 - M. Dayhoff 1978r. Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val A R N D C Q E G H I L K M F P S T W Y V Ala A 9867 2 9 10 3 8 17 21 2 6 4 2 6 2 22 35 32 0 2 18 Arg R 1 9913 1 0 1 10 0 0 10 3 1 19 4 1 4 6 1 8 0 1 Asn N 4 1 9822 36 0 4 6 6 21 3 1 13 0 1 2 20 9 1 4 1 Asp D 6 0 42 9859 0 6 53 6 4 1 0 3 0 0 1 5 3 0 0 1 Cys C 1 1 0 0 9973 0 0 0 1 1 0 0 0 0 1 5 1 0 3 2 Gln Q 3 9 4 5 0 9876 27 1 23 1 3 6 4 0 6 2 2 0 0 1 Glu E 10 0 7 56 0 35 9865 4 2 3 1 4 1 0 3 4 2 0 1 2 Gly G 21 1 12 11 1 3 7 9935 1 0 1 2 1 1 3 21 3 0 0 5 His H 1 8 18 3 1 20 1 0 9912 0 1 1 0 2 3 1 1 1 4 1 Ile I 2 2 3 1 2 1 2 0 0 9872 9 2 12 7 0 1 7 0 1 33 Leu L 3 1 3 0 0 6 1 1 4 22 9947 2 45 13 3 1 3 4 2 15 Lys K 2 37 25 6 0 12 7 2 2 4 19926 20 0 3 8 11 0 1 1 Met M 1 1 0 0 0 2 0 0 0 5 8 4 9874 1 0 1 2 0 0 4 Phe F 1 1 1 0 0 0 0 1 2 8 6 0 4 9946 0 2 1 3 28 0 Pro P 13 5 2 1 1 8 3 2 5 1 2 2 1 19926 12 4 0 0 2 Ser S 28 11 34 7 11 4 6 16 2 2 1 7 4 3 17 9840 38 5 2 2 Thr T 22 2 13 4 1 3 2 2 1 11 2 8 6 1 5 329871 0 2 9 Trp W 0 2 0 0 0 0 0 0 0 0 0 0 0 1 0 1 09976 1 0 Tyr T 1 0 3 0 3 0 1 0 4 1 1 0 0 21 0 1 1 29945 1 Val V 13 2 1 1 3 2 2 3 3 57 11 1 17 1 3 2 10 0 29901 Elementy pomnożone zostały przez 10 000
Percent Accepted Mutation PAM1 - M. Dayhoff 1978r. Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val A R N D C Q E G H I L K M F P S T W Y V Ala A 9867 2 9 10 3 8 17 21 2 6 4 2 6 2 22 35 32 0 2 18 Arg R 1 9913 1 0 1 10 0 0 10 3 1 19 4 1 4 6 1 8 0 1 Asn N 4 1 9822 36 0element 4 6 6M21 3 1 13 0 1 2 20 9 1 4 1 IJ tej macierzy reprezentuje Asp D 6 0 42 9859 0 6 53 6 4 1 0 3 0 0 1 5 3 0 0 1 Cys C 1 1 0 0 9973prawdopodobieństwo 0 0 0 1 1 0 0 0z jakim 0 1 aminokwas 5 1 0 3 2 Gln Q 3 9 4 5 0w 9876 kolumnie 27 1 23 j zostanie 1 3 6 4podstawiony 0 6 2 2 przez 0 0 1 Glu E 10 0 7 56 0 35 9865 4 2 3 1 4 1 0 3 4 2 0 1 2 Gly G 21 1 12 11 1aminokwas 3 7 9935 1z wiersza 0 1 2 i1w 1czasie 3 21 3 0 0 5 His H 1 8 18 3 1ewolucyjnym 20 1 0 9912 01 PAM 1 1 0 2 3 1 1 1 4 1 Ile I 2 2 3 1 2 1 2 0 0 9872 9 2 12 7 0 1 7 0 1 33 Leu L 3 1 3 0 0 6 1 1 4 22 9947 2 45 13 3 1 3 4 2 15 Lys K 2 37 25 6 0 12 7 2 2 4 19926 20 0 3 8 11 0 1 1 Met M 1 1 0 0 0 2 0 0 0 5 8 4 9874 1 0 1 2 0 0 4 Phe F 1 1 1 0 0 0 0 1 2 8 6 0 4 9946 0 2 1 3 28 0 Pro P 13 5 2 1 1 8 3 2 5 1 2 2 1 19926 12 4 0 0 2 element diagonalny M Ser S 28 11 34 7 11 4 6 16 2 2 ii 1 7 4 3 17 9840 38 5 2 2 Thr T 22 2prawdopodobieństwo, 13 4 1 3 2 2 1 11 że określa 2 dany 8 6 1 5 329871 0 2 9 Trp W 0 2aminokwas 0 0 0 0 nie 0 ulegnie 0 0 0 0 0 0 1 0 1 09976 1 0 Tyr T 1 0substytucji 3 0 3 0 w 1tym 0 czasie 4 1 1 0 0 21 0 1 1 29945 1 Val V 13 2 1 1 3 2 2 3 3 57 11 1 17 1 3 2 10 0 29901 Elementy pomnożone zostały przez 10 000
M. Dayhoff i współpracownicy pracownicy 1978r. JEDNOSTKA PAM (Percent Percent Accepted Mutation) miara odległości ewolucyjnej między sekwencjami. 1 PAM odpowiada takiemu czasowi ewolucyjnemu, podczas którego, w porównywanych sekwencjach, zmianie ulegnie 1 aminokwas na 100 (ok. 1 mln lat) 1000 aminokwasów MELSKLTGDPAPFVYRVLKR... SKLTGDPAP... KVVFRISESPMIFKAYPLDI... MELSKLTGDPA... REKELKMLMELSKLTGDPAPFVYRVLKRL... LDIVLSSLIHEREKELKML MELSKLTDDPAPFVYRYLKR... SKLTQDPAP... KVVFRISRSPWIFKAVPLDI... MELSKTTGDPA... REKELDMLMELSKLTGDPAPFVYRVFKRL... LDIVLSSLIHERRKELKML Zmianie uległo 10/1000 = 1/100 aminokwasów, czyli 1% 10 zmienionych aminokwasów
Ewolucyjna macierz PAM Macierz PAM - Percent Accepted Mutations (Dayhoff i współpr pr.. 1978) Utworzona przez porównanie blisko spokrewnionych sekwencji białek (ponad 85% identyczności) ci) o znanych powiązaniach filogenetycznych; naliczenie 1572 zmian zaakceptowanych (przez selekcję) ) w 71 grupach białek. Uwzględnia mutabilności poszczególnych aminokwasów MWTVSALVGQ MWTVSALVGQ MWTASALVGQ MWTVSALVLQ MWTASALVGQ MWTVSALVLQ V -> > A G -> > L
Macierz PAM log odds Wyliczenie wartości log odds: log odds = log (Po/ o/pe) Po prawdopodobieństwo znalezienia par danych aminokwasów w w analizowanym zbiorze przy założeniu, że e sekwencje mają wspólnego przodka Pe - prawdopodobieństwo znalezienia par danych aminokwasów w przez przypadek (losowo) jeżeli eli log odds < 0: dana substytucja zachodzi rzadziej niż należało o się spodziewać jeżeli eli log odds > 0: dana substytucja zachodzi częś ęściej niż należało o się spodziewać (np. +1 oznacza, że e dana substytucja jest obserwowana 10 razy częś ęściej niż należało o się spodziewać) jeżeli eli log odds = 0: dana substytucja zachodzi z taką samą często stością jak w sekwencji losowej
A R N D C Q E G H I L K M F P S T W Y V A 2 R -22 6 N 0 0 2 D 0-11 2 4 C -2-4 -4-55 12 Q 0 1 1 2-55 4 E 0-11 1 3-55 2 4 G 1-33 0 1-3 -11 0 5 H -11 2 2 1-33 3 1-22 6 I -1-2 -2-2 -2-2 -2-3 -22 5 L -2-3 -3-4 -6-2 -3-4 -22 2 6 K -11 3 1 0-55 1 0-22 0-2 -33 5 M -11 0-2 -3-5 -1-2 -3-22 2 4 0 6 F -4-4 -4-6 -4-5 -5-5 -22 1 2-55 0 9 Rzadkie aminokwasy mają duże e wagi P 1 0-1 -1-33 0-1 -11 0-2 -3-1 -2-55 6 S 1 0 1 0 0-11 0 1-1 -1-33 0-2 -33 1 2 T 1-11 0 0-2 -11 0 0-11 0-22 0-1 -33 0 1 3 Pospolite aminokwasy mają małe e wagi W -66 2-4 -7-8 -5-7 -7-3 -5-2 -3-44 0-6 -2-55 17 Y -3-4 -2-44 0-4 -4-55 0-1 -1-4 -22 7-5 -3-33 0 10 V 0-2 -2-2 -2-2 -2-1 -22 4 2-22 2-1 -1-11 0-6 -22 4
A R N D C Q E G H I L K M F P S T W Y V A 2 R -22 6 N 0 0 2 D 0-11 2 4 C -2-4 -4-55 12 Q 0 1 1 2-55 4 E 0-11 1 3-55 2 4 G 1-33 0 1-3 -11 0 5 H -11 2 2 1-33 3 1-22 6 I -1-2 -2-2 -2-2 -2-3 -22 5 L -2-3 -3-4 -6-2 -3-4 -22 2 6 K -11 3 1 0-55 1 0-22 0-2 -33 5 M -11 0-2 -3-5 -1-2 -3-22 2 4 0 6 F -4-4 -4-6 -4-5 -5-5 -22 1 2-55 0 9 P 1 0-1 -1-33 0-1 -11 0-2 -3-1 -2-55 6 S 1 0 1 0 0-11 0 1-1 -1-33 0-2 -33 1 2 T 1-11 0 0-2 -11 0 0-11 0-22 0-1 -33 0 1 3 Ujemne wartości dla rzadkich substytucji W -66 2-4 -7-8 -5-7 -7-3 -5-2 -3-44 0-6 -2-55 17 Y -3-4 -2-44 0-4 -4-55 0-1 -1-4 -22 7-5 -3-33 0 10 V 0-2 -2-2 -2-2 -2-1 -22 4 2-22 2-1 -1-11 0-6 -22 4
A R N D C Q E G H I L K M F P S T W Y V A 2 R -22 6 N 0 0 2 D 0-11 2 4 C -2-4 -4-55 12 Q 0 1 1 2-55 4 E 0-11 1 3-55 2 4 G 1-33 0 1-3 -11 0 5 H -11 2 2 1-33 3 1-22 6 I -1-2 -2-2 -2-2 -2-3 -22 5 L -2-3 -3-4 -6-2 -3-4 -22 2 6 K -11 3 1 0-55 1 0-22 0-2 -33 5 M -11 0-2 -3-5 -1-2 -3-22 2 4 0 6 F -4-4 -4-6 -4-5 -5-5 -22 1 2-55 0 9 P 1 0-1 -1-33 0-1 -11 0-2 -3-1 -2-55 6 S 1 0 1 0 0-11 0 1-1 -1-33 0-2 -33 1 2 T 1-11 0 0-2 -11 0 0-11 0-22 0-1 -33 0 1 3 Dodatnie wartości dla częstszych substytucji W -66 2-4 -7-8 -5-7 -7-3 -5-2 -3-44 0-6 -2-55 17 Y -3-4 -2-44 0-4 -4-55 0-1 -1-4 -22 7-5 -3-33 0 10 V 0-2 -2-2 -2-2 -2-1 -22 4 2-22 2-1 -1-11 0-6 -22 4
Ewolucyjna macierz PAM Ekstrapolowanie często stości substytucji zaobserwowanych na krótkich dystansach na dłuższe d dystansy ewolucyjne mnożenie macierzy przez siebie uzyskanie serii tablic PAM: PAM1 -> > PAM60, PAM80, PAM120, PAM250 Podobieństwo: 99% 60% 50% 40% 20% Liczba podstawień na miejsce: 0.01 0.6 0.8 1.2 2.5
Macierz PAM wady z powodu założeń: Substytucje aminokwasów w zachodzą niezależnie od siebie. W rzeczywistości ci zmiany w różnych r regionach sekwencji są ze sobą skorelowane. Te same tempo substytucji w różnych r regionach sekwencji. W rzeczywistości ci różne r regiony wykazują różny stopień konserwatywności i ewoluują z różnąr prędko dkością.. W różnych regionach różne r substytucje zdarzają się z różnąr często stością. Często stość poszczególnych substytucji nie zmieniają się w czasie. W rzeczywistości ci często stości substytucji mogą się zmieniać w czasie.
Macierz BLOSUM Macierz BLOSUM BLOcks Substitution Matrix (Henikoff i Henikoff 1992) Utworzona przez porównanie około o 2000 konserwowanych bloków w (regionów sekwencji) w ponad 500 rodzinach białek o różnej r odległości ewolucyjnej. Bloki sąs regionami sekwencji odpowiedzialnymi za podobną funkcję biochemiczną lub strukturę. Macierze dla różnych r odległości ewolucyjnych zostały y wyliczone z porównania sekwencji odpowiednio odległych: BLOSUM30 bloki sekwencji o co najmniej 30% identyczności ci reszt aminokwasowych BLOSUM62 bloki sekwencji o co najmniej 62% identyczności ci reszt aminokwasowych BLOSUM80 bloki sekwencji o co najmniej 80% identyczności ci reszt aminokwasowych
Macierz BLOSUM BLOcks Substitution Matrix bloki
A 4 A R N D C Q E G H I L K M F P S T W Y V R -11 5 N -22 0 6 D -2-22 1 6 C 0-3 -3-33 9 Q -11 1 0 0-33 5 E -11 0 0 2-44 2 5 G 0-22 0-1 -3-2 -22 6 H -22 0 1-1 -33 0 0-22 8 Macierz BLOSUM62 I -1-3 -3-3 -1-3 -3-4 -33 4 L -1-2 -3-4 -1-2 -3-4 -33 2 4 K -11 2 0-1 -33 1 1-2 -1-3 -22 5 M -1-1 -2-3 -11 0-2 -3-22 1 2-11 5 F -2-3 -3-3 -2-3 -3-3 -11 0 0-33 0 6 P -1-2 -2-1 -3-1 -1-2 -2-3 -3-1 -2-44 7 S 1-11 1 0-11 0 0 0-1 -2-22 0-1 -2-11 4
PAM Vs. BLOSUM PAM100 =~ BLOSUM90 PAM120 =~ BLOSUM80 PAM160 =~ BLOSUM60 Bardziej odległe sekwencje PAM200 =~ BLOSUM52 PAM250 =~ BLOSUM45
Inne macierze substutucji aminokwasowów Oparte na kodzie genetycznym - związane zane z kodowaniem aminokwasów w przez kodony (Fitch( 1966; Benner i współpr pr.. 1994) Uwzględniaj dniające właściwow ciwości fizyko-chemiczne aminokwasów w (Vogt( i współpr pr.. 1995) i podobieństwo strukturalne łańcuchów w bocznych (Feng( i współpr pr.. 1985) Uwzględniaj dniające strukturę trzeciorzędow dową (Risler i współpr pr.. 1988; Johnson i Overington 1993; Henikoff i Henikoff 1993; Sander i Schneider 1991) Macierz dwupeptydów (Gonnet i współpr pr.. 1994) - 400 x 400, uwzględnia wpływ przyległych ych aminokwasów w na często stość substytucji Macierz PAM z uwzględnieniem białek transmembranowych (Jones i współpr pr. 1994)
Etapy analizy filogenetycznej Dobór i dopasowane sekwencji Wybór modelu substytucji Wybór metody oceny odległości ewolucyjnej Konstrukcja drzewka Ocena i analiza skonstruowanego drzewka
UPMGA Unweighted Pair Group Method with Arithmetic Mean 0.047 0.047 0.056 0. 094 0.108 Human Chimpanzee Gorilla Orangutan Gibbon FM Fitch - Margoliash
NJ - Neighbour joining A E D A A E B C B B D C
Ocena poprawności rekonstrukcji filogenetycznej metoda Bootstrap Site OTU 1 2 3 4 5 6 7 8 9 10 1 2 3 4 A A C C Site OTU 1 2 3 4 5 6 7 8 9 10 1 2 3 4 T C A G A T C T A G T T A G A A C T A G T T C G A T C G A G T T C T A A G G A C C T T T T A T A A A A A G G G C C C C G A A A A T A T A T T T T A A A A oryginalny alignment re-alignment 1 2 3 4 1 3 2 4 Powtarzamy 100-1000 i tworzymy drzewko konsensusowe
Wartości bootstrap: > 95% topologia drzewka bardzo prawdopodobna < 75% nie ma wystarczająco silnych dowodów potwierdzających taką topologię drzewka co wcale nie oznacza, że nie jest ona prawidłowa!!!