FILOGENETYKA. Bioinformatyka, wykład 7 (24.XI.200..XI.2008)

Podobne dokumenty
FILOGENETYKA. Bioinformatyka, wykład. 8 c.d. 0)

FILOGENETYKA. Bioinformatyka,, wykład 7 (29.XI.2007)

MACIERZE MUTACYJNE W ANALIZIE GENOMÓW czy możliwa jest rekonstrukcja filogenetyczna? Aleksandra Nowicka

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Bioinformatyka Laboratorium, 30h. Michał Bereta

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji

Porównywanie i dopasowywanie sekwencji

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Filogenetyka. Dr inż. Magdalena Święcicka, dr hab. Marcin Filipecki. Katedra Genetyki, Hodowli i Biotechnologii Roślin, SGGW

Analizy filogenetyczne

Porównywanie i dopasowywanie sekwencji

Acknowledgement. Drzewa filogenetyczne

Filogenetyka molekularna I. Krzysztof Spalik

PRZYRÓWNANIE SEKWENCJI

Bioinformatyka Laboratorium, 30h. Michał Bereta

Filogenetyka molekularna I

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Przegląd budowy i funkcji białek

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Nuttall przeprowadził testy precypitacyjne białek surowicy, aby wykazać związek filogenetyczny między różnymi grupami zwierząt.

Filogenetyka molekularna I. Krzysztof Spalik Zakład Filogenetyki Molekularnej i Ewolucji

Generator testów Bioinformatyka wer / 0 Strona: 1

Dopasowanie sekwencji (sequence alignment)

Filogenetyka. Dr Marek D. Koter, dr hab. Marcin Filipecki. Katedra Genetyki, Hodowli i Biotechnologii Roślin, SGGW

21. Wstęp do chemii a-aminokwasów

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

46 i 47. Wstęp do chemii -aminokwasów

Badanie doboru naturalnego na poziomie molekularnym

Informacje. W sprawach organizacyjnych Slajdy z wykładów

klasyfikacja fenetyczna (numeryczna)

MSA i analizy filogenetyczne

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Generator testów Bioinformatyka_zdalne wer / 0 Strona: 1

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

plezjomorfie: podobieństwa dziedziczone po dalszych przodkach (c. atawistyczna)

Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Bioinformatyka Laboratorium, 30h. Michał Bereta

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Bioinformatyka Laboratorium, 30h. Michał Bereta

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Teoria ewolucji. Podstawy wspólne pochodzenie.

Bioinformatyka Laboratorium, 30h. Michał Bereta

Generator testów bioinformatyka wer / Strona: 1

Chemiczne składniki komórek

dopasowanie sekwencji Porównywanie sekwencji Etapy dopasowywania sekwencji Homologia, podobieństwo i analogia

Wykład Bioinformatyka. Wykład 9. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Wstęp do Biologii Obliczeniowej

Bioinformatyka Laboratorium, 30h. Michał Bereta

Drzewa filogenetyczne jako matematyczny model relacji pokrewieństwa. dr inż. Damian Bogdanowicz

Teoria ewolucji. Losy gatunków: specjacja i wymieranie. Podstawy ewolucji molekularnej

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Mechanizmy zmienności ewolucyjnej. Podstawy ewolucji molekularnej.

Rycina 1. Zasięg i zagęszczenie łosi (liczba osobników/1000 ha) w Polsce w roku 2010 oraz rozmieszczenie 29 analizowanych populacji łosi.

3 Przeszukiwanie baz danych

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Zmienność ewolucyjna. Ewolucja molekularna

spektroskopia elektronowa (UV-vis)

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009

Budowanie drzewa filogenetycznego

IZOMERIA Izomery - związki o takim samym składzie lecz różniące się budową

Motywy i podobieństwo

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Bioinformatyka Laboratorium, 30h. Michał Bereta

Ograniczenia środowiskowe nie budzą wielu kontrowersji, co nie znaczy że rozumiemy do końca proces powstawania adaptacji fizjologicznych.

EWOLUCJA GENOMÓW. Bioinformatyka, wykład 6 (22.XI.2010) krzysztof_pawlowski@sggw.pl

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

D: Dopasowanie sekwencji. Programowanie dynamiczne

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Budowa aminokwasów i białek

Nowa metoda obliczeniowa porównywania sekwencji białek

Podstawy teorii ewolucji. Informacja i ewolucja

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU KSZTAŁT BIAŁEK.

Algorytmy ewolucyjne - algorytmy genetyczne. I. Karcz-Dulęba

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Homologia, podobieństwo i analogia

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Bioinformatyka Laboratorium, 30h. Michał Bereta

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Dopasowania par sekwencji DNA

Bioinformatyka. z sylabusu... (wykład monograficzny) wykład 1. E. Banachowicz. Wykład monograficzny Bioinformatyka.

Bioinformatyka wykład 9

Bioinformatyka. z sylabusu...

Struktura biomakromolekuł chemia biologiczna III rok

Ewolucja informacji genetycznej

Mapowanie genów cz owieka. podstawy

Bioinformatyka wykład 8, 27.XI.2012

Transkrypt:

FILOGENETYKA Bioinformatyka, wykład 7 (24.XI.200.XI.2008) krzysztof_pawlowski@sggw.pl

Filogenetyka Cel rekonstrukcja historii ewolucji wszystkich organizmów. Klasyczne podejście: historia ewolucji jest odtwarzana na podstawie porównań cech morfologicznych i fizjologicznych badanych organizmów.

zadaniem filogenetyki molekularnej jest zrekonstruowanie związków filogenetycznych między badanymi sekwencjami podstawowe założenia w filogenetyce molekularnej: sekwencje przodka mutują w sekwencje potomków podobne gatunki sąs genetycznie blisko spokrewnione wyrazem analiz filogenetycznych są drzewa filogenetyczne

Tree of life (Darwin)

eukarionty Tree of life (dziś) archea bakterie

kręgowce grzyby rośliny

Taksony mono- i polifiletyczne

liść liść gatunek A gałąź gatunek C węzeł gatunek A gatunek B korzeń gatunek B węzeł długość gałę łęzi gatunek D gałąź długość gałę łęzi gatunek E gatunek C przykładowe nieukorzenione drzewo filogenetyczne przykładowe ukorzenione drzewo filogenetyczne

Węze zeł - reprezentuje jednostkę taksonomiczną (populację, organizm, gen). Może przedstawiać współcześnie istniejący takson, jak i jego przodka. Gałąź - obrazuje związki ewolucyjne między porównywanymi jednostkami taksonomicznymi. Długość gałę łęzi - zazwyczaj reprezentuje liczbę zmian, które się zdarzyły w danej linii ewolucyjnej. Korzeń - wspólny przodek dla wszystkich taksonów. Liść - reprezentuje aktualnie analizowaną jednostkę taksonomiczną.

Mechanizmy ewolucji - Mutacje w genach. Mutacje są rozprzestrzeniane w populacji poprzez dryf genetyczny lub/i selekcję naturalną - Duplikacja i rekombinacja genów.

Etapy analizy filogenetycznej Dobór i dopasowane sekwencji Wybór modelu substytucji Wybór metody oceny odległości ewolucyjnej Konstrukcja drzewka Ocena i analiza skonstruowanego drzewka

Dopasowanie wielu sekwencji Multiple sequence alignment (MSA) 16S rrna Thermus ruber UCCGAUGC-UAAAGA-CCGAAG=CUCAA=CUUCGG=GGGU=GCGUUGGA Th. thermophilus UCCCAUGU-GAAAGA-CCACGG=CUCAA=CCGUGG=GGGA=GCGUGGGA E.coli UCAGAUGU-GAAAUC-CCCGGG=CUCAA=CCUGGG=AACU=GCAUCUGA Ancyst.nidulans UCUGUUGU-CAAAGC-GUGGGG=CUCAA=CCUCAU=ACAG=GCAAUGGA B.subtilis UCUGAUGU-GAAAGC-CCCCGG=CUCAA=CCGGGG=AGGG=UCAUUGGA Chl.aurantiacus UCGGCGCU-GAAAGC-GCCCCG=CUUAA=CGGGGC=GAGG=CGCGCCGA match ** *** * ** ** * **

Metody tworzenia drzewek filogenetycznych Grupa sekwencji homologicznych Dopasowanie wielu sekwencji Silne podobieństwo sekwencji? tak Metoda maksymalnej parsymoni - MP nie Rozpoznawalne podobieństwo sekwencji? nie Metoda maksymalnej wiarygodności -ML tak Metody oparte na odległościach (dystansowe) Sprawdzanie poprawności rekonstrukcji

Metoda maksymalnej parsymonii - MP Drzewko filogenetyczne skonstruowane metodą MP to takie, które wymaga najmniejszej liczby zmian aby wyjaśnić obserwowane różnice w analizowanych sekwencjach

Metoda MP Seq1 Seq2 Seq3 Seq4 A A G A G T G C A A G C C G T G C G A G A T A T C C A A G A G A T C C G Miejsce informatywne dla sekwencji nukleotydowych to takie, w którym obserwuje się przynajmniej dwa różne nukleotydy i są one prezentowane przynajmniej w dwóch sekwencjach. 1 2 1 3 1 2 3 4 2 4 4 3

Position of sequences on the tree 1 2 3 4 1 3 2 4 1 2 4 3 Position 2 Seq1 Seq2 Seq3 Seq4 A A G A G T G C A A G C C G T G C G A G A T A T C C A A G A G A T C C G Position 3 mutacja Position 4 Position 5 Position 7 Position 8 Sum 11 10 12

Metoda maksymalnej wiarygodności Maksimum likelihood (ML) Drzewko filogenetyczne skonstruowane metodą ML to takie, które z największym prawdopodobieńswtem odtwarza obserwowane dane

Maximum likelihood method (ML) 1. Wyliczana jest wiarygodność (prawdopodobieństwo - L) dla każdego informatywnego miejsca 2. Następnie sumowane są wszystkie wartości L dla każdego możliwego drzewa 3. Porównywane są ze sobą wartości L dla każdego możliwego drzewa i wybierane jest to, które ma najwyższą wartość L - całościowe czyli Wybierane jest to drzewo, które przy danym modelu najbardziej pasuje do analizowanych danych

Rekonstrukcja drzewa metodą ML Sekwencja 1: ACGCGTTGGG Sekwencja 2: ACGCGTTGGG Sekwencja 3: ACGCAATGAA Sekwencja 4: AGACAGGGAA Analizujemy kolumnę Proponujemy układ drzewa Proponujemy układ nukleotydów Prawd = P(T) * P(T G) * P(G A) = 0.25*10-6 *10-6? ATGC Przydzielenie nukleotydów T? ATGC? ATGC T G 1 2 3 4 T T A G T T A G Likelihood konkretnej pozycji jest sumą prawdopodobieństw wszystkich możliwych rekonstrukcji przodków dla wybranego modelu.

Hipoteza zegara molekularnego (MC) Zaproponowana przez Zuckerkandla i Paulinga w roku 1962. Opiera się na założeniu, że tempo ewolucji (akumulacja mutacji) sekwencji nukleotydowej czy aminokwasowej jest w przybliżeniu stałe. Czyli różnice między sekwencjami dwóch gatunków są proporcjonalne do czasu jaki upłynął od momentu gdy oba gatunki miały wspólnego przodka.

tempo mutacji zależy y od regionu w genomie, genie, rodzaju genu, częś ęściej obserwuje się podstawienia w III pozycjach kodonów częś ęściej obserwuje się podstawienia typu tranzycji niż transwersji częś ęściej obserwuje się podstawienia między aminokwasami a podobnymi do siebie, ze względu na swoje właściwow ciwości biochemiczne, biofizyczne np.: rzadko obserwuje się podstawienia między aminokwasami a pełni niącymi ważne role w białkach, jak: cysteina (C) czy tryptofan (W) rewersja izoleucyna (I) leucyna (L), valina (V) izoleucyna (I), kwas asparaginowy (D) kwas glutaminowy (E), rzadko obserwuje się podstawienia między aminokwasami bardzo różniącymi się swoimi własnow asnościami tryptofan (W) izoleucyna (I) niektóre aminokwasy, takie jak: asparagina (N),, kwas asparaginowy (D), seryna (S) mutują częś ęściej niż inne możliwo liwość wystąpienia wielokrotnych podstawień

Protein Rate (mean replacements per site per 10 9 years) Fibrinopeptides 8.3 Insulin C 2.4 Ribonuclease Haemoglobins 2.1 1.0 Cytochrome C 0.3 Histone H4 0.01

przodek 2 zmiany w stosunku do przodka 5 zmian w stosunku do przodka 6 zmian w stosunku do przodka 4 zmian w stosunku do przodka 5 zmian w stosunku do przodka potomek MELSKLTGDPAREKELKMLMELSKLTGDPAPFVYRVLKRL MELSKTTGDPARRKELKMLMELSKLTGDPAPFVYRVLKRL MELSKTTGDPARRKELSMLMKLSKLTGDPAPFVYRVGKRL MELSKTTGDPARQKELSMLMKLSKLTGDPAPFYYRVGKRL MELSKLTGDPARQKELSMLMKLSKLTGDPAPFVYRVGKRL MELSKLTGDPARQKELSMLWKLSKLTGDRAPFVYRVLKRL rzeczywista liczba podstawień 2 zmiany 3 zmiany 2 zmiany 2 zmiana 3 zmiany = 12 zmian różnice między sekwencjami niedoszacowanie zaobserwowana liczba różnic nic czas ewolucji

tranzycje i transwersje

Macierze substutucji nukleotydów Juckes-Cantor K80 (Kimura) TN93 (Tamura-Nei, 93) TN93 rozróżnia tranzycje i transwersje, oraz typ tranzycji: czy zaszła ona między purynami czy pirymidynami

Percent Accepted Mutation PAM1 - M. Dayhoff 1978r. Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val A R N D C Q E G H I L K M F P S T W Y V Ala A 9867 2 9 10 3 8 17 21 2 6 4 2 6 2 22 35 32 0 2 18 Arg R 1 9913 1 0 1 10 0 0 10 3 1 19 4 1 4 6 1 8 0 1 Asn N 4 1 9822 36 0element 4 6 6M21 3 1 13 0 1 2 20 9 1 4 1 IJ tej macierzy reprezentuje Asp D 6 0 42 9859 0 6 53 6 4 1 0 3 0 0 1 5 3 0 0 1 Cys C 1 1 0 0 9973prawdopodobieństwo 0 0 0 1 1 0 0 0z jakim 0 1 aminokwas 5 1 0 3 2 Gln Q 3 9 4 5 0w 9876 kolumnie 27 1 23 j zostanie 1 3 6 4podstawiony 0 6 2 2 przez 0 0 1 Glu E 10 0 7 56 0 35 9865 4 2 3 1 4 1 0 3 4 2 0 1 2 Gly G 21 1 12 11 1aminokwas 3 7 9935 1z wiersza 0 1 2 i1w 1czasie 3 21 3 0 0 5 His H 1 8 18 3 1ewolucyjnym 20 1 0 9912 01 PAM 1 1 0 2 3 1 1 1 4 1 Ile I 2 2 3 1 2 1 2 0 0 9872 9 2 12 7 0 1 7 0 1 33 Leu L 3 1 3 0 0 6 1 1 4 22 9947 2 45 13 3 1 3 4 2 15 Lys K 2 37 25 6 0 12 7 2 2 4 19926 20 0 3 8 11 0 1 1 Met M 1 1 0 0 0 2 0 0 0 5 8 4 9874 1 0 1 2 0 0 4 Phe F 1 1 1 0 0 0 0 1 2 8 6 0 4 9946 0 2 1 3 28 0 Pro P 13 5 2 1 1 8 3 2 5 1 2 2 1 19926 12 4 0 0 2 element diagonalny M Ser S 28 11 34 7 11 4 6 16 2 2 ii 1 7 4 3 17 9840 38 5 2 2 Thr T 22 2prawdopodobieństwo, 13 4 1 3 2 2 1 11 że określa 2 dany 8 6 1 5 329871 0 2 9 Trp W 0 2aminokwas 0 0 0 0 nie 0 ulegnie 0 0 0 0 0 0 1 0 1 09976 1 0 Tyr T 1 0substytucji 3 0 3 0 w 1tym 0 czasie 4 1 1 0 0 21 0 1 1 29945 1 Val V 13 2 1 1 3 2 2 3 3 57 11 1 17 1 3 2 10 0 29901 Elementy pomnożone zostały przez 10 000

M. Dayhoff i współpracownicy pracownicy 1978r. JEDNOSTKA PAM (Percent ercent Accepted Mutation) miara odległości ewolucyjnej między sekwencjami. 1 PAM odpowiada takiemu czasowi ewolucyjnemu, podczas którego, w porównywanych sekwencjach, zmianie ulegnie 1 aminokwas na 100 (ok. 1 mln lat) 1000 aminokwasów MELSKLTGDPAPFVYRVLKR... SKLTGDPAP... KVVFRISESPMIFKAYPLDI... MELSKLTGDPA... REKELKMLMELSKLTGDPAPFVYRVLKRL... LDIVLSSLIHEREKELKML MELSKLTDDPAPFVYRYLKR... SKLTQDPAP... KVVFRISRSPWIFKAVPLDI... MELSKTTGDPA... REKELDMLMELSKLTGDPAPFVYRVFKRL... LDIVLSSLIHERRKELKML Zmianie uległo 10/1000 = 1/100 aminokwasów, czyli 1% 10 zmienionych aminokwasów

Ewolucyjna macierz PAM Macierz PAM - Percent Accepted Mutations (Dayhoff i współpr pr.. 1978) Utworzona przez porównanie blisko spokrewnionych sekwencji białek (ponad 85% identyczności) ci) o znanych powiązaniach filogenetycznych; naliczenie 1572 zmian zaakceptowanych (przez selekcję) ) w 71 grupach białek. Uwzględnia mutabilności poszczególnych aminokwasów MWTVSALV SALVGQ MWTVSALV SALVGQ MWTASALV SALVGQ MWTVSALV SALVLQ MWTASALV SALVGQ MWTVSALV SALVLQ V -> A G -> L

Macierz PAM log odds Wyliczenie wartości log odds: log odds = log (Po/ o/pe) Po obserwowana częstotliwo stotliwość występowania mutacji Pe oczekiwana częstotliwo stotliwość występowania mutacji (losowa) jeżeli eli log odds < 0: dana substytucja zachodzi rzadziej niż należało o się spodziewać jeżeli eli log odds > 0: dana substytucja zachodzi częś ęściej niż należało o się spodziewać (np.. +1 oznacza, że e dana substytucja jest obserwowana 10 razy częś ęściej niż należało o się spodziewać) jeżeli eli log odds = 0: dana substytucja zachodzi z taką samą często stością jak w sekwencji losowej

A R N D C Q E G H I L K M F P S T W Y V A 2 R -22 6 N 0 0 2 D 0-11 2 4 C -2-4 -4-55 12 Q 0 1 1 2-55 4 E 0-11 1 3-55 2 4 G 1-33 0 1-3 -11 0 5 H -11 2 2 1-33 3 1-22 6 I -1-2 -2-2 -2-2 -2-3 -22 5 L -2-3 -3-4 -6-2 -3-4 -22 2 6 K -11 3 1 0-55 1 0-22 0-2 -33 5 M -11 0-2 -3-5 -1-2 -3-22 2 4 0 6 F -4-4 -4-6 -4-5 -5-5 -22 1 2-55 0 9 Rzadkie aminokwasy mają duże e wagi P 1 0-1 -1-33 0-1 -11 0-2 -3-1 -2-55 6 S 1 0 1 0 0-11 0 1-1 -1-33 0-2 -33 1 2 T 1-11 0 0-2 -11 0 0-11 0-22 0-1 -33 0 1 3 Pospolite aminokwasy mają małe e wagi W -66 2-4 -7-8 -5-7 -7-3 -5-2 -3-44 0-6 -2-55 17 Y -3-4 -2-44 0-4 -4-55 0-1 -1-4 -22 7-5 -3-33 0 10 V 0-2 -2-2 -2-2 -2-1 -22 4 2-22 2-1 -1-11 0-6 -22 4

A R N D C Q E G H I L K M F P S T W Y V A 2 R -22 6 N 0 0 2 D 0-11 2 4 C -2-4 -4-55 12 Q 0 1 1 2-55 4 E 0-11 1 3-55 2 4 G 1-33 0 1-3 -11 0 5 H -11 2 2 1-33 3 1-22 6 I -1-2 -2-2 -2-2 -2-3 -22 5 L -2-3 -3-4 -6-2 -3-4 -22 2 6 K -11 3 1 0-55 1 0-22 0-2 -33 5 M -11 0-2 -3-5 -1-2 -3-22 2 4 0 6 F -4-4 -4-6 -4-5 -5-5 -22 1 2-55 0 9 P 1 0-1 -1-33 0-1 -11 0-2 -3-1 -2-55 6 S 1 0 1 0 0-11 0 1-1 -1-33 0-2 -33 1 2 T 1-11 0 0-2 -11 0 0-11 0-22 0-1 -33 0 1 3 Dodatnie wartości dla częstszych podstawień W -66 2-4 -7-8 -5-7 -7-3 -5-2 -3-44 0-6 -2-55 17 Y -3-4 -2-44 0-4 -4-55 0-1 -1-4 -22 7-5 -3-33 0 10 V 0-2 -2-2 -2-2 -2-1 -22 4 2-22 2-1 -1-11 0-6 -22 4

A R N D C Q E G H I L K M F P S T W Y V A 2 R -22 6 N 0 0 2 D 0-11 2 4 C -2-4 -4-55 12 Q 0 1 1 2-55 4 E 0-11 1 3-55 2 4 G 1-33 0 1-3 -11 0 5 H -11 2 2 1-33 3 1-22 6 I -1-2 -2-2 -2-2 -2-3 -22 5 L -2-3 -3-4 -6-2 -3-4 -22 2 6 K -11 3 1 0-55 1 0-22 0-2 -33 5 M -11 0-2 -3-5 -1-2 -3-22 2 4 0 6 F -4-4 -4-6 -4-5 -5-5 -22 1 2-55 0 9 P 1 0-1 -1-33 0-1 -11 0-2 -3-1 -2-55 6 S 1 0 1 0 0-11 0 1-1 -1-33 0-2 -33 1 2 T 1-11 0 0-2 -11 0 0-11 0-22 0-1 -33 0 1 3 Ujemne wartości dla rzadkich podstawień W -66 2-4 -7-8 -5-7 -7-3 -5-2 -3-44 0-6 -2-55 17 Y -3-4 -2-44 0-4 -4-55 0-1 -1-4 -22 7-5 -3-33 0 10 V 0-2 -2-2 -2-2 -2-1 -22 4 2-22 2-1 -1-11 0-6 -22 4

Ewolucyjna macierz PAM Ekstrapolowanie często stości podstawień zaobserwowanych na krótkich dystansach na dłuższe d dystansy ewolucyjne mnożenie macierzy przez siebie uzyskanie serii tablic PAM: PAM1 -> > PAM60, PAM80, PAM120, PAM250 Podobieństwo: 99% 60% 50% 40% 20% Liczba podstawień na miejsce: 0.01 0.6 0.8 1.2 2.5

Macierz PAM wady z powodu założeń: Podstawienia aminokwasów w zachodzą niezależnie od siebie. W rzeczywistości ci zmiany w różnych r regionach sekwencji sąs ze sobą skorelowane. Te same tempo podstawień w różnych r regionach sekwencji. W rzeczywistości ci różne r regiony wykazują różny stopień konserwatywności i ewoluują z różnąr prędko dkością. W różnych r regionach różne r podstawienia zdarzają się z różnąr często stością. Często stość poszczególnych podstawień nie zmieniają się w czasie. W rzeczywistości ci często stości podstawień mogą się zmieniać w czasie.

Macierz BLOSUM Macierz BLOSUM BLOcks Substitution Matrix (Henikoff i Henikoff 1992) Utworzona przez porównanie około o 2000 zachowanych bloków w (regionów sekwencji) w ponad 500 rodzinach białek o różnej r odległości ewolucyjnej. Bloki sąs regionami sekwencji odpowiedzialnymi za podobną funkcję biochemiczną lub strukturę. Macierze dla różnych r odległości ewolucyjnych zostały y wyliczone z porównania sekwencji odpowiednio odległych: BLOSUM30 bloki sekwencji o co najmniej 30% identyczności ci reszt aminokwasowych BLOSUM62 bloki sekwencji o co najmniej 62% identyczności ci reszt aminokwasowych BLOSUM80 bloki sekwencji o co najmniej 80% identyczności ci reszt aminokwasowych

Macierz BLOSUM BLOcks Substitution Matrix bloki

A 4 A R N D C Q E G H I L K M F P S T W Y V R -11 5 N -22 0 6 D -2-22 1 6 C 0-3 -3-33 9 Q -11 1 0 0-33 5 E -11 0 0 2-44 2 5 G 0-22 0-1 -3-2 -22 6 H -22 0 1-1 -33 0 0-22 8 Macierz BLOSUM62 I -1-3 -3-3 -1-3 -3-4 -33 4 L -1-2 -3-4 -1-2 -3-4 -33 2 4 K -11 2 0-1 -33 1 1-2 -1-3 -22 5 M -1-1 -2-3 -11 0-2 -3-22 1 2-11 5 F -2-3 -3-3 -2-3 -3-3 -11 0 0-33 0 6 P -1-2 -2-1 -3-1 -1-2 -2-3 -3-1 -2-44 7 S 1-11 1 0-11 0 0 0-1 -2-22 0-1 -2-11 4

PAM Vs. BLOSUM PAM100 =~ BLOSUM90 PAM120 =~ BLOSUM80 PAM160 =~ BLOSUM60 Bardziej odległe sekwencje PAM200 =~ BLOSUM52 PAM250 =~ BLOSUM45

Inne macierze substutucji aminokwasowów Oparte na kodzie genetycznym - związane zane z kodowaniem aminokwasów w przez kodony (Fitch( 1966; Benner i współpr pr.. 1994) Uwzględniaj dniające właściwow ciwości fizyko-chemiczne aminokwasów w (Vogt( i współpr pr.. 1995) i podobieństwo strukturalne łańcuchów w bocznych (Feng( i współpr pr.. 1985) Uwzględniaj dniające strukturę trzeciorzędow dową (Risler i współpr pr.. 1988; Johnson i Overington 1993; Henikoff i Henikoff 1993; Sander i Schneider 1991) Macierz dwupeptydów (Gonnet i współpr pr.. 1994) - 400 x 400, uwzględnia wpływ przyległych ych aminokwasów w na często stość substytucji Macierz PAM z uwzględnieniem białek transmembranowych (Jones i współpr pr. 1994)

Etapy analizy filogenetycznej Dobór i dopasowane sekwencji Wybór modelu substytucji Wybór metody oceny odległości ewolucyjnej Konstrukcja drzewka Ocena i analiza skonstruowanego drzewka

UPMGA Unweighted Pair Group Method with Arithmetic Mean 0.047 0.047 0.056 0. 094 0.108 Human Chimpanzee Gorilla Orangutan Gibbon FM Fitch - Margoliash

NJ - Neighbour joining A E D A A E B C B B D C

Ocena poprawności rekonstrukcji filogenetycznej metoda bootstrap Site OTU 1 2 3 4 5 6 7 8 9 10 1 2 3 4 A A C C Site OTU 1 2 3 4 5 6 7 8 9 10 1 2 3 4 T C A G A T C T A G T T A G A A C T A G T T C G A T C G A G T T C T A A G G A C C T T T T A T A A A A A G G G C C C C G A A A A T A T A T T T T A A A A oryginalne dopasowanie powtórne dopasowanie 1 2 3 4 1 3 2 4 Losujemy nowe kolumny dopasowania (z powtórzeniami!) Powtarzamy 100-1000 i tworzymy drzewko konsensusowe

Wartości bootstrap: > 95% topologia drzewka bardzo prawdopodobna < 75% nie ma wystarczająco silnych dowodów potwierdzających taką topologię drzewka co wcale nie oznacza, że nie jest ona prawidłowa!!!