Dobór naturalny w sekwencjach genów. Metody analizy

Podobne dokumenty
Badanie doboru naturalnego na poziomie molekularnym

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Mechanizmy zmienności ewolucyjnej. Podstawy ewolucji molekularnej.

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Zmienność ewolucyjna. Ewolucja molekularna

Teoria ewolucji. Losy gatunków: specjacja i wymieranie. Podstawy ewolucji molekularnej

Nuttall przeprowadził testy precypitacyjne białek surowicy, aby wykazać związek filogenetyczny między różnymi grupami zwierząt.

Zmienność ewolucyjna. Ewolucja molekularna

Filogenetyka molekularna I

Ekologia molekularna. wykład 6

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Ewolucja informacji genetycznej

Podstawy genetyki populacji. Genetyka mendlowska i ewolucja. Dobór i dryf.

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Teoria ewolucji. Podstawy wspólne pochodzenie.

plezjomorfie: podobieństwa dziedziczone po dalszych przodkach (c. atawistyczna)

Filogenetyka molekularna I. Krzysztof Spalik

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Zmienność ewolucyjna. Ewolucja molekularna

Bioinformatyka Laboratorium, 30h. Michał Bereta

Ewolucja człowieka. Ślady w ziemi i ślady w genach

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Filogenetyka molekularna I. Krzysztof Spalik Zakład Filogenetyki Molekularnej i Ewolucji

Podstawy genetyki populacji. Genetyka mendlowska i ewolucja. Dobór i dryf.

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Mitochondrialna Ewa;

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Ewolucja informacji genetycznej

Bioinformatyka Laboratorium, 30h. Michał Bereta

Podstawy teorii ewolucji. Informacja i ewolucja

Powstanie i ewolucja informacji genetycznej

WSTĘP. Copyright 2011, Joanna Szyda

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.

Mapowanie genów cz owieka. podstawy

Ewolucjonizm NEODARWINIZM. Dr Jacek Francikowski Uniwersyteckie Towarzystwo Naukowe Uniwersytet Śląski w Katowicach

Porównywanie i dopasowywanie sekwencji

Wstęp do Biologii Obliczeniowej

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Analizy filogenetyczne

Testowanie hipotez statystycznych

Rycina 1. Zasięg i zagęszczenie łosi (liczba osobników/1000 ha) w Polsce w roku 2010 oraz rozmieszczenie 29 analizowanych populacji łosi.

Dryf genetyczny i jego wpływ na rozkłady próbek z populacji - modele matematyczne. Adam Bobrowski, IM PAN Katowice

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

Ewolucja człowieka. Ślady w ziemi i ślady w genach

Acknowledgement. Drzewa filogenetyczne

Ekologia molekularna. wykład 1

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Zmienność ewolucyjna. Ewolucja molekularna

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Analiza sprzężeń u człowieka. Podstawy

Testowanie hipotez statystycznych.

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Podstawy genetyki populacji. Genetyka mendlowska i ewolucja.

Statystyka matematyczna dla leśników

Ewolucja człowieka. Ślady w ziemi i ślady w genach

Ekologia molekularna. wykład 3

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Dobór naturalny. Ewolucjonizm i eugenika

Polimorfizm genu mitochondrialnej polimerazy gamma (pol γ) w populacjach ludzkich Europy

Dopasowanie sekwencji (sequence alignment)

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Podstawy biologii. Podstawy biologii molekularnej

o cechach dziedziczonych decyduje środowisko, a gatunki mogą łatwo i spontanicznie przechodzić jedne w drugie

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny?

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Metody Statystyczne. Metody Statystyczne

PODSTAWY BIOINFORMATYKI 8 DOPASOWYWANIE SEKWENCJI AMINOKWASÓW

Pamiętając o komplementarności zasad azotowych, dopisz sekwencję nukleotydów brakującej nici DNA. A C C G T G C C A A T C G A...

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Analiza sprzężeń u człowieka. Podstawy

Zadania ze statystyki, cz.6

ZARZĄDZANIE POPULACJAMI ZWIERZĄT

Statystyka Matematyczna Anna Janicka

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Podstawy genetyki populacji. Populacje o skończonej liczebności. Dryf. Modele wielogenowe.

Testowanie hipotez statystycznych.

Podstawy teorii ewolucji. Informacja i ewolucja

PDF created with FinePrint pdffactory Pro trial version

5. WNIOSKOWANIE PSYCHOMETRYCZNE

Wykład 9 Wnioskowanie o średnich

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Zmienność. środa, 23 listopada 11

Analiza sprzężeń u człowieka. Podstawy

Statystyczna analiza danych

MODELOWANIE STOCHASTYCZNE CZĘŚĆ II - ŁAŃCUCHY MARKOWA. Biomatematyka Dr Wioleta Drobik-Czwarno

Testy nieparametryczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Porównywanie i dopasowywanie sekwencji

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

Prawdopodobieństwo i statystyka r.

Transkrypt:

Dobór naturalny w sekwencjach genów Metody analizy

Podstawy ewolucji molekularnej Ewolucja sekwencji DNA i białek

Zmiany genetyczne w ewolucji } Mutacje } tworzą nowe allele genów } Inwersje } zmieniają układ genów na chromosomach } mogą uniemożliwić rekombinację na danym odcinku i doprowadzić do utrwalenia haplotypu } Duplikacje } dotyczą fragmentów DNA, w tym całych genów } lub całych chromosomów i całych genomów } główne źródło innowacji ewolucyjnej } Transfer horyzontalny } w tym zdarzenia symbiotyczne 3

Substytucje } Tranzycje zachodzą w naturze częściej od transwersji } mimo tego, że możliwych transwersji jest więcej } stosunek ts/tv od ~2 (ndna) do ~15 (mtdna człowieka) } wyjątek mtdna roślin } duże różnice ts/tv u różnych grup organizmów 4

Tranzycje i transwersje } Dlaczego tranzycje są częstsze? } Wyjaśnienia selekcyjne (tranzycje rzadziej zmieniają aminokwas i częściej są neutralne) } Ale: } tranzycje są częstsze też w genach rrna, pseudogenach i obszarach niekodujących } tranzycje są częstsze w pozycjach 4-krotnie zdegenerowanych (kodony typu CUN Leu) 5

Tranzycje i transwersje } Dlaczego tranzycje są częstsze? 6 } Wyjaśnienia mechanistyczne mechanizmy powstawania i naprawy mutacji } Tranzycje powstają w wyniku m. in.: } przejść tautomerycznych } deaminacji (np. oksydacyjnej) } Tranzycje w mniejszym stopniu zaburzają strukturę podwójnej helisy podczas replikacji } mniejsza wydajność naprawy przez system MMR } Korelacje z: } zawartością par G/C w genomie } aktywnością transkrypcyjną } tempem metabolizmu

Modele ewolucji sekwencji } Badając ewolucję nie dysponujemy z reguły sekwencją przodka } Liczbę mutacji musimy oszacować na podstawie różnic między sekwencjami współczesnymi } Konieczne jest uwzględnienie wielokrotnych mutacji w tej samej pozycji, zwłaszcza dla bardziej odległych sekwencji 7

Modele ewolucji sekwencji } Modele Markova stan w pokoleniu n +1 zależy tylko od stanu w pokoleniu n i reguł przekształcenia (macierz prawdopodobieństw zmiany stanów) } Modele o różnym stopniu skomplikowania } Mogą uwzględniać: } mutacje wielokrotne w tej samej pozycji (poprawka Poissona) } różne prawdpodobieństwa zmian nukleotydowych (lub białkowych) } różne prawdopodobieństwo mutacji w różnych pozycjach sekwencji } różne częstości nukleotydów 8

Modele ewolucji sekwencji } Modele Markova stan w pokoleniu n +1 zależy tylko od stanu w pokoleniu n i reguł przekształcenia (macierz prawdopodobieństw zmiany stanów) } Modele o różnym stopniu skomplikowania } Mogą uwzględniać: } mutacje wielokrotne w tej samej pozycji (poprawka Poissona) } różne prawdpodobieństwa zmian nukleotydowych (lub białkowych) } różne prawdopodobieństwo mutacji w różnych pozycjach sekwencji } różne częstości nukleotydów 9

Modele ewolucji DNA model Jukesa- Cantora } Jednakowe częstości nukleotydów (f=0,25) } Jednakowe prawdopodobieństwo każdej substytucji A C G T A 1-3α α α α C α 1-3α α α G α α 1-3α α T α α α 1-3α } } Odległość po poprawce wynosi: D JC = 3 4 ln(1 4 3 D) Przykładowo: D OBS =0.43 => D JC =0.64 10

Inne modele } Kimura (K80, dwuparametrowy) - różne prawdopodobieństwo tranzycji i transwersji } Felsenstein (F81), Hasegawa-Kishino-Yano (HKY85) - różne częstości nukleotydów (F81) + różne prawd. tranzycji i transwersji (HKY85) } GTR (General Time Reversible, Tavare 86) 11

Model GTR } Różne prawdopodobieństwo każdej substytucji (ale symetrycznie, czyli np. A T = T A) - 6 parametrów } Różne częstości nukleotydów - 4 parametry 12

Rozkład gamma } Proste modele zakładają jednakowe prawdopodobieństwo zmiany w każdej pozycji - nierealistyczne } Rozkład prawdopodobieństw zmian w różnych pozycjach rozkład gamma 13

Mutaje na poziomie kodu } Mutacje mogą: } zmienić kodon na inny, ale kodujący ten sam aminokwas } mutacje synonimiczne } zmienić kodon na kodujący inny aminokwas } mutacje niesynonimiczne } zmienić kodon na kodon STOP } mutacje nonsens } spowodować zmianę fazy odczytu } wpłynąć na ekspresję genu 14

Mutacje i dobór naturalny } Efekty działania mutacji obserwujemy pośrednio } różnice sekwencji między populacjami (gatunkami) } polimorfizm sekwencji w obrębie populacji } Na allele wytworzone przez mutacje może działać dobór } Za zmiany częstości powstających alleli może odpowiadać dryf genetyczny } Obserwujemy mutacje utrwalone całkowicie lub częściowo (polimorfizmy) w puli genowej 15

Podstawowe pytanie ewolucji molekularnej } Jaka jest rola dryfu i doboru w wyjaśnieniu obserwowanego zróżnicowania sekwencji? } wewnątrzpopulacyjnego (polimorfizmy) } międzygatunkowego } Pytanie dotyczy zróżnicowania ilościowego! } Nikt nie podaje w wątpliwość tego, że adaptacje w ewolucji powstają dzięki działaniu doboru! 16

Dobor czy dryf? } Selekcjonizm } większość utrwalonych mutacji została wyselekcjonowana przed dobór } większość polimorfizmów jest utrzymywana przez dobór } dobór równoważący, naddominacja, dobór zależny od częstości } Neutralizm (Kimura, 1968) } większość utrwalonych mutacji została utrwalona przez dryf } za większość polimorfizmów odpowiada dryf } mutacje utrwalane przez dobór są rzadkie, nie mają wpływu na ilościową analizę zmienności molekularnej 17

Mutacje i dobór } niekorzystne (szkodliwe) } s < 0 } eliminowane przez dobór (oczyszczający/negatywny) } neutralne } s 0 (a konkretniej, s 1/4N) } utrwalane przez dryf } korzystne } s > 0 } utrwalane przez dobór (z udziałem dryfu dla niewielkich s) 18

Selekcjonizm i neutralizm } Selekcjonizm: } większość mutacji jest niekorzystna } większość utrwalonych mutacji jest korzystna } mutacje neutralne są rzadkie (nie częstsze od korzystnych) } Neutralizm } większość mutacji jest niekorzystna lub neutralna } większość utrwalonych mutacji jest neutralna } mutacje korzystne są rzadkie (znacznie rzadsze od neutralnych) 19

Selekcjonizm i neutralizm selekcjonizm neutralizm pan-neutralizm Neutralizm nie oznacza pan-neutralizmu, czyli negowania znaczenia selekcyjnego mutacji! 20

Przesłanki teorii neutralnej } Tempo zmian sekwencji i polimorfizm są zbyt duże, by dały się wyjaśnić doborem } Stałe tempo ewolucji molekularnej (zegar molekularny) } Sekwencje o mniejszym znaczeniu funkcjonalnym (pseudogeny, mniej istotne obszary białek) ewoluują szybciej, niż obszary kluczowe dla funkcji 21

Stałe tempo ewolucji molekularnej } Wiele sekwencji ewoluuje w stałym tempie } Tempo to jest różne dla różnych sekwencji, ale stałe w czasie ewolucji dla danej sekwencji } Tzw. zegar molekularny Różnice sekwencji globin kręgowców 22

Tempo ewolucji i dryf } Neutralny dryf jest procesem losowym, ale jego tempo będzie stałe w odpowiednio długim czasie } Zależy tylko od częstości mutacji (jedna zmiana na 1/µ pokoleń) } Dla doboru stałe tempo zmian oznacza stałe tempo zmian środowiska } Tempo zmian adaptacyjnych nie wydaje się być stałe 23

Zegar molekularny } Jest konsekwencją neutralnego modelu ewolucji } Tempo akumulacji zmian w danej sekwencji jest stałe } ale różne dla różnych sekwencji } Weryfikacja test względnego tempa K AC - K BC = 0 A B C } W rzeczywistości testuje stałość tempa pomiędzy gałęziami, ale nie w czasie 24

Zegar molekularny - problem } W modelu neutralnym tempo utrwalania mutacji: 2Nµ 1 2N = µ } Powinno być stałe w przeliczeniu na pokolenie } Czas generacji jest różny u różnych organizmów } Czyli nie powinna być obserwowana stałość tempa w czasie rzeczywistym } A często jest (w tych sekwencjach, które zachowują zegar) 25

Problem czasu generacji } Czas generacji różnych organizmów jest istotnie różny ~3 pokolenia/rok,03 pokolenia/rok } Dlaczego nie wpływa to na tempo utrwalania mutacji? 26

Zmiany prawie neutralne } Model Kimury dotyczy zmian neutralnych (s = 0), takie nie są częste } Mutacje zachowują się jak neutralne gdy spełnione jest: s 1 4N e } Mutacje o niewielkim współczynniku doboru s będą zachowywały się jak neutralne w małych populacjach, a w większych populacjach będą podlegały doborowi 27

Zmiany prawie neutralne } Istnieje odwrotna korelacja między czasem generacji a wielkością populacji 28

Zmiany prawie neutralne s 1 4N e ~3 pokolenia/rok ~0,03 pokolenia/rok Długi czas generacji Mniej mutacji na rok Krótki czas generacji Więcej mutacji na rok Populacja nieliczna (małe N e ) Populacja liczna (duże N e ) Więcej mutacji zachowuje się jak neutralne i utrwala przez dryf Więcej mutacji podlega doborowi (i jest eliminowane przez dobór oczyszczający) 29 Efekty czasu generacji i wielkości populacji się znosząc, dając stałe tempo w czasie (Ohta

Zegar molekularny } Dla sekwencji białek i zmian niesynonimicznych w DNA zmiany jednostajne w czasie } Na poziomie DNA, } dla mutacji synonimicznych } pseudogenów } niektórych sekwencji niekodujących } tempo ewolucji zależy od czasu generacji 30

Tempo ewolucji sekwencji a funkcja Sekwencje o mniejszym znaczeniu funkcjonalnym (pseudogeny, mniej istotne obszary białek) ewoluują szybciej, niż obszary kluczowe dla funkcji 31

Degeneracja w kodzie 32 miejsce 4-krotnie zdegenerowane miejsce 2-krotnie zdegenerowane

Tempo ewolucji sekwencji a funkcja Sekwencje o mniejszym znaczeniu funkcjonalnym (pseudogeny, mniej istotne obszary białek) ewoluują szybciej, niż obszary kluczowe dla funkcji 33

Tempo zmian jednostka: PAM/10 8 lat Jednostka czasu ewolucyjnego: ile lat (w milionach, 10 6 ) potrzeba do utrwalenia 1 mutacji/ 100 aa (1 PAM) } Białka zaangażowane w podstawowe funkcje komórki ewoluują wolniej. } W sekwencji białka obszary kluczowe dla funkcji ewoluują wolniej. 34

Tempo zmian } Czynnikiem decydującym o tempie zmian jest dobór oczyszczający (negatywny) } w ważniejszych sekwencjach więcej zmian będzie niekorzystnych (eliminacja przez dobór) } w mniej istotnych sekwencjach więcej zmian będzie neutralnych (utrwalanie przez dryf) } zmiany bez znaczenia dla funkcji będą neutralne } pseudogeny } niekodujące obszary międzygenowe? } podstawienia synonimiczne? 35

Status neutralizmu } Wyjaśnia wiele zjawisk obserwowanych w ewolucji molekularnej } wysoki polimorfizm sekwencji DNA i białek } zegar molekularny } ale jest wiele odstępstw, nie istnieje globalny zegar prawdziwy dla wszystkich gałęzi drzewa życia } wolniejsza ewolucja sekwencji o kluczowym znaczeniu } to też można wyjaśnić modelem, w którym większość mutacji jest albo niekorzystna, albo korzystna, ale niekorzystnych jest więcej } Jest bardzo przydatny jako hipoteza zerowa do badania doboru naturalnego na poziomie sekwencji! 36

Status neutralizmu } Dane molekularne, zwłaszcza genomowe, pozwoliły ocenić zgodność modelu neutralnego z obserwacją zmienności sekwencji } Kimura: 1968 nie były wtedy znane metody sekwencjonowania DNA! 37

Status neutralizmu } Smith & Eyre-Walker 2002 45% podstawień aminokwasowych w ewolucji Drosophila sp. utwalonych przez dobór dodatni } Andolfatto 2005 pomiędzy D. melanogaster i D. simulans dobór dodatni odpowiada za utrwalenie: } 20% podstawień w DNA w intronach i obszarach międzygenowych } 60% podstawień w DNA w sekwencjach UTR 38

Status neutralizmu } Głównym i nieprzemijającym osiągnięciem jest stworzenie matematycznego opisu współdziałania dryfu i doboru naturalnego (dodatniego i oczyszczającego) w ewolucji molekularnej } Dzięki tym modelom opracowano testy poszukujące śladów doboru w sekwencjach (model neutralny jako hipoteza zerowa) } Istnieje znacząca liczba pozycji i sekwencji ewoluujących według modelu neutralnego } można dobrać sekwencje tak, by uzyskać zegar molekularny 39

Status neutralizmu } Dryf genetyczny ma w ewolucji molekularnej bardzo znaczącą, ale nie wyłączną rolę } znaczne obszary genomu ewoluują w sposób bliski neutralnemu 40

Jak szukać śladów działania doboru } Większość sekwencji genów zmienia się jednostajnie, w tempie wyznaczanym przez eliminację mutacji niekorzystnych zegar molekularny } Odstępstwa od jednostajnego tempa w określonej gałęzi dobór specyficzny dla tej gałęzi Orangutan Goryl Szympans Człowiek Orangutan Goryl Szympans Człowiek Orangutan Goryl Szympans Człowiek Równomierne tempo zmian Przyspieszone zmiany Spowolnione zmiany

Badanie doboru } Założenie: mutacje synonimiczne są neutralne, sekwencje porównywane są parami Ka (dn) liczba mutacji niesynonimicznych na liczbę możliwych miejsc niesynonimicznych Ks (ds) liczba mutacji synonimicznych na liczbę możliwych miejsc synonimicznych Stosunek Ka/Ks (ω) jest miarą działania doboru ω=1 ewolucja neutralna ω<1 dobór negatywny (oczyszczający) ω>1 dobór pozytywny

Badanie doboru } Wartość ω rzadko przekracza 1 dla całej sekwencji (wyjątek np. geny MHC) } Średnia wartość ω w porównaniach między naczelnymi a gryzoniami wynosi 0,2, między człowiekiem a szympansem 0,4 } Odchylenie ω od średniej dla konkretnego genu w konkretnej linii ewolucyjnej może świadczyć o działaniu doboru } W sekwencji mogą występować obszary o różnej wartości ω, wskazując na działanie doboru na poszczególne regiony a nawet pozycje aminokwasowe w białku

Badanie doboru II } Porównanie zmian synonimicznych i niesynonimicznych w obrębie populacji danego gatunku i pomiędzy gatunkami.

Test McDonalda-Kreitmana } Stosunek mutacji synonimicznych do niesynonimicznych w obrębie populacji vs. taki sam stosunek dla różnic między gatunkami } Jeżeli zmiany są neutralne, wówczas stosunek ten powinien być w obu przypadkach taki sam

Przykład: gen ADH u trzech gatunków Drosophila synonimiczne niesynonimiczne stosunek wewnątrzpopulacyjne 42 2 ~0,05 międzygatunkowe 17 7 ~0,41 Wniosek: zmiany niesynonimiczne są szybko utrwalane w specjacji nie są neutralne

Inne testy } Test HKA (Hudson, Kreitman, Aguadé) statystyczna korelacja zmienności wewnątrzpopulacyjnej i międzygatunkowej dla mutacji synonimicznych i niesynonimicznych } Test Tajimy porównuje częstość polimorfizmów wewnątrzpopulacyjnych z przewidywaniami teorii neutralnej } Test Fu & Li podobny do testu Tajimy, wykorzystuje dane filogenetyczne

Testowanie hipotez } Kryterium wiarygodności } Program PAML (Phylogenetic Analysis by Maximum Likelihood) autor Ziheng Yang } http://abacus.gene.ucl.ac.uk/software/paml.html

Wiarygodność (likelihood) } Wiarygodność=prawdopodobieństwo uzyskania danych przy założeniach modelu i jego określonych parametrach: P(dane model) } Prawdopodobieństwo dotyczy zdarzenia przyszłego przy znanym modelu - np. jeżeli rzucam idealną (symetryczną) monetą, to prawdopodobieństwo uzyskania orła = 1/2 (dwóch orłów 1/4 itd.) } Wiarygodność odnosi się do wyjaśnienia zjawiska, które już zaszło - np. jeżeli przy dużej liczbie rzutów monetą uzyskuje 50% orłów, to najbardziej wiarygodnym modelem jest ten, w którym moneta jest symetryczna

Test ilorazu wiarygodności } LRT (Likelihood Ratio Test) } Dla porównania dwóch zagnieżdżonych modeli o różnej liczbie parametrów } Dla każdego modelu oblicza się wiarygodność (L1, L2) LR = 2 [ln(l1) ln(l2)]# } Istotność LR określa się porównując z wartością χ2 dla df równego różnicy w liczbie parametrów obu modeli

Przykład #1 Model 0 wartość ω taka sama w całym drzewie: wiarygodność L0 Czy ewolucja w gałęzi #1 jest szybsza? LR = 2 [ln(l1) ln(l0)]# Czy LR większe od χ 2 dla df=1? Model 1 wartość ω w gałęzi #1 inna, niż w pozostałych gałęziach drzewa: wiarygodność L1

Pliki programu PAML } Sekwencje: format PHYLIP (np. z Clustal) } Drzewo: format Newick, ew. z zaznaczanymi gałęziami } plik kontrolny: codeml.ctl

Notacja nawiasowa (Newick) dla drzew (Macaca,Cerco,(Pongo,(Gorilla,(Homo,Chimp)))); (Macaca,Cerco,(Pongo,(Gorilla,(Homo#1,Chimp)))); #1 #1 #1 #1 #1 #1 (Macaca,Cerco,(Pongo,(Gorilla,(Homo,Chimp))$1)); #1 #1 #1 #2 #1 (Macaca,Cerco,(Pongo,(Gorilla,(Homo#2,Chimp))$1));

seqfile = treefile = outfile = noisy = 9 verbose = 2 runmode = 0 * 0,1,2,3,9: how much rubbish on the screen * 1: detailed output, 0: concise output * 0: user tree; 1: semi-automatic; 2: automatic * 3: StepwiseAddition; (4,5):PerturbationNNI seqtype = 1 * 1:codons; 2:AAs; 3:codons-->AAs CodonFreq = 2 * 0:1/61 each, 1:F1X4, 2:F3X4, 3:codon table clock = 0 * 0: no clock, unrooted tree, 1: clock, rooted tree model = 0 * models for codons: * 0:one, 1:b, 2:2 or more dn/ds ratios for branches NSsites = 0 icode = 0 * dn/ds among sites. 0:no variation, 1:neutral, 2:positive * 0:standard genetic code; 1:mammalian mt; 2-10:see below fix_kappa = 0 * 1: kappa fixed, 0: kappa to be estimated kappa = 2 * initial or fixed kappa fix_omega = 0 * 1: omega or omega_1 fixed, 0: estimate omega = 1 * initial or fixed omega, for codons or codon-transltd AAs fix_alpha = 1 * 0: estimate gamma shape parameter; 1: fix it at alpha alpha =.0 * initial or fixed alpha, 0:infinity (constant rate) Malpha = 0 * different alphas for genes ncatg = 4 * # of categories in the dg or AdG models of rates getse = 0 * 0: don't want them, 1: want S.E.s of estimates RateAncestor = 1 * (1/0): rates (alpha>0) or ancestral states (alpha=0) fix_blength = 1 * 0: ignore, -1: random, 1: initial, 2: fixed method = 0 * 0: simultaneous; 1: one branch at a time

Modele } Modele gałęzi (branch models) - czy ω w którejś gałęzi drzewa (lub grupie gałęzi) odbiega od pozostałych gałęzi drzewa } Modele miejsc (site models) - jakie są klasy miejsc (kodonów) w sekwencji pod względem parametru ω (czy we wszystkich pozycjach tak samo działa dobór)? } Modele gałęzi i miejsc (branch and site models) - czy w którejś gałęzi drzewa pojawiają się klasy kodonów, na które inaczej działa dobór?

Modele gałęzi } Hipoteza zerowa - ω takie samo we wszystkich gałęziach drzewa } Hipoteza testowana - istnieją gałęzie o ω innym, niż w reszcie drzewa } Model swobodny - każda gałąź ma inną wartość ω } df = różnica liczby parametrów (każda wyróżniona gałąź dodaje 1)

Modele gałęzi seqfile = treefile = outfile = noisy = 9 verbose = 2 runmode = 0 * 0,1,2,3,9: how much rubbish on the screen * 1: detailed output, 0: concise output * 0: user tree; 1: semi-automatic; 2: automatic * 3: StepwiseAddition; (4,5):PerturbationNNI seqtype = 1 * 1:codons; 2:AAs; 3:codons-->AAs CodonFreq = 2 * 0:1/61 each, 1:F1X4, 2:F3X4, 3:codon table clock = 0 * 0: no clock, unrooted tree, 1: clock, rooted tree model = 0 * models for codons: * 0:one, 1:b, 2:2 or more dn/ds ratios for branches NSsites = 0 icode = 0 * dn/ds among sites. 0:no variation, 1:neutral, 2:positive * 0:standard genetic code; 1:mammalian mt; 2-10:see below fix_kappa = 0 * 1: kappa fixed, 0: kappa to be estimated kappa = 2 * initial or fixed kappa fix_omega = 0 * 1: omega or omega_1 fixed, 0: estimate omega = 1 * initial or fixed omega, for codons or codon-transltd AAs fix_alpha = 1 * 0: estimate gamma shape parameter; 1: fix it at alpha alpha =.0 * initial or fixed alpha, 0:infinity (constant rate) Malpha = 0 * different alphas for genes ncatg = 4 * # of categories in the dg or AdG models of rates getse = 0 * 0: don't want them, 1: want S.E.s of estimates RateAncestor = 1 * (1/0): rates (alpha>0) or ancestral states (alpha=0) fix_blength = 1 * 0: ignore, -1: random, 1: initial, 2: fixed method = 0 * 0: simultaneous; 1: one branch at a time

Modele miejsc } Przeprowadzane przy założeniu stałego ω we wszystkich gałęziach drzewa } Hipoteza zerowa (M1a): dwie klasy kodonów: neutralne (ω=1) i selekcjonowane negatywnie (ω<1) } Hipoteza testowana (M2a): trzy klasy kodonów: neutralne (ω=1), selekcjonowane negatywnie (ω<1) i selekcjonowane pozytywnie (ω>1) } Są też bardziej złożone modele o innej dystrybucji miejsc

Modele miejsc seqfile = treefile = outfile = noisy = 9 verbose = 2 runmode = 0 * 0,1,2,3,9: how much rubbish on the screen * 1: detailed output, 0: concise output * 0: user tree; 1: semi-automatic; 2: automatic * 3: StepwiseAddition; (4,5):PerturbationNNI seqtype = 1 * 1:codons; 2:AAs; 3:codons-->AAs CodonFreq = 2 * 0:1/61 each, 1:F1X4, 2:F3X4, 3:codon table clock = 0 * 0: no clock, unrooted tree, 1: clock, rooted tree model = 0 * models for codons: * 0:one, 1:b, 2:2 or more dn/ds ratios for branches NSsites = 0 icode = 0 * dn/ds among sites. 0:no variation, 1:neutral, 2:positive * 0:standard genetic code; 1:mammalian mt; 2-10:see below fix_kappa = 0 * 1: kappa fixed, 0: kappa to be estimated kappa = 2 * initial or fixed kappa fix_omega = 0 * 1: omega or omega_1 fixed, 0: estimate omega = 1 * initial or fixed omega, for codons or codon-transltd AAs fix_alpha = 1 * 0: estimate gamma shape parameter; 1: fix it at alpha alpha =.0 * initial or fixed alpha, 0:infinity (constant rate) Malpha = 0 * different alphas for genes ncatg = 4 * # of categories in the dg or AdG models of rates getse = 0 * 0: don't want them, 1: want S.E.s of estimates RateAncestor = 1 * (1/0): rates (alpha>0) or ancestral states (alpha=0) fix_blength = 1 * 0: ignore, -1: random, 1: initial, 2: fixed method = 0 * 0: simultaneous; 1: one branch at a time

Modele gałęzi i miejsc } Zmienna ω w wyróżnionych gałęziach, w gałęziach tych pojawia się dodatkowa klasa kodonów o ω>1 } Trzy klasy kodonów neutralne (ω=1), selekcjonowane negatywnie (ω<1) i selekcjonowane pozytywnie (ω>1) } Hipoteza zerowa: w trzeciej klasie ω=1 (brak selekcji pozytywnej)

Modele gałęzi i miejsc seqfile = treefile = outfile = noisy = 9 verbose = 2 runmode = 0 * 0,1,2,3,9: how much rubbish on the screen * 1: detailed output, 0: concise output * 0: user tree; 1: semi-automatic; 2: automatic * 3: StepwiseAddition; (4,5):PerturbationNNI seqtype = 1 * 1:codons; 2:AAs; 3:codons-->AAs CodonFreq = 2 * 0:1/61 each, 1:F1X4, 2:F3X4, 3:codon table clock = 0 * 0: no clock, unrooted tree, 1: clock, rooted tree model = 2 * models for codons: * 0:one, 1:b, 2:2 or more dn/ds ratios for branches NSsites = 2 icode = 0 * dn/ds among sites. 0:no variation, 1:neutral, 2:positive * 0:standard genetic code; 1:mammalian mt; 2-10:see below fix_kappa = 0 * 1: kappa fixed, 0: kappa to be estimated kappa = 2 * initial or fixed kappa fix_omega = 0 * 1: omega or omega_1 fixed, 0: estimate omega = 1 * initial or fixed omega, for codons or codon-transltd AAs fix_alpha = 1 * 0: estimate gamma shape parameter; 1: fix it at alpha alpha =.0 * initial or fixed alpha, 0:infinity (constant rate) Malpha = 0 * different alphas for genes ncatg = 4 * # of categories in the dg or AdG models of rates getse = 0 * 0: don't want them, 1: want S.E.s of estimates RateAncestor = 1 * (1/0): rates (alpha>0) or ancestral states (alpha=0) fix_blength = 1 * 0: ignore, -1: random, 1: initial, 2: fixed method = 0 * 0: simultaneous; 1: one branch at a time