Filogenetyka molekularna I

Podobne dokumenty
Filogenetyka molekularna I. Krzysztof Spalik Zakład Filogenetyki Molekularnej i Ewolucji

Filogenetyka molekularna I. Krzysztof Spalik

Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

klasyfikacja fenetyczna (numeryczna)

Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.

Krzysztof Spalik 1, Marcin Piwczyński 2

Badanie doboru naturalnego na poziomie molekularnym

Analizy filogenetyczne

Bioinformatyka Laboratorium, 30h. Michał Bereta

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Bioinformatyka Laboratorium, 30h. Michał Bereta

Acknowledgement. Drzewa filogenetyczne

Teoria ewolucji. Podstawy wspólne pochodzenie.

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Rycina 1. Zasięg i zagęszczenie łosi (liczba osobników/1000 ha) w Polsce w roku 2010 oraz rozmieszczenie 29 analizowanych populacji łosi.

plezjomorfie: podobieństwa dziedziczone po dalszych przodkach (c. atawistyczna)

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Ograniczenia środowiskowe nie budzą wielu kontrowersji, co nie znaczy że rozumiemy do końca proces powstawania adaptacji fizjologicznych.

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Dopasowanie sekwencji (sequence alignment)

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Porównywanie i dopasowywanie sekwencji

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Nuttall przeprowadził testy precypitacyjne białek surowicy, aby wykazać związek filogenetyczny między różnymi grupami zwierząt.

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Mitochondrialna Ewa;

Recenzja rozprawy doktorskiej. mgr Marcina Jana Kamińskiego. pt. Grupa rodzajowa Ectateus (Coleoptera: Tenebrionidae) filogeneza i klasyfikacja.

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Bioinformatyka Laboratorium, 30h. Michał Bereta

MODELOWANIE STOCHASTYCZNE CZĘŚĆ II - ŁAŃCUCHY MARKOWA. Biomatematyka Dr Wioleta Drobik-Czwarno

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Budowanie drzewa filogenetycznego

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Bioinformatyka Laboratorium, 30h. Michał Bereta

Bioinformatyka Laboratorium, 30h. Michał Bereta

Wstęp do Biologii Obliczeniowej

Zmienność. środa, 23 listopada 11

Ewolucjonizm NEODARWINIZM. Dr Jacek Francikowski Uniwersyteckie Towarzystwo Naukowe Uniwersytet Śląski w Katowicach

Zmienność ewolucyjna. Ewolucja molekularna

Metoda dokładnej rekonstrukcji drzew filogenetycznych genów. współczynników substytucji dla genów i gatunków

Teoria ewolucji. Losy gatunków: specjacja i wymieranie. Podstawy ewolucji molekularnej

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

Konstrukcja drzew filogenetycznych podstawy teoretyczne.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Mechanizmy zmienności ewolucyjnej. Podstawy ewolucji molekularnej.

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Genetyka populacji. Ćwiczenia 7

Bioinformatyka Laboratorium, 30h. Michał Bereta

Wnioskowanie bayesowskie

MACIERZE MUTACYJNE W ANALIZIE GENOMÓW czy możliwa jest rekonstrukcja filogenetyczna? Aleksandra Nowicka

Modelowanie motywów łańcuchami Markowa wyższego rzędu

PORÓWNYWANIE POPULACJI POD WZGLĘDEM STRUKTURY

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

Testowanie hipotez statystycznych

o cechach dziedziczonych decyduje środowisko, a gatunki mogą łatwo i spontanicznie przechodzić jedne w drugie

Porównywanie i dopasowywanie sekwencji

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wspólne pochodzenie. Ślady ewolucji.

KONSEKWENCJE PŁCIOWOŚCI (dlaczego osobniki są podobne?)

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

PRZEWODNIK PO PRZEDMIOCIE

WSTĘP. Copyright 2011, Joanna Szyda

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

METODY STATYSTYCZNE W BIOLOGII

Podstawy teorii ewolucji. Informacja i ewolucja

Mechanizmy ewolucji. SYLABUS A. Informacje ogólne

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Podstawy biologii. Podstawy biologii molekularnej

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

ALGORYTM RANDOM FOREST

SZCZURÓW EWA FRĄCZEK

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

Opis wykonanych badań naukowych oraz uzyskanych wyników

Oszacowanie i rozkład t

Podstawy teorii ewolucji. Informacja i ewolucja

Parazytologia W6. Dabert Wstęp do parazytologii ewolucyjnej Teoria analizy ko filogenetycznej

Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku.

FILOGENETYKA. Bioinformatyka, wykład. 8 c.d. 0)

Pobieranie prób i rozkład z próby

Wnioskowanie statystyczne. Statystyka w 5

Jaki koń jest nie każdy widzi - genomika populacji polskich ras koni

Metody doboru próby do badań. Dr Kalina Grzesiuk

PRZYRÓWNANIE SEKWENCJI

Wyróżniamy dwa typy zadań projektowych.

Transkrypt:

2 Literatura Krzysztof Spalik, Marcin Piwczyński (2009), Rekonstrukcja filogenezy i wnioskowanie filogenetyczne w badaniach ewolucyjnych, Kosmos 58(3-4): 485-498 Filogenetyka molekularna I John C. Avise (2008), Markery molekularne, historia naturalna i ewolucja, Wydawnictwa Uniwersytetu Warszawskiego, Warszawa Krzysztof Spalik Zakład Filogenetyki Molekularnej i Ewolucji Filogeneza a ewolucja Od Darwina podstawą rozważań ewolucyjnych stały się drzewa rodowe (jak przedstawione obok drzewo Haeckla) Drzewa te jednak tworzono intuicyjnie, a nie za pomocą metod formalnych 3 Drzewo jako hipoteza naukowa Drzewo zaproponowane przez badacza odzwierciedla jego wiedzę i poglądy, ale trudno je zweryfikować Drzewo uzyskane za pomocą metod formalnych (matematycznych) poddaje się analizie i weryfikacji 4 1

5 Terminologia 6 Po co nam drzewa rodowe? Aby stworzyć hierarchiczny system klasyfikacji organizmów czyli ich katalog, umożliwiający dostęp do zgromadzonej wiedzy o nich Aby badać przebieg ewolucji, np. dokonywać rekonstrukcji zmian cech w czasie Wymarła gałąź Gałąź (linia filogenetyczna) Węzły wewnętrzne (wspólni przodkowie) Taksony (np. gatunki) Węzeł zewnętrzny Korzeń drzewa Podobieństwo a pokrewieństwo Podobieństwo organizmów może oddawać ich ewolucyjne pokrewieństwo (A), ale może także wynikać z ewolucji zbieżnej, czyli konwergencji (B), albo być świadectwem odległej przeszłości ewolucyjnej dziedzictwem dawnego wspólnego przodka (C). 7 8 Filogenetyka (kladystyka) Twórcą był niemiecki entomolog Willi Hennig (1913-1976) Kladystyka polega na szacowaniu liczby zmian na gałęziach drzewa Poszukuje wspólnych cech zaawansowanych ewolucyjnie, identyfikujących gałęzie drzewa filogenetycznego Znajduje zastosowanie do wszystkich danych nieciągłych (nie tylko sekwencji) http://en.wikipedia.org/wiki/file:willi_hennig.jpg 2

Ewolucja cech 9 Stany pierwotne i pochodne 10 Rozważamy ewolucję cechy u trzech spokrewnionych gatunków. U ich wspólnego przodka występowała cecha a, natomiast u jego potomków a lub a. Stan pierwotny ewolucyjnie to plezjomorfa Stan pochodny (wtórny ewolucyjnie) to apomorfa Innymi słowy, a jest cechą pierwotną, natomiast a pochodną ewolucyjnie Długa szyja plezjozaura to apomorfa cecha zaawansowana ewolucyjnie 11 12 Symplezjomorfia Konwergencja Symplezjomorfia, czyli posiadanie tej samej cechy pierwotnej ewolucyjnie, nie świadczy o bliskim pokrewieństwie Konwergencja, czyli niezależne uzyskanie w toku ewolucji tej samej cechy (wtórnej ewolucyjnie), nie świadczy o bliskim pokrewieństwie 3

Homoplazje Symplezjomorfie i konwergencje, czyli podobieństwa nieświadczące o wspólnym pochodzeniu, określane są łącznie jako homoplazje Utrudniają one odtworzenie rzeczywistej filogenezy organizmów 13 Synapomorfia O bliskim pokrewieństwie świadczy jedynie posiadanie tej samej cechy zaawansowanej (wtórnej) ewolucyjnie, czyli synapomorfia 14 Zakorzenianie drzewa filogenetycznego 15 Zasada parsymonii Spośród wielu możliwych drzew filogenetycznych wybieramy to, które tłumaczy różnorodność cech u badanych organizmów w najbardziej oszczędny sposób, czyli za pomocą najmniejszej liczby zmian ewolucyjnych Metoda największej parsymonii (maximum parsimony) dostarcza zatem jedynie kryterium wyboru drzewa 16 Oba drzewa mają identyczną topologię, ale dzięki ukorzenieniu drzewa w węźle G znamy kierunek ewolucji 4

17 Strefa Felsensteina, czyli kłopoty z parsymonią 18 Analiza filogenezy trzech gatunków wiewiórek metodą parsymonii z susłem jako grupą zewnętrzną na podstawie sekwencji DNA. Najkrótsze jest drzewo nr 1. Nukleotyd T w pozycji 3 jest symplezjomorfią dla gatunków 1 i 2, a nukleotyd A jest synapomorfią dla gatunków 3 i 4. Przy nierównym tempie ewolucji w różnych gałęziach i krótkim czasie między radiacjami, metoda parsymonii daje błędne oszacowania Zbiór topologii drzew rodowych trudnych do oszacowania za pomocą parsymonii nazywamy strefą Felsensteina, sam efekt zaś przyciąganiem się długich gałęzi 19 20 Spójność metody szacowania Modele podstawiania (substytucji) nukleotydów w DNA umożliwiają oszacowanie liczby wielokrotnych podstawień Metody uwzględniające długość gałęzi są spójne, o ile nie ma systematycznego błędu w oszacowaniu długości gałęzi Parsymonia liczą się tylko cechy wspólne Zgodnie z zasadą parsymonii, przodek nr 2 miał adeninę w danym miejscu sekwencji, natomiast przodek nr 1 adeninę, cytozynę lub guaninę 5

Parsymonia Jeśli dołączamy sekwencję z cytozyną, to wszystkie trzy warianty B, C i D są równie dobre żaden nie wymaga dodatkowej zmiany na drzewie Natomiast sekwencje z tyminą lub adeniną możemy dołączyć w dowolnym miejscu 21 Metoda największej wiarygodności Metoda największej wiarygodności czyni założenia co do tempa podstawiania nukleotydów, typów podstawień i różnic tempa podstawień w różnych gałęziach drzewa i w różnych odcinkach sekwencji Najlepsze drzewo to takie, dla którego najbardziej prawdopodobne jest uzyskanie obserwowanego rozkładu cech (nukleotydów w sekwencjach) 22 Metoda największej wiarygodności liczy się prawdopodobieństwo Przodek nr 2 miał najprawdopodobniej adeninę Jest bardziej prawdopodobne, że przodek nr 1 miał adeninę, niż że miał guaninę lub cytozynę Jeśli zatem dołączamy sekwencję z cytozyną, to najbardziej prawdopodobne jest drzewo C 23 Model ewolucji sekwencji Model ewolucji sekwencji to macierz tempa podstawień nukleotydów Najbardziej ogólny model ma następujące parametry µ: bezpośrednie tempo podstawień a-l: stałe dla każdego typu podstawienia (razem 12) p: frekwencja danego nukleotydu Prawie wszystkie modele używane w analizie są szczególnymi przypadkami tego modelu 24 6

Model GTR 25 Najpowszechniej używane modele są szczególnymi przypadkami GTR 26 Model GTR (general time-reversible) zakłada pełną odwracalność podstawień. Innymi słowy, tempo podstawienia np. tyminy przez adeninę jest identyczne jak adeniny przez tyminę. Zamiast 12 typów podstawień mamy zatem 6 (macierz jest symetryczna wzdłuż przekątnej) Tamura-Nei Hasegawa-Kishino-Yano Felsenstein 1984 Zharkikh Kimura 3-parameter Felsenstein 1981 Kimura 2-parameter Jukes-Cantor Problemy z niespójnością Metoda parsymonii może być niespójna, zwłaszcza w wypadku nierównego tempa ewolucji w poszczególnych gałęziach drzewa rodowego (efekt przyciągania długich gałęzi Metody bazujące na modelach substytucji DNA mogą być niespójne, jeśli różne miejsca sekwencji ewoluują w różnym tempie (a nie jest to uwzględnione w modelu) 27 Heterogeniczność tempa podstawień Jeśli tempo podstawień jest heterogeniczne, to metoda największej wiarygodności oraz metody odległościowe są niespójne Rozwiązaniem jest uwzględnienie różnic tempa podstawiania pozycji Zwykle przyjmuje się, że mają one tzw. rozkład g, charakteryzowany przez współczynnik kształtu rozkładu a 28 7

Metody odległościowe Bazują najczęściej (ale nie zawsze) na modelach substytucji DNA (np. JC, K2, K3, HKY, F84 itd.) Podobnie jak metoda największej wiarygodności, są spójne w tych wypadkach, gdzie parsymonia zawodzi 29 Łączenie sąsiadów Metoda łączenia sąsiadów (neighbourjoining) bierze pod uwagę zarówno odległość między łączonymi obiektami, jak i ich odległość do wszystkich pozostałych 30 Są szybką alternatywą dla metody największej wiarygodności, ale są wrażliwe na wpadnięcie w optimum lokalne Jest metodą spójną. Dla dobrych danych, jej wyniki nie odbiegają znacząco od parsymonii, największej wiarygodności i metody bayesowskiej Twierdzenie Bayesa (prawdopodobieństwo warunkowe) P(A) prawdopodobieństwo zajścia zdarzenia A P(H) prawdopodobieństwo hipotezy H P(A H) prawdopodobieństwo A przy założeniu, że H jest prawdziwe P(H A) prawdopodobieństwo H przy założeniu, że zaszło A P(H A) = P(A H)P(H) / P(A) 31 32 Metoda bayesowska Bazuje na twierdzeniu Bayesa (dotyczącym prawdopodobieństwa warunkowego) w tym wypadku pytamy o prawdopodobieństwo drzewa filogenetycznego przy danym zestawie przyrównanych sekwencji Wykorzystuje się nieinformacyjne prawdopodobieństwa a priori dla stawianych hipotez W przeszukiwaniu przestrzeni wszystkich możliwych drzew stosuje się zwykle łańcuchy Markowa-Monte Carlo Do wyznaczenia prawdopodobieństwa drzew i gałęzi służy rozkład stacjonarny łańcucha MMC 8

33 Bootstrap jak się wyciągnąć z filogenetycznego bagna 34 Drzewu można wierzyć, jeśli: Metoda szacowania filogenezy jest spójna W danych jest silny sygnał filogenetyczny Filogeneza genu oddaje filogenezę gatunków Zakorzenienie drzewa jest prawidłowe Bootstrap polega na tworzeniu prób pseudo-losowych (losowanie ze zwracaniem) Wygenerowane macierze są poddawane takiej samej analizie, jak macierz oryginalna Zliczane są wystąpienia takich samych grup na drzewach; przyjmuje się, że dobrze wsparte grupy to takie, które pojawiły się w 95% drzew (przez analogię ze statystyką) Kiedy filogeneza genu nie oddaje filogenezy gatunków? 35 Filogeneza genu a filogeneza gatunków 36 Drzewo genu nie oddaje filogenezy gatunków w wypadku: horyzontalnego przepływu genów (transferu horyzontalnego) rekombinacji genów paralogicznych niepełnego sortowania linii genealogicznych silnego doboru premiującego polimorfizm alleli w loci hybrydyzacji i introgresji Drzewo genu jest identyczne z drzewem gatunków, jeśli allele uległy pełnemu posortowaniu między gatunkami potomnymi Zjawiska te można wychwycić porównując drzewa uzyskane za pomocą różnych genów (filogenomika) 9

37 Drzewo życia Haeckla i współczesne 38 Podsumowanie Skuteczność oszacowania filogenezy organizmów zależy od: wyboru odpowiedniego locus lub loci (drzewo genów powinno odpowiadać drzewu gatunków) mocy sygnału filogenetycznego (tempa ewolucji sekwencji w czasie oraz zróżnicowania tego tempa w obrębie sekwencji) spójności metody rekonstrukcji filogenezy (metody mogą być niespójne w wypadku dużego szumu filogenetycznego lub niedoszacowania długości gałęzi) dobrego wyboru grupy zewnętrznej 10