Filogenetyka molekularna I. Krzysztof Spalik Zakład Filogenetyki Molekularnej i Ewolucji

Podobne dokumenty
Filogenetyka molekularna I

Filogenetyka molekularna I. Krzysztof Spalik

Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

klasyfikacja fenetyczna (numeryczna)

Bioinformatyka Laboratorium, 30h. Michał Bereta

Krzysztof Spalik 1, Marcin Piwczyński 2

Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.

Badanie doboru naturalnego na poziomie molekularnym

Analizy filogenetyczne

Bioinformatyka Laboratorium, 30h. Michał Bereta

Rycina 1. Zasięg i zagęszczenie łosi (liczba osobników/1000 ha) w Polsce w roku 2010 oraz rozmieszczenie 29 analizowanych populacji łosi.

Acknowledgement. Drzewa filogenetyczne

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Mitochondrialna Ewa;

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowanie sekwencji (sequence alignment)

Nuttall przeprowadził testy precypitacyjne białek surowicy, aby wykazać związek filogenetyczny między różnymi grupami zwierząt.

Porównywanie i dopasowywanie sekwencji

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

plezjomorfie: podobieństwa dziedziczone po dalszych przodkach (c. atawistyczna)

Konstrukcja drzew filogenetycznych podstawy teoretyczne.

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

MODELOWANIE STOCHASTYCZNE CZĘŚĆ II - ŁAŃCUCHY MARKOWA. Biomatematyka Dr Wioleta Drobik-Czwarno

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Wstęp do Biologii Obliczeniowej

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Zmienność ewolucyjna. Ewolucja molekularna

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Metoda dokładnej rekonstrukcji drzew filogenetycznych genów. współczynników substytucji dla genów i gatunków

Bioinformatyka Laboratorium, 30h. Michał Bereta

Genetyka populacji. Ćwiczenia 7

Teoria ewolucji. Podstawy wspólne pochodzenie.

Ograniczenia środowiskowe nie budzą wielu kontrowersji, co nie znaczy że rozumiemy do końca proces powstawania adaptacji fizjologicznych.

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Recenzja rozprawy doktorskiej. mgr Marcina Jana Kamińskiego. pt. Grupa rodzajowa Ectateus (Coleoptera: Tenebrionidae) filogeneza i klasyfikacja.

Mechanizmy zmienności ewolucyjnej. Podstawy ewolucji molekularnej.

Ewolucjonizm NEODARWINIZM. Dr Jacek Francikowski Uniwersyteckie Towarzystwo Naukowe Uniwersytet Śląski w Katowicach

Wnioskowanie bayesowskie

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Zmienność. środa, 23 listopada 11

Wyróżniamy dwa typy zadań projektowych.

o cechach dziedziczonych decyduje środowisko, a gatunki mogą łatwo i spontanicznie przechodzić jedne w drugie

WSTĘP. Copyright 2011, Joanna Szyda

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

PORÓWNYWANIE POPULACJI POD WZGLĘDEM STRUKTURY

Drzewa filogenetyczne jako matematyczny model relacji pokrewieństwa. dr inż. Damian Bogdanowicz

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Testowanie hipotez statystycznych

Budowanie drzewa filogenetycznego

PRZEWODNIK PO PRZEDMIOCIE

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

KONSEKWENCJE PŁCIOWOŚCI (dlaczego osobniki są podobne?)

Porównywanie i dopasowywanie sekwencji

MSA i analizy filogenetyczne

Opis wykonanych badań naukowych oraz uzyskanych wyników

Teoria ewolucji. Losy gatunków: specjacja i wymieranie. Podstawy ewolucji molekularnej

46 Olimpiada Biologiczna

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Bioinformatyka Laboratorium, 30h. Michał Bereta

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

ZARZĄDZANIE POPULACJAMI ZWIERZĄT SPOKREWNIENIE INBRED

ALGORYTMY KONSTRUOWANIA DENDROGRAMÓW STOSOWANYCH PRZY ANALIZIE FILOGENETYCZNEJ MIKROORGANIZMÓW

Bioinformatyka Laboratorium, 30h. Michał Bereta

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Transformacja pośrednia składa się z trzech etapów:

Wydział Matematyki. Testy zgodności. Wykład 03

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Klasyfikacja metodą Bayesa

Ekologia molekularna. wykład 6

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Filogenetyka. Dr Marek D. Koter, dr hab. Marcin Filipecki. Katedra Genetyki, Hodowli i Biotechnologii Roślin, SGGW

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Jaki koń jest nie każdy widzi - genomika populacji polskich ras koni

Strategie ewolucyjne (ang. evolu4on strategies)

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Badania genetyczne nad populacją jelenia w północno-wschodniej Polsce

Mapowanie genów cz owieka. podstawy

PRZYRÓWNANIE SEKWENCJI

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Agnieszka Nowak Brzezińska Wykład III

Mechanizmy ewolucji. SYLABUS A. Informacje ogólne

Ćwiczenia nr 4. Programy komputerowe stosowane do analizy danych molekularnych

ALGORYTMY GENETYCZNE (wykład + ćwiczenia)

Wykład 9 Wnioskowanie o średnich

Bioinformatyka Laboratorium, 30h. Michał Bereta

STATYSTYKA MATEMATYCZNA WYKŁAD 1

Filogenetyka. Dr inż. Magdalena Święcicka, dr hab. Marcin Filipecki. Katedra Genetyki, Hodowli i Biotechnologii Roślin, SGGW

MACIERZE MUTACYJNE W ANALIZIE GENOMÓW czy możliwa jest rekonstrukcja filogenetyczna? Aleksandra Nowicka

Transkrypt:

Filogenetyka molekularna I Krzysztof Spalik Zakład Filogenetyki Molekularnej i Ewolucji

3 Literatura Krzysztof Spalik, Marcin Piwczyński (2009), Rekonstrukcja filogenezy i wnioskowanie filogenetyczne w badaniach ewolucyjnych, Kosmos 58(3-4): 485-498 John C. Avise (2008), Markery molekularne, historia naturalna i ewolucja, Wydawnictwa Uniwersytetu Warszawskiego, Warszawa

4 Filogeneza a ewolucja Od Darwina podstawą rozważań ewolucyjnych stały się drzewa rodowe (jak przedstawione obok drzewo Haeckla) Drzewa te jednak tworzono intuicyjnie, a nie za pomocą metod formalnych

Drzewo jako hipoteza naukowa 5 Drzewo zaproponowane przez badacza odzwierciedla jego wiedzę i poglądy, ale trudno je zweryfikować Drzewo uzyskane za pomocą metod formalnych (matematycznych) poddaje się analizie i weryfikacji

6 Typy danych molekularnych Sekwencje nukleotydów w DNA lub RNA albo aminokwasów w białkach Dane binarne: RFLP, RAPD, AFLP, SSCP, SNP, minii mikrosatelitarne DNA (kodowana jest obecność lub brak allelu) Położenie genów w genomie

Metody rekonstrukcji filogenezy 7 Maximum parsimony największej parsymonii: poszukiwane jest drzewo, które wyjaśnia różnorodność danych (sekwencji) za pomocą najmniejszej liczby zmian na gałęziach Distance odległościowe ( fenetyczne ); obliczana jest odległość między obiektami, np. z wykorzystaniem modeli substytucji, a następnie obliczane jest drzewo, zwykle za pomocą metod algorytmicznych (NJ, UPGMA) Maximum likelihood największej wiarygodności; poszukiwane jest drzewo, które maksymalizuje prawdopodobieństwo osiągnięcia rozkładu danych (sekwencji) na drzewie Bayesian method wnioskowanie bayesowskie, korzysta z twierdzenia Bayesa; poszukiwane jest drzewo o największym prawdopodobieństwie a posteriori

8 Filogenetyka (kladystyka) Twórcą był niemiecki entomolog Willi Hennig (1913-1976) Kladystyka polega na szacowaniu liczby zmian na gałęziach drzewa Poszukuje wspólnych cech zaawansowanych ewolucyjnie, identyfikujących gałęzie drzewa filogenetycznego Znajduje zastosowanie do wszystkich danych nieciągłych (nie tylko sekwencji) http://en.wikipedia.org/wiki/file:willi_hennig.jpg

Ewolucja cech 9 Rozważamy ewolucję cechy u trzech spokrewnionych gatunków. U ich wspólnego przodka występowała cecha a, natomiast u jego potomków a lub a. Innymi słowy, a jest cechą pierwotną, natomiast a pochodną ewolucyjnie

10 Stany pierwotne i pochodne Stan pierwotny ewolucyjnie to plezjomorfa Stan pochodny (wtórny ewolucyjnie) to apomorfa Długa szyja plezjozaura to apomorfa cecha zaawansowana ewolucyjnie

11 Symplezjomorfia Symplezjomorfia, czyli posiadanie tej samej cechy pierwotnej ewolucyjnie, nie świadczy o bliskim pokrewieństwie

12 Konwergencja Konwergencja, czyli niezależne uzyskanie w toku ewolucji tej samej cechy (wtórnej ewolucyjnie), nie świadczy o bliskim pokrewieństwie

13 Homoplazje Symplezjomorfie i konwergencje, czyli podobieństwa nieświadczące o wspólnym pochodzeniu, określane są łącznie jako homoplazje Utrudniają one odtworzenie rzeczywistej filogenezy organizmów

14 Synapomorfia O bliskim pokrewieństwie świadczy jedynie posiadanie tej samej cechy zaawansowanej (wtórnej) ewolucyjnie, czyli synapomorfia

15 Szukać siostry! Rozpoznania, który stan jest u danej grupy pierwotny, a który zaawansowany ewolucyjnie, dokonuje się przez porównanie z grupą siostrzaną Innymi słowy, grupa siostrzana służy do zakorzenienia drzewa i ustalenia kierunku ewolucji

16 Zakorzenianie drzewa filogenetycznego Oba drzewa mają identyczną topologię, ale dzięki ukorzenieniu drzewa w węźle G znamy kierunek ewolucji

17 Zasada parsymonii Spośród wielu możliwych drzew filogenetycznych wybieramy to, które tłumaczy różnorodność cech u badanych organizmów w najbardziej oszczędny sposób, czyli za pomocą najmniejszej liczby zmian ewolucyjnych Metoda największej parsymonii (maximum parsimony) dostarcza zatem jedynie kryterium wyboru drzewa

Strefa Felsensteina, czyli kłopoty z parsymonią 18 Przy nierównym tempie ewolucji w różnych gałęziach i krótkim czasie między radiacjami, metoda parsymonii daje błędne oszacowania Zbiór topologii drzew rodowych trudnych do oszacowania za pomocą parsymonii nazywamy strefą Felsensteina, sam efekt zaś przyciąganiem się długich gałęzi

19 Spójność metody szacowania Modele podstawiania (substytucji) nukleotydów w DNA umożliwiają oszacowanie liczby wielokrotnych podstawień Metody uwzględniające długość gałęzi są spójne, o ile nie ma systematycznego błędu w oszacowaniu długości gałęzi

20 Parsymonia liczą się tylko cechy wspólne Zgodnie z zasadą parsymonii, przodek nr 2 miał adeninę w danym miejscu sekwencji, natomiast przodek nr 1 adeninę, cytozynę lub guaninę

Parsymonia 21 Jeśli dołączamy sekwencję z cytozyną, to wszystkie trzy warianty B, C i D są równie dobre żaden nie wymaga dodatkowej zmiany na drzewie Natomiast sekwencje z tyminą lub adeniną możemy dołączyć w dowolnym miejscu

22 Metoda największej wiarygodności Metoda największej wiarygodności czyni założenia co do tempa podstawiania nukleotydów, typów podstawień i różnic tempa podstawień w różnych gałęziach drzewa i w różnych odcinkach sekwencji Najlepsze drzewo to takie, dla którego najbardziej prawdopodobne jest uzyskanie obserwowanego rozkładu cech (nukleotydów w sekwencjach)

Metoda największej wiarygodności liczy się prawdopodobieństwo 23 Przodek nr 2 miał najprawdopodobniej adeninę Jest bardziej prawdopodobne, że przodek nr 1 miał adeninę, niż że miał guaninę lub cytozynę Jeśli zatem dołączamy sekwencję z cytozyną, to najbardziej prawdopodobne jest drzewo C

Model ewolucji sekwencji 24 Model ewolucji sekwencji to macierz tempa podstawień nukleotydów Najbardziej ogólny model ma następujące parametry µ: bezpośrednie tempo podstawień a-l: stałe dla każdego typu podstawienia (razem 12) p: frekwencja danego nukleotydu Prawie wszystkie modele używane w analizie są szczególnymi przypadkami tego modelu

25 Model GTR Model GTR (general time-reversible) zakłada pełną odwracalność podstawień. Innymi słowy, tempo podstawienia np. tyminy przez adeninę jest identyczne jak adeniny przez tyminę. Zamiast 12 typów podstawień mamy zatem 6 (macierz jest symetryczna wzdłuż przekątnej)

Najpowszechniej używane modele są szczególnymi przypadkami GTR 26 Tamura-Nei Zharkikh Hasegawa-Kishino-Yano Felsenstein 1984 Kimura 3-parameter Felsenstein 1981 Kimura 2-parameter Jukes-Cantor

27 Problemy z niespójnością Metoda parsymonii może być niespójna, zwłaszcza w wypadku nierównego tempa ewolucji w poszczególnych gałęziach drzewa rodowego (efekt przyciągania długich gałęzi Metody bazujące na modelach substytucji DNA mogą być niespójne, jeśli różne miejsca sekwencji ewoluują w różnym tempie (a nie jest to uwzględnione w modelu)

Heterogeniczność tempa podstawień 28 Jeśli tempo podstawień jest heterogeniczne, to metoda największej wiarygodności oraz metody odległościowe są niespójne Rozwiązaniem jest uwzględnienie różnic tempa podstawiania pozycji Zwykle przyjmuje się, że mają one tzw. rozkład g, charakteryzowany przez współczynnik kształtu rozkładu a

29 Metody odległościowe Bazują najczęściej (ale nie zawsze) na modelach substytucji DNA (np. JC, K2, K3, HKY, F84 itd.) Podobnie jak metoda największej wiarygodności, są spójne w tych wypadkach, gdzie parsymonia zawodzi Są szybką alternatywą dla metody największej wiarygodności, ale są wrażliwe na wpadnięcie w optimum lokalne

30 UPGMA Metoda UPGMA, łącząc obiekty w pary, łamie gałęzie w połowie odległości między obiektami. W efekcie, wszystkie szczytowe gałęzie drzewa są na jednym poziomie Taka metoda może być słuszna, jeśli tempo ewolucji jest stałe a rzadko kiedy jest. Jej wyniki są niespójne z innymi metodami i nie warto jej stosować

Łączenie sąsiadów 31 Metoda łączenia sąsiadów (neighbour-joining) bierze pod uwagę zarówno odległość między łączonymi obiektami, jak i ich odległość do wszystkich pozostałych Jest metodą spójną. Dla dobrych danych, jej wyniki nie odbiegają znacząco od parsymonii, największej wiarygodności i metody bayesowskiej

32 Twierdzenie Bayesa (prawdopodobieństwo warunkowe) P(A) prawdopodobieństwo zajścia zdarzenia A P(H) prawdopodobieństwo hipotezy H P(A H) prawdopodobieństwo A przy założeniu, że H jest prawdziwe P(H A) prawdopodobieństwo H przy założeniu, że zaszło A P(H A) = P(A H)P(H) / P(A)

33 Metoda bayesowska Bazuje na twierdzeniu Bayesa (dotyczącym prawdopodobieństwa warunkowego) w tym wypadku pytamy o prawdopodobieństwo drzewa filogenetycznego przy danym zestawie przyrównanych sekwencji Wykorzystuje się nieinformacyjne prawdopodobieństwa a priori dla stawianych hipotez W przeszukiwaniu przestrzeni wszystkich możliwych drzew stosuje się zwykle łańcuchy Markowa-Monte Carlo Do wyznaczenia prawdopodobieństwa drzew i gałęzi służy rozkład stacjonarny łańcucha MMC

34 Drzewu można wierzyć, jeśli: Metoda szacowania filogenezy jest spójna W danych jest silny sygnał filogenetyczny Filogeneza genu oddaje filogenezę gatunków Zakorzenienie drzewa jest prawidłowe

Bootstrap jak się wyciągnąć z filogenetycznego bagna 35 Bootstrap polega na tworzeniu prób pseudo-losowych (losowanie ze zwracaniem) Wygenerowane macierze są poddawane takiej samej analizie, jak macierz oryginalna Zliczane są wystąpienia takich samych grup na drzewach; przyjmuje się, że dobrze wsparte grupy to takie, które pojawiły się w 95% drzew (przez analogię ze statystyką)

Kiedy filogeneza genu nie oddaje filogenezy gatunków? 36 Drzewo genu nie oddaje filogenezy gatunków w wypadku: horyzontalnego przepływu genów (transferu horyzontalnego) rekombinacji genów paralogicznych niepełnego sortowania linii genealogicznych silnego doboru premiującego polimorfizm alleli w loci hybrydyzacji i introgresji Zjawiska te można wychwycić porównując drzewa uzyskane za pomocą różnych genów (filogenomika)

Filogeneza genu a filogeneza gatunków 37 Drzewo genu jest identyczne z drzewem gatunków, jeśli allele uległy pełnemu posortowaniu między gatunkami potomnymi

38 Podsumowanie Skuteczność oszacowania filogenezy organizmów zależy od: wyboru odpowiedniego locus lub loci (drzewo genów powinno odpowiadać drzewu gatunków) mocy sygnału filogenetycznego (tempa ewolucji sekwencji w czasie oraz zróżnicowania tego tempa w obrębie sekwencji) spójności metody rekonstrukcji filogenezy (metody mogą być niespójne w wypadku dużego szumu filogenetycznego lub niedoszacowania długości gałęzi) dobrego wyboru grupy zewnętrznej