Filogenetyka molekularna I. Krzysztof Spalik

Podobne dokumenty
Filogenetyka molekularna I. Krzysztof Spalik Zakład Filogenetyki Molekularnej i Ewolucji

Filogenetyka molekularna I

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

klasyfikacja fenetyczna (numeryczna)

Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.

Bioinformatyka Laboratorium, 30h. Michał Bereta

Analizy filogenetyczne

Rycina 1. Zasięg i zagęszczenie łosi (liczba osobników/1000 ha) w Polsce w roku 2010 oraz rozmieszczenie 29 analizowanych populacji łosi.

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Bioinformatyka Laboratorium, 30h. Michał Bereta

Acknowledgement. Drzewa filogenetyczne

Krzysztof Spalik 1, Marcin Piwczyński 2

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Badanie doboru naturalnego na poziomie molekularnym

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Konstrukcja drzew filogenetycznych podstawy teoretyczne.

Porównywanie i dopasowywanie sekwencji

Wykład Bioinformatyka Bioinformatyka. Wykład 7. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM. Ewolucyjne podstawy Bioinformatyki

Recenzja rozprawy doktorskiej. mgr Marcina Jana Kamińskiego. pt. Grupa rodzajowa Ectateus (Coleoptera: Tenebrionidae) filogeneza i klasyfikacja.

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dopasowanie sekwencji (sequence alignment)

Mitochondrialna Ewa;

46 Olimpiada Biologiczna

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Nuttall przeprowadził testy precypitacyjne białek surowicy, aby wykazać związek filogenetyczny między różnymi grupami zwierząt.

Ograniczenia środowiskowe nie budzą wielu kontrowersji, co nie znaczy że rozumiemy do końca proces powstawania adaptacji fizjologicznych.

MODELOWANIE STOCHASTYCZNE CZĘŚĆ II - ŁAŃCUCHY MARKOWA. Biomatematyka Dr Wioleta Drobik-Czwarno

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Wnioskowanie bayesowskie

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Drzewa filogenetyczne jako matematyczny model relacji pokrewieństwa. dr inż. Damian Bogdanowicz

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Wstęp do Biologii Obliczeniowej

Wyróżniamy dwa typy zadań projektowych.

Metoda dokładnej rekonstrukcji drzew filogenetycznych genów. współczynników substytucji dla genów i gatunków

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Klasyfikacja metodą Bayesa

Bioinformatyka Laboratorium, 30h. Michał Bereta

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Ewolucja molekularna człowieka okiem bioinformatyka. Justyna Wojtczak Jarosław Jeleniewicz

o cechach dziedziczonych decyduje środowisko, a gatunki mogą łatwo i spontanicznie przechodzić jedne w drugie

Podstawy ewolucji molekularnej. Ewolucja sekwencji DNA i białek

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Teoria ewolucji. Podstawy wspólne pochodzenie.

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

5 Błąd średniokwadratowy i obciążenie

ALGORYTMY KONSTRUOWANIA DENDROGRAMÓW STOSOWANYCH PRZY ANALIZIE FILOGENETYCZNEJ MIKROORGANIZMÓW

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Mechanizmy zmienności ewolucyjnej. Podstawy ewolucji molekularnej.

Generator testów bioinformatyka wer / Strona: 1

Bioinformatyka Laboratorium, 30h. Michał Bereta

Genetyka populacji. Ćwiczenia 7

Bioinformatyka Laboratorium, 30h. Michał Bereta

Transformacja pośrednia składa się z trzech etapów:

Ewolucjonizm NEODARWINIZM. Dr Jacek Francikowski Uniwersyteckie Towarzystwo Naukowe Uniwersytet Śląski w Katowicach

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

KONSEKWENCJE PŁCIOWOŚCI (dlaczego osobniki są podobne?)

Budowanie drzewa filogenetycznego

Ćwiczenia nr 4. Programy komputerowe stosowane do analizy danych molekularnych

Filogenetyka. Dr Marek D. Koter, dr hab. Marcin Filipecki. Katedra Genetyki, Hodowli i Biotechnologii Roślin, SGGW

Zmienność. środa, 23 listopada 11

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Zmienność ewolucyjna. Ewolucja molekularna

Testowanie hipotez statystycznych

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

MARKERY MIKROSATELITARNE

Metody probabilistyczne klasyfikatory bayesowskie

Teoria ewolucji. Losy gatunków: specjacja i wymieranie. Podstawy ewolucji molekularnej

Fuzja sygnałów i filtry bayesowskie

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Filogenetyka. Dr inż. Magdalena Święcicka, dr hab. Marcin Filipecki. Katedra Genetyki, Hodowli i Biotechnologii Roślin, SGGW

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Porównywanie i dopasowywanie sekwencji

ALGORYTMY GENETYCZNE (wykład + ćwiczenia)

Bioinformatyka Laboratorium, 30h. Michał Bereta

Algorytm Genetyczny. zastosowanie do procesów rozmieszczenia stacji raportujących w sieciach komórkowych

Metody systemowe i decyzyjne w informatyce

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Procesy stochastyczne

Spokrewnienie prawdopodobieństwo, że dwa losowe geny od dwóch osobników są genami IBD. IBD = identical by descent, geny identycznego pochodzenia

MACIERZE MUTACYJNE W ANALIZIE GENOMÓW czy możliwa jest rekonstrukcja filogenetyczna? Aleksandra Nowicka

Algorytmy genetyczne. Materiały do laboratorium PSI. Studia stacjonarne i niestacjonarne

Badania genetyczne nad populacją jelenia w północno-wschodniej Polsce

Generator testów Bioinformatyka wer / 0 Strona: 1

Wydział Matematyki. Testy zgodności. Wykład 03

WSTĘP. Copyright 2011, Joanna Szyda

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Podstawy biologii. Informacja, struktura i metabolizm.

Opis wykonanych badań naukowych oraz uzyskanych wyników

Agnieszka Nowak Brzezińska Wykład III

Optymalizacja optymalizacji

Podstawy biologii. Informacja genetyczna. Co to jest ewolucja.

Jaki koń jest nie każdy widzi - genomika populacji polskich ras koni

Transkrypt:

Filogenetyka molekularna I Krzysztof Spalik

Literatura Krzysztof Spalik, Marcin Piwczyński (2009), Rekonstrukcja filogenezy i wnioskowanie filogenetyczne w badaniach ewolucyjnych, Kosmos 58(3-4): 485-498 John C. Avise (2008), Markery molekularne, historia naturalna i ewolucja, Wydawnictwa Uniwersytetu Warszawskiego, Warszawa

Filogeneza a ewolucja Od Darwina podstawą tworzenia klasyfikacji stały się drzewa rodowe (jak przedstawione obok drzewo Haeckla) Drzewa te jednak tworzono intuicyjnie, a nie za pomocą metod formalnych

Drzewo jako hipoteza naukowa Drzewo zaproponowane przez badacza odzwierciedla jego wiedzę i poglądy, ale trudno je zweryfikować co najwyżej, można przedstawić inne, konkurencyjne (lecz wybór pozostanie subiektywny) Drzewo uzyskane za pomocą metod formalnych (matematycznych) poddaje się analizie i weryfikacji. Można je sfalsyfikować, np. powtarzając obliczenia lub uzupełniając dane

Dlaczego dane genetyczne są najlepsze? Dane genetyczne są: mniej podatne na konwergencję addytywne i mniej arbitralne genetyczne bardziej informacyjne filogenetycznie niezależne od innych danych

Typy danych molekularnych Sekwencje nukleotydów w DNA lub RNA albo aminokwasów w białkach Dane binarne: RFLP, RAPD, AFLP, SSCP, SNP, mini- i mikrosatelitarne DNA (kodowana jest obecność lub brak allelu) Allozymy (izoenzymy w polimorficznych loci) Położenie genów w genomie

Najpowszechniej używane metody rekonstrukcji filogenezy Maximum parsimony największej parsymonii: poszukiwane jest drzewo, które wyjaśnia różnorodność danych (sekwencji) za pomocą najmniejszej liczby zmian na gałęziach Distance odległościowe ( fenetyczne ); obliczana jest odległość między obiektami, np. z wykorzystaniem modeli substytucji, a następnie obliczane jest drzewo, zwykle za pomocą metod algorytmicznych (NJ, UPGMA) Maximum likelihood największej wiarygodności; poszukiwane jest drzewo, które maksymalizuje prawdopodobieństwo osiągnięcia rozkładu danych (sekwencji) na drzewie Bayesian method wnioskowanie bayesowskie, korzysta z twierdzenia Bayesa; poszukiwane jest drzewo o największym prawdopodobieństwie a posteriori

Filogenetyka (kladystyka) Twórcą był niemiecki entomolog Willi Hennig (1913-1976) Kladystyka polega na szacowaniu liczby zmian na gałęziach drzewa Poszukuje wspólnych cech zaawansowanych ewolucyjnie, identyfikujących gałęzie drzewa filogenetycznego Znajduje zastosowanie do wszystkich danych nieciągłych (nie tylko sekwencji) http://en.wikipedia.org/wiki/file:willi_hennig.jpg

Ewolucja cech U wspólnego przodka występowała cecha a, natomiast u jego potomków A, B i C a lub a a jest cechą pierwotną ewolucyjnie plezjomorfą a jest cechą pochodną apomorfą W. Hennig (1965) Annu. Rev. Entomol. 10: 97-116

Symplezjomorfia Symplezjomorfia, czyli posiadanie tej samej cechy pierwotnej ewolucyjnie, nie świadczy o bliskim pokrewieństwie W. Hennig (1965) Annu. Rev. Entomol. 10: 97-116

Konwergencja Konwergencja, czyli niezależne uzyskanie w toku ewolucji tej samej cechy (wtórnej ewolucyjnie), nie świadczy o bliskim pokrewieństwie W. Hennig (1965) Annu. Rev. Entomol. 10: 97-116

Homoplazje Symplezjomorfie i konwergencje, czyli podobieństwa nieświadczące o wspólnym pochodzeniu, określane są łącznie jako homoplazje Utrudniają one odtworzenie rzeczywistej filogenezy organizmów

Synapomorfia O bliskim pokrewieństwie świadczy jedynie posiadanie tej samej cechy zaawansowanej (wtórnej) ewolucyjnie, czyli synapomorfia W. Hennig (1965) Annu. Rev. Entomol. 10: 97-116

Szukać siostry! Rozpoznania, który stan jest u danej grupy pierwotny, a który zaawansowany ewolucyjnie, dokonuje się przez porównanie z grupą siostrzaną Innymi słowy, grupa siostrzana służy do zakorzenienia drzewa i ustalenia kierunku ewolucji W. Hennig (1965) Annu. Rev. Entomol. 10: 97-116

Zakorzenianie drzewa filogenetycznego Oba drzewa mają identyczną topologię, ale dzięki ukorzenieniu drzewa w węźle G znamy kierunek ewolucji

Zasada parsymonii Spośród wielu możliwych drzew filogenetycznych wybieramy to, które tłumaczy różnorodność cech u badanych organizmów w najbardziej oszczędny sposób, czyli za pomocą najmniejszej liczby zmian ewolucyjnych Metoda największej parsymonii (maximum parsimony) dostarcza zatem jedynie kryterium wyboru drzewa

Strefa Felsensteina Przy nierównym tempie ewolucji w różnych gałęziach i krótkim czasie między radiacjami, metoda parsymonii daje błędne oszacowania Zbiór topologii drzew rodowych trudnych do oszacowania za pomocą parsymonii nazywamy strefą Felsensteina, sam efekt zaś przyciąganiem się długich gałęzi

Spójność metody szacowania Modele podstawiania (substytucji) nukleotydów w DNA umożliwiają oszacowanie liczby wielokrotnych podstawień Metody uwzględniające długość gałęzi są spójne, o ile nie ma systematycznego błędu w oszacowaniu długości gałęzi

Parsymonia liczą się tylko cechy wspólne Zgodnie z zasadą parsymonii, przodek nr 2 miał adeninę, natomiast przodek nr 1 adeninę, cytozynę lub guaninę

Parsymonia liczą się tylko cechy wspólne Jeśli dołączamy sekwencję z cytozyną, to wszystkie trzy warianty B, C i D są równie dobre żaden nie wymaga dodatkowej zmiany na drzewie Natomiast sekwencje z tyminą lub adeniną możemy dołączyć w dowolnym miejscu

Metoda największej wiarygodności Metoda największej wiarygodności czyni założenia co do tempa podstawiania nukleotydów, typów podstawień i różnic tempa podstawień w różnych gałęziach drzewa i w różnych odcinkach sekwencji Najlepsze drzewo to takie, dla którego najbardziej prawdopodobne jest uzyskanie obserwowanego rozkładu cech (nukleotydów w sekwencjach)

Metoda największej wiarygodności liczy się prawdopodobieństwo Przodek nr 2 miał najprawdopodobniej adeninę Jest bardziej prawdopodobne, że przodek nr 1 miał adeninę, niż że miał guaninę lub cytozynę Jeśli zatem dołączamy sekwencję z cytozyną, to najlepsze jest drzewo C

Model ewolucji sekwencji Model ewolucji sekwencji to macierz tempa podstawień nukleotydów Najbardziej ogólny model ma następujące parametry µ: bezpośrednie tempo podstawień a-l: stałe dla każdego typu podstawienia (razem 12) π: frekwencja danego nukleotydu Prawie wszystkie modele używane w analizie są szczególnymi przypadkami tego modelu

Model GTR Model GTR (general time-reversible) zakłada pełną odwracalność podstawień. Innymi słowy, tempo podstawienia np. tyminy przez adeninę jest identyczne jak adeniny przez tyminę. Zamiast 12 typów podstawień mamy zatem 6 (macierz jest symetryczna wzdłuż przekątnej)

Najpowszechniej używane modele są szczególnymi przypadkami modelu GTR Tamura-Nei Zharkikh Hasegawa-Kishino-Yano Felsenstein 1984 Kimura 3-parameter Felsenstein 1981 Kimura 2-parameter Jukes-Cantor

Metody odległościowe Bazują na modelach substytucji DNA (np. JC, K2, K3, HKY, F84 itd.) Podobnie jak metoda największej wiarygodności, są spójne w tych wypadkach, gdzie parsymonia zawodzi Są szybką alternatywą dla metody największej wiarygodności, ale są wrażliwe na wpadnięcie w optimum lokalne

UPGMA Metoda UPGMA, łącząc obiekty w pary, łamie gałęzie w połowie odległości między obiektami. W efekcie, wszystkie szczytowe gałęzie drzewa są na jednym poziomie Taka metoda jest słuszna, jeśli tempo ewolucji jest stałe a rzadko kiedy jest.

Łączenie sąsiadów (NJ) Metoda łączenia sąsiadów (neighbor-joining) bierze pod uwagę zarówno odległość między łączonymi obiektami, jak i ich odległość do wszystkich pozostałych Jest metodą spójną. Dla dobrych danych, jej wyniki nie odbiegają znacząco od parsymonii, największej wiarygodności i metody bayesowskiej

Prawdopodobieństwo warunkowe P(A) prawdopodobieństwo zajścia zdarzenia A P(H) prawdopodobieństwo hipotezy H P(A H) prawdopodobieństwo A przy założeniu, że H jest prawdziwe P(H A) prawdopodobieństwo H przy założeniu, że zaszło A P(H A) = P(A H)P(H) / P(A)

Metoda bayesowska Bazuje na twierdzeniu Bayesa (dotyczącym prawdopodobieństwa warunkowego) w tym wypadku pytamy o prawdopodobieństwo drzewa filogenetycznego przy danym zestawie przyrównanych sekwencji Wykorzystuje się nieinformacyjne prawdopodobieństwa a priori dla stawianych hipotez W przeszukiwaniu przestrzeni wszystkich możliwych drzew stosuje się zwykle łańcuchy Markowa-Monte Carlo Do wyznaczenia prawdopodobieństwa drzew i gałęzi służy rozkład stacjonarny łańcucha MMC

Drzewu można zawierzyć, jeśli: metoda szacowania filogenezy jest spójna w danych jest silny sygnał filogenetyczny filogeneza genu oddaje filogenezę gatunków Problemy z niespójnością Metoda parsymonii może być niespójna, zwłaszcza w wypadku nierównego tempa ewolucji na gałęziach drzewa rodowego (efekt przyciągania się długich gałęzi) Metody bazujące na modelach substytucji DNA mogą być niespójne, jeśli różne miejsca sekwencji ewoluują w różnym tempie (a nie jest to uwzględnione w modelu)

Podsumowanie Skuteczność oszacowania filogenezy organizmów zależy od: wyboru odpowiedniego locus lub loci (drzewo genów powinno odpowiadać drzewu gatunków) mocy sygnału filogenetycznego (tempa ewolucji sekwencji w czasie oraz zróżnicowania tego tempa w obrębie sekwencji) spójności metody rekonstrukcji filogenezy (metody mogą być niespójne w wypadku dużego szumu filogenetycznego lub niedoszacowania długości gałęzi) dobrego wyboru grupy zewnętrznej