Metoda dokładnej rekonstrukcji drzew filogenetycznych genów. współczynników substytucji dla genów i gatunków

Transkrypt

1 Metoda dokładnej rekonstrukcji drzew filogenetycznych genów z zastosowaniem współczynników substytucji dla genów i gatunków Na podstawie artykułu Accurate gene-tree reconstruction by learning gene- and species-specific substitution rates across multiple complete genomes autorstwa Matthew D. Rasmussen i Manolis Kellis 21 października 2009

2 Streszczenie problemu Przedstawienie zagadnienia Niedokładności drzew genów Problem: dokładna rekonstrukcja drzew genów dla danego zbioru gatunków na podstawie kompletnych genomów Sytuacja: istniejace metody traktuja każde drzewo genów osobno duże niedokładności - zbyt mało danych w pojedynczych genach Pomysł autorów: drzewa genów danego zbioru gatunków maja wspólne własności współczynniki ewolucyjne moga być rozłożone na: gene-specific rate - współczynnik genowy species-specific rate - współczynnik gatunkowy informacja o współczynnikach specyficznych zawarta w genomie

3 Streszczenie problemu c.d. Przedstawienie zagadnienia Niedokładności drzew genów Przedstawione rozwiazanie: metodologia rekonstrukcji drzew genów wykorzystujaca przedstawione własności znaczaco większa dokładność rekonstrukcji umożliwienie studiów nad ewolucja genów w kontekście ewolucji gatunków

4 Genomika porównawcza Przedstawienie zagadnienia Niedokładności drzew genów badanie relacji między genomami różnych gatunków lub szczepów w szczególności: ewolucyjnie konserwowane elementy funkcjonalne udział zduplikowanych genów w pojawianiu się nowych funkcji analizy zależa od dokładnego mapowania drzew paralogów i ortologów na drzewo genów

5 Drzewa filogenetyczne Przedstawienie zagadnienia Niedokładności drzew genów narzędzie do porównywania genów drzewa genów ortologicznych badanie ewolucji gatunków węzły - specjacja drzewa genów paralogicznych badanie ekspansji rodziny genów węzły - duplikacja

6 Filogenomika Przedstawienie zagadnienia Niedokładności drzew genów genomika w kontekście całych genomów jedno ogólne drzewo genów historia ewolucyjna rodziny genów w porównywanych gatunkach uzgadnianie mapowanie drzewa genów na drzewo gatunków połaczenie informacji o relacjach ortologów i paralogów założenia: znane drzewo gatunków i poprawne drzewo genów

7 Materiał badań autorów Przedstawienie zagadnienia Niedokładności drzew genów 12 zsekwencjonowanych genomów Drosophilia 9 publicznie znanych genomów grzybów

8 Materiał badań autorów c.d. Przedstawienie zagadnienia Niedokładności drzew genów

9 Wkład badań Przedstawienie zagadnienia Niedokładności drzew genów wniosek: przyczyna niezgodności drzew genów - niedokładność rekonstrukcji niezgodności głównie dla krótkich i wolno ewoluuj acych genów niezgodności bardziej metodologiczne niż biologiczne odkrycie: współczynnik substytucji jako produkt: gene-specific rate - współczynnika genowego species-specific rate - współczynnika gatunkowego znane rozkłady obydwu współczynników dekompozycja współczynnika pasujaca do obserwacji

10 Wkład badań c.d. Przedstawienie zagadnienia Niedokładności drzew genów przedstawienie: framework probabilistyczny do rekonstrukcji drzew genów dla kompletnych genomów oparty na rozkładach współczynników pobranych z uliniowienia jednoznacznych ortologów zaimplementowany w wnioskowanie drzew genów prowadzi do dokładniejszych rekonstrukcji rozwiazanie problemów z długościami krawędzi w drzewach

11 Przedstawienie zagadnienia Niedokładności drzew genów Badania nad dokładnościa metod rekonstrukcji filogenetycznych metody rekonstrukcji opieraja się na: uliniowieniach mikroewolucji obserwowanej eksperymentalnie

12 Przedstawienie zagadnienia Niedokładności drzew genów Test dokładności metod filogenetycznych rekonstrukcja drzew na podstawie regionów z zachowanym porzadkiem genów w wielu kompletnych genomach wszystkie takie geny pochodza z jednego genu wspólnego przodka gatunków drzewo takich genów powinno być zgodne z drzewem gatunków możliwe przeszkody: horyzontalny transfer genów konwersja genów incomplete lineage sorting jednak drzewa dla takich genów często nie zgadzaja się z drzewem gatunków

13 Przedstawienie zagadnienia Niedokładności drzew genów Dokładność metod - wyniki autorów

14 Przedstawienie zagadnienia Niedokładności drzew genów Dokładność metod - wyniki autorów materiał: 5154 ortologi z 12 genomów Drosophilia uznane drzewo gatunków T1 istniejace metody rekonstrukcji zgadzały się z nim dla 24 wyniki niezależne od użytych metod: PHYML, DNAML, MrBayes, BIONJ, Parsimony uliniowienia białkowe i nukleotydowe jednak żadna inna topologia nie okazała się lepsza

15 Przedstawienie zagadnienia Niedokładności drzew genów Domniemane przyczyny niezgodności mechanizmy biologiczne: incomplete lineage sorting i inne nieprawdopodobne, żeby były odpowiedzialne za wszystkie przypadki wiele poszlaków, że niezgodności w dużej części przypadków wynikaja z niedokładności algorytmów

16 Obserwacje autorów Przedstawienie zagadnienia Niedokładności drzew genów 1 Dokładność a długość genów 2 Dokładność a tempo ewolucji 3 Dokładność symulowanej rekonstrukcji 4 Dokładność a wymaganie identycznych wyników

17 Dokładność a długość genów Przedstawienie zagadnienia Niedokładności drzew genów oczywista monotoniczna zależność średnia dokładność metod: 40% dokładność dla krótkich genów (<800 bp): 25% dokładność dla długich genów (>2300 bp): 60% rekomendowane długości sa nieosiagalne dla pojedynczych genów, a konkatenacja nie jest sposobem

18 Dokładność a tempo ewolucji Przedstawienie zagadnienia Niedokładności drzew genów 48% dokładności dla genów identycznych w 40%-50% 25% dokładności dla genów identycznych w 70% 35% dokładności dla genów identycznych w 25% wolno ewoluujace geny - za mało wydarzeń, za mało informacji szybko ewoluujace geny - nie różnia się od siebie w różnych topologiach

19 Dokładność a tempo ewolucji c.d. Przedstawienie zagadnienia Niedokładności drzew genów

20 Dokładność a tempo ewolucji c.d. Przedstawienie zagadnienia Niedokładności drzew genów

21 Przedstawienie zagadnienia Niedokładności drzew genów Dokładność w symulowanej rekonstrukcji symulowana rekonstrukcja drzew prowadzi do tych samych topologii drzew T1-T5 symulowana filogeneza drzew genów znana topologia gatunków podobne długości krawędzi najwet najczęstsze niezgodne topologie moga wynikać z błędów rekonstrukcji poprawna filogeneza uzyskana dla 72 różnica ok. 30% - potencjalnie z powodu incomplete lineage sorting wyjaśnienie 30% przypadków nie pokrywa wszystkich rozbieżności

22 Przedstawienie zagadnienia Niedokładności drzew genów Dokładność a wymaganie identycznych wyników konsekwencje domniemanych biologicznych przyczyn niezgodności: te same wyniki dla wielu metod duży bootstrap support znaczaco większe prawdopodobieństwo drzew fakty nieobserwowane wymaganie zgodności metod (odnośnie topologii drzewa) topologie T2-T5 - mniejsza częstość (4%-11% do 1%-5%) drzewa niezgodne z topologia drzewa gatunków - mniejszy bootstrap support wiele alternatywnych topologii nie ma dostatecznego wsparcia

23 Wniosek Przedstawienie zagadnienia Niedokładności drzew genów wiele niezgodności spowodowanych niedokładnościa metod potrzebna dodatkowa informacja do polepszenia zgodności rozważanie drzew genów osobno - brak takiej informacji rozważanie wielu drzew genów z wielu gatunków - poznanie własności wspólnych dla drzew genów wykorzystanie własności drzew genów w ich rekonstrukcji

24 Idea wykorzystanie zbioru filogenomicznego wiele genów ewoluuje w tym samym drzewie gatunków na tej podstawie wymodelowanie ich wspólnych cech

25 Definicja współczynników b i - współczynnik substytucji genu w gałęzi drzewa g - współczynnik genowy s i - współczynnik gatunkowy - modeluje dynamikę ewolucji gatunku i: wielkość populacji zachowania rozrodcze ogólny współczynnik mutacji produktem g oraz s i jest b i zaobserwowana niezależność między g a s i

26 Uzyskiwanie rozkładów współczynników 5154 ortologi muszek wymaganie, aby każde drzewo genów było zgodne z drzewem gatunków długości krawędzi obliczone parami za pomoca maximum likelihood z modelu oczekiwanie, że g dla każdego drzewa będzie proporcjonalne do całkowitej długości drzewa dla każdego drzewa genów g jako suma długości bezwzględnych wszystkich krawędzi b i - ogólny współczynnik substytucji dla drzewa s i jako b i /g - względna długość krawędzi po normalizacji przez g

27 Rozkłady współczynników g - rozkład gamma G = Γ(α, β) s i - rozkład normalny S i = N(µ i, σ 2 i ) - bardziej zwarty rozkład niż b i

28 Rozkłady współczynników c.d.

29 Rozkłady współczynników c.d.

30 Zgodność własności współczynników z obserwacjami założenie niezależności g i s i implikuje zaobserwowane własności: korelacja między długościami drzew genów - wyskalowana wersja średniego drzewa genów faktyczna korelacja drzew ze soba faktyczna korelacja większości drzew z drzewem gatunków korelacja b i pomiędzy każda para gatunków niezależność s i - względnych długości krawędzi

31 Zgodność własności współczynników z obserwacjami c.d.

32 Model współczynnik substytucji rozłożony na współczynnik genowy i gatunkowy współczynniki aproksymowane rozkładami model ewolucji drzew genów w wielu kompletnych genomach: drzewo genów tworzone jako produkt g z rozkładu gamma i s i z rozkładu normalnego każdy rozkład niezależny model - Species-Informed Distance-Based Reconstruction sprawdzanie i ewaluacja prawdopodobieństwa różnych topologii drzewa genów

33 Model - uzgodnienie uzgodnienie drzewa genów z drzewem gatunków mapowanie węzłów genów b l na węzły gatunków i gałaź b l - gałaż biegnaca od węzła b l w kierunku korzenia węzeł R(b l ) w drzewie gatunków odpowiada węzłowi b i w drzewie genów definicja parsymoniczna: R(b l ) = LCA( c children(b l ) R(c)) gdy brak duplikacji i strat węzły mapuja się jeden do jednego: R(b i ) = i

34 Model - uzgodnienie uogólnione mapowanie R z węzła genu b l na węzeł gatunku i oraz punkt duplikacyjny k l R(b l ) = (i, k l ) jeśli węzeł b l oznacza duplikację, k l oznacza ułamek gałęzi gatunku i, na której pojawiła się duplikacja

35 Model - uzgodnienie uogólnione krawędzi mapowanie R b z gałęzi genów na gałęzie gatunków gałaź genu może mapować się na wiele gałęzi gatunków, a także na ich części definicja: R b (b l ) = ((s 1, s 2,..., s m ), (p 1, p 2,..., p m )) s 1,..., s m - ścieżka gałęzi w drzewie gatunków p 1,..., p m - część każdej użytej gałęzi gatunków k l implikuje p j

36 Model ewolucji drzew genów - przypadek prosty dla rodzin bez duplikacji i strat genów współczynnik genowy z rozkładem gamma (G = Γ(α, β)) i współczynnik gatunkowy z rozkładem normalnym S i = N(µ i, σ 2 i ) µ i : średni współczynnik gatunku w porównaniu z innymi σi 2 : wariancja - do jakiego stopnia gen ewoluujacy w gatunku odchyla się od współczynnika genowego b i - bezwzględna długość gałęzi s i = b i /g - względna długość gałęzi L - całkowita długość gałęzi drzewa - oszacowanie współczynnika genowego E[L] = E[Σ i b i ] = e[σ i s i g] = (Σ i mu i )E[g] = 1 E[g]

37 Przypadek prosty - liczenie prawdopodobieństwa drzewa majac dany współczynnik g możemy policzyć prawdopodobieństwo P(T G = g) = Π i P(B i = b i G = g) = Π i N(S i = b i g µ i, σ 2 i ) = Π i N(S i = s i µ i, σ 2 i ) z rozkładu współczynnika genowego wybiera się takie g, które maksymalizuje to prawdopodobieństwo

38 Model ewolucji drzew genów - przypadek ogólny dopuszczamy duplikacje i straty uzyskujemy możliwość liczenia prawdopodobieństwa drzewa genów o dowolnej topologii

39 Przypadek ogólny - generowanie długości krawędzi b l - bezwzględna długość krawędzi x l - względna długość krawędzi (teraz różna od s i ) ogólne uzgodnienie - mapowanie gałęzi x i na ścieżkę gałęzi w drzewie gatunków: R b (b l ) = ((s 1, s 2,..., s m ), (p 1, p 2,..., p m )) y j - segment gałęzi b l, y j uzgadnia się z jedna gałęzia s j z ułamkiem p j x l - suma zmiennych y 1, y 2,..., y m jeśli p j = 1, rozkład y j normalny: y j N(µ i, σ 2 i ) jeśli p j < 1, nowy rozkład y j : y j N(p j µ i, p j σ 2 i ) wówczas: y j + y j+1 N(p j µ i, p j σ 2 i ) + N(p j+1 µ i, p j+1 σ 2 i ) = N(µ i, σ 2 i )

40 Przypadek ogólny - generowanie długości krawędzi c.d. całkowita długość krawędzi x l : x l cały czas ma rozkład normalny

41 Przypadek ogólny - generowanie długości krawędzi c.d.

42 Przypadek ogólny - liczenie prawdopodobieństwa drzewa długość gałęzi zależy od gałęzi gatunków, na które się mapuje, i punktów duplikacyjnych k l prawdopodobieństwo drzewa jako produkt prawdopodobieństw niezależnych poddrzew korzeń i liście poddrzewa: węzły specjacyjne węzły wewnętrzne poddrzewa: węzły duplikacyjne prawdopodobieństwo poddrzewa:

43 Przypadek ogólny - liczenie prawdopodobieństwa drzewa c.d.

44 Szkic działania dwa etapy pracy: 1 uczenie się modelu ewolucji genów i gatunków na podstawie jednoznacznych ortologów 2 zastosowanie nauczonego modelu do rekonstrukcji drzew genów

45 Uczenie szacowanie rozkładów g i s i na podstawie uliniowienia jednoznacznych ortologów założenia: drzewo gatunków znane lub wiarygodnie wydedukowane zbiór treningowy zawiera jednoznaczne ortologi z filogeneza zgodna z drzewem gatunków np. ortologi synteniczne w rozważanych 12 gatunkach muszek - ok. 1/3 wszystkich genów

46 Uczenie c.d. konstrukcja drzew genów zgodnych z topologia drzewa gatunków b i oszacowane metoda najmniejszych kwadratów każde drzewo genów - 1 gen ze wszystkich gatunków oszacowanie g: i b i oszacowanie pojedynczych s i : b i /g tysiace g i s i, do których dopasowujemy rozkłady gamma i normalny, wsnioskujac parametry (α, β, µ i, σ i )

47 Wnioskowanie użycie modelu do wnioskowania filogenezy pozostałych genów, zawierajacych potencjalnie duplikacje i straty genów rekonstrukcja oparta na odległościach macierz odległości na podstawie uliniowienia wielu sekwencji przeszukiwanie wielu topologii i szukanie drzewa o maksymalnym prawdopodobieństwie dla każdej topologii długości krawędzi liczone z macierzy odległości prawdopodobieństwo tych długości liczone na podstawie parametrów (α, β, µ i, σ i )

48 Wnioskowanie c.d. jeśli zaproponowana topologia drzewa zgadza się z topologia drzewa gatunków - produkt prawdopodobieństw: P(b G, S) = P(g G)Π i [P(b i /g s i )] każda gałaź drzewa genów mapuje się na jedna gałaź drzewa genów jeśli zaproponowana topologia drzewa genów nie zgadza się z topologia drzewa gatunków (zawiera duplikacje i straty genów), brakujace dane oszacowuje się na podstawie współczynnika g własności współczynników genowych i gatunkowych pozwalaja na policzenie prawdopodobieństwa drzewa genów o dowolnej topologii każde drzewo sprawdzone pod względem rozkładów wyuczonych z reszty genomu pozwala rozróżnić b i pasujace i niepasujace do rozkładów

49 Wnioskowanie c.d.

50 Przykład ortologi 4 ssaków - gen hemoglobiny-β topologia T1 3,5 razy bardziej prawdopodobna niż T2, każda gałaź bardziej pasuje do rozkładu wszystkie tradycyjne metody wskazały T2 zwn. long branch attraction, z powodu szybciej ewoluujacej gałęzi gryzoni metoda wskazała T1, bo spodziewał się dłuższej gałęzi efekt obserwowany również dla innych genów

51 Brak faworyzacji drzewa gatunków metoda działa również dla poprawnych drzew genów różnych od drzew gatunków szukanie drzewa genów dla paralogów: hemoglobiny-α psa i człowieka i hemoglobiny-β szczurów wskazanie poprawnej topologii: T2 metoda nie ma tendencji do wskazywania zawsze topologii drzewa gatunków

52 Dane badań dwie wersje : z/bez kary za duplikacje i straty materiał: 12 genomów Drosophilia i 9 genomów grzybów zbiór treningowy: 500 drzew genów Drosophilia, 200 drzew genów grzybów, wybranych losowo zbiór testowy: 4654 drzewa genów Drosophilia, 539 drzew genów grzybów testowanie działania w porównaniu z innymi metodami

53 Wyniki wyniki lepsze od tych uzyskanych przez inne metody

54 Własności dokładność koreluje z liczba miejsc informacji działanie wzrasta ze wzrostem długości genów działanie najlepsze dla genów o średniej prędkości ewolucji wyprzedza inne metody brak faworyzacji topologii drzew gatunków

55 Własności c.d.

56 Badania nad własnościami genów i gatunków pokazanie, że drzewa genów sa wynikiem dwóch sił ewolucji: specyficznej dla genów i dla gatunków pokazanie, że sa niezależne od siebie oczekiwanie, że dalsze badania ujawnia dodatkowe własności filogenezy genów i gatunków zwiększenie dokładności rekonstrukcji nowe spojrzenie na ewolucję

57 Nowe podejście do rekonstrukcji drzew współczynniki specyficzne dla genów i gatunków jako nowe podejście do rekonstrukcji drzew genów, z zastosowaniem kompletnych genomów istniejace metody traktuja każde drzewo osobno poprawia dokładność rekonstrukcji lepsze działanie pod wieloma względami niż działanie istniejacych metod użycie rekonstrukcji opartej na odległościach, można użyć rekonstrukcji character based model do specyfikacji długości krawędzi - może zastapić tradycyjny model rozwiazanie zachęcajace do dalszego rozwijania

58 Problem długich krawędzi długie krawędzie przyczyna błędów w rekonstrukcji drzew genów szybko ewoluujace gałęzie wymieszane z wolno ewoluujacymi sformułowanie problemu na poziomie gatunków szybko ewoluujace gałęzie sa tak samo porównywalnie szybsze w całym genomie model spodziewajac się długich gałęzi pozwala uniknać problemu długich krawędzi

59 Inne zastosowania współczynników specyficznych tutaj: zastosowanie współczynników specyficznych do uzyskania dokładnych drzew genów możliwe zastosowanie: niezwykłe przypadki zmian ewolucyjnych rozróżnienie, czy długość krawędzi wynika z: większego współczynnika genu szybko ewoluujacych gatunków szczególne przyspieszenie ewolucji danego genu w danym gatunku na poziomie indywidualnych genów lub zbiorów genów o pewnej kategorii funkcjonalności

60 Metodologia użyta do badania wielu gatunków przewidywane zsekwencjonowanie genomów wielu gatunków ssaków, grzybów, bakterii, wirusów wzrost liczby gatunków zdekwencjonowanych - odkrycia biologiczne, studia ewolucyjne wymaganie rygorystycznych metod porównywania genomów jednogenowe metody nie sa w stanie dobrze działać dla wielu gatunków metody powinny korzystać z dużej ilości informacji w kompletnych genomach metodologia przedstawiona jest ogólna, może być pomocna przy porównywaniu wielu kompletnych genomów

61 Dziękuję za uwagę.