Wstęp do filogenetyki molekularnej. Krzysztof Turowski

Podobne dokumenty
Struktura danych = system relacyjny U, U uniwersum systemu - zbiór relacji (operacji) na strukturze danych

Binarne Diagramy Decyzyjne

Graf skierowany. Graf zależności dla struktur drzewiastych rozgrywających parametrycznie

Dobór zmiennych objaśniających do liniowego modelu ekonometrycznego

Próba określenia miary jakości informacji na gruncie teorii grafów dla potrzeb dydaktyki

1. Metoda tabel semantycznych

WYKŁAD 1. W przypadku zbiornika zawierającego gaz, stan układu jako całości jest opisany przez: temperaturę, ciśnienie i objętość.

KRYTERIA OCENIANIA ODPOWIEDZI Próbna Matura z OPERONEM. Matematyka Poziom rozszerzony

Metody optymalizacji. dr inż. Paweł Zalewski Akademia Morska w Szczecinie

Model klasyczny gospodarki otwartej

WYKŁAD 11 OPTYMALIZACJA WIELOKRYTERIALNA

{ 1, 2,, n } Ponadto wówczas mówimy, że formuła: oraz równoważna jej formuła:

Uniwersytet Warszawski Teoria gier dr Olga Kiuila LEKCJA 2

ROZWIĄZUJEMY PROBLEM RÓWNOWAŻNOŚCI MASY BEZWŁADNEJ I MASY GRAWITACYJNEJ.

Ocena siły oddziaływania procesów objaśniających dla modeli przestrzennych

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Dobór zmiennych do modelu ekonometrycznego

Matematyka ubezpieczeń majątkowych r.

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

L(x, 0, y, 0) = x 2 + y 2 (3)

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

Siła tarcia. Tarcie jest zawsze przeciwnie skierowane do kierunku ruchu (do prędkości). R. D. Knight, Physics for scientists and engineers

m q κ (11.1) q ω (11.2) ω =,

XXXVII OLIMPIADA FIZYCZNA ETAP III Zadanie doświadczalne

Modelowanie przepływu cieczy przez ośrodki porowate Wykład III

II.6. Wahadło proste.

Modele odpowiedzi do arkusza Próbnej Matury z OPERONEM. Matematyka Poziom rozszerzony

Energia kinetyczna i praca. Energia potencjalna

ROZWIAZANIA ZAGADNIEŃ PRZEPŁYWU FILTRACYJNEGO METODAMI ANALITYCZNYMI.

Opis ćwiczeń na laboratorium obiektów ruchomych

GEOMETRIA PŁASZCZYZNY

00502 Podstawy kinematyki D Część 2 Iloczyn wektorowy i skalarny. Wektorowy opis ruchu. Względność ruchu. Prędkość w ruchu prostoliniowym.

KINEMATYCZNE WŁASNOW PRZEKŁADNI

Wykład Półprzewodniki

Algorytmy dla tekstów zdeniowanych przez samopodobie«

Konkurs Matematyczny dla uczniów gimnazjów województwa lubuskiego 19 stycznia 2012 r. zawody II stopnia (rejonowe)

MIERNICTWO WIELKOŚCI ELEKTRYCZNYCH I NIEELEKTRYCZNYCH

MECHANIKA OGÓLNA (II)

2 Przykład C2a C /BRANCH C. <-I--><Flux><Name><Rmag> TRANSFORMER RTop_A RRRRRRLLLLLLUUUUUU 1 P1_B P2_B 2 S1_B SD_B 3 SD_B S2_B

Wykład 15. Reinhard Kulessa 1

INSTRUKCJA DO ĆWICZENIA

KRYTERIA OCENIANIA ODPOWIEDZI Próbna Matura z OPERONEM. Matematyka Poziom rozszerzony

Reguły Paulinga. Krzysztof Burek Michał Oleksik

9.1 POMIAR PRĘDKOŚCI NEUTRINA W CERN

A. POMIARY FOTOMETRYCZNE Z WYKORZYSTANIEM FOTOOGNIWA SELENOWEGO

LIST EMISYJNY nr 3 /2014 Ministra Finansów

Pakiet startowy XXX 29. Standardy Zwrotu Pojazdu

BRYŁA SZTYWNA. Umowy. Aby uprościć rozważania w tym dziale będziemy przyjmować następujące umowy:

ZWIĄZEK FUNKCJI OMEGA Z DOMINACJĄ STOCHASTYCZNĄ

8. PŁASKIE ZAGADNIENIA TEORII SPRĘŻYSTOŚCI

REZONATORY DIELEKTRYCZNE

Wykład 11. Pompa ciepła - uzupełnienie II Zasada Termodynamiki Entropia w ujęciu termodynamicznym c.d. Entropia w ujęciu statystycznym

Wykład: praca siły, pojęcie energii potencjalnej. Zasada zachowania energii.

Wykład 1. Elementy rachunku prawdopodobieństwa. Przestrzeń probabilistyczna.

Model pajęczyny: Równania modelu: Q d (t)=α-βp(t) Q s (t)=-γ+δp(t-1) Q d (t)= Q s (t) t=0,1,2. α,β,γ,δ>0

dr inż. Zbigniew Szklarski

Atom wodoru w mechanice kwantowej

ZASTOSOWANIE ALGORYTMU EWOLUCYJNEGO DO OPTYMALNEJ LOKALIZACJI ŁĄCZNIKÓW W SIECI ROZDZIELCZEJ ŚREDNIEGO NAPIĘCIA

SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa

ĆWICZENIE 3 REZONANS W OBWODACH ELEKTRYCZNYCH

Układy równań i nierówności liniowych

Ćwiczenie 9 ZASTOSOWANIE ŻYROSKOPÓW W NAWIGACJI

Sprawozdanie EKSPERTYZA SYSTEMU WG: DIN EN ISO 9001:2000 DIN EN ISO 14001:2005 OHSAS 18001:2007. Valeo Service Sp. z o.o. Warszawa.

Metoda tabel semantycznych. Dedukcja drogi Watsonie, dedukcja... Definicja logicznej konsekwencji. Logika obliczeniowa.

ι umieszczono ladunek q < 0, który może sie ι swobodnie poruszać. Czy środek okregu ι jest dla tego ladunku po lożeniem równowagi trwa lej?

CHARAKTERYSTYKI GEOMETRYCZNE FIGUR PŁASKICH

Zaawansowane metody numeryczne

Zależność natężenia oświetlenia od odległości

FIZYKA 2. Janusz Andrzejewski

PRÓBNY EGZAMIN MATURALNY Z MATEMATYKI

PRÓBA OCENY KIERUNKÓW I TEMPA ZMIAN INFRASTRUKTURY TRANSPORTOWEJ W KRAJACH NOWO PRZYJĘTYCH I ASPIRUJĄCYCH DO UNII EUROPEJSKIEJ

1. Algorytmy przeszukiwania. Przeszukiwanie wszerz i w głąb.

1 Macierz odwrotna metoda operacji elementarnych

Teoria i metody optymalizacji

domykanie relacji, relacja równoważności, rozkłady zbiorów

Katalog usług Kariera i Praca dlastudenta.pl

należą do grupy odbiorników energii elektrycznej idealne elementy rezystancyjne przekształcają energię prądu elektrycznego w ciepło

Rozważymy nieskończony strumień płatności i obliczymy jego wartość teraźniejszą.

Wykład z równań różnicowych

KONKURS Z MATEMATYKI DLA UCZNIÓW SZKÓŁ PODSTAWOWYCH

Prawo Gaussa. Potencjał elektryczny.

0 + 0 = 0, = 1, = 1, = 0.

BADANIE SILNIKA WYKONAWCZEGO PRĄDU STAŁEGO

Scenariusz lekcji. Temat: Podsumowanie wiadomości o walcu. Cele lekcji

Algebra Boole a i jej zastosowania

Macierze. Rozdział Działania na macierzach

METEMATYCZNY MODEL OCENY

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

DOLNOŚLĄSKA WOJEWÓDZKA KOMENDA OCHOTNICZYCH HUFCÓW PRACY

(U.17) Zastosowania stacjonarnego rachunku zaburzeń

11. DYNAMIKA RUCHU DRGAJĄCEGO

1. Ciało sztywne, na które nie działa moment siły pozostaje w spoczynku lub porusza się ruchem obrotowym jednostajnym.

ANALIZA DANYCH W STATA 8.0

MODELOWANIE PRĄDÓW WIROWYCH W ŚRODOWISKACH SŁABOPRZEWODZĄCYCH PRZY WYKORZYSTANIU SKALARNEGO POTENCJAŁU ELEKTRYCZNEGO

AKADEMIA INWESTORA INDYWIDUALNEGO CZĘŚĆ II. AKCJE.

Metody numeryczne I Równania nieliniowe

MONITORING STACJI FOTOWOLTAICZNYCH W ŚWIETLE NORM EUROPEJSKICH

POLITECHNIKA CZĘSTOCHOWSKA Wydział Inżynierii Mechanicznej i Informatyki Instytut Informatyki Teoretycznej i Stosowanej

Fizyka dla Informatyki Stosowanej

Transkrypt:

Wstęp do filogenetyki molekulanej Kzysztof Tuowski

Co to jest filogeneza? Filogeneza (z g. filos gatunek, ód i genesis pochodzenie) to doga ozwoju odowego, pochodzenie i zmiany ewolucyjne gupy oganizmów, zwykle gatunków Temin wpowadzony pzez Ensta Haeckela w 1866 oku Filogenetyka ma na celu ustalenie elacji pokewieństwa gatunków, zaówno istniejących, jak i wymałych Infomacje mogą zostać pzedstawione w postaci «dzewa genealogicznego» zwanego dzewem filogenetycznym

Dzewo filogenezy jako stuktua danych Dzewo filogenetyczne T można ozumieć jako stuktuę danych o pewnych szczególnych własnościach: Posiada wyóżniony zbió L(T) (mocy n) zbió gatunków żyjących obecnie Każdy liść ma pzypoządkowaną unikalną etykietę na ogół jest to liczba ze zbiou {1, 2,..., n} albo nazwa: «ododendon», «świeząb» itp. Wyóżniane szczególne odziny dzew: Ze względu na wyóżniony kozeń: nieukozenione, ukozenione Ze względu na ilość ozgałęzień: binane Najbadziej natualną epezentacją dzew filogenetycznych jest gaf T = (V, E) Dzewo nie zawiea z eguły wiezchołków wewnętznych stopnia 2, gdyż nie niosą one żadnych infomacji Zbió liści dzewa T jest ówny L(T)

Dzewa nieukozenione opis Dzewo nieukozenione możemy opisać w postaci gafu: Wiezchołki wewnętzne V(T)\L(T) to wspólni pzodkowie Możliwy jest ównież opis zbioami: Rozbicie zbiou L dowolna paa {A, B} spełniająca waunki: A L, B L, A B =, A B = L Rozbicie jest tywialne, gdy A = 1 Rozbicia {A, B} {C, D} dla zbiou L są zgodne, gdy dokładnie jeden zbió spośód: A C, A D, B C, B D jest pusty Rodzina zgodnych ozbić δ(t) dla dzewa T o liściach L zawiea wszystkie ozbicia powstałe pzez usunięcie pewnej kawędzi z T Okazuje się, że zgodna odzina ozbić δ zawieająca wszystkie ozbicia tywialne {v, L \ {v}} dla v L jednoznacznie okeśla topologię nieukozenionego dzewa T, któe spełnia δ(t) = δ Bez uwzględnienia wiezchołków stopnia 2

Dzewa nieukozenione pzykład Dzewo T: Rodzina zgodnych ozbić δ(t): Od kawędzi a: {1}, {2, 3, 4, 5, 6} 1 a d f Od kawędzi b: {2}, {1, 3, 4, 5, 6} Od kawędzi c: {3}, {1, 2, 4, 5, 6} b c e g h Od kawędzi d: {1, 2, 3}, {4, 5, 6} Od kawędzi e: {4}, {1, 2, 3, 5, 6} 2 3 4 5 6 Od kawędzi f: {1, 2, 3, 4}, {5, 6} Od kawędzi g: {5}, {1, 2, 3, 4, 6} Od kawędzi h: {6}, {1, 2, 3, 4, 5} Oba powyższe opisy są ównoważne i pzejścia między nimi można dokonać w czasie liniowym usunięcie ozbicia (nietywialnego) = ściągnięcie kawędzi (wewnętznej) dodanie ozbicia (nietywialnego, zgodnego) = ozdzielenie wiezchołka (wewnętznego) na dwa połączone kawędzią

Dzewa ukozenione opis Kozeń wyóżniony wiezchołek wewnętzny, pzedstawiający najstaszego pzodka gupy Dzewo ukozenione ównież możemy opisać: Za pomocą gafu Za pomocą zbioów W gafie pzedstawiającym dzewo ukozenione można zoientować wszystkie kawędzie od kozenia w kieunku liści Klaste zbió liści A L(T) będących potomkami wiezchołka w dzewie T (waz z nim samym) Klaste A jest tywialny jeśli A = 1 lub A = L(T) Klasty A, B są zgodne, jeśli A B, B A lub A B = Zgodny zbió klastów δ(t) odpowiadających wszystkim wiezchołkom dzewa T okeśla jednoznacznie jego topologię

Dzewa ukozenione pzykład Dzewo T: Zbió klastów δ(t): Od wiezchołka : {1, 2, 3, 4, 5, 6} a b Od wiezchołka a: {1, 2, 3} 1 Od wiezchołka b: {5, 6} Od wiezchołka 1: {1} Od wiezchołka 2: {2} 2 3 4 5 6 Od wiezchołka 3: {3} itd. I te opisy są ównoważne, ównież między nimi można dokonać pzejścia w czasie liniowym usunięcie klasta (nietywialnego) = ściągnięcie kawędzi (wewnętznej) dodanie klasta (nietywialnego, zgodnego) = ozdzielenie wiezchołka wewnętznego na dwa, połączone kawędzią

Równoważność dzew Dzewa filogenetyczne T 1 i T 2 są ównoważne, gdy: Gafy odpowiadające T 1 i T 2 są izomoficzne Izomofizm zachowuje etykiety pzypoządkowane liściom (tj. odwzoowuje liść z T 1 o etykiecie 1 w liść z T 2 o etykiecie 1 itd.) Dla dzew ukozenionych: izomofizm zachowuje odwzoowanie kozenia 1 w kozeń 2 1 2 T 1 T 1 T 2 2 3 4 5 6 2 1 3 6 5 4 1 T 3 T 4 1 3 4 6 5 2 3 4 5 6 T 1 i T 2 są ównoważne, gdy mają ówne odziny ozbić/klastów

Dzewa binane Niosą najwięcej infomacji o pzebiegu ewolucji W dzewie binanym ukozenionym: deg() = 2 (outdeg() = 2) Dla dowolnego wiezchołka wewnętznego v zachodzi deg(v) = 3 (indeg(v) = 1 i outdeg(v) = 2) Dzewo binane ukozenione o n liściach ma: n 1 wiezchołków wewnętznych 2n 2 kawędzi W dzewie binanym nieukozenionym każdy wiezchołek wewnętzny ma stopień 3 Dzewo binane nieukozenione o n liściach ma: n 2 wiezchołków wewnętznych 2n 3 kawędzi

Dzewa binane c.d. Pytanie: Ile istnieje óżnych (tj. nieównoważnych) dzew binanych o n liściach? Każde dzewo binane ukozenione o n liściach odpowiada dokładnie jednemu dzewu binanemu nieukozenionemu o n + 1 liściach Wystaczy do kozenia dołączyć nowy liść 1 2 3 4 1 2 5 3 4

Dzewa binane c.d. Każde dzewo binane nieukozenione o n liściach odpowiada 2n 3 dzewom binanym ukozenionym o n liściach Umieszczając kozeń na dowolnie wybanej kawędzi dzewa otzymujemy dzewo ukozenione 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

Tempo wzostu Oznaczenia: U(n) liczba ukozenionych dzew binanych o n liściach N(n) liczba nieukozenionych dzew binanych o n liściach Spełnione ówności: N(n + 1) = U(n) U(n) = (2n 3)N(n) Waunek początkowy: U(2) = 1 Rozwiązując tak postawiony układ otzymujemy, że: N(n) = (2n 5)!! = 1 3... (2n 5) U(n) = (2n 3)!! = 1 3... (2n 3) Liczba dzew ośnie supewykładniczo waz ze wzostem n: Dla n = 10: N(n) 2 mln Dla n = 20: N(n) 2.2 x 10 20

Dzewa nieukozenione i ukozenione poównanie Dzewa nieukozenione: Gaf nieskieowany lub odzina zgodnych ozbić d(t) Dzewo binane o n liściach ma 2n 2 wiezchołków Istnieje (2n 5)!! óżnych dzew binanych o n liściach Dzewa ukozenione: Gaf skieowany lub odzina klastów d(t) Wyóżniony wiezchołek kozenia : wspólny pzodek i infomacja o zależnościach czasowych Dzewo binane o n liściach ma 2n 1 wiezchołków Istnieje (2n 3)!! óżnych dzew binanych o n liściach

Cechy filogenetyczne Dane źódłowe: Cechy opisowe: «ma pióa», «chodzi, podpieając się kłykciami» «ma skzydła» Niefunkcjonalne fagmenty DNA (np. makey) Regulowanie ekspesji potein pzez inne poteiny Cechy opisowe mogą nieść niewiele infomacji, szczególnie gdy kilka gatunków niezależnie wykształciło daną własność Najważniejszymi badanymi cechami są cechy binane i nieodwacalne: Mutacje i indele są losowe, pawdopodobieństwo odwócenia się cechy jest znikome Równie małe jest pawdopodobieństwo, że u dwóch gatunków niezależnie pojawi się jednakowa zmiana

Poblem doskonałej filogenezy Dla n obiektów i m cech można wyznaczyć maciez M pzedstawiającą pzynależność cech do obiektów M(p, i) = 1 obiekt p posiada cechę i, 0 bak cechy Poblem doskonałej filogenezy (pefect phylogeny). Czy dla danej maciezy binanej M ozmiau n x m istnieje dzewo filogenetyczne (ukozenione) spełniające własności: Każdy z n obiektów odpowiada dokładnie jednemu liściowi z T Każda z m cech odpowiada dokładnie jednej kawędzi z T Dla każdego obiektu p cechy odpowiadające kawędziom na dodze od kozenia do p oznaczają cechy występujące w p

Poblem doskonałej filogenezy Pzyjmowane są z eguły dodatkowe założenia, wynikające z biologicznych obsewacji: Kozeń odpowiada obiektowi, któy nie posiada żadnej z m cech Nie istnieje w dzewie ścieżka, na któej dwukotnie modyfikowana jest jedna cecha cechy są nieodwacalne Nie każda maciez ma odpowiadające dzewo filogenetyczne: I II III IV I III 1 1 1 0 0 2 0 0 1 0 3 1 0 0 0 4 0 0 1 1 II 1 3 2 IV 4 Bak dzewa filogenetycznego I II III IV 1 1 1 0 0 2 0 1 1 0 3 1 0 0 0 4 1 0 1 1

Poszukiwanie dzewa doskonałej filogenezy Dla ułatwienia wykonajmy wstępne pzetwazanie: Taktując każdą kolumnę (cechę) M jako liczbę binaną należy posotować kolumny nieosnąco pzy użyciu sotowania pozycyjnego otzymana maciez będzie oznaczana M' Oczywiście ozwiązanie poblemu dla M i M' jest identyczne Oznaczmy pzez O i zbió obiektów, któe posiadają cechę odpowiadającą i-tej kolumnie w maciezy M' Lemat 1. Jeśli O i O j, to i > j Twiedzenie. Maciezy M odpowiada pewne dzewo filogenetyczne T wtwg. dla dowolnych 1 i, j n zachodzi jeden z pzypadków: O i O j, O i O j, O i O j =

Dowód «w pawą stonę» Dowód. W pzeciwnym azem istniałyby elementy x O i \ O j, y O j \ O i, z O i O j i w dzewie T musiałyby istnieć ścieżki: Od do x: zawieająca e i, ale nie e j Od do y: zawieająca e j, ale nie e i Od do z: zawieająca e i i e j Dla dowolnych dwóch kawędzi odpowiadających cechom i, j zachodzi dokładnie jedna z tzech możliwości: Kawędź e i leży na ścieżce od kawędzi e j do kozenia Kawędź e j leży na ścieżce od kawędzi e i do kozenia Dla pewnego wiezchołka v kawędzie e i i e j leżą w óżnych poddzewach wyznaczonych pzez kawędzie wychodzące z v

Dowód «w lewą stonę» Dowód konstukcyjny popawność twozenia dzewa Rozważmy dowolne obiekty p i q Niech k = max {1 i n: M'(p, i) = M'(q, i) = 1} Oczywiście M'(p, k) = M'(q, k) = 1 Zauważmy, że jeśli dla pewnego i < k zachodzi M'(p, i) = 1, to ównocześnie M'(q, i) = 1 Ponieważ M'(p, k) = M'(p, i) = 1, to p O i O j Ponieważ i < k, to z założenia dowodu wynika, że O k O i Skoo O k O i i M'(q, k) = 1, to M'(q, i) = 1 Ponieważ ównież można zamienić p i q miejscami mamy: M'(p, i) = M'(q, i) dla i k M'(p, i) = M'(q, i) dla i > k tylko gdy M'(p, i) = M'(q, i) = 0

Pzykład działania algoytmu Dla zapewnienia, że żaden ciąg cech obiektu (M'(p, i)) nie jest pefiksem ciągu cech innego obiektu (M'(q, i)), dodaje się znak końca $ To zapewnia, że wszystkie obiekty z M odpowiadają liściom w T Wystaczy zbudować z powstałych ciągów dla każdego obiektu p dzewo słownikowe Każde dwa ciągi dla p i q mają wspólne początkowe k znaków Powyżej k-tego znaku żaden znak nie pojawia się w p i q naaz Pzykład: I II III IV I III 1 1 1 0 0 2 0 0 1 0 3 1 0 0 0 4 0 0 1 1 II $ $ $ 1 3 2 IV $ 4

Algoytm doskonałej filogenezy Można skonstuować następujący algoytm ozwiązania: Taktując każdą kolumnę (cechę) M jako liczbę binaną posotuj kolumny nieosnąco pzy użyciu sotowania pozycyjnego. Nazwij posotowaną maciez M' Dla każdego zędu (obiektu) w M' wyznacz ciąg cech obecnych w obiekcie Zbuduj dzewo słownikowe T w opaciu o n ciągów cech z koku popzedniego T jest dzewem doskonałej filogenezy dla M Algoytm da się zaimplementować, aby działał w czasie O(mn)

Opeacje na dzewach Opeacja ściągnięcia: Usunięcie kawędzi z dzewa i utożsamienie jej końców Opeacja ta definiuje częściowy poządek w uniwesum dzew Opeacją odwotną jest opeacja ozszezenia: podział wiezchołka na dwa, połączone kawędzią Dzewo T' ozszeza dzewo T, gdy T może być skonstuowane popzez pewną liczbę opeacji ściągnięcia wykonaną na dzewie T' Dzewo T' zawiea wszystkie infomacje, któe znajdują się w dzewie T Dzewo T można otzymać z pewnego poddzewa indukowanego w T', wyznaczonego popzez najkótsze ścieżki łączące liście L(T) oaz ściągnięcie wiezchołków stopnia 2

Pzykład dzewa ozszezającego T T' 1 2 5 3 4 1 2 3 4

Poblem kompatybilności zbiou dzew Mając dany pewien zestaw dzew można szukać dzewa zawieającego wszystkie infomacje zawate w odzinie dzew Poblem: Dla odziny dzew F = {T 1, T 2, T k } poszukiwane jest dzewo T ozszezające wszystkie dzewa z F Poblemem jest ównież pytanie o samo istnienie dzewa kompatybilnego T czyli o kompatybilność odziny dzew Jeśli dzewa mają ten sam zbió liści, to poblem jest w P: wystaczy zbadać zgodność ozbić/klastów δ(t i ) W ogólnym pzypadku: Dla dzew ukozenionych poblem jest wielomianowy Dla dzew nieukozenionych poblem jest NP-tudny dla T i > 3

Algoytm kompatybilności zbiou dzew Dla pzypadku odziny dzew o tym samym zbioze liści można zastosować metodę klastową/ozbiciową: Należy spawdzić zgodność klastów lub odziny ozbić dla zbiou δ(t) = Ti F δ(t i ) jeśli jest zgodna, to odpowiednie dzewo filogenetyczne istnieje Istnieje odpowiednia metoda bazująca na maciezach, ale ozwiązanie jest zdecydowanie mniej oczywiste 1 2 5 3 4 5 5 3 4 1 2 1 2 3 T 1 T 2 T 4

Dzewa nieukozenione i ukozenione poównanie Dzewa nieukozenione: Gaf nieskieowany lub odzina zgodnych ozbić d(t) Dzewo binane o n liściach ma 2n 2 wiezchołków Istnieje (2n 5)!! óżnych dzew binanych o n liściach Poblem kompatybilności odziny dzew jest NP-tudny Pzy założeniu o jednakowym zbioze liści poblem jest wielomianowy Dzewa ukozenione: Gaf skieowany lub odzina klastów d(t) Wyóżniony wiezchołek kozenia: wspólny pzodek i infomacja o zależnościach czasowych Dzewo binane o n liściach ma 2n 1 wiezchołków Istnieje (2n 3)!! óżnych dzew binanych o n liściach Poblem kompatybilności odziny dzew jest P

Dzewo konsensusu pełnego Czasem cel jest inny: zamiast konstuować dzewo zawieające wszystkie infomacje zależy nam na wydobyciu infomacji potwiedzonych pzez wszystkie dzewa Poblem: Dla odziny dzew ukozenionych F = {T 1, T 2, T k } poszukiwane jest dzewo CT zawieające wspólne infomacje dla całej odziny F Dzewo konsensusu dokładnego (pełnego) definiujemy jako dzewo zawieające tylko te klasty, któe są wspólne dla wszystkich dzew z odziny: δ(ct) = T F δ(t) Skoo dla każdego dzewa T zachodzi δ(ct) δ(t), to zbió klastów δ(ct) także jest zgodny Zatem zbió klastów δ(ct) jednoznacznie wyznacza T Analogicznie, podobny poblem dla dzew nieukozenionych ozwiązać można bioąc wspólne zgodne ozbicia

Dzewo konsensusu częściowego Czasem jednak wystacza poszukiwanie tylko infomacji, któe występują w pewnej części dzew Poblem: Dla odziny dzew ukozenionych F = {T 1, T 2, T k } poszukiwane jest dzewo CT X zawieające wspólne infomacje dla co najmniej X% dzew z odziny F Dzewo konsensusu częściowego (X-pocentowego) definiujemy jako dzewo zawieające tylko te klasty, któe są wspólne dla co najmniej X% dzew z odziny F Oczywiście konsensus 100-pocentowy jest tożsamy z konsensusem pełnym

Dzewo konsensusu częściowego pzykład 1 2 3 1 2 5 5 4 5 3 4 1 2 3 T 1 T 2 T 3 4 1 2 3 4 5 1 2 5 CT 100 CT 66 3 4

Dzewo konsensusu częściowego c.d. Okazuje się, że dla X 50 odzina klastów δ(ct X ) może nie być zgodna Skoo odzina nie jest zgodna, to nie odpowiada ona żadnemu dzewu filogenetycznemu Dla X > 50 nie ma takiego poblemu: Załóżmy, że pewien klaste A należy do δ(ct X ) Każde δ(t i ) jest zgodne: dowolny klaste B niezgodny z A nie może wystąpić w żadnym dzewie T i, w któym występuje A Dzew niezawieających A jest (100 X)%, czyli mniej niż X%: B na pewno nie pojawi się w dzewie konsensusu Oznacza to, że dzewo konsensusu ma sens dla X > 50, stąd mowa jest o dzewach konsensusu większościowego

Metyki dla dzew filogenetycznych Ze względów paktycznych wato zdefiniować metykę na odzinie dzew T o n liściach poetykietowanych liczbami 1, 2,..., n Metyki wymagają m.in. metody pzeszukiwania gadientowego lub inne heuystyki bazujące na badaniu sąsiedztwa dzewa Metyka podziałów (Splits, RF, Robinson-Fould) Dla dwóch dzew T 1 i T 2 ich odległość jest definiowana jako liczba opeacji ozszezenia/ściągnięcia wymaganych do pzejścia od T 1 do T 2 Inna definicja okeśla odległość jako δ(t 1 ) δ(t 2 ) czyli moc XORa na odzinach ozbić δ(t 1 ) i δ(t 2 ) Zaleta: Badzo łatwe obliczanie odległości między dzewami Wada: Dużo dzew w niewielkiej odległości

Metyki dla dzew filogenetycznych Zamiana najbliższych sąsiadów (Neaest Neighbou Intechange) Dla dowolnej kawędzi wewnętznej opeacja polega na zamianie dwóch poddzew wg schematu: T 1 T 3 T 1 T 2 T 2 T 4 T 1 T 2 T 4 T 3 T 3 Metyka zamiany sąsiadów Dla dwóch dzew T 1 i T 2 ich odległość jest definiowana jako minimalna liczba opeacji zamiany sąsiadów wymaganych do pzejścia od T 1 do T 2 Zamiana sąsiadów odpowiada wstawieniu i usunięciu pojedynczej kawędzi Każde dzewo ma 2n 6 sąsiadów T 4

Metyki dla dzew filogenetycznych Pzesadzanie poddzew (Subtee Puning and Regafting) Wybó i usunięcie kawędzi e = {a, b} dzielącej dzewo na 2 dzewa A i B Usunięcie b z B Wybanie kawędzi w B i utwozenie na niej wiezchołka c Połączenie a i c nową kawędzią Metyka pzesadzania poddzew Dla dwóch dzew T 1 i T 2 ich odległość jest definiowana jako minimalna liczba opeacji zamiany sąsiadów wymaganych do pzejścia od T 1 do T 2

Metyki dla dzew filogenetycznych Bisekcje i złączenia (Tee Bisection Reconnection) Wybó i usunięcie kawędzi e = {a, b} dzielącej dzewo na 2 dzewa A i B Usunięcie a z A i b z B Wybanie kawędzi w A i utwozenie na niej wiezchołka c Wybanie kawędzi w B i utwozenie na niej wiezchołka d Połączenie c i d nową kawędzią Metyka bisekcji i złączeń Dla dwóch dzew T 1 i T 2 ich odległość jest definiowana jako minimalna liczba opeacji zamiany sąsiadów wymaganych do pzejścia od T 1 do T 2 Ostatnie tzy metyki wywodzą się z metod definiowania sąsiedztwa w uniwesum dzew Ich wadą jest bak efektywnego algoytmu obliczającego d(t 1, T 2 )

THE END Pezentacja w wesji: EB.final[2010]PptRip[Pl]-Xteme Nowa jakość pezentacji. Slajdy zostały specjalnie dopasowane do Twojej wesji filmu.