Autoreferat. Uzgadnianie drzew: teoria i zastosowania

Autoreferat 1 Imię i nazwisko Paweł Górecki 2 Posiadane dyplomy 1. Dyplom magistra informatyki uzyskany w 1999 roku na Wydziale Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego. 2. Dyplom magistra matematyki uzyskany w 2000 roku na Wydziale Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego. 3. Dyplom doktora nauk matematycznych w zakresie informatyki uzyskany w styczniu 2006 roku na Wydziale Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego. Tytuł rozprawy Detection of horizontal gene transfer. 3 Zatrudnienie w jednostkach naukowych 1. 1 października 2004-30 września 2006: asystent, Instytut Informatyki, Wydział Matematyki, Informatyki i Mechaniki, Uniwersytet Warszawski. 2. od 1 października 2006: adiunkt, Instytut Informatyki, Wydział Matematyki, Informatyki i Mechaniki, Uniwersytet Warszawski. 3. 1 października 2006-30 września 2007: staż post-doc, Instytut Maxa Plancka Genetyki Molekularnej w Berlinie (Max-Planck-Institut für molekulare Genetik). 4 Wskazanie osiagnięcia wynikajacego z art. 16 ust. 2 ustawy z dnia marca 2003 r. o stopniach naukowych i tytule naukowym oraz o stopniach i tytule w zakresie sztuki (Dz. U. nr 65, poz. 595 ze zm.): a) tytuł osiagnięcia naukowego/artystycznego: b) lista prac Uzgadnianie drzew: teoria i zastosowania 1:in Paweł Górecki, Jerzy Tiuryn, Inferring phylogeny from whole genomes, Bioinformatics, 23:e116-e2, 2007. 2:ml Paweł Górecki, Gordon J. Burleigh and Oliver Eulenstein, Maximum likelihood models and algorithms for gene tree evolution with duplications and losses, BMC Bioinformatics, (Suppl. 1):S15, 2011. 3:rf Paweł Górecki and Oliver Eulenstein, A Robinson-Foulds measure to compare unrooted trees with rooted trees (ISBRA 20), Lecture Notes in Computer Science, 7292, 102-1, 20. 1

4:ec Paweł Górecki and Oliver Eulenstein, Algorithms: Simultaneous Error-Correction and Rooting for Gene Tree Reconciliation and the Gene Duplication Problem, BMC Bioinformatics 13(Suppl 10):S, 20. 5:gtp Paweł Górecki, J. Gordon Burleigh and Oliver Eulenstein, GTP supertrees from unrooted gene trees: linear time algorithms for NNI based local searches, (ISBRA 20), Lecture Notes in Computer Science, 7292, 115-6, 20. 6:un Paweł Górecki, Oliver Eulenstein, Jerzy Tiuryn, Unrooted Tree Reconciliation: A Unified Approach, IEEE/ACM Transactions on Computational Biology and Bioinformatics, vol. 10 no. 2, pp. 522-536, 2013. 7:mdc Paweł Górecki, Oliver Eulenstein, Maximizing Deep Coalescence Cost, IEEE/ACM Transactions on Computational Biology and Bioinformatics, vol. 11 no. 1, 231-242, 20. 8:drml Paweł Górecki, Oliver Eulenstein, DrML: probabilistic modeling of gene duplications, Journal of Computational Biology, 21(1):89-98, 20. c) Omówienie celu naukowego/artystycznego ww. pracy/prac i osiagniętych wyników wraz z omówieniem ich ewentualnego wykorzystania. 4.1 Wprowadzenie Homologia jest jednym z podstawowych pojęć używanych w badaniu relacji między sekwencjami genowymi. Uznajemy, że dwa geny są homologiczne, jeśli posiadają wspólnego przodka. Analiza ewolucyjnych relacji między sekwencjami homologicznymi, a gatunkami z których one pochodzą, prowadzi do obserwacji, że ewolucja genów zwykle różni się od ewolucji dla ich gatunków. W biologii obliczeniowej, relacje między rodziną homologów (genów) przedstawiane są w postaci drzewa rekonstruowanego z sekwencji molekularnych, które można interpretować przy pewnych założeniach jako ich drzewo ewolucyjne. W podobny sposób można rekonstruować obliczeniowo drzewa ewolucyjne gatunków używając ich genomów lub odpowiednio wybranej rodziny genów (np. 16S rrna). Alternatywnie można przybliżać drzewa gatunków za pomocą znanego drzewa taksonomii, na przykład taksonomii z NCBI. Dalej będę używał pojęcia drzewo genów i drzewa gatunków utożsamiając je z odpowiednimi drzewami ewolucyjnymi. Obserwację dotyczącą różnic między ewolucją genów, a gatunków w naturalny sposób możemy przenieść na poziom drzew: drzewa genów zwykle różnią się od drzew ich gatunków. Powodem tych różnic są zazwyczaj zjawiska biologiczne, np. duplikacja genów. Ponadto, jeśli drzewa są rekonstruowane danych molekularnych na wynik mogą także wpłynąć błędy w sekwencjonowaniu, braki w danych lub stosowane metody obliczeniowe. Pytanie dotyczące różnic między drzewami doprowadziły do powstania modelu drzew uzgadniajacych [21], w którym różnice wyjaśnia się za pomocą zjawisk ewolucyjnych takich jak duplikacje genów, straty genów i zjawiska specjacji dla gatunków. Nieformalnie, idea uzgadniania polega na narysowaniu drzewa genów wewnątrz drzewa gatunków, przez uogólnienie relacji zawierania gen-gatunek na poziom zawierania drzew, przy wykorzystaniu operacji duplikacji i straty. Warto podkreślić, że zastosowania uzgadniania wybiegają poza biologię i można je stosować w innych kontekstach, gdzie występuje podobna relacja między dwoma typami obiektów. W latach 90 XX wieku pojęcie uzgadniania zostało sformalizowane przez Page a [35, 36]. W ciągu ostatnich 20 lat model uzgadniania był intensywnie badany, co pozwoliło na osiągnięcie zarówno wielu teoretycznych wyników jak i praktycznych zastosowań [2, 6, 7, 10, 11, 15, 16, 19, 20, 23, 27, 30, 31, 33, 37, 38, 39, 45, 53, 56]. Wśród nich należy wymienić te poruszone w pracach z cyklu: problem superdrzewa [1:in,5:gtp,4:ec], znajdowanie optymalnych ukorzenień [1:in,3:rf,E10], lokalne wyszukiwanie [5:gtp], zagadnienia korekcji błędów w drzewach genów [4:ec], 2

Ewolucja gatunków Ewolucja rodziny genów w gatunkach Czas Ewolucja rodziny genów Specjacja Duplikacja genu(*) Strata genu(*) Duplikacja genu Specjacja Strata genu genom a genom b genom c 1 gen z a 2 geny z b 1 gen z c a b b c Rysunek 1: Przykład drzew ewolucyjnych i wbudowania drzewa genów w drzewo gatunków. Przy zastosowaniu uzgadniania drzewa G i S możemy zrekonstruować scenariusz ewolucyjny odpowiadający temu wbudowaniu. Odtworzenie pierwszej duplikacji i pierwszej straty genów jest możliwe tylko jeśli posiadamy dodatkową wiedzę, np. większą liczbę sekwencji lub genomów. rozszerzenia modelu na nieukorzenione drzewa genów [1:in,3:rf,E10], modelowanie scenariuszy ewolucyjnych [2:ml,8:drml], związki modelu z innymi funkcjami porównującymi drzewa [3:rf,E10,7:mdc,6:un]. 4.2 Podstawowe definicje Uwaga wstępna. Definicje wprowadzone poniżej sa wspólne dla wszystkich prac z cyklu. Z drugiej strony, formalizm notacyjny niektórych pracach może różnić się od tego przyjętego w autoreferacie. Z tego powodu twierdzenia i lematy przytaczane tutaj moga nieznacznie różnić się w sformułowaniu od tych w pracach z cyklu. W niektórych przypadkach przedstawiam wersję skrócona. W opisie prac z cyklu będę używał pojęć związanych z uzgadnianiem. Poniżej zostaną one zdefiniowane, za wyjątkiem standardowych pojęć z teorii grafów, takich jak drzewo czy graf. Niech T xv T, E T y będzie drzewem ukorzenionym o zbiorze węzłów V T i zbiorze krawędzi E T. Wtedy L T oznacza zbiór wszystkich jego liści, a korzeń T oznaczany jest przez ρt. Zakładam teraz, że drzewa są binarne, tzn. każdy węzeł wewnętrzny za wyjątkiem korzenia ma stopień 3. Dla węzłów v i w z drzewa T, przez v ` w oznaczam najniższego wspólnego przodka v i w w T. Jeśli węzeł v nie jest korzeniem, wówczas jego ojca (poprzednika) w T oznaczam πv. Drzewem gatunków S nazywam dowolne drzewo ukorzenione. Liście drzewa gatunków nazywać będziemy gatunkami. Ukorzenionym drzewem genów G nad S jest trójka xv G, E G, Λy, taka że graf xv G, E G y jest drzewem ukorzenionym, a Λ: L G Ñ L S, jest funkcją, nazywaną etykietowaniem, która liściom G przyporządkowuje gatunki ze zbioru L S. Analogicznie definiuję nieukorzenione drzewa genów. Drzewa genów i gatunków są zwykle opisywane z użyciem notacji nawiasowej. Np. drzewo gatunków z Rysunku 1 można reprezentować jako pa, pb, cqq, gdzie a, b i c to liście-gatunki, a drzewo genów jako pa, pb, pb, cqqq (bez uwzględnienia strat genów). Uzgodnienie dwóch potencjalnie różnych drzew za pomocą zdarzeń duplikacji i strat genów prowadzi do naturalnego pytania o scenariusz ewolucyjny, który wykorzystuje najmniejszą liczbę tych zdarzeń. Poszukiwanie odpowiedzi na to pytanie doprowadziło do zdefiniowania modelu duplikacji i strat genów, w którym ważną rolę pełni mapowanie najniższego wspólnego przodka, tzw. lca-mapowanie. Dla danego drzewa gatunków S i ukorzenionego drzewa genów G nad S, lca-mapowanie to funkcja M : V G Ñ V S zdefiniowana następująco: dla węzła g z G: Mpgq # Λ G pgq jeśli g to liść, Mpg 1 q ` Mpg 2 q jeśli g ma dwójkę dzieci g 1 i g 2. 3

Funkcja M jest używana do modelowania zjawisk duplikacji w drzewie genów. Mówimy, że węzeł wewnętrzny g drzewa genów jest S-duplikacja (lub duplikacją), jeśli dla pewnego dziecka g 1 węzła g, Mpgq Mpg 1 q. Liczba wszystkich węzłów duplikacyjnych w drzewie G definiuje koszt duplikacyjny DpG, Sq: DpG, Sq tg P G: g jest węzłem S-duplikacyjnymu. (1) Liczbę strat genów, oznaczaną jako LpG, Sq, definiujemy za pomocą wzoru LpG, Sq : DCpG, Sq 2 DpG, Sq, gdzie DCpG, Sq to koszt głębokiej koalescencji (deep coalescence) [17, 31, 42, 47, 54, 55, 56] i formalnie definiowanym następująco: DCpG, Sq p Mpgq, Mpπgq 1q, gpg,gρpgq gdzie dla węzłów v i w w drzewie S, v, w oznacza długość krawędziową najkrótszej ścieżki łączącej v i w w drzewie S. Sumaryczną liczbę duplikacji i strat genów konieczną do uzgodnienia drzewa G i S nazywamy kosztem mutacyjnym (lub koszem duplikacji i strat), i oznaczamy DLpG, Sq. Przykład drzew i ich lca-mapowania jest zaprezentowany na Rysunku 2. Model duplikacji i strat, nazywany też modelem drzew uzgadniających, jest uznawany za biologicznie znaczący. Wśród najważniejszych teoretycznych wyników związanych z tym modelem należy wymienić pracę [E4], będącą fragmentem mojej rozprawy doktorskiej [22], w której pokazaliśmy, że wśród wszystkich scenariuszy ewolucyjnych dla danych drzew genów i gatunków, te oparte na lca-mapowania implikują najmniejszy koszt mutacyjny i duplikacyjny. Scenariusze te można nieformalnie przedstawiać w postaci wbudowań (przykład na Rysunku 2). Rysunek 2: Z lewej: przykład ukorzenionego drzewa genów G i drzewa gatunków S (por. z Rysunkiem 1) i lcamapowania. Kwadrat oznacza węzeł duplikacyjny. W tym przypadku DpG, Sq 1 oraz LpG, Sq 1. Z prawej: do wbudowania drzewa G w drzewo S potrzeba jednej duplikacji i jednej straty genów, czyli koszt mutacyjny wynosi 2. Wbudowanie (ang. embedding) to nieformalny sposób reprezentowania scenariuszy ewolucyjnych, w których w drzewie gatunków rysujemy drzewo genów, uwzględniając duplikacje i ewentualne straty genów. 4.3 Funkcje kosztów - podejście zunifikowane W pracy [6:un] po raz pierwszy zaproponowaliśmy zunifikowane podejście do obliczania wartości funkcji porównujących drzewa genów i drzewa gatunków dla drzew genów ukorzenionych i nieukorzenionych. To podejście zostało również wykorzystane w pracy [E13]. Niech G będzie ukorzenionym drzewem genów nad drzewem gatunków S. Przez c v będziemy oznaczać klaster węzła v, tzn. zbiór wszystkich gatunków, czyli etykiet liści, występujących w poddrzewie G o korzeniu w v. Analogicznie klastry definiujemy dla S. Dla zbioru gatunków X (liści z S), przez X oznaczamy klaster najniższego węzła 4

w w S, takiego że X c w. Koszty ewolucyjne takie jak DC, L, D można ogólnie zdefiniować dla danego drzewa gatunków S i drzewa genów G nad S: ρ K pg, Sq gpintpt q, a,b dzieci g ξ K pc a, c b q, gdzie ξ K : PpL S q PpL S q Ñ R, intpgq to zbiór wszystkich węzłów wewnętrznych drzewa G, a PpXq to zbiór wszystkich podzbiorów zbioru X. Tutaj ξ K jest symetryczną funkcją, którą będziemy funkcja bazowa dla K. Mamy następujące funkcje bazowe: ξ D px, Y q 1pX X Y Y _ Y X Y Y q (2) ξ DC px, Y q }X, Y } S (3) ξ L px, Y q ξ DC px, Y q 2p1 ξ D px, Y qq (4) ξ DL px, Y q ξ D px, Y q ξ L px, Y q (5) ξ RF px, Y q 1pX Y Y X Y Y q (6) gdzie 1 to funkcja charakterystyczna, tzn., 1ppq 1 gdy p jest spełnione i 1ppq 0 w przeciwnym przypadku, }X, Y } S, to liczba krawędzi na ścieżce łączącej węzły x i y w S, takie że, c x X i c y Y, odpowiednio. RF oznacza odległość Robinson-Fouldsa [40]: RFpG, Sq intpsq 2 ρ RF pg, Sq intpgq. Dodajmy, że RF definiujemy tylko gdy Λ G jest bijekcją. Wszystkie powyższe formuły można obliczyć w czasie i pamięci liniowej ze względu nad rozmiar ukorzenionych drzew wejściowych wykorzystując, m.in. znane algorytmy dla problemu najniższego wspólnego przodka (LCA) [8, 56, 57]. 4.4 Nieukorzenione uzgadnianie Drzewa filogenetyczne rekonstruowane z sekwencji molekularnych za pomocą programów komputerowych są zazwyczaj nieukorzenione. W konsekwencji zastosowanie modelu duplikacji i strat wymaga wcześniejszego ukorzenienia drzewa genów. Standardową metodą ukorzeniania jest tzw. metoda outgroup. Polega ona na wyborze sekwencji outgroup, o której wiemy, że jest wystarczająco różna od pozostałych dzięki czemu można umieścić korzeń na krawędzi łączącej outgroup z resztą. Tej metody nie można stosować np. gdy taka sekwencja nie istnieje lub gdy nie można jej jednoznacznie określić. Wśród innych metod należy wymienić np. węzeł środkowy w drzewie, ale takie podejście jest trudne do biologicznego uzasadnienia. W pracy [1:in] zaproponowaliśmy ukorzenianie drzewa genów tak by koszt duplikacji i strat był najmniejszy. Ta idea, nazywana nieukorzenionym uzgadnianiem (ang. unrooted reconciliation) została później rozszerzona na inne koszty i wykorzystana w kilku pracach podejmujących bardziej praktyczne problemy, takie jak, korekcja błędów [4:ec], problem superdrzewa [5:gtp] i inne. Bezpośrednie definicje dla konkretnych funkcji kosztów w wariancie dla drzew genów nieukorzenionych pojawiają się w kilku pracach cyklu, ale tutaj zaprezentuję podejście zunifikowane analogiczne do zaproponowanego po raz pierwszy w pracy [6:un]. Wprowadźmy najpierw kilka użytecznych definicji, które pochodzą z tej pracy. Jeśli G jest drzewem genów nieukorzenionym, a e jest jego krawędzią to przez G e oznaczamy ukorzenione drzewo genów powstałe z G przez wstawienie korzenia na krawędzi e. Wówczas, nieukorzeniona funkcja kosztu dla kosztu ewolucyjnego K jest zdefiniowana następująco: K pg, Sq min epe G ρ K pg e, Sq. (7) Krawędź e, dla której K pg, Sq ρ K pg e, Sq nazywamy optymalną dla K. W dalszej części autoreferatu będą używał określenia koszt dla kosztów ewolucyjnych DL, D, itp., natomiast funkcja kosztu dla porównywania drzewa genów ukorzenionego lub nieukorzenionego z danym drzewem gatunków. 5

Typ drzewa genów będzie jednoznacznie określony z kontekstu. Na przykład dla drzewa genów G i drzewa gatunków S, w zależności od typu drzewa genów, wartość kosztu dla duplikacji (D) jest określona przez ρ D pg, Sq jeśli G jest ukorzenione lub przez D pg, Sq jeśli G jest nieukorzenione. Można wyróżnić dwa podstawowe warianty problemów nieukorzenionego uzgadniania drzew dla kosztu K. Problem 1 (Optymalne ukorzenienie względem K). Dane: drzewo gatunków S oraz nieukorzenione drzewo genów G nad S. Znajdź optymalna krawędź dla K. Problem 2 (Koszty ukorzenień względem K). Dane: drzewo gatunków S oraz nieukorzenione drzewo genów G nad S. Oblicz wartości wszystkich ukorzenień G dla kosztu K. W kilku pracach podejmowany jest także problem superdrzewa [3, 29, 43, 52, 55, 56]. Dla kosztu K można go zdefiniować następująco. Problem 3 (Superdrzewa względem K). Dane: kolekcja ukorzenionych drzew genów G 1, G 2,..., G n. drzewo gatunków S, które minimalizuje koszt łaczny i ρ KpG i, Sq. Znajdź: W analogiczny sposób ten problem jest definiowany dla nieukorzenionych drzew genów. W pracy [1:in] analizujemy własności nieukorzenionego uzgadniania w kontekście duplikacji i strat genów (DL), oraz pokazujemy optymalne algorytmy dla Problemu 1 i 2. Przedstawione poniżej wyniki z tej pracy były podstawą dla kilku kolejnych prac z cyklu. Niech G będzie nieukorzenionym drzewem genów. Bez zmniejszenia ogólności założymy, że etykietowanie G jest na L S. Przez J oznaczać będziemy klaster korzenia drzewa S. Węzeł wewnętrzny v drzewa G ma dokładnie trzech sąsiadów: v 1, v 2 and v 3 połączonych z v v krawędziami e 1, e 2 and e 3 odpowiednio. Zbiór takich krawędzi te 1, e 2, e 3 u, będziemy nazywać gwiazda o środku v. Niech X i będzie klastrem v i w drzewie G ei, Y i będzie klastrem v w G ei (zauważmy, że Y 1 X 2 Y X 3, etc.). Krawędź e i nazywamy symetryczna jeśli X i J wtw Y i J (ta własność jest niezależna od v). Krawędź e i jest nazywana v-wychodzac a jeśli X i J Y i. X i nazywamy klastrem zewnętrznym e i względem v (patrz Rysunek 3 i 4a). Teraz zdefiniujemy typy gwiazd. Jeśli istnieje ponumerowanie krawędzi e 1, e 2 i e 3 w gwieździe s takie że (a) X 3 J Y 3, to s jest typu S1, (b) X 3, Y 3 J and Y 1 Y 2 J, to s jest typu S2, (c) X 1, X 2 J and Y 3 X 3 J, to s jest typu S3, (d) X i J dla każdego i, to s jest typu S4, (e) X 1 X 2 J X 3, to s jest typu S5. Rysunek 3: Z lewej: nieukorzenione drzewo genów G z gwiazdą o środku v. Z prawej: ukorzenienie G ek drzewa G. Tutaj, tk, l, mu t1, 2, 3u oraz dla i 1, 2, 3, X i jest klastrem v i w G ek i klastrem zewnętrznym e i względem v w G. 6

v 3 (a) (b) (c) (d) v v 1 v v i v-wychodząca, X i J Y i v v i symetryczna, X i J Y i v 2 v v i symetryczna, X i J Y i v v i X i J Y i S1 S2 S3 a v 1 S4 S5 b c va b c a c b v 3 v 2 Rysunek 4: (a) Gwiazda o środku v. (b) Rodzaje krawędzi. (c) Typy gwiazd dla drzew binarnych. (d) Gwiazda z etykietami w drzewie Ĝ. W pracy [1:in] pokazujemy, że podane typy gwiazd są wzajemnie rozłączne oraz, że każda gwiazda w drzewie genów posiada dokładnie jeden z powyższych typów. Analiza typów gwiazd prowadzi do Lematu 4 z [1:in] (punkt (iv) jest z korektą): Lemat (1:in:Lem4). Dla każdego nieukorzenionego drzewa genów G zachodzi dokładnie jeden z przypadków: (i) G ma dokładnie jedna gwiazdę S2 i wszystkie pozostałe sa typu S1, (ii) G ma dokładnie dwie gwiazdy S2 współdzielace krawędź i wszystkie pozostałe sa typu S1, (iii) G ma dokładnie dwie gwiazdy S3 współdzielace krawędź i wszystkie pozostałe sa typu S1 lub (iv) G ma gwiazdę S4 lub S5 i G nie ma gwiazdy typu S2. Z tego lematu wynika, że każde drzewo genów (w kontekście ustalonego drzewa gatunków) posiada krawędź symetryczną. Własności przedstawione w tej sekcji zależą tylko od lca-mapowań, tzn. wartości X dla X - zbiór etykiet liści z odpowiednich poddrzew ukorzenionych drzewa G. W kilku pracach o bardziej algorytmicznym podejściu stosowana jest transformacja nieukorzenionego drzewa genów G xv G, E G, Λ G y do grafu skierowanego Ĝ xv G, ÊGy, gdzie ÊG txv, wy: tv, wu P E G u. Innymi słowy, każda krawędź tv, wu z G jest zastępowana przez parę skierowanych krawędzi xv, wy i xw, vy. Jeśli G jest nad pewnym drzewem gatunków S, to w Ĝ można wprowadzić etykietowanie krawędzi węzłami z V S w następujący sposób. Jeśli v jest liściem to etykietą xv, wy jest Λ G pvq (czyli liść z drzewa S). Jeśli v jest węzłem wewnętrznym i etykietami xw 1, vy i xw 2, vy są a i b odpowiednio, gdzie w 1, w 2 i v to różne węzły, to etykietą xv, wy jest a ` b. Przy notacji wprowadzonej dla gwiazdy o środku v z Rysunku 4a, można łatwo pokazać, że X i jest klastrem etykiety krawędzi xv i, vy z Ĝ, gdzie X i to klastrem v i w drzewie G ei. Przykład gwiazdy w Ĝ jest zaprezentowany na Rysunku 4d. 4.4.1 DL w drzewach nieukorzenionych W pracy [1:in] pokazujemy (Prop. 5-6), że wartości kosztu DL ukorzeniania na krawędziach drzewa genów maleją monotonicznie, gdy poruszamy się w drzewie genów w przeciwnym kierunku do krawędzi wychodzących (przykład na Rysunku 5). Twierdzenie 7 z [1:in] jest najważniejszym wynikiem dotyczącym nieuzgodnionego ukorzeniania z ważonym kosztem duplikacji i strat, czyli ważonym kosztem mutacyjnym (tutaj twierdzenie w wersji równoważnej zaadoptowanej do występujących tu definicji): Twierdzenie (1:in:Thm7). Dla nieukorzenionego binarnego drzewa genów G nad drzewem gatunków S, i stałych dodatnich α i β, niech Min G arg min α DpG e, Sq β LpG e, Sq. epe G Wtedy (i) Min G 1 wtw G zawiera gwiazdę S4/S5. Co więcej, jeśli Min G 1 to Min G zawiera tylko wszystkie krawędzie z gwiazd S4/S5 z G. (ii) Min G 1 to G posiada dokładnie jedna krawędź symetryczna i jest ona jedynym elementem Min G. (iii) zbiór Min G jest niezależny od wyboru stałych dodatnich α i β. (iv) Min G indukuje pełne poddrzewo G. (v) wszystkie krawędzie z Min G można znaleźć za pomoca iteracyjnej metody zachłannej: poruszaj się w drzewie G w przeciwnym kierunku do krawędzi wychodzacych, aż znajdziesz krawędź symetryczna; następnie odszukaj wszystkie gwiazdy w otoczeniu tej krawędzi zgodnie z warunkami (i)-(iv). 7

Bezpośrednią konsekwencją tego twierdzenia, jest stwierdzenie, że każda krawędź symetryczna w G jest optymalna, tzn., posiada optymalny koszt ważony mutacyjny. Stąd zaproponowaliśmy algorytm, który działa wg schematu: wystartuj z dowolnego węzła v i poruszaj się w drzewie G w kierunku przeciwnym do krawędzi v-wychodzacych, aż napotkasz krawędź symetryczna. W pracy [1:in] pokazujemy, jak powyższa metoda iteracyjna może zostać zastosowana do obliczania kosztu optymalnego lub do generowania jednego lub wszystkich optymalnych ukorzenień (Problemy 1 i 2). Dodatkowo, dzięki strukturze danych, która zapamiętuje częściowe wyniki w atrybutach krawędzi, pokazujemy, że wszystkie powyższe zagadnienia można obliczyć algorytmem o liniowej złożoność czasowej i pamięciowej. Tego typu algorytm pojawia się także w pracach [3:rf,E10] w kontekście innych funkcji kosztu oraz w postaci ogólnej w pracy [6:un]. Z poprzedniego twierdzenia wynika, że nieukorzenione drzewo genów może posiadać więcej niż jedno optymalne ukorzenienie. Jednakże, z własności gwiazd wynika, że różnią się one tylko topologią dla genów obecnych w korzeniu drzewa gatunków. Przykład jest pokazany na Rysunku 5. Rysunek 5: [1:in] Z lewej: nieukorzenione drzewo genów G w reprezentacji gwiazdowej. Z prawej: wbudowanie oznaczonego optymalnego ukorzenienia G w drzewo gatunków S ppa, bq, pd, pe, f qqq. Każda krawędź e drzewa genów jest etykietowana przez DLpG e, Sq, czyli liczbą duplikacji i strat genów potrzebnych do uzgodnienia G e z S. Min G zawiera 5 optymalnych krawędzi o koszcie 15. Wbudowania tych ukorzenień G różnią się jedynie w korzeniu S (czerwone krawędzie). 4.4.2 Odległość RF i inne funkcje kosztów W artykule [3:rf] poruszone zostały problemy analogiczne do tych z [1:in], ale dla odległości Robinsona-Fouldsa (RF). Tutaj został przyjęty bardziej ogólny model nieukorzenionego drzewa genów: węzły wewnętrzne mogą mieć stopień większy niż 3. W konsekwencji pojęcie gwiazdy zostaje rozszerzone o nowe typy (Rysunek 6). Nie podaję tutaj formalnych wyprowadzeń, są one analogiczne do tych z poprzedniej części. Główny wynik związany z tym typem Rysunek 6: Typy gwiazd dla drzew genów z multifurkacjami. Po prawej stronie środka gwiazd znajdują się co najmniej dwie krawędzie. gwiazd jest przestawiony poniżej (Lemat 2 z [3:rf]). Należy zwrócić uwagę, że gwiazdy typów M1-M5 rozszerzają typy gwiazd S1-S5, natomiast M6 nie posiada odpowiednika wśród gwiazd binarnych (Rysunek 4c). Lemat (3:rf:Lem2). Dla każdego drzewa genów (z multifurkacjami) G mamy następujace wzajemnie rozłaczne przypadki: (i) G ma dokładnie jedna gwiazdę M2 i pozostałe sa typu M1. (ii) G ma dokładnie dwie gwiazdy M2 8

współdzielace krawędź, a pozostałe gwiazdy sa typu M1. (iii) G ma dokładnie jedna gwiazdę M6 i wszystkie pozostałe sa typu M1. (iv) G ma gwiazdę M3 i pozostałe sa typu M3, M4, M5 lub M1. Analiza kosztów ukorzenień dla krawędzi gwiazd prowadzi do wniosków: koszt ukorzenienia lewej krawędzi z gwiazdy M1-M2 z Rysunku 6 jest nie mniejszy niż koszt ukorzenienia prawych krawędzi (Prop. 3), oraz koszty ukorzenień wszystkich krawędzi z gwiazdy typu M3-M6 jest taki sam (Prop. 2). W konsekwencji mamy analogiczny wynik jak dla ważonego kosztu mutacyjnego (Tw. 1 [3:rf]): Twierdzenie (3:rf:Thm1). Dla nieukorzenionego drzewa genów G o bijekcyjnym etykietowaniu nad drzewem gatunków S: (i) Jeśli G posiada gwiazdę M3-M5, to wszystkie krawędzie z gwiazd M3-M5 sa optymalne. (ii) Jeśli w G jest gwiazda M6, to wszystkie krawędzie z M6 sa optymalne. (iii) Jeśli jest tylko jedna krawędź optymalna to G ma gwiazdę typu M2. (iv) Jeśli G ma gwiazdę typu M2 to krawędź symetryczna z M2 jest optymalna. (v) Jeśli gwiazda ma dwie krawędzie optymalne to wszystkie krawędzie tej gwiazdy sa optymalne. (vi) Zbiór krawędzi optymalnych indukuje poddrzewo pełne w G. (vii) krawędź optymalna można znaleźć za pomoca iteracyjnej metody zachłannej: poruszaj się w drzewie G w przeciwnym kierunku do krawędzi wychodzacych; gdy nie ma takiej to znajdziesz krawędź symetryczna (w M2-M6) albo gwiazdę M6. W pracy [3:rf] kolejny wynik to charakteryzacja własności optymalnych ukorzenień, ich proste dowody są pominięte: (1) zbiór wszystkich nietrywialnych klastrów (czyli wszystkich klastrów węzłów wewnętrznych za wyjątkiem korzenia) optymalnego ukorzenienia drzewa genów G nie zależy od wyboru krawędzi o ile jest ona optymalna (Lemat 3 z [3:rf]) oraz (2) ten zbiór klastrów (nazwany jadrem G) jest podzbiorem zbioru klastrów S (Corollary 1). Ten wynik należy traktować jako odpowiednik własności kosztu DL przedstawionego na Rysunku 5 dotyczącego wspólnych cech optymalnych ukorzenień. Przykład jest zaprezentowany na Rysunku 7. Podobieństwa między Twierdze- G o r a 16 b 16 c f h 20 20 i g S n 16 16 p s t q j k 16 16 20 22 20 22 d l m e a b c d e f g h i j k l m n o p q r s t S' a b c d e f g h i j k l m n o p q r s t Rysunek 7: [3:rf] Drzewo genów G w reprezentacji gwiazdowej. S jest drzewem gatunków z zaznaczonymi klastrami obecnymi we wszystkich optymalnych ukorzenieniach G. Jądro G i S zawiera wszystkie nietrywialne zaznaczone klastry. S 1 to drzewo konsensusu dokładnego dla wszystkich optymalnych ukorzenienień G. niem 1:in:Thm7 (DL), a Twierdzeniem 3:rf:Thm1 (RF), prowadzą do Twierdzenia 2 z [3:rf]: Twierdzenie (3:rf:Thm2). Dla nieukorzenionego binarnego drzewa genów G o bijekcyjnym etykietowaniu nad drzewem gatunków S, jeśli krawędź drzewa G jest optymalna względem DL to jest optymalna względem RF. 4.4.3 Unifikacja nieukorzenionego uzgadniania Analiza własności funkcji kosztów w kontekście nieukorzenionego uzgadniania: DL [1:in], RF [3:rf], oraz DC [E10] doprowadziła do pytania o wspólne cechy, które determinują tzw. własność plateau. Mówimy, że koszt posiada własność plateau, jeśli przy nieukorzenionym uzgadnianiu w nieukorzenionym drzewie genów można wyróżnić spójne poddrzewo, nazywane plateau, którego krawędzie wyznaczają optymalne ukorzenienia. Co więcej poruszając się od plateau w kierunki liści, krawędzie będą indukować monotonicznie rosnący ciąg wartości kosztów. Przykłady plateau można znaleźć na Rysunkach 5, 7 i 8. 9

W pracy [3:rf] proponujemy warunek spójności, którego spełnienie jest wystarczające by funkcja posiadała własność plateau. Ten warunek jest spełniony dla kosztów D, L, DL, DC oraz RF, co wynika z prac [1:in,3:rf,E10] (dla RF tylko jeśli etykietowanie liści drzewa genów jest bijekcją). Niektóre relacje między plateau różnych funkcji kosztów pokazane są w poprzednio omawianych pracach, natomiast w [3:rf] przedstawione jest podsumowanie, które należy traktować jako najważniejszą własność nieukorzenionego ukorzeniania D DL L DC RF, (8) gdzie relacja F F 1 oznacza, że dla każdej pary drzewa genów i drzewa gatunków plateau dla funkcji F jest podgrafem plateau F 1 oraz relacja F F 1 oznacza, że dla każdej pary drzewa genów i drzewa gatunków plateau dla funkcji F i F 1 są równe. Wprowadzamy także pojęcie krajobrazu funkcji, które jest zdefiniowane jako zbiór wszystkich wierzchołków płaskich w drzewie genów, czyli takich których krawędzie incydentne z nim posiadają ten sam koszt. Pojęcie krajobrazu rozszerza pojęcie plateau. W tej pracy pokazujemy także, że relacje z (8) są spełnione dla krajobrazów. Przykłady pokazane są na Rysunku 8. e e e e e h 4 d 4 3 4 3 3 3 f h d f h d 22 15 22 15 17 17 f h 20 20 d 24 20 24 20 22 22 f h 10 10 d 10 10 f a 4 c 5 4 3 5 4 g a c 17 17 g a c 22 15 22 g a c 21 20 20 21 20 g a c 10 10 10 10 10 g D b L b DL b DC b RF b g b c a h f e d G - optymalne ukorzenienie G 15 15 15 Plateau Krajobraz - węzeł płaski a b c d g h Duplikacja genu (D) a b c d e f g h e f Strata genu (L) Drzewo gatunków S Wbudowanie G w S (scenariusz ewolucyjny) Rysunek 8: Przykład uzgadniania nieukorzenionego dla D, L, DL, DC i RF, które spełniają własność plateau. Na dole z lewej: ukorzenione drzewo gatunków S. Na górze (5 drzew): nieukorzenione drzewo genów G z wartościami kosztów ukorzeniania na krawędziach dla różnych funkcji kosztów oraz zaznaczonymi plateau oraz krajobrazami. Krawędzie z plateau, które wyznaczają minimalne koszty (3 dla D, dla L, 15 dla DL, 20 dla DC i 10 dla RF), są zaznaczone na czerwono. G 1 jest optymalnym ukorzenieniem dla G. Na dole: wbudowanie drzewa G 1 w S (scenariusz ewolucyjny z duplikacjami i stratami genów). W tej pracy analizujemy własności kosztów i pokazujemy, że DL i L posiadają najmniejsze plateau pośród kosztów spełniających warunek spójności. Następnie wprowadzamy pojęcie funkcji faktoryzowalnej, dla której wartości są wyrażane za pomocą klastrów z drzewa gatunków przez zastosowanie lca-mapowań. W szczególności w [3:rf] pokazany jest dowód, że wszystkie standardowe koszty takie jak L, DL, D, DC są faktoryzowalne, ale nie RF. 10

Następnie badamy własności funkcji faktoryzowalnych w kontekście własności plateau przez wprowadzenie formalnego języka kosztów boolowskich, którego elementami są formuły zbudowane nad alfabetem zawierających kilka logicznych i teoriomnogościowych operatorów oraz zmiennych reprezentujących klastry z drzew. Formuły tego języka interpretujemy jako funkcje kosztów. Z własności tego języka wynika istnienie 256 faktoryzowalnych funkcji kosztów wśród nich dokładnie 32 spełniających warunek spójności. Wśród tych 32 funkcji zidentyfikowaliśmy 16 różnych typów krajobrazów i plateau. W [3:rf] przedstawiony jest także ogólny algorytm nieukorzenionego uzgadniania oraz eksperyment obliczeniowy pokazujący relacje między plateau funkcji faktoryzowalnych dla kilku zestawów danych empirycznych i losowych. 4.4.4 Korekcja błędów w drzewach genów [4:ec] Rekonstrukcja drzew genów z sekwencji zwykle obarczona jest błędami [9,, 46, 50]. W pracach [4:ec] i [E7] (wersja konferencyjna) pokazujemy jak w procesie uzgadniania drzew można usunąć ewentualne błędy w drzewie genów. Dla danego nieukorzenionego drzewa genów G i drzewa gatunków S, problem korekcji drzewa genów to znalezienie takiego wariantu drzewa genów bez błędów, które minimalizuje liczbę duplikacji i strat podczas uzgadniania z S. Takiego wariantu drzewa genów bez błędów poszukujemy w sąsiedztwie drzewa G definiowanego jako zbiór wszystkich drzew genów osiągalnych z G przez zastosowanie co najwyżej k operacji NNI (patrz Rysunek 9). W takim przypadku mówimy, że poprawiamy co najwyżej k błędów. W większości zastosowań k jest małe. W [E7] rozwiązujemy następujący problem: Problem 4. (Korekcja błędu względem K) Dane: drzewo gatunków S, nieukorzenione drzewo genów G nad S. Znajdź w 1-NNI sasiedztwie G drzewo, które minimalizuje koszt K nieukorzenionego uzgadniania z S. W [4:ec] rozważany jest ogólniejszy problem. Problem 5. (Uogólniona korekcja błędów względem K) Dane: drzewo gatunków S, nieukorzenione drzewo genów G nad S, oraz liczba naturalna k. Znajdź w k-nni sasiedztwie G drzewo, które minimalizuje koszt K nieukorzenionego uzgadniania z S. Dodatkowo zastosowanie nieukorzenionego uzgadniania z korekcją błędów umożliwia wskazanie korzenia w drzewie genów. Teraz przedstawię ideę rozwiązania dla problemu korekcji błędów z zastosowaniem efektywnych struktur danych. Wykonanie jednej operacji NNI może zmienić etykiety w drzewie Ĝ i koszt DL. W [4:ec] pokazujemy, że zmiana struktur danych reprezentujących drzewo genów i aktualizacja kosztu DL mogą być wykonane w czasie stałym. Ten wynik jest oparty 8 lematach. W Lemacie 1 pokazujemy, że NNI zmienia tylko krawędź centralną i jej etykiety (na Rysunku 9 krawędzie e 0 i e 1 0). Lematy 2-5 opisują wszystkich 9 przypadków zmian plateau przy operacji NNI. Lematy 6-7 opisują dwa przypadki dla obliczania różnicy kosztu DL. T 1 w 1 e 2 e1 G e 0 e 4 e3 T 4 w 4 w 2 w 3 T 2 T 3 (a) NNI e3 e 2 G T 3 T 4 w 3 w e 4 0 e 4 e1 w 2 w 1 T 2 T 1 w 1 a1 a 2 a1 a 2 G a 4 a 1+ a 2 a 3+ a 4 a3 a 4 a3 w 4 w 2 w 3 (b) NNI w 3 w 2 a3 a 2 a3 a 2 G a 4 a 2+ a 3 a 1+ a 4 a1 a 4 a1 w w Rysunek 9: (a) Operacja edycyjna NNI w drzewie G. (b) Operacja edycyjna NNI w drzewie Ĝ. Poddrzewa T i są tutaj pominięte. Notacja ā oznacza lca-mapowanie dla poddrzew komplementarnych, np. ā 3 a 1 ` a 2 ` a 4. 11

Efektywna aktualizacja struktur danych prowadzi do algorytmu poprawiającego jeden błąd o złożoności czasowej liniowej. Zwróćmy uwagę, że dla G o n liściach liczba NNI-sąsiadów G to 2n 6, zatem algorytm naiwny, czyli generuj sąsiadów i oblicz koszt, ma gorszą złożoność czasową (kwadratową). W ogólnym podejściu w pracy [4:ec], rozważamy praktyczne zagadnienie gdzie korekta dotyczy tylko tzw. słabych krawędzi z G, które można określić np. przez długość krawędzi albo metodą bootstrapping. Główny wynik tej pracy to algorytm znajdowania błędów w drzewie genów, który działa w czasie Opl k maxtn, muq, gdzie n i m to rozmiary G i S odpowiednio, l to liczba słabych krawędzi w G, a k to maksymalna liczba błędów do poprawienia. W szczególnym przypadku k 1 jest to wyżej wspomniany algorytm o złożoności czasowej liniowej. W tej pracy przeprowadzono eksperymenty obliczeniowe w oparciu o problem superdrzewa względem funkcji kosztu f: f pg, Sq mintdlpt, Sq: T powstaje z G przez zastosowanie co najwyżej k operacji NNIu. Eksperymenty obliczeniowe przeprowadzono na zbiorze rodzin genów z bazy Génolevures [44]. Drzewa genów zrekonstruowane z tych rodzin były przetwarzane przy użyciu dwóch parametrów: rzeczywistego ω i naturalnego µ. Pierwszy parametr określa próg długości krawędzi, poniżej którego krawędź była oznaczana jako słaba. Dodatkowo drzewo genów jest uznawane jako słabe, jeśli posiada więcej niż µ słabych krawędzi. Słabe drzewa były usuwane z zestawu wejściowego. W [4:ec] przeprowadzono kilkaset eksperymentów obliczeniowych dla problemu superdrzewa z różnymi wartościami tych parametrów. Przeprowadzono również analizę poprawnych rekonstrukcji drzewa gatunków w zależności od parametrów. 4.4.5 Lokalne wyszukiwanie w problemie superdrzewa [5:gtp] Problem superdrzewa jest zazwyczaj trudny obliczeniowo. Z tego powodu do jego rozwiązywania zwykle stosowane są heurystyki oparte na iteracyjnym przeszukiwaniu przestrzeni drzew gatunków. Każdy krok tej heurystyki jest oparty o dokładne rozwiązanie instancji problemu lokalnego wyszukiwania [4, 5, 13,, 32, 49, 51]. Lokalne wyszukiwanie polega na znalezieniu w lokalnym otoczeniu danego drzewa gatunków S drzewa o najmniejszym łącznym koszcie. W [5:gtp] rozważane są nieukorzenione drzewa genów dla problemu superdrzewa względem kosztu mutacyjnego, a lokalne otoczenie definiowane jest przez operację NNI (patrz Rysunek 10): Problem 6 (Lokalne wyszukiwanie względem K). Dane: kolekcja nieukorzenionych drzew genów i drzewo gatunków S. Znajdź drzewo gatunków w 1-NNI sasiedztwie S, które minimalizuje łaczny koszt K nieukorzenionego uzgadniania z danymi drzewami genów. S t x a b c A B C NNI S t x a b c C A B. Initial Tree S.. Rysunek 10: (a) Operacja edycyjna NNI w drzewie gatunków S. (b) Idea algorytmu wyszukiwania lokalnego - drzewa stanowią 1-NNI sąsiedztwo drzewa gatunków. Łatwo jest pokazać, że naiwny algorytm lokalnego wyszukiwania ma złożoność czasową kwadratową. W [5:gtp] przedstawiony jest liniowy algorytm rozwiązujący problem lokalnego wyszukiwania. Ten algorytm jest oparty na kilku twierdzeniach analizujących zmiany etykiet w drzewie Ĝ, po wykonaniu operacji NNI na S. Pierwsze twierdzenie (Prop. 1) wynika natychmiast z własności z grafu Ĝ. Przy zastosowaniu notacji z Rysunku 10 mamy następujące

własności. Jeśli krawędź e z Ĝ jest etykietowana x, to po operacji NNI e jest etykietowana przez t. Jeśli e jest etykietowana t, to po operacji NNI, e jest etykietowana t 1 lub x 1. Pozostałe etykiety w Ĝ nie zmieniają się. Następnie analizujemy 2 przypadki, w zależności czy węzeł t jest korzeniem S. Jeśli t nie jest korzeniem wówczas plateau Ĝ nie zmieni się (Prop. 2) i przedstawiamy analizę przypadków możliwych przekształceń scenariusza ewolucyjnego (wbudowania G w S) wraz z analizą zmiany kosztu DL. Pokazujemy, że w tym przypadku złożoność czasowa jednej operacji NNI jest stała. W przypadku, gdy t jest korzeniem, plateau może ulec zmianie. Ten przypadek wymaga obliczenia etykiet drzewa Ĝ i kosztu DL. Jednakże, taka sytuacja występuje co najwyżej 4 razy dla 1-NNI-sąsiadów G, wobec czego całkowita złożoność czasowa tej operacji jest liniowa. Główny algorytmiczny wynik tej pracy to algorytm rozwiązujący problem lokalnego wyszukiwania o złożoności czasowej proporcjonalnej do rozmiaru drzew wejściowych. Ten algorytm został zaimplementowany w programie fasturec. W pracy [5:gtp] przedstawione są również eksperymenty obliczeniowe dla rodzin genów z bazy GreenPhyl [41]. 4.5 Algorytmy nieukorzenionego uzgadniania: podsumowanie [1:in,3:rf,4:ec,5:gtp,6:un] Relacje między plateau różnych funkcji kosztów przedstawione w formule (8) stanowią najważniejszy wynik nieukorzenionego uzgadniania, który ma istotne konsekwencje algorytmiczne. W szczególności, z teorii przedstawionej w pracy [6:un] wynika, że optymalne algorytmy rozwiązujące problemy dla kosztu DL mogą zostać łatwo uogólnione na inne funkcje kosztów. Wynika to m.in. z własności plateau: DL posiada najmniejsze plateau pośród rozważanych funkcji kosztów. W Tabeli 1 przedstawiam podsumowanie algorytmów nieukorzenionego uzgadniania. Tabela 1: Podsumowanie algorytmów nieukorzenionego uzgadniania Nieukorzenione drzewo genów G vs. ukorzenione drzewo gatunków S Optymalne Koszt wszystkich Korekcja Lokalne Funkcja kosztu ukorzenienie G ukorzenień G błędów w G wyszukiwanie Problem 1 Problem 2 Problem 4 Problem 6 Koszt mutacyjny (DL) [1:in] [1:in] [4:ec,E7] [5:gtp] Głęboka koalescencja (DC) [E10] [E10] - - Robinson-Foulds (RF) [3:rf] [3:rf] - - Złożoność czasowa Op G S q Op G S q Op G S q Op G S q Złożoność pamięciowa Op G S q Op G S q Op G S q Op G S q Ulepszenie wzgl. alg. naiwnego G G G 2 G S 4.6 Modelowanie scenariuszy ewolucyjnych - 2:mli 8:drml Klasyczny problem uzgadniania drzew to poszukiwanie uzgodnienia zgodnego z zasadą parsymonii, czyli takiego scenariusza ewolucyjnego, który minimalizuje liczbę duplikacji i strat genów dla danych drzewa genów i drzewa gatunków. Znanych jest wiele wiarygodnych wyników związanych z tym modelem [1, ], W pracy [2:ml] przedstawiamy metody rekonstrukcji scenariuszy ewolucyjnych, niekoniecznie minimalnych w sensie kosztu mutacyjnego, w oparciu o probabilistyczny model duplikacji genów, przy wykorzystaniu długości krawędzi w drzewach gatunków. U podstaw tego podejścia jest drzewo DLS będące formalną reprezentacją scenariusza ewolucyjnego w modelu duplikacji i strat wprowadzone w pracy [E4]. DLS drzewo (scenariusz) jest binarnym ukorzenionym drzewem, z czterema typami węzłów: duplikacja genu, specjacja strata genu i sekwencja. DLS drzewa definiujemy za pomocą standardowej notacji drzew z dodatkową dekoracją związaną z typem węzła. Niech CpT q oznacza zbiór gatunków obecnych w DLS drzewie T. Następujące reguły definiują DLS drzewa: 13

a jest jednoelementowym drzewem definiującym sekwencję (gen) z gatunku a; Cpaq tau. a 1 a 2... a n - jest jednoelementowym drzewem definiującym stratę genu, gdzie a 1, a 2... a n to niepusty ciąg gatunków; Cpa 1 a 2... a n -q ta 1, a 2,..., a n u. (R 1, R 2 )+ to DLS drzewo, którego korzeniem jest duplikacja; dzieci korzenia to DLS drzewa R 1 i R 2 spełniające warunek CpR 1 q CpR 2 q. (R 1, R 2 ) to DLS drzewo, którego korzeniem jest specjacja; dzieci korzenia to DLS drzewa R 1 i R 2 spełniające warunek CpR 1 q X CpR 2 q H. Niech XpT q to zbiór wszystkich CpT 1 q, gdzie T 1 to poddrzewa T. Mówimy, że drzewo gatunków S jest kompatybilne ze DLS drzewem T, jeśli zbiór klastrów z S jest nadzbiorem XpT q. Pojęcie kompatybilności prowadzi w naturalny sposób do wbudowywania drzewa DLS w drzewo gatunków. Np. scenariusz z Rysunku 2 to drzewo DLS: pa, ppb, cq, pb, cq q q. Z drugiej strony z drzewa DLS można wydobyć właściwe mu drzewo genów (tutaj pa, pb, pb, cqqq). W ogólnym modelowaniu scenariuszy ewolucyjnych dla danego drzewa gatunków S i ukorzenionego drzewa genów G nad S, istnieje nieskończenie wiele drzew DLS. Jednakże, po usunięciu scenariuszy zawierających przypadki trywialne (np. duplikacja i następująca po niej strata jednej kopii) uzyskuje się skończoną liczbę drzew DLS (dla ustalonego G i S), które można wizualizować na diagramach. Takie drzewa nazywamy seminormalnymi. W pracy [2:ml] definiujemy wiarygodność drzewa DLS w następujący sposób. Niech P pτ, d λq oznacza prawdopodobieństwo, że d duplikacji wystąpiło na krawędzi o długości τ przy założeniu stałej częstości duplikacji λ. Bez zmniejszenia ogólności przyjmujemy tutaj rozkład Poissona: P pτ, d λq e λτ pλτ q d d!. Przy danym DLS drzewie R, które powstaje z uzgadniania drzewa gatunków S i drzewa genów G, wiarygodność R wynosi: LpS, G, Rq Π sps P p s, dup R psq λq, (9) s to długość krawędzi łączącej s i jego ojca w drzewie S, a dup R psq to liczba wszystkich poddrzew T z R, którego korzeń to duplikacja i CpT q jest równe klastrowi węzła s z drzewa gatunków. Główny problem jest następujący: Problem 7. Dane: drzewo gatunków S, nieukorzenione drzewo genów G nad S oraz λ 0. Znajdź scenariusz, który maksymalizuje LpS, G, Rq w zbiorze wszystkich seminormalnych drzew DLS dla G i S. Złożoność tego problemu nie jest znana. W pracy [2:ml] proponujemy algorytm, który używa programowania dynamicznego i algorytmów typu branch and bound o złożoności czasowej wykładniczej do rozwiązywania tego problemu i problemów pokrewnych. Algorytm został zaimplementowany w narzędziu DrML, którego opis znajduje się w artykule typu application note [8:drml], którą postanowiłem dołączyć do tego cyklu prac ze względu na zastosowania do testowania ciekawych naukowo hipotez ewolucyjnych. Mimo wysokiej złożoności tego algorytmu, testy dla danych rzeczywistych i sztucznie generowanych pokazują, że obliczanie optymalnych scenariuszy jest w większości przypadków łatwe. Natomiast przypadki trudne, czyli czasochłonne, zdarzają się rzadko. W pracy [8:drml] proponujemy metodę stosowania DrML do weryfikowania hipotez duplikacji z zastosowaniem metod bootstrapping do agregowania zdarzeń ewolucyjnych na krawędziach drzewa gatunków. Wynikiem agregacji są rozkłady duplikacji i strat w drzewie gatunków. Pozwalają one na dokładniejsze weryfikowanie hipotez duplikacji. Takie podejście było zastosowane do testowania hipotez ewolucyjnych m.in. w pracy która ukazała się w prestiżowym czasopiśmie Science [E9] (praca jest opisana w sekcji 5). Inne przykłady zastosowań do danych biologicznych, podobne do tych z [E9] znajdują się w pracy [8:drml]. 4.7 Średnice kosztów [7:mdc] Najnowszy temat związany z badaniem własności funkcji kosztów, reprezentuje praca [7:mdc]. Dotyczy ona problemu średnicy funkcji kosztu DC [26, 48]. Średnica jest definiowana jako maksymalna wartość danej funkcji w pewnym zbiorze drzew par drzew genów i gatunków.

W tej pracy badane są dwa typy średnic dla kosztu DC. Pierwsza, z nich jest definiowana następująco. Jeśli T i S są drzewami ukorzenionymi, wówczas u DC pt, Sq maxtdcpg, Sq: G jest drzewem genów nad S i T xv G, E G yu nazywamy średnica DC dla ustalonych kształtów drzewa genów i gatunków. Drugi typ średnicy jest definiowany analogicznie z dodatkowym ograniczeniem: bijekcyjna średnica DC dla ustalonych kształtów drzewa genów i gatunków nazywamy b DC pt, Sq maxtdcpg, Sq: G jest drzewem genów nad S, T xv G, E G y oraz Λ G jest bijekcją.u W pracy [7:mdc] pokazujemy algorytm oparty o metodę programowania dynamicznego do obliczania średnicy u DC działający w czasie Op G S 3 q. Warto zwrócić uwagę, że podobny algorytm można stosować do obliczania analogicznych średnic innych kosztów z wykorzystaniem zunifikowanego podejścia do uzgadniania. Dla analizy własności średnicy bijekcyjnej wprowadzamy cztery reguły R1-R4, które dla danego drzewa genów i danego drzewa gatunków o tym samym rozmiarze, umożliwiają przekształcanie etykietowań drzewa genów. Pokazujemy, że jedno przekształcenie zawsze zwiększa koszt DC. Pokazujemy, że każdy maksymalny ciąg przekształceń DC kończy się na parą drzewo genów G i drzewo gatunków S, których koszt DC jest równy średnicy b pĝ, Sq, gdzie tutaj Ĝ oznacza drzewo G bez etykietowania. Algorytm oparty na regułach posiada dość dużą złożoność czasową Opn 4 q. Jednakże, w tej pracy pokazujemy własności reguł, które prowadzą dla optymalnego algorytmu. Pierwsza własność dotyczy drzew genów, które nie posiadają redeksów reguł R1 i R2. Wówczas, lca-mapowania węzłów wewnętrznych drzewa G znajdują się na tzw. pniu (ang. trunk) drzewa S. Pień S jest (jednoznacznie) definiowany jako ciąg Υ 1, Υ 2,..., Υ k spełniający: (I) korzeń Υ 1 to korzeń S, (II) dla i 1, Υ i jest dzieckiem Υ i 1, które posiada więcej liści niż jego brat, oraz (III) dzieci Υ k są korzeniami drzew o tej samej liczbie liści. By przedstawić główny wynik tej pracy, potrzebujemy kilku definicji. Dla drzewa G i pewnego zbioru wierzchołków A z G, przez G A oznaczamy las powstały z G przez usunięcie z G wierzchołków z A i wszystkich ich poprzedników. Wiśnią w drzewie nazywamy poddrzewo posiadające dokładnie dwa liście. Mówimy, że permutacja ξ xξ 1, ξ 2,..., ξ χg y wszystkich korzeni wiśni w drzewie genów G jest głęboka w G, jeśli dla każdego i, ξ i jest najgłębiej położonym korzeniem wiśni w G tξ 1, ξ 2,..., ξ i 1 u. Jeśli dodatkowo G nie posiada redeksów R1 i R2, wówczas ciąg lca-mapowań korzeni wiśni Mξ xmξ 1, Mξ 2,..., Mξ χg y jest maksymalny jeśli Mξ jest leksykograficznie maksymalny w zbiorze tmψ : ψ - permutacja wszystkich korzeni wiśni z Gu. Twierdzenie poniżej jest głównym wynikiem klasyfikującym drzewa genów i gatunków, które osiągają w koszcie DC średnicę bijekcyjną. Twierdzenie (7:mdc:Thm1). Dla drzewa gatunków S i drzewa genów G nad S o bijekcyjnym etykietowaniu następujace warunki sa równoważne: G jest w postaci normalnej dla S (czyli nie posiada redeksów R1-R4) Istnieje ciag ξ korzeni wiśni z G, taki że, ξ jest głęboki w G i Mξ jest maksymalny w S. DC DCpG, Sq b pĝ, Sq Wynik ten prowadzi do algorytmu liniowego o dość prostej konstrukcji: generujemy pewien głęboki ciąg korzeni wiśni z G, a następnie odpowiednio przypisujemy im etykietowanie by osiągnąć maksymalność. Praca [7:mdc] stała się podstawą do opracowania wyników dla innych typów średnic, a także dla innych funkcji kosztów. Duża część wyników została już opracowana: dla duplikacji [E], inne warianty średnic dla DC przedstawione są w pracach [E16] (przyjęta do IEEE/TCBB) i [E17] (przyjęta na konferencję ACM BCB). Wyniki dla DL i L są już znane, a praca jest przygotowywana do publikacji. 15

5 Omówienie pozostałych osiagnięć naukowo-badawczych Lista pozostałych prac E1 Paweł Górecki, Single step reconciliation algorithm for duplication, loss and horizontal gene transfer model, Proceedings of the European Conference on Computational Biology, Proceedings of ECCB 2003. E2 Paweł Górecki, Reconciliation problems for duplication, loss and horizontal gene transfer, Proceedings of the Eighth Annual International Conference on Research in Computational Molecular Biology, Proceedings of RECOMB 2004. E3 Paweł Górecki and Jerzy Tiuryn, On the structure of reconciliations, Lecture Notes in Computer Science, vol. 3388, pg. 42-54, 2005. E4 Paweł Górecki and Jerzy Tiuryn, DLS-trees: a model of evolutionary scenarios, Theoretical Computer Science, Vol. 359, Pages 378-399, 2006. E5 Paweł Górecki and Jerzy Tiuryn, URec: a system for unrooted reconciliation, Bioinformatics, 23(4):511-5, 2007. E6 Paweł Górecki, H-trees: a model of evolutionary scenario with horizontal gene transfer, Fundamenta Informaticae, 103(1-4), 105-8, 2010. E7 Paweł Górecki and Oliver Eulenstein, A linear time algorithm for error-corrected reconciliation of unrooted gene trees, Lecture Notes in Computer Science 6674, 8-159, 2011. E8 Paweł Górecki and Jerzy Tiuryn, Inferring evolutionary scenarios in the duplication, loss and horizontal gene transfer model, Lecture Notes in Computer Science 7230, 83-105, 20. E9 Dimitrios Floudas, Manfred Binder, Robert Riley, Kerrie Barry, Robert A. Blanchette, Bernard Henrissat, Angel T. Martínez, Robert Otillar, Joseph W. Spatafora, Jagjit S. Yadav, Andrea Aerts, Isabelle Benoit, Alex Boyd, Alexis Carlson, Alex Copeland, Pedro M. Coutinho, Ronald P. de Vries, Patricia Ferreira, Keisha Findley, Brian Foster, Jill Gaskell, Dylan Glotzer, Paweł Górecki, Joseph Heitman, Cedar Hesse, Chiaki Hori, Kiyohiko Igarashi, Joel A. Jurgens, Nathan Kallen, Phil Kersten, Annegret Kohler, Ursula Kües, T. K. Arun Kumar, Alan Kuo, Kurt LaButti, Luis F. Larrondo, Erika Lindquist, Albee Ling, Vincent Lombard, Susan Lucas, Taina Lundell, Rachael Martin, David J. McLaughlin, Ingo Morgenstern, Emanuelle Morin, Claude Murat, Laszlo G. Nagy, Matt Nolan, Robin A. Ohm, Aleksandrina Patyshakuliyeva, Antonis Rokas, Francisco J. Ruiz-Duenas, Grzegorz Sabat, Asaf Salamov, Masahiro Samejima, Jeremy Schmutz, Jason C. Slot, Franz St. John, Jan Stenlid, Hui Sun, Sheng Sun, Khajamohiddin Syed, Adrian Tsang, Ad Wiebenga, Darcy Young, Antonio Pisabarro, Daniel C. Eastwood, Francis Martin, Dan Cullen, Igor V. Grigoriev, and David S. Hibbett The Paleozoic Origin of Enzymatic Lignin Decomposition Reconstructed from 31 Fungal Genomes, Science, 29 June 20: Vol. 336 no. 6089 pp. 1715-1719. E10 Paweł Górecki and Oliver Eulenstein Deep Coalescence Reconciliation with Unrooted Gene Trees: Linear Time Algorithms, Lecture Notes in Computer Science 7434, COCOON 20, 531-542, 20. E11 Wen-Chieh Chang, Andre Wehe, Paweł Górecki, Oliver Eulenstein, Exact Solutions for Classical Gene Tree Parsimony Problems, Proceedings of BICoB 2013. E Paweł Górecki, Oliver Eulenstein, Algorithms for Unrooted Gene Trees with Polytomies, Proceedings of ISBRA 2013. 16

E13 Wen-Chieh Chang, Paweł Górecki, Oliver Eulenstein, Exact solutions for species tree inference from discordant gene trees, Journal of Bioinformatics and Computational Biology, 11(5):1342005, 2013. E Paweł Górecki, Jarosław Paszek, Oliver Eulenstain, Duplication Cost Diameters, ISBRA 20, Lecture Notes in Computer Science 8492, 2-223. E15 Paweł Górecki, Oliver Eulenstein, Refining discordant gene trees, BMC Bioinformatics (accepted by guest editors). E16 Paweł Górecki, Oliver Eulenstein, Gene Tree Diameter for Deep Coalescence, IEEE/ACM Transactions on Computational Biology and Bioinformatics (accepted). E17 Paweł Górecki, Jarosław Paszek, Oliver Eulenstein, Unconstrained Gene Tree Diameter for Deep Coalescence, accepted to ACM BMC 20 conference. DLS drzewa - podstawowe własności modelu duplikacji i strat - [E3,E4] Praca [E4] przedstawia jeden z najważniejszych wyników teoretycznych dotyczących modelu duplikacji i strat. W tej pracy pokazujemy, że scenariusze ewolucyjne generowane przez drzewa uzgadniajace, wprowadzone przez Page a w latach dziewięćdziesiątych XXw [35] dają najmniejszy koszt liczony jako sumę duplikacji i strat (DL). Takie minimalne scenariusze są generowane przez stosowanie lca-mapowań i są jednoznacznie wyznaczone. Pokazujemy, że dla funkcji kosztu duplikacji ten same scenariusze dają koszt minimalny, ale bez jednoznaczności. Powyższe wyniki są otrzymane przez wprowadzenie DLS drzew - formalnego modelu scenariusza ewolucyjnego w modelu duplikacji i strat (patrz definicje z Sekcji 4.6) oraz reguł do ich przekształcania. [E3] jest konferencyjną wersją [E4]. Horyzontalny transfer genów - [E1,E2,E6,E8] Prace związane z horyzontalnym transferem genów (HGT) (oraz [E3,E4]) były podstawą mojej rozprawy doktorskiej. Podejmowane w nich są dwa tematy: teoretyczny dotyczący samego modelu i scenariuszy ewolucyjnych oraz algorytmiczny związany z uzgadnianiem i praktyczną rekonstrukcją scenariuszy z HGT. Praca [E1] przedstawia podstawy teoretyczne modelu duplikacji i strat rozszerzonego o HGT [24, 25, 34]. W [E2] głównym wynikiem jest algorytm uzgadniania z HGT w przypadku, gdy dane są drzewo genów, drzewo gatunków i hipotezy HGT umieszczone na drzewie gatunków. Zaproponowany algorytm posiada wielomianową złożoność czasową. Prace [E6] i [E8] przedstawiają podstawy dla modelu duplikacji i strat genów rozszerzonego o HGT. Wprowadzamy tutaj pojęcie scenariusza ewolucyjnego i proponujemy formalny jego model (H-drzewo) podobny do drzew DLS. Analogicznie do DLS drzew definiujemy reguły przekształcania H-drzew i pokazujemy ich własności. Średnice funkcji kosztów - [E,E16,E17] W pracach [E],[E16] i [E17] przedstawiamy najnowsze wyniki dotyczące średnic. Wprowadzamy rodzaje średnic: u DC pt, q max S u DC pt, Sq - średnica dla drzewa genów, u DC k pt, q max S k u DC pt, Sq - średnica dla drzewa genów przy ustalonym rozmiarze drzewa gatunków, u DC p, Sq max S u DC pt, Sq - średnica dla drzewa gatunków. Ponadto, wprowadzamy analogiczne średnice bijekcyjne b DC pt, q oraz b DC p, Sq i rozszerzamy wszystkie te definicje na inne funkcje kosztów. Tabela poniżej przedstawie wyniki dotyczące średnic. W każdej z tych prac badamy 17