Autoreferat. Uzgadnianie drzew: teoria i zastosowania
|
|
- Kornelia Skowrońska
- 8 lat temu
- Przeglądów:
Transkrypt
1 Autoreferat 1 Imię i nazwisko Paweł Górecki 2 Posiadane dyplomy 1. Dyplom magistra informatyki uzyskany w 1999 roku na Wydziale Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego. 2. Dyplom magistra matematyki uzyskany w 2000 roku na Wydziale Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego. 3. Dyplom doktora nauk matematycznych w zakresie informatyki uzyskany w styczniu 2006 roku na Wydziale Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego. Tytuł rozprawy Detection of horizontal gene transfer. 3 Zatrudnienie w jednostkach naukowych 1. 1 października września 2006: asystent, Instytut Informatyki, Wydział Matematyki, Informatyki i Mechaniki, Uniwersytet Warszawski. 2. od 1 października 2006: adiunkt, Instytut Informatyki, Wydział Matematyki, Informatyki i Mechaniki, Uniwersytet Warszawski października września 2007: staż post-doc, Instytut Maxa Plancka Genetyki Molekularnej w Berlinie (Max-Planck-Institut für molekulare Genetik). 4 Wskazanie osiagnięcia wynikajacego z art. 16 ust. 2 ustawy z dnia marca 2003 r. o stopniach naukowych i tytule naukowym oraz o stopniach i tytule w zakresie sztuki (Dz. U. nr 65, poz. 595 ze zm.): a) tytuł osiagnięcia naukowego/artystycznego: b) lista prac Uzgadnianie drzew: teoria i zastosowania 1:in Paweł Górecki, Jerzy Tiuryn, Inferring phylogeny from whole genomes, Bioinformatics, 23:e116-e2, :ml Paweł Górecki, Gordon J. Burleigh and Oliver Eulenstein, Maximum likelihood models and algorithms for gene tree evolution with duplications and losses, BMC Bioinformatics, (Suppl. 1):S15, :rf Paweł Górecki and Oliver Eulenstein, A Robinson-Foulds measure to compare unrooted trees with rooted trees (ISBRA 20), Lecture Notes in Computer Science, 7292, 102-1, 20. 1
2 4:ec Paweł Górecki and Oliver Eulenstein, Algorithms: Simultaneous Error-Correction and Rooting for Gene Tree Reconciliation and the Gene Duplication Problem, BMC Bioinformatics 13(Suppl 10):S, 20. 5:gtp Paweł Górecki, J. Gordon Burleigh and Oliver Eulenstein, GTP supertrees from unrooted gene trees: linear time algorithms for NNI based local searches, (ISBRA 20), Lecture Notes in Computer Science, 7292, 115-6, 20. 6:un Paweł Górecki, Oliver Eulenstein, Jerzy Tiuryn, Unrooted Tree Reconciliation: A Unified Approach, IEEE/ACM Transactions on Computational Biology and Bioinformatics, vol. 10 no. 2, pp , :mdc Paweł Górecki, Oliver Eulenstein, Maximizing Deep Coalescence Cost, IEEE/ACM Transactions on Computational Biology and Bioinformatics, vol. 11 no. 1, , 20. 8:drml Paweł Górecki, Oliver Eulenstein, DrML: probabilistic modeling of gene duplications, Journal of Computational Biology, 21(1):89-98, 20. c) Omówienie celu naukowego/artystycznego ww. pracy/prac i osiagniętych wyników wraz z omówieniem ich ewentualnego wykorzystania. 4.1 Wprowadzenie Homologia jest jednym z podstawowych pojęć używanych w badaniu relacji między sekwencjami genowymi. Uznajemy, że dwa geny są homologiczne, jeśli posiadają wspólnego przodka. Analiza ewolucyjnych relacji między sekwencjami homologicznymi, a gatunkami z których one pochodzą, prowadzi do obserwacji, że ewolucja genów zwykle różni się od ewolucji dla ich gatunków. W biologii obliczeniowej, relacje między rodziną homologów (genów) przedstawiane są w postaci drzewa rekonstruowanego z sekwencji molekularnych, które można interpretować przy pewnych założeniach jako ich drzewo ewolucyjne. W podobny sposób można rekonstruować obliczeniowo drzewa ewolucyjne gatunków używając ich genomów lub odpowiednio wybranej rodziny genów (np. 16S rrna). Alternatywnie można przybliżać drzewa gatunków za pomocą znanego drzewa taksonomii, na przykład taksonomii z NCBI. Dalej będę używał pojęcia drzewo genów i drzewa gatunków utożsamiając je z odpowiednimi drzewami ewolucyjnymi. Obserwację dotyczącą różnic między ewolucją genów, a gatunków w naturalny sposób możemy przenieść na poziom drzew: drzewa genów zwykle różnią się od drzew ich gatunków. Powodem tych różnic są zazwyczaj zjawiska biologiczne, np. duplikacja genów. Ponadto, jeśli drzewa są rekonstruowane danych molekularnych na wynik mogą także wpłynąć błędy w sekwencjonowaniu, braki w danych lub stosowane metody obliczeniowe. Pytanie dotyczące różnic między drzewami doprowadziły do powstania modelu drzew uzgadniajacych [21], w którym różnice wyjaśnia się za pomocą zjawisk ewolucyjnych takich jak duplikacje genów, straty genów i zjawiska specjacji dla gatunków. Nieformalnie, idea uzgadniania polega na narysowaniu drzewa genów wewnątrz drzewa gatunków, przez uogólnienie relacji zawierania gen-gatunek na poziom zawierania drzew, przy wykorzystaniu operacji duplikacji i straty. Warto podkreślić, że zastosowania uzgadniania wybiegają poza biologię i można je stosować w innych kontekstach, gdzie występuje podobna relacja między dwoma typami obiektów. W latach 90 XX wieku pojęcie uzgadniania zostało sformalizowane przez Page a [35, 36]. W ciągu ostatnich 20 lat model uzgadniania był intensywnie badany, co pozwoliło na osiągnięcie zarówno wielu teoretycznych wyników jak i praktycznych zastosowań [2, 6, 7, 10, 11, 15, 16, 19, 20, 23, 27, 30, 31, 33, 37, 38, 39, 45, 53, 56]. Wśród nich należy wymienić te poruszone w pracach z cyklu: problem superdrzewa [1:in,5:gtp,4:ec], znajdowanie optymalnych ukorzenień [1:in,3:rf,E10], lokalne wyszukiwanie [5:gtp], zagadnienia korekcji błędów w drzewach genów [4:ec], 2
3 Ewolucja gatunków Ewolucja rodziny genów w gatunkach Czas Ewolucja rodziny genów Specjacja Duplikacja genu(*) Strata genu(*) Duplikacja genu Specjacja Strata genu genom a genom b genom c 1 gen z a 2 geny z b 1 gen z c a b b c Rysunek 1: Przykład drzew ewolucyjnych i wbudowania drzewa genów w drzewo gatunków. Przy zastosowaniu uzgadniania drzewa G i S możemy zrekonstruować scenariusz ewolucyjny odpowiadający temu wbudowaniu. Odtworzenie pierwszej duplikacji i pierwszej straty genów jest możliwe tylko jeśli posiadamy dodatkową wiedzę, np. większą liczbę sekwencji lub genomów. rozszerzenia modelu na nieukorzenione drzewa genów [1:in,3:rf,E10], modelowanie scenariuszy ewolucyjnych [2:ml,8:drml], związki modelu z innymi funkcjami porównującymi drzewa [3:rf,E10,7:mdc,6:un]. 4.2 Podstawowe definicje Uwaga wstępna. Definicje wprowadzone poniżej sa wspólne dla wszystkich prac z cyklu. Z drugiej strony, formalizm notacyjny niektórych pracach może różnić się od tego przyjętego w autoreferacie. Z tego powodu twierdzenia i lematy przytaczane tutaj moga nieznacznie różnić się w sformułowaniu od tych w pracach z cyklu. W niektórych przypadkach przedstawiam wersję skrócona. W opisie prac z cyklu będę używał pojęć związanych z uzgadnianiem. Poniżej zostaną one zdefiniowane, za wyjątkiem standardowych pojęć z teorii grafów, takich jak drzewo czy graf. Niech T xv T, E T y będzie drzewem ukorzenionym o zbiorze węzłów V T i zbiorze krawędzi E T. Wtedy L T oznacza zbiór wszystkich jego liści, a korzeń T oznaczany jest przez ρt. Zakładam teraz, że drzewa są binarne, tzn. każdy węzeł wewnętrzny za wyjątkiem korzenia ma stopień 3. Dla węzłów v i w z drzewa T, przez v ` w oznaczam najniższego wspólnego przodka v i w w T. Jeśli węzeł v nie jest korzeniem, wówczas jego ojca (poprzednika) w T oznaczam πv. Drzewem gatunków S nazywam dowolne drzewo ukorzenione. Liście drzewa gatunków nazywać będziemy gatunkami. Ukorzenionym drzewem genów G nad S jest trójka xv G, E G, Λy, taka że graf xv G, E G y jest drzewem ukorzenionym, a Λ: L G Ñ L S, jest funkcją, nazywaną etykietowaniem, która liściom G przyporządkowuje gatunki ze zbioru L S. Analogicznie definiuję nieukorzenione drzewa genów. Drzewa genów i gatunków są zwykle opisywane z użyciem notacji nawiasowej. Np. drzewo gatunków z Rysunku 1 można reprezentować jako pa, pb, cqq, gdzie a, b i c to liście-gatunki, a drzewo genów jako pa, pb, pb, cqqq (bez uwzględnienia strat genów). Uzgodnienie dwóch potencjalnie różnych drzew za pomocą zdarzeń duplikacji i strat genów prowadzi do naturalnego pytania o scenariusz ewolucyjny, który wykorzystuje najmniejszą liczbę tych zdarzeń. Poszukiwanie odpowiedzi na to pytanie doprowadziło do zdefiniowania modelu duplikacji i strat genów, w którym ważną rolę pełni mapowanie najniższego wspólnego przodka, tzw. lca-mapowanie. Dla danego drzewa gatunków S i ukorzenionego drzewa genów G nad S, lca-mapowanie to funkcja M : V G Ñ V S zdefiniowana następująco: dla węzła g z G: Mpgq # Λ G pgq jeśli g to liść, Mpg 1 q ` Mpg 2 q jeśli g ma dwójkę dzieci g 1 i g 2. 3
4 Funkcja M jest używana do modelowania zjawisk duplikacji w drzewie genów. Mówimy, że węzeł wewnętrzny g drzewa genów jest S-duplikacja (lub duplikacją), jeśli dla pewnego dziecka g 1 węzła g, Mpgq Mpg 1 q. Liczba wszystkich węzłów duplikacyjnych w drzewie G definiuje koszt duplikacyjny DpG, Sq: DpG, Sq tg P G: g jest węzłem S-duplikacyjnymu. (1) Liczbę strat genów, oznaczaną jako LpG, Sq, definiujemy za pomocą wzoru LpG, Sq : DCpG, Sq 2 DpG, Sq, gdzie DCpG, Sq to koszt głębokiej koalescencji (deep coalescence) [17, 31, 42, 47, 54, 55, 56] i formalnie definiowanym następująco: DCpG, Sq p Mpgq, Mpπgq 1q, gpg,gρpgq gdzie dla węzłów v i w w drzewie S, v, w oznacza długość krawędziową najkrótszej ścieżki łączącej v i w w drzewie S. Sumaryczną liczbę duplikacji i strat genów konieczną do uzgodnienia drzewa G i S nazywamy kosztem mutacyjnym (lub koszem duplikacji i strat), i oznaczamy DLpG, Sq. Przykład drzew i ich lca-mapowania jest zaprezentowany na Rysunku 2. Model duplikacji i strat, nazywany też modelem drzew uzgadniających, jest uznawany za biologicznie znaczący. Wśród najważniejszych teoretycznych wyników związanych z tym modelem należy wymienić pracę [E4], będącą fragmentem mojej rozprawy doktorskiej [22], w której pokazaliśmy, że wśród wszystkich scenariuszy ewolucyjnych dla danych drzew genów i gatunków, te oparte na lca-mapowania implikują najmniejszy koszt mutacyjny i duplikacyjny. Scenariusze te można nieformalnie przedstawiać w postaci wbudowań (przykład na Rysunku 2). Rysunek 2: Z lewej: przykład ukorzenionego drzewa genów G i drzewa gatunków S (por. z Rysunkiem 1) i lcamapowania. Kwadrat oznacza węzeł duplikacyjny. W tym przypadku DpG, Sq 1 oraz LpG, Sq 1. Z prawej: do wbudowania drzewa G w drzewo S potrzeba jednej duplikacji i jednej straty genów, czyli koszt mutacyjny wynosi 2. Wbudowanie (ang. embedding) to nieformalny sposób reprezentowania scenariuszy ewolucyjnych, w których w drzewie gatunków rysujemy drzewo genów, uwzględniając duplikacje i ewentualne straty genów. 4.3 Funkcje kosztów - podejście zunifikowane W pracy [6:un] po raz pierwszy zaproponowaliśmy zunifikowane podejście do obliczania wartości funkcji porównujących drzewa genów i drzewa gatunków dla drzew genów ukorzenionych i nieukorzenionych. To podejście zostało również wykorzystane w pracy [E13]. Niech G będzie ukorzenionym drzewem genów nad drzewem gatunków S. Przez c v będziemy oznaczać klaster węzła v, tzn. zbiór wszystkich gatunków, czyli etykiet liści, występujących w poddrzewie G o korzeniu w v. Analogicznie klastry definiujemy dla S. Dla zbioru gatunków X (liści z S), przez X oznaczamy klaster najniższego węzła 4
5 w w S, takiego że X c w. Koszty ewolucyjne takie jak DC, L, D można ogólnie zdefiniować dla danego drzewa gatunków S i drzewa genów G nad S: ρ K pg, Sq gpintpt q, a,b dzieci g ξ K pc a, c b q, gdzie ξ K : PpL S q PpL S q Ñ R, intpgq to zbiór wszystkich węzłów wewnętrznych drzewa G, a PpXq to zbiór wszystkich podzbiorów zbioru X. Tutaj ξ K jest symetryczną funkcją, którą będziemy funkcja bazowa dla K. Mamy następujące funkcje bazowe: ξ D px, Y q 1pX X Y Y _ Y X Y Y q (2) ξ DC px, Y q }X, Y } S (3) ξ L px, Y q ξ DC px, Y q 2p1 ξ D px, Y qq (4) ξ DL px, Y q ξ D px, Y q ξ L px, Y q (5) ξ RF px, Y q 1pX Y Y X Y Y q (6) gdzie 1 to funkcja charakterystyczna, tzn., 1ppq 1 gdy p jest spełnione i 1ppq 0 w przeciwnym przypadku, }X, Y } S, to liczba krawędzi na ścieżce łączącej węzły x i y w S, takie że, c x X i c y Y, odpowiednio. RF oznacza odległość Robinson-Fouldsa [40]: RFpG, Sq intpsq 2 ρ RF pg, Sq intpgq. Dodajmy, że RF definiujemy tylko gdy Λ G jest bijekcją. Wszystkie powyższe formuły można obliczyć w czasie i pamięci liniowej ze względu nad rozmiar ukorzenionych drzew wejściowych wykorzystując, m.in. znane algorytmy dla problemu najniższego wspólnego przodka (LCA) [8, 56, 57]. 4.4 Nieukorzenione uzgadnianie Drzewa filogenetyczne rekonstruowane z sekwencji molekularnych za pomocą programów komputerowych są zazwyczaj nieukorzenione. W konsekwencji zastosowanie modelu duplikacji i strat wymaga wcześniejszego ukorzenienia drzewa genów. Standardową metodą ukorzeniania jest tzw. metoda outgroup. Polega ona na wyborze sekwencji outgroup, o której wiemy, że jest wystarczająco różna od pozostałych dzięki czemu można umieścić korzeń na krawędzi łączącej outgroup z resztą. Tej metody nie można stosować np. gdy taka sekwencja nie istnieje lub gdy nie można jej jednoznacznie określić. Wśród innych metod należy wymienić np. węzeł środkowy w drzewie, ale takie podejście jest trudne do biologicznego uzasadnienia. W pracy [1:in] zaproponowaliśmy ukorzenianie drzewa genów tak by koszt duplikacji i strat był najmniejszy. Ta idea, nazywana nieukorzenionym uzgadnianiem (ang. unrooted reconciliation) została później rozszerzona na inne koszty i wykorzystana w kilku pracach podejmujących bardziej praktyczne problemy, takie jak, korekcja błędów [4:ec], problem superdrzewa [5:gtp] i inne. Bezpośrednie definicje dla konkretnych funkcji kosztów w wariancie dla drzew genów nieukorzenionych pojawiają się w kilku pracach cyklu, ale tutaj zaprezentuję podejście zunifikowane analogiczne do zaproponowanego po raz pierwszy w pracy [6:un]. Wprowadźmy najpierw kilka użytecznych definicji, które pochodzą z tej pracy. Jeśli G jest drzewem genów nieukorzenionym, a e jest jego krawędzią to przez G e oznaczamy ukorzenione drzewo genów powstałe z G przez wstawienie korzenia na krawędzi e. Wówczas, nieukorzeniona funkcja kosztu dla kosztu ewolucyjnego K jest zdefiniowana następująco: K pg, Sq min epe G ρ K pg e, Sq. (7) Krawędź e, dla której K pg, Sq ρ K pg e, Sq nazywamy optymalną dla K. W dalszej części autoreferatu będą używał określenia koszt dla kosztów ewolucyjnych DL, D, itp., natomiast funkcja kosztu dla porównywania drzewa genów ukorzenionego lub nieukorzenionego z danym drzewem gatunków. 5
6 Typ drzewa genów będzie jednoznacznie określony z kontekstu. Na przykład dla drzewa genów G i drzewa gatunków S, w zależności od typu drzewa genów, wartość kosztu dla duplikacji (D) jest określona przez ρ D pg, Sq jeśli G jest ukorzenione lub przez D pg, Sq jeśli G jest nieukorzenione. Można wyróżnić dwa podstawowe warianty problemów nieukorzenionego uzgadniania drzew dla kosztu K. Problem 1 (Optymalne ukorzenienie względem K). Dane: drzewo gatunków S oraz nieukorzenione drzewo genów G nad S. Znajdź optymalna krawędź dla K. Problem 2 (Koszty ukorzenień względem K). Dane: drzewo gatunków S oraz nieukorzenione drzewo genów G nad S. Oblicz wartości wszystkich ukorzenień G dla kosztu K. W kilku pracach podejmowany jest także problem superdrzewa [3, 29, 43, 52, 55, 56]. Dla kosztu K można go zdefiniować następująco. Problem 3 (Superdrzewa względem K). Dane: kolekcja ukorzenionych drzew genów G 1, G 2,..., G n. drzewo gatunków S, które minimalizuje koszt łaczny i ρ KpG i, Sq. Znajdź: W analogiczny sposób ten problem jest definiowany dla nieukorzenionych drzew genów. W pracy [1:in] analizujemy własności nieukorzenionego uzgadniania w kontekście duplikacji i strat genów (DL), oraz pokazujemy optymalne algorytmy dla Problemu 1 i 2. Przedstawione poniżej wyniki z tej pracy były podstawą dla kilku kolejnych prac z cyklu. Niech G będzie nieukorzenionym drzewem genów. Bez zmniejszenia ogólności założymy, że etykietowanie G jest na L S. Przez J oznaczać będziemy klaster korzenia drzewa S. Węzeł wewnętrzny v drzewa G ma dokładnie trzech sąsiadów: v 1, v 2 and v 3 połączonych z v v krawędziami e 1, e 2 and e 3 odpowiednio. Zbiór takich krawędzi te 1, e 2, e 3 u, będziemy nazywać gwiazda o środku v. Niech X i będzie klastrem v i w drzewie G ei, Y i będzie klastrem v w G ei (zauważmy, że Y 1 X 2 Y X 3, etc.). Krawędź e i nazywamy symetryczna jeśli X i J wtw Y i J (ta własność jest niezależna od v). Krawędź e i jest nazywana v-wychodzac a jeśli X i J Y i. X i nazywamy klastrem zewnętrznym e i względem v (patrz Rysunek 3 i 4a). Teraz zdefiniujemy typy gwiazd. Jeśli istnieje ponumerowanie krawędzi e 1, e 2 i e 3 w gwieździe s takie że (a) X 3 J Y 3, to s jest typu S1, (b) X 3, Y 3 J and Y 1 Y 2 J, to s jest typu S2, (c) X 1, X 2 J and Y 3 X 3 J, to s jest typu S3, (d) X i J dla każdego i, to s jest typu S4, (e) X 1 X 2 J X 3, to s jest typu S5. Rysunek 3: Z lewej: nieukorzenione drzewo genów G z gwiazdą o środku v. Z prawej: ukorzenienie G ek drzewa G. Tutaj, tk, l, mu t1, 2, 3u oraz dla i 1, 2, 3, X i jest klastrem v i w G ek i klastrem zewnętrznym e i względem v w G. 6
7 v 3 (a) (b) (c) (d) v v 1 v v i v-wychodząca, X i J Y i v v i symetryczna, X i J Y i v 2 v v i symetryczna, X i J Y i v v i X i J Y i S1 S2 S3 a v 1 S4 S5 b c va b c a c b v 3 v 2 Rysunek 4: (a) Gwiazda o środku v. (b) Rodzaje krawędzi. (c) Typy gwiazd dla drzew binarnych. (d) Gwiazda z etykietami w drzewie Ĝ. W pracy [1:in] pokazujemy, że podane typy gwiazd są wzajemnie rozłączne oraz, że każda gwiazda w drzewie genów posiada dokładnie jeden z powyższych typów. Analiza typów gwiazd prowadzi do Lematu 4 z [1:in] (punkt (iv) jest z korektą): Lemat (1:in:Lem4). Dla każdego nieukorzenionego drzewa genów G zachodzi dokładnie jeden z przypadków: (i) G ma dokładnie jedna gwiazdę S2 i wszystkie pozostałe sa typu S1, (ii) G ma dokładnie dwie gwiazdy S2 współdzielace krawędź i wszystkie pozostałe sa typu S1, (iii) G ma dokładnie dwie gwiazdy S3 współdzielace krawędź i wszystkie pozostałe sa typu S1 lub (iv) G ma gwiazdę S4 lub S5 i G nie ma gwiazdy typu S2. Z tego lematu wynika, że każde drzewo genów (w kontekście ustalonego drzewa gatunków) posiada krawędź symetryczną. Własności przedstawione w tej sekcji zależą tylko od lca-mapowań, tzn. wartości X dla X - zbiór etykiet liści z odpowiednich poddrzew ukorzenionych drzewa G. W kilku pracach o bardziej algorytmicznym podejściu stosowana jest transformacja nieukorzenionego drzewa genów G xv G, E G, Λ G y do grafu skierowanego Ĝ xv G, ÊGy, gdzie ÊG txv, wy: tv, wu P E G u. Innymi słowy, każda krawędź tv, wu z G jest zastępowana przez parę skierowanych krawędzi xv, wy i xw, vy. Jeśli G jest nad pewnym drzewem gatunków S, to w Ĝ można wprowadzić etykietowanie krawędzi węzłami z V S w następujący sposób. Jeśli v jest liściem to etykietą xv, wy jest Λ G pvq (czyli liść z drzewa S). Jeśli v jest węzłem wewnętrznym i etykietami xw 1, vy i xw 2, vy są a i b odpowiednio, gdzie w 1, w 2 i v to różne węzły, to etykietą xv, wy jest a ` b. Przy notacji wprowadzonej dla gwiazdy o środku v z Rysunku 4a, można łatwo pokazać, że X i jest klastrem etykiety krawędzi xv i, vy z Ĝ, gdzie X i to klastrem v i w drzewie G ei. Przykład gwiazdy w Ĝ jest zaprezentowany na Rysunku 4d DL w drzewach nieukorzenionych W pracy [1:in] pokazujemy (Prop. 5-6), że wartości kosztu DL ukorzeniania na krawędziach drzewa genów maleją monotonicznie, gdy poruszamy się w drzewie genów w przeciwnym kierunku do krawędzi wychodzących (przykład na Rysunku 5). Twierdzenie 7 z [1:in] jest najważniejszym wynikiem dotyczącym nieuzgodnionego ukorzeniania z ważonym kosztem duplikacji i strat, czyli ważonym kosztem mutacyjnym (tutaj twierdzenie w wersji równoważnej zaadoptowanej do występujących tu definicji): Twierdzenie (1:in:Thm7). Dla nieukorzenionego binarnego drzewa genów G nad drzewem gatunków S, i stałych dodatnich α i β, niech Min G arg min α DpG e, Sq β LpG e, Sq. epe G Wtedy (i) Min G 1 wtw G zawiera gwiazdę S4/S5. Co więcej, jeśli Min G 1 to Min G zawiera tylko wszystkie krawędzie z gwiazd S4/S5 z G. (ii) Min G 1 to G posiada dokładnie jedna krawędź symetryczna i jest ona jedynym elementem Min G. (iii) zbiór Min G jest niezależny od wyboru stałych dodatnich α i β. (iv) Min G indukuje pełne poddrzewo G. (v) wszystkie krawędzie z Min G można znaleźć za pomoca iteracyjnej metody zachłannej: poruszaj się w drzewie G w przeciwnym kierunku do krawędzi wychodzacych, aż znajdziesz krawędź symetryczna; następnie odszukaj wszystkie gwiazdy w otoczeniu tej krawędzi zgodnie z warunkami (i)-(iv). 7
8 Bezpośrednią konsekwencją tego twierdzenia, jest stwierdzenie, że każda krawędź symetryczna w G jest optymalna, tzn., posiada optymalny koszt ważony mutacyjny. Stąd zaproponowaliśmy algorytm, który działa wg schematu: wystartuj z dowolnego węzła v i poruszaj się w drzewie G w kierunku przeciwnym do krawędzi v-wychodzacych, aż napotkasz krawędź symetryczna. W pracy [1:in] pokazujemy, jak powyższa metoda iteracyjna może zostać zastosowana do obliczania kosztu optymalnego lub do generowania jednego lub wszystkich optymalnych ukorzenień (Problemy 1 i 2). Dodatkowo, dzięki strukturze danych, która zapamiętuje częściowe wyniki w atrybutach krawędzi, pokazujemy, że wszystkie powyższe zagadnienia można obliczyć algorytmem o liniowej złożoność czasowej i pamięciowej. Tego typu algorytm pojawia się także w pracach [3:rf,E10] w kontekście innych funkcji kosztu oraz w postaci ogólnej w pracy [6:un]. Z poprzedniego twierdzenia wynika, że nieukorzenione drzewo genów może posiadać więcej niż jedno optymalne ukorzenienie. Jednakże, z własności gwiazd wynika, że różnią się one tylko topologią dla genów obecnych w korzeniu drzewa gatunków. Przykład jest pokazany na Rysunku 5. Rysunek 5: [1:in] Z lewej: nieukorzenione drzewo genów G w reprezentacji gwiazdowej. Z prawej: wbudowanie oznaczonego optymalnego ukorzenienia G w drzewo gatunków S ppa, bq, pd, pe, f qqq. Każda krawędź e drzewa genów jest etykietowana przez DLpG e, Sq, czyli liczbą duplikacji i strat genów potrzebnych do uzgodnienia G e z S. Min G zawiera 5 optymalnych krawędzi o koszcie 15. Wbudowania tych ukorzenień G różnią się jedynie w korzeniu S (czerwone krawędzie) Odległość RF i inne funkcje kosztów W artykule [3:rf] poruszone zostały problemy analogiczne do tych z [1:in], ale dla odległości Robinsona-Fouldsa (RF). Tutaj został przyjęty bardziej ogólny model nieukorzenionego drzewa genów: węzły wewnętrzne mogą mieć stopień większy niż 3. W konsekwencji pojęcie gwiazdy zostaje rozszerzone o nowe typy (Rysunek 6). Nie podaję tutaj formalnych wyprowadzeń, są one analogiczne do tych z poprzedniej części. Główny wynik związany z tym typem Rysunek 6: Typy gwiazd dla drzew genów z multifurkacjami. Po prawej stronie środka gwiazd znajdują się co najmniej dwie krawędzie. gwiazd jest przestawiony poniżej (Lemat 2 z [3:rf]). Należy zwrócić uwagę, że gwiazdy typów M1-M5 rozszerzają typy gwiazd S1-S5, natomiast M6 nie posiada odpowiednika wśród gwiazd binarnych (Rysunek 4c). Lemat (3:rf:Lem2). Dla każdego drzewa genów (z multifurkacjami) G mamy następujace wzajemnie rozłaczne przypadki: (i) G ma dokładnie jedna gwiazdę M2 i pozostałe sa typu M1. (ii) G ma dokładnie dwie gwiazdy M2 8
9 współdzielace krawędź, a pozostałe gwiazdy sa typu M1. (iii) G ma dokładnie jedna gwiazdę M6 i wszystkie pozostałe sa typu M1. (iv) G ma gwiazdę M3 i pozostałe sa typu M3, M4, M5 lub M1. Analiza kosztów ukorzenień dla krawędzi gwiazd prowadzi do wniosków: koszt ukorzenienia lewej krawędzi z gwiazdy M1-M2 z Rysunku 6 jest nie mniejszy niż koszt ukorzenienia prawych krawędzi (Prop. 3), oraz koszty ukorzenień wszystkich krawędzi z gwiazdy typu M3-M6 jest taki sam (Prop. 2). W konsekwencji mamy analogiczny wynik jak dla ważonego kosztu mutacyjnego (Tw. 1 [3:rf]): Twierdzenie (3:rf:Thm1). Dla nieukorzenionego drzewa genów G o bijekcyjnym etykietowaniu nad drzewem gatunków S: (i) Jeśli G posiada gwiazdę M3-M5, to wszystkie krawędzie z gwiazd M3-M5 sa optymalne. (ii) Jeśli w G jest gwiazda M6, to wszystkie krawędzie z M6 sa optymalne. (iii) Jeśli jest tylko jedna krawędź optymalna to G ma gwiazdę typu M2. (iv) Jeśli G ma gwiazdę typu M2 to krawędź symetryczna z M2 jest optymalna. (v) Jeśli gwiazda ma dwie krawędzie optymalne to wszystkie krawędzie tej gwiazdy sa optymalne. (vi) Zbiór krawędzi optymalnych indukuje poddrzewo pełne w G. (vii) krawędź optymalna można znaleźć za pomoca iteracyjnej metody zachłannej: poruszaj się w drzewie G w przeciwnym kierunku do krawędzi wychodzacych; gdy nie ma takiej to znajdziesz krawędź symetryczna (w M2-M6) albo gwiazdę M6. W pracy [3:rf] kolejny wynik to charakteryzacja własności optymalnych ukorzenień, ich proste dowody są pominięte: (1) zbiór wszystkich nietrywialnych klastrów (czyli wszystkich klastrów węzłów wewnętrznych za wyjątkiem korzenia) optymalnego ukorzenienia drzewa genów G nie zależy od wyboru krawędzi o ile jest ona optymalna (Lemat 3 z [3:rf]) oraz (2) ten zbiór klastrów (nazwany jadrem G) jest podzbiorem zbioru klastrów S (Corollary 1). Ten wynik należy traktować jako odpowiednik własności kosztu DL przedstawionego na Rysunku 5 dotyczącego wspólnych cech optymalnych ukorzenień. Przykład jest zaprezentowany na Rysunku 7. Podobieństwa między Twierdze- G o r a 16 b 16 c f h i g S n p s t q j k d l m e a b c d e f g h i j k l m n o p q r s t S' a b c d e f g h i j k l m n o p q r s t Rysunek 7: [3:rf] Drzewo genów G w reprezentacji gwiazdowej. S jest drzewem gatunków z zaznaczonymi klastrami obecnymi we wszystkich optymalnych ukorzenieniach G. Jądro G i S zawiera wszystkie nietrywialne zaznaczone klastry. S 1 to drzewo konsensusu dokładnego dla wszystkich optymalnych ukorzenienień G. niem 1:in:Thm7 (DL), a Twierdzeniem 3:rf:Thm1 (RF), prowadzą do Twierdzenia 2 z [3:rf]: Twierdzenie (3:rf:Thm2). Dla nieukorzenionego binarnego drzewa genów G o bijekcyjnym etykietowaniu nad drzewem gatunków S, jeśli krawędź drzewa G jest optymalna względem DL to jest optymalna względem RF Unifikacja nieukorzenionego uzgadniania Analiza własności funkcji kosztów w kontekście nieukorzenionego uzgadniania: DL [1:in], RF [3:rf], oraz DC [E10] doprowadziła do pytania o wspólne cechy, które determinują tzw. własność plateau. Mówimy, że koszt posiada własność plateau, jeśli przy nieukorzenionym uzgadnianiu w nieukorzenionym drzewie genów można wyróżnić spójne poddrzewo, nazywane plateau, którego krawędzie wyznaczają optymalne ukorzenienia. Co więcej poruszając się od plateau w kierunki liści, krawędzie będą indukować monotonicznie rosnący ciąg wartości kosztów. Przykłady plateau można znaleźć na Rysunkach 5, 7 i 8. 9
10 W pracy [3:rf] proponujemy warunek spójności, którego spełnienie jest wystarczające by funkcja posiadała własność plateau. Ten warunek jest spełniony dla kosztów D, L, DL, DC oraz RF, co wynika z prac [1:in,3:rf,E10] (dla RF tylko jeśli etykietowanie liści drzewa genów jest bijekcją). Niektóre relacje między plateau różnych funkcji kosztów pokazane są w poprzednio omawianych pracach, natomiast w [3:rf] przedstawione jest podsumowanie, które należy traktować jako najważniejszą własność nieukorzenionego ukorzeniania D DL L DC RF, (8) gdzie relacja F F 1 oznacza, że dla każdej pary drzewa genów i drzewa gatunków plateau dla funkcji F jest podgrafem plateau F 1 oraz relacja F F 1 oznacza, że dla każdej pary drzewa genów i drzewa gatunków plateau dla funkcji F i F 1 są równe. Wprowadzamy także pojęcie krajobrazu funkcji, które jest zdefiniowane jako zbiór wszystkich wierzchołków płaskich w drzewie genów, czyli takich których krawędzie incydentne z nim posiadają ten sam koszt. Pojęcie krajobrazu rozszerza pojęcie plateau. W tej pracy pokazujemy także, że relacje z (8) są spełnione dla krajobrazów. Przykłady pokazane są na Rysunku 8. e e e e e h 4 d f h d f h d f h d f h d f a 4 c g a c g a c g a c g a c g D b L b DL b DC b RF b g b c a h f e d G - optymalne ukorzenienie G Plateau Krajobraz - węzeł płaski a b c d g h Duplikacja genu (D) a b c d e f g h e f Strata genu (L) Drzewo gatunków S Wbudowanie G w S (scenariusz ewolucyjny) Rysunek 8: Przykład uzgadniania nieukorzenionego dla D, L, DL, DC i RF, które spełniają własność plateau. Na dole z lewej: ukorzenione drzewo gatunków S. Na górze (5 drzew): nieukorzenione drzewo genów G z wartościami kosztów ukorzeniania na krawędziach dla różnych funkcji kosztów oraz zaznaczonymi plateau oraz krajobrazami. Krawędzie z plateau, które wyznaczają minimalne koszty (3 dla D, dla L, 15 dla DL, 20 dla DC i 10 dla RF), są zaznaczone na czerwono. G 1 jest optymalnym ukorzenieniem dla G. Na dole: wbudowanie drzewa G 1 w S (scenariusz ewolucyjny z duplikacjami i stratami genów). W tej pracy analizujemy własności kosztów i pokazujemy, że DL i L posiadają najmniejsze plateau pośród kosztów spełniających warunek spójności. Następnie wprowadzamy pojęcie funkcji faktoryzowalnej, dla której wartości są wyrażane za pomocą klastrów z drzewa gatunków przez zastosowanie lca-mapowań. W szczególności w [3:rf] pokazany jest dowód, że wszystkie standardowe koszty takie jak L, DL, D, DC są faktoryzowalne, ale nie RF. 10
11 Następnie badamy własności funkcji faktoryzowalnych w kontekście własności plateau przez wprowadzenie formalnego języka kosztów boolowskich, którego elementami są formuły zbudowane nad alfabetem zawierających kilka logicznych i teoriomnogościowych operatorów oraz zmiennych reprezentujących klastry z drzew. Formuły tego języka interpretujemy jako funkcje kosztów. Z własności tego języka wynika istnienie 256 faktoryzowalnych funkcji kosztów wśród nich dokładnie 32 spełniających warunek spójności. Wśród tych 32 funkcji zidentyfikowaliśmy 16 różnych typów krajobrazów i plateau. W [3:rf] przedstawiony jest także ogólny algorytm nieukorzenionego uzgadniania oraz eksperyment obliczeniowy pokazujący relacje między plateau funkcji faktoryzowalnych dla kilku zestawów danych empirycznych i losowych Korekcja błędów w drzewach genów [4:ec] Rekonstrukcja drzew genów z sekwencji zwykle obarczona jest błędami [9,, 46, 50]. W pracach [4:ec] i [E7] (wersja konferencyjna) pokazujemy jak w procesie uzgadniania drzew można usunąć ewentualne błędy w drzewie genów. Dla danego nieukorzenionego drzewa genów G i drzewa gatunków S, problem korekcji drzewa genów to znalezienie takiego wariantu drzewa genów bez błędów, które minimalizuje liczbę duplikacji i strat podczas uzgadniania z S. Takiego wariantu drzewa genów bez błędów poszukujemy w sąsiedztwie drzewa G definiowanego jako zbiór wszystkich drzew genów osiągalnych z G przez zastosowanie co najwyżej k operacji NNI (patrz Rysunek 9). W takim przypadku mówimy, że poprawiamy co najwyżej k błędów. W większości zastosowań k jest małe. W [E7] rozwiązujemy następujący problem: Problem 4. (Korekcja błędu względem K) Dane: drzewo gatunków S, nieukorzenione drzewo genów G nad S. Znajdź w 1-NNI sasiedztwie G drzewo, które minimalizuje koszt K nieukorzenionego uzgadniania z S. W [4:ec] rozważany jest ogólniejszy problem. Problem 5. (Uogólniona korekcja błędów względem K) Dane: drzewo gatunków S, nieukorzenione drzewo genów G nad S, oraz liczba naturalna k. Znajdź w k-nni sasiedztwie G drzewo, które minimalizuje koszt K nieukorzenionego uzgadniania z S. Dodatkowo zastosowanie nieukorzenionego uzgadniania z korekcją błędów umożliwia wskazanie korzenia w drzewie genów. Teraz przedstawię ideę rozwiązania dla problemu korekcji błędów z zastosowaniem efektywnych struktur danych. Wykonanie jednej operacji NNI może zmienić etykiety w drzewie Ĝ i koszt DL. W [4:ec] pokazujemy, że zmiana struktur danych reprezentujących drzewo genów i aktualizacja kosztu DL mogą być wykonane w czasie stałym. Ten wynik jest oparty 8 lematach. W Lemacie 1 pokazujemy, że NNI zmienia tylko krawędź centralną i jej etykiety (na Rysunku 9 krawędzie e 0 i e 1 0). Lematy 2-5 opisują wszystkich 9 przypadków zmian plateau przy operacji NNI. Lematy 6-7 opisują dwa przypadki dla obliczania różnicy kosztu DL. T 1 w 1 e 2 e1 G e 0 e 4 e3 T 4 w 4 w 2 w 3 T 2 T 3 (a) NNI e3 e 2 G T 3 T 4 w 3 w e 4 0 e 4 e1 w 2 w 1 T 2 T 1 w 1 a1 a 2 a1 a 2 G a 4 a 1+ a 2 a 3+ a 4 a3 a 4 a3 w 4 w 2 w 3 (b) NNI w 3 w 2 a3 a 2 a3 a 2 G a 4 a 2+ a 3 a 1+ a 4 a1 a 4 a1 w w Rysunek 9: (a) Operacja edycyjna NNI w drzewie G. (b) Operacja edycyjna NNI w drzewie Ĝ. Poddrzewa T i są tutaj pominięte. Notacja ā oznacza lca-mapowanie dla poddrzew komplementarnych, np. ā 3 a 1 ` a 2 ` a 4. 11
12 Efektywna aktualizacja struktur danych prowadzi do algorytmu poprawiającego jeden błąd o złożoności czasowej liniowej. Zwróćmy uwagę, że dla G o n liściach liczba NNI-sąsiadów G to 2n 6, zatem algorytm naiwny, czyli generuj sąsiadów i oblicz koszt, ma gorszą złożoność czasową (kwadratową). W ogólnym podejściu w pracy [4:ec], rozważamy praktyczne zagadnienie gdzie korekta dotyczy tylko tzw. słabych krawędzi z G, które można określić np. przez długość krawędzi albo metodą bootstrapping. Główny wynik tej pracy to algorytm znajdowania błędów w drzewie genów, który działa w czasie Opl k maxtn, muq, gdzie n i m to rozmiary G i S odpowiednio, l to liczba słabych krawędzi w G, a k to maksymalna liczba błędów do poprawienia. W szczególnym przypadku k 1 jest to wyżej wspomniany algorytm o złożoności czasowej liniowej. W tej pracy przeprowadzono eksperymenty obliczeniowe w oparciu o problem superdrzewa względem funkcji kosztu f: f pg, Sq mintdlpt, Sq: T powstaje z G przez zastosowanie co najwyżej k operacji NNIu. Eksperymenty obliczeniowe przeprowadzono na zbiorze rodzin genów z bazy Génolevures [44]. Drzewa genów zrekonstruowane z tych rodzin były przetwarzane przy użyciu dwóch parametrów: rzeczywistego ω i naturalnego µ. Pierwszy parametr określa próg długości krawędzi, poniżej którego krawędź była oznaczana jako słaba. Dodatkowo drzewo genów jest uznawane jako słabe, jeśli posiada więcej niż µ słabych krawędzi. Słabe drzewa były usuwane z zestawu wejściowego. W [4:ec] przeprowadzono kilkaset eksperymentów obliczeniowych dla problemu superdrzewa z różnymi wartościami tych parametrów. Przeprowadzono również analizę poprawnych rekonstrukcji drzewa gatunków w zależności od parametrów Lokalne wyszukiwanie w problemie superdrzewa [5:gtp] Problem superdrzewa jest zazwyczaj trudny obliczeniowo. Z tego powodu do jego rozwiązywania zwykle stosowane są heurystyki oparte na iteracyjnym przeszukiwaniu przestrzeni drzew gatunków. Każdy krok tej heurystyki jest oparty o dokładne rozwiązanie instancji problemu lokalnego wyszukiwania [4, 5, 13,, 32, 49, 51]. Lokalne wyszukiwanie polega na znalezieniu w lokalnym otoczeniu danego drzewa gatunków S drzewa o najmniejszym łącznym koszcie. W [5:gtp] rozważane są nieukorzenione drzewa genów dla problemu superdrzewa względem kosztu mutacyjnego, a lokalne otoczenie definiowane jest przez operację NNI (patrz Rysunek 10): Problem 6 (Lokalne wyszukiwanie względem K). Dane: kolekcja nieukorzenionych drzew genów i drzewo gatunków S. Znajdź drzewo gatunków w 1-NNI sasiedztwie S, które minimalizuje łaczny koszt K nieukorzenionego uzgadniania z danymi drzewami genów. S t x a b c A B C NNI S t x a b c C A B. Initial Tree S.. Rysunek 10: (a) Operacja edycyjna NNI w drzewie gatunków S. (b) Idea algorytmu wyszukiwania lokalnego - drzewa stanowią 1-NNI sąsiedztwo drzewa gatunków. Łatwo jest pokazać, że naiwny algorytm lokalnego wyszukiwania ma złożoność czasową kwadratową. W [5:gtp] przedstawiony jest liniowy algorytm rozwiązujący problem lokalnego wyszukiwania. Ten algorytm jest oparty na kilku twierdzeniach analizujących zmiany etykiet w drzewie Ĝ, po wykonaniu operacji NNI na S. Pierwsze twierdzenie (Prop. 1) wynika natychmiast z własności z grafu Ĝ. Przy zastosowaniu notacji z Rysunku 10 mamy następujące
13 własności. Jeśli krawędź e z Ĝ jest etykietowana x, to po operacji NNI e jest etykietowana przez t. Jeśli e jest etykietowana t, to po operacji NNI, e jest etykietowana t 1 lub x 1. Pozostałe etykiety w Ĝ nie zmieniają się. Następnie analizujemy 2 przypadki, w zależności czy węzeł t jest korzeniem S. Jeśli t nie jest korzeniem wówczas plateau Ĝ nie zmieni się (Prop. 2) i przedstawiamy analizę przypadków możliwych przekształceń scenariusza ewolucyjnego (wbudowania G w S) wraz z analizą zmiany kosztu DL. Pokazujemy, że w tym przypadku złożoność czasowa jednej operacji NNI jest stała. W przypadku, gdy t jest korzeniem, plateau może ulec zmianie. Ten przypadek wymaga obliczenia etykiet drzewa Ĝ i kosztu DL. Jednakże, taka sytuacja występuje co najwyżej 4 razy dla 1-NNI-sąsiadów G, wobec czego całkowita złożoność czasowa tej operacji jest liniowa. Główny algorytmiczny wynik tej pracy to algorytm rozwiązujący problem lokalnego wyszukiwania o złożoności czasowej proporcjonalnej do rozmiaru drzew wejściowych. Ten algorytm został zaimplementowany w programie fasturec. W pracy [5:gtp] przedstawione są również eksperymenty obliczeniowe dla rodzin genów z bazy GreenPhyl [41]. 4.5 Algorytmy nieukorzenionego uzgadniania: podsumowanie [1:in,3:rf,4:ec,5:gtp,6:un] Relacje między plateau różnych funkcji kosztów przedstawione w formule (8) stanowią najważniejszy wynik nieukorzenionego uzgadniania, który ma istotne konsekwencje algorytmiczne. W szczególności, z teorii przedstawionej w pracy [6:un] wynika, że optymalne algorytmy rozwiązujące problemy dla kosztu DL mogą zostać łatwo uogólnione na inne funkcje kosztów. Wynika to m.in. z własności plateau: DL posiada najmniejsze plateau pośród rozważanych funkcji kosztów. W Tabeli 1 przedstawiam podsumowanie algorytmów nieukorzenionego uzgadniania. Tabela 1: Podsumowanie algorytmów nieukorzenionego uzgadniania Nieukorzenione drzewo genów G vs. ukorzenione drzewo gatunków S Optymalne Koszt wszystkich Korekcja Lokalne Funkcja kosztu ukorzenienie G ukorzenień G błędów w G wyszukiwanie Problem 1 Problem 2 Problem 4 Problem 6 Koszt mutacyjny (DL) [1:in] [1:in] [4:ec,E7] [5:gtp] Głęboka koalescencja (DC) [E10] [E10] - - Robinson-Foulds (RF) [3:rf] [3:rf] - - Złożoność czasowa Op G S q Op G S q Op G S q Op G S q Złożoność pamięciowa Op G S q Op G S q Op G S q Op G S q Ulepszenie wzgl. alg. naiwnego G G G 2 G S 4.6 Modelowanie scenariuszy ewolucyjnych - 2:mli 8:drml Klasyczny problem uzgadniania drzew to poszukiwanie uzgodnienia zgodnego z zasadą parsymonii, czyli takiego scenariusza ewolucyjnego, który minimalizuje liczbę duplikacji i strat genów dla danych drzewa genów i drzewa gatunków. Znanych jest wiele wiarygodnych wyników związanych z tym modelem [1, ], W pracy [2:ml] przedstawiamy metody rekonstrukcji scenariuszy ewolucyjnych, niekoniecznie minimalnych w sensie kosztu mutacyjnego, w oparciu o probabilistyczny model duplikacji genów, przy wykorzystaniu długości krawędzi w drzewach gatunków. U podstaw tego podejścia jest drzewo DLS będące formalną reprezentacją scenariusza ewolucyjnego w modelu duplikacji i strat wprowadzone w pracy [E4]. DLS drzewo (scenariusz) jest binarnym ukorzenionym drzewem, z czterema typami węzłów: duplikacja genu, specjacja strata genu i sekwencja. DLS drzewa definiujemy za pomocą standardowej notacji drzew z dodatkową dekoracją związaną z typem węzła. Niech CpT q oznacza zbiór gatunków obecnych w DLS drzewie T. Następujące reguły definiują DLS drzewa: 13
14 a jest jednoelementowym drzewem definiującym sekwencję (gen) z gatunku a; Cpaq tau. a 1 a 2... a n - jest jednoelementowym drzewem definiującym stratę genu, gdzie a 1, a 2... a n to niepusty ciąg gatunków; Cpa 1 a 2... a n -q ta 1, a 2,..., a n u. (R 1, R 2 )+ to DLS drzewo, którego korzeniem jest duplikacja; dzieci korzenia to DLS drzewa R 1 i R 2 spełniające warunek CpR 1 q CpR 2 q. (R 1, R 2 ) to DLS drzewo, którego korzeniem jest specjacja; dzieci korzenia to DLS drzewa R 1 i R 2 spełniające warunek CpR 1 q X CpR 2 q H. Niech XpT q to zbiór wszystkich CpT 1 q, gdzie T 1 to poddrzewa T. Mówimy, że drzewo gatunków S jest kompatybilne ze DLS drzewem T, jeśli zbiór klastrów z S jest nadzbiorem XpT q. Pojęcie kompatybilności prowadzi w naturalny sposób do wbudowywania drzewa DLS w drzewo gatunków. Np. scenariusz z Rysunku 2 to drzewo DLS: pa, ppb, cq, pb, cq q q. Z drugiej strony z drzewa DLS można wydobyć właściwe mu drzewo genów (tutaj pa, pb, pb, cqqq). W ogólnym modelowaniu scenariuszy ewolucyjnych dla danego drzewa gatunków S i ukorzenionego drzewa genów G nad S, istnieje nieskończenie wiele drzew DLS. Jednakże, po usunięciu scenariuszy zawierających przypadki trywialne (np. duplikacja i następująca po niej strata jednej kopii) uzyskuje się skończoną liczbę drzew DLS (dla ustalonego G i S), które można wizualizować na diagramach. Takie drzewa nazywamy seminormalnymi. W pracy [2:ml] definiujemy wiarygodność drzewa DLS w następujący sposób. Niech P pτ, d λq oznacza prawdopodobieństwo, że d duplikacji wystąpiło na krawędzi o długości τ przy założeniu stałej częstości duplikacji λ. Bez zmniejszenia ogólności przyjmujemy tutaj rozkład Poissona: P pτ, d λq e λτ pλτ q d d!. Przy danym DLS drzewie R, które powstaje z uzgadniania drzewa gatunków S i drzewa genów G, wiarygodność R wynosi: LpS, G, Rq Π sps P p s, dup R psq λq, (9) s to długość krawędzi łączącej s i jego ojca w drzewie S, a dup R psq to liczba wszystkich poddrzew T z R, którego korzeń to duplikacja i CpT q jest równe klastrowi węzła s z drzewa gatunków. Główny problem jest następujący: Problem 7. Dane: drzewo gatunków S, nieukorzenione drzewo genów G nad S oraz λ 0. Znajdź scenariusz, który maksymalizuje LpS, G, Rq w zbiorze wszystkich seminormalnych drzew DLS dla G i S. Złożoność tego problemu nie jest znana. W pracy [2:ml] proponujemy algorytm, który używa programowania dynamicznego i algorytmów typu branch and bound o złożoności czasowej wykładniczej do rozwiązywania tego problemu i problemów pokrewnych. Algorytm został zaimplementowany w narzędziu DrML, którego opis znajduje się w artykule typu application note [8:drml], którą postanowiłem dołączyć do tego cyklu prac ze względu na zastosowania do testowania ciekawych naukowo hipotez ewolucyjnych. Mimo wysokiej złożoności tego algorytmu, testy dla danych rzeczywistych i sztucznie generowanych pokazują, że obliczanie optymalnych scenariuszy jest w większości przypadków łatwe. Natomiast przypadki trudne, czyli czasochłonne, zdarzają się rzadko. W pracy [8:drml] proponujemy metodę stosowania DrML do weryfikowania hipotez duplikacji z zastosowaniem metod bootstrapping do agregowania zdarzeń ewolucyjnych na krawędziach drzewa gatunków. Wynikiem agregacji są rozkłady duplikacji i strat w drzewie gatunków. Pozwalają one na dokładniejsze weryfikowanie hipotez duplikacji. Takie podejście było zastosowane do testowania hipotez ewolucyjnych m.in. w pracy która ukazała się w prestiżowym czasopiśmie Science [E9] (praca jest opisana w sekcji 5). Inne przykłady zastosowań do danych biologicznych, podobne do tych z [E9] znajdują się w pracy [8:drml]. 4.7 Średnice kosztów [7:mdc] Najnowszy temat związany z badaniem własności funkcji kosztów, reprezentuje praca [7:mdc]. Dotyczy ona problemu średnicy funkcji kosztu DC [26, 48]. Średnica jest definiowana jako maksymalna wartość danej funkcji w pewnym zbiorze drzew par drzew genów i gatunków.
15 W tej pracy badane są dwa typy średnic dla kosztu DC. Pierwsza, z nich jest definiowana następująco. Jeśli T i S są drzewami ukorzenionymi, wówczas u DC pt, Sq maxtdcpg, Sq: G jest drzewem genów nad S i T xv G, E G yu nazywamy średnica DC dla ustalonych kształtów drzewa genów i gatunków. Drugi typ średnicy jest definiowany analogicznie z dodatkowym ograniczeniem: bijekcyjna średnica DC dla ustalonych kształtów drzewa genów i gatunków nazywamy b DC pt, Sq maxtdcpg, Sq: G jest drzewem genów nad S, T xv G, E G y oraz Λ G jest bijekcją.u W pracy [7:mdc] pokazujemy algorytm oparty o metodę programowania dynamicznego do obliczania średnicy u DC działający w czasie Op G S 3 q. Warto zwrócić uwagę, że podobny algorytm można stosować do obliczania analogicznych średnic innych kosztów z wykorzystaniem zunifikowanego podejścia do uzgadniania. Dla analizy własności średnicy bijekcyjnej wprowadzamy cztery reguły R1-R4, które dla danego drzewa genów i danego drzewa gatunków o tym samym rozmiarze, umożliwiają przekształcanie etykietowań drzewa genów. Pokazujemy, że jedno przekształcenie zawsze zwiększa koszt DC. Pokazujemy, że każdy maksymalny ciąg przekształceń DC kończy się na parą drzewo genów G i drzewo gatunków S, których koszt DC jest równy średnicy b pĝ, Sq, gdzie tutaj Ĝ oznacza drzewo G bez etykietowania. Algorytm oparty na regułach posiada dość dużą złożoność czasową Opn 4 q. Jednakże, w tej pracy pokazujemy własności reguł, które prowadzą dla optymalnego algorytmu. Pierwsza własność dotyczy drzew genów, które nie posiadają redeksów reguł R1 i R2. Wówczas, lca-mapowania węzłów wewnętrznych drzewa G znajdują się na tzw. pniu (ang. trunk) drzewa S. Pień S jest (jednoznacznie) definiowany jako ciąg Υ 1, Υ 2,..., Υ k spełniający: (I) korzeń Υ 1 to korzeń S, (II) dla i 1, Υ i jest dzieckiem Υ i 1, które posiada więcej liści niż jego brat, oraz (III) dzieci Υ k są korzeniami drzew o tej samej liczbie liści. By przedstawić główny wynik tej pracy, potrzebujemy kilku definicji. Dla drzewa G i pewnego zbioru wierzchołków A z G, przez G A oznaczamy las powstały z G przez usunięcie z G wierzchołków z A i wszystkich ich poprzedników. Wiśnią w drzewie nazywamy poddrzewo posiadające dokładnie dwa liście. Mówimy, że permutacja ξ xξ 1, ξ 2,..., ξ χg y wszystkich korzeni wiśni w drzewie genów G jest głęboka w G, jeśli dla każdego i, ξ i jest najgłębiej położonym korzeniem wiśni w G tξ 1, ξ 2,..., ξ i 1 u. Jeśli dodatkowo G nie posiada redeksów R1 i R2, wówczas ciąg lca-mapowań korzeni wiśni Mξ xmξ 1, Mξ 2,..., Mξ χg y jest maksymalny jeśli Mξ jest leksykograficznie maksymalny w zbiorze tmψ : ψ - permutacja wszystkich korzeni wiśni z Gu. Twierdzenie poniżej jest głównym wynikiem klasyfikującym drzewa genów i gatunków, które osiągają w koszcie DC średnicę bijekcyjną. Twierdzenie (7:mdc:Thm1). Dla drzewa gatunków S i drzewa genów G nad S o bijekcyjnym etykietowaniu następujace warunki sa równoważne: G jest w postaci normalnej dla S (czyli nie posiada redeksów R1-R4) Istnieje ciag ξ korzeni wiśni z G, taki że, ξ jest głęboki w G i Mξ jest maksymalny w S. DC DCpG, Sq b pĝ, Sq Wynik ten prowadzi do algorytmu liniowego o dość prostej konstrukcji: generujemy pewien głęboki ciąg korzeni wiśni z G, a następnie odpowiednio przypisujemy im etykietowanie by osiągnąć maksymalność. Praca [7:mdc] stała się podstawą do opracowania wyników dla innych typów średnic, a także dla innych funkcji kosztów. Duża część wyników została już opracowana: dla duplikacji [E], inne warianty średnic dla DC przedstawione są w pracach [E16] (przyjęta do IEEE/TCBB) i [E17] (przyjęta na konferencję ACM BCB). Wyniki dla DL i L są już znane, a praca jest przygotowywana do publikacji. 15
16 5 Omówienie pozostałych osiagnięć naukowo-badawczych Lista pozostałych prac E1 Paweł Górecki, Single step reconciliation algorithm for duplication, loss and horizontal gene transfer model, Proceedings of the European Conference on Computational Biology, Proceedings of ECCB E2 Paweł Górecki, Reconciliation problems for duplication, loss and horizontal gene transfer, Proceedings of the Eighth Annual International Conference on Research in Computational Molecular Biology, Proceedings of RECOMB E3 Paweł Górecki and Jerzy Tiuryn, On the structure of reconciliations, Lecture Notes in Computer Science, vol. 3388, pg , E4 Paweł Górecki and Jerzy Tiuryn, DLS-trees: a model of evolutionary scenarios, Theoretical Computer Science, Vol. 359, Pages , E5 Paweł Górecki and Jerzy Tiuryn, URec: a system for unrooted reconciliation, Bioinformatics, 23(4):511-5, E6 Paweł Górecki, H-trees: a model of evolutionary scenario with horizontal gene transfer, Fundamenta Informaticae, 103(1-4), 105-8, E7 Paweł Górecki and Oliver Eulenstein, A linear time algorithm for error-corrected reconciliation of unrooted gene trees, Lecture Notes in Computer Science 6674, 8-159, E8 Paweł Górecki and Jerzy Tiuryn, Inferring evolutionary scenarios in the duplication, loss and horizontal gene transfer model, Lecture Notes in Computer Science 7230, , 20. E9 Dimitrios Floudas, Manfred Binder, Robert Riley, Kerrie Barry, Robert A. Blanchette, Bernard Henrissat, Angel T. Martínez, Robert Otillar, Joseph W. Spatafora, Jagjit S. Yadav, Andrea Aerts, Isabelle Benoit, Alex Boyd, Alexis Carlson, Alex Copeland, Pedro M. Coutinho, Ronald P. de Vries, Patricia Ferreira, Keisha Findley, Brian Foster, Jill Gaskell, Dylan Glotzer, Paweł Górecki, Joseph Heitman, Cedar Hesse, Chiaki Hori, Kiyohiko Igarashi, Joel A. Jurgens, Nathan Kallen, Phil Kersten, Annegret Kohler, Ursula Kües, T. K. Arun Kumar, Alan Kuo, Kurt LaButti, Luis F. Larrondo, Erika Lindquist, Albee Ling, Vincent Lombard, Susan Lucas, Taina Lundell, Rachael Martin, David J. McLaughlin, Ingo Morgenstern, Emanuelle Morin, Claude Murat, Laszlo G. Nagy, Matt Nolan, Robin A. Ohm, Aleksandrina Patyshakuliyeva, Antonis Rokas, Francisco J. Ruiz-Duenas, Grzegorz Sabat, Asaf Salamov, Masahiro Samejima, Jeremy Schmutz, Jason C. Slot, Franz St. John, Jan Stenlid, Hui Sun, Sheng Sun, Khajamohiddin Syed, Adrian Tsang, Ad Wiebenga, Darcy Young, Antonio Pisabarro, Daniel C. Eastwood, Francis Martin, Dan Cullen, Igor V. Grigoriev, and David S. Hibbett The Paleozoic Origin of Enzymatic Lignin Decomposition Reconstructed from 31 Fungal Genomes, Science, 29 June 20: Vol. 336 no pp E10 Paweł Górecki and Oliver Eulenstein Deep Coalescence Reconciliation with Unrooted Gene Trees: Linear Time Algorithms, Lecture Notes in Computer Science 7434, COCOON 20, , 20. E11 Wen-Chieh Chang, Andre Wehe, Paweł Górecki, Oliver Eulenstein, Exact Solutions for Classical Gene Tree Parsimony Problems, Proceedings of BICoB E Paweł Górecki, Oliver Eulenstein, Algorithms for Unrooted Gene Trees with Polytomies, Proceedings of ISBRA
17 E13 Wen-Chieh Chang, Paweł Górecki, Oliver Eulenstein, Exact solutions for species tree inference from discordant gene trees, Journal of Bioinformatics and Computational Biology, 11(5): , E Paweł Górecki, Jarosław Paszek, Oliver Eulenstain, Duplication Cost Diameters, ISBRA 20, Lecture Notes in Computer Science 8492, E15 Paweł Górecki, Oliver Eulenstein, Refining discordant gene trees, BMC Bioinformatics (accepted by guest editors). E16 Paweł Górecki, Oliver Eulenstein, Gene Tree Diameter for Deep Coalescence, IEEE/ACM Transactions on Computational Biology and Bioinformatics (accepted). E17 Paweł Górecki, Jarosław Paszek, Oliver Eulenstein, Unconstrained Gene Tree Diameter for Deep Coalescence, accepted to ACM BMC 20 conference. DLS drzewa - podstawowe własności modelu duplikacji i strat - [E3,E4] Praca [E4] przedstawia jeden z najważniejszych wyników teoretycznych dotyczących modelu duplikacji i strat. W tej pracy pokazujemy, że scenariusze ewolucyjne generowane przez drzewa uzgadniajace, wprowadzone przez Page a w latach dziewięćdziesiątych XXw [35] dają najmniejszy koszt liczony jako sumę duplikacji i strat (DL). Takie minimalne scenariusze są generowane przez stosowanie lca-mapowań i są jednoznacznie wyznaczone. Pokazujemy, że dla funkcji kosztu duplikacji ten same scenariusze dają koszt minimalny, ale bez jednoznaczności. Powyższe wyniki są otrzymane przez wprowadzenie DLS drzew - formalnego modelu scenariusza ewolucyjnego w modelu duplikacji i strat (patrz definicje z Sekcji 4.6) oraz reguł do ich przekształcania. [E3] jest konferencyjną wersją [E4]. Horyzontalny transfer genów - [E1,E2,E6,E8] Prace związane z horyzontalnym transferem genów (HGT) (oraz [E3,E4]) były podstawą mojej rozprawy doktorskiej. Podejmowane w nich są dwa tematy: teoretyczny dotyczący samego modelu i scenariuszy ewolucyjnych oraz algorytmiczny związany z uzgadnianiem i praktyczną rekonstrukcją scenariuszy z HGT. Praca [E1] przedstawia podstawy teoretyczne modelu duplikacji i strat rozszerzonego o HGT [24, 25, 34]. W [E2] głównym wynikiem jest algorytm uzgadniania z HGT w przypadku, gdy dane są drzewo genów, drzewo gatunków i hipotezy HGT umieszczone na drzewie gatunków. Zaproponowany algorytm posiada wielomianową złożoność czasową. Prace [E6] i [E8] przedstawiają podstawy dla modelu duplikacji i strat genów rozszerzonego o HGT. Wprowadzamy tutaj pojęcie scenariusza ewolucyjnego i proponujemy formalny jego model (H-drzewo) podobny do drzew DLS. Analogicznie do DLS drzew definiujemy reguły przekształcania H-drzew i pokazujemy ich własności. Średnice funkcji kosztów - [E,E16,E17] W pracach [E],[E16] i [E17] przedstawiamy najnowsze wyniki dotyczące średnic. Wprowadzamy rodzaje średnic: u DC pt, q max S u DC pt, Sq - średnica dla drzewa genów, u DC k pt, q max S k u DC pt, Sq - średnica dla drzewa genów przy ustalonym rozmiarze drzewa gatunków, u DC p, Sq max S u DC pt, Sq - średnica dla drzewa gatunków. Ponadto, wprowadzamy analogiczne średnice bijekcyjne b DC pt, q oraz b DC p, Sq i rozszerzamy wszystkie te definicje na inne funkcje kosztów. Tabela poniżej przedstawie wyniki dotyczące średnic. W każdej z tych prac badamy 17
E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne
E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne Przypominajka: 152 drzewo filogenetyczne to drzewo, którego liśćmi są istniejące gatunki, a węzły wewnętrzne mają stopień większy niż jeden i reprezentują
Graf. Definicja marca / 1
Graf 25 marca 2018 Graf Definicja 1 Graf ogólny to para G = (V, E), gdzie V jest zbiorem wierzchołków (węzłów, punktów grafu), E jest rodziną krawędzi, które mogą być wielokrotne, dokładniej jednoelementowych
Wykrywanie horyzontalnego transferu genów
Streszczenie rozprawy doktorskiej pod tytułem Wykrywanie horyzontalnego transferu genów Paweł Górecki 1 Wprowadzenie Tematem niniejszej rozprawy są zagadnienia z pogranicza biologii molekularnej, matematyki
Matematyka dyskretna - 7.Drzewa
Matematyka dyskretna - 7.Drzewa W tym rozdziale zajmiemy się drzewami: specjalnym przypadkiem grafów. Są one szczególnie przydatne do przechowywania informacji, umożliwiającego szybki dostęp do nich. Definicja
JAO - lematy o pompowaniu dla jezykow bezkontekstowy
JAO - lematy o pompowaniu dla jezykow bezkontekstowych Postać normalna Chomsky ego Gramatyka G ze zbiorem nieterminali N i zbiorem terminali T jest w postaci normalnej Chomsky ego wtw gdy każda produkcja
Grafy (3): drzewa. Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków. UTP Bydgoszcz
Grafy (3): drzewa Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków UTP Bydgoszcz 13 (Wykłady z matematyki dyskretnej) Grafy (3): drzewa 13 1 / 107 Drzewo Definicja. Drzewo to graf acykliczny
Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.
181 Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami. 3. D T(D) poprzez algorytm łączenia sąsiadów 182 D D* : macierz łącząca sąsiadów n Niech TotDist i = k=1 D i,k Definiujemy
Matematyczne Podstawy Informatyki
Matematyczne Podstawy Informatyki dr inż. Andrzej Grosser Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Rok akademicki 2013/2014 Informacje podstawowe 1. Konsultacje: pokój
Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II
Wykład 6. Drzewa cz. II 1 / 65 drzewa spinające Drzewa spinające Zliczanie drzew spinających Drzewo T nazywamy drzewem rozpinającym (spinającym) (lub dendrytem) spójnego grafu G, jeżeli jest podgrafem
Metoda tabel semantycznych. Dedukcja drogi Watsonie, dedukcja... Definicja logicznej konsekwencji. Logika obliczeniowa.
Plan Procedura decyzyjna Reguły α i β - algorytm Plan Procedura decyzyjna Reguły α i β - algorytm Logika obliczeniowa Instytut Informatyki 1 Procedura decyzyjna Logiczna konsekwencja Teoria aksjomatyzowalna
Algebrą nazywamy strukturę A = (A, {F i : i I }), gdzie A jest zbiorem zwanym uniwersum algebry, zaś F i : A F i
Algebrą nazywamy strukturę A = (A, {F i : i I }), gdzie A jest zbiorem zwanym uniwersum algebry, zaś F i : A F i A (symbol F i oznacza ilość argumentów funkcji F i ). W rozważanych przez nas algebrach
ALGORYTMY I STRUKTURY DANYCH
LGORTM I STRUKTUR DNH Temat 6: Drzewa ST, VL Wykładowca: dr inż. bigniew TRPT e-mail: bigniew.tarapata@isi.wat.edu.pl http://www.tarapata.strefa.pl/p_algorytmy_i_struktury_danych/ Współautorami wykładu
Wykład 2. Drzewa zbalansowane AVL i 2-3-4
Wykład Drzewa zbalansowane AVL i -3-4 Drzewa AVL Wprowadzenie Drzewa AVL Definicja drzewa AVL Operacje wstawiania i usuwania Złożoność obliczeniowa Drzewa -3-4 Definicja drzewa -3-4 Operacje wstawiania
Modelowanie motywów łańcuchami Markowa wyższego rzędu
Modelowanie motywów łańcuchami Markowa wyższego rzędu Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki 23 października 2008 roku Plan prezentacji 1 Źródła 2 Motywy i ich znaczenie Łańcuchy
Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2
Metody teorii gier ALP520 - Wykład z Algorytmów Probabilistycznych p.2 Metody teorii gier Cel: Wyprowadzenie oszacowania dolnego na oczekiwany czas działania dowolnego algorytmu losowego dla danego problemu.
TEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Wykład 14c 2 Definicje indukcyjne Twierdzenia dowodzone przez indukcje Definicje indukcyjne Definicja drzewa
7. Teoria drzew - spinanie i przeszukiwanie
7. Teoria drzew - spinanie i przeszukiwanie Grzegorz Kosiorowski Uniwersytet Ekonomiczny w Krakowie zima 2016/2017 rzegorz Kosiorowski (Uniwersytet Ekonomiczny 7. wteoria Krakowie) drzew - spinanie i przeszukiwanie
Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu
Konstruowanie drzew filogenetycznych Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Drzewa filogenetyczne ukorzenione i nieukorzenione binarność konstrukcji topologia (sposób rozgałęziana
Sortowanie topologiczne skierowanych grafów acyklicznych
Sortowanie topologiczne skierowanych grafów acyklicznych Metody boolowskie w informatyce Robert Sulkowski http://robert.brainusers.net 23 stycznia 2010 1 Definicja 1 (Cykl skierowany). Niech C = (V, A)
Kolorowanie wierzchołków Kolorowanie krawędzi Kolorowanie regionów i map. Wykład 8. Kolorowanie
Wykład 8. Kolorowanie 1 / 62 Kolorowanie wierzchołków - definicja Zbiory niezależne Niech G będzie grafem bez pętli. Definicja Mówimy, że G jest grafem k kolorowalnym, jeśli każdemu wierzchołkowi możemy
Metoda Tablic Semantycznych
Procedura Plan Reguły Algorytm Logika obliczeniowa Instytut Informatyki Plan Procedura Reguły 1 Procedura decyzyjna Logiczna równoważność formuł Logiczna konsekwencja Procedura decyzyjna 2 Reguły α, β,
Indukowane Reguły Decyzyjne I. Wykład 3
Indukowane Reguły Decyzyjne I Wykład 3 IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 2 Powtórzenie
Zbiory, relacje i funkcje
Zbiory, relacje i funkcje Zbiory będziemy zazwyczaj oznaczać dużymi literami A, B, C, X, Y, Z, natomiast elementy zbiorów zazwyczaj małymi. Podstawą zależność między elementem zbioru a zbiorem, czyli relację
Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski
Genomika Porównawcza Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski 1 Plan prezentacji 1. Rodzaje i budowa drzew filogenetycznych 2. Metody ukorzeniania drzewa
Wysokość drzewa Głębokość węzła
Drzewa Drzewa Drzewo (ang. tree) zbiór węzłów powiązanych wskaźnikami, spójny i bez cykli. Drzewo posiada wyróżniony węzeł początkowy nazywany korzeniem (ang. root). Drzewo ukorzenione jest strukturą hierarchiczną.
(4) x (y z) = (x y) (x z), x (y z) = (x y) (x z), (3) x (x y) = x, x (x y) = x, (2) x 0 = x, x 1 = x
2. Wykład 2: algebry Boole a, kraty i drzewa. 2.1. Algebra Boole a. 1 Ważnym dla nas przykładem algebr są algebry Boole a, czyli algebry B = (B,,,, 0, 1) typu (2, 2, 1, 0, 0) spełniające własności: (1)
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Logika Stosowana. Wykład 1 - Logika zdaniowa. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017
Logika Stosowana Wykład 1 - Logika zdaniowa Marcin Szczuka Instytut Informatyki UW Wykład monograficzny, semestr letni 2016/2017 Marcin Szczuka (MIMUW) Logika Stosowana 2017 1 / 30 Plan wykładu 1 Język
a) 7 b) 19 c) 21 d) 34
Zadanie 1. Pytania testowe dotyczące podstawowych własności grafów. Zadanie 2. Przy każdym z zadań może się pojawić polecenie krótkiej charakterystyki algorytmu. Zadanie 3. W zadanym grafie sprawdzenie
Drzewa. Jeżeli graf G jest lasem, który ma n wierzchołków i k składowych, to G ma n k krawędzi. Własności drzew
Drzewa Las - graf, który nie zawiera cykli Drzewo - las spójny Jeżeli graf G jest lasem, który ma n wierzchołków i k składowych, to G ma n k krawędzi. Własności drzew Niech T graf o n wierzchołkach będący
System BCD z κ. Adam Slaski na podstawie wykładów, notatek i uwag Pawła Urzyczyna. Semestr letni 2009/10
System BCD z κ Adam Slaski na podstawie wykładów, notatek i uwag Pawła Urzyczyna Semestr letni 2009/10 Rozważamy system BCD ze stałą typową κ i aksjomatami ω κ κ i κ ω κ. W pierwszej części tej notatki
Programowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
Matematyka dyskretna dla informatyków
Matematyka dyskretna dla informatyków Część I: Elementy kombinatoryki Jerzy Jaworski Zbigniew Palka Jerzy Szymański Uniwersytet im. Adama Mickiewicza Poznań 2007 4 Zależności rekurencyjne Wiele zależności
Podstawy Informatyki. Metody dostępu do danych
Podstawy Informatyki c.d. alina.momot@polsl.pl http://zti.polsl.pl/amomot/pi Plan wykładu 1 Bazy danych Struktury danych Średni czas odszukania rekordu Drzewa binarne w pamięci dyskowej 2 Sformułowanie
Kolorowanie wierzchołków grafu
Kolorowanie wierzchołków grafu Niech G będzie grafem prostym. Przez k-kolorowanie właściwe wierzchołków grafu G rozumiemy takie przyporządkowanie wierzchołkom grafu liczb naturalnych ze zbioru {1,...,
Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów
Wykład 2. Reprezentacja komputerowa grafów 1 / 69 Macierz incydencji Niech graf G będzie grafem nieskierowanym bez pętli o n wierzchołkach (x 1, x 2,..., x n) i m krawędziach (e 1, e 2,..., e m). 2 / 69
Metody Programowania
POLITECHNIKA KRAKOWSKA - WIEiK KATEDRA AUTOMATYKI i TECHNIK INFORMACYJNYCH Metody Programowania www.pk.edu.pl/~zk/mp_hp.html Wykładowca: dr inż. Zbigniew Kokosiński zk@pk.edu.pl Wykład 8: Wyszukiwanie
Topologia zbioru Cantora a obwody logiczne
Adam Radziwończyk-Syta Michał Skrzypczak Uniwersytet Warszawski 1 lipca 2009 http://students.mimuw.edu.pl/~mskrzypczak/dokumenty/ obwody.pdf Zbiór Cantora Topologia Definicja Przez zbiór Cantora K oznaczamy
Matematyka dyskretna
Matematyka dyskretna Wykład 13: Teoria Grafów Gniewomir Sarbicki Literatura R.J. Wilson Wprowadzenie do teorii grafów Definicja: Grafem (skończonym, nieskierowanym) G nazywamy parę zbiorów (V (G), E(G)),
TEORIA GRAFÓW I SIECI
TEORIA GRAFÓW I SIECI Temat nr 1: Definicja grafu. Rodzaje i części grafów dr hab. inż. Zbigniew TARAPATA, prof. WAT e-mail: zbigniew.tarapata@wat.edu.pl http://tarapata.edu.pl tel.: 261-83-95-04, p.225/100
Drzewa BST i AVL. Drzewa poszukiwań binarnych (BST)
Drzewa ST i VL Drzewa poszukiwań binarnych (ST) Drzewo ST to dynamiczna struktura danych (w formie drzewa binarnego), która ma tą właściwość, że dla każdego elementu wszystkie elementy w jego prawym poddrzewie
Wybrane podstawowe rodzaje algorytmów
Wybrane podstawowe rodzaje algorytmów Tomasz Głowacki tglowacki@cs.put.poznan.pl Zajęcia finansowane z projektu "Rozwój i doskonalenie kształcenia na Politechnice Poznańskiej w zakresie technologii informatycznych
Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott
Struktury danych i złożoność obliczeniowa Wykład 7 Prof. dr hab. inż. Jan Magott Problemy NP-zupełne Transformacją wielomianową problemu π 2 do problemu π 1 (π 2 π 1 ) jest funkcja f: D π2 D π1 spełniająca
Podstawowe własności grafów. Wykład 3. Własności grafów
Wykład 3. Własności grafów 1 / 87 Suma grafów Niech będą dane grafy proste G 1 = (V 1, E 1) oraz G 2 = (V 2, E 2). 2 / 87 Suma grafów Niech będą dane grafy proste G 1 = (V 1, E 1) oraz G 2 = (V 2, E 2).
O pewnych związkach teorii modeli z teorią reprezentacji
O pewnych związkach teorii modeli z teorią reprezentacji na podstawie referatu Stanisława Kasjana 5 i 12 grudnia 2000 roku 1. Elementy teorii modeli Będziemy rozważać język L składający się z przeliczalnej
Poprawność semantyczna
Poprawność składniowa Poprawność semantyczna Poprawność algorytmu Wypisywanie zdań z języka poprawnych składniowo Poprawne wartościowanie zdań języka, np. w języku programowania skutki wystąpienia wyróżnionych
Każdy węzeł w drzewie posiada 3 pola: klucz, adres prawego potomka i adres lewego potomka. Pola zawierające adresy mogą być puste.
Drzewa binarne Każdy węzeł w drzewie posiada pola: klucz, adres prawego potomka i adres lewego potomka. Pola zawierające adresy mogą być puste. Uporządkowanie. Zakładamy, że klucze są różne. Klucze leżące
WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA
DRZEWA i LASY Drzewem nazywamy graf spójny nie zawierający cykli elementarnych. Lasem nazywamy graf nie zawierający cykli elementarnych. Przykłady drzew i lasów takie krawędzie są wykluczone drzewo las
WSTĘP DO INFORMATYKI. Drzewa i struktury drzewiaste
Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej WSTĘP DO INFORMATYKI Adrian Horzyk Drzewa i struktury drzewiaste www.agh.edu.pl DEFINICJA DRZEWA Drzewo
Nierówność Krafta-McMillana, Kodowanie Huffmana
Nierówność Krafta-McMillana, Kodowanie Huffmana Kodowanie i kompresja informacji - Wykład 2 1 marca 2010 Test na jednoznaczna dekodowalność Kod a jest prefiksem kodu b jeśli b jest postaci ax. x nazywamy
Matematyka dyskretna. Andrzej Łachwa, UJ, B/14
Matematyka dyskretna Andrzej Łachwa, UJ, 2019 andrzej.lachwa@uj.edu.pl 1B/14 Drogi w grafach Marszruta (trasa) w grafie G z wierzchołka w do wierzchołka u to skończony ciąg krawędzi w postaci. W skrócie
Algorytm simplex i dualność
Algorytm simplex i dualność Łukasz Kowalik Instytut Informatyki, Uniwersytet Warszawski April 15, 2016 Łukasz Kowalik (UW) LP April 15, 2016 1 / 35 Przypomnienie 1 Wierzchołkiem wielościanu P nazywamy
Wstęp do Sztucznej Inteligencji
Wstęp do Sztucznej Inteligencji Rozwiązywanie problemów-i Joanna Kołodziej Politechnika Krakowska Wydział Fizyki, Matematyki i Informatyki Rozwiązywanie problemów Podstawowe fazy: Sformułowanie celu -
Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.
Grafy Graf Graf (ang. graph) to zbiór wierzchołków (ang. vertices), które mogą być połączone krawędziami (ang. edges) w taki sposób, że każda krawędź kończy się i zaczyna w którymś z wierzchołków. Graf
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
SPÓJNOŚĆ. ,...v k. }, E={v 1. v k. i v k. ,...,v k-1. }. Wierzchołki v 1. v 2. to końce ścieżki.
SPÓJNOŚĆ Graf jest spójny, gdy dla każdego podziału V na dwa rozłączne podzbiory A i B istnieje krawędź z A do B. Definicja równoważna: Graf jest spójny, gdy każde dwa wierzchołki są połączone ścieżką
Algorytmy Równoległe i Rozproszone Część X - Algorytmy samostabilizujące.
Algorytmy Równoległe i Rozproszone Część X - Algorytmy samostabilizujące. Łukasz Kuszner pokój 209, WETI http://www.sphere.pl/ kuszner/ kuszner@sphere.pl Oficjalna strona wykładu http://www.sphere.pl/
Algorytm. Krótka historia algorytmów
Algorytm znaczenie cybernetyczne Jest to dokładny przepis wykonania w określonym porządku skończonej liczby operacji, pozwalający na rozwiązanie zbliżonych do siebie klas problemów. znaczenie matematyczne
Teoria grafów - Teoria rewersali - Teoria śladów
17 maja 2012 1 Planarność Wzór Eulera Kryterium Kuratowskiego Algorytmy testujące planarność 2 Genom i jego przekształcenia Grafy złamań Sortowanie przez odwrócenia Inne rodzaje sortowania Algorytmy sortujące
prowadzący dr ADRIAN HORZYK /~horzyk e-mail: horzyk@agh tel.: 012-617 Konsultacje paw. D-13/325
PODSTAWY INFORMATYKI WYKŁAD 8. prowadzący dr ADRIAN HORZYK http://home home.agh.edu.pl/~ /~horzyk e-mail: horzyk@agh agh.edu.pl tel.: 012-617 617-4319 Konsultacje paw. D-13/325 DRZEWA Drzewa to rodzaj
Algorytmy Równoległe i Rozproszone Część V - Model PRAM II
Algorytmy Równoległe i Rozproszone Część V - Model PRAM II Łukasz Kuszner pokój 209, WETI http://www.sphere.pl/ kuszner/ kuszner@sphere.pl Oficjalna strona wykładu http://www.sphere.pl/ kuszner/arir/ 2005/06
Drzewo. Drzewo uporządkowane ma ponumerowanych (oznaczonych) następników. Drzewo uporządkowane składa się z węzłów, które zawierają następujące pola:
Drzewa Drzewa Drzewo (ang. tree) zbiór węzłów powiązanych wskaźnikami, spójny i bez cykli. Drzewo posiada wyróżniony węzeł początkowy nazywany korzeniem (ang. root). Drzewo ukorzenione jest strukturą hierarchiczną.
Teoria grafów podstawy. Materiały pomocnicze do wykładu. wykładowca: dr Magdalena Kacprzak
Teoria grafów podstawy Materiały pomocnicze do wykładu wykładowca: dr Magdalena Kacprzak Grafy zorientowane i niezorientowane Przykład 1 Dwa pociągi i jeden most problem wzajemnego wykluczania się Dwa
Analiza semantyczna. Gramatyka atrybutywna
Analiza semantyczna Do przeprowadzenia poprawnego tłumaczenia, oprócz informacji na temat składni języka podlegającego tłumaczeniu, translator musi posiadać możliwość korzystania z wielu innych informacji
Algorytmy kombinatoryczne w bioinformatyce
Algorytmy kombinatoryczne w bioinformatyce wykład 2: sekwencjonowanie cz. 1 prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej Poznawanie sekwencji
Zad. 1 Zad. 2 Zad. 3 Zad. 4 Zad. 5 SUMA
Zad. 1 Zad. 2 Zad. 3 Zad. 4 Zad. 5 SUMA Zad. 1 (12p.)Niech n 3k > 0. Zbadać jaka jest najmniejsza możliwa liczba krawędzi w grafie, który ma dokładnie n wierzchołków oraz dokładnie k składowych, z których
Algorytmy Równoległe i Rozproszone Część III - Układy kombinacyjne i P-zupełność
Algorytmy Równoległe i Rozproszone Część III - Układy kombinacyjne i P-zupełność Łukasz Kuszner pokój 209, WETI http://www.kaims.pl/ kuszner/ kuszner@eti.pg.gda.pl Oficjalna strona wykładu http://www.kaims.pl/
Bioinformatyka Laboratorium, 30h. Michał Bereta
Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Filogenetyka molekularna wykorzystuje informację zawartą w sekwencjach aminokwasów lub nukleotydów do kontrukcji drzew
1 Automaty niedeterministyczne
Szymon Toruńczyk 1 Automaty niedeterministyczne Automat niedeterministyczny A jest wyznaczony przez następujące składniki: Alfabet skończony A Zbiór stanów Q Zbiór stanów początkowych Q I Zbiór stanów
W. Guzicki Próbna matura, grudzień 2014 r. poziom rozszerzony 1
W. Guzicki Próbna matura, grudzień 01 r. poziom rozszerzony 1 Próbna matura rozszerzona (jesień 01 r.) Zadanie 18 kilka innych rozwiązań Wojciech Guzicki Zadanie 18. Okno na poddaszu ma mieć kształt trapezu
Drzewa poszukiwań binarnych
1 Cel ćwiczenia Algorytmy i struktury danych Instytut Sterowania i Systemów Informatycznych Wydział Elektrotechniki, Informatyki i Telekomunikacji Uniwersytet ielonogórski Drzewa poszukiwań binarnych Ćwiczenie
Kompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
Programowanie liniowe
Programowanie liniowe Maciej Drwal maciej.drwal@pwr.wroc.pl 1 Problem programowania liniowego min x c T x (1) Ax b, (2) x 0. (3) gdzie A R m n, c R n, b R m. Oznaczmy przez x rozwiązanie optymalne, tzn.
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
Wstęp do Biologii Obliczeniowej
Wstęp do Biologii Obliczeniowej Zagadnienia na kolokwium Bartek Wilczyński 5. czerwca 2018 Sekwencje DNA i grafy Sekwencje w biologii, DNA, RNA, białka, alfabety, transkrypcja DNA RNA, translacja RNA białko,
Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott
Struktury danych i złożoność obliczeniowa Wykład 5 Prof. dr hab. inż. Jan Magott DMT rozwiązuje problem decyzyjny π przy kodowaniu e w co najwyżej wielomianowym czasie, jeśli dla wszystkich łańcuchów wejściowych
Znajdowanie skojarzeń na maszynie równoległej
11 grudnia 2008 Spis treści 1 Skojarzenia w różnych klasach grafów Drzewa Grafy gęste Grafy regularne dwudzielne Claw-free graphs 2 Drzewa Skojarzenia w drzewach Fakt Wybierajac krawędź do skojarzenia
Drzewa poszukiwań binarnych
1 Drzewa poszukiwań binarnych Kacper Pawłowski Streszczenie W tej pracy przedstawię zagadnienia związane z drzewami poszukiwań binarnych. Przytoczę poszczególne operacje na tej strukturze danych oraz ich
Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1
Wykład Algorytmy grafowe metoda zachłanna. Właściwości algorytmu zachłannego:. W przeciwieństwie do metody programowania dynamicznego nie występuje etap dzielenia na mniejsze realizacje z wykorzystaniem
Teoria obliczeń i złożoność obliczeniowa
Teoria obliczeń i złożoność obliczeniowa Kontakt: dr hab. inż. Adam Kasperski, prof. PWr. pokój 509 B4 adam.kasperski@pwr.wroc.pl materiały + informacje na stronie www. Zaliczenie: Egzamin Literatura Problemy
FUNKCJE. (odwzorowania) Funkcje 1
FUNKCJE (odwzorowania) Funkcje 1 W matematyce funkcja ze zbioru X w zbiór Y nazywa się odwzorowanie (przyporządkowanie), które każdemu elementowi zbioru X przypisuje jeden, i tylko jeden element zbioru
Drzewa czerwono-czarne.
Binboy at Sphere http://binboy.sphere.p l Drzewa czerwono-czarne. Autor: Jacek Zacharek Wstęp. Pojęcie drzewa czerwono-czarnego (red-black tree) zapoczątkował Rudolf Bayer w książce z 1972 r. pt. Symmetric
< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >
Typy indeksów Indeks jest zakładany na atrybucie relacji atrybucie indeksowym (ang. indexing field). Indeks zawiera wartości atrybutu indeksowego wraz ze wskaźnikami do wszystkich bloków dyskowych zawierających
Wykład 8. Drzewo rozpinające (minimum spanning tree)
Wykład 8 Drzewo rozpinające (minimum spanning tree) 1 Minimalne drzewo rozpinające - przegląd Definicja problemu Własności minimalnych drzew rozpinających Algorytm Kruskala Algorytm Prima Literatura Cormen,
Spacery losowe generowanie realizacji procesu losowego
Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z
Zaawansowane algorytmy i struktury danych
Zaawansowane algorytmy i struktury danych u dr Barbary Marszał-Paszek Opracowanie pytań teoretycznych z egzaminów. Strona 1 z 12 Pytania teoretyczne z egzaminu pisemnego z 25 czerwca 2014 (studia dzienne)
9.9 Algorytmy przeglądu
14 9. PODSTAWOWE PROBLEMY JEDNOMASZYNOWE 9.9 Algorytmy przeglądu Metody przeglądu dla problemu 1 r j,q j C max były analizowane między innymi w pracach 25, 51, 129, 238. Jak dotychczas najbardziej elegancka
Modelowanie sieci złożonych
Modelowanie sieci złożonych B. Wacław Instytut Fizyki UJ Czym są sieci złożone? wiele układów ma strukturę sieci: Internet, WWW, sieć cytowań, sieci komunikacyjne, społeczne itd. sieć = graf: węzły połączone
Programowanie obiektowe
Programowanie obiektowe Sieci powiązań Paweł Daniluk Wydział Fizyki Jesień 2014 P. Daniluk (Wydział Fizyki) PO w. IX Jesień 2014 1 / 24 Sieci powiązań Można (bardzo zgrubnie) wyróżnić dwa rodzaje powiązań
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Podstawy programowania 2. Temat: Drzewa binarne. Przygotował: mgr inż. Tomasz Michno
Instrukcja laboratoryjna 5 Podstawy programowania 2 Temat: Drzewa binarne Przygotował: mgr inż. Tomasz Michno 1 Wstęp teoretyczny Drzewa są jedną z częściej wykorzystywanych struktur danych. Reprezentują
Programowanie obiektowe
Programowanie obiektowe Sieci powiązań Paweł Daniluk Wydział Fizyki Jesień 2015 P. Daniluk (Wydział Fizyki) PO w. IX Jesień 2015 1 / 21 Sieci powiązań Można (bardzo zgrubnie) wyróżnić dwa rodzaje powiązań
Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).
Algorytm A* Opracowanie: Joanna Raczyńska 1.Wstęp Algorytm A* jest heurystycznym algorytmem służącym do znajdowania najkrótszej ścieżki w grafie. Jest to algorytm zupełny i optymalny, co oznacza, że zawsze
domykanie relacji, relacja równoważności, rozkłady zbiorów
1 of 8 2012-03-28 17:45 Logika i teoria mnogości/wykład 5: Para uporządkowana iloczyn kartezjański relacje domykanie relacji relacja równoważności rozkłady zbiorów From Studia Informatyczne < Logika i
Wstęp do Techniki Cyfrowej... Teoria automatów
Wstęp do Techniki Cyfrowej... Teoria automatów Alfabety i litery Układ logiczny opisywany jest przez wektory, których wartości reprezentowane są przez ciągi kombinacji zerojedynkowych. Zwiększenie stopnia
Algorytmy i str ruktury danych. Metody algorytmiczne. Bartman Jacek
Algorytmy i str ruktury danych Metody algorytmiczne Bartman Jacek jbartman@univ.rzeszow.pl Metody algorytmiczne - wprowadzenia Znamy strukturę algorytmów Trudność tkwi natomiast w podaniu metod służących
5c. Sieci i przepływy
5c. Sieci i przepływy Grzegorz Kosiorowski Uniwersytet Ekonomiczny w Krakowie zima 2016/2017 rzegorz Kosiorowski (Uniwersytet Ekonomiczny w Krakowie) 5c. Sieci i przepływy zima 2016/2017 1 / 40 1 Definicje
mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.
mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni
Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.
Funkcje wymierne Jerzy Rutkowski Teoria Przypomnijmy, że przez R[x] oznaczamy zbiór wszystkich wielomianów zmiennej x i o współczynnikach rzeczywistych Definicja Funkcją wymierną jednej zmiennej nazywamy