Algorytmy kombinatoryczne w bioinformatyce

Podobne dokumenty
Algorytmy kombinatoryczne w bioinformatyce

I. LOGICZNE STRUKTURY DRZEWIASTE

Bioinformatyka Laboratorium, 30h. Michał Bereta

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

Ćwiczenie nr 2 Zbiory rozmyte logika rozmyta Rozmywanie, wnioskowanie, baza reguł, wyostrzanie

Logika I. Wykład 2. Działania na zbiorach

Podstawowe działania w rachunku macierzowym

Zagadnienia transportowe

Algorytmy graficzne. Podstawy kompresji danych fragment wykładu. Marcin Wilczewski

Przykłady wybranych fragmentów prac egzaminacyjnych z komentarzami Technik ochrony fizycznej osób i mienia 515[01]

KONKURSY MATEMATYCZNE. Treść zadań

Automatyczne przetwarzanie recenzji konsumenckich dla oceny użyteczności produktów i usług

Matematyka:Matematyka I - ćwiczenia/granice funkcji

Podejmowanie decyzji. Piotr Wachowiak

Opis programu do wizualizacji algorytmów z zakresu arytmetyki komputerowej

Odpowiedzi i schematy oceniania Arkusz 23 Zadania zamknięte. Wskazówki do rozwiązania. Iloczyn dwóch liczb ujemnych jest liczbą dodatnią, zatem

Harmonogramowanie projektów Zarządzanie czasem

Topologia I, Egzamin. II termin, Nr albumu: Nazwisko prowadzącego ćwiczenia: Nr grupy:

PODSTAWY DZIAŁANIA UKŁADÓW CYFROWYCH

Edycja geometrii w Solid Edge ST

KLAUZULE ARBITRAŻOWE

Podstawy programowania

Projekty uchwał dla Zwyczajnego Walnego Zgromadzenia

2.Prawo zachowania masy

RAPORT z diagnozy Matematyka na starcie

WYKŁAD 8. Postacie obrazów na różnych etapach procesu przetwarzania

ROZWIĄZANIA ZADAŃ Zestaw P3 Odpowiedzi do zadań zamkniętych

2) Drugim Roku Programu rozumie się przez to okres od 1 stycznia 2017 roku do 31 grudnia 2017 roku.

Projekt MES. Wykonali: Lidia Orkowska Mateusz Wróbel Adam Wysocki WBMIZ, MIBM, IMe

POMOC PSYCHOLOGICZNO-PEDAGOGICZNA Z OPERONEM. Vademecum doradztwa edukacyjno-zawodowego. Akademia

Łączność na polu walki (problem przydziału częstotliwości UKF)

Rozdział 6. Pakowanie plecaka. 6.1 Postawienie problemu

Na podstawie art.4 ust.1 i art.20 lit. l) Statutu Walne Zebranie Stowarzyszenia uchwala niniejszy Regulamin Zarządu.

Wykonanie podziału geodezyjnego działek na terenie powiatu gryfińskiego z podziałem na 2 zadania.

STA T T A YSTYKA Korelacja

Podstawowe pojęcia: Populacja. Populacja skończona zawiera skończoną liczbę jednostek statystycznych

Warunki Oferty PrOmOcyjnej usługi z ulgą

Zapytanie ofertowe nr 3

TEST WIADOMOŚCI: Równania i układy równań

PORADNIK: Jak przyznaćstypendiumwprogramie Stypendia św. Mikołaja

Transformator Elektroniczny do LED 0W-40W Współpracuje z inteligentnymi ściemniaczami oświetlenia. Instrukcja. Model: TE40W-DIMM-LED-IP64

Bielsko-Biała, dn r. Numer zapytania: R WAWRZASZEK ISS Sp. z o.o. ul. Leszczyńska Bielsko-Biała ZAPYTANIE OFERTOWE

Regulamin Zarządu Pogórzańskiego Stowarzyszenia Rozwoju

Procedura uzyskiwania awansu zawodowego na stopień nauczyciela mianowanego przez nauczycieli szkół i placówek

Zakład Ubezpieczeń Społecznych Departament Statystyki i Prognoz Aktuarialnych

Załącznik nr 2 Testy logiczne służące sprawdzeniu jakości danych uczestników projektów współfinansowanych z EFS

ZWYCZAJNE WALNE ZGROMADZENIE AKCJONARIUSZY SPÓŁKI M4B S.A. ZWOŁANE NA DZIEŃ 27 czerwca 2014r.

NUMER IDENTYFIKATORA:

K P K P R K P R D K P R D W

WYRAŻENIA REGULARNE I JĘZYK AWK

Moduł Pulpit opcji oraz Narzędzia. Opis v 1.0

Zadanie 3 - (7 punktów) Iloczyn składników Jeśli zapis liczby 22 w postaci sumy zawiera składnik 1, lepiej pogrupować go z innym składnikiem

EGZAMIN MATURALNY Z INFORMATYKI CZERWIEC 2011 POZIOM ROZSZERZONY WYBRANE: CZĘŚĆ I. Czas pracy: 90 minut. Liczba punktów do uzyskania: 20

Trenuj przed sprawdzianem! Matematyka Test 4

REGULAMIN TURNIEJU SPORTOWEJ GRY KARCIANEJ KANASTA W RAMACH I OGÓLNOPOLSKIEGO FESTIWALU GIER UMYSŁOWYCH 55+ GORZÓW WLKP R.

Statystyki opisowe. Marcin Zajenkowski. Marcin Zajenkowski () Statystyki opisowe 1 / 57

ZAPYTANIE OFERTOWE nr 4/KadryWM13

Grupa bezpieczeństwa kotła KSG / KSG mini

Ustawienie wózka w pojeździe komunikacji miejskiej - badania. Prawidłowe ustawienie

ZAPYTANIE OFERTOWE. Nazwa zamówienia: Wykonanie usług geodezyjnych podziały nieruchomości

Ogólna charakterystyka kontraktów terminowych

Zarządzanie Zasobami by CTI. Instrukcja

REGULAMIN WALNEGO ZEBRANIA STOWARZYSZENIA POLSKA UNIA UBOCZNYCH PRODUKTÓW SPALANIA

Wynagrodzenia i świadczenia pozapłacowe specjalistów

Regulamin. Rady Nadzorczej Spółdzielni Mieszkaniowej "Doły -Marysińska" w Łodzi

1. Zapewnienia wygodnej sali dydaktycznej dla średnio 14 uczestników + 2 wykładowców, wyposażonej w

KATEDRA INFORMATYKI STOSOWANEJ PŁ ANALIZA I PROJEKTOWANIE SYSTEMÓW INFORMATYCZNYCH

1. Reforma procesu kształcenia jako filar linii programowej PSRP

Umowa o pracę zawarta na czas nieokreślony

ZAMAWIAJĄCY. Regionalna Organizacja Turystyczna Województwa Świętokrzyskiego SPECYFIKACJA ISTOTNYCH WARUNKÓW ZAMÓWIENIA (DALEJ SIWZ )

Czy warto byd w sieci? Plusy i minusy nakładania się form ochrony przyrody wsparte przykładami Słowioskiego Parku Narodowego

Proces certyfikacji ISO 9001:2015. Wydanie normy ISO 9001:2015 dotyczące systemów zarządzania jakością obowiązuje od 15 września 2015 roku.

OFERTA WYKŁADÓW, WARSZTATÓW I LABORATORIÓW DLA UCZNIÓW KLAS IV- VI SZKÓŁ PODSTAWOWYCH, GIMNAZJALNYCH I ŚREDNICH

1. Obliczenie SDR pojazdów silnikowych ogółem w punkcie pomiarowym typu P

Zamówienia publiczne w PKP PLK S.A. w obszarze inwestycji kolejowych. Warszawa, 10 maja 2016 r.

Programator pamięci EEPROM

4.3. Warunki życia Katarzyna Gorczyca

ALGORYTMY I STRUKTURY DANYCH

Spis zawartości Lp. Str. Zastosowanie Budowa wzmacniacza RS485 Dane techniczne Schemat elektryczny

Korzystając z wzorów de Morgana zwartość można także określić w terminach zbiorów domkniętych.

Zarządzanie projektami. wykład 1 dr inż. Agata Klaus-Rosińska

Pomiary geofizyczne w otworach

Nowe funkcjonalności

Podstawowej nr 3 im Bolesława Krzywoustego na osiedlu Piastowskim 27 w Poznaniu - IV zadania.

Załącznik nr 4 UMOWA O REALIZACJI PRAKTYKI STUDENCKIEJ

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

Metoda LBL (ang. Layer by Layer, pol. Warstwa Po Warstwie). Jest ona metodą najprostszą.

ZASADY WYPEŁNIANIA ANKIETY 2. ZATRUDNIENIE NA CZĘŚĆ ETATU LUB PRZEZ CZĘŚĆ OKRESU OCENY

Temat: Funkcje. Własności ogólne. A n n a R a j f u r a, M a t e m a t y k a s e m e s t r 1, W S Z i M w S o c h a c z e w i e 1

WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji. Laboratorium Obróbki ubytkowej materiałów.

Zapytanie ofertowe nr 8. Dotyczące zamówienia publicznego na kwotę poniżej zł netto,

Stowarzyszenie Lokalna Grupa Działania EUROGALICJA Regulamin Rady

Dr inż. Andrzej Tatarek. Siłownie cieplne

Regulamin rekrutacji w projekcie,,grupa PoMocowa SENIORÓW - usługi społeczne osób starszych dla osób starszych

WYMAGANIA EDUKACYJNE SPOSOBY SPRAWDZANIA POSTĘPÓW UCZNIÓW WARUNKI I TRYB UZYSKANIA WYŻSZEJ NIŻ PRZEWIDYWANA OCENY ŚRÓDROCZNEJ I ROCZNEJ

ETAP I KONKURSU MATEMATYCZNEGO CONTINUUM

Twierdzenie Bayesa. Indukowane Reguły Decyzyjne Jakub Kuliński Nr albumu: 53623

TEORIA GIER W EKONOMII WYKŁAD 1: GRY W POSTACI EKSTENSYWNEJ I NORMALNEJ

Warszawa, r.

Bazy danych. Andrzej Łachwa, UJ, /15

Transkrypt:

lgorytmy kombinatoryczne w bioinformatyce wykład 7: drzewa filogenetyczne prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska rzewa filogenetyczne rzewa filogenetyczne odzwierciedlają powiązania ewolucyjne pomiędzy organizmami reprezentowanymi przez liście rzewo ukorzenione opisuje hipotetyczną historię ewolucji, z korzeniem odpowiadającym wspólnemu przodkowi Rozróżniamy dwa rodzaje danych: macierze znakowe i numeryczne ane znakowe reprezentują cechy porównywanych obiektów o skończonej liczbie stanów (np. kształt płetwy, liczba zębów) ane numeryczne poddawane są operacjom arytmetycznym, reprezentują odległości ewolucyjne pomiędzy obiektami (np. różnice w sekwencjach N) 2 rzewa dla macierzy znakowych Macierze znakowe mają n wierszy odpowiadających obiektom i m kolumn odpowiadających ich cechom. Pola macierzy zawierają stany cech przypisane danym obiektom Idealne drzewo filogenetyczne utworzone na podstawie macierzy znakowej powinno być pozbawione przejawów ewolucji równoległej i wstecznej. Innymi słowy, dany stan cechy przypisany jest do węzłów tworzących spójne poddrzewo Stany poszczególnych cech mogą być uporządkowane lub nie Problem konstrukcji idealnego drzewa filogenetycznego jest w ogólności NP-trudny. Łatwe obliczeniowo są jego warianty z ograniczoną liczbą stanów lub ograniczoną liczbą cech rzewa dla macierzy znakowych [G.F. stabrook i F.R. McMorris, Journal of Mathematical iology 4 (1977)] Problem konstrukcji idealnego drzewa filogenetycznego dla danych znakowych i dwóch rozpatrywanych cech Na podstawie macierzy konstruowany jest graf przecięcia stanów (SIG) Macierz stanów umożliwia konstrukcję drzewa idealnego, jeśli SIG jest acykliczny obiekty x 1 x 2 cechy x y x 1 y 2 x 2 y 2 x 2 y 1 x y x 1 y 2 F x 2 y x SIG y 2 y 1 y 4 rzewa dla macierzy znakowych lgorytm przekształca SIG w jego graf liniowy G, którego drzewo rozpinające stanowi szkielet wynikowego drzewa filogenetycznego. Pod węzły G podpinane są obiekty posiadające odpowiednią parę stanów x 1 x 2 y 2 y 1 SIG x x 1 y 2 x 2 y 1 x 2 y 2 y x y Gx 2 y x 1 y 2 x 2 y 1 x 2 y 2 x y x 2 y drzewo filogenetyczne F rzewa dla macierzy znakowych [S. Kannan i T. Warnow, SIM J. iscrete Math. (1992)] Problem konstrukcji idealnego drzewa filogenetycznego dla danych znakowych i trzech rozpatrywanych cech Macierz stanów umożliwia konstrukcję drzewa idealnego graf przecięcia stanów (SIG) może stać się c-triangulowany obiekty cechy c 1 c 2 c SIG x x 1 x 2 z x 1 x 2 x 1 y 2 x y 2 z y 1 y 2 y y 1 z 2 z y y 1 z 2 6 1

rzewa dla macierzy znakowych Zazwyczaj macierz opisująca obiekty uniemożliwia skonstruowanie drzewa idealnego. W takich przypadkach dąży się do konstrukcji drzewa optymalnego Najczęściej stosowane są kryteria: oszczędności, gdy minimalizowana jest liczba zmian stanów albo liczba wystąpień przypadków ewolucji równoległej i wstecznej, lub kompatybilności, gdy minimalizowana jest liczba cech (kolumn) usuwanych z macierzy w celu doprowadzenia do postaci idealnej Powyższe problemy optymalizacyjne są trudne obliczeniowo rzewa dla macierzy numerycznych Macierze numeryczne mają n wierszy i n kolumn odpowiadających obiektom. Ich pola zawierają odległości ewolucyjne pomiędzy obiektami Idealne drzewo filogenetyczne utworzone na podstawie macierzy numerycznej ma wszystkie obiekty w liściach, akrawędzie opisane są takimi odległościami, że suma wag krawędzi ścieżki dla każdej pary obiektów równa się ich odległości z macierzy O macierzy umożliwiającej konstrukcję takiego drzewa idealnego mówimy, że jest addytywna. lgorytm konstruujący drzewo dla macierzy addytywnej ma złożoność wielomianową 7 8 rzewa dla macierzy numerycznych Macierz numeryczna jest addytywna wtedy i tylko wtedy, gdy każde jej cztery obiekty można zaetykietować i, j, k, l w taki sposób, że d d d d d d ij kl Przykład macierzy addytywnej i drzewa idealnego 0 19 4 1 19 0 9 6 4 9 0 1 1 6 1 0 ik jl 7 il 12 jk 19 8 rzewa dla macierzy numerycznych Podobnie jak w przypadku macierzy znakowej, obecność błędów w macierzy numerycznej i poszukiwanie rozwiązania jak najbliższego idealnemu jest problemem NP-trudnym Niedokładność pomiaru odległości może niekiedy zostać wyrażona jako interwał określający dolne i górne ograniczenie wartości. Problem konstrukcji idealnego drzewa ultrametrycznego na podstawie dwóch macierzy z dolnymi i górnymi ograniczeniami jest łatwy obliczeniowo rzewo ultrametryczne jest idealne i dodatkowo posiada taką samą długość wszystkich ścieżek od liści do wyznaczonego korzenia. Każde trzy obiekty z macierzy można wtedy zaetykietować i, j, k w taki sposób, że d d d ik jk ij 9 10 rzewa filogenetyczne Odległość filogenetyczna pomiędzy organizmami mierzona jest zwykle wartością dopasowania sekwencji z nich pochodzących To podejście może nie dać dobrych rezultatów w przypadkach rearanżacji genomów, innych zaburzeń w ciągłości informacji genetycznej lub gdy sekwencje różnią się znacznie długością odatkowo problemem może być znaczna długość sekwencji lub nieodpowiedni dobór punktów za zgodność, niezgodność i spację Jednym z alternatywnych sposobów wyznaczania odległości jest analiza profili zawartości k-merów w sekwencjach Inna metoda pomija większość obecnej w sekwencjach informacji i opiera się na faktoryzacji LZ 11 rzewa filogenetyczne [H.H. Otu i K. Sayood, ioinformatics 19 (200)] W tym podejściu zaproponowano nowe miary odległości filogenetycznej wywiedzione z podobieństwa sekwencji po faktoryzacji metodą Lempel-Ziv Wykorzystano w nich wartości złożoności LZ, zdefiniowanej jako liczba komponentów będących rezultatem faktoryzacji Wartość każdej z miar zależy jedynie od złożoności LZ obliczanej dla porównywanych sekwencji oraz dla ich konkatenacji. Nie bierze się tu pod uwagę podobieństwa zbiorów fragmentów po faktoryzacji obu sekwencji. Oparto się na obserwacji mówiącej, że liczba komponentów jest znacznie niższa niż przeciętna, gdy zestawiane sekwencje są podobne 12 2

rzewa filogenetyczne [H.H. Otu i K. Sayood, ioinformatics 19 (200)] cd. Przykład S=TGT, fact(s)= T G T, c(s)=6 Q=GTT, fact(q)= G T T, c(q)= SQ=TGTGTT fact(sq)= T G T G T T, c(sq)=9 QS=GTTTGT fact(qs)= G T T T GT, c(qs)=10 rzewa filogenetyczne [H.H. Otu i K. Sayood, ioinformatics 19 (200)] cd. Miara I d 1 (S,Q) = max{ c(sq) c(s), c(qs) c(q) } Miara II d 2 (S,Q) = max{ c(sq) c(s), c(qs) c(q) } / max{ c(s), c(q) } Miara III d (S,Q) = c(sq) c(s) + c(qs) c(q) Miara IV d 4 (S,Q) = ( c(sq) c(s) + c(qs) c(q) ) / c(sq) Miara V d (S,Q) = ( c(sq) c(s) + c(qs) c(q) ) / ½ ( c(sq) + c(qs) ) 1 14 rzewa filogenetyczne [H.H. Otu i K. Sayood, ioinformatics 19 (200)] cd. Przykładowo, dla trzech sekwencji: S=TGT, Q=GTT, R=TT, ich odległość mierzona każdą z miar jest następująca: d 1 (S,Q) =, d 1 (Q,R) =, d 1 (R,S) = 4, d 2 (S,Q) = 0.8, d 2 (Q,R) = 0.6, d 2 (R,S) = 0.67, d (S,Q) = 8, d (Q,R) = 6, d (R,S) = 7, d 4 (S,Q) = 0.89, d 4 (Q,R) = 0.7, d 4 (R,S) = 0.78, d (S,Q) = 0.84, d (Q,R) = 0.7, d (R,S) = 0.78. Wszystkie miary dają tutaj taką samą relację w zbiorze. rzewa konsensusowe Różne metody konstrukcji drzew filogenetycznych mogą oczywiście zwrócić różne rezultaty dla tej samej macierzy wejściowej. ecyzja, które drzewo jest prawdziwe, stanowi złożony problem zęsto stosuje się podejście uzyskiwania jednej struktury dla wszystkich uzyskanych rezultatów, zgodnej w najwyższym stopniu ze strukturami częściowymi. Problem wyboru optymalnego drzewa konsensusowego jest w stosowanych sformułowaniach trudny obliczeniowo TGT TT GTT 1 16 rzewa konsensusowe Wybrane reguły składania drzew konsensusowych: ścisły konsensus tylko poddrzewa współdzielone przez wszystkie drzewa na wejściu algorytmu są używane do zbudowania drzewa wyjściowego reguła większościowa brane pod uwagę są te poddrzewa, które występują w większości drzew wejściowych reguła zachłanna reguła większościowa uzupełniona o możliwość dodania do drzewa także innych poddrzew, rozważanych w kolejności malejących częstości ich wystąpienia w zbiorze wejściowym rzewa konsensusowe [. onnard i in., Systematic iology (2006)] W przypadku rozbieżnych drzew metody konsensusowe mogą nie dać satysfakcjonującego wyniku. Zaproponowana metoda multipolar consensus generuje więcej niż jedno drzewo konsensusowe i różne drzewa składa z fragmentów niedających się pogodzić. Liczba drzew na wyjściu algorytmu jest minimalizowana, a do ich konstrukcji używa się wszystkie liczące się struktury obecne w zbiorze wejściowym (o liczbie wystąpień przekraczającej pewien założony próg odcięcia) utorzy sprowadzają rozwiązywany problem do znanego problemu kolorowania wierzchołkowego grafu. o jego rozwiązania stosują heurystykę zachłanną 17 18

rzewa konsensusowe [. onnard i in., Systematic iology (2006)] cd. Każde z ukorzenionych drzew na wejściu algorytmu może zostać podzielone na dwa poddrzewa na wiele sposobów. Każde z tych cięć pociąga za sobą podział zbioru liści drzewa na dwa podzbiory (rozważane są jedynie podzbiory od dwóch liści w górę) Takie same podzbiory można uzyskać z podziału różnych drzew wejściowych pomimo różnej topologii uzyskanych poddrzew. Podzbiory występujące częściej otrzymują wyższą wagę, równą liczbie wystąpień Podziały o wadze wyższej od założonego progu odcięcia biorą udział w tworzeniu grafu kompatybilności 19 rzewa konsensusowe [. onnard i in., Systematic iology (2006)] cd. W grafie kompatybilności wierzchołki odpowiadają podziałom zbioru obiektów (liści drzewa), nieskierowane krawędzie łączą wierzchołki, jeśli dane podziały nie są sprzeczne S2 =( ) =( ) 20 rzewa konsensusowe [. onnard i in., Systematic iology (2006)] cd. Każde drzewo wejściowe to klika w utworzonym grafie. Każda klika w grafie to możliwe drzewo konsensusowe na wyjściu W zaproponowanej metodzie poszukiwany jest najmniej liczny zbiór klik pokrywający graf kompatybilności Wierzchołki połączone ze wszystkimi innymi wierzchołkami tworzą tzw. klikę-rdzeń (ang. kernel clique) Wierzchołki wchodzące w skład kernel clique wystąpią we wszystkich drzewach wyjściowych, pozostałe wierzchołki w dokładnie jednym drzewie rzewa konsensusowe [. onnard i in., Systematic iology (2006)] cd. lgorytm multipolar consensus: Konstrukcja grafu kompatybilności Wykrycie kernel clique i usunięcie tych wierzchołków z grafu Znalezienie zbioru klik pokrywającego pozostałą część grafu: przekształcenie grafu w jego dopełnienie rozwiązanie problemu minimalnego pokolorowania dopełnienia grafu połączenie wierzchołków o tym samym kolorze w klikę odanie kernel clique do wszystkich znalezionych klik Utworzenie na ich podstawie drzew konsensusowych 21 22 rzewa konsensusowe rzewa konsensusowe [. onnard i in., Systematic iology (2006)] cd. Problem minimalnego pokolorowania grafu polega na pokolorowaniu wierzchołków grafu w taki sposób, że liczba użytych kolorów jest minimalna Problem ten, podobnie jak komplementarny do niego problem pokrycia grafu maksymalnymi klikami, jest silnie NP-trudny o rozwiązania problemu użyta została heurystyka zachłanna: wierzchołki grafu porządkowane są w kolejności malejącej wagi (liczby wystąpień danego podziału) po kolei przypisywane są im kolory wg zasady, że indeks koloru ma być jak najniższy przy zachowaniu różnych kolorów wierzchołków sąsiadujących Przykład działania metody onnard i in. Zbiór drzew wejściowych: 2 2 24 4

rzewa konsensusowe Przykład działania metody onnard i in. Lista podziałów wraz z liczbą ich wystąpień w zbiorze: rzewa konsensusowe Przykład działania metody onnard i in. Graf kompatybilności i jego dopełnienie dla liczby wystąpień 2: # 0 0 0 1 1 0 1 1 0 0 S 1 1 0 0 0 2 0 1 0 0 1 2 0 0 1 1 0 2 1 0 0 0 1 2 Graf kompatybilności przy założeniu liczby wystąpień : oraz przykładowe drzewo konsensusowe: S S 2 26 rzewa konsensusowe rzewa konsensusowe Przykład działania metody onnard i in. Rozwiązanie znalezione przez heurystykę zachłanną: kernel clique = S ztery kliki przekładające się na cztery drzewa konsensusowe:, S, 27 Rozwiązanie optymalne dla tej instancji: S 28