Grafy i sieci wybrane zagadnienia wykład 2: modele służące rekonstrukcji sekwencji

Podobne dokumenty
Algorytmy kombinatoryczne w bioinformatyce

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej

Matematyczne Podstawy Informatyki

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Graf. Definicja marca / 1

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

Czy istnieje zamknięta droga spaceru przechodząca przez wszystkie mosty w Królewcu dokładnie jeden raz?

KURS MATEMATYKA DYSKRETNA

Teoria grafów dla małolatów. Andrzej Przemysław Urbański Instytut Informatyki Politechnika Poznańska

Plan wykładów. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Matematyka dyskretna. Andrzej Łachwa, UJ, B/14

G. Wybrane elementy teorii grafów

Matematyka dyskretna. Andrzej Łachwa, UJ, /14

MATEMATYKA DYSKRETNA - MATERIAŁY DO WYKŁADU GRAFY

Reswkwencjonowanie vs asemblacja de novo

Podstawowe własności grafów. Wykład 3. Własności grafów

Matematyka dyskretna - 5.Grafy.

Algorytmika Problemów Trudnych

Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.

Suma dwóch grafów. Zespolenie dwóch grafów

Matematyczne Podstawy Informatyki

Digraf. 13 maja 2017

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

5c. Sieci i przepływy

Wybrane podstawowe rodzaje algorytmów

Matematyka dyskretna

6. Wstępne pojęcia teorii grafów

Programowanie dynamiczne i algorytmy zachłanne

Wersja pliku: v.10, 13 kwietnia 2019 zmiany: dodany punkt na temat testów do sprawozdania. Biologia, bioinformatyka:

Droga i cykl Eulera Przykłady zastosowania drogi i cyku Eulera Droga i cykl Hamiltona. Wykład 4. Droga i cykl Eulera i Hamiltona

Zastosowanie metod opartych na teorii grafów do rozwiązywania wybranych problemów analizy sekwencji nukleotydowych i aminokwasowych

Marta Kasprzak 1,2, Aleksandra Świercz 1,2

Matematyka dyskretna. Andrzej Łachwa, UJ, /14

Matematyczne Podstawy Informatyki

Algorytmy grafowe. Wykład 1 Podstawy teorii grafów Reprezentacje grafów. Tomasz Tyksiński CDV

Przykład planowania sieci publicznego transportu zbiorowego

Wstęp do Sztucznej Inteligencji

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

Algorytmiczna teoria grafów

a) 7 b) 19 c) 21 d) 34

Matematyka dyskretna. Andrzej Łachwa, UJ, /15

Opracowanie prof. J. Domsta 1

Wykład 10 Grafy, algorytmy grafowe

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

TEORIA GRAFÓW I SIECI

Programowanie sieciowe. Tadeusz Trzaskalik

Kolorowanie wierzchołków Kolorowanie krawędzi Kolorowanie regionów i map. Wykład 8. Kolorowanie

Teoria grafów dla małolatów

E ' E G nazywamy krawędziowym zbiorem

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Marek Miszczyński KBO UŁ. Wybrane elementy teorii grafów 1

Złożoność obliczeniowa klasycznych problemów grafowych

Grafy dla każdego. dr Krzysztof Bryś. Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska.

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

Streszczenie rozprawy doktorskiej Wojciecha Frohmberga pt. GRASShopPER - wydajna metoda asemblacji

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Wykład 4. Droga i cykl Eulera i Hamiltona

Algorytmy Równoległe i Rozproszone Część X - Algorytmy samostabilizujące.

Wprowadzenie do maszyny Turinga

Gramatyki grafowe. Dla v V, ϕ(v) etykieta v. Klasa grafów nad Σ - G Σ.

Wykłady z Matematyki Dyskretnej

Modele grafowe i algorytmy dla klasycznego problemu sekwencjonowania DNA przez hybrydyzację oraz dla jego odmiany z informacją o powtórzeniach

POISSONOWSKA APROKSYMACJA W SYSTEMACH NIEZAWODNOŚCIOWYCH

Elementy teorii grafów Elementy teorii grafów

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Teoria obliczeń i złożoność obliczeniowa

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Matematyka dyskretna. Andrzej Łachwa, UJ, A/14

Drzewa. Jeżeli graf G jest lasem, który ma n wierzchołków i k składowych, to G ma n k krawędzi. Własności drzew

Wprowadzenie Podstawy Fundamentalne twierdzenie Kolorowanie. Grafy planarne. Przemysław Gordinowicz. Instytut Matematyki, Politechnika Łódzka

Grafy etykietowalne i sieci Petriego w analizie procesów biochemicznych i biologicznych

Wstęp do programowania

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

TEORETYCZNE PODSTAWY INFORMATYKI

Schemat programowania dynamicznego (ang. dynamic programming)

Wyznaczanie optymalnej trasy problem komiwojażera

Sekwencjonowanie, przewidywanie genów

Matematyczne Podstawy Informatyki

Programowanie dynamiczne cz. 2

Grafy. Jeżeli, to elementy p i q nazywamy końcami krawędzi e. f a b c d e γ f {1} {1,2} {2,3} {2,3} {1,3}

6a. Grafy eulerowskie i hamiltonowskie

Załącznik 2a: Autoreferat

Zastosowanie metod opartych na teorii grafów do rozwiązywania wybranych problemów analizy sekwencji nukleotydowych i aminokwasowych

Algorytm Dijkstry znajdowania najkrótszej ścieżki w grafie

Grafy. Graf ( graf ogólny) to para G( V, E), gdzie:

Ilustracja S1 S2. S3 ściana zewnętrzna

AUTOMATYZACJA PROCESÓW DYSKRETNYCH 2012 ALGORYTM SEKWENCJONOWANIA DNA PRZY UŻYCIU CHIPU BINAR- NEGO DLA WSZYSTKICH TYPÓW BŁEDÓW HYBRYDYZACJI

Matematyka dyskretna. Andrzej Łachwa, UJ, /15

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

Algorytmy kombinatoryczne w bioinformatyce

Modele i narzędzia optymalizacji w systemach informatycznych zarządzania

PROBLEM: SEKWENCJONOWANIE DNA METODA: ALGORYTMY GRAFOWE

Algorytmy kombinatoryczne w bioinformatyce

Kombinatoryczne aspekty nieklasycznego sekwencjonowania DNA przez hybrydyzację

SPÓJNOŚĆ. ,...v k. }, E={v 1. v k. i v k. ,...,v k-1. }. Wierzchołki v 1. v 2. to końce ścieżki.

Kolorowanie wierzchołków

Teoria grafów podstawy. Materiały pomocnicze do wykładu. wykładowca: dr Magdalena Kacprzak

Transkrypt:

Grafy i sieci wybrane zagadnienia wykład 2: modele służące rekonstrukcji sekwencji prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Plan wykładu. Modele grafowe problemu sekwencjonowania DNA 2. Grafy quasi-sprzężone 3. Sekwencjonowanie z błędami przepływ w sieci, ścieżka komiwojażera 4. Modele grafowe problemu asemblacji DNA 5. Przepływ w sieci jako element rozwiązania problemu asemblacji Strona przedmiotu: http://www.cs.put.poznan.pl/mkasprzak/doc/doc.html 2

Poznawanie sekwencji genomowej Poznawanie sekwencji genomów na trzech poziomach mapowanie asemblacja AATAGCCTAGATGTGCATTAT sekwencjonowanie 3 Sekwencjonowanie przez hybrydyzację Eksperyment z biblioteką oligonukleotydów o stałej długości mikromacierz AAAA AACA AAAC AACC AAAG AACG AAAT AACT ACAA AGCCTAGTTGGACATTAT AACC 4

Sekwencjonowanie DNA badana sekwencja: CAGTCAGAGTA długość oligonukleotydów: 4 sekwencjonowanie bez błędów: {AGAG,AGTA,AGTC,CAGA, CAGT,GAGT,GTCA,TCAG} rozwiązania: CAGTCAGAGTA CAGT AGTC GTCA TCAG CAGA AGAG GAGT AGTA CAGAGTCAGTA CAGA AGAG GAGT AGTC GTCA TCAG CAGT AGTA 5 Sekwencjonowanie DNA [Y.P. Lysov i in., Doklady Akad. Nauk SSSR 303 (988) 508 5] Pierwszy algorytm odwołujący się do znanego problemu z teorii grafów Założenie o braku błędów w instancji Poszukiwanie ścieżki Hamiltona w grafie skierowanym, w którym oligonukleotydy odpowiadają wierzchołkom S = {AGAG,AGTA,AGTC,CAGA,CAGT,GAGT,GTCA,TCAG} Rozwiązania: CAGTCAGAGTA CAGAGTCAGTA 6

Sekwencjonowanie DNA [P.A. Pevzner, J. Biomol. Struct. Dyn. 7 (989) 63 73] Pierwszy algorytm rozwiązujący problem sekwencjonowania bez błędów w instancji w czasie wielomianowym Poszukiwanie ścieżki Eulera w grafie skierowanym, w którym oligonukleotydy odpowiadają łukom S = {AGAG,AGTA,AGTC,CAGA,CAGT,GAGT,GTCA,TCAG} Rozwiązania: CAGTCAGAGTA CAGAGTCAGTA 7 Grafy DNA [J. Błażewicz i in., Discrete Appl. Math. 98 (999) 9] Równoważność problemów modelowanych grafami z metod Lysova i in. oraz Pevznera stała się inspiracją do dalszych badań nad powiązaniami pomiędzy podobnymi klasami grafów Grafy z metody Lysova i in. (tzw. grafy DNA) należą do klasy grafów liniowych (krawędziowych) skierowanych, dla których problem poszukiwania ścieżki Hamiltona rozwiązywany jest w czasie wielomianowym. Ich grafami oryginalnymi są grafy z metody Pevznera Wierzchołki grafu liniowego G=(V,A) reprezentują łuki grafu oryginalnego H=(U,V), łuki w G łączą wierzchołek x z y, jeśli w H koniec łuku x pokrywa się z początkiem łuku y 8

Grafy DNA [J. Błażewicz i in., Discrete Appl. Math. 98 (999) 9] cd. W grafie liniowym (który jest skierowanym -grafem) zachodzi następująca własność dla każdej pary, Graf sprzężony (który jest skierowanym -grafem) to graf, w którym zachodzi dla każdej pary, własność 9 Grafy quasi-sprzężone [J. Błażewicz i in., Discrete Appl. Math. 56 (2008) 2573 2580] Poszukiwanie szerszej klasy grafów, dla których podobna transformacja byłaby możliwa, zainspirowane problemem izotermicznego sekwencjonowania przez hybrydyzację Graf quasi-sprzężony to skierowany graf, w którym zachodzi następująca własność dla każdej pary, Problem poszukiwania ścieżki/cyklu Hamiltona rozwiązywany jest w takich grafach w czasie wielomianowym 0

Grafy quasi-sprzężone [M. Kasprzak, Discrete Appl. Math. 234 (208) 86 92] m.in. modele sieci komunikacyjnych grafy Pevznera zwykłe podgrafy grafów DNA grafy Lysova i in. indukowane podgrafy grafów de Bruijna (α=4) grafy modelujące sekwencjonowanie izotermiczne Sekwencjonowanie DNA z błędami Przykłady błędów eksperymentalnych rodzaj błędu sekwencja zbiór oligonukleotydów S negatywny TTACATTCT {ACAT,ATTC,TACA,TTAC,TTCT} negatywny z powtórzeń TTACATTAC {ACAT,ATTA,CATT,TACA,TTAC} pozytywny TTACATT {ACAT,CATT,TACA,TTAC,TTAT} 2

Sekwencjonowanie DNA z błędami badana sekwencja: CAGTCAGAGTA długość sekwencji n = długość oligonukleotydów l = 4 sekwencjonowanie bez błędów: {AGAG,AGTA,AGTC,CAGA, CAGT,GAGT,GTCA,TCAG} błędy negatywne: AGAG,AGTC błąd pozytywny: TCAC sekwencjonowanie z błędami: {AGTA,CAGA,CAGT,GAGT, GTCA,TCAC,TCAG} przykładowe rozwiązania: CAGTCAGAGTA CAGAGTCAGTA CAGT CAGA GTCA GAGT TCAG GTCA CAGA TCAG GAGT CAGT AGTA AGTA 3 Sieć przepływowa Sieć przepływowa jest grafem skierowanym bez pętli własnych wierzchołków z wyróżnionymi dwoma wierzchołkami: źródłem s i ujściem t, takimi że in(s) = 0 i out(t) = 0 Każdy łuk takiej sieci ma określoną nieujemną pojemność Przepływ w sieci to funkcja φ przypisująca łukom taką wartość nieujemną, że nie przewyższa ona pojemności łuku i spełnione jest prawo zachowania przepływu: przepływ 2,,, =,, 2 pojemność 4

Sieć przepływowa Całkowita wartość przepływu w sieci wyrażona jest wzorem,,. Przepływ o maksymalnej wartości może być znaleziony np. algorytmem Forda-Fulkersona W sieci mogą być zdefiniowane także inne wagi, np.: koszty jednostkowego przepływu w łukach; odpowiedni problem może polegać na znalezieniu przepływu o zadanej wartości i minimalnym koszcie dolne ograniczenia na przepływ w łukach; problem polega na znalezieniu przepływu spełniającego oba ograniczenia Powyższe problemy rozwiązywane są w wielomianowym czasie 5 Sekwencjonowanie DNA z błędami [P.A. Pevzner, J. Biomol. Struct. Dyn. 7 (989) 63 73] Założenie o obecności błędów negatywnych w instancji Poszukiwanie brakujących oligonukleotydów jako przepływu o wartości m i minimalnym koszcie w sieci opartej na grafie dwudzielnym K m,m S = {AGTA,CAGA,CAGT,GAGT,GTCA,TCAG}, n =, l = 4 w łukach koszty, pojemność jednostkowa 6

Sekwencjonowanie DNA z błędami [P.A. Pevzner, J. Biomol. Struct. Dyn. 7 (989) 63 73] cd. Algorytm heurystyczny wielomianowy Niepowodzenie, gdy: przepływ o minimalnym koszcie okaże się mieć koszt inny niż liczba brakujących oligonukleotydów uzupełniony graf okaże się niespójny wierzchołek z brakującymi incydentnymi łukami nie zostanie wstawiony do grafu dwudzielnego (nie zawsze źródło niepowodzenia) 7 Sekwencjonowanie DNA z błędami Sformułowanie problemu klasycznego sekwencjonowania DNA przez hybrydyzację z błędami wersja optymalizacyjna Instancja: Zbiór oligonukleotydów o jednakowej długości l, długość sekwencji oryginalnej n. Odpowiedź: Sekwencja o długości n zawierająca maksymalną liczbę oligonukleotydów ze zbioru. Problem sekwencjonowania jest silnie NP-trudny, nawet po ograniczeniu błędów do tylko negatywnych lub tylko pozytywnych Nawet przy założeniu wiedzy o istnieniu unikalnego rozwiązania w instancji oba podproblemy pozostają trudne obliczeniowo 8

Sekwencjonowanie DNA z błędami [J. Błażewicz i in., J. Comput. Biol. 6 (999) 3 23] Pierwszy algorytm rozwiązujący problem z dowolnymi błędami negatywnymi i pozytywnymi w instancji Sformułowanie wariantu problemu selektywnego komiwojażera w grafie skierowanym pełnym n =, l = 4 maks. zysk koszt n l rozwiązania: CAGTCAGAGTA CAGAGTCAGTA 9 Asemblacja DNA Asemblacja jest kolejnym po sekwencjonowaniu etapem składania sekwencji genomowej. Jest problemem trudnym obliczeniowo Na skomplikowanie problemu asemblacji wpływają liczba i różnorodność błędów występujących w instancji, a także jej znaczny rozmiar 4 kontigi sekwencje 20

Asemblacja DNA Sekwencje mogą pochodzić z obu nici DNA i ich orientacja nie jest znana. Nukleotydy komplementarne: C G, A T Zawierają przekłamania przeniesione z etapu sekwencjonowania: insercje, delecje i zamiany nukleotydów Fragmenty składowe: TATGC, ATCAGCAC, GACTC, GTAGA, GCATCA Jedno z możliwych rozwiązań: TATGCAGCACTCTAC TATGC G-ACTC GCATCA TCTAC AT-CAGCAC GTAGA CATCT 2 Asemblacja DNA Trzy modele grafowe problemu asemblacji DNA model trójetapowy overlap-layout-consensus sekwencje w wierzchołkach model grafu dekompozycji sekwencje w seriach łuków o nakładających się etykietach model string graphs sekwencje w seriach łuków o rozłącznych etykietach Niezależnie od modelu, ze względu na nieznaną orientację, sekwencje wejściowe są na wstępie dublowane w sensie odwrotnie komplementarnych odpowiedników {TATGC, ATCAGCAC, GACTC, GTAGA, GCATCA, GCATA, GTGCTGAT, GAGTC, TCTAC, TGATGC} 22

Model overlap-layout-consensus Przypomina model grafowy z metody Lysova i in., lecz łuki mają wagi Wagi opisują stopień dopasowania sekwencji w wierzchołkach, zwykle długość oraz wartość dopasowania Dopuszczenie niedokładnych i/lub nierównej długości nałożeń sekwencji sprawia, że graf taki nie jest już w ogólności grafem liniowym, nie jest nawet grafem quasi-sprzężonym TGATAT CCATAT GACATA AATATA CAAATT nałożenia niedokładne i równe dopuszczony jeden błąd GATATA TGATAT ATATTA CCATAT CATATT nałożenia dokładne i nierówne 23 Model grafu dekompozycji Po wstępnej dekompozycji sekwencji na krótsze, nakładające się oligonukleotydy o równej długości konstruowany jest graf jak w metodzie Pevznera (częściowa utrata informacji) Łuki mogą mieć wagę reprezentującą liczbę sekwencji zawierających dany oligonukleotyd Błędy sekwencjonowania objawiają się charakterystycznymi strukturami w grafie o niskiej wadze, częściowo korygowanymi GATCTGCAC GATCAGCAC GATCTGCAC TCAG CAGC ATCA AGCA 3 2 2 2 2 3 GATC ATCT TCTG CTGC TGCA GCAC 24

Model string graphs [E.W. Myers, Bioinformatics 2 suppl. 2 (2005) ii79 ii85] Dopasowanie sekwencji jak w modelu trójetapowym, wystające odcinki z dopasowania każdej pary sekwencji tworzą łuki. Wierzchołki odpowiadają punktom początkowym i końcowym odcinków i nie są związane z żadnymi ciągami znaków Środkowe odcinki dopasowania reprezentowane są serią innych wystających odcinków 25 Model string graphs [E.W. Myers, Bioinformatics 2 suppl. 2 (2005) ii79 ii85] cd. Graf upraszczany jest przez usunięcie łuków nadrzędnych reprezentowanych przez inne łuki składowe. Ścieżki proste bez rozgałęzień są kompresowane do pojedynczych łuków Komplementarne odcinki genomu układają się w grafie w łuki przeciwrównoległe i zastępowane są dwukierunkową krawędzią 26

Model string graphs [E.W. Myers, Bioinformatics 2 suppl. 2 (2005) ii79 ii85] cd. W trakcie konstrukcji rozwiązania przechodzić przez wierzchołek można w obie strony, jednak z zachowaniem zasady, żeby zwrot przy wychodzeniu był przeciwny do zwrotu zaobserwowanego przy wchodzeniu do wierzchołka Przykład zawiera kilka możliwych rozwiązań, wszystkie oparte na uszeregowaniu a b c o różnych orientacjach sekwencji. W tym przypadku nie ma potrzeby wielokrotnego przechodzenia krawędzi. 27 Model string graphs [E.W. Myers, Bioinformatics 2 suppl. 2 (2005) ii79 ii85] cd. Oszacowanie, ile razy należy przejść daną krawędź, odbywa się na podstawie jej długości oraz pochodzenia. Odwzorowane jest wagami w grafie: dokładnie, gdy krawędź ma odpowiednio długą etykietę w odniesieniu do rozmiaru całej instancji 0, gdy krawędź nie powstała na drodze kompresji łuków ani nie jest potwierdzona relacją zawierania sekwencji wpp. Sekwencje wejściowe zawarte w innych nie biorą udziału w konstrukcji grafu, mają jednak wpływ na oszacowanie wwym. wag 28

Model string graphs [E.W. Myers, Bioinformatics 2 suppl. 2 (2005) ii79 ii85] cd. Przez rozwiązanie problemu przepływu w sieci ustala się, które krawędzie powinny być włączone więcej niż raz Przepływ ma spełniać dolne i górne ograniczenia na jego wartość określone w poprzednim kroku i charakteryzować się minimalnym kosztem, gdzie każda krawędź ma koszt równy Dodawany jest wierzchołek s połączony przeciwrównoległymi łukami o nieograniczonej pojemności i koszcie równym ze wszystkimi wierzchołkami grafu Każdy jednostkowy przepływ przez s interpretowany jest jako rozpoczęcie składania nowego kontigu 29 Model string graphs [E.W. Myers, Bioinformatics 2 suppl. 2 (2005) ii79 ii85] cd. s s 0 2 = Jeden wierzchołek s można zastąpić parą s, t z łukami skierowanymi w jedną stronę Przepływ o minimalnym koszcie zgodny ze zwrotami krawędzi 30