Algorytmy kombinatoryczne w bioinformatyce

Podobne dokumenty
prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej

Grafy i sieci wybrane zagadnienia wykład 2: modele służące rekonstrukcji sekwencji

Plan wykładów. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Wersja pliku: v.10, 13 kwietnia 2019 zmiany: dodany punkt na temat testów do sprawozdania. Biologia, bioinformatyka:

Marta Kasprzak 1,2, Aleksandra Świercz 1,2

PROBLEM: SEKWENCJONOWANIE DNA METODA: ALGORYTMY GRAFOWE

Teoria grafów dla małolatów. Andrzej Przemysław Urbański Instytut Informatyki Politechnika Poznańska

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

Zastosowanie metod opartych na teorii grafów do rozwiązywania wybranych problemów analizy sekwencji nukleotydowych i aminokwasowych

Grafy etykietowalne i sieci Petriego w analizie procesów biochemicznych i biologicznych

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Kombinatoryczne aspekty nieklasycznego sekwencjonowania DNA przez hybrydyzację

AUTOMATYZACJA PROCESÓW DYSKRETNYCH 2012 ALGORYTM SEKWENCJONOWANIA DNA PRZY UŻYCIU CHIPU BINAR- NEGO DLA WSZYSTKICH TYPÓW BŁEDÓW HYBRYDYZACJI

Modele grafowe i algorytmy dla klasycznego problemu sekwencjonowania DNA przez hybrydyzację oraz dla jego odmiany z informacją o powtórzeniach

Czy istnieje zamknięta droga spaceru przechodząca przez wszystkie mosty w Królewcu dokładnie jeden raz?

Matematyczne Podstawy Informatyki

Algorytmy kombinatoryczne w bioinformatyce

Matematyczne Podstawy Informatyki

Wybrane podstawowe rodzaje algorytmów

MATEMATYKA DYSKRETNA - MATERIAŁY DO WYKŁADU GRAFY

Matematyka dyskretna

Algorytmy grafowe. Wykład 1 Podstawy teorii grafów Reprezentacje grafów. Tomasz Tyksiński CDV

Teoria grafów dla małolatów

Załącznik 2a: Autoreferat

Graf. Definicja marca / 1

Zaawansowane programowanie

PRZEWODNIK PO PRZEDMIOCIE

Suma dwóch grafów. Zespolenie dwóch grafów

Algorytmy kombinatoryczne w bioinformatyce

KURS MATEMATYKA DYSKRETNA

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

Zastosowanie metod opartych na teorii grafów do rozwiązywania wybranych problemów analizy sekwencji nukleotydowych i aminokwasowych

Programowanie dynamiczne cz. 2

Wstęp do Sztucznej Inteligencji

Reswkwencjonowanie vs asemblacja de novo

Wykład 10 Grafy, algorytmy grafowe

Złożoność obliczeniowa klasycznych problemów grafowych

Algorytmika Problemów Trudnych

Matematyka dyskretna - 5.Grafy.

Schemat programowania dynamicznego (ang. dynamic programming)

G. Wybrane elementy teorii grafów

Opracowanie prof. J. Domsta 1

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Algorytmy kombinatoryczne w bioinformatyce

BIOINFORMATYKA I JEJ PERSPEKTYWY

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Programowanie dynamiczne i algorytmy zachłanne

Wyznaczanie optymalnej trasy problem komiwojażera

a) 7 b) 19 c) 21 d) 34

Matematyczne Podstawy Informatyki

Przybliżone algorytmy analizy ekspresji genów.

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

Modele i narzędzia optymalizacji w systemach informatycznych zarządzania

Załącznik Nr 5 do Zarz. Nr 33/11/ Kod przedmiotu:aisd2

TEORIA GRAFÓW I SIECI

Wstęp. Jak programować w DNA? Idea oraz przykład. Problem FSAT charakterystyka i rozwiązanie za pomocą DNA. Jak w ogólności rozwiązywać problemy

Grafy i sieci w informatyce - opis przedmiotu

Algorytmiczna teoria grafów

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

TEORIA GRAFÓW I SIECI

SZTUCZNA INTELIGENCJA

Struktury danych i złozoność obliczeniowa. Prof. dr hab. inż. Jan Magott

Droga i cykl Eulera Przykłady zastosowania drogi i cyku Eulera Droga i cykl Hamiltona. Wykład 4. Droga i cykl Eulera i Hamiltona

Harmonogramowanie przedsięwzięć

PRZEWODNIK PO PRZEDMIOCIE

Teoria obliczeń i złożoność obliczeniowa

Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.

PODSTAWY BIOINFORMATYKI

Wykład 4. Droga i cykl Eulera i Hamiltona

Teoria grafów podstawy. Materiały pomocnicze do wykładu. wykładowca: dr Magdalena Kacprzak

Elementy teorii grafów Elementy teorii grafów

Wykorzystanie algorytmów mrówkowych w dynamicznym problem

LABORATORIUM 7: Problem komiwojażera (TSP) cz. 2

Przykłady problemów optymalizacyjnych

Grafy etykietowalne i sieci Petriego w analizie procesów biochemicznych i biologicznych

LABORATORIUM 2: Przeszukiwanie grafów cz. 2 strategie heurystyczne

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Spis treści. Przedmowa. Wprowadzenie 0.1 Czym jest matematyka dyskretna?... XIII 0.2 Podstawowa literatura... XIV

Lista 6 Problemy NP-zupełne

Algorytmy i str ruktury danych. Metody algorytmiczne. Bartman Jacek

Kombinatoryczne problemy optymalizacyjne to problemy wyboru najlepszego rozwiązania z pewnego zbioru rozwiązań

Matematyka dyskretna. Andrzej Łachwa, UJ, B/14

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

Rozwiązywanie problemów metodą przeszukiwania

6a. Grafy eulerowskie i hamiltonowskie

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Teoretyczne podstawy algorytmów grafowych

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

Programowanie sieciowe. Tadeusz Trzaskalik

Podstawowe własności grafów. Wykład 3. Własności grafów

Plan. Zakres badań teorii optymalizacji. Teoria optymalizacji. Teoria optymalizacji a badania operacyjne. Badania operacyjne i teoria optymalizacji

E ' E G nazywamy krawędziowym zbiorem

Przykład planowania sieci publicznego transportu zbiorowego

Sprawozdanie do zadania numer 2

ĆWICZENIE 1: Przeszukiwanie grafów cz. 1 strategie ślepe

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD III: Problemy agenta

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Ogólne wiadomości o grafach

Transkrypt:

Algorytmy kombinatoryczne w bioinformatyce wykład 2: sekwencjonowanie cz. 1 prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej Poznawanie sekwencji genomów na trzech poziomach mapowanie asemblacja AATAGCCTAGATGTGCATTAT sekwencjonowanie 2

Sekwencjonowanie Sekwencjonowanie DNA jest procesem wyznaczania sekwencji nukleotydów pewnego fragmentu DNA. Fragmenty, w zależności od metody, osiągają długość od kilkudziesięciu do tysiąca nukleotydów Metody laboratoryjne sekwencjonowania na żelu nie wymagają metod obliczeniowych, są za to nieodporne na błędy eksperymentalne (SBH) korzysta z wyników eksperymentu hybrydyzacyjnego, czyli zbioru oligonukleotydów (spektrum) wchodzących (przeważnie) w skład badanego fragmentu DNA. Długość badanego fragmentu można zmierzyć w procesie elektroforezy. Zazwyczaj żadne dodatkowe informacje o elementach spektrum (np. typowanie błędów, częściowy porządek) nie są dostępne 3 SBH z biblioteką oligonukleotydów o stałej długości mikromacierz AAAA AACA AAAC AACC AAAG AACG AAAT AACT ACAA AGCCTAGTTGGACATTAT AACC 4

badana sekwencja: CCGACGT długość oligonukleotydów: 3 spektrum bez błędów: {ACG, CCG, CGA, CGT, GAC} Rozwiązanie: CCGACGT CCG CGA GAC ACG CGT 5 Błędy eksperymentu hybrydyzacyjnego: Błąd negatywny gdy oligonukleotyd obecny w sekwencji nie zostanie wykryty (a) oligonukleotyd występuje więcej niż raz w badanej sekwencji (b) oligonukleotyd komplementarny na skutek nieoptymalnych warunków eksperymentu nie połączy się z badaną sekwencją Błąd pozytywny gdy zostanie wskazany oligonukleotyd nieobecny w sekwencji (c) oligonukleotyd niezupełnie komplementarny połączy się z badaną sekwencją (d) zaszumiony obraz fluorescencyjny mikromacierzy Spektrum zazwyczaj zawiera oba rodzaje błędów 6

Przykłady błędów eksperymentu hybrydyzacyjnego sekwencja spektrum (a) TTACATTA {ACA,ATT,CAT,TAC,TTA} (b) TTACATTC {ACA,ATT,TAC,TTA,TTC} (c) TTACAT {ACA,CAT,TAC,TTA,TTT} (d) TTACAT {ACA,CAT,GAG,TAC,TTA} 7 badana sekwencja: CCGACGT długość oligonukleotydów: 3 spektrum bez błędów: {ACG, CCG, CGA, CGT, GAC} błąd negatywny: CGA błędy pozytywne: AAT,TTG spektrum z błędami: {AAT, ACG, CCG, CGT, GAC, TTG} Rozwiązanie: CCGACGT CCG GAC ACG CGT 8

Sformułowanie problemu klasycznego sekwencjonowania DNA przez hybrydyzację z błędami wersja optymalizacyjna Instancja: Zbiór oligonukleotydów o jednakowej długości l, długość sekwencji oryginalnej n. Odpowiedź: Sekwencja o długości n zawierająca maksymalną liczbę oligonukleotydów ze zbioru. Problem sekwencjonowania jest silnie NP-trudny, nawet po ograniczeniu błędów do tylko negatywnych lub tylko pozytywnych Nawet przy założeniu wiedzy o istnieniu unikalnego rozwiązania w instancji oba podproblemy pozostają trudne obliczeniowo 9 Prezentowane modele opisują warianty klasycznego problemu sekwencjonowania przez hybrydyzację, z założeniem braku błędów lub obecności błędów w instancji Wspólnym celem omawianych podejść jest znalezienie ścieżki w grafie skierowanym zbudowanym na podstawie instancji Etykiety przypisane wierzchołkom pozwalają jednoznacznie przekształcić ścieżkę w grafie na sekwencję nukleotydów 10

[W. Bains i G.C. Smith, J. Theor. Biol. 135 (1988)] Pierwszy algorytm rekonstruujący sekwencję oryginalną na podstawie spektrum Założenie o braku błędów w instancji Konstrukcja drzewa, w którym oligonukleotydy odpowiadają wierzchołkom (przeszukiwanie z nawrotami) ACTCTGG, S = {ACT, CTC, CTG, TCT, TGG} ACT CTG TGG CTC TCT CTG TGG 11 [Y.P. Lysov i in., Doklady Akademii Nauk SSSR 303 (1988)] Pierwszy algorytm odwołujący się do znanego problemu z teorii grafów Założenie o braku błędów w instancji Poszukiwanie ścieżki Hamiltona w grafie skierowanym, w którym oligonukleotydy odpowiadają wierzchołkom ACTCTGG, S = {ACT, CTC, CTG, TCT, TGG} ACT CTG TGG CTC TCT 12

[P.A. Pevzner, J. Biomol. Struct. Dyn. 7 (1989)] Pierwszy algorytm rozwiązujący problem sekwencjonowania bez błędów w instancji w czasie wielomianowym Poszukiwanie ścieżki Eulera w grafie skierowanym, w którym oligonukleotydy odpowiadają łukom ACTCTGG, S = {ACT, CTC, CTG, TCT, TGG} AC CT TC TG GG 13 [J. Błażewicz i in., Discrete Appl. Math. 98 (1999)] Pevzner w swoim artykule nie wyjaśnił, dlaczego możliwa była transformacja grafu, w którym poszukiwana jest ścieżka Hamiltona (problem w ogólności silnie NP-trudny) w graf, w którym poszukiwana jest ścieżka Eulera (problem obliczeniowo łatwy) Grafy z metody Lysova i in. (tzw. grafy DNA) należą do klasy grafów liniowych (krawędziowych) skierowanych, dla których problem poszukiwania ścieżki Hamiltona rozwiązywany jest w czasie wielomianowym. Ich grafami oryginalnymi są grafy z metody Pevznera Wierzchołki grafu liniowego G=(V,A) reprezentują łuki grafu oryginalnego H=(U,V), łuki w G łączą wierzchołek x z y jeśli w H koniec łuku x pokrywa się z początkiem łuku y 14

Zadanie Dla następującego spektrum bez błędów: S = {AGTA, AGTG, GTAC, GTAG, GTGT, TACC, TAGT, TGTA} należy skonstruować grafy metodami Lysova i in. oraz Pevznera, znaleźć w nich odpowiednie ścieżki reprezentujące rozwiązania i odczytać możliwe sekwencje wynikowe. Przeprowadzić transformację grafu liniowego z metody Lysova i in. do jego grafu oryginalnego. 15 [P.A. Pevzner, J. Biomol. Struct. Dyn. 7 (1989)] Założenie o obecności błędów negatywnych w instancji Algorytm heurystyczny wielomianowy Poszukiwanie brakujących oligonukleotydów jako przepływu o wartości m 1 i minimalnym koszcie w sieci opartej na grafie dwudzielnym K m,m ACTCTGG, S = {ACT, CTC, TCT, TGG} AC CT TC s CT 2 2 1 AC t TG GG GG 2 TG 16

[P.A. Pevzner, J. Biomol. Struct. Dyn. 7 (1989)] cd. Niepowodzenie, gdy przepływ o minimalnym koszcie okaże się mieć koszt inny niż liczba brakujących oligonukleotydów Niepowodzenie, gdy uzupełniony graf okaże się niespójny Ewentualne niepowodzenie, gdy wierzchołek z brakującymi incydentnymi łukami nie zostanie wstawiony do grafu dwudzielnego Zadanie Dla następującego spektrum z błędami negatywnymi: S = {AGTA, AGTG, GTAG, GTGT, TACC, TGTA} należy skonstruować rozwiązanie metodą Pevznera. 17 [J. Błażewicz i in., J. Comput. Biol. 6 (1999)] Pierwszy algorytm rozwiązujący problem z dowolnymi błędami negatywnymi i pozytywnymi w instancji Sformułowanie wariantu problemu selektywnego komiwojażera w grafie skierowanym pełnym ACTCTGG, S = {ACT, CTC, GCC, TCT, TGG} GCC GCC maks. zysk koszt n l CTC TCT CTC TCT ACT TGG ACT TGG 18