prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej

Podobne dokumenty
Algorytmy kombinatoryczne w bioinformatyce

Grafy i sieci wybrane zagadnienia wykład 2: modele służące rekonstrukcji sekwencji

Plan wykładów. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Wersja pliku: v.10, 13 kwietnia 2019 zmiany: dodany punkt na temat testów do sprawozdania. Biologia, bioinformatyka:

Marta Kasprzak 1,2, Aleksandra Świercz 1,2

Metody odczytu kolejności nukleotydów - sekwencjonowania DNA

Grafy etykietowalne i sieci Petriego w analizie procesów biochemicznych i biologicznych

PROBLEM: SEKWENCJONOWANIE DNA METODA: ALGORYTMY GRAFOWE

Modele grafowe i algorytmy dla klasycznego problemu sekwencjonowania DNA przez hybrydyzację oraz dla jego odmiany z informacją o powtórzeniach

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Kombinatoryczne aspekty nieklasycznego sekwencjonowania DNA przez hybrydyzację

Wstęp. Jak programować w DNA? Idea oraz przykład. Problem FSAT charakterystyka i rozwiązanie za pomocą DNA. Jak w ogólności rozwiązywać problemy

Teoria grafów dla małolatów. Andrzej Przemysław Urbański Instytut Informatyki Politechnika Poznańska

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

AUTOMATYZACJA PROCESÓW DYSKRETNYCH 2012 ALGORYTM SEKWENCJONOWANIA DNA PRZY UŻYCIU CHIPU BINAR- NEGO DLA WSZYSTKICH TYPÓW BŁEDÓW HYBRYDYZACJI

Matematyczne Podstawy Informatyki

Zastosowanie metod opartych na teorii grafów do rozwiązywania wybranych problemów analizy sekwencji nukleotydowych i aminokwasowych

Czy istnieje zamknięta droga spaceru przechodząca przez wszystkie mosty w Królewcu dokładnie jeden raz?

Hybrydyzacja kwasów nukleinowych

Zaawansowane programowanie

Wybrane podstawowe rodzaje algorytmów

Hybrydyzacja kwasów nukleinowych

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

Matematyczne Podstawy Informatyki

Algorytmy kombinatoryczne w bioinformatyce

Matematyka dyskretna

PRZEWODNIK PO PRZEDMIOCIE

Techniki molekularne w mikrobiologii SYLABUS A. Informacje ogólne

Reswkwencjonowanie vs asemblacja de novo

Metody badania polimorfizmu/mutacji DNA. Aleksandra Sałagacka Pracownia Diagnostyki Molekularnej i Farmakogenomiki Uniwersytet Medyczny w Łodzi

Analizy wielkoskalowe w badaniach chromatyny

Modele grafowe i algorytmy dla klasycznego problemu sekwencjonowania DNA przez hybrydyzację oraz dla jego odmiany z informacją o powtórzeniach

MATEMATYKA DYSKRETNA - MATERIAŁY DO WYKŁADU GRAFY

TEORIA GRAFÓW I SIECI

BIOINFORMATYKA I JEJ PERSPEKTYWY

Biologia medyczna, materiały dla studentów

Zastosowanie metod opartych na teorii grafów do rozwiązywania wybranych problemów analizy sekwencji nukleotydowych i aminokwasowych

Programowanie dynamiczne cz. 2

Załącznik 2a: Autoreferat

KURS MATEMATYKA DYSKRETNA

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU PCR sposób na DNA.

G. Wybrane elementy teorii grafów

Wstęp do Sztucznej Inteligencji

Matematyczne Podstawy Informatyki

a) 7 b) 19 c) 21 d) 34

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

Graf. Definicja marca / 1

Opracowanie prof. J. Domsta 1

Wyznaczanie optymalnej trasy problem komiwojażera

Modele i narzędzia optymalizacji w systemach informatycznych zarządzania

Suma dwóch grafów. Zespolenie dwóch grafów

Algorytmiczna teoria grafów

Algorytmy kombinatoryczne w bioinformatyce

Grafy i sieci w informatyce - opis przedmiotu

Przybliżone algorytmy analizy ekspresji genów.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Podstawowe techniki inżynierii genetycznej. Streszczenie

Algorytmy grafowe. Wykład 1 Podstawy teorii grafów Reprezentacje grafów. Tomasz Tyksiński CDV

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Ćwiczenia 1 Wirtualne Klonowanie Prowadzący: mgr inż. Joanna Tymeck-Mulik i mgr Lidia Gaffke. Część teoretyczna:

Teoria grafów dla małolatów

Złożoność obliczeniowa klasycznych problemów grafowych

Wykład 10 Grafy, algorytmy grafowe

Matematyka dyskretna - 5.Grafy.

Algorytmika Problemów Trudnych

Schemat programowania dynamicznego (ang. dynamic programming)

Planowanie przejazdu przez zbiór punktów. zadania zrobotyzowanej inspekcji

Tytuł: Metody sekwencjonowania DNA. Autor: Magdalena Maniecka. Data publikacji:

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

LABORATORIUM 2: Przeszukiwanie grafów cz. 2 strategie heurystyczne

Programowanie dynamiczne i algorytmy zachłanne

Algorytmy kombinatoryczne w bioinformatyce

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

SZTUCZNA INTELIGENCJA

Jaka jest lokalizacja genu na chromosomie? Jakie jest jego sąsiedztwo?

Droga i cykl Eulera Przykłady zastosowania drogi i cyku Eulera Droga i cykl Hamiltona. Wykład 4. Droga i cykl Eulera i Hamiltona

METODY MOLEKULARNE STOSOWANE W TAKSONOMII

Algorytmy i str ruktury danych. Metody algorytmiczne. Bartman Jacek

Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.

Transformacja pośrednia składa się z trzech etapów:

Metody analizy genomu

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

TEORIA GRAFÓW I SIECI

Wykorzystanie algorytmów mrówkowych w dynamicznym problem

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Powodzenie reakcji PCR wymaga właściwego doboru szeregu parametrów:

Wykład 4. Droga i cykl Eulera i Hamiltona

Elementy teorii grafów Elementy teorii grafów

Sekwencjonowanie DNA

LABORATORIUM 7: Problem komiwojażera (TSP) cz. 2

Teoretyczne podstawy algorytmów grafowych

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Teoria grafów podstawy. Materiały pomocnicze do wykładu. wykładowca: dr Magdalena Kacprzak

7. Metody molekularne jako źródło informacji botanicznej i lichenologicznej

Harmonogramowanie przedsięwzięć

Sekwencjonowanie, przewidywanie genów

Teoria obliczeń i złożoność obliczeniowa

Załącznik Nr 5 do Zarz. Nr 33/11/ Kod przedmiotu:aisd2

Programowanie sieciowe. Tadeusz Trzaskalik

Bioinformatyka VI. Przetwarzanie wielkich zbiorów danych

Transkrypt:

Bioinformatyka wykład 2: sekwencjonowanie cz. 1 prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej Poznawanie sekwencji genomów na trzech poziomach mapowanie asemblacja AATAGCCTAGATGTGCATTAT sekwencjonowanie 2 1

Sekwencjonowanie Sekwencjonowanie DNA jest procesem wyznaczania sekwencji nukleotydów pewnego fragmentu DNA. Fragmenty, w zależności od metody, osiągają długość od kilkudziesięciu do tysiąca nukleotydów Metody laboratoryjne sekwencjonowania na żelu nie wymagają metod obliczeniowych, są za to nieodporne na błędy eksperymentalne Przez dziesięciolecia w powszechnym użyciu były metody laboratoryjne Maxama i Gilberta (1977) oraz Sangera i in. (1977), wykorzystujące elektroforezę żelową do odczytania wyniku sekwencjonowania fragmentu DNA 3 Sekwencjonowanie [A.M. Maxam i W. Gilbert, Proc. Natl. Acad. Sci. USA 74 (1977)] Metoda chemicznej degradacji W chemicznych reakcjach kopie badanego DNA przerywane są po nukleotydach: A (+ częściowo G), G (+ częściowo A), C, C+T. Najpierw dane nukleotydy są uszkadzane, po czym łańcuchy pękają w słabszych miejscach Fragmenty wynikowe znakowane radioaktywnie poddawane są elektroforezie żelowej. Na zdjęciu sekwencja GGCACGACAGGTTTCCCGACTG GAAAGCGGGCAGTGAGCGCAACGCAATT AATGTGAGTTAG 4 2

Sekwencjonowanie [F. Sanger i in., Proc. Natl. Acad. Sci. USA 74 (1977)] Sekwencjonowanie przez syntezę Na jednej nici DNA, począwszy od startera, syntetyzowana jest druga nić z użyciem polimerazy DNA, nukleotydów i zmodyfikowanych nukleotydów uniemożliwiających dalszą rozbudowę Fragmenty wynikowe znakowane radioaktywnie poddawane są elektroforezie żelowej 5 Hybrydyzacja to proces łączenia komplementarnych nici kwasów nukleinowych w dwuniciowe kompleksy W eksperymencie hybrydyzacyjnym wykorzystywana jest skłonność jednoniciowych DNA do hybrydyzacji. Przeprowadzony z biblioteką oligonukleotydów i jednoniciowymi kopiami badanego DNA dostarcza informację o oligonukleotydach wchodzących w skład badanego łańcucha (SBH) polega na odtworzeniu badanej sekwencji DNA na podstawie takiego zbioru oligonukleotydów (spektrum) Długość badanego DNA można zmierzyć w procesie elektroforezy. W klasycznym modelu przyjmuje się, że żadne dodatkowe informacje o elementach spektrum nie są dostępne. Niektóre modele uwzględniają przybliżoną wiedzę o liczbie ich wystąpień 6 3

SBH z biblioteką oligonukleotydów o stałej długości mikromacierz AAAA AACA AAAC AACC AAAG AACG AAAT AACT ACAA AGCCTAGTTGGACATTAT AACC 7 badana sekwencja: CCGACGT długość oligonukleotydów: 3 spektrum bez błędów: {ACG, CCG, CGA, CGT, GAC} Rozwiązanie: CCGACGT CCG CGA GAC ACG CGT 8 4

Błędy eksperymentu hybrydyzacyjnego: Błąd negatywny gdy oligonukleotyd obecny w sekwencji nie zostanie wykryty (a) oligonukleotyd występuje więcej niż raz w badanej sekwencji (b) oligonukleotyd komplementarny na skutek nieoptymalnych warunków eksperymentu nie połączy się z badaną sekwencją Błąd pozytywny gdy zostanie wskazany oligonukleotyd nieobecny w sekwencji (c) oligonukleotyd niezupełnie komplementarny połączy się z badaną sekwencją (d) zaszumiony obraz fluorescencyjny mikromacierzy Spektrum zazwyczaj zawiera oba rodzaje błędów 9 Przykłady błędów eksperymentu hybrydyzacyjnego sekwencja spektrum (a) TTACATTA {ACA,ATT,CAT,TAC,TTA} (b) TTACATTC {ACA,ATT,TAC,TTA,TTC} (c) TTACAT {ACA,CAT,TAC,TTA,TTT} (d) TTACAT {ACA,CAT,GAG,TAC,TTA} 10 5

badana sekwencja: CCGACGT długość oligonukleotydów: 3 spektrum bez błędów: {ACG, CCG, CGA, CGT, GAC} błąd negatywny: CGA błędy pozytywne: AAT,TTG spektrum z błędami: {AAT, ACG, CCG, CGT, GAC, TTG} Rozwiązanie: CCGACGT CCG GAC ACG CGT 11 Sformułowanie problemu klasycznego sekwencjonowania DNA przez hybrydyzację z błędami wersja optymalizacyjna Instancja: Zbiór oligonukleotydów o jednakowej długości l, długość sekwencji oryginalnej n. Odpowiedź: Sekwencja o długości n zawierająca maksymalną liczbę oligonukleotydów ze zbioru. Problem sekwencjonowania jest silnie NP-trudny, nawet po ograniczeniu błędów do tylko negatywnych lub tylko pozytywnych Nawet przy założeniu wiedzy o istnieniu unikalnego rozwiązania w instancji oba podproblemy pozostają trudne obliczeniowo 12 6

Prezentowane modele opisują warianty klasycznego problemu sekwencjonowania przez hybrydyzację, z założeniem braku lub obecności błędów w instancji Wspólnym celem omawianych podejść jest znalezienie ścieżki w grafie skierowanym zbudowanym na podstawie instancji Etykiety przypisane wierzchołkom pozwalają jednoznacznie przekształcić ścieżkę w grafie na sekwencję nukleotydów 13 [W. Bains i G.C. Smith, J. Theor. Biol. 135 (1988)] Pierwszy algorytm rekonstruujący sekwencję oryginalną na podstawie spektrum Założenie o braku błędów w instancji Konstrukcja drzewa, w którym oligonukleotydy odpowiadają wierzchołkom (przeszukiwanie z nawrotami) ACTCTGG, S = {ACT, CTC, CTG, TCT, TGG} ACT CTG TGG CTC TCT CTG TGG 14 7

[Y.P. Lysov i in., Doklady Akademii Nauk SSSR 303 (1988)] Pierwszy algorytm odwołujący się do znanego problemu z teorii grafów Założenie o braku błędów w instancji Poszukiwanie ścieżki Hamiltona w grafie skierowanym, w którym oligonukleotydy odpowiadają wierzchołkom ACTCTGG, S = {ACT, CTC, CTG, TCT, TGG} ACT CTG TGG CTC TCT 15 [P.A. Pevzner, J. Biomol. Struct. Dyn. 7 (1989)] Pierwszy algorytm rozwiązujący problem sekwencjonowania bez błędów w instancji w czasie wielomianowym Poszukiwanie ścieżki Eulera w grafie skierowanym, w którym oligonukleotydy odpowiadają łukom ACTCTGG, S = {ACT, CTC, CTG, TCT, TGG} AC CT TC TG GG 16 8

[J. Błażewicz i in., Discrete Appl. Math. 98 (1999)] Pevzner w swoim artykule nie wyjaśnił, dlaczego możliwa była transformacja grafu, w którym poszukiwana jest ścieżka Hamiltona (problem w ogólności silnie NP-trudny) w graf, w którym poszukiwana jest ścieżka Eulera (problem obliczeniowo łatwy) Grafy z metody Lysova i in. (tzw. grafy DNA) należą do klasy grafów liniowych (krawędziowych) skierowanych, dla których problem poszukiwania ścieżki Hamiltona rozwiązywany jest w czasie wielomianowym. Ich grafami oryginalnymi są grafy z metody Pevznera Wierzchołki grafu liniowego G=(V,A) reprezentują łuki grafu oryginalnego H=(U,V), łuki w G łączą wierzchołek x z y, jeśli w H koniec łuku x pokrywa się z początkiem łuku y 17 Zadanie Dla następującego spektrum bez błędów: S = {AGAG, AGTA, AGTG, CAGT, CCAG, GAGT, GTAC, GTAG, GTGT, TACC, TAGA, TGTA} należy skonstruować grafy metodami Lysova i in. oraz Pevznera, znaleźć w nich odpowiednią ścieżkę reprezentującą rozwiązanie i odczytać możliwe sekwencje wynikowe. Przeprowadzić transformację grafu liniowego z metody Lysova i in. do jego grafu oryginalnego. 18 9

[P.A. Pevzner, J. Biomol. Struct. Dyn. 7 (1989)] Założenie o obecności błędów negatywnych w instancji Algorytm heurystyczny zwracający rozwiązanie w czasie wielomianowym Poszukiwanie brakujących oligonukleotydów jako przepływu o wartości m 1 w sieci opartej na grafie dwudzielnym K m,m ACTCTGG, S = {ACT, CTC, TCT, TGG} AC CT TG TC GG s CT GG 2 2 2 1 AC TG t 19 [P.A. Pevzner, J. Biomol. Struct. Dyn. 7 (1989)] cd. Niepowodzenie, gdy przepływ o minimalnym koszcie okaże się mieć koszt inny niż liczba brakujących oligonukleotydów Niepowodzenie, gdy uzupełniony graf okaże się niespójny Niepowodzenie, gdy wierzchołek z brakującymi incydentnymi łukami nie zostanie wstawiony do grafu dwudzielnego 20 10

[J. Błażewicz i in., J. Comput. Biol. 6 (1999)] Pierwszy algorytm rozwiązujący problem z dowolnymi błędami negatywnymi i pozytywnymi w instancji Sformułowanie wariantu problemu selektywnego komiwojażera w grafie skierowanym pełnym ACTCTGG, S = {ACT, CTC, GCC, TCT, TGG} GCC GCC maks. zysk koszt n l CTC TCT CTC TCT ACT TGG ACT TGG 21 11