PROBLEM: SEKWENCJONOWANIE DNA METODA: ALGORYTMY GRAFOWE

Podobne dokumenty
Czy istnieje zamknięta droga spaceru przechodząca przez wszystkie mosty w Królewcu dokładnie jeden raz?

Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.

Algorytmy kombinatoryczne w bioinformatyce

Matematyka dyskretna

MATEMATYKA DYSKRETNA - MATERIAŁY DO WYKŁADU GRAFY

Suma dwóch grafów. Zespolenie dwóch grafów

Digraf. 13 maja 2017

Opracowanie prof. J. Domsta 1

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

Matematyczne Podstawy Informatyki

Graf. Definicja marca / 1

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej

Złożoność obliczeniowa klasycznych problemów grafowych

Matematyczne Podstawy Informatyki

a) 7 b) 19 c) 21 d) 34

Teoria grafów dla małolatów. Andrzej Przemysław Urbański Instytut Informatyki Politechnika Poznańska

Wykład 4. Droga i cykl Eulera i Hamiltona

Problem skoczka szachowego i inne cykle Hamiltona na szachownicy n x n

Droga i cykl Eulera Przykłady zastosowania drogi i cyku Eulera Droga i cykl Hamiltona. Wykład 4. Droga i cykl Eulera i Hamiltona

Elementy teorii grafów Elementy teorii grafów

Matematyka dyskretna. Andrzej Łachwa, UJ, /14

KURS MATEMATYKA DYSKRETNA

Algorytmiczna teoria grafów

Algorytmy grafowe. Wykład 1 Podstawy teorii grafów Reprezentacje grafów. Tomasz Tyksiński CDV

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Kolorowanie wierzchołków Kolorowanie krawędzi Kolorowanie regionów i map. Wykład 8. Kolorowanie

Matematyka dyskretna. Andrzej Łachwa, UJ, /15

Grafy i Zastosowania. 9: Digrafy (grafy skierowane) c Marcin Sydow

Segmentacja obrazów cyfrowych z zastosowaniem teorii grafów - wstęp. autor: Łukasz Chlebda

Matematyka dyskretna. Andrzej Łachwa, UJ, B/14

G. Wybrane elementy teorii grafów

1) Grafy eulerowskie własnoci algorytmy. 2) Problem chiskiego listonosza

Grafy dla każdego. dr Krzysztof Bryś. Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska.

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

E ' E G nazywamy krawędziowym zbiorem

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Algorytmy z powracaniem

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Wprowadzenie Podstawy Fundamentalne twierdzenie Kolorowanie. Grafy planarne. Przemysław Gordinowicz. Instytut Matematyki, Politechnika Łódzka

Drzewa. Jeżeli graf G jest lasem, który ma n wierzchołków i k składowych, to G ma n k krawędzi. Własności drzew

Algorytmy Równoległe i Rozproszone Część V - Model PRAM II

Matematyka dyskretna. Andrzej Łachwa, UJ, /14

6a. Grafy eulerowskie i hamiltonowskie

TEORIA GRAFÓW I SIECI

Grafy (3): drzewa. Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków. UTP Bydgoszcz

Teoria grafów podstawy. Materiały pomocnicze do wykładu. wykładowca: dr Magdalena Kacprzak

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Algorytmy i Struktury Danych.

Programowanie dynamiczne i algorytmy zachłanne

Kombinowanie o nieskończoności. 2. Wyspy, mosty, mapy i kredki materiały do ćwiczeń

MATEMATYKA DYSKRETNA - KOLOKWIUM 2

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

SPÓJNOŚĆ. ,...v k. }, E={v 1. v k. i v k. ,...,v k-1. }. Wierzchołki v 1. v 2. to końce ścieżki.

Ilustracja S1 S2. S3 ściana zewnętrzna

Kolorowanie wierzchołków

Matematyka dyskretna - 5.Grafy.

Grafem nazywamy strukturę G = (V, E): V zbiór węzłów lub wierzchołków, Grafy dzielimy na grafy skierowane i nieskierowane:

Ogólne wiadomości o grafach

Wykład 7. Algorytmy grafowe

Matematyczne Podstawy Informatyki

6. Wstępne pojęcia teorii grafów

TEORIA GRAFÓW I SIECI

Teoria grafów II. Materiały pomocnicze do wykładu. wykładowca: dr Magdalena Kacprzak

Grafy Alberta-Barabasiego

Wykłady z Matematyki Dyskretnej

Marek Miszczyński KBO UŁ. Wybrane elementy teorii grafów 1

Algorytmika Problemów Trudnych

Wyznaczanie optymalnej trasy problem komiwojażera

Matematyka dyskretna. Andrzej Łachwa, UJ, /15

TEORETYCZNE PODSTAWY INFORMATYKI

Matematyka dyskretna - 7.Drzewa

Wykład 10 Grafy, algorytmy grafowe

0. ELEMENTY LOGIKI. ALGEBRA BOOLE A

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

Tworzenie gier na urządzenia mobilne

Wykłady z Matematyki Dyskretnej

Matematyka dyskretna. Andrzej Łachwa, UJ, A/14

Grafy i Zastosowania. 5: Drzewa Rozpinające. c Marcin Sydow. Drzewa rozpinające. Cykle i rozcięcia fundamentalne. Zastosowania

Siedem cudów informatyki czyli o algorytmach zdumiewajacych

Podstawowe pojęcia dotyczące drzew Podstawowe pojęcia dotyczące grafów Przykłady drzew i grafów

Teoria grafów dla małolatów

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

Algorytmiczna teoria grafów

PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE

Algorytmy grafowe. Wykład 2 Przeszukiwanie grafów. Tomasz Tyksiński CDV

Wersja pliku: v.10, 13 kwietnia 2019 zmiany: dodany punkt na temat testów do sprawozdania. Biologia, bioinformatyka:

KURS MATEMATYKA DYSKRETNA

ĆWICZENIE NR 1 WPROWADZENIE DO INFORMATYKI

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

Modele grafowe i algorytmy dla klasycznego problemu sekwencjonowania DNA przez hybrydyzację oraz dla jego odmiany z informacją o powtórzeniach

Algorytmy Równoległe i Rozproszone Część X - Algorytmy samostabilizujące.

Metody przeszukiwania

Matematyka dyskretna - 6.Grafy

Egzamin, AISDI, I termin, 18 czerwca 2015 r.

Grafy. Graf ( graf ogólny) to para G( V, E), gdzie:

Przykładowe rozwiązania

Rzut oka na współczesną matematykę spotkanie 9-10: Zagadnienie czterech barw i teoria grafów

Matematyka Dyskretna. Andrzej Szepietowski. 25 czerwca 2002 roku

Transkrypt:

F : PROBLEM: SEKWENCJONOWANIE DNA METODA: ALGORYTMY GRAFOWE I. Grafy i genetyka II. Sekwencjonowanie DNA III. Macierze DNA IV. Sekwencjonowanie przez hybrydyzacje DNA V. Sekwencjonowanie i identyfikacja białka Grafy D. Makowiec: F: sekwencjonowanie DNA 55 Dwie konfiguracje z czterema konikami szachowymi na szachownicy 3x3. Czy można, korzystając z dozwolonych ruchów dla konika szachowego, konfigurację (a) przekształcić na konfigurację (b)? odpowiedź jest NIE Grafy reprezentujące sytuację z szachownicy. Dowolny konik może poruszać się jedynie zgodnie z zaznaczonymi krawędziami.

Grafy D. Makowiec: F: sekwencjonowanie DNA 56 Inna szachownica: 2 4 6 7 9 Dostępne ruchy to za mało, by ocenić czy konie mogą tu przeskoczyć przez siebie, zmienić kolejność Inteligentna reprezentacja możliwych operacji pozwala to ocenić- tak tu konie mogą zmienić względem siebie kolejność. Grafy D. Makowiec: F: sekwencjonowanie DNA 57 Obsesja Eulera (735r) : Problem mostów Królewca: czy można tak zaplanować spacer po mieście, aby przejść po każdym moście i to tylko raz? 2 4 3 Mapa miasta graf G(V, E ): wierzchołki V: suchy ląd, krawędzie E: mosty 2 3 4 2

Grafy D. Makowiec: F: sekwencjonowanie DNA 58 Cykl Eulera Czy ten graf ma cykl Eulera? Odpowiedzi Eulera: Tw : Skończony graf spójny, w którym każdy wierzchołek ma stopień parzysty, ma cykl Eulera Tw 2: Skończony graf spójny, mający dokładnie dwa wierzchołki stopnia nieparzystego, ma drogę Eulera 9 0 2 8 2 7 3 6 4 5 Grafy D. Makowiec: F: sekwencjonowanie DNA 59 Algorytm Fleury ego : Input zbiór wierzchołków V (G) i krawędzi skierowanych E(G) grafu G Output cykl (droga) S Eulera O( E ) 2 Wybierz dowolny wierzchołek nieparzystego stopnia, jeśli istnieje. W przeciwnym wypadku wybierz dowolny v. S=v. Jeśli z v nie wychodzi żadna krawędź, zatrzymaj się. 3 4 5 Jeśli z v wychodzi dokładnie jedna krawędź e do w, to dołącz w do drogi S= S+w, popraw V= V-{v}, E= E-{e} i przejdź do 5. Jeśli została więcej niż jedna krawędź, to wybierz taką e z v do w, po usunięciu której graf pozostaje spójny. Dołącz w do drogi, S= S+w, popraw E= E-{e} przyjmij v = w Wróć do 2. Cykl Eulera w powyższym grafie:,2,3,4,5,6,3,7,2,9,,8,7,2,,0, 9, 3

Grafy D. Makowiec: F: sekwencjonowanie DNA 60 Graf skierowany spójny ma cykl Eulera wtedy i tylko wtedy, gdy in_deg(v)= out_deg(v) dla każdego wierzchołka v grafu. Graf skierowany spójny ma drogę Eulera wtedy i tylko wtedy, gdy tylko jeden wierzchołek ma własność out_deg(v) - in_deg (v) = ; tylko jeden wierzchołek ma własność in_deg(v) - out_deg (v) = ; pozostałe wierzchołki mają stopnie in_ i out_ równe. Czy jest tu cykle, droga? Jak można poprawić? Grafy D. Makowiec: F: sekwencjonowanie DNA 6 Artur Cayley ( ok.850) C n H2n 2 Struktura połączeń w tych związkach to drzewo graf spójny i acykliczny drzewo swobodne 4

Grafy D. Makowiec: F: sekwencjonowanie DNA 62 Propozycja gry Sir Williama Hamiltona (857r.) Grafy D. Makowiec: F: sekwencjonowanie DNA 63 Propozycja gry Sir Williama Hamiltona Problem NP-zupełny 5

Grafy D. Makowiec: F: sekwencjonowanie DNA 64 Cykl Eulera Cykl Hamiltona Dla danego grafu G=(V(G), E(G) ) skonstruować cykl zbudowany ze wszystkich krawędzi, przy czym każda krawędź jest wykorzystana dokładnie raz. Dla danego grafu G=(V(G), E(G) ) skonstruować cykl, który odwiedza wszystkie wierzchołki dokładnie raz Mamy efektywny algorytm Fleury ego konstrukcji cyklu/drogi Problem NP-zupełny Jeśli w grafie G=G(V,E) bez pętli i krawędzi wielokrotnych jest odpowiednio dużo krawędzi, na przykład jeden z poniższych warunków jest spełniony : () E ½ (n-) *(n-2) +2, gdzie n= V (2) deg(v) n/2, gdzie n= V (3) deg(v) + deg(w) n dla każdej pary niepołączonych krawędzią wierzchołków, to graf ma cykl Hamiltona Grafy D. Makowiec: F: sekwencjonowanie DNA 65 Graf z wagami G=G(V,E, w) Rozwiązanie, w miarę efektywne, algorytmem Dijkstry. 6

Grafy i genetyka D. Makowiec: F: sekwencjonowanie DNA 66 Genialna obserwacja Seymoura Benzera (950) dowodząca, że struktura genu jest liniowa Normalny wirus T4 zabija pewną bakterię Watson i Crick odkryli strukturę podwójnej helisy DNA w 953 Ale, jeśli T4 jest zmutowane (ważna część genu jest skasowana), to wirus traci moc zabijania bakterii. Przypuśćmy, że bakteria jest zarażona dwoma takimi różnymi mutantami. Czy taki atak bakteria przeżyje czy nie? Dziwne- para różnych zmutowanych wirusów może zabić bakterie mimo, że każdy mutant z osobna nie zabija. Jak to można wytłumaczyć? https://www.dnalc.org/view/588-defining-the-gene.html D. Makowiec: F: sekwencjonowanie DNA 67 7

Grafy i genetyka D. Makowiec: F: sekwencjonowanie DNA 68 Jeśli geny są liniowa strukturą, czyli Krawędź, gdy komórka przeżywa to tak powinien wyglądać graf przeżywania Grafy i genetyka D. Makowiec: F: sekwencjonowanie DNA 69 Jeśli geny mają rozgałęzienie czyli : to tak powinien wyglądać graf przeżywania 8

Grafy i genetyka D. Makowiec: F: sekwencjonowanie DNA 70 Dwie hipotetyczne struktury organizacyjne genu: a) organizacja liniowa b) organizacja z rozgałęzieniami Która prawdziwa? Rozstrzyga eksperyment Grafy i genetyka D. Makowiec: F: sekwencjonowanie DNA 7 W M M2 M3 Mutacje M i M2 pokrywają się 9

Grafy i genetyka D. Makowiec: F: sekwencjonowanie DNA 72 Graf interwałowy Delecje i ich interwały Przykład grafu interwałowego Przykład grafu nieinterwałowego Niemożliwe jest ułożenie delecji tak, aby spełnione były relacje grafu. Graf interwałowy D. Makowiec: F: sekwencjonowanie DNA 73 Graf uporządkowania w czasie zestawu czynności. Węzły grafu to czynności. Krawędzie określają która operacja z którą jest realizowana równolegle. Kolorowanie grafu każde dwa sąsiadujące wierzchołki mają różne kolory, przy czym ilość użytych kolorów jest minimalna. 0

Sekwencjonowanie DNA D. Makowiec: F: sekwencjonowanie DNA 74 Masz wiele egzemplarzy tej samej gazety pociętych na miliony części. Każdy egzemplarz jest pocięty inaczej. Znaczna część kawałków się pogubiła. Znaczna część jest pochlapana atramentem. Potrafisz odczytać oryginalną zawartość? Eksperyment Sangera: Sekwencjonowanie DNA D. Makowiec: F: sekwencjonowanie DNA 75 II etap: poskładać zsekwencjonowane fragmenty DNA Graf zupełny skierowany z wagami wyznaczonymi przez POKRYCIE etykiet wierzchołków: w(i,j) = rozmiar wspólnego przyrostka (suffix) i oraz przedrostka (prefix) j start Problem najkrótszego wspólnego łańcucha staje się problemem komiwojażera w tym grafie

Sekwencjonowanie DNA D. Makowiec: F: sekwencjonowanie DNA 76 Przykład: Dane S = { ATC, CCA, CAG, TCC, AGT } SSP AGT CCA ATC ATCCAGT TCC CAG TSP AGT 2 0 ATC 2 2 2 CCA CAG TCC Powszechnie stosuje się strategie zachłanną. Uważa się, że strategia zachłanna ma tu gwarancję 2. Zatem możemy oczekiwać, że rzeczywista długość superłańcucha w* jest ½ w w* w Macierze DNA D. Makowiec: F: sekwencjonowanie DNA 77 SequencingByHybridization : SBH 988: pierwsze pomysły dla macierzy DNA. Mało kto wierzy w powodzenie 99: technika syntezy polimerów sterowana światłem (light directed polymer synthesis) First microarray prototype (989) First commercial DNA microarray prototype w/6,000 features (994) 994: pierwsza 64-kb micromacierz DNA 500,000 features per chip (2002) 205-0-08 Chip DNA: zestaw wszystkich sekwencji nukleotydowych o zadanej długości 2

Sekwencjonowanie przez hybrydyzacje DNA D. Makowiec: F: sekwencjonowanie DNA 78 SBH - jak to pracuje? Umieść wszystkie możliwe próbki DNA o zadanej długości (lmery) na płaskiej powierzchni tak, aby każda próbka była w innym, ale znanym miejscu. To nazywamy macierzą DNA Zastosuj roztwór zawierający fluorescencyjnie oznaczone nieznane DNA na przygotowana macierz. Fragmenty DNA hybrydyzują z tymi próbkami, które są komplementarne to jego podłańcuchów. Korzystając ze detektora spektroskopowego, określ, do których próbek DNA hybrydyzowało. Uzyskujesz l-merowe widmo badanego DNA Zastosuj algorytm kombinatoryczny aby zrekonstruować sekwencje nukleotydów w nieznanym DNA. Sekwencjonowanie przez hybrydyzacje DNA D. Makowiec: F: sekwencjonowanie DNA 79 Sekwencjonowane DNA przykleiło się do: ATAG AGGC TAGG SuperŁańcuch: GCAA CAAA GGCA Sekwencjonowane DNA to ciąg komplementarny: Przykład uniwersalnej macierzy dla l-merów o długości l=4 3

Sekwencjonowanie DNA przez hybrydyzacje D. Makowiec: F: sekwencjonowanie DNA 80 Def: spectrum(s,l) - widmo sekwencji DNA s w reprezentacji l-merów, to zbiór ujawnionych l-merów w eksperymencie sekwencjonowania DNA UWAGA: Różne sekwencje DNA mogą produkować to samo widmo!! Spectrum( GTATCT,2) = Spectrum( GTCTAT,2) = {AT, CT, GT, TA, TC} Sekwencjonowanie DNA przez hybrydyzacje Rozwiązanie problemu SBH jako ścieżki Hamiltona w grafie pokrywania się l-merów D. Makowiec: F: sekwencjonowanie DNA 8 Graf skierowany H o wierzchołkach etykietowanych l-merami o krawędziach jedynie wtedy, gdy pokrywanie wynosi l- Przykład: S = { ATG AGG TGC TCC GTC GGT GCA CAG } H ATG AGG TGC TCC GTC GGT GCA CAG ATG C A G G T C C Ścieżka odwiedziła każdy wierzchołek tylko RAZ 4

Sekwencjonowanie DNA przez hybrydyzacje Problem niejednoznaczności wyniku D. Makowiec: F: sekwencjonowanie DNA 82 Graf pokryć: H S = { ATG TGG TGC GTG GGC GCA GCG CGT } Możliwość I: H Możliwość II: ATGCGTGGCA H ATGGCGTGCA Sekwencjonowanie DNA przez hybrydyzacje D. Makowiec: F: sekwencjonowanie DNA 83 Rozwiązanie problemu SBH jako ścieżki Eulera w grafie (l-) merów Graf skierowany o wierzchołkach etykietowanych l- merami o krawędziach jedynie wtedy, gdy odpowiedni l mer występuje w zbiorze widma Przykład: S = { ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT } Wierzchołki: V = { AT, TG, GC, GG, GT, CA, CG } Krawędzie: E = S GT CG AT TG GC CA GG ścieżka przechodząca przez każdą krawędź i to tylko raz 5