F : PROBLEM: SEKWENCJONOWANIE DNA METODA: ALGORYTMY GRAFOWE I. Grafy i genetyka II. Sekwencjonowanie DNA III. Macierze DNA IV. Sekwencjonowanie przez hybrydyzacje DNA V. Sekwencjonowanie i identyfikacja białka Grafy D. Makowiec: F: sekwencjonowanie DNA 55 Dwie konfiguracje z czterema konikami szachowymi na szachownicy 3x3. Czy można, korzystając z dozwolonych ruchów dla konika szachowego, konfigurację (a) przekształcić na konfigurację (b)? odpowiedź jest NIE Grafy reprezentujące sytuację z szachownicy. Dowolny konik może poruszać się jedynie zgodnie z zaznaczonymi krawędziami.
Grafy D. Makowiec: F: sekwencjonowanie DNA 56 Inna szachownica: 2 4 6 7 9 Dostępne ruchy to za mało, by ocenić czy konie mogą tu przeskoczyć przez siebie, zmienić kolejność Inteligentna reprezentacja możliwych operacji pozwala to ocenić- tak tu konie mogą zmienić względem siebie kolejność. Grafy D. Makowiec: F: sekwencjonowanie DNA 57 Obsesja Eulera (735r) : Problem mostów Królewca: czy można tak zaplanować spacer po mieście, aby przejść po każdym moście i to tylko raz? 2 4 3 Mapa miasta graf G(V, E ): wierzchołki V: suchy ląd, krawędzie E: mosty 2 3 4 2
Grafy D. Makowiec: F: sekwencjonowanie DNA 58 Cykl Eulera Czy ten graf ma cykl Eulera? Odpowiedzi Eulera: Tw : Skończony graf spójny, w którym każdy wierzchołek ma stopień parzysty, ma cykl Eulera Tw 2: Skończony graf spójny, mający dokładnie dwa wierzchołki stopnia nieparzystego, ma drogę Eulera 9 0 2 8 2 7 3 6 4 5 Grafy D. Makowiec: F: sekwencjonowanie DNA 59 Algorytm Fleury ego : Input zbiór wierzchołków V (G) i krawędzi skierowanych E(G) grafu G Output cykl (droga) S Eulera O( E ) 2 Wybierz dowolny wierzchołek nieparzystego stopnia, jeśli istnieje. W przeciwnym wypadku wybierz dowolny v. S=v. Jeśli z v nie wychodzi żadna krawędź, zatrzymaj się. 3 4 5 Jeśli z v wychodzi dokładnie jedna krawędź e do w, to dołącz w do drogi S= S+w, popraw V= V-{v}, E= E-{e} i przejdź do 5. Jeśli została więcej niż jedna krawędź, to wybierz taką e z v do w, po usunięciu której graf pozostaje spójny. Dołącz w do drogi, S= S+w, popraw E= E-{e} przyjmij v = w Wróć do 2. Cykl Eulera w powyższym grafie:,2,3,4,5,6,3,7,2,9,,8,7,2,,0, 9, 3
Grafy D. Makowiec: F: sekwencjonowanie DNA 60 Graf skierowany spójny ma cykl Eulera wtedy i tylko wtedy, gdy in_deg(v)= out_deg(v) dla każdego wierzchołka v grafu. Graf skierowany spójny ma drogę Eulera wtedy i tylko wtedy, gdy tylko jeden wierzchołek ma własność out_deg(v) - in_deg (v) = ; tylko jeden wierzchołek ma własność in_deg(v) - out_deg (v) = ; pozostałe wierzchołki mają stopnie in_ i out_ równe. Czy jest tu cykle, droga? Jak można poprawić? Grafy D. Makowiec: F: sekwencjonowanie DNA 6 Artur Cayley ( ok.850) C n H2n 2 Struktura połączeń w tych związkach to drzewo graf spójny i acykliczny drzewo swobodne 4
Grafy D. Makowiec: F: sekwencjonowanie DNA 62 Propozycja gry Sir Williama Hamiltona (857r.) Grafy D. Makowiec: F: sekwencjonowanie DNA 63 Propozycja gry Sir Williama Hamiltona Problem NP-zupełny 5
Grafy D. Makowiec: F: sekwencjonowanie DNA 64 Cykl Eulera Cykl Hamiltona Dla danego grafu G=(V(G), E(G) ) skonstruować cykl zbudowany ze wszystkich krawędzi, przy czym każda krawędź jest wykorzystana dokładnie raz. Dla danego grafu G=(V(G), E(G) ) skonstruować cykl, który odwiedza wszystkie wierzchołki dokładnie raz Mamy efektywny algorytm Fleury ego konstrukcji cyklu/drogi Problem NP-zupełny Jeśli w grafie G=G(V,E) bez pętli i krawędzi wielokrotnych jest odpowiednio dużo krawędzi, na przykład jeden z poniższych warunków jest spełniony : () E ½ (n-) *(n-2) +2, gdzie n= V (2) deg(v) n/2, gdzie n= V (3) deg(v) + deg(w) n dla każdej pary niepołączonych krawędzią wierzchołków, to graf ma cykl Hamiltona Grafy D. Makowiec: F: sekwencjonowanie DNA 65 Graf z wagami G=G(V,E, w) Rozwiązanie, w miarę efektywne, algorytmem Dijkstry. 6
Grafy i genetyka D. Makowiec: F: sekwencjonowanie DNA 66 Genialna obserwacja Seymoura Benzera (950) dowodząca, że struktura genu jest liniowa Normalny wirus T4 zabija pewną bakterię Watson i Crick odkryli strukturę podwójnej helisy DNA w 953 Ale, jeśli T4 jest zmutowane (ważna część genu jest skasowana), to wirus traci moc zabijania bakterii. Przypuśćmy, że bakteria jest zarażona dwoma takimi różnymi mutantami. Czy taki atak bakteria przeżyje czy nie? Dziwne- para różnych zmutowanych wirusów może zabić bakterie mimo, że każdy mutant z osobna nie zabija. Jak to można wytłumaczyć? https://www.dnalc.org/view/588-defining-the-gene.html D. Makowiec: F: sekwencjonowanie DNA 67 7
Grafy i genetyka D. Makowiec: F: sekwencjonowanie DNA 68 Jeśli geny są liniowa strukturą, czyli Krawędź, gdy komórka przeżywa to tak powinien wyglądać graf przeżywania Grafy i genetyka D. Makowiec: F: sekwencjonowanie DNA 69 Jeśli geny mają rozgałęzienie czyli : to tak powinien wyglądać graf przeżywania 8
Grafy i genetyka D. Makowiec: F: sekwencjonowanie DNA 70 Dwie hipotetyczne struktury organizacyjne genu: a) organizacja liniowa b) organizacja z rozgałęzieniami Która prawdziwa? Rozstrzyga eksperyment Grafy i genetyka D. Makowiec: F: sekwencjonowanie DNA 7 W M M2 M3 Mutacje M i M2 pokrywają się 9
Grafy i genetyka D. Makowiec: F: sekwencjonowanie DNA 72 Graf interwałowy Delecje i ich interwały Przykład grafu interwałowego Przykład grafu nieinterwałowego Niemożliwe jest ułożenie delecji tak, aby spełnione były relacje grafu. Graf interwałowy D. Makowiec: F: sekwencjonowanie DNA 73 Graf uporządkowania w czasie zestawu czynności. Węzły grafu to czynności. Krawędzie określają która operacja z którą jest realizowana równolegle. Kolorowanie grafu każde dwa sąsiadujące wierzchołki mają różne kolory, przy czym ilość użytych kolorów jest minimalna. 0
Sekwencjonowanie DNA D. Makowiec: F: sekwencjonowanie DNA 74 Masz wiele egzemplarzy tej samej gazety pociętych na miliony części. Każdy egzemplarz jest pocięty inaczej. Znaczna część kawałków się pogubiła. Znaczna część jest pochlapana atramentem. Potrafisz odczytać oryginalną zawartość? Eksperyment Sangera: Sekwencjonowanie DNA D. Makowiec: F: sekwencjonowanie DNA 75 II etap: poskładać zsekwencjonowane fragmenty DNA Graf zupełny skierowany z wagami wyznaczonymi przez POKRYCIE etykiet wierzchołków: w(i,j) = rozmiar wspólnego przyrostka (suffix) i oraz przedrostka (prefix) j start Problem najkrótszego wspólnego łańcucha staje się problemem komiwojażera w tym grafie
Sekwencjonowanie DNA D. Makowiec: F: sekwencjonowanie DNA 76 Przykład: Dane S = { ATC, CCA, CAG, TCC, AGT } SSP AGT CCA ATC ATCCAGT TCC CAG TSP AGT 2 0 ATC 2 2 2 CCA CAG TCC Powszechnie stosuje się strategie zachłanną. Uważa się, że strategia zachłanna ma tu gwarancję 2. Zatem możemy oczekiwać, że rzeczywista długość superłańcucha w* jest ½ w w* w Macierze DNA D. Makowiec: F: sekwencjonowanie DNA 77 SequencingByHybridization : SBH 988: pierwsze pomysły dla macierzy DNA. Mało kto wierzy w powodzenie 99: technika syntezy polimerów sterowana światłem (light directed polymer synthesis) First microarray prototype (989) First commercial DNA microarray prototype w/6,000 features (994) 994: pierwsza 64-kb micromacierz DNA 500,000 features per chip (2002) 205-0-08 Chip DNA: zestaw wszystkich sekwencji nukleotydowych o zadanej długości 2
Sekwencjonowanie przez hybrydyzacje DNA D. Makowiec: F: sekwencjonowanie DNA 78 SBH - jak to pracuje? Umieść wszystkie możliwe próbki DNA o zadanej długości (lmery) na płaskiej powierzchni tak, aby każda próbka była w innym, ale znanym miejscu. To nazywamy macierzą DNA Zastosuj roztwór zawierający fluorescencyjnie oznaczone nieznane DNA na przygotowana macierz. Fragmenty DNA hybrydyzują z tymi próbkami, które są komplementarne to jego podłańcuchów. Korzystając ze detektora spektroskopowego, określ, do których próbek DNA hybrydyzowało. Uzyskujesz l-merowe widmo badanego DNA Zastosuj algorytm kombinatoryczny aby zrekonstruować sekwencje nukleotydów w nieznanym DNA. Sekwencjonowanie przez hybrydyzacje DNA D. Makowiec: F: sekwencjonowanie DNA 79 Sekwencjonowane DNA przykleiło się do: ATAG AGGC TAGG SuperŁańcuch: GCAA CAAA GGCA Sekwencjonowane DNA to ciąg komplementarny: Przykład uniwersalnej macierzy dla l-merów o długości l=4 3
Sekwencjonowanie DNA przez hybrydyzacje D. Makowiec: F: sekwencjonowanie DNA 80 Def: spectrum(s,l) - widmo sekwencji DNA s w reprezentacji l-merów, to zbiór ujawnionych l-merów w eksperymencie sekwencjonowania DNA UWAGA: Różne sekwencje DNA mogą produkować to samo widmo!! Spectrum( GTATCT,2) = Spectrum( GTCTAT,2) = {AT, CT, GT, TA, TC} Sekwencjonowanie DNA przez hybrydyzacje Rozwiązanie problemu SBH jako ścieżki Hamiltona w grafie pokrywania się l-merów D. Makowiec: F: sekwencjonowanie DNA 8 Graf skierowany H o wierzchołkach etykietowanych l-merami o krawędziach jedynie wtedy, gdy pokrywanie wynosi l- Przykład: S = { ATG AGG TGC TCC GTC GGT GCA CAG } H ATG AGG TGC TCC GTC GGT GCA CAG ATG C A G G T C C Ścieżka odwiedziła każdy wierzchołek tylko RAZ 4
Sekwencjonowanie DNA przez hybrydyzacje Problem niejednoznaczności wyniku D. Makowiec: F: sekwencjonowanie DNA 82 Graf pokryć: H S = { ATG TGG TGC GTG GGC GCA GCG CGT } Możliwość I: H Możliwość II: ATGCGTGGCA H ATGGCGTGCA Sekwencjonowanie DNA przez hybrydyzacje D. Makowiec: F: sekwencjonowanie DNA 83 Rozwiązanie problemu SBH jako ścieżki Eulera w grafie (l-) merów Graf skierowany o wierzchołkach etykietowanych l- merami o krawędziach jedynie wtedy, gdy odpowiedni l mer występuje w zbiorze widma Przykład: S = { ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT } Wierzchołki: V = { AT, TG, GC, GG, GT, CA, CG } Krawędzie: E = S GT CG AT TG GC CA GG ścieżka przechodząca przez każdą krawędź i to tylko raz 5