Bioinformatyka wykła 8: mapowanie prof. r ha. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Mapowanie Pojęcie mapowanie onosi się o różnych prolemów Trzeci etap skłaania sekwencji genomowej e novo Przypisywanie genów o opowienich miejsc chromosomów na postawie efektów rekominacji Dopasowywanie oczytów z sekwenatora o genomu referencyjnego, tzw. resekwencjonowanie Porównywanie wyników eksperymentalnych la fragmentów wóch genomów, tzw. fingerprinting Dopasowywanie struktur przestrzennych iałek i RNA Inne
Mapowanie W trzecim (chronologicznie pierwszym) etapie skłaania sekwencji genomowej należy otworzyć oryginalne uporząkowanie ługich, nakłaających się na sieie fragmentów DNA ez znajomości ich sekwencji. Sekwencje nukleotyowe fragmentów rozpoznawane są niezależnie w procesie sekwencjonowania i asemlacji Dane wejściowe stanowią multiziory ługości fragmentów (w mapowaniu restrykcyjnym, np. w prolemach pojeynczego lu powójnego trawienia) lu wyniki eksperymentu hyryyzacyjnego na ziorach fragmentów i unikalnych próek (markerów) [S. Benzer, Proc. Natl. Aca. Sci. USA 5 (959)] Metoa służąca ientyfikacji topologii zapisu informacji genetycznej akteriofaga. Wynik eksperymentu wskazał na jej linearną strukturę Poona zasaa porząkowania fragmentów stosowana jest oecnie w mapowaniu przez hyryyzację za pomocą unikalnych próek. Bezłęna macierz hyryyzacji może yć reprezentowana poprzez graf interwałowy Grafy interwałowe ozwiercielają relację nakłaania się interwałów w przestrzeni liniowej. Dwa wierzchołki opowiaające interwałom są połączone krawęzią, jeśli interwały przecinają się
Mapowanie za pomocą unikalnych próek (ez łęów) W wyniku eksperymentu hyryyzacji łuższych fragmentów DNA o nieznanych sekwencjach z krótkimi unikalnymi prókami otrzymujemy informację o ich zawieraniu fragmenty próki a c fragmenty próki a c 0 0 0 0 0 0 0 5 W przypaku eksperymentu ez łęów macierz hyryyzacji posiaa w wierszach własność consecutive ones a fragmenty Graf skonstruowany na postawie ezłęnej macierzy hyryyzacji jest grafem interwałowym c próki a c 0 0 0 0 0 0 0 6
[F. Alizaeh i in., J. Comput. Biol. (995)] Błęy hyryyzacji: chimery, łęy negatywne i pozytywne Macierz hyryyzacji z łęami nie posiaa już własności consecutive ones. Celem jest znalezienie takiego uporząkowania kolumn, la którego licza łęów w macierzy (czyli licza przerw w ciągach jeynek) jest minimalna fragmenty próki a c 0 0 0 0 0 0 0 macierz z łęami fragmenty próki a c 0 0 0 0 0 0 0 rozwiązanie optymalne 7 [F. Alizaeh i in., J. Comput. Biol. (995)] c. Poszukiwanie minimalnej liczy przerw w macierzy opowiaa poszukiwaniu cyklu komiwojażera w grafie (metoa heurystyczna) Wagi krawęzi to oległość Hamminga pomięzy prókami fragmenty próki a c x 0 0 0 0 0 0 0 0 0 0 0 oległość Hamminga c x a c cykl optymalny ( z ) a x c 8
[D. Greenerg i S. Istrail, J. Comput. Biol. (995)] Nagrazanie zgoności zamiast karania niezgoności Wierzchołki reprezentują próki, a krawęzie opisane są liczą fragmentów, które zawierają oie próki. Rozwiązaniem jest cykl Hamiltona o najwyższej waze fragmenty próki a c 0 0 0 0 0 0 0 wagi krawęzi c a 0 c cykl optymalny a c 9 Jeśli próki nie są unikalne w oręie aanego fragmentu genomu, nie można oczekiwać własności consecutive ones macierzy hyryyzacji. W macierzy naal jenej próce opowiaa jena kolumna, tym razem jenak stowarzyszone z nią fragmenty nie muszą wystąpić ook sieie w genomie Zestaw próek hyryyzujących z fragmentem tworzy jego profil (ang. fingerprint). Uszeregowanie fragmentów można otworzyć, opierając się na przypuszczeniu, że im większe jest ich wzajemne nałożenie, tym arziej poone są ich profile (tym większą liczę próek mają wspólną) 0 5
[D. Gusfiel, Algorithms on Strings, Trees, an Sequences (997)] Prolem mapowania przez hyryyzację z nieunikalnymi prókami jest truny oliczeniowo, rozwiązany został m.in. heurystyką zachłanną a c 0 0 a c 5 a 6 7 5 6 7 0 0 0 0 0 0 0 0 [D. Gusfiel, Algorithms on Strings, Trees, an Sequences (997)] W kolejnych krokach oierane są w pary i łączone w kontig wa fragmenty o najarziej pasujących profilach a c +5, 6+7, (+5)+, (+5+)+, 0 0 (+5++)+, (6+7)+(+5+++) a c 5 a 6 7 5 6 7 0 0 0 0 0 0 0 0 6
Innym rozajem mapowania jest poejście ez markerów, z użyciem tylko enzymów restrykcyjnych (np. jenego lu wóch), które trawią aany fragment wuniciowego DNA. Multiziory ługości ocinków wynikowych wystarczają o otworzenia oryginalnego uporząkowania ocinków Wśró kominatorycznych moeli prolemów mapowania restrykcyjnego można wymienić prolem powójnego trawienia, prolem częściowego trawienia, uproszczony prolem częściowego trawienia Prolem mapowania za pomocą wóch enzymów restrykcyjnych prolem powójnego trawienia (ang. oule igest prolem, DDP) Instancja: Multiziory A, B i AB ługości ocinków pochozących z trawienia kopii fragmentu DNA woma enzymami restrykcyjnymi. Rozwiązanie: Mapa miejsc restrykcyjnych w aanym fragmencie, tzn. takie uszeregowanie elementów multizioru AB, które umożliwi pokrycie wskazanych miejsc cięcia poprzez uszeregowanie elementów multiziorów A i B. A B AB 7
DDP przykła A = {,, 6}, B = {, 5, 7}, AB = {,,,, } Rozwiązanie: 6 7 5 A B AB Prolem ten nawet przy założeniu raku łęów w instancji jest truny oliczeniowo 5 [K. Danna i D. Nathans, Proc. Natl. Aca. Sci. USA 68 (97)] Prolem mapowania za pomocą jenego enzymu restrykcyjnego prolem częściowego trawienia (ang. partial igest prolem, PDP) Instancja: Multiziór A ługości ocinków pochozących z trawienia kopii fragmentu DNA jenym enzymem restrykcyjnym w różnych przeziałach czasowych. Rozwiązanie: Mapa miejsc restrykcyjnych w aanym fragmencie taka, że oległości pomięzy wszystkimi parami miejsc (również końcami fragmentu) pokryją się z multiziorem A. 6 8
PDP przykła A = {,,,,,,, 5, 6, 6, 7, 8, 9, 0, } Rozwiązanie: Mapowanie metoą częściowego trawienia jest trune w realizacji ze wzglęu na liczę przeprowazanych eksperymentów laoratoryjnych i prolem z oorem właściwego czasu trwania reakcji Prolem przy założeniu raku łęów w instancji jest otwarty z punktu wizenia złożoności oliczeniowej 7 [J. Błażewicz i in., Bioinformatics 7 (00)] Uproszczony prolem częściowego trawienia (ang. simplifie partial igest prolem, SPDP) Instancja: Multiziory A i B ługości ocinków pochozących opowienio z krótkiego i ługiego trawienia kopii fragmentu DNA jenym enzymem restrykcyjnym. Rozwiązanie: Mapa miejsc restrykcyjnych w aanym fragmencie, tzn. takie uszeregowanie elementów multizioru B, które umożliwi pokrycie wskazanych miejsc cięcia poprzez uszeregowanie par elementów z A. A B 8 9
SPDP przykła A = {,, 5, 6, 7, 8, 9, 0}, B = {,,,, } Rozwiązanie: 9 7 6 8 5 A 0 B Prolem przy założeniu raku łęów w instancji jest truny oliczeniowo 9 może yć także rozumiane jako opasowywanie o sieie wóch fragmentów genomu na postawie ich profili cięć enzymami restrykcyjnymi (fingerprinting). Poone fragmenty poane trawieniu tych samych enzymów azą w efekcie poony oraz ługości uzyskanych ocinków Dopasowanie takie może yć uzyskane algorytmem programowania ynamicznego w poony sposó jak w prolemie opasowania wóch sekwencji. Dane o trawieniu zapisuje się w postaci sekwencji naprzemiennie ientyfikatorów enzymów oraz oległości ocinków o znakowanego końca 0 0
[M. Waterman i in., Nucleic Acis Res. (98)] Dwa opasowywane profile cięć reprezentowane są przez sekwencje A i B opowienio n i m miejsc restrykcyjnych: A = (r 0, p 0, r, p,, r n+, p n+ ), B = (s 0, q 0, s, q,, s m+, q m+ ), w których r i oraz s i to ientyfikatory enzymów, a p i oraz q i to oległości ocinków o znakowanego końca, przy: r 0 =s 0 =α, p 0 =q 0 =0, r n+ =s m+ =β, p n+ =N, q m+ =M, gzie α i β to końce sekwencji, a N i M to ługości fragmentów Celem algorytmu jest przekształcenie jenego profilu w rugi przy najmniejszym koszcie [M. Waterman i in., Nucleic Acis Res. (98)] c. W rozwiązywanym prolemie opuszczone są wstawienia ąź usunięcia miejsc restrykcyjnych, także zmiana ługości ocinków, natomiast wyklucza się zmianę ientyfikatorów enzymów restrykcyjnych Koszt wstawienia lu usunięcia miejsca związany jest ze zmienną λ, koszt zmiany ługości ocinka ze zmienną μ, gzie μ = w 0 +x w a x to różnica w ługości wyrażona w kp (tysiącach par zasa). Jeśli x jest małe (x Δ), przyjmuje się rak kary za zmianę ługości (μ=0) Przykłaowe wartości z artykułu: Δ = 0,5 kp, λ=, w 0 =w =0,5
[M. Waterman i in., Nucleic Acis Res. (98)] c. Algorytm programowania ynamicznego wypełnia talicę oległości D o n+ wierszach i m+ kolumnach D(0,0) = 0, jeśli 0 < i < n+ lu 0 < j < m+: D(i,0) = D(i,m+) = D(0,j) = D(n+,j) =, jeśli r i s j : D(i,j) =, wpp. la 0 < k i, 0 < l j : D(i,j) = min[d(i k,j l) + λ(k+l ) + w 0 +w p i p i-k q j +q j-l ]. Wynik oczytywany jest w D(n+,m+). Złożoność O(n m ) Przykła (wartości p i, q i i Δ w kp) A = (α, 0, E, 8., E, 5., E, 9.0, β,.0) B = (α, 0, E, 7.7, E, 9.5, E,.8, E, 0., β, 5.0) n=, m=, Δ=0.5, λ=, w 0 =w =0.5 i j 0 5 0 0 0.85 9.5.85.85 8.5.0.0
Przykła c. A = (α, 0, E, 8., E, 5., E, 9.0, β,.0) B = (α, 0, E, 7.7, E, 9.5, E,.8, E, 0., β, 5.0) α E E E β α E E E E β 5 Mapowanie optyczne [D. Schwartz i in., Science 6 (99)] Mapowanie optyczne z użyciem enzymu restrykcyjnego Baana cząsteczka jest oznaczana fluorescencyjnie i usztywniana, reakcja trawienia oserwowana jest po mikroskopem Oraz rejestrowany co 0 sek. umożliwia zaoserwowanie poziału i ustalenie kolejności poszczególnych fragmentów w cząsteczce. Długości fragmentów szacowane są na roze wizualnego porównania ze wzorcem ocena jasności i/lu ługości 6
Mapowanie optyczne [D. Schwartz i in., Science 6 (99)] c. 7 Mapowanie optyczne [M. Xiao i in., Nucleic Acis Res. 5 (007)] Mapowanie optyczne w celu zientyfikowania pozycji próek (fingerprinting) Baana cząsteczka jest oznaczana innym arwnikiem niż znacznik, który przyłącza się o cząsteczki w miejscach wcześniej uszkozonych opowiaających próce. Oraz całości analizowany jest po mikroskopem Poejście może służyć także w trzecim etapie skłaania sekwencji genomowej. Ay uzyskać arziej jenoznaczny wynik eksperymentu, można użyć więcej niż jeen rozaj próek 8
Mapowanie optyczne [M. Xiao i in., Nucleic Acis Res. 5 (007)] c. Pozycje próek w aanej cząsteczce stan rzeczywisty. Nacięcia okonywane są enzymem rozpoznającym opowieni fragment. 9 Mapowanie optyczne [M. Xiao i in., Nucleic Acis Res. 5 (007)] c. Oraz uliniowionego materiału po eksperymencie (po lewej) oraz wykres uzyskany przez nałożenie wyników la 8 molekuł (po prawej). 0 5