4.1 Mapy hybrydyzacyjne

Spis treści 4 Mapy fizyczne genomów 4. Mapy hybrydyzacyjne........................ 4.. Własność kolejnych jedynek (CP)............ 2 4..2 Algorytm heurystyczny pozwalaj acy odkrywać klony chimeryczne.......................... 9 4..3 Heurystyczne porz adkowanie sond............. 0 5 Sekwencjonowanie na duż a skale (składanie sekwencji) 0 5. Skierowane sekwencjonowanie................... 0 5.2 Strategia sekwencjonowania na duż a skale............. 5.3 Składanie sekwencji dla metody shotgun............. 5.3. Wykrywanie przecieć.................... 2 5.3.2 Układanie podsłów..................... 2 5.3.3 Decydowanie konsensu................... 3 5.3.4 Scalanie całej sekwencji.................. 3 5.4 Problem najkrótszego wspólnego nadsłowa............ 3 5.4. Permutacje a nadsłowa................... 4 5.4.2 Cykliczne słowa i cykliczne pokrycia........... 5 5.4.3 Cykliczne pokrycia a nadsłowa............... 5 5.4.4 Konstrukcja cyklicznych pokryć.............. 5 5.4.5 Algorytm aproksymacyjny................. 6 5.5 Sekwencjonowanie przez hybrydyzacje.............. 7 4 Mapy fizyczne genomów 4. Mapy hybrydyzacyjne Przypomnijmy, że mapa fizyczna genomu (lub jego fragmentu) przedstawia rozmieszczenia pewnych markerów wzdłóż tego fragmentu. Typowe zastosowanie map fizycznych polega na tym, że jeśli mamy zsekwencjonowany pewien fragment, to maj ac mape fizyczn a chromozomu, z którego pochodzi, możemy ustalić położenia markerów na i w ten sposób dopasować miejsce na chromozomie. Mapy restrykcyjne można traktować jako jeden z rodzajów map fizycznych. Innym rodzajem takich map s a mapy hybrydyzacyjne. Mapy hybrydyzacyjne buduje sie w nastepuj acy sposób. Mamy pewn a biblioteke klonów (fragmenty DNA), każdy klon zwykle jest długości kilkadziesi at tysiecy par zasad. Ponadto mamy pewien zbiór sond (ang. probes), które s a krótkimi odcinkami DNA. Zadanie polega na stwierdzeniu, które sondy hybrydyzuj a do których klonów. Zbiór wszystkich sond hybrydyzuj acych do danego klonu nazywa sie odciskiem palca (ang. figerprint) tego klonu. Idealna sytuacja ma miejsce wtedy, gdy sondy hybrydyzuj a w sposób jednoznaczny do całego długiego odcinka DNA, tzn. gdy każda sonda hybrydyzuje w dokładnie jednym miejscu.

Praca z takim zbiorem sond nosi nazwe techniki hybrydyzacji STS (ang. Sequence Tagged Site). Problem znajdowania odcisków palca poszczególnych klonów jest zawsze obarczony błedami. S a trzy rodzaje takich błedów: Sonda może nie hybrydyzować do miejsca, gdzie powinien (false negative). Sonda może hybrydyzować do miejsca, gdzie nie powinien (false positive). W czasie procesu klonowania dwa klony mog a sie poł aczyć w jeden kawałek, tak jakby reprezentowały jeden klon (tzw. klony chimeryczne). Im dłuższe klony, tym wieksza obecność klonów chimerycznych (czasami dochodzi aż do 60%). 4.. Własność kolejnych jedynek (CP) Przyjmujemy nastepuj ace założenia: Sondy s a jednoznaczne, tzn. każdy hybrydyzuje w dokładnie jednym miejscu genomu. Nie ma błedów. Dla każdego klonu i każdej sondy wiemy czy ten próbnik hybrydyzuje do tego klonu. Tak wie mamy klonów i sond. Ponadto mamy zerojedynkow a macierz rozmiaru ( ), tak a że hybrydyzuje do. Zadanie polega na znalezieniu permutacji kolumn macierzy, aby w każdym wierszu wszystkie jedynki stały obok siebie, b adź też na stwierdzeniu, że takiej permutacji nie ma. Mówimy, że macierz, dla której taka permutacja istnieje ma własność kolejnych jedynek (CP). Zanlezienie permutacji, o której mowa powyżej pozwala ustalić kolejność, w jakiej sondy hybrydyzuj a do każdego z klonów. Przykład 4.. Poniżej znajduje sie przykład takiej macierzy. "#"$%'&()%"*#,+".#"/ 0 0 0 0 $ 0 0 0 0 & 0 0 0 0 0 0 0 ) 0 0 0 0 0 0 0 * 0 0 0 0 0 0 0 + 0 0 0 0 0 0 0. 0 0 0 0 0 0 2

B & 6 6 * + W ogólności zakładamy, że macierz nie zawiera wiersza składaj acego sie z samych zer oraz, że nie zawiera dwóch identyczntch wierszy. Dla klonu niech ' Zbiór bedziemy nazywać odciskiem palca (b adź też nośnikiem) klonu. Niech bedzie najmniejsz a relacj a równoważności w zbiorze klonów zawieraj ac a relacje zdefiniowan a poniżej Przykład 4..2 Dla macierzy z Przykładu 4.. mamy nastepuj ace klasy abstrakcji relacji $ ). Spójne składowe (cześciowe permutacje) relacji zbudujemy pewn Dla każdej klasy abstrakcji a rodzine permutacji, które ustalaj a własność CP dla fragmentu macierzy zawieraj acego w/w klony oraz wszystkie sondy (b adź też uzyskamy informacje, że takiej permutacji nie ma). Permutacje bed a reprezentowane przez uporz adkowane cześciowe podziały (UCP) zbioru. Każdy taki UCP to ci ag niepustych, parami rozł acznych zbiorów ' spełniaj acych warunek " Powiemy, że taki UCP jest zbudowany dla klonów. ( Permutacje z takiego UCP s a otrzymywane nastepuj aco: niech ( #%$& ' i niech #*) +,.#0/ 2. Porz adkujemy liniowo każdy ze zbiorów # # ) i to daje permutacje. Każda permutacja otrzymana w ten sposób (również dla różnych # ) jest jedn a z permutacji reprezentowanych przez UCP. Bedziemy ' 3 budować UCP iteracyjnie. 54 76 Pierwszy UCP to. Przypuśćmy, że już 84 mamy UCP dla klonów, (gdzie :9<; ) spełniaj acych warunek, że pomiedzy każdymi dwoma klonami z tego zbioru można przejść przy pomocy 4 76 =, używaj ac jedynie klonów z tego zbioru. Niech bedzie klonem takim, że dla pewnego >?@ @4 76 A= zachodzi 54 4 76. Niech # = bedzie odciskiem palca tego klonu. Rozważmy zbiór C>D E#F G 3

( Musi B być tak, że dla pewnych >? >, zbiór B ma postać B C> >?>? >. Jeśli nie ma takiej postaci, to dla rozważanego zbioru klonów nie ma własności CP. Musi być też tak, że dla > 9> 9>, zachodzi $# (jeśli tak nie jest to nie ma własności CP). Niech #. Jeśli <, to musi zajść jedna z nastepuj acych dwóch możliwości: (a.) > ' oraz $@#. (b.) lub (> oraz $@# ). W przypadku (a.) definiujemy nowy UCP nastepuj aco ' # # = 3 Natomiast w przypadku (b.) nowe UCP wygl ada nastepuj aco Jeśli natomiast ',# # # 7=, to nowy UCP wygl ada nastepuj aco # = #,# = Poprawność powyższego algorytmu wynika z nastepuj acych uwag: 4 76 4 6 3 wynika, że bloków Z założenia spójności grafu 7 nie można rozdzielić przez wstawianie nowych zbiorów. wystepuj ace w nowym UCP musz a stać obok sie Bloki podziału zbioru # bie. Czas jaki zajmuje wykonanie poszczególnych kroków algorytmu wygl Zbudowanie grafu 7 pary ada nastepuj aco. 4 76 4 6 zajmuje czas * (dla każdej, sprawdzenie czy zachodzi zajmuje * kroków). Spójne składowe grafu przechodzimy metod a przeszukiwania w gł ab. Dostawienie nowego klonu zabiera * kroków. Ł acznie mamy wiec * kroków. Zatem ł aczny czas wykonania całej fazy budowania UCP dla poszczególnych spójnych składowych wynosi *. Przykład 4..3 Kontynuujemy Przykład 4... (a.) Dla składowej mamy UCP otrzymany w nastepuj acym ci agu kroków: dla dla (b.) Dla składowej $, UCP jest równe $ : 4

) + +. & * +? (c.) Dla składowej dla & dla & G ) mamy: (d.) Wreszcie dla składowej dla * dla * dla *. mamy: Przykładow a permutacj a reprezentowan a przez powyższe UCP jest 0 0 0 0 0 0 %0 0 0 0 0 0 0 0 0 0 0 0 (0 0 Kolumny 5 i 9 można zamienić miejscami oraz dowolne z kolumn,3,6,8 można przenieść na prawy skraj tablicy. Scalanie składowych bed a klasami abstrakcji relacji (czyli spójnymi składowymi), dla których mamy już zdefiniowane UCP. Zdefiniujemy relacje? na składowych. Niech " Niech ' bedzie UCP dla oraz niech #? >D??,# $ # bedzie UCP dla. Przykład 4..4 Dla klas abstrakcji z Przykładu 4..2 mamy?? " Lemat 4..? jest relacj a cześciowego prz adku w zbiorze klas abstrakcji relacji. Dowód: Jeśli? oraz? to UCP dla obydwu klas s a identyczne. Zatem i składaj s identyczne. Sprzeczność. a jednoelementowe i a sie z jednego klonu i nośniki tych klonów s a Niech wystepuje w UCP dla 5

( # Lemat 4..2 Jeśli? oraz?, to. Dowód: Przyjmijmy założenia lematu i niech E. Zatem istniej a oraz takie, że 3. Ponieważ, to $ lub $. Możemy przyj ać, że pierwsze zawieranie ma miejsce. Niech bedzie dowolny taki, że. Wówczas i znowu pokazujemy, że $ lub $. Teraz już drugie zawieranie jest niemożliwe (bo wówczas ). Zatem $. W ten sposób pokazaliśmy, że $ $ Weźmy teraz dowolne oraz dowolne ) takie, że ich nośniki oraz ) maj a niepuste przeciecie. Podobnie jak poprzednio pokazujemy, że dla dowolnego ) ) o nośniku ) ) mamy ) )E$ ). Ponieważ bloki UCP dla powstaj a przez przeciecie pewnej liczby nośników klonów należ acych do, to z poprzedniego zdania wynika, że dla pewnego bed acego blokiem UCP dla mamy To dowodzi, że? $. Otrzymana sprzeczność kończy dowód lematu. Konstrukcja ostatecznej permutacji powstaje przez rozszerzanie kolejnych UCP. Konstrukcje te przeprowadzamy przez indukcje ze wzgledu na porz adek? na składowych. Krok bazowy. Wybieramy element minimalny w sensie? i bierzemy jego UCP. Krok indukcyjny. Przypuśćmy, że mamy skonstruowane dot ad UCP ', dla pewnego zbioru składowych o nastepuj acych własnościach. (W) Jeśli ( oraz?, to. ( (W2). Niech bedzie minimaln a składow a nie należ ac a do i niech # bedzie UCP dla. Rozważmy dwa przypadki: (A) Dla każdego >? zachodzi (B) Dla pewnego >? mamy W przypadku (A) nowym UCP jest.. # ' 3 Przed ( rozważeniem przypadku (B) weźmy dwa UCP # takie, że # $. Bedziemy używać nastepuj przez bedziemy oznaczać przedział domkniety?8"?8 # # oraz acej notacji. Dla?8, Ponadto przyjmijmy nastepuj ac a relacje pomiedzy przedziałami > >? 3> > > >D?8 6

B 6 B B B B? B 6? B Zastanówmy sie nad tym jakie warunki musz a być spełnione, aby można było stworzyć UCP bed ace jednocześnie rozdrobnieniem obydwu danych UCP. Niech?@>D? i rozważmy zbiór B # G Natepuj ace warunki musz a być oczywiście spełnione. (U) Każde niepuste B B musi być przedziałem domknietym, tzn. istniej takie, że. (U2) Jeśli > 9@>, to (a.) B?. (b.)?. (c.) Jeśli B, to dla każdego > spełniaj acego > 9 > 9@> zachodzi (. B (U3). Zauważmy, że z (U2) wynika iż dla dowolnych > 9 >, jeśli B, to istniej a takie trzy elementy?? B, że B, oraz dla wszystkich > spełniaj acych > 9 > 9 > zachodzi B. Również wynika z (U2), że jeśli dla pewnego > mamy B, to albo dla wszystkich > )?:> zachodzi, lub dla wszystkich >7) > B zachodzi. Warunki (U)(U3) s a oczywiście konieczne dla istnienia UCP bed acego rozdrobnieniem obydwu wyjściowych UCP. Warunki te s a również wystarczaj ace. Istotnie, rozważmy wszystkie niepuste przeciecia # dla > oraz. Niech Zbiór G.> porz adkujemy liniowo: Ponieważ każda para.> 4.> G.> ) "# G/G.> 0' E# G ) >D9@> ).> &> )?5 ) (równy #, gdy * 0 ;, gdy 0 ), to 7 4 a?: jednoznacznie wyznacza pewien niepusty zbiór G.> tworzy pewien UCP. Jest to szukane UCP. Nazwiemy go minimalnym rozdrobnieniem dla wyjściowych UCP. Wracamy teraz do konstrukcji i przyjmijmy, że zachodzi warunek (B). Zauważmy, że wówczas istnieje takie, że?. Istotnie, gdyby dla każdego zachodziło, to ponieważ musi zachodzić (na mocy warunku (W)), to z Lematu 4..2 mamy, dla wszystkich. Zatem G 7

# z warunku (W2) wynika, że dla > ace?. Otrzymana sprzeczność dowodzi, że istnieje spełniaj. Niech # bedzie blokiem UCP dla takim, że $@#. Z warunku (W2) dostajemy # ' $ Zatem możemy przyst apić do konstruowania minimalnego rozdrobnienia dla UCP # ' oraz. Jeśli warunki (U)(U3) s a spełnione, to tworzymy minimalne rozdrobnienie w/w podziałów, dol aczaj ac do zbioru. W przeciwnym przypadku stwierdzamy, że macierz nie ma własności CP. To kończy opis algorytmu sprawdzaj acego własność CP. Czas fazy scalania składowych Wyznaczenie porz adku? w zbiorze składowych zajmuje czas (dla każdej pary składowych stwierdzenie czy zachodzi? zajmuje * kroków). Proces scalania składowych zajmuje kroków (dla kaźdego, wstawienie do i sprawdzenie czy warunki (U)(U3) zachodz a zajmuje * kroków). Mamy w ten sposób udowodnione nastepuj ace twierdzenie. Twierdzenie 4..3 Dla dowolnej macierzy binarnej można stwierdzić w czasie czy macierz ta ma własność kolejnych jedynek (CP). Booth i Leuker (976) podali algorytm sprawdzania CP dla macierzy ', gdzie jest liczb a jedynek w macierzy. Algorytm ten w czasie używa tzw. pqdrzew. Przykład 4..5 Zilustrujemy powyższ a metode. Kontynuujemy Przykład 4..4. Zaczynamy od klasy. UCP dla :. UCP dla :. UCP dla :. UCP dla :. Powyższy UCP wyznacza dwie permutacje. Jedn a z nich jest $ #0 0 0 0 0 #0 0 0 0 0 0 0 0 0 %0 0 0 0 0 0 0 0 0 0 0 (0 0 0 0 0 0 0 0 #0 0 0 0 %0 0 0 0 0 8

$ $ Uwaga: można pokazać, że nastepuj acy problem jest NPzupełny. Dana macierz binarna i kiczba. Sprawdzić czy istnieje permutacja kolumn macierzy, przy której w każdym wierszu macierzy jest co najwyżej bloków jedynek. Dopuszczanie błedów o jakich mówiliśmy wcześniej poci aga powstawanie wiecej niż jednego bloku jedynek w wierszach. Stosuje sie wtedy algorytmy aproksymacyjne. 4..2 Algorytm heurystyczny pozwalaj acy odkrywać klony chimeryczne Dla każdego klonu budujemy graf, gdzie jest zbiorem wszystkich sond hybrydyzuj acych do oraz relacja jest zdefiniowana nastepuj aco ' > ) &> taki, że hybrydyzuj a do Gdy graf jest spójny to przypuszczamy, że klon nie jest chimeryczny. Natomiast niespojność jest wskazówka potencjalnej chimeryczności. Wówczas możemy zast apć sztucznymi klonami, po jednym dla każdej spójnej składowej. Przykład 4..6 Rozważmy nastepuj acy graf hybrydyzacyjny. W grafie wierzchołki " i $ s a poł aczone krawedzi a, a wierzchołek jest izolowany. Jeśli zast apimy klon dwoma sztucznymi klonami ) oraz ) ), to dostaniemy nastepuj acy nowy graf hybrydyzacyjny. ) ) ) " "$ "$ 9

4..3 Heurystyczne porz adkowanie sond Algorytm ten jest oparty na pojeciu tzw. splitera. Dana sonda, niech bedzie zbiorem wszystkich wierzchołków grafu hybrudyzacyjnego, które można osi agn ać z wierzchołka drog a ) Wówczas do zbioru bierzemy " ) ). Zbiór przedstawia pewne otoczenia sondy ". Niech bedzie zbiorem wszystkich klonów i sond. Jeśli jest grafem o dokładnie dwóch składowych, to sonda nazwiemy spliterem, a te składowe nazwiemy składowymi splitera. Algorytm działa nastepuj aco. Wybieramy pewien spliter i niech i bed a jego składowymi. Przyjmujemy (arbitralnie), że jest lew a składow a, a jest praw a składow a. Ten wybór ustala orientacje składowych pozostałych spliterów. Dla splitera, i jego składowych #, przyjmujemy, że # jest lew a składow a, gdy # #. Dla każdej sondy liczymy ; liczba lewych składowych zawieraj acych te sonde oraz " liczba prawych składowych zawieraj acych te sonde. Nastepnie sortujemy sondy, stosuj ac zasade, że sonda o wiekszej liczbie ; jest bardziej na lewo. 5 Sekwencjonowanie na duż a skal e (składanie sekwencji) Podstawowym problemem z istniej acymi metodami sekwencjonowania (Maxam Gilberta, Sangera) jest to, że można sekwencjonować za jednym razem tylko nici DNA o małej długości (300000 zasad). Tak wiec długie odcinki DNA trzeba dzielić na małe kawałki i te, po zsekwencjonowaniu składać z powrotem. Omówimy kilka metod sekwencjonowania i zwi azane z nimi problemy kombinatoryczne. 5. Skierowane sekwencjonowanie Przyjmijmy, że możemy zsekwencjonować w jednym laboratoryjnym doświadczeniu 400 zasad. Metoda kroczenia po primerach polega tym, że najpierw sekwencjonujemy najbardziej lewy odcinek zawieraj acy 400 zasad. Wybieramy jako primer odcinek położony blisko prawego końca i używamy go w procesie PCR do zrobienia kopii. Kopia ta bedzie sie zaczynała od tego primera, czyli od miejsca w okolicy zasady nr. 400. Proces powtarzamy, sekencjonuj ac za każdym razem najbardziej lewy odcinek nowej kopii zawieraj acy 400 zasad. Problemy z t a metod a s a nastepuj ace: ) 0

Proces jest sekwencyjny i dlatego bardzo wolny. Jeśli z jakiegoś powodu proces skierowanego sekwencjonowania zatrzyma sie w pewnym miejscu nici DNA (np. przez wyst apienie powtarzaj acych sie podsłów lub zapetlenie sie nici DNA w tzw. szpilke do włosów (ang. hairpin), to nie daje sie zsekwencjonować cześci nici DNA leż acej na prawo od tego miejsca. Główne zastosowanie tej metody to sekwencjonowanie krótkich nici bez powtarzaj acych sie podsłów lub wypełnianie małych dziur powstałych w wyniku sekwencjonowania inn a metod a. 5.2 Strategia sekwencjonowania na duż a skale Zaczynamy od całej nici DNA (np. długości 0. bp). Tworzymy biblioteke dużych klonów ( 0 ) 0 * bp każdy) przez ciecie enzymami, które rzadko tn a. Każdy klon jest namnażany poprzez wektory wprowadzane do biologicznego układu, który replikuje klony raz z ze swoim materiałem genetycznym. Typowe wektory dla dużych klonów to sztuczne chromozomy drożdża (YAC, Yeast Artificial Chromosome). S a one otrzymywane z drożdża S. cerevisiae przez pozostawienie jedynie tych składników chromozomu, które s a niezbedne do replikacji. Natepnie wybiera sie tyle klonów aby zapewnić pokrycie całej wyjściowej nici DNA i tworzy sie mape fizyczn a. W kolejnym kroku zajmujemy sie każdym z dużych klonów z osobna. Taki klon jest powielany i trawiony enzymem o wiekszej czestości ciecia. Tak otrzymane fragmenty (zwykle o długości około 40.000 bp) wstawiamy do wektorów (zwykle s a to kosmidy otrzymane z faga ) i wstrzykujemy do E. coli w celu replikacji. Nastepnie wybieramy tyle klonów (tych pochodz acych od kosmidów) aby zapewnić pokrycie całego klonu pochodz acego od YAC a i budujemy mape fizyczn a poszczególnych klonów pochodz acych od YAC a. Natepnie stosujemy metode sekwencjonowania zwan a shotgun (nazywan a też metod a losowego sekwencjonowania) do każdego klonu kosmidowego. Metoda ta polega na losowym pocieciu DNA takiego klonu na odcinki o małej długości (około 400 bp). Oczywiście w procesie tym całkowicie gubimy porz adek w jakim te odcinki wystepuj a na nici. Wybieramy po kolei te odcinki i dla każdego z nich sekwencjonuje sie pierwsze 400 bp. Kawałków tych musi być dostatecznie dużo, aby zapewnić sobie możliwość odtworzenia całego klonu. Jak wynika z analizy probabilistycznej, jeśli jest długości a klonu kosmidowego, to liczba fragmentów wybranych do sekwencjonowania powinna wahać sie w granicach od 0 0 do 0 0 0. 5.3 Składanie sekwencji dla metody shotgun Odtwarzanie docelowej sekwencji odbywa sie w czterech krokach. Przyjmijmy, że mamy zsekwencjonowane krótkie kawałki.

> 5.3. Wykrywanie przecieć Dla każdej uporz adkowanej pary kawałków chcemy stwierdzić czy sufiks pierwszego pasuje do prefiksu drugiego. Gdyby nie było błedów procesu sekwencjonowania to wystarczyłoby znalezienie najdłuższego dopasowania jak najdłuższego sufiksu z prefiksem (żadnych spacji). To można zrobić w liniowym czasie (zależnym od sumy długości kawałków). Z powodu błedów musimy użyć miary podobieństwa zamiast dopasowania. Czyli zadanie do rozwi azania wygl ada nastepuj aco: dane, należy znaleźć sufiks oraz prefiks, dla których podobieństwo jest maksymalne. Funkcja podobieństwa jest dobierana w zależności od rodzaju DNA, z którym mamy do czynienia. Powyższe zadanie rozwi azujemy stosuj ac programowanie dynamiczne (tak jak do lokalnego uliniowienia). Jeśli budowana macierz dla tej metody ma wiersze odpowiadaj ace pozycjom w słowie, a kolumny odpowiadaj ace pozycjom w słowie, to szukamy maksimum w ostatnim wierszu macierzy. Natepnie, używaj ac zapamietywanych wskaźników, cofamy sie aż do pierwszej kolumny. Jeśli > jest scem, do którego dojdziemy w pierwszej kolumnie, to optymalne uliniowienie do miejscem w ostatniej kolumnie, gdzie znajduje sie maksimum, a stajemy dla oraz. Czas zużyty to. Tak wiec maj wszystkich par w czasie. Ten czas jest w jest miej Heurystyczne ulepszenia (wykrywania przecieć) ac słów dostajemy pełna informacje dla askim gardłem całej metody. Poziom bedów powstałych w sekwencjonowaniu jest dość mały (rzedu 5%). Z kolei rozmiary przecieć zachodz acych na siebe odcinków powinny być dość duże. Można wiec oczekiwać, że nakładaj ace sie kawałki maj a długie wspólne podsłowo (to jak długie dobiera sie heurystycznie). Znalezienie najdłuższego wspólnego podsłowa można zrobić w czasie. Można to dalej ograniczać do cześci słów (np. ostatnia ćwiartka pierwszego słowa i pierwsza ćwiartka drugiego). Tak wie w czasie możemy poznać informacje o wspólnych podsłowach. Informacja ta pozwala odrzucić dużo par, których nie podejrzewamy o przeciecie. Dla pozostałych par stosujemy metode dynamicznego programowania. 5.3.2 Układanie podsłów Stosujemy metode zachłann a. Wybieramy pare o najwyższym podobieństwie sufiks/prefiks i uliniowiamy j a ze sob a (możemy stosować spacje). Nastepnie wybieramy pare o nastepnym najwyższym podobieństwie sufiks/prefiks. Możliwe s a dwie sytuacje. Albo jedno ze słów tej pary już wystepuje w zbudowanym uliniowieniu wówczas doklejamy uliniowienie nowej pary do już utworzonego uliniowienia (w ten sposób powstaje uliniowienie trzech słów, tworz ace tzw. kontig). W przeciwnym przypadku budujemy osobne uliniowienie dla drugiej pary 2

powstaj a w ten sposób dwa kontigi. Proces powtarzamy tak długo aż wyczerpiemy wszystkie pary. 5.3.3 Decydowanie konsensu Załóżmy, że mamy już zdecydowany układ podsłów (dla danego klonu kosmidowego). Podsłowa te zachodz a na siebie (wielokrotnie) tak, że możemy rozważać znaki wystepuj ace w jednej kolumnie. Z cał a pewności a bedziemy mieli bardzo dużo niezgodności, które trzeba usun ać. Rozważmy jedn a kolumne znaków. Jeśli wystepuje w niej tylko jeden symbol, to przyjmujemy, że jest to symbol stoj acy w tym miejscu. W przeciwnym przypadku musimy zdecydować co ma stać w tym miejscu. Stosowane s a różne podejścia: Dla miejsc niezgodnych podajemy profil takiego miejsca (czestość wyst a pienia liter), pozostawiaj ac użytkownikowi ostateczn a decyzje. Konsens metod a wiekszościowego głosowania: wygrywa litera pojawiaj aca sie najwieksz a liczbe razy. Wybieramy okna zawieraj ace fragmenty o dużej niezgodności. Dla każdego okna wykonujemy wielokrotne uliniowienie. Jeśli jest dużo niezgodności, to poprawiamy całość procesu układania podsłów (por. Sekcja 5.3.2) przez sukcesywne uliniawianie całego otrzymanego dot ad profilu z kolejnym podsłowem. Kolejność wybierania podsłów jest ta sama co w fazie układania podsłów. 5.3.4 Scalanie całej sekwencji Dla każdego klonu YAC budujemy sekwencje z klonów kosmidowych, stosuj ac mape tego klonu. Natepnie korzystaj ac z mapy całego DNA, układamy cał a sekwencje. Wynik jest kontrolowany (przez człowieka) pod wzgledem zgodności. Możliwe s a iteracje procesu, wprowadzaj ace poprawki drobniejszych kawałków (np. metod a sekwencjonowania skierowanego). Problemy zwi azane z t a metod a: Wynik musi być sprawdzany/poprawiany przez człowieka. Powtarzaj ace sie fragmenty genomu oraz istniej ace klony chimeryczne wprowadzaj a dużo błedów (grubego kalibru). 5.4 Problem najkrótszego wspólnego nadsłowa Dany zbiór, znaleźć najkrótsze słowo takie, że każde jest podsłowem. Oczywiście konkatenacja wszystkich słów jest jednym z nadsłów (zwykle nie jest ono najkrótsze). 3

6 6 Przykład 5.4. Niech. Nadsłowami s a oraz Motywacj a dla tego problemu jest problem scalania dla metody shotgun. Niestety stosuje sie tylko wtedy gdy nie ma bedów (a wiec jest zupełnie teoretyczny). Twierdzenie 5.4. Problem najkrótszego wspólnego nadsłowa jest NPzupełny (tzn. jego decyzyjna wersja) oraz MAXSNP trudny. Podamy szkic algorytmu aproksymacyjnego o ilorazie błedu 4. Problem ten był intensywnie badany, a znajdowanie algorytmów aproksymacyjnych o coraz mniejszym błedzie stało sie dyscyplin a sportow a. Poniżej podajemy liste osi agnieć w tej dyscyplinie. Blum, Jiang, Tromp, Yannakakis (993): 3 Teng, Yao (993): 2.89 Czumaj, G asieniec, Piotrów, Rytter (994): 2.83 Kosaraju, Park, Stein (994): 2.7 Armen, Stein (994): 2.75 Jiang, Jiang (995): 2.67 Armen, Stein (996): 2.67 Breslauer, Jiang, Jiang (996): 2.596 Sweedek (995): 2.5 5.4. Permutacje a nadsłowa Dana permutacja 3 konstruowane jest nastepuj aco. Niech 3. Nadsłowo wyznaczone przez oznacza długość najdłuższego słowa takiego, że jest sufiksem oraz jest prefiksem. Niech bedzie słowem spełniaj acym warunek, gdzie jest jak wyżej. Wówczas 4 76 4 4 6 4 $ 4 76 4 6 4 6 4

> > jest nadsłowem dla. Zauważmy, że jeśli jest najkrótszym nadsłowem, to istnieje permutacja. Łatwo jest pokazać, że taka, że Zatem bedziemy maksymalizować sume 5.4.2 Cykliczne słowa i cykliczne pokrycia 4 6 4 = 76 4 6 4 = Dane słowo, cykliczne słowo jest traktowane tak, że ostatni symbol porzedza pierwszy symbol, tzn., gdzie. Powiemy, że słowo zanurza sie w, gdy jest podsłowem słowa. Niech bedzie skończonym zbiorem słów. Cykliczne pokrycie zbioru jest to każdy zbiór cyklicznych słów o tej własności, że każde zanurza sie w pewne ze słów ze zbioru. Długość cyklicznego pokrycia to 4 6 Lemat 5.4.2 Jeśli pokryciem o minimalnej długości, to jest najkrótszym nadsłowem dla oraz jest cyklicznym 5.4.3 Cykliczne pokrycia a nadsłowa? Załóżmy, że jest jednoelementowym cyklicznym pokryciem zbioru. Pokrycie to wyznacza pewn a permutacje (a zatem i nadsłowo) w nastepuj acy sposób. Niech.> 76. oznacza kolejność, z jak a atku słowa zanurzaj a sie w (bierzemy pod uwage pozycje w pocz każdego ze słów ). Zakładamy, że żadne nie jest podsłowem żadnego, dla > @. Zatem.> jest permutacj a. 5.4.4 Konstrukcja cyklicznych pokryć Budujemy macierz tak. Dla macierzy rozwi azujemy problem pełnego przypisania. Polega on na tym, że wybieramy pozycji w macierzy tak, aby żadne dwie pozycje nie stały w jednym wierszu ani w jednej kolumnie macierzy oraz aby suma wartości stoj acych na tych pozycjach była maksymalna. a, że.> G Uwaga: macierz można zbudować w czasie, dla dowolnych >?, natomiast zwykły algorytm zachłanny rozwi azuj acy problem pełnego przypisania działa w czasie $ (jeśli nie liczyć czasu porównywania elementów). 5

9 6 6 Tak wybrane pozycje wyznaczaj a pewnien zbiór cykli w grafie o wierzchołkach. Krawedź od > do istnieje w tym grafie, gdy pozycja.> G jest wybran a pozycj a macierzy. Każdy cykl > > wyznacza słowo cykliczne, gdzie a słowami azania problemu przypi ( Wówczas tworzy pokrycie dla. Jeśli s utworzonymi dla wszystkich cykli pochodz acych z rozwi sania, to jest minimalnym cyklicznym pokryciem dla. 5.4.5 Algorytm aproksymacyjny Dane słów.. Znajdź minimalne pokrycie cykliczne. 4 76 2. Dla każdego z cyklicznych słów utwórz nadsłowa 4 4 76 4 3. Jako wynik podaj konkatenacje %. Twierdzenie 5.4.3 Jeśli jest najkrótszym nadsłowem dla jest słowem znalezionym przez powyższy algorytm, to.. oraz W dowodzie powyższego twierdzenia wykorzystane s a dwa ważne narzedzia. Zacznijmy od definicji. Powiemy, że słowo ma okres, gdy istnieje słowo takie, że oraz można przedstawić w postaci, gdzie 0 oraz jest niepustym sufiksem słowa. Twierdzenie 5.4.4 (O najwiekszym wspólnym dzielniku okresów) Jeśli ma okresy oraz i, to ma okres bed acy najwiekszym wspólnym dzielnikiem liczb i, Twierdzenie 5.4.5 (Lemat o zazebianiu) Jeśli >,, to oraz s a cyklicznymi słowami oraz zanurza sie w 9, dla 6

$ & & $ 5.5 Sekwencjonowanie przez hybrydyzacje Metoda ta polega na tym, że przygotowujemy fizyczn a matryce chip zawieraj ac a wszystkie kombinacje nukleotydów o długości (parametr jest dobierany, zwykle ok. 0). Tak wiec mamy słów. Maj ac nić DNA, któr a chcemy zsekwencjonować robimy dużo kopii tej nici, znakujemy je radioaktywnie, a nastepnie hybrydyzujemy te kopie w obecności matrycy. Pewne cz asteczki DNA hybrydyzuj a z pewnymi słowami z matrycy, pozostałe (wolne) nici DNA usuwamy. Informacja jak a w ten sposób zdobywamy to zbiór wszystkich słów elementowych, których komplementarne kopie s a zawarte w nici DNA. W informacji tej nie jest zawarte to ile razy dane słowo długości jest zawarte w nici. Jeśli jest dostatecznie duże to każdy odcinek wyst api co najwyżej jeden raz. Tak wiec mamy nastepuj acy problem sekwencjonowania przez hybrydyzacje (SBH). Dany zbiór słów elementowych, które s a podsłowami pewnego słowa ( nie znamy). Znaleźć lub, jeśli nie jest jednoznacznie wyznaczone, jak najwiecej informacji o. Przedstawiona redukcja problemu SBH do znajdowania ścieżek Eulera pochodzi od P. Pevznera. Dane i pewien zbiór wszystkich elementowych podsłów pewnego słowa. Tworzymy graf skierowany : wierzchołkami s a wszystkie słowa długości. krawedź od wierzchołka do istnieje i jest etykietowana liter a, gdy istnieje słowo oraz litera takie, że oraz.. Przypmnijmy, że ścieżka Eulera to do Usuwamy izolowane wierzchołki z wolna droga w grafie przechodz aca przez każd a krawedź grafu dokładnie jeden raz. Każda droga w grafie opisuje pewne słowo: najpierw bierzemy etykiete wierzchołka pocz atkowego tej drogi, a później wszystkie etykiety krawedzi, w kolejności ich przechodzenia. Powiemy, że słowo jest kompatybilne z, gdy zawiera jako podsłowo każde ze słów z i nie zawiera żadnych innych podsłów. Natepuj ace twierdzenie jest łatwe do dowodu. Twierdzenie 5.5. Słowo jest kompatybilne z Eulera w grafie. można otrzymać z drogi Okazuje sie, że pomiedzy każdymi dwoma słowami kompatybilnymi z istnieje przejście przy pomocy elementarnej operacji zwanej rotacj a. Dane słowo. Powiemy, że słowo ) otrzymuje sie z przez rotacje, gdy można przedstawić ) tak, że ) ). Twierdzenie 5.5.2 (Ci agłość SBH) Jeśli i ) s a kompatybilne z, to ) ) można otrzymać z przez ci ag rotacji. Dowód: Podamy szkic dowodu. Niech bedzie drog a Eulera daj ac a słowo i niech ) bedzie drog a Eulera dla słowa ). Pokazuje sie, że można przyj ać, że 7

obie drogi zaczynaj a sie w tym samym wierzchołku. Niech bedzie najdłuższym pocz atkowym fragmentem wspólnym dla obu dróg. Pokazuje sie, że dalsz a cześć drogi można rozbić na fragmenty (tzn. ) o tej własności, że powraca do wierzchołka, w którym kończy sie oraz fragmenty i kończ a sie w tym samym wierzchołku. Wówczas jeśli weźmiemy atkowym frag droge Eulera ) ), to pokrywa sie ona z ) w pocz mencie na odcinku o długości co najmniej o jeden wiekszej niż. 8