AUTOMATYZACJA PROCESÓW DYSKRETNYCH 2012 ALGORYTM SEKWENCJONOWANIA DNA PRZY UŻYCIU CHIPU BINAR- NEGO DLA WSZYSTKICH TYPÓW BŁEDÓW HYBRYDYZACJI

Transkrypt

1 AUTOMATYZACJA PROCESÓW DYSKRETNYCH 2012 Marcin RADOM, Piotr FORMANOWICZ Politechnika Poznańska ALGORYTM SEKWENCJONOWANIA DNA PRZY UŻYCIU CHIPU BINAR- NEGO DLA WSZYSTKICH TYPÓW BŁEDÓW HYBRYDYZACJI Streszczenie. Sekwencjonowanie przez hybrydyzację (ang. Sequencing by Hybridization, SBH) jest ciekawym i wciąż rozwijanym podejściem do zagadnienia sekwencjonowania DNA. W okresie ponad 20 lat, które minęły od opublikowania założeń klasycznego SBH zaproponowano wiele nowych sposobów modyfikowania podstawowej metody. Jednym z możliwych podejść jest metoda używająca w konstrukcji chipu DNA tak zwanych nukleotydów uniwersalnych, bądź zdegenerowanych, mających możliwość tworzenia par z więcej niż jednym typem nukleotydu. W niniejszej pracy przedstawiony został jeden z takich nieklasycznych chipów DNA oraz zupełnie nowy algorytm rozwiązujący problem sekwencjonowania na bazie spektrum uzyskanego za pomocą takiego właśnie chipu. Algorytm został zaprojektowany tak, aby jak najlepiej radzić sobie w najbardziej realistycznej laboratoryjnie sytuacji, tj. gdy w spektrum DNA występują wszystkie typy błędów hybrydyzacji. ALGORITHM FOR DNA SEQUENCING WITH BINARY CHIP IN THE PRE- SENCE OF ALL TYPES OF HYBRIDIZATION ERRORS 1. Wstęp Summary. Sequencing by Hybridization (SBH) is an interesting and still studied approach to the DNA sequencing. Over the last 20 years since it had been invented in its classical form, many new extensions and modifications have been proposed. One of such a modification uses so called universal or degenerate bases in the DNA chip design, the ones that can bind to more than one type of natural nucleotides. In this paper we present one of such a non-classical chip and a new algorithm for DNA sequencing on the base of the non-classical spectrum coming from such a chip. The algorithm has been designed to handle all types of hybridization errors in the spectrum in order to reconstruct the precise DNA sequence. Minęło już ponad dwadzieścia lat od momentu opublikowania założeń metody sekwencjonowania przez hybrydyzację (SBH) [1, 6, 11]. Sam sposób sekwencjonowania tą metodą jest względnie łatwy do opisania, a metoda ta dzieli się na część biochemiczną oraz część obliczeniową. W części biochemicznej należy przygotować chip DNA (mikromacierz) w taki sposób, aby w określonych sektorach chipu (w tzw. sondach) znajdowały się pewne konkretne krótkie jednoniciowe fragmenty DNA czyli oligonu-

2 M. Radom, P. Formanowicz kleotydy. Wielkość takiego chipu, tj. liczba jego sond ogranicza także w podejściu klasycznym maksymalną długość używanych oligonukleotydów. Jeżeli na przykład użyty zostanie jeden z większych praktycznie wykorzystywanych chipów, mający nieco ponad milion sond, umieścić w nich można wszystkie rodzaje oligonukleotydów do maksymalnej długości 10 nukleotydów - każdy w osobnej sondzie. Oligonukleotydy można sobie wyobrazić jako krótkie ciągi znaków, zbudowane nad 4-literowym alfabetem {A, C, G, T}. Dla długości 10 par zasad wszystkie permutacje z powtórzeniami nukleotydów tworzące ciągi o takiej długości to dokładnie 4 10 łańcuchów, czyli nieco ponad milion. Takie podejście, używające wszystkich rodzajów oligonukleotydów o zadanej długości, gdy w każdej sondzie znajduje się tylko jeden typ, będziemy dalej określać mianem podejścia klasycznego. W takim przypadku wszystkie oligonukleotydy w chipie DNA mają tą samą długość. W innych podejściach, które nie wykorzystują wszystkich kombinacji nukleotydowych, używane są czasem dłuższe oligonukleotydy, zazwyczaj do długości 20 par zasad [7]. Po przygotowaniu chipu DNA oraz dysponując jednoniciowym, sklonowanym DNA, które należy sekwencjonować, można przystąpić do pierwszej fazy SBH - fazy biochemicznej. W niej to następuje eksperyment hybrydyzacyjny, w którym sklonowane DNA przyłącza się do tych sond chipu, w których znajdują się oligonukleotydy komplementarne do fragmentów badanej sekwencji. Takie przyłączenie do sond jest wykrywane, po czym ze zbioru takich sond uzyskiwane jest tak zwane spektrum DNA - w idealnym przypadku zbiór wszystkich fragmentów tworzących DNA mających długość oligonukleotydów, do których fragmenty te hybrydyzowały. Jest to także moment, w którym objawia się główny problem metody, czyli błędy hybrydyzacji. Błędy te mogą być dwojakiego rodzaju. Błędy pozytywne to te, które spowodowane zostały błędnym odczytem sond, które w rzeczywistości nie miały prawa hybrydyzować do DNA. W spektrum znajdują się wtedy dodatkowe, fałszywe fragmenty. Błędy negatywne to sytuacja odwrotna - spektrum DNA zawiera mniej fragmentów niż jest potrzebne, aby w pełni odwtorzyć badane DNA przy maksymalnym nałożeniu się wszystkich fragmentów. Błędy takie mogą też być spowodowane powtórzeniami pewnych fragmentów w DNA - ten rodzaj błędów negatywnych jest teoretycznie i praktycznie nieunikniony, zadaniem odpowiedniego algorytmu sekwencjonowania jest więc radzenie sobie z takimi sytuacjami. Następuje to w drugiej fazie metody SBH - fazie obliczeniowej. W niej to, na podstawie danych ze spektrum DNA odtwarzana jest badana sekwencja. Błędy hybrydyzacji poważnie ograniczają maksymalną długość DNA, które może być jednoznacznie odczytane za pomocą metody SBH. Są one też powodem powstawania bardzo licznych modyfikacji tej metody. Jedna z zaproponowanych modyfikacji dodaje do spektrum DNA dodatkową infomację o przybliżonej lokalizacji fragmentów w całej sekwencji. Metoda zwana pozycyjnym sekwencjonowaniem przez hybrydyzację została przedstawiona między innymi w artykułach [2, 10, 17]. Innym podejściem jest zastosowanie metody SBH w następujących po sobie rundach (fazach), gdzie wynik danej rundy (np. otrzymane spektrum DNA, przybliżona rekonstrukcja) wpływa na sposób przygotowania chipu i przeprowadzenia eksperymentu hybrydyzacyjnego w fazie kolejnej [12, 14]. Jeszcze innym podejściem jest izotermiczne sekwencjonowanie przez hybrydyzację. W tym podejściu brana jest pod uwagę temperatura topnienia dwuniciowych fragmentów DNA - precyzyjnie determinuje to wybór odpowiednich oligonukleotydów, o różnej długości, lecz o tej samej temperaturze topnienia każdego z nich [3, 4, 5]. Wspomniano już o problemie powtórzeń fragmentów w DNA, kiedy to w eks-

3 Algorytm sekwencjonowania DNA przy użyciu chipu binarnego dla wszystkich typów błędów hybrydyzacji perymencie hybrydyzacyjnym do tej samej sondy wielokrotnie przyłączane jest DNA tymi samymi fragmentami, lecz znajdującymi się na różnych pozycjach. Ogólnie rzecz ujmując, informacja o liczbie takich różnych przyłączeń jest tracona. Koncepcja choćby częściowej wiedzy o takich przyłączeniach w eksperymencie hybrydyzacyjnym była rozpatrywana w pracach [8, 9, 13]. W niniejszej pracy przedstawiony zostanie algorytm dla podejścia opartego na jednym z nieklasycznych chipów DNA opisanych wcześniej w artykule [15].Przedstawiono tam ideę trzech rodzajów chipów nieklasycznych, wykorzystujących wspomniane już nukleotydy uniwersalne oraz zdegenerowane - mają one własność komplementarności do więcej niż jednego typu naturalnego nukleotydu. Sonda w takich chipach opisywana jest wzorem określającym pewien podzbiór różnych fragmentów DNA zdolnych z nią hybrydyzować. W nieklasycznym spektrum DNA uzyskanym za pomocą tego rodzaju chipu dysponujemy więc zbiorem sond, które hybrydyzowały z DNA, lecz z żadnej sondy niezależnie nie wynika, jaki dokładnie fragment lub fragmenty analizowanej cząsteczki hybrydyzowały. W rozprawie doktorskiej [16] opracowano między innymi trzy różne algorytmy sekwencjonowania za pomocą wspomnianych trzech nieklasycznych chipów. Jeden z nich, algorytm dla chipu binarnego (ang. Binary Chip) zostanie w niniejszym artykule przedstawiony. Algorytm ten radzi sobie całkiem dobrze nawet w sytuacji, kiedy spektrum nieklasyczne jest obarczone wszystkimi typami błędów hybrydyzacji równocześnie. W następnym rozdziale artykułu przedstawiony zostanie sposób budowy chipu binarnego wraz z krótkim komentarzem odnośnie problemów kombinatorycznych zdefiniowanych na jego bazie. W kolejnym rodziale przedstawiony zostanie sposób konstrukcji zaproponowanego algorytmu. Następnie zostaną zaprezentowane przykładowe wyniki testów przeprowadzonych z użyciem opisanego algorytmu. W ostatniej części artykułu znajduje się podsumowanie oraz propozycje dalszych prac badawczych. 2. Chip binarny - sformułowanie problemów oraz złożoność obliczeniowa Chip binarny, zaproponowany po raz pierwszy w pracy [15] składa się z dwóch części, których elementy są kodowane następująco: {W, S}, {W, S},..., {W, S}, N oraz {R, Y }, {R, Y },..., {R, Y }, N } {{ } k } {{ } k N oznacza konkretny nukleotyd ze zbioru {A, C, G, T }, symbole W, S, R i Y to elementy zbiorów 2-elementowych, zawierających różne pary liter z alfabetu {A, C, G, T }. Pary te są określone następująco: W - nukleotydy słabe A lub T, S - nukleotydy silne C lub G, R - puryny A lub G, Y - pirimidyny C lub T. Na przykład do każdej pozycji opisanej przez R mogą dołączyć nukleotydy komplementarne tylko do A lub G. Pojemność połowy chipu dla oligonukleotydów o długości l bin = k + 1 to 2 k 4, tak więc pojemność całego chipu binarnego dana jest wzorem C bin (k) = 2 2 k 4. Dla danych wartości parametrów n i k, określających odpowiednio długość badanego DNA oraz długość elementów chipu (oraz jego pojemność), spektrum idealne bez powtórzeń posiada dwa podzbiory o pojemnościach: SB1 is = n (k+1)+1 = n k oraz SB2 is = n (k + 1) + 1 = n k. Rozpatrywany dalej algorytm zakłada na wejściu, że spektrum pochodzi z eksperymentu hybrydyzacyjnego z udziałem chipu binarnego posiadającego wszystkie

4 M. Radom, P. Formanowicz sondy. Na przykład, chip dla którego k = 2 ma C bin (k) = 2 2 k 4 = = 32 sond. Połowy chipu składać się więc będą z 16 sond każda. W pracy [16] sformułowane zostały problemy kombinatoryczne w wersjach decyzyjnej oraz przeszukiwania dla trzech przypadków: bez błędów hybrydyzacji, z błędami negatywnymi oraz z błędami pozytywnymi. Przykładowy problem decyzyjny sekwencjonowania DNA z użyciem spektrum chipu binarnego przy braku błędów hybrydyzacji sformułowany jest w następujący sposób: Problem BSBH bez błędów w wersji decyzyjnej (BSBH-efd, error-free, decision) Instancja: zbiór S B = S B1 S B2 taki, że S B1 = S (is) B1 oraz S B2 = S (is) B2, będący idealnym spektrum BSBH, długość n sekwencji DNA, S B1 = n l + 1, S B2 = n l + 1. Odpowiedź: TAK, jeżeli istnieje uogólniony superciąg typu Binary o długości n zbudowany nad alfabetem {A, C, G, T}, utworzony ze wszystkich elementów zbiorów S B1 i S B2. Definicje pomocniczne nie będą tutaj w pełni przytaczane, można jednak tutaj doprecyzować, że uogólniony superciąg typu Binary jest superciągiem składającym się tylko i wyłącznie z liter alfabetu {A, C, G, T}, stanowi więc on pewien zrekonstruowany łańcuch DNA. Redukcja znaków W, S, R, Y do alfabetu {A, C, G, T} zostanie przedstawiona w opisie samego algorytmu. Przytoczony problem bez błędów hybrydyzacji w wersji deycyzyjnej jest problemem łatwym obliczeniowo (należącym do klasy P ). Złożoność obliczeniowa jego wersji przeszukiwania pozostaje problemem otwartym. W pracy [16] udowodniono przynależność problemu Binary SBH w wersji przeszukiwania z błędami pozytywnymi do klasy problemów silnie NP-trudnych Algorytm dla chipu binarnego Opracowany algorytm zachowuje się jak algorytm dokładny, starając się przeszukać całą przestrzeń rozwiązań. Posiada on jednak liczne parametry w obrębie których działa, których to odpowiednie ustawienie sprawia, że może zacząć się on zachowywać podobnie do algorytmu aproksymacyjnego. Z uwagi na aspekty praktyczne - przede wszystkich czas obliczeń, działanie algorytmu sprowadza się do przeszukania tylko części przestrzeni rozwiązań. Możliwe jest takie ustawienie parametrów, aby algorytm przeszukiwał całą dostępną przestrzeń rozwiązań. Z uwagi na jej rozmiar w przypadku większości praktycznie występujących spektr dla problemu BSBH, algorytm ogranicza jednak przeszukiwanie tylko dla pewnego dostępnego czasu obliczeń, liczby wewnętrznych iteracji czy znalezionych rozwiązań niejednoznacznych w wyznaczonym czasie. Działanie algorytmu polega na budowaniu ścieżek w dwóch niezależnych od siebie grafach. Przez niezależność rozumiemy tutaj rozłączność, ponieważ pewne zależności są brane pod uwagę w procesie tworzenia ścieżek - nie wynikają one jednak ze struktur grafów. Sposób ich budowy zostanie opisany dalej. Jeden krok elementarny rozszerza dwie ścieżki poprzez dodanie nowego wierzchołka równocześnie w obu grafach. Jest to podyktowane potrzebą wzajemnej weryfikacji wierzchołków względem siebie, tj. zgodności ostatniego nukleotydu (znaku) w parze wybranych wierzchołków. Na potrzeby dalszych rozważań przyjmowane jest, że ścieżka w grafie o etykietach wierzchołków zbudowanych nad alfabetem {W, S, A, C, G, T} będzie oznaczana przez P W S, druga ścieżka natomiast przez P RY - w grafie, którego etykiety wierzchołków zbudowane są

5 Algorytm sekwencjonowania DNA przy użyciu chipu binarnego dla wszystkich typów błędów hybrydyzacji nad alfabetem {R, Y, A, C, G, T}. Dane wejściowe algorytmu są następujące: 1) spektrum DNA z eksperymentu hybrydyzacyjnego, zawierające elementy pochodzące z obu połówek chipu binarnego: S W S oraz S RY ; 2) długość n badanego fragmentu DNA; 3) parametr k, określający długość oligonukleotydów użytego chipu; 4) informacja o sondzie w każdej z dwóch części chipu, która hybrydyzowała z początkowym fragmentem DNA (o długości k + 1 nukleotydów). Grafy tworzone są niezależnie od siebie, ich łuki oznaczone są wagami zależnymi od stopnia nałożenia się ciągów będących nazwami wierzchołków. Jeżeli przyjąć l za długość etykiet wierzchołków w grafie, możliwe są nałożenia od l 1 znaków (maksymalne) do 1 znaku (pierwszy i ostatni pewnych dwóch etykiet). Ponieważ każda ostatnia litera ciągu ze spektrum, będącego etykietą danego wierzchołka, należąca do {A,C,G,T} zawiera się też w zbiorach 2-literowych W, S, R, Y, na czas tworzenia łuków traktowana jest jako nakładająca się na literę danego zbioru 2-elementowego. Na przykład litera A zawiera się w zbiorze W, dlatego możliwe jest nałożenie pomiędzy W W A a W W C na l 1 znakach, ponieważ W A z pierwszego ciągu może nałożyć się poprawnie na początkowe W W z drugiego. Jest to stosowane tylko i wyłącznie podczas fazy tworzenia grafów, tak więc informacja o ostatniej literze etykiety wierzchołka jest wciąż dostępna dla algorytmu. Po tej fazie istnieją dwa grafy zbudowane nad dwoma alfabetami pochodzącymi z zasad konstrukcji chipu binarnego. Pseudokod głównej pętli algorytmu dany jest na poniższym rysunku 1: Rys. 1. Pseudokod głównej pętli algorytmu W linii 1 sprawdzane są trzy główne warunki zatrzymania pracy algorytmu. Są to kolejno: limit czasu pracy, wyczerpanie się przestrzeni rozwiązań oraz ogólna flaga stopu, ustawiana w zależności od stanów końcowych poszczególnych dalszych procedur algorytmu. Warunki zatrzymania przeszukiwania grafów są następujące:

6 M. Radom, P. Formanowicz 1) sprawdzono całą przestrzeń rozwiązań; 2) osiągnięto limit rozwiązań dodanych do listy (limit rozwiązań niejednoznacznych); 3) osiągnięto limit rekonstrukcji par ścieżek o zadanej długości. Celem każdego kroku pętli jest dodanie kolejnej pary następników, po jednym dla każdego grafu. Wybór par kandydatów na następników odbywa się w linii 2, są one umieszczane na liście Candidates. W linii 3 algorytm stara się dodać pierwszą wolną (z listy) parę wierzchołków do ścieżek w grafach. Jeśli się to nie udało, wtedy sprawdzane są powody takiego stanu rzeczy. Jeżeli powstały już ścieżki o wielkości umożliwiającej rekonstrukcję DNA o długości n, jest ono odtwarzane ze złożenia obu ścieżek, co zostanie opisanego pod koniec niniejszego rozdziału artykułu. Rozwiązanie jest też weryfikowane pod względem liczby wierzchołków użytych z obu części spektrum z uwzględnieniem wpływu błędów hybrydyzacji. Zaakceptowane rozwiązania są dodawane do listy rozwiązań. Linie 9, 11 oraz 14 wywołują procedurę powrotu do wierzchołków poprzednich w celu konstrukcji innych ścieżek innymi rozgałęzieniami wierzchołków. Następuje to odpowiednio, w przypadku dodania rozwiązania do listy (linia 9), odrzucenia danej pary ścieżek jako rozwiązania dopuszczalnego (linia 11), a także w przypadku, w którym algorytm musi się wycofać, ponieważ z danej pary wierzchołków nie ma możliwości przejścia do akceptowalnej pary następników (linia 14). Linia 2 zaprezentowanego pseudokodu prowadzi do bardzo ważnej funkcji odpowiedzialnej za ustalanie par następników dla obu grafów. Z każdego grafu brane są następniki z ostatnio dodanego wierzchołka w odpowiedniej ścieżce, a następnie tworzone są pary mające identyczny ostatni znak w etykietach. Prezentuje to poniższy Rysunek 2: Rys. 2. Mechanizm tworzania par kandydatów na następników wierzchołków Na przykładzie z Rysunku 2, z ostatniego wierzchołka ścieżki grafu W S prowadzą łuki do trzech możliwych następników, natomiast tylko do dwóch w ścieżce dla grafu RY. Tylko dwie pary następników mogą być brane pod uwagę w takim wypadku, ponieważ następnik W SW W SW C nie posiada odpowiednika na liście następników w RY, który miałby ten sam ostatni nukleotyd. Podobnie tworzy się pary następników z mniejszym nałożeniem. Oczywiście pary następników sprawdzane są także dla mniejszych nałożeń niż maksymalne, które zaprezentowano w przykładzie. Wracając do pseudokodu głównej pętli algorytmu, należy wciąż opisać dwie jego

7 Algorytm sekwencjonowania DNA przy użyciu chipu binarnego dla wszystkich typów błędów hybrydyzacji ważne procedury: powrót do poprzednich wierzchołków w celu zbadania innych rozgałęzień w budowanym drzewie przeszukiwań oraz dodanie sekwencji DNA do listy rozwiązań. To ostatnie wiąże się z jej odtworzeniem z dwóch ścieżek P W S oraz P RY. Procedura powrotu jest wywoływana w liniach 9, 11 i 14 głównej pętli algorytmu, w przypadkach gdy: 1) nowa rekonstrukcja została utworzona ze ścieżek o odpowiedniej długości; 2) nie powiodła się próba dodania nowego wierzchołka z listy kandydatów na następników. W takich wypadkach algorytm wraca do poprzednich wierzchołków. W przypadku omawianego tutaj algorytmu dla chipu binarnego wycofywana jest aktualna para wierzchołków w obu grafach oraz zapamiętywana jako już sprawdzona para na potrzeby dalszych iteracji. Przed dodaniem znalezionej sekwencji do zbioru rozwiązań musi ona zostać odtworzona w postaci ciągu nad alfabetem 4-literowym {A, C, G, T} oraz zweryfikowana. Złożenia liter z {W, S} oraz z {R, Y} jednoznacznie identyfikują konkretny nukleotyd ze zbioru {A, C, G, T}. Ponieważ oba ciągi znaków (odpowiedniki ścieżek) są jednakowej długości, w liniowym czasie po ich złożeniu algorytm odtwarza sekwencję DNA. Przed dodaniem nowego rozwiązania do listy rozwiązań musi być ono zweryfikowane. Proces ten polega na testowaniu występowania elementów spektrum w zrekonstruowanej sekwencji, a precyzyjniej, w obu ścieżkach grafów przed ich końcowym złożeniem w superciąg nad alfabetem {A, C, G, T}. Procedura ta jest zależna od przypadku występowania lub nie dwóch typów błędów hybrydyzacji. W przypadku, gdy błędy negatywne i pozytywne nie występują razem, można precyzyjnie określić liczbę elementów spektrum DNA, które muszą zostać wykorzystane. Niestety, realistyczny przypadek to ten, w którym występują wszystkie rodzaje błędów hybrydyzacji w spektrum danym na wejściu. Algorytm posługuje się wtedy przybliżoną minimalną liczbą elementów, tj. akceptując rozwiązania, które w procesie tworzenia ścieżek zawierają liczbę elementów spektrum zależną od przyjętego limitu. 3. Wyniki Zaprezentowany algorytm przetestowany został w obszernym eksperymencie obliczeniowym. Zaprezentowane tutaj zostaną wyniki dobrze reprezentujące cechy charakterystyczne chipu binarnego. Dla porównania przedstawione będą także wyniki dla podobnych parametrów pracy dla chipu klasycznego, również zaimplementowanego w toku badań. Podstawowe parametry testów to: wielkość chipu (I typ: 131 tysiecy sond, II typ: pół miliona sond; dla chipu klasycznego odpowiednio 262 tysiące (I) oraz milion sond (II)), maksymalny czas pracy (60 sekund), długość poszukiwanego DNA (od 300 do 700 par zasad). Testowane były rzeczywiste kodujące sekwencje DNA pobrane z bazy danych GenBank. Tabela 1 prezentuje wyniki dla chipu binarnego oraz klasycznego I typu (odpowiednio 131 i 262tys. sond) dla DNA o trzech długościach: 300, 500 oraz 700. Kolumny Tabeli 1 oznaczają prawdziwy procent błędów negatywnych oraz pozytywnych, np. kolumna 5% oznacza 5% pozytywnych oraz 5% negatywnych błędów w spektrum. Trzy pierwsze wiersze wyników dotyczą chipu binarnego (dla trzech testowanych długości

8 M. Radom, P. Formanowicz Tabela 1 Wyniki testów dla wszystkich typów błędów dla chipów DNA I typu Dł.DNA (chip) 1% 2% 3% 4% 5% 300 (Bin) 94(85)[93] 85(75)[81] 85(74)[81] 79(70)[78] 75(67)[75] 500 (Bin) 76(74)[74] 68(66)[67] 55(48)[55] 59(51)[53] 51(45)[50] 700 (Bin) 58(53)[58] 35(30)[35] 37(29)[37] 29(25)[25] 21(16)[19] 300 (Cls) 99(44)[43] 96(35)[41] 94(38)[36] 92(35)[39] 92(27)[31] 500 (Cls) 92(33)[17] 85(36)[4] 88(21)[7] 91(25)[7] 87(31)[8] 700 (Cls) 90(34)[3] 81(32)[2] 92(29)[4] 82(22)[1] 87(21)[0] DNA), trzy kolejne - klasycznego. W każdej z zaprezentowanych tabel wyników w każdej komórce znajdują się trzy wartości. Każda komórka zawiera wynik dla 100 prób na różnych fragmentach DNA o tej samej długości oraz losowo wygenerowanym jednakowym procencie błędów dla każdego ze stu testów. Wartość pierwsza oznacza liczbę prób, w których po maksymalnym czasie 60 sekund algorytm zwrócił minimum jedną sekwencję wynikową. Druga wartość () oznacza liczbę prób na sto, w których po 60 sekundach było dokładnie jedno rozwiązanie. Trzecia wartość [] oznacza liczbę prób na sto, w których w zbiorze rozwiązań po 60 sekundach znalazło się badane DNA (ponieważ było ono znane przed rozpoczęciem każdej próby sekwencjonowania). Przed interpretacją wyników należy zwrócić uwagę na jedną bardzo istotną kwestię. W przypadku występowania obu rodzajów błędów hybrydzacji w spektrum równocześnie, nie ma żadnej możliwości precyzyjnego określenia ich liczby. Z tego powodu jeden z zaimplementowanych parametrów odpowiada za wartość przybliżoną każdego typu błędów, która jest potrzebna algorytmom do określenia, ile wierzchołków z różnym nałożeniem należy wciąż dodawać do rozwiązania. Przyjęcie ograniczenia tylko i wyłącznie wynikającego z długości docelowej sekwencji miałoby bardzo zły wpływ na efektywność zaproponowanych algorytmów. Dla potrzeb testów przyjęto wartość 15% dla każdego typu błędów, pomimo, że ich realna maksymalna wartość w testach nie przekroczyła 5%. Wyraźnie widać przewagę chipu binarnego w ograniczaniu liczby rozwiązań niejednoznacznych. Liczba wyników z jednym rozwiązaniem jest bardzo duża w porównaniu z liczbą rozwiązań niejednoznacznych (będących różnicą pomiędzy pierwszymi dwoma wartościami w każdej komórce). Co ważniejsze, liczba testów, w których występuje oryginalne zrekonstruowane DNA jest bardzo zbliżona do ogólnej liczby prób z rozwiązaniami. Nie można tego powiedzieć o chipie klasycznym, co wyraźnie widać w Tabeli 1. Tabela 2 przedstawia ten sam blok testów, lecz dla o stopień większych chipów (w sensie liczby sond). Skuteczność obu chipów wzrasta, widać jednak wyraźnie, że algorytm dla chipu binarnego ma o wiele większe możliwości uzyskania jednoznacznego i prawidłowego rozwiązania. Czas obliczeń 60 sekund zawęża przeszukaną przestrzeń rozwiązań, widać jednak wyraźnie, że proponowany algorytm nawet w tak krótkim czasie nie ma większych trudności w prawidłowym sekwnencjonowaniu DNA na bazie spektrum z chipu binarnego. Tabela 3 przedstawia wyniki dla hipotetycznego przypadku braku błędów pozytywnych w spektrum. Pozostałe parametry testów nie były zmieniane. Widać tutaj, że w

9 Algorytm sekwencjonowania DNA przy użyciu chipu binarnego dla wszystkich typów błędów hybrydyzacji Tabela 2 Wyniki testów dla wszystkich rodzajów błędów dla chipów II typu Dł.DNA (chip) 1% 2% 3% 4% 5% 300 (Bin) 96(91)[96] 92(88)[92] 90(88)[90] 83(75)[82] 76(73)[76] 500 (Bin) 90(82)[90] 84(81)[83] 73(69)[72] 78(72)[77] 74(74)[72] 700 (Bin) 83(81)[82] 65(59)[63] 65(64)[64] 69(62)[68] 52(49)[51] 300 (Cls) 88(65)[67] 78(63)[60] 84(64)[65] 84(58)[60] 78(58)[55] 500 (Cls) 82(67)[41] 78(52)[38] 68(52)[37] 65(46)[27] 73(49)[43] 700 (Cls) 76(56)[21] 76(59)[21] 63(43)[24] 52(36)[15] 59(37)[17] Tabela 3 Wyniki testów tylko dla błędów negatywnych dla chipów I typu Dł.DNA (chip) 1% 2% 3% 4% 5% 300 (Bin) 96(95)[96] 92(92)[92] 87(86)[87] 82(82)[82] 80(80)[79] 500 (Bin) 90(89)[90] 76(75)[76] 72(71)[72] 61(60)[60] 45(43)[43] 700 (Bin) 76(76)[76] 58(57)[58] 43(42)[43] 30(30)[30] 20(19)[20] 300 (Cls) 93(78)[91] 81(61)[76] 66(61)[53] 52(49)[46] 52(47)[42] 500 (Cls) 53(36)[34] 26(26)[14] 26(26)[12] 21(18)[15] 21(20)[13] 700 (Cls) 24(16)[6] 11(11)[2] 12(11)[2] 5(5)[2] 5(5)[1] przypadku ograniczenia lub wyeliminowania błędów pozytywnych ze spektrum wzrasta skuteczność algorytmu dla chipu binarnego. 4. Podsumowanie W artykule przedstawiono konstrukcję nowego algorytmu poszukującego sekwencję DNA na bazie chipu nieklasycznego. Widać wyraźnie jego przewagę nad podejściem klasycznym, czego dowodem są wyniki licznych testów, których część została w artykule przedstawiona wraz z interpretacją. Należy zwrócić uwagę, że sama idea konstrukcji algorytmu nie jest tak wyrafinowana jak np. współczesne metaheurystyki dla klasycznego SBH, choć, co wykazano w pracy [16], może z nimi konkurować. Planowanym kolejnym etapem dalszej pracy jest opracowanie algorytmów metaheurystycznych dla chipu binarnego. Obiecującym podejściem byłyby także dodatkowe algorytmy redukujące liczbę błędów pozytywnych (testujące zgodność każdego elementu spektrum z jego sąsiedztwem), ponieważ z zaprezentowanej Tabeli 3 widać, że takie podejście ma wpływ na polepszenie efektywności zaproponowanego algorytmu. LITERATURA 1. Bains W., Smith G.C.: A novel method for nucleic acid sequence determination. Journal of Theoretical Biology, 135, 1988, p Ben-Dor A., Pe er I., Shamir R., Sharan R.: On the complexity of positional sequ-

10 M. Radom, P. Formanowicz encing by hybridization. Journal of Computational Biology, 8, 2001, p Błażewicz J., Formanowicz P., Kasprzak M., Markiewicz W.T.: Sequencing by hybridization with isothermic oligonucleotide libraries. Discrete Applied Mathematics, 145, 2004, p Błażewicz J., Formanowicz P., Kasprzak M., Markiewicz W.T., Świercz A.: Tabu search algorithm for DNA sequencing by hybridization with isothermic libraries. Computational Biology and Chemistry, 28, 2004, p Błażewicz J., Formanowicz P.: Multistage isothermic sequencing by hybridization. Computational Biology and Chemistry, 29, 2005, p Drmanac R., Labat L., Brukner I., Crkvenjakov R.: Sequencing of megabase plus DNA by Hybridization. Genomics, 4, 1989, p Fedrigo O., Naylor G.: A gene-specific DNA sequencing chip for exploring molecular evolutionary change. Nucleic Acids Research, 4, 2004, p Formanowicz P.: Selected combinatorial aspects of biological sequence analysis. Publishing House of Poznan University of Technology, Formanowicz P.: DNA sequencing by hybridization with additional information available. Computational Methods in Science and Technology, 11(1), 2005, p Hannenhalli S., Pevzner P.A., Levis H., Skiena S.: Positional sequencing by hybridization. Computer Applications in Biosciences, 12, 1996, p Khrapko K.R., Lysov P., Khorlyn A.A., Shick V.V., Florentiev V.L., Mirzabekov A.D.: An oligonucleotide hybridization approach to DNA sequencing. FEBS Letters, 256, 1989, p Kruglyak, S.: Multistage sequencing by hybridization. Journal of Computational Biology, 5, 1998, p Kwarciak K., Radom M., Formanowicz P.: Sekwencjonowanie DNA z bledami negatywnymi oraz informacja o powtorzeniach. Zeszyty Naukowe Politechniki Slaskiej, z151, 2008, p Margaritis D., Skiena S.: Reconstructing strings from substrings in rounds. Proceedings 36th Symposium on Foundation of Computer Science, 6(2), 1995, p Pevzner P.A., Lipshutz R.J.: Towards DNA sequencing chips. Symposium on Mathematical Foundations of Computer Science, 841, 1994, p Radom M.: Kombinatoryczne aspekty nieklasycznego sekwencjonowania DNA przez hybrydyzację, Instytut Informatyki Politechniki Poznańskiej, Zhang J.-H., Wu L.-Y., Zhao Y.-Y., Zhang X.-S.: An optimal approach to the reconstruction of positional DNA sequencing by hybridization with errors. European Journal of Operational Research, 182, 2006, p