AUTOMATYZACJA PROCESÓW DYSKRETNYCH 2012 ALGORYTM SEKWENCJONOWANIA DNA PRZY UŻYCIU CHIPU BINAR- NEGO DLA WSZYSTKICH TYPÓW BŁEDÓW HYBRYDYZACJI

Podobne dokumenty
Algorytmy kombinatoryczne w bioinformatyce

Wersja pliku: v.10, 13 kwietnia 2019 zmiany: dodany punkt na temat testów do sprawozdania. Biologia, bioinformatyka:

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej

Kombinatoryczne aspekty nieklasycznego sekwencjonowania DNA przez hybrydyzację

Plan wykładów. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

AiSD zadanie trzecie

KATEDRA INFORMATYKI TECHNICZNEJ. Ćwiczenia laboratoryjne z Logiki Układów Cyfrowych. ćwiczenie 204

Wybrane podstawowe rodzaje algorytmów

Algorytm. Krótka historia algorytmów

Testowanie hipotez statystycznych

Modele grafowe i algorytmy dla klasycznego problemu sekwencjonowania DNA przez hybrydyzację oraz dla jego odmiany z informacją o powtórzeniach

Grafy i sieci wybrane zagadnienia wykład 2: modele służące rekonstrukcji sekwencji

Wykład z Technologii Informacyjnych. Piotr Mika

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

Zadania laboratoryjne i projektowe - wersja β

Marta Kasprzak 1,2, Aleksandra Świercz 1,2

Matematyczne Podstawy Informatyki

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH

Programowanie dynamiczne i algorytmy zachłanne

Struktury danych i złozoność obliczeniowa. Prof. dr hab. inż. Jan Magott

Przybliżone algorytmy analizy ekspresji genów.

Obliczenia inspirowane Naturą

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

Algorytmy sortujące i wyszukujące

1. Synteza automatów Moore a i Mealy realizujących zadane przekształcenie 2. Transformacja automatu Moore a w automat Mealy i odwrotnie

Teoria obliczeń i złożoność obliczeniowa

Technologie informacyjne - wykład 12 -

Elementy teorii grafów Elementy teorii grafów

Grafy etykietowalne i sieci Petriego w analizie procesów biochemicznych i biologicznych

Optymalizacja. Przeszukiwanie lokalne

1 Wprowadzenie do algorytmiki

Sprawiedliwość i efektywność tradycyjnych i skomputeryzowanych metod organizacji masowego naboru do szkół średnich

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

TEORETYCZNE PODSTAWY INFORMATYKI

Algorytm poprawny jednoznaczny szczegółowy uniwersalny skończoność efektywność (sprawność) zmiennych liniowy warunkowy iteracyjny

Aproksymacja funkcji a regresja symboliczna

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

9.9 Algorytmy przeglądu

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Recenzja pracy doktorskiej mgr Tomasza Świsłockiego pt. Wpływ oddziaływań dipolowych na własności spinorowego kondensatu rubidowego

1 Automaty niedeterministyczne

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15

ECDL Podstawy programowania Sylabus - wersja 1.0

Tabela wewnętrzna - definicja

Algorytmy i Struktury Danych

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Efektywność Procedur Obliczeniowych. wykład 5

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Programowanie i techniki algorytmiczne

WIELOKRYTERIALNE PORZĄDKOWANIE METODĄ PROMETHEE ODPORNE NA ZMIANY WAG KRYTERIÓW

Teoria grafów - Teoria rewersali - Teoria śladów

O ISTOTNYCH OGRANICZENIACH METODY

Wykład 3. Złożoność i realizowalność algorytmów Elementarne struktury danych: stosy, kolejki, listy

0 + 0 = 0, = 1, = 1, = 0.

Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu

Złożoność obliczeniowa zadania, zestaw 2

NIETYPOWE WŁASNOŚCI PERMUTACYJNEGO PROBLEMU PRZEPŁYWOWEGO Z OGRANICZENIEM BEZ PRZESTOJÓW

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

Maciej Piotr Jankowski

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

Zastosowanie metod opartych na teorii grafów do rozwiązywania wybranych problemów analizy sekwencji nukleotydowych i aminokwasowych

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

Problem skoczka szachowego i inne cykle Hamiltona na szachownicy n x n

Wykład VII. Kryptografia Kierunek Informatyka - semestr V. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej

Heurystyczne metody przeszukiwania

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Jednym z najprostszych sposobów porządkowania jest technika stosowana przy sortowaniu listów:

TEORETYCZNE PODSTAWY INFORMATYKI

Wstęp do Sztucznej Inteligencji

Reswkwencjonowanie vs asemblacja de novo

Matematyczne Podstawy Informatyki

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Laboratorium z przedmiotu Programowanie obiektowe - zestaw 04

Łączenie liczb i tekstu.

Kumulowanie się defektów jest możliwe - analiza i potwierdzenie tezy

Rozwiązywanie problemów metodą przeszukiwania

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Wykład 8. Testowanie w JEE 5.0 (1) Autor: Zofia Kruczkiewicz. Zofia Kruczkiewicz

Wstęp do Techniki Cyfrowej... Teoria automatów

xx + x = 1, to y = Jeśli x = 0, to y = 0 Przykładowy układ Funkcja przykładowego układu Metody poszukiwania testów Porównanie tabel prawdy

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Wyszukiwanie binarne

Problemy z ograniczeniami

Informacja w perspektywie obliczeniowej. Informacje, liczby i obliczenia

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Liczbę 29 możemy zaprezentować na siedem różnych sposobów:

Temat 20. Techniki algorytmiczne

Przeszukiwanie lokalne

Analiza zmienności czasowej danych mikromacierzowych

Zadania do wykonania. Rozwiązując poniższe zadania użyj pętlę for.

Przykładowe sprawozdanie. Jan Pustelnik

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Transkrypt:

AUTOMATYZACJA PROCESÓW DYSKRETNYCH 2012 Marcin RADOM, Piotr FORMANOWICZ Politechnika Poznańska ALGORYTM SEKWENCJONOWANIA DNA PRZY UŻYCIU CHIPU BINAR- NEGO DLA WSZYSTKICH TYPÓW BŁEDÓW HYBRYDYZACJI Streszczenie. Sekwencjonowanie przez hybrydyzację (ang. Sequencing by Hybridization, SBH) jest ciekawym i wciąż rozwijanym podejściem do zagadnienia sekwencjonowania DNA. W okresie ponad 20 lat, które minęły od opublikowania założeń klasycznego SBH zaproponowano wiele nowych sposobów modyfikowania podstawowej metody. Jednym z możliwych podejść jest metoda używająca w konstrukcji chipu DNA tak zwanych nukleotydów uniwersalnych, bądź zdegenerowanych, mających możliwość tworzenia par z więcej niż jednym typem nukleotydu. W niniejszej pracy przedstawiony został jeden z takich nieklasycznych chipów DNA oraz zupełnie nowy algorytm rozwiązujący problem sekwencjonowania na bazie spektrum uzyskanego za pomocą takiego właśnie chipu. Algorytm został zaprojektowany tak, aby jak najlepiej radzić sobie w najbardziej realistycznej laboratoryjnie sytuacji, tj. gdy w spektrum DNA występują wszystkie typy błędów hybrydyzacji. ALGORITHM FOR DNA SEQUENCING WITH BINARY CHIP IN THE PRE- SENCE OF ALL TYPES OF HYBRIDIZATION ERRORS 1. Wstęp Summary. Sequencing by Hybridization (SBH) is an interesting and still studied approach to the DNA sequencing. Over the last 20 years since it had been invented in its classical form, many new extensions and modifications have been proposed. One of such a modification uses so called universal or degenerate bases in the DNA chip design, the ones that can bind to more than one type of natural nucleotides. In this paper we present one of such a non-classical chip and a new algorithm for DNA sequencing on the base of the non-classical spectrum coming from such a chip. The algorithm has been designed to handle all types of hybridization errors in the spectrum in order to reconstruct the precise DNA sequence. Minęło już ponad dwadzieścia lat od momentu opublikowania założeń metody sekwencjonowania przez hybrydyzację (SBH) [1, 6, 11]. Sam sposób sekwencjonowania tą metodą jest względnie łatwy do opisania, a metoda ta dzieli się na część biochemiczną oraz część obliczeniową. W części biochemicznej należy przygotować chip DNA (mikromacierz) w taki sposób, aby w określonych sektorach chipu (w tzw. sondach) znajdowały się pewne konkretne krótkie jednoniciowe fragmenty DNA czyli oligonu-

M. Radom, P. Formanowicz kleotydy. Wielkość takiego chipu, tj. liczba jego sond ogranicza także w podejściu klasycznym maksymalną długość używanych oligonukleotydów. Jeżeli na przykład użyty zostanie jeden z większych praktycznie wykorzystywanych chipów, mający nieco ponad milion sond, umieścić w nich można wszystkie rodzaje oligonukleotydów do maksymalnej długości 10 nukleotydów - każdy w osobnej sondzie. Oligonukleotydy można sobie wyobrazić jako krótkie ciągi znaków, zbudowane nad 4-literowym alfabetem {A, C, G, T}. Dla długości 10 par zasad wszystkie permutacje z powtórzeniami nukleotydów tworzące ciągi o takiej długości to dokładnie 4 10 łańcuchów, czyli nieco ponad milion. Takie podejście, używające wszystkich rodzajów oligonukleotydów o zadanej długości, gdy w każdej sondzie znajduje się tylko jeden typ, będziemy dalej określać mianem podejścia klasycznego. W takim przypadku wszystkie oligonukleotydy w chipie DNA mają tą samą długość. W innych podejściach, które nie wykorzystują wszystkich kombinacji nukleotydowych, używane są czasem dłuższe oligonukleotydy, zazwyczaj do długości 20 par zasad [7]. Po przygotowaniu chipu DNA oraz dysponując jednoniciowym, sklonowanym DNA, które należy sekwencjonować, można przystąpić do pierwszej fazy SBH - fazy biochemicznej. W niej to następuje eksperyment hybrydyzacyjny, w którym sklonowane DNA przyłącza się do tych sond chipu, w których znajdują się oligonukleotydy komplementarne do fragmentów badanej sekwencji. Takie przyłączenie do sond jest wykrywane, po czym ze zbioru takich sond uzyskiwane jest tak zwane spektrum DNA - w idealnym przypadku zbiór wszystkich fragmentów tworzących DNA mających długość oligonukleotydów, do których fragmenty te hybrydyzowały. Jest to także moment, w którym objawia się główny problem metody, czyli błędy hybrydyzacji. Błędy te mogą być dwojakiego rodzaju. Błędy pozytywne to te, które spowodowane zostały błędnym odczytem sond, które w rzeczywistości nie miały prawa hybrydyzować do DNA. W spektrum znajdują się wtedy dodatkowe, fałszywe fragmenty. Błędy negatywne to sytuacja odwrotna - spektrum DNA zawiera mniej fragmentów niż jest potrzebne, aby w pełni odwtorzyć badane DNA przy maksymalnym nałożeniu się wszystkich fragmentów. Błędy takie mogą też być spowodowane powtórzeniami pewnych fragmentów w DNA - ten rodzaj błędów negatywnych jest teoretycznie i praktycznie nieunikniony, zadaniem odpowiedniego algorytmu sekwencjonowania jest więc radzenie sobie z takimi sytuacjami. Następuje to w drugiej fazie metody SBH - fazie obliczeniowej. W niej to, na podstawie danych ze spektrum DNA odtwarzana jest badana sekwencja. Błędy hybrydyzacji poważnie ograniczają maksymalną długość DNA, które może być jednoznacznie odczytane za pomocą metody SBH. Są one też powodem powstawania bardzo licznych modyfikacji tej metody. Jedna z zaproponowanych modyfikacji dodaje do spektrum DNA dodatkową infomację o przybliżonej lokalizacji fragmentów w całej sekwencji. Metoda zwana pozycyjnym sekwencjonowaniem przez hybrydyzację została przedstawiona między innymi w artykułach [2, 10, 17]. Innym podejściem jest zastosowanie metody SBH w następujących po sobie rundach (fazach), gdzie wynik danej rundy (np. otrzymane spektrum DNA, przybliżona rekonstrukcja) wpływa na sposób przygotowania chipu i przeprowadzenia eksperymentu hybrydyzacyjnego w fazie kolejnej [12, 14]. Jeszcze innym podejściem jest izotermiczne sekwencjonowanie przez hybrydyzację. W tym podejściu brana jest pod uwagę temperatura topnienia dwuniciowych fragmentów DNA - precyzyjnie determinuje to wybór odpowiednich oligonukleotydów, o różnej długości, lecz o tej samej temperaturze topnienia każdego z nich [3, 4, 5]. Wspomniano już o problemie powtórzeń fragmentów w DNA, kiedy to w eks-

Algorytm sekwencjonowania DNA przy użyciu chipu binarnego dla wszystkich typów błędów hybrydyzacji perymencie hybrydyzacyjnym do tej samej sondy wielokrotnie przyłączane jest DNA tymi samymi fragmentami, lecz znajdującymi się na różnych pozycjach. Ogólnie rzecz ujmując, informacja o liczbie takich różnych przyłączeń jest tracona. Koncepcja choćby częściowej wiedzy o takich przyłączeniach w eksperymencie hybrydyzacyjnym była rozpatrywana w pracach [8, 9, 13]. W niniejszej pracy przedstawiony zostanie algorytm dla podejścia opartego na jednym z nieklasycznych chipów DNA opisanych wcześniej w artykule [15].Przedstawiono tam ideę trzech rodzajów chipów nieklasycznych, wykorzystujących wspomniane już nukleotydy uniwersalne oraz zdegenerowane - mają one własność komplementarności do więcej niż jednego typu naturalnego nukleotydu. Sonda w takich chipach opisywana jest wzorem określającym pewien podzbiór różnych fragmentów DNA zdolnych z nią hybrydyzować. W nieklasycznym spektrum DNA uzyskanym za pomocą tego rodzaju chipu dysponujemy więc zbiorem sond, które hybrydyzowały z DNA, lecz z żadnej sondy niezależnie nie wynika, jaki dokładnie fragment lub fragmenty analizowanej cząsteczki hybrydyzowały. W rozprawie doktorskiej [16] opracowano między innymi trzy różne algorytmy sekwencjonowania za pomocą wspomnianych trzech nieklasycznych chipów. Jeden z nich, algorytm dla chipu binarnego (ang. Binary Chip) zostanie w niniejszym artykule przedstawiony. Algorytm ten radzi sobie całkiem dobrze nawet w sytuacji, kiedy spektrum nieklasyczne jest obarczone wszystkimi typami błędów hybrydyzacji równocześnie. W następnym rozdziale artykułu przedstawiony zostanie sposób budowy chipu binarnego wraz z krótkim komentarzem odnośnie problemów kombinatorycznych zdefiniowanych na jego bazie. W kolejnym rodziale przedstawiony zostanie sposób konstrukcji zaproponowanego algorytmu. Następnie zostaną zaprezentowane przykładowe wyniki testów przeprowadzonych z użyciem opisanego algorytmu. W ostatniej części artykułu znajduje się podsumowanie oraz propozycje dalszych prac badawczych. 2. Chip binarny - sformułowanie problemów oraz złożoność obliczeniowa Chip binarny, zaproponowany po raz pierwszy w pracy [15] składa się z dwóch części, których elementy są kodowane następująco: {W, S}, {W, S},..., {W, S}, N oraz {R, Y }, {R, Y },..., {R, Y }, N } {{ } k } {{ } k N oznacza konkretny nukleotyd ze zbioru {A, C, G, T }, symbole W, S, R i Y to elementy zbiorów 2-elementowych, zawierających różne pary liter z alfabetu {A, C, G, T }. Pary te są określone następująco: W - nukleotydy słabe A lub T, S - nukleotydy silne C lub G, R - puryny A lub G, Y - pirimidyny C lub T. Na przykład do każdej pozycji opisanej przez R mogą dołączyć nukleotydy komplementarne tylko do A lub G. Pojemność połowy chipu dla oligonukleotydów o długości l bin = k + 1 to 2 k 4, tak więc pojemność całego chipu binarnego dana jest wzorem C bin (k) = 2 2 k 4. Dla danych wartości parametrów n i k, określających odpowiednio długość badanego DNA oraz długość elementów chipu (oraz jego pojemność), spektrum idealne bez powtórzeń posiada dwa podzbiory o pojemnościach: SB1 is = n (k+1)+1 = n k oraz SB2 is = n (k + 1) + 1 = n k. Rozpatrywany dalej algorytm zakłada na wejściu, że spektrum pochodzi z eksperymentu hybrydyzacyjnego z udziałem chipu binarnego posiadającego wszystkie

M. Radom, P. Formanowicz sondy. Na przykład, chip dla którego k = 2 ma C bin (k) = 2 2 k 4 = 8 2 2 = 32 sond. Połowy chipu składać się więc będą z 16 sond każda. W pracy [16] sformułowane zostały problemy kombinatoryczne w wersjach decyzyjnej oraz przeszukiwania dla trzech przypadków: bez błędów hybrydyzacji, z błędami negatywnymi oraz z błędami pozytywnymi. Przykładowy problem decyzyjny sekwencjonowania DNA z użyciem spektrum chipu binarnego przy braku błędów hybrydyzacji sformułowany jest w następujący sposób: Problem BSBH bez błędów w wersji decyzyjnej (BSBH-efd, error-free, decision) Instancja: zbiór S B = S B1 S B2 taki, że S B1 = S (is) B1 oraz S B2 = S (is) B2, będący idealnym spektrum BSBH, długość n sekwencji DNA, S B1 = n l + 1, S B2 = n l + 1. Odpowiedź: TAK, jeżeli istnieje uogólniony superciąg typu Binary o długości n zbudowany nad alfabetem {A, C, G, T}, utworzony ze wszystkich elementów zbiorów S B1 i S B2. Definicje pomocniczne nie będą tutaj w pełni przytaczane, można jednak tutaj doprecyzować, że uogólniony superciąg typu Binary jest superciągiem składającym się tylko i wyłącznie z liter alfabetu {A, C, G, T}, stanowi więc on pewien zrekonstruowany łańcuch DNA. Redukcja znaków W, S, R, Y do alfabetu {A, C, G, T} zostanie przedstawiona w opisie samego algorytmu. Przytoczony problem bez błędów hybrydyzacji w wersji deycyzyjnej jest problemem łatwym obliczeniowo (należącym do klasy P ). Złożoność obliczeniowa jego wersji przeszukiwania pozostaje problemem otwartym. W pracy [16] udowodniono przynależność problemu Binary SBH w wersji przeszukiwania z błędami pozytywnymi do klasy problemów silnie NP-trudnych. 2.1. Algorytm dla chipu binarnego Opracowany algorytm zachowuje się jak algorytm dokładny, starając się przeszukać całą przestrzeń rozwiązań. Posiada on jednak liczne parametry w obrębie których działa, których to odpowiednie ustawienie sprawia, że może zacząć się on zachowywać podobnie do algorytmu aproksymacyjnego. Z uwagi na aspekty praktyczne - przede wszystkich czas obliczeń, działanie algorytmu sprowadza się do przeszukania tylko części przestrzeni rozwiązań. Możliwe jest takie ustawienie parametrów, aby algorytm przeszukiwał całą dostępną przestrzeń rozwiązań. Z uwagi na jej rozmiar w przypadku większości praktycznie występujących spektr dla problemu BSBH, algorytm ogranicza jednak przeszukiwanie tylko dla pewnego dostępnego czasu obliczeń, liczby wewnętrznych iteracji czy znalezionych rozwiązań niejednoznacznych w wyznaczonym czasie. Działanie algorytmu polega na budowaniu ścieżek w dwóch niezależnych od siebie grafach. Przez niezależność rozumiemy tutaj rozłączność, ponieważ pewne zależności są brane pod uwagę w procesie tworzenia ścieżek - nie wynikają one jednak ze struktur grafów. Sposób ich budowy zostanie opisany dalej. Jeden krok elementarny rozszerza dwie ścieżki poprzez dodanie nowego wierzchołka równocześnie w obu grafach. Jest to podyktowane potrzebą wzajemnej weryfikacji wierzchołków względem siebie, tj. zgodności ostatniego nukleotydu (znaku) w parze wybranych wierzchołków. Na potrzeby dalszych rozważań przyjmowane jest, że ścieżka w grafie o etykietach wierzchołków zbudowanych nad alfabetem {W, S, A, C, G, T} będzie oznaczana przez P W S, druga ścieżka natomiast przez P RY - w grafie, którego etykiety wierzchołków zbudowane są

Algorytm sekwencjonowania DNA przy użyciu chipu binarnego dla wszystkich typów błędów hybrydyzacji nad alfabetem {R, Y, A, C, G, T}. Dane wejściowe algorytmu są następujące: 1) spektrum DNA z eksperymentu hybrydyzacyjnego, zawierające elementy pochodzące z obu połówek chipu binarnego: S W S oraz S RY ; 2) długość n badanego fragmentu DNA; 3) parametr k, określający długość oligonukleotydów użytego chipu; 4) informacja o sondzie w każdej z dwóch części chipu, która hybrydyzowała z początkowym fragmentem DNA (o długości k + 1 nukleotydów). Grafy tworzone są niezależnie od siebie, ich łuki oznaczone są wagami zależnymi od stopnia nałożenia się ciągów będących nazwami wierzchołków. Jeżeli przyjąć l za długość etykiet wierzchołków w grafie, możliwe są nałożenia od l 1 znaków (maksymalne) do 1 znaku (pierwszy i ostatni pewnych dwóch etykiet). Ponieważ każda ostatnia litera ciągu ze spektrum, będącego etykietą danego wierzchołka, należąca do {A,C,G,T} zawiera się też w zbiorach 2-literowych W, S, R, Y, na czas tworzenia łuków traktowana jest jako nakładająca się na literę danego zbioru 2-elementowego. Na przykład litera A zawiera się w zbiorze W, dlatego możliwe jest nałożenie pomiędzy W W A a W W C na l 1 znakach, ponieważ W A z pierwszego ciągu może nałożyć się poprawnie na początkowe W W z drugiego. Jest to stosowane tylko i wyłącznie podczas fazy tworzenia grafów, tak więc informacja o ostatniej literze etykiety wierzchołka jest wciąż dostępna dla algorytmu. Po tej fazie istnieją dwa grafy zbudowane nad dwoma alfabetami pochodzącymi z zasad konstrukcji chipu binarnego. Pseudokod głównej pętli algorytmu dany jest na poniższym rysunku 1: Rys. 1. Pseudokod głównej pętli algorytmu W linii 1 sprawdzane są trzy główne warunki zatrzymania pracy algorytmu. Są to kolejno: limit czasu pracy, wyczerpanie się przestrzeni rozwiązań oraz ogólna flaga stopu, ustawiana w zależności od stanów końcowych poszczególnych dalszych procedur algorytmu. Warunki zatrzymania przeszukiwania grafów są następujące:

M. Radom, P. Formanowicz 1) sprawdzono całą przestrzeń rozwiązań; 2) osiągnięto limit rozwiązań dodanych do listy (limit rozwiązań niejednoznacznych); 3) osiągnięto limit rekonstrukcji par ścieżek o zadanej długości. Celem każdego kroku pętli jest dodanie kolejnej pary następników, po jednym dla każdego grafu. Wybór par kandydatów na następników odbywa się w linii 2, są one umieszczane na liście Candidates. W linii 3 algorytm stara się dodać pierwszą wolną (z listy) parę wierzchołków do ścieżek w grafach. Jeśli się to nie udało, wtedy sprawdzane są powody takiego stanu rzeczy. Jeżeli powstały już ścieżki o wielkości umożliwiającej rekonstrukcję DNA o długości n, jest ono odtwarzane ze złożenia obu ścieżek, co zostanie opisanego pod koniec niniejszego rozdziału artykułu. Rozwiązanie jest też weryfikowane pod względem liczby wierzchołków użytych z obu części spektrum z uwzględnieniem wpływu błędów hybrydyzacji. Zaakceptowane rozwiązania są dodawane do listy rozwiązań. Linie 9, 11 oraz 14 wywołują procedurę powrotu do wierzchołków poprzednich w celu konstrukcji innych ścieżek innymi rozgałęzieniami wierzchołków. Następuje to odpowiednio, w przypadku dodania rozwiązania do listy (linia 9), odrzucenia danej pary ścieżek jako rozwiązania dopuszczalnego (linia 11), a także w przypadku, w którym algorytm musi się wycofać, ponieważ z danej pary wierzchołków nie ma możliwości przejścia do akceptowalnej pary następników (linia 14). Linia 2 zaprezentowanego pseudokodu prowadzi do bardzo ważnej funkcji odpowiedzialnej za ustalanie par następników dla obu grafów. Z każdego grafu brane są następniki z ostatnio dodanego wierzchołka w odpowiedniej ścieżce, a następnie tworzone są pary mające identyczny ostatni znak w etykietach. Prezentuje to poniższy Rysunek 2: Rys. 2. Mechanizm tworzania par kandydatów na następników wierzchołków Na przykładzie z Rysunku 2, z ostatniego wierzchołka ścieżki grafu W S prowadzą łuki do trzech możliwych następników, natomiast tylko do dwóch w ścieżce dla grafu RY. Tylko dwie pary następników mogą być brane pod uwagę w takim wypadku, ponieważ następnik W SW W SW C nie posiada odpowiednika na liście następników w RY, który miałby ten sam ostatni nukleotyd. Podobnie tworzy się pary następników z mniejszym nałożeniem. Oczywiście pary następników sprawdzane są także dla mniejszych nałożeń niż maksymalne, które zaprezentowano w przykładzie. Wracając do pseudokodu głównej pętli algorytmu, należy wciąż opisać dwie jego

Algorytm sekwencjonowania DNA przy użyciu chipu binarnego dla wszystkich typów błędów hybrydyzacji ważne procedury: powrót do poprzednich wierzchołków w celu zbadania innych rozgałęzień w budowanym drzewie przeszukiwań oraz dodanie sekwencji DNA do listy rozwiązań. To ostatnie wiąże się z jej odtworzeniem z dwóch ścieżek P W S oraz P RY. Procedura powrotu jest wywoływana w liniach 9, 11 i 14 głównej pętli algorytmu, w przypadkach gdy: 1) nowa rekonstrukcja została utworzona ze ścieżek o odpowiedniej długości; 2) nie powiodła się próba dodania nowego wierzchołka z listy kandydatów na następników. W takich wypadkach algorytm wraca do poprzednich wierzchołków. W przypadku omawianego tutaj algorytmu dla chipu binarnego wycofywana jest aktualna para wierzchołków w obu grafach oraz zapamiętywana jako już sprawdzona para na potrzeby dalszych iteracji. Przed dodaniem znalezionej sekwencji do zbioru rozwiązań musi ona zostać odtworzona w postaci ciągu nad alfabetem 4-literowym {A, C, G, T} oraz zweryfikowana. Złożenia liter z {W, S} oraz z {R, Y} jednoznacznie identyfikują konkretny nukleotyd ze zbioru {A, C, G, T}. Ponieważ oba ciągi znaków (odpowiedniki ścieżek) są jednakowej długości, w liniowym czasie po ich złożeniu algorytm odtwarza sekwencję DNA. Przed dodaniem nowego rozwiązania do listy rozwiązań musi być ono zweryfikowane. Proces ten polega na testowaniu występowania elementów spektrum w zrekonstruowanej sekwencji, a precyzyjniej, w obu ścieżkach grafów przed ich końcowym złożeniem w superciąg nad alfabetem {A, C, G, T}. Procedura ta jest zależna od przypadku występowania lub nie dwóch typów błędów hybrydyzacji. W przypadku, gdy błędy negatywne i pozytywne nie występują razem, można precyzyjnie określić liczbę elementów spektrum DNA, które muszą zostać wykorzystane. Niestety, realistyczny przypadek to ten, w którym występują wszystkie rodzaje błędów hybrydyzacji w spektrum danym na wejściu. Algorytm posługuje się wtedy przybliżoną minimalną liczbą elementów, tj. akceptując rozwiązania, które w procesie tworzenia ścieżek zawierają liczbę elementów spektrum zależną od przyjętego limitu. 3. Wyniki Zaprezentowany algorytm przetestowany został w obszernym eksperymencie obliczeniowym. Zaprezentowane tutaj zostaną wyniki dobrze reprezentujące cechy charakterystyczne chipu binarnego. Dla porównania przedstawione będą także wyniki dla podobnych parametrów pracy dla chipu klasycznego, również zaimplementowanego w toku badań. Podstawowe parametry testów to: wielkość chipu (I typ: 131 tysiecy sond, II typ: pół miliona sond; dla chipu klasycznego odpowiednio 262 tysiące (I) oraz milion sond (II)), maksymalny czas pracy (60 sekund), długość poszukiwanego DNA (od 300 do 700 par zasad). Testowane były rzeczywiste kodujące sekwencje DNA pobrane z bazy danych GenBank. Tabela 1 prezentuje wyniki dla chipu binarnego oraz klasycznego I typu (odpowiednio 131 i 262tys. sond) dla DNA o trzech długościach: 300, 500 oraz 700. Kolumny Tabeli 1 oznaczają prawdziwy procent błędów negatywnych oraz pozytywnych, np. kolumna 5% oznacza 5% pozytywnych oraz 5% negatywnych błędów w spektrum. Trzy pierwsze wiersze wyników dotyczą chipu binarnego (dla trzech testowanych długości

M. Radom, P. Formanowicz Tabela 1 Wyniki testów dla wszystkich typów błędów dla chipów DNA I typu Dł.DNA (chip) 1% 2% 3% 4% 5% 300 (Bin) 94(85)[93] 85(75)[81] 85(74)[81] 79(70)[78] 75(67)[75] 500 (Bin) 76(74)[74] 68(66)[67] 55(48)[55] 59(51)[53] 51(45)[50] 700 (Bin) 58(53)[58] 35(30)[35] 37(29)[37] 29(25)[25] 21(16)[19] 300 (Cls) 99(44)[43] 96(35)[41] 94(38)[36] 92(35)[39] 92(27)[31] 500 (Cls) 92(33)[17] 85(36)[4] 88(21)[7] 91(25)[7] 87(31)[8] 700 (Cls) 90(34)[3] 81(32)[2] 92(29)[4] 82(22)[1] 87(21)[0] DNA), trzy kolejne - klasycznego. W każdej z zaprezentowanych tabel wyników w każdej komórce znajdują się trzy wartości. Każda komórka zawiera wynik dla 100 prób na różnych fragmentach DNA o tej samej długości oraz losowo wygenerowanym jednakowym procencie błędów dla każdego ze stu testów. Wartość pierwsza oznacza liczbę prób, w których po maksymalnym czasie 60 sekund algorytm zwrócił minimum jedną sekwencję wynikową. Druga wartość () oznacza liczbę prób na sto, w których po 60 sekundach było dokładnie jedno rozwiązanie. Trzecia wartość [] oznacza liczbę prób na sto, w których w zbiorze rozwiązań po 60 sekundach znalazło się badane DNA (ponieważ było ono znane przed rozpoczęciem każdej próby sekwencjonowania). Przed interpretacją wyników należy zwrócić uwagę na jedną bardzo istotną kwestię. W przypadku występowania obu rodzajów błędów hybrydzacji w spektrum równocześnie, nie ma żadnej możliwości precyzyjnego określenia ich liczby. Z tego powodu jeden z zaimplementowanych parametrów odpowiada za wartość przybliżoną każdego typu błędów, która jest potrzebna algorytmom do określenia, ile wierzchołków z różnym nałożeniem należy wciąż dodawać do rozwiązania. Przyjęcie ograniczenia tylko i wyłącznie wynikającego z długości docelowej sekwencji miałoby bardzo zły wpływ na efektywność zaproponowanych algorytmów. Dla potrzeb testów przyjęto wartość 15% dla każdego typu błędów, pomimo, że ich realna maksymalna wartość w testach nie przekroczyła 5%. Wyraźnie widać przewagę chipu binarnego w ograniczaniu liczby rozwiązań niejednoznacznych. Liczba wyników z jednym rozwiązaniem jest bardzo duża w porównaniu z liczbą rozwiązań niejednoznacznych (będących różnicą pomiędzy pierwszymi dwoma wartościami w każdej komórce). Co ważniejsze, liczba testów, w których występuje oryginalne zrekonstruowane DNA jest bardzo zbliżona do ogólnej liczby prób z rozwiązaniami. Nie można tego powiedzieć o chipie klasycznym, co wyraźnie widać w Tabeli 1. Tabela 2 przedstawia ten sam blok testów, lecz dla o stopień większych chipów (w sensie liczby sond). Skuteczność obu chipów wzrasta, widać jednak wyraźnie, że algorytm dla chipu binarnego ma o wiele większe możliwości uzyskania jednoznacznego i prawidłowego rozwiązania. Czas obliczeń 60 sekund zawęża przeszukaną przestrzeń rozwiązań, widać jednak wyraźnie, że proponowany algorytm nawet w tak krótkim czasie nie ma większych trudności w prawidłowym sekwnencjonowaniu DNA na bazie spektrum z chipu binarnego. Tabela 3 przedstawia wyniki dla hipotetycznego przypadku braku błędów pozytywnych w spektrum. Pozostałe parametry testów nie były zmieniane. Widać tutaj, że w

Algorytm sekwencjonowania DNA przy użyciu chipu binarnego dla wszystkich typów błędów hybrydyzacji Tabela 2 Wyniki testów dla wszystkich rodzajów błędów dla chipów II typu Dł.DNA (chip) 1% 2% 3% 4% 5% 300 (Bin) 96(91)[96] 92(88)[92] 90(88)[90] 83(75)[82] 76(73)[76] 500 (Bin) 90(82)[90] 84(81)[83] 73(69)[72] 78(72)[77] 74(74)[72] 700 (Bin) 83(81)[82] 65(59)[63] 65(64)[64] 69(62)[68] 52(49)[51] 300 (Cls) 88(65)[67] 78(63)[60] 84(64)[65] 84(58)[60] 78(58)[55] 500 (Cls) 82(67)[41] 78(52)[38] 68(52)[37] 65(46)[27] 73(49)[43] 700 (Cls) 76(56)[21] 76(59)[21] 63(43)[24] 52(36)[15] 59(37)[17] Tabela 3 Wyniki testów tylko dla błędów negatywnych dla chipów I typu Dł.DNA (chip) 1% 2% 3% 4% 5% 300 (Bin) 96(95)[96] 92(92)[92] 87(86)[87] 82(82)[82] 80(80)[79] 500 (Bin) 90(89)[90] 76(75)[76] 72(71)[72] 61(60)[60] 45(43)[43] 700 (Bin) 76(76)[76] 58(57)[58] 43(42)[43] 30(30)[30] 20(19)[20] 300 (Cls) 93(78)[91] 81(61)[76] 66(61)[53] 52(49)[46] 52(47)[42] 500 (Cls) 53(36)[34] 26(26)[14] 26(26)[12] 21(18)[15] 21(20)[13] 700 (Cls) 24(16)[6] 11(11)[2] 12(11)[2] 5(5)[2] 5(5)[1] przypadku ograniczenia lub wyeliminowania błędów pozytywnych ze spektrum wzrasta skuteczność algorytmu dla chipu binarnego. 4. Podsumowanie W artykule przedstawiono konstrukcję nowego algorytmu poszukującego sekwencję DNA na bazie chipu nieklasycznego. Widać wyraźnie jego przewagę nad podejściem klasycznym, czego dowodem są wyniki licznych testów, których część została w artykule przedstawiona wraz z interpretacją. Należy zwrócić uwagę, że sama idea konstrukcji algorytmu nie jest tak wyrafinowana jak np. współczesne metaheurystyki dla klasycznego SBH, choć, co wykazano w pracy [16], może z nimi konkurować. Planowanym kolejnym etapem dalszej pracy jest opracowanie algorytmów metaheurystycznych dla chipu binarnego. Obiecującym podejściem byłyby także dodatkowe algorytmy redukujące liczbę błędów pozytywnych (testujące zgodność każdego elementu spektrum z jego sąsiedztwem), ponieważ z zaprezentowanej Tabeli 3 widać, że takie podejście ma wpływ na polepszenie efektywności zaproponowanego algorytmu. LITERATURA 1. Bains W., Smith G.C.: A novel method for nucleic acid sequence determination. Journal of Theoretical Biology, 135, 1988, p. 303 307. 2. Ben-Dor A., Pe er I., Shamir R., Sharan R.: On the complexity of positional sequ-

M. Radom, P. Formanowicz encing by hybridization. Journal of Computational Biology, 8, 2001, p. 361 371. 3. Błażewicz J., Formanowicz P., Kasprzak M., Markiewicz W.T.: Sequencing by hybridization with isothermic oligonucleotide libraries. Discrete Applied Mathematics, 145, 2004, p. 40 51. 4. Błażewicz J., Formanowicz P., Kasprzak M., Markiewicz W.T., Świercz A.: Tabu search algorithm for DNA sequencing by hybridization with isothermic libraries. Computational Biology and Chemistry, 28, 2004, p. 11 19. 5. Błażewicz J., Formanowicz P.: Multistage isothermic sequencing by hybridization. Computational Biology and Chemistry, 29, 2005, p. 69 77. 6. Drmanac R., Labat L., Brukner I., Crkvenjakov R.: Sequencing of megabase plus DNA by Hybridization. Genomics, 4, 1989, p. 114 128. 7. Fedrigo O., Naylor G.: A gene-specific DNA sequencing chip for exploring molecular evolutionary change. Nucleic Acids Research, 4, 2004, p. 114 128. 8. Formanowicz P.: Selected combinatorial aspects of biological sequence analysis. Publishing House of Poznan University of Technology, 2005. 9. Formanowicz P.: DNA sequencing by hybridization with additional information available. Computational Methods in Science and Technology, 11(1), 2005, p. 21-29. 10. Hannenhalli S., Pevzner P.A., Levis H., Skiena S.: Positional sequencing by hybridization. Computer Applications in Biosciences, 12, 1996, p. 19 24. 11. Khrapko K.R., Lysov P., Khorlyn A.A., Shick V.V., Florentiev V.L., Mirzabekov A.D.: An oligonucleotide hybridization approach to DNA sequencing. FEBS Letters, 256, 1989, p. 118 122. 12. Kruglyak, S.: Multistage sequencing by hybridization. Journal of Computational Biology, 5, 1998, p. 165 171. 13. Kwarciak K., Radom M., Formanowicz P.: Sekwencjonowanie DNA z bledami negatywnymi oraz informacja o powtorzeniach. Zeszyty Naukowe Politechniki Slaskiej, z151, 2008, p. 215 222. 14. Margaritis D., Skiena S.: Reconstructing strings from substrings in rounds. Proceedings 36th Symposium on Foundation of Computer Science, 6(2), 1995, p. 237 252. 15. Pevzner P.A., Lipshutz R.J.: Towards DNA sequencing chips. Symposium on Mathematical Foundations of Computer Science, 841, 1994, p. 143 158. 16. Radom M.: Kombinatoryczne aspekty nieklasycznego sekwencjonowania DNA przez hybrydyzację, Instytut Informatyki Politechniki Poznańskiej, 2011. 17. Zhang J.-H., Wu L.-Y., Zhao Y.-Y., Zhang X.-S.: An optimal approach to the reconstruction of positional DNA sequencing by hybridization with errors. European Journal of Operational Research, 182, 2006, p. 413 427.