AUTOMATYZACJA PROCESÓW DYSKRETNYCH 2012 ALGORYTM SEKWENCJONOWANIA DNA PRZY UŻYCIU CHIPU BINAR- NEGO DLA WSZYSTKICH TYPÓW BŁEDÓW HYBRYDYZACJI
|
|
- Anna Maciejewska
- 6 lat temu
- Przeglądów:
Transkrypt
1 AUTOMATYZACJA PROCESÓW DYSKRETNYCH 2012 Marcin RADOM, Piotr FORMANOWICZ Politechnika Poznańska ALGORYTM SEKWENCJONOWANIA DNA PRZY UŻYCIU CHIPU BINAR- NEGO DLA WSZYSTKICH TYPÓW BŁEDÓW HYBRYDYZACJI Streszczenie. Sekwencjonowanie przez hybrydyzację (ang. Sequencing by Hybridization, SBH) jest ciekawym i wciąż rozwijanym podejściem do zagadnienia sekwencjonowania DNA. W okresie ponad 20 lat, które minęły od opublikowania założeń klasycznego SBH zaproponowano wiele nowych sposobów modyfikowania podstawowej metody. Jednym z możliwych podejść jest metoda używająca w konstrukcji chipu DNA tak zwanych nukleotydów uniwersalnych, bądź zdegenerowanych, mających możliwość tworzenia par z więcej niż jednym typem nukleotydu. W niniejszej pracy przedstawiony został jeden z takich nieklasycznych chipów DNA oraz zupełnie nowy algorytm rozwiązujący problem sekwencjonowania na bazie spektrum uzyskanego za pomocą takiego właśnie chipu. Algorytm został zaprojektowany tak, aby jak najlepiej radzić sobie w najbardziej realistycznej laboratoryjnie sytuacji, tj. gdy w spektrum DNA występują wszystkie typy błędów hybrydyzacji. ALGORITHM FOR DNA SEQUENCING WITH BINARY CHIP IN THE PRE- SENCE OF ALL TYPES OF HYBRIDIZATION ERRORS 1. Wstęp Summary. Sequencing by Hybridization (SBH) is an interesting and still studied approach to the DNA sequencing. Over the last 20 years since it had been invented in its classical form, many new extensions and modifications have been proposed. One of such a modification uses so called universal or degenerate bases in the DNA chip design, the ones that can bind to more than one type of natural nucleotides. In this paper we present one of such a non-classical chip and a new algorithm for DNA sequencing on the base of the non-classical spectrum coming from such a chip. The algorithm has been designed to handle all types of hybridization errors in the spectrum in order to reconstruct the precise DNA sequence. Minęło już ponad dwadzieścia lat od momentu opublikowania założeń metody sekwencjonowania przez hybrydyzację (SBH) [1, 6, 11]. Sam sposób sekwencjonowania tą metodą jest względnie łatwy do opisania, a metoda ta dzieli się na część biochemiczną oraz część obliczeniową. W części biochemicznej należy przygotować chip DNA (mikromacierz) w taki sposób, aby w określonych sektorach chipu (w tzw. sondach) znajdowały się pewne konkretne krótkie jednoniciowe fragmenty DNA czyli oligonu-
2 M. Radom, P. Formanowicz kleotydy. Wielkość takiego chipu, tj. liczba jego sond ogranicza także w podejściu klasycznym maksymalną długość używanych oligonukleotydów. Jeżeli na przykład użyty zostanie jeden z większych praktycznie wykorzystywanych chipów, mający nieco ponad milion sond, umieścić w nich można wszystkie rodzaje oligonukleotydów do maksymalnej długości 10 nukleotydów - każdy w osobnej sondzie. Oligonukleotydy można sobie wyobrazić jako krótkie ciągi znaków, zbudowane nad 4-literowym alfabetem {A, C, G, T}. Dla długości 10 par zasad wszystkie permutacje z powtórzeniami nukleotydów tworzące ciągi o takiej długości to dokładnie 4 10 łańcuchów, czyli nieco ponad milion. Takie podejście, używające wszystkich rodzajów oligonukleotydów o zadanej długości, gdy w każdej sondzie znajduje się tylko jeden typ, będziemy dalej określać mianem podejścia klasycznego. W takim przypadku wszystkie oligonukleotydy w chipie DNA mają tą samą długość. W innych podejściach, które nie wykorzystują wszystkich kombinacji nukleotydowych, używane są czasem dłuższe oligonukleotydy, zazwyczaj do długości 20 par zasad [7]. Po przygotowaniu chipu DNA oraz dysponując jednoniciowym, sklonowanym DNA, które należy sekwencjonować, można przystąpić do pierwszej fazy SBH - fazy biochemicznej. W niej to następuje eksperyment hybrydyzacyjny, w którym sklonowane DNA przyłącza się do tych sond chipu, w których znajdują się oligonukleotydy komplementarne do fragmentów badanej sekwencji. Takie przyłączenie do sond jest wykrywane, po czym ze zbioru takich sond uzyskiwane jest tak zwane spektrum DNA - w idealnym przypadku zbiór wszystkich fragmentów tworzących DNA mających długość oligonukleotydów, do których fragmenty te hybrydyzowały. Jest to także moment, w którym objawia się główny problem metody, czyli błędy hybrydyzacji. Błędy te mogą być dwojakiego rodzaju. Błędy pozytywne to te, które spowodowane zostały błędnym odczytem sond, które w rzeczywistości nie miały prawa hybrydyzować do DNA. W spektrum znajdują się wtedy dodatkowe, fałszywe fragmenty. Błędy negatywne to sytuacja odwrotna - spektrum DNA zawiera mniej fragmentów niż jest potrzebne, aby w pełni odwtorzyć badane DNA przy maksymalnym nałożeniu się wszystkich fragmentów. Błędy takie mogą też być spowodowane powtórzeniami pewnych fragmentów w DNA - ten rodzaj błędów negatywnych jest teoretycznie i praktycznie nieunikniony, zadaniem odpowiedniego algorytmu sekwencjonowania jest więc radzenie sobie z takimi sytuacjami. Następuje to w drugiej fazie metody SBH - fazie obliczeniowej. W niej to, na podstawie danych ze spektrum DNA odtwarzana jest badana sekwencja. Błędy hybrydyzacji poważnie ograniczają maksymalną długość DNA, które może być jednoznacznie odczytane za pomocą metody SBH. Są one też powodem powstawania bardzo licznych modyfikacji tej metody. Jedna z zaproponowanych modyfikacji dodaje do spektrum DNA dodatkową infomację o przybliżonej lokalizacji fragmentów w całej sekwencji. Metoda zwana pozycyjnym sekwencjonowaniem przez hybrydyzację została przedstawiona między innymi w artykułach [2, 10, 17]. Innym podejściem jest zastosowanie metody SBH w następujących po sobie rundach (fazach), gdzie wynik danej rundy (np. otrzymane spektrum DNA, przybliżona rekonstrukcja) wpływa na sposób przygotowania chipu i przeprowadzenia eksperymentu hybrydyzacyjnego w fazie kolejnej [12, 14]. Jeszcze innym podejściem jest izotermiczne sekwencjonowanie przez hybrydyzację. W tym podejściu brana jest pod uwagę temperatura topnienia dwuniciowych fragmentów DNA - precyzyjnie determinuje to wybór odpowiednich oligonukleotydów, o różnej długości, lecz o tej samej temperaturze topnienia każdego z nich [3, 4, 5]. Wspomniano już o problemie powtórzeń fragmentów w DNA, kiedy to w eks-
3 Algorytm sekwencjonowania DNA przy użyciu chipu binarnego dla wszystkich typów błędów hybrydyzacji perymencie hybrydyzacyjnym do tej samej sondy wielokrotnie przyłączane jest DNA tymi samymi fragmentami, lecz znajdującymi się na różnych pozycjach. Ogólnie rzecz ujmując, informacja o liczbie takich różnych przyłączeń jest tracona. Koncepcja choćby częściowej wiedzy o takich przyłączeniach w eksperymencie hybrydyzacyjnym była rozpatrywana w pracach [8, 9, 13]. W niniejszej pracy przedstawiony zostanie algorytm dla podejścia opartego na jednym z nieklasycznych chipów DNA opisanych wcześniej w artykule [15].Przedstawiono tam ideę trzech rodzajów chipów nieklasycznych, wykorzystujących wspomniane już nukleotydy uniwersalne oraz zdegenerowane - mają one własność komplementarności do więcej niż jednego typu naturalnego nukleotydu. Sonda w takich chipach opisywana jest wzorem określającym pewien podzbiór różnych fragmentów DNA zdolnych z nią hybrydyzować. W nieklasycznym spektrum DNA uzyskanym za pomocą tego rodzaju chipu dysponujemy więc zbiorem sond, które hybrydyzowały z DNA, lecz z żadnej sondy niezależnie nie wynika, jaki dokładnie fragment lub fragmenty analizowanej cząsteczki hybrydyzowały. W rozprawie doktorskiej [16] opracowano między innymi trzy różne algorytmy sekwencjonowania za pomocą wspomnianych trzech nieklasycznych chipów. Jeden z nich, algorytm dla chipu binarnego (ang. Binary Chip) zostanie w niniejszym artykule przedstawiony. Algorytm ten radzi sobie całkiem dobrze nawet w sytuacji, kiedy spektrum nieklasyczne jest obarczone wszystkimi typami błędów hybrydyzacji równocześnie. W następnym rozdziale artykułu przedstawiony zostanie sposób budowy chipu binarnego wraz z krótkim komentarzem odnośnie problemów kombinatorycznych zdefiniowanych na jego bazie. W kolejnym rodziale przedstawiony zostanie sposób konstrukcji zaproponowanego algorytmu. Następnie zostaną zaprezentowane przykładowe wyniki testów przeprowadzonych z użyciem opisanego algorytmu. W ostatniej części artykułu znajduje się podsumowanie oraz propozycje dalszych prac badawczych. 2. Chip binarny - sformułowanie problemów oraz złożoność obliczeniowa Chip binarny, zaproponowany po raz pierwszy w pracy [15] składa się z dwóch części, których elementy są kodowane następująco: {W, S}, {W, S},..., {W, S}, N oraz {R, Y }, {R, Y },..., {R, Y }, N } {{ } k } {{ } k N oznacza konkretny nukleotyd ze zbioru {A, C, G, T }, symbole W, S, R i Y to elementy zbiorów 2-elementowych, zawierających różne pary liter z alfabetu {A, C, G, T }. Pary te są określone następująco: W - nukleotydy słabe A lub T, S - nukleotydy silne C lub G, R - puryny A lub G, Y - pirimidyny C lub T. Na przykład do każdej pozycji opisanej przez R mogą dołączyć nukleotydy komplementarne tylko do A lub G. Pojemność połowy chipu dla oligonukleotydów o długości l bin = k + 1 to 2 k 4, tak więc pojemność całego chipu binarnego dana jest wzorem C bin (k) = 2 2 k 4. Dla danych wartości parametrów n i k, określających odpowiednio długość badanego DNA oraz długość elementów chipu (oraz jego pojemność), spektrum idealne bez powtórzeń posiada dwa podzbiory o pojemnościach: SB1 is = n (k+1)+1 = n k oraz SB2 is = n (k + 1) + 1 = n k. Rozpatrywany dalej algorytm zakłada na wejściu, że spektrum pochodzi z eksperymentu hybrydyzacyjnego z udziałem chipu binarnego posiadającego wszystkie
4 M. Radom, P. Formanowicz sondy. Na przykład, chip dla którego k = 2 ma C bin (k) = 2 2 k 4 = = 32 sond. Połowy chipu składać się więc będą z 16 sond każda. W pracy [16] sformułowane zostały problemy kombinatoryczne w wersjach decyzyjnej oraz przeszukiwania dla trzech przypadków: bez błędów hybrydyzacji, z błędami negatywnymi oraz z błędami pozytywnymi. Przykładowy problem decyzyjny sekwencjonowania DNA z użyciem spektrum chipu binarnego przy braku błędów hybrydyzacji sformułowany jest w następujący sposób: Problem BSBH bez błędów w wersji decyzyjnej (BSBH-efd, error-free, decision) Instancja: zbiór S B = S B1 S B2 taki, że S B1 = S (is) B1 oraz S B2 = S (is) B2, będący idealnym spektrum BSBH, długość n sekwencji DNA, S B1 = n l + 1, S B2 = n l + 1. Odpowiedź: TAK, jeżeli istnieje uogólniony superciąg typu Binary o długości n zbudowany nad alfabetem {A, C, G, T}, utworzony ze wszystkich elementów zbiorów S B1 i S B2. Definicje pomocniczne nie będą tutaj w pełni przytaczane, można jednak tutaj doprecyzować, że uogólniony superciąg typu Binary jest superciągiem składającym się tylko i wyłącznie z liter alfabetu {A, C, G, T}, stanowi więc on pewien zrekonstruowany łańcuch DNA. Redukcja znaków W, S, R, Y do alfabetu {A, C, G, T} zostanie przedstawiona w opisie samego algorytmu. Przytoczony problem bez błędów hybrydyzacji w wersji deycyzyjnej jest problemem łatwym obliczeniowo (należącym do klasy P ). Złożoność obliczeniowa jego wersji przeszukiwania pozostaje problemem otwartym. W pracy [16] udowodniono przynależność problemu Binary SBH w wersji przeszukiwania z błędami pozytywnymi do klasy problemów silnie NP-trudnych Algorytm dla chipu binarnego Opracowany algorytm zachowuje się jak algorytm dokładny, starając się przeszukać całą przestrzeń rozwiązań. Posiada on jednak liczne parametry w obrębie których działa, których to odpowiednie ustawienie sprawia, że może zacząć się on zachowywać podobnie do algorytmu aproksymacyjnego. Z uwagi na aspekty praktyczne - przede wszystkich czas obliczeń, działanie algorytmu sprowadza się do przeszukania tylko części przestrzeni rozwiązań. Możliwe jest takie ustawienie parametrów, aby algorytm przeszukiwał całą dostępną przestrzeń rozwiązań. Z uwagi na jej rozmiar w przypadku większości praktycznie występujących spektr dla problemu BSBH, algorytm ogranicza jednak przeszukiwanie tylko dla pewnego dostępnego czasu obliczeń, liczby wewnętrznych iteracji czy znalezionych rozwiązań niejednoznacznych w wyznaczonym czasie. Działanie algorytmu polega na budowaniu ścieżek w dwóch niezależnych od siebie grafach. Przez niezależność rozumiemy tutaj rozłączność, ponieważ pewne zależności są brane pod uwagę w procesie tworzenia ścieżek - nie wynikają one jednak ze struktur grafów. Sposób ich budowy zostanie opisany dalej. Jeden krok elementarny rozszerza dwie ścieżki poprzez dodanie nowego wierzchołka równocześnie w obu grafach. Jest to podyktowane potrzebą wzajemnej weryfikacji wierzchołków względem siebie, tj. zgodności ostatniego nukleotydu (znaku) w parze wybranych wierzchołków. Na potrzeby dalszych rozważań przyjmowane jest, że ścieżka w grafie o etykietach wierzchołków zbudowanych nad alfabetem {W, S, A, C, G, T} będzie oznaczana przez P W S, druga ścieżka natomiast przez P RY - w grafie, którego etykiety wierzchołków zbudowane są
5 Algorytm sekwencjonowania DNA przy użyciu chipu binarnego dla wszystkich typów błędów hybrydyzacji nad alfabetem {R, Y, A, C, G, T}. Dane wejściowe algorytmu są następujące: 1) spektrum DNA z eksperymentu hybrydyzacyjnego, zawierające elementy pochodzące z obu połówek chipu binarnego: S W S oraz S RY ; 2) długość n badanego fragmentu DNA; 3) parametr k, określający długość oligonukleotydów użytego chipu; 4) informacja o sondzie w każdej z dwóch części chipu, która hybrydyzowała z początkowym fragmentem DNA (o długości k + 1 nukleotydów). Grafy tworzone są niezależnie od siebie, ich łuki oznaczone są wagami zależnymi od stopnia nałożenia się ciągów będących nazwami wierzchołków. Jeżeli przyjąć l za długość etykiet wierzchołków w grafie, możliwe są nałożenia od l 1 znaków (maksymalne) do 1 znaku (pierwszy i ostatni pewnych dwóch etykiet). Ponieważ każda ostatnia litera ciągu ze spektrum, będącego etykietą danego wierzchołka, należąca do {A,C,G,T} zawiera się też w zbiorach 2-literowych W, S, R, Y, na czas tworzenia łuków traktowana jest jako nakładająca się na literę danego zbioru 2-elementowego. Na przykład litera A zawiera się w zbiorze W, dlatego możliwe jest nałożenie pomiędzy W W A a W W C na l 1 znakach, ponieważ W A z pierwszego ciągu może nałożyć się poprawnie na początkowe W W z drugiego. Jest to stosowane tylko i wyłącznie podczas fazy tworzenia grafów, tak więc informacja o ostatniej literze etykiety wierzchołka jest wciąż dostępna dla algorytmu. Po tej fazie istnieją dwa grafy zbudowane nad dwoma alfabetami pochodzącymi z zasad konstrukcji chipu binarnego. Pseudokod głównej pętli algorytmu dany jest na poniższym rysunku 1: Rys. 1. Pseudokod głównej pętli algorytmu W linii 1 sprawdzane są trzy główne warunki zatrzymania pracy algorytmu. Są to kolejno: limit czasu pracy, wyczerpanie się przestrzeni rozwiązań oraz ogólna flaga stopu, ustawiana w zależności od stanów końcowych poszczególnych dalszych procedur algorytmu. Warunki zatrzymania przeszukiwania grafów są następujące:
6 M. Radom, P. Formanowicz 1) sprawdzono całą przestrzeń rozwiązań; 2) osiągnięto limit rozwiązań dodanych do listy (limit rozwiązań niejednoznacznych); 3) osiągnięto limit rekonstrukcji par ścieżek o zadanej długości. Celem każdego kroku pętli jest dodanie kolejnej pary następników, po jednym dla każdego grafu. Wybór par kandydatów na następników odbywa się w linii 2, są one umieszczane na liście Candidates. W linii 3 algorytm stara się dodać pierwszą wolną (z listy) parę wierzchołków do ścieżek w grafach. Jeśli się to nie udało, wtedy sprawdzane są powody takiego stanu rzeczy. Jeżeli powstały już ścieżki o wielkości umożliwiającej rekonstrukcję DNA o długości n, jest ono odtwarzane ze złożenia obu ścieżek, co zostanie opisanego pod koniec niniejszego rozdziału artykułu. Rozwiązanie jest też weryfikowane pod względem liczby wierzchołków użytych z obu części spektrum z uwzględnieniem wpływu błędów hybrydyzacji. Zaakceptowane rozwiązania są dodawane do listy rozwiązań. Linie 9, 11 oraz 14 wywołują procedurę powrotu do wierzchołków poprzednich w celu konstrukcji innych ścieżek innymi rozgałęzieniami wierzchołków. Następuje to odpowiednio, w przypadku dodania rozwiązania do listy (linia 9), odrzucenia danej pary ścieżek jako rozwiązania dopuszczalnego (linia 11), a także w przypadku, w którym algorytm musi się wycofać, ponieważ z danej pary wierzchołków nie ma możliwości przejścia do akceptowalnej pary następników (linia 14). Linia 2 zaprezentowanego pseudokodu prowadzi do bardzo ważnej funkcji odpowiedzialnej za ustalanie par następników dla obu grafów. Z każdego grafu brane są następniki z ostatnio dodanego wierzchołka w odpowiedniej ścieżce, a następnie tworzone są pary mające identyczny ostatni znak w etykietach. Prezentuje to poniższy Rysunek 2: Rys. 2. Mechanizm tworzania par kandydatów na następników wierzchołków Na przykładzie z Rysunku 2, z ostatniego wierzchołka ścieżki grafu W S prowadzą łuki do trzech możliwych następników, natomiast tylko do dwóch w ścieżce dla grafu RY. Tylko dwie pary następników mogą być brane pod uwagę w takim wypadku, ponieważ następnik W SW W SW C nie posiada odpowiednika na liście następników w RY, który miałby ten sam ostatni nukleotyd. Podobnie tworzy się pary następników z mniejszym nałożeniem. Oczywiście pary następników sprawdzane są także dla mniejszych nałożeń niż maksymalne, które zaprezentowano w przykładzie. Wracając do pseudokodu głównej pętli algorytmu, należy wciąż opisać dwie jego
7 Algorytm sekwencjonowania DNA przy użyciu chipu binarnego dla wszystkich typów błędów hybrydyzacji ważne procedury: powrót do poprzednich wierzchołków w celu zbadania innych rozgałęzień w budowanym drzewie przeszukiwań oraz dodanie sekwencji DNA do listy rozwiązań. To ostatnie wiąże się z jej odtworzeniem z dwóch ścieżek P W S oraz P RY. Procedura powrotu jest wywoływana w liniach 9, 11 i 14 głównej pętli algorytmu, w przypadkach gdy: 1) nowa rekonstrukcja została utworzona ze ścieżek o odpowiedniej długości; 2) nie powiodła się próba dodania nowego wierzchołka z listy kandydatów na następników. W takich wypadkach algorytm wraca do poprzednich wierzchołków. W przypadku omawianego tutaj algorytmu dla chipu binarnego wycofywana jest aktualna para wierzchołków w obu grafach oraz zapamiętywana jako już sprawdzona para na potrzeby dalszych iteracji. Przed dodaniem znalezionej sekwencji do zbioru rozwiązań musi ona zostać odtworzona w postaci ciągu nad alfabetem 4-literowym {A, C, G, T} oraz zweryfikowana. Złożenia liter z {W, S} oraz z {R, Y} jednoznacznie identyfikują konkretny nukleotyd ze zbioru {A, C, G, T}. Ponieważ oba ciągi znaków (odpowiedniki ścieżek) są jednakowej długości, w liniowym czasie po ich złożeniu algorytm odtwarza sekwencję DNA. Przed dodaniem nowego rozwiązania do listy rozwiązań musi być ono zweryfikowane. Proces ten polega na testowaniu występowania elementów spektrum w zrekonstruowanej sekwencji, a precyzyjniej, w obu ścieżkach grafów przed ich końcowym złożeniem w superciąg nad alfabetem {A, C, G, T}. Procedura ta jest zależna od przypadku występowania lub nie dwóch typów błędów hybrydyzacji. W przypadku, gdy błędy negatywne i pozytywne nie występują razem, można precyzyjnie określić liczbę elementów spektrum DNA, które muszą zostać wykorzystane. Niestety, realistyczny przypadek to ten, w którym występują wszystkie rodzaje błędów hybrydyzacji w spektrum danym na wejściu. Algorytm posługuje się wtedy przybliżoną minimalną liczbą elementów, tj. akceptując rozwiązania, które w procesie tworzenia ścieżek zawierają liczbę elementów spektrum zależną od przyjętego limitu. 3. Wyniki Zaprezentowany algorytm przetestowany został w obszernym eksperymencie obliczeniowym. Zaprezentowane tutaj zostaną wyniki dobrze reprezentujące cechy charakterystyczne chipu binarnego. Dla porównania przedstawione będą także wyniki dla podobnych parametrów pracy dla chipu klasycznego, również zaimplementowanego w toku badań. Podstawowe parametry testów to: wielkość chipu (I typ: 131 tysiecy sond, II typ: pół miliona sond; dla chipu klasycznego odpowiednio 262 tysiące (I) oraz milion sond (II)), maksymalny czas pracy (60 sekund), długość poszukiwanego DNA (od 300 do 700 par zasad). Testowane były rzeczywiste kodujące sekwencje DNA pobrane z bazy danych GenBank. Tabela 1 prezentuje wyniki dla chipu binarnego oraz klasycznego I typu (odpowiednio 131 i 262tys. sond) dla DNA o trzech długościach: 300, 500 oraz 700. Kolumny Tabeli 1 oznaczają prawdziwy procent błędów negatywnych oraz pozytywnych, np. kolumna 5% oznacza 5% pozytywnych oraz 5% negatywnych błędów w spektrum. Trzy pierwsze wiersze wyników dotyczą chipu binarnego (dla trzech testowanych długości
8 M. Radom, P. Formanowicz Tabela 1 Wyniki testów dla wszystkich typów błędów dla chipów DNA I typu Dł.DNA (chip) 1% 2% 3% 4% 5% 300 (Bin) 94(85)[93] 85(75)[81] 85(74)[81] 79(70)[78] 75(67)[75] 500 (Bin) 76(74)[74] 68(66)[67] 55(48)[55] 59(51)[53] 51(45)[50] 700 (Bin) 58(53)[58] 35(30)[35] 37(29)[37] 29(25)[25] 21(16)[19] 300 (Cls) 99(44)[43] 96(35)[41] 94(38)[36] 92(35)[39] 92(27)[31] 500 (Cls) 92(33)[17] 85(36)[4] 88(21)[7] 91(25)[7] 87(31)[8] 700 (Cls) 90(34)[3] 81(32)[2] 92(29)[4] 82(22)[1] 87(21)[0] DNA), trzy kolejne - klasycznego. W każdej z zaprezentowanych tabel wyników w każdej komórce znajdują się trzy wartości. Każda komórka zawiera wynik dla 100 prób na różnych fragmentach DNA o tej samej długości oraz losowo wygenerowanym jednakowym procencie błędów dla każdego ze stu testów. Wartość pierwsza oznacza liczbę prób, w których po maksymalnym czasie 60 sekund algorytm zwrócił minimum jedną sekwencję wynikową. Druga wartość () oznacza liczbę prób na sto, w których po 60 sekundach było dokładnie jedno rozwiązanie. Trzecia wartość [] oznacza liczbę prób na sto, w których w zbiorze rozwiązań po 60 sekundach znalazło się badane DNA (ponieważ było ono znane przed rozpoczęciem każdej próby sekwencjonowania). Przed interpretacją wyników należy zwrócić uwagę na jedną bardzo istotną kwestię. W przypadku występowania obu rodzajów błędów hybrydzacji w spektrum równocześnie, nie ma żadnej możliwości precyzyjnego określenia ich liczby. Z tego powodu jeden z zaimplementowanych parametrów odpowiada za wartość przybliżoną każdego typu błędów, która jest potrzebna algorytmom do określenia, ile wierzchołków z różnym nałożeniem należy wciąż dodawać do rozwiązania. Przyjęcie ograniczenia tylko i wyłącznie wynikającego z długości docelowej sekwencji miałoby bardzo zły wpływ na efektywność zaproponowanych algorytmów. Dla potrzeb testów przyjęto wartość 15% dla każdego typu błędów, pomimo, że ich realna maksymalna wartość w testach nie przekroczyła 5%. Wyraźnie widać przewagę chipu binarnego w ograniczaniu liczby rozwiązań niejednoznacznych. Liczba wyników z jednym rozwiązaniem jest bardzo duża w porównaniu z liczbą rozwiązań niejednoznacznych (będących różnicą pomiędzy pierwszymi dwoma wartościami w każdej komórce). Co ważniejsze, liczba testów, w których występuje oryginalne zrekonstruowane DNA jest bardzo zbliżona do ogólnej liczby prób z rozwiązaniami. Nie można tego powiedzieć o chipie klasycznym, co wyraźnie widać w Tabeli 1. Tabela 2 przedstawia ten sam blok testów, lecz dla o stopień większych chipów (w sensie liczby sond). Skuteczność obu chipów wzrasta, widać jednak wyraźnie, że algorytm dla chipu binarnego ma o wiele większe możliwości uzyskania jednoznacznego i prawidłowego rozwiązania. Czas obliczeń 60 sekund zawęża przeszukaną przestrzeń rozwiązań, widać jednak wyraźnie, że proponowany algorytm nawet w tak krótkim czasie nie ma większych trudności w prawidłowym sekwnencjonowaniu DNA na bazie spektrum z chipu binarnego. Tabela 3 przedstawia wyniki dla hipotetycznego przypadku braku błędów pozytywnych w spektrum. Pozostałe parametry testów nie były zmieniane. Widać tutaj, że w
9 Algorytm sekwencjonowania DNA przy użyciu chipu binarnego dla wszystkich typów błędów hybrydyzacji Tabela 2 Wyniki testów dla wszystkich rodzajów błędów dla chipów II typu Dł.DNA (chip) 1% 2% 3% 4% 5% 300 (Bin) 96(91)[96] 92(88)[92] 90(88)[90] 83(75)[82] 76(73)[76] 500 (Bin) 90(82)[90] 84(81)[83] 73(69)[72] 78(72)[77] 74(74)[72] 700 (Bin) 83(81)[82] 65(59)[63] 65(64)[64] 69(62)[68] 52(49)[51] 300 (Cls) 88(65)[67] 78(63)[60] 84(64)[65] 84(58)[60] 78(58)[55] 500 (Cls) 82(67)[41] 78(52)[38] 68(52)[37] 65(46)[27] 73(49)[43] 700 (Cls) 76(56)[21] 76(59)[21] 63(43)[24] 52(36)[15] 59(37)[17] Tabela 3 Wyniki testów tylko dla błędów negatywnych dla chipów I typu Dł.DNA (chip) 1% 2% 3% 4% 5% 300 (Bin) 96(95)[96] 92(92)[92] 87(86)[87] 82(82)[82] 80(80)[79] 500 (Bin) 90(89)[90] 76(75)[76] 72(71)[72] 61(60)[60] 45(43)[43] 700 (Bin) 76(76)[76] 58(57)[58] 43(42)[43] 30(30)[30] 20(19)[20] 300 (Cls) 93(78)[91] 81(61)[76] 66(61)[53] 52(49)[46] 52(47)[42] 500 (Cls) 53(36)[34] 26(26)[14] 26(26)[12] 21(18)[15] 21(20)[13] 700 (Cls) 24(16)[6] 11(11)[2] 12(11)[2] 5(5)[2] 5(5)[1] przypadku ograniczenia lub wyeliminowania błędów pozytywnych ze spektrum wzrasta skuteczność algorytmu dla chipu binarnego. 4. Podsumowanie W artykule przedstawiono konstrukcję nowego algorytmu poszukującego sekwencję DNA na bazie chipu nieklasycznego. Widać wyraźnie jego przewagę nad podejściem klasycznym, czego dowodem są wyniki licznych testów, których część została w artykule przedstawiona wraz z interpretacją. Należy zwrócić uwagę, że sama idea konstrukcji algorytmu nie jest tak wyrafinowana jak np. współczesne metaheurystyki dla klasycznego SBH, choć, co wykazano w pracy [16], może z nimi konkurować. Planowanym kolejnym etapem dalszej pracy jest opracowanie algorytmów metaheurystycznych dla chipu binarnego. Obiecującym podejściem byłyby także dodatkowe algorytmy redukujące liczbę błędów pozytywnych (testujące zgodność każdego elementu spektrum z jego sąsiedztwem), ponieważ z zaprezentowanej Tabeli 3 widać, że takie podejście ma wpływ na polepszenie efektywności zaproponowanego algorytmu. LITERATURA 1. Bains W., Smith G.C.: A novel method for nucleic acid sequence determination. Journal of Theoretical Biology, 135, 1988, p Ben-Dor A., Pe er I., Shamir R., Sharan R.: On the complexity of positional sequ-
10 M. Radom, P. Formanowicz encing by hybridization. Journal of Computational Biology, 8, 2001, p Błażewicz J., Formanowicz P., Kasprzak M., Markiewicz W.T.: Sequencing by hybridization with isothermic oligonucleotide libraries. Discrete Applied Mathematics, 145, 2004, p Błażewicz J., Formanowicz P., Kasprzak M., Markiewicz W.T., Świercz A.: Tabu search algorithm for DNA sequencing by hybridization with isothermic libraries. Computational Biology and Chemistry, 28, 2004, p Błażewicz J., Formanowicz P.: Multistage isothermic sequencing by hybridization. Computational Biology and Chemistry, 29, 2005, p Drmanac R., Labat L., Brukner I., Crkvenjakov R.: Sequencing of megabase plus DNA by Hybridization. Genomics, 4, 1989, p Fedrigo O., Naylor G.: A gene-specific DNA sequencing chip for exploring molecular evolutionary change. Nucleic Acids Research, 4, 2004, p Formanowicz P.: Selected combinatorial aspects of biological sequence analysis. Publishing House of Poznan University of Technology, Formanowicz P.: DNA sequencing by hybridization with additional information available. Computational Methods in Science and Technology, 11(1), 2005, p Hannenhalli S., Pevzner P.A., Levis H., Skiena S.: Positional sequencing by hybridization. Computer Applications in Biosciences, 12, 1996, p Khrapko K.R., Lysov P., Khorlyn A.A., Shick V.V., Florentiev V.L., Mirzabekov A.D.: An oligonucleotide hybridization approach to DNA sequencing. FEBS Letters, 256, 1989, p Kruglyak, S.: Multistage sequencing by hybridization. Journal of Computational Biology, 5, 1998, p Kwarciak K., Radom M., Formanowicz P.: Sekwencjonowanie DNA z bledami negatywnymi oraz informacja o powtorzeniach. Zeszyty Naukowe Politechniki Slaskiej, z151, 2008, p Margaritis D., Skiena S.: Reconstructing strings from substrings in rounds. Proceedings 36th Symposium on Foundation of Computer Science, 6(2), 1995, p Pevzner P.A., Lipshutz R.J.: Towards DNA sequencing chips. Symposium on Mathematical Foundations of Computer Science, 841, 1994, p Radom M.: Kombinatoryczne aspekty nieklasycznego sekwencjonowania DNA przez hybrydyzację, Instytut Informatyki Politechniki Poznańskiej, Zhang J.-H., Wu L.-Y., Zhao Y.-Y., Zhang X.-S.: An optimal approach to the reconstruction of positional DNA sequencing by hybridization with errors. European Journal of Operational Research, 182, 2006, p
Algorytmy kombinatoryczne w bioinformatyce
Algorytmy kombinatoryczne w bioinformatyce wykład 2: sekwencjonowanie cz. 1 prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej Poznawanie sekwencji
Bardziej szczegółowoWersja pliku: v.10, 13 kwietnia 2019 zmiany: dodany punkt na temat testów do sprawozdania. Biologia, bioinformatyka:
Wersja pliku: v.10, 13 kwietnia 2019 zmiany: - 13.04 dodany punkt na temat testów do sprawozdania Biologia, bioinformatyka: 1. DNA kwas deoksyrybonukleinowy. Zbudowany z 4 rodzajów nukleotydów: adeniny,
Bardziej szczegółowoprof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej
Bioinformatyka wykład 2: sekwencjonowanie cz. 1 prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej Poznawanie sekwencji genomów na trzech poziomach
Bardziej szczegółowoKombinatoryczne aspekty nieklasycznego sekwencjonowania DNA przez hybrydyzację
POLITECHNIKA POZNAŃSKA Wydział Informatyki Instytut Informatyki Kombinatoryczne aspekty nieklasycznego sekwencjonowania DNA przez hybrydyzację Marcin Radom Rozprawa doktorska Promotor: dr hab. inż. Piotr
Bardziej szczegółowoPlan wykładów. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2
ALEKSANDRA ŚWIERCZ Plan wykładów Wprowadzenie do różnych metod sekwencjonowania Resekwencjonowanie mapowanie do genomu referencyjnego Sekwencjonowanie de novo asemblacja Różnica w ekspresji genów, alternatywny
Bardziej szczegółowoStruktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott
Struktury danych i złożoność obliczeniowa Wykład 7 Prof. dr hab. inż. Jan Magott Problemy NP-zupełne Transformacją wielomianową problemu π 2 do problemu π 1 (π 2 π 1 ) jest funkcja f: D π2 D π1 spełniająca
Bardziej szczegółowoOSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA
OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 16.01.2003 Algorytmy i Struktury Danych PIŁA ALGORYTMY ZACHŁANNE czas [ms] Porównanie Algorytmów Rozwiązyjących problem TSP 100 000 000 000,000 10 000 000
Bardziej szczegółowoAiSD zadanie trzecie
AiSD zadanie trzecie Gliwiński Jarosław Marek Kruczyński Konrad Marek Grupa dziekańska I5 5 czerwca 2008 1 Wstęp Celem postawionym przez zadanie trzecie było tzw. sortowanie topologiczne. Jest to typ sortowania
Bardziej szczegółowoKATEDRA INFORMATYKI TECHNICZNEJ. Ćwiczenia laboratoryjne z Logiki Układów Cyfrowych. ćwiczenie 204
Opracował: prof. dr hab. inż. Jan Kazimierczak KATEDA INFOMATYKI TECHNICZNEJ Ćwiczenia laboratoryjne z Logiki Układów Cyfrowych ćwiczenie 204 Temat: Hardware'owa implementacja automatu skończonego pełniącego
Bardziej szczegółowoWybrane podstawowe rodzaje algorytmów
Wybrane podstawowe rodzaje algorytmów Tomasz Głowacki tglowacki@cs.put.poznan.pl Zajęcia finansowane z projektu "Rozwój i doskonalenie kształcenia na Politechnice Poznańskiej w zakresie technologii informatycznych
Bardziej szczegółowoAlgorytm. Krótka historia algorytmów
Algorytm znaczenie cybernetyczne Jest to dokładny przepis wykonania w określonym porządku skończonej liczby operacji, pozwalający na rozwiązanie zbliżonych do siebie klas problemów. znaczenie matematyczne
Bardziej szczegółowoTestowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Bardziej szczegółowoModele grafowe i algorytmy dla klasycznego problemu sekwencjonowania DNA przez hybrydyzację oraz dla jego odmiany z informacją o powtórzeniach
Politechnika Poznańska Wydział Informatyki Instytut Informatyki Streszczenie rozprawy doktorskiej Modele grafowe i algorytmy dla klasycznego problemu sekwencjonowania DNA przez hybrydyzację oraz dla jego
Bardziej szczegółowoGrafy i sieci wybrane zagadnienia wykład 2: modele służące rekonstrukcji sekwencji
Grafy i sieci wybrane zagadnienia wykład 2: modele służące rekonstrukcji sekwencji prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Plan wykładu. Modele grafowe problemu sekwencjonowania
Bardziej szczegółowoWykład z Technologii Informacyjnych. Piotr Mika
Wykład z Technologii Informacyjnych Piotr Mika Uniwersalna forma graficznego zapisu algorytmów Schemat blokowy zbiór bloków, powiązanych ze sobą liniami zorientowanymi. Jest to rodzaj grafu, którego węzły
Bardziej szczegółowoBadania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle
Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,
Bardziej szczegółowoKombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk
Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA Marta Szachniuk Plan prezentacji Wprowadzenie do tematyki badań Teoretyczny model problemu Złożoność
Bardziej szczegółowoZadania laboratoryjne i projektowe - wersja β
Zadania laboratoryjne i projektowe - wersja β 1 Laboratorium Dwa problemy do wyboru (jeden do realizacji). 1. Water Jug Problem, 2. Wieże Hanoi. Water Jug Problem Ograniczenia dla każdej z wersji: pojemniki
Bardziej szczegółowoMarta Kasprzak 1,2, Aleksandra Świercz 1,2
Tom 58 2009 Numer 1 2 (282 283) Strony 17 28 Marta Kasprzak 1,2, Aleksandra Świercz 1,2 1 Instytut Informatyki, Politechnika Poznańska Piotrowo 2, 60-965 Poznań 2 Instytut Chemii Bioorganicznej PAN Noskowskiego
Bardziej szczegółowoMatematyczne Podstawy Informatyki
Matematyczne Podstawy Informatyki dr inż. Andrzej Grosser Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Rok akademicki 2013/2014 Stany równoważne Stany p i q są równoważne,
Bardziej szczegółowoStruktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott
Struktury danych i złożoność obliczeniowa Wykład 5 Prof. dr hab. inż. Jan Magott DMT rozwiązuje problem decyzyjny π przy kodowaniu e w co najwyżej wielomianowym czasie, jeśli dla wszystkich łańcuchów wejściowych
Bardziej szczegółowoREPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH
REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH Transport, studia I stopnia rok akademicki 2012/2013 Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Adam Wosatko Ewa Pabisek Pojęcie
Bardziej szczegółowoProgramowanie dynamiczne i algorytmy zachłanne
Programowanie dynamiczne i algorytmy zachłanne Tomasz Głowacki tglowacki@cs.put.poznan.pl Zajęcia finansowane z projektu "Rozwój i doskonalenie kształcenia na Politechnice Poznańskiej w zakresie technologii
Bardziej szczegółowoStruktury danych i złozoność obliczeniowa. Prof. dr hab. inż. Jan Magott
Struktury danych i złozoność obliczeniowa Prof. dr hab. inż. Jan Magott Formy zajęć: Wykład 1 godz., Ćwiczenia 1 godz., Projekt 2 godz.. Adres strony z materiałami do wykładu: http://www.zio.iiar.pwr.wroc.pl/sdizo.html
Bardziej szczegółowoPrzybliżone algorytmy analizy ekspresji genów.
Przybliżone algorytmy analizy ekspresji genów. Opracowanie i implementacja algorytmu analizy danych uzyskanych z eksperymentu biologicznego. 20.06.04 Seminarium - SKISR 1 Wstęp. Dane wejściowe dla programu
Bardziej szczegółowoObliczenia inspirowane Naturą
Obliczenia inspirowane Naturą Wykład 01 Modele obliczeń Jarosław Miszczak IITiS PAN Gliwice 05/10/2016 1 / 33 1 2 3 4 5 6 2 / 33 Co to znaczy obliczać? Co to znaczy obliczać? Deterministyczna maszyna Turinga
Bardziej szczegółowoRównoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami
Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami dr inż. Mariusz Uchroński Wrocławskie Centrum Sieciowo-Superkomputerowe Agenda Cykliczny problem przepływowy
Bardziej szczegółowoAlgorytmy sortujące i wyszukujące
Algorytmy sortujące i wyszukujące Zadaniem algorytmów sortujących jest ułożenie elementów danego zbioru w ściśle określonej kolejności. Najczęściej wykorzystywany jest porządek numeryczny lub leksykograficzny.
Bardziej szczegółowo1. Synteza automatów Moore a i Mealy realizujących zadane przekształcenie 2. Transformacja automatu Moore a w automat Mealy i odwrotnie
Opracował: dr hab. inż. Jan Magott KATEDRA INFORMATYKI TECHNICZNEJ Ćwiczenia laboratoryjne z Logiki Układów Cyfrowych ćwiczenie 207 Temat: Automaty Moore'a i Mealy 1. Cel ćwiczenia Celem ćwiczenia jest
Bardziej szczegółowoTeoria obliczeń i złożoność obliczeniowa
Teoria obliczeń i złożoność obliczeniowa Kontakt: dr hab. inż. Adam Kasperski, prof. PWr. pokój 509 B4 adam.kasperski@pwr.wroc.pl materiały + informacje na stronie www. Zaliczenie: Egzamin Literatura Problemy
Bardziej szczegółowoTechnologie informacyjne - wykład 12 -
Zakład Fizyki Budowli i Komputerowych Metod Projektowania Instytut Budownictwa Wydział Budownictwa Lądowego i Wodnego Politechnika Wrocławska Technologie informacyjne - wykład 12 - Prowadzący: Dmochowski
Bardziej szczegółowoElementy teorii grafów Elementy teorii grafów
Spis tresci 1 Spis tresci 1 Często w zagadnieniach praktycznych rozważa się pewien zbiór obiektów wraz z zależnościami jakie łączą te obiekty. Dla przykładu można badać pewną grupę ludzi oraz strukturę
Bardziej szczegółowoGrafy etykietowalne i sieci Petriego w analizie procesów biochemicznych i biologicznych
POLITECHNIKA POZNAŃSKA Wydział Informatyki Instytut Informatyki Grafy etykietowalne i sieci Petriego w analizie procesów biochemicznych i biologicznych Adam Kozak Rozprawa doktorska Promotor: dr hab. inż.
Bardziej szczegółowoOptymalizacja. Przeszukiwanie lokalne
dr hab. inż. Instytut Informatyki Politechnika Poznańska www.cs.put.poznan.pl/mkomosinski, Maciej Hapke Idea sąsiedztwa Definicja sąsiedztwa x S zbiór N(x) S rozwiązań, które leżą blisko rozwiązania x
Bardziej szczegółowo1 Wprowadzenie do algorytmiki
Teoretyczne podstawy informatyki - ćwiczenia: Prowadzący: dr inż. Dariusz W Brzeziński 1 Wprowadzenie do algorytmiki 1.1 Algorytm 1. Skończony, uporządkowany ciąg precyzyjnie i zrozumiale opisanych czynności
Bardziej szczegółowoSprawiedliwość i efektywność tradycyjnych i skomputeryzowanych metod organizacji masowego naboru do szkół średnich
Sprawiedliwość i efektywność tradycyjnych i skomputeryzowanych metod organizacji masowego naboru do szkół średnich Andrzej P.Urbański Instytut Informatyki Politechnika Poznańska Rozwiązywane problemy podział
Bardziej szczegółowoUniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 9 PRZESZUKIWANIE GRAFÓW Z
Bardziej szczegółowoTEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie
Bardziej szczegółowoAlgorytm poprawny jednoznaczny szczegółowy uniwersalny skończoność efektywność (sprawność) zmiennych liniowy warunkowy iteracyjny
Algorytm to przepis; zestawienie kolejnych kroków prowadzących do wykonania określonego zadania; to uporządkowany sposób postępowania przy rozwiązywaniu zadania, problemu, z uwzględnieniem opisu danych
Bardziej szczegółowoAproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Bardziej szczegółowoXQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery
http://xqtav.sourceforge.net XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery dr hab. Jerzy Tyszkiewicz dr Andrzej Kierzek mgr Jacek Sroka Grzegorz Kaczor praca mgr pod
Bardziej szczegółowo9.9 Algorytmy przeglądu
14 9. PODSTAWOWE PROBLEMY JEDNOMASZYNOWE 9.9 Algorytmy przeglądu Metody przeglądu dla problemu 1 r j,q j C max były analizowane między innymi w pracach 25, 51, 129, 238. Jak dotychczas najbardziej elegancka
Bardziej szczegółowoDane mikromacierzowe. Mateusz Markowicz Marta Stańska
Dane mikromacierzowe Mateusz Markowicz Marta Stańska Mikromacierz Mikromacierz DNA (ang. DNA microarray) to szklana lub plastikowa płytka (o maksymalnych wymiarach 2,5 cm x 7,5 cm) z naniesionymi w regularnych
Bardziej szczegółowoRecenzja pracy doktorskiej mgr Tomasza Świsłockiego pt. Wpływ oddziaływań dipolowych na własności spinorowego kondensatu rubidowego
Prof. dr hab. Jan Mostowski Instytut Fizyki PAN Warszawa Warszawa, 15 listopada 2010 r. Recenzja pracy doktorskiej mgr Tomasza Świsłockiego pt. Wpływ oddziaływań dipolowych na własności spinorowego kondensatu
Bardziej szczegółowo1 Automaty niedeterministyczne
Szymon Toruńczyk 1 Automaty niedeterministyczne Automat niedeterministyczny A jest wyznaczony przez następujące składniki: Alfabet skończony A Zbiór stanów Q Zbiór stanów początkowych Q I Zbiór stanów
Bardziej szczegółowoTechnologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15
Technologie cyfrowe Artur Kalinowski Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15 Artur.Kalinowski@fuw.edu.pl Semestr letni 2014/2015 Zadanie algorytmiczne: wyszukiwanie dane wejściowe:
Bardziej szczegółowoECDL Podstawy programowania Sylabus - wersja 1.0
ECDL Podstawy programowania Sylabus - wersja 1.0 Przeznaczenie Sylabusa Dokument ten zawiera szczegółowy Sylabus dla modułu Podstawy programowania. Sylabus opisuje, poprzez efekty uczenia się, zakres wiedzy
Bardziej szczegółowoTabela wewnętrzna - definicja
ABAP/4 Tabela wewnętrzna - definicja Temporalna tabela przechowywana w pamięci operacyjnej serwera aplikacji Tworzona, wypełniana i modyfikowana jest przez program podczas jego wykonywania i usuwana, gdy
Bardziej szczegółowoAlgorytmy i Struktury Danych
Algorytmy i Struktury Danych Kopce Bożena Woźna-Szcześniak bwozna@gmail.com Jan Długosz University, Poland Wykład 11 Bożena Woźna-Szcześniak (AJD) Algorytmy i Struktury Danych Wykład 11 1 / 69 Plan wykładu
Bardziej szczegółowoWybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.
Wprowadzenie do programu RapidMiner Studio 7.6, część 7 Podstawy metod wyboru atrybutów w problemach klasyfikacyjnych, c.d. Michał Bereta www.michalbereta.pl Wybór / ocena atrybutów na podstawie oceny
Bardziej szczegółowoEfektywność Procedur Obliczeniowych. wykład 5
Efektywność Procedur Obliczeniowych wykład 5 Modele procesu obliczeń (8) Jedno-, wielotaśmowa MT oraz maszyna RAM są równoważne w przypadku, jeśli dany problem jest rozwiązywany przez jeden model w czasie
Bardziej szczegółowoWstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-11 1 Modelowanie funkcji logicznych
Bardziej szczegółowoprof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji
Bioinformatyka wykład 5: dopasowanie sekwencji prof. dr hab. inż. Marta Kasprzak Instytut Informatyk Politechnika Poznańska Dopasowanie sekwencji Badanie podobieństwa sekwencji stanowi podstawę wielu gałęzi
Bardziej szczegółowoProgramowanie i techniki algorytmiczne
Temat 2. Programowanie i techniki algorytmiczne Realizacja podstawy programowej 1) wyjaśnia pojęcie algorytmu, podaje odpowiednie przykłady algorytmów rozwiązywania różnych 2) formułuje ścisły opis prostej
Bardziej szczegółowoWIELOKRYTERIALNE PORZĄDKOWANIE METODĄ PROMETHEE ODPORNE NA ZMIANY WAG KRYTERIÓW
Uniwersytet Ekonomiczny we Wrocławiu WIELOKRYTERIALNE PORZĄDKOWANIE METODĄ PROMETHEE ODPORNE NA ZMIANY WAG KRYTERIÓW Wprowadzenie Wrażliwość wyników analizy wielokryterialnej na zmiany wag kryteriów, przy
Bardziej szczegółowoTeoria grafów - Teoria rewersali - Teoria śladów
17 maja 2012 1 Planarność Wzór Eulera Kryterium Kuratowskiego Algorytmy testujące planarność 2 Genom i jego przekształcenia Grafy złamań Sortowanie przez odwrócenia Inne rodzaje sortowania Algorytmy sortujące
Bardziej szczegółowoO ISTOTNYCH OGRANICZENIACH METODY
O ISTOTNYCH OGRANICZENIACH METODY ALGORYTMICZNEJ Dwa pojęcia algorytmu (w informatyce) W sensie wąskim Algorytmem nazywa się każdy ogólny schemat procedury możliwej do wykonania przez uniwersalną maszynę
Bardziej szczegółowoWykład 3. Złożoność i realizowalność algorytmów Elementarne struktury danych: stosy, kolejki, listy
Wykład 3 Złożoność i realizowalność algorytmów Elementarne struktury danych: stosy, kolejki, listy Dynamiczne struktury danych Lista jest to liniowo uporządkowany zbiór elementów, z których dowolny element
Bardziej szczegółowo0 + 0 = 0, = 1, = 1, = 0.
5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,
Bardziej szczegółowoData Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu
Data Mining Wykład 3 Algorytmy odkrywania binarnych reguł asocjacyjnych Plan wykładu Algorytm Apriori Funkcja apriori_gen(ck) Generacja zbiorów kandydujących Generacja reguł Efektywności działania Własności
Bardziej szczegółowoZłożoność obliczeniowa zadania, zestaw 2
Złożoność obliczeniowa zadania, zestaw 2 Określanie złożoności obliczeniowej algorytmów, obliczanie pesymistycznej i oczekiwanej złożoności obliczeniowej 1. Dana jest tablica jednowymiarowa A o rozmiarze
Bardziej szczegółowoNIETYPOWE WŁASNOŚCI PERMUTACYJNEGO PROBLEMU PRZEPŁYWOWEGO Z OGRANICZENIEM BEZ PRZESTOJÓW
NIETYPOWE WŁASNOŚCI PERMUTACYJNEGO PROBLEMU PRZEPŁYWOWEGO Z OGRANICZENIEM BEZ PRZESTOJÓW Mariusz MAKUCHOWSKI Streszczenie: W pracy rozważa się permutacyjny problem przepływowy z kryterium będącym momentem
Bardziej szczegółowoREPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH
REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Adam Wosatko Ewa Pabisek Reprezentacja
Bardziej szczegółowoPorównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki
Porównanie algorytmów wyszukiwania najkrótszych ścieżek między wierzchołkami grafu. Instytut Informatyki 22 listopada 2015 Algorytm DFS w głąb Algorytm przejścia/przeszukiwania w głąb (ang. Depth First
Bardziej szczegółowoMaciej Piotr Jankowski
Reduced Adder Graph Implementacja algorytmu RAG Maciej Piotr Jankowski 2005.12.22 Maciej Piotr Jankowski 1 Plan prezentacji 1. Wstęp 2. Implementacja 3. Usprawnienia optymalizacyjne 3.1. Tablica ekspansji
Bardziej szczegółowoModelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka
Modelowanie jako sposób opisu rzeczywistości Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka 2015 Wprowadzenie: Modelowanie i symulacja PROBLEM: Podstawowy problem z opisem otaczającej
Bardziej szczegółowoZastosowanie metod opartych na teorii grafów do rozwiązywania wybranych problemów analizy sekwencji nukleotydowych i aminokwasowych
POLITECHNIKA POZNAŃSKA Wydział Informatyki Instytut Informatyki Zastosowanie metod opartych na teorii grafów do rozwiązywania wybranych problemów analizy sekwencji nukleotydowych i aminokwasowych Tomasz
Bardziej szczegółowoSummary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling
Summary in Polish Fatimah Mohammed Furaiji Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling Zastosowanie symulacji wieloagentowej w modelowaniu zachowania konsumentów Streszczenie
Bardziej szczegółowoProblem skoczka szachowego i inne cykle Hamiltona na szachownicy n x n
i inne cykle Hamiltona na szachownicy n x n Uniwersytet Warszawski 15 marca 2007 Agenda 1 2 naiwne Prosty algorytm liniowy 3 Problem znany był już od bardzo dawna, jako łamigłówka logiczna. Był też stosowany
Bardziej szczegółowoWykład VII. Kryptografia Kierunek Informatyka - semestr V. dr inż. Janusz Słupik. Gliwice, 2014. Wydział Matematyki Stosowanej Politechniki Śląskiej
Wykład VII Kierunek Informatyka - semestr V Wydział Matematyki Stosowanej Politechniki Śląskiej Gliwice, 2014 c Copyright 2014 Janusz Słupik Problem pakowania plecaka System kryptograficzny Merklego-Hellmana
Bardziej szczegółowoHeurystyczne metody przeszukiwania
Heurystyczne metody przeszukiwania Dariusz Banasiak Katedra Informatyki Technicznej W4/K9 Politechnika Wrocławska Pojęcie heurystyki Metody heurystyczne są jednym z ważniejszych narzędzi sztucznej inteligencji.
Bardziej szczegółowow analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
Bardziej szczegółowoJednym z najprostszych sposobów porządkowania jest technika stosowana przy sortowaniu listów:
Jednym z najprostszych sposobów porządkowania jest technika stosowana przy sortowaniu listów: Listy rozkładane są do różnych przegródek. O tym, do której z nich trafi koperta, decydują różne fragmenty
Bardziej szczegółowoTEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Wykład 14c 2 Definicje indukcyjne Twierdzenia dowodzone przez indukcje Definicje indukcyjne Definicja drzewa
Bardziej szczegółowoWstęp do Sztucznej Inteligencji
Wstęp do Sztucznej Inteligencji Rozwiązywanie problemów-i Joanna Kołodziej Politechnika Krakowska Wydział Fizyki, Matematyki i Informatyki Rozwiązywanie problemów Podstawowe fazy: Sformułowanie celu -
Bardziej szczegółowoReswkwencjonowanie vs asemblacja de novo
ALEKSANDRA ŚWIERCZ Reswkwencjonowanie vs asemblacja de novo Resekwencjonowanie to odtworzenie badanej sekwencji poprzez mapowanie odczytów do genomu/transkryptomu referencyjnego (tego samego gatunku lub
Bardziej szczegółowoMatematyczne Podstawy Informatyki
Matematyczne Podstawy Informatyki dr inż. Andrzej Grosser Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Rok akademicki 2013/2014 Informacje podstawowe 1. Konsultacje: pokój
Bardziej szczegółowoAlgorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne
Algorytmy i struktury danych Drzewa: BST, kopce Letnie Warsztaty Matematyczno-Informatyczne Drzewa: BST, kopce Definicja drzewa Drzewo (ang. tree) to nieskierowany, acykliczny, spójny graf. Drzewo może
Bardziej szczegółowoGrafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci
Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Plan wykładu 1. Sieci jako modele interakcji
Bardziej szczegółowoLaboratorium z przedmiotu Programowanie obiektowe - zestaw 04
Laboratorium z przedmiotu Programowanie obiektowe - zestaw 04 Cel zajęć. Celem zajęć jest zapoznanie się ze sposobem działania popularnych kolekcji. Wprowadzenie teoretyczne. Rozważana w ramach niniejszych
Bardziej szczegółowoŁączenie liczb i tekstu.
Łączenie liczb i tekstu. 1 (Pobrane z slow7.pl) Rozpoczynamy od sposobu pierwszego. Mamy arkusz przedstawiony na rysunku poniżej w którym zostały zawarte wypłaty pracowników z wykonanym podsumowaniem.
Bardziej szczegółowoKumulowanie się defektów jest możliwe - analiza i potwierdzenie tezy
Kumulowanie się defektów jest możliwe - analiza i potwierdzenie tezy Marek Żukowicz 14 marca 2018 Streszczenie Celem napisania artykułu jest próba podania konstruktywnego dowodu, który wyjaśnia, że niewielka
Bardziej szczegółowoRozwiązywanie problemów metodą przeszukiwania
Rozwiązywanie problemów metodą przeszukiwania Dariusz Banasiak Katedra Informatyki Technicznej W4/K9 Politechnika Wrocławska Reprezentacja problemu w przestrzeni stanów Jedną z ważniejszych metod sztucznej
Bardziej szczegółowoKonkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące
Bardziej szczegółowoWykład 8. Testowanie w JEE 5.0 (1) Autor: Zofia Kruczkiewicz. Zofia Kruczkiewicz
Wykład 8 Testowanie w JEE 5.0 (1) Autor: 1. Rola testowania w tworzeniu oprogramowania Kluczową rolę w powstawaniu oprogramowania stanowi proces usuwania błędów w kolejnych fazach rozwoju oprogramowania
Bardziej szczegółowoWstęp do Techniki Cyfrowej... Teoria automatów
Wstęp do Techniki Cyfrowej... Teoria automatów Alfabety i litery Układ logiczny opisywany jest przez wektory, których wartości reprezentowane są przez ciągi kombinacji zerojedynkowych. Zwiększenie stopnia
Bardziej szczegółowoxx + x = 1, to y = Jeśli x = 0, to y = 0 Przykładowy układ Funkcja przykładowego układu Metody poszukiwania testów Porównanie tabel prawdy
Testowanie układów kombinacyjnych Przykładowy układ Wykrywanie błędów: 1. Sklejenie z 0 2. Sklejenie z 1 Testem danego uszkodzenia nazywa się takie wzbudzenie funkcji (wektor wejściowy), które daje błędną
Bardziej szczegółowoINDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych
Bardziej szczegółowoBioinformatyka. Ocena wiarygodności dopasowania sekwencji.
Bioinformatyka Ocena wiarygodności dopasowania sekwencji www.michalbereta.pl Załóżmy, że mamy dwie sekwencje, które chcemy dopasować i dodatkowo ocenić wiarygodność tego dopasowania. Interesujące nas pytanie
Bardziej szczegółowoWyszukiwanie binarne
Wyszukiwanie binarne Wyszukiwanie binarne to technika pozwalająca na przeszukanie jakiegoś posortowanego zbioru danych w czasie logarytmicznie zależnym od jego wielkości (co to dokładnie znaczy dowiecie
Bardziej szczegółowoProblemy z ograniczeniami
Problemy z ograniczeniami 1 2 Dlaczego zadania z ograniczeniami Wiele praktycznych problemów to problemy z ograniczeniami. Problemy trudne obliczeniowo (np-trudne) to prawie zawsze problemy z ograniczeniami.
Bardziej szczegółowoInformacja w perspektywie obliczeniowej. Informacje, liczby i obliczenia
Informacja w perspektywie obliczeniowej Informacje, liczby i obliczenia Cztery punkty odniesienia (dla pojęcia informacji) ŚWIAT ontologia fizyka UMYSŁ psychologia epistemologia JĘZYK lingwistyka nauki
Bardziej szczegółowoData Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Bardziej szczegółowoLiczbę 29 możemy zaprezentować na siedem różnych sposobów:
Numeryczna analiza rozkładu liczb naturalnych na określoną sumę liczb pierwszych Świerczewski Ł. Od blisko 200 lat matematycy poszukują odpowiedzi na pytanie zadane przez Christiana Goldbacha, który w
Bardziej szczegółowoTemat 20. Techniki algorytmiczne
Realizacja podstawy programowej 5. 1) wyjaśnia pojęcie algorytmu, podaje odpowiednie przykłady algorytmów rozwiązywania różnych problemów; 2) formułuje ścisły opis prostej sytuacji problemowej, analizuje
Bardziej szczegółowoPrzeszukiwanie lokalne
Przeszukiwanie lokalne 1. Klasyfikacja algorytmów 2. Przeszukiwanie lokalne 1. Klasyfikacja algorytmów Algorytmy dokładne znajdują rozwiązanie optymalne, 1. Klasyfikacja algorytmów Algorytmy dokładne znajdują
Bardziej szczegółowoAnaliza zmienności czasowej danych mikromacierzowych
Systemy Inteligencji Obliczeniowej Analiza zmienności czasowej danych mikromacierzowych Kornel Chromiński Instytut Informatyki Uniwersytet Śląski Plan prezentacji Dane mikromacierzowe Cel badań Prezentacja
Bardziej szczegółowoZadania do wykonania. Rozwiązując poniższe zadania użyj pętlę for.
Zadania do wykonania Rozwiązując poniższe zadania użyj pętlę for. 1. apisz program, który przesuwa w prawo o dwie pozycje zawartość tablicy 10-cio elementowej liczb całkowitych tzn. element t[i] dla i=2,..,9
Bardziej szczegółowoPrzykładowe sprawozdanie. Jan Pustelnik
Przykładowe sprawozdanie Jan Pustelnik 30 marca 2007 Rozdział 1 Sformułowanie problemu Tematem pracy jest porównanie wydajności trzech tradycyjnych metod sortowania: InsertionSort, SelectionSort i BubbleSort.
Bardziej szczegółowoPorównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych
dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo
Bardziej szczegółowo