prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska

Podobne dokumenty
Algorytmy kombinatoryczne w bioinformatyce

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej

Wykład 1. Wprowadzenie do teorii grafów

Efektywne wyszukiwanie wzorców w systemach automatycznej generacji sygnatur ataków sieciowych

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Grafy i sieci wybrane zagadnienia wykład 2: modele służące rekonstrukcji sekwencji

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

UNIWESRYTET EKONOMICZNY WE WROCŁAWIU HOSSA ProCAPITAL WYCENA OPCJI. Sebastian Gajęcki WYDZIAŁ NAUK EKONOMICZNYCH

Zadania z badań operacyjnych Przygotowanie do kolokwium pisemnego

Teoria grafów - Teoria rewersali - Teoria śladów

Plan wykładu. Przykład. Przykład 3/19/2011. Przykład zagadnienia transportowego. Optymalizacja w procesach biznesowych Wykład 2 DECYZJA?

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

Dyfrakcja fal elektromagnetycznych na sieciach przestrzennych

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Mapowanie fizyczne genomów -konstrukcja map wyskalowanych w jednostkach fizycznych -najdokładniejszą mapą fizyczną genomu, o największej

U L T R A ZAKŁAD BADAŃ MATERIAŁÓW

DYFRAKCJA NA POJEDYNCZEJ I PODWÓJNEJ SZCZELINIE

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Transformacja pośrednia składa się z trzech etapów:

Teoria grafów dla małolatów. Andrzej Przemysław Urbański Instytut Informatyki Politechnika Poznańska

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

Wybrane podstawowe rodzaje algorytmów

WYKŁAD nr Ekstrema funkcji jednej zmiennej o ciągłych pochodnych. xˆ ( ) 0

INSTYTUT INŻYNIERII ŚRODOWISKA ZAKŁAD GEOINŻYNIERII I REKULTYWACJI ĆWICZENIE NR 5

Modelowanie i Analiza Danych Przestrzennych

Wielomiany Hermite a i ich własności

Wykład 5 Dopasowywanie lokalne

Przykłady obliczeń złączy na łączniki trzpieniowe obciążone poprzecznie wg PN-B-03150

Mechanika kwantowa ćwiczenia, 2007/2008, Zestaw II

Metrologia Techniczna

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

Matematyczne Podstawy Informatyki

Pole temperatury - niestacjonarne (temperatura zależy od położenia elementu ciała oraz czasu) (1.1) (1.2a)

Zagadnienie transportowe

1. Podstawowe pojęcia w wymianie ciepła

Sekwencjonowanie, przewidywanie genów

Algorytmy kombinatoryczne w bioinformatyce

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15

PREDYKCJA PRZEMIESZCZEŃ PRZY KODOWANIU SEKWENCJI WIELOWIDOKOWYCH Z WYKORZYSTANIEM KODERA SKALOWALNEGO AVC

TEORIA GRAFÓW I SIECI

Metody przeszukiwania

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Ćwiczenia 1 Wirtualne Klonowanie Prowadzący: mgr inż. Joanna Tymeck-Mulik i mgr Lidia Gaffke. Część teoretyczna:

Geometria płaska - matura Przyprostokątne trójkąta prostokątnego mają długości 3 7cm poprowadzona z wierzchołka kąta prostego ma długość: 12

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Rozwiązania, seria 5.

ROZDZIAŁ 5. Renty życiowe

Matematyczne Podstawy Informatyki

Algorytmy kombinatoryczne w bioinformatyce

Programowanie dynamiczne cz. 2

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Matematyczne Podstawy Informatyki

Opracowanie prof. J. Domsta 1

Pole temperatury - niestacjonarne (temperatura zależy od położenia elementu ciała oraz czasu)

Wyznaczanie optymalnej trasy problem komiwojażera

Wykorzystanie algorytmów mrówkowych w dynamicznym problem

Algorytmy kombinatoryczne w bioinformatyce

Pole temperatury - niestacjonarne (temperatura zależy od położenia elementu ciała oraz czasu)

Projekt oprogramowania dla systemu wieloparametrycznego tworzonego na Wydziale Fizyki Politechniki Warszawskiej

G. Wybrane elementy teorii grafów

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

SYSTEM DO POMIARU STRUMIENIA OBJĘTOŚCI WODY ZA POMOCĄ ZWĘŻKI

Metody odczytu kolejności nukleotydów - sekwencjonowania DNA

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Wykład 10 Grafy, algorytmy grafowe

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

Literatura. 1) Pojęcia: złożoność czasowa, rząd funkcji. Aby wyznaczyć pesymistyczną złożoność czasową algorytmu należy:

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

Metody badania polimorfizmu/mutacji DNA. Aleksandra Sałagacka Pracownia Diagnostyki Molekularnej i Farmakogenomiki Uniwersytet Medyczny w Łodzi

EGZAMIN - Wersja A. ALGORYTMY I STRUKTURY DANYCH Lisek89 opracowanie kartki od Pani dr E. Koszelew

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

PROGRAMOWANIE KWADRATOWE

KO OF Szczecin:

Przykłady problemów optymalizacyjnych

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

6. Identyfikacja wielowymiarowych systemów statycznych metodanajmniejszychkwadratów

LABORATORIUM 7: Problem komiwojażera (TSP) cz. 2

POMIAR WSPÓŁCZYNNIKA PRZEWODNOŚCI CIEPLNEJ ALUMINIUM

ALGEBRA LINIOWA. Wykład 2. Analityka gospodarcza, sem. 1. Wydział Zarządzania i Ekonomii Politechnika Gdańska

Algorytm dyskretnego PSO z przeszukiwaniem lokalnym w problemie dynamicznej wersji TSP

Algorytmika Problemów Trudnych

Projektowanie Systemów Elektromechanicznych. Wykład 3 Przekładnie

POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji POMIAR ZARYSÓW O ZŁOŻONYCH KSZTAŁTACH

PROBLEM: SEKWENCJONOWANIE DNA METODA: ALGORYTMY GRAFOWE

Przybliżone algorytmy analizy ekspresji genów.

Przewidywanie miejsc wiązania nukleosomów w genomie drożdży

Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).

Postać Jordana macierzy

Document: Exercise*02*-*manual /11/ :31---page1of8 INSTRUKCJA DO ĆWICZENIA NR 2

Inżynieria Genetyczna ćw. 3

Wyznaczanie stałej Kerra

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Porównanie czasów działania algorytmów sortowania przez wstawianie i scalanie

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania

Konstrukcja i wymiary wybranych gwintów znormalizowanych

Transkrypt:

Bioinformatyka wykła 8: mapowanie prof. r ha. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Mapowanie Pojęcie mapowanie onosi się o różnych prolemów Trzeci etap skłaania sekwencji genomowej e novo Przypisywanie genów o opowienich miejsc chromosomów na postawie efektów rekominacji Dopasowywanie oczytów z sekwenatora o genomu referencyjnego, tzw. resekwencjonowanie Porównywanie wyników eksperymentalnych la fragmentów wóch genomów, tzw. fingerprinting Dopasowywanie struktur przestrzennych iałek i RNA Inne

Mapowanie W trzecim (chronologicznie pierwszym) etapie skłaania sekwencji genomowej należy otworzyć oryginalne uporząkowanie ługich, nakłaających się na sieie fragmentów DNA ez znajomości ich sekwencji. Sekwencje nukleotyowe fragmentów rozpoznawane są niezależnie w procesie sekwencjonowania i asemlacji Dane wejściowe stanowią multiziory ługości fragmentów (w mapowaniu restrykcyjnym, np. w prolemach pojeynczego lu powójnego trawienia) lu wyniki eksperymentu hyryyzacyjnego na ziorach fragmentów i unikalnych próek (markerów) [S. Benzer, Proc. Natl. Aca. Sci. USA 5 (959)] Metoa służąca ientyfikacji topologii zapisu informacji genetycznej akteriofaga. Wynik eksperymentu wskazał na jej linearną strukturę Poona zasaa porząkowania fragmentów stosowana jest oecnie w mapowaniu przez hyryyzację za pomocą unikalnych próek. Bezłęna macierz hyryyzacji może yć reprezentowana poprzez graf interwałowy Grafy interwałowe ozwiercielają relację nakłaania się interwałów w przestrzeni liniowej. Dwa wierzchołki opowiaające interwałom są połączone krawęzią, jeśli interwały przecinają się

Mapowanie za pomocą unikalnych próek (ez łęów) W wyniku eksperymentu hyryyzacji łuższych fragmentów DNA o nieznanych sekwencjach z krótkimi unikalnymi prókami otrzymujemy informację o ich zawieraniu fragmenty próki a c fragmenty próki a c 0 0 0 0 0 0 0 5 W przypaku eksperymentu ez łęów macierz hyryyzacji posiaa w wierszach własność consecutive ones a fragmenty Graf skonstruowany na postawie ezłęnej macierzy hyryyzacji jest grafem interwałowym c próki a c 0 0 0 0 0 0 0 6

[F. Alizaeh i in., J. Comput. Biol. (995)] Błęy hyryyzacji: chimery, łęy negatywne i pozytywne Macierz hyryyzacji z łęami nie posiaa już własności consecutive ones. Celem jest znalezienie takiego uporząkowania kolumn, la którego licza łęów w macierzy (czyli licza przerw w ciągach jeynek) jest minimalna fragmenty próki a c 0 0 0 0 0 0 0 macierz z łęami fragmenty próki a c 0 0 0 0 0 0 0 rozwiązanie optymalne 7 [F. Alizaeh i in., J. Comput. Biol. (995)] c. Poszukiwanie minimalnej liczy przerw w macierzy opowiaa poszukiwaniu cyklu komiwojażera w grafie (metoa heurystyczna) Wagi krawęzi to oległość Hamminga pomięzy prókami fragmenty próki a c x 0 0 0 0 0 0 0 0 0 0 0 oległość Hamminga c x a c cykl optymalny ( z ) a x c 8

[D. Greenerg i S. Istrail, J. Comput. Biol. (995)] Nagrazanie zgoności zamiast karania niezgoności Wierzchołki reprezentują próki, a krawęzie opisane są liczą fragmentów, które zawierają oie próki. Rozwiązaniem jest cykl Hamiltona o najwyższej waze fragmenty próki a c 0 0 0 0 0 0 0 wagi krawęzi c a 0 c cykl optymalny a c 9 Jeśli próki nie są unikalne w oręie aanego fragmentu genomu, nie można oczekiwać własności consecutive ones macierzy hyryyzacji. W macierzy naal jenej próce opowiaa jena kolumna, tym razem jenak stowarzyszone z nią fragmenty nie muszą wystąpić ook sieie w genomie Zestaw próek hyryyzujących z fragmentem tworzy jego profil (ang. fingerprint). Uszeregowanie fragmentów można otworzyć, opierając się na przypuszczeniu, że im większe jest ich wzajemne nałożenie, tym arziej poone są ich profile (tym większą liczę próek mają wspólną) 0 5

[D. Gusfiel, Algorithms on Strings, Trees, an Sequences (997)] Prolem mapowania przez hyryyzację z nieunikalnymi prókami jest truny oliczeniowo, rozwiązany został m.in. heurystyką zachłanną a c 0 0 a c 5 a 6 7 5 6 7 0 0 0 0 0 0 0 0 [D. Gusfiel, Algorithms on Strings, Trees, an Sequences (997)] W kolejnych krokach oierane są w pary i łączone w kontig wa fragmenty o najarziej pasujących profilach a c +5, 6+7, (+5)+, (+5+)+, 0 0 (+5++)+, (6+7)+(+5+++) a c 5 a 6 7 5 6 7 0 0 0 0 0 0 0 0 6

Innym rozajem mapowania jest poejście ez markerów, z użyciem tylko enzymów restrykcyjnych (np. jenego lu wóch), które trawią aany fragment wuniciowego DNA. Multiziory ługości ocinków wynikowych wystarczają o otworzenia oryginalnego uporząkowania ocinków Wśró kominatorycznych moeli prolemów mapowania restrykcyjnego można wymienić prolem powójnego trawienia, prolem częściowego trawienia, uproszczony prolem częściowego trawienia Prolem mapowania za pomocą wóch enzymów restrykcyjnych prolem powójnego trawienia (ang. oule igest prolem, DDP) Instancja: Multiziory A, B i AB ługości ocinków pochozących z trawienia kopii fragmentu DNA woma enzymami restrykcyjnymi. Rozwiązanie: Mapa miejsc restrykcyjnych w aanym fragmencie, tzn. takie uszeregowanie elementów multizioru AB, które umożliwi pokrycie wskazanych miejsc cięcia poprzez uszeregowanie elementów multiziorów A i B. A B AB 7

DDP przykła A = {,, 6}, B = {, 5, 7}, AB = {,,,, } Rozwiązanie: 6 7 5 A B AB Prolem ten nawet przy założeniu raku łęów w instancji jest truny oliczeniowo 5 [K. Danna i D. Nathans, Proc. Natl. Aca. Sci. USA 68 (97)] Prolem mapowania za pomocą jenego enzymu restrykcyjnego prolem częściowego trawienia (ang. partial igest prolem, PDP) Instancja: Multiziór A ługości ocinków pochozących z trawienia kopii fragmentu DNA jenym enzymem restrykcyjnym w różnych przeziałach czasowych. Rozwiązanie: Mapa miejsc restrykcyjnych w aanym fragmencie taka, że oległości pomięzy wszystkimi parami miejsc (również końcami fragmentu) pokryją się z multiziorem A. 6 8

PDP przykła A = {,,,,,,, 5, 6, 6, 7, 8, 9, 0, } Rozwiązanie: Mapowanie metoą częściowego trawienia jest trune w realizacji ze wzglęu na liczę przeprowazanych eksperymentów laoratoryjnych i prolem z oorem właściwego czasu trwania reakcji Prolem przy założeniu raku łęów w instancji jest otwarty z punktu wizenia złożoności oliczeniowej 7 [J. Błażewicz i in., Bioinformatics 7 (00)] Uproszczony prolem częściowego trawienia (ang. simplifie partial igest prolem, SPDP) Instancja: Multiziory A i B ługości ocinków pochozących opowienio z krótkiego i ługiego trawienia kopii fragmentu DNA jenym enzymem restrykcyjnym. Rozwiązanie: Mapa miejsc restrykcyjnych w aanym fragmencie, tzn. takie uszeregowanie elementów multizioru B, które umożliwi pokrycie wskazanych miejsc cięcia poprzez uszeregowanie par elementów z A. A B 8 9

SPDP przykła A = {,, 5, 6, 7, 8, 9, 0}, B = {,,,, } Rozwiązanie: 9 7 6 8 5 A 0 B Prolem przy założeniu raku łęów w instancji jest truny oliczeniowo 9 może yć także rozumiane jako opasowywanie o sieie wóch fragmentów genomu na postawie ich profili cięć enzymami restrykcyjnymi (fingerprinting). Poone fragmenty poane trawieniu tych samych enzymów azą w efekcie poony oraz ługości uzyskanych ocinków Dopasowanie takie może yć uzyskane algorytmem programowania ynamicznego w poony sposó jak w prolemie opasowania wóch sekwencji. Dane o trawieniu zapisuje się w postaci sekwencji naprzemiennie ientyfikatorów enzymów oraz oległości ocinków o znakowanego końca 0 0

[M. Waterman i in., Nucleic Acis Res. (98)] Dwa opasowywane profile cięć reprezentowane są przez sekwencje A i B opowienio n i m miejsc restrykcyjnych: A = (r 0, p 0, r, p,, r n+, p n+ ), B = (s 0, q 0, s, q,, s m+, q m+ ), w których r i oraz s i to ientyfikatory enzymów, a p i oraz q i to oległości ocinków o znakowanego końca, przy: r 0 =s 0 =α, p 0 =q 0 =0, r n+ =s m+ =β, p n+ =N, q m+ =M, gzie α i β to końce sekwencji, a N i M to ługości fragmentów Celem algorytmu jest przekształcenie jenego profilu w rugi przy najmniejszym koszcie [M. Waterman i in., Nucleic Acis Res. (98)] c. W rozwiązywanym prolemie opuszczone są wstawienia ąź usunięcia miejsc restrykcyjnych, także zmiana ługości ocinków, natomiast wyklucza się zmianę ientyfikatorów enzymów restrykcyjnych Koszt wstawienia lu usunięcia miejsca związany jest ze zmienną λ, koszt zmiany ługości ocinka ze zmienną μ, gzie μ = w 0 +x w a x to różnica w ługości wyrażona w kp (tysiącach par zasa). Jeśli x jest małe (x Δ), przyjmuje się rak kary za zmianę ługości (μ=0) Przykłaowe wartości z artykułu: Δ = 0,5 kp, λ=, w 0 =w =0,5

[M. Waterman i in., Nucleic Acis Res. (98)] c. Algorytm programowania ynamicznego wypełnia talicę oległości D o n+ wierszach i m+ kolumnach D(0,0) = 0, jeśli 0 < i < n+ lu 0 < j < m+: D(i,0) = D(i,m+) = D(0,j) = D(n+,j) =, jeśli r i s j : D(i,j) =, wpp. la 0 < k i, 0 < l j : D(i,j) = min[d(i k,j l) + λ(k+l ) + w 0 +w p i p i-k q j +q j-l ]. Wynik oczytywany jest w D(n+,m+). Złożoność O(n m ) Przykła (wartości p i, q i i Δ w kp) A = (α, 0, E, 8., E, 5., E, 9.0, β,.0) B = (α, 0, E, 7.7, E, 9.5, E,.8, E, 0., β, 5.0) n=, m=, Δ=0.5, λ=, w 0 =w =0.5 i j 0 5 0 0 0.85 9.5.85.85 8.5.0.0

Przykła c. A = (α, 0, E, 8., E, 5., E, 9.0, β,.0) B = (α, 0, E, 7.7, E, 9.5, E,.8, E, 0., β, 5.0) α E E E β α E E E E β 5 Mapowanie optyczne [D. Schwartz i in., Science 6 (99)] Mapowanie optyczne z użyciem enzymu restrykcyjnego Baana cząsteczka jest oznaczana fluorescencyjnie i usztywniana, reakcja trawienia oserwowana jest po mikroskopem Oraz rejestrowany co 0 sek. umożliwia zaoserwowanie poziału i ustalenie kolejności poszczególnych fragmentów w cząsteczce. Długości fragmentów szacowane są na roze wizualnego porównania ze wzorcem ocena jasności i/lu ługości 6

Mapowanie optyczne [D. Schwartz i in., Science 6 (99)] c. 7 Mapowanie optyczne [M. Xiao i in., Nucleic Acis Res. 5 (007)] Mapowanie optyczne w celu zientyfikowania pozycji próek (fingerprinting) Baana cząsteczka jest oznaczana innym arwnikiem niż znacznik, który przyłącza się o cząsteczki w miejscach wcześniej uszkozonych opowiaających próce. Oraz całości analizowany jest po mikroskopem Poejście może służyć także w trzecim etapie skłaania sekwencji genomowej. Ay uzyskać arziej jenoznaczny wynik eksperymentu, można użyć więcej niż jeen rozaj próek 8

Mapowanie optyczne [M. Xiao i in., Nucleic Acis Res. 5 (007)] c. Pozycje próek w aanej cząsteczce stan rzeczywisty. Nacięcia okonywane są enzymem rozpoznającym opowieni fragment. 9 Mapowanie optyczne [M. Xiao i in., Nucleic Acis Res. 5 (007)] c. Oraz uliniowionego materiału po eksperymencie (po lewej) oraz wykres uzyskany przez nałożenie wyników la 8 molekuł (po prawej). 0 5