ALEKSANDRA ŚWIERCZ
Plan wykładów Wprowadzenie do różnych metod sekwencjonowania Resekwencjonowanie mapowanie do genomu referencyjnego Sekwencjonowanie de novo asemblacja Różnica w ekspresji genów, alternatywny splicing Różnice między genomami CNV, SNP Analiza krótkich mirna Wizualizacja danych, Short Read Archive A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2
Sposoby zaliczenia Wykład: Kolokwium zaliczeniowe max 5 punktów Prezentacja max 2 punkty Obecność na wykładach max 1 punkt Zaliczenie od 3 punktów (ocena 3.0) Laboratoria: Kilka zadań zaliczeniowych, do oddawania razem ze sprawozdaniem A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 3
Sekwencjonowanie DNA/RNA BLACK BOX AAATGCCTGCCCTGAAGGCCTGCGTA GTTTTGGGAGAAGACCCACGGATA AAGGTGTAGCCCCGTAGC GGGGGGTATTATTTATTTTATACCCAC.. ACAGGAUCGUUGGAUGGTGGGA. Sekwencjonowanie polega na odczytaniu sekwencji liter DNA/RNA badanego fragmentu genomu A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 4
Sekwencjonowanie DNA/RNA Sanger SBH BLACK BOX AAATGCCTGCCCTGAAGGCCTGCGTA GTTTTGGGAGAAGACCCACGGATA AAGGTGTAGCCCCGTAGC GGGGGGTATTATTTATTTTATACCCAC.. ACAGGAUCGUUGGAUGGTGGGA. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 5
Sekwencjonowanie DNA/RNA Sanger SBH BLACK BOX AAATGCCTGCCCTGAAGGCCTGCGTA GTTTTGGGAGAAGACCCACGGATA AAGGTGTAGCCCCGTAGC GGGGGGTATTATTTATTTTATACCCAC.. ACAGGAUCGUUGGAUGGTGGGA. Roche/454 Applied Biosystems SOLID Illumina Ion Torrent Heilcos Heliscope Complete Genomics Pacific Biosystems A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 6
Pacific Biosystems Długie odczyty 20 000 bp Sanger Pojedyncza sekwencja Ion Torrent Roche/454 Illumina SBH Dużo powtórzeń DNA Applied Biosystems SOLID Complete Genomics Heilcos Heliscope Krótkie odczyty 20 bp A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 7
Metoda Sangera elektroforeza żelu A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 8
Sekwencjonowanie przez hybrydyzację (SBH) 1. Część eksperymentalna - przeprowadzenie eksperymentu biochemicznego, w czasie którego znalezione zostaną wszystkie fragmenty badanego łańcucha DNA o określonej z góry długości 2. Część obliczeniowa odtworzenie badanej sekwencji DNA poprzez poskładanie krótkich fragmentów w dłuższy łańcuch. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 9
SBH część eksperymentalna 1. Przygotowanie sekwencji DNA: Cięcie sekwencji metodą shotgun Tylko jedna nić Namnażanie wielu kopii Nałożenie koloru fluorescencyjnego 2. Przygotowanie chipu/mikromacierzy płytki na której znajdują się różne oligonukleotydy, np. wszystkie oligonukleotydy o długości 8 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 10
SBH eksperyment hybrydyzacji 1. Przygotowanie chipu DNA Round 1 A A C A C G A C G T Round 2 A C G T A C G T A C G T A C G T A A A C C G A C G T A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 11
Round 3 A C G T A A A A A C G T... and so on... DNA chip 0,4mm Full library of tetranucleotides 0,4mm 25 m site per probe 4 4 0.0016 cm 2 4 8 0.4096 cm 2 4 10 6.5536 cm 2 AAAA AACA AAGA AAAC AACC AAGC AAAT AACG AAGG AAAT AACT AAGT ACAA ACCA A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 12
2. Reakcja hybrydyzacji DNA chip TCCACTG... Wiele znakowanych kopii badanej sekwencji DNA A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 13
A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 14
A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 15
A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 16
2. Reakcja hybrydyzacji DNA chip TCCACTG... Wiele znakowanych kopii badanej sekwencji DNA 3. Wynik odczytu Fluorescencyjny chip DNA....... spectrum Spektrum zbiór oligonukleotydów komplementarnych do fragmentu badanej sekwencji DNA A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 17
Reakcja hybrydyzacji pomiędzy sondą o znanej sekwencji (l-mer) i nieznaną sekwencją o długości n (n-mer): n-mer -... A A C T A G A C C T... l-mer - G A T C T A Sekwencja komplementarna do sondy istnieje w targecie A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 18
Sekwencjonowanie DNA bez błędów Sekwencja oryginalna: AACTAGACCT Spektrum = {AAC,ACT,CTA,TAG,AGA,GAC,ACC,CCT} (Dwa możliwe rozwiązania : AACTAGACCT, AACCTAGACT) Lysov (1988) Graf oparty o l-mery (graph H) ACT AAC CTA CCT TAG ACC GAC AGA Znalezienie ścieżki Hamiltona NP-trudne A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 20
Pevzner (1989) AAC AA AC Graf oparty na (l-1)-merach (graf G): AA AC CT TA AG CC GA Znalezienie ścieżki Eulera rozwiązywalne w czasie wielomianowym o o Problem równoważności Problem unikalności A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 21
Błędy w eksperymencie SBH 1. Błędy pozytywne nadmiar w spektrum a. W czasie eksperymentu hybrydyzacji niekomplementarne oligonukleotydy (mające nie wszystkie zasady komplementarne) przyłączają się do badanego łańcucha DNA. W konsekwencji odczytu obrazu fluorescencyjnego, błędny oligonukleotyd zostaje włączony do spektrum. b. Obraz fluorescencyjny chipu może być zanieczyszczony i omyłkowo oligonukleotyd może zostać włączony do spektrum A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 23
Błędy w eksperymencie SBH 2. Błędy negatywne braki w spektrum a. Oligonukleotyd pojawia się w sekwencji oryginalnej więcej niż jeden raz. Ponieważ spektrum nie jest multizbiorem, tylko jedno wystąpienie każdego elementu jest możliwe b. Nie wszystkie zasady z komplementarnego oligonukleotydu przyłączyły się do świecącego łańcucha DNA, stąd też sygnał na chipie jest słabo widoczny i oligonukleotyd nie zostanie odczytany. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 24
J. Błażewicz, P. Formanowicz, M. Kasprzak, W.T. Markiewicz, J. Węglarz DNA Sequencing with positive and negative errors, Journal of Computational Biology 6, No. 1, 1999. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 25
Sekwencjonowanie DNA w przypadku błędów pozytywnych i negatywnych Sformułowanie jako wariant problemu komiwojażera z nagrodami: Mając pełny graf G=(V,A), V=spektrum, z nagrodą za odwiedzenie każdego wierzchołka równą 1 oraz łukami z kosztami równymi liczbie nakładających się etykiet wierzchołków (oligonukleotydów), znajdź ścieżkę z maksymalnym zyskiem i kosztem nie większym niż n-l. [J.Błażewicz, P.Formanowicz, M.Kasprzak, W.T.Markiewicz, J.Węglarz,1999] A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 26
Przykład CTTACTACG sekwencja oryginalna spektrum {CTT, TAC, ACT, CTA, ACG, GCG} Długość sekwencji n=9 Długość oligonukleotydów =3 GCG błędy pozytywne TTA, TAC błędy negatywne CTT początkowy oligonukleotyd A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 27
CTT CTT GCG TAC GCG TAC ACG ACT ACG ACT CTA CTA koszt= 1, np. T(AC)T koszt= 2, np. AC(T)AC Dwa rozwiązania optymalne A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 28
Złożoność problemu SBH Problem sekwencjonowania SBH w przypadku gdy nie ma błędów w spektrum jest problemem łatwym obliczeniowo (należy do klasy P). Problem SBH w przypadku z błędami pozytywnymi albo negatywnymi, albo błędami obu typów jest problemem trudnym obliczeniowo (należy do klasy silnie NP-trudnej) A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 29
Przykłady modyfikacji klasycznego podejścia o Biblioteki izotermiczne w celu zmniejszenia liczby błędów eksperymentalnych zamiast bibliotek oligonukleotydów o równej długości wprowadzono pojęcie bibliotek izotermicznych, czyli oligonukleotydów o zbliżonej temperaturze topnienia dupleksów. A,T- mniej stabilne, mają niższą temperaturę niż G,C ex. t(acgtc) = 2+4+4+2+4 = 16 o Sondy z dziurami tzw. gapped probes. Wprowadzono pojęcie uniwersalnych nukleotydów, które przyłączają się do dowolnego nukleotydu w łańcuchu DNA. Sondy na chipie są kombinacją zwykłych i uniwersalnych nukleotydów, dzięki czemu można wydłużyć długość oligonukleotydów nie zwiększając liczności biblioteki A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 30
Wybrana literatura dla problemu SBH J.Błażewicz, P.Formanowicz, M.Kasprzak, W.T.Markiewicz, J.Węglarz, DNA sequencing with positive and negative errors, Journal of Computational Biology 6, 1999, pp.113-123. F.P. Preparata, A.M. Frieze, and E. Upfal. On the power of universal bases in sequencing by hybridization. In Proc. 3rd Ann. Int. Conf. Comput. Mol. Biol., pages 295 301, 1999. J.Błażewicz, P.Formanowicz, M.Kasprzak, W.T.Markiewicz, J.Węglarz, Tabu search for DNA sequencing with false negatives and false positivies, European Journal of Operational Research 125, 2000, pp. 257-265. V.T. Phan and S. Skiena. Dealing with errors in interactive sequencing by hybridization. Bioinformatics, 17:862 870, 2001. J. Błażewicz, P. Formanowicz, F. Guinand, M. Kasprzak, "A heuristic managing errors for DNA sequencing, Bioinformatics 18, 2002, pp. 652-660. J-H. Zhang, L-Y. Wu, and X-S. Zhang. Reconstruction of DNA sequencing by hybridization. Bioinformatics, 19:14 21, 2003. S.A. Heath, F.P. Preparata, and J. Young. Sequencing by hybridization by cooperating direct and reverse spectra. J. Comput. Biol., 10:499 508, 2003. E. Halperin, S. Halperin, T. Hartman, and R. Shamir. Handling long targets and errors in sequencing by hybridization. J. Comput. Biol., 10:483 497, 2003 J. Błażewicz, F. Glover, M. Kasprzak, "DNA sequencing - tabu and scatter search combined INFORMS Journal on Computing 16, 2004, pp. 232-240 F.P. Preparata and J.S. Oliver. DNA sequencing by hybridization using semi-degenerate bases. J. Comput. Biol., 11(4):753 765, 2004. J. Błażewicz, P. Formanowicz, M. Kasprzak, W. T. Markiewicz, A. Świercz, Tabu search algorithm for DNA sequencing by hybridization with isothermic libraries Computational Biology and Chemistry 28, 2004, pp. 11-19. T.A. Endo. Probabilistic nucleotide assembling method for sequencing by hybridization. Bioinformatics, 20:2181 2188, 2004. J. Błażewicz, C. Oğuz, A. Świercz, J. Węglarz, "DNA sequencing by hybridization via genetic search, Operations Research 54, 2006, pp.1185-1192. J. Błażewicz, F. Glover, M. Kasprzak, W.T. Markiewicz, C. Oğuz, D. Rebholz-Schuhmann, A. Świercz "Dealing with repetitions in sequencing by hybridization, Computational Biology and Chemistry 30, 2006, pp 313-320. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 31
Illumina A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 32
Illumina Flow cell A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 33
A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 34
A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 35
A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 36
A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 37
Podział flowcell A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 38
Whiteford N et al. Bioinformatics 2009;25:2194-2199 A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 39
A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 40
A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 41
W których klastrach odczyty przechodzą filtr jakości? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 42
Wiele próbek na jednej linii - multiplexing A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 43
Odczyty sparowane A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 44
Porównanie sekwenatorów Illuminy A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 45
Pyrosequencing - 454 Life Sciences A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 46
Przygotowanie biblioteki DNA A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 47
Sekwencjonowanie... A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 48
Flowgram wyjście dla każdej studzienki A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 49
Format danych z sekwenatora A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 50
Tabela kodów ASCII A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 51
Jakość Phred quality score 2 -> ASCII code 50 qual = ASCII code 33 = 17 Phred quality score Prawdopodobieńst wo błędu P error 3 1 na 2 50% 5 1 na 3 32% 10 1 na 10 10% 20 1 na 100 1% 30 1 na 1000 0.1% 40 1 na 10000 0.01% A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 52
Rozkład jakości dla każdego nukleotydu A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 53
A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 54
Obrazki, slajdy www.illumina.com www.454.com I inne strony związane z sekwenatorami Informatics on High Throughput Sequencing Data (2013) @ www.bioinformatics.ca A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 55