Na czym skończyliśmy BLACK BOX. Sekwencjonowanie polega na odczytaniu sekwencji liter DNA/RNA badanego fragmentu genomu

ALEKSANDRA ŚWIERCZ

Na czym skończyliśmy BLACK BOX AAATGCCTGCCCTGAAGGCCTGCGTA GTTTTGGGAGAAGACCCACGGATA AAGGTGTAGCCCCGTAGC GGGGGGTATTATTTATTTTATACCCAC.. ACAGGAUCGUUGGAUGGTGGGA. Sekwencjonowanie polega na odczytaniu sekwencji liter DNA/RNA badanego fragmentu genomu 2

Czym jest mapowanie? Niedopasowania SNP Screen z mapowania IGV 3

Puzzle 10-5000 klocków Mapowanie miliony sekwencji 6

Co to jest genom referencyjny? zsekwencjonowany genom przedstawiciela gatunku znana jest sekwencja, ale mogą się tam znajdować dziury czyli miejsca wypełnione N -kami oznaczono [prawdopodobne] geny oznaczono miejsca, w których występują SNP, CNV, INDEL 7

Po co mapować sekwencje do genomu referencyjnego? 11

Dopasowanie dwóch sekwencji Dopasowanie dwóch sekwencji można wyznaczyć za pomocą dokładnego algorytmu opartego na programowaniu dynamicznym. Punktowane jest każda operacja: za zgodność pary znaków punkty dodatnie, natomiast za niezgodność i każdą spację punkty ujemne. Dopasowanie globalne dopasowanie wzdłuż całej sekwencji Dopasowanie lokalne dopasowanie fragmentów sekwencji 12

Schemat punktacji Schemat 1: Dopasowanie (match): +1 Niedopasowanie (mismatch): -1 Przerwa (gap): -1 Schemat 2 (affine model): Dopasowanie (match): +1 Niedopasowanie (mismatch): -1 Otwarcie przerwy (gap open): G Przedłużenie przerwy (affine gap): L 13

Dopasowanie dwóch sekwencji Schemat 1: (match +1, mismatch -1, gap -1) ACCTCAGGTTA----CCTGAC-TATTGGACA ACCT----TTAAACACCTTACATATTCCACA 1 1 1 1-1-1-1-1 1 1 1-1-1-1-1 1 1 1-1 1 1-1 1 1 1 1-1-1 1 1 1 score: 7 Schemat 2: (match +3, mismatch -2, gap open -7, gap continue -3) ACCTCAGGTTA----CCTGAC-TATTGGACA ACCT----TTAAACACCTTACATATTCCACA 3 3 3 3-7-3-3-3 3 3 3-7-3-3-3 3 3 3-2 3 3-7 3 3 3 3-2-2 3 3 3 score: 12 ACCTCAGGTTACCTGAC-TATTGGACA ACCTTTAAACACCTTACATATTCCACA 3 3 3 3-2-2-2-2-2-2 3 3 3 3-2 3 3-7 3 3 3 3-2-2 3 3 3 score: 26 14

Dopasowanie globalne Metoda programowania dynamicznego opiera się na strategii najlepszej ścieżki. Wynik jest w dolnym prawym narożniku tabeli. Algorytm Needelmana-Wunscha dopasowanie: +1 lub niedopasowanie: -1 Sekwencja S 2 Sekwencja S 1 M i, j = max M 0,0 = 0 i = 0.. n, M i 1, j 1 + s(i, j) M i 1, j + g M i, j 1 + g j = 0.. m spacja w jednej z sekwencji -1 SB Needelman, CD Wunsch (1970) J Mol Biol 48 15

Dopasowanie lokalne Wyszukiwanie wspólnych fragmentów sekwencji nie ma punktów ujemnych w tabeli. Najlepszy wynik może być w dowolnym miejscu tabeli Algorytm Smitha Watermanna Sekwencja S 2 Sekwencja S 1 M i, j = max M 0,0 = 0 i = 0.. n, M i 1, j 1 + s(i, j) M i 1, j + g M i, j 1 + g 0 j = 0.. m nie ma punktów ujemnych TF Smith, MS Waterman (1981) J Mol Biol 147 16

Dopasowanie semiglobalne W dopasowaniu semiglobalnym dopuszcza się przesunięcia względem siebie sekwencji. Najlepszy wyniki znajduje się w prawej kolumnie lub w ostatnim wierszu Sekwencja S 1 M i, j = max M i 1, j 1 + s(i, j) M i 1, j + g M i, j 1 + g Sekwencja S 2 M 0,0 = M 0, j = M i, 0 = 0 i = 1.. n, j = 1.. m Początkowe przesunięcie w sekwencji nie jest karane 17

Dopasowanie globalne -przykład -1-1 A T T G T C A 0-1 -2-3 -4-5 -6-7 ±1-1 -1-1 ±1 T -1-1 -1 0-1 -2-3 -4-5 -1 ±1-1 T -2-2 0 1 0-1 -2-3 -1 ±1-1 ±1-1 ±1-1 G -3-3 -1 0 2 1 0-1 C -4-4 -2-1 1 1 2 1 C -5-5 -3-2 0 0 2 1 A -6-4 -4-3 -1-1 1 3 18

Dopasowanie globalne -przykład A T T G T C A 0-1 -2-3 -4-5 -6-7 T -1-1 0-1 -2-3 -4-5 T -2-2 0 1 0-1 -2-3 G -3-3 -1 0 2 1 0-1 C -4-4 -2-1 1 1 2 1 C -5-5 -3-2 0 0 2 1 A -6-4 -4-3 -1-1 1 3 ATTGTCA -TTGCCA -1 1 1 1-1 1 1 score: 3 19

Który algorytm dopasowania można zastosować w przypadku sprawdzenia dopasowania krótkich odczytów do długiej sekwencji genomu? genom referencyjny 20

Zadanie match: +1 mismatch: -1 gap: -1 T T A T T A C C T G G A A A A A A A C C T G G 21

Teoria a praktyka Algorytmy wyznaczenia dokładnego dopasowania przy mapowaniu odczytów do genomu referencyjnego są w praktyce nierealne, gdyż * genom referencyjny jest długi * odczytów jest za dużo Jeśli długość genomu to n, długość odczytów to k, a liczba odczytów M, to wyznaczenie dopasowania wszystkich odczytów do genomu referencyjnego ma złożoność obliczeniową O(M*n*k) M kilka miliardów odczytów n dla genomu ludzkiego to 3*10 9 k długość ok. 100pz Dlatego algorytmy mapowania wstępnie przetwarzają genom referencyjny, aby w efektywny sposób wyszukiwać miejsca mapowań odczytów. 22

BLAST, FASTA Programy służą do porównania pewnej sekwencji lub zbioru sekwencji ze wszystkimi sekwencjami w bazie danych Można je również wykorzystać do mapowania odczytów, ale są lepsze programy, specjalizowane do tego celu (bowtie, bwa, soap, ) Jak działają BLAST, FASTA: szybkie przeglądanie bazy danych wyeliminowanie tych sekwencji które są niepodobne zestawienie najlepszych dopasowań Wykrywają lokalne dopasowania 23

Macierze kropkowe dot matrix A T T G T C A T * * * * T * * * G * C * C * A * * Miejsca zgodności w tabeli zaznaczone są kropkami Dopasowanie jest tam gdzie kropki tworzą linię ciągłą na przekątnej 24

Metoda FASTA/FASTX 1. Znalezienie najlepiej dopasowanych regionów na przekątnej (dot matrix). Regiony to słowa o pewnej długości (4-6) 2. Sprawdzenie najlepszych regionów za pomocą macierzy substytucji (dla porównań sekwencji białkowych) 3. Połączenie wybranych regionów (próba połączenia z dopuszczeniem przerw) 4. Obliczenie optymalnego dopasowania za pomocą programowania dynamicznego dla wybranych regionów (Smith-Waterman, Needelman-Wunsch) 5. Obliczenie istotności punktacji dopasowania 26

Metoda BLAST Działa podobnie do metody FASTA wstępnie odfiltrowuje sekwencje niepodobne Metoda oparta jest na dokładnym dopasowaniu mniejszych fragmentów, tzw. seeds. Dopiero po ich znalezieniu próbuje w tych miejscach dopasować całą sekwencję, najpierw bezbłędnie, a jeśli nie ma takiej możliwości to z dopuszczeniem błędów. Jeśli seed jest za mały -> to będzie za dużo trafień w sekwencje Jeśli seed jest za duży -> to metoda nie będzie w stanie znaleźć dopasowań z uwzględnieniem błędów (gap, mismatch) 27

Haszowanie Metoda do szybkiego wyszukiwania danych w tablicach. Dane są zakodowane poprzez funkcję haszującą, która pozwala na dostęp do danych w tablicy w czasie porównywalnym z czasem stałym O(1) Podstawową wadą tego podejścia jest kolizyjność funkcja haszująca tworzy ten sam hasz dla wielu różnych danych Dlaczego? wynika to z rozmiaru dostępnej pamięci 29

Haszowanie cd. Załóżmy że chcemy przechowywać 5 znakowe łańcuchy. Jeśli znaki będą w kodzie ASCII, to każdy z nich będzie składał się z 8 bitów. Nasza funkcja hs() będzie łączyła bity w ciąg 40 bitowy, który określałby jednoznacznie indeks w tabeli. Nasza liczba miałaby wówczas zakres <0;2 40-1> Należy ograniczyć funkcję hs() np. poprzez sumę kodów ASCII w łańcuchu, a wynik wziąć modulo n. Np. dla n=10: s 1 = ALA hs(s 1 ) = (65+76+65) mod 10 = 6 s 2 = MA hs(s 2 ) = (77+65) mod 10 = 2 Ale dla funkcji hs() te same hasze otrzymamy dla łańcuchów KOTA, KATO, AKOT, OKAT, RAB, ARB 30

Haszowanie Porcjowanie funkcja haszująca tworzy te same wartości dla określonych grup danych, zwanych porcjami. Wówczas do jednej komórki tablicy trafia nie jeden element, lecz kilka, które następnie organizowane są w postaci listy jednokierunkowej Przy odpowiednim dobraniu funkcji haszującej, rozmiar jednej porcji (czyli długość listy) nie powinien być zbyt duży 31

Algorytmy mapowania oparte na haszowaniu Z genomu referencyjnego tworzona jest tabela wartości haszujących: hs(k-mery) -> k-mery, pozycja w genomie k-mery to ciągi znaków o długości k ciąg znaków trzeba powtórzyć ze względu na kolizje Znalezienie mapowania odczytu: podział odczytu na k-mery wyszukanie miejsca mapowania w genomie k-merów wybranie pozycji wspólnej dla wszystkich k-merów (?) sprawdzenie dopasowania całego odczytu Budowanie struktury do szybkiego przeszukiwania genomu Przetwarzanie dla każdego odczytu 32

Haszowanie przykład Odczyt: ACGTTCCAATTTGCGCTGT ACGTTCCAATTTG CGTTCCAATTTGC GTTCCAATTTGCG TTCCAATTTGCGC TCCAATTTGCGCT CCAATTTGCGCTG CAATTTGCGCTGT pozycje w tablicy haszującej: chr1:2300 chr1:2301, chr5:800, chr6:568 chr1:2302 chr1:2303, chr2:9000, chr1:2700 chr1:2304 chr1:2305, chrx:444 chr1:2306, chr11:987 Dopasowanie na pozycji: chr1:2300 33

Wybór k-merów Jeśli sprawdzane k-mery nie nakładają się na siebie, to przyspieszamy czas obliczeń ale możemy nie znaleźć dopasowania, nawet pomimo małej liczby błędów odczyt idealny: odczyt z 2 błędami ACGTTCCAATTTGCGCTG ACGTTCCAA TTTGCGCTG ACATTCCAATTTACGCTG ACATTCCAA TTTACGCTG ACGTTCCAATTTGCGCTG ACATTCCAATTTACGCTG ACGTTCCAA ACATTCCAA CGTTCCAAT CATTCCAAT GTTCCAATT ATTCCAATT TTCCAATTT TTCCAATTT TCCAATTTG TCCAATTTA...... TTTGCGCTG TTTACGCTG 34

Rozmiar k-merów (SOAP) s seed size/długość k-meru L read length/długość odczytu s*2+3 <= min(l) Dla większych k-merów algorytm będzie działał szybciej jest mniejsza liczba trafień w genomie s=1 miliony pozycji w genomie s=8 setki s=15 kilka 35

Wady i zalety + łatwe w implementacji + można w łatwy sposób wyszukiwać z dopuszczeniem niedopasowań nie zwiększa to znacząco czasu wyszukiwania + łatwe generowanie indexu - zajmują dużo miejsca, w szczególności jeśli dopuszczane są niedopasowania co zwiększa czas przeszukiwania w porównaniu do innych metod - przy nawet drobnej zmianie parametrów przeszukiwania, trzeba na nowo przeliczać całą tablicę 36

BWT, BOWTIE Metody te opierają się na transformacji Burrowsa-Wheelera Transformacja BW służy do takiej zmiany tekstu poprzez jego posortowanie, aby łatwiej można było go skompresować Tekst po transformacji można dokładnie odtworzyć Łatwiej jest znaleźć podciągi (krótkie odczyty, lub k-mery) 38

Transformacja Burrowsa-Wheelera MISSISSIPI RESEKWENCJONOWANIE MISSISSIPPI$ ISSISSIPPI$M SSISSIPPI$MI SISSIPPI$MIS ISSIPPI$MISS SSIPPI$MISSI SIPPI$MISSIS IPPI$MISSISS PPI$MISSISSI PI$MISSISSIP I$MISSISSIPP $MISSISSIPPI $MISSISSIPPI I$MISSISSIPP IPPI$MISSISS ISSIPPI$MISS ISSISSIPPI$M MISSISSIPPI$ PI$MISSISSIP PPI$MISSISSI SIPPI$MISSIS SISSIPPI$MIS SSIPPI$MISSI SSISSIPPI$MI sortowanie $MISSISSIPPI I$MISSISSIPP IPPI$MISSISS ISSIPPI$MISS ISSISSIPPI$M MISSISSIPPI$ PI$MISSISSIP PPI$MISSISSI SIPPI$MISSIS SISSIPPI$MIS SSIPPI$MISSI SSISSIPPI$MI 5 0 7 10 11 4 1 6 2 3 8 9 0 1 2 3 4 5 6 7 8 9 10 11 F L A. Świercz 39

Suffix array Suffix tree 5 0 7 10 11 4 1 6 2 3 8 9 $MISSISSIPPI I$MISSISSIPP IPPI$MISSISS ISSIPPI$MISS ISSISSIPPI$M MISSISSIPPI$ PI$MISSISSIP PPI$MISSISSI SIPPI$MISSIS SISSIPPI$MIS SSIPPI$MISSI SSISSIPPI$MI $ 5 7 10 I P S I$ PI$ I 1 6 2 3 11 8 SI 9 40

Wykorzystanie indeksu BW do mapowania Mapowanie wg. Algorytmu FM (Ferragina and Manzini, 2000) Wykorzystanie transformaty BT oraz posortowanego BT Odczyty sprawdzane są od końca Dla odczytu GAT, najpierw sprawdzane jest wystąpienie T, potem AT, a na końcu GAT 43

Wady i zalety Przy typowej implementacji drzew sufiksowych potrzeba ok. 15B/zasadę co dla genomu ludzkiego daje 45GB pamięci FM-index, oparty na BWT potrzebuje 0.5-2B/zasadę, co pozwala znacznie zaoszczędzić potrzebną pamięć + indeks zajmuje mało miejsca + dość łatwo można zaimplementować szukanie k-merów z niewielką liczbą niedopasowań - generowanie indeksu jest powolne ze względu na BWT - trudno zaprojektować przeszukiwanie z większą liczbą niedopasowań 44

Bowtie 45

Output SAM & BAM SAM plik tekstowy, w którym zapisane są wyniki mapowania - dla odczytów sparowanych drugi odczyt zapisany jest w następnej linii po pierwszym, zaznaczona jest względna pozycja względem pierwszego BAM binarna wersja pliku SAM 1:497:R:-272+13M17D24M 113 1 497 37 37M 15 100338662 0 CGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAG 0;==- ==9;>>>>>=>>>>>>>>>>>=>>>>>>>>>> XT:A:U NM:i:0 SM:i:37 AM:i:0 X0:i:1 X1:i:0 XM:i:0 XO:i:0 XG:i:0 MD:Z:37 QNAME FLAG RNAME POS MAPQ CIGAR MRNM/RNEXT MPOS/PNEXT ISIZE/TLEN SEQ QUAL TAGs nazwa Flaga, czy fragment się zmapował, do której nici, info o sparowanych Reference sequence name Pozycja dopasowania z lewej liczona od 1 (SAM) lub 0 (BAM) Ciąg wskazujący na dopasowanie, np. 3M1I3M1D5M sekwencja Jakość sekwencji 46

HWI-ST201:289:C18RMACXX:1:1101:1461:1942 89 chr3 83391574 42 97M = 83391574 0 GGTAGGTACAGAA...??ACAC@;CCCC... AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:97 YT:Z:UP HWI-ST201:289:C18RMACXX:1:1101:1461:1942 133 chr3 83391574 0 * = 83391574 0 AATATAGTTACTGC... DFHHHGHGHI... YT:Z:UP HWI-ST201:289:C18RMACXX:1:1101:1279:1942 83 chr2 119770506 42 97M = 119770292-311 GATGGGAACCC... ###@C<8&@... AS:i:-4 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:89G7 YS:i:0 YT:Z:CP HWI-ST201:289:C18RMACXX:1:1101:1279:1942 163 chr2 119770292 42 97M = 119770506 311 TCTCTCCTCCA... ###@C<8&@... AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:97 YS:i:-4 YT:Z:CP HWI-ST201:289:C18RMACXX:1:1101:1413:1943 83 chr2 4162390 42 97M = 4162234-253 TATTCATCCACTG... CCACCC>C... AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:97 YS:i:0 YT:Z:CP HWI-ST201:289:C18RMACXX:1:1101:1413:1943 163 chr2 4162234 42 97M = 4162390 253 TTATAGTTGCA... FHGGHHHIHJJJ.. AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:97 YS:i:0 YT:Z:CP 47

Haploid vs diploid 48

Mapowanie sparowanych odczytów 49

Obrazki, slajdy N. Rodriguez-Ezpelta, M. Hackenberg, AM Aransay (eds) Bioinformatics for high thorughput sequencing, Springer, 2012 Bioinformatyka dla Informatyków, J Śmietański, II UJ, 2013 Informatics on High Throughput Sequencing Data (2013) @ www.bioinformatics.ca S.SCHBATH, V. MARTIN, M.ZYTNICKI, J.FAYOLLE, V.LOUX, J.F. GIBRAT, Mapping Reads on a Genomic Sequence: An Algorithmic Overview and a Practical Comparative Analysis, JOURNAL OF COMPUTATIONAL BIOLOGY Volume 19, Number 6, 2012 51