Na czym skończyliśmy BLACK BOX. Sekwencjonowanie polega na odczytaniu sekwencji liter DNA/RNA badanego fragmentu genomu

Podobne dokumenty
Dopasowania par sekwencji DNA

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Wykład 5 Dopasowywanie lokalne

PRZYRÓWNANIE SEKWENCJI

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Wstęp do Biologii Obliczeniowej

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Przyrównywanie sekwencji

Algorytmy i. Wykład 5: Drzewa. Dr inż. Paweł Kasprowski

Różnorodność osobników gatunku

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Haszowanie (adresowanie rozpraszające, mieszające)

Tablice z haszowaniem

Tablice z haszowaniem

Analiza algorytmów zadania podstawowe

Searching for SNPs with cloud computing

Statystyczna analiza danych

Algorytmy i struktury danych

INŻYNIERIA BEZPIECZEŃSTWA LABORATORIUM NR 2 ALGORYTM XOR ŁAMANIE ALGORYTMU XOR

2 Kryptografia: algorytmy symetryczne

Dopasowanie par sekwencji

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Def. Kod jednoznacznie definiowalny Def. Kod przedrostkowy Def. Kod optymalny. Przykłady kodów. Kody optymalne

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Podstawy bioinformatyki sekwencjonowanie nowej generacji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Kompresja Kodowanie arytmetyczne. Dariusz Sobczuk

Programowanie w języku Java

Wykład 6. Wyszukiwanie wzorca w tekście

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (16, 23.X.2012)

Zadanie 1 Przygotuj algorytm programu - sortowanie przez wstawianie.

Techniki wyszukiwania danych haszowanie

Sortowanie. Bartman Jacek Algorytmy i struktury

Algorytmy i struktury danych. Wykład 6 Tablice rozproszone cz. 2

Krzysztof Leszczyński Adam Sosnowski Michał Winiarski. Projekt UCYF

Dopasowanie sekwencji (sequence alignment)

Algorytmy kombinatoryczne w bioinformatyce

Bioinformatyka. Porównywanie sekwencji

Pomorski Czarodziej 2016 Zadania. Kategoria C

ang. file) Pojęcie pliku (ang( Typy plików Atrybuty pliku Fragmentacja wewnętrzna w systemie plików Struktura pliku

Algorytmy kombinatoryczne w bioinformatyce

System plików warstwa fizyczna

System plików warstwa fizyczna

System plików warstwa fizyczna

3. Opracować program kodowania/dekodowania pliku tekstowego. Algorytm kodowania:

Algorytmy przeszukiwania wzorca

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Definicja. Ciąg wejściowy: Funkcja uporządkowująca: Sortowanie polega na: a 1, a 2,, a n-1, a n. f(a 1 ) f(a 2 ) f(a n )

Algorytmy sortujące i wyszukujące

INFORMATYKA W ZARZĄDZANIU Arkusz kalkulacyjny MS EXCEL. Ćwiczenie 5 MS EXCEL. Zmiana rodzajów odwołania podczas kolejnych naciśnięć klawisza F4

Plan wykładów. A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Algorytmy i struktury danych. wykład 8

wykład Organizacja plików Opracował: dr inż. Janusz DUDCZYK

Lista, Stos, Kolejka, Tablica Asocjacyjna

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

Architektura komputerów

Wielkości liczbowe. Wykład z Podstaw Informatyki dla I roku BO. Piotr Mika

BASH - WPROWADZENIE Bioinformatyka 4

Funkcje wyszukiwania i adresu PODAJ.POZYCJĘ

Materiał Typy zmiennych Instrukcje warunkowe Pętle Tablice statyczne Wskaźniki Tablice dynamiczne Referencje Funkcje

Pamięć. Jan Tuziemski Źródło części materiałów: os-book.com

Wielkości liczbowe. Wykład z Podstaw Informatyki. Piotr Mika

Reswkwencjonowanie vs asemblacja de novo

znalezienia elementu w zbiorze, gdy w nim jest; dołączenia nowego elementu w odpowiednie miejsce, aby zbiór pozostał nadal uporządkowany.

Wstęp do Informatyki

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

Tadeusz Pankowski

POPULARNE POLECENIA SKRYPTY. Pracownia Informatyczna 2

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15

Podstawy programowania w języku C i C++

Tabela wewnętrzna - definicja

Porównywanie i dopasowywanie sekwencji

Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład Kody liniowe - kodowanie w oparciu o macierz parzystości

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j

utworz tworzącą w pamięci dynamicznej tablicę dwuwymiarową liczb rzeczywistych, a następnie zerującą jej wszystkie elementy,

Haszowanie. dr inż. Urszula Gałązka

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Zadania do wykonania. Rozwiązując poniższe zadania użyj pętlę for.

Algorytmy i złożoności Wykład 5. Haszowanie (hashowanie, mieszanie)

- - Ocena wykonaniu zad3. Brak zad3

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Porównywanie i dopasowywanie sekwencji

Modelowanie motywów łańcuchami Markowa wyższego rzędu

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

ARCHITEKRURA KOMPUTERÓW Kodowanie liczb ze znakiem

Złożoność obliczeniowa zadania, zestaw 2

Programowanie dynamiczne

Mapowanie sekwencji na genom (Ultrafast and memory-efficient alignment of short DNA sequences to the human gemone)

Dane, informacja, programy. Kodowanie danych, kompresja stratna i bezstratna

Transkrypt:

ALEKSANDRA ŚWIERCZ

Na czym skończyliśmy BLACK BOX AAATGCCTGCCCTGAAGGCCTGCGTA GTTTTGGGAGAAGACCCACGGATA AAGGTGTAGCCCCGTAGC GGGGGGTATTATTTATTTTATACCCAC.. ACAGGAUCGUUGGAUGGTGGGA. Sekwencjonowanie polega na odczytaniu sekwencji liter DNA/RNA badanego fragmentu genomu 2

Czym jest mapowanie? Niedopasowania SNP Screen z mapowania IGV 3

4

5

Puzzle 10-5000 klocków Mapowanie miliony sekwencji 6

Co to jest genom referencyjny? zsekwencjonowany genom przedstawiciela gatunku znana jest sekwencja, ale mogą się tam znajdować dziury czyli miejsca wypełnione N -kami oznaczono [prawdopodobne] geny oznaczono miejsca, w których występują SNP, CNV, INDEL 7

8

9

10

Po co mapować sekwencje do genomu referencyjnego? 11

Dopasowanie dwóch sekwencji Dopasowanie dwóch sekwencji można wyznaczyć za pomocą dokładnego algorytmu opartego na programowaniu dynamicznym. Punktowane jest każda operacja: za zgodność pary znaków punkty dodatnie, natomiast za niezgodność i każdą spację punkty ujemne. Dopasowanie globalne dopasowanie wzdłuż całej sekwencji Dopasowanie lokalne dopasowanie fragmentów sekwencji 12

Schemat punktacji Schemat 1: Dopasowanie (match): +1 Niedopasowanie (mismatch): -1 Przerwa (gap): -1 Schemat 2 (affine model): Dopasowanie (match): +1 Niedopasowanie (mismatch): -1 Otwarcie przerwy (gap open): G Przedłużenie przerwy (affine gap): L 13

Dopasowanie dwóch sekwencji Schemat 1: (match +1, mismatch -1, gap -1) ACCTCAGGTTA----CCTGAC-TATTGGACA ACCT----TTAAACACCTTACATATTCCACA 1 1 1 1-1-1-1-1 1 1 1-1-1-1-1 1 1 1-1 1 1-1 1 1 1 1-1-1 1 1 1 score: 7 Schemat 2: (match +3, mismatch -2, gap open -7, gap continue -3) ACCTCAGGTTA----CCTGAC-TATTGGACA ACCT----TTAAACACCTTACATATTCCACA 3 3 3 3-7-3-3-3 3 3 3-7-3-3-3 3 3 3-2 3 3-7 3 3 3 3-2-2 3 3 3 score: 12 ACCTCAGGTTACCTGAC-TATTGGACA ACCTTTAAACACCTTACATATTCCACA 3 3 3 3-2-2-2-2-2-2 3 3 3 3-2 3 3-7 3 3 3 3-2-2 3 3 3 score: 26 14

Dopasowanie globalne Metoda programowania dynamicznego opiera się na strategii najlepszej ścieżki. Wynik jest w dolnym prawym narożniku tabeli. Algorytm Needelmana-Wunscha dopasowanie: +1 lub niedopasowanie: -1 Sekwencja S 2 Sekwencja S 1 M i, j = max M 0,0 = 0 i = 0.. n, M i 1, j 1 + s(i, j) M i 1, j + g M i, j 1 + g j = 0.. m spacja w jednej z sekwencji -1 SB Needelman, CD Wunsch (1970) J Mol Biol 48 15

Dopasowanie lokalne Wyszukiwanie wspólnych fragmentów sekwencji nie ma punktów ujemnych w tabeli. Najlepszy wynik może być w dowolnym miejscu tabeli Algorytm Smitha Watermanna Sekwencja S 2 Sekwencja S 1 M i, j = max M 0,0 = 0 i = 0.. n, M i 1, j 1 + s(i, j) M i 1, j + g M i, j 1 + g 0 j = 0.. m nie ma punktów ujemnych TF Smith, MS Waterman (1981) J Mol Biol 147 16

Dopasowanie semiglobalne W dopasowaniu semiglobalnym dopuszcza się przesunięcia względem siebie sekwencji. Najlepszy wyniki znajduje się w prawej kolumnie lub w ostatnim wierszu Sekwencja S 1 M i, j = max M i 1, j 1 + s(i, j) M i 1, j + g M i, j 1 + g Sekwencja S 2 M 0,0 = M 0, j = M i, 0 = 0 i = 1.. n, j = 1.. m Początkowe przesunięcie w sekwencji nie jest karane 17

Dopasowanie globalne -przykład -1-1 A T T G T C A 0-1 -2-3 -4-5 -6-7 ±1-1 -1-1 ±1 T -1-1 -1 0-1 -2-3 -4-5 -1 ±1-1 T -2-2 0 1 0-1 -2-3 -1 ±1-1 ±1-1 ±1-1 G -3-3 -1 0 2 1 0-1 C -4-4 -2-1 1 1 2 1 C -5-5 -3-2 0 0 2 1 A -6-4 -4-3 -1-1 1 3 18

Dopasowanie globalne -przykład A T T G T C A 0-1 -2-3 -4-5 -6-7 T -1-1 0-1 -2-3 -4-5 T -2-2 0 1 0-1 -2-3 G -3-3 -1 0 2 1 0-1 C -4-4 -2-1 1 1 2 1 C -5-5 -3-2 0 0 2 1 A -6-4 -4-3 -1-1 1 3 ATTGTCA -TTGCCA -1 1 1 1-1 1 1 score: 3 19

Który algorytm dopasowania można zastosować w przypadku sprawdzenia dopasowania krótkich odczytów do długiej sekwencji genomu? genom referencyjny 20

Zadanie match: +1 mismatch: -1 gap: -1 T T A T T A C C T G G A A A A A A A C C T G G 21

Teoria a praktyka Algorytmy wyznaczenia dokładnego dopasowania przy mapowaniu odczytów do genomu referencyjnego są w praktyce nierealne, gdyż * genom referencyjny jest długi * odczytów jest za dużo Jeśli długość genomu to n, długość odczytów to k, a liczba odczytów M, to wyznaczenie dopasowania wszystkich odczytów do genomu referencyjnego ma złożoność obliczeniową O(M*n*k) M kilka miliardów odczytów n dla genomu ludzkiego to 3*10 9 k długość ok. 100pz Dlatego algorytmy mapowania wstępnie przetwarzają genom referencyjny, aby w efektywny sposób wyszukiwać miejsca mapowań odczytów. 22

BLAST, FASTA Programy służą do porównania pewnej sekwencji lub zbioru sekwencji ze wszystkimi sekwencjami w bazie danych Można je również wykorzystać do mapowania odczytów, ale są lepsze programy, specjalizowane do tego celu (bowtie, bwa, soap, ) Jak działają BLAST, FASTA: szybkie przeglądanie bazy danych wyeliminowanie tych sekwencji które są niepodobne zestawienie najlepszych dopasowań Wykrywają lokalne dopasowania 23

Macierze kropkowe dot matrix A T T G T C A T * * * * T * * * G * C * C * A * * Miejsca zgodności w tabeli zaznaczone są kropkami Dopasowanie jest tam gdzie kropki tworzą linię ciągłą na przekątnej 24

25

Metoda FASTA/FASTX 1. Znalezienie najlepiej dopasowanych regionów na przekątnej (dot matrix). Regiony to słowa o pewnej długości (4-6) 2. Sprawdzenie najlepszych regionów za pomocą macierzy substytucji (dla porównań sekwencji białkowych) 3. Połączenie wybranych regionów (próba połączenia z dopuszczeniem przerw) 4. Obliczenie optymalnego dopasowania za pomocą programowania dynamicznego dla wybranych regionów (Smith-Waterman, Needelman-Wunsch) 5. Obliczenie istotności punktacji dopasowania 26

Metoda BLAST Działa podobnie do metody FASTA wstępnie odfiltrowuje sekwencje niepodobne Metoda oparta jest na dokładnym dopasowaniu mniejszych fragmentów, tzw. seeds. Dopiero po ich znalezieniu próbuje w tych miejscach dopasować całą sekwencję, najpierw bezbłędnie, a jeśli nie ma takiej możliwości to z dopuszczeniem błędów. Jeśli seed jest za mały -> to będzie za dużo trafień w sekwencje Jeśli seed jest za duży -> to metoda nie będzie w stanie znaleźć dopasowań z uwzględnieniem błędów (gap, mismatch) 27

Haszowanie Metoda do szybkiego wyszukiwania danych w tablicach. Dane są zakodowane poprzez funkcję haszującą, która pozwala na dostęp do danych w tablicy w czasie porównywalnym z czasem stałym O(1) Podstawową wadą tego podejścia jest kolizyjność funkcja haszująca tworzy ten sam hasz dla wielu różnych danych Dlaczego? wynika to z rozmiaru dostępnej pamięci 29

Haszowanie cd. Załóżmy że chcemy przechowywać 5 znakowe łańcuchy. Jeśli znaki będą w kodzie ASCII, to każdy z nich będzie składał się z 8 bitów. Nasza funkcja hs() będzie łączyła bity w ciąg 40 bitowy, który określałby jednoznacznie indeks w tabeli. Nasza liczba miałaby wówczas zakres <0;2 40-1> Należy ograniczyć funkcję hs() np. poprzez sumę kodów ASCII w łańcuchu, a wynik wziąć modulo n. Np. dla n=10: s 1 = ALA hs(s 1 ) = (65+76+65) mod 10 = 6 s 2 = MA hs(s 2 ) = (77+65) mod 10 = 2 Ale dla funkcji hs() te same hasze otrzymamy dla łańcuchów KOTA, KATO, AKOT, OKAT, RAB, ARB 30

Haszowanie Porcjowanie funkcja haszująca tworzy te same wartości dla określonych grup danych, zwanych porcjami. Wówczas do jednej komórki tablicy trafia nie jeden element, lecz kilka, które następnie organizowane są w postaci listy jednokierunkowej Przy odpowiednim dobraniu funkcji haszującej, rozmiar jednej porcji (czyli długość listy) nie powinien być zbyt duży 31

Algorytmy mapowania oparte na haszowaniu Z genomu referencyjnego tworzona jest tabela wartości haszujących: hs(k-mery) -> k-mery, pozycja w genomie k-mery to ciągi znaków o długości k ciąg znaków trzeba powtórzyć ze względu na kolizje Znalezienie mapowania odczytu: podział odczytu na k-mery wyszukanie miejsca mapowania w genomie k-merów wybranie pozycji wspólnej dla wszystkich k-merów (?) sprawdzenie dopasowania całego odczytu Budowanie struktury do szybkiego przeszukiwania genomu Przetwarzanie dla każdego odczytu 32

Haszowanie przykład Odczyt: ACGTTCCAATTTGCGCTGT ACGTTCCAATTTG CGTTCCAATTTGC GTTCCAATTTGCG TTCCAATTTGCGC TCCAATTTGCGCT CCAATTTGCGCTG CAATTTGCGCTGT pozycje w tablicy haszującej: chr1:2300 chr1:2301, chr5:800, chr6:568 chr1:2302 chr1:2303, chr2:9000, chr1:2700 chr1:2304 chr1:2305, chrx:444 chr1:2306, chr11:987 Dopasowanie na pozycji: chr1:2300 33

Wybór k-merów Jeśli sprawdzane k-mery nie nakładają się na siebie, to przyspieszamy czas obliczeń ale możemy nie znaleźć dopasowania, nawet pomimo małej liczby błędów odczyt idealny: odczyt z 2 błędami ACGTTCCAATTTGCGCTG ACGTTCCAA TTTGCGCTG ACATTCCAATTTACGCTG ACATTCCAA TTTACGCTG ACGTTCCAATTTGCGCTG ACATTCCAATTTACGCTG ACGTTCCAA ACATTCCAA CGTTCCAAT CATTCCAAT GTTCCAATT ATTCCAATT TTCCAATTT TTCCAATTT TCCAATTTG TCCAATTTA...... TTTGCGCTG TTTACGCTG 34

Rozmiar k-merów (SOAP) s seed size/długość k-meru L read length/długość odczytu s*2+3 <= min(l) Dla większych k-merów algorytm będzie działał szybciej jest mniejsza liczba trafień w genomie s=1 miliony pozycji w genomie s=8 setki s=15 kilka 35

Wady i zalety + łatwe w implementacji + można w łatwy sposób wyszukiwać z dopuszczeniem niedopasowań nie zwiększa to znacząco czasu wyszukiwania + łatwe generowanie indexu - zajmują dużo miejsca, w szczególności jeśli dopuszczane są niedopasowania co zwiększa czas przeszukiwania w porównaniu do innych metod - przy nawet drobnej zmianie parametrów przeszukiwania, trzeba na nowo przeliczać całą tablicę 36

BWT, BOWTIE Metody te opierają się na transformacji Burrowsa-Wheelera Transformacja BW służy do takiej zmiany tekstu poprzez jego posortowanie, aby łatwiej można było go skompresować Tekst po transformacji można dokładnie odtworzyć Łatwiej jest znaleźć podciągi (krótkie odczyty, lub k-mery) 38

Transformacja Burrowsa-Wheelera MISSISSIPI RESEKWENCJONOWANIE MISSISSIPPI$ ISSISSIPPI$M SSISSIPPI$MI SISSIPPI$MIS ISSIPPI$MISS SSIPPI$MISSI SIPPI$MISSIS IPPI$MISSISS PPI$MISSISSI PI$MISSISSIP I$MISSISSIPP $MISSISSIPPI $MISSISSIPPI I$MISSISSIPP IPPI$MISSISS ISSIPPI$MISS ISSISSIPPI$M MISSISSIPPI$ PI$MISSISSIP PPI$MISSISSI SIPPI$MISSIS SISSIPPI$MIS SSIPPI$MISSI SSISSIPPI$MI sortowanie $MISSISSIPPI I$MISSISSIPP IPPI$MISSISS ISSIPPI$MISS ISSISSIPPI$M MISSISSIPPI$ PI$MISSISSIP PPI$MISSISSI SIPPI$MISSIS SISSIPPI$MIS SSIPPI$MISSI SSISSIPPI$MI 5 0 7 10 11 4 1 6 2 3 8 9 0 1 2 3 4 5 6 7 8 9 10 11 F L A. Świercz 39

Suffix array Suffix tree 5 0 7 10 11 4 1 6 2 3 8 9 $MISSISSIPPI I$MISSISSIPP IPPI$MISSISS ISSIPPI$MISS ISSISSIPPI$M MISSISSIPPI$ PI$MISSISSIP PPI$MISSISSI SIPPI$MISSIS SISSIPPI$MIS SSIPPI$MISSI SSISSIPPI$MI $ 5 7 10 I P S I$ PI$ I 1 6 2 3 11 8 SI 9 40

41

42

Wykorzystanie indeksu BW do mapowania Mapowanie wg. Algorytmu FM (Ferragina and Manzini, 2000) Wykorzystanie transformaty BT oraz posortowanego BT Odczyty sprawdzane są od końca Dla odczytu GAT, najpierw sprawdzane jest wystąpienie T, potem AT, a na końcu GAT 43

Wady i zalety Przy typowej implementacji drzew sufiksowych potrzeba ok. 15B/zasadę co dla genomu ludzkiego daje 45GB pamięci FM-index, oparty na BWT potrzebuje 0.5-2B/zasadę, co pozwala znacznie zaoszczędzić potrzebną pamięć + indeks zajmuje mało miejsca + dość łatwo można zaimplementować szukanie k-merów z niewielką liczbą niedopasowań - generowanie indeksu jest powolne ze względu na BWT - trudno zaprojektować przeszukiwanie z większą liczbą niedopasowań 44

Bowtie 45

Output SAM & BAM SAM plik tekstowy, w którym zapisane są wyniki mapowania - dla odczytów sparowanych drugi odczyt zapisany jest w następnej linii po pierwszym, zaznaczona jest względna pozycja względem pierwszego BAM binarna wersja pliku SAM 1:497:R:-272+13M17D24M 113 1 497 37 37M 15 100338662 0 CGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAG 0;==- ==9;>>>>>=>>>>>>>>>>>=>>>>>>>>>> XT:A:U NM:i:0 SM:i:37 AM:i:0 X0:i:1 X1:i:0 XM:i:0 XO:i:0 XG:i:0 MD:Z:37 QNAME FLAG RNAME POS MAPQ CIGAR MRNM/RNEXT MPOS/PNEXT ISIZE/TLEN SEQ QUAL TAGs nazwa Flaga, czy fragment się zmapował, do której nici, info o sparowanych Reference sequence name Pozycja dopasowania z lewej liczona od 1 (SAM) lub 0 (BAM) Ciąg wskazujący na dopasowanie, np. 3M1I3M1D5M sekwencja Jakość sekwencji 46

HWI-ST201:289:C18RMACXX:1:1101:1461:1942 89 chr3 83391574 42 97M = 83391574 0 GGTAGGTACAGAA...??ACAC@;CCCC... AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:97 YT:Z:UP HWI-ST201:289:C18RMACXX:1:1101:1461:1942 133 chr3 83391574 0 * = 83391574 0 AATATAGTTACTGC... DFHHHGHGHI... YT:Z:UP HWI-ST201:289:C18RMACXX:1:1101:1279:1942 83 chr2 119770506 42 97M = 119770292-311 GATGGGAACCC... ###@C<8&@... AS:i:-4 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:89G7 YS:i:0 YT:Z:CP HWI-ST201:289:C18RMACXX:1:1101:1279:1942 163 chr2 119770292 42 97M = 119770506 311 TCTCTCCTCCA... ###@C<8&@... AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:97 YS:i:-4 YT:Z:CP HWI-ST201:289:C18RMACXX:1:1101:1413:1943 83 chr2 4162390 42 97M = 4162234-253 TATTCATCCACTG... CCACCC>C... AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:97 YS:i:0 YT:Z:CP HWI-ST201:289:C18RMACXX:1:1101:1413:1943 163 chr2 4162234 42 97M = 4162390 253 TTATAGTTGCA... FHGGHHHIHJJJ.. AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:97 YS:i:0 YT:Z:CP 47

Haploid vs diploid 48

Mapowanie sparowanych odczytów 49

Obrazki, slajdy N. Rodriguez-Ezpelta, M. Hackenberg, AM Aransay (eds) Bioinformatics for high thorughput sequencing, Springer, 2012 Bioinformatyka dla Informatyków, J Śmietański, II UJ, 2013 Informatics on High Throughput Sequencing Data (2013) @ www.bioinformatics.ca S.SCHBATH, V. MARTIN, M.ZYTNICKI, J.FAYOLLE, V.LOUX, J.F. GIBRAT, Mapping Reads on a Genomic Sequence: An Algorithmic Overview and a Practical Comparative Analysis, JOURNAL OF COMPUTATIONAL BIOLOGY Volume 19, Number 6, 2012 51