Podstawy bioinformatyki sekwencjonowanie nowej generacji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu
Rozwój technologii i przyrost danych Wzrost olbrzymiej ilości i objętości surowych danych potrzeba gromadzenia danych potrzeba stworzenia skomplikowanych procedur komputerowych do zarządzania danymi 1 osobnik Dane NGS w Katedrze Genetyki: 200 buhajów 32 krowy Magda Mielczarek NGS 2
DANE NGS The second-generation machines are characterized by highly parallel operation, higher yield, simpler operation, much lower cost per read, and (unfortunately) shorter reads. Today s machines are commonly referred to as short-read sequencers or next-generation sequencers (NGS) though their successors may be on the horizon (Miller 2010). Sekwenatory pierwszej generacji : 500 1000 bp Sekwenatory drugiej generacji: 454 Roche 400 700 bp Illumina 100 bp (35 150 bp ) SOLiD 100 bp Krótsze odczyty: mniej informacji ich składanie wymaga większego pokrycia genomu Magda Mielczarek NGS 3
Pokrycie genomu wysokie pokrycie niskie pokrycie Krótkie Sekwencje Genom referencyjny Magda Mielczarek NGS 4
Baza danych NCBI - Sequence Read Archive http://www.ncbi.nlm.nih.gov/sra Magda Mielczarek NGS 5
Dane - format fastq SRR988073_1.fastq SRR988073_2.fastq Magda Mielczarek NGS 6
Dane - format fastq 1. Nazwa sekwencji 2. Sekwencja 3. Separator 4. Jakość sekwencji (uwaga na kodowanie!) 1 odczyt (read) Magda Mielczarek NGS 7
Kodowanie jakości http://en.wikipedia.org/wiki/fastq_format Magda Mielczarek NGS 8
SRR988073_1.fastq Dane pary odczytów (paired-end) SRR988073_2.fastq Magda Mielczarek NGS 9
Dane pary odczytów (paired-end) Single end Read 1 Read 1 Read 1 Reference Paired end Read 1 Read 2 Read 1 Reference Read 2 Magda Mielczarek NGS 10
Dane pary odczytów (paired-end) Single end Read 1 Read 1 Read 1 Reference Paired end Read 1 Read 2 Read 1 Reference Read 2 Magda Mielczarek NGS 11
FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Kontrola jakości danych Graficzne przedstawienie sekwencji Tworzenie raportu Brak możliwości filtracji danych Magda Mielczarek NGS 12
Basic statistics Magda Mielczarek NGS 13
Per base sequence quality Jakość dla każdej pozycji Mediana Wykres pudełkowy Max/min Średnia Length 35bp to 150bp, typically 100bp today Attributes High quality at 5' start, lowers toward 3' end Ostrzeżenie niższy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25 Awaria niższy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20 Magda Mielczarek NGS 14
Per sequence quality scores Średnia jakość sekwencji Ostrzeżenie najczęściej obserwowane średnia jakość <27 Awaria najczęściej obserwowane średnia jakość< 20 Magda Mielczarek NGS 15
Per base N content Ostrzeżenie dowolna pozycja pokazuje zawartość N> 5%. Awaria dowolna pozycja pokazuje zawartość N> 20%. Magda Mielczarek NGS 16
Sequence Length Distribution Ostrzeżenie sekwencje nie są tej samej długości Awaria którakolwiek sekwencja ma długość 0 Magda Mielczarek NGS 17
EDYCJA DANYCH Magda Mielczarek NGS 18
Torsten Seemann - Cleaning Illumina reads Magda Mielczarek NGS 19
http://prinseq.sourceforge.net/index.html PRINSEQ Magda Mielczarek NGS 20
PRINSEQ Jakoś satysfakcjonująca - 20 Dopuszczalna długość sekwencji - 60 pz Magda Mielczarek NGS 21
PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO Magda Mielczarek NGS 22
Przyrównanie do sekwencji referencyjnej złożenie krótkich fragmentów read ACTGGGGGGGA GGGAAAAATTTC GGGAACCTTTCT CCTTTCTTTGGA ACTGGGGGGGAAAAATTTCAAAGGGAACCTTTCTTTGGAGGGTT reference Magda Mielczarek NGS 23
Genom referencyjny - NCBI Magda Mielczarek NGS 24
Genom referencyjny - format fasta A Adenozyna C Cytozyna G Guanina T Tymina U Uracyl R G A (puryna) Y T C (pirymidyna) S G C (Strong) W A T (Weak) B G T C (not A) D G A T (not C) H A C T (not G) V G C A (not T) N A G C T (any) Magda Mielczarek NGS 25
Przyrównanie do genomu referencyjnego - software Bfast BioScope Bowtie BWA CLC bio CloudBurst Eland/Eland2 GenomeMapper GnuMap Karma MAQ MOM Mosaik MrFAST/MrsFAST NovoAlign PASS PerM RazerS RMAP SSAHA2 Segemehl SeqMap SHRiMP Slider/SliderII SOAP/SOAP2 Stampy ZOOM i wiele wiele innych Magda Mielczarek NGS 26
Przyrównanie do genomu referencyjnego - algorytmy Oprogramowanie = formatowanie genomu referencyjnego + przyrównanie do genomu referencyjnego 1. Hash table: Hash table on the set of input reads Hash table on the reference genome 2. Transformata Burrowsa-Wheelera (BWT) Magda Mielczarek NGS 27
BWA Magda Mielczarek NGS 28
Przykłady programów Name OS Input Output Supported platforms Indexing method Gapped alignment BarraCUDA Lin FASTQ SAM Illumina FM index (BWT) yes BFAST Lin FASTQ SAM Illumina, ABI SOLiD, 454 Multiple (hash, tree, ) Bowtie Lin, Mac, Win FASTQ, FASTA SAM Illumina, ABI SOLiD FM index (BWT) no Bowtie2 Lin, Mac, Win FASTQ, FASTA, QSEQ BWA Lin (CS)FASTQ, FASTA SAM Illumina, ABI SOLiD(1) SAM Illumina, 454 FM index (BWT) yes FM index (BWT) BWA-SW Lin FASTQ, FASTA SAM 454 FM index (BWT) yes ELAND Lin FASTQ, FASTA SAM Illumina - no MAQ Lin FASTQ, FASTA Maq Illumina Hash based yes yes yes Mosaik Lin, Mac, Win FASTQ, FASTA SAM, BED, several others Illumina, ABI SOLiD, 454 - yes mrfast Lin FASTQ, FASTA SAM, DIVET Illumina Hash based yes mrsfast Lin FASTQ, FASTA SAM, DIVET Illumina Hash based no Novoalign Lin, Mac FASTQ, (CS)FASTA SAM, TXT Illumina, ABI SOLiD - yes SOAP2 Lin FASTQ, FASTA SOAP (2) Illumina FM index (BWT) yes SOAP3 Lin FASTQ, FASTA SAM Illumina FM index (BWT) no SSAHA2 Lin, Mac FASTA SAM, GFF Illumina, ABI SOLiD, 454 Tree index Stampy Lin, Mac FASTQ, FASTA SAM Illumina, 454 FM index (BWT) - YOABS Lin - - Illumina FM & Tree index yes Tabela2. Programy służące do przyrównania do genomu referencyjnego (Pabinger et.al. 2013) Magda Mielczarek NGS 29 yes
Format SAM Sequence Alignment/Map Format: popularny, uniwersalny zawiera informacje na temat przyrównania header section alignment section Magda Mielczarek NGS 30
Format BAM Binary Alignment/Map Format: binarny odpowiednik formatu SAM skompresowany przez BGZF zajmuje mniej pamięci dysku (stanowi ok. 27% oryginalnego pliku w formacie SAM) Magda Mielczarek NGS 31
POSZUKIWANIE POLIMORFIZMÓW DNA Magda Mielczarek NGS 32
Poszukiwanie polimorfizmów SNP Polimorfizm pojedynczego nukleotydu ACTGACTGACTGCCCGTTCCA ACTGACTCACTGCCCGTTCCG INDEL: insercja delecja ACTGACTGACTGCCCGTTCCA ACTGACTGACTGGCTCCCGTTCCA ACTGACTGACTGCCCGTTCC ACTGA - - - - CTGCCCGTTCC Magda Mielczarek NGS 33
Poszukiwanie polimorfizmów pakiet Samtools http://samtools.sourceforge.net/ http://samtools.sourceforge.net/mpileup.shtml Magda Mielczarek NGS 34
SNP Venn diagrams showing the number of identified variants for tested tools (Pabinger et al. 2013) Magda Mielczarek NGS 35
IGV http://www.broadinstitute.org/igv/ Magda Mielczarek NGS 36
IGV Magda Mielczarek NGS 37
Automatyzacja pracy Automatyzacja działania programów pozwala na: skrócenie czasu analiz równoległe działanie programów oszczędność czasu - uniwersalność skryptów, wykorzystanie dla różnych danych unikanie błędów pracę z ogromnymi zbiorami danych Magda Mielczarek NGS 38