Podstawy bioinformatyki sekwencjonowanie nowej generacji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Podobne dokumenty
Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

Podstawy bioinformatyki - biologiczne bazy danych

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

POPULARNE POLECENIA SKRYPTY. Pracownia Informatyczna 2

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

PODSTAWY BIOINFORMATYKI ORGANIZACJA ZAJĘĆ BIOINFORMATYKA PRZETWARZANIE I ANALIZA DANYCH

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

BASH - WPROWADZENIE Bioinformatyka 4

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

PODSTAWY BIOINFORMATYKI 3 SEKWENCJONOWANIE GENOMÓW I

PODSTAWY BIOINFORMATYKI WYKŁAD 2 SEKWENCJONOWANIE GENOMÓW

Na czym skończyliśmy BLACK BOX. Sekwencjonowanie polega na odczytaniu sekwencji liter DNA/RNA badanego fragmentu genomu

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

Sekwencjonowanie, przewidywanie genów

Przeglądarki genomowe

Różnorodność osobników gatunku

1. System analizy danych NGS z paneli genów

PRACOWNIA INFORMATYCZNA CHARAKTERYSTYKA PRZEDMIOTU BASH - PODSTAWOWE INFORMACJE

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Wprowadzenie do Pakietu R dla kierunku Zootechnika. Dr Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

ADNOTACJE WARIANTÓW GENETYCZNYCH

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Analizy wielkoskalowe w badaniach chromatyny

PODSTAWY BIOINFORMATYKI

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ MAGDALENA FRĄSZCZAK

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PRZYRÓWNANIE SEKWENCJI

STATYSTYKA MATEMATYCZNA WYKŁAD 1

PODSTAWY BIOINFORMATYKI 2 SEKWENCJONOWANIE GENOMÓW

Porównywanie i dopasowywanie sekwencji

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

Searching for SNPs with cloud computing

Mapowanie sekwencji na genom (Ultrafast and memory-efficient alignment of short DNA sequences to the human gemone)

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

Instalacja Pakietu R

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

Ekologia molekularna. wykład 11

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

DHPLC. Denaturing high performance liquid chromatography. Wiktoria Stańczyk Zofia Kołeczko

Bioinformatyczna analiza danych. Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

Database resources of the National Center for Biotechnology Information. Magdalena Malczyk

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

Automatyczne generowanie testów z modeli. Bogdan Bereza Automatyczne generowanie testów z modeli

Skrypt Bioinformatyka DRAFT Strona 67

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

PAKIETY STATYSTYCZNE 5. SAS wprowadzenie - środowisko Windows

Wstęp do Biologii Obliczeniowej

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

GENOMIKA. MAPOWANIE GENOMÓW MAPY GENOMICZNE

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Metody badania polimorfizmu/mutacji DNA. Aleksandra Sałagacka Pracownia Diagnostyki Molekularnej i Farmakogenomiki Uniwersytet Medyczny w Łodzi

PAKIETY STATYSTYCZNE JOANNA SZYDA TOMASZ SUCHOCKI

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

PAKIETY STATYSTYCZNE

I. 1) NAZWA I ADRES: Uniwersytet Przyrodniczy we Wrocławiu, ul. C.K. Norwida 25/27, Wrocław, woj.

Bioinformatyka: Wykład 5. Bioconductor

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Dopasowanie sekwencji (sequence alignment)

Wykład 5 Dopasowywanie lokalne

Bazy danych i R/Bioconductor

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Postępy w realizacji polskiego programu selekcji genomowej buhajów MASinBULL Joanna Szyda

Traceability. matrix

Porównywanie i dopasowywanie sekwencji

Zarządzanie sieciami komputerowymi - wprowadzenie

System operacyjny Linux wybrane zagadnienia. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Metody odczytu kolejności nukleotydów - sekwencjonowania DNA

ZALETY NOWSZYCH WERSJI I KIERUNKI ROZWOJU SPDS-A SŁAWOMIR BOKINIEC

Bioinformatyka. Program UGENE

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

Analiza genomu człowieka przy wykorzystaniu NGS w kontekście diagnostyki medycznej

Samouczek: Konstruujemy drzewo

Gromadzenie danych. Przybliżony czas ćwiczenia. Wstęp. Przegląd ćwiczenia. Poniższe ćwiczenie ukończysz w czasie 15 minut.

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

Budowa kwasów nukleinowych

Oracle PL/SQL. Paweł Rajba.

Oprogramowanie dla GWAS

Tomasz Suchocki Kacper Żukowski, Magda Mielczarek, Joanna Szyda

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

OfficeObjects e-forms

Transkrypt:

Podstawy bioinformatyki sekwencjonowanie nowej generacji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Rozwój technologii i przyrost danych Wzrost olbrzymiej ilości i objętości surowych danych potrzeba gromadzenia danych potrzeba stworzenia skomplikowanych procedur komputerowych do zarządzania danymi 1 osobnik Dane NGS w Katedrze Genetyki: 200 buhajów 32 krowy Magda Mielczarek NGS 2

DANE NGS The second-generation machines are characterized by highly parallel operation, higher yield, simpler operation, much lower cost per read, and (unfortunately) shorter reads. Today s machines are commonly referred to as short-read sequencers or next-generation sequencers (NGS) though their successors may be on the horizon (Miller 2010). Sekwenatory pierwszej generacji : 500 1000 bp Sekwenatory drugiej generacji: 454 Roche 400 700 bp Illumina 100 bp (35 150 bp ) SOLiD 100 bp Krótsze odczyty: mniej informacji ich składanie wymaga większego pokrycia genomu Magda Mielczarek NGS 3

Pokrycie genomu wysokie pokrycie niskie pokrycie Krótkie Sekwencje Genom referencyjny Magda Mielczarek NGS 4

Baza danych NCBI - Sequence Read Archive http://www.ncbi.nlm.nih.gov/sra Magda Mielczarek NGS 5

Dane - format fastq SRR988073_1.fastq SRR988073_2.fastq Magda Mielczarek NGS 6

Dane - format fastq 1. Nazwa sekwencji 2. Sekwencja 3. Separator 4. Jakość sekwencji (uwaga na kodowanie!) 1 odczyt (read) Magda Mielczarek NGS 7

Kodowanie jakości http://en.wikipedia.org/wiki/fastq_format Magda Mielczarek NGS 8

SRR988073_1.fastq Dane pary odczytów (paired-end) SRR988073_2.fastq Magda Mielczarek NGS 9

Dane pary odczytów (paired-end) Single end Read 1 Read 1 Read 1 Reference Paired end Read 1 Read 2 Read 1 Reference Read 2 Magda Mielczarek NGS 10

Dane pary odczytów (paired-end) Single end Read 1 Read 1 Read 1 Reference Paired end Read 1 Read 2 Read 1 Reference Read 2 Magda Mielczarek NGS 11

FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Kontrola jakości danych Graficzne przedstawienie sekwencji Tworzenie raportu Brak możliwości filtracji danych Magda Mielczarek NGS 12

Basic statistics Magda Mielczarek NGS 13

Per base sequence quality Jakość dla każdej pozycji Mediana Wykres pudełkowy Max/min Średnia Length 35bp to 150bp, typically 100bp today Attributes High quality at 5' start, lowers toward 3' end Ostrzeżenie niższy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25 Awaria niższy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20 Magda Mielczarek NGS 14

Per sequence quality scores Średnia jakość sekwencji Ostrzeżenie najczęściej obserwowane średnia jakość <27 Awaria najczęściej obserwowane średnia jakość< 20 Magda Mielczarek NGS 15

Per base N content Ostrzeżenie dowolna pozycja pokazuje zawartość N> 5%. Awaria dowolna pozycja pokazuje zawartość N> 20%. Magda Mielczarek NGS 16

Sequence Length Distribution Ostrzeżenie sekwencje nie są tej samej długości Awaria którakolwiek sekwencja ma długość 0 Magda Mielczarek NGS 17

EDYCJA DANYCH Magda Mielczarek NGS 18

Torsten Seemann - Cleaning Illumina reads Magda Mielczarek NGS 19

http://prinseq.sourceforge.net/index.html PRINSEQ Magda Mielczarek NGS 20

PRINSEQ Jakoś satysfakcjonująca - 20 Dopuszczalna długość sekwencji - 60 pz Magda Mielczarek NGS 21

PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO Magda Mielczarek NGS 22

Przyrównanie do sekwencji referencyjnej złożenie krótkich fragmentów read ACTGGGGGGGA GGGAAAAATTTC GGGAACCTTTCT CCTTTCTTTGGA ACTGGGGGGGAAAAATTTCAAAGGGAACCTTTCTTTGGAGGGTT reference Magda Mielczarek NGS 23

Genom referencyjny - NCBI Magda Mielczarek NGS 24

Genom referencyjny - format fasta A Adenozyna C Cytozyna G Guanina T Tymina U Uracyl R G A (puryna) Y T C (pirymidyna) S G C (Strong) W A T (Weak) B G T C (not A) D G A T (not C) H A C T (not G) V G C A (not T) N A G C T (any) Magda Mielczarek NGS 25

Przyrównanie do genomu referencyjnego - software Bfast BioScope Bowtie BWA CLC bio CloudBurst Eland/Eland2 GenomeMapper GnuMap Karma MAQ MOM Mosaik MrFAST/MrsFAST NovoAlign PASS PerM RazerS RMAP SSAHA2 Segemehl SeqMap SHRiMP Slider/SliderII SOAP/SOAP2 Stampy ZOOM i wiele wiele innych Magda Mielczarek NGS 26

Przyrównanie do genomu referencyjnego - algorytmy Oprogramowanie = formatowanie genomu referencyjnego + przyrównanie do genomu referencyjnego 1. Hash table: Hash table on the set of input reads Hash table on the reference genome 2. Transformata Burrowsa-Wheelera (BWT) Magda Mielczarek NGS 27

BWA Magda Mielczarek NGS 28

Przykłady programów Name OS Input Output Supported platforms Indexing method Gapped alignment BarraCUDA Lin FASTQ SAM Illumina FM index (BWT) yes BFAST Lin FASTQ SAM Illumina, ABI SOLiD, 454 Multiple (hash, tree, ) Bowtie Lin, Mac, Win FASTQ, FASTA SAM Illumina, ABI SOLiD FM index (BWT) no Bowtie2 Lin, Mac, Win FASTQ, FASTA, QSEQ BWA Lin (CS)FASTQ, FASTA SAM Illumina, ABI SOLiD(1) SAM Illumina, 454 FM index (BWT) yes FM index (BWT) BWA-SW Lin FASTQ, FASTA SAM 454 FM index (BWT) yes ELAND Lin FASTQ, FASTA SAM Illumina - no MAQ Lin FASTQ, FASTA Maq Illumina Hash based yes yes yes Mosaik Lin, Mac, Win FASTQ, FASTA SAM, BED, several others Illumina, ABI SOLiD, 454 - yes mrfast Lin FASTQ, FASTA SAM, DIVET Illumina Hash based yes mrsfast Lin FASTQ, FASTA SAM, DIVET Illumina Hash based no Novoalign Lin, Mac FASTQ, (CS)FASTA SAM, TXT Illumina, ABI SOLiD - yes SOAP2 Lin FASTQ, FASTA SOAP (2) Illumina FM index (BWT) yes SOAP3 Lin FASTQ, FASTA SAM Illumina FM index (BWT) no SSAHA2 Lin, Mac FASTA SAM, GFF Illumina, ABI SOLiD, 454 Tree index Stampy Lin, Mac FASTQ, FASTA SAM Illumina, 454 FM index (BWT) - YOABS Lin - - Illumina FM & Tree index yes Tabela2. Programy służące do przyrównania do genomu referencyjnego (Pabinger et.al. 2013) Magda Mielczarek NGS 29 yes

Format SAM Sequence Alignment/Map Format: popularny, uniwersalny zawiera informacje na temat przyrównania header section alignment section Magda Mielczarek NGS 30

Format BAM Binary Alignment/Map Format: binarny odpowiednik formatu SAM skompresowany przez BGZF zajmuje mniej pamięci dysku (stanowi ok. 27% oryginalnego pliku w formacie SAM) Magda Mielczarek NGS 31

POSZUKIWANIE POLIMORFIZMÓW DNA Magda Mielczarek NGS 32

Poszukiwanie polimorfizmów SNP Polimorfizm pojedynczego nukleotydu ACTGACTGACTGCCCGTTCCA ACTGACTCACTGCCCGTTCCG INDEL: insercja delecja ACTGACTGACTGCCCGTTCCA ACTGACTGACTGGCTCCCGTTCCA ACTGACTGACTGCCCGTTCC ACTGA - - - - CTGCCCGTTCC Magda Mielczarek NGS 33

Poszukiwanie polimorfizmów pakiet Samtools http://samtools.sourceforge.net/ http://samtools.sourceforge.net/mpileup.shtml Magda Mielczarek NGS 34

SNP Venn diagrams showing the number of identified variants for tested tools (Pabinger et al. 2013) Magda Mielczarek NGS 35

IGV http://www.broadinstitute.org/igv/ Magda Mielczarek NGS 36

IGV Magda Mielczarek NGS 37

Automatyzacja pracy Automatyzacja działania programów pozwala na: skrócenie czasu analiz równoległe działanie programów oszczędność czasu - uniwersalność skryptów, wykorzystanie dla różnych danych unikanie błędów pracę z ogromnymi zbiorami danych Magda Mielczarek NGS 38