PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

Podobne dokumenty
ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

PODSTAWY BIOINFORMATYKI 3 SEKWENCJONOWANIE GENOMÓW I

Podstawy bioinformatyki sekwencjonowanie nowej generacji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI WYKŁAD 2 SEKWENCJONOWANIE GENOMÓW

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

Ekologia molekularna. wykład 11

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

BASH - WPROWADZENIE Bioinformatyka 4

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

PAKIETY STATYSTYCZNE JOANNA SZYDA TOMASZ SUCHOCKI

ADNOTACJE WARIANTÓW GENETYCZNYCH

STATYSTYKA MATEMATYCZNA WYKŁAD 1

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

Analizy wielkoskalowe w badaniach chromatyny

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

1. KEGG 2. GO. 3. Klastry

Bioinformatyczna analiza danych. Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

PRACOWNIA INFORMATYCZNA CHARAKTERYSTYKA PRZEDMIOTU BASH - PODSTAWOWE INFORMACJE

PODSTAWY BIOINFORMATYKI ORGANIZACJA ZAJĘĆ BIOINFORMATYKA PRZETWARZANIE I ANALIZA DANYCH

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

1. System analizy danych NGS z paneli genów

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

PODSTAWY BIOINFORMATYKI 2 SEKWENCJONOWANIE GENOMÓW

Różnorodność osobników gatunku

PODSTAWY BIOINFORMATYKI

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ MAGDALENA FRĄSZCZAK

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

Oprogramowanie dla GWAS

Metody: PCR, MLPA, Sekwencjonowanie, PCR-RLFP, PCR-Multiplex, PCR-ASO

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

POPULARNE POLECENIA SKRYPTY. Pracownia Informatyczna 2

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

Sekwencjonowanie, przewidywanie genów

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

Bioinformatyczne bazy danych

Metody odczytu kolejności nukleotydów - sekwencjonowania DNA

Tomasz Suchocki Kacper Żukowski, Magda Mielczarek, Joanna Szyda

Bioinformatyczne bazy danych

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Ryzyko otyłości. Gen Choroba/objawy Sposób dziedziczenia. ADRB3 Otyłość MG 1. APOA2 Otyłość MG 0. FTO Otyłość MG 4. MC4R Otyłość MG 28

Wykorzystanie metody MSSCP do analizy markerów genetycznych raka płuc w ramach projektu FP7: CURELUNG

Pytania i odpowiedzi

Rak tarczycy - prognostyka

Historia Bioinformatyki

Choroba Niemanna-Picka, typ C

Choroba syropu klonowego

Wrodzony przerost nadnerczy

Hemochromatoza. Gen Choroba/objawy Sposób dziedziczenia. HAMP Hemochromatosis AR 5. HFE Hemochromatosis, choroba Alzheimera, postać późna AR/Digenic 7

BIOINFORMATYKA. Copyright 2011, Joanna Szyda

Perspektywy zastosowania badań genomicznych w hodowli zwierząt

Profilowanie somatyczne BRCA1, BRCA2

Zespół Marfana, zespół Bealsa

Zespół hemolityczno-mocznicowy

Acrodermatitis enteropathica

Zespół Alporta. Gen Choroba/objawy Sposób dziedziczenia. COL4A3 Zespół Alporta AD/AR 100. COL4A4 Zespół Alporta AD/AR 84. COL4A5 Zespół Alporta XL 583

Analiza asocjacji całego genomu w celu poznania regulacji zawartości kwasów tłuszczowych w nasionach rzepaku (Brassica napus L.)

Andrzej Kochański Sekwencjonowanie genomu. Studia Ecologiae et Bioethicae 12/1, 29-38

Przytarczyce, zaburzenia metabolizmu wapnia

Galaktozemia. Gen Choroba/objawy Sposób dziedziczenia GALE AR 12. GALK1 Niedobór galaktokinazy AR 14. GALT Galaktozemia AR 233

Sekwencje akinezji płodu

GENOMIKA. MAPOWANIE GENOMÓW MAPY GENOMICZNE

Choroba Leśniowskiego i Crohna

Stwardnienie guzowate

Hiperaldosteronizm rodzinny

Zespół krótkiego QT. Gen Choroba/objawy Sposób dziedziczenia. CACNA1C Zespół Brugadów, Zespół Timothy AD 15

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

Kwasica metylomalonowa

Porażenie okresowe. Gen Choroba/objawy Sposób dziedziczenia. CACNA1S Porażenie okresowe hipokaliemiczne, Hipertermia złośliwa AD 14

Techniki odczytu kolejności nukleotydów - sekwencjonowania DNA

Hemochromatoza. Gen Choroba/objawy Sposób dziedziczenia. HAMP Hemochromatoza, Choroba Alzheimera, postać późna AR 2

Bioinformatyka: Wykład 5. Bioconductor

Moczówka prosta nerkowa

Zespół Adamsa-Olivera

Zespół Robinowa. Gen Choroba/objawy Sposób dziedziczenia. DVL1 Zespół Robinowa AD 17. ROR2 Zespół Robinow, Brachydaktylia AD/AR 17

A MODEL OF GENOME LENGTH ESTIMATION BASED ON K-MERS DETECTION 1

Bioinformatyka wykład I.2009

Niepełnosprawność intelektualna

Podstawy bioinformatyki - biologiczne bazy danych

Postępy w realizacji polskiego programu selekcji genomowej buhajów MASinBULL Joanna Szyda

Rak płuc. Gen Choroba/objawy Sposób dziedziczenia. CDKN2A Czerniak, Rak trzustki, Rak płuca, Zespół predyspozycji do nowotworów AD 26

Przewlekła choroba ziarniniakowa

Rewolucja genomowa. Wojciech Makałowski Institute of Bioinformatics University of Muenster. w medycynie

Zaburzenia czynności płytek krwi

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

Transkrypt:

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

SEKWENCJONOWANIE GENOMÓW NEXT GENERATION METODA NOWEJ GENERACJI Sekwencjonowanie bardzo krótkich fragmentów 50-700 bp DNA unieruchomione na płytce Szybkie Tanie Platformy: Ilumina, 454 technology, SOLiD Copyright 2017, J. Szyda & M. Mielczarek

SEKWENCJONOWANIE GENOMÓW NEXT GENERATION PORÓWNANIE METOD STRATEGY ADVANTAGE DISADVANTAGE SANGER SEQ Separate reaction for the sequencing of all exons of a single gene / any piece of the genome High reliability Expensive (0.1$ / 1000 bp) Time consuming due to limited automation and necessity of many different reactions NEXT GENERATION SEQ One single reaction for the simultaneus analysis of different genes / whole genomes! Cost-effective and efficient by simultaneus and fast analysis Relatively cheap (0.001$ / 1000 bp) Interpretation of the abundance of data challenging High coverage needed for accuracy Maga Mielczarek 3

SEKWENCJONOWANIE GENOMÓW NEXT GENERATION KOSZT/CZAS ZSEKWENCJONOWANIA CAŁEGO GENOMU CZŁOWIEKA Projekt poznania genomu człowieka ~ 13 lat ~ 15 000 000 $ Technologia NGS ~ kilka dni ~ 2 000 $ Copyright 2017, Copyright J. Szyda 2014, & Joanna M. Mielczarek Szyda

NEXT GENERATION SEQUENCING - PLATFORMY 1. Roche (454) 700-400 bp; pirosekwencjonowanie; fluorescencja 2. Illumina (Solexa) 100-150 bp; sekwencjonowanie przez syntezę; fluorescencja 3. Pacific Biosciences (PacBio) >20 000 bp; sekwencjonowanie przez syntezę; fluorescencja 4. i inne Sekwencjonowanie i co dalej?

NGS PIPELINE - przykład Surowe Dane Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA/RNA Pipeline = łańcuch przetwarzania danych Uproszczony schemat Jedne z podstawowych zagadnień w analizie danych NGS przyrównanie do genomu referencyjnego oraz detekcja mutacji/polimorfizmów Sens biologiczny

SUROWE DANE FORMAT FASTQ Surowe Dane Kontrola jakości Read 1 @HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC + @@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGDD ( ) Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA/RNA Sens biologiczny Read 1 AGAAATG Single-end

SUROWE DANE FORMAT FASTQ Surowe Dane Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA/RNA Read 1 @HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC + @@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGDD ( ) Read 2 @HWI-1KL157:109:C448WACXX:7:1311:12007:37445 2:N:0:ACAGTG TTAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGCT + DD@FF@@FGHGHH01DDGHHHDDDDHIIIJJJDIIIGDDJGDDGDD ( ) Paired-end Read 1 Read 2 AGAAATG... GGCTGAA Sens biologiczny

KONTROLA JAKOŚĆI SUROWYCH DANYCH Surowe Dane Kontrola jakości @HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC + @@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGDD ( ) Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA Sens biologiczny

KONTROLA JAKOŚĆI SUROWYCH DANYCH Surowe Dane www.bioinformatics.babraham.ac.uk/projects/fastqc/ Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA/RNA http://prinseq.sourceforge.net/ Sens biologiczny

KONTROLA JAKOŚCI FASTQC www.bioinformatics.babraham.ac.uk/projects/fastqc/ Kontrola jakości danych Graficzne przedstawienie sekwencji Tworzenie raportu Brak możliwości filtracji danych Magda Mielczarek 11

FASTQC BASIC STATISTICS www.bioinformatics.babraham.ac.uk/projects/fastqc/ Magda Mielczarek 12

FASTQC PER BASE SEQUENCE QUALITY www.bioinformatics.babraham.ac.uk/projects/fastqc/ Magda Mielczarek 13

FASTQC PER SEQUENCE QUALITY SCORES www.bioinformatics.babraham.ac.uk/projects/fastqc/ Magda Mielczarek 14

FASTQC PER BASE N CONTENT www.bioinformatics.babraham.ac.uk/projects/fastqc/ Magda Mielczarek 15

FASTQC SEQUENCE LENGTH DISTRIBUTION www.bioinformatics.babraham.ac.uk/projects/fastqc/ Magda Mielczarek 16

FASTQC SEQUENCE DUPLICATION LEVELS www.bioinformatics.babraham.ac.uk/projects/fastqc/ Magda Mielczarek 17

FASTQC OVERREPRESENTED SEQUENCES www.bioinformatics.babraham.ac.uk/projects/fastqc/ No overrepresented sequences Magda Mielczarek 18

NISKA JAKOŚĆ I FILTORWANIE DANYCH @HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG AGAAATGCCAGGCTAGATGAGTTACAATCNAGTATCAAGATAGGC + @@@FFDFFGHGHHFDDDGHHHDDDD44#$%& 344+400/01234 ( ) Magda Mielczarek 19

NISKA JAKOŚĆ I FILTORWANIE DANYCH - PRZYKŁADY @HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG GTTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA + @@@FFDFFGHGHHFDDDGHHHDDDD44#$%& 344+400/01234222211 ( ) Oryginalny odczyt = 51 bp 1. Homopolimery? TTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA 2. Nieznane zasady? TTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA 3. Jakość poniżej 20? TTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA Odczyt po czyszczeniu = 26 bp Magda Mielczarek 20

PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO Surowe Dane Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA/RNA Sens biologiczny

PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO A A G G

DETEKCJA POLIMORFIZMÓW Surowe Dane Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA/RNA Sens biologiczny

DETEKCJA SNP osobnik 1 osobnik 2 gen. ref.

DETEKCJA SNP

DETEKCJA WARIANTÓW GENETYCZNYCH A A G

DETEKCJA WARIANTÓW GENETYCZNYCH 1. Single Nucleotide PolymorphismsSNP 2. Insertions/Deletions INDEL 3. Copy Number Variations CNV 4. Inversions INV 5. Translocations TRANS Copyright 2013, Joanna Szyda

LICZBA SNP (MILIONY) DETEKCJA POLIMORFIZMÓW liczba SNP u Bos taurus 7 6 5 4 3 min: 2 063 811 0.08% genomu max: 6 117 976 0.23% genomu sd: 663 223 2 1 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 Numer zwierzęcia

NGS PIPELINE PO CO? Surowe Dane Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA/RNA Sens biologiczny www.ensembl.org/tools/vep

VARIANT EFFECT PREDICTOR Surowe Dane Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA Sens biologiczny

PRZYKŁAD LITERATURY powiązanie SNP z chorobami WES / WGS Sens biologiczny Copyright 2016 Joanna Szyda

ANALIZA DANYCH NGS - PERSONALIZED MEDICINE WES Sens biologiczny

ANALIZA DANYCH NGS - PERSONALIZED MEDICINE WES Sens biologiczny

ANALIZA DANYCH NGS PHARMACOGENOMICS WES / WGS Sens biologiczny Identified pharmacogenes in ADHD and asthma

ANALIZA DANYCH NGS PHARMACOGENOMICS Sens biologiczny http://learn.genetics.utah.edu/content/precision/snips/

ANALIZA DANYCH NGS PHARMACOGENOMICS Applying SNP profiles to drug choices Astma gen ADRB2 Albuterol łagodzi objawy astmy tylko u niektórych chorych Polimorfizmy punktowe a odpowiedź na leczenie albuterolem 13

ANALIZA DANYCH NGS PHARMACOGENOMICS

ANALIZA DANYCH NGS PRACOWNIA BIOSTATYSTYKI WGS theta.edu.pl/publications/ ACTGGGGGTGA ACTGGGGGGGA The Genetic Background of Clinical Mastitis in Holstein- Friesian cattle Szyda J., Mielczarek M., Frąszczak M., Minozzi G., Giannico R., Williams JL., Wojdak-Maksymiec K. Sens biologiczny

PIPELINE PRACOWNIA BIOSTATYSTYKI PIPELINE PRZYKŁADY

GALAXY