PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS
SEKWENCJONOWANIE GENOMÓW NEXT GENERATION METODA NOWEJ GENERACJI Sekwencjonowanie bardzo krótkich fragmentów 50-700 bp DNA unieruchomione na płytce Szybkie Tanie Platformy: Ilumina, 454 technology, SOLiD Copyright 2017, J. Szyda & M. Mielczarek
SEKWENCJONOWANIE GENOMÓW NEXT GENERATION PORÓWNANIE METOD STRATEGY ADVANTAGE DISADVANTAGE SANGER SEQ Separate reaction for the sequencing of all exons of a single gene / any piece of the genome High reliability Expensive (0.1$ / 1000 bp) Time consuming due to limited automation and necessity of many different reactions NEXT GENERATION SEQ One single reaction for the simultaneus analysis of different genes / whole genomes! Cost-effective and efficient by simultaneus and fast analysis Relatively cheap (0.001$ / 1000 bp) Interpretation of the abundance of data challenging High coverage needed for accuracy Maga Mielczarek 3
SEKWENCJONOWANIE GENOMÓW NEXT GENERATION KOSZT/CZAS ZSEKWENCJONOWANIA CAŁEGO GENOMU CZŁOWIEKA Projekt poznania genomu człowieka ~ 13 lat ~ 15 000 000 $ Technologia NGS ~ kilka dni ~ 2 000 $ Copyright 2017, Copyright J. Szyda 2014, & Joanna M. Mielczarek Szyda
NEXT GENERATION SEQUENCING - PLATFORMY 1. Roche (454) 700-400 bp; pirosekwencjonowanie; fluorescencja 2. Illumina (Solexa) 100-150 bp; sekwencjonowanie przez syntezę; fluorescencja 3. Pacific Biosciences (PacBio) >20 000 bp; sekwencjonowanie przez syntezę; fluorescencja 4. i inne Sekwencjonowanie i co dalej?
NGS PIPELINE - przykład Surowe Dane Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA/RNA Pipeline = łańcuch przetwarzania danych Uproszczony schemat Jedne z podstawowych zagadnień w analizie danych NGS przyrównanie do genomu referencyjnego oraz detekcja mutacji/polimorfizmów Sens biologiczny
SUROWE DANE FORMAT FASTQ Surowe Dane Kontrola jakości Read 1 @HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC + @@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGDD ( ) Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA/RNA Sens biologiczny Read 1 AGAAATG Single-end
SUROWE DANE FORMAT FASTQ Surowe Dane Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA/RNA Read 1 @HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC + @@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGDD ( ) Read 2 @HWI-1KL157:109:C448WACXX:7:1311:12007:37445 2:N:0:ACAGTG TTAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGCT + DD@FF@@FGHGHH01DDGHHHDDDDHIIIJJJDIIIGDDJGDDGDD ( ) Paired-end Read 1 Read 2 AGAAATG... GGCTGAA Sens biologiczny
KONTROLA JAKOŚĆI SUROWYCH DANYCH Surowe Dane Kontrola jakości @HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC + @@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGDD ( ) Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA Sens biologiczny
KONTROLA JAKOŚĆI SUROWYCH DANYCH Surowe Dane www.bioinformatics.babraham.ac.uk/projects/fastqc/ Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA/RNA http://prinseq.sourceforge.net/ Sens biologiczny
KONTROLA JAKOŚCI FASTQC www.bioinformatics.babraham.ac.uk/projects/fastqc/ Kontrola jakości danych Graficzne przedstawienie sekwencji Tworzenie raportu Brak możliwości filtracji danych Magda Mielczarek 11
FASTQC BASIC STATISTICS www.bioinformatics.babraham.ac.uk/projects/fastqc/ Magda Mielczarek 12
FASTQC PER BASE SEQUENCE QUALITY www.bioinformatics.babraham.ac.uk/projects/fastqc/ Magda Mielczarek 13
FASTQC PER SEQUENCE QUALITY SCORES www.bioinformatics.babraham.ac.uk/projects/fastqc/ Magda Mielczarek 14
FASTQC PER BASE N CONTENT www.bioinformatics.babraham.ac.uk/projects/fastqc/ Magda Mielczarek 15
FASTQC SEQUENCE LENGTH DISTRIBUTION www.bioinformatics.babraham.ac.uk/projects/fastqc/ Magda Mielczarek 16
FASTQC SEQUENCE DUPLICATION LEVELS www.bioinformatics.babraham.ac.uk/projects/fastqc/ Magda Mielczarek 17
FASTQC OVERREPRESENTED SEQUENCES www.bioinformatics.babraham.ac.uk/projects/fastqc/ No overrepresented sequences Magda Mielczarek 18
NISKA JAKOŚĆ I FILTORWANIE DANYCH @HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG AGAAATGCCAGGCTAGATGAGTTACAATCNAGTATCAAGATAGGC + @@@FFDFFGHGHHFDDDGHHHDDDD44#$%& 344+400/01234 ( ) Magda Mielczarek 19
NISKA JAKOŚĆ I FILTORWANIE DANYCH - PRZYKŁADY @HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG GTTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA + @@@FFDFFGHGHHFDDDGHHHDDDD44#$%& 344+400/01234222211 ( ) Oryginalny odczyt = 51 bp 1. Homopolimery? TTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA 2. Nieznane zasady? TTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA 3. Jakość poniżej 20? TTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA Odczyt po czyszczeniu = 26 bp Magda Mielczarek 20
PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO Surowe Dane Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA/RNA Sens biologiczny
PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO A A G G
DETEKCJA POLIMORFIZMÓW Surowe Dane Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA/RNA Sens biologiczny
DETEKCJA SNP osobnik 1 osobnik 2 gen. ref.
DETEKCJA SNP
DETEKCJA WARIANTÓW GENETYCZNYCH A A G
DETEKCJA WARIANTÓW GENETYCZNYCH 1. Single Nucleotide PolymorphismsSNP 2. Insertions/Deletions INDEL 3. Copy Number Variations CNV 4. Inversions INV 5. Translocations TRANS Copyright 2013, Joanna Szyda
LICZBA SNP (MILIONY) DETEKCJA POLIMORFIZMÓW liczba SNP u Bos taurus 7 6 5 4 3 min: 2 063 811 0.08% genomu max: 6 117 976 0.23% genomu sd: 663 223 2 1 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 Numer zwierzęcia
NGS PIPELINE PO CO? Surowe Dane Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA/RNA Sens biologiczny www.ensembl.org/tools/vep
VARIANT EFFECT PREDICTOR Surowe Dane Kontrola jakości Przyrównanie do genomu referencyjnego Detekcja polimorfizmów DNA Sens biologiczny
PRZYKŁAD LITERATURY powiązanie SNP z chorobami WES / WGS Sens biologiczny Copyright 2016 Joanna Szyda
ANALIZA DANYCH NGS - PERSONALIZED MEDICINE WES Sens biologiczny
ANALIZA DANYCH NGS - PERSONALIZED MEDICINE WES Sens biologiczny
ANALIZA DANYCH NGS PHARMACOGENOMICS WES / WGS Sens biologiczny Identified pharmacogenes in ADHD and asthma
ANALIZA DANYCH NGS PHARMACOGENOMICS Sens biologiczny http://learn.genetics.utah.edu/content/precision/snips/
ANALIZA DANYCH NGS PHARMACOGENOMICS Applying SNP profiles to drug choices Astma gen ADRB2 Albuterol łagodzi objawy astmy tylko u niektórych chorych Polimorfizmy punktowe a odpowiedź na leczenie albuterolem 13
ANALIZA DANYCH NGS PHARMACOGENOMICS
ANALIZA DANYCH NGS PRACOWNIA BIOSTATYSTYKI WGS theta.edu.pl/publications/ ACTGGGGGTGA ACTGGGGGGGA The Genetic Background of Clinical Mastitis in Holstein- Friesian cattle Szyda J., Mielczarek M., Frąszczak M., Minozzi G., Giannico R., Williams JL., Wojdak-Maksymiec K. Sens biologiczny
PIPELINE PRACOWNIA BIOSTATYSTYKI PIPELINE PRZYKŁADY
GALAXY