Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Wykład 7 Etapy analizy NGS Dr Wioleta Drobik-Czwarno
Etapy analizy NGS Kontrola jakości surowych danych (format fastq) Jakość odczytów, jakość par zasad w odczytach Mapowanie do genomu referencyjnego: Indeksowanie genomu referencyjnego Mapowanie format fastq > SAM Zmiana formatu SAM na BAM Obróbka pliku BAM: sortowanie, indeksowanie, formatowanie Wykrywanie wariantów (generujemy plik VCF): SNP polimorfizm pojedynczego nukleotydu INDEL krótkie delecje i insercje Warianty strukturalne (np. CNV) Dalsze kroki zależnie od celu analizy
Najpopularniejsze (darmowe) programy do analizy danych NGS FASTQC kontrola jakości dla plików w formacie fastq Bwa mapowanie do genomu referencyjnego Samtools manipulowanie plikami w formacie SAM i BAM Samtools mpileup wykrywanie wariantów Bcftools SNP and INDEL calling Vcftools manipulowanie plikami w formacie VCF Picard manipulowanie plikami w formacie SAM i BAM GATK SNP and INDEL calling Przeglądarki genomowe: GenomeBrowse Golden Helix IGV (Integrated Genomic Viewer)
Przykładowy pipeline dla analizy danych NGS Pirooznia M. et al. 2014. Validation and assessment of variant calling pipelines for next-generation sequenci. Hum Genomics. 2014; 8(1): 14 ng.
Czym jest mapowanie? Sekwencjonowanie polega na odczytaniu sekwencji DNA/RNA badanego fragmentu. Przy technologii NGS otrzymujemy miliony krótkich odczytów. Co dalej? Mapowanie do genomu referencyjnego Asemblacja de-novo
Genom referencyjny Zsekwencjonowany genom przedstawiciela lub kilku przedstawicieli gatunku. Genom ludzki to mieszanina 5 osób, wybranych z pośród 30 ochotników, tak aby zapewnić różnorodność etniczną. W zależności od stadium zaawansowania projektu i regionu może zawierać błędy. Dobrze jeżeli posiada informację o: lokalizacji genów oraz sekwencji regulatorowych wcześniej zidentyfikowanych polimorfizmach
Genom referencyjny
Genom referencyjny
Mapowanie do genomu referencyjnego Problem: Ogromny genom referencyjny i miliony relatywnie krótkich odczytów Jak zmierzyć jakość dopasowania? Co z jakością odczytów i sekwencji referencyjnej? Kiedy uznajemy że dopasowanie jest prawidłowe? Co jeżeli odczyt pasuje w więcej niż jednym locus?
Mapowanie do genomu referencyjnego Źródło: https://gatkforums.broadinstitute.org
Mapowanie do genomu referencyjnego Mapowanie - kroki: Indeksowanie genomu referencyjnego Indeksowanie odczytów Mapowanie format fastq > SAM Najpopularniejsze programy: BWA Bowtie SOAP Inne: https://omictools.com/read-alignment-category
Mapowanie do genomu referencyjnego Potrzebne są algorytmy: wyszukiwania oraz kompresji Algorytm seria instrukcji, która umożliwia rozwiązanie określonego problemu Często niezbedne są algorytmy heurystyczne tzn nie gwarantujące najlepszego rozwiązania Przykład: problem komiwojażera Rozwiązanie heurystyczne: podróżujemy zawsze do najbliższego miasta. Czy zawsze pokonamy najkrótszą drogę?
Mapowanie do genomu referencyjnego Algorytmy dopasowania sekwencji: Macierze punktowe Programowanie dynamiczne Metody heurystyczne (BLAST, FASTA) Metody statystyczne (modele Markova, statystyka Bayesa) Obecne większość algorytmów opiera się na dwóch etapach: wyszukanie tzw ziarna - dokładnie dopasowanego fragmentu odczytu programowanie dynamiczne w celu wydłużenia dopasowania ziarno dopasowanie? dopasowanie?
Dopasowanie pary sekwencji Algorytmy oparte na programowaniu dynamicznym umożliwiające znalezienie optymalnego dopasowania sekwencji: Smith-Waterman dopasowanie lokalne Needleman-Wunsch dopasowanie globalne (wzdłuż całej sekwencji) Programowanie dynamiczne polega na wyborze najlepszej ścieżki, która obrazuje najlepsze dopasowanie. Punktujemy: dopasowanie, jego brak, przerwy. Potrzeba jest macierz substytucji oraz ustalenie wysokości kary za przerwy
Struktury danych przydatne przy mapowaniu Genom referencyjny jest bardzo długi, a odczytów jest bardzo dużo dlatego zastosowanie bezpośrednie algorytmów wyznaczania dokładnego dopasowania jest nierealne. Genom referencyjny musi zostać poddany wstępnej obróbce Algorytmy korzystają z metod pozwalających na szybkie wyszukiwanie informacji w tablicach, np.: Drzewa suffiksowe Tablica z haszowaniem
Wykrywanie wariantów Warianty: Krótkie warianty: SNP polimorfizm pojedynczego nukleotydu INDEL krótkie insercje i delecje SV Warianty strukturalne. Np. CNV warianty liczby kopii
Metody wykrywania krótkich wariantów Metody heurystyczne gdy dokładny algorytm jest zbyt kosztowny (obliczeniowo) lub nie jest znany Ile razy pojawia się dany wariant? Jaka jest jakość odczytów oraz zasad, które wspierają wariant? Metody probabilistyczne Wyliczamy prawdopodobieństwo pojawienia się danego wariantu Zalety: Lepsza dokładność Otrzymujemy statystyczne potwierdzenie wyniku Uwzględnia wiele źródeł informacji jednocześnie
Samtools oraz GATK Unified Genotyper Opiera się na modelu statystyki Bayesowskiej gdzie wyznaczamy wiarygodność (ang. likelihood) : prawdopodobieństwo, że w danym miejscu rzeczywiście znajduje się dany genotyp biorąc pod uwagę posiadane dane Wiarygodność (ang. likelihood) jest liczona korzystając z formatu pileup oraz jakości dla poszczególnych zasad (uwzględniane są jedynie odczyty i zasady dobrej jakości) Bardzo podobny algorytm wykorzystywany również przez Samtools + bcftools
GATK Unified Genotyper
HaplotypeCaller ETAPY: 1. Identyfikacja aktywnego regionu na podstawie istnienia wariantów 2. Asemblacja de novo dla aktywnego regionu (graf k-merowy) oraz identyfikacja haplotypów. Każdy haplotyp jest przyrównywany do haplotypu referencyjnego z użyciem algorytmu Smitha- Watermana. 3. Określenie wiarygodności dla każdego haplotypu 4. Określenie prawdopodobieństwa dla danego genotypu (Bayes)
Metody wykrywania wariantów strukturalnych Kategorie metod: Parowane odczyty (read pair) wykorzystują informację o orientacyjnym dystansie oraz orientacji względem siebie odczytów sparowanych możliwe jest wykrywanie wielu rodzajów wariantów musi być znany dokładny rozkład indeli Pokrycie (read depth) Możliwe jest wykrycie dużych insercji i delecji Wrażliwe na zmiany pokrycia powiązane z jakością sekwencji referencyjnej oraz sekwencjonowania Odczyty dzielone (split read) Strategie łączone
Metody wykrywania wariantów strukturalnych
Asemblacja de-novo Odtworzenie sekwencji poprzez dopasowywanie nakładających się nas siebie odczytów Problemy: Nierównomierne rozłożenie odczytów Odczyty pochodzą z obu nici (sensownej i antysensownej) Błędy w odczytach Powtórzenia w badanej sekwencji Odczyty są dużo krótsze niż sekwencja genomu
Asemblacja de-novo Wykorzystywany jest graf de Bruijna (graf k-merowy) Graf jest strukturą danych, umożliwiającą przedstawienie i badanie relacji pomiędzy obiektami. Składa się z dwóch zbiorów: Wierzchołków Krawędzi
Asemblacja de-novo Graf de Bruijna (graf k-merowy) Jest grafem skierowanym uporządkowana para zbiorów Wierzchołkami są sekwencje o długości k, a odczyty są wrysowywane w graf poprzez połączenie łukami kolejnych wierzchołków Sekwencja: ACTGCC Odczyty: ACTG CTGC CTGC TGCC Graf (k=3): ACT CTG TGC GCC Odczyty: ACTG CTGC CTGA TGCC Graf (k=3): ACT CTG TGC GCC TGA
Asemblacja de-novo Graf k-merowy (k=3) a SNP: TAGCCTGACT TAGCCTGACT TAGCATGACT TAGCATGACT TAG AGC GCC CCT CTG TGA GAC ACT GCA CAT ATG Narysuj graf k-merowy dla następujących odczytów: AATTGCG AAATGCG AATGCGA AATGCGAA TTGCGAA
Metody wykrywania krótkich wariantów użyty algorytm a otrzymany wynik Yu and Sun, 2013. Comparing a few SNP calling algorithms using low-coverage sequencing data. BMC Bioinformatics 14: 274.
Perspektywa z 1000 Genomes Project Przeanalizowano 629 próbek Wykryto 25 milionów unikalnych wariantów, z których 15 milionów miało frekwencję poniżej 2 % 7.9 mln wariantów znajdowało się w bazie dbsnp 129 Liczba wariantów dla pojedynczej próbki: 4 miliony Średnio 20 tysięcy znajdzie się w regionach kodujących (eksony) z nich tylko 250 300 będzie powodowało zmianę funkcji biologicznej białka z nich 50-100 będą to warianty już wcześniej powiązane z chorobami Khoury, 2010
Literatura Khoury M. 2010. Dealing With the Evidence Dilemma in Genomics and Personalized Medicine. Clinical Pharmacology & Therapeutics, 87, 635-638, doi:10.1038/clpt.2010.4. http://www.nature.com/ clpt/journal/v87/n6/full/clpt20104a.html Rudy G. 2010. A Hitchhiker s Guide to Next-Generation Sequencing. http://blog.goldenhelix.com/grudy/a-hitchhikers-guide-to-next-generationsequencing-part-1/ Higgs P.G., Attwood T.K. 2011. Bioinformatyka i ewolucja molekularna. Wydawnictow naukowe PWN