Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Wykład 7 Etapy analizy NGS Dr Wioleta Drobik-Czwarno
Etapy analizy NGS Kontrola jakości surowych danych (format fastq) Jakość odczytów, jakość par zasad w odczytach Mapowanie do genomu referencyjnego: Indeksowanie genomu referencyjnego Mapowanie format fastq > SAM Zmiana formatu SAM na BAM Obróbka pliku BAM: sortowanie, indeksowanie, formatowanie Wykrywanie wariantów (generujemy plik VCF): SNP polimorfizm pojedynczego nukleotydu INDEL krótkie delecje i insercje Warianty strukturalne (np. CNV) Dalsze kroki zależnie od celu analizy
Najpopularniejsze (darmowe) programy do analizy danych NGS FASTQC kontrola jakości dla plików w formacie fastq Bwa mapowanie do genomu referencyjnego Samtools manipulowanie plikami w formacie SAM i BAM Samtools mpileup wykrywanie wariantów Bcftools SNP and INDEL calling Vcftools manipulowanie plikami w formacie VCF Picard manipulowanie plikami w formacie SAM i BAM GATK SNP and INDEL calling Przeglądarki genomowe: GenomeBrowse Golden Helix IGV (Integrated Genomic Viewer)
Przykładowy pipeline dla analizy danych NGS Pirooznia M. et al. 2014. Validation and assessment of variant calling pipelines for next-generation sequenci. Hum Genomics. 2014; 8(1): 14 ng.
Wszystkie programy w jednym miejscu? Graficzny interfejs? Serwer? Galaxy Bioinformatyczny kombajn UWAGA: Przy wielu projektach nie ma możliwości załadowania danych na serwer z uwagi na rozmiar danych oraz ich ochronę!
Czym jest mapowanie? Sekwencjonowanie polega na odczytaniu sekwencji DNA/RNA badanego fragmentu. Przy technologii NGS otrzymujemy miliony krótkich sekwencji. Co dalej? Genom referencyjny: zsekwencjonowany genom przedstawiciela gatunku. Mogą występować w nim dziury. Zazwyczaj posiada informację o lokalizacji genów (adnotacja) oraz zidentyfikowanych polimorfizmach.
Genom referencyjny
Mapowanie do genomu referencyjnego Mapowanie - kroki: Indeksowanie genomu referencyjnego Indeksowanie odczytów Mapowanie format fastq > SAM Najpopularniejsze programy: BWA Bowtie SOAP Inne: https://omictools.com/read-alignment-category
Mapowanie do genomu referencyjnego Oparte jest na algorytmach programowania dynamicznego Algorytm seria instrukcji, która umożliwia rozwiązanie określonego problemu Przykład: problem komiwojażera Rozwiązanie heurystyczne: podróżujemy zawsze do najbliższego miasta Algorytmy dopasowania sekwencji: Macierze punktowe Programowanie dynamiczne Metody heurystyczne (BLAST, FASTA) Metody statystyczne (modele Markova, statystyka Bayesa)
Dopasowanie pary sekwencji Algorytmy oparte na programowaniu dynamicznym umożliwiające znalezienie optymalnego dopasowania sekwencji: Smith-Waterman dopasowanie lokalne Needleman-Wunsch dopasowanie globalne (wzdłuż całej sekwencji) Programowanie dynamiczne polega na wyborze najlepszej ścieżki, która obrazuje najlepsze dopasowanie. Punktujemy: dopasowanie, jego brak, przerwy. Potrzeba jest macierz substytucji oraz ustalenie wysokości kary za przerwy
Struktury danych przydatne przy mapowaniu Genom referencyjny jest bardzo długi, a odczytów jest bardzo dużo dlatego zastosowanie bezpośrednie algorytmów wyznaczania dokładnego dopasowania jest nierealne. Genom referencyjny musi zostać poddany wstępnej obróbce Algorytmy korzystają z metod pozwalających na szybkie wyszukiwanie informacji w tablicach, np.: Drzewa suffiksowe Tablica z haszowaniem
Drzewa suffiksowe Drzewa suffiksowe struktura danych reprezentująca zbiór niepustych suffiksów danego ciągu znaków, w sposób umożliwiający bardziej efektywne wykonywanie operacji na tym łańcuchu m.in. przyrównywanie FM-indeks (zastosowany w BWA) wykorzystuje algorytm oparty na transformacie Burrowsa-Wheelera (BWT), do generowana macierzy suffiksów
Tranformata Burrowsa-Wheelera (BWT) Generujemy wszystkie możliwe rotacje sekwencji Generujemy wszystkie możliwe sufiksy dla sekwencji Sortujemy suffiksy alfabetycznie i zapisujemy pozycje znaku kończącego $ Zachowujemy tylko ostatnią kolumnę Cel: Dzięki sortowaniu podobne zasady znajdują się bliżej siebie co pozwala na bardziej efektywną kompresję ciągu znaków
Tablica z haszowaniem Przechowywanie informacji, które umożliwia szybko dostęp do danych A. Sekwencja jest dzielona na równe, nakładające się na siebie fragmenty, których pozycje są zapisywane B. Odczyt jest dzielony na fragmenty takiej samej długości jak sekwencja referencyjna. Przyrównywanie fragmentów z odczytów do fragmentów z genomu referencyjnego. C. Pozycje każdego z fragmentów odczytu są zestawiane D. Pozycję pasujące do siebie są zachowywane.
Wykrywanie wariantów Warianty: Krótkie warianty: SNP polimorfizm pojedynczego nukleotydu INDEL krótkie insercje i delecje SV Warianty strukturalne: CNV warianty liczby kopii
Metody wykrywania wariantów strukturalnych Kategorie metod: Parowane odczyty (read pair) wykorzystują informację o orientacyjnym dystansie oraz orientacji względem siebie odczytów sparowanych możliwe jest wykrywanie wielu rodzajów wariantów musi być znany dokładny rozkład indeli Pokrycie (read depth) Możliwe jest wykrycie dużych insercji i delecji Wrażliwe na zmiany pokrycia powiązane z jakością sekwencji referencyjnej oraz sekwencjonowania Odczyty dzielone (split read) Strategie łączone
Metody wykrywania wariantów strukturalnych
Metody wykrywania krótkich wariantów Metody heurystyczne nie dają rozwiązania optymalnego pełny algorytm jest zbyt kosztowny (obliczeniowo) lub nie jest znany Ile razy pojawia się dany wariant? Jaka jest jakość odczytów oraz zasad, które wspierają wariant? Metody probabilistyczne Wyliczamy prawdopodobieństwo pojawienia się danego wariantu Zalety: Lepsza dokładność Otrzymujemy statystyczne potwierdzenie wyniku Uwzględnia wiele źródeł informacji jednocześnie
Samtools oraz GATK Unified Genotyper Opiera się na modelu statystyki Bayesowskiej gdzie wyliczamy jakie jest prawdopodobieństwo, że w danym miejscu rzeczywiście znajduje się dany genotyp biorąc pod uwagę posiadane dane Prawdopodobieństwo (ang. likelihood) jest liczone korzystając z formatu pileup oraz jakości dla poszczególnych zasad (uwzględniane są jedynie odczyty i zasady dobrej jakości) Bardzo podobny algorytm wykorzystywany również przez Samtools + bcftools
GATK Unified Genotyper
HaplotypeCaller ETAPY: 1. Identyfikacja aktywnego regionu na podstawie istnienia wariantów 2. Asemblacja de novo dla aktywnego regionu (graf k-merowy) oraz identyfikacja haplotypów. Każdy haplotyp jest przyrównywany do haplotypu referencyjnego z użyciem algorytmu Smitha- Watermana. 3. Określenie prawdopodobieństwa dla każdego haplotypu 4. Określenie prawdopodobieństwa dla danego genotypu (Bayes)
Asemblacja de-novo Wykorzystywany jest graf de Bruijna (graf k-merowy) Graf jest strukturą danych, umożliwiającą przedstawienie i badanie relacji pomiędzy obiektami. Składa się z dwóch zbiorów: Wierzchołków Krawędzi
Asemblacja de-novo Graf de Bruijna (graf k-merowy) Jest grafem skierowanym uporządkowana para zbiorów Wierzchołkami są sekwencje o długości k, a odczyty są wrysowywane w graf poprzez połączenie łukami kolejnych wierzchołków Sekwencja: ACTGCC Odczyty: ACTG CTGC CTGC TGCC Graf (k=3): ACT CTG TGC GCC Odczyty: ACTG CTGC CTGA TGCC Graf (k=3): ACT CTG TGC GCC TGA
Asemblacja de-novo Graf k-merowy (k=3) a SNP: TAGCCTGACT TAGCCTGACT TAGCATGACT TAGCATGACT TAG AGC GCC CCT CTG TGA GAC ACT GCA CAT ATG Narysuj graf k-merowy dla następujących odczytów: AATTGCG AAATGCG AATGCGA AATGCGAA TTGCGAA
Metody wykrywania krótkich wariantów użyty algorytm a otrzymany wynik Yu and Sun, 2013. Comparing a few SNP calling algorithms using low-coverage sequencing data. BMC Bioinformatics 14: 274.
Wykrywanie wariantów Perspektywa z 1000 Genomes Project na przykładzie 629 próbek Wykryto 25 milionów unikalnych wariantów, z których 15 milionów miało frekwencję poniżej 2 % 7.9 mln wariantów znajdowało się w bazie dbsnp 129 Liczba wariantów dla pojedynczej próbki: 4 miliony Średnio 20 tysięcy znajdzie się w regionach kodujących (eksony) z nich tylko 250 300 będzie powodowało zmianę funkcji biologicznej białka z nich 50-100 będą to warianty już wcześniej powiązane z chorobami Khoury, 2010
Literatura Khoury M. 2010. Dealing With the Evidence Dilemma in Genomics and Personalized Medicine. Clinical Pharmacology & Therapeutics, 87, 635-638, doi:10.1038/clpt.2010.4. http://www.nature.com/ clpt/journal/v87/n6/full/clpt20104a.html Rudy G. 2010. A Hitchhiker s Guide to Next-Generation Sequencing. http://blog.goldenhelix.com/grudy/a-hitchhikers-guide-to-next-generationsequencing-part-1/ Higgs P.G., Attwood T.K. 2011. Bioinformatyka i ewolucja molekularna. Wydawnictow naukowe PWN