Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Podobne dokumenty
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Różnorodność osobników gatunku

Wykład 5 Dopasowywanie lokalne

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Pytania i odpowiedzi

Wstęp do Biologii Obliczeniowej

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

1. System analizy danych NGS z paneli genów

Algorytmy kombinatoryczne w bioinformatyce

Na czym skończyliśmy BLACK BOX. Sekwencjonowanie polega na odczytaniu sekwencji liter DNA/RNA badanego fragmentu genomu

PRZYRÓWNANIE SEKWENCJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Podstawy bioinformatyki sekwencjonowanie nowej generacji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Sekwencjonowanie, przewidywanie genów

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

Przyrównywanie sekwencji

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

Porównywanie i dopasowywanie sekwencji

Reswkwencjonowanie vs asemblacja de novo

Dopasowania par sekwencji DNA

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

Bioinformatyczna analiza danych. Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

Dopasowanie sekwencji (sequence alignment)

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

PODSTAWY BIOINFORMATYKI

BUDOWA I FUNKCJA GENOMU LUDZKIEGO

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Bioinformatyka Laboratorium, 30h. Michał Bereta

Porównywanie i dopasowywanie sekwencji

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

PODSTAWY BIOINFORMATYKI ORGANIZACJA ZAJĘĆ BIOINFORMATYKA PRZETWARZANIE I ANALIZA DANYCH

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

Statystyczna analiza danych

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

Grafy i sieci wybrane zagadnienia wykład 2: modele służące rekonstrukcji sekwencji

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Bioinformatyka. Porównywanie sekwencji

Przeglądarki genomowe

Analizy wielkoskalowe w badaniach chromatyny

Wersja pliku: v.10, 13 kwietnia 2019 zmiany: dodany punkt na temat testów do sprawozdania. Biologia, bioinformatyka:

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

Bioinformatyka Laboratorium, 30h. Michał Bereta

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

MODELOWANIE STOCHASTYCZNE CZĘŚĆ II - ŁAŃCUCHY MARKOWA. Biomatematyka Dr Wioleta Drobik-Czwarno

Algorytmy kombinatoryczne w bioinformatyce

Rak tarczycy - prognostyka

Algorytmy kombinatoryczne w bioinformatyce

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

STATYSTYKA MATEMATYCZNA

Metody odczytu kolejności nukleotydów - sekwencjonowania DNA

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Podstawy bioinformatyki - biologiczne bazy danych

Acrodermatitis enteropathica

Pytania i odpowiedzi

Choroba syropu klonowego

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

Choroba Niemanna-Picka, typ C

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Stwardnienie guzowate

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

Ekologia molekularna. wykład 11

Zespół hemolityczno-mocznicowy

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Bioinformatyka Laboratorium, 30h. Michał Bereta

Programowanie dynamiczne i algorytmy zachłanne

Przytarczyce, zaburzenia metabolizmu wapnia

POPULARNE POLECENIA SKRYPTY. Pracownia Informatyczna 2

Zespół Alporta. Gen Choroba/objawy Sposób dziedziczenia. COL4A3 Zespół Alporta AD/AR 100. COL4A4 Zespół Alporta AD/AR 84. COL4A5 Zespół Alporta XL 583

Sekwencje akinezji płodu

Galaktozemia. Gen Choroba/objawy Sposób dziedziczenia GALE AR 12. GALK1 Niedobór galaktokinazy AR 14. GALT Galaktozemia AR 233

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

Choroba Leśniowskiego i Crohna

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

Bioinformatyka. Michał Bereta

Przewlekła choroba ziarniniakowa

Wrodzony przerost nadnerczy

Transkrypt:

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Wykład 7 Etapy analizy NGS Dr Wioleta Drobik-Czwarno

Etapy analizy NGS Kontrola jakości surowych danych (format fastq) Jakość odczytów, jakość par zasad w odczytach Mapowanie do genomu referencyjnego: Indeksowanie genomu referencyjnego Mapowanie format fastq > SAM Zmiana formatu SAM na BAM Obróbka pliku BAM: sortowanie, indeksowanie, formatowanie Wykrywanie wariantów (generujemy plik VCF): SNP polimorfizm pojedynczego nukleotydu INDEL krótkie delecje i insercje Warianty strukturalne (np. CNV) Dalsze kroki zależnie od celu analizy

Najpopularniejsze (darmowe) programy do analizy danych NGS FASTQC kontrola jakości dla plików w formacie fastq Bwa mapowanie do genomu referencyjnego Samtools manipulowanie plikami w formacie SAM i BAM Samtools mpileup wykrywanie wariantów Bcftools SNP and INDEL calling Vcftools manipulowanie plikami w formacie VCF Picard manipulowanie plikami w formacie SAM i BAM GATK SNP and INDEL calling Przeglądarki genomowe: GenomeBrowse Golden Helix IGV (Integrated Genomic Viewer)

Przykładowy pipeline dla analizy danych NGS Pirooznia M. et al. 2014. Validation and assessment of variant calling pipelines for next-generation sequenci. Hum Genomics. 2014; 8(1): 14 ng.

Czym jest mapowanie? Sekwencjonowanie polega na odczytaniu sekwencji DNA/RNA badanego fragmentu. Przy technologii NGS otrzymujemy miliony krótkich odczytów. Co dalej? Mapowanie do genomu referencyjnego Asemblacja de-novo

Genom referencyjny Zsekwencjonowany genom przedstawiciela lub kilku przedstawicieli gatunku. Genom ludzki to mieszanina 5 osób, wybranych z pośród 30 ochotników, tak aby zapewnić różnorodność etniczną. W zależności od stadium zaawansowania projektu i regionu może zawierać błędy. Dobrze jeżeli posiada informację o: lokalizacji genów oraz sekwencji regulatorowych wcześniej zidentyfikowanych polimorfizmach

Genom referencyjny

Genom referencyjny

Mapowanie do genomu referencyjnego Problem: Ogromny genom referencyjny i miliony relatywnie krótkich odczytów Jak zmierzyć jakość dopasowania? Co z jakością odczytów i sekwencji referencyjnej? Kiedy uznajemy że dopasowanie jest prawidłowe? Co jeżeli odczyt pasuje w więcej niż jednym locus?

Mapowanie do genomu referencyjnego Źródło: https://gatkforums.broadinstitute.org

Mapowanie do genomu referencyjnego Mapowanie - kroki: Indeksowanie genomu referencyjnego Indeksowanie odczytów Mapowanie format fastq > SAM Najpopularniejsze programy: BWA Bowtie SOAP Inne: https://omictools.com/read-alignment-category

Mapowanie do genomu referencyjnego Potrzebne są algorytmy: wyszukiwania oraz kompresji Algorytm seria instrukcji, która umożliwia rozwiązanie określonego problemu Często niezbedne są algorytmy heurystyczne tzn nie gwarantujące najlepszego rozwiązania Przykład: problem komiwojażera Rozwiązanie heurystyczne: podróżujemy zawsze do najbliższego miasta. Czy zawsze pokonamy najkrótszą drogę?

Mapowanie do genomu referencyjnego Algorytmy dopasowania sekwencji: Macierze punktowe Programowanie dynamiczne Metody heurystyczne (BLAST, FASTA) Metody statystyczne (modele Markova, statystyka Bayesa) Obecne większość algorytmów opiera się na dwóch etapach: wyszukanie tzw ziarna - dokładnie dopasowanego fragmentu odczytu programowanie dynamiczne w celu wydłużenia dopasowania ziarno dopasowanie? dopasowanie?

Dopasowanie pary sekwencji Algorytmy oparte na programowaniu dynamicznym umożliwiające znalezienie optymalnego dopasowania sekwencji: Smith-Waterman dopasowanie lokalne Needleman-Wunsch dopasowanie globalne (wzdłuż całej sekwencji) Programowanie dynamiczne polega na wyborze najlepszej ścieżki, która obrazuje najlepsze dopasowanie. Punktujemy: dopasowanie, jego brak, przerwy. Potrzeba jest macierz substytucji oraz ustalenie wysokości kary za przerwy

Struktury danych przydatne przy mapowaniu Genom referencyjny jest bardzo długi, a odczytów jest bardzo dużo dlatego zastosowanie bezpośrednie algorytmów wyznaczania dokładnego dopasowania jest nierealne. Genom referencyjny musi zostać poddany wstępnej obróbce Algorytmy korzystają z metod pozwalających na szybkie wyszukiwanie informacji w tablicach, np.: Drzewa suffiksowe Tablica z haszowaniem

Wykrywanie wariantów Warianty: Krótkie warianty: SNP polimorfizm pojedynczego nukleotydu INDEL krótkie insercje i delecje SV Warianty strukturalne. Np. CNV warianty liczby kopii

Metody wykrywania krótkich wariantów Metody heurystyczne gdy dokładny algorytm jest zbyt kosztowny (obliczeniowo) lub nie jest znany Ile razy pojawia się dany wariant? Jaka jest jakość odczytów oraz zasad, które wspierają wariant? Metody probabilistyczne Wyliczamy prawdopodobieństwo pojawienia się danego wariantu Zalety: Lepsza dokładność Otrzymujemy statystyczne potwierdzenie wyniku Uwzględnia wiele źródeł informacji jednocześnie

Samtools oraz GATK Unified Genotyper Opiera się na modelu statystyki Bayesowskiej gdzie wyznaczamy wiarygodność (ang. likelihood) : prawdopodobieństwo, że w danym miejscu rzeczywiście znajduje się dany genotyp biorąc pod uwagę posiadane dane Wiarygodność (ang. likelihood) jest liczona korzystając z formatu pileup oraz jakości dla poszczególnych zasad (uwzględniane są jedynie odczyty i zasady dobrej jakości) Bardzo podobny algorytm wykorzystywany również przez Samtools + bcftools

GATK Unified Genotyper

HaplotypeCaller ETAPY: 1. Identyfikacja aktywnego regionu na podstawie istnienia wariantów 2. Asemblacja de novo dla aktywnego regionu (graf k-merowy) oraz identyfikacja haplotypów. Każdy haplotyp jest przyrównywany do haplotypu referencyjnego z użyciem algorytmu Smitha- Watermana. 3. Określenie wiarygodności dla każdego haplotypu 4. Określenie prawdopodobieństwa dla danego genotypu (Bayes)

Metody wykrywania wariantów strukturalnych Kategorie metod: Parowane odczyty (read pair) wykorzystują informację o orientacyjnym dystansie oraz orientacji względem siebie odczytów sparowanych możliwe jest wykrywanie wielu rodzajów wariantów musi być znany dokładny rozkład indeli Pokrycie (read depth) Możliwe jest wykrycie dużych insercji i delecji Wrażliwe na zmiany pokrycia powiązane z jakością sekwencji referencyjnej oraz sekwencjonowania Odczyty dzielone (split read) Strategie łączone

Metody wykrywania wariantów strukturalnych

Asemblacja de-novo Odtworzenie sekwencji poprzez dopasowywanie nakładających się nas siebie odczytów Problemy: Nierównomierne rozłożenie odczytów Odczyty pochodzą z obu nici (sensownej i antysensownej) Błędy w odczytach Powtórzenia w badanej sekwencji Odczyty są dużo krótsze niż sekwencja genomu

Asemblacja de-novo Wykorzystywany jest graf de Bruijna (graf k-merowy) Graf jest strukturą danych, umożliwiającą przedstawienie i badanie relacji pomiędzy obiektami. Składa się z dwóch zbiorów: Wierzchołków Krawędzi

Asemblacja de-novo Graf de Bruijna (graf k-merowy) Jest grafem skierowanym uporządkowana para zbiorów Wierzchołkami są sekwencje o długości k, a odczyty są wrysowywane w graf poprzez połączenie łukami kolejnych wierzchołków Sekwencja: ACTGCC Odczyty: ACTG CTGC CTGC TGCC Graf (k=3): ACT CTG TGC GCC Odczyty: ACTG CTGC CTGA TGCC Graf (k=3): ACT CTG TGC GCC TGA

Asemblacja de-novo Graf k-merowy (k=3) a SNP: TAGCCTGACT TAGCCTGACT TAGCATGACT TAGCATGACT TAG AGC GCC CCT CTG TGA GAC ACT GCA CAT ATG Narysuj graf k-merowy dla następujących odczytów: AATTGCG AAATGCG AATGCGA AATGCGAA TTGCGAA

Metody wykrywania krótkich wariantów użyty algorytm a otrzymany wynik Yu and Sun, 2013. Comparing a few SNP calling algorithms using low-coverage sequencing data. BMC Bioinformatics 14: 274.

Perspektywa z 1000 Genomes Project Przeanalizowano 629 próbek Wykryto 25 milionów unikalnych wariantów, z których 15 milionów miało frekwencję poniżej 2 % 7.9 mln wariantów znajdowało się w bazie dbsnp 129 Liczba wariantów dla pojedynczej próbki: 4 miliony Średnio 20 tysięcy znajdzie się w regionach kodujących (eksony) z nich tylko 250 300 będzie powodowało zmianę funkcji biologicznej białka z nich 50-100 będą to warianty już wcześniej powiązane z chorobami Khoury, 2010

Literatura Khoury M. 2010. Dealing With the Evidence Dilemma in Genomics and Personalized Medicine. Clinical Pharmacology & Therapeutics, 87, 635-638, doi:10.1038/clpt.2010.4. http://www.nature.com/ clpt/journal/v87/n6/full/clpt20104a.html Rudy G. 2010. A Hitchhiker s Guide to Next-Generation Sequencing. http://blog.goldenhelix.com/grudy/a-hitchhikers-guide-to-next-generationsequencing-part-1/ Higgs P.G., Attwood T.K. 2011. Bioinformatyka i ewolucja molekularna. Wydawnictow naukowe PWN