Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Podobne dokumenty
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

Wstęp do Biologii Obliczeniowej

Różnorodność osobników gatunku

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Podstawy bioinformatyki sekwencjonowanie nowej generacji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Wykład 5 Dopasowywanie lokalne

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Na czym skończyliśmy BLACK BOX. Sekwencjonowanie polega na odczytaniu sekwencji liter DNA/RNA badanego fragmentu genomu

Pytania i odpowiedzi

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

1. System analizy danych NGS z paneli genów

Algorytmy kombinatoryczne w bioinformatyce

Bioinformatyka. (wykład monograficzny) wykład 5. E. Banachowicz. Zakład Biofizyki Molekularnej IF UAM

PRZYRÓWNANIE SEKWENCJI

Dopasowania par sekwencji DNA

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Przyrównywanie sekwencji

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

PODSTAWY BIOINFORMATYKI

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Dopasowanie sekwencji (sequence alignment)

Sekwencjonowanie, przewidywanie genów

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji

Porównywanie i dopasowywanie sekwencji

Bioinformatyczna analiza danych. Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

Dopasowywanie sekwencji (ang. sequence alignment) Metody dopasowywania sekwencji. Homologia a podobieństwo sekwencji. Rodzaje dopasowania

Statystyczna analiza danych

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

PODSTAWY BIOINFORMATYKI ORGANIZACJA ZAJĘĆ BIOINFORMATYKA PRZETWARZANIE I ANALIZA DANYCH

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

Reswkwencjonowanie vs asemblacja de novo

prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Poznawanie sekwencji genomowej

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

Bioinformatyka Laboratorium, 30h. Michał Bereta

Porównywanie i dopasowywanie sekwencji

BASH - WPROWADZENIE Bioinformatyka 4

Programowanie dynamiczne i algorytmy zachłanne

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

Jak wygląda składanie sekwencji w przypadku sekwencjonowania de novo? Jakie wykorzystuje się do tego narzędzia?

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

wykład Organizacja plików Opracował: dr inż. Janusz DUDCZYK

PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Przeglądarki genomowe

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

Bioinformatyka Laboratorium, 30h. Michał Bereta

Podstawy bioinformatyki - biologiczne bazy danych

Algorytmy kombinatoryczne w bioinformatyce

Bioinformatyka 2 (BT172) Struktura i organizacja kursu

Grafy i sieci wybrane zagadnienia wykład 2: modele służące rekonstrukcji sekwencji

Mapowanie sekwencji na genom (Ultrafast and memory-efficient alignment of short DNA sequences to the human gemone)

Algorytmy kombinatoryczne w bioinformatyce

Bioinformatyka. Porównywanie sekwencji

POPULARNE POLECENIA SKRYPTY. Pracownia Informatyczna 2

Rak tarczycy - prognostyka

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

Wybrane podstawowe rodzaje algorytmów

MODELOWANIE STOCHASTYCZNE CZĘŚĆ II - ŁAŃCUCHY MARKOWA. Biomatematyka Dr Wioleta Drobik-Czwarno

Acrodermatitis enteropathica

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

Wykład XII. optymalizacja w relacyjnych bazach danych

Choroba syropu klonowego

Metody odczytu kolejności nukleotydów - sekwencjonowania DNA

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

WSTĘP DO BIOINFORMATYKI Konspekt wykładu - wiosna 2018/19

Analizy wielkoskalowe w badaniach chromatyny

Choroba Niemanna-Picka, typ C

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

dr inż. Jarosław Forenc

Stwardnienie guzowate

Pytania i odpowiedzi

Dopasowanie sekwencji Sequence alignment. Bioinformatyka, wykłady 3 i 4 (19, 26.X.2010)

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Zespół hemolityczno-mocznicowy

Wersja pliku: v.10, 13 kwietnia 2019 zmiany: dodany punkt na temat testów do sprawozdania. Biologia, bioinformatyka:

Ćwiczenia nr 5. Wykorzystanie baz danych i narzędzi analitycznych dostępnych online

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

Przytarczyce, zaburzenia metabolizmu wapnia

Ekologia molekularna. wykład 11

Zespół Alporta. Gen Choroba/objawy Sposób dziedziczenia. COL4A3 Zespół Alporta AD/AR 100. COL4A4 Zespół Alporta AD/AR 84. COL4A5 Zespół Alporta XL 583

Sekwencje akinezji płodu

Transkrypt:

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Wykład 7 Etapy analizy NGS Dr Wioleta Drobik-Czwarno

Etapy analizy NGS Kontrola jakości surowych danych (format fastq) Jakość odczytów, jakość par zasad w odczytach Mapowanie do genomu referencyjnego: Indeksowanie genomu referencyjnego Mapowanie format fastq > SAM Zmiana formatu SAM na BAM Obróbka pliku BAM: sortowanie, indeksowanie, formatowanie Wykrywanie wariantów (generujemy plik VCF): SNP polimorfizm pojedynczego nukleotydu INDEL krótkie delecje i insercje Warianty strukturalne (np. CNV) Dalsze kroki zależnie od celu analizy

Najpopularniejsze (darmowe) programy do analizy danych NGS FASTQC kontrola jakości dla plików w formacie fastq Bwa mapowanie do genomu referencyjnego Samtools manipulowanie plikami w formacie SAM i BAM Samtools mpileup wykrywanie wariantów Bcftools SNP and INDEL calling Vcftools manipulowanie plikami w formacie VCF Picard manipulowanie plikami w formacie SAM i BAM GATK SNP and INDEL calling Przeglądarki genomowe: GenomeBrowse Golden Helix IGV (Integrated Genomic Viewer)

Przykładowy pipeline dla analizy danych NGS Pirooznia M. et al. 2014. Validation and assessment of variant calling pipelines for next-generation sequenci. Hum Genomics. 2014; 8(1): 14 ng.

Wszystkie programy w jednym miejscu? Graficzny interfejs? Serwer? Galaxy Bioinformatyczny kombajn UWAGA: Przy wielu projektach nie ma możliwości załadowania danych na serwer z uwagi na rozmiar danych oraz ich ochronę!

Czym jest mapowanie? Sekwencjonowanie polega na odczytaniu sekwencji DNA/RNA badanego fragmentu. Przy technologii NGS otrzymujemy miliony krótkich sekwencji. Co dalej? Genom referencyjny: zsekwencjonowany genom przedstawiciela gatunku. Mogą występować w nim dziury. Zazwyczaj posiada informację o lokalizacji genów (adnotacja) oraz zidentyfikowanych polimorfizmach.

Genom referencyjny

Mapowanie do genomu referencyjnego Mapowanie - kroki: Indeksowanie genomu referencyjnego Indeksowanie odczytów Mapowanie format fastq > SAM Najpopularniejsze programy: BWA Bowtie SOAP Inne: https://omictools.com/read-alignment-category

Mapowanie do genomu referencyjnego Oparte jest na algorytmach programowania dynamicznego Algorytm seria instrukcji, która umożliwia rozwiązanie określonego problemu Przykład: problem komiwojażera Rozwiązanie heurystyczne: podróżujemy zawsze do najbliższego miasta Algorytmy dopasowania sekwencji: Macierze punktowe Programowanie dynamiczne Metody heurystyczne (BLAST, FASTA) Metody statystyczne (modele Markova, statystyka Bayesa)

Dopasowanie pary sekwencji Algorytmy oparte na programowaniu dynamicznym umożliwiające znalezienie optymalnego dopasowania sekwencji: Smith-Waterman dopasowanie lokalne Needleman-Wunsch dopasowanie globalne (wzdłuż całej sekwencji) Programowanie dynamiczne polega na wyborze najlepszej ścieżki, która obrazuje najlepsze dopasowanie. Punktujemy: dopasowanie, jego brak, przerwy. Potrzeba jest macierz substytucji oraz ustalenie wysokości kary za przerwy

Struktury danych przydatne przy mapowaniu Genom referencyjny jest bardzo długi, a odczytów jest bardzo dużo dlatego zastosowanie bezpośrednie algorytmów wyznaczania dokładnego dopasowania jest nierealne. Genom referencyjny musi zostać poddany wstępnej obróbce Algorytmy korzystają z metod pozwalających na szybkie wyszukiwanie informacji w tablicach, np.: Drzewa suffiksowe Tablica z haszowaniem

Drzewa suffiksowe Drzewa suffiksowe struktura danych reprezentująca zbiór niepustych suffiksów danego ciągu znaków, w sposób umożliwiający bardziej efektywne wykonywanie operacji na tym łańcuchu m.in. przyrównywanie FM-indeks (zastosowany w BWA) wykorzystuje algorytm oparty na transformacie Burrowsa-Wheelera (BWT), do generowana macierzy suffiksów

Tranformata Burrowsa-Wheelera (BWT) Generujemy wszystkie możliwe rotacje sekwencji Generujemy wszystkie możliwe sufiksy dla sekwencji Sortujemy suffiksy alfabetycznie i zapisujemy pozycje znaku kończącego $ Zachowujemy tylko ostatnią kolumnę Cel: Dzięki sortowaniu podobne zasady znajdują się bliżej siebie co pozwala na bardziej efektywną kompresję ciągu znaków

Tablica z haszowaniem Przechowywanie informacji, które umożliwia szybko dostęp do danych A. Sekwencja jest dzielona na równe, nakładające się na siebie fragmenty, których pozycje są zapisywane B. Odczyt jest dzielony na fragmenty takiej samej długości jak sekwencja referencyjna. Przyrównywanie fragmentów z odczytów do fragmentów z genomu referencyjnego. C. Pozycje każdego z fragmentów odczytu są zestawiane D. Pozycję pasujące do siebie są zachowywane.

Wykrywanie wariantów Warianty: Krótkie warianty: SNP polimorfizm pojedynczego nukleotydu INDEL krótkie insercje i delecje SV Warianty strukturalne: CNV warianty liczby kopii

Metody wykrywania wariantów strukturalnych Kategorie metod: Parowane odczyty (read pair) wykorzystują informację o orientacyjnym dystansie oraz orientacji względem siebie odczytów sparowanych możliwe jest wykrywanie wielu rodzajów wariantów musi być znany dokładny rozkład indeli Pokrycie (read depth) Możliwe jest wykrycie dużych insercji i delecji Wrażliwe na zmiany pokrycia powiązane z jakością sekwencji referencyjnej oraz sekwencjonowania Odczyty dzielone (split read) Strategie łączone

Metody wykrywania wariantów strukturalnych

Metody wykrywania krótkich wariantów Metody heurystyczne nie dają rozwiązania optymalnego pełny algorytm jest zbyt kosztowny (obliczeniowo) lub nie jest znany Ile razy pojawia się dany wariant? Jaka jest jakość odczytów oraz zasad, które wspierają wariant? Metody probabilistyczne Wyliczamy prawdopodobieństwo pojawienia się danego wariantu Zalety: Lepsza dokładność Otrzymujemy statystyczne potwierdzenie wyniku Uwzględnia wiele źródeł informacji jednocześnie

Samtools oraz GATK Unified Genotyper Opiera się na modelu statystyki Bayesowskiej gdzie wyliczamy jakie jest prawdopodobieństwo, że w danym miejscu rzeczywiście znajduje się dany genotyp biorąc pod uwagę posiadane dane Prawdopodobieństwo (ang. likelihood) jest liczone korzystając z formatu pileup oraz jakości dla poszczególnych zasad (uwzględniane są jedynie odczyty i zasady dobrej jakości) Bardzo podobny algorytm wykorzystywany również przez Samtools + bcftools

GATK Unified Genotyper

HaplotypeCaller ETAPY: 1. Identyfikacja aktywnego regionu na podstawie istnienia wariantów 2. Asemblacja de novo dla aktywnego regionu (graf k-merowy) oraz identyfikacja haplotypów. Każdy haplotyp jest przyrównywany do haplotypu referencyjnego z użyciem algorytmu Smitha- Watermana. 3. Określenie prawdopodobieństwa dla każdego haplotypu 4. Określenie prawdopodobieństwa dla danego genotypu (Bayes)

Asemblacja de-novo Wykorzystywany jest graf de Bruijna (graf k-merowy) Graf jest strukturą danych, umożliwiającą przedstawienie i badanie relacji pomiędzy obiektami. Składa się z dwóch zbiorów: Wierzchołków Krawędzi

Asemblacja de-novo Graf de Bruijna (graf k-merowy) Jest grafem skierowanym uporządkowana para zbiorów Wierzchołkami są sekwencje o długości k, a odczyty są wrysowywane w graf poprzez połączenie łukami kolejnych wierzchołków Sekwencja: ACTGCC Odczyty: ACTG CTGC CTGC TGCC Graf (k=3): ACT CTG TGC GCC Odczyty: ACTG CTGC CTGA TGCC Graf (k=3): ACT CTG TGC GCC TGA

Asemblacja de-novo Graf k-merowy (k=3) a SNP: TAGCCTGACT TAGCCTGACT TAGCATGACT TAGCATGACT TAG AGC GCC CCT CTG TGA GAC ACT GCA CAT ATG Narysuj graf k-merowy dla następujących odczytów: AATTGCG AAATGCG AATGCGA AATGCGAA TTGCGAA

Metody wykrywania krótkich wariantów użyty algorytm a otrzymany wynik Yu and Sun, 2013. Comparing a few SNP calling algorithms using low-coverage sequencing data. BMC Bioinformatics 14: 274.

Wykrywanie wariantów Perspektywa z 1000 Genomes Project na przykładzie 629 próbek Wykryto 25 milionów unikalnych wariantów, z których 15 milionów miało frekwencję poniżej 2 % 7.9 mln wariantów znajdowało się w bazie dbsnp 129 Liczba wariantów dla pojedynczej próbki: 4 miliony Średnio 20 tysięcy znajdzie się w regionach kodujących (eksony) z nich tylko 250 300 będzie powodowało zmianę funkcji biologicznej białka z nich 50-100 będą to warianty już wcześniej powiązane z chorobami Khoury, 2010

Literatura Khoury M. 2010. Dealing With the Evidence Dilemma in Genomics and Personalized Medicine. Clinical Pharmacology & Therapeutics, 87, 635-638, doi:10.1038/clpt.2010.4. http://www.nature.com/ clpt/journal/v87/n6/full/clpt20104a.html Rudy G. 2010. A Hitchhiker s Guide to Next-Generation Sequencing. http://blog.goldenhelix.com/grudy/a-hitchhikers-guide-to-next-generationsequencing-part-1/ Higgs P.G., Attwood T.K. 2011. Bioinformatyka i ewolucja molekularna. Wydawnictow naukowe PWN