ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Podobne dokumenty
ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

PAKIETY STATYSTYCZNE JOANNA SZYDA TOMASZ SUCHOCKI

Podstawy bioinformatyki sekwencjonowanie nowej generacji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Tomasz Suchocki Kacper Żukowski, Magda Mielczarek, Joanna Szyda

PODSTAWY BIOINFORMATYKI

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ MAGDALENA FRĄSZCZAK

STATYSTYKA MATEMATYCZNA WYKŁAD 1

PODSTAWY BIOINFORMATYKI ORGANIZACJA ZAJĘĆ BIOINFORMATYKA PRZETWARZANIE I ANALIZA DANYCH

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

Oprogramowanie dla GWAS

1. System analizy danych NGS z paneli genów

Postępy w realizacji polskiego programu selekcji genomowej buhajów MASinBULL Joanna Szyda

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

ADNOTACJE WARIANTÓW GENETYCZNYCH

Różnorodność osobników gatunku

Bioinformatyczna analiza danych. Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

1. KEGG 2. GO. 3. Klastry

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

STATYSTYKA MATEMATYCZNA

METODY STATYSTYCZNE W BIOLOGII

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

POPULARNE POLECENIA SKRYPTY. Pracownia Informatyczna 2

PODSTAWY BIOINFORMATYKI 3 SEKWENCJONOWANIE GENOMÓW I

WSTĘP. Copyright 2011, Joanna Szyda

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

era genomowa w hodowli bydła mlecznego Instytut Zootechniki Państwowy Instytut Badawczy

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

BASH - WPROWADZENIE Bioinformatyka 4

Jaki koń jest nie każdy widzi - genomika populacji polskich ras koni

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

Ekologia molekularna. wykład 10

KARTA PRZEDMIOTU. (pieczęć wydziału)

Dr hab.n.med. Renata Jacewicz

PRZYGODY DGV. historia programu selekcji genomowej w Polsce. Joanna Szyda, Andrzej Żarnecki

Politechnika Wrocławska. Dopasowywanie sekwencji Sequence alignment

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Wstęp do Biologii Obliczeniowej

WSTĘP Oprogramowanie dla GWAS

PRACOWNIA INFORMATYCZNA CHARAKTERYSTYKA PRZEDMIOTU BASH - PODSTAWOWE INFORMACJE

Wykład 9: HUMAN GENOME PROJECT HUMAN GENOME PROJECT

Dr hab.n.med. Renata Jacewicz

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

Mitochondrialna Ewa;

Wykład: HUMAN GENOME PROJECT HUMAN GENOME PROJECT

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Perspektywy zastosowania badań genomicznych w hodowli zwierząt

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

METODY STATYSTYCZNE W BIOLOGII

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Zaburzenia metabolizmu kreatyny

Dziedziczenie poligenowe

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Choroba syropu klonowego

Choroba Leśniowskiego i Crohna

Porównywanie i dopasowywanie sekwencji

Pytania i odpowiedzi

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Rak płuc. Gen Choroba/objawy Sposób dziedziczenia. CDKN2A Czerniak, Rak trzustki, Rak płuca, Zespół predyspozycji do nowotworów AD 26

Wrodzony przerost nadnerczy

Stwardnienie guzowate

Moczówka prosta nerkowa

Profilowanie somatyczne BRCA1, BRCA2

prof. dr hab. Krystyna M. Charon Warszawa Recenzja

Acrodermatitis enteropathica

Zespół hemolityczno-mocznicowy

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

Sekwencjonowanie, przewidywanie genów

Zespół Marfana, zespół Bealsa

Rak tarczycy - prognostyka

Zespół Alporta. Gen Choroba/objawy Sposób dziedziczenia. COL4A3 Zespół Alporta AD/AR 100. COL4A4 Zespół Alporta AD/AR 84. COL4A5 Zespół Alporta XL 583

Galaktozemia. Gen Choroba/objawy Sposób dziedziczenia GALE AR 12. GALK1 Niedobór galaktokinazy AR 14. GALT Galaktozemia AR 233

Przytarczyce, zaburzenia metabolizmu wapnia

Sekwencje akinezji płodu

Metody badania polimorfizmu/mutacji DNA. Aleksandra Sałagacka Pracownia Diagnostyki Molekularnej i Farmakogenomiki Uniwersytet Medyczny w Łodzi

Choroba Niemanna-Picka, typ C

DHPLC. Denaturing high performance liquid chromatography. Wiktoria Stańczyk Zofia Kołeczko

PODSTAWY BIOINFORMATYKI WYKŁAD 2 SEKWENCJONOWANIE GENOMÓW

Porażenie okresowe. Gen Choroba/objawy Sposób dziedziczenia. CACNA1S Porażenie okresowe hipokaliemiczne, Hipertermia złośliwa AD 14

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

Hiperaldosteronizm rodzinny

Zespół krótkiego QT. Gen Choroba/objawy Sposób dziedziczenia. CACNA1C Zespół Brugadów, Zespół Timothy AD 15

Kwasica metylomalonowa

Zaburzenia czynności płytek krwi

Rak prostaty. Gen Choroba/objawy Sposób dziedziczenia. BRCA1 Rak piersi, Rak jajnika, Czerniak, Rak prostaty AD 1161

Transkrypt:

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI JOANNA SZYDA MAGDALENA FRĄSZCZAK MAGDA MIELCZAREK

WSTĘP 1. Katedra Genetyki 2. Pracownia biostatystyki 3. Projekty NGS 4. Charakterystyka przedmiotu 5. Kontakt

KATEDRA GENETYKI Katedra Genetyki: http://gen.edu.pl

PRACOWNIA BIOSTATYSTYKI Pracownia biostatystyki: http://theta.edu.pl Copyright 2015 Joanna Szyda

PRACOWNIA BIOSTATYSTYKI SKN: Neo Christopher Chung nchchung@gmail.com

PROJEKTY NGS 1. Optimizing NGS data analysis pipelines a comparison of alignment and SNP calling tools Magda Mielczarek THETA Joanna Szyda THETA Bernt Guldbrandtsen University of Aarchus

PROJEKT NGS 1. Materiał Whole Genome Sequence 4 buhaje rasy duńskiej czerwonej 249-290 mln odczytów Średnie pokrycie genomu ~ 10 X Single Nucleotide Polymorphisms Illumina BovineHD BeadArray (777,000 SNP)

PROJEKT NGS 1. Metody Porównanie całych bioinformatycznych ciągów analitycznych (ang. bioinformatic pipeline) Liczba poprawnych genotypów NGS Czas obliczeń Pipelines 4 programy do przyrównania do genomu referencyjnego 2 programy do detekcji SNP

PROJEKT NGS 1. Pipelines

PROJEKTY NGS 2. The assessment of inter-individual variation of whole genome DNA sequence in 32 cows THETA Joanna Szyda, Magdalena Frąszczak, Magda Mielczarek PTP Riccardo Giannico, Giulietta Minozzi, Ezequiel L. Nicolazzi ZUT Katarzyna Wojdak-Maksymiec

PROJEKT NGS 2. Materiał Whole Genome Sequence 32 krowy rasy polskiej Holsztyńsko-Fryzyjskiej 16 grup półsióstr Chore częste występowanie mastitis Zdrowe brak zachorowań 164,984,147-472,265,620 odczytów na osobnika

PROJEKT NGS 2. Średnie pokrycie genomu przez odczyty

PROJEKT NGS 2. Pokrycie genomu przez odczyty dla wybranej krowy na 3 chromosomach

PROJEKT NGS 2. Średnie pokrycie genomu odczytami, a liczba zidentyfikowanych SNP

PROJEKT NGS 2. Całkowita liczba SNP zidentyfikowanych u krów

PROJEKT NGS 2. Liczba SNP z 1 i 3 allelami

PROJEKT NGS 2. SNP wykryte tylko przez jeden program

PROJEKTY NGS 3. The analysis of Copy Number Variations in 32 Polish Holstein-Friesian cow genomes based on whole genome sequence data THETA Joanna Szyda, Magdalena Frąszczak, Magda Mielczarek PTP Riccardo Giannico, Giulietta Minozzi, Ezequiel L. Nicolazzi ZUT Katarzyna Wojdak-Maksymiec

PROJEKT NGS 3. Materiał Whole Genome Sequence 32 krowy rasy polskiej Holsztyńsko-Fryzyjskiej 16 grup półsióstr Chore częste występowanie mastitis Zdrowe brak zachorowań Długość CNV (delecje) 1,700 bp - 7,154 bp Długość CNV (duplikacje) 5,900 bp - 8,843 bp

PROJEKT NGS 3. Tematy badawcze Rozkład CNV w genomie Zmienność CNV pomiędzy osobnikami Walidacja poprawności CNV Adnotacja genomowa CNV

CHARAKTERYSTYKA WYKŁADÓW 1. Intro Linux Techniki sekwencjonowania 2. Standardowe etapy analizy danych NGS Struktura plików Stosowane oprogramowanie 3. Przykłady analiz niestandardowych

TEMATYKA WYKŁADÓW 1. Wykład wstępny 2. Wprowadzenie do systemu operacyjnego Linux 3. Techniki sekwencjonowanie nowej generacji 4. Omówienie standardowych kroków w analizie danych NGS oraz struktury plików danych 5. Edycja danych: sprawdzanie jakości danych, edycja danych, przykładowe oprogramowanie 6. Analiza danych: składanie sekwencji de novo, przyrównanie do genomu referencyjnego, omówienie algorytmów stosowanych w oprogramowaniu, szczegółowe omówienie oprogramowania bazującego na zastosowaniu transformaty Burrowsa-Wheelera (np. BWA, Bowtie2, Soap2)

TEMATYKA WYKŁADÓW 7. Analiza danych: przyrównanie sekwencji do genomu referencyjnego, omówienie oprogramowania bazującego na zastosowaniu algorytmu tablicy mieszającej (np. SMALT, MOSIAK, BFAST, SHRiMP, MAQ) 8. Polimorfizmy genetyczne: omówienie polimorfizmów genetycznych, oprogramowanie poszukujące polimorfizmów typu SNP (mutacje pojedynczego nukleotydu), INDEL (insercje i delecje) oraz CNV (warianty liczby kopii), przykłady programów poszukujących polimorfizmów (GATK, SAMtools, CVNnator, itp.) 9. Adnotacje wariantów genetycznych: przeszukiwanie baz biologicznych, oprogramowania variant effect predictor

TEMATYKA WYKŁADÓW 10.Wykorzystanie informacji o polimorfizmie: konstrukcja haplotypów, przykłady oprogramowania służącego do konstrukcji haplotypów (GATK, Beagle), zagadnienia imputacji brakujących genotypów. 11.Wykorzystanie informacji o polimorfizmie: genomewide association studies, testowanie różnic w częstości alleli pomiędzy populacjami, pojęcie rzadkich wariantów genetycznych. 12.Najnowsze opracowania z literatury dotyczące analizy: JS 13.Najnowsze opracowania z literatury dotyczące analizy: JS 14.Najnowsze opracowania z literatury dotyczące analizy: s 15.Najnowsze opracowania z literatury dotyczące analizy: s

CHARAKTERYSTYKA ĆWICZEŃ 1. Obecność 2. Oceny: 2 kolokwia z wykorzystaniem komputera ocena bez poprawek tematyka wykłady + ćwiczenia 3. Prezentacje artykułów naukowych

TEMATYKA ĆWICZEŃ 1. Ćwiczenia wstępne 2. Wprowadzenie do systemu operacyjnego Linux 3. Pozyskanie danych potrzebnych do analizy (krótkie odczyty pochodzące z sekwencjonowania nowej generacji, genom referencyjny): omówienie i użycie oprogramowania (SRA-toolkit) przekształcającego dane z bazy na format fastq, przekształcenie sekwencji referencyjnej. 4. Kolokwium nr I. 5. Edycja danych: zastosowanie programu FastQC do kontroli jakości odczytów oraz oprogramowanie służące do ich edycji (PRINSEQ, Trimmomatic) 6. Edycja danych: ciąg dalszy.

TEMATYKA ĆWICZEŃ 7. Przyrównanie do genomu referencyjnego: zastosowanie programów BWA i SMALT. 8. Wyszukiwanie wariantów genetycznych typu SNP i INDEL. Użycie programu SAMtools. 9. Analiza plików typu vcf. 10.Estymacja haplotypów. 11.Imputacja brakujących genotypów. 12.Wyszukiwanie wariantów genetycznych typu CNV. Wykorzystanie programu CNVnator. 13.Kolokwium nr II. 14.Prezentacje artykułów naukowych. Dyskusja. 15.Prezentacje artykułów naukowych. Dyskusja.

KONTAKT adres: Katedra Genetyki Kożuchowska 7 konsultacje: indywidualnie termin ustalony indywidualnie z prowadzącym

KONTAKT informacje: http://theta.edu.pl/teaching/ Analiza danych

KONTAKT informacje: http://theta.edu.pl/teaching/ Analiza danych

charakterystyka przedmiotu PAKIETY STATYSTYCZNE