ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI JOANNA SZYDA MAGDALENA FRĄSZCZAK MAGDA MIELCZAREK
WSTĘP 1. Katedra Genetyki 2. Pracownia biostatystyki 3. Projekty NGS 4. Charakterystyka przedmiotu 5. Kontakt
KATEDRA GENETYKI Katedra Genetyki: http://gen.edu.pl
PRACOWNIA BIOSTATYSTYKI Pracownia biostatystyki: http://theta.edu.pl Copyright 2015 Joanna Szyda
PRACOWNIA BIOSTATYSTYKI SKN: Neo Christopher Chung nchchung@gmail.com
PROJEKTY NGS 1. Optimizing NGS data analysis pipelines a comparison of alignment and SNP calling tools Magda Mielczarek THETA Joanna Szyda THETA Bernt Guldbrandtsen University of Aarchus
PROJEKT NGS 1. Materiał Whole Genome Sequence 4 buhaje rasy duńskiej czerwonej 249-290 mln odczytów Średnie pokrycie genomu ~ 10 X Single Nucleotide Polymorphisms Illumina BovineHD BeadArray (777,000 SNP)
PROJEKT NGS 1. Metody Porównanie całych bioinformatycznych ciągów analitycznych (ang. bioinformatic pipeline) Liczba poprawnych genotypów NGS Czas obliczeń Pipelines 4 programy do przyrównania do genomu referencyjnego 2 programy do detekcji SNP
PROJEKT NGS 1. Pipelines
PROJEKTY NGS 2. The assessment of inter-individual variation of whole genome DNA sequence in 32 cows THETA Joanna Szyda, Magdalena Frąszczak, Magda Mielczarek PTP Riccardo Giannico, Giulietta Minozzi, Ezequiel L. Nicolazzi ZUT Katarzyna Wojdak-Maksymiec
PROJEKT NGS 2. Materiał Whole Genome Sequence 32 krowy rasy polskiej Holsztyńsko-Fryzyjskiej 16 grup półsióstr Chore częste występowanie mastitis Zdrowe brak zachorowań 164,984,147-472,265,620 odczytów na osobnika
PROJEKT NGS 2. Średnie pokrycie genomu przez odczyty
PROJEKT NGS 2. Pokrycie genomu przez odczyty dla wybranej krowy na 3 chromosomach
PROJEKT NGS 2. Średnie pokrycie genomu odczytami, a liczba zidentyfikowanych SNP
PROJEKT NGS 2. Całkowita liczba SNP zidentyfikowanych u krów
PROJEKT NGS 2. Liczba SNP z 1 i 3 allelami
PROJEKT NGS 2. SNP wykryte tylko przez jeden program
PROJEKTY NGS 3. The analysis of Copy Number Variations in 32 Polish Holstein-Friesian cow genomes based on whole genome sequence data THETA Joanna Szyda, Magdalena Frąszczak, Magda Mielczarek PTP Riccardo Giannico, Giulietta Minozzi, Ezequiel L. Nicolazzi ZUT Katarzyna Wojdak-Maksymiec
PROJEKT NGS 3. Materiał Whole Genome Sequence 32 krowy rasy polskiej Holsztyńsko-Fryzyjskiej 16 grup półsióstr Chore częste występowanie mastitis Zdrowe brak zachorowań Długość CNV (delecje) 1,700 bp - 7,154 bp Długość CNV (duplikacje) 5,900 bp - 8,843 bp
PROJEKT NGS 3. Tematy badawcze Rozkład CNV w genomie Zmienność CNV pomiędzy osobnikami Walidacja poprawności CNV Adnotacja genomowa CNV
CHARAKTERYSTYKA WYKŁADÓW 1. Intro Linux Techniki sekwencjonowania 2. Standardowe etapy analizy danych NGS Struktura plików Stosowane oprogramowanie 3. Przykłady analiz niestandardowych
TEMATYKA WYKŁADÓW 1. Wykład wstępny 2. Wprowadzenie do systemu operacyjnego Linux 3. Techniki sekwencjonowanie nowej generacji 4. Omówienie standardowych kroków w analizie danych NGS oraz struktury plików danych 5. Edycja danych: sprawdzanie jakości danych, edycja danych, przykładowe oprogramowanie 6. Analiza danych: składanie sekwencji de novo, przyrównanie do genomu referencyjnego, omówienie algorytmów stosowanych w oprogramowaniu, szczegółowe omówienie oprogramowania bazującego na zastosowaniu transformaty Burrowsa-Wheelera (np. BWA, Bowtie2, Soap2)
TEMATYKA WYKŁADÓW 7. Analiza danych: przyrównanie sekwencji do genomu referencyjnego, omówienie oprogramowania bazującego na zastosowaniu algorytmu tablicy mieszającej (np. SMALT, MOSIAK, BFAST, SHRiMP, MAQ) 8. Polimorfizmy genetyczne: omówienie polimorfizmów genetycznych, oprogramowanie poszukujące polimorfizmów typu SNP (mutacje pojedynczego nukleotydu), INDEL (insercje i delecje) oraz CNV (warianty liczby kopii), przykłady programów poszukujących polimorfizmów (GATK, SAMtools, CVNnator, itp.) 9. Adnotacje wariantów genetycznych: przeszukiwanie baz biologicznych, oprogramowania variant effect predictor
TEMATYKA WYKŁADÓW 10.Wykorzystanie informacji o polimorfizmie: konstrukcja haplotypów, przykłady oprogramowania służącego do konstrukcji haplotypów (GATK, Beagle), zagadnienia imputacji brakujących genotypów. 11.Wykorzystanie informacji o polimorfizmie: genomewide association studies, testowanie różnic w częstości alleli pomiędzy populacjami, pojęcie rzadkich wariantów genetycznych. 12.Najnowsze opracowania z literatury dotyczące analizy: JS 13.Najnowsze opracowania z literatury dotyczące analizy: JS 14.Najnowsze opracowania z literatury dotyczące analizy: s 15.Najnowsze opracowania z literatury dotyczące analizy: s
CHARAKTERYSTYKA ĆWICZEŃ 1. Obecność 2. Oceny: 2 kolokwia z wykorzystaniem komputera ocena bez poprawek tematyka wykłady + ćwiczenia 3. Prezentacje artykułów naukowych
TEMATYKA ĆWICZEŃ 1. Ćwiczenia wstępne 2. Wprowadzenie do systemu operacyjnego Linux 3. Pozyskanie danych potrzebnych do analizy (krótkie odczyty pochodzące z sekwencjonowania nowej generacji, genom referencyjny): omówienie i użycie oprogramowania (SRA-toolkit) przekształcającego dane z bazy na format fastq, przekształcenie sekwencji referencyjnej. 4. Kolokwium nr I. 5. Edycja danych: zastosowanie programu FastQC do kontroli jakości odczytów oraz oprogramowanie służące do ich edycji (PRINSEQ, Trimmomatic) 6. Edycja danych: ciąg dalszy.
TEMATYKA ĆWICZEŃ 7. Przyrównanie do genomu referencyjnego: zastosowanie programów BWA i SMALT. 8. Wyszukiwanie wariantów genetycznych typu SNP i INDEL. Użycie programu SAMtools. 9. Analiza plików typu vcf. 10.Estymacja haplotypów. 11.Imputacja brakujących genotypów. 12.Wyszukiwanie wariantów genetycznych typu CNV. Wykorzystanie programu CNVnator. 13.Kolokwium nr II. 14.Prezentacje artykułów naukowych. Dyskusja. 15.Prezentacje artykułów naukowych. Dyskusja.
KONTAKT adres: Katedra Genetyki Kożuchowska 7 konsultacje: indywidualnie termin ustalony indywidualnie z prowadzącym
KONTAKT informacje: http://theta.edu.pl/teaching/ Analiza danych
KONTAKT informacje: http://theta.edu.pl/teaching/ Analiza danych
charakterystyka przedmiotu PAKIETY STATYSTYCZNE