ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI Joanna Szyda Magdalena Frąszczak Magda Mielczarek
WSTĘP 1. Katedra Genetyki 2. Pracownia biostatystyki 3. Projekty NGS 4. Charakterystyka przedmiotu 5. Kontakt
KATEDRA GENETYKI Katedra Genetyki: http://gen.edu.pl
PRACOWNIA BIOSTATYSTYKI Pracownia biostatystyki: http://theta.edu.pl Copyright 2017 Joanna Szyda
PRACOWNIA BIOSTATYSTYKI SKN: Magda Mielczarek magda.mielczarek@upwr.edu.pl
1 The assessment of inter-individual variation of whole genome DNA sequence in 32 cows THETA Joanna Szyda, Magdalena Frąszczak, Magda Mielczarek PTP Riccardo Giannico, Giulietta Minozzi, Ezequiel L. Nicolazzi ZUT Katarzyna Wojdak-Maksymiec
1 Materiał Whole Genome Sequence 32 krowy rasy polskiej Holsztyńsko-Fryzyjskiej 16 grup półsióstr Chore częste występowanie mastitis Zdrowe brak zachorowań 164,984,147-472,265,620 odczytów na osobnika
1 Średnie pokrycie genomu przez odczyty Copyright 2017 Joanna Szyda
1 Pokrycie genomu przez odczyty dla wybranej krowy na 3 chromosomach
1 Średnie pokrycie genomu odczytami, a liczba zidentyfikowanych SNP
1 Całkowita liczba SNP zidentyfikowanych u krów
1 Liczba SNP z 1 i 3 allelami
1 SNP wykryte tylko przez jeden program
2 The analysis of Copy Number Variations in 32 Polish Holstein-Friesian cow genomes based on whole genome sequence data THETA Joanna Szyda, Magdalena Frąszczak, Magda Mielczarek PTP Riccardo Giannico, Giulietta Minozzi, Ezequiel L. Nicolazzi ZUT Katarzyna Wojdak-Maksymiec
2 Materiał Whole Genome Sequence 32 krowy rasy polskiej Holsztyńsko-Fryzyjskiej 16 grup półsióstr Chore częste występowanie mastitis Zdrowe brak zachorowań Długość CNV (delecje) 1,700 bp - 7,154 bp Długość CNV (duplikacje) 5,900 bp - 8,843 bp
2 Ilość i długość CNV
2 Funkcjonalna adnotacja CNV
2 Ilość początków / końców CNV w genach
2 Ilość początków / końców CNV w genach
3 1. Analiza sekwencji DNA w regionach CNV gatunku Bos taurus Piotr Barski Joanna Szyda Magda Mielczarek Magda Frąszczak
2 Materiał Whole Genome Sequence 32 krowy rasy polskiej Holsztyńsko-Fryzyjskiej 16 grup półsióstr Chore częste występowanie mastitis Zdrowe brak zachorowań # początków/końców delecji 747,610 # początków/końców duplikacji 123,578
2 Rozkład współczynnika złożoności sekwencji dla duplikacji
2 Rozkład współczynnika złożoności sekwencji dla delecji
2 Rozkład liczby nieznanych nukleotydów dla duplikacji
2 Rozkład liczby nieznanych nukleotydów dla duplikacji i delecji
CHARAKTERYSTYKA WYKŁADÓW 1. Intro Linux Techniki sekwencjonowania 2. Standardowe etapy analizy danych NGS Struktura plików Stosowane oprogramowanie 3. Przykłady analiz niestandardowych
TEMATYKA WYKŁADÓW 1. Wykład wstępny 2. Wprowadzenie do systemu operacyjnego Linux 3. Techniki sekwencjonowanie nowej generacji 4. Omówienie standardowych kroków w analizie danych NGS oraz struktury plików danych 5. Edycja danych: sprawdzanie jakości danych, edycja danych, przykładowe oprogramowanie 6. Analiza danych: przyrównanie do genomu referencyjnego, omówienie algorytmów stosowanych w oprogramowaniu, szczegółowe omówienie oprogramowania bazującego na zastosowaniu transformaty Burrowsa-Wheelera (np. BWA, Bowtie2, Soap2)
TEMATYKA WYKŁADÓW 7. Polimorfizmy genetyczne: omówienie polimorfizmów genetycznych, oprogramowanie poszukujące polimorfizmów typu SNP (mutacje pojedynczego nukleotydu), INDEL (insercje i delecje) oraz CNV (warianty liczby kopii), przykłady programów poszukujących polimorfizmów (GATK, SAMtools, CVNnator, itp.) 8. Adnotacje wariantów genetycznych: przeszukiwanie baz biologicznych, oprogramowanie Variant Effect Predictor 9. Wykorzystanie informacji o polimorfizmie: konstrukcja haplotypów, przykłady oprogramowania służącego do konstrukcji haplotypów (GATK, Beagle), zagadnienia imputacji brakujących genotypów
TEMATYKA WYKŁADÓW 10. Wykorzystanie informacji o polimorfizmie: genome-wide association studies, testowanie różnic w częstości alleli pomiędzy populacjami, pojęcie rzadkich wariantów genetycznych 11. - 15. Najnowsze opracowania z literatury dotyczące analizy danych pochodzących z sekwencjonowania nowej generacji
CHARAKTERYSTYKA ĆWICZEŃ 1. Obecność 2. Oceny: 2 kolokwia z wykorzystaniem komputera ocena bez poprawek tematyka wykłady + ćwiczenia 3. Prezentacje artykułów naukowych
TEMATYKA ĆWICZEŃ 1. Ćwiczenia wstępne 2. Wprowadzenie do systemu operacyjnego Linux 3. Pozyskanie danych potrzebnych do analizy (krótkie odczyty pochodzące z sekwencjonowania nowej generacji, genom referencyjny): omówienie i użycie oprogramowania (SRAtoolkit) przekształcającego dane z bazy na format fastq, przekształcenie sekwencji referencyjnej 4. Edycja danych: zastosowanie programu FastQC do kontroli jakości odczytów oraz oprogramowanie służące do ich edycji (PRINSEQ, Trimmomatic) 5. Edycja danych: ciąg dalszy 6. Przyrównanie do genomu referencyjnego: zastosowanie programów BWA i SMALT
TEMATYKA ĆWICZEŃ 7. Wyszukiwanie wariantów genetycznych typu SNP i INDEL. Użycie programu SAMtools 8. Kolokwium nr I 9. Analiza plików typu vcf 10. Estymacja haplotypów 11. Imputacja brakujących genotypów 12. Wyszukiwanie wariantów genetycznych typu CNV. Wykorzystanie programu CNVnator 13. Kolokwium nr II 14. Prezentacje artykułów naukowych. Dyskusja. 15. Prezentacje artykułów naukowych. Dyskusja.
KONTAKT adres: Katedra Genetyki, Kożuchowska 7 konsultacje: termin ustalony indywidualnie z prowadzącym
KONTAKT informacje: http://theta.edu.pl/teaching/ Analiza danych Copyright 2017 Joanna Szyda
ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI charakterystyka przedmiotu