ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Podobne dokumenty
ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

PAKIETY STATYSTYCZNE JOANNA SZYDA TOMASZ SUCHOCKI

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

Podstawy bioinformatyki sekwencjonowanie nowej generacji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

PODSTAWY BIOINFORMATYKI 6 BAZA DANYCH NCBI - II

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

PODSTAWY BIOINFORMATYKI

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Oprogramowanie dla GWAS

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ MAGDALENA FRĄSZCZAK

STATYSTYKA MATEMATYCZNA WYKŁAD 1

Tomasz Suchocki Kacper Żukowski, Magda Mielczarek, Joanna Szyda

1. KEGG 2. GO. 3. Klastry

PODSTAWY BIOINFORMATYKI ORGANIZACJA ZAJĘĆ BIOINFORMATYKA PRZETWARZANIE I ANALIZA DANYCH

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

ADNOTACJE WARIANTÓW GENETYCZNYCH

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (1)

PODSTAWY BIOINFORMATYKI WYKŁAD 3 BIOLOGICZNE BAZY DANYCH (2)

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

PODSTAWY BIOINFORMATYKI 3 SEKWENCJONOWANIE GENOMÓW I

1. System analizy danych NGS z paneli genów

WSTĘP. Copyright 2011, Joanna Szyda

WSTĘP Oprogramowanie dla GWAS

POPULARNE POLECENIA SKRYPTY. Pracownia Informatyczna 2

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

BASH - WPROWADZENIE Bioinformatyka 4

Ekologia molekularna. wykład 10

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

KARTA PRZEDMIOTU. (pieczęć wydziału)

Bioinformatyczna analiza danych. Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

Postępy w realizacji polskiego programu selekcji genomowej buhajów MASinBULL Joanna Szyda

Wstęp do Biologii Obliczeniowej

STATYSTYKA MATEMATYCZNA

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

Różnorodność osobników gatunku

Mitochondrialna Ewa;

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

PRACOWNIA INFORMATYCZNA CHARAKTERYSTYKA PRZEDMIOTU BASH - PODSTAWOWE INFORMACJE

PODSTAWY BIOINFORMATYKI WYKŁAD 2 SEKWENCJONOWANIE GENOMÓW

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

METODY STATYSTYCZNE W BIOLOGII

Mutacje jako źródło różnorodności wewnątrzgatunkowej

Dr hab.n.med. Renata Jacewicz

Choroba syropu klonowego

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

METODY STATYSTYCZNE W BIOLOGII

PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA

PODSTAWY BIOINFORMATYKI WYKŁAD 4 DOPASOWANIE SEKWENCJI

Dziedziczenie poligenowe

Choroba Leśniowskiego i Crohna

Choroba Niemanna-Picka, typ C

Rak płuc. Gen Choroba/objawy Sposób dziedziczenia. CDKN2A Czerniak, Rak trzustki, Rak płuca, Zespół predyspozycji do nowotworów AD 26

Stwardnienie guzowate

Moczówka prosta nerkowa

Wrodzony przerost nadnerczy

Badanie doboru naturalnego na poziomie molekularnym

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

Przyrównanie sekwencji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

ZARZĄDZANIE POPULACJAMI ZWIERZĄT

Profilowanie somatyczne BRCA1, BRCA2

Acrodermatitis enteropathica

Zespół hemolityczno-mocznicowy

Zaburzenia metabolizmu kreatyny

Dr hab.n.med. Renata Jacewicz

Zespół Marfana, zespół Bealsa

Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.

Rak tarczycy - prognostyka

Zespół Alporta. Gen Choroba/objawy Sposób dziedziczenia. COL4A3 Zespół Alporta AD/AR 100. COL4A4 Zespół Alporta AD/AR 84. COL4A5 Zespół Alporta XL 583

Galaktozemia. Gen Choroba/objawy Sposób dziedziczenia GALE AR 12. GALK1 Niedobór galaktokinazy AR 14. GALT Galaktozemia AR 233

Przytarczyce, zaburzenia metabolizmu wapnia

Porównywanie i dopasowywanie sekwencji

Sekwencje akinezji płodu

Analiza mutacji genów EGFR, PIKCA i PTEN w nerwiaku zarodkowym

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Szczegółowy harmonogram ćwiczeń Biologia medyczna w Zakładzie Biologii w roku akademickim 2017/2018 Analityka Medyczna I rok

Hiperaldosteronizm rodzinny

Porażenie okresowe. Gen Choroba/objawy Sposób dziedziczenia. CACNA1S Porażenie okresowe hipokaliemiczne, Hipertermia złośliwa AD 14

Zespół krótkiego QT. Gen Choroba/objawy Sposób dziedziczenia. CACNA1C Zespół Brugadów, Zespół Timothy AD 15

Kwasica metylomalonowa

BIOINFORMATYKA. Copyright 2011, Joanna Szyda

Rak prostaty. Gen Choroba/objawy Sposób dziedziczenia. BRCA1 Rak piersi, Rak jajnika, Czerniak, Rak prostaty AD 1161

Zaburzenia czynności płytek krwi

Jaki koń jest nie każdy widzi - genomika populacji polskich ras koni

Hemochromatoza. Gen Choroba/objawy Sposób dziedziczenia. HAMP Hemochromatosis AR 5. HFE Hemochromatosis, choroba Alzheimera, postać późna AR/Digenic 7

Ryzyko otyłości. Gen Choroba/objawy Sposób dziedziczenia. ADRB3 Otyłość MG 1. APOA2 Otyłość MG 0. FTO Otyłość MG 4. MC4R Otyłość MG 28

Zgrubienie paznokci. Gen Choroba/objawy Sposób dziedziczenia. AAGAB Keratoderma, palmoplantar, punctate AD 6. GJB6 Deafness AR/Digenic 8

Biologia medyczna, materiały dla studentów

Zespół Robinowa. Gen Choroba/objawy Sposób dziedziczenia. DVL1 Zespół Robinowa AD 17. ROR2 Zespół Robinow, Brachydaktylia AD/AR 17

Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Transkrypt:

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI Joanna Szyda Magdalena Frąszczak Magda Mielczarek

WSTĘP 1. Katedra Genetyki 2. Pracownia biostatystyki 3. Projekty NGS 4. Charakterystyka przedmiotu 5. Kontakt

KATEDRA GENETYKI Katedra Genetyki: http://gen.edu.pl

PRACOWNIA BIOSTATYSTYKI Pracownia biostatystyki: http://theta.edu.pl Copyright 2017 Joanna Szyda

PRACOWNIA BIOSTATYSTYKI SKN: Magda Mielczarek magda.mielczarek@upwr.edu.pl

1 The assessment of inter-individual variation of whole genome DNA sequence in 32 cows THETA Joanna Szyda, Magdalena Frąszczak, Magda Mielczarek PTP Riccardo Giannico, Giulietta Minozzi, Ezequiel L. Nicolazzi ZUT Katarzyna Wojdak-Maksymiec

1 Materiał Whole Genome Sequence 32 krowy rasy polskiej Holsztyńsko-Fryzyjskiej 16 grup półsióstr Chore częste występowanie mastitis Zdrowe brak zachorowań 164,984,147-472,265,620 odczytów na osobnika

1 Średnie pokrycie genomu przez odczyty Copyright 2017 Joanna Szyda

1 Pokrycie genomu przez odczyty dla wybranej krowy na 3 chromosomach

1 Średnie pokrycie genomu odczytami, a liczba zidentyfikowanych SNP

1 Całkowita liczba SNP zidentyfikowanych u krów

1 Liczba SNP z 1 i 3 allelami

1 SNP wykryte tylko przez jeden program

2 The analysis of Copy Number Variations in 32 Polish Holstein-Friesian cow genomes based on whole genome sequence data THETA Joanna Szyda, Magdalena Frąszczak, Magda Mielczarek PTP Riccardo Giannico, Giulietta Minozzi, Ezequiel L. Nicolazzi ZUT Katarzyna Wojdak-Maksymiec

2 Materiał Whole Genome Sequence 32 krowy rasy polskiej Holsztyńsko-Fryzyjskiej 16 grup półsióstr Chore częste występowanie mastitis Zdrowe brak zachorowań Długość CNV (delecje) 1,700 bp - 7,154 bp Długość CNV (duplikacje) 5,900 bp - 8,843 bp

2 Ilość i długość CNV

2 Funkcjonalna adnotacja CNV

2 Ilość początków / końców CNV w genach

2 Ilość początków / końców CNV w genach

3 1. Analiza sekwencji DNA w regionach CNV gatunku Bos taurus Piotr Barski Joanna Szyda Magda Mielczarek Magda Frąszczak

2 Materiał Whole Genome Sequence 32 krowy rasy polskiej Holsztyńsko-Fryzyjskiej 16 grup półsióstr Chore częste występowanie mastitis Zdrowe brak zachorowań # początków/końców delecji 747,610 # początków/końców duplikacji 123,578

2 Rozkład współczynnika złożoności sekwencji dla duplikacji

2 Rozkład współczynnika złożoności sekwencji dla delecji

2 Rozkład liczby nieznanych nukleotydów dla duplikacji

2 Rozkład liczby nieznanych nukleotydów dla duplikacji i delecji

CHARAKTERYSTYKA WYKŁADÓW 1. Intro Linux Techniki sekwencjonowania 2. Standardowe etapy analizy danych NGS Struktura plików Stosowane oprogramowanie 3. Przykłady analiz niestandardowych

TEMATYKA WYKŁADÓW 1. Wykład wstępny 2. Wprowadzenie do systemu operacyjnego Linux 3. Techniki sekwencjonowanie nowej generacji 4. Omówienie standardowych kroków w analizie danych NGS oraz struktury plików danych 5. Edycja danych: sprawdzanie jakości danych, edycja danych, przykładowe oprogramowanie 6. Analiza danych: przyrównanie do genomu referencyjnego, omówienie algorytmów stosowanych w oprogramowaniu, szczegółowe omówienie oprogramowania bazującego na zastosowaniu transformaty Burrowsa-Wheelera (np. BWA, Bowtie2, Soap2)

TEMATYKA WYKŁADÓW 7. Polimorfizmy genetyczne: omówienie polimorfizmów genetycznych, oprogramowanie poszukujące polimorfizmów typu SNP (mutacje pojedynczego nukleotydu), INDEL (insercje i delecje) oraz CNV (warianty liczby kopii), przykłady programów poszukujących polimorfizmów (GATK, SAMtools, CVNnator, itp.) 8. Adnotacje wariantów genetycznych: przeszukiwanie baz biologicznych, oprogramowanie Variant Effect Predictor 9. Wykorzystanie informacji o polimorfizmie: konstrukcja haplotypów, przykłady oprogramowania służącego do konstrukcji haplotypów (GATK, Beagle), zagadnienia imputacji brakujących genotypów

TEMATYKA WYKŁADÓW 10. Wykorzystanie informacji o polimorfizmie: genome-wide association studies, testowanie różnic w częstości alleli pomiędzy populacjami, pojęcie rzadkich wariantów genetycznych 11. - 15. Najnowsze opracowania z literatury dotyczące analizy danych pochodzących z sekwencjonowania nowej generacji

CHARAKTERYSTYKA ĆWICZEŃ 1. Obecność 2. Oceny: 2 kolokwia z wykorzystaniem komputera ocena bez poprawek tematyka wykłady + ćwiczenia 3. Prezentacje artykułów naukowych

TEMATYKA ĆWICZEŃ 1. Ćwiczenia wstępne 2. Wprowadzenie do systemu operacyjnego Linux 3. Pozyskanie danych potrzebnych do analizy (krótkie odczyty pochodzące z sekwencjonowania nowej generacji, genom referencyjny): omówienie i użycie oprogramowania (SRAtoolkit) przekształcającego dane z bazy na format fastq, przekształcenie sekwencji referencyjnej 4. Edycja danych: zastosowanie programu FastQC do kontroli jakości odczytów oraz oprogramowanie służące do ich edycji (PRINSEQ, Trimmomatic) 5. Edycja danych: ciąg dalszy 6. Przyrównanie do genomu referencyjnego: zastosowanie programów BWA i SMALT

TEMATYKA ĆWICZEŃ 7. Wyszukiwanie wariantów genetycznych typu SNP i INDEL. Użycie programu SAMtools 8. Kolokwium nr I 9. Analiza plików typu vcf 10. Estymacja haplotypów 11. Imputacja brakujących genotypów 12. Wyszukiwanie wariantów genetycznych typu CNV. Wykorzystanie programu CNVnator 13. Kolokwium nr II 14. Prezentacje artykułów naukowych. Dyskusja. 15. Prezentacje artykułów naukowych. Dyskusja.

KONTAKT adres: Katedra Genetyki, Kożuchowska 7 konsultacje: termin ustalony indywidualnie z prowadzącym

KONTAKT informacje: http://theta.edu.pl/teaching/ Analiza danych Copyright 2017 Joanna Szyda

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI charakterystyka przedmiotu