Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

Podobne dokumenty
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Analizy wielkoskalowe w badaniach chromatyny

Bioinformatyczna analiza danych. Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

Różnorodność osobników gatunku

Metody: PCR, MLPA, Sekwencjonowanie, PCR-RLFP, PCR-Multiplex, PCR-ASO

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Ekologia molekularna. wykład 11

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

Podstawy bioinformatyki sekwencjonowanie nowej generacji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

1. System analizy danych NGS z paneli genów

Sekwencjonowanie, przewidywanie genów

Choroba syropu klonowego

Metody odczytu kolejności nukleotydów - sekwencjonowania DNA

GENOMIKA FUNKCJONALNA. Jak działają geny i genomy? Poziom I: Analizy transkryptomu

Profilowanie somatyczne BRCA1, BRCA2

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

Wrodzony przerost nadnerczy

Choroba Niemanna-Picka, typ C

Acrodermatitis enteropathica

Zespół krótkiego QT. Gen Choroba/objawy Sposób dziedziczenia. CACNA1C Zespół Brugadów, Zespół Timothy AD 15

Zespół hemolityczno-mocznicowy

Rak tarczycy - prognostyka

Zespół Alporta. Gen Choroba/objawy Sposób dziedziczenia. COL4A3 Zespół Alporta AD/AR 100. COL4A4 Zespół Alporta AD/AR 84. COL4A5 Zespół Alporta XL 583

Przytarczyce, zaburzenia metabolizmu wapnia

Galaktozemia. Gen Choroba/objawy Sposób dziedziczenia GALE AR 12. GALK1 Niedobór galaktokinazy AR 14. GALT Galaktozemia AR 233

Sekwencje akinezji płodu

Zaburzenia metabolizmu kreatyny

Choroba Leśniowskiego i Crohna

GENOMIKA FUNKCJONALNA. Jak działają geny i genomy? Poziom I: Analizy transkryptomu

Rak płuc. Gen Choroba/objawy Sposób dziedziczenia. CDKN2A Czerniak, Rak trzustki, Rak płuca, Zespół predyspozycji do nowotworów AD 26

Stwardnienie guzowate

Porażenie okresowe. Gen Choroba/objawy Sposób dziedziczenia. CACNA1S Porażenie okresowe hipokaliemiczne, Hipertermia złośliwa AD 14

Hiperaldosteronizm rodzinny

Zaburzenia czynności płytek krwi

Kwasica metylomalonowa

Moczówka prosta nerkowa

PODSTAWY BIOINFORMATYKI 3 SEKWENCJONOWANIE GENOMÓW I

Hemochromatoza. Gen Choroba/objawy Sposób dziedziczenia. HAMP Hemochromatosis AR 5. HFE Hemochromatosis, choroba Alzheimera, postać późna AR/Digenic 7

Ryzyko otyłości. Gen Choroba/objawy Sposób dziedziczenia. ADRB3 Otyłość MG 1. APOA2 Otyłość MG 0. FTO Otyłość MG 4. MC4R Otyłość MG 28

Zespół Robinowa. Gen Choroba/objawy Sposób dziedziczenia. DVL1 Zespół Robinowa AD 17. ROR2 Zespół Robinow, Brachydaktylia AD/AR 17

Zespół Walkera-Warburga

Zespół Marfana, zespół Bealsa

Przewlekła choroba ziarniniakowa

Przeglądarki genomowe

Niedobory czynników krzepnięcia

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

Hemochromatoza. Gen Choroba/objawy Sposób dziedziczenia. HAMP Hemochromatoza, Choroba Alzheimera, postać późna AR 2

Arytmogenna kardiomiopatia prawej komory

Zespół Ehlersa-Danlosa i choroby podobne

Rak prostaty. Gen Choroba/objawy Sposób dziedziczenia. BRCA1 Rak piersi, Rak jajnika, Czerniak, Rak prostaty AD 1161

Choroba Parkinsona. Gen Choroba/objawy Sposób dziedziczenia. ATP13A2 Parkinson disease (Kufor-Rakeb syndrome) AR 11. DNAJC6 Juvenile Parkinsonism AR 2

Ataksja rdzeniowo-móżdżkowa

Zgrubienie paznokci. Gen Choroba/objawy Sposób dziedziczenia. AAGAB Keratoderma, palmoplantar, punctate AD 6. GJB6 Deafness AR/Digenic 8

Zespół Brugadów. Gen Choroba/objawy Sposób dziedziczenia. ANK2 Zaburzenia rytmu serca, Zespół długiego QT AD 7

Hiperfenyloalaninemie

Zapalenie trzustki. Częstość występowania dziedzicznego zapalenia trzustki szacuje się na 1 na osób. Gen Choroba/objawy Sposób dziedziczenia

Wielotorbielowatość wątroby

Zespół Meckela. Gen Choroba/objawy Sposób dziedziczenia. B9D1 Meckel syndrome AR 5. B9D2 Meckel syndrome AR 5

Niedobór glikokortykosteroidów

Zespół Seckela. Gen Choroba/objawy Sposób dziedziczenia. ATR Teleangiektazje skórne i rodzinnie występujący rak (gardła), Zespół Seckela AD/AR 8

Ataksja rdzeniowo-móżdżkowa

GIST, paraganglioma, pheochromocytoma

Krzywica hipofosfatemiczna

Hiperoksaluria pierwotna

Zespół zaburzeń oddychania noworodka

Zespół Aicardiego-Goutièresa

Zespół Seniora i Lokena

Dyskeratoza wrodzona

Nadciśnienie płucne. Gen Choroba/objawy Sposób dziedziczenia. ACVRL1 Wrodzona naczyniakowatość krwotoczna (Choroba Rendu-Oslera-Webera) AD 31

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

Zaburzenia błony erytrocytów

DIAGNOSTYKA MOLEKULARNA CHORÓB DZIEDZICZNYCH - METODY I INTERPRETACJA WYNIKÓW BADAŃ

Zespół Waardenburga. Gen Choroba/objawy Sposób dziedziczenia. EDNRB Hirschsprung disease, ABCD syndrome, Waardenburg syndrome AD/AR 4

Zespół Noonan i zespół twarzowo-sercowo-skórny

Biegunka wrodzona. Najczęstszą chorobą powodującą wrodzone biegunki jest enteropatia kępkowa, dotykająca 1 na dzieci.

Zaburzenia ze spektrum autyzmu

Kwasica cewkowa. Gen Choroba/objawy Sposób dziedziczenia. ATP6V0A4 Renal tubular acidosis, distal AR 10

Neurofibromatoza typu I i II

Zespół Aicardiego-Goutièresa

Big Data Genomics Pipelines

Wrodzona stacjonarna ślepota nocna

Tyrozynemia. Wszystkie typy tyrozynemii są dziedziczone w sposób autosomalny recesywny. Gen Choroba/objawy Sposób dziedziczenia. FAH Tyrozynemia AR 51

Rak trzustki. Gen Choroba/objawy Sposób dziedziczenia. APC Rodzinna polipowatość gruczolakowata, Zespół Gardnera, Guzy desmoidalne AD 201

GENOMIKA FUNKCJONALNA. Jak działają geny i genomy? Poziom I: Analizy transkryptomu

Bazy danych i R/Bioconductor

Gorączka okresowa. Gen Choroba/objawy Sposób dziedziczenia. ELANE Neutropenia, Zespół mielodysplastyczny, Białaczki AD 14

Rozstrzenie oskrzeli

Transkrypt:

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

Macierze tkankowe TMA ang. Tissue microarray Technika opisana w 1987 roku (Wan i wsp., 1987), opracowana w 1998 roku. Idea: utworzenie pojedynczego bloczka parafinowego zawierającego materiał tkankowy licznych zmian nowotworowych Etapy: Wstępne barwienie HE i ocena preparatu Z bloczka parafinowego (dawca) pobierany jest cylindryczny rdzeń tkanki Przeniesienie rdzenia na bloczek biorcę Standardowa analiza histologiczna

Długość sond Krótsze sondy oznaczają większe prawdopodobieństwo niespecyficznej hybrydyzacji badanego materiału z sondą Niespecyficzna hybrydyzacja ma miejsce częściej na mikromacierzach cdna niż oligonukleotydowych Synteza długich sond jest trudna i kosztowna Dłuższe sondy lepsza wykrywalność, większa intensywność świecenia

Mikromacierze ekspresyjne vs realtime PCR (qpcr) qpcr Badania: Kilka genów o znanej sekwencji Wymagana mała koncentracja materiału biologicznego Dokładny wynik Prosta analiza Mikromacierze Badania: Wiele genów, nie jest wymagana pełna znajomość sekwencji Stosunkowo drogie dla organizmów nie modelowych Bardziej złożona analiza Obecnie zastępowane przez RNA-seq Często potrzebne jest potwierdzenie wyników przez qpcr

Sekwencjonowanie DNA metodą Sangera Wysoka jakość odczytów Długie sekwencje odczytów (n > 500 nt) Pracochłonna i kosztowna Droga, szczególnie w miarę wzrostu długości i ilości sekwencjonowanych odcinków

Projekt sekwencjonowania ludzkiego genomu Oszacowany koszt otrzymania pierwszej sekwencji referencyjnej ludzkiego genomu: 10 lat, ~ 3 mld $ Obecnie (resekwencjonowanie): 0,012 $ / Mpz, 1121 $ za genom (3 Mld pz), Czas 1-2 dni, Stan za lipiec 2017.

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Zminiaturyzowana technologia, która pozwala na znaczne obniżenie kosztów oraz zwiększenie przepustowości. Polega na masowym, równoległym sekwencjonowaniu pofragmentowanej matrycy DNA. Sekwencjonowane są często całe genomy, a efektem jest bardzo dużo krótkich odczytów (ang. reads) Gwałtowny rozwój technologii wymusił rozwój nowych algorytmów oraz formatów plików

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Sekwencjonowanie genomów Sekwencjonowanie transkryptomów (RNA-Seq) Interakcje białko RNA (CLIP-seq) Badanie metylacji DNA Metagenomika Interakcje białko DNA (ChIP-seq)

Najpopularniejsze platformy Illumina Ion Torrent Pacific Biosciences Roche SOLID http://dnatech.genomecenter.ucdavis.edu

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Źródło: Illumina

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Obecnie wykorzystywane do sekwencjonowania m.in. całych genomów (WGS, ang. whole genome sequencing) wybranych regionów genomu (ang. Targeted sequencing) eksonów (WES, ang. whole exome sequencing)) transkryptomów (RNAseq, ang. High-throughput RNA sequencing ) Dla WGS wyróżniamy również: Sekwencjonowanie de novo dla dotychczas niezsekwencjonowanego gatunku bądź gdy genom referencyjny jest złej jakości. Konieczne są długie odczyty. Resekwencjonowanie dostępna jest sekwencja referencyjna, przeprowadzane jest mapowanie do genomu referencyjnego

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Nature Reviews Genetics 15, 662 676 (2014)

Asemblacja de novo Polega na zsekwencjonowaniu nowego genomu lub transkryptomu (brak sekwencji referencyjnej) Odczyty powinny być: Długie Sparowane (paired-end) Nakładać się na siebie Analiza bioinformatyczna obejmuje: Składanie genomu (ang. assembly) Adnotacje genomu

Mapowanie do genomu referencyjnego Genom referencyjny zazwyczaj posiada już adnotacje

Czym jest adnotacja genomu Polega na fizycznym zmapowaniu genów występujących w genomie

Adnotacja Adnotacja opiera się na znanym zestawie transkryptów Czy nasz zestaw transkryptów jest pełny i prawidłowy? Który zestaw wybrać? Najpopularniejsze: Ensembl, Refseq. Zgoda dla wariantów sklasyfikowanych jako utrata funkcji (LoF): 44% (dane dla człowieka) Którego programu użyć? Najpopularniejsze: SNPEff, ANOOVAR, VEP. Zgoda dla wariantów LoF: 64% pomiędzy ANNOVAR i VEP Dla danego genów często mamy kilka różnych transkryptów, który wybrać / zaraportować? Źródło: McCarthy i wsp., 2014. Choice of transcripts and software has a large effect on variant annotation. Genome Medicine 6.26.

Adnotacja Projekt koncentrujący się na ulepszaniu informacji funkcjonalnej u zwierząt

Mini słownik NGS Odczyty sparowane (ang. paired reads) Szczególnie przydatne do mapowania fragmentów genomu z sekwencjami powtórzonymi Źrodło: Illumina

Mini słownik NGS Biblioteka kolekcja zsekwencjonowanych fragmentów (odczytów) DNA/RNA https://www.biocompare.com

Mini słownik NGS Adaptery krótkie sekwencje dodawane na końcu sekwencjonowanych fragmentów. Bardzo często usuwane są już przez sekwenator, jednak niekiedy trzeba usuwać je samodzielnie. Pokrycie liczba zmapowanych odczytów, przypadających na daną pozycję w sekwencji referencyjnej Odczyty Pokrycie = 4 Pokrycie = 2 Sekwencja referencyjna

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Obecnie olbrzymie ilości danych z sekwencjonowania można uzyskać stosunkowo szybko i tanio. Gdzie jest problem? Wymagająca analiza = pracownicy + moc obliczeniowa Koszt składowania danych

Etapy analizy danych z NGS Kontrola jakości surowych danych (format fastq) Jakość odczytów, jakość par zasad w odczytach Mapowanie do genomu referencyjnego: Indeksowanie genomu referencyjnego Mapowanie format fastq > SAM Zmiana formatu SAM na BAM Obróbka pliku BAM: sortowanie, indeksowanie, formatowanie Wykrywanie wariantów (generujemy plik VCF): SNP polimorfizm pojedynczego nukleotydu INDEL krótkie delecje i insercje Warianty strukturalne (np. CNV) Dalsze kroki zależnie od celu analizy

Najpopularniejsze programy do analizy danych NGS Bwa mapowanie do genomu referencyjnego GATK SNP and INDEL calling Samtools manipulowanie plikami w formacie SAM i BAM Samtools mpileup wykrywanie wariantów Bcftools SNP and INDEL calling Vcftools manipulowanie plikami w formacie VCF Picard manipulowanie plikami w formacie SAM i BAM FASTQC kontrola jakości dla plików w formacie fastq Przeglądarki genomowe: GenomeBrowse Golden Helix IGV (Integrated Genomic Viewer)

Najpopularniejsze programy do analizy danych NGS GATK Genome Analysis Toolkit Wykrywanie wariantów, kontrola jakości SNPEff ANNOVAR VEP Adnotacja wariantów

Wszystkie programy w jednym miejscu? Graficzny interfejs? Serwer? Galaxy Bioinformatyczny kombajn UWAGA: Przy wielu projektach nie ma możliwości załadowania danych na serwer z uwagi na rozmiar danych oraz ich ochronę!

Gdzie szukać informacji?