Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno
Macierze tkankowe TMA ang. Tissue microarray Technika opisana w 1987 roku (Wan i wsp., 1987), opracowana w 1998 roku. Idea: utworzenie pojedynczego bloczka parafinowego zawierającego materiał tkankowy licznych zmian nowotworowych Etapy: Wstępne barwienie HE i ocena preparatu Z bloczka parafinowego (dawca) pobierany jest cylindryczny rdzeń tkanki Przeniesienie rdzenia na bloczek biorcę Standardowa analiza histologiczna
Długość sond Krótsze sondy oznaczają większe prawdopodobieństwo niespecyficznej hybrydyzacji badanego materiału z sondą Niespecyficzna hybrydyzacja ma miejsce częściej na mikromacierzach cdna niż oligonukleotydowych Synteza długich sond jest trudna i kosztowna Dłuższe sondy lepsza wykrywalność, większa intensywność świecenia
Mikromacierze ekspresyjne vs realtime PCR (qpcr) qpcr Badania: Kilka genów o znanej sekwencji Wymagana mała koncentracja materiału biologicznego Dokładny wynik Prosta analiza Mikromacierze Badania: Wiele genów, nie jest wymagana pełna znajomość sekwencji Stosunkowo drogie dla organizmów nie modelowych Bardziej złożona analiza Obecnie zastępowane przez RNA-seq Często potrzebne jest potwierdzenie wyników przez qpcr
Sekwencjonowanie DNA metodą Sangera Wysoka jakość odczytów Długie sekwencje odczytów (n > 500 nt) Pracochłonna i kosztowna Droga, szczególnie w miarę wzrostu długości i ilości sekwencjonowanych odcinków
Projekt sekwencjonowania ludzkiego genomu Oszacowany koszt otrzymania pierwszej sekwencji referencyjnej ludzkiego genomu: 10 lat, ~ 3 mld $ Obecnie (resekwencjonowanie): 0,012 $ / Mpz, 1121 $ za genom (3 Mld pz), Czas 1-2 dni, Stan za lipiec 2017.
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Zminiaturyzowana technologia, która pozwala na znaczne obniżenie kosztów oraz zwiększenie przepustowości. Polega na masowym, równoległym sekwencjonowaniu pofragmentowanej matrycy DNA. Sekwencjonowane są często całe genomy, a efektem jest bardzo dużo krótkich odczytów (ang. reads) Gwałtowny rozwój technologii wymusił rozwój nowych algorytmów oraz formatów plików
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Sekwencjonowanie genomów Sekwencjonowanie transkryptomów (RNA-Seq) Interakcje białko RNA (CLIP-seq) Badanie metylacji DNA Metagenomika Interakcje białko DNA (ChIP-seq)
Najpopularniejsze platformy Illumina Ion Torrent Pacific Biosciences Roche SOLID http://dnatech.genomecenter.ucdavis.edu
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Źródło: Illumina
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Obecnie wykorzystywane do sekwencjonowania m.in. całych genomów (WGS, ang. whole genome sequencing) wybranych regionów genomu (ang. Targeted sequencing) eksonów (WES, ang. whole exome sequencing)) transkryptomów (RNAseq, ang. High-throughput RNA sequencing ) Dla WGS wyróżniamy również: Sekwencjonowanie de novo dla dotychczas niezsekwencjonowanego gatunku bądź gdy genom referencyjny jest złej jakości. Konieczne są długie odczyty. Resekwencjonowanie dostępna jest sekwencja referencyjna, przeprowadzane jest mapowanie do genomu referencyjnego
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Nature Reviews Genetics 15, 662 676 (2014)
Asemblacja de novo Polega na zsekwencjonowaniu nowego genomu lub transkryptomu (brak sekwencji referencyjnej) Odczyty powinny być: Długie Sparowane (paired-end) Nakładać się na siebie Analiza bioinformatyczna obejmuje: Składanie genomu (ang. assembly) Adnotacje genomu
Mapowanie do genomu referencyjnego Genom referencyjny zazwyczaj posiada już adnotacje
Czym jest adnotacja genomu Polega na fizycznym zmapowaniu genów występujących w genomie
Adnotacja Adnotacja opiera się na znanym zestawie transkryptów Czy nasz zestaw transkryptów jest pełny i prawidłowy? Który zestaw wybrać? Najpopularniejsze: Ensembl, Refseq. Zgoda dla wariantów sklasyfikowanych jako utrata funkcji (LoF): 44% (dane dla człowieka) Którego programu użyć? Najpopularniejsze: SNPEff, ANOOVAR, VEP. Zgoda dla wariantów LoF: 64% pomiędzy ANNOVAR i VEP Dla danego genów często mamy kilka różnych transkryptów, który wybrać / zaraportować? Źródło: McCarthy i wsp., 2014. Choice of transcripts and software has a large effect on variant annotation. Genome Medicine 6.26.
Adnotacja Projekt koncentrujący się na ulepszaniu informacji funkcjonalnej u zwierząt
Mini słownik NGS Odczyty sparowane (ang. paired reads) Szczególnie przydatne do mapowania fragmentów genomu z sekwencjami powtórzonymi Źrodło: Illumina
Mini słownik NGS Biblioteka kolekcja zsekwencjonowanych fragmentów (odczytów) DNA/RNA https://www.biocompare.com
Mini słownik NGS Adaptery krótkie sekwencje dodawane na końcu sekwencjonowanych fragmentów. Bardzo często usuwane są już przez sekwenator, jednak niekiedy trzeba usuwać je samodzielnie. Pokrycie liczba zmapowanych odczytów, przypadających na daną pozycję w sekwencji referencyjnej Odczyty Pokrycie = 4 Pokrycie = 2 Sekwencja referencyjna
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Obecnie olbrzymie ilości danych z sekwencjonowania można uzyskać stosunkowo szybko i tanio. Gdzie jest problem? Wymagająca analiza = pracownicy + moc obliczeniowa Koszt składowania danych
Etapy analizy danych z NGS Kontrola jakości surowych danych (format fastq) Jakość odczytów, jakość par zasad w odczytach Mapowanie do genomu referencyjnego: Indeksowanie genomu referencyjnego Mapowanie format fastq > SAM Zmiana formatu SAM na BAM Obróbka pliku BAM: sortowanie, indeksowanie, formatowanie Wykrywanie wariantów (generujemy plik VCF): SNP polimorfizm pojedynczego nukleotydu INDEL krótkie delecje i insercje Warianty strukturalne (np. CNV) Dalsze kroki zależnie od celu analizy
Najpopularniejsze programy do analizy danych NGS Bwa mapowanie do genomu referencyjnego GATK SNP and INDEL calling Samtools manipulowanie plikami w formacie SAM i BAM Samtools mpileup wykrywanie wariantów Bcftools SNP and INDEL calling Vcftools manipulowanie plikami w formacie VCF Picard manipulowanie plikami w formacie SAM i BAM FASTQC kontrola jakości dla plików w formacie fastq Przeglądarki genomowe: GenomeBrowse Golden Helix IGV (Integrated Genomic Viewer)
Najpopularniejsze programy do analizy danych NGS GATK Genome Analysis Toolkit Wykrywanie wariantów, kontrola jakości SNPEff ANNOVAR VEP Adnotacja wariantów
Wszystkie programy w jednym miejscu? Graficzny interfejs? Serwer? Galaxy Bioinformatyczny kombajn UWAGA: Przy wielu projektach nie ma możliwości załadowania danych na serwer z uwagi na rozmiar danych oraz ich ochronę!
Gdzie szukać informacji?