NGS ciąg dalszy. Bioinformatyczna analiza danych Wykład 9 Dr Wioleta Drobik-Czwarno

Podobne dokumenty
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

Bioinformatyka: Wykład 5. Bioconductor

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

Bioinformatyczna analiza danych. Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

WIEDZA. wskazuje lokalizacje przebiegu procesów komórkowych

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

prof. Joanna Chorostowska-Wynimko Zakład Genetyki i Immunologii Klinicznej Instytut Gruźlicy i Chorób Płuc w Warszawie

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Wymagania edukacyjne

Rak tarczycy - prognostyka

Zagadnienia (1/3) Data-flow diagramy przepływów danych ERD diagramy związków encji Diagramy obiektowe w UML (ang. Unified Modeling Language)

Jak wygląda składanie sekwencji w przypadku sekwencjonowania de novo? Jakie wykorzystuje się do tego narzędzia?

Analizy wielkoskalowe w badaniach chromatyny

Analiza zmienności czasowej danych mikromacierzowych

Przybliżone algorytmy analizy ekspresji genów.

Bazy danych i R/Bioconductor

Metody: PCR, MLPA, Sekwencjonowanie, PCR-RLFP, PCR-Multiplex, PCR-ASO

STATYSTYKA MATEMATYCZNA WYKŁAD 1

Język JAVA podstawy. wykład 2, część 1. Jacek Rumiński. Politechnika Gdańska, Inżynieria Biomedyczna

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Warunki udzielania świadczeń w rodzaju: świadczenia zdrowotne kontraktowane odrębnie 8. BADANIA GENETYCZNE

Możliwości i potencjalne zastosowania Zintegrowanego Systemu Analitycznego do innowacyjnych i kompleksowych badań molekularnych

Pytania i odpowiedzi

Choroba syropu klonowego

Zespół Alporta. Gen Choroba/objawy Sposób dziedziczenia. COL4A3 Zespół Alporta AD/AR 100. COL4A4 Zespół Alporta AD/AR 84. COL4A5 Zespół Alporta XL 583

Galaktozemia. Gen Choroba/objawy Sposób dziedziczenia GALE AR 12. GALK1 Niedobór galaktokinazy AR 14. GALT Galaktozemia AR 233

1. KEGG 2. GO. 3. Klastry

Badania genetyczne. Prof. dr hab. Maria M. Sąsiadek Katedra i Zakład Genetyki Konsultant krajowy ds. genetyki klinicznej

Nowoczesne systemy ekspresji genów

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Profilowanie somatyczne BRCA1, BRCA2

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

Badanie predyspozycji do łysienia androgenowego u kobiet (AGA)

Zespół krótkiego QT. Gen Choroba/objawy Sposób dziedziczenia. CACNA1C Zespół Brugadów, Zespół Timothy AD 15

Kwasica metylomalonowa

Acrodermatitis enteropathica

leczenia personalizowanego

Zespół hemolityczno-mocznicowy

Rak płuc. Gen Choroba/objawy Sposób dziedziczenia. CDKN2A Czerniak, Rak trzustki, Rak płuca, Zespół predyspozycji do nowotworów AD 26

Zespół Robinowa. Gen Choroba/objawy Sposób dziedziczenia. DVL1 Zespół Robinowa AD 17. ROR2 Zespół Robinow, Brachydaktylia AD/AR 17

Zespół Marfana, zespół Bealsa

S YL AB US MODUŁ U ( PRZEDMIOTU) I nforma c j e ogólne

Testowanie hipotez statystycznych

Przytarczyce, zaburzenia metabolizmu wapnia

Sekwencje akinezji płodu

Zastosowanie metabolomiki w diagnostyce medycznej Nowoczesne metody wykrywania chorób

Rak jelita grubego-terapie celowane i chemioterapia

Choroba Leśniowskiego i Crohna

Choroba Niemanna-Picka, typ C

Stwardnienie guzowate

Zaburzenia czynności płytek krwi

Mapowanie fizyczne genomów -konstrukcja map wyskalowanych w jednostkach fizycznych -najdokładniejszą mapą fizyczną genomu, o największej

Wrodzony przerost nadnerczy

Podstawy Programowania Obiektowego

Porażenie okresowe. Gen Choroba/objawy Sposób dziedziczenia. CACNA1S Porażenie okresowe hipokaliemiczne, Hipertermia złośliwa AD 14

Hiperaldosteronizm rodzinny

Rozkład materiału z biologii dla klasy III AD. 7 godz / tyg rok szkolny 2016/17

Zespół Adamsa-Olivera

Public gene expression data repositoris

Hemochromatoza. Gen Choroba/objawy Sposób dziedziczenia. HAMP Hemochromatosis AR 5. HFE Hemochromatosis, choroba Alzheimera, postać późna AR/Digenic 7

Tematyka zajęć z biologii

Moczówka prosta nerkowa

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

NIPT Nieinwazyjny Test Prenatalny (ang. Non-Invasive Prenatal Test)

Ryzyko otyłości. Gen Choroba/objawy Sposób dziedziczenia. ADRB3 Otyłość MG 1. APOA2 Otyłość MG 0. FTO Otyłość MG 4. MC4R Otyłość MG 28

METODY STATYSTYCZNE W BIOLOGII

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

S YLABUS MODUŁU (PRZEDMIOTU) I nformacje ogólne. Nie dotyczy

Pytania kwiecień, maj

Zaburzenia metabolizmu kreatyny

Podstawy genetyki człowieka. Cechy wieloczynnikowe

Pierwsze wdrożenie SAP BW w firmie

Przewlekła choroba ziarniniakowa

Informatyka I. Klasy i obiekty. Podstawy programowania obiektowego. dr inż. Andrzej Czerepicki. Politechnika Warszawska Wydział Transportu 2018

Niedobory czynników krzepnięcia

METODY STATYSTYCZNE W BIOLOGII

OFERTA SZKOLENIOWA PROGRESS SOFTWARE

PODSTAWY BIOINFORMATYKI 3 SEKWENCJONOWANIE GENOMÓW I

Paweł Kurzawa, Delfina Kongo

Tutorial prowadzi przez kolejne etapy tworzenia projektu począwszy od zdefiniowania przypadków użycia, a skończywszy na konfiguracji i uruchomieniu.

Zgrubienie paznokci. Gen Choroba/objawy Sposób dziedziczenia. AAGAB Keratoderma, palmoplantar, punctate AD 6. GJB6 Deafness AR/Digenic 8

Hemochromatoza. Gen Choroba/objawy Sposób dziedziczenia. HAMP Hemochromatoza, Choroba Alzheimera, postać późna AR 2

Zespół Meckela. Gen Choroba/objawy Sposób dziedziczenia. B9D1 Meckel syndrome AR 5. B9D2 Meckel syndrome AR 5

PODSTAWOWE ZASADY PROGRAMOWANIA OBIEKTOWEGO NA BAZIE PAKIETU ROOT

Scenariusz Web Design DHTML na 10 sesji. - Strony statyczne I dynamiczne. - Dodawanie kodu VBScript do strony HTML. Rysunek nie jest potrzebny

Automatyzacja testowania oprogramowania. Automatyzacja testowania oprogramowania 1/36

Bazy danych i R/Bioconductor

Zapalenie trzustki. Częstość występowania dziedzicznego zapalenia trzustki szacuje się na 1 na osób. Gen Choroba/objawy Sposób dziedziczenia

Dyskeratoza wrodzona

Pytania i odpowiedzi

Praktyczne wykorzystanie urządzenia Blue Pippin do przygotowywania wysokiej jakości bibliotek do DNA-Seq

Czynniki genetyczne sprzyjające rozwojowi otyłości

Transkrypt:

NGS ciąg dalszy Bioinformatyczna analiza danych Wykład 9 Dr Wioleta Drobik-Czwarno

Zalety NGS Sekwencjonowanie wysoko-przepustowe wiele próbek na raz Wiele genów w wielu próbkach co daje mniejszy koszt na pojedynczy gen Różne rodzaje danych Technologia jest cały czas udoskonalana Mniejszy koszt Mniejsze prawdopodobieństwo błędów Wyzwania NGS Wymagająca analiza bioinformatyczna Duże ilości danych Technologia jest cały czas udoskonalana, co wiąże się ze ciągłymi zmianami

Aplikacje NGS Frese et al., 2013. Next-Generation Sequencing: From Understanding Biology to Personalized Medicine

NGS w medycynie Onkologia Zaburzenia hematologiczne Warianty strukturalne Wady wrodzone Neurologia i psychiatria Nieinwazyjne testy prenatalne Kardiologia Farmakogenomika Choroby trudne w diagnostyce lub jeszcze niedokładnie poznane Demkow i Plonski, 2016. Clinical Applications for Next- Generation Sequencing.

NGS a spersonalizowana terapia onkologiczna Wykrywanie wariantów somatycznych na wczesnych etapach rozwoju nowotworu może prowadzić do spersonalizowanej terapii Rzadkie warianty, występujące u mniej niż 1% pacjentów mogą być powiązane z wrażliwością na leki Zrozumienie genetycznego podłoża nowotworów Diagnostyka nowotworów Przewidywanie reakcji na terapie (RNA-seq lub wykrywanie wariantów DNA) Sekwencjonowanie krążącego DNA nowotworowego (ctdna) DNA pochodzące od obumarłej komórki nowotworowej Wprowadzenie na szeroką skalę? Spadek cen Dopracowanie metod analizy bioinformatycznej

NGS a spersonalizowana terapia onkologiczna Cumminig et al. 2016. The Role of Next Generation Sequencing in Enabling Personalized Oncology Therapy

Pierwsze prace W roku 2001, zaraz po ukończeniu pierwszego etapu Human Genome Project pierwsze eksony z komórek nowotworowych zostały zsekwenjonowane techniką NGS Niedługo po tym przeprowadzono badania nad ostrą białaczką szpikową (ang. human accute leukemia, AML) u 140 pacjentów (Ley i wsp., 2003). Zidentyfikowano: 6 znanych wcześniej mutacji 7 nieznanych wcześniej mutacji powiązanych z patogenezą

Zestawienie za Shen i wsp., 2015

Największe problemy dla NGS w praktyce onkologicznej Dostępność próbek, a co za tym idzie często mała wielkość próby Ograniczona ilość materiału biologicznego Materiał pochodzi z biopsji (obciążenie dla pacjenta) bądź jest to ctdna (mała ilość materiału) Konieczne porównanie ze zdrową tkanką (obciążenie dla pacjenta) Problemy etyczne i bezpieczeństwo danych Koszt, brak dokładnej analizy ekonomicznej

Możliwości dla NGS w praktyce onkologicznej WGS (Whole genome Sequencing) Duży koszt wygenerowania i obróbki danych Możliwość wykrycia wariantów w sekwencjach nie kodujących, które mogą być powiązane z ekspresją genów WES (Whole exome Sequencing) Mniejszy koszt wygenerowania i przechowywania danych (ok. 2% WGS) Tylko warianty w sekwencjo kodującej Targeted sequencing Mniejszy koszt co umożliwia uzyskanie większego pokrycia DNA-seq + RNA-seq

Planowanie doświadczenia NGS o czym należy pamiętać Losowy dobór próbek do eksperymentu lub Wykorzystanie istniejącej struktury rodzinowej Dziedziczenie Potwierdzenie wykrytych wariantów Możliwość sekwencjonowania w grupach (tzw. Pool-seq) Mniejsze koszty Prostsza analiza

Bioconductor

Czym jest Bioconductor? Projekt zapoczątkowany przez Roberta Gentlemana w 2001 roku Jest to repozytorium kodu służące do gromadzenia, udostępniania i kontroli jakości narzędzi bioinformatycznych stworzonych w języku R

Bioconductor Cele projektu: zapewnienie otwartej platformy do analizy danych genomowych, integracja danych z różnych baz danych, promocja dobrej jakościowo dokumentacji i powtarzalności badań Istnieje możliwość dodawania własnych pakietów przez użytkowników

Programowanie obiektowe OOP ang. Object-oriented programming OOP: Przedstawienie świata rzeczywistego i relacji w nim zachodzących za pomocą obiektów Zarówno R jak i Bioconductor opiera się paradygmacie programowania OOP. Umożliwia to przedstawienie danych biologicznych w formie obiektów o równych właściwościach. Najważniejsze pojęcia: Klasa jest to typ zmiennej, inaczej definicja pewnej grupy obiektów. Definiuje metody oraz atrybuty. Atrybut jest to indywidualna cecha obiektów danej klasy Metoda funkcjonalność dostarczana przez obiekty, inaczej funkcje, które wykonują zadania na obiektach danej klasy Obiekt jest instancją danej klasy, konkretna zmienna danego typu

Programowanie obiektowe OOP ang. Object-oriented programming Przykład 1: Klasa: Człowiek Metody: spanie, jedzenie, poruszanie się, mówienie, itd. Atrybuty: imię, nazwisko, data urodzenia itd. Obiekty klasy człowiek: Janek, Kasia, Adam Przykład 2: Klasa: DNA Metody: zwróć sekwencję komplementarna, zwróć sekwencję odwrotna, przetłumacz na sekwencję AA Atrybuty: długość, identyfikator Obiekty klasy DNA: sekwencja_1, sekwencja_2

Programowanie obiektowe OOP ang. Object-oriented programming Funkcja generyczna sprawdza podane argumenty i dobiera odpowiednią metodę. Przykłady w R: plot, summary, print Wywołując funkję generyczną uzyskany efekt będzie zależny od klasy jej argumentów a dokładniej metod danej klasy Pozwala to dopasować obliczenia bezpośrednio do typu danych

Instalacja Zanim zaczniemy instalować podstawę oraz pakiety: source("http://bioconductor.org/bioclite.r") Instalacja: bioclite() służy do instalacji szeregu pakietów tworzących podstawę bioconductora Instalacja pakietow nie będących w podstawowej wersji: bioclite("snpchip")

Przykładowe pakiety podstawowe do analizy sekwencji Biostrings klasy oraz funkcje dla sekwencji BSgenome i inne sekwencje referencyjne dla różnych gatunków GenomicRanges manipulowanie przedziałami genomowymi GenomicFeatures pozyskiwanie i manipulowanie danymi z publicznych baz danych

Pakiety podstawowe Biobase: Podstawowe klasy i definicje, które pozwalają na dokładny opis danych oraz manipulowanie nimi Funkcje niezbędne do działania wielu pakietów, zastępujące funkcję w podstawowej wersji R Huber, W., Carey, J. V, Gentleman, R., Anders, S., Carlson, M., Carvalho, S. B, Bravo, C. H, Davis, S., Gatto, L., Girke, T., Gottardo, R., Hahne, F., Hansen, D. K, Irizarry, A. R, Lawrence, M., Love, I. M, MacDonald, J., Obenchain, V., Ole's, K. A, Pag'es, H., Reyes, A., Shannon, P., Smyth, K. G, Tenenbaum, D., Waldron, L., Morgan and M. (2015). Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods, 12(2), pp. 115 121.

Pakiety podstawowe Biostrings: Wydajne (oszczędzające RAM) kontenery na ciągi znaków, algorytmy dopasowania oraz inne funkcje, dla szybkiego manipulowania dużymi sekwencjami biologicznymi lub ich zestawami. Pagès H, Aboyoun P, Gentleman R and DebRoy S (2017). Biostrings: String objects representing biological sequences, and matching algorithms. R package version 2.44.0.

Przykładowe pakiety: Adnotacja: annotate, annaffy, biomart Graphics/GUIs: geneplotter, hexbin, limmagui, explorase Pre-processing: affy, affycomp, oligo, makecdfenv, vsn, gcrm, limma Differential gene expression: genefilter, limma, ROC, siggenes, EBArrays, factdesign GSEA/Hypergeometric Testing GSEABase, Category, GOstats, topgo Graphs and networks: graph, RBGL, Rgraphviz Flow Cytometry: flowcore, flowviz, flowutils Protein Interactions: ppidata, ppistats, ScISI, Rintact Sequence Data: Biostrings,ShortRead,rtracklayer,IRanges,GenomicFeatures, VariantAnnotation Other data: xcms, DNAcopy, PROcess, acgh, rsbml, SBMLR, Rdisop

Instrukcje Źródło: https://www.bioconductor.org/help/workflows/ I dużo więcej w advanced workflows

GWAS w R a Bioconductor GenABEL Bioconductor GWASTools SNPRelate SNPRelate umożliwia wykonanie analizy PCA oraz analizę podobieństwa PCA vs MDS: informacja o % zmienności genetycznej wyjaśnianej przez każdy komponent Informacje o % udziale każdego markera w danych komponencie (loadings)

Jak zacząć z pakietem Biostrings? Instalacja: source("http://bioconductor.org/bioclite.r") bioclite("biostrings ) Ładowanie pakietu: require(biostrings) Wygenerowanie przykładowej sekwencji o długości 10pz: seq_raw <- sample(letters[c(1,3,7,20)], size=10, replace=true) Wynik: [1] "C" "G" "T" "A" "T" "T" "G" "G" "A" "A" seq = paste(seq_raw, collapse="")

Klasa Xstrings i BStrings Klasa pozwala na tworzenie, przechowywanie oraz zapewnia metody pracy z różnymi typami tekstu Najważniejsze subklasy Bstring - DNAString, RNAString, AAString DNAString klasa obiektów, umożliwia wydajne manipulowanie i przechowywanie długich sekwencji DNA Bstring przechowuje sekwencje w kodzie IUPAC Tworzenie obiektu klasy Bstring bstring<-bstring( tekst ) bstring 9-letter Bstring instance seq: tekst

IUPAC Międzynarodowa Unia Chemii Czystej i Stosowanej ang. International Union of Pure and Applied Chemistry Kod, który uwzględnia również zdegenerowane zasady

Dziękuję za uwagę