Big Data Genomics Pipelines

Podobne dokumenty
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Analizy wielkoskalowe w badaniach chromatyny

Analiza genomu człowieka przy wykorzystaniu NGS w kontekście diagnostyki medycznej

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

Różnorodność osobników gatunku

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Bioinformatyczna analiza danych. Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Searching for SNPs with cloud computing

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

Ekologia molekularna. wykład 11

Hadoop i Spark. Mariusz Rafało

Niepełnosprawność intelektualna

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

Podstawy bioinformatyki sekwencjonowanie nowej generacji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Zaawansowane bazy danych i hurtownie danych Wydział Informatyki Politechnika Białostocka

Wprowadzenie do Apache Spark. Jakub Toczek

GENOMIKA. MAPOWANIE GENOMÓW MAPY GENOMICZNE

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

Metody: PCR, MLPA, Sekwencjonowanie, PCR-RLFP, PCR-Multiplex, PCR-ASO

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

Projektowanie architektury systemu rozproszonego. Jarosław Kuchta Projektowanie Aplikacji Internetowych

Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu

na podstawie bazy Oracle NoSQL

Perspektywy zastosowania badań genomicznych w hodowli zwierząt

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Metody optymalizacji soft-procesorów NIOS

Sekwencjonowanie, przewidywanie genów

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Epigenome - 'above the genome'

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

PODSTAWY BIOINFORMATYKI 3 SEKWENCJONOWANIE GENOMÓW I

NoSQL & relax with CouchDB

Jak Big Data rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Analiza zmienności czasowej danych mikromacierzowych

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Tematy projektów Edycja 2014

INSTYTUT GENETYKI ROŚLIN POLSKIEJ AKADEMII NAUK

BalticBottomBase. Instytut Morski w Gdańsku Gdańsk,

Bazy danych i R/Bioconductor

Wprowadzenie do Hurtowni Danych

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

BASH - WPROWADZENIE Bioinformatyka 4

Oracle Log Analytics Cloud Service

Programowanie współbieżne Wykład 2. Iwona Kochańska

Porównanie wydajności CUDA i OpenCL na przykładzie równoległego algorytmu wyznaczania wartości funkcji celu dla problemu gniazdowego

CouchDB. Michał Nowikowski

PODSTAWY BIOINFORMATYKI ORGANIZACJA ZAJĘĆ BIOINFORMATYKA PRZETWARZANIE I ANALIZA DANYCH

Algorytmy i Struktury Danych

Możliwości i potencjalne zastosowania Zintegrowanego Systemu Analitycznego do innowacyjnych i kompleksowych badań molekularnych

PRACOWNIA INFORMATYCZNA CHARAKTERYSTYKA PRZEDMIOTU BASH - PODSTAWOWE INFORMACJE

Sprzętowo wspomagane metody klasyfikacji danych

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

Tematy projektów Edycja 2019

prof. Joanna Chorostowska-Wynimko Zakład Genetyki i Immunologii Klinicznej Instytut Gruźlicy i Chorób Płuc w Warszawie

POPULARNE POLECENIA SKRYPTY. Pracownia Informatyczna 2

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

Rozwiązania bazodanowe EnterpriseDB

Potencjał naukowo-badawczy Działu Genomiki i Biologii Molekularnej Zwierząt IZ PIB

Dni: 2. Partner merytoryczny. Opis: Adresaci szkolenia

Bioinformatyka: Wykład 5. Bioconductor

Przybliżone algorytmy analizy ekspresji genów.

MIKROMACIERZE. dr inż. Aleksandra Świercz dr Agnieszka Żmieńko

PLNOG#10 Hadoop w akcji: analiza logów 1

Rak tarczycy - prognostyka

BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2

Database resources of the National Center for Biotechnology Information. Magdalena Malczyk

Produktywne tworzenie aplikacji webowych z wykorzystaniem Groovy i

Nowoczesne systemy ekspresji genów

Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi

Tematy prac dyplomowych inżynierskich

Bioinformatyka, edycja 2016/2017, laboratorium

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Bazy danych - wykład wstępny

Programowanie i struktury danych. Wykład 4 Dr Piotr Cybula

Przewidywanie miejsc wiązania nukleosomów w genomie drożdży

Informatyka I. Typy danych. Operacje arytmetyczne. Konwersje typów. Zmienne. Wczytywanie danych z klawiatury. dr hab. inż. Andrzej Czerepicki

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

1. System analizy danych NGS z paneli genów

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

VMware vsphere: Automation Fast Track

Jak wygląda składanie sekwencji w przypadku sekwencjonowania de novo? Jakie wykorzystuje się do tego narzędzia?

Transkrypt:

Big Data Genomics Pipelines Processing and Analysing Big Data mgr inż. Marek Wiewiórka 1 dr inż. Tomasz Gambin dr hab. inż. Michał Okoniewski 2 prof. dr hab. inż. Henryk Rybiński 1 Instytut Informatyki, Politechnika Warszawska 2 Scientific IT Services, ETH Zurich 1

Plan prezentacji 1 Sekwencjonowanie nowej generacji wprowadzenie 2 Sekwencjonowanie nowej generacji (NGS) jako problem big data 3 Analiza danych z NGS 4 Architektura i wyzwania w analizie danych 5 Projekt BDG big data genomics 6 Prototypy rozwiązań ZSI-Bio 7 Dalsze kierunki badań ZSI-Bio Wprowadzenie do NGS 2 / 31

Sekwencjonowanie nowej generacji różne technologie służące do wysokowydajnego, równoległego odczytywania kolejnych nukleotydów w cząsteczkach DNA; metody te umożliwiają wykonywanie sekwencjonowania i analiz: całych genomów DNA-Seq (whole-genome sequencing); całych transkryptów (odwrotna transkrypcja na cdna) RNA-Seq; eksomów exome sequencing; immunoprecypitacji chromatyny (Chip-Seq); metylacji DNA (Bisulfite-seq); wybranych fragmentów (targeted sequencing panels). pojedynczy sekwencer wykonuje odczyt krótkich fragmentów zazwyczaj w czasie od 1,2 dni do tygodnia i może generować ok. 0.7TB do 1.5TB surowych danych genomicznych, do tego należy doliczyć jeszcze przynajmniej drugie tyle danych kontrolnych. ZSI-Bio Wprowadzenie do NGS 3 / 31

Przebieg eksperymentu Rysunek: Źródło:http://www.slideshare.net/TimothyDanford/tdanford-spark ZSI-Bio Wprowadzenie do NGS 4 / 31

Plan prezentacji 1 Sekwencjonowanie nowej generacji wprowadzenie 2 Sekwencjonowanie nowej generacji (NGS) jako problem big data 3 Analiza danych z NGS 4 Architektura i wyzwania w analizie danych 5 Projekt BDG big data genomics 6 Prototypy rozwiązań ZSI-Bio 7 Dalsze kierunki badań ZSI-Bio NGS jako problem big data 5 / 31

Dlaczego big data 1/3 typowe wolumeny danych typowy plik BAM (Binary Alignment Map) dla 1 próbki z sekwencjonowania cało genomowego to ok. 100-150GB (3*10 9 bp, pokrycie 30 z kompresją danych); rozmiar pliku zależy zarówno od liczby sekwencjonowanych regionów jak i średniej głębokości(pokrycia); przykładowo dla Illumina X Ten można oszacować, iż wolumen danych może sięgać 320*30*2*3GB 60TB/tydzień i ponad 3PB/rok!; powyższe dane obejmują tylko surowe dane-niezmapowane (FASTQ), dane zmapowane (BAM) to kolejne 30-45TB/tydzień. Rysunek: Porównanie przepustowości sekwencerów Illumina (liczba próbek), Żródło:http://res.illumina.com/documents/products/datasheets/datasheet-hiseq-x-ten.pdf ZSI-Bio NGS jako problem big data 6 / 31

Dlaczego big data 2/3 Rysunek: Genomika jako problem big data, Źródło: Knights Cancer Institute, Oregon Health Sciences University & Intel ZSI-Bio NGS jako problem big data 7 / 31

Dlaczego big data 3/3 Rysunek: Liczba próbek sekwencjonowanych z podziałem na typ w ostatnich latach, Źródło: Broad Genomics ZSI-Bio NGS jako problem big data 8 / 31

Plan prezentacji 1 Sekwencjonowanie nowej generacji wprowadzenie 2 Sekwencjonowanie nowej generacji (NGS) jako problem big data 3 Analiza danych z NGS 4 Architektura i wyzwania w analizie danych 5 Projekt BDG big data genomics 6 Prototypy rozwiązań ZSI-Bio 7 Dalsze kierunki badań ZSI-Bio Analiza danych z NGS 9 / 31

Przykładowy przebieg analizy danych z NGS i formaty Rysunek: Analiza danych z sekwencjonowania DNA, Żródło:http://gatkforums.broadinstitute.org/discussion/1186/ best-practice-variant-detection-with-the-gatk-v4-for-release-2-0-retired ZSI-Bio Analiza danych z NGS 10 / 31

Wybrane analizy DNA/RNA/Bisulfite-seq znajdowanie nowych wariantów różnego typu: SNV single nucleotide variant; małe zmiany strukturalne np. insercje, delecje, duplikacje; duże zmiany strukturalne zmiany liczby kopii. pomiar ekspresji różnicowej genów (eksonów); odkrywanie nowych transkryptów, isoform genów; odkrywanie biomarkerów stopnia metylacji skorelowanych z różnymi zmiennymi objaśniającymi; poznawanie genomów wybranych gatunków sekwencjonowania de-novo. ZSI-Bio Analiza danych z NGS 11 / 31

Przykładowe zastosowania kliniczne wyników analiz NGS personalizowana terapia medyczna; badania przesiewowe (ang. screening) w szczególności new born screening; diagnostyka chorób rzadkich; diagnostyka chorób uwarunkowanych genetycznie, które przebiegają w sposób nietypowy lub bezobjawowy; szybka identyfikacja patogenów ożywionych (np. bakterii, wirusów, robaków pasożytniczych) metagenomika; itd... ZSI-Bio Analiza danych z NGS 12 / 31

Plan prezentacji 1 Sekwencjonowanie nowej generacji wprowadzenie 2 Sekwencjonowanie nowej generacji (NGS) jako problem big data 3 Analiza danych z NGS 4 Architektura i wyzwania w analizie danych 5 Projekt BDG big data genomics 6 Prototypy rozwiązań ZSI-Bio 7 Dalsze kierunki badań ZSI-Bio Architektura i wyzwania w analizie danych 13 / 31

Wyzwania dla zastosowania big data w NGS 1/2 tekstowe i binarne formaty danych specyficzne dla NGS, często zaprojektowane w sposób uniemożliwiający ich wydajne wykorzystanie w środowisku rozproszonym: obecność scentralizowanych nagłówków; wykorzystanie algorytmów/metod kompresji oraz formaty zapisu, które nie są łatwe do fragmentowania plików; przechowywanie danych w sposób wierszowy pogarszające kompresję danych oraz wydajność zapytań na podzbiorach kolumn; brak schematów danych bądź ich zdefiniowanie w sposób niekompletny/niespójny. heterogeniczność wykorzystanych technologii informatycznych: ZSI-Bio Architektura i wyzwania w analizie danych 14 / 31

Wyzwania dla zastosowania big data w NGS 2/2 wykorzystanie bardzo wielu języków programowania (np. C, Python, Perl, R, shell); bardzo wiele istniejących narzędzi, które wykonują prawie te same lub podobne operacje; bardzo wiele metod zaimplementowanych w sposób sekwencyjny, ewentualnie umożliwiające ręczne wstępne popartycjonowanie danych w celu osiągnięcia równoległości brak elastyczności obliczeń i alokacji zasobów; brak odpowiednich mechanizmów bezpieczeństwa do pracy środowisku rozproszonym i chmurowym. ZSI-Bio Architektura i wyzwania w analizie danych 15 / 31

Architektura big data dla NGS Rysunek: Stos komponentów wykorzystanych analizach big data dla NGS, Źródło: Opracowanie własne ZSI-Bio ZSI-Bio Architektura i wyzwania w analizie danych 16 / 31

Plan prezentacji 1 Sekwencjonowanie nowej generacji wprowadzenie 2 Sekwencjonowanie nowej generacji (NGS) jako problem big data 3 Analiza danych z NGS 4 Architektura i wyzwania w analizie danych 5 Projekt BDG big data genomics 6 Prototypy rozwiązań ZSI-Bio 7 Dalsze kierunki badań ZSI-Bio Projekt BDG big data genomics 17 / 31

Rodzina formatów i zarys architektury ADAM biblioteki do analiz genomicznych opartych na Apache Spark; schematy Avro dla danych genomicznych; dane przechowywane w formacie Apache Parquet; narzędza obsługiwane z linii poleceń (adam-shell, adam-cli). Rysunek: [Źródło:https://github.com/bigdatagenomics/adam/tree/master/docs ZSI-Bio Projekt BDG big data genomics 18 / 31

ADAM Avro + Parquet Avro: {"namespace": "example.avro", "type": "record", "name": "User", "fields": [ {"name": "name", "type": "string"}, {"name": "favorite_number", "type": ["int", "null"]}, {"name": "favorite_color", "type": ["string", "null"]} ] } Rysunek: Źródło: http://www.slideshare.net/cloudera/hadoop-summit-36479635 ZSI-Bio Projekt BDG big data genomics 19 / 31

Inne projekty Big data w genomice Hadoop-BAM[4] (2012) http://seqpig.sourceforge.net/ SeqPig[7] (2014) http://seqpig.sourceforge.net/ Seal[6] (2011) https://github.com/ilveroluca/seal SparkSeq[8] (2014) https://bitbucket.org/mwiewiorka/sparkseq/ SparkSW [9] (2015) VariantSpark [5] (2015) SeqHBase[2] (2015) http://seqhbase.omicspace.org/ Halvade[1] (2015) https://github.com/ddcap/halvade GenoMetric Query Language[3] (2015) http: //www.bioinformatics.deib.polimi.it/genomic_computing/gmql/ ZSI-Bio Projekt BDG big data genomics 20 / 31

Plan prezentacji 1 Sekwencjonowanie nowej generacji wprowadzenie 2 Sekwencjonowanie nowej generacji (NGS) jako problem big data 3 Analiza danych z NGS 4 Architektura i wyzwania w analizie danych 5 Projekt BDG big data genomics 6 Prototypy rozwiązań ZSI-Bio 7 Dalsze kierunki badań ZSI-Bio Prototypy rozwiązań ZSI-Bio 21 / 31

Analizy liczby kopii CNV (Copy Number Variation) 1/2 Rysunek: Zasada działania algorytmu CoNIFER, Źródło: Opracowanie własne ZSI-Bio ZSI-Bio Prototypy rozwiązań ZSI-Bio 22 / 31

Analizy liczby kopii CNV (Copy Number Variation) 2/2 Rysunek: Czas obliczeń detekcji CNV w funkcji liczby rdzeni ( a) CoNIFER i ZSI-BIO-CNV, b) Skalowalność ZSI-BIO-CNV), Źródło: Opracowanie własne ZSI-Bio ZSI-Bio Prototypy rozwiązań ZSI-Bio 23 / 31

Trimming i kontrola jakości trimming krótkich odczytów wg różnych kryteriów jakości oraz usuwanie adapterów Illuminy Rysunek: Czas obliczeń metody crop z w funkcji liczby rdzeni ( a) Trimmomatic i ZSI-BIO-Stearns, b) Skalowalność ZSI-BIO-Stearns), Źródło: Opracowanie własne ZSI-Bio ZSI-Bio Prototypy rozwiązań ZSI-Bio 24 / 31

Plan prezentacji 1 Sekwencjonowanie nowej generacji wprowadzenie 2 Sekwencjonowanie nowej generacji (NGS) jako problem big data 3 Analiza danych z NGS 4 Architektura i wyzwania w analizie danych 5 Projekt BDG big data genomics 6 Prototypy rozwiązań ZSI-Bio 7 Dalsze kierunki badań ZSI-Bio Dalsze kierunki badań 25 / 31

Dalsze kierunki badań przy użyciu technologii big data większa rozdzielczość analiz w przypadku analiz RNA-Seq może to oznaczać przejście z poziomu genów/eksonów na poziom pojedynczych nukleotydów; większa skala analiz genomika populacyjna, genomiczne hurtownie danych; integracja danych pochodzących z różnych analiz sekwencjonowania, np. (DNA-Seq, RNA-Seq i Bisulfite-Seq) z innymi danymi fenotypowymi; zwiększenie szybkości analiz wymuszone przez wzrost przepustowości sekwencerów projektowanie skalowalnych procesów przetwarzania i analizy danych; automatyzacja przetwarzania danych; przejście do strumieniowania danych; itd... ZSI-Bio Dalsze kierunki badań 26 / 31

Przyszłość... ZSI-Bio Dalsze kierunki badań 27 / 31

Dziękuję za uwagę. Marek Wiewiórka http://zsibio.ii.pw.edu.pl marek.wiewiorka@gmail.com ZSI-Bio Dalsze kierunki badań 28 / 31

Bibliografia I Dries Decap, Joke Reumers, Charlotte Herzeel, Pascal Costanza, and Jan Fostier. Halvade: scalable sequence analysis with mapreduce. Bioinformatics, page btv179, 2015. Min He, Thomas N Person, Scott J Hebbring, Ethan Heinzen, Zhan Ye, Steven J Schrodi, Elizabeth W McPherson, Simon M Lin, Peggy L Peissig, Murray H Brilliant, et al. Seqhbase: a big data toolset for family based sequencing data analysis. Journal of medical genetics, pages jmedgenet 2014, 2015. Marco Masseroli, Pietro Pinoli, Francesco Venco, Abdulrahman Kaitoua, Vahid Jalili, Fernando Palluzzi, Heiko Muller, and Stefano Ceri. Genometric query language: A novel approach to large-scale genomic data management. Bioinformatics, page btv048, 2015. Matti Niemenmaa, Aleksi Kallio, André Schumacher, Petri Klemelä, Eija Korpelainen, and Keijo Heljanko. Hadoop-bam: directly manipulating next generation sequencing data in the cloud. Bioinformatics, 28(6):876 877, 2012. ZSI-Bio Dalsze kierunki badań 29 / 31

Bibliografia II Aidan R O Brien, Neil FW Saunders, Yi Guo, Fabian A Buske, Rodney J Scott, and Denis C Bauer. Variantspark: population scale clustering of genotype information. BMC genomics, 16(1):1, 2015. Luca Pireddu, Simone Leo, and Gianluigi Zanetti. Seal: a distributed short read mapping and duplicate removal tool. Bioinformatics, 27(15):2159 2160, 2011. André Schumacher, Luca Pireddu, Matti Niemenmaa, Aleksi Kallio, Eija Korpelainen, Gianluigi Zanetti, and Keijo Heljanko. Seqpig: simple and scalable scripting for large sequencing data sets in hadoop. Bioinformatics, 30(1):119 120, 2014. Marek S Wiewiórka, Antonio Messina, Alicja Pacholewska, Sergio Maffioletti, Piotr Gawrysiak, and Michał J Okoniewski. Sparkseq: fast, scalable, cloud-ready tool for the interactive genomic data analysis with nucleotide precision. Bioinformatics, page btu343, 2014. ZSI-Bio Dalsze kierunki badań 30 / 31

Bibliografia III Guoguang Zhao, Cheng Ling, and Donghong Sun. Sparksw: scalable distributed computing system for large-scale biological sequence alignment. In Cluster, Cloud and Grid Computing (CCGrid), 2015 15th IEEE/ACM International Symposium on, pages 845 852. IEEE, 2015. ZSI-Bio Dalsze kierunki badań 31 / 31