Big Data Genomics Pipelines
|
|
- Henryk Filipiak
- 6 lat temu
- Przeglądów:
Transkrypt
1 Big Data Genomics Pipelines Processing and Analysing Big Data mgr inż. Marek Wiewiórka 1 dr inż. Tomasz Gambin dr hab. inż. Michał Okoniewski 2 prof. dr hab. inż. Henryk Rybiński 1 Instytut Informatyki, Politechnika Warszawska 2 Scientific IT Services, ETH Zurich 1
2 Plan prezentacji 1 Sekwencjonowanie nowej generacji wprowadzenie 2 Sekwencjonowanie nowej generacji (NGS) jako problem big data 3 Analiza danych z NGS 4 Architektura i wyzwania w analizie danych 5 Projekt BDG big data genomics 6 Prototypy rozwiązań ZSI-Bio 7 Dalsze kierunki badań ZSI-Bio Wprowadzenie do NGS 2 / 31
3 Sekwencjonowanie nowej generacji różne technologie służące do wysokowydajnego, równoległego odczytywania kolejnych nukleotydów w cząsteczkach DNA; metody te umożliwiają wykonywanie sekwencjonowania i analiz: całych genomów DNA-Seq (whole-genome sequencing); całych transkryptów (odwrotna transkrypcja na cdna) RNA-Seq; eksomów exome sequencing; immunoprecypitacji chromatyny (Chip-Seq); metylacji DNA (Bisulfite-seq); wybranych fragmentów (targeted sequencing panels). pojedynczy sekwencer wykonuje odczyt krótkich fragmentów zazwyczaj w czasie od 1,2 dni do tygodnia i może generować ok. 0.7TB do 1.5TB surowych danych genomicznych, do tego należy doliczyć jeszcze przynajmniej drugie tyle danych kontrolnych. ZSI-Bio Wprowadzenie do NGS 3 / 31
4 Przebieg eksperymentu Rysunek: Źródło: ZSI-Bio Wprowadzenie do NGS 4 / 31
5 Plan prezentacji 1 Sekwencjonowanie nowej generacji wprowadzenie 2 Sekwencjonowanie nowej generacji (NGS) jako problem big data 3 Analiza danych z NGS 4 Architektura i wyzwania w analizie danych 5 Projekt BDG big data genomics 6 Prototypy rozwiązań ZSI-Bio 7 Dalsze kierunki badań ZSI-Bio NGS jako problem big data 5 / 31
6 Dlaczego big data 1/3 typowe wolumeny danych typowy plik BAM (Binary Alignment Map) dla 1 próbki z sekwencjonowania cało genomowego to ok GB (3*10 9 bp, pokrycie 30 z kompresją danych); rozmiar pliku zależy zarówno od liczby sekwencjonowanych regionów jak i średniej głębokości(pokrycia); przykładowo dla Illumina X Ten można oszacować, iż wolumen danych może sięgać 320*30*2*3GB 60TB/tydzień i ponad 3PB/rok!; powyższe dane obejmują tylko surowe dane-niezmapowane (FASTQ), dane zmapowane (BAM) to kolejne 30-45TB/tydzień. Rysunek: Porównanie przepustowości sekwencerów Illumina (liczba próbek), Żródło: ZSI-Bio NGS jako problem big data 6 / 31
7 Dlaczego big data 2/3 Rysunek: Genomika jako problem big data, Źródło: Knights Cancer Institute, Oregon Health Sciences University & Intel ZSI-Bio NGS jako problem big data 7 / 31
8 Dlaczego big data 3/3 Rysunek: Liczba próbek sekwencjonowanych z podziałem na typ w ostatnich latach, Źródło: Broad Genomics ZSI-Bio NGS jako problem big data 8 / 31
9 Plan prezentacji 1 Sekwencjonowanie nowej generacji wprowadzenie 2 Sekwencjonowanie nowej generacji (NGS) jako problem big data 3 Analiza danych z NGS 4 Architektura i wyzwania w analizie danych 5 Projekt BDG big data genomics 6 Prototypy rozwiązań ZSI-Bio 7 Dalsze kierunki badań ZSI-Bio Analiza danych z NGS 9 / 31
10 Przykładowy przebieg analizy danych z NGS i formaty Rysunek: Analiza danych z sekwencjonowania DNA, Żródło: best-practice-variant-detection-with-the-gatk-v4-for-release-2-0-retired ZSI-Bio Analiza danych z NGS 10 / 31
11 Wybrane analizy DNA/RNA/Bisulfite-seq znajdowanie nowych wariantów różnego typu: SNV single nucleotide variant; małe zmiany strukturalne np. insercje, delecje, duplikacje; duże zmiany strukturalne zmiany liczby kopii. pomiar ekspresji różnicowej genów (eksonów); odkrywanie nowych transkryptów, isoform genów; odkrywanie biomarkerów stopnia metylacji skorelowanych z różnymi zmiennymi objaśniającymi; poznawanie genomów wybranych gatunków sekwencjonowania de-novo. ZSI-Bio Analiza danych z NGS 11 / 31
12 Przykładowe zastosowania kliniczne wyników analiz NGS personalizowana terapia medyczna; badania przesiewowe (ang. screening) w szczególności new born screening; diagnostyka chorób rzadkich; diagnostyka chorób uwarunkowanych genetycznie, które przebiegają w sposób nietypowy lub bezobjawowy; szybka identyfikacja patogenów ożywionych (np. bakterii, wirusów, robaków pasożytniczych) metagenomika; itd... ZSI-Bio Analiza danych z NGS 12 / 31
13 Plan prezentacji 1 Sekwencjonowanie nowej generacji wprowadzenie 2 Sekwencjonowanie nowej generacji (NGS) jako problem big data 3 Analiza danych z NGS 4 Architektura i wyzwania w analizie danych 5 Projekt BDG big data genomics 6 Prototypy rozwiązań ZSI-Bio 7 Dalsze kierunki badań ZSI-Bio Architektura i wyzwania w analizie danych 13 / 31
14 Wyzwania dla zastosowania big data w NGS 1/2 tekstowe i binarne formaty danych specyficzne dla NGS, często zaprojektowane w sposób uniemożliwiający ich wydajne wykorzystanie w środowisku rozproszonym: obecność scentralizowanych nagłówków; wykorzystanie algorytmów/metod kompresji oraz formaty zapisu, które nie są łatwe do fragmentowania plików; przechowywanie danych w sposób wierszowy pogarszające kompresję danych oraz wydajność zapytań na podzbiorach kolumn; brak schematów danych bądź ich zdefiniowanie w sposób niekompletny/niespójny. heterogeniczność wykorzystanych technologii informatycznych: ZSI-Bio Architektura i wyzwania w analizie danych 14 / 31
15 Wyzwania dla zastosowania big data w NGS 2/2 wykorzystanie bardzo wielu języków programowania (np. C, Python, Perl, R, shell); bardzo wiele istniejących narzędzi, które wykonują prawie te same lub podobne operacje; bardzo wiele metod zaimplementowanych w sposób sekwencyjny, ewentualnie umożliwiające ręczne wstępne popartycjonowanie danych w celu osiągnięcia równoległości brak elastyczności obliczeń i alokacji zasobów; brak odpowiednich mechanizmów bezpieczeństwa do pracy środowisku rozproszonym i chmurowym. ZSI-Bio Architektura i wyzwania w analizie danych 15 / 31
16 Architektura big data dla NGS Rysunek: Stos komponentów wykorzystanych analizach big data dla NGS, Źródło: Opracowanie własne ZSI-Bio ZSI-Bio Architektura i wyzwania w analizie danych 16 / 31
17 Plan prezentacji 1 Sekwencjonowanie nowej generacji wprowadzenie 2 Sekwencjonowanie nowej generacji (NGS) jako problem big data 3 Analiza danych z NGS 4 Architektura i wyzwania w analizie danych 5 Projekt BDG big data genomics 6 Prototypy rozwiązań ZSI-Bio 7 Dalsze kierunki badań ZSI-Bio Projekt BDG big data genomics 17 / 31
18 Rodzina formatów i zarys architektury ADAM biblioteki do analiz genomicznych opartych na Apache Spark; schematy Avro dla danych genomicznych; dane przechowywane w formacie Apache Parquet; narzędza obsługiwane z linii poleceń (adam-shell, adam-cli). Rysunek: [Źródło: ZSI-Bio Projekt BDG big data genomics 18 / 31
19 ADAM Avro + Parquet Avro: {"namespace": "example.avro", "type": "record", "name": "User", "fields": [ {"name": "name", "type": "string"}, {"name": "favorite_number", "type": ["int", "null"]}, {"name": "favorite_color", "type": ["string", "null"]} ] } Rysunek: Źródło: ZSI-Bio Projekt BDG big data genomics 19 / 31
20 Inne projekty Big data w genomice Hadoop-BAM[4] (2012) SeqPig[7] (2014) Seal[6] (2011) SparkSeq[8] (2014) SparkSW [9] (2015) VariantSpark [5] (2015) SeqHBase[2] (2015) Halvade[1] (2015) GenoMetric Query Language[3] (2015) http: // ZSI-Bio Projekt BDG big data genomics 20 / 31
21 Plan prezentacji 1 Sekwencjonowanie nowej generacji wprowadzenie 2 Sekwencjonowanie nowej generacji (NGS) jako problem big data 3 Analiza danych z NGS 4 Architektura i wyzwania w analizie danych 5 Projekt BDG big data genomics 6 Prototypy rozwiązań ZSI-Bio 7 Dalsze kierunki badań ZSI-Bio Prototypy rozwiązań ZSI-Bio 21 / 31
22 Analizy liczby kopii CNV (Copy Number Variation) 1/2 Rysunek: Zasada działania algorytmu CoNIFER, Źródło: Opracowanie własne ZSI-Bio ZSI-Bio Prototypy rozwiązań ZSI-Bio 22 / 31
23 Analizy liczby kopii CNV (Copy Number Variation) 2/2 Rysunek: Czas obliczeń detekcji CNV w funkcji liczby rdzeni ( a) CoNIFER i ZSI-BIO-CNV, b) Skalowalność ZSI-BIO-CNV), Źródło: Opracowanie własne ZSI-Bio ZSI-Bio Prototypy rozwiązań ZSI-Bio 23 / 31
24 Trimming i kontrola jakości trimming krótkich odczytów wg różnych kryteriów jakości oraz usuwanie adapterów Illuminy Rysunek: Czas obliczeń metody crop z w funkcji liczby rdzeni ( a) Trimmomatic i ZSI-BIO-Stearns, b) Skalowalność ZSI-BIO-Stearns), Źródło: Opracowanie własne ZSI-Bio ZSI-Bio Prototypy rozwiązań ZSI-Bio 24 / 31
25 Plan prezentacji 1 Sekwencjonowanie nowej generacji wprowadzenie 2 Sekwencjonowanie nowej generacji (NGS) jako problem big data 3 Analiza danych z NGS 4 Architektura i wyzwania w analizie danych 5 Projekt BDG big data genomics 6 Prototypy rozwiązań ZSI-Bio 7 Dalsze kierunki badań ZSI-Bio Dalsze kierunki badań 25 / 31
26 Dalsze kierunki badań przy użyciu technologii big data większa rozdzielczość analiz w przypadku analiz RNA-Seq może to oznaczać przejście z poziomu genów/eksonów na poziom pojedynczych nukleotydów; większa skala analiz genomika populacyjna, genomiczne hurtownie danych; integracja danych pochodzących z różnych analiz sekwencjonowania, np. (DNA-Seq, RNA-Seq i Bisulfite-Seq) z innymi danymi fenotypowymi; zwiększenie szybkości analiz wymuszone przez wzrost przepustowości sekwencerów projektowanie skalowalnych procesów przetwarzania i analizy danych; automatyzacja przetwarzania danych; przejście do strumieniowania danych; itd... ZSI-Bio Dalsze kierunki badań 26 / 31
27 Przyszłość... ZSI-Bio Dalsze kierunki badań 27 / 31
28 Dziękuję za uwagę. Marek Wiewiórka ZSI-Bio Dalsze kierunki badań 28 / 31
29 Bibliografia I Dries Decap, Joke Reumers, Charlotte Herzeel, Pascal Costanza, and Jan Fostier. Halvade: scalable sequence analysis with mapreduce. Bioinformatics, page btv179, Min He, Thomas N Person, Scott J Hebbring, Ethan Heinzen, Zhan Ye, Steven J Schrodi, Elizabeth W McPherson, Simon M Lin, Peggy L Peissig, Murray H Brilliant, et al. Seqhbase: a big data toolset for family based sequencing data analysis. Journal of medical genetics, pages jmedgenet 2014, Marco Masseroli, Pietro Pinoli, Francesco Venco, Abdulrahman Kaitoua, Vahid Jalili, Fernando Palluzzi, Heiko Muller, and Stefano Ceri. Genometric query language: A novel approach to large-scale genomic data management. Bioinformatics, page btv048, Matti Niemenmaa, Aleksi Kallio, André Schumacher, Petri Klemelä, Eija Korpelainen, and Keijo Heljanko. Hadoop-bam: directly manipulating next generation sequencing data in the cloud. Bioinformatics, 28(6): , ZSI-Bio Dalsze kierunki badań 29 / 31
30 Bibliografia II Aidan R O Brien, Neil FW Saunders, Yi Guo, Fabian A Buske, Rodney J Scott, and Denis C Bauer. Variantspark: population scale clustering of genotype information. BMC genomics, 16(1):1, Luca Pireddu, Simone Leo, and Gianluigi Zanetti. Seal: a distributed short read mapping and duplicate removal tool. Bioinformatics, 27(15): , André Schumacher, Luca Pireddu, Matti Niemenmaa, Aleksi Kallio, Eija Korpelainen, Gianluigi Zanetti, and Keijo Heljanko. Seqpig: simple and scalable scripting for large sequencing data sets in hadoop. Bioinformatics, 30(1): , Marek S Wiewiórka, Antonio Messina, Alicja Pacholewska, Sergio Maffioletti, Piotr Gawrysiak, and Michał J Okoniewski. Sparkseq: fast, scalable, cloud-ready tool for the interactive genomic data analysis with nucleotide precision. Bioinformatics, page btu343, ZSI-Bio Dalsze kierunki badań 30 / 31
31 Bibliografia III Guoguang Zhao, Cheng Ling, and Donghong Sun. Sparksw: scalable distributed computing system for large-scale biological sequence alignment. In Cluster, Cloud and Grid Computing (CCGrid), th IEEE/ACM International Symposium on, pages IEEE, ZSI-Bio Dalsze kierunki badań 31 / 31
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno Macierze tkankowe TMA ang. Tissue microarray Technika opisana w 1987 roku (Wan i
ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI
ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI JOANNA SZYDA MAGDALENA FRĄSZCZAK MAGDA MIELCZAREK WSTĘP 1. Katedra Genetyki 2. Pracownia biostatystyki 3. Projekty NGS 4. Charakterystyka
"Zapisane w genach, czyli Python a tajemnice naszego genomu."
"Zapisane w genach, czyli Python a tajemnice naszego genomu." Dr Kaja Milanowska Instytut Biologii Molekularnej i Biotechnologii UAM VitaInSilica sp. z o.o. Warszawa, 9 lutego 2015 Dane biomedyczne 1)
ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI
ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI Joanna Szyda Magdalena Frąszczak Magda Mielczarek WSTĘP 1. Katedra Genetyki 2. Pracownia biostatystyki 3. Projekty NGS 4. Charakterystyka
Analizy wielkoskalowe w badaniach chromatyny
Analizy wielkoskalowe w badaniach chromatyny Analizy wielkoskalowe wykorzystujące mikromacierze DNA Genotypowanie: zróżnicowane wewnątrz genów RNA Komórka eukariotyczna Ekspresja genów: Które geny? Poziom
Analiza genomu człowieka przy wykorzystaniu NGS w kontekście diagnostyki medycznej
Analiza genomu człowieka przy wykorzystaniu NGS w kontekście diagnostyki medycznej dr inż. Tomasz Gambin 1 Instytut 2 Zakład 1,2 Informatyki, Politechnika Warszawska Genetyki Medycznej, Instytut Matki
PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS
PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS SEKWENCJONOWANIE GENOMÓW NEXT GENERATION METODA NOWEJ GENERACJI Sekwencjonowanie bardzo krótkich fragmentów 50-700 bp DNA unieruchomione na płytce Szybkie
Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:
Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu: prof. dr hab. Jerzy H. Czembor SEKWENCJONOWANIE I generacji
CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1
CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1 PRACOWNIA INFORMATYCZNA PROWADZĄCY: Dr Magda Mielczarek (biolog) Katedra Genetyki, pokój nr 21
Różnorodność osobników gatunku
ALEKSANDRA ŚWIERCZ Różnorodność osobników gatunku Single Nucleotide Polymorphism (SNP) Różnica na jednej pozycji, małe delecje, insercje (INDELs) SNP pojawia się ~1/1000 pozycji Można je znaleźć porównując
Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family
Kod szkolenia: Tytuł szkolenia: HADOOP Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family Dni: 5 Opis: Adresaci szkolenia: Szkolenie jest adresowane do programistów, architektów oraz
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Wykład 7 Etapy analizy NGS Dr Wioleta Drobik-Czwarno Etapy analizy NGS Kontrola jakości surowych danych (format fastq) Jakość odczytów,
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing Wykład 7 Etapy analizy NGS Dr Wioleta Drobik-Czwarno Etapy analizy NGS Kontrola jakości surowych danych (format fastq) Jakość odczytów,
SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik
SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop Piotr Borowik Wyzwania związane z Big Data Top Hurdles with Big data Source: Gartner (Sep 2014), Big Data Investment Grows
Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2
ALEKSANDRA ŚWIERCZ Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2 Ekspresja genów http://genome.wellcome.ac.uk/doc_wtd020757.html A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH
Bioinformatyczna analiza danych. Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt
Bioinformatyczna analiza danych Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt Sprawy organizacyjne Prowadzący przedmiot: Dr Wioleta Drobik-Czwarno koordynator przedmiotu,
Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17
Część nr 2: SEKWENATOR NASTĘPNEJ GENERACJI Z ZESTAWEM DEDYKOWANYCH ODCZYNNIKÓW Określenie przedmiotu zamówienia zgodnie ze Wspólnym Słownikiem Zamówień (CPV): 38500000-0 aparatura kontrolna i badawcza
Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)
Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) Automatyzacja Automatyzacja przetwarzania: Apache NiFi Źródło: nifi.apache.org 4 Automatyzacja
Searching for SNPs with cloud computing
Ben Langmead, Michael C Schatz, Jimmy Lin, Mihai Pop and Steven L Salzberg Genome Biology November 20, 2009 April 7, 2010 Problem Cel Problem Bardzo dużo krótkich odczytów mapujemy na genom referencyjny
Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -
pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego - część I - Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Plan wykładów --------------------------------------------------------
Ekologia molekularna. wykład 11
Ekologia molekularna wykład 11 Sekwencjonowanie nowej generacji NGS = next generation sequencing = high throughput sequencing = massive pararell sequencing =... Różne techniki i platformy Illumina (MiSeq,
Hadoop i Spark. Mariusz Rafało
Hadoop i Spark Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl WPROWADZENIE DO EKOSYSTEMU APACHE HADOOP Czym jest Hadoop Platforma służąca przetwarzaniu rozproszonemu dużych zbiorów danych. Jest
Niepełnosprawność intelektualna
Niepełnosprawność intelektualna stan badań a możliwości diagnostyki molekularnej Agnieszka Charzewska Zakład Genetyki Medycznej Instytut Matki i Dziecka Niepełnosprawność intelektualna (NI, ID) zaburzenie
ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI
ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI Podstawy Bioinformatyki lab 1 PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 1 BIOINFORMATYKA Dr Magda Mielczarek Katedra Genetyki, pokój nr 14 ul. Kożuchowska
Podstawy bioinformatyki sekwencjonowanie nowej generacji. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu
Podstawy bioinformatyki sekwencjonowanie nowej generacji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Rozwój technologii i przyrost danych Wzrost olbrzymiej ilości i objętości
Zaawansowane bazy danych i hurtownie danych Wydział Informatyki Politechnika Białostocka
Zaawansowane bazy danych i hurtownie danych Wydział Informatyki Politechnika Białostocka wiosna 2014 Prowadzący: Agnieszka Oniśko-Drużdżel, Marek J. Drużdżel pokój: 207, Wiejska 45A telefon: 85-746 9086
Wprowadzenie do Apache Spark. Jakub Toczek
Wprowadzenie do Apache Spark Jakub Toczek Epoka informacyjna MapReduce MapReduce Apache Hadoop narodziny w 2006 roku z Apache Nutch open source składa się z systemu plików HDFS i silnika MapReduce napisany
GENOMIKA. MAPOWANIE GENOMÓW MAPY GENOMICZNE
GENOMIKA. MAPOWANIE GENOMÓW MAPY GENOMICZNE Bioinformatyka, wykład 3 (21.X.2008) krzysztof_pawlowski@sggw.waw.pl tydzień temu Gen??? Biologiczne bazy danych historia Biologiczne bazy danych najważniejsze
Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu
Ćwiczenie 4 Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu Wstęp CYP2D6 kodowany przez gen występujący w co najmniej w 78 allelicznych formach związanych ze zmniejszoną
Metody: PCR, MLPA, Sekwencjonowanie, PCR-RLFP, PCR-Multiplex, PCR-ASO
Diagnostyka molekularna Dr n.biol. Anna Wawrocka Strategia diagnostyki genetycznej: Aberracje chromosomowe: Metody:Analiza kariotypu, FISH, acgh, MLPA, QF-PCR Gen(y) znany Metody: PCR, MLPA, Sekwencjonowanie,
CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO
Spis treści Przedmowa Podziękowania O książce Rozdział 1. Nowy paradygmat dla Big Data 1.1. Zawartość książki 1.2. Skalowanie tradycyjnej bazy danych 1.2.1. Skalowanie za pomocą kolejki 1.2.2. Skalowanie
Projektowanie architektury systemu rozproszonego. Jarosław Kuchta Projektowanie Aplikacji Internetowych
Projektowanie architektury systemu rozproszonego Jarosław Kuchta Zagadnienia Typy architektury systemu Rozproszone przetwarzanie obiektowe Problemy globalizacji Problemy ochrony Projektowanie architektury
Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu
Ćwiczenie 4 Oznaczenie polimorfizmu genetycznego cytochromu CYP2D6: wykrywanie liczby kopii genu Wstęp CYP2D6 kodowany przez gen występujący w co najmniej w 78 allelicznych formach związanych ze zmniejszoną
na podstawie bazy Oracle NoSQL
na podstawie bazy Oracle NoSQL Rozproszona baza danych stworzona w oparciu o Oracle Berkeley DB Java Edition Podstawowa organizacja danych typu kluczwartość Klucz złożony z klucza głównego i podrzędnego
Perspektywy zastosowania badań genomicznych w hodowli zwierząt
Wiadomości Zootechniczne, R. XLIX (2011), 4: 103 108 Perspektywy zastosowania badań genomicznych w hodowli zwierząt W prowadzenie Wobec stałego wzrostu zaludnienia, rolnictwo odgrywa kluczową rolę w globalnym
Dane mikromacierzowe. Mateusz Markowicz Marta Stańska
Dane mikromacierzowe Mateusz Markowicz Marta Stańska Mikromacierz Mikromacierz DNA (ang. DNA microarray) to szklana lub plastikowa płytka (o maksymalnych wymiarach 2,5 cm x 7,5 cm) z naniesionymi w regularnych
Metody optymalizacji soft-procesorów NIOS
POLITECHNIKA WARSZAWSKA Wydział Elektroniki i Technik Informacyjnych Instytut Telekomunikacji Zakład Podstaw Telekomunikacji Kamil Krawczyk Metody optymalizacji soft-procesorów NIOS Warszawa, 27.01.2011
Sekwencjonowanie, przewidywanie genów
Instytut Informatyki i Matematyki Komputerowej UJ, opracowanie: mgr Ewa Matczyńska, dr Jacek Śmietański Sekwencjonowanie, przewidywanie genów 1. Technologie sekwencjonowania Genomem nazywamy sekwencję
Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)
Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) Data Camp Architektura Data Lake Repozytorium służące składowaniu i przetwarzaniu danych o
Epigenome - 'above the genome'
e - 'above the genome' Wydziaª Matematyki i Informatyki UJ Instytut Informatyki 14 stycznia 2013 e Rysunek: ¹ródªo: http://learn.genetics.utah.edu/content/epigenetics/nutrition/ e Plan Genom 1 Genom e
Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family
Kod szkolenia: Tytuł szkolenia: HADOOP Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family Dni: 5 Partner merytoryczny Opis: Adresaci szkolenia: Szkolenie jest adresowane do programistów,
PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE
PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE WSTĘP 1. Mikromacierze ekspresyjne tworzenie macierzy przykłady zastosowań 2. Mikromacierze SNP tworzenie macierzy przykłady zastosowań MIKROMACIERZE EKSPRESYJNE
PODSTAWY BIOINFORMATYKI 3 SEKWENCJONOWANIE GENOMÓW I
PODSTAWY BIOINFORMATYKI 3 SEKWENCJONOWANIE GENOMÓW I PROJEKTY POZNANIA INNYCH GENOMÓW 1 400 2009 2010 1 200 2011 2012 1 000 800 600 400 200 986 1153 1285 914 954 717 759 757 251 254 889 0 23 ukończone
NoSQL & relax with CouchDB
NoSQL & relax with PyWaw #23 8 kwiecień 2013 Agenda 1 NoSQL - nierelacyjne systemy baz danych Wprowadzenie do NoSQL Rodzaje i porównanie baz NoSQL Polyglot persistence 2 Projekt w CERN wykorzystujacy 3
Jak Big Data rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?
Jak Big Data rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem? dr Łukasz Bolikowski ICM, Uniwersytet Warszawski Big Data Summit, 26 listopada 2014 Czwarty paradygmat Cztery paradygmaty
Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS
Modelowanie Data Mining na wielką skalę z SAS Factory Miner Paweł Plewka, SAS Wstęp SAS Factory Miner Nowe narzędzie do data mining - dostępne od połowy 2015 r. Aktualna wersja - 14.1 Interfejs webowy
Analiza zmienności czasowej danych mikromacierzowych
Systemy Inteligencji Obliczeniowej Analiza zmienności czasowej danych mikromacierzowych Kornel Chromiński Instytut Informatyki Uniwersytet Śląski Plan prezentacji Dane mikromacierzowe Cel badań Prezentacja
SYLABUS DOTYCZY CYKLU KSZTAŁCENIA
SYLABUS DOTYCZY CYKLU KSZTAŁCENIA 2015-2021 1.1. PODSTAWOWE INFORMACJE O PRZEDMIOCIE/MODULE Nazwa przedmiotu/ modułu Techniki biologii molekularnej Kod przedmiotu/ modułu* Wydział (nazwa jednostki prowadzącej
Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT
Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT A. Dudczak, C. Mazurek, T. Parkoła, J. Pukacki, M. Stroiński, M. Werla, J. Węglarz Poznańskie Centrum Superkomputerowo-Sieciowe
PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP
PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP WSTĘP 1. SNP 2. haplotyp 3. równowaga sprzężeń 4. zawartość bazy HapMap 5. przykłady zastosowań Copyright 2013, Joanna Szyda HAPMAP BAZA DANYCH HAPMAP - haplotypy
BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4
BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE Podstawy Bioinformatyki wykład 4 GENOMY I ICH ADNOTACJE NCBI Ensembl UCSC PODSTAWY BIOINFORMATYKI 2017/2018 MAGDA MIELCZAREK 2 GENOMY I ICH ADNOTACJE
Tematy projektów Edycja 2014
Tematy projektów Edycja 2014 Robert Wrembel Poznan University of Technology Institute of Computing Science Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Reguły Projekty zespołowe max. 4
INSTYTUT GENETYKI ROŚLIN POLSKIEJ AKADEMII NAUK
INSTYTUT GENETYKI ROŚLIN POLSKIEJ AKADEMII NAUK Strzeszyńska 34, 60-479 Poznań Tel. centrala: 61 6550200, sekretariat: 61 6550255 E-mail: office@igr.poznan.pl www.igr.poznan.pl NIP: 7811621455 REGON: 000326204
BalticBottomBase. Instytut Morski w Gdańsku Gdańsk,
BalticBottomBase mgr inż. Przemysław Kulesza dr Piotr Piotrowski mgr inż. Michał Wójcik Spójne wyszukiwanie w zbiorze różnorodnych danych geograficznych - metamodel i metoda wyszukiwania Instytut Morski
Bazy danych i R/Bioconductor
Bazy danych i R/Bioconductor Praca z pakietem biomart Zagadnienia RStudio Oprogramowanie BioMart Pakiet biomart wprowadzenie funkcje biomart przykładowe zastosowania RStudio RStudio http://www.rstudio.com/
Wprowadzenie do Hurtowni Danych
Wprowadzenie do Hurtowni Danych BIG DATA Definicja Big Data Big Data definiowane jest jako składowanie zbiorów danych o tak dużej złożoności i ilości danych, że jest to niemożliwe przy zastosowaniu podejścia
Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii
Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii 1. Technologia rekombinowanego DNA jest podstawą uzyskiwania genetycznie zmodyfikowanych organizmów 2. Medycyna i ochrona zdrowia
BASH - WPROWADZENIE Bioinformatyka 4
BASH - WPROWADZENIE Bioinformatyka 4 DLACZEGO BASH? Praca na klastrach obliczeniowych Brak GUI Środowisko programistyczne Szybkie przetwarzanie danych Pisanie własnych skryptów W praktyce przetwarzanie
Oracle Log Analytics Cloud Service
ORACLE DANE TECHNICZNE Zastrzeżenie: Niniejszy dokument służy wyłącznie celom informacyjnym. Nie stanowi on zobowiązania do dostarczenia żadnych materiałów, kodu ani funkcjonalności i nie należy go brać
Programowanie współbieżne Wykład 2. Iwona Kochańska
Programowanie współbieżne Wykład 2 Iwona Kochańska Miary skalowalności algorytmu równoległego Przyspieszenie Stały rozmiar danych N T(1) - czas obliczeń dla najlepszego algorytmu sekwencyjnego T(p) - czas
Porównanie wydajności CUDA i OpenCL na przykładzie równoległego algorytmu wyznaczania wartości funkcji celu dla problemu gniazdowego
Porównanie wydajności CUDA i OpenCL na przykładzie równoległego algorytmu wyznaczania wartości funkcji celu dla problemu gniazdowego Mariusz Uchroński 3 grudnia 2010 Plan prezentacji 1. Wprowadzenie 2.
CouchDB. Michał Nowikowski
CouchDB Michał Nowikowski Agenda Wprowadzenie do CouchDB Mój przypadek Wyniki i wnioski Dokumenty CouchDB Format JSON Pary nazwa wartość Możliwe tablice i struktury Załączniki Brak limitów na liczbę i
PODSTAWY BIOINFORMATYKI ORGANIZACJA ZAJĘĆ BIOINFORMATYKA PRZETWARZANIE I ANALIZA DANYCH
PODSTAWY BIOINFORMATYKI ORGANIZACJA ZAJĘĆ BIOINFORMATYKA PRZETWARZANIE I ANALIZA DANYCH Magda Mielczarek Podstawy Bioinformatyki 1 Organizacja zajęć mgr Magda Mielczarek Katedra Genetyki, pokój nr 14 magda.mielczarek@up.wroc.pl
Algorytmy i Struktury Danych
POLITECHNIKA KRAKOWSKA - WIEiK KATEDRA AUTOMATYKI i TECHNIK INFORMACYJNYCH Algorytmy i Struktury Danych www.pk.edu.pl/~zk/aisd_hp.html Wykładowca: dr inż. Zbigniew Kokosiński zk@pk.edu.pl Wykład 12: Wstęp
Możliwości i potencjalne zastosowania Zintegrowanego Systemu Analitycznego do innowacyjnych i kompleksowych badań molekularnych
Możliwości i potencjalne zastosowania Zintegrowanego Systemu Analitycznego do innowacyjnych i kompleksowych badań molekularnych Dzień Otwarty Klastra LifeScience 31 maj 2017, Kraków dr Agata Piestrzyńska-Kajtoch,
PRACOWNIA INFORMATYCZNA CHARAKTERYSTYKA PRZEDMIOTU BASH - PODSTAWOWE INFORMACJE
PRACOWNIA INFORMATYCZNA CHARAKTERYSTYKA PRZEDMIOTU BASH - PODSTAWOWE INFORMACJE M.Mielczarek Pracownia Informatyczna 2017/2018 1 PRACOWNIA INFORMATYCZNA PROWADZĄCY: Dr Magda Mielczarek (biolog) Katedra
Sprzętowo wspomagane metody klasyfikacji danych
Sprzętowo wspomagane metody klasyfikacji danych Jakub Botwicz Politechnika Warszawska, Instytut Telekomunikacji Plan prezentacji 1. Motywacje oraz cele 2. Problemy klasyfikacji danych 3. Weryfikacja integralności
Big Data to skalowalność i prostota obsługi wielkich ilości danych!
Obsługa aplikacji, które operują na ogromnych zbiorach danych, czyli na przykład portali społecznościowych, przekracza możliwości zwykłych relacyjnych baz. Praca ze złożonymi zbiorami danych wymaga architektury
Tematy projektów Edycja 2019
Tematy projektów Edycja 2019 Robert Wrembel Poznan University of Technology Institute of Computing Science Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Temat 1 Implementacja modelu predykcji
prof. Joanna Chorostowska-Wynimko Zakład Genetyki i Immunologii Klinicznej Instytut Gruźlicy i Chorób Płuc w Warszawie
prof. Joanna Chorostowska-Wynimko Zakład Genetyki i Immunologii Klinicznej Instytut Gruźlicy i Chorób Płuc w Warszawie Sekwencyjność występowania zaburzeń molekularnych w niedrobnokomórkowym raku płuca
POPULARNE POLECENIA SKRYPTY. Pracownia Informatyczna 2
SKRYPTY Pracownia Informatyczna 2 PRACOWNIA INFORMATYCZNA 2017/2018 MAGDA MIELCZAREK PRACOWNIA INFORMATYCZNA 2017/2018 MAGDA MIELCZAREK 2 cal wyświetlenie kalendarza Składnia: cal 2017, cal Polecenie cal
BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE
BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE Podstawy Bioinformatyki wykład 2 PODSTAWY BIOINFORMATYKI 2018/2019 MAGDA MIELCZAREK 1 GENOMY I ICH ADNOTACJE NCBI Ensembl UCSC PODSTAWY BIOINFORMATYKI
Rozwiązania bazodanowe EnterpriseDB
Rozwiązania bazodanowe EnterpriseDB Bogumił Stoiński RHC{E,I,X} B2B Sp. z o.o. 519 130 155 bs@bel.pl PostgreSQL Ponad 20 lat na rynku Jedna z najpopularniejszych otwartych relacyjnych baz danych obok MySQL
Potencjał naukowo-badawczy Działu Genomiki i Biologii Molekularnej Zwierząt IZ PIB
Potencjał naukowo-badawczy Działu Genomiki i Biologii Molekularnej Zwierząt IZ PIB dr Agata Piestrzyńska-Kajtoch Laboratorium Genetyki Molekularnej Dział Genomiki i Biologii Molekularnej Instytut Zootechniki
Dni: 2. Partner merytoryczny. Opis: Adresaci szkolenia
Kod szkolenia: Tytuł szkolenia: BIGDATA/STR Strumieniowe przetwarzanie Big Data Dni: 2 Partner merytoryczny Opis: Adresaci szkolenia Szkolenie jest przeznaczone głównie dla programistów i analityków danych,
Bioinformatyka: Wykład 5. Bioconductor
Bioinformatyka: Wykład 5 Bioconductor Pytanie z poprzedniego wkładu opisz dwie klasy R odnoszące się do czasu, podaj najważniejszą różnicę BIOCONDUCTOR Zestaw ściśle ze sobą powiązanych pakietów (1104)
Przybliżone algorytmy analizy ekspresji genów.
Przybliżone algorytmy analizy ekspresji genów. Opracowanie i implementacja algorytmu analizy danych uzyskanych z eksperymentu biologicznego. 20.06.04 Seminarium - SKISR 1 Wstęp. Dane wejściowe dla programu
MIKROMACIERZE. dr inż. Aleksandra Świercz dr Agnieszka Żmieńko
MIKROMACIERZE dr inż. Aleksandra Świercz dr Agnieszka Żmieńko Informacje ogólne Wykłady będą częściowo dostępne w formie elektronicznej http://cs.put.poznan.pl/aswiercz aswiercz@cs.put.poznan.pl Godziny
PLNOG#10 Hadoop w akcji: analiza logów 1
PLNOG#10 Hadoop w akcji: analiza logów 1 Hadoop w akcji: analiza logów rkadiusz Osiński arkadiusz.osinski@allegro.pl PLNOG#10 Hadoop w akcji: analiza logów 2 genda 1. Hadoop 2. HDFS 3. YRN 4. Map & Reduce
Rak tarczycy - prognostyka
Rak tarczycy - prognostyka Wariant rs966423-tt w genie DIRC3 jest czynnikiem rokowniczo niekorzystnym, związanym ze zwiększonym ryzykiem zgonu w przebiegu raka zróżnicowanego tarczycy (Świerniak et al.
BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE. Pracownia Informatyczna 2
BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE Pracownia Informatyczna 2 WYBRANE BIOLOGICZNE BAZY DANYCH GENOMY I ICH ADNOTACJE NCBI Ensembl UCSC NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION NCBI Utworzone
Database resources of the National Center for Biotechnology Information. Magdalena Malczyk
Database resources of the National Center for Biotechnology Information Magdalena Malczyk NCBI NCBI = National Center for Biotechnology Information Założone w 1998 r. Cel: rozwijanie systemów informatycznych
Produktywne tworzenie aplikacji webowych z wykorzystaniem Groovy i
Program szkolenia: Produktywne tworzenie aplikacji webowych z wykorzystaniem Groovy i Informacje: Nazwa: Kod: Kategoria: Grupa docelowa: Czas trwania: Forma: Produktywne tworzenie aplikacji webowych z
Nowoczesne systemy ekspresji genów
Nowoczesne systemy ekspresji genów Ekspresja genów w organizmach żywych GEN - pojęcia podstawowe promotor sekwencja kodująca RNA terminator gen Gen - odcinek DNA zawierający zakodowaną informację wystarczającą
Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi
Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi Jerzy Brzeziński, Anna Kobusińska, Dariusz Wawrzyniak Instytut Informatyki Politechnika Poznańska Plan prezentacji 1 Architektura
Tematy prac dyplomowych inżynierskich
inżynierskich Oferujemy możliwość realizowania poniższych tematów w ramach projektu realizowanego ze środków Narodowego Centrum Badań i Rozwoju. Najlepszym umożliwimy realizację pracy dyplomowej w połączeniu
Bioinformatyka, edycja 2016/2017, laboratorium
Instytut Informatyki i Matematyki Komputerowej UJ, opracowanie: dr Jacek Śmietański Mikromacierze 1. Mikromacierze wprowadzenie Mikromacierze to technologia pozwalająca na pomiar aktywności genów w komórce.
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Map-Reduce system Single-node architektura 3 Przykład Googla 4 10 miliardów stron internetowych Średnia
Bazy danych - wykład wstępny
Bazy danych - wykład wstępny Wykład: baza danych, modele, hierarchiczny, sieciowy, relacyjny, obiektowy, schemat logiczny, tabela, kwerenda, SQL, rekord, krotka, pole, atrybut, klucz podstawowy, relacja,
Programowanie i struktury danych. Wykład 4 Dr Piotr Cybula
Programowanie i struktury danych Wykład 4 Dr Piotr ybula Typ wska ź nikowy int* pointer; //wskaźnik do zmiennych typu int pozwala na dostęp do dowolnego miejsca pamięci (zmienne
Przewidywanie miejsc wiązania nukleosomów w genomie drożdży
w genomie drożdży Aleksander Jankowski Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki 8 października 2009 Promotorzy: Jerzy Tiuryn Uniwersytet Warszawski Shyam Prabhakar Genome Institute
Informatyka I. Typy danych. Operacje arytmetyczne. Konwersje typów. Zmienne. Wczytywanie danych z klawiatury. dr hab. inż. Andrzej Czerepicki
Informatyka I Typy danych. Operacje arytmetyczne. Konwersje typów. Zmienne. Wczytywanie danych z klawiatury. dr hab. inż. Andrzej Czerepicki Politechnika Warszawska Wydział Transportu 2019 1 Plan wykładu
Usługi analityczne budowa kostki analitycznej Część pierwsza.
Usługi analityczne budowa kostki analitycznej Część pierwsza. Wprowadzenie W wielu dziedzinach działalności człowieka analiza zebranych danych jest jednym z najważniejszych mechanizmów podejmowania decyzji.
Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I
Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Rozkład zgodny
1. System analizy danych NGS z paneli genów
1. System analizy danych NGS z paneli genów (programistyczny) Sekwenator to instrument odczytujący sekwencję DNA w kilku-kilkudziesieciu probkach na raz. Instrument zapisuje na dysku dane w skompresowanych
Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II
Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Rozkład wymagający
VMware vsphere: Automation Fast Track
Kod szkolenia: Tytuł szkolenia: HK989S VMware vsphere: Automation Fast Track Dni: 5 Opis: Adresaci szkolenia Kurs jest przeznaczony dla: Cel szkolenia Administratorów systemowych Inżynierów systemowych
Jak wygląda składanie sekwencji w przypadku sekwencjonowania de novo? Jakie wykorzystuje się do tego narzędzia?
Jak wygląda składanie sekwencji w przypadku sekwencjonowania de novo? Jakie wykorzystuje się do tego narzędzia? Narzędzia: https://omictools.com/genome-assembly-category W jaki sposób metodę NGS można