"Zapisane w genach, czyli Python a tajemnice naszego genomu."



Podobne dokumenty
Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing. Wykład 6 Część 1 NGS - wstęp Dr Wioleta Drobik-Czwarno

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

Podstawy analizy danych numerycznych w języku Python

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

1. System analizy danych NGS z paneli genów

BIOINFORMATYKA BIOLOGICZNE BAZY DANYCH

Sylabus Biologia molekularna

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

1. KEGG 2. GO. 3. Klastry

Analiza zmienności czasowej danych mikromacierzowych

Różnorodność osobników gatunku

Jak Big Data rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Adres strony internetowej, na której Zamawiający udostępnia Specyfikację Istotnych Warunków Zamówienia:

ZASTOSOWANIA FIZYKI W BIOLOGII I MEDYCYNIE Specjalność: Projektowanie molekularne i bioinformatyka. 2-letnie studia II stopnia (magisterskie)

PODSTAWY BIOINFORMATYKI WYKŁAD 4 ANALIZA DANYCH NGS

PODSTAWY BIOINFORMATYKI ORGANIZACJA ZAJĘĆ BIOINFORMATYKA PRZETWARZANIE I ANALIZA DANYCH

Analizy wielkoskalowe w badaniach chromatyny

Księgarnia PWN: A.D. Baxevanis, B.F.F. Ouellette Bioinformatyka

Przydatność technologii Sekwencjonowania Nowej Generacji (NGS) w kolekcjach Banków Genów Joanna Noceń Kinga Smolińska Marta Puchta Kierownik tematu:

KARTA PRZEDMIOTU. (pieczęć wydziału)

INŻYNIERIA OPROGRAMOWANIA

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Kurs wybieralny: Zastosowanie technik informatycznych i metod numerycznych w elektronice


Potencjał naukowo-badawczy Działu Genomiki i Biologii Molekularnej Zwierząt IZ PIB

Wstęp do Biologii Obliczeniowej

PAKIETY STATYSTYCZNE JOANNA SZYDA TOMASZ SUCHOCKI

Sekwencjonowanie, przewidywanie genów

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Techniki biologii molekularnej Kod przedmiotu

BIOTECHNOLOGIA STUDIA I STOPNIA

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

Statystyka I z R. Bartosz Maćkiewicz. 2 października 2017

Całogenomowa analiza niskocząsteczkowych RNA, pochodzących z trna w Arabidopsis thaliana

BASH - WPROWADZENIE Bioinformatyka 4

Budowanie interfejsów do baz danych

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

Jaki koń jest nie każdy widzi - genomika populacji polskich ras koni

Podstawy bioinformatyki - biologiczne bazy danych

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA

Specjalność (studia II stopnia) Oczyszczanie i analiza produktów biotechnologicznych

I. 1) NAZWA I ADRES: Uniwersytet Przyrodniczy we Wrocławiu, ul. C.K. Norwida 25/27, Wrocław, woj.

Tematy prac dyplomowych inżynierskich

Sekwencjonowanie Nowej Generacji ang. Next Generation Sequencing

Antyk w kulturze popularnej

PODSTAWY BIOINFORMATYKI 3 SEKWENCJONOWANIE GENOMÓW I

OPIS PRZEDMIOTÓW REALIZOWANYCH W KATEDRZE MIKROBIOLOGII ŚRODOWISKOWEJ

Wprowadzenie do Hurtowni Danych

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

OPIS MODUŁU KSZTAŁCENIA

Biologia molekularna

Tematyka zajęć z biologii

Sukcesywne usługi sekwencjonowania DNA

Jak wygląda składanie sekwencji w przypadku sekwencjonowania de novo? Jakie wykorzystuje się do tego narzędzia?

Forum Małych i Średnich Przedsiębiorstw

Polska-Warszawa: Sprzęt laboratoryjny, optyczny i precyzyjny (z wyjątkiem szklanego) 2016/S Ogłoszenie o udzieleniu zamówienia

Informatyka w medycynie Punkt widzenia kardiologa

Sekwencjonowanie nowej generacji i rozwój programów selekcyjnych w akwakulturze ryb łososiowatych

Techniki molekularne w biologii SYLABUS A. Informacje ogólne

HARMONOGRAM ZAJĘĆ Z NUTRIGENOMIKI 2018/2019

E-E-A-1008-s5 Komputerowa Symulacja Układów Nazwa modułu. Dynamicznych. Elektrotechnika I stopień Ogólno akademicki. Przedmiot kierunkowy

Elektrotechnika I stopień Ogólno akademicki. Przedmiot kierunkowy. Obowiązkowy Polski VI semestr zimowy

Programowanie obiektowe 2 - opis przedmiotu

Ekologia molekularna. wykład 11

Producent i Integrator Systemów Informatycznych

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

MultiSETTER: web server for multiple RNA structure comparison. Sandra Sobierajska Uniwersytet Jagielloński

Wprowadzenie do SAS 4GL Zapoznanie ze środowiskiem SAS University Edition oraz SAS Studio. Podstawowe pojęcia środowiska SAS.

Technika Cyfrowa i Mikroprocesorowa

Kierunek:Informatyka- - inż., rok I specjalność: Grafika komputerowa i multimedia

Spis treści. I. Skuteczne. Od autora... Obliczenia inżynierskie i naukowe... Ostrzeżenia...XVII

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

Odniesienie do efektów kształcenia w obszarze kształcenia w zakresie nauk przyrodniczych i technicznych

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

Mapowanie fizyczne genomów -konstrukcja map wyskalowanych w jednostkach fizycznych -najdokładniejszą mapą fizyczną genomu, o największej

WYPOSAŻENIE LABORATORIÓW CENTRUM NOWYCH TECHNOLOGII UW W APARATURĘ NIEZBĘDNĄ DO PROWADZENIA BADAŃ NA RZECZ PRZEMYSŁU I MEDYCYNY

Wybrane techniki badania białek -proteomika funkcjonalna

Opis kierunkowych efektów kształcenia w obszarze nauk przyrodniczych na I stopniu kierunku BIOLOGIA

Programowanie wizualne

Sylabus Biologia molekularna

Pytania kwiecień, maj

Genomika praktyczna. Genomika praktyczna. Zakład Biochemii i Farmakogenomiki. prof. dr hab. Grażyna Nowicka. Rok IV. Semestr 8.

Dariusz Brzeziński. Politechnika Poznańska, Instytut Informatyki

GRIDY OBLICZENIOWE. Piotr Majkowski

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

biologia rozwoju/bezkręgowce: taksonomia, bezkręgowce: morfologia funkcjonalna i filogeneza i biologia rozwoju mikologia systematyczna

Niepełnosprawność intelektualna

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Od programowania wizualnego do tekstowego

Warunki udzielania świadczeń w rodzaju: świadczenia zdrowotne kontraktowane odrębnie 8. BADANIA GENETYCZNE

Transkrypt:

"Zapisane w genach, czyli Python a tajemnice naszego genomu." Dr Kaja Milanowska Instytut Biologii Molekularnej i Biotechnologii UAM VitaInSilica sp. z o.o. Warszawa, 9 lutego 2015

Dane biomedyczne 1) Sekwencjonowanie nowej generacji medycyna spersonalizowana, wykrywanie wariantów, choroby genetyczne 2) Dane dotyczące szlaków metabolicznych mechanizmy oddziaływań, powiązania, sieci 3) Struktury makromolekuł inhibitory leki 4) Obrazy obróbki obrazów 2

Dane biomedyczne 1) Sekwencjonowanie nowej generacji medycyna spersonalizowana, wykrywanie wariantów, choroby genetyczne 2) Dane dotyczące szlaków metabolicznych mechanizmy oddziaływań, powiązania, sieci 3) Struktury makromolekuł inhibitory leki 4) Obrazy obróbki obrazów 2

Sekwencjonowanie Nowej Generacji (NGS)

Sekwencjonowanie Nowej Generacji (NGS) Human Genome Project - 10 lat - Tysiące sekwenatorów - $ 3 000 000 000-3.3 Gpz (ok. 30 tys. genów)

Sekwencjonowanie Nowej Generacji (NGS) Human Genome Project - 10 lat - Tysiące sekwenatorów - $ 3 000 000 000-3.3 Gpz (ok. 30 tys. genów)

Sekwencjonowanie Nowej Generacji (NGS) Nowoczesne sekwencjonowanie - czas liczony w dniach - jeden sekwenator - $ 6000-100-200 Gpz Human Genome Project - 10 lat - Tysiące sekwenatorów - $ 3 000 000 000-3.3 Gpz (ok. 30 tys. genów)

Sekwencjonowanie Nowej Generacji (NGS) Pocięcie DNA i RNA w mniejsze fragmenty Odczyty grupowane w pliki mogą mieć nawet 100 GB Analiza zmapowań aktywne geny 10 GB 2 TB surowych danych pochodzących z maszyny Złożenie de novo, bądź mapowanie na referencję

Medycyna spersonalizowana

Medycyna spersonalizowana Referencja Sekwencjonowanie genomu Sekwencjonowanie transkryptomu Adnotacja chorego genomu Porównanie ze zdrowymi danymi

Medycyna spersonalizowana Referencja 10 GB 2-3 filmy HD Sekwencjonowanie genomu 100 Mpz, 36h/4 serwery 6% indeksu Google Sekwencjonowanie transkryptomu Adnotacja chorego genomu 100 Mpz, 15 miliardów operacji Cała masa cech 30x Dzienny ruch na Google 50-500 GB danych Porównanie ze zdrowymi danymi Analiza i interpretacja

Genomika populacji Referencja Sekwencjonowanie genomu Sekwencjonowanie transkryptomu Adnotacja chorego genomu Porównanie ze zdrowymi danymi 1 Petabajtowe łącze 4 miliony serwerów 72 miliony godz. 1 eksabajt / dzień Miliard wideo z Youtube 1.2 miliona serwerów sprzedane w 4 kwartale 2009 3 lata na Superkomputerze Ranger (UT) Wielki Zderzacz Hadronów 300 EB / rok 27000 radiologów

Genomika populacji Referencja 1 Petabajtowe łącze Miliard wideo z Youtube 1 Petabajt = 1024 TB = 1024*1024 GB Sekwencjonowanie genomu Sekwencjonowanie transkryptomu Adnotacja chorego genomu Porównanie ze zdrowymi danymi 4 miliony serwerów 72 miliony godz. 1 eksabajt / dzień 1.2 miliona serwerów sprzedane w 4 kwartale 2009 3 lata na Superkomputerze Ranger (UT) Wielki Zderzacz Hadronów 300 EB / rok 27000 radiologów

Genomika populacji Referencja Sekwencjonowanie genomu Sekwencjonowanie transkryptomu Adnotacja chorego genomu Porównanie ze zdrowymi danymi 1 Petabajtowe łącze 4 miliony serwerów 72 miliony godz. 1 eksabajt / dzień Miliard wideo z Youtube 1.2 miliona serwerów sprzedane w 4 kwartale 2009 3 lata na Superkomputerze Ranger (UT) Wielki Zderzacz Hadronów 300 EB / rok 27000 radiologów

Genomika populacji Referencja 1 Petabajtowe łącze Miliard wideo z Youtube Sekwencjonowanie genomu Sekwencjonowanie transkryptomu Adnotacja chorego genomu Porównanie ze zdrowymi danymi 4 miliony serwerów 72 miliony godz. 1 eksabajt / dzień 1 eksabajt = 1000 PB 1.2 miliona serwerów sprzedane w 4 kwartale 2009 3 lata na Superkomputerze Ranger (UT) Wielki Zderzacz Hadronów 300 EB / rok 27000 radiologów

Genomika populacji Referencja Sekwencjonowanie genomu Sekwencjonowanie transkryptomu Adnotacja chorego genomu Porównanie ze zdrowymi danymi 1 Petabajtowe łącze 4 miliony serwerów 72 miliony godz. 1 eksabajt / dzień Miliard wideo z Youtube 1.2 miliona serwerów sprzedane w 4 kwartale 2009 3 lata na Superkomputerze Ranger (UT) Wielki Zderzacz Hadronów 300 EB / rok 27000 radiologów

NGS Python

Dane NGS

Dane NGS Referencje i dane genomy, zestawy danych dotyczących struktury, funkcji, surowe odczyty

Dane NGS Podstawowe algorytmy przekształć surowe dane w dane znaczące Referencje i dane genomy, zestawy danych dotyczących struktury, funkcji, surowe odczyty

Dane NGS Standardowe analizy zrozumienie struktury i funkcji elementów genomu Podstawowe algorytmy przekształć surowe dane w dane znaczące Referencje i dane genomy, zestawy danych dotyczących struktury, funkcji, surowe odczyty

Dane NGS EDA = Exploratory Data Analysis = co może przynieść przyszłość Standardowe analizy zrozumienie struktury i funkcji elementów genomu Podstawowe algorytmy przekształć surowe dane w dane znaczące Referencje i dane genomy, zestawy danych dotyczących struktury, funkcji, surowe odczyty

Algorytmy Algorytmy Uwagi

Algorytmy Algorytmy Uwagi Formaty tekstowe Łatwo osiągają horendalne wielkości mały lab potrafi wygenerować 100 TB danych. Niestabilność referencji

Algorytmy Algorytmy Uwagi Grafy, schematy danych, programowanie dynamiczne Formaty tekstowe I/O Łatwo osiągają horendalne wielkości mały lab potrafi wygenerować 100 TB danych. Niestabilność referencji

Algorytmy Algorytmy Uwagi Klastrowanie, modele statystyczne, analiza sieci Mniejsze dane, ale czasem wymagają powrotu do odczytów Grafy, schematy danych, programowanie dynamiczne Formaty tekstowe I/O Łatwo osiągają horendalne wielkości mały lab potrafi wygenerować 100 TB danych. Niestabilność referencji

Algorytmy Algorytmy Data-mining, wizualizacja informacji Klastrowanie, modele statystyczne, analiza sieci Uwagi Interaktywność! Mniejsze dane, ale czasem wymagają powrotu do odczytów Grafy, schematy danych, programowanie dynamiczne Formaty tekstowe I/O Łatwo osiągają horendalne wielkości mały lab potrafi wygenerować 100 TB danych. Niestabilność referencji

Software Software

Software Software Bazy danych, narzędzia ORM, czyste pliki

Software Software Biblioteki do obsługi grafiki, narzędzia do zarządzania analizą danych, kolejkowanie, obsługa zadań Bazy danych, narzędzia ORM, czyste pliki

Software Software Języki skryptowe, biblioteki do analizy danych Biblioteki do obsługi grafiki, narzędzia do zarządzania analizą danych, kolejkowanie, obsługa zadań Bazy danych, narzędzia ORM, czyste pliki

Software Software Przeglądarki genomowe, Matlab, narzędzia do statystyki, R Języki skryptowe, biblioteki do analizy danych Biblioteki do obsługi grafiki, narzędzia do zarządzania analizą danych, kolejkowanie, obsługa zadań Bazy danych, narzędzia ORM, czyste pliki

Python i NGS Obecnie Galaxy, narzędzia użytkowników Narzędzia użytkowników, skrypty dołączone do assemblerów i maperów, biblioteki (HTSeq), NumPy, SciPy Pipelines Parsery dla różnych formatów, BioPython, SAMTool (Pysam), Pygr Potencjalnie GUIs, DISCO Więcej bibliotek Wielowątkowość, zarządzanie całą analizą DISCO, Hadoop dla zarządzania danymi w sposób rozproszony

Python i NGS Obecnie Galaxy, narzędzia użytkowników Narzędzia użytkowników, skrypty dołączone do assemblerów i maperów, biblioteki (HTSeq), NumPy, SciPy Pipelines Parsery dla różnych formatów, BioPython, SAMTool (Pysam), Pygr Potencjalnie GUIs, DISCO Więcej bibliotek Wielowątkowość, zarządzanie całą analizą DISCO, Hadoop dla zarządzania danymi w sposób rozproszony

Python i NGS Obecnie Galaxy, narzędzia użytkowników Narzędzia użytkowników, skrypty dołączone do assemblerów i maperów, biblioteki (HTSeq), NumPy, SciPy Pipelines Parsery dla różnych formatów, BioPython, SAMTool (Pysam), Pygr Potencjalnie GUIs, DISCO Więcej bibliotek Wielowątkowość, zarządzanie całą analizą DISCO, Hadoop dla zarządzania danymi w sposób rozproszony

Python i NGS Obecnie Galaxy, narzędzia użytkowników Narzędzia użytkowników, skrypty dołączone do assemblerów i maperów, biblioteki (HTSeq), NumPy, SciPy Pipelines Parsery dla różnych formatów, BioPython, SAMTool (Pysam), Pygr Potencjalnie GUIs, DISCO Więcej bibliotek Wielowątkowość, zarządzanie całą analizą DISCO, Hadoop dla zarządzania danymi w sposób rozproszony

Python i NGS Obecnie Galaxy, narzędzia użytkowników Narzędzia użytkowników, skrypty dołączone do assemblerów i maperów, biblioteki (HTSeq), NumPy, SciPy Pipelines Parsery dla różnych formatów, BioPython, SAMTool (Pysam), Pygr Potencjalnie GUIs, DISCO Więcej bibliotek Wielowątkowość, zarządzanie całą analizą DISCO, Hadoop dla zarządzania danymi w sposób rozproszony

Python i NGS przykładowe formaty surowych danych

Python i NGS przykładowe formaty surowych danych

Python i NGS przykładowe formaty surowych danych

Python i NGS przykładowe formaty surowych danych

http://pyladies.pl/ https://www.facebook.com/pyladiespl 29

Dziękuję za uwagę 29