Searching for SNPs with cloud computing



Podobne dokumenty
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Architektura rozproszonych magazynów danych

HADOOP Dariusz Ż bik

Wprowadzenie do Hurtowni Danych

Wprowadzenie do Apache Spark. Jakub Toczek

Big Data i 5V Nowe wyzwania w świecie danych Krzysztof Goczyła

POPULARNE POLECENIA SKRYPTY. Pracownia Informatyczna 2

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Hadoop i Spark. Mariusz Rafało

PLNOG#10 Hadoop w akcji: analiza logów 1

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

Równoległe algorytmy sortowania. Krzysztof Banaś Obliczenia równoległe 1

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

MapReduce. Janina Mincer-Daszkiewicz Systemy rozproszone. MSUI, II rok

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Programowanie w języku Java. Kolekcje

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

Analiza efektywności przetwarzania współbieżnego. Wykład: Przetwarzanie Równoległe Politechnika Poznańska Rafał Walkowiak Grudzień 2015

Wątek - definicja. Wykorzystanie kilku rdzeni procesora jednocześnie Zrównoleglenie obliczeń Jednoczesna obsługa ekranu i procesu obliczeniowego

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ MAGDALENA FRĄSZCZAK

ADNOTACJE WARIANTÓW GENETYCZNYCH

Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014

ZARZĄDZANIE POPULACJAMI ZWIERZĄT

Metody badania polimorfizmu/mutacji DNA. Aleksandra Sałagacka Pracownia Diagnostyki Molekularnej i Farmakogenomiki Uniwersytet Medyczny w Łodzi

Farmakogenetyka. Autor: dr Artur Cieślewicz. Zakład Farmakologii Klinicznej.

GENETYKA POPULACJI. Ćwiczenia 1 Biologia I MGR /

Projektowanie obiektowe Wzorce projektowe

GENETYCZNE PODSTAWY ZMIENNOŚCI ORGANIZMÓW ZASADY DZIEDZICZENIA CECH PODSTAWY GENETYKI POPULACYJNEJ

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

BASH - WPROWADZENIE Bioinformatyka 4

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

Analiza efektywności przetwarzania współbieżnego

Wykład 5 Wybrane zagadnienia programowania w C++ (c.d.)

Wprowadzenie do optymalnego wykorzystania MapReduce

Systemy rozproszone. na użytkownikach systemu rozproszonego wrażenie pojedynczego i zintegrowanego systemu.

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Programowanie obiektowe

Wybrane działy Informatyki Stosowanej

Zaawansowane aplikacje WWW - laboratorium

Algorytm genetyczny (genetic algorithm)-

PORÓWNYWANIE POPULACJI POD WZGLĘDEM STRUKTURY

Zakłady Azotowe w Tarnowie-Mościcach S.A. ul. E. Kwiatkowskiego Tarnów t: f:

16. Taksonomia Flynn'a.

Klastrowanie bazy IBM DB2. Adam Duszeńko

Aby uzyskać zaliczenie w pierwszym terminie (do 30 stycznia 2018) rozliczyć trzeba co najmniej 8 projektów, po 4 z każdej z części: C++ oraz Python.

Bazy danych. dr inż. Arkadiusz Mirakowski

Wykład 6 Dziedziczenie cd., pliki

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

Wprowadzenie do NoSql. Maksymilian Wiesiołek

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

Systemy rozproszone System rozproszony

współbieżność - zdolność do przetwarzania wielu zadań jednocześnie

Programowanie w C++ Wykład 7. Katarzyna Grzelak. 23 kwietnia K.Grzelak (Wykład 7) Programowanie w C++ 1 / 40

Genetyka Populacji

"Zapisane w genach, czyli Python a tajemnice naszego genomu."

Zaawansowane programowanie w języku C++ Biblioteka standardowa

Mapowanie genów cz owieka. podstawy

ZARZĄDZANIE POPULACJAMI ZWIERZĄT 1. RÓWNOWAGA GENETYCZNA POPULACJI. Prowadzący: dr Wioleta Drobik Katedra Genetyki i Ogólnej Hodowli Zwierząt

Analizy Ilościowe EEG QEEG

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

SQL SERVER 2016 IN MEMORY

Wybrane działy Informatyki Stosowanej

Ćwiczenie 12. Diagnostyka molekularna. Poszukiwanie SNPs Odczytywanie danych z sekwencjonowania. Prof. dr hab. Roman Zieliński

na podstawie bazy Oracle NoSQL

Bliskie Spotkanie z Biologią. Genetyka populacji

Map Reduce Wprowadzenie do Apache Hadoop

10/14/2013 Przetwarzanie równoległe - wstęp 1. Zakres przedmiotu

Java Collections Framework

Konspekt do zajęć z przedmiotu Genetyka dla kierunku Położnictwo dr Anna Skorczyk-Werner Katedra i Zakład Genetyki Medycznej

Różnorodność osobników gatunku

Keszowanie i systemy peer-to-peer. Paulina Kania i Łukasz Osipiuk

Architektura komputerów

Metodyka i Technika Programowania 1

Literatura. 11/16/2016 Przetwarzanie równoległe - wstęp 1

Dla każdej operacji łącznie tworzenia danych i zapisu ich do pliku przeprowadzić pomiar czasu wykonania polecenia. Wyniki przedstawić w tabelce.

Programowanie w C++ Wykład 6. Katarzyna Grzelak. 1 kwietnia K.Grzelak (Wykład 6) Programowanie w C++ 1 / 43

Sterowany jakością dostęp do usług składowania danych dla e-nauki

GENOMIKA. MAPOWANIE GENOMÓW MAPY GENOMICZNE

Jarosław Kuchta. Administrowanie Systemami Komputerowymi. System plików

Rozdział ten zawiera informacje na temat zarządzania Modułem Modbus TCP oraz jego konfiguracji.

Bioinformatyczne bazy danych - część 2. -przeszukiwanie baz danych -pobieranie danych

Robert Piotrak IIG Senior Technology Expert 23 września 2010

Analiza danych pochodzących z sekwencjonowania nowej generacji - przyrównanie do genomu referencyjnego. - część I -

Programowanie wielowarstwowe i komponentowe

Tworzenie programów równoległych. Krzysztof Banaś Obliczenia równoległe 1

Ćwiczenia laboratoryjne. Oprogramowanie i badanie prostych metod sortowania w tablicach

PRACOWNIA INFORMATYCZNA CHARAKTERYSTYKA PRZEDMIOTU BASH - PODSTAWOWE INFORMACJE

Analiza sprzężeń u człowieka. Podstawy

Bazy danych. Andrzej Łachwa, UJ, /15

Technologie Informacyjne

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

ZAJĘCIA ORGANIZACYJNE WSTĘP DO BIOINFORMATYKI

Kompresja tablic obliczeń wstępnych alternatywa dla tęczowych tablic. Michał Trojnara.

Strumienie, pliki. Sortowanie. Wyjątki.

GRMS System Zarządzania Zadaniami Interfejs użytkownika systemu GRMS wprowadzenie. Bogdan Ludwiczak

Tworzenie programów równoległych cd. Krzysztof Banaś Obliczenia równoległe 1

Transkrypt:

Ben Langmead, Michael C Schatz, Jimmy Lin, Mihai Pop and Steven L Salzberg Genome Biology November 20, 2009 April 7, 2010

Problem Cel Problem Bardzo dużo krótkich odczytów mapujemy na genom referencyjny i poszukujemy SNPów Uliniowienie (Mapowanie) SNP - [film]

Problem Cel Cel Obliczenia powinny być: Szybkie (szybkie algorytmy + rozproszenie obliczeń) Tanie ()

Przetwarzanie w chmurze - model przetwarzania oparty na użytkowaniu usług dostarczonych przez zewnętrzne organizacje Klient płaci za usługę (zależnie od stopnia użycia zasobów) Brak konieczności zakupu i utrzymywania sprzętu Ukrycie przed użytkownikiem zbędnych informacji Większa niezawodność Skalowalność

Definition Map(k1,v1) -> list(k2,v2) Reduce(k2, list (v2)) -> list(v3) void map(string name, String document): for each word w in document: EmitIntermediate(w, "1"); void reduce(string word, Iterator partialcounts): int result = 0; for each pc in partialcounts: result += ParseInt(pc); Emit(AsString(result));

Architektura

Ogólnie Mapowanie - SNP - - Model obliczeń -

Ogólnie Bardzo szybkie mapowanie krótkich odczytów na genom referencyjny Wymaga utworzenia indexu genomu Działa efektywnie nawet przy niewielkim użyciu pamięci

Ogólnie Jest częścia pakietu SOAP (Short Oligonucleotide Analysis Package) Wyszukuje SNPy Model bierze pod uwagę: Różnice między SNPami heterozygot (zróżnicowane allele tego samego genu) i homozygot (identyczne allele danego genu) Różnice między tranzycjami (zmiana w ramach jednej grupy zasad azotowych: A-G, C-T) i transwersjami (zasada purynowa ulega zamianie na pirymidynowa lub odwrotnie: A-C, A-T, G-C, G-T) Potwierdzone doświadczalnie SNPy Quality Score generowany przez sekwencer Duża dokładność (>99%)

Ogólnie Framework w Javie umożliwiajacy obliczenia rozproszone z bardzo szybka faza Sort/Shuffle - Klaster posiadajacy 1460 węzłów sortuje 1 TB danych w 62 sekundy (jest to rekord świata według sortbenchmark.org) s Distributed File System Bardzo dobra skalowalność nawet przy petabajtach danych Działa jako warstwa nad systemami plików poszczególnych węzłów

Ogólnie Architektura

Ogólnie Kto używa?

Ogólnie Workflow - Preprocessing Kopiowanie plików z odczytami do HDFS

Ogólnie Workflow - Map Każdy węzeł klastra pobiera index (ok. 3GB dla genomu człowieka) Map -> list(primary Key, Secondary Key, Value) Primary Key - chromosom i identyfikator części Secondary Key - przesunięcie w chromosomie Value - sekwencja i Quality Score

Ogólnie Workflow - Sort/Shuffle Kubełkowanie po Primary Key (pozwala zrównoleglić Reduce) Sortowanie wenatrz kubełków po Secondary Key (wymagane przez )

Ogólnie Workflow - Reduce Reduce - wewnatrz kubełka Informacje o znanych miejscach SNPów i częstościach alleli pochodza z dbsnp i sa dystrybuowane między węzłami podobnie jak index kopiowane sa na lokalny system plików

Pomiary Koszty Skalowalność Parametry symulowanych odczytów

Pomiary Koszty Skalowalność Symulowane odczyty

Pomiary Koszty Skalowalność Prawdziwe dane

Pomiary Koszty Skalowalność Koszty

Pomiary Koszty Skalowalność Skalowalność