Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Podobne dokumenty
Hadoop i Spark. Mariusz Rafało

Wprowadzenie do Hurtowni Danych

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Wprowadzenie do Apache Spark. Jakub Toczek

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Dni: 2. Partner merytoryczny. Opis: Adresaci szkolenia

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Big Data & Analytics

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Z-ID-608b Bazy danych typu Big Data Big Data Databases. Specjalnościowy Obowiązkowy Polski Semestr VI

Zagadnienia egzaminacyjne INFORMATYKA. Stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

Nowe podejście do składowania danych

Architektura tradycyjna vs. architektura w chmurze

Typy przetwarzania. Przetwarzanie zcentralizowane. Przetwarzanie rozproszone

Tematy prac dyplomowych inżynierskich

Informacje organizacyjne:

SQL Server 2016 w świecie Big Data

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Obliczenia Wysokiej Wydajności

Szkolenie: Jak mieć więcej czasu na wyciąganie wniosków

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Nowe mechanizmy w wersji 3 Java Card. Mateusz LESZEK (138775)

Zapoznanie z technikami i narzędziami programistycznymi służącymi do tworzenia programów współbieżnych i obsługi współbieżności przez system.

FORMULARZ OFERTY CENOWEJ. Future Processing Sp. z o.o. ul. Bojkowska 37A Gliwice NIP: NIP:

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Klaster obliczeniowy

COMARCH DATA WAREHOUSE MANAGER 6.2

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Instytut Informatyki Politechniki Warszawskiej

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Tworzenie programów równoległych. Krzysztof Banaś Obliczenia równoległe 1

TECHNOLOGIE BIG DATA A BEZPIECZEŃSTWO INFORMATYCZNE WE KNOW YOU KNOW. silmine.com

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Wprowadzenie. Dariusz Wawrzyniak. Miejsce, rola i zadania systemu operacyjnego w oprogramowaniu komputera

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Hurtownia danych szansa na nowe życie (starej idei) Jakub Skuratowicz Technical Sales

Wprowadzenie. Dariusz Wawrzyniak. Miejsce, rola i zadania systemu operacyjnego w oprogramowaniu komputera

Systemy operacyjne. Wprowadzenie. Wykład prowadzą: Jerzy Brzeziński Dariusz Wawrzyniak

Wprowadzenie do Hurtowni Danych

Hadoop : kompletny przewodnik : analiza i przechowywanie danych / Tom White. Gliwice, cop Spis treści

Specjalizacja magisterska Bazy danych

Programowanie Komponentowe WebAPI

Apache Hadoop framework do pisania aplikacji rozproszonych

Narzędzia i trendy Big Data

Mariusz Dzieciątko. Krótko o sobie / Personal Overview/

Ekspert MS SQL Server Oferta nr 00/08

Hadoop - wprowadzenie. Łukasz Król

VMware vsphere: Automation Fast Track

Architektura rozproszonych magazynów danych

O mnie

Elastyczna sieć dla rozwiązań Cloud Open vswitch

Historia modeli programowania

5 Moduył do wyboru II *[zobacz opis poniżej] 4 Projektowanie i konfiguracja sieci komputerowych Z

rodzaj zajęć semestr 1 semestr 2 semestr 3 Razem Lp. Nazwa modułu E/Z Razem W I

VMware vsphere 5.5: Install, Configure, Manage

POLITECHNIKA LUBELSKA Wydział Elektrotechniki Kierunek: INFORMATYKA II stopień stacjonarne i Informatyki PROGRAM STUDIÓW

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Wydajność hurtowni danych opartej o Oracle10g Database

Podstawy programowania. Wprowadzenie

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

Tworzenie programów równoległych cd. Krzysztof Banaś Obliczenia równoległe 1

Mateusz Kurleto NEOTERIC. Analiza projektu B2B Kielce, 18 października 2012

Zarządzanie dokumentacją techniczną. Wykł. 11 Zarządzania przepływem informacji w przedsiębiorstwie. Zabezpieczenia dokumentacji technicznej.

Szkolenie obejmuje zagadnienia związane z tworzeniem i zarządzaniem bazą danych Oracle, jej zasobami i dostępem do danych.

Wybrane działy Informatyki Stosowanej

Tematy projektów Edycja 2017

Architecture Best Practices for Big Data Deployments

"System CC1 jak zbudować prywatną chmurę obliczeniową w jedno popołudnie. M. Witek, M. Zdybał w imieniu CC1

Zagadnienia egzaminacyjne INFORMATYKA. stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

Wirtualizacja Hyper-V: sposoby wykorzystania i najnowsze wyniki badań

DOKUMENTACJA BI SOW PFRON. Powykonawcza. dla BI INSIGHT S.A. UL. WŁADYSŁAWA JAGIEŁŁY 4 / U3, WARSZAWA. Strona 1 z 23

Tworzenie programów równoległych. Krzysztof Banaś Obliczenia równoległe 1

Spis treści. Przedmowa

Szkolenia SAS Cennik i kalendarz 2017

Wymagania sprzętowe i systemowe

INŻYNIERIA OPROGRAMOWANIA

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Programowanie współbieżne i rozproszone

PROLOG WSTĘP DO INFORMATYKI. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

Uniwersytet Łódzki Wydział Matematyki i Informatyki, Katedra Analizy Nieliniowej. Wstęp. Programowanie w Javie 2. mgr inż.

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Alicja Marszałek Różne rodzaje baz danych

Hurtownie danych - przegląd technologii

Hurtownie danych i przetwarzanie analityczne - projekt

Budowa aplikacji ASP.NET z wykorzystaniem wzorca MVC

Hikvision ivms

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Efekt kształcenia. Wiedza

Integracja systemów transakcyjnych

System Obsługi Wniosków

Wykorzystanie wirtualizacji w kluczowych scenariuszach data-center

Transkrypt:

Big Data

Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG)

Data Camp

Architektura

Data Lake Repozytorium służące składowaniu i przetwarzaniu danych o bardzo dużej skali i zróżnicowaniu Możliwość podłączania zróżnicowanych źródeł danych, zarówno posiadających strukturę jak i pozbawionych struktury; danych wsadowych oraz strumieni Dane nie są składowane w sposób uporządkowany jak w przypadku hurtowni danych czy data martów. Jest to często federacja technologii, baz danych i strumieni danych Architektura powstała jako odpowiedź na wady klasycznych hurtowni danych: HD odpowiadają tylko na pytania, które były znane wcześniej Hurtownie danych i data marty posiadają dane o określonej szczegółowości. Nie można jej zwiększyć HD opierają się na zdefiniowanych źródłach danych 5

Architektura lambda location Real-time layer Serving layer mobile apps databases Real-time data repository Data enrichment sensors Batch layer cloud science Enterprise data repository 6

Architektura kappa location mobile apps Real-time layer Real-time engine Serving layer databases sensors cloud Historical data storage science Dane historyczne Dane słownikowe 7

Przetwarzanie danych

Map Reduce Algorytm służący przetwarzaniu równoległemu dużych zbiorów danych w rozproszonym środowisku. Podejście opracowane przez firmę Google. Algorytm składa się z dwóch głównych kroków: map pobranie danych z wejścia i ich podział na podzbiory. Dekompozycja problemu na podproblemy. reduce zgromadzenie odpowiedzi, ich połączenie i przekazanie wyniku 9

Map reduce map reduce input map Dokument 1 Dokument 2 Dokument 3 Dokument 4 map reduce reduce output map 10

Map reduce 11

Pig Platforma służąca do analizy i przetwarzania dużych zbiorów danych Udostępnia język programowania, pozwalających na zrównoleglanie i rozpraszanie przetwarzania Język Pig stanowi warstwę działającą na HDFS. Kod źródłowy Pig jest przetwarzany przez platformę na zadania MapReduce Optymalizacja kodu jest wykonywana automatycznie przez platformę Możliwe jest dołączanie/programowanie dodatkowych funkcji, rozszerzających standardowe 12

Yarn Usługa zarządzająca zasobami klastra (resource manager) Każde zadanie realizowane przez klaster (zapytanie o dane, przetwarzanie danych, ładowanie danych, itp.) wymaga określonych zasobów. Zasoby te przydziela Yarn Yarn zarządza mocą procesorów (CPU), pamięcią RAM, przestrzenią dyskową oraz zasobami sieciowymi Obsługuje pojedyncza zadania a także całe aplikacje, które pracują na klastrze 13

Yarn kolejki (queues) 10% 40% 30% 10% 10% default ETL reporting apps 14

Tez Źródło: hortonworks.com/apache/tez/ 15

DAG (Directed Acyclic Graph) Źródło: sigmoid.com 16

Tez vs MapReduce Źródło: tez.apache.org 17

Spark Platforma (engine) do przetwarzania danych w dużej skali Obsługuje języki programowania: Java, Scala, Python, R, SQL Może pracować w trybie batch lub stream Może realizować zadania na jednej maszynie oraz na klastrze Lazy evaluation Immutable structures Źródło: spark.apache.org 18

Spark Źródło: databricks.com 19

Spark: DAG Źródło: 1.bp.blogspot.com 20

Spark: UI Źródło: databricks.com 21

Dziękuję za uwagę

Automatyzacja przetwarzania: Apache NiFi Źródło: nifi.apache.org 23

Automatyzacja przetwarzania: ETL Oozie Airflow Falcon SLJM CRON(sic!) Źródło: airflow.apache.org 24