Hadoop i Spark. Mariusz Rafało

Podobne dokumenty
Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Wprowadzenie do Hurtowni Danych

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Wprowadzenie do Apache Spark. Jakub Toczek

TECHNOLOGIE BIG DATA A BEZPIECZEŃSTWO INFORMATYCZNE WE KNOW YOU KNOW. silmine.com

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

SQL Server 2016 w świecie Big Data

Dni: 2. Partner merytoryczny. Opis: Adresaci szkolenia

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Metody replikacji baz danych Oracle pomiędzy ośrodkami przetwarzania danych

Tematy prac dyplomowych inżynierskich

Letnia Akademia SUSE. Implementacja nowych rozwiązań open source wszystko, co musisz wiedzieć!

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

Z-ID-608b Bazy danych typu Big Data Big Data Databases. Specjalnościowy Obowiązkowy Polski Semestr VI

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Architecture Best Practices for Big Data Deployments

FORMULARZ OFERTY CENOWEJ. Future Processing Sp. z o.o. ul. Bojkowska 37A Gliwice NIP: NIP:

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Przetwarzanie i zabezpieczenie danych w zewnętrznym DATA CENTER

Architektura i mechanizmy systemu

Sposoby klastrowania aplikacji webowych w oparciu o rozwiązania OpenSource. Piotr Klimek. piko@piko.homelinux.net

Big Data & Analytics

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

BigData PILAB S.A./Krystian / Wstęp. / Co to jest BigData? / Co to jest Hadoop?

Wybrane działy Informatyki Stosowanej

Digitize Your Business

Koncepcja wirtualnej pracowni GIS w oparciu o oprogramowanie open source

Mateusz Kurleto NEOTERIC. Analiza projektu B2B Kielce, 18 października 2012

EMC ViPR. Pamięć masowa zdefiniowana programowo

Dane bezpieczne w chmurze

Wybrane działy Informatyki Stosowanej

Szkolenie: Jak mieć więcej czasu na wyciąganie wniosków

Bazy danych. Plan wykładu. Rozproszona baza danych. Fragmetaryzacja. Cechy bazy rozproszonej. Replikacje (zalety) Wykład 15: Rozproszone bazy danych

INFORMATOR TECHNICZNY WONDERWARE

Nowoczesne technologie bliżej nas 1

Architektura rozproszonych magazynów danych

Zakup dostępu do usług przetwarzania danych w chmurze (np. Windows Azure lub równoważnej).

Nowe podejście do składowania danych

Architektura korporacyjna jako narzędzie koordynacji wdrażania przetwarzania w chmurze

INFORMATOR TECHNICZNY WONDERWARE

Automatyzacja procesów biznesowych Andrzej Sobecki. ESB Enterprise service bus

WYKORZYSTANIE I ROZWÓJ WOLNEGO OPROGRAMOWANIA W WOJEWÓDZKIM WĘŹLE INFRASTRUKTURY INFORMACJI PRZESTRZENNEJ

Proponowana architektura ZPT

VMware vsphere 5.5: Install, Configure, Manage

Klastrowanie bazy IBM DB2. Adam Duszeńko

Technologie dla aplikacji klasy enterprise. Wprowadzenie. Marek Wojciechowski

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

Serwery LDAP w środowisku produktów w Oracle

ZAŁOŻENIA PROJEKTOWE I SPECYFIKACJA USŁUG

Nowe aplikacje i usługi w środowisku Grid

BMC Control-M Wybrane przypadki zastosowania

Architektura TERYT GUS. EMUiA. EGiB. Pozostałe systemy ZSIN SZYNA USŁUG. EMUiA

Dyrektor ACK Cyfronet AGH. z dnia 2 października 2017 roku w sprawie zmian organizacyjnych

Apache Hadoop framework do pisania aplikacji rozproszonych

Instalacja oprogramowania Platforma Systemowa ArchestrA 2012 R2

Systemy rozproszone. na użytkownikach systemu rozproszonego wrażenie pojedynczego i zintegrowanego systemu.

Zakres wymagań dotyczących Dokumentacji Systemu

Firebird Alternatywa dla popularnych darmowych systemów bazodanowych MySQL i Postgres

Przetwarzanie danych w chmurze

Jak znaleźć prawdziwe zagrożenia w infrastrukturze IT

OCENA ZABEZPIECZEŃ. Obraz środowiska wirtualnego

Wprowadzenie. Co to jest klaster? Podział ze względu na przeznaczenie. Architektury klastrów. Cechy dobrego klastra.

PLNOG#10 Hadoop w akcji: analiza logów 1

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Budowanie tanich, wysoko wydajnych i wysoko dostępnych systemów pod Linuksem Mariusz Droździel Październik 2009

"System CC1 jak zbudować prywatną chmurę obliczeniową w jedno popołudnie. M. Witek, M. Zdybał w imieniu CC1

Narzędzia i trendy Big Data

Informacje organizacyjne:

Hadoop : kompletny przewodnik : analiza i przechowywanie danych / Tom White. Gliwice, cop Spis treści

Niezawodne usługi outsourcingowe na przykładzie usług kampusowych i Krajowego Magazynu Danych w sieci PIONIER

Szkolenie autoryzowane. MS Konfiguracja i zarządzanie Microsoft SharePoint 2010

O mnie

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

IBM BigInsights on Cloud

Specjalizacja magisterska Bazy danych

OpenContrail jako wtyczka do OpenStacka. Bartosz Górski, Paweł Banaszewski CodiLime

Usługi przechowywania danych KMD/PLATON-U4 dla bibliotek cyfrowych. Maciej Brzeźniak, Norbert Meyer, Rafał Mikołajczak, Maciej Stroiński

Nowoczesny dział IT w chmurze

Spis treści. O autorach... 12

Zenoss. Monitorowanie nowoczesnej serwerowni

Szczegółowy opis przedmiotu zamówienia (SOPZ)

Instytut Informatyki Politechniki Warszawskiej

Seeon Enterprise Search Engine. Rozwiązanie obsługiwane przez eo Networks S.A.

Czym jest SAP HANA? Relacyjna baza danych przechowywana i przetwarzana w pamięci RAM. Uniwersalna platforma uruchomieniowa

Oracle Log Analytics Cloud Service

WDROŻENIE RSA NETWITNESS SUITE W BRANŻY E-COMMERCE

System INTEGRYB jako zintegrowane repozytorium danych umożliwiające zaawansowaną analitykę badawczą

Przetwarzanie danych w chmurze

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

DZANIA I MARKETINGU BIAŁYSTOK,

Wymagania systemowe dla Qlik Sense. Qlik Sense June 2018 Copyright QlikTech International AB. Wszelkie prawa zastrzeżone.

Sterowany jakością dostęp do usług składowania danych dla e-nauki

Szkolenia SAS Cennik i kalendarz 2017

Wprowadzenie do Hurtowni Danych

Korporacyjna Magistrala Usług na przykładzie Oracle Service Bus

Transkrypt:

Hadoop i Spark Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl

WPROWADZENIE DO EKOSYSTEMU APACHE HADOOP

Czym jest Hadoop Platforma służąca przetwarzaniu rozproszonemu dużych zbiorów danych. Jest to system open-source, na licencji Apache Software Foundation. Główne cechy Apache Hadoop: Proste zarządzanie danymi w różnych formatach Duża skalowalność Wysoka tolerancja na awarie Wspierane języki programowania Java Python Scala R 3

HDFS HDFS (Hadoop Distributed File System) to rozproszony system plików, umieszczony na wielu serwerach (węzłach nodes) HDFS cechuje się wysokim poziomem tolerancji na awarie sprzętowe (fault tolerant) HDFS powstał na potrzeby projektu wyszukiwarki Nutch, dla firmy Yahoo 4

Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node Edge Node 5

Name node Przechowuje metadane plików; także dane dotyczące lokalizacji poszczególnych plików składowanych na HDFS name node jest kluczowym elementem architektury fizycznej w klastrze zawsze jest jeden name node Zarządzania rozkładem plików podczas przyłączania nowych data node oraz w przypadku wystąpienia awarii 6

Secondary name node Przechowuje logi replikowane w określonym czasie z name node Zadaniem secondary name node jest redukcja czasu zarządzania metadanymi klastra oraz czasu restartu klastra secondary name node stanowi zapisuje stany danych(checkpoint) w systemie HDFS; służy to wsparciu wydajności pracy name node secondary name node nie służy zapewnieniu wysokiej dostępności klastra (HA) 7

Data node Składuje dane na systemie HDFS Przekazuje informacje od name node, dotyczące swojego statusu oraz posiadanych plików Może pracować w trybie replikacji danych (także RAID) Wykonuje zadania obliczeniowe zlecane poprzez MapReduce lub Yarn 8

Edge node Służy do wymiany informacji z otoczeniem klastra Są na nim instalowane aplikacje Posiada dedykowaną konfigurację sieciową, pozwalającą na wymianę danych z innymi systemami 9

Architektura fizyczna Źródło: pacificbigdata.com 10

ARCHITEKTURY BIG DATA

Data Lake Repozytorium służące składowaniu i przetwarzaniu danych o bardzo dużej skali i zróżnicowaniu Możliwość podłączania zróżnicowanych źródeł danych, zarówno posiadających strukturę jak i pozbawionych struktury; danych wsadowych oraz strumieni Dane nie są składowane w sposób uporządkowany jak w przypadku hurtowni danych czy data martów. Jest to często federacja technologii, baz danych i strumieni danych Architektura powstała jako odpowiedź na wady klasycznych hurtowni danych: HD odpowiadają tylko na pytania, które były znane wcześniej Hurtownie danych i data marty posiadają dane o określonej szczegółowości. Nie można jej zwiększyć HD opierają się na zdefiniowanych źródłach danych 12

Architektura lambda location Real-time layer Serving layer mobile apps databases Real-time data repository Data enrichment sensors Batch layer cloud science Enterprise data repository 13

Architektura kappa location mobile apps Real-time layer Real-time engine Serving layer databases sensors cloud Historical data storage science Dane historyczne Dane słownikowe 14

TECHNOLOGIE BIG DATA

Komponenty technologiczne - klasyfikacja Składowanie danych Przetwarzanie Automatyzacja przetwarzania Administrowanie klastrem Bezpieczeństwo Przetwarzanie strumieniowe Machine learning 16

Databricks

Databricks community edition https://community.cloud.databricks.com

Databricks platform Źródło: databricks.org

Databricks platform Źródło: databricks.org

Databricks platform Źródło: databricks.org

Dziękuję za uwagę