Wprowadzenie do Hurtowni Danych

Podobne dokumenty
Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Hadoop i Spark. Mariusz Rafało

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Wprowadzenie do Apache Spark. Jakub Toczek

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

TECHNOLOGIE BIG DATA A BEZPIECZEŃSTWO INFORMATYCZNE WE KNOW YOU KNOW. silmine.com

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

Big Data & Analytics

Hurtownie danych wykład 5

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Wprowadzenie do Hurtowni Danych

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Dni: 2. Partner merytoryczny. Opis: Adresaci szkolenia

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Narzędzia i trendy Big Data

Hurtownie danych - przegląd technologii

Opis wdrożenia Platformy Technologicznej epodreczniki.pl na zasobach Poznańskiego Centrum Superkomputerowo-Sieciowego

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Z-ID-608b Bazy danych typu Big Data Big Data Databases. Specjalnościowy Obowiązkowy Polski Semestr VI

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

ZAŁĄCZNIK NR 5 - GRUPA PRODUKTÓW 5: OPROGRAMOWANIE BAZODANOWE

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Informacje organizacyjne:

Szybkość instynktu i rozsądek rozumu$

OPIS PRZEDMIOTU ZAMÓWIENIA

Wybrane działy Informatyki Stosowanej

Spis treści. Przedmowa

Hurtownie danych. 31 stycznia 2017

Hurtownie danych - przegląd technologii

Asseco HOME: obniżenie kosztów operacyjnych telekomów dzięki rozwiązaniu Big Data.

Hbase, Hive i BigSQL

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

FORMULARZ OFERTY CENOWEJ. Future Processing Sp. z o.o. ul. Bojkowska 37A Gliwice NIP: NIP:

Przetwarzanie i zabezpieczenie danych w zewnętrznym DATA CENTER

Wykład I. Wprowadzenie do baz danych

Część I Tworzenie baz danych SQL Server na potrzeby przechowywania danych

Bazy danych - ciągłość działania, spójność danych i disaster recovery. Daniel Polek-Pawlak Jarosław Zdebik

Tematy projektów Edycja 2014

Digitize Your Business

Aplikacja serwerowa Platformy Prezentacyjnej Opis produktu

Architektura i mechanizmy systemu

Spis treści. O autorach... 12

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Ekspert MS SQL Server Oferta nr 00/08

Problematyka hurtowni danych

Integracja systemów transakcyjnych

Rola analityki danych w transformacji cyfrowej firmy

Technologia informacyjna (IT - Information Technology) dziedzina wiedzy obejmująca:

Programowanie obiektowe

Pojęcie bazy danych. Funkcje i możliwości.

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Zdalne monitorowanie i zarządzanie urządzeniami sieciowymi

Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi

Szkolenia SAS Cennik i kalendarz 2017

Definicja. Not Only SQL

Hurtownia danych praktyczne zastosowania

DEKLARATYWNE ZARZĄDZANIE W MICROSOFT SQL SERVER

Analityka danych & big data

Wprowadzenie. Dariusz Wawrzyniak. Miejsce, rola i zadania systemu operacyjnego w oprogramowaniu komputera

WYKORZYSTANIE I ROZWÓJ WOLNEGO OPROGRAMOWANIA W WOJEWÓDZKIM WĘŹLE INFRASTRUKTURY INFORMACJI PRZESTRZENNEJ

Wprowadzenie. Dariusz Wawrzyniak. Miejsce, rola i zadania systemu operacyjnego w oprogramowaniu komputera

USŁUGI HIGH PERFORMANCE COMPUTING (HPC) DLA FIRM. Juliusz Pukacki,PCSS

Specjalizacja magisterska Bazy danych

Systemy operacyjne. Wprowadzenie. Wykład prowadzą: Jerzy Brzeziński Dariusz Wawrzyniak

Wybrane działy Informatyki Stosowanej

System INTEGRYB jako zintegrowane repozytorium danych umożliwiające zaawansowaną analitykę badawczą

IBM SPSS Modeler Social Network Analysis 16 podręcznik instalowania i konfigurowania

Alicja Marszałek Różne rodzaje baz danych

Zagadnienia egzaminacyjne INFORMATYKA. Stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

Instytut Informatyki Politechniki Warszawskiej

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Bazy danych 2. Wykład 1

Hurtownie danych w praktyce

Tematy prac dyplomowych inżynierskich

Zenoss. Monitorowanie nowoczesnej serwerowni

27/13 ZAŁĄCZNIK NR 4 DO SIWZ. 1 Serwery przetwarzania danych. 1.1 Serwery. dostawa, rozmieszczenie i zainstalowanie 2. serwerów przetwarzania danych.

Sposoby klastrowania aplikacji webowych w oparciu o rozwiązania OpenSource. Piotr Klimek. piko@piko.homelinux.net

BigData PILAB S.A./Krystian / Wstęp. / Co to jest BigData? / Co to jest Hadoop?

Sterowany jakością dostęp do usług składowania danych dla e-nauki

Database Connectivity

Seeon Enterprise Search Engine. Rozwiązanie obsługiwane przez eo Networks S.A.

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Tworzenie aplikacji bazodanowych

Pierwsze wdrożenie SAP BW w firmie

Monitoring procesów z wykorzystaniem systemu ADONIS. Krok po kroku

Transkrypt:

Wprowadzenie do Hurtowni Danych

BIG DATA

Definicja Big Data Big Data definiowane jest jako składowanie zbiorów danych o tak dużej złożoności i ilości danych, że jest to niemożliwe przy zastosowaniu podejścia tradycyjnego (np. opartego na hurtowni danych) Zagadnienie obejmuje identyfikację, pobieranie, składowanie, przeszukiwanie, współdzielenie, analizę i wizualizację danych wikipedia.org 3

Paradygmat Big Data Element Paradygmat klasyczny Paradygmat Big Data Ilość danych Szybkość danych Różnorodność danych Kolejne przyrosty danych cyklicznie ładowane do hurtowni danych Cykliczne pobieranie wyłącznie istotnych danych. Wysoki (względnie) poziom latencji (opóźnienia) danych Umieszczanie danych w bazie danych o określonej strukturze Analizowanie danych w czasie rzeczywistym, zapisywanie wyłącznie informacji kluczowych Nasłuch strumienia danych, w momencie pojawienia się określonych sytuacji, natychmiastowe podjęcie działania Strukturyzowanie danych, które pozwalają na określenie kontekstu danych o nieustrukturyzowanej postaci 4

Big Data: 3V s Wolumen danych (Volume) Zróżnicowanie danych (Variety) Szybkość zmian danych (Velocity) 5

Wolumen danych (Volume) http://www.signiant.com 6

Zróżnicowanie danych (Variety) Relacyjne bazy danych Tekst, html XML Strumienie danych Dane dotyczące powiązań Zdjęcia, filmy, muzyka 7

Szybkość danych (Velocity) http://vceestartups.com 8

Big Data kolejne V: Value (wartość) wartość Zdarzenie biznesowe Dane zebrane Informacja dostarczona Działania podjęte czas 9

Big Data kolejne V: Veracity (wiarygodność) Big data, ze względu na rodzaj danych oraz ich skalę, obarczony jest szeregiem problemów: Błędy danych Przekłamania Szum informacyjny Anomalie w danych W takich uwarunkowaniach istotne jest zarządzanie wiarygodnością danych dla ich użytkowników 10

Uwarunkowania prawne

PRZETWARZANIE ROZPROSZONE

Map reduce Algorytm służący przetwarzaniu równoległemu dużych zbiorów danych w rozproszonym środowisku. Podejście opracowane przez firmę Google. Algorytm składa się z dwóch głównych kroków: map pobranie danych z wejścia i ich podział na podzbiory. Dekompozycja problemu na podproblemy. reduce zgromadzenie odpowiedzi, ich połączenie i przekazanie wyniku 13

Map reduce map reduce input map Dokument 1 Dokument 2 Dokument 3 Dokument 4 map reduce reduce output map 14

Map reduce 15

HADOOP

Czym jest Hadoop Platforma służąca przetwarzaniu rozproszonemu dużych zbiorów danych. Jest to system open-source, na licencji Apache Software Foundation Główne cechy Apache Hadoop: Proste zarządzanie danymi w różnych formatach Bardzo duża skalowalność Wykorzystanie serwerów o niskiej/średniej mocy Wysoka tolerancja na awarie Wspierane języki programowania Java Python Scala R 17

Architektura rozproszona Name Node Secondary Name Node Data Node Data Node Data Node Klaster big data 18

Name node Przechowuje metadane plików, w szczególności informacje dotyczące lokalizacji poszczególnych plików name node jest kluczowym elementem architektury fizycznej w klastrze zawsze jest dokładnie jeden name node Zarządzania rozkładem plików podczas przyłączania nowych data node oraz w przypadku wystąpienia awarii 19

Data node Składuje dane na systemie HDFS Przekazuje informacje od name node, dotyczące swojego statusu oraz posiadanych plików Może pracować w trybie replikacji danych (także RAID) 20

Zapis/odczyt/replikacja danych https://hadoop.apache.org 21

Architektura rozproszona Name Node Secondary Name Node Rozproszony system plików Automatyczny rebalancing Możliwość usuwania/wyłączania węzłów w trakcie pracy Brak systemu zabezpieczeń Data Node Data Node Data Node Klaster big data 22

Kiedy nie stosować Hadoop Low latency and real time Dane posiadają strukturę Wolumen nie bardzo duży Dużo zapisów (więcej niż odczytów) Jeśli algorytm nie daje się dekomponować na równoległe kroki 23

ARCHITEKTURA BIG DATA

YARN HBASE DRUID ZOOKEPER Wybrane komponenty Big Data AMBARI HIVE PIG SPARK HDFS

HDFS HDFS (Hadoop Distributed File System) to rozproszony system plików, umieszczony na wielu serwerach (węzłach node) HDFS cechuje się wysokim poziomem tolerancji na awarie sprzętowe (fault tolerant) HDFS opiera się na nisko-kosztowych serwerach HDFS powstał na potrzeby projektu wyszukiwarki Nutch, dla firmy Yahoo 26

PIG Platforma służąca do analizy i przetwarzania dużych zbiorów danych Udostępnia język programowania, pozwalających na zrównoleglanie i rozpraszanie przetwarzania Język Pig stanowi warstwę działającą na HDFS. Kod źródłowy Pig jest przetwarzany przez platformę na zadania map-reduce Optymalizacja kodu jest wykonywana automatycznie przez platformę Możliwe jest dołączanie/programowanie dodatkowych funkcji, rozszerzających standardowe 27

HIVE Oprogramowanie powalające na zadawanie zapytań do rozproszonego systemu HDFS Jest to język programowania o podobnej składni do SQL (HiveSQL) Dodatkowo, podobnie jak Pig, Hive udostępnia komendy pozwalające na stosowanie algorytmów map-reduce 28

HBASE Rozproszona baza danych, służąca przechowywaniu dużych ilości danych Bardzo dobrze sprawdza się do obsługi szybkich zapytań na tabelach zawierających miliardy rekordów i tysiące (nawet miliony) kolumn Jest to baza danych nie-relacyjna, obsługująca zapytania w pamięci operacyjnej Mniej radzi sobie z zapytaniami analitycznymi, które wymagają agregowania wielu rekordów 29

ZOOKEPER Scentralizowana usługa utrzymująca konfigurację klastra; metadane klastra Zarządza konfiguracją rozproszoną, pozwala na automatyczne konfigurowanie nowego węzła (node) lub nowej usługi na wielu węzłach 30

YARN Usługa zarządzająca zasobami klastra Każde zadanie realizowane przez klaster (zapytanie o dane, przetwarzanie danych, ładowanie danych, itp.) wymaga określonych zasobów. Zasoby te przydziela Yarn Yarn zarządza mocą procesorów (CPU), pamięcią RAM, przestrzenią dyskową oraz zasobami sieciowymi Obsługuje pojedyncza zadania a także całe aplikacje, które pracują na klastrze 31

AMBARI Konsola do zarządzania klastrem oraz wszystkimi usługami Monitoruje zarówno zasoby klastra jak i poszczególne usługi 32

DRUID Kolumnowa baza danych wspierająca analizy wielowymiarowe (OLAP) Możliwość ładowania danych za pomocą ETL lub poprzez strumień danych (Kafka) Rozproszona, skalowalna architektura Źródło: druid.io 33

DATA LAKE

Data Lake Repozytorium służące składowaniu i przetwarzaniu danych o bardzo dużej skali i zróżnicowaniu Możliwość podłączania zróżnicowanych źródeł danych, zarówno posiadających strukturę jak i pozbawionych struktury; danych wsadowych oraz strumieni Dane nie są składowane w sposób uporządkowany jak w przypadku hurtowni danych czy data martów. Jest to często federacja technologii, baz danych i strumieni danych Architektura powstała jako odpowiedź na wady klasycznych hurtowni danych: HD odpowiadają tylko na pytania, które były znane wcześniej Hurtownie danych i data marty posiadają dane o określonej szczegółowości. Nie można jej zwiększyć HD opierają się na zdefiniowanych źródłach danych Przykładem architektury data lake jest klaster hadoop 35

BIG DATA A HURTOWNIA DANYCH

Metadane Technologie big data w HD Cassandra Redis ODS Analityczne zbiory danych (ADS) Zbiór danych tematycznych (Data Marts) Hive HDFS HBase Cassandra Druid HDFS Cassandra Zbiór danych detalicznych (DETAIL) Hive Cassandra Zbiór danych tymczasowych (STAGE) HDFS MongoDB 37

Dziękuję za uwagę