Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Podobne dokumenty
Wprowadzenie do Hurtowni Danych

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Hadoop i Spark. Mariusz Rafało

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Hbase, Hive i BigSQL

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Narzędzia i trendy Big Data

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Wprowadzenie do Hurtowni Danych

Hurtownie danych wykład 5

Szkolenie autoryzowane. MS 6232 Wdrażanie bazy danych Microsoft SQL Server 2008 R2

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

ZAŁĄCZNIK NR 5 - GRUPA PRODUKTÓW 5: OPROGRAMOWANIE BAZODANOWE

OPIS PRZEDMIOTU ZAMÓWIENIA

Szkolenie wycofane z oferty. Apache Cassandra - modelowanie, wydajność, analiza danych

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Seeon Enterprise Search Engine. Rozwiązanie obsługiwane przez eo Networks S.A.

Hurtownie danych w praktyce

Splunk w akcji. Radosław Żak-Brodalko Solutions Architect Linux Polska Sp. z o.o.

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Wprowadzenie do Apache Spark. Jakub Toczek

Oracle Log Analytics Cloud Service

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

NoSQL & relax with CouchDB

Tematy projektów Edycja 2014

Nowe technologie baz danych

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Specjalizacja magisterska Bazy danych

Projekt: MS i CISCO dla Śląska

Big Data & Analytics

T-SQL dla każdego / Alison Balter. Gliwice, cop Spis treści. O autorce 11. Dedykacja 12. Podziękowania 12. Wstęp 15

Architektura i mechanizmy systemu

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Sterowany jakością dostęp do usług składowania danych dla e-nauki

*Grafomania z. Neo4j. Praktyczne wprowadzenie do grafowej bazy danych.

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

LITERATURA. C. J. Date; Wprowadzenie do systemów baz danych WNT Warszawa 2000 ( seria Klasyka Informatyki )

Systemy GIS Systemy baz danych

Tworzenie aplikacji bazodanowych

FORMULARZ OFERTY CENOWEJ. Future Processing Sp. z o.o. ul. Bojkowska 37A Gliwice NIP: NIP:

SiR_13 Systemy SCADA: sterowanie nadrzędne; wizualizacja procesów. MES - Manufacturing Execution System System Realizacji Produkcji

Rola analityki danych w transformacji cyfrowej firmy

PHP: bazy danych, SQL, AJAX i JSON

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

WYKORZYSTANIE I ROZWÓJ WOLNEGO OPROGRAMOWANIA W WOJEWÓDZKIM WĘŹLE INFRASTRUKTURY INFORMACJI PRZESTRZENNEJ

PERSPEKTYWY ZASTOSOWANIA BAZ DANYCH NoSQL W INTELIGENTNYCH SYSTEMACH TRANSPORTOWYCH

Informacje organizacyjne:

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

Opis wdrożenia Platformy Technologicznej epodreczniki.pl na zasobach Poznańskiego Centrum Superkomputerowo-Sieciowego

Hadoop : kompletny przewodnik : analiza i przechowywanie danych / Tom White. Gliwice, cop Spis treści

Pierwsze wdrożenie SAP BW w firmie

Włącz autopilota w zabezpieczeniach IT

Z-ID-608b Bazy danych typu Big Data Big Data Databases. Specjalnościowy Obowiązkowy Polski Semestr VI

Definicja. Not Only SQL

TECHNOLOGIE BIG DATA A BEZPIECZEŃSTWO INFORMATYCZNE WE KNOW YOU KNOW. silmine.com

Wybrane działy Informatyki Stosowanej

Część I Tworzenie baz danych SQL Server na potrzeby przechowywania danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Instytut Informatyki Politechniki Warszawskiej

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Nowoczesne bazy danych, czyli przetwarzanie in-memory

Projektowanie i implementacja wysokowydajnych aplikacji w języku

Hurtownie danych i systemy informacji gospodarczej. Vastosowanie w handlu elektronicznym.

SQL Server Analysis Services Model tabelaryczny BISM

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

Asseco HOME: obniżenie kosztów operacyjnych telekomów dzięki rozwiązaniu Big Data.

Hurtownie danych - przegląd technologii

HP Service Anywhere Uproszczenie zarządzania usługami IT

Obiektowość BD Powtórka Czas odpowiedzi. Bazy Danych i Systemy informacyjne Wykład 14. Piotr Syga

Wprowadzenie do projektowania i wykorzystania baz danych Relacje i elementy projektowania baz

Bazy danych - ciągłość działania, spójność danych i disaster recovery. Daniel Polek-Pawlak Jarosław Zdebik

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

Asseco CCR Comprehensive Consolidated Reporting. asseco.pl

System INTEGRYB jako zintegrowane repozytorium danych umożliwiające zaawansowaną analitykę badawczą

Aplikacje webowe z wykorzystaniem Node.js oraz Express

MongoDB. wprowadzenie. dr inż. Paweł Boiński, Politechnika Poznańska

IBM BigInsights on Cloud

Zadanie nr 4.5: Oprogramowanie bazodanowe. Lp. Zwartość karty Opis 1 Specyfikacja techniczna / funkcjonalna przedmiotu zamówienia

mail: strona: konsultacje: na stronie (po wcześniejszym umówieniu drogą mailową)

PR kwietnia 2012 Automatyka budynkowa, Technologia sterowania Oprogramowanie Strona 1 z 5

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

enxoo properto Kompleksowy system do zarządzania sprzedażą i wynajmem nieruchomości

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

2 Konfiguracja i utrzymanie bazy danych Przed rozpoczęciem Lekcja 1: Konfigurowanie plików i grup plików Pliki i grupy plików...

Informatyka I. Standard JDBC Programowanie aplikacji bazodanowych w języku Java

Hurtownie danych. 31 stycznia 2017

Pojęcie bazy danych funkcje i możliwości

PRZEWODNIK PO PRZEDMIOCIE

BAZY DANYCH. NIERELACYJNE BAZY DANYCH NoSQL I ASOCJACYJNE STRUKTURY DANYCH. Adrian Horzyk. Akademia Górniczo-Hutnicza

Plan. Wprowadzenie. Co to jest APEX? Wprowadzenie. Administracja obszarem roboczym

Co to jest Business Intelligence?

IBM SPSS Modeler Social Network Analysis 16 podręcznik instalowania i konfigurowania

Transkrypt:

Big Data

Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG)

Automatyzacja

Automatyzacja przetwarzania: Apache NiFi Źródło: nifi.apache.org 4

Automatyzacja przetwarzania: ETL Oozie Airflow Falcon SLJM CRON(sic!) Źródło: airflow.apache.org 5

Technologie składowania danych

Hive Baza danych oparta na systemie plików HDFS Oprogramowanie powalające na zadawanie zapytań do rozproszonego systemu HDFS Oferuje język zapytań HQL; jest to język programowania o podobnej składni do SQL (HiveSQL) Dodatkowo, podobnie jak Pig, Hive udostępnia komendy pozwalające na stosowanie algorytmów MapReduce 7

HBase Rozproszona, kolumnowa baza danych Dobrze sprawdza się do obsługi szybkich zapytań na tabelach zawierających miliardy rekordów i tysiące (nawet miliony) kolumn Jest to baza danych nie-relacyjna, obsługująca zapytania w pamięci operacyjnej Mniej radzi sobie z zapytaniami analitycznymi, które wymagają agregowania danych (np. zapytania o dane detaliczne będą mniej wydajne) 8

Cassandra Kolumnowa baza danych; cechuje się krótkimi czasami odpowiedzi Posiada cechy bazy kluczwartość Operuje na rodzinach kolumn, kluczach i kolumnach Źródło: Big Data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym, Nathan Marz, James Warren, Helion, 2016 9

Cassandra(przykład) Źródło: Big Data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym, Nathan Marz, James Warren, Helion, 2016 10

Druid Kolumnowa baza danych wspierająca analizy wielowymiarowe (OLAP) Możliwość ładowania danych za pomocą ETL lub poprzez strumień danych (Kafka) Rozproszona, skalowalna architektura Źródło: druid.io 11

MongoDB Nierelacyjna baza danych, napisana w języku C++ Platforma cechuje się dużą skalowalnością, wydajnością oraz brakiem ściśle zdefiniowanej struktury obsługiwanych danych Dane składowane są jako pliki w formacje JSON, co umożliwia aplikacjom bardziej naturalne ich przetwarzanie, przy zachowaniu możliwości tworzenia hierarchii oraz indeksowania Posiada możliwość składowania danych w pamięci operacyjnej (WiredTiger engine) Wybrane narzędzia i komponenty: MongoDB Compass narzędzie do wizualnej analizy danych MongoDB Spark Connector integracja z Apache Spark MongoDB Atlas database as a service 12

Redis Baza danych klasy in-memory, składująca dane w pamięci operacyjnej Oferuje bardzo szybki odczyt i zapis danych Oferuje wsparcie dla wielu typów danych jak np. string, hash, list, set Pozwala na stosowanie indeksów Posiada specjalizowane struktury służące obsłudze danych geograficznych 13

ELK Źródło: elastic.co 14

Zarządzanie klastrem

Zookeeper Scentralizowana usługa utrzymująca konfigurację klastra Zarządza metadanymi i konfiguracją klastra Zarządza konfiguracją rozproszoną, pozwala na automatyczne konfigurowanie nowego węzła (data node) lub nowej usługi na wielu węzłach 16

Ambari Konsola do zarządzania klastrem oraz wszystkimi usługami Monitoruje zarówno zasoby klastra jak i poszczególne usługi 17

Zarządzanie klastrem: zagadnienia Infrastruktura sprzętowa (jak monitorować?) Warstwa aplikacji (jak dbać o dostępność?) Przetwarzanie danych (jak ładować dane klaster?) Zarządzanie dostępem (bezpieczeństwo danych) Śledzenie i diagnostyka błędów w danych Wydajność 18

Dziękuję za uwagę