Analityka danych w środowisku Hadoop Piotr Czarnas, 27 czerwca 2017
Hadoop i Business Intelligence - wyzwania 1 Ładowane danych do Hadoop-a jest trudne 2 Niewielu specjalistów dostępnych na rynku Dostęp do danych wymaga sterowników 3 Failure rate 6-9m 4 Data Governance i bezpieczeństwo
Analityka w środowisku Hadoop - potrzeby Niski koszt nauki Łatwość uruchomienia środowiska Prostota ładowania danych Wszechstronna dostępność danych Bezpieczeństwo danych
Wyzwania przy wdrożeniu procesów analityki danych Biznes oczekuje odpowiedzi na wczoraj Dużo źródeł danych Długi czas przygotowania danych Koszty narzędzi i środowiska Ochrona danych osobowych (RODO)
Wyzwania przy wdrożeniu procesów analityki danych Biznes oczekuje odpowiedzi na wczoraj Nie wszystkie dane potrzebne do raportu są dostępne Dane dostępne w hurtowni najwcześniej po kilku dniach Biznes oczekuje danych w czasie rzeczywistym
Wyzwania przy wdrożeniu procesów analityki danych Dużo źródeł danych Analityk musi znaleźć potrzebne dane Tabele w hurtowni danych nie są opisane Nowe źródła danych (Google Analytics, plik z danymi rynkowymi, etc.) wymagają załadowania
Wyzwania przy wdrożeniu procesów analityki danych Długi czas przygotowania danych Analityk biznesowy jest uzależniony od IT Dane trzeba załadować Ładowanie danych do Hadoop-a nie jest proste:
Wyzwania przy wdrożeniu procesów analityki danych Koszty narzędzi i środowiska Tradycyjne bazy danych są kosztowne Narzędzia wizualizacyjne (jak QlikView) tylko dla wybranych Brak powszechnego dostępu do raportów dla wszystkich użytkowników $$$
Wyzwania przy wdrożeniu procesów analityki danych Ochrona danych osobowych Regulacja RODO / GDPR wchodzi w życie 25 maja 2018 Ewidencja źródeł z danymi personalnymi Zapewnienie kontroli dostępu i audyt dostępu
QUERONA
Co to jest Querona Samoobsługowa logiczna hurtownia danych Obsługa około 100 typów źródeł danych (ERP, CRM, bazy danych) Dostęp z dowolnego narzędzia jako wirtualny SQL Server 2012 Ładowanie danych do hurtowni w kilku kliknięciach Dostęp i łączenie danych z róźnych źródeł w czasie rzeczywistym Łatwy interfejs webowy do wyszukiwania i zarządzania danymi Wbudowany silnik Big Data do przetwarzania dużych zbiorów danych
Klasyczny proces przygotowania danych do raportu Zamówienie raportu Biznes prosi o przygotowanie raportu Znalezienie danych Analityk szuka i analizuje źródła danych Przygotowanie danych Analityk prosi IT o załadowanie danych do hurtowni Budowa raportu Analityk buduje model danych oraz wizualizację
Jak Querona adresuje problem Dostęp do danych dowolnym narzędziem Brak wpływu na obecne środowisko Wirtualna baza danych wspomagana przez Apache Spark Łatwe uruchamianie środowiska analitycznego Big Data Dostęp do wszystkich źródeł danych Progresywne wdrażanie analityki Big Data w firmie Kompleksowa Logiczna Hurtownia Danych: bez ETL-a, samoobsługowa, gotowa na wyzwania Big Data
Querona - zwinny process analityki danych Zamówienie raportu Biznes może sam pobrać dane do Excela Znalezienie danych Analityk łatwo znajduje dostępne dane Przygotowanie danych Analityk sam może podłączyć lub przeładować dane Budowa raportu Model danych raportu zostaje opublikowany na przyszość
Apache Spark w analityce Najpopularniejszy silnik Big Data Open source Skalowalny Pełne wsparcie SQL Nastawiony na przetwarzanie ad-hoc Działa w każdym środowisku
Spark vs Hadoop Spark Hadoop Wykonywanie zapytań SQL Analityka w czasie rzeczywistym Równoległa obsługa wielu użytkowników Zarządzanie klastrem Bezpieczeństwo komunikacji Definicja metadanych Przechowywanie danych (HDFS)
Tradycyjne ładowanie danych do Hadoop-a (push) 1 Przygotowanie plików Napisanie skryptów ładujących 2 3 Podpięcie skryptów ładujących pod harmonogramy
Samoobsługowe odwrócone ładowanie danych (pull) 1 Podpięcie źródeł danych Wskazanie danych do załadowania Spark sam pobierze dane ze źródła 2 3 Wskazanie harmonogramu ładowania
Demo
Klasyczne środowisko Business Intelligence Narzędzia BI: Źródła danych Warstwa wizualna CRM ERP Baza danych Pliki tekstowe Model danych Silnik ekstraktów Procesy ETL Modele danych do raportów Dane dostępne tylko w ramach narzędzia BI Ekstrakty danych Rozmiar ograniczony wielkością serwera Hurtownia
Wyzwania w dostępie do danych Gdzie znajdę dane do raportu? Czy dane są zabezpieczone? Kiedy dane rynkowe lub od partnera będą raportowalne? Czy mogę użyć danych z raportu w Excelu? Czy są tam dane personalne? Czy hurtownia danych jest wystarczająco szybka?
Środowisko ze współdzielonym modelem danych Narzędzia BI: Logiczna hurtownia danych Źródła danych Warstwa wizualna Model danych Definicja źródeł danych Centralna definicja uprawnień CRM ERP Baza danych Pliki tekstowe Inne narzędzia Warstwa utrzymania danych Opcjonalne procesy ETL System harmonogramów Zarządzanie cyklem życia cache Hurtownia
Zalety centralizacji modelu danych Dostęp do danych z dowolnego narzędzia Wszystkie źródła danych opisane Mniejsza zależność analityków od zespołu IT Pełny obraz źródeł danych na potrzeby regulacji RODO Łatwe i krokowe wdrażanie platformy Big Data do analityki Nieograniczone możliwości skalowania
Piotr Czarnas CEO Querona Ltd. piotr.czarnas@querona.com +48 536 133 114 www.querona.com