Analityka danych w środowisku Hadoop Piotr Czarnas, 5 czerwca 2017
Pytania stawiane przez biznes 1 Jaka jest aktualnie sytuacja w firmie? 2 Na czym jeszcze możemy zarobić? Które procesy możemy usprawnić? 3 Failure rate 6-9m 4 Gdzie ponosimy straty?
Wyzwania przy wdrożeniu procesów analityki danych Biznes oczekuje odpowiedzi na wczoraj Dużo źródeł danych Długi czas przygotowania danych Koszty narzędzi i środowiska Ochrona danych osobowych (RODO)
Wyzwania przy wdrożeniu procesów analityki danych Biznes oczekuje odpowiedzi na wczoraj Nie wszystkie dane potrzebne do raportu są dostępne Dane dostępne w hurtowni najwcześniej po kilku dniach Raport wykonuje się długo na obecnej infrastrukturze Biznes oczekuje danych w czasie rzeczywistym
Wyzwania przy wdrożeniu procesów analityki danych Dużo źródeł danych Analityk musi znaleźć potrzebne dane Tabele w hurtowni danych nie są opisane Nowe źródła danych (Google Analytics, plik z danymi rynkowymi, etc.) wymagają załadowania
Wyzwania przy wdrożeniu procesów analityki danych Długi czas przygotowania danych Analityk biznesowy jest uzależniony od IT Dane trzeba załadować Ładowanie danych do Hadoop-a nie jest proste:
Wyzwania przy wdrożeniu procesów analityki danych Koszty narzędzi i środowiska Tradycyjne bazy danych są kosztowne Narzędzia wizualizacyjne (jak QlikView) tylko dla wybranych Brak powszechnego dostępu do raportów dla wszystkich użytkowników $$$
Wyzwania przy wdrożeniu procesów analityki danych Ochrona danych osobowych Regulacja RODO / GDPR wchodzi w życie 25 maja 2018 Ewidencja źródeł z danymi personalnymi Zapewnienie kontroli dostępu i audyt dostępu
Obraz klienta 360 Obszary raportowania ad-hoc Profilowanie klientów na podstawie dodatkowych źródeł informacji (Google Analytics, Facebook, etc.) Łączenie danych CRM, ERP i rynkowych Logistyka Monitorowanie łańcucha dostaw i dystrybucji Analiza danych od partnerów handlowych
Proces przygotowania danych do raportu Zamówienie raportu Biznes prosi o przygotowanie raportu Znalezienie danych Analityk szuka i analizuje źródła danych Przygotowanie danych Analityk prosi IT o załadowanie danych do hurtowni Budowa raportu Analityk buduje model danych oraz wizualizację
Dostęp do danych dowolnym narzędziem Brak wpływu na obecne środowisko Wirtualna baza danych wspomagana przez Apache Spark Łatwe uruchamianie środowiska analitycznego Big Data Dostęp do wszystkich źródeł danych Progresywne wdrażanie analityki Big Data w firmie
Zwinny process analityki danych Zamówienie raportu Biznes może sam pobrać dane do Excela Znalezienie danych Analityk łatwo znajduje dostępne dane Przygotowanie danych Analityk sam może podłączyć lub przeładować dane Budowa raportu Model danych raportu zostaje opublikowany na przyszość
Apache Spark w analityce Najpopularniejszy silnik Big Data Open source Skalowalny Pełne wsparcie SQL Nastawiony na przetwarzanie ad-hoc Działa w każdym środowisku
Spark vs Hadoop Spark Wykonywanie zapytań SQL Analityka w czasie rzeczywistym Równoległa obsługa wielu użytkowników Hadoop Zarządzanie klastrem Bezpieczeństwo komunikacji Definicja metadanych Przechowywanie danych (HDFS)
Tradycyjne ładowanie danych do Hadoop-a (push) 1 Przygotowanie plików Napisanie skryptów ładujących 2 3 Podpięcie skryptów ładujących pod harmonogramy
Samoobsługowe odwrócone ładowanie danych (pull) 1 Podpięcie źródeł danych Wskazanie danych do załadowania Spark sam pobierze dane ze źródła 2 3 Wskazanie harmonogramu ładowania
Demo
Klasyczne środowisko Business Intelligence Narzędzia BI: Źródła danych Warstwa wizualna CRM ERP Baza danych Pliki tekstowe Model danych Silnik ekstraktów Procesy ETL Modele danych do raportów Dane dostępne tylko w ramach narzędzia BI Ekstrakty danych Rozmiar ograniczony wielkością serwera Hurtowni a
Wyzwania w dostępie do danych Gdzie znajdę dane do raportu? Czy dane są zabezpieczone? Kiedy dane rynkowe lub od partnera będą raportowalne? Czy mogę użyć danych z raportu w Excelu? Czy są tam dane personalne? Czy hurtownia danych jest wystarczająco szybka?
Środowisko ze współdzielonym modelem danych Narzędzia BI: Logiczna hurtownia danych Źródła danych Warstwa wizualna Inne narzędzia Model danych Definicja źródeł danych Centralna definicja uprawnień Warstwa utrzymania danych CRM ERP Baza danych Pliki tekstowe Opcjonalne procesy ETL System harmonogramów Zarządzanie cyklem życia cache Hurtowni a
Zalety centralizacji modelu danych Dostęp do danych z dowolnego narzędzia Wszystkie źródła danych opisane Mniejsza zależność analityków od zespołu IT Pełny obraz źródeł danych na potrzeby regulacji RODO Łatwe i krokowe wdrażanie platformy Big Data do analityki Nieograniczone możliwości skalowania
Dziękuję za uwagę Piotr Czarnas CEO Querona Ltd. piotr.czarnas@querona.com +48 536 133 114 www.querona.com