XVII Konferencja SIwE Wisła Jak efektywnie pozyskać, przechowywać i wykorzystywać dane Grzegorz Sopoliński, SOL-BIT Sp. z o.o. Wisła, 22.11.2018
Informacja o SOL-BIT Historia Finux Sp. z o.o. od 2009 SOL-BIT Sp. z o.o. od 2017 Specjalizacja: Przetwarzanie danych Systemy BI Technologie: Oracle: RDBMS/DW/ODI/OBI SAP: BW/SAP BOBJ Kompetencje i kadry: Architekci Analitycy biznesowi Specjaliści Oracle Kierownicy projektu Doświadczenia: Średnia wieku > 40 l 20 lat doświadczenia 15 lat w BI > 5 lat energetyka Wdrożenia: Przemysł Energetyka
Doświadczenia wdrożeniowe SEGMENT OBSZAR ANALITYCZNY DYSTRYBUCJA PPE ODCZYTY ZUŻYCIE OT SPRZEDAŻ SPRZEDAŻ KLIENT /UMOWY CENNIKI WINDYKACJA SPRAWOZDANIA WYTWARZANIE PRODUKCJA POMIARY PRAWA MAJĄTKOWE USŁUGI SYSTEMOWE ZDARZENIA RUCHOWE FINANSE SPR. FINANSOWA SPR. KORPORACYJNA SPR. PODATKOWA JPK CONTROLLING KPI PROCESY/SLA KADRY/PŁACE METADANE CZYSZCZENIE ADRESÓW DANE GUS METADANE BIZ METADANE ETL 3
Historia baz danych i systemów analitycznych 4
Big Data V-charakterystyki i klasyfikacje IBM Źródło: IBM 5
Architektury referencyjne - Lambda Warstwa Batch Źródła danych dane: przetwarzane wsadowo i strumieniowo, dane wewnętrzne i zewnętrzne przeliczania i transformacji danych w trybie wsadowy i mikro-wsadowym, dane mają wysoką jakość - są kompletne Warstwa Speed niskie opóźnienie w dostępie do danych, brak dostępu do danych historycznych mechanizmy przetwarzania zdarzeń Warstwa dostępu przekazanie danych do aplikacji analitycznych, do odbiorców z organizacji oraz spoza organizacji, eksploracja danych Rodzaj Czas przetwarzania Macro batch 15 min < t Micro batch 2 min < t =< 15 min Near Real Time Decision Support 2 s < t =< 2 min Near Real Time Event Processing 50 ms < t =< 2 s Real Time 0 s < t =< 50 ms 6
BI Architektury z pudełka Źródło: Oracle Corp. Źródło: SAP AG 7
Big Data Apache Hadoop Źródło: Intellipat 8
Architektury hybrydowe Big Data SQL Strumień zdarzeń Object Store Hadoop/HDFS Streaming Engine Data Lake Enterprise Data & Reporting In- Memory Database Flash Strukturalne dane korp. Źródło: Oracle Corp. Dane Notebooks/Analytic Services Discovery Lab Wiedza Database Storage and Exadata Cells Hadoop Data Nodes 9
BI komponenty technologiczne UŻYTKOWNICY Systemy zewnętrzne Analitycy Użytkownicy (odbiorcy raportów) Partnerzy (dane) Klienci (wynik raportu) WARSTWA PREZENTACJI Portal BI Aplikacje mobilne Excel Add-In Narzędzia BI Narzędzia statystyczne WARSTWA ANALITYCZNA SAP BO lub ORACLE BI Model prezentacyjny Model logiczny Model fizyczny Silnik analityczny Pulpity Raporty Wykresy Analityka biznesowa System R BAZA DANYCH Parycjonowanie Oracle Exadata X62 1/8RACK In-memory Oracle EE 12C Indeksy bitmapowe Indeksy tekstowe Oracle Policy Agregaty Multi-tenant INFRASTRUKTURA Oracle Exadata 12C 1/4 RACK PC / 0,5 TB RAM /multicore /SSD PCIe NVMe + macierz FC/HDD Wirtualizacja środowisk PROCEST ETL Middleware ( JDBC / ODBC / Native) Interfejs dedykowane. Pobieranie przyrostowe Konsola administracyjna Oracle Golden Gate Zasilanie inicjalne, pełne, przyrostowe, walidacja danych DANE ŹRÓDŁOWE Sys. Billingowe: AUMS, HMAX, SAP- ISU, CCB Sys. ERP: SAP ERP, Sys. CRM Bazy danych relacyjne, NO SQL Formaty danych: csv, xml, json Integracja: SOAP, REST, szyna danych 10
Kadry Zadania Kompetencje Inżynier Danych Statystyk Data scientist Zapewnia proces zasilania, składowania i przetwarzania danych. Odpowiada za struktury, jakość danych Bazy danych, hurtownie danych, programowanie Stawia hipotezy i je testuje. Analizuje, interpretuje. Raportuje Statystyka, Badania Operacyjne, Analiza i modelowanie, Raportowanie Analizuje i interpretuje. Eksploruje dane, Opracowuje modele prognostyczne i klasyfikacyjne Statystyka, Matematyka, Programowanie, Wizualizacja, Sieci Neuronowe, Kompetencje biznesowe Narzędzia 11
Korporacyjny Model Danych Aktywa informacyjne Struktura Wartość Wymagania użytkowe Koszt pozyskania Wolumen Możliwości wykorzystania Czasy przetwarzania Prawa osób trzecich Źródła/metadane 12
Dane zagregowane vs detaliczne Dane Przestrzeń dyskowa Czas przetwarzania Utrata informacji Detaliczne Znaczna Wydłużony Nie występuje Zagregowane Nieistotna Skrócony Występuje 13
Interfejs dedykowany vs replikacja Metoda Czas propagacji Przestrzeń dyskowa Tryb Obciążenie sys. Źródł. Powtarzalność Replikacja logów Szybki Znacząca Przyrostowy Nieistotne Tak Interfejs Długi Zależy od impl. Zależy od impl. Znaczące Zależy od impl. 14
Struktury danych 15
Cykle ładowania μbatch NRT Dzienny Miesięczny Roczny Rodzaj Czas przetwarzania Macro batch 15 min < t Micro batch 2 min < t =< 15 min Near Real Time Decision Support 2 s < t =< 2 min Near Real Time Event Processing 50 ms < t =< 2 s Real Time 0 s < t =< 50 ms 16
Cechy dobrego projektu ETL Automatyczny Powtarzalny Odwracalny Nieniszczący Bez wpływu na pracę użytkowników Walidacja danych wejściowych Weryfikacja na każdym kroku przetwarzania Precyzyjna informacja o błędnych danych Prosty interfejs użytkownika dla niespecjalisty Diagnostyka programistyczna: log, trace, polecenia, parametry Narzędzie do metadanych referencyjnych (wersjonowanie) Szybka ścieżka nawigacji Zrozumiały status załadowanych danych 17
ETL przykładowe narzędzia 18
ETL przykładowe narzędzia 19
ETL Konsola uruchamianie zadań 20
Konsole administracyjne 21
Walidacja 22
Czyszczenie adresów 23
Czyszczenie adresów fuzzy-match 24
Metadane 25
BI samoobsługowy CECHY OLAP (ROLAP/MOLAP) Warstwa semantyczna Wizualizacje Portale użytkownika Aplikacje mobilne Silniki przetwarzania PLATFORMY Microsoft Power BI Oracle BI SAP BOBJ IBM Cognos Tableau Qlik 26
BI analityczny TECHNIKI DATA MINING Statystyka deskryptywna Klasyfikacja i predykcja Regresja Odkrywanie charakterystyk Dyskryminacja Grupowanie Odkrywanie asocjacji Szeregi czasowe Wielowarstwowe sieci neuronowe PLATFORMY R-project Statsoft Statistica IBM SPSS Mathworks Matlab Microsoft SQL Server 27
BI operacyjny BI OPERACYJNY Aktualne dane Raportowanie operacyjne BAM - monitorowanie procesów i zdarzeń biznesowych Automatyczne decyzje Źródło: Oracle 28
Prognozowanie, klasyfikacja, modelowanie Prognozowanie Popyt na energię elektryczną Przewidywanie cen Klasyfikacja Segmentacja klientów Identyfikacja dłużników Błędy pomiarów Błędy danych Migracja klientów Wystąpienie awarii sieci/kotła Modelowanie finansowe Cash Flow @ Risk Value @ Risk 29
Szereg czasowy - sezonowość METODY PROGNOZOWANIA Naiwne Modele regresji Modelowanie szeregów czasowych Wielowarstwowe sieci neuronowe Agregacja prognoza Źródło: PSE SA KSE moc lipiec 2018 30
Szereg czasowy prognoza MAE MAPE RMSE MASE średni błąd bezwzględny (ang. mean absolute error), średni bezwzględny błąd procentowy (ang. mean absolute percentage error) pierwiastek błędu średniokwadratowego ( ang. root mean squared error) średni bezwzględny błąd skalowany (ang. mean absolute scaled error) MAE RMSE MAPE MASE Training set 121.5143 166.1969 0.6937462 0.3903346 Test set 675.4318 945.2073 3.8490384 2.1696579 31
BI Energetyka 32
Składowanie Przetwarzanie Użycie Anal. Adaptacja technologii BI - porównanie Technologia EN. FIN. Operational Data Store Data Mart Corporate Data Warehouse Big Data/Hadoop Rozwiązania hybrydowe Logical DataWarehouse Cloud Computing Wsadowy ETL Replikacja logów Przetwarzanie strumieniowe Przetwarzanie in-memory Hierarchical Storage Management Raporty predefiniowane BI Samoobsługowy BI Operacyjny Analizy statystyczne Narzędzi Data Mining i eksploracyjne Machine Learning, Deep Neural Net. Wdrożenie produkcyjne Wdrożenia pilotowe/plany Brak planów 33
Podsumowanie Ryzyka prawno-regulacyjne Odkrywanie możliwości Wpływ branży finansowej Obligo giełdowe Wzrost cen energii i praw majątkowych WNIOSKI Dane jako aktywa Inicjatywy strategiczne Budowanie zespołów Kompetencje technologiczne Uzależnienie od dostawcy technologii Adaptacja Technologii BI/Big Data Strategia regatowa Korekty modelu biznesowego 34