Jak efektywnie pozyskać, przechowywać i wykorzystywać dane

Podobne dokumenty
"Jak efektywnie pozyskać, przechowywać i wykorzystać dane"

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Rola analityki danych w transformacji cyfrowej firmy

Co to jest Business Intelligence?

Hadoop i Spark. Mariusz Rafało

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Hurtownie danych - przegląd technologii

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Stawiamy na specjalizację. by CSB-System AG, Geilenkirchen Version 1.1

Portale raportowe, a narzędzia raportowe typu self- service

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego Bydgoszcz kontakt@softmaks.pl

Pierwsze wdrożenie SAP BW w firmie

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Szkolenia SAS Cennik i kalendarz 2017

PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

VI Kongres BOUG Praktyczne aspekty wykorzystania Business Intelligence w przemyśle wydobywczym węgla kamiennego

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Metody replikacji baz danych Oracle pomiędzy ośrodkami przetwarzania danych

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

WIZUALNA EKSPLORACJA DANYCH I RAPORTOWANIE W SAS VISUAL ANALYTICS ORAZ WSTĘP DO SAS VISUAL STATISTICS

Praktyczne aspekty pozyskiwania wiedzy z danych z perspektywy matematyka w bankowości (VI zajęcia) Jakub Jurdziak

Automatyzacja Procesów Biznesowych. Systemy Informacyjne Przedsiębiorstw

Adam Dolega Architekt Rozwiązań Biznesowych Microsoft

Bartłomiej Graczyk MCT,MCITP,MCTS

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Hurtownie danych - przegląd technologii

BI: przegląd, ETL, raportowanie i analizy

Trendy BI z perspektywy. marketingu internetowego

Szczegółowy opis przedmiotu umowy. 1. Środowisko SharePoint UWMD (wewnętrzne) składa się z następujących grup serwerów:

Pakiet dla Efektywności Energetycznej

SAP w 24 godziny / Michael Missbach, George Anderson. Gliwice, cop Spis treści

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Zarządzanie i realizacja projektów systemu Microsoft SharePoint 2010

AUMS Digital. aums.asseco.com

Samodzielny Business Intelligence in memory duże i małe. Paweł Gajda Business Solution Architect

Analityka danych & big data

Integracja danych ubezpieczeniowych w czasie rzeczywistym. Łukasz Szewczyk Solution Architect

Nowe podejście do składowania danych

VII Kongres BOUG 03 października 2012

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

AE/ZP-27-16/14. Oprogramowanie do wykonywania kopii zapasowych oraz zarządzania maszynami wirtualnymi

AUMS Billing Basic. aums.asseco.com

III Edycja ITPro 16 maja 2011

W książce omówiono: SAP zostań ekspertem w 24 godziny!

Wprowadzenie do Hurtowni Danych

Nowoczesne i praktyczne metody wdrażania optymalnie działających procesów i zarządzania dokumentami elektronicznymi w narzędziach BPMS/DMS

Business Intelligence Odkryj szerszą perspektywę dla swojego biznesu

SiR_13 Systemy SCADA: sterowanie nadrzędne; wizualizacja procesów. MES - Manufacturing Execution System System Realizacji Produkcji

Szybkość instynktu i rozsądek rozumu$

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

Część I Istota analizy biznesowej a Analysis Services

PLANOWANIE I BUDŻETOWANIE Z WYKORZYSTANIEM NARZĘDZI CYFROWYCH

w ekonomii, finansach i towaroznawstwie

REKOMENDACJE DOTYCZĄCE PLATFORMY ZARZĄDZANIA KOMPETENCJAMI

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Hurtownia danych praktyczne zastosowania

IBM DATASTAGE COMPETENCE CENTER

PureSystems zautomatyzowane środowisko aplikacyjne. Emilia Smółko Software IT Architect

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

Szkolenie: Jak mieć więcej czasu na wyciąganie wniosków

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

SYSTEMY KLASY BI PLATFORMĄ EFEKTYWNEGO WSPÓŁDZIAŁANIA WSPÓŁCZESNYCH ORGANIZACJI. Piotr Zaskórski

Architecture Best Practices for Big Data Deployments

Aktualizacja do Microsoft SQL Server Adam Rynarzewski MCT

Korporacyjna Magistrala Usług na przykładzie Oracle Service Bus

Maciej Kiewra Quality Business Intelligence Consulting

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Kurs OPC S7. Spis treści. Dzień 1. I OPC motywacja, zakres zastosowań, podstawowe pojęcia dostępne specyfikacje (wersja 1501)

System INTEGRYB jako zintegrowane repozytorium danych umożliwiające zaawansowaną analitykę badawczą

CELE I ZAKRES DZIAŁALNOŚCI

Konferencja Hurtownia danych podstawą efektywnych decyzji

StatSoft profesjonalny partner w zakresie analizy danych

Spis tre±ci. Przedmowa... Cz ± I

Opis spełnienia wymagań (PSBD)

Technologie dla aplikacji klasy enterprise. Wprowadzenie. Marek Wojciechowski

SYMULACJA PROCESÓW W INFORMATYCZNYM ŚRODOWISKU ZINTEGROWANYM W SEKTORZE TELCO"

Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.

Instytut Technik Innowacyjnych Semantyczna integracja danych - metody, technologie, przykłady, wyzwania

Tematy prac dyplomowych inżynierskich

Dane Klienta: Staples Polska Sp. z o.o. Bysewska Gdańsk

Splunk w akcji. Radosław Żak-Brodalko Solutions Architect Linux Polska Sp. z o.o.

Usługa archiwizacji danych w systemie Eureca. Marek Jelenik CONTROLLING SYSTEMS sp. z o.o.

Wykład 1 Inżynieria Oprogramowania

Ekspert MS SQL Server Oferta nr 00/08

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

PROGRAM STUDIÓW ZINTEGROWANE SYSTEMY ZARZĄDZANIA SAP ERP PRZEDMIOT GODZ. ZAGADNIENIA

Digitize Your Business

Transkrypt:

XVII Konferencja SIwE Wisła Jak efektywnie pozyskać, przechowywać i wykorzystywać dane Grzegorz Sopoliński, SOL-BIT Sp. z o.o. Wisła, 22.11.2018

Informacja o SOL-BIT Historia Finux Sp. z o.o. od 2009 SOL-BIT Sp. z o.o. od 2017 Specjalizacja: Przetwarzanie danych Systemy BI Technologie: Oracle: RDBMS/DW/ODI/OBI SAP: BW/SAP BOBJ Kompetencje i kadry: Architekci Analitycy biznesowi Specjaliści Oracle Kierownicy projektu Doświadczenia: Średnia wieku > 40 l 20 lat doświadczenia 15 lat w BI > 5 lat energetyka Wdrożenia: Przemysł Energetyka

Doświadczenia wdrożeniowe SEGMENT OBSZAR ANALITYCZNY DYSTRYBUCJA PPE ODCZYTY ZUŻYCIE OT SPRZEDAŻ SPRZEDAŻ KLIENT /UMOWY CENNIKI WINDYKACJA SPRAWOZDANIA WYTWARZANIE PRODUKCJA POMIARY PRAWA MAJĄTKOWE USŁUGI SYSTEMOWE ZDARZENIA RUCHOWE FINANSE SPR. FINANSOWA SPR. KORPORACYJNA SPR. PODATKOWA JPK CONTROLLING KPI PROCESY/SLA KADRY/PŁACE METADANE CZYSZCZENIE ADRESÓW DANE GUS METADANE BIZ METADANE ETL 3

Historia baz danych i systemów analitycznych 4

Big Data V-charakterystyki i klasyfikacje IBM Źródło: IBM 5

Architektury referencyjne - Lambda Warstwa Batch Źródła danych dane: przetwarzane wsadowo i strumieniowo, dane wewnętrzne i zewnętrzne przeliczania i transformacji danych w trybie wsadowy i mikro-wsadowym, dane mają wysoką jakość - są kompletne Warstwa Speed niskie opóźnienie w dostępie do danych, brak dostępu do danych historycznych mechanizmy przetwarzania zdarzeń Warstwa dostępu przekazanie danych do aplikacji analitycznych, do odbiorców z organizacji oraz spoza organizacji, eksploracja danych Rodzaj Czas przetwarzania Macro batch 15 min < t Micro batch 2 min < t =< 15 min Near Real Time Decision Support 2 s < t =< 2 min Near Real Time Event Processing 50 ms < t =< 2 s Real Time 0 s < t =< 50 ms 6

BI Architektury z pudełka Źródło: Oracle Corp. Źródło: SAP AG 7

Big Data Apache Hadoop Źródło: Intellipat 8

Architektury hybrydowe Big Data SQL Strumień zdarzeń Object Store Hadoop/HDFS Streaming Engine Data Lake Enterprise Data & Reporting In- Memory Database Flash Strukturalne dane korp. Źródło: Oracle Corp. Dane Notebooks/Analytic Services Discovery Lab Wiedza Database Storage and Exadata Cells Hadoop Data Nodes 9

BI komponenty technologiczne UŻYTKOWNICY Systemy zewnętrzne Analitycy Użytkownicy (odbiorcy raportów) Partnerzy (dane) Klienci (wynik raportu) WARSTWA PREZENTACJI Portal BI Aplikacje mobilne Excel Add-In Narzędzia BI Narzędzia statystyczne WARSTWA ANALITYCZNA SAP BO lub ORACLE BI Model prezentacyjny Model logiczny Model fizyczny Silnik analityczny Pulpity Raporty Wykresy Analityka biznesowa System R BAZA DANYCH Parycjonowanie Oracle Exadata X62 1/8RACK In-memory Oracle EE 12C Indeksy bitmapowe Indeksy tekstowe Oracle Policy Agregaty Multi-tenant INFRASTRUKTURA Oracle Exadata 12C 1/4 RACK PC / 0,5 TB RAM /multicore /SSD PCIe NVMe + macierz FC/HDD Wirtualizacja środowisk PROCEST ETL Middleware ( JDBC / ODBC / Native) Interfejs dedykowane. Pobieranie przyrostowe Konsola administracyjna Oracle Golden Gate Zasilanie inicjalne, pełne, przyrostowe, walidacja danych DANE ŹRÓDŁOWE Sys. Billingowe: AUMS, HMAX, SAP- ISU, CCB Sys. ERP: SAP ERP, Sys. CRM Bazy danych relacyjne, NO SQL Formaty danych: csv, xml, json Integracja: SOAP, REST, szyna danych 10

Kadry Zadania Kompetencje Inżynier Danych Statystyk Data scientist Zapewnia proces zasilania, składowania i przetwarzania danych. Odpowiada za struktury, jakość danych Bazy danych, hurtownie danych, programowanie Stawia hipotezy i je testuje. Analizuje, interpretuje. Raportuje Statystyka, Badania Operacyjne, Analiza i modelowanie, Raportowanie Analizuje i interpretuje. Eksploruje dane, Opracowuje modele prognostyczne i klasyfikacyjne Statystyka, Matematyka, Programowanie, Wizualizacja, Sieci Neuronowe, Kompetencje biznesowe Narzędzia 11

Korporacyjny Model Danych Aktywa informacyjne Struktura Wartość Wymagania użytkowe Koszt pozyskania Wolumen Możliwości wykorzystania Czasy przetwarzania Prawa osób trzecich Źródła/metadane 12

Dane zagregowane vs detaliczne Dane Przestrzeń dyskowa Czas przetwarzania Utrata informacji Detaliczne Znaczna Wydłużony Nie występuje Zagregowane Nieistotna Skrócony Występuje 13

Interfejs dedykowany vs replikacja Metoda Czas propagacji Przestrzeń dyskowa Tryb Obciążenie sys. Źródł. Powtarzalność Replikacja logów Szybki Znacząca Przyrostowy Nieistotne Tak Interfejs Długi Zależy od impl. Zależy od impl. Znaczące Zależy od impl. 14

Struktury danych 15

Cykle ładowania μbatch NRT Dzienny Miesięczny Roczny Rodzaj Czas przetwarzania Macro batch 15 min < t Micro batch 2 min < t =< 15 min Near Real Time Decision Support 2 s < t =< 2 min Near Real Time Event Processing 50 ms < t =< 2 s Real Time 0 s < t =< 50 ms 16

Cechy dobrego projektu ETL Automatyczny Powtarzalny Odwracalny Nieniszczący Bez wpływu na pracę użytkowników Walidacja danych wejściowych Weryfikacja na każdym kroku przetwarzania Precyzyjna informacja o błędnych danych Prosty interfejs użytkownika dla niespecjalisty Diagnostyka programistyczna: log, trace, polecenia, parametry Narzędzie do metadanych referencyjnych (wersjonowanie) Szybka ścieżka nawigacji Zrozumiały status załadowanych danych 17

ETL przykładowe narzędzia 18

ETL przykładowe narzędzia 19

ETL Konsola uruchamianie zadań 20

Konsole administracyjne 21

Walidacja 22

Czyszczenie adresów 23

Czyszczenie adresów fuzzy-match 24

Metadane 25

BI samoobsługowy CECHY OLAP (ROLAP/MOLAP) Warstwa semantyczna Wizualizacje Portale użytkownika Aplikacje mobilne Silniki przetwarzania PLATFORMY Microsoft Power BI Oracle BI SAP BOBJ IBM Cognos Tableau Qlik 26

BI analityczny TECHNIKI DATA MINING Statystyka deskryptywna Klasyfikacja i predykcja Regresja Odkrywanie charakterystyk Dyskryminacja Grupowanie Odkrywanie asocjacji Szeregi czasowe Wielowarstwowe sieci neuronowe PLATFORMY R-project Statsoft Statistica IBM SPSS Mathworks Matlab Microsoft SQL Server 27

BI operacyjny BI OPERACYJNY Aktualne dane Raportowanie operacyjne BAM - monitorowanie procesów i zdarzeń biznesowych Automatyczne decyzje Źródło: Oracle 28

Prognozowanie, klasyfikacja, modelowanie Prognozowanie Popyt na energię elektryczną Przewidywanie cen Klasyfikacja Segmentacja klientów Identyfikacja dłużników Błędy pomiarów Błędy danych Migracja klientów Wystąpienie awarii sieci/kotła Modelowanie finansowe Cash Flow @ Risk Value @ Risk 29

Szereg czasowy - sezonowość METODY PROGNOZOWANIA Naiwne Modele regresji Modelowanie szeregów czasowych Wielowarstwowe sieci neuronowe Agregacja prognoza Źródło: PSE SA KSE moc lipiec 2018 30

Szereg czasowy prognoza MAE MAPE RMSE MASE średni błąd bezwzględny (ang. mean absolute error), średni bezwzględny błąd procentowy (ang. mean absolute percentage error) pierwiastek błędu średniokwadratowego ( ang. root mean squared error) średni bezwzględny błąd skalowany (ang. mean absolute scaled error) MAE RMSE MAPE MASE Training set 121.5143 166.1969 0.6937462 0.3903346 Test set 675.4318 945.2073 3.8490384 2.1696579 31

BI Energetyka 32

Składowanie Przetwarzanie Użycie Anal. Adaptacja technologii BI - porównanie Technologia EN. FIN. Operational Data Store Data Mart Corporate Data Warehouse Big Data/Hadoop Rozwiązania hybrydowe Logical DataWarehouse Cloud Computing Wsadowy ETL Replikacja logów Przetwarzanie strumieniowe Przetwarzanie in-memory Hierarchical Storage Management Raporty predefiniowane BI Samoobsługowy BI Operacyjny Analizy statystyczne Narzędzi Data Mining i eksploracyjne Machine Learning, Deep Neural Net. Wdrożenie produkcyjne Wdrożenia pilotowe/plany Brak planów 33

Podsumowanie Ryzyka prawno-regulacyjne Odkrywanie możliwości Wpływ branży finansowej Obligo giełdowe Wzrost cen energii i praw majątkowych WNIOSKI Dane jako aktywa Inicjatywy strategiczne Budowanie zespołów Kompetencje technologiczne Uzależnienie od dostawcy technologii Adaptacja Technologii BI/Big Data Strategia regatowa Korekty modelu biznesowego 34