Hurtownie Danych i Business Intelligence: przegląd technologii

Podobne dokumenty
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Data Warehouses and Business Intelligence: Technology Overview

Hurtownie danych - przegląd technologii

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Plan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych

Hurtownie danych. 31 stycznia 2017

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Co to jest Business Intelligence?

Hurtownie danych a transakcyjne bazy danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Samodzielny Business Intelligence in memory duże i małe. Paweł Gajda Business Solution Architect

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Integracja systemów transakcyjnych

Jak wiedzieć więcej i szybciej - Analizy in-memory

Wstęp do Business Intelligence

Tematy projektów Edycja 2017

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Spis tre±ci. Przedmowa... Cz ± I

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

Część I Istota analizy biznesowej a Analysis Services

BigData. Czy zawsze oznacza BigProblem? Artur Górnik, SAP Polska Piotr Zacharek, HP Polska 14 kwietnia, 2015

Zaawansowane systemy baz danych - ZSBD. Hurtownie danych 1. Problematyka hurtowni danych. Wykład przygotował: Robert Wrembel. ZSBD wykład 12 (1)

Szkolenia SAS Cennik i kalendarz 2017

Problematyka hurtowni danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Architektury i technologie integracji danych

Hurtownie danych - przegląd technologii

Hurtownie Danych i Business Intelligence: przegląd technologii

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Business Intelligence

Hurtownie danych i przetwarzanie analityczne - projekt

Rola analityki danych w transformacji cyfrowej firmy

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

BUSINESS INTELLIGENCE DEVELOPMENT Tego Cię nauczymy:

BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Tematy projektów Edycja 2014

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Modele danych - wykład V

Bartłomiej Graczyk MCT,MCITP,MCTS

Wprowadzenie do hurtowni danych

Informatyzacja przedsiębiorstw

Nowe podejście do składowania danych

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Prezentacja firmy WYDAJNOŚĆ EFEKTYWNOŚĆ SKUTECZNOŚĆ.

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

PERFORMANCE POINT SERVICE NIE TYLKO DLA ORŁÓW

HURTOWNIE DANYCH. Krzysztof Goczyła. Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska. kris@eti.pg.gda.pl. K.

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Hurtownia danych praktyczne zastosowania

Tematy projektów Edycja 2019

Bazy analityczne (hurtownie danych, bazy OLAP)

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Portale raportowe, a narzędzia raportowe typu self- service

BI: przegląd, ETL, raportowanie i analizy

Wprowadzenie do Hurtowni Danych

Business Intelligence Odkryj szerszą perspektywę dla swojego biznesu

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

IBM Business Analytics

Technologia informacyjna

Integracja danych ubezpieczeniowych w czasie rzeczywistym. Łukasz Szewczyk Solution Architect

VI Kongres BOUG Praktyczne aspekty wykorzystania Business Intelligence w przemyśle wydobywczym węgla kamiennego

Informatyka I BAZY DANYCH. dr inż. Andrzej Czerepicki. Politechnika Warszawska Wydział Transportu 2017

Cena netto (PLN) IV kwartał. Cena netto (PLN) Podstawy SAS INTRO

WIZUALNA EKSPLORACJA DANYCH I RAPORTOWANIE W SAS VISUAL ANALYTICS ORAZ WSTĘP DO SAS VISUAL STATISTICS

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

PROJEKT WSPÓŁFINANSOWANY ZE ŚRODKÓW UNII EUROPEJSKIEJ W RAMACH EUROPEJSKIEGO FUNDUSZU SPOŁECZNEGO OPIS PRZEDMIOTU. Rozproszone Systemy Baz Danych

Pierwsze wdrożenie SAP BW w firmie

Nowoczesne bazy danych, czyli przetwarzanie in-memory

Wielowymiarowy model danych

Odkryj Sekrety Efektywnego Business Intelligence

Praktyczne aspekty pozyskiwania wiedzy z danych z perspektywy matematyka w bankowości (VI zajęcia) Jakub Jurdziak

Specjalizacja magisterska Bazy danych

Szkolenie: Jak mieć więcej czasu na wyciąganie wniosków

Hurtownia danych szansa na nowe życie (starej idei) Jakub Skuratowicz Technical Sales

Tematy projektów HDiPA 2015

PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX

HARMONOGRAM: DZIEŃ GODZINA MIEJSCE PROWADZĄCY TEMAT OPIS

Bazy danych i ich aplikacje

Zbieranie i zarządzanie danymi. Budżetowanie, raportowanie, planowanie. Czyli nie tylko o archiwizowaniu

Marcin Adamczak Jakub Gruszka MSP. Business Intelligence

Systemy baz danych i hurtowni danych

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

DB2 with BLU acceleration rozwiązanie in-memory szybsze niż pamięć operacyjna&

Maciej Kiewra Quality Business Intelligence Consulting

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Plan. Inteligencja bisnesowa (Bussiness Intelligence) Hurtownia danych OLAP

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Transkrypt:

Hurtownie Danych i Business Intelligence: przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Tematyka Architektury systemu hurtowni danych Business Intelligence Przetwarzanie OLTP vs. OLAP Wstęp do technologii BigData 2

Cele stosowania HD 1. Zapewnienie jednolitego dostępu do wszystkich danych gromadzonych w ramach przedsiębiorstwa 2. Dostarczenie technologii (platformy) przetwarzania analitycznego - technologii OLAP/BI 3 Business Intelligence OLAP - On-Line Analytical Processing klasyczna analiza danych (dane historyczne, predykcja - what if analysis) analiza trendów sprzedaży analiza nakładów reklamowych i zysków analiza ruchu telefonicznego credit scoring churn analysis customer profiling najczęściej SQL 4

Business Intelligence BI = OLAP+ eksploracja danych reguły asocjacyjne, profile zachowań analiza tekstów (Facebook, Tweeter,...) hot topics, bezpieczeństwo narodowe analiza sieci powiązań liderzy, zależności analiza logów przeglądarek 5 OLTP a OLAP użytkownik funkcja dane aplikacje dostęp transakcja l. przetwarzanych rek. l. użytkowników DB size metric OLTP "zwykły" bieżące operacje, kluczowe dla działania firmy bieżące, elementarne powtarzalność działań odczyt/zapis krótka kilka, kilkadziesiąt kilkudzies., tysiące, setki tys. kilka - setki TB przepustowość (l. transakcji w jednostce czasu) OLAP analityk wspomaganie decyzji elementarne, zagregowane, historyczne ad hoc odczyt długa (godziny) miliony lub więcej kilku, kilkunastu > setki TB czas odpowiedzi 6

Aplikacje BI Zapytania ad-hoc (okolo 10% aplikacji firmowych) prosty interfejs prezentacji wyników obliczenia ad-hoc drill-down, drill-accross Raporty firmowe (około 90% aplikacji firmowych) zaawansowany układ graficzny biblioteka predefiniowanych raportów subskrypcja raportów, harmonogram odświeżania raportów i ich dystrybucji uprawnienia użytkowników do raportów 7 Aplikacje BI Dedykowane aplikacje analityczne analiza przychodów i promocji przewidywanie trendów, symulacje zawierają specjalizowane algorytmy dla dziedziny zastosowań Pulpity (dashboards), karty wynikowe (scorecards), kokpity menadżerskie (management cockpits) interaktywny interfejs prezentacja zbiorcza najważniejszych danych miary jakości przedsięwzięcia (KPI - key performance indicators) alerty 8

Aplikacje BI Eksploracja danych złożone obliczeniowo algorytmy dedykowane algorytmy dla dziedziny zastosowań wizualizacja wyników 9 Użytkownicy Aktywni: 10% wszystkich użytkowników systemu BI Równocześnie pracujący: 1% użytkowników systemu BI storyborads 10

Wielkość systemu Mały system HD HD: kilkaset MB kilkadziesiąt tabel kilka mln rekordów w tabeli faktów 300 użytkowników kilkadziesiąt raportów, kilka kostek Duży system HD HD: kilkaset TB kilkaset tabel kilkaset mln rekordów w tabeli faktów kilka tysięcy użytkowników ponad 1000 raportów, kilkaset kostek 11 Business Intelligence Dwie kategorie danych wewnątrzfirmowe zewnętrzne (Internet) Dwie różne architektury/technologie analizy danych klasyczne BigData 12

Architektura 1 (podstawowa) ŹRÓDŁA DANYCH WARSTWA POŚREDNIA HURTOWNIA DANYCH WARSTWA ANALITYCZNA OPROGRAMOWANIE ETL Ekstrakcja Transformacja Czyszczenie Agregacja HURTOWNIA DANYCH model wielowymiarowy dane elementarne i zagregowane Zalety dane zintegrowane (spójna struktura i wartości) szybkość dostępu do danych niezależność od awarii źródeł Wady redundancja danych odświeżanie danych 13 Architektura 2 ŹRÓDŁA DANYCH WARSTWA POŚREDNIA HURTOWNIA DANYCH WARSTWA ANALITYCZNA OPROGRAMOWANIE ETL OPERACYJNA SKŁADNICA DANYCH Ekstrakcja Transformacja Czyszczenie Agregacja HURTOWNIA DANYCH dane znormalizowane (3NF) dane elementarne możliwość przeszukiwania/analizow ania model wielowymiarowy dane elementarne i zagregowane 14

Architektura 3 ŹRÓDŁA DANYCH WARSTWA POŚREDNIA HURTOWNIA DANYCH WARSTWA ANALITYCZNA OPROGRAMOWANIE ETL OPERACYJNA SKŁADNICA DANYCH Hurtownie tematyczne Ekstrakcja Transformacja Czyszczenie Agregacja HURTOWNIA DANYCH dane znormalizowane (3NF) dane elementarne możliwość przeszukiwania/analizow ania model wielowymiarowy dane elementarne i zagregowane 15 HD Allegro C. Maar, R. Kudliński: Allegro on the way from XLS based controlling to a modern BI environment. National conference on Data Warehousing and Business Intelligence, Warsaw, 2008 16

Architektura ELT ŹRÓDŁA DANYCH WARSTWA ANALITYCZNA E+L ODS T+L HD 17 Architektura ELT Efektywność dane w bazie danych możliwość przetwarzania za pomocą dedykowanych języków (PL/SQL, SQL PL, Transact SQL) jeden serwer dla ODS i HD większe obciążenie Data provenance Drill through 18

Experiment I P. Wróblewski, M. Wojdowski: Implementacja i porównanie wydajności architektur ETL i ELT. Master thesis, Poznan University of Technology, 2014 Data sources Internet auctions Oracle11g (Object-Relational model) MySQL PostgreSQL XML a collection/table composed of 11 attributes Data warehouse: Oracle11g 19 Experiment I DW schema 20

elapsed time ETL + (MV creation) [sec] Experiment I Transformations dimensions fact table Tools and architectures ETL Oracle Data Integrator (ODI) ETL in a staging area on a separate server ELT ODI TL in a staging area on the same server as a DW ELT ODI + materialized views (MVs) TL in a staging area on the same server as a DW ELT stored packages (SPs) TL in a staging area on the same server as a DW ELT SPs + MVs TL in a staging area on the same server as a DW 21 Experiment I # of rows 22

Experiment II K. Prałat, T. Skrzypczak, G. Stolarek: Efektywność ETL i ELT. Postrgaduate studies, term project, Poznan University of Technology, 2014 Data source flight and weather data in the US, from 1986 until 2008 6 tables in Oracle11g Data warehouse: Oracle11g 23 Data source schema Experiment II 24

Experiment II DW schema 25 Experiment II Architecture 26

Experiment II ETL Informatica ELT Informatica (load), DB views (transform) 27 Systemy komercyjne Tradycyjne Oracle11g, Hypersion Essbase - Oracle Corporation DB2 UDB - IBM Sybase IQ - Sybase MS SQL Server - Microsoft SAP Business Warehouse - SAP Teradata - Teradata Main memory (in-memory) Netezza - IBM Exadata - Oracle SAP Hana - SAP Teradata DW Appliance - Teradata 28

Gartner Report 29 Gartner Report http://www.gartner.com/technology/reprints.do?id =1-1DZLPEP&ct=130207&st=sb Assessment criteria Integration BI infrastructure Metadata management Development tools Collaboration Information Delivery Reporting Dashboards Ad hoc query Microsoft Office integration Mobile BI Analysis Online analytical processing (OLAP) - multidimensional analysis, what-if Interactive visualization Predictive modeling and data mining Scorecards- aligining KPIs with a strategic objective Prescriptive modeling, simulation and optimization 30

OLAP/BI - technologie Modele ROLAP MOLAP HOLAP Składowanie danych indeksy perspektywy zmaterializowane partycjonowanie column storage / row storage kompresja danych i indeksów Przetwarzanie zapytań top-n gwiaździste Przetwarzanie równoległe i rozproszone Jakość danych i ETL/ELT 31 OLAP/BI Trends Big Data mobile BI in-memory BI real-time /right-time /active BI cloud computing 32