Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Podobne dokumenty
Ewolucja technik modelowania hurtowni danych

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Hurtownie danych. 31 stycznia 2017

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Modele danych - wykład V

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Hurtownie danych a transakcyjne bazy danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Wstęp do Business Intelligence

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Hurtownie danych wykład 3

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

Wielowymiarowy model danych

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Informatyzacja przedsiębiorstw

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Wprowadzenie do Hurtowni Danych

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Pierwsze wdrożenie SAP BW w firmie

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Hurtownie danych - przegląd technologii

Business Intelligence

Projektowanie hurtowni danych

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Co to jest Business Intelligence?

Schematy logiczne dla hurtowni danych

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Normalizacja baz danych

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

4. Znaczenie czasu w modelowaniu i strukturalizacji danych

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Bazy analityczne (hurtownie danych, bazy OLAP)

Modelowanie wielowymiarowe hurtowni danych

Hurtownie danych w praktyce

Wprowadzenie do hurtowni danych

OLAP i hurtownie danych c.d.

BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego

Systemy Business Intelligence w praktyce. Maciej Kiewra

Opis spełnienia wymagań (PSBD)

Opracowanie: Izabela Czepil i Andrzej Solski

Modelowanie hurtowni danych

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Nauczycielem wszystkiego jest praktyka Juliusz Cezar. Nauka to wiara w ignorancję ekspertów Richard Feynman

Scoring kredytowy w pigułce

EasyLoad BI zarządzanie wczytywaniem danych do hurtowni przez użytkowników biznesowych. Prezentacja rozwiązania

Spis tre±ci. Przedmowa... Cz ± I

Zaawansowane systemy baz danych - ZSBD. Hurtownie danych 1. Problematyka hurtowni danych. Wykład przygotował: Robert Wrembel. ZSBD wykład 12 (1)

Projektowanie hurtowni danych i modelowanie wielowymiarowe

HURTOWNIE DANYCH. Krzysztof Goczyła. Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska. kris@eti.pg.gda.pl. K.

Co ciekawego w EURECE pojawiło się w wersji 2.4, a być może nie zdążyliście tego odkryć?

Prezentacja programu. Parentis Sp. z o.o. Dział Informatyki. Kartoszyno, ul. Przemysłowa 5, Krokowa

STATYSTYKA PUBLICZNA Warsztaty, cz. IV. dr Kazimierz Kruszka

PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX

Wprowadzenie do Hurtowni Danych

Hurtownia danych praktyczne zastosowania

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

Projektowanie hurtowni danych i modelowanie wielowymiarowe

MiFID II wymagania i perspektywy w kontekście bankowego IT

Nasze kompetencje. Co nas wyróżnia. Skuteczne wdrożenie - dopasowanie do strategii klientów

IMPLEMENTATION OF WDROŻENIE COMARCHW MINISTERSTWIE FINANSÓW SINDBAD RAPORTY ANALIZY BADANIA PROGNOZY CASE STUDY 1

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Budowa modeli wymagań dla Regionalnych Systemów Informacji Medycznej opartych o hurtownie danych

Systemy baz danych i hurtowni danych

Projektowanie architektury systemu rozproszonego. Jarosław Kuchta Projektowanie Aplikacji Internetowych

Metody automatyzacji sprawozdawczości w systemie asist. Agnieszka Hołownia-Niedzielska

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

SYSTEMY KLASY BI PLATFORMĄ EFEKTYWNEGO WSPÓŁDZIAŁANIA WSPÓŁCZESNYCH ORGANIZACJI. Piotr Zaskórski

Część I Istota analizy biznesowej a Analysis Services

Rady i porady użytkowe

Projektowanie Systemów Informacyjnych

Szybkie mierzenie efektywności zoptymalizowania procesów. Korzyści w wariancie idealistycznym

Wprowadzenie do projektowania i wykorzystania baz danych Relacje i elementy projektowania baz

Automatyzacja Procesów Biznesowych. Systemy Informacyjne Przedsiębiorstw

BRIEF AGENCYJNY STRONA INTERNETOWA. Informacje podstawowe. Pełna nazwa firmy. Adres firmy do faktury NIP. Osoba prowadząca projekt.

Centralny System Informatyczny SL 2014

Projektowanie hurtowni danych i modelowanie wielowymiarowe

Projekt dotyczy stworzenia zintegrowanego, modularnego systemu informatycznego wspomagającego zarządzanie pracownikami i projektami w firmie

Księgarnia PWN: Pod red. Celiny Olszak i Ewy Ziemby - Strategie i modele gospodarki elektronicznej. Spis treści

ZARZĄDZANIE NIEJEDNORODNYMI, ROZPROSZONYMI ZASOBAMI INFORMACJI

OPIS FUNKCJONALNY PLATFORMY B2B

Rachunek kosztów działań

Korzyści z integracji danych klienta. Seminarium PIU Jakość danych w systemach informatycznych ZU Warszawa Przygotowała Ewa Galas

Jarosław Żeliński analityk biznesowy, projektant systemów

Ćwiczenia z Zaawansowanych Systemów Baz Danych

CUSTOMER SUCCESS STORY

Jarosław Kuchta Projektowanie Aplikacji Internetowych. Projektowanie warstwy danych

Systemy dystrybucji a marketing relacyjny

Faza Określania Wymagań

Trendy BI z perspektywy. marketingu internetowego

Transkrypt:

Wprowadzenie do Hurtowni Danych Mariusz Rafało mrafalo@sgh.waw.pl

WARIANTY BUDOWY HURTOWNI DANYCH

Literatura R. Kimball, The Data Warehouse Lifecycle, Wiley, 2013 W. Inmon, Building the Data Warehouse, Wiley, 2005 D. Linstedt, Super Charge your Data Warehouse. Dan Linstedt, 2010

Warianty budowy Hurtowni Danych Hurtownia Dwuwarstwowa (podejście Top-Down) Najpierw, w oparciu o Korporacyjny Model Danych, budujemy Centralną Hurtownię Danych, gromadzącą dane na poziomie detalicznym Następnie, budujemy kolejne hurtownie tematyczne (Datamarty), wspierające konkretne analizy Podejście proponowane przez Billa Inmona Hurtownia Jednowarstwowa (podejście Bottom-Up) Budujemy od razu hurtownie tematyczne (Datamarty) Podejście proponowane przez Ralpha Kimballa

Hurtownia Dwuwarstwowa Dane źródłowe Centralna hurtownia danych (dane detaliczne) Hurtownie tematyczne (datamarty) Odbiorcy

Architektura Dwuwarstwowa: zalety i wady Zalety Udostępnienie zintegrowanego i elastycznego źródła danych dla wszelkich aktywności analitycznych: Wszystkie hurtownie tematyczne są zbudowane w oparciu o te same dane Detaliczny poziom danych daje ogromną elastyczność możliwych analiz Udostępnienie zintegrowanego widoku danych w ramach całej organizacji Wady Budowa Centralnej Hurtowni Danych trwa długo i kosztuje dużo Budowa CHD jest przedsięwzięciem globalnym w ramach organizacji wymaga odpowiednich struktur organizacyjnych Wymaga dodatkowych nakładów na sprzęt

Hurtownia Jednowarstwowa Dane źródłowe Hurtownie tematyczne (data marty) Odbiorcy

Architektura Jednowarstwowa: zalety i wady Zalety Skupienie się na konkretnych wymaganiach użytkowników i szybkie dostarczenie wartości. Hurtownie tematyczne zawierają zarówno dane zagregowane jak i szczegółowe wszystko jest dostępne w jednej bazie danych. Ponieważ nie ma zintegrowanej warstwy danych detalicznych, budując kolejne hurtownie tematyczne wykorzystuje się już zaimplementowane wymiary i miary. Brak wydzielonej warstwy danych detalicznych skutkuje też mniejszymi wymaganiami sprzętowymi. Wady Uzgadnianie hurtowni tematycznych budowanych niezależnie jest trudne Mała elastyczność rozwiązania trudno realizować nowe wymagania użytkowników Brak jednego zintegrowanego źródła danych Duża redundancja danych

Podsumowanie W 1997 Kimball wskazał: "...the data warehouse is nothing more than the union of all the data marts" W 1998 Inmon odpowiada: "You can catch all the minnows in the ocean and stack them together and they still do not make a whale"

Modelowanie danych w hurtowni danych Analityczne zbiory danych (ADS) Zbiór danych tematycznych (Data Marts) Zbiór danych detalicznych (DETAIL) 3 postać normalna (3NF) Gwiazda/płatek śniegu Data Vault Data mining (ADS) Zbiór danych tymczasowych (STAGE) Repozytorium danych System 1 System 2 System n Systemy źródłowe

TRZECIA POSTAĆ NORMALNA

3NF KATEGORIA FAKTURY KLIENT REGION PRODUKT POZYCJE_FAKTUR

MODELOWANIE WIELOWYMIAROWE

Przykłady faktów Sprzedaż produktu lub usługi Pobranie towaru z magazynu Wykonanie połączenia telefonicznego Wypełnienie ankiety przez respondenta Wykonanie operacji na koncie bankowym

Przykłady miar Ilość sprzedanego towaru Wartość sprzedaży Ilość towarów pobranych z magazynu Ilość respondentów, wskazujących jakąś odpowiedź w ankiecie Ilość połączeń telefonicznych

Przykłady wymiarów Produkt Czas Oddział Klient Ankieta Województwo Rodzaj operacji bankowej

Przykłady hierarchii KRAJ WOJEWÓDZTWO POWIAT ROK MIESIĄC DZIEŃ

Kostki wielowymiarowe - definicja Pozwalają na skupienie informacji w wielu różnych ujęciach Podstawowe komponenty kostki OLAP to fakty, wymiary, miary oraz hierarchie Fakt jest opisem zdarzenia operacyjnego, które miało miejsce Miara jest wartością liczbową, która podlega analizie (np.: wielkość sprzedaży, ilość sprzedanych produktów, itp.) Ile? Wymiar jest elementem opisującym miarę(np.: miasto, w którym dokonano sprzedaży; produkt, który sprzedano, itp.) Co? Kto? Gdzie? Kiedy? Hierarchia określa zależności pomiędzy elementami wymiaru pozwala na drzewiaste budowanie połączeń

Gwiazda DIM_PRODUKT DIM_KLIENT F_SPRZEDAZ DIM_REGION DIM_CZAS

Płatek śniegu DIM_REGION DIM_PRODUKT DIM_KLIENT F_SPRZEDAZ DIM_CZAS

DATA VAULT

Data Vault - definicja Data Vault technika modelowania danych (w hurtowniach danych) zaprojektowana tak, aby zapewnić przechowywanie danych historycznych z wielorakich systemów operacyjnych (źródłowych). Data Vault oznacza również, obok aspektu modelowania, sposób patrzenia na dane historyczne, który zapewnia audytowalność, śledzenie danych, szybkość ładowania oraz odporność na zmiany biznesowe. Źródło: wikipedia.pl

Data Vault - zasady Hub: Link: Satellite: unikalne klucze unikalne połączenia pomiędzy Hubami (kluczami) dane historyczne Email Information Sat Records a history of the interaction Sat Bank Transactions Sat Sat Email ID Link Bank ID Sat Sat F(x) Sat Hub Link Satellite Sat Passenger ID Sat Sat 23 ** Dashed Line is a possible New Relationship http://www.geneseeacademy.com Airline Reservations Źródło: databaser.net

Data Vault - przykład SAT_PRODUKT HUB_PRODUKT HUB_KLIENT SAT_KLIENT LINK_SPRZEDAZ SAT_REGION HUB_REGION

MODELOWANIE DM

Analytical Data Set - definicja (1) Analityczny zbiór danych jest uporządkowanym zestawem cech (zmiennych) Istotne cechy wskazywane są metodą ekspercką, na podstawie doświadczeń i najlepszych praktyk branżowych Przykładowe cechy klienta Wartość zakupów w ciągu 36 miesięcy Liczba logowań do sklepu internetowego w ciągu 12 miesięcy Informacje demograficzne: wiek, płeć, zamieszkanie, itp.

Analytical Data Set - definicja(2) Obszary tematyczne pochodzące z różnych źródeł informacje dotyczące klienta KLIENCI TRANSAKCJE PRODUKTY CORE zestaw podstawowych danych o kliencie (identyfikator, PESEL, itp.) CORE KLIENCI TRANSAKCJE PRODUKTY ADS

Analytical Data Set - definicja(3)

Modelowanie danych w hurtowni danych Analityczne zbiory danych (ADS) Zbiór danych tematycznych (Data Marts) Zbiór danych detalicznych (DETAIL) 3 postać normalna (3NF) Gwiazda/płatek śniegu Data Vault Data mining (ADS) Zbiór danych tymczasowych (STAGE) Repozytorium danych System 1 System 2 System n Systemy źródłowe

PRZYKŁAD: MODELOWANIE HIERARCHII

Hierarchie typy hierarchii Zbalansowana (ang. balanced) stała liczba nazwanych poziomów, każde dziecko ma rodzica na poziomie bezpośrednio wyższym (struktura drzewa) Struktura drzewa o nieokreślonej liczbie poziomów nieokreślona liczba poziomów, których nie da się nazwać Niezrównoważona (ang. ragged) stała liczba nazwanych poziomów, dziecko może mieć rodzica na poziomie innym niż bezpośrednio wyższy

Hierarchie przykład (1) Przykład wymiaru czas Czas Id Data Miesiąc Nazwa Miesiąca Kwartał Rok 1 01-01-2006 2006.01 Styczeń Q1.2006 2006 2 23-02-2006 2006.02 Luty Q1.2006 2006 3 18-05-2006 2006.05 Maj Q2.2006 2006 4 12-07-2006 2006.07 Lipiec Q3.2006 2006 5 09-11-2006 2006.11 Listopad Q4.2006 2006 6 ROK KWARTAŁ MIESIĄC DZIEŃ

Hierarchie przykład (2) Pion Departament Dział A B C A B D X??? Y Pion (A)? Departament (B) Pion (X) Dział(Y) Dział (C) Dział (D) Pion (X) Dział (Y)

Hierarchie przykład (2) Pion Departament Dział A B C A B D X??? Y Pion (A)? Departament (B) Pion (X) Dział(Y) Pion (X) Dział (C) Dział (D) Pion Departament Dział Sposób 1 X X Y Sposób 2 X Y Y Sposób 3 X BRAK Y Dział (Y)

Dziękuję za uwagę