Hurtownie danych Rola hurtowni danych w systemach typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris, tegra}@eti.pg.gda.pl - 1 - Podstawowa architektura rozwiązań typu BI Proces ETL Prezes/Analityk Hurtownia danych Źródła danych - 2-2 1
Hurtownia danych (ang. data warehouse) Tematyczny (ang. subject-oriented), zintegrowany (ang. integrated), zależny od czasu (ang. time-variant), trwały (ang. non-volatile) zbiór danych, ukierunkowany na wspomaganie procesów podejmowania decyzji. Bill Inmon Kopia danych transakcyjnych zapisanych w strukturach ukierunkowanych na zapytania analityczne. Ralph Kimball - 3 - Cechy hurtowni danych (1) Zbiór danych Hurtownia danych to bardzo duży zbiór danych / baza danych (setki GB, pojedyncze TB). Taka baza danych optymalizowana jest pod kątem przetwarzania analitycznego, a nie transakcyjnego. - 4-2
Cechy hurtowni danych (2) Tematyczny zbiór danych Hurtownia danych może być używana do analizy konkretnego obszaru tematycznego np.: sprzedaży. Zbiór danych zależny od czasu Hurtownia danych przechowuje dane historyczne. Trwały zbiór danych Dane zapisane w hurtowni danych pozostają niezmienione. - 5 - Cechy hurtowni danych (3) Zintegrowany zbiór danych Dane pochodzące z wielu różnych systemów baz danych i innych źródeł danych i są zbierane do jednego miejsca: zintegrowanej bazy danych - hurtowni danych. Proces ETL Extract Transform Load Hurtownia danych - 6 - Źródła danych 3
Cechy hurtowni danych (4) Struktury ukierunkowane na zapytania analityczne wymiaru 1 wymiaru 2 faktów wymiaru 3 RDBMS Model wielowymiarowy - 7 - Wielowymiarowy model danych Zasadnicze dane hurtowni przechowywane są w postaci faktów zdarzeń, mogących być przedmiotem analiz ilościowych. Z faktami kojarzone są miary o charakterze numerycznym. Wymiary o charakterze nienumerycznym stanowiące kategorie informacji służących do agregowania faktów względem różnych kryteriów (warunków określonych na wymiarach). Jeden wymiar posiada kilka atrybutów wymiarów stanowiących konkretne kryterium. Elementy wymiarów są tekstowymi etykietami opisującymi fakty. - 8-4
Przykład modelu wielowymiarowego S k l e p C z a s d2 s5 s4 s3 s2 s1 d1 d4 d3 p1 p2 p3 p4 p5 p6 Produkt kostka (cube) Produkt Sklep Czas wymiary (p i, s j, d k ) fakt sprzedaży produktu p i w sklepie s j dnia d k Możliwe miary: ilość sprzedanego produktu przychód ze sprzedaży koszt sprzedaży - 9 - Przykład analiz wielowymiarowych Wycinanie C z a s d4 d3 d2 d1 s5 S s4 k l s3 e s2 p s1 p1 p2 p3 p4 p5 p6 Produkt C z a s d2 s3 d1 d4 d3 p1 p2 p3 p4 p5 p6 Produkt Efekt: (p i, s 3, d k ) - wszystkie fakty sprzedaży w sklepie s 3-10 - 5
Przykład analiz wielowymiarowych Wycinanie C z a s d4 d3 d2 d1 s5 S s4 k l s3 e s2 p s1 p1 p2 p3 p4 p5 p6 Produkt d3 d2 s3 s4 p2 p3 p4 Efekt: (p i, s j, d k ) - fakty sprzedaży w sklepie s 3 i s 4 produktów p 2, p 3, p 4 w dniach d 2, d 3-11 - Agregacje Dla wyciętego zbioru faktów wyliczane są agregacje. Miary mają przypisane funkcje agregujące. Funkcja agregująca określa jaka operacja matematyczna jest wykonywana na wartościach miar. Prawidłową funkcją agregującą dla miar: ilość sprzedanego produktu, przychód ze sprzedaży i koszt sprzedaży jest funkcja SUM. - 12-6
Schemat gwiazdy wymiaru produkt Miary faktów sprzedaży wymiaru czas wymiaru sklep - 13 - Schemat gwiazdy Tablica wymiarów 1 1 1 Tablica wymiarów 3 n n Tablica faktów n n... Tablica wymiarów 2 1 1 Tablica wymiarów k Tablica faktów, z atrybutami liczbowymi (miarami, ang. measures) Tablice wymiarów, z atrybutami opisowymi (elementami wymiarów, ang. dimension members) - 14-7
Model wielowymiarowy a model gwiazdy (1) Atrybuty wymiary Produkt: - NAZWA PRODUKTU - KATEGORIA PRODUKTU - DZIAŁ PRODUKTU Atrybuty wymiary Sklep: - NAZWA SKLEPU - WOJEWÓDZTWO - MIASTO Miary Atrybuty wymiaru Czas: - DATA - ROK - MIESIĄC - DZIEŃ - 15 - Wymiary kategoryjne i hierarchiczne Wymiary: - PRODUKT - CZAS - SKLEP Wymiary hierarchiczne: - CZAS: - LOKALIZACJA SKLEPU - PRODUKT ROK WOJEWÓDZTWO DZIAŁ PRODUKTU MIESIĄC MIASTO KATEGORIA PRODUKTU DZIEŃ NAZWA SKLEPU NAZWA PRODUKTU - 16-8
Powrót do architektury Podstawowa architektura rozwiązań typu BI Proces ETL Prezes/Analityk Hurtownia danych Źródła danych - 17 - Podejście z góry do dołu (1) Tematyczny (ang. subject-oriented), zintegrowany (ang. integrated), zależny od czasu (ang. time-variant), trwały (ang. non-volatile) zbiór danych, ukierunkowany na wspomaganie procesów podejmowania decyzji. Bill Inmon Zaczerpnięte z: http://searchbusinessintelligence.techtarget.in/tip/inmon-vs-kimball-which-approach-is-suitable-for-your-data-warehouse - 18-9
Podejście z dołu do góry Kopia danych transakcyjnych zapisanych w strukturach ukierunkowanych na zapytania analityczne. Ralph Kimball - 19 - Zaczerpnięte z: http://searchbusinessintelligence.techtarget.in/tip/inmon-vs-kimball-which-approach-is-suitable-for-your-data-warehouse Minihurtownia (ang. data mart) Tematyczna hurtownia danych Gdy dane w hurtowni obejmują tylko pewien wycinek danych zintegrowanych: minihurtownia (podhurtownia, zbiorcza baza danych, ang. data mart) Bill Inmon - 20 - Ralph Kimball 10
Co każdy student wiedzieć powinien 1. Znać definicje hurtowni danych i rozumieć między nimi różnicę? 2. Rozumieć pojęcia modelu wielowymiarowego. 3. Rozumieć pojęcie schematu gwiazdy. 4. Znać architekturę B. Inmona i Ralpha Kimballa. 5. Umieć wyjaśnić różnice pomiędzy podejściem z góry do dołu i z dołu do góry. - 21-11