Modelowanie koncepcyjne hurtowni danych Izabela Szczę ch Instytut Informatyki, Politechnika Poznań ska
Modele przetwarzania danych Dwa podstawowe modele przetwarzania danych: OLTP (On-Line Transaction Processing) celem jest wiarygodne i efektywne przetwarzanie dużych ilości transakcji i zapewnianie spó jności danych OLAP (On-Line Analytical Processing) celem jest efektywne wielowymiarowe przetwarzanie dużych wolumenó w danych Po co hurtownie danych? zbierają informacje z różnych źró deł (różnych baz danych), aby dostarczać spó jne źró dło danych dla zapytań wspomagających decyzje aplikacje wspierające decyzje działają poza systemem transakcyjnym (on-line), nie hamują jego działania
OLTP vs. OLAP OLTP OLAP users Clerk, IT professional Knowledge worker function day to day operations decision support DB design application-oriented subject-oriented data current, up-to-date historical, summarized detailed, flat relational isolated multidimensional integrated, consolidated usage repetitive ad-hoc access read/write, lots of scans inde/hash on prim. key unit of work short, simple transaction comple query # records accessed tens millions #users thousands hundreds DB size 100MB-GB 100GB-TB metric transaction throughput query throughput, response
Architektura hurtowni danych Eternal data sources Etract Transform Load Refresh Data Warehouse Operational databases Metadata repository Serves Data marts OLAP server Reports OLAP Data mining
Schematy logiczne hurtowni danych Trzy podstawowe schematy logiczne hurtowni danych: schemat gwiazdy schemat płatka śniegu schemat konstelacji faktó w (=schemat wielokrotnych tabel faktó w) Schemat gwiazdy: pojedyncza tablica (tablica faktó w) w centrum połączona z wieloma tablicami wymiaró w. Schemat płatka śniegu: rozwinięcie schematu gwiazdy poprzez normalizację relacji wymiaró w. Schemat konstelacji faktó w: wiele tablic faktó w współdzieli tablice wymiaró w.
Schemat gwiazdy Schemat gwiazdy: pojedyncza tablica faktó w w centrum połączona z wieloma tablicami wymiaró w Data ID_daty Dzień Miesiąc Rok Sklep Nr_sklepu Miasto Województwo Kraj Sprzedaż tabela faktów Data Produkt Sklep Klient ilość_sprzedana zysk_w_pln Produkt Nr_produktu Nazwa_produktu Kategoria_produktu Klient Nr_klienta Nazwa_klienta Miasto_klienta Kraj_klienta miary
Schemat gwiazdy Data ID Dzień Miesiąc Rok D1 16 marzec 2005 D2 17 marzec 2005 D3 20 luty 2004 Produkt Nr_produktu Nazwa_produktu Kategoria_produktu P1 ser bia ły nabia ł P2 mleko nabia ł P3 czekolada słodycze Sprzeda ż ID_sprzedaż y ID_daty Nr_sklepu Nr_produktu Nr_klienta Ilość_sprz Zysk_PLN 100 D1 S2 P1 K2 10 100 200 D1 S3 P1 K1 20 200 300 D2 S1 P3 K1 15 30 Sklep Nr_sklepu Miasto Województwo Kraj S1 Poznań Wlkp PL S2 Koszalin Zach-pom PL S3 Wrocław Dolnoś l PL Klient Nr_klienta Nazwa_klienta Miasto_klienta Kraj_klienta K1 Kowalski Pozna ń PL K2 Nowak Warszawa PL K3 Kowalski&Sons Rzeszów UK
Hierarchie wymiaró w Dla każdego wymiaru, zbió r opisujących go atrybutó w może być ułożony w hierarchiczną strukturę kraj wojewó dztwo miasto klient kategoria_produktu nazwa_produktu Tworząc hierarchie wymiaró w, przekształcamy schemat gwieździsty w schemat płatka śniegu
Schemat płatka śniegu Rok Rok Miesiąc Miesiąc Rok Data Dzień Miesiąc Sprzedaż tabela faktów Data Produkt Produkt Nr_produktu Nazwa_produktu Kategoria Kategoria Nr_kategorii Nazwa_kategorii Info_dodatkowe Sklep Nr_sklepu Miasto Województwo Kraj Sklep Klient ilość_sprzedana zysk_w_pln Klient Nr_klienta Nazwa_klienta Miasto_klienta Kraj_klienta miary
Schemat konstelacji faktó w Schemat konstelacji faktó w (czyli schemat wielokrotnych tablic faktó w): wiele tablic faktó w współdzieli relacje wymiaró w takie schematy pojawiają się przy projektowaniu hurtowni danych dla dużych i złożonych problemó w
Korporacyjna i tematyczna hurtownia danych Korporacyjna hurtownia danych (Data Warehouse) Odpytywalne źró dło danych o przedsiębiorstwie. Suma logiczna wszystkich składowych hurtowni tematycznych. Tematyczna hurtownia danych(data Mart) Logiczna część składowa korporacyjnej hurtowni danych. Zawężenie hurtowni korporacyjnej do pojedynczego procesu biznesowego lub grupy powiązanych ze sobą procesó w skierowanych do konkretnej grupy biznesowej użytkownikó w. Tabele wymiaró w lub faktó w współdzielone pomiędzy różnymi hurtowniami tematycznymi muszą mieć jedną definicję obowiązującą w całej hurtowni korporacyjnej (conformed dimensions, facts). Macierz procesó w biznesowych i wymiaró w (Bus Architecture)
Macierz procesó w biznesowych i wymiaró w W procesie projektowania korporacyjnej hurtowni pomocne jest zastosowanie macierzy identyfikującej: procesy biznesowe wymiary Przecięcia w macierzy wskazują, któ re procesy biznesowe korzystają z któ rych wymiaró w.
Macierz procesó w biznesowych i wymiaró w Rodzaj usterki Product Pracownik Organizacja Producent Linia serwisowa # Kanał sprzedaży Plan taryfowy Numer telefonu Klient Data Rachunki miesięczne Naprawy Zakupy Fragment macierzy procesó w i wymiaró w dla firmy telekomunikacyjnej
Współdzielone wymiary Wymiary współdzielone przez różne tablice faktó w muszą utrzymywać tę samą definicję we wszystkich hurtowniach tematycznych, któ re z nich korzystają. Odpowiednie zaprojektowanie, zbudowanie i utrzymanie współdzielonych wymiaró w to bardzo istotny aspekt pracy nad hurtownia korporacyjną. Wspó łdzielenie wymiaró w pozwala na: oszczędzanie fizycznego miejsca na dysku (nie składujemy redundantnych tabel) spó jną i jednoznaczną interpretację atrybutó w znajdujących się w wymiarach, a co za tym idzie spó jną interpretację wszelkich podsumowań w różnych hurtowniach tematycznych.