Modelowanie hurtowni danych

Podobne dokumenty
Wielowymiarowy model danych

Modele danych - wykład V

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Hurtownie danych. 31 stycznia 2017

Hurtownie danych wykład 3

Hurtownie danych a transakcyjne bazy danych

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

OLAP i hurtownie danych c.d.

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Informatyzacja przedsiębiorstw

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Schematy logiczne dla hurtowni danych

Hurtownie danych - przegląd technologii

Wstęp do Business Intelligence

Plan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Zaawansowane systemy baz danych - ZSBD. Hurtownie danych 1. Problematyka hurtowni danych. Wykład przygotował: Robert Wrembel. ZSBD wykład 12 (1)

BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Bazy analityczne (hurtownie danych, bazy OLAP)

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

4. Znaczenie czasu w modelowaniu i strukturalizacji danych

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Baza danych. Modele danych

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Wprowadzenie do hurtowni danych

Plan. Inteligencja bisnesowa (Bussiness Intelligence) Hurtownia danych OLAP

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Projektowanie hurtowni danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Alicja Marszałek Różne rodzaje baz danych

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Business Intelligence

Relacyjny model baz danych, model związków encji, normalizacje

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Definicja bazy danych TECHNOLOGIE BAZ DANYCH. System zarządzania bazą danych (SZBD) Oczekiwania wobec SZBD. Oczekiwania wobec SZBD c.d.

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Normalizacja relacyjnych baz danych. Sebastian Ernst

Hurtownie danych - przegląd technologii

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Spis tre±ci. Przedmowa... Cz ± I

Projektowanie Systemów Informacyjnych

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

Hurtownie danych - przegląd technologii

Porównanie wydajności hurtowni danych ROLAP i MOLAP w Oracle 10g

Modelowanie danych, projektowanie systemu informatycznego

Pierwsze wdrożenie SAP BW w firmie

Ewolucja technik modelowania hurtowni danych

Część I Istota analizy biznesowej a Analysis Services

Wykład I. Wprowadzenie do baz danych

Diagramy związków encji. Laboratorium. Akademia Morska w Gdyni

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Projektowanie bazy danych przykład

Normalizacja baz danych

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl

HURTOWNIE DANYCH. Krzysztof Goczyła. Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska. kris@eti.pg.gda.pl. K.

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Informacje wstępne Autor Zofia Kruczkiewicz Wzorce oprogramowania 4

Bazy danych Wykład zerowy. P. F. Góra

Transformacja modelu ER do modelu relacyjnego

030 PROJEKTOWANIE BAZ DANYCH. Prof. dr hab. Marek Wisła

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

Wprowadzenie do projektowania i wykorzystania baz danych Relacje i elementy projektowania baz

Projektowanie schematów logicznych dla magazynów danych

Projektowanie hurtowni danych i modelowanie wielowymiarowe

Wprowadzenie do hurtowni danych

Dane wejściowe. Oracle Designer Generowanie bazy danych. Wynik. Przebieg procesu

Microsoft Excel 2013: Budowanie modeli danych przy użyciu PowerPivot

Pojęcie bazy danych. Funkcje i możliwości.

Plan wykładu: Relacyjny model danych: opis modelu, podstawowe pojęcia, ograniczenia, więzy.

Ćwiczenia z Zaawansowanych Systemów Baz Danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Krzysztof Kadowski. PL-E3579, PL-EA0312,

Bazy danych. Plan wykładu. Diagramy ER. Podstawy modeli relacyjnych. Podstawy modeli relacyjnych. Podstawy modeli relacyjnych

WYKŁAD 1. Wprowadzenie do problematyki baz danych

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Modelowanie wielowymiarowe hurtowni danych

Bazy danych 1. Wykład 5 Metodologia projektowania baz danych. (projektowanie logiczne)

Projektowanie hurtowni danych i modelowanie wielowymiarowe

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA realizacja w roku akademickim 2016/17

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym

Bazy danych TERMINOLOGIA

Bazy danych i usługi sieciowe

Wykład II Encja, atrybuty, klucze Związki encji. Opracowano na podstawie: Podstawowy Wykład z Systemów Baz Danych, J.D.Ullman, J.

Spis treści. 1 Modelowanie logiczne. Plan wykładu. 1 Modelowanie logiczne 1

Business Intelligence (BI) Hurtownie danych, Eksploracja danych. Business Intelligence (BI) Mnogość pojęć z okolic BI

Zasady transformacji modelu DOZ do projektu tabel bazy danych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Plan. Formularz i jego typy. Tworzenie formularza. Co to jest formularz? Typy formularzy Tworzenie prostego formularza Budowa prostego formularza

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Projekt małej Bazy Danych.

Transkrypt:

Modelowanie hurtowni danych Zbyszko Królikowski Instytut Informatyki Dane w hurtowniach danych pojęcia podstawowe Hurtowniadanychjestkolekcją:zintegrowanych, zorientowanych tematycznie, zmiennych w czasie, nieulotnych danych, o różnym stopniu agregacji, wykorzystywanych w procesach wspierania podejmowania decyzji str. 2 Dane w hurtowniach danych pojęcia podstawowe Klient Klient M agazyn danych OLAP OLTP Danepobrane z zewnętrznych źródeł danych, zostają przetworzone, wzbogacone o wymiar czasowyi składowane w centralnym repozytorium -w hurtowni danych baza danych baza danych baza danych str. 3

Dane w hurtowniach danych pojęcia podstawowe Rodzaje danych w hurtowni przetwarzanie danych agregaty danych ładowanie danych przetwarzanie danych nowe wersje danych wyjściowe dane elementarne Metadane dane historyczne str. 4 Wielowymiarowy model danych W relacyjnych bazach danych, dane są zorganizowane w postaci relacji (tabel), z których każda może zawierać pewien zbiór krotek (wierszy). IdSkle NazwaSklepu AdresSklepu Miasto pu 01 Alfa ul. Akacjowa 4 Gniezno 02 Beta ul. Konwaliowa 8 Poznań 03 Gamma ul. Klonowa 34/36 Poznań 04 Delta ul. Albańska 8 Kraków Wszystkie krotki relacji mają tą samą strukturę, czyli ten sam zbiór atrybutów. Jeden lub kilka atrybutów tworzy klucz podstawowy relacji służący do identyfikowania krotek. Jeśli relacja jest odpowiednio znormalizowana to każda krotka opisuje pojedynczy obiekt lub fakt ze świata rzeczywistego. Nawigując po krotkach takiej relacji, poruszamy się wzdłuż tylko jednego wymiaru wymiaruobiektów lub faktów, o których informacje są przechowywane w tej relacji. str. 5 Wielowymiarowy model danych cd. W wielu przypadkach, aby udzielić odpowiedzi na zapytanie, musimy znać więcej niż jedną współrzędną. Na przykład, jeśli w bazie danych posiadamy oprócz informacjach o sklepach danej sieci handlowej, również informacje o towarach i ich sprzedaży w poszczególnych sklepach sieci, możemy być zainteresowani tym, ile towaru X sprzedano w sklepie Y. Mamy zatem dwa niezależne wymiary: wymiar sklepów i wymiar towarów, a na przecięciu informację o sprzedaży towarów w sklepach. Tego typu wiedzę w naturalny sposób można reprezentować w postaci struktury dwuwymiarowej. Towary Bułki Żółty ser Mydło Alfa 20 23 5 Sklepy Beta 4 0 24 Gamma 45 147 35 Delta 71 12 40 str. 6

Wielowymiarowy model danych cd. Wiersze takiej tabeli nie mogą być przechowywane w bazie danych jako krotki relacji, ponieważ kolumny tabeli mają charakter całkowicie dynamiczny jest to struktura nieznormalizowana. Towary Bułki Żółty ser Mydło Alfa 20 23 5 Sklepy Beta 4 0 24 Gamma 45 147 35 Delta 71 12 40 str. 7 Wielowymiarowy model danych cd. Towary Sklepy Sprzedaż Bułki Alfa 20 Bułki Beta 4 Bułki Gamma 45 Bułki Delta 71 Żółty ser Alfa 23 Żółty ser Gamma 147 Żółty ser Delta 12 Mydło Alfa 5 Mydło Beta 24 Mydło Gamma 35 Mydło Delta 40 Sprzedaż towarów w sklepach, zapamiętana w postaci relacji znormalizowanej str. 8 Wielowymiarowy model danych cd. Agregaty są wyliczane poprzez operacje grupowania dla wskazanych wymiarów. Po wyliczeniu agregatów w wielowymiarowej strukturze danych i ich zapamiętaniu otrzymujemy tzw. zmaterializowane agregaty (perspektywy) Towary Bułki Żółty ser Mydło Łącznie: Alfa 20 23 5 48 Sklepy Beta 4 0 24 28 Gamma 45 147 35 227 Delta 71 12 40 123 Łącznie: 140 182 104 426 Zmaterializowane agregaty str. 9

Wielowymiarowy model danych cd. Wnioski: Stosowanym modelem danych w hurtowniach danych jest model wielowymiarowy. Wielowymiarowe dane są zorganizowane w postaci n- wymiarowych tabel, nazywanych kostkami(ang. cube). Dana wielowymiarowa / kostkajest zbiorem komórekdanej (ang. cells). Komórki kostki, tzw. fakty, zawierają numeryczne atrybuty nazywane miarami. str. 10 Kategorie analizowanych danych Fakty - informacje podlegające analizie sprzedaż, rozmowy telefoniczne Fakty są charakteryzowane ilościowo za pomocą miar liczba sprzedanych sztuk towaru,czastrwania rozmowy str. 11 Kategorie analizowanych danych cd. Fakty reprezentują elementarne jednostki informacji (zdarzenia), które mają być przechowywane w hurtowni. Wartości miar są natomiast przedmiotami analiz danych i reprezentują punkty w wielowymiarowej przestrzeni, wyznaczone przez instancje poziomów bazowych wymiarów. Relacja faktów Sprzedażprzechowuje informacje o transakcjach sprzedaży artykułów w sklepach należącym do sieci. Analizowane miary to liczba sztuk sprzedanego towaru i kwota sprzedaży. str. 12

Kategorie analizowanych danych cd. Fakty relacji Sprzedaż mogą być analizowane w następujących wymiarach: Czasz hierarchią: dzień miesiąc rok, Towar z hierarchią: artykuł kategoria branża, Dostawca z hierarchią: firma miasto województwo, Lokalizacja z hierarchią: sklep miasto województwo, TypPlacówki z hierarchią: sklep typ sklepu, Klient i Promocja Wymiary Czas, Towar, Lokalizacjai TypPlacówkisą wymiarami znormalizowanymi, implementowane są przez relacje o nazwach równych nazwom poziomów w hierarchii poszczególnych wymiarów. Wymiary Klient i Promocja są wymiarami zdenormalizowanymi. str. 13 Kategorie analizowanych danych cd. Wymiarydanych są strukturalnymi i w ogólności złożonymi atrybutami grupującymi elementy tego samego typu. Każdy wymiar kostki jest identyfikowany przez nazwę i zwykle posiada strukturę hierarchiczną, określającą poziomy agregacji skojarzonych z wymiarem danych. LOKALIZACJA województwa miasta sklepy str. 14 Kategorie analizowanych danych cd. Wymiarymogą być wewnętrznie złożone i opisane za pomocą wielu atrybutów (noszących również nazwę poziomów), a atrybuty mogą pozostawać w pewnych zależnościach, tworząc hierarchie w ramach wymiaru lokalizacja hierarchia: sklepy-miasto-województwo czas sprzedaży hierarchia: dzień-miesiąc-kwartał-rok str. 15

Kategorie analizowanych danych cd. Hierarchie w ramach wymiaru Wymiar Lokalizacja złożony z czterech następujących poziomów: Sklep, Miasto, Województwo i Kraj. Poziomy tworzą hierarchię, w której sklepy należą do miast, miasta do województw, a województwa do kraju. Wartości każdego poziomu nazywa się instancjami poziomu. Instancjami poziomu Sklep są Auchan1 i Auchan2. 16 str. 16 Kategorie analizowanych danych cd. Hierarchie w ramach wymiaru cd. store stype city region Struktura drzewiasta 17 Kategorie analizowanych danych cd. Hierarchie w ramach wymiaru cd. store storeid cityid tid mgr s5 sfo t1 joe s7 sfo t2 fred s9 la t1 nancy stype tid size location t1 small downtown t2 large suburbs city cityid pop regid sfo 1M north la 5M south region regid name north cold region south warm region str. 18

Kategorie analizowanych danych cd. Hierarchie wymiarów str. 19 Identyfikowanie faktów i wymiarów Budowę schematu logicznego hurtowni danych należy rozpocząć od wyłonienia danych, które będą pełnić rolę faktów i wybrania opisujących je wymiarów. Metoda pozwalającą na jednoznaczne zidentyfikowanie tych relacji, które w hurtowni danych będą reprezentowane jako fakty i wymiary, zakłada wykonanie czterech następujących kroków. Pierwszym krokiem w procesie identyfikacji faktów jest analiza modelu przedsiębiorstwa i wyszukanie tych transakcji, które są fundamentalne z punktu widzenia jego działalności. Przykładami takich transakcji są: dla handlu: transakcje zakupu w sklepie, dla bankowości: operacje na kontach bankowych, zmiany typów kont, założenie lub likwidacja konta, dla firm ubezpieczeniowych: żądania wypłacenia odszkodowania, podpisanie nowej polisy, zmiana warunków polisy, dla firm telekomunikacyjnych: połączenia telefoniczne, wpłynięcie opłaty, podłączenie lub odłączenie klienta. Analiza takich transakcji pozwala na określenie w dość jednoznaczny sposób relacji faktów. Należy przy tym pamiętać, że nie wszystkie dane szczegółowe muszą koniecznie być faktami. str. 20 Identyfikowanie faktów i wymiarów cd. Krok drugi polega na określeniu najważniejszych wymiarów opisujących każdy potencjalny fakt. W ten sposób wybieramy obiekty, które mogą stać się relacjami (tabelami) wymiarów. W kroku trzecim należy dokładnie sprawdzić każdą potencjalną relację faktów, pod kątem wykrycie tych, które faktycznie są tabelami wymiarów, a zawierają jedynie fragment informacji, która powinna się znaleźć w relacji faktów. Krok czwarty i ostatni, to czynność odwrotna: należy sprawdzić, czy niektóre z proponowanych wymiarów nie powinny zostać przeniesione do relacji faktów. Jeśli kroki 3 i 4 spowodują zmiany w przypisaniu danych do relacji faktów i wymiarów, należy powtórzyć całą procedurę począwszy od punktu 2. 21 str. 21

Identyfikowanie faktów i wymiarów cd. Jednym z głównych wyzwań, jakie stoją przed projektantem hurtowni danych jest określenie rozmiaru relacji faktów. Należy znaleźć złoty środek pomiędzy wartością informacji udostępnianej przez hurtownię a kosztem jej pozyskania. Wykonywana przez projektanta analiza, której celem jest redukcja rozmiaru relacji faktów i zwiększenie efektywności przeprowadzanych na niej operacji, powinna uwzględniać następujące elementy: ustalenie, jakie okresy czasu są istotne dla każdej z funkcji hurtowni, przechowywanie jedynie próby losowej szczegółowych danych, określenie minimalnego zbioru kolumn, których przechowywanie jest konieczne, minimalizacja rozmiarów kolumn, wykorzystanie kluczy naturalnych, określenie optymalnego sposobu przechowywania informacji o czasie, partycjonowanie relacji faktów. 22 str. 22 Jak implementować wielowymiarowy model danych? str. 23 Modelowanie hurtowni danych Przy implementacji modelu wielowymiarowego w hurtowniach danych stosuje się jedno z dwóch następujących podejść: model ROLAP relacyjny OLAP (ang. relational OLAP), model MOLAP wielowymiarowyolap (ang. multidimensional OLAP). str. 24

Modelowanie hurtowni danych cd. Model ROLAP Hurtownie relacyjne ROLAP(ang. RelationalOLAP) wykorzystuje rozszerzony model relacyjny, a operatory modelu wielowymiarowego zostają zaimplementowane przy pomocy standardowych operatorów relacyjnych. Wymiary wraz z hierarchiami są implementowane w postaci relacji wymiarów, natomiast fakty są składowane w relacji faktów. Schemat relacji faktów tworzą atrybuty kluczy obcych do relacji wymiarów i atrybuty implementujące miary. 25 str. 25 Modelowanie hurtowni danych cd. Przy implementowaniu danych wielowymiarowych w modelu ROLAP wykorzystuje się następujące rodzaje schematów: schemat gwiazdy (ang. star schema) schemat płatka śniegu (ang. snowflake schema) schemat konstelacji faktów (ang. fact constellation schema) schemat gwiazda płatek śniegu (ang. starflake schema) 26 str. 26 ROLAP schemat gwiazdy Pojedynczy obiekt (tabela faktów) w centrum schematu jest powiązany z określoną liczbą tabel wymiarów 27 str. 27

Schemat gwiazdy przykład 1 Fakty(tabela faktów) Wymiar(tabela wymiaru) Każda krotka w relacji faktów, czyli każdy pojedynczy fakt, posiada zbiór kluczy obcych wskazujących na odpowiednie współrzędne w relacjach reprezentujących wymiary 28 str. 28 Schemat gwiazdy przykład 1 product prodid name price p1 bolt 10 p2 nut 5 store storeid city c1 nyc c2 sfo c3 la sale oderid date custid prodid storeid qty amt o100 1/7/97 53 p1 c1 1 12 o102 2/7/97 53 p2 c1 2 11 o105 3/8/97 111 p1 c3 5 50 customer custid name address city 53 joe 10 main sfo 81 fred 12 main sfo 111 sally 80 willow la 29 str. 29 Schemat gwiazdy przykład 1 W schemaciegwiazdy, centralna relacja faktów jest otoczona przez zdenormalizowane(np., zawierające wartości zagregowane, będące wynikiem połączenia wielu innych relacji) relacje wymiarów. Każdy wymiar jest implementowany przez jedną relację wymiaru. 30 str. 30

Schemat gwiazdy cd. tabela wymiaru tabela faktów sztuczny ID ID (PK) Dim1 (FK) klucz naturalny (wartości w systemie źródłowym) ATR1 (KN)... ATRn (KN) Dim2 (FK)... Dimn (FK) Atr1 M1 deskryptory Atr2... M2... miary Atrn Mn str. 31 ROLAP schemat gwiazdy Podsumowując, można wyróżnić następujące własności schematu gwiazdy: prosta struktura, schemat łatwy do zrozumienia, duża efektywność wykonywania zapytań ze względu na niewielką liczbę połączeń relacji, stosunkowo długi czas ładowania danych do relacji wymiarów ze względu na denormalizację, jest to dominująca struktura dla hurtowni danych, wspierana przez wiele narzędzi. 32 str. 32 ROLAP schemat płatka śniegu W schemacie płatka śniegu, centralna relacja faktów jest otoczona przez znormalizowane relacje poziomów, tworzących hierarchię danego wymiaru. str. 33

Schemat płatka śniegu cd. str. 34 Schemat płatka śniegu cd. W schemacie płatka śniegu, centralna relacja faktów jest otoczona przez znormalizowane relacje poziomów, tworzących hierarchię danego wymiaru. Np. wymiar Czas został zaimplementowany przez trzy relacje poziomów, mianowicie: Rok, Kwartał i Miesiąc, odpowiadające poziomom w hierarchii wymiaru. Normalizacja relacji implementujących wymiary pozwala uniknąć typowych problemów, nękających struktury zdenormalizowane (redundancja danych, trudniejsza aktualizacja), jednak powoduje zwiększenie stopnia skomplikowania schematu i zapytań analitycznych. str. 35 Schemat płatka śniegu cd. Podsumowując, można wyróżnić następujące cechy charakterystyczne schematu płatka śniegu: spadek wydajności wykonywania zapytań w porównaniu ze schematem gwiazdy ze względu na konieczność realizacji większej liczby połączeń relacji, struktura łatwiejsza do modyfikacji, krótszy czas ładowania danych do relacji w porównaniu ze schematem gwiazdy, wykorzystywany rzadziej niż schemat gwiazdy, gdyż efektywność wykonywania zapytań jest ważniejsza niż efektywność ładowania danych do tabel wymiarów. str. 36

Tabela faktów Sprzedaż DataSprzedaży (FK) Produkt (FK) Sklep (FK) Menadżer (FK) wymiary RodzajPromocji (FK) RodzajPłatności (FK) CzasID (FK) LSztuk KwotaNetto miary PodatekA PodatekB str. 37 37 Projektowanie relacji wymiarów - który schemat wybrać? W przypadku schematu gwiazdy denormalizacjawszystkich informacji referencyjnych danego wymiaru do postaci pojedynczej relacji, powoduje zwiększenie efektywności wykonywania zapytań. Większość zapytań analizuje fakty po uprzednim ograniczeniu relacji faktów, przez nałożenie licznych ograniczeń na relacje wymiarów (np. zapytanie sumujące sprzedaż w sklepach o powierzchni ponad 10 tyś. m kw., znajdujących się w miastach powyżej 500 tyś. mieszkańców). Ponieważ zapytanie ogranicza zbiór sklepów według różnych kryteriów (powierzchnia, liczba mieszkańców), można jego wykonanie przyspieszyć poprzez włączenie wszystkich atrybutów dotyczących wymiaru Lokalizacjado jednej relacji. Wadą tego rozwiązania jest znaczące zwiększenie rozmiaru relacji wymiaru. Jeżeli niektóre z atrybutów wymiaru są odczytywane bardzo rzadko, to koszt zwiększenia rozmiaru relacji może być większy niż zysk wynikający z przyspieszenia wykonywania zapytań. str. 38 Projektowanie relacji wymiarów - który schemat wybrać? Jeżeli pewne atrybuty wymiaru są rzadko używane, to należy pozostawić ten wymiar w postaci znormalizowanej, tj. w postaci schematu płatka śniegu. Co więcej, denormalizacja w pewnych przypadkach jest niemożliwa -operacji tej nie należy przeprowadzać, jeśli wymiary związane są zależnością wiele-dowielu. (wymagałoby to użycia atrybutów wielowartościowych). Często występuje wiele różnych hierarchii, reprezentujących różne punkty widzenia na te same dane. Przykładowo, sklepy sieci handlowej podlegają pod hierarchię opisującą geograficzną lokalizację placówek. Równolegle do podstawowej hierarchii użytkownicy korzystają z dodatkowych hierarchii, klasyfikujących sklepy pod względem typu lokalizacji (supermarket, centrum handlowe, wolnostojące, itp.). str. 39

Projektowanie relacji wymiarów - który schemat wybrać? W takim przypadku denormalizacjipowinna podlegać ta hierarchia, z której korzysta najwięcej zapytań, zaś pozostałe hierarchie powinny pozostać w postaci rozwiniętej, tj. w postaci płatków śniegu. Jeżeli w przyszłości zmieni się profil zapytań (czyli inna hierarchia stanie się najpopularniejsza ), to nie należy usuwać aktualnie wykorzystywanego wymiaru zdenormalizowanego (gwiaździstego) (koszt modyfikacji zapytań może być znaczny), lecz wzbogacić go o te atrybuty, które opisują nową hierarchię. str. 40 Wymiar: czas Występuje w większości schematów Definiowana na początku budowy HD Ziarno - zazwyczaj dzień DataID sztuczny identyfikator; wartości 1, 2,..., n wartość numeryczna 11032008 (11-03-2008) DataID (PK) Data NazwaDnia NrDniaTyg NrDniaMies NrDniaRok NrDniaFiskMies NrDniaFiskRok CzyOstatniDzienTyg CzyOstatniDzienMies NrTygodniaRok NazwaMies NrMiesRok Kwartał Półrocze Rok NrTygodniaRokFisk NazwaMiesFisk NrMiesRokFisk KwartałFisk PółroczeFisk RokFisk CzyŚwięto CzyDzieńRoboczy CzyWeekend RodzajŚwięta str. 41 ROLAP konstelacja faktów Konstelacja faktówto schemat, który składa się z kilku relacji faktów, współdzielących między sobą niektóre wymiary. str. 42

Konstelacja faktów przykład 1 str. 43 Konstelacja faktów przykład 2 Dodatkowa relacja faktów o nazwie Reklamacje implementuje dodatkową miarę, pokazującą liczbę reklamacji artykułów w czasie. Relacje faktów Sprzedaż i Reklamacje współdzielą między sobą relacje wymiarów Czas i Towar. str. 44 Konstelacja faktów przykład 3 Przykładowy schemat uzupełniono o dwie relacje agregatów: SprzedażWPromocjach i SprzedażWgDostawców. Pierwsza relacja, SprzedażWPromocjach, przechowuje zagregowane dane o sprzedaży towarów w kolejnych dniach obowiązywania określonej promocji. Z kolei relacja SprzedażWgDostawców agreguje informacje o liczbie sztuk i sumarycznej kwocie, na jaką sprzedano towary w poszczególnych miesiącach w rozbiciu na województwa, w których dostawcy są zlokalizowani. str. 45

ROLAP gwiazda płatek śniegu W rzeczywistych projektach rzadko udaje się wykorzystywać schematy gwiazdyi płatka śnieguw czystej postaci. Najczęściej projektanci wybierają organizację hybrydową (ang. starflakeschema). W ramach takiej organizacji podstawowa część danych referencyjnych jest przedstawiona w postaci schematu gwiazdy (jako zdenormalizowanerelacje), a część pomocnicza w postaci płatka śniegu (jako znormalizowane hierarchie). str. 46 Gwiazda płatek śniegu przykład 1 Część wymiarów znormalizowanych poziomy wyższe wykorzystywane rzadko oszczędność miejsca Część wymiarów zdenormalizowanych wszystkie poziomy wymiarów wykorzystywane często efektywność zapytań str. 47 Modelowanie hurtowni danych cd. MOLAP model wielowymiarowy Hurtownie wielowymiarowe, nazywane również MOLAP(ang. Multi-Dimensional OLAP), wykorzystują specjalizowane systemy zarządzania, umożliwiające przechowywanie danych w wielowymiarowych tablicach i wykonywanie operacji OLAP zdefiniowanych dla tych struktur danych

Model MOLAP cd. Struktury danych MOLAP(ang. multidimensional arrays, datacubes) zawierajądane wstępnie przetworzone (m.in. zagregowane) pochodzące z wielu źródeł obszar Warszawa Kraków Poznań 1995 1996 1997 okres Ford Audi BMW produkt Tablica trójwymiarowa, zawierająca trzy wymiary: obszar, okres i produktoraz zagregowane informacje o sprzedaży samochodów w poszczególnych latach, w wybranych miastach Model MOLAP cd. Analizę danych wielowymiarowych wspomagają specjalne operatory: wyznaczanie punktu centralnego (ang. pivoting) nawigacja w górę lub w dół(rozwijanie (ang. drilldown), zwijanie (ang. roll-up lub drill-up)) obracanie (ang. rotating) projekcja (wycinanie) (ang. slice and dice) wyznaczanie rankingu (ang. ranking) Model MOLAP cd. 51

Model MOLAP cd. obszar W a r s z a w a K r a k ó w P o z n a ń s t y l u t m a r z k w i e.......... g r u F o r d A u d i B M W p r o d u k t obszar W a r s z a w a K r a k ó w P o z n a ń B M W F o r d A u d i 1995 1996 1997 o k r e s r o z w i j a n i e h i e r a r c h i i c z a s u p r o d u k t Rozwijaniepolega na zagłębianiu się w hierarchię danego wymiaru w celu przeprowadzenia bardziej szczegółowej analizy danych 52 Model MOLAP cd. 53 Model MOLAP cd. Operacja obracaniaumożliwia prezentowanie danych w różnych układach. Celem jej jest zwiększenie czytelności analizowanych informacji 54

Model MOLAP cd. Wycinanie danych w różnych wymiarach 55 Model MOLAP cd. obszar a ) W a r s z a w a K r a k ó w P o z n a ń 1995 1996 1997 o k r e s F o r d A u d i B M W p r o d u k t b ) obszar W a r s z a w a K r a k ó w P o z n a ń 1995 1996 1997 o k r e s F o r d A u d i B M W p r o d u k t Projekcja(slice) umożliwia zawężenie analizowanych danych do wybranych wymiarów, a w ramach każdego z wymiarów zawężenie analizy do konkretnych jego wartości(warunki selekcji nałożone na jeden wymiar) 56 Agregowanie danych w kostce luty styczeń sklep1 sklep2 sklep3 masło 44 4 chleb sklep1 sklep2 sklep3 masło 12 50 chleb 11 8 sprzedaż(masło, sklep2, luty) sprzedaż(masło, all, all) sprzedaż(masło, sklep2, all) styczeń + luty sklep1 sklep2 sklep3 masło 56 4 50 chleb 11 8 + sklep1 sklep2 sklep3 sum(produkty) 67 12 50 + + sum(sklepy) masło 110 chleb 19 129 + sprzedaż(all, sklep2, all) sprzedaż(all, all, all)

Agregowanie w hierarchii wymiaru Wielkopolskie województwo kategoria Poznań Gniezno miasto grupa sklep produkt żywność nabiał pieczywo masmix mleko2% kajzerka rogal 10 5 150 13 32 13 16 9 265 321 4 8 13-12-2004...... 22-01-2004 21-01-2004 20-01-2004 Model ROLAP vs. MOLAP Implementacja relacyjna ROLAP Implementacja wielowymiarowa MOLAP 21 14 Auchan 10 Wielkopolska Selgros 12 Poznań Makro Piotr i Paweł 23 30 18 12-2003...... 03-2003 02-2003 01-2003 59