Modele danych - wykład V Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006
Zagadnienia 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne
WPROWADZENIE
Wprowadzenie PODSTAWOWE MODELE REPREZENTACJI I PRZECHOWYWANIA DANYCH ROLAP (ang. Relational OLAP) rozszerzony relacyjny model danych, przekształcenie operacji wielowymiarowych na standardowe relacyjne (często wspomagane narzędziami) MOLAP (ang. Multidimensional OLAP) wykorzystanie wielowymiarowych baz danych (MDB) tablice wielowymiarowe zamiast klasycznych,
Wprowadzenie AGREGACJA - wstępne wyliczenie pewnych miar (podsumowanie), np.: Dla bazy OLTP Dla bazy OLAP nie przechowujemy miesięcznych operacji z danym kontrahentem, gdyż można je wyliczyć z Faktur VAT wyliczmy raz i przechowujemy sumę operacji z danym kontrahentem (skoro takie dane są używane np. w 80% analiz)
Wprowadzenie PODZIAŁ NA PARTYCJE - zapis tabeli w częściach np. na różnych dyskach w celu zmniejszenia ilości danych lub zrównoleglenia operacji
Wprowadzenie Oracle przykłady: 2) Zrównoleglenie operacji na tabeli: CREATE TABLE SPRZEDAZ ( ) PARALLEL (DEGREE 6); - maksymalnie 6 procesów serwera do obsługi tej tabeli 3) Utworzenie tabeli z podziałem na partycje (części): CREATE Klienci (, Kraj char(2), ) PARTITION BY RANGE (Kraj) (PARTITION p1 VALUES LESS THAN ( C ) TABLESPACE Data01; PARTITION p2 VALUES LESS THAN ( K ) TABLESPACE Data02; PARTITION p6 VALUES LESS THAN MAXVALUE TABLESPACE Data06; Utworzenie indeksu dla tego podziału: CREATE INDEX indeks_kliencji_kraj ON Klienci (kraj) LOCAL;
Wprowadzenie Rodzaje danych analitycznych FAKTY (wielkości analizowane) dane ilościowe opisujące zaistniałe zdarzenia (fakty), np. wartość sprzedaży, ilość towaru, zysk WYMIARY (wielkości klasyfikujące) dane cechy, atrybuty faktów, tzw. dane klasyfikujące np. czas, miejsce, pracownik, klient, dane klasyfikujące mogą być układane w hierarchie
np. towar może należeć do dwóch kategorii. Wprowadzenie ŚCIEŻKI PODSUMOWAŃ - definiują poziomy ogólności wymiarów (hierarchie) Przykłady: gałąź przemysłu kategoria towar opakowanie kraj region miasto sklep rok kwartał miesiąc dzień tydzień UWAGA: Hierarchie nie muszą być jednoznaczne,
Wprowadzenie Hurtownie tematyczne (ang. data marts) - zbiory danych (zwykle perspektywy zmaterializowane) w których agregacje i podziały definiujemy pod kątem konkretnej grupy użytkowników podejmujących decyzje (np. pod kątem działu firmy)
ROLAP (ang. Relational OLAP) - modele danych
ROLAP 1. Technika implementacji w postaci tabel. 2. Schemat: a) gwiazda jedna tabela faktów w środku oraz tabele wymiarów po bokach (po jednej dla każdego wymiaru), b) płatek śniegu powstaje po zastosowaniu normalizacji do tabeli wymiarów schematu gwiazdy c) inne odmiany np. z wielokrotną tabelą faktów
ROLAP Schemat gwiazdy przykład.
ROLAP Fragment schematu płatka śniegu przykład.
ROLAP Schematu wielogwiaździsty 2 tabele faktów.
ROLAP Schemat z dwoma tabelami faktów.
ROLAP Schemat z dwoma tabelami faktów.
ROLAP Tabelami faktów jako tabela asocjacyjna (przypisanie towaru do grupy).
MOLAP (ang. Multidimensional OLAP) - modele danych
ROLAP 1. Fakty jako punkty wielowymiarowej przestrzeni. Przechowywanie w tzw. tablicach wielowymiarowych 2. Schemat w postaci wielowymiarowej kostki. 3. Reprezentacja szczegółowości (hierarchii) - za pomocą podkostek (ang. subcube). Reprezentacja punktu (pojedynczego elementu kostki przy pomocy innej kostki wielowymiarowej). 4. Arkusz (ang. spreadsheet) tworzą dwa wymiary (pozostałe mają ustaloną wartość). 5. Komórka miara z wszystkimi ustalonymi wymiarami.
ROLAP Przykład kostki danych (ang. data cube).
ROLAP Przykład tablicy wielowymiarowej (działanie operatora CUBE).
ROLAP 4. Analiza materiałów ksero.
PODSUMOWANIE
PODSUMOWANIE Podsumowanie: schematy ROLAP/MOLAP dopasowane do sposobu wykorzystania danych (wyraźnie pokazane fakty i wymiary), uproszczony sposób nawigacji po danych (zapytania analityczny), zastosowanie hierarchii umożliwia uzyskanie wyników na różnym poziomie szczegółowości (tzw. drążenie danych, operacje roll-up/ drill-down)
PODSUMOWANIE Podsumowanie: wada: nadmiarowość danych, duże rozmiary oraz to co jest związane z brakiem normalizacji problem dołączania, aktualizacji, usuwania, wspomaganie zapytań analitycznych oraz modelowania ROLAP/MOLAP przez narzędzia hurtowni danych, źle dobrana struktura (schemat) danych może wpływać na znaczne pogorszenie wydajności - analiza materiałów konferencyjnych
ZADANIE FAJNE Jakie będą dla danych z laboratorium: - ścieżki podsumowań - model ROLAP - model MOLAP