Modele danych - wykład V Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Zagadnienia 1. Wprowadzenie 2. MOLAP modele danych 3. modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE 1
Wprowadzenie PODSTAWOWE MODELE REPREZENTACJI I PRZECHOWYWANIA DANYCH (ang. Relational OLAP) rozszerzony relacyjny model danych, przekształcenie operacji wielowymiarowych na standardowe relacyjne (często wspomagane narzędziami) MOLAP (ang. Multidimensional OLAP) wykorzystanie wielowymiarowych baz danych (MDB) tablice wielowymiarowe zamiast klasycznych, Wprowadzenie AGREGACJA - wstępne wyliczenie pewnych miar (podsumowanie), np.: Dla bazy OLTP Dla bazy OLAP nie przechowujemy miesięcznych operacji z danym kontrahentem, gdyż można je wyliczyć z Faktur VAT wyliczamy raz i przechowujemy sumę operacji z danym kontrahentem (skoro takie dane są używane np. w 80% analiz) Wprowadzenie PODZIAŁ NA PARTYCJE - zapis tabeli w częściach np. na różnych dyskach w celu zmniejszenia ilości danych lub zrównoleglenia operacji 2
Wprowadzenie Oracle przykłady: 1) Zrównoleglenie operacji na tabeli: CREATE TABLE SPRZEDAZ ( ) PARALLEL (DEGREE 6); - maksymalnie 6 procesów serwera do obsługi tej tabeli 2) Utworzenie tabeli z podziałem na partycje (części): CREATE Klienci (, Kraj char(2), ) PARTITION BY RANGE (Kraj) (PARTITION p1 VALUES LESS THAN ( C ) TABLESPACE Data01; PARTITION p2 VALUES LESS THAN ( K ) TABLESPACE Data02; PARTITION p6 VALUES LESS THAN MAXVALUE TABLESPACE Data06; Utworzenie indeksu dla tego podziału: CREATE INDEX indeks_kliencji_kraj ON Klienci (kraj) LOCAL; Wprowadzenie Rodzaje danych analitycznych FAKTY (wielkości analizowane) dane ilościowe opisujące zaistniałe zdarzenia (fakty), np. wartość sprzedaży, ilość towaru, zysk WYMIARY (wielkości klasyfikujące) dane cechy, atrybuty faktów, tzw. dane klasyfikujące np. czas, miejsce, pracownik, klient, dane klasyfikujące mogą być układane w hierarchie Wprowadzenie ŚCIEŻKI PODSUMOWAŃ - definiują poziomy ogólności wymiarów (hierarchie) Przykłady: gałąź przemysłu kategoria towar opakowanie kraj region miasto sklep rok kwartał miesiąc dzień tydzień UWAGA: Hierarchie nie muszą być jednoznaczne, np. towar może należeć do dwóch kategorii. 3
Wprowadzenie Hurtownie tematyczne (ang. data marts) - zbiory danych (zwykle perspektywy zmaterializowane) w których agregacje i podziały definiujemy pod kątem konkretnej grupy użytkowników podejmujących decyzje (np. pod kątem działu firmy) (ang. Relational OLAP) - modele danych 1. Technika implementacji w postaci tabel. 2. Schemat: a) gwiazda jedna tabela faktów w środku oraz tabele wymiarów po bokach (po jednej dla każdego wymiaru), b) płatek śniegu powstaje po zastosowaniu normalizacji do tabeli wymiarów schematu gwiazdy c) inne odmiany np. z wielokrotną tabelą faktów 4
Schemat gwiazdy przykład. Fragment schematu płatka śniegu przykład. Schematu wielogwiaździsty 2 tabele faktów. 5
Schemat z dwoma tabelami faktów. Schemat z dwoma tabelami faktów. Schemat z dwoma tabelami faktów. Druga tabela jako tabela asocjacyjna (przypisanie towaru do grupy). 6
MOLAP (ang. Multidimensional OLAP) - modele danych MOLAP 1. Fakty jako punkty wielowymiarowej przestrzeni. Przechowywanie w tzw. tablicach wielowymiarowych 2. Schemat w postaci wielowymiarowej kostki. 3. Reprezentacja szczegółowości (hierarchii) - za pomocą podkostek (ang. subcube). Reprezentacja punktu (pojedynczego elementu kostki przy pomocy innej kostki wielowymiarowej). 4. Arkusz (ang. spreadsheet) tworzą dwa wymiary (pozostałe mają ustaloną wartość). 5. Komórka miara z wszystkimi ustalonymi wymiarami. MOLAP Przykład kostki danych (ang. data cube). 7
MOLAP Przykład tablicy wielowymiarowej (działanie operatora CUBE). MOLAP 4. Analiza materiałów ksero. PODSUMOWANIE 8
PODSUMOWANIE Podsumowanie: schematy /MOLAP dopasowane do sposobu wykorzystania danych (wyraźnie pokazane fakty i wymiary), uproszczony sposób nawigacji po danych (zapytania analityczny), zastosowanie hierarchii umożliwia uzyskanie wyników na różnym poziomie szczegółowości (tzw. drążenie danych, operacje roll-up/ drill-down) PODSUMOWANIE Podsumowanie: wada: nadmiarowość danych, duże rozmiary oraz to co jest związane z brakiem normalizacji problem dołączania, aktualizacji, usuwania, wspomaganie zapytań analitycznych oraz modelowania /MOLAP przez narzędzia hurtowni danych, źle dobrana struktura (schemat) danych może wpływać na znaczne pogorszenie wydajności - analiza materiałów konferencyjnych ZADANIE FAJNE Jakie będą dla danych z laboratorium: - ścieżki podsumowań - model - model MOLAP 9