Zaawansowane systemy baz danych - ZSBD. Hurtownie danych 1. Problematyka hurtowni danych. Wykład przygotował: Robert Wrembel. ZSBD wykład 12 (1)

Podobne dokumenty

Plan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Hurtownie danych. 31 stycznia 2017

Hurtownie danych a transakcyjne bazy danych

Wielowymiarowy model danych

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

Informatyzacja przedsiębiorstw

Modele danych - wykład V

Informatyzacja przedsiębiorstw

Integracja systemów transakcyjnych

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego

Business Intelligence

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Hurtownie danych - przegląd technologii

Wstęp do Business Intelligence

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Hurtownie danych wykład 3

Schematy logiczne dla hurtowni danych

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

OLAP i hurtownie danych c.d.

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Architektury i technologie integracji danych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Problematyka hurtowni danych

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Co to jest Business Intelligence?

Pierwsze wdrożenie SAP BW w firmie

Bazy analityczne (hurtownie danych, bazy OLAP)

4. Znaczenie czasu w modelowaniu i strukturalizacji danych

realizowanych przez nich wybranych, rutynowych działań. przelewu na kontach bankowych. Działania te charakteryzuje ściśle określona procedura

Spis tre±ci. Przedmowa... Cz ± I

Część I Istota analizy biznesowej a Analysis Services

Modelowanie hurtowni danych

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Wykład I. Wprowadzenie do baz danych

Hurtownie danych w praktyce

HURTOWNIE DANYCH. Krzysztof Goczyła. Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska. kris@eti.pg.gda.pl. K.

Hurtownie Danych i Business Intelligence: przegląd technologii

Plan. Inteligencja bisnesowa (Bussiness Intelligence) Hurtownia danych OLAP

Systemy rozproszonych baz danych 1

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

PROJEKT WSPÓŁFINANSOWANY ZE ŚRODKÓW UNII EUROPEJSKIEJ W RAMACH EUROPEJSKIEGO FUNDUSZU SPOŁECZNEGO OPIS PRZEDMIOTU. Rozproszone Systemy Baz Danych

JAK HURTOWNIA DANYCH MOśE WSPOMAGAĆ MENEDśERA W PRACY?

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych - przegląd technologii

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Ewolucja technik modelowania hurtowni danych

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Opis spełnienia wymagań (PSBD)

PROJEKT HURTOWNI DANYCH DLA PRZEDSIĘBIORSTWA PRODUKCYJNO-HANDLOWEGO W ŚRODOWISKU MS SQL SERVER

Usługi biznesowe w SQL Server Omówienie oraz przykład zastosowania w przemyśle

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

VII Kongres BOUG 03 października 2012

Technologia informacyjna

Porównanie wydajności hurtowni danych ROLAP i MOLAP w Oracle 10g

Wprowadzenie do Hurtowni Danych

Integracja systemów transakcyjnych

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA realizacja w roku akademickim 2016/17

Matematyka kodem nowoczesności. Zaproszenie do składania ofert

HARMONOGRAM: DZIEŃ GODZINA MIEJSCE PROWADZĄCY TEMAT OPIS

Business Intelligence (BI) Hurtownie danych, Eksploracja danych. Business Intelligence (BI) Mnogość pojęć z okolic BI

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Alicja Marszałek Różne rodzaje baz danych

Informatyka I BAZY DANYCH. dr inż. Andrzej Czerepicki. Politechnika Warszawska Wydział Transportu 2017

Rozumie istotę i znacznie procesów ekstrakcji, transformacji i ładowania danych (ETL), zna wybrany język ETL oraz odpowiednie narzędzia.

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Projektowanie hurtowni danych

Spis treści. Przedmowa

Tematy projektów Edycja 2014

Hurtownie danych i systemy wspomagania decyzji. Olaf Morawski Hewlett-Packard Polska Sp. z o.o., ul. Szturmowa 2A, Warszawa

Hurtownie danych - przegląd technologii

Baza danych. Modele danych

1. Ewolucja systemów opartych na bazach danych 2. Czym się rożni modelowanie od strukturalizacji danych? Model danych Struktury (danych)

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Kasy Fiskalne Lublin Analityk

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

OPIS PRZEDMIOTU ZAMÓWIENIA

SAS OLAP Cube Studio Wprowadzenie

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

Microsoft Excel 2013: Budowanie modeli danych przy użyciu PowerPivot

Zajęcia prowadzone przez MCT, auditora wiodącego systemów bezpieczeństwa informacji.

Transkrypt:

Hurtownie danych 1 Problematyka hurtowni danych Wykład przygotował: Robert Wrembel ZSBD wykład 12 (1) 1

Plan wykładu Problematyka integracji danych Integracja danych za pomocą hurtowni danych Przetwarzanie analityczne OLAP Model wielowymiarowy Implementacje modelu wielowymiarowego ROLAP MOLAP ZSBD wykład 12 (2) Celem niniejszego wykładu jest wprowadzenie do zagadnień integracji danych i technologii hurtowni danych. W ramach wykładu zostaną omówione następujące zagadnienia: - wprowadzenie do problematyki integracji rozproszonych i heterogenicznych baz danych, - podstawowa architektura integracji danych oparta o hurtownię danych, - wprowadzenie i charakterystyka przetwarzania analitycznego (On-Line Analytical Processing - OLAP), - wielowymiarowy model danych, - implementacja modelu wielowymiarowego w serwerach relacyjnych (ROLAP) i wielwymiarowych (MOLAP). 2

Cechy systemów informatycznych Składowanie, przetwarzanie i zapewnienie efektywnego dostępu do danych w przedsiębiorstwie Akutalny stan technologiczny systemów informatycznych heterogeniczność rozproszenie Heterogeniczność wielość struktur danych róŝna funkcjonalność róŝne modele danych Rozproszenie dane są rozmieszczone w geograficznie róŝnych lokalizacjach ZSBD wykład 12 (3) Głównym zadaniem systemów informatycznych jest przyspieszenie i ułatwienie pracy poprzez efektywny dostęp, przetwarzanie i składowanie danych. Dane gromadzone przez firmy i instytucje są często przechowywane w heterogenicznych i rozproszonych systemach informatycznych. Heterogeniczność oznacza, Ŝe systemy posiadają róŝne struktury, funkcjonalność i wykorzystują róŝne modele danych (np. hierarchiczne, relacyjne, obiektowe, semistrukturalne), przechowują dane w dokumentach tekstowych, czy arkuszach kalkulacyjnych. Często nawet w ramach tej samej instytucji wykorzystuje się róŝne systemy informatyczne. Dodatkowym problemem w dostępie do informacji jest geograficzne rozproszenie źródeł danych. 3

Problematyka integracji danych FoxPro DB2 Excel aplikacje operacyjne Access XML heterogeniczność i rozproszenie źródeł Oracle plik ZSBD wykład 12 (4) Problematykę integracji danych ilustruje niniejszy slajd. 4

SI we wspomaganiu zarządzaniem Wspomaganie zarządzaniem bazują na analizie danych Dane opisują bieŝący stan i historię działania firmy Analizie powinny podlegać moŝliwie wszystkie dane opisujące analizowany fragment działalności firmy Problem dane są składowane w systemach heterogenicznych dane są składowane w systemach rozproszonych nieefektywny dostęp i analiza danych Rozwiązanie integracja danych na platformie hurtowni danych ZSBD wykład 12 (5) Racjonalizacja działania firm i instytucji wymaga stosowania procesów wspomagania decyzji kadry zarządzającej. Procesy wspomagania decyzji bazują na danych analitycznych opisujących bieŝący stan i historię działania danej firmy. Programowe narzędzia analityczne, na podstawie danych elementarnych będących wynikiem pracy pojedynczych pracowników, powinny udostępniać informacje statystyczne o bieŝącym stanie firmy, występujących trendach i korelacjach między róŝnymi czynnikami. Dzięki szybkiej analizie bazującej na pełnej i aktualnej informacji o stanie firmy, kadra zarządzająca moŝe podejmować trafniejsze decyzje o strategicznym znaczeniu dla rozwoju danego przedsiębiorstwa. W celu zapewnienia decydentom pełnego dostępu do heterogenicznych i rozproszonych danych, buduje się systemy integrujące. Jedną z najczęściej stosowanych technik integracji danych jest ich transformacja do wspólnego modelu i składowanie w centralnym systemie, zwanym hurtownią (magazynem) danych (ang. data warehouse). 5

Hurtownia danych Bardzo duŝa baza danych (dziesiątki, setki TB) Charakterystyka: dane są wyłącznie odczytywane przez uŝytkowników zawiera dane historyczne i bieŝące zawiera dane zagregowane na wielu poziomach zawartość jest zorientowana tematycznie ZSBD wykład 12 (6) Hurtownia danych jest bardzo duŝą bazą danych (często rzędu dziesiątek czy setek terabajtów). Hurtownia danych posiada następującą charakterystykę: - dane w niej składowane nie są modyfikowane przez uŝytkowników, są natomiast wyłącznie przez nich odczytywane, - zawiera wszystkie dane historyczne i bieŝące, - zawiera dane zagregowane na wielu poziomach szczegółowości, - zawartość hurtowni jest zorientowana tematycznie, np. hurtownia danych nt. ruchu telefonicznego i opłat klientów sieci komórkowej, hurtownia danych nt. sprzedaŝy pojazdów. 6

Systemy komercyjne Oracle8i, Oracle9i, Oracle10g Oracle Corporation, DB2 UDB IBM, SybaseIQ Sybase, Inc., SAS Enterprise BI Server - SAS Institute MS SQL Server Microsoft, SAP Business Warehouse SAP, Adabas C i Adabas D Software AG, Teradata NCR Corporation, Hyperion Essbase OLAP Server Hyperion Solutions Corporation Red Brick Warehouse Red Brick Systems ZSBD wykład 12 (7) 7

Podstawowa architektura HD ŹRÓDŁA DANYCH WARSTWA POŚREDNIA OPROGRAMOWANIE ETL HURTOWNIA DANYCH APLIKACJE ANALITYCZNE Raporty Ekstrakcja Transformacja Czyszczenie Agregacja HURTOWNIA DANYCH Hurtownie tematyczne Analizy finansowe i statystyczne ZSBD wykład 12 (8) Podstawową poglądową architekturę hurtowni danych przedstawiono na slajdzie. Heterogeniczne i rozproszone źródła danych zasilają hurtownię danymi za pośrednictwem warstwy oprogramowania ETL. Jego podstawowymi zadaniami są wykrywanie zmian w źródłach, transformacja danych do wspólnej postaci, uspójnianie i czyszczenie danych, agregowanie danych. Uspójnione dane są następnie ładowane do centralnej hurtowni danych. Centralna hurtownia danych najczęściej zawiera dane dla wszystkich grup decydentów. Ze względu na ilość danych, wygodniej jest zbudować na bazie hurtowni centralnej, małe hurtownie tematyczne (ang. data marts), zawierające dane opisujące wąskie dziedziny funkcjonowania firmy. Taka hurtownia tematyczna zawiera często dane na jeszcze wyŝszym poziomie agregacji niŝ hurtownia centralna. Przykładowo, hurtownia danych nt. ruchu telefonicznego i opłat klientów sieci komórkowej moŝe posłuŝyć do zbudowania dwóch data marts opisujących odpowiednio natęŝenie ruchu telefonicznego w ciągu dnia i ranking klientów ze względu na płacone rachunki. Na hurtowni danych pracują tzw. aplikacje analityczne wspomagania decyzji (ang. decision support), czy odkrywania wiedzy (ang. data mining), których celem jest wspomaganie pracy kadry zarządzającej poprzez analizę trendów, anomalii, poszukiwanie reguł zachowań. 8

Oprogramowanie ETL HURTOWNIA DANYCH integrator konwerter monitor k m k m k m k m DB2 Access plik XML Excel źródło źródło źródło źródło źródło ZSBD wykład 12 (9) Oprogramowanie ETL (Extraction Translation Loading) realizuje tzw. procesy ETL, składające się z trzech następujących faz: - odczytu danych ze źródeł (Extraction), - transformacji ich do wspólnego modelu wykorzystywanego w magazynie wraz z usunięciem wszelkich niespójności (Translation), - wczytanie danych do magazynu (Loading). Na slajdzie przedstawiono podstawowe komponenty oprogramowania ETL. Obiekty oznaczone jako źródło reprezentują heterogeniczne i rozproszone źródła danych. Z kaŝdym z takich źródeł jest związana dedykowana dla niego warstwa oprogramowania o nazwie konwerter/monitor. Zadaniem modułu konwertera jest transformowanie danych z formatu wykorzystywanego w źródle, do formatu wykorzystywanego w hurtowni. Dlatego, dla kaŝdego modelu danych źródłowych konieczne jest zastosowanie specyficznego modułu konwertera. Przykładowo, jeśli źródło przechowuje dane w dokumentach tekstowych, a hurtownia została zaprojektowana z wykorzystaniem modelu relacyjnego, to konwerter musi zapewnić poprawne odwzorowanie danych z plików w struktury modelu relacyjnego. Zadaniem modułu monitora jest wykrywanie zmian w danych źródłowych i ich przekazywanie do warstwy oprogramowania integratora (po uprzedniej konwersji do modelu danych hurtowni). Sposób wykrywania zmian w danych źródłowych zaleŝy od własności samych źródeł. 9

Wykrywanie zmian w źródłach Źródła aktywne Źródła utrzymujące dzienniki operacji Źródła przepytywalne Źródła wspierające migawki ZSBD wykład 12 (10) WyróŜnia się cztery następujące rodzaje źródeł danych: - aktywne (ang. active sources), - utrzymujące dzienniki operacji wykonywanych na danych źródłowych (ang. logged sources), - przepytywalne (ang. queryable sources), - wspierające mechanizm migawek (ang. snapshot sources). Źródła aktywne posiadają zaimplementowane mechanizmy wyzwalaczy, które informują monitor o zmianach zachodzących w danych źródłowych. W źródłach utrzymujących dzienniki operacji zmiany są wykrywane poprzez analizę zawartości dziennika w module monitora. Źródła przepytywalne umoŝliwiają wydawanie zapytań i w celu wykrycia zmian w danych źródłowych monitor okresowo wydaje zapytania do takich źródeł. Źródła wspierające mechanizm migawek umoŝliwiają tworzenie migawek, czyli obrazów stanu źródła z określonego momentu. Porównanie migawek z kolejnych momentów umoŝliwia wykrycie zmian. 10

Przetwarzanie analityczne OLAP (1) Aplikacje analityczne wspomagania decyzji eksploracji danych Zorientowane na wspieranie procesów decyzyjnych wykonywanie zaawansowanych analiz, wspomagających zarządzanie przedsiębiorstwem, np. analiza trendów sprzedaŝy analiza nakładów reklamowych i zysków analiza ruchu telefonicznego ZSBD wykład 12 (11) Na hurtowni danych pracują tzw. aplikacje analityczne wspomagania decyzji (ang. decision support), czy eksploracji danych (ang. data mining). Aplikacje analityczne (ang. On-Line Analytical Processing - OLAP) są zorientowane na wspieranie procesów decyzyjnych, czyli przetwarzanie danych historycznych i zagregowanych. Przykładami takich zapytań mogą być: Jaki jest trend sprzedaŝy towarów z branŝy AGD w ostatnich kilku tygodniach? Jaki jest rozkład sprzedaŝy lodówek w województwie wielkopolskim? 11

Przetwarzanie analityczne OLAP (2) Operacje łączenia (kilka, kilkanaście, kilkadziesiąt tabel), filtrowania, agregowania (np. suma, średnia) Dostęp do ogromnych wolumenów danych (miliony, dziesiątki, setki milionów rekordów) Czas realizacji zapytań analitycznych: godziny, dziesiątki godzin Problem efektywności, czasu odpowiedzi na zapytanie OLAP ZSBD wykład 12 (12) Jak wspomniano, większość operacji realizowanych przez aplikacje analityczne obejmuje złoŝone zapytania wykorzystujące łączenie wielu tabel, filtrowanie, agregowanie, operujące na milionach rekordów. W konsekwencji, czasy przetwarzania danych sięgają nawet dziesiątków godzin. Kluczowym parametrem efektywności tego typu systemów jest czas odpowiedzi na zapytania analityczne. 12

Wielowymiarowy model danych (1) Dane zorganizowane w postaci wielowymiarowego modelu danych (ang. Multidimensional Data Model) fakty wymiary Fakty informacje podlegające analizie sprzedaŝ, rozmowy telefoniczne, ubezpieczenia charakteryzowane ilościowo za pomocą miar liczba sprzedanych sztuk towaru, czas trwania rozmowy, kwota ubezpieczenia ZSBD wykład 12 (13) Dane w magazynie są zorganizowane w postaci tzw. modelu wielowymiarowego (ang. multidimensional data model), w którym wyróŝnia się dwie podstawowe kategorie danych, tj. fakty i wymiary. Fakty (ang. facts) reprezentują informacje podlegające analizie, np. fakt sprzedaŝy produktu, fakt wykonania rozmowy telefonicznej, fakt ubezpieczenia pojazdu. Fakty są charakteryzowane ilościowo za pomocą cech zwanych miarami (ang. measures). Przykładowo, miarą jest liczba zakupionych produktów, czas trwania rozmowy, kwota ubezpieczenia. 13

Wielowymiarowy model danych (2) LOKALIZACJA województwa miasta Wymiary ustalają kontekst analizy sprzedaŝ czekolady (produkt) w Auchan (sklep) w poszczególnych miesiącach roku (czas) składają się z poziomów, które tworzą hierarchię zaleŝności hierarchiczne między poziomami tworzą tzw. strukturę wymiaru Poznań sklepy Auchan Selgros ZSBD wykład 12 (14) Wymiary (ang. dimensions) ustalają kontekst analizy. Przykładowo, analiza sprzedaŝy czekolady w Auchan, w poszczególnych miesiącach roku jest dokonywana w wymiarze Produktu, Sklepu i Czasu. Inne typowe wymiary to Lokalizacja lub Klient. Wymiary składają się z poziomów, które tworzą hierarchie. Jako przykład moŝna podać wymiar Lokalizacja złoŝony z trzech następujących poziomów: Sklepy, Miasta i Województwa. Wymiar ten ustala hierarchię, w której sklepy naleŝą do miast, a miasta do województw. 14

Implementacje wielowymiarowego MD ROLAP - implementacja w serwerach relacyjnych fakty przechowywane w tabelach faktów wymiary przechowywane w tabelach wymiarów MOLAP - implementacja w serwerach wielowymiarowych dane przechowywane w wielowymiarowych tabelach (ang. data cubes), zwanych potocznie kostkami HOLAP - implementacja hybrydowa (relacyjnowielowymiarowa) dane elementarne przechowywane w tabelach dane zagregowane przechowywane w kostkach ZSBD wykład 12 (15) Model wielowymiarowy moŝe być implementowany albo w serwerach relacyjnych (tzw. ROLAP) albo w serwerach wielowymiarowych (tzw. MOLAP). W pierwszym przypadku, dane są składowane w tabelach relacyjnych. W drugim przypadku, są one składowane w wielwymiarowych tablicach. Często w tej samej bazie danych reprezentuje się informacje częściowo w implementacji ROLAP, a częściowo w MOLAP. Taki sposób reprezentacji nazywa się hybrydowym HOLAP (ang. Hybrid OLAP). 15

Implementacja ROLAP Schematy podstawowe gwiazda (ang. star schema) płatek śniegu (ang. snowflake schema) Schematy pochodne konstelacja faktów (ang. fact constellation schema) gwiazda-płatek śniegu (ang. starflake schema) ZSBD wykład 12 (16) Magazyn danych w technologii ROLAP jest implementowany w postaci tabel, których schemat posiada najczęściej strukturę gwiazdy (ang. star schema) lub płatka śniegu (ang. snowflake schema) lub konstelacji faktów (ang. fact constellation schema) lub strukturę gwiazda płatek śniegu (ang. starflake schema). 16

Schemat gwiazdy ZSBD wykład 12 (17) Przykładowy schemat gwiazdy przedstawia slajd. Centralna tabela SprzedaŜ zawiera informacje o sprzedaŝy pewnych produktów, w pewnych sklepach, w określonym czasie. Tabele Sklepy, Produkty i Czas są nazywane tabelami wymiarów (ang. dimension tables), natomiast tabela centralna jest nazywana tabelą faktów (ang. fact table). Atrybuty miar tabeli SprzedaŜ to wartość i l_sztuk. Tabela faktów zawiera równieŝ atrybuty produkt_id, sklep_id, data. Są to klucze obce, których wartości wskazują na odpowiednie wymiary. W takim schemacie tabele wymiarów, tj. Sklepy, Produkty i Czas są zdenormalizowane (nie spełniają przynajmniej 3 postaci normalnej). 17

Schemat płatka śniegu ZSBD wykład 12 (18) Jeśli wymiary są znormalizowane (spełniają przynajmniej 3 postać normalną), wówczas schemat magazynu danych ma postać płatkaśniegu. Przykładowy schemat o takiej strukturze został przedstawiony na slajdzie. W tym przypadku, wymiary Lokalizacja, Produkty i Czas mają postać hierarchii. Przykładowo, wymiarze Lokalizacja kaŝdy sklep (tabela Sklepy) znajduje się w mieście (tabela Miasta), które z kolei znajduje się w województwie (tabela Województwa). Podobnie, w wymiarze produktów istnieje jawna hierarchia, w której produkty naleŝą do rodzajów, a rodzaje do kategorii. 18

Zaawansowane systemy baz danych - ZSBD Schemat gwiazda-płatek śniegu ZSBD wykład 12 (19) Natomiast schemat, w którym część wymiarów ma postać znormalizowaną, a część ma postać zdenormalizowaną nazywa się schematem gwiazdy płatka śniegu. Na slajdzie przedstawiono taki przykładowy schemat. W schemacie tym wymiar Lokalizacja jest znormalizowany, a pozostałe dwa wymiary są zdenormalizowane. 19

Zaawansowane systemy baz danych - ZSBD Schemat konstelacji faktów ZSBD wykład 12 (20) Schemat gwiazdy lub płatka śniegu, w którym ten sam wymiar jest powiązany z wieloma tabelami faktów nazywa się schematem konstelacji faktów. Na slajdzie przedstawiono przykładowy schemat konstelacji faktów, w którym tabele faktów SprzedaŜ i Reklama współdzielą wymiary Produkty i Czas. W praktyce, ze względów efektywnościowych najczęściej stosuje się schematy gwiazdy lub gwiazdy płatka śniegu. 20

Implementacja MOLAP ZSBD wykład 12 (21) Hurtownia danych zaprojektowana w technologii MOLAP do przechowywania danych najczęściej wykorzystuje wielowymiarowe tablice (ang. multidimensional arrays, datacubes). Tablice te zawierają wstępnie przetworzone (m.in. zagregowane) dane pochodzące z wielu źródeł. Przykładowa wielowymiarowa tablica została przedstawiona na slajdzie. Zawiera ona trzy wymiary: Lokalizacja, Czas i Samochód. Komórki tablicy zawierają zagregowane informacje o sprzedaŝy wybranych samochodów (BMW, Audi, Ford) w poszczególnych latach (1995, 1996, 1997), w wybranych miastach (Poznań, Kraków, Warszawa). NaleŜy wspomnieć, Ŝe od strony implementacyjnej dane wielowymiarowe mogą być przechowywane nie tylko w wielowymiarowych tablicach. SZBD Oracle9i/10g do przechowywania danych wielowymiarowych wykorzystuje duŝe obiekty binarne (BLOB), a SQL Server2005 wykorzystuje tablice haszowe. Znane są równieŝ implementacje z wykorzystaniem struktur drzewiastych takich jak Quad-drzewa czy K-D-drzewa. 21

Operatory MOLAP (1) Wyznaczanie punktu centralnego (określanie kostki) wskazanie miary wskazanie wymiarów, w których miara będzie prezentowana ZSBD wykład 12 (22) Analizę danych wielowymiarowych wspomagają specjalne operatory/operacje omówione na kolejnych slajdach. Pierwszym z nich jest wyznaczanie punktu centralnego (ang. pivoting). Pivot polega na wskazaniu miary i określeniu wymiarów, w których wybrana miara będzie prezentowana. Przykładowo, w wymiarach Samochód, Miasto i Czas moŝe być prezentowana liczba sprzedanych sztuk samochodu (miara). 22

Operatory MOLAP (2) Rozwijanie ZSBD wykład 12 (23) Kolejną operacją jest rozwijanie (ang. drillng down). Rozwijanie polega na zagłębianiu się w hierarchię danego wymiaru w celu przeprowadzenia bardziej szczegółowej analizy danych. Jako przykład rozwaŝmy informacje o sprzedaŝy samochodów BMW, Audi, Ford, w latach 95, 96 i 97, w poszczególnych miastach. W celu dokonania analizy sprzedaŝy w poszczególnych miesiącach roku 1997 naleŝy rozwinąć hierarchię reprezentującą Czas. 23

Operatory MOLAP (3) Zwijanie ZSBD wykład 12 (24) Kolejną operacją jest zwijanie (ang. rolling up). Zwijanie jest operacją odwrotną do rozwijania i polega na nawigowaniu w górę hierarchii danego wymiaru. Dzięki tej operacji moŝna przeprowadzać analizę danych zagregowanych na wyŝszym poziomie hierarchii wymiarów. Przykład na slajdzie ilustruje operację zwijania w wymiarze Lokalizacja. W tym przypadku, dane o sprzedaŝy przez dealerów z tego samego miasta są agregowane do sprzedaŝy w mieście, w którym ci dealerzy są zlokalizowani. 24

Operatory MOLAP (4) Obracanie ZSBD wykład 12 (25) Kolejnym operatorem jest obracanie (ang. rotating). Operacja obracania umoŝliwia prezentowanie danych w róŝnych układach. Celem jej jest zwiększenie czytelności analizowanych informacji. 25

Operacje MOLAP (5) Wycinanie ZSBD wykład 12 (26) Ostatnią operacją modelu wycinanie (ang. slicing and dicing). Operacja ta umoŝliwia zawęŝenie analizowanych danych do wybranych wymiarów, a w ramach kaŝdego z wymiarów zawęŝenie analizy do konkretnych jego wartości. Przykładowo, dyrektor do spraw marketingu będzie zainteresowany wielkością sprzedaŝy wszystkich produktów, we wszystkich miastach kraju, w wybranym roku. Natomiast kierownika oddziału firmy w Poznaniu będzie interesowała wielkość sprzedaŝy wszystkich produktów, w ciągu całego okresu działalności. W przykładzie ze slajdu z kostki zostaje wycięty "plaster" opisujący sprzedaŝ samochodów BMW, Audi, Ford, w miastach Poznań, Kraków, Warszawa w roku 1997. 26