realizowanych przez nich wybranych, rutynowych działań. przelewu na kontach bankowych. Działania te charakteryzuje ściśle określona procedura

Podobne dokumenty
Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Hurtownie danych - przegląd technologii

Hurtownie danych. 31 stycznia 2017

Modele danych - wykład V

Wielowymiarowy model danych

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

OLAP i hurtownie danych c.d.

Zaawansowane systemy baz danych - ZSBD. Hurtownie danych 1. Problematyka hurtowni danych. Wykład przygotował: Robert Wrembel. ZSBD wykład 12 (1)

Plan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Hurtownie danych a transakcyjne bazy danych

Hurtownie danych wykład 3

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Bazy danych 2. Wykład 1

Wykład I. Wprowadzenie do baz danych

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Informatyzacja przedsiębiorstw

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Business Intelligence

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

Informatyzacja przedsiębiorstw

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Część I Istota analizy biznesowej a Analysis Services

Technologia informacyjna (IT - Information Technology) dziedzina wiedzy obejmująca:

Plan. Wprowadzenie. Co to jest APEX? Wprowadzenie. Administracja obszarem roboczym

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Pojęcie bazy danych. Funkcje i możliwości.

Pojęcie systemu baz danych

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PROJEKT WSPÓŁFINANSOWANY ZE ŚRODKÓW UNII EUROPEJSKIEJ W RAMACH EUROPEJSKIEGO FUNDUSZU SPOŁECZNEGO OPIS PRZEDMIOTU. Rozproszone Systemy Baz Danych

LITERATURA. C. J. Date; Wprowadzenie do systemów baz danych WNT Warszawa 2000 ( seria Klasyka Informatyki )

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Wstęp do Business Intelligence

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Hurtownie danych - przegląd technologii

Modelowanie hurtowni danych

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Definicja bazy danych TECHNOLOGIE BAZ DANYCH. System zarządzania bazą danych (SZBD) Oczekiwania wobec SZBD. Oczekiwania wobec SZBD c.d.

Bazy danych i ich aplikacje

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Baza danych. Modele danych

Bazy danych Wykład zerowy. P. F. Góra

Co to jest Business Intelligence?

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

Spis treści. Przedmowa

Alicja Marszałek Różne rodzaje baz danych

Wprowadzenie do hurtowni danych

Spis tre±ci. Przedmowa... Cz ± I

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

LITERATURA. Wprowadzenie do systemów baz danych C.J.Date; WNT Warszawa 2000

Monitoring procesów z wykorzystaniem systemu ADONIS

SZKOLENIE: Administrator baz danych. Cel szkolenia

Rozdział 1 Wprowadzenie do baz danych. (c) Instytut Informatyki Politechniki Poznańskiej 1

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Systemy GIS Systemy baz danych

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Kasy Fiskalne Lublin Analityk

4. Znaczenie czasu w modelowaniu i strukturalizacji danych

Hurtownie danych w praktyce

Stawiamy na specjalizację. by CSB-System AG, Geilenkirchen Version 1.1

Architektury i technologie integracji danych

Informatyka I BAZY DANYCH. dr inż. Andrzej Czerepicki. Politechnika Warszawska Wydział Transportu 2017

Bazy analityczne (hurtownie danych, bazy OLAP)

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl

Oracle11g: Wprowadzenie do SQL

Technologia informacyjna

Problematyka hurtowni danych

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

INTERNETOWE BAZY DANYCH materiały pomocnicze - wykład X

Systemy rozproszone. na użytkownikach systemu rozproszonego wrażenie pojedynczego i zintegrowanego systemu.

WPROWADZENIE DO BAZ DANYCH

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

OPIS PRZEDMIOTU ZAMÓWIENIA

"Kilka słów" o strojeniu poleceń SQL w kontekście Hurtowni Danych wprowadzenie. Krzysztof Jankiewicz

Część I Rozpoczęcie pracy z usługami Reporting Services

Bazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000

Schematy logiczne dla hurtowni danych

Diagramy związków encji. Laboratorium. Akademia Morska w Gdyni

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Pierwsze wdrożenie SAP BW w firmie

Integracja systemów transakcyjnych

Transkrypt:

Next-Generation Database Technology Magazyny i technologia OLAP Opracował Z. Królikowski na podstawie materiałów T. Morzego, T.Koszlajdy, M. Matysiaka, R. Wrembela Literatura: 1. T. Koszlajda, Technologia magazynów, w: Materiały II Kraj. Szkoły PLOUG 97, Zakopane. 2. M. Matysiak, Technologia OLAP, w: Materiały II Krajowej Szkoły PLOUG 97, Zakopane. 3. R. Wrembel, Dane hurtowo, Informatyka, nr.10, 1998 4. T. Morzy, Eksploracja a bazy, Materiały III Krajowej Szkoły PLOUG 98, Zakopane. 5. Chaudhuri S., U. Dayal, An Overview of Data Warehousing and OLAP Technology, SIGMOD Record, Vol. 26, No. 1, March 1997. 6. Codd E.F., S.B. Codd, C.T. Salley, Providing to User-Analysts: An IT Mandate, Arbor Software s web site, http://www.arborsoft.com/olap.html. 7. Widom J., Research Problems in Data Warehousing, Proceedings 4 th Intern. CIKM Conference, 1995. 8. Http:// www.olapcouncil.org Magazyny i technologia OLAP Z. Królikowski 1 Ad 2) Racjonalizacja działania całych firm - w wyniku wspomagania decyzji kadry zarządzającej - przez dostarczenie analitycznych opisujących bieżący stan i historię działania danej firmy. Programowe narzędzia analityczne - udostępnianie informacji statystycznych o bieżącym stanie firmy, występujących trendach itp. Korzyści: trafniejsze decyzje o strategicznym znaczeniu dla rozwoju danego przedsiębiorstwa. Sposób w jaki użytkownik korzysta z bazy (w jaki realizuje do niej dostęp) nazywamy modelem przetwarzania Magazyny i technologia OLAP Z. Królikowski 3 Informatyzacja firm, instytucji i innych jednostek organizacyjnych powinna realizować dwa podstawowe cele: Usprawnienie pracy pojedynczego pracownika Racjonalizacja działania całych firm Ad 1) Usprawnienie pracy pojedynczego pracownika: sprzedawcy, magazyniera, księgowego lub urzędnika - poprzez automatyzację realizowanych przez nich wybranych, rutynowych działań. Przykłady takich działań: wprowadzanie zamówień, wydawanie lub przyjmowanie towaru, realizacja sprzedaży, rezerwacja miejsc lub operacja przelewu na kontach bankowych. Działania te charakteryzuje ściśle określona procedura postępowania i cykliczna powtarzalność Magazyny i technologia OLAP Z. Królikowski 2 Aplikacje operacyjne systemu informatycznego Cel: wspomaganie pracy pojedynczych pracowników Charakterystyka: proste przetwarzanie, działania na niewielkich zbiorach szczegółowych, realizacja prostych operacji odczytu, wstawiania, modyfikacji i usuwania. Modelem przetwarzania właściwym dla tej kategorii aplikacji jest tak zwane przetwarzanie transakcyjne (ang. On-line Transaction Processing - OLTP). Główne cele tej technologii: zapewnienie spójności, wysoka wydajność systemów pracujących w środowisku wielodostępnym, Krytycznym parametrem efektywnościowym takich systemów jest ich przepustowość, mierzona liczbą transakcji w jednostce czasu. Magazyny i technologia OLAP Z. Królikowski 4

Aplikacje analityczne systemu informatycznego Cel: wspomaganie pracy kadry zarządzającej Charakterystyka: dużo większa złożoność przetwarzania niż aplikacji operacyjnych zorientowanie na wspieranie procesów decyzyjnych (przetwarzanie historycznych, zagregowanych i często skonsolidowanych z wielu źródeł : relacyjnych i obiektowych baz, arkuszy kalkulacyjnych, itp.) realizacja złożonych zapytań wymagających dostępu do milionów krotek (tysiące gigabajtów), wielu operacji połączenia, grupowania i agregowania oraz filtrowania przykłady takich zapytań: Jaka jest sprzedaży produktów w supermarkecie w kolejnych kwartałach, miesiącach itp.? Jaka jest sprzedaż produktów z podziałem na rodzaje produktów (AGD, produkty spożywcze, kosmetyki, itp.) Magazyny i technologia OLAP Z. Królikowski 5 Aplikacje analityczne - podsumowanie Przetwarzanie w aplikacjach analitycznych: operacje odczytu dużych wolumenów, przetwarzanych następnie przez złożone funkcje analityczne, proces analizy jest całkowicie sterowany przez użytkownika mówimy o analizie sterowanej zapytaniami (ang. querydriven exploration) odpowiedzi na takie zapytania umożliwiają decydentom określenie wąskich gardeł sprzedaży, produktów przynoszących deficyt, itp. Efektywność takich systemów: mierzona czasem odpowiedzi Magazyny i technologia OLAP Z. Królikowski 7 Aplikacje analityczne - podsumowanie Modelem przetwarzania właściwym dla tej kategorii aplikacji jest przetwarzanie analityczne (ang. On-line Analytical Processing - OLAP) - ma za zadanie wspieranie procesów analizy dostarczając narzędzi umożliwiających taką analizę w wielu wymiarach definiowanych przez użytkowników (czas, miejsce, klasyfikacja produktów, itp.). OLAP weryfikacja hipotez Analiza zgodnie z modelem OLAP, jest całkowicie sterowana przez analityka. Analityk formułuje zapytania i dokonuje analizy. Z tego punktu widzenia, OLAP można interpretować jako rozszerzenie standardu SQL o możliwości efektywnego przetwarzania złożonych zapytań zawierających agregaty. Magazyny i technologia OLAP Z. Królikowski 6 Problemy realizacji systemów OLAP Komercyjnie dostępne systemy transakcyjne (systemy zarządzania mi SZBD) dostarczają efektywnych rozwiązań dla takich problemów jak: efektywne i bezpieczne przechowywanie, transakcyjne odtwarzanie, dostępność, optymalizacja dostępu do, zarządzanie współbieżnością. W znacznie mniejszym stopniu systemy te wspomagają operacje agregacji, wykonywania pewnych podsumowań czy też optymalizacji złożonych zapytań formułowanych ad hoc. Systemy te w niewielkim stopniu wspomagają również integrację z różnych heterogenicznych źródeł. Magazyny i technologia OLAP Z. Królikowski 8

Problemy realizacji systemów OLAP Aby przeprowadzić analizę dla wspomagania decyzji, należy dysponować odpowiednimi danymi opisującymi działalność przedsiębiorstwa. Bardzo rzadko informacje te są dostępne w jednej bazie. Z reguły, są one rozproszone po wielu oddziałowych, rozproszonych geograficznie i heterogenicznych ch. Typowy stan informatyzacji firm, instytucji: heterogeniczność eksploatowanych systemów - uniemożliwia to bezpośredni dostęp do wszystkich określających kondycję danej firmy K lie n t K lient Magazyny i technologia OLAP Z. Królikowski 9 Problemy realizacji systemów OLAP Problem integracji heterogenicznych i rozproszonych systemów informatycznych W ciągu kilku ostatnich lat problem przygotowywania aplikacji realizujących dostęp do heterogenicznych źródeł, które są fizycznie rozproszone, zarządzane przez niezależne SZBD, próbowano rozwiązywać na kilka sposobów: konwersja i migracja ze starych, zamkniętych systemów do nowych systemów; wykorzystanie tzw. bramek pomiędzy różnymi systemami baz (ang. DB gateways) koncepcja sfederowanych systemów baz Magazyny i technologia OLAP Z. Królikowski 11 Problemy realizacji systemów OLAP Stąd, opracowując koncepcję systemu wspomagania podejmowania decyzji należy odpowiedzieć na dwa zasadnicze pytania odnośnie architektury takiego systemu i modelu przetwarzania. 1. Czy analiza powinna mieć charakter rozproszony czy scentralizowany, innymi słowy, czy dane należy zgromadzić i przetwarzać w jednym miejscu w sposób scentralizowany, czy też korzystając z mechanizmu transakcji rozproszonych można przetwarzać dane w sposób rozproszony. 2. Drugie pytanie dotyczy koegzystencji dwóch systemów systemu bieżącej obsługi działania przedsiębiorstwa oraz systemu wspomagania podejmowania decyzji. Oba systemy operują na tych samych, stąd pytanie, czy oba modele OLAP i OLTP mogą współistnieć w tym samym systemie bazy, czy też powinny funkcjonować niezależnie. Magazyny i technologia OLAP Z. Królikowski 10 Czy w celu integracji heterogenicznych i rozproszonych systemów informatycznych można wykorzystać koncepcje sfederowanych systemów baz? Klient Klient Integrator Meta dane Konwerter Konwerter Konwerter Architektura sfederowanych baz Magazyny i technologia OLAP Z. Królikowski 12

Ocena technologii sfederowanych systemów baz Idea sfederowanych systemów baz nie zakończyła się sukcesem Nie powstały żadne rozpowszechnione systemy komercyjne oparte na tej technologii Część rozwiązań składających się na tę technologię zostało jednak wykorzystana w produktach komercyjnych i standardach - pomosty i platformy integracyjne: ODBC (ang. Open Database Connectivity), TUXEDO i CORBA (ang. Common Object Request Broker Architecture), DCE (ang. Distributed Computing Environment) i ODP (ang. Open Distributed Processing). Magazyny i technologia OLAP Z. Królikowski 13 Problemy realizacji systemów OLAP - cd. Wnioski: analiza powinna mieć charakter scentralizowany, a modele OLAP i OLTP powinny funkcjonować niezależnie. Oczywiście, odpowiedź na pytania o architekturę i model przetwarzania jest uzależniona od aktualnego stanu rozwoju technologii informatycznej. Ze względu na charakter i pracochłonność obliczeń, częściowo również ze względu na problem autoryzacji dostępu do, analiza jest aktualnie prowadzona w sposób scentralizowany. Wraz z rozwojem sieci komputerowych, wzrostem prędkości transmisji, należy się jednak spodziewać przechodzenia od modelu przetwarzania analitycznego scentralizowanego do modelu przetwarzania analitycznego rozproszonego. Magazyny i technologia OLAP Z. Królikowski 15 Problemy realizacji systemów OLAP - cd. Odmienność charakterystyki przetwarzania OLTP i OLAP powoduje, że rozwiązania dostępne w standardowych systemach baz są nieprzydatne do eksploatacji aplikacji analitycznych Równoczesna eksploatacja aplikacji operacyjnych i analitycznych w środowisku tego samego systemu bazy, musi prowadzić do niskiej efektywności działania całego systemu informatycznego. Aplikacje operacyjne Aplikacje analityczne Baza Magazyny i technologia OLAP Z. Królikowski 14 Magazyn - koncepcja i architektura W ostatnim czasie prace badawcze i rozwojowe prowadzone w ramach powyższych problemów doprowadziły do opracowania nowego typu relacyjnej bazy nazwanego magazynem (ang. data warehouse). Magazyny, są tematycznie zorientowanymi, zintegrowanymi, zmiennymi w czasie, nie ulotnymi zbiorami, wykorzystywanymi w organizacjach głównie do przetwarzania analitycznego i podejmowania decyzji Magazyny są niezależne od operacyjnych baz, na których działają aplikacje OLTP Magazyny i technologia OLAP Z. Królikowski 16

Magazyn - koncepcja i architektura Uzasadnienie konieczności budowy magazynów dla przetwarzania analitycznego: 1. procesy decyzyjne wymagają, na przykład o trendach, których może nie być w operacyjnych ch 2. procesy decyzyjne wymagają dostępu do skonsolidowanych pochodzących z wielu heterogenicznych źródeł, które mogą używać niezgodnych formatów i niezgodnego kodowania 3. operacje typowe dla systemów OLAP wymagają specjalnego składowania, odpowiednich struktur i metod dostępu do, których nie stosuje się w tradycyjnych, komercyjnych systemach zarządzania mi (ang. DBMS). Magazyny i technologia OLAP Z. Królikowski 17 Koncepcja magazynu - cd. Problem konstrukcji magazynu wiąże się z problemem magazynowania (ang. data warehousing). Magazynowanie jest procesem zbierania i przetwarzania z różnych, heterogenicznych i rozproszonych źródeł w celu uzyskania jednolitego obrazu części bądź całości działalności danego przedsiębiorstwa. Magazyny i technologia OLAP Z. Królikowski 19 Magazyn - rozdzielenie przetwarzania operacyjnego i analitycznego Klient Klient Magazyn OLAP OLTP Magazyny i technologia OLAP Z. Królikowski 18 Struktura magazynu W magazynie przechowywane są następujące kategorie : dane elementarne pozyskane bezpośrednio ze źródłowych heterogenicznych baz (wykonanych w różnych technologiach), jak i ze źródeł innych niż bazy, np. arkusze kalkulacyjne, dokumenty tekstowe, pliki HTML, multimedia; dane historyczne tworzone w momencie pojawiania się nowych wartości już przechowywanych ; dane sumaryczne (zagregowane) o różnym stopniu przetworzenia; dane opisujące semantykę, pochodzenie i algorytmy wyznaczania poprzednich trzech typów. Magazyny i technologia OLAP Z. Królikowski 20

Struktura magazynu cd. przetwarzanie agregaty ładowanie przetwarzanie wyjściowe dane elementarne Metadane nowe wersje dane historyczne Magazyny i technologia OLAP Z. Królikowski 21 Architektury magazynów Zbiór niezależnych oddziałowych magazynów Magazyny i technologia OLAP Z. Królikowski 23 Architektury magazynów Zakładowy magazyn Magazyny i technologia OLAP Z. Królikowski 22 Architektury magazynów Zbiór zależnych oddziałowych magazynów Magazyny i technologia OLAP Z. Królikowski 24

Architektura systemu zarządzania magazynem Klient K lient M agazyn In tegrato r M onitor/ Konwerter M onitor/ Konwerter M onitor/ Konwerter Magazyny i technologia OLAP Z. Królikowski 25 Moduły monitorowania i konwersji Zadania -cd: sposób wykrywania zmian w źródłowych zależy od własności samych źródeł z tego punktu widzenia, wyróżnia się cztery następujące rodzaje źródeł : aktywne, tzn. posiadające zaimplementowane mechanizmy wyzwalaczy, które informują monitor o zmianach zachodzących w źródłowych; utrzymujące dzienniki operacji wykonywanych na źródłowych - zmiany są wykrywane przez analizę zawartości dziennika przez moduł monitora; umożliwiające wydawanie zapytań - w celu wykrycia zmian w źródłowych, monitor okresowo wydaje zapytania do wszystkich źródeł; wspierające mechanizm migawek (ang. snapshot) - migawka jest programem, który okresowo zapisuje do pliku zawartość źródłowej bazy, a zmiany informacji wykrywa się przez porównywanie zawartości kolejnych plików. odfiltrowanie nadmiarowych i błędnych ; Magazyny i technologia OLAP Z. Królikowski 27 Architektura systemu zarządzania magazynem - cd. Źródła : źródłowe bazy i źródła inne niż bazy Formaty fizyczne, logiczne i pojęciowe poszczególnych źródeł mogą różnić się między sobą Z każdym z takich źródeł jest związana warstwa oprogramowania o nazwie konwerter / monitor Moduły monitorowania i konwersji Zadania: automatyczne pozyskiwanie z różnych źródłowych baz ; transformowanie z formatu wykorzystywanego w źródle do formatu wykorzystywanego w magazynie - dla każdego modelu źródłowych konieczne jest zastosowanie specyficznego modułu konwertera, wykrywanie zmian w źródłowych i ich przekazywanie do warstwy oprogramowania integratora (po uprzedniej konwersji do modelu magazynu); Magazyny i technologia OLAP Z. Królikowski 26 Potrzeba konwersji i integracji Źródłowa Magazyn Aplikacja A (m,k) Aplikacja B (1,0) m, k Aplikacja C (mężczyzna, kobieta) Magazyny i technologia OLAP Z. Królikowski 28

Architektura systemu zarządzania magazynem - cd. Moduł integratora Dane przechowywane w magazynie mogą różnić się schematem pojęciowym od przechowywanych w poszczególnych źródłowych ch - zazwyczaj są to dane bardziej przetworzone, na przykład do wartości sumarycznych, średnich itp. Zadania modułu integratora: Moduł integratora jest odpowiedzialny za łączenie pochodzących z wielu źródeł i uaktualnianie w magazynie - proces ten składa się nie tylko z wpisywania, uaktualniania i usuwania, ale również z wstępnego ich przetwarzania (ang. data scrubbing), tj. filtrowania, eliminowania duplikatów, usuwania niespójności, obliczania agregatów. Magazyny i technologia OLAP Z. Królikowski 29 Efektywność systemu zarządzania magazynem (SZMD) - wybrane problemy Przetwarzanie równoległe Równolegle przetwarza się zapytania, sortuje dane, wykonuje operacje odczytu i zapisu na dysk, buduje tablice i indeksy oraz wczytuje dane do magazynu Przetwarzanie równoległe wspierają m.in. systemy zarządzania mi : Oracle7 i Oracle8 (Oracle Corporation), DB2 (IBM), OnLine Extended Parallel Server, OnLine Dynamic Server (Informix), Red Brick Warehouse (Red Brick), Sybase IQ (Sybase) Magazyny i technologia OLAP Z. Królikowski 31 Własności systemu zarządzania magazynem System zarządzania magazynem powinien zapewniać: Efektywne przetwarzanie analityczne dużego wolumenu przyśpieszenie dostępu do wyników analizy : materializacja perspektyw (agregatów) (ang. materialized view) zastosowanie algorytmów przetwarzania równoległego i parcelacja Utrzymywanie i przetwarzanie historycznych Efektywne przetwarzanie wielowymiarowych nowe rodzaje indeksów: indeksy bitmapowe, indeksy połączeniowe, bitmapowe indeksy połączeniowe, nowe algorytmy optymalizacji wykonywania zapytań Magazyny i technologia OLAP Z. Królikowski 30 Efektywność systemu zarządzania magazynem (SZMD)- wybrane problemy - cd Parcelacja Umożliwia automatyczne rozpraszanie (pochodzących z jednej lub wielu relacji) na wiele dysków, znajdujących się w tym samym lub wielu węzłach (komputerach) sieci - dzięki podziałowi dużej relacji na mniejsze: bardzo kosztowne operacje wejścia/wyjścia, tj. dostępu do dysków mogą być wykonywane równolegle, równoważone jest obciążenie dysków, polecenia SQL mogą być wykonywane równolegle, wzrasta bezpieczeństwo w przypadku awarii sprzętu, wzrasta szybkość tworzenia kopii zapasowych bazy i szybkość odtwarzania po awarii. Magazyny i technologia OLAP Z. Królikowski 32

Efektywność SZMD - wybrane problemy - cd Techniki parcelacji : round robin (ang. round robin partitioning), parcelacja bazująca na wartości (ang. range partitioning), haszowa (ang. hash partitioning), hybrydowa (ang. hybrid partitioning). Technika round robin umożliwia równomierne rozproszenie w węzłach sieci. Przykładowo, jeśli w sieci znajdują się trzy węzły, to pierwsza krotka relacji zostanie umieszczona w węźle pierwszym, druga w węźle drugim, trzecia krotka w węźle trzecim, czwarta znów w węźle pierwszym itp. Wada: ponieważ dane są rozproszone w sposób przypadkowy, więc odnalezienie żą informacji wymaga przeszukania wszystkich węzłów. Magazyny i technologia OLAP Z. Królikowski 33 Efektywność SZMD - wybrane problemy - cd Parcelacja -cd W parcelacji haszowej dane są umieszczane w węzłach zgodnie z wartością systemowej funkcji haszowej. argumentem wejściowym tej funkcji jest wartość atrybutu, a jej wynikiem adres węzła, w którym zostanie umieszczona krotka. w celu odnalezienia żą informacji SZBD wykorzystuję tę samą funkcję haszową. Zaleta: możliwość automatycznego umieszczania w tym samym węźle krotek pochodzących z różnych, powiązanych z sobą relacji - w ten sposób zwiększa się efektywność wykonywania operacji łączenia krotek, gdyż łączone z sobą krotki znajdują się w tym samym węźle. Magazyny i technologia OLAP Z. Królikowski 35 Efektywność SZMD - wybrane problemy - cd Parcelacja -cd Parcelacja bazująca na wartości - rozmieszczenie w sieci zależy od wartości samych (np. relacja zawierająca informacje o klientach sieci supermarketów może być podzielona zgodnie z wartością pierwszej litery nazwiska) W ze 1 W ze 2 Węzeł 3 A-E F-J K-N O-R S-Z Zaleta: ten sposób rozpraszania jest efektywny dla zapytań wykorzystujących zakresy wartości w predykatach selekcji, ponieważ umożliwia szybki dostęp do z żądanego zakresu, bez potrzeby przeszukiwania wszystkich węzłów. Magazyny i technologia OLAP Z. Królikowski 34 Efektywność SZMD - wybrane problemy - cd Parcelacja -cd Parcelacja hybrydowa umożliwia dwustopniowe rozpraszanie. w kroku pierwszym dane są umieszczane w poszczególnych węzłach za pomocą parcelacji haszowej; w kroku drugim dane są umieszczane na poszczególnych dyskach danego węzła, za pomocą parcelacji bazującej na wartości. Zaleta: wzrasta równomierność rozproszenia i obciążenia węzłów. Magazyny i technologia OLAP Z. Królikowski 36

Efektywność systemu zarządzania magazynem (SZMD)- wybrane problemy - cd Materializowanie agregatów Wobec ogromnych rozmiarów magazynów, wymóg szybkiej odpowiedzi systemu na złożone zapytanie (np. łączną sprzedaż lodówek) wymaga materializowania agregatów, czyli wyliczenia ich z wyprzedzeniem i zapamiętania w bazie, tak aby w chwili otrzymania zapytania zagregowane wartości były już gotowe. Magazyny i technologia OLAP Z. Królikowski 37 Przetwarzanie w magazynach - Własności - cd. Potrzeba wielowymiarowych - Przykład: w bazie są przechowywane informacje o klientach, towarach i sprzedaży, zapytanie: ile towaru X sprzedano klientowi Y? Towar Lodówka Pralka Zmywarka Alfa 20 23 5 Klient Beta 4 0 24 Gamma 45 147 35 Delta 71 12 40 Sprzedaż pokazana w dwóch wymiarach: towary i klienci Magazyny i technologia OLAP Z. Królikowski 39 Przetwarzanie w magazynach - Własności Nazwa klienta Adres klienta Telefon Alfa ul. Akacjowa 4 8345-543 Beta ul. Konwaliowa 8 8665-545 Gamma ul. Klonowa 34/36 8434-221 Delta ul. Albańska 8 8665-645 Przykładowa relacja - jeden wymiar Nawigacja po krotkach relacji: wzdłuż tylko jednego wymiaru - wymiaru obiektów lub faktów, o których informacje są przechowywane w relacji zbiór identyfikatorów np. klientów - punkty na osi współrzędnych, Magazyny i technologia OLAP Z. Królikowski 38 Przetwarzanie w magazynach - Własności - cd. Towar Klient Sprzedaż Lodówka Alfa 20 Lodówka Beta 4 Lodówka Gamma 45 Lodówka Delta 71 Pralka Alfa 23 Pralka Gamma 147 Pralka Delta 12 Zmywarka Alfa 5 Zmywarka Beta 24 Zmywarka Delta 40 Sprzedaż towarów dla klientów zapamiętana w 1-wymiarowej relacji Magazyny i technologia OLAP Z. Królikowski 40

Przetwarzanie w magazynach - Własności - cd. Korzyści wynikające ze stosowanie struktur wielowymiarowych do przechowywania informacji: przejrzysta reprezentacja wiedzy, znaczenie efektywnościowe. Magazyny i technologia OLAP Z. Królikowski 41 Przetwarzanie w magazynach - terminologia Dana wielowymiarowa (ang. cube, multi-dimensional array) jest zbiorem komórek danej (ang. cells) zlokalizowanych w przestrzeni wielowymiarowej, określonej przez wymiary (ang. dimension) danej Pojedyncza komórka wyznaczona przez zbiór wartości wymiarów reprezentuje miarę danej w danym punkcie przestrzeni - np. ilości towarów lub obrót ze sprzedaży, są nazywane miarą. Wymiary są strukturalnymi i w ogólności złożonymi atrybutami grupującymi elementy (ang. member) tego samego typu. Na przykład: Alfa, Beta, Gamma, Delta, są elementami wymiaru Klient wymiar czas jest zbiorem elementów: dekada, rok, kwartał, miesiąc, tydzień, dzień, godzina, W typowych zastosowaniach rolę wymiarów pełnią: czas, lokalizacja, typ produktu Magazyny i technologia OLAP Z. Królikowski 43 Przetwarzanie w magazynach - Materializowanie agregatów Towar Lodówka Pralka Zmywarka Łącznie: Alfa 20 23 5 48 Klient Beta 4 0 24 28 Gamma 45 147 35 227 Delta 71 12 40 123 Łącznie: 140 182 104 426 Zmaterializowane agregaty w wielowymiarowej bazie Agregaty są wyliczane poprzez operacje grupowania dla wskazanych wymiarów Magazyny i technologia OLAP Z. Królikowski 42 Przetwarzanie w magazynach - terminologia - cd. czas miejsce 1997-123 512 987 1996-1995 - 98 389 57 123 41 - Ameryka - Europa - Azja TV Audio Photo towar Przykład wielowymiarowych Magazyny i technologia OLAP Z. Królikowski 44

Przetwarzanie w magazynach - terminologia - cd. Wymiary mogą być wewnętrznie złożone i opisane za pomocą wielu atrybutów, a atrybuty mogą pozostawać w pewnych zależnościach, tworząc hierarchie atrybutów Na przykład: towar, który jest jednym z wymiarów, może być opisany między innymi kategorią towaru i branżą, do której należy - mamy do czynienia ze złożonym wymiarem, posiadającym trzypoziomową hierarchię atrybutów: towar-kategoriabranża miejsce sprzedaży - hierarchia klient-miasto-województwo czas sprzedaży - hierarchia dzień-miesiąc-kwartał-rok Magazyny i technologia OLAP Z. Królikowski 45 Projektowanie magazynu Bazy wspierające technologię magazynów (technologię OLAP) można podzielić na dwa rodzaje, ze względu na wykorzystywane przez nie modele. 1. Magazyny relacyjne, nazywane również ROLAP (ang. Relational OLAP), wykorzystujące systemy zarządzania relacyjną bazą, posiadające dodatkowe mechanizmy efektywnego przetwarzania zapytań typu OLAP 2. Magazyny wielowymiarowe, nazywane również MOLAP (ang. Multi-Dimensional OLAP), wykorzystujące specjalizowane systemy zarządzania, umożliwiające przechowywanie w wielowymiarowych tablicach i wykonywanie operacji OLAP zdefiniowanych dla tych struktur. Magazyny i technologia OLAP Z. Królikowski 47 Hierarchie atrybutów - przykład Poznań Kraków Alfa Beta Gamma Delta 20 4 45 71 23 0 145 12 5 24 35 40 4 0 17 11 Lodówka Pralka Zmyw. Suszarka Kategoria A Kategoria B lipiec sierpień wrzesień październik listopad IV kwartał grudzień III kwartał Branża AGD Hierarchie atrybutów w ramach wymiarów Magazyny i technologia OLAP Z. Królikowski 46 ROLAP Zwykle schemat takiej hurtowni posiada strukturę gwiazdy (ang. star schema) lub strukturę bardziej złożoną, przypominającą płatek śniegu (ang. snowflake schema). W celu skrócenia czasu potrzebnego na wyznaczenie wyników zapytania relacje bazy są często denormalizowane, np. zawierają wartości zagregowane, są wynikiem połączenia wielu innych relacji. Technika projektowania - diagram związków encji schemat bazy ma strukturę przypominającą gwiazdę - w centrum gwiazdy znajduje się relacja zawierająca dane źródłowe - nazywana relacją faktów, a na około znajdują się relacje odpowiadające wszystkim wymiarom poziomy w ramach wymiaru mogą być przechowywane w osobnych relacjach powiązanych wzajemnie związkami typu wiele do jednego. każda krotka w relacji faktów, czyli każdy pojedynczy fakt, posiada zbiór kluczy obcych wskazujących na odpowiednie współrzędne w relacjach reprezentujących wymiary. Magazyny i technologia OLAP Z. Królikowski 48

ROLAP Centralna relacja Sprzedaż zawiera informacje o sprzedaży pewnych produktów, w pewnych obszarach geograficznych, w określonym czasie. Relacje Produkty, Obszary i Okresy są wymiarami, natomiast relacja Sprzedaż jest relacją faktów (ang. fact table). Atrybuty relacji faktów przechowujące informacje o sprzedaży są miarami (ang. measures), np. cena, liczba_sztuk. Relacja faktów Sprzedaż zawiera również atrybuty ProduktID, ObszarID, OkresID, których wartości wskazują na odpowiednie wymiary. Produkty ProduktID Nazwa Rodzaj Obszary ObszarID Nazwa... Sprzedaż cena liczba_sztuk ProduktID OkresID ObszarID Okresy OkresID... Schemat gwiazdy Magazyny i technologia OLAP Z. Królikowski 49 MOLAP Struktury MOLAP (ang. multidimensional arrays, datacubes) zawierają dane wstępnie przetworzone (m.in. zagregowane) pochodzące z wielu źródeł. Warszawa obszar Kraków Poznań 1995 1996 1997 okres Ford Audi BMW produkt Tablica trójwymiarowa, zawierająca trzy wymiary: obszar, okres i produkt oraz zagregowane informacje o sprzedaży samochodów w poszczególnych latach, w wybranych miastach Magazyny i technologia OLAP Z. Królikowski 51 ROLAP Jeśli wymiary tworzą hierarchie, to schemat hurtowni ma często postać płatka śniegu. Produkty ProduktID Nazwa Rodzaj Województwa Miasta Sklepy Obszary ObszarID Nazwa... Sprzedaż cena liczba_sztuk ProduktID OkresID ObszarID Okresy OkresID... Kwartały Miesiące Dni Schemat płatka śniegu Magazyny i technologia OLAP Z. Królikowski 50 MOLAP Analizę wielowymiarowych wspomagają specjalne operatory, do których należą: wyznaczanie punktu centralnego (ang. pivoting), nawigacja w górę lub w dół (rozwijanie (ang. drill-down), zwijanie (ang. roll-up lub drill-up)), obracanie (ang. rotating), projekcja (wycinanie) (ang. slice and dice), wyznaczanie rankingu (ang. ranking). Magazyny i technologia OLAP Z. Królikowski 52

MOLAP - operacje Wyznaczanie punktu centralnego (ang. pivoting) Operacja ta polega na wskazaniu miary i określeniu wymiarów, w których wybrana miara będzie prezentowana. Przykładowo, w wymiarze produktu reprezentującego samochód marki BMW i wymiarze obszaru reprezentującego sklepy województwa poznańskiego może być prezentowana liczba sprze samochodów. Rozwijanie (ang. drillng down) Rozwijanie polega na zagłębianiu się w hierarchię danego wymiaru w celu przeprowadzenia bardziej szczegółowej analizy. Jako przykład rozważmy informacje o sprzedaży samochodów marek BMW, Audi i Ford, w latach 95, 96 i 97, w poszczególnych miastach. Magazyny i technologia OLAP Z. Królikowski 53 MOLAP - operacje Obracanie (ang. rotating); Operacja obracania umożliwia prezentowanie w różnych układach. Celem jej jest zwiększenie czytelności analizowanych informacji. Warszawa obszar obszar Kraków Poznań 1995 1996 1997 BMW okres Ford Audi Warszawa Kraków Ford Audi BMW 1995 produkt 1997 1996 Poznań BMW produkt okres 1995 okres Poznań Kraków Warszawa obróto90 o wlewo produkt Ford Audi obszar 1997 1996 Operacja obracania Magazyny i technologia OLAP Z. Królikowski 55 MOLAP - operacje Rozwijanie (ang. drillng down) W celu dokonania analizy sprzedaży w poszczególnych miesiącach roku 97 należy rozwinąć hierarchię reprezentującą czas, tj. rok 97. Analiza sprzedaży w poszczególnych dniach wybranego miesiąca będzie możliwa po rozwinięciu hierarchii reprezentującej ten miesiąc. obszar Warszawa Kraków Poznań sty lut marz... kwie gru Ford Audi BMW produkt obszar Warszawa Kraków Ford Poznań Audi BMW 1995 1996 1997 okres rozwijanie hierarchii czasu produkt Operacja rozwijania hierarchii wymiaru Magazyny i technologia OLAP Z. Królikowski 54 MOLAP - operacje Wycinanie (ang. slicing and dicing); Operacja ta umożliwia zawężenie analizowanych do wybranych wymiarów, a w ramach każdego z wymiarów zawężenie analizy do konkretnych jego wartości. a) b) Warszawa obszar obszar Kraków Poznań 1995 1996 1997 okres Audi BMW Ford produkt Warszawa Kraków Poznań 1995 1996 1997 okres Wycinanie w różnych wymiarach Audi BMW Ford produkt Magazyny i technologia OLAP Z. Królikowski 56

MOLAP - operacje Zwijanie (ang. rolling up) Zwijanie jest operacją odwrotną do rozwijania i polega na nawigowaniu w górę hierarchii danego wymiaru. Dzięki tej operacji można przeprowadzać analizę zagregowanych na wyższym poziomie hierarchii wymiarów. Obliczanie rankingu (ang. ranking); Operacja ta umożliwia uporządkowanie informacji w danym wymiarze, zgodnie z wartościami wybranych miar (w kolejności malejącej lub narastającej). Przykładowo, w wymiarze roku 97 można uporządkować marki samochodów zgodnie z narastającym porządkiem liczby sprze egzemplarzy. Magazyny i technologia OLAP Z. Królikowski 57 Produkty komercyjne - Oracle ORACLE for Warehouse Technology moduły równolegle ładujące dane do magazynu, zestaw bram SQL do relacyjnych i nie-relacyjnych baz, moduły wspomagające asynchroniczną replikację z operacyjnych baz do magazynu (periodyczna lub event driven, Typy w magazynie: 1. sformatowane (ang. record-oriented) 2. tekstowe, 3. przestrzenne (wielowymiarowe), 4. dane multimedialne. Magazyny i technologia OLAP Z. Królikowski 59 Produkty komercyjne Obecnie wiele wiodących firm w dziedzinie baz oferuje serwery wspierające technologię hurtowni. Są to: Oracle7, Oracle8 i Oracle Express Server Oracle Corporation, DB2 IBM, Sybase IQ Sybase, Inc., OnLine Dynamic Server, OnLine Extended Parallel Server i OnLine Workgroup Server Informix Software, Inc., Red Brick Warehouse Red Brick Systems, Inc., Teradata NCR, Adabas C i Adabas D Software AG, Essbase Arbor Software Corporation. Magazyny i technologia OLAP Z. Królikowski 58 Produkty komercyjne - Oracle Techniki specjalne wspomagające typy w magazynie 1.Dane sformatowane: optymalizacja zapytań z uwzględnieniem produktu kartezjańskiego, równoległe wykonywanie zapytań (Oracle Parallel Query Option), w tym: tworzenie agregatów: create table as <subquery> indeksy bitmapowe. 2. Dane tekstowe (Oracle TextServer) przykłady: relacje prasowe, raporty roczne, kontrakty, pisma, itp. indeksy bitmapowe - bit i jest ustawiony jeśli słowo występuje w dokumencie, dokumenty są przechowywane w postaci skompresowanej, wyszukiwanie kontekstowe - moduł ConText (parser języka naturalnego i sieci semantyczne). Magazyny i technologia OLAP Z. Królikowski 60

Produkty komercyjne - Oracle Techniki specjalne wspomagające typy w magazynie 3. Dane przestrzenne (wielowymiarowe) integracja informacji geograficznych z danymi operacyjnymi (technika HHCode). 4. Dane multimedialne w magazynie: reklamy produktów firmy, wywiady - Oracle Media Server Magazyny i technologia OLAP Z. Królikowski 61 Produkty komercyjne - Oracle Narzędzia firmy Oracle wspomagające technologię magazynów : Oracle Express Server i Relational Access Manager (RAM) Express Server jest serwerem magazynu MOLAP, zasilającym aplikacje analityczne. RAM łączy aplikacje Express a z danymi w magazynie. Oracle IRI ExpressView - moduł analizy i ekstrapolacji w magazynie (w tym analiza typu what-if ) Express Objects jest to obiektowo zorientowane narzędzie służące tworzeniu i rozwijaniu aplikacji OLAP w architekturze klient/serwer. Umożliwia tworzenie aplikacji w trybie graficznym jak również przy pomocy narzędzi programistycznych. Magazyny i technologia OLAP Z. Królikowski 63 Produkty komercyjne - Oracle Narzędzia firmy Oracle wspomagające technologię magazynów : Data Mart Suite tematyczne magazyny poświęcone wybranym zagadnieniom działalności przedsiębiorstwa (system analizy sprzedaży w sieci supermarketów, analiza wydatków i informacje o użytkownikach kart kredytowych w banku, informacje o długości rozmów i rodzajach połączeń operatorów telefonii komórkowej, itd.) Oracle Discoverer (ostatnia wersja Discoverer Viewer for Web) należy do rodziny narzędzi Oracle przeznaczonych do wspomagania decyzji. Jest interaktywnym, łatwym w obsłudze programem do przeszukiwania baz i magazynów (zapytania ad-hoc), tworzenia raportów, wykresów oraz stron internetowych. Udostępnia użytkownikom na różnych poziomach organizacji informacje wyszukane w ROLAP (w tym, analiza wielowymiarowa) i systemach OLTP. Magazyny i technologia OLAP Z. Królikowski 62