PODSTAWOWE POJECIA ZWIAZANE Z HURTOWNIAMI DANYCH Najczęściej decyzja o stworzeniu hurtowni nadchodzi, gdy dana organizacja upora się z informatyzacją

Podobne dokumenty
Hurtownie danych. 31 stycznia 2017

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Modele danych - wykład V

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Hurtownie danych wykład 3

Wykład I. Wprowadzenie do baz danych

BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego

Pojęcie bazy danych. Funkcje i możliwości.

Hurtownie danych a transakcyjne bazy danych

Wielowymiarowy model danych

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Usługi analityczne budowa kostki analitycznej Część pierwsza.

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Podstawowe zagadnienia z zakresu baz danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

RELACYJNE BAZY DANYCH

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Baza danych. Modele danych

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Alicja Marszałek Różne rodzaje baz danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Wstęp do Business Intelligence

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

OLAP i hurtownie danych c.d.

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

WPROWADZENIE DO BAZ DANYCH

Hurtownie danych w praktyce

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

Technologia informacyjna

Hurtownie danych - przegląd technologii

Systemy baz danych. mgr inż. Sylwia Glińska

Systemy GIS Systemy baz danych

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Bazy danych - wykład wstępny

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Pierwsze wdrożenie SAP BW w firmie

Business Intelligence

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

Ewolucja technik modelowania hurtowni danych

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Krzysztof Kadowski. PL-E3579, PL-EA0312,

Bazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000

Baza danych. Baza danych to:

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl

2017/2018 WGGiOS AGH. LibreOffice Base

Bazy analityczne (hurtownie danych, bazy OLAP)

OfficeObjects e-forms

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Diagramy związków encji. Laboratorium. Akademia Morska w Gdyni

Bazy danych 2. Wykład 1

Faza Określania Wymagań

Transformacja wiedzy w budowie i eksploatacji maszyn

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Moduł mapowania danych

Wykład 2. Relacyjny model danych

BAZY DANYCH. Co to jest baza danych. Przykłady baz danych. Z czego składa się baza danych. Rodzaje baz danych

Wprowadzenie do projektowania i wykorzystania baz danych Relacje i elementy projektowania baz

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

4. Znaczenie czasu w modelowaniu i strukturalizacji danych

Wstęp. Opis ten dotyczy wydziałów orzeczniczych.

Wrocławska Wyższa Szkoła Informatyki Stosowanej. Bazy danych. Dr hab. inż. Krzysztof Pieczarka.

Modelowanie wielowymiarowe hurtowni danych

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych

Analizy na podstawie danych sprawozdawczych - Moduł analiz z obsługą broszur

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Wprowadzenie do Hurtowni Danych

Plan. Raport. Tworzenie raportu z kreatora (1/3)

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

CuBe EMAT Ewidencja Materiałowa Wersja

Pojęcie systemu informacyjnego i informatycznego

A posteriori wsparcie w podejmowaniu decyzji biznesowych.

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0

PRZEWODNIK PO PRZEDMIOCIE

KURS ACCESS 2003 Wiadomości wstępne

Funkcje systemu infokadra

LITERATURA. C. J. Date; Wprowadzenie do systemów baz danych WNT Warszawa 2000 ( seria Klasyka Informatyki )

Analizy na podstawie danych sprawozdawczych - Moduł Analiz dla Banków Spółdzielczych

STATYSTYKA EKONOMICZNA

TI - Bazy TECHNOLOGIE INFORMACYJNE

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

POLITYKA BEZPIECZEŃSTWA w zakresie ochrony danych osobowych w ramach serwisu zgloszenia24.pl

LK1: Wprowadzenie do MS Access Zakładanie bazy danych i tworzenie interfejsu użytkownika

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

LITERATURA. Wprowadzenie do systemów baz danych C.J.Date; WNT Warszawa 2000

Definicja bazy danych TECHNOLOGIE BAZ DANYCH. System zarządzania bazą danych (SZBD) Oczekiwania wobec SZBD. Oczekiwania wobec SZBD c.d.

Transkrypt:

HURTOWNIE DANYCH WSTĘP Fundamentem funkcjonowania dużej części współczesnych firm są systemy informatyczne. Bez nich żadna firma (szczególnie średnia lub duża) nie jest w stanie dobrze prowadzić swojej działalności. Wprowadzenie systemów informatycznych spowodowało znaczne usprawnienie. Jednak wzrastająca na rynku konkurencja sprawiła, ze przestało to wystarczać. Aby utrzymać swoją pozycję na rynku należy podejmować trafne decyzje dotyczące działalności instytucji, w oparciu o analizy wcześniej uzyskanych wskaźników. Niestety, nawet najlepsze systemy informatyczne nie umożliwiały takich analiz. Decyzje strategiczne podejmowano na podstawie długotrwałych, żmudnych analiz dokonywanych przez menedżerów, wspierających się najczęściej wydrukami komputerowymi z poprzednich okresów czasowych. Wtedy zrodziła się idea systemu, który będzie gromadził potrzebne dane ze wszystkich działających w firmie systemów i pozwalał na szybkie i skuteczne wnioskowanie. Systemy te nazwano hurtowniami danych. Hurtownie danych można wykorzystać w różnych dziedzinach działalności gospodarczej. Czas na budowę hurtowni danych nadchodzi w momencie, gdy firma upora się już z informatyzacją podstawowych elementów swojej działalności. Dotyczy to zarówno firm usługowych (np. zajmujących się handlem) jak również firm sektora finansowego (fundusze inwestycyjne i emerytalne, firmy ubezpieczeniowe czy banki). BAZY DANYCH Baza danych dosłownie miejsce gdzie przechowuje się dane. Choć sama definicja jest dość prosta, to aby informacja była użyteczna musi mieć pewną wartość oraz odpowiednią strukturę. Przytoczona definicja dotyczy zarówno kartoteki prowadzonej metodą tradycyjną jak i baz danych zapisanych na dyskach komputerowych. Baza danych (przechowywana w komputerze) to system, który przechowuje dane w pamięci trwałej, ma zdefiniowaną strukturę i jest wyposażony w reguły integralności, określające warunki poprawności danych. By system taki miał znaczenie praktyczne musi mieć jeszcze dodatkowe cechy: niezawodność zapisu dane muszą być nieulotne, a co za tym idzie odporne na awarie, integralność danych dane zapisane w bazie muszą być poprawne, czyli muszą spełniać reguły integralności,

wygodne interfejsy, wielodostęp, zabezpieczenie dostępu. Warunki te może zapewnić odpowiednie oprogramowanie, obsługujące dane w sposób właściwy dla danej bazy. Oprogramowanie tego typu nosi nazwę Systemu Zarządzania Baza Danych DBMS (Database Management System). Jego podstawową rolą jest izolowanie programisty i tworzonych przez niego aplikacji od fizycznej reprezentacji danych (ich organizacji w pamięci, na dyskach, itp.). Dane są dostępne przez odpowiednie interfejsy, postrzegane jako model danych. MODELE BAZ DANYCH Zarówno w literaturze dotyczącej baz danych, jak i w praktyce, uznanych i stosowanych jest kilka modeli baz danych. Model hierarchiczny najprościej można opisać go jako odwrócone drzewo, gdzie jedna z tabel pełni rolę korzenia, a pozostałe maja postać gałęzi biorących swój początek w korzeniu. Model sieciowy tak jak w modelu hierarchicznym, jego strukturę można rozpatrywać jako odwrócone drzewo, z ta różnicą, ze w przypadku modelu sieciowego kilka drzew może dzielić ze sobą gałęzie. Model relacyjny z modelu tego korzysta dziś ogromna większość systemów. W modelu relacyjnym dane zapisywane są w tabelach. Każda z tabel ma określoną stałą liczbę kolumn. Kolumny mają nazwy i przechowują dane określonego typu. Liczbę wierszy można dowolnie zmieniać, można je dodawać lub usuwać. W odróżnieniu od poprzednich dwóch modeli, fizyczna kolejność pól i rekordów w tabeli jest bez znaczenia. Każdy rekord jest wyróżniony przez unikatowe pole mające niepowtarzalną wartość. Umożliwia to istnienie danych niezależnie od sposobu przechowywania ich przez komputer, a co za tym idzie, nie jest potrzebna wiedza na temat fizycznego położenia rekordu, by móc go odczytać. Model obiektowy dane w tym modelu podzielone są na klasy, będące zbiorem obiektów opisujących pewne elementy świata rzeczywistego. Klasa obejmuje zarówno obiekty tego samego typu, jak również definicje struktury danych obiektu i operacji na nich.

Modelowanie obiektowe stanowi jeszcze nowe podejście w dziedzinie projektowania baz danych. Model relacyjno obiektowy jego ideą jest połączenie zalet dwóch modeli: relacyjnego i obiektowego. Dane w tym modelu są zorganizowane w tabelach, ale kolumny tabel oprócz danych prostych typów mogą zawierać obiekty złożone. HURTOWNIE DANYCH W codziennej praktyce najczęściej spotykamy się z tzw. Operacyjnymi (transakcyjnymi) bazami danych. Znajdują one zastosowanie w różnorodnych organizacjach, instytucjach i firmach. Wykorzystywane są tam, gdzie zaistnieje potrzeba gromadzenia, przechowywania i modyfikowania danych. Dane przechowywane w takiej bazie ulegają ciągłym zmianom i odzwierciedlają aktualny stan jakiegoś obiektu. Okazało się jednak, że już nie wystarczają dobre systemy transakcyjne z dużą ilością aktualnych danych. Potrzebny jest stały dostęp do informacji o działalności organizacji. Nie tylko do stanu aktualnego, również do informacji z poprzednich dni, tygodni, miesięcy czy lat, umożliwiających wszechstronną analizę W wielu instytucjach dane źródłowe są zbierane i przechowywane w formie elektronicznej, są jednak rozproszone w wielu systemach informatycznych, a to uniemożliwia wykorzystanie ich do analiz. Nie można ich wykorzystać w procesie zarządzania firmą. Ponadto istniejące systemy informatyczne (np. obsługujące księgowość, magazyny, itp.) często pochodzą od różnych producentów, a więc oprócz rozproszenia powstaje również problem niejednorodności danych. Jeśli nawet jakaś firma zdecyduje się na zakup oprogramowania jednego tylko producenta, to i tak układ danych w systemach operacyjnych jest dostosowany raczej do potrzeb sprawnej modyfikacji danych, oraz obsługi dużej liczby niewielkich transakcji dokonywanych przez wielu użytkowników. Nie sprzyja to podejmowaniu optymalnych decyzji, w krótkim czasie. Jeszcze do niedawna menedżer mający sporządzić jakikolwiek raport, czy sprawozdanie miał do dyspozycji tylko wydruki z systemów komputerowych i przy pomocy innych programów tworzył wykresy i tabelki. samego tematu. przez jej kierownictwo. W takiej sytuacji pojawiła się idea stworzenia specjalnych systemów informatycznych, które scalają i systematyzują dane z różnych źródeł, przechowują dane historyczne i efektywnie udostępniają je do analizy. Systemy te nazywamy hurtowniami danych (magazyny danych, data warehouse).

PODSTAWOWE POJECIA ZWIAZANE Z HURTOWNIAMI DANYCH Najczęściej decyzja o stworzeniu hurtowni nadchodzi, gdy dana organizacja upora się z informatyzacją podstawowych elementów swojej działalności i zachodzi potrzeba usprawnienia przepływu informacji. Rozróżniamy wówczas systemy transakcyjne (OLTP On Line Transaction Processing), wspierające bieżące funkcjonowanie firmy, oraz hurtownie danych oparte na systemach przetwarzania analitycznego (OLAP On Line Analytical Processing), służącą do analizowania działalności firmy i wspomagania zarządzania. Hurtownia w szczególności wspomaga procesy zarządzania strategicznego. W ostatnich latach termin hurtownia danych jest coraz bardziej popularny. Klasyczna definicja autorstwa W. H. Inmona definiuje hurtownię danych jako: uporządkowany tematycznie, zintegrowany, zawierajacy wymiar czasowy, nieulotny zbiór danych wspomagających podejmowanie decyzji. Określenie uporządkowane tematycznie oznacza, ze dane są przechowywane w oderwaniu od aplikacji, która je wygenerowała. Przykładem może być sytuacja, gdy jeden system służy do ewidencji klientów indywidualnych, a inny do obsługi instytucjonalnych. W hurtowni dane z obu systemów są zintegrowane i opatrzone hasłem Klienci. Oczywiście jednym z atrybutów tego obiektu może być, a nawet będzie informacja o tym, czy jest to klient indywidualny, czy instytucjonalny. Dodatkowo ten postulat oznacza, ze nie zbiera się wszystkich danych z całej organizacji, a jedynie te, które będą potrzebne do sporządzania analiz w przewidywanym dla hurtowni zakresie. Dane są zintegrowane, - ten wymóg wynika z poprzedniego. Dane muszą mieć ujednolicony sposób zapisu, pomiaru wartości, ujednolicone sposoby kodowania. Np. atrybut stan cywilny z jednego systemu otrzymamy: K/Z, z innego 0/1, a jeszcze innego W/N. Dane dotyczące tego atrybutu muszą być sprowadzone do jednego formatu. Dane zawierają wymiar czasowy, innymi słowy w hurtowni przechowywane są dane historyczne. W systemach transakcyjnych dane są aktualne w momencie dostępu. Od hurtowni wymaga się, by umożliwiła analizy porównawcze różnych momentów czasowych. Użytkownik spodziewa się, ze w dowolnym czasie dane dotyczące ubiegłych okresów będą takie same, nie

ulegną zmianie. Kolejnym aspektem wymiaru czasowego jest fakt, ze po poprawnym pobraniu danych z systemu operacyjnego nie są one od razu aktualizowane. Nieulotność danych, to pojęcie określające różnice pomiędzy środowiskiem operacyjnym a hurtownią. W pierwszym z nich dane są aktualizowane, wprowadzane i usuwane w trakcie kolejnych transakcji, natomiast w hurtowni wykonywane są dwie podstawowe operacje: ładowania danych i dostępu do nich, przy czym ładowanie nowych nie usuwa wcześniejszych danych, dotyczących tych samych tematów. Hurtownia posiada jeszcze inne cechy wynikające niejako z jej charakteru, w szczególności jest to scentralizowana baza danych czyli wszystkie potrzebne informacje, bez względu na miejsce ich powstania są gromadzone w jednym miejscu. Podkreślić również należy, iż hurtownia danych jest zwykle oddzielona od baz operacyjnych, dzięki temu może mieć inną budowę dostosowaną do swych specyficznych zadań wspomagania przetwarzania danych dla celów strategicznych i analitycznych. Ponadto hurtownia zawiera zarówno dane operacyjne jak też ich agregaty. Potrzeba przechowywania danych zagregowanych wynika z faktu, ze hurtownia utrzymuje wielką ilość informacji (danych migawkowych), co powoduje, ze wyliczanie wartości zagregowanych jest czasochłonne. Aby umożliwić efektywne analizy, w hurtowni przechowuje się wyliczone wyniki agregacji (tzw. zmaterializowane agregaty). RODZAJE DANYCH W HURTOWNIACH W hurtowniach danych przechowuje się różne rodzaje danych: elementarne kopie aktualnych danych źródłowych pozyskanych z baz operacyjnych i odpowiednio przetworzonych (np. ujednoliconych), zmaterializowane agregaty wyliczone wartości obliczeń (sumy, średnie, itp.) w różnych przekrojach (np. sumy wartości sprzedaży w okresie czasu i w podziale na jednostki sprzedające) i na różnych stopniach agregacji (np. sumy dzienne, miesięczne, roczne), metadane informacje słownikowe, opisujące strukturę hurtowni danych i źródłowych baz danych, z których pozyskuje się dane, oraz sposób wyliczania danych zagregowanych. Metadane stanowią bardzo istotny element hurtowni. Umożliwiają użytkownikom poruszanie się po hurtowni, tłumacząc nieprzyjazne dla nich pojęcia informatyczne na słownik biznesu oraz informując, jakie dane są aktualnie dostępne. Metadane w hurtowni powinny zawierać:

opis danych zawartych w hurtowni, opis dostępności danych, nazwę systemu źródłowego, z którego pochodzą dane, opis operacji poczynionych na danych podczas zasilania hurtowni (np. czy odfiltrowano anulowane faktury), wersje metadanych (np. kiedy zmieniło się źródło danych o klientach). Ma to związek z tym, że dane za pewien okres mogą się różnić od danych z innego okresu. Aby móc je właściwie odczytać potrzebna jest możliwość określenia jakie metadane obowiązywały w danym momencie, metryki dotyczące danych (np. liczby wierszy w tablicach) pozwalające użytkownikowi ocenić, czy odpowiedz na jego pytanie pojawi się szybko czy po dłuższym czasie. Cechą zasadniczą danych w hurtowni, co było już podkreślane, jest ich historyczny charakter. Każda informacja dotyczy okresu minionego. Najwięcej miejsca w hurtowni zajmują dane elementarne, jednak z punktu widzenia niektórych analiz zawierają one zbyt duży stopień szczegółowości. Użytkowników często zadowalają dane detaliczne na poziomie sumarycznych wartości dziennych czy godzinowych. Dlatego też generuje się z nich wstępne agregaty, które potem poddawane są dalszej agregacji. Agregaty mające umożliwić analizę danych najczęściej generuje się w wielu różnych przekrojach równocześnie, chociaż nie zawsze można przewidzieć, ani zrealizować wszystkich możliwych odmian analiz. Gdy zabraknie agregatu, trzeba sięgnać do danych elementarnych, co może trwać długo i wymaga zaangażowania dużej ilości zasobów systemowych. Gdy takie zapytania pojawiają się często, należy pomyśleć o zmianie definicji agregatów, lub stworzeniu nowych. CYKL ZYCIA HURTOWNI Cykl życia hurtowni znacznie różni się od cyklu pracy bazy transakcyjnej. Na ogół występują tu takie zadania jak: ładowanie i scalanie dane są okresowo (raz dziennie, raz na tydzień lub raz na miesiąc, w zależności od potrzeb) ładowane z baz operacyjnych. W czasie ładowania dokonywane jest scalenie i ujednolicenie danych, tzw. konwersja typów i formatów, przetłumaczenie identyfikatorów, przekształcenie do innego modelu danych,

agregacja od razu w czasie ładowania albo bezpośrednio po nim dokonuje się obliczenia zmaterializowanych agregatów, oznaczenie danych pod względem czasu - wszystkie dane zasilające hurtownie muszą otrzymać oznaczenie czasu z jakiego pochodzą, aby możliwe było sprawne dokonywanie porównań i przekrojów czasowych. usuwanie ta operacja nie jest typowa dla hurtowni. Usuwa się dane dotyczące okresów czasu na tyle odległych, ze już nie są wykorzystywane przez użytkowników. Można również usunąć tylko dane elementarne, które zajmują najwięcej miejsca w hurtowni, pozostawiając ich agregaty. WARSTWOWA STRUKTURA HURTOWNI DANYCH Hurtownie danych projektowane są na ogół jako system wielowarstwowy, a każda z warstw realizuje określone zadania. Pierwsza warstwa jest warstwą zasilania hurtowni. Przejmuje ona dane źródłowe ze środowiska informatycznego przedsiębiorstwa - jego baz danych, a także z zewnątrz (np. od specjalistycznych firm zajmujących się badaniem rynku). W tej warstwie odbywa się przetwarzanie danych, ich czyszczenie, standaryzacja, przygotowanie, sklejanie z kilku źródeł, itp. Na ogół tworzy się tu obszar roboczy do wykonania tych operacji nazywany Temporary Staging Area (TSA) lub też Intermediary Staging Area (ISA). Tak przygotowane dane trafiają do następnej warstwy tzw. warstwy danych właściwych, gdzie podlegają dalszej obróbce, w szczególności generuje się agregaty, tworzy stałe raporty i. Kolejna warstwa realizuje dystrybucję danych. Na styku tej warstwy z poprzednią pojawiają się dwa nowe obiekty: składnica danych (Data Marts) oraz ODS (Operational Data Store). OBIEKTY HURTOWNI DANYCH Przechowywanie wszystkich danych i agregatów zaspokajających potrzeby wszystkich użytkowników w jednej centralnej hurtowni jest często nieefektywne i kłopotliwe. Tym bardziej, że pożądany sposób agregacji jest bezpośrednio uzależniony od rodzaju prowadzonych analiz, a poszczególne wydziały organizacji mogą potrzebować różnych danych zagregowanych w odmienny sposób. Dlatego też tworzy się mniejsze, wyspecjalizowane składnice danych, powstające pod kątem potrzeb konkretnego wydziału firmy. Składnice takie znacznie przyspieszają dostęp do najczęściej wykorzystywanych w danym wydziale informacji.

Cechy charakterystyczne składnicy: specyficzne dla zastosowań ich budowa jest inna dla każdego z wydziałów, dostosowana do potrzeb prowadzonych analiz, przeznaczone dla określonych użytkowników, dane w różnych składnicach powtarzają się, choć mogą istnieć w wielu układach, dane są silnie zagregowane przechowuje się wyniki wielu wyliczeń, dostosowanych do potrzeb prowadzonych analiz, w odróżnieniu od hurtowni, składnica zaprojektowana jest pod kątem szybkości, a nie elastyczności, w związku z czym dane są często silnie zdenormalizowane, tzn. zawierają liczne powtórzenia, mają najczęściej tylko jedno źródło danych centralną hurtownię danych. Oczywiście, pewne potrzeby informacyjne (zwłaszcza bardziej złożone zapytania analityczne) użytkownik będzie musiał kierować bezpośrednio do hurtowni, jednak zadaniem składnicy jest przechwycenie najczęściej obsługiwanych zapytań dotyczących danych w tabelach. Kolejnym obiektem mogącym wystąpić w hurtowni jest ODS, czyli operacyjny magazyn danych. Pozwala on wykorzystać dane, które zostały już zebrane i zintegrowane, dla potrzeb operacyjnych. Dzięki niemu można na przykład udostępnić wydziałowi dane o kontrahentach, które to dane były łączone z kilku źródeł danych w czasie zasilania hurtowni. Cechy charakterystyczne operacyjnego magazynu danych: jest źródłem informacji operacyjnych, integruje dane pochodzące z różnych aplikacji, zawiera małą liczbę danych, głównie bieżących, mających dostarczyć nam odpowiedzi na najbardziej pilne pytania dotyczące pewnych tematów, ostatnia warstwa, zarazem jedyna widoczna dla użytkownika, jest warstwą udostępniania danych (frontend). Są to wszelkie narzędzia analityczne, dostępu do danych, generatory zapytań, specjalizowane aplikacje, czyli wszystko to, do czego ma dostęp użytkownik hurtowni. WIELOWYMIAROWOŚĆ DANYCH W HURTOWNI Dane zawarte w hurtowni i składnicach danych wykorzystuje się do podejmowania lepszych decyzji w krótszym czasie. Daje to szereg możliwości, np. poprawienia projektu produktu, obsługi klienta, czy wykorzystania tendencji rynkowych wcześniej niż konkurencja. Potrzeba prowadzenia takiej wnikliwej analizy wpływu wielu różnych czynników na zjawiska zachodzące

w otoczeniu firmy jak i w niej samej, spowodowały, że dane gromadzone w hurtowniach maja charakter wielowymiarowy. Struktura wielowymiarowa przedstawia elementarne komórki danych, tzw. fakty, w funkcji wielu niezależnych czynników, zwanych wymiarami. Wymiary są opisane wartościami dyskretnymi, które mogą tworzyć hierarchie. Do takich wymiarów należą najczęściej: czas (dni, miesiące, lata), produkty (np. rodzaj, typ), jednostka organizacyjna (np. wydział, oddział) lub terytorialna (np. gmina, województwo), typ klienta (np. budżet państwa, instytucje finansowe, osoba prywatna). Elementarne komórki danych są natomiast opisane atrybutami liczbowymi, tzw. miarami. Może to być zarówno wielkość sprzedaży, liczona w sztukach, kilogramach, itp., jak i saldo na konkretnym koncie w złotych. Taka struktura może przyjąć jedną z dwóch form: gwiaździstą (starnet) lub płatka śniegu (snowflake). W obu przypadkach centralnym punktem struktury są fakty, ale w przypadku struktury gwiaździstej wymiary opisujące je tworzą proste (liniowe) hierarchie. W drugim przypadku natomiast, mają postać drzew. Fakty opisane wymiarami można wyobrazić sobie jako kostkę umieszczoną w przestrzeni wymiarów. Analiza wielowymiarowa polega na poddawaniu danych pewnym typowym dla nich operacjom, takim jak: obracanie (zmiana perspektywy oglądania danych). Dla przykładu w przestrzeni dwuwymiarowej jest to po prostu zamiana ich miejscami; selekcja (wybór interesujących elementów wymiaru z pominięciem pozostałych ), projekcja (zmniejszenie liczby wymiarów i prezentacja danych w pozostałych wymiarach prezentowane dane są zagregowane względem pozostałych wymiarów), wycinanie (slice and dice), czyli połączenie selekcji i projekcji, ranking (uszeregowanie elementów wymiaru wg wzrostu miary lub jego agregatu), zwijanie (roll up) i rozwijanie (drill down), czyli nawigacja po hierarchii wymiaru. Łączy się to z agregacją miar (przy zwijaniu) i ich dezagregacją (przy rozwijaniu). RODZAJE HURTOWNI DANYCH Obecnie najczęściej spotykamy dwie grupy systemów OLAP różniące się zastosowanym do ich konstrukcji serwerem. Pierwsza grupa to systemy zbudowane w oparciu o relacyjną bazę danych (ROLAP relation OLAP), druga to systemy zbudowane w oparciu o specjalizowane serwery wielowymiarowe (MOLAP Multidimensional OLAP). Oba rozwiązania mają swoje wady i

zalety. Systemy ROLAP charakteryzują się zdolnością do przechowywania wielkiej objętości danych, względnie łatwą modyfikacją danych (wynikającą z zastosowanego oprogramowania i struktur danych) oraz negatywnymi cechami: złożonością struktur danych (wynikającą z konieczności relacyjnego odwzorowania zależności wielowymiarowych) i problemami z wydajnością, wynikającą z niedostosowania struktur relacyjnych do analizy wielowymiarowej. Natomiast systemy MOLAP mają co prawda mniejsze możliwości przechowywania danych i trudno w nich modyfikować dane (często modyfikacja danych prowadzi do przebudowy struktury wielowymiarowej), ale za to mają dużą wydajność analizy wielowymiarowej, a także naturalną reprezentację struktur wielowymiarowych. Połączenie obu typów systemów może zapewnić rozwiązanie, które połączy możliwość przechowywania bardzo dużej ilości danych i efektywnej analizy wielowymiarowej. Może ono polegać na zastosowaniu relacyjnej bazy danych jako hurtowni danych, przechowującej cały zbiór danych elementarnych, zaś systemów typu MOLAP jako składnic danych. NARZĘDZIA DOSTĘPU DO HURTOWNI DANYCH Narzędzia umożliwiające dostęp do danych zawartych w hurtowni to specjalne programy, mogące tworzyć inne programy lub bezpośrednio realizujące takie funkcje jak dodawanie, wyświetlanie, modyfikowanie i usuwanie danych. Programy tego typu uważa się za języki czwartej generacji. Różnią się one od swoich poprzedników tym, że są deklaratywne, nie trzeba opisywać w jaki sposób mają być wyznaczane żądane wartości, ani jak ma być wykonana procedura. Oprogramowanie decyduje za człowieka, i to za pomocą najlepszej możliwej w danej sytuacji metody, jakie procedury mają być wykonane. Komendy w języku deklaratywnym są następnie tłumaczone na język proceduralny, zrozumiały dla komputera. Jest to bardzo wygodne dla programistów, niestety ma swoje wady. Zawsze istnieje możliwość błędnego przetłumaczenia na język proceduralny z języka deklaratywnego. Poza tym w języku proceduralnym można tak ułożyć program, by działał szybko, podczas gdy program automatycznie przetłumaczony z języka deklaratywnego może działać wolniej. Współczesne parametry sprzętu komputerowego, w szczególności jego prędkości realizowania obliczeń, sprawiają, iż kryterium optymalizacji wyraźnie traci znaczenie. Za przykład dobrze opracowanego i wydajnego języka czwartej generacji uważa się język zapytań (SQL). Najbardziej typowym językiem czwartej generacji są generatory formularzy, które wykorzystują interfejs graficzny do komunikacji między

użytkownikiem a Systemem Zarządzania Bazą Danych (SZBD). Używa się ich do projektowania okien wyświetlających zawartość wierszy z tabel i pozwalających na wprowadzanie do nich wartości, zmianę już istniejących czy usuwanie danych. Innym, podobnym do poprzedniego językiem jest generator raportów. Służy do przygotowania przez komputer gotowego, już sformatowanego raportu. Generator raportów decyduje, gdzie umieścić zawartość każdej kolumny dla każdego wiersza podczas przetwarzania informacji w tabelach. Decyduje także o rozmiarze strony i przejściu do nowej strony z nowymi nagłówkami. Dodatkowo istnieją również generatory menu. Gdy zostały już zaprojektowane formularze i raporty, trzeba umożliwić użytkownikowi łatwy sposób ich wykorzystania. Wtedy można skorzystać z generatora menu w celu budowy przyjaznego dla użytkownika interfejsu obsługi raportów i formularzy. Różnego typu narzędzia dostępu do hurtowni danych stanowią obecnie przedmiot zainteresowania wielu ośrodków badawczych i firm dostarczających oprogramowanie, stad rozwój tej klasy produktów pozwala spodziewać się nowych interesujących rozwiązań. BIBLIOGRAFIA: 1. W. Harris: Bazy danych nie tylko dla ludzi biznesu. WNT, Warszawa 1994. 2. M. J. Hernandez: Bazy danych dla zwykłych śmiertelników. EDU-MIKOM, Warszawa 1998. 3. T. Traczyk: Hurtownie danych. Materiały konferencji Centrum Promocji Informatyki Bazy Danych. Kazimierz Dolny, 1998. 4. T. Traczyk: Bazy danych, narzędzia dostępu do danych, hurtownie danych. Materiały konferencji Centrum Promocji Informatyki Bazy Danych. Kazimierz Dolny, 1998. 5. W. M. Próchniewicz: Hurtownie danych. Wielkie wyzwanie. Pckurier, Warszawa 1998. 6. W. H. Inmon, R. D. Hackathorn Using a Data Warehouse 7. Materiały kursowe dla administratorów systemu SYMBA, przygotowane przez firmę Arthur Andersen 8. Materiały kursowe dla administratorów bazy danych Oracle, przygotowane przez firmę Oracle