Plan wykładu Problematyka hurtowni 1. Bibliografia 2. Systemy klasy Business Intelligence 3. Podejścia do integracji 4. Definicja hurtowni 5. Architektury hurtowni Hurtownie, wykład Bartosz Bębel E-mail: bartosz.bebel@cs.put.poznan.pl 2 Bibliografia Business Intelligence (BI) (1) 1. Anahory S., Murray D., Data Warehousing in the real world, Addison- Wesley, 1997, ISBN 0-201-17519-3 2. Bębel B., Morzy M., Projektowanie schematów logicznych dla magazynów, 2000, Materiały konferencji PLOUG 2000, Zakopane 3. Hobbs L., Hillson S., Lawande S.: Oracle9iR2 Data Warehousing. Digital Press, 2003, ISBN 1-55558-287-7 4. Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P.: Fundamentals of Data Warehouses. Springer-Verlag, 2000, ISBN 3-540-65365-1 5. Królikowski Z., Hurtownie : logiczne i fizyczne struktury, Wydawnictwo Politechniki Poznańskiej, 2007, ISBN:978-83-7143-310-8 6. Mattison R., Data Warehousing - Strategies, Technologies, and Techniques, McGraw-Hill, 1996, ISBN 0-07-041034-8 BI ang. Business Intelligence: szeroki wachlarz aplikacji i technologii dla pozyskiwania, składowania, analizowania oraz udostępniania informacji o organizacji i środowisku jej działania BI odkrywa wiedzę zawartą w : trendy, tendencje, korelacje, BI prezentuje odkrytą wiedzę przy wykorzystaniu różnych technik prezentacyjnych: raporty, zestawienia, wykresy, pulpity managerskie, odkryta wiedza służy: decydentom: kierownikom wysokiego i średniego szczebla, analitykom w procesach podejmowania decyzji 3 4
Business Intelligence (BI) (2) Business Intelligence (BI) (3) Systemy klasy BI: System wspomagania decyzji DSS (ang. Decision Support System) System powiadamiania kierownictwa EIS (ang. Executive Information System) System wspomagania zarządzania MIS (ang. Management Information System) System informacji geograficznej GIS (ang. Geographic Information System) Problemy: 1. ogrom informacji do zanalizowania: ok. 80% systemów BI posiada dane o rozmiarze przekraczającym 1 TB, przykłady: Facebook ok. 21 PB, ebay 6,5 PB konieczność zapewnienia odpowiedniego sprzętu, oprogramowania i algorytmów efektywnego przetwarzania 2. dynamiczny przyrost informacji: w 40% systemów BI dane rosną o 50% rocznie, w 18% rozmiar rocznie się podwaja, przykład: CERN przewidywany przyrost eksperymentalnych (surowych): 27 TB/dziennie, 150 PB przestrzeni dyskowej konieczność zapewnienia odpowiedniej infrastruktury przechowywania 5 6 Business Intelligence (BI) (4) Integracja Problemy (cd): 3. heterogeniczność informacji dane pochodzą z różnych źródeł: różne formaty składowania : systemy obsługi bieżącej (systemy relacyjnych i obiektowych baz ), systemy spadkowe, arkusze kalkulacyjne, strony WWW, pliki XML, pliki tekstowe, różne miejsca składowania konieczność zastosowania mechanizmów integracji Integracja proces łączenia, zlokalizowanych w systemach źródłowych (być może heterogenicznych), celem dostarczenia użytkownikowi (aplikacji) jednolitego widoku system integracji daje użytkownikowi iluzję pracy z jednym systemem informacyjnym 7 8
Podejścia do integracji (1) 1. integracja ręczna użytkownik wykonuje bezpośrednią interakcję z systemami źródłowymi i dokonuje integracji ich użytkownik musi posiadać dogłębną wiedzę o strukturze systemów źródłowych, metodach (językach) dostępu do nich, itd. zastosowania: sieci P2P, usługi sieciowe 2. wspólny interfejs użytkownika użytkownik ma do dyspozycji interfejs (np. przeglądarkę WWW), zapewniający zunifikowany wygląd dane z różnych systemów źródłowych są od siebie odseparowane, ich połączenie musi być zrealizowane przez użytkownika (np. wyszukiwarkę internetową) Podejścia do integracji (2) 3. integracja przez aplikację aplikacja wykonuje dostęp do z systemów źródłowych i prezentuje zintegrowany wynik użytkownikowi wskazane dla systemów z małą liczbą integrowanych systemów źródłowych aplikacja rośnie w miarę zwiększania liczby systemów źródłowych zastosowania: sieci P2P, usługi sieciowe, systemy przepływu pracy 4. integracja przez warstwę pośredniczącą (ang. middleware) dodatkowe oprogramowanie, które ukrywa przed aplikacją szczegóły systemów źródłowych, jednak aplikacja nadal musi wykonywać pewne dodatkowe operacje przykład: warstwa pośrednicząca SQL (ang. SQL-middleware) umożliwia odczyt systemów źródłowych przy pomocy języka SQL, jednak wyniki poszczególnych zapytań nie są łączone w jeden zbiór to musi zostać zrealizowane przez aplikację 9 10 Podejścia do integracji (3) Hurtownia definicja (1) 5. zunifikowany dostęp do aplikacja widzi wszystkie dane systemów źródłowych w postaci jednego, zunifikowanego zbioru, jednak są to dane wirtualne integracja jest realizowana w locie zapewnienie tej cechy może być kosztowne pod względem czasu odpowiedzi systemu zastosowania: systemy mediacyjne, sfederowane bazy, portale www 6. wspólna składnica dane pobrane z systemów źródłowych są trwale składowane w nowym miejscu systemy źródłowe po pobraniu z nich mogą zostać zarówno wyłączone jak i pozostać aktywne, w tym drugim przypadku konieczne jest okresowe odświeżanie wspólnej składnicy nowymi danymi ze źródeł zastosowania: hurtownie Definicja 1. Zbiór technologii, nakierowanych na wspomaganie użytkowników (kierownictwo wysokiego i średniego szczebla, analitycy) w procesie podejmowania decyzji (głównie biznesowych) Definicja 2. Zbiór : 1. tematycznie zorientowany, 2. zintegrowany, 3. uwzględniający atrybut czasu i 4. nieulotny, wykorzystywany w organizacji głównie do wspomagania podejmowania decyzji 11 12
Hurtownia definicja (2) 1. Dane tematycznie zorientowane dotyczą określonej dziedziny (lub wielu dziedzin) w działalności organizacji. 2. Dane zintegrowane pochodzą z różnych systemów źródłowych, są tłumaczone do wspólnego formatu celem łatwiejszego przetwarzania. 3. Dane uwzględniające atrybut czasu wyposażone w duży horyzont czasowy, pokazujące pełną historię. 4. Dane nieulotne przechowywane trwale, dostępne niezależnie od dostępności systemów źródłowych; dane podlegają jedynie operacjom odczytu (bardzo rzadko modyfikacji i usuwania). Architektury hurtowni (1) 1. Architektura podstawowa: elementy: źródło (DS n ) system źródłowy, np.: system obsługi bieżącej, system spadkowy, arkusz kalkulacyjny, strona www, plik XML, plik tekstowy, wrapper odpowiada za transformację źródła do formatu i modelu hurtowni monitor wykrywa zmiany i struktury źródła integrator przekształca i łączy dane ze źródeł w jeden spójny zbiór aplikacja kliencka oprogramowanie, wykorzystywane przez użytkownika do przeprowadzania analiz hurtowni 13 14 Architektury hurtowni (2) Model przetwarzania w HD 2. Architektura rozszerzona: elementy dodatkowe: operacyjna składnica (ODS m ) zbiór szczegółowych : wstępnie przetwarza i składuje dane źródła przed ich właściwą integracją, dostarcza szczegółowych do rozszerzonych analiz w hurtowni tematyczna hurtownia (DM k ) podzbiór hurtowni, opisujących pojedynczą dziedzinę działania organizacji; przykład: hurtownia operatora telefonii komórkowej może zawierać tematyczne hurtownie : dane marketingowe, dane finansowe, dane kadrowe, itd. OLAP (ang. On-Line Analytical Processing) zbiór technologii programowych, umożliwiających decydentom i analitykom na uzyskanie wglądu w dane, przy wykorzystaniu szybkich i interaktywnych metod dostępu do informacji, przetransformowanych z surowych, w różnych możliwych perspektywach, odzwierciedlających rzeczywistą wielowymiarowość działania organizacji w sposób rozumiany przez użytkownika (za OLAP Council) przeciwieństwo OLTP (ang. On-Line Transaction Processing) model przetwarzania w systemach obsługi bieżącej: system rezerwacji system obsługi punktu sprzedaży system bankowy 15 16
OLTP vs OLAP (1) Źródło do przetwarzania Cecha OLTP OLAP Dane operacyjne Dane skonsolidowane (dane surowe pochodzą z systemów OLTP) Cel Obsługa podstawowych procesów Wspomaganie planowania, podejmowania biznesowych (sprzedaż, rezerwacja, ) decyzji Zawartość Bieżący stan procesów biznesowych Bieżący stan procesów biznesowych + historia, wielowymiarowe spojrzenie na różne aktywności biznesowe Czas w Tylko dane bieżące Dane bieżące + dane historyczne Profil użytkownika Pracownik operacyjny (sprzedawca, pracownik centrum rezerwacji, ) Decydent, analityk Profil zapytań Proste, zwykle zwracające kilka rekordów, Bardzo złożone, wymagające agregacji, zapytania tworzą dobrze znany zbiór przetwarzające dużo, często tworzone ad-hoc Czas odpowiedzi na zapytania Miara wydajności Zwykle bardzo szybki (maks. kilka sekund) Przepustowość liczba transakcji na sekundę Zależny od rozmiaru przetwarzanych, może sięgnąć wielu godzin Czas odpowiedzi OLTP vs OLAP (2) Cecha OLTP OLAP Tryb dostępu do Zarówno odczyt jak i zapis Użytkownicy tylko odczyt, zapis tylko przez proces odświeżania hurtowni Model Dwuwymiarowy Wielowymiarowy Struktura bazy (w modelu relacyjnym) Wysoce znormalizowana z dużą ilością tabel Najczęściej zdenormalizowana z niewielką ilością tabel (dla modelu ROLAP) na podstawie http://www.rainmakerworks.com/ 17 18 Aktywności w hurtowni (1) Aktywności w hurtowni (2) 1. Sesje analityczne użytkowników: realizowane w celu przeprowadzenia analiz biznesowych podaj przychód ze sprzedaży produktu X w sklepach sieci Y w trzecim i czwartym kwartale 2008 r. ) składają się z serii zapytań analitycznych główna aktywność hurtowni 2. Ładowanie hurtowni : realizowane tylko raz w procesie wdrożenia hurtowni pierwsze wypełnienie hurtowni danymi pobranymi ze źródeł kroki składowe procesu: 1. ekstrakcja ze źródeł 2. przekształcanie (czyszczenie, uspójnianie, eliminacja powtórzeń, sprowadzenie do wspólnego formatu, itd.) 3. zapisanie w hurtowni 4. wyliczenie zagregowanych 3. Odświeżanie hurtowni : uaktualnienie hurtowni zmianami, jakie zaszły w źródłach od momentu ostatniego procesu odświeżenia lub ładowania, realizowane cyklicznie, kroki procesu identyczne jak w procesie ładowania hurtowni problemy: kiedy odświeżać dane? jak często odświeżać dane? odświeżać przyrostowo czy całkowicie? Procesy ładowania i odświeżania hurtowni noszą wspólną nazwę procesu ETL (ang. Extract, transform, and load) 19 20
Kategorie w hurtowni (1) Kategorie w hurtowni (2) 1. Dane elementarne (operacyjne): pozyskiwane bezpośrednio ze źródeł zapisywane w hurtowni w procesie ładowania i odświeżania duży poziom szczegółowości 3. Dane zagregowane: przetworzone dane elementarne niski stopień szczegółowości (wysoki stopień zagregowania) powstają w procesie agregacji 2. Dane historyczne: wersje elementarnych wcześniejsze od wersji aktualnej powstają w momencie pojawienia się nowej wersji aktualnych elementarnych w procesie odświeżania hurtowni 4. Metadane: opisują znaczenie, pochodzenie (źródła, sposoby przetwarzania) pozostałych hurtowni 21 22 Źródła dla hurtowni (1) Źródła dla hurtowni (2) Cechy: heterogeniczność: różne formaty składowania, np.: systemy zarządzania bazami (bazy relacyjne, obiektowe, obiektoworelacyjne, wielowymiarowe, ) pliki CSV pliki XML pliki www pliki arkusze kalkulacyjne dokumenty (doc, pdf, odf, ) systemy o specyficznym sposobie składowania (systemy spadkowe) Cechy (cd): heterogeniczność (cd): różne poziomy funkcjonalności wpływają na stopień skomplikowania procesu ETL: źródła kooperujące dostarczają automatycznych mechanizmów wykrywania zmian w ich zawartości i zawiadamiania HD o wykrytych zmianach; podział:» źródła aktywne np. system bazy z mechanizmem wyzwalaczy» źródła z mechanizmami replikacji np. system bazy z opcją replikacji źródła niekooperujące HD musi samodzielnie odczytać dane ze źródła; podział:» z możliwością wydawania zapytań np. systemy baz» udostępniające dziennik zmian np. systemy baz, systemy pocztowe» migawkowe udostępniają całą swoją zawartość bez jakichkolwiek mechanizmów filtracji, np. pliki płaskie różni producenci, np. systemy baz różne dialekty języka SQL 23 24
Źródła dla hurtowni (3) Cechy (cd): autonomiczność zmiany zawartości źródeł są niezależne od jakichkolwiek systemów zewnętrznych w stosunku do źródła źródło może ograniczać dostęp z zewnątrz do swoich np. pozwala na pobieranie swoich tylko w porach małej aktywności lokalnych użytkowników źródła hurtownia nie może wpływać na strukturę i sposób działania źródła źródło może zmienić strukturę swoich, hurtownia musi dostosować proces pobierania ze źródła do zmian i być może dokonać zmian struktury swoich 25