HURTOWNIE DANYCH. Krzysztof Goczyła. Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska. kris@eti.pg.gda.pl. K.



Podobne dokumenty
Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Hurtownie danych. 31 stycznia 2017

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Hurtownie danych a transakcyjne bazy danych

Wstęp do Business Intelligence

Modele danych - wykład V

Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Wprowadzenie do technologii Business Intelligence i hurtowni danych

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Hurtownie danych - przegląd technologii

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Wielowymiarowy model danych

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Plan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych wykład 3

Część I Istota analizy biznesowej a Analysis Services

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Business Intelligence

Hurtownia danych praktyczne zastosowania

Bazy analityczne (hurtownie danych, bazy OLAP)

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

OLAP i hurtownie danych c.d.

BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Schematy logiczne dla hurtowni danych

Spis tre±ci. Przedmowa... Cz ± I

Ewolucja technik modelowania hurtowni danych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Wprowadzenie do hurtowni danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

LITERATURA. Wprowadzenie do systemów baz danych C.J.Date; WNT Warszawa 2000

Pierwsze wdrożenie SAP BW w firmie

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Informatyzacja przedsiębiorstw

Zaawansowane systemy baz danych - ZSBD. Hurtownie danych 1. Problematyka hurtowni danych. Wykład przygotował: Robert Wrembel. ZSBD wykład 12 (1)

Co to jest Business Intelligence?

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

LITERATURA. C. J. Date; Wprowadzenie do systemów baz danych WNT Warszawa 2000 ( seria Klasyka Informatyki )

4. Znaczenie czasu w modelowaniu i strukturalizacji danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

SAS OLAP Cube Studio Wprowadzenie

Hurtownie danych i systemy wspomagania decyzji. Olaf Morawski Hewlett-Packard Polska Sp. z o.o., ul. Szturmowa 2A, Warszawa

Informatyka I BAZY DANYCH. dr inż. Andrzej Czerepicki. Politechnika Warszawska Wydział Transportu 2017

Kostki OLAP i język MDX

Systemy baz danych i hurtowni danych

PROJEKT HURTOWNI DANYCH DLA PRZEDSIĘBIORSTWA PRODUKCYJNO-HANDLOWEGO W ŚRODOWISKU MS SQL SERVER

Rozumie istotę i znacznie procesów ekstrakcji, transformacji i ładowania danych (ETL), zna wybrany język ETL oraz odpowiednie narzędzia.

Hurtownie danych w praktyce

1. Ewolucja systemów opartych na bazach danych 2. Czym się rożni modelowanie od strukturalizacji danych? Model danych Struktury (danych)

Ewolucja systemów baz danych

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

Hurtownie danych czyli jak zapewnić dostęp do wiedzy tkwiącej w danych

Problematyka hurtowni danych

Procesowanie i partycjonowanie Analysis Services od podszewki (300) Adrian Chodkowski Adrian.Chodkowski@outlook.com

Plan. Inteligencja bisnesowa (Bussiness Intelligence) Hurtownia danych OLAP

Opis spełnienia wymagań (PSBD)

Bazy danych i ich aplikacje

Modelowanie koncepcyjne hurtowni danych

Migracja XL Business Intelligence do wersji

Technologia informacyjna

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Analityka danych & big data

Informatyzacja przedsiębiorstw

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Wprowadzenie do hurtowni danych

Integracja i Eksploracja Danych

Hurtownie danych - przegląd technologii

COMARCH DATA WAREHOUSE MANAGER 6.2

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Hurtownie Danych i Business Intelligence: przegląd technologii

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Hurtownie danych - opis przedmiotu

SYSTEMY KLASY BI PLATFORMĄ EFEKTYWNEGO WSPÓŁDZIAŁANIA WSPÓŁCZESNYCH ORGANIZACJI. Piotr Zaskórski

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

PROJEKT WSPÓŁFINANSOWANY ZE ŚRODKÓW UNII EUROPEJSKIEJ W RAMACH EUROPEJSKIEGO FUNDUSZU SPOŁECZNEGO OPIS PRZEDMIOTU. Rozproszone Systemy Baz Danych

Baza danych. Modele danych

Rola analityki danych w transformacji cyfrowej firmy

Wprowadzenie do Hurtowni Danych

Prezentacja firmy WYDAJNOŚĆ EFEKTYWNOŚĆ SKUTECZNOŚĆ.

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego Bydgoszcz kontakt@softmaks.pl

Transkrypt:

HURTOWNIE DANYCH Krzysztof Goczyła Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska kris@eti.pg.gda.pl # 1

Część I. Tworzenie hurtowni danych 1. Co to jest hurtownia danych? 2. Model danych w hurtowni danych 3. Przykłady hurtowni danych i analiz biznesowych 4. Architektura logiczna hurtowni danych 5. Architektura fizyczna hurtowni danych 6. Obszary zastosowań 7. Planowanie implementacja hurtowni danych Literatura: V. Poe, P. Klauer, S. Brebst: Tworzenie hurtowni danych, WNT 2000 D. Mendrala, M. Szeliga: SQL 2008. Usługi biznesowe. Analiza i eksploracja danych. Helion 2009. R. Kimball: Data Warehouse Toolkit. J. Wiley&Sons, 1996. P. Ponniah: Data Warehousing. J. Wiley&Sons, 2001. W.H. Inmon: Building the Data Warehouse. J. Wiley&Sons, 2002. # 2

Co to jest hurtownia danych? (data warehouse) Scentralizowana nietransakcyjna baza danych przeznaczona do przechowywania informacji w długim horyzoncie czasowym globalnie w skali instytucji, w wielowymiarowych układach analitycznych i ukierunkowana na wyszukiwanie i analizowanie informacji bezpośrednio przez końcowych użytkowników. Tematyczny, zintegrowany, zależny od czasu, trwały zbiór danych, ukierunkowany na wspomaganie procesów podejmowania decyzji. # 3

Cechy hurtowni danych Baza danych Hurtownia danych to bardzo duża baza danych (setki GB, pojedyncze TB), przechowująca dane z długiego horyzontu czasowego. Taka baza danych optymalizowana jest pod kątem przetwarzania analitycznego, a nie transakcyjnego. # 4

Cechy hurtowni danych Przetwarzanie nietransakcyjne (analityczne) Operacje dokonywane na hurtowni danych: nie zmieniają zawartości bazy danych, wydobywają informacje w różnych przekrojach i agregacjach. Przetwarzanie typu OLAP (On-Line Analytical Processing): Przetwarzanie danych, którego celem są analizy trendów, analizy przekrojowe i inne analizy o charakterze strategicznym # 5 Przetwarzanie transakcyjne (w bazach danych): OLTP (On-Line Transactional Processing) 100 90 80 70 60 50 40 30 20 10 0 1. Kw 2. Kw 3. Kw 4. Kw

Cechy hurtowni danych Scentralizowanie Dane pochodzące z wielu różnych systemów baz danych zbierane są do jednego miejsca (scentralizowanej bazy danych), gdzie rezyduje hurtownia danych. W tym miejscu realizowane są: obróbka i przetwarzanie danych analizy (za pomocą narzędzi typu business intelligence) prezentacja danych i wyników # 6

Cechy hurtowni danych Globalność Hurtownia danych obejmuje całe przedsiębiorstwo (organizację, instytucję,...). Zawiera wszystkie, kompletne dane dotyczące określonej dziedziny działalności przedsiębiorstwa (w przeciwnym razie wyniki analiz OLAP mogą nie być miarodajne). Gdy dane w hurtowni obejmują tylko pewien wycinek danych globalnych: minihurtownia (podhurtownia, zbiorcza baza danych, data mart) # 7

Cechy hurtowni danych Wspomaganie podejmowania decyzji Business intelligence Hurtownie danych - podstawa do tworzenia systemów wspomagania decyzji o charakterze strategicznym dla firmy (DSS, Decision Support System; BI, business intelligence): silne narzędzia analityczne wydajne przetwarzanie ogromnych ilości danych przyjazne dla użytkownika prezentowanie wyników? # 8

Cechy hurtowni danych Wielowymiarowy model danych Zasadnicze dane hurtowni przechowywane są w postaci faktów, mogących być przedmiotem analiz ilościowych. Z faktami kojarzone są miary o charakterze numerycznym. Wymiary o charakterze nienumerycznym służą do agregowania faktów względem różnych kryteriów (warunków określonych na wymiarach). Elementy wymiarów są tekstowymi etykietami opisującymi fakty. y z # 9 x

Cechy hurtowni danych - podsumowanie Bardzo duża baza danych Ładowana z zewnętrznych źródeł danych Przeznaczona tylko do odczytu Zorganizowana i zoptymalizowana pod kątem analiz przekrojowych i agregacji # 10

Wielowymiarowy model danych Sieć sprzedaży detalicznej S k l e p C z a s d2 s5 s4 s3 s2 s1 d1 d4 d3 p1 p2 p3 p4 p5 p6 Produkt kostka (cube) Produkt Sklep Czas wymiary (p i, s j, d k ) fakt sprzedaży produktu p i w sklepie s j dnia d k Możliwe miary: ilość sprzedanego produktu przychód ze sprzedaży koszt sprzedaży # 11

Przykłady analiz przekrojowych Wycinanie S k l e p C z a s d2 s5 s4 s3 s2 s1 d1 d4 d3 p1 p2 p3 p4 p5 p6 Produkt d4 d3 d2 d1 C z a s s3 p1 p2 p3 p4 p5 p6 Produkt Efekt: (p i, s 3, d k ) - wszystkie fakty sprzedaży w sklepie s 3 # 12

Przykłady analiz przekrojowych Wycinanie S k l e p C z a s d2 s5 s4 s3 s2 s1 d1 d4 d3 p1 p2 p3 p4 p5 p6 Produkt d3 d2 s3 s4 p2 p3 p4 Efekt: (p i, s j, d k ) - fakty sprzedaży w sklepie s 3 i s 4 produktów p 2, p 3, p 4 w dniach d 2, d 3 # 13

Przykłady analiz przekrojowych Rzutowanie S k l e p C z a s d2 s5 s4 s3 s2 s1 d1 d4 d3 p1 p2 p3 p4 p5 p6 Produkt Efekt: S k l e p s1 s2 s3 s4 s5 p1 p2 p3 p4 p5 p6 Produkt (p i, s j ) - agregacja sprzedaży poszczególnych produktów w poszczególnych sklepach w całym okresie Zazwyczaj domyślną agregacją dla miar jest sumowanie (funkcja SUM) # 14

Schemat gwiazdy Tablica wymiarów 1 1 1 Tablica wymiarów 3 n n Tablica faktów n n... Tablica wymiarów 2 1 1 Tablica wymiarów k Tablica faktów, z atrybutami liczbowymi (miarami, ang. measures) Tablice wymiarów, z atrybutami opisowymi (elementami wymiarów, ang. dimension members) Schemat gwiazdy schemat logiczny hurtowni danych # 15

Schemat gwiazdy - przykład Produkt Czas nr_dnia dzie ń miesi ąc rok... Sprzeda ż nr_produktu nr_sklepu nr_dnia przychód ilość koszt... nr_produktu nazwa kategoria dzia ł... Sklep nr_sklepu miasto województwo... Sprzedaż - tablica faktów, z miarami przychód, ilość, koszt, Czas, Produkt, Sklep - tablice wymiarów, z atrybutami będącymi elementami wymiarów nr_xxx... to atrybuty kluczowe # 16

Przykłady zapytań analitycznych Podaj wielkość sprzedaży (kwotowo i ilościowo) w roku 2008 wszystkich produktów z poszczególnych działów, we wszystkich sklepach. Wynik: Dział Przychód Ilość chemiczne 1345,90 3567 elektryczne 9878,00 456 papiernicze 6784,35 1765 spożywcze 12456,20 10345 Zapytanie SQL: SELECT p.dział, SUM(s.przychód), SUM(s.ilość) FROM Sprzedaż s, Produkt p, Czas c WHERE s.nr_produktu = p.nr_produktu AND s.nr_dnia = c.nr_dnia AND c.rok = 2008 GROUP BY p.dział ORDER BY p.dział # 17

Przykłady zapytań analitycznych Podaj wielkość sprzedaży (kwotowo i ilościowo) w roku 2008 wszystkich produktów z poszczególnych działów i kategorii, we wszystkich sklepach. Wynik: Dział Kategoria Przychód Ilość chemiczne farby 740,60 2557 chemiczne proszki 605,30 1010 elektryczne wtyczki 1550,50 123 elektryczne żarówki 8327,50 333 papiernicze piśmienne 684,00 1000 papiernicze zeszyty 6100,35 765 spożywcze mleczne 9500,10 7500 spożywcze pieczywo 956,10 2500 spożywcze wędliny 2000,00 345 Dodano jeden atrybut wymiaru Produkt: kategoria, uszczegóławiając obraz danych. rozwijanie danych (drilling down) # 18

Przykłady zapytań analitycznych Zapytanie SQL: SELECT p.dział, p.kategoria, SUM(s.przychód), SUM(s.ilość) FROM Sprzedaż s, Produkt p, Czas c WHERE s.nr_produktu = p.nr_produktu AND s.nr_dnia = c.nr_dnia AND c.rok = 2008 GROUP BY p.dział, p.kategoria ORDER BY p.dział, p.kategoria Poprzednio: SELECT p.dział, SUM(s.przychód), SUM(s.ilość) FROM Sprzedaż s, Produkt p, Czas c WHERE s.nr_produktu = p.nr_produktu AND s.nr_dnia = c.nr_dnia AND c.rok = 2008 GROUP BY p.dział ORDER BY p.dział # 19

Przykłady zapytań analitycznych Dział Przychód Ilość chemiczne 1345,90 3567 elektryczne 9878,00 456 papiernicze 6784,35 1765 spożywcze 12456,20 10345 zwijanie (drilling up) rozwijanie (drilling down) Dział Kategoria Przychód Ilość chemiczne farby 740,60 2557 chemiczne proszki 605,30 1010 elektryczne wtyczki 1550,50 123 elektryczne żarówki 8327,50 333 papiernicze piśmienne 684,00 1000 papiernicze zeszyty 6100,35 765 spożywcze mleczne 9500,10 7500 spożywcze pieczywo 956,10 2500 spożywcze wędliny 2000,00 345 # 20

Przykłady zapytań analitycznych Podaj zestawienie sprzedaży w 2008 roku według działów produktów, z dokładnością do miesiąca. Dział Miesiąc Przychód Ilość chemiczne styczeń 34,10 12 chemiczne luty 120,00 40............ chemiczne grudzień 20,50 10 elektryczne styczeń 321,90 87 elektryczne luty 421,00 101............ papiernicze styczeń 145,20 97............ Dział i Miesiąc to atrybuty różnych wymiarów # 21

Schemat gwiazdy Czas nr_dnia dzień miesi ąc rok... Sprzeda ż nr_produktu nr_sklepu nr_dnia przychód ilość koszt... Produkt nr_produktu nazwa kategoria dział... Sklep nr_sklepu miasto województwo... Niektóre atrybuty wymiarów mogą się wielokrotnie powtarzać (np. dział, województwo) redundancja danych # 22

Schemat płatka śniegu T11 T12 T32 T31 n n Tablica wymiarów 1 n n Tablica wymiarów 3 n n Tablica faktów n n n T33 Tablica wymiarów 2 Tablica wymiarów k n T211 n T21 Powstaje w wyniku normalizacji schematu gwiazdy # 23

Schemat płatka śniegu Kategorie Czas nr_dnia dzień miesi ąc rok... Sprzeda ż nr_produktu nr_sklepu nr_dnia przychód ilo ść koszt... Produkt nr_produktu nr_kategorii nazwa_p opis... Sklep nr_sklepu nr_miasta nazwa_s... nr_kategorii nr_działu nazwa_k opis... Miasta Działy nr_działu nazwa_d opis... nr_miasta nazwa_m województwo # 24 Pozwala usunąć redundancję i zredukować wielkość bazy danych Zmniejsza efektywność realizacji zapytań analitycznych Stosowany znacznie rzadziej niż schemat gwiazdy

Model hurtowni dla sieci bibliotek - fakty i miary Czas_wyp Książka nr_dnia_wyp dzień miesiąc rok... Czas_zwr nr_dnia_zwr dzień miesiąc rok... Wypożyczenie nr_książki nr_biblioteki nr_dnia_wyp nr_dnia_zwr... nr_książki tytuł autor wydawnictwo dział... Biblioteka nr_biblioteki nazwa miasto województwo wielkość_miasta... Fakt Wypożyczenie może nie mieć żadnych atrybutów liczbowych; wszelkie analizy będą bazować na liczbie faktów. Możemy sobie wyobrazić, że miarą jest liczba 1. Takiej miary jednak nie warto przechowywać, gdyż można zmienić domyślną funkcję agregującą na COUNT. # 25

Model hurtowni dla sieci bibliotek wymiary Wymiary Czas_wyp i Czas_zwr mogą być implementowane za pomocą jednej tablicy Czas o kluczu nr_dnia. Z jednej tablicy wymiarów można utworzyć wiele wymiarów: - Wydawnictwo: Książka.wydawnictwo - DziałLiteracki: Książka.dział - Wielkość: Biblioteka.wielkość_miasta - Położenie: Biblioteka.województwo Biblioteka.miasto Biblioteka.nazwa Położenie jest wymiarem hierarchicznym; Wydawnictwo, DziałLiteracki i Wielkość to wymiary kategoryjne. # 26 Zazwyczaj wymiar oznaczający czas jest wymiarem hierarchicznym; np. - Czas_wyp: Czas.rok Czas.miesiąc Czas.dzień

Przykłady zapytań analitycznych Podaj liczby wypożyczeń w roku 2008 według miast, uszeregowane w kolejności malejącej. Wynik: Miasto Ile Gdańsk 13667 Warszawa 10234 Poznań 9765 Wrocław 9345 Kraków 8231...... Zapytanie SQL: SELECT b.miasto, COUNT(*) AS Ile FROM Wypożyczenie w, Biblioteka b, Czas c WHERE w.nr_biblioteki = b.nr_biblioteki AND w.nr_dnia_wyp = c.nr_dnia AND c.rok = 2008 GROUP BY b.miasto ORDER BY Ile # 27

Przykłady zapytań analitycznych Rozwiń poprzednie zapytanie, uszczegóławiając je o działy książek. # 28 Wynik: Zapytanie SQL: Miasto Dział Ile Gdańsk beletr. 678 Gdańsk naukowe 100 Gdańsk słowniki 322......... Kraków beletr. 456 Kraków naukowe 99......... Poznań beletr. 377......... Warszawa beletr. 477......... SELECT b.miasto, k.dział, COUNT(*) AS Ile FROM Wypożyczenie w, Biblioteka b, Czas c, Książka k WHERE w.nr_biblioteki = b.nr_biblioteki AND w.nr_dnia_wyp = c.nr_dnia AND w.nr_książki = k.nr_książki AND c.rok = 2008 GROUP BY b.miasto, k.dział ORDER BY b.miasto, k.dział

Rodzina (konstelacja) gwiazd Tablica wymiarów Tablica faktów Tablica wymiarów Tablica wymiarów Tablica wymiarów Tablica wymiarów Tablica faktów Tablica faktów Tablica wymiarów Tablica wymiarów # 29

Rodzina gwiazd - przykład Produkt Sprzeda ż nr_produktu nr_sklepu nr_dnia przychód ilość koszt... nr_produktu nazwa kategoria dział... Sklep nr_sklepu miasto obszar... Dostawa nr_produktu nr_sklepu nr_dnia nr_dostawcy ilość koszt... Czas nr_dnia dzień miesiąc rok... Dostawca nr_dostawcy nazwa miasto województwo... # 30

Uwagi nomenklaturowe Tablica wymiarów Wymiar Atrybuty (tablicy) wymiarów Wymiary Atrybuty wymiarów Elementy wymiarów # 31

Przykład - MS SQL 2008 tablica Time Time Day Week Month Quarter Year Times Year Month Day atrybuty tablicy Time hierarchia Times # 32

Architektura logiczna hurtowni danych Model danych Metadane System plików Baza danych Baza danych ETL (Extract, Transform Load) Baza danych hurtowni Użytkownicy # 33

Wydobywanie danych (Extract) Proces ETL identyfikacja danych potrzebnych do analiz identyfikacja źródeł tych danych opracowanie procedur wydobywania danych Przekształcanie danych (Transform) opracowanie odwzorowań pomiędzy danymi źródłowymi a docelowymi - formaty danych, jednostki miar, skalowanie, opracowanie zasad czyszczenia danych - dane odstające, brakujące, Ładowanie danych (Load) przygotowanie pamięci (obszarów) na dane (staging area) opracowanie procedur ładowania ładowanie danych do tablic wymiarów ładowanie danych do tablic faktów tworzenie kostek # 34

Proces ETL przepływy danych pliki.csv,.xls, relacyjna baza danych kostki bazy danych ROLAP MOLAP # 35

Modele pamięci w hurtowniach danych ROLAP (Relational OLAP) Wszystkie dane przechowywane są w tablicach relacyjnej bazy danych (często w postaci źródłowej). + nie potrzeba dodatkowej pamięci - słaba efektywność MOLAP (Multidimensional OLAP) Wszystkie dane źródłowe ładowane są do specjalnych struktur wielowymiarowych, zoptymalizowanych pod kątem przetwarzania analitycznego. Wstępnie obliczane są agregaty. + najlepsza efektywność - wymaga dużo dodatkowej pamięci HOLAP (Hybrid OLAP) Rozwiązanie pośrednie: dane źródłowe przechowywane są w tablicach, natomiast agregaty są wstępnie obliczane i przechowywane w specjalizowanych strukturach wielowymiarowych. # 36

Architektura fizyczna hurtowni danych Agent A Agent B Agent C Sieć korporacyjna Zarządzanie hurtownią danych Hurtownia danych Sieć lokalna # 37

Obszary zastosowań Dziedzina Fakty Sieć sprzedaży detalicznej Sieć hurtowni Operator telekomunikacyjny Bank Instytucja ubezpieczeniowa Linie lotnicze Sieć meteo sprzedaż dostawa wysyłka połączenie operacja finansowa umowa szkoda przelot pomiar # 38

Producenci i produkty Serwery OLAP Hurtownie danych i narzędzia analityczne Oracle Corporation serwery Oracle 11g narzędzia OLAP IBM Corporation serwery DB2 hurtownia Visual Warehouse Informix Software Inc. serwery OnLine Dynamic Server hurtownia Metacube Microsoft Corporation serwer MS SQL 2005/2008 Sybase Inc. serwery Sybase IQ Arbor Software Corporation serwery Essbase Hyperion Red Brick Systems Inc. hurtownia Red Brick Warehouse SAS Institute pakiet SAS System Cognos Inc. narzędzia CognosSuite # 39

Planowanie hurtowni danych 1. Jakie informacje są potrzebne do podejmowania decyzji na poziomie strategicznym? 2. Czy odpowiednie dane są aktualnie gromadzone w miejscach działalności? Jeśli nie, to jakie nakłady są potrzebne, by je gromadzić? 3. Określ, jakiego rodzaju analizy danych będą potrzebne do podejmowania decyzji na poziomie strategicznym. 4. Zaprojektuj hurtownię danych (fakty, wymiary). Może potrzebnych jest kilka kostek? 5. Wybierz serwer OLAP i narzędzia business intelligence. Określ niezbędną konfigurację sprzętową i programową (koszty!). 6. Zidentyfikuj formaty danych, jakie są gromadzone w poszczególnych miejscach działalności. 7. Opracuj procedury przekazywania danych źródłowych do hurtowni danych. Określ sposób traktowania wartości brakujących i odstających. 8. Zaimplementuj hurtownię danych dla określonego wycinka działalności (np. dla jednego rodzaju usług, dla jednego obszaru geograficznego itp.). 9. Oceń efekty poprzedniego kroku. Podejmij decyzję o wdrożeniu globalnym. 10. Starannie monitoruj funkcjonowanie hurtowni. # 40

Business Dimensional Lifecycle Cykl planowania, projektowania i implementacji rozwiązania typu business intelligence # 41

Project Planning (planowanie przedsięwzięcia) Na szeroką skalę prowadzona koordynacja zasobów, istniejącej infrastruktury, harmonogramów i komunikacji pomiędzy poszczególnymi elementami projektu (projektami). # 42 Ocena gotowości, determinacji i finansowania Określenie zakresu Zapewnienie obsady zespołu Etap bardzo zależny od zdefiniowania wymagań biznesowych

Business Requirements Definition (definiowanie wymagań biznesowych) Etap niezwykle ważny dla sukcesu przedsięwzięcia Identyfikacja potrzeb biznesowych firmy, w tym priorytetów Określenie podstaw dla 3 współbieżnych ścieżek realizacji: o Architektura i technologia o Dane (źródła, modele, formaty, ) o Aplikacje analityczne # 43

Project Management (zarządzanie przedsięwzięciem) Zarządzanie przebiegiem przedsięwzięcia, w tym szczególnie: Zarządzanie zasięgiem przedsięwzięcia, śledzenie i monitorowanie postępów Zarządzanie komunikacją pomiędzy współbieżnie realizowanymi podprojektami # 44

Technical Architecture Design (projektowanie środowiska technicznego) Ustanowienie architektury umożliwiającej integrację różnych technologii, na podstawie : o wymagań biznesowych o aktualnego środowiska technicznego o strategicznych planów dot. wsparcia technicznego firmy # 45

Product Selection and Installation (wybór produktów i ich instalacja) Na podstawie zaprojektowanej architektury - ocena i wybór technologii i konkretnych narzędzi, w tym : o o o o infrastruktury (np. sieciowej) narzędzi do zarządzania danymi źródłowymi (bufory) narzędzi do przekazywania danych z miejsc ich powstawania repozytorium metadanych # 46

Dimensional Modelling (modelowanie wielowymiarowe, projektowanie logiczne) Modelowanie wielowymiarowe utworzenie logicznego modelu hurtowni danych : o adekwatność do potrzeb i zastosowania o wydajność # 47

Physical Design (projektowanie fizyczne) Utworzenie modelu fizycznego indeksowanie w obszarze pośrednim (ROLAP) partycjonowanie monitorowanie zasobów # 48

Extract, Transformation, and Load System Design and Development (zaprojektowanie i implementacja procesu ETL) Zdefiniowanie procesu ETL (Extract, Transform, Load) UWAGA: Zazwyczaj krok niedoszacowany co do niezbędnych nakładów i trudności realizacji # 49

BI Application Specification (specyfikowanie aplikacji BI)) Zdefiniowanie zbioru aplikacji, raportów, interfejsów, metod nawigacji itp. # 50

BI Application Development (projektowanie i implementacja aplikacji BI) Zaprojektowanie i implementacja aplikacji BI, szablonów, portalu, dokumentacji Zdefiniowanie niezbędnych szkoleń, Zdefiniowanie procedur obsługi i serwisu. # 51

Deployment (wdrożenie) Trzy współbieżne ścieżki (technologia, dane, aplikacje) muszą się spotkać przed rozpoczęciem wdrożenia Najtrudniejszy element procesu musi być doskonale zharmonizowany # 52

Maintenance and Growth (utrzymywanie i rozwój) Utrzymywanie: o monitorowanie o wspieranie użytkowników o komunikowanie się z użytkownikami o Rozwój: o analiza nowych inicjatyw, priorytetów, propozycji rozszerzeń o iterowanie całego procesu (od planowania) # 53