Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)



Podobne dokumenty
Wprowadzenie do technologii Business Intelligence i hurtowni danych

Schematy logiczne dla hurtowni danych

Hurtownie danych. 31 stycznia 2017

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Hurtownie danych a transakcyjne bazy danych

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Wielowymiarowy model danych

Modele danych - wykład V

Wstęp do Business Intelligence

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Plan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych

Informatyzacja przedsiębiorstw

Bazy analityczne (hurtownie danych, bazy OLAP)

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Business Intelligence

Hurtownie danych - przegląd technologii

Zaawansowane systemy baz danych - ZSBD. Hurtownie danych 1. Problematyka hurtowni danych. Wykład przygotował: Robert Wrembel. ZSBD wykład 12 (1)

Pierwsze wdrożenie SAP BW w firmie

4. Znaczenie czasu w modelowaniu i strukturalizacji danych

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Problematyka hurtowni danych

Systemy baz danych i hurtowni danych

Spis tre±ci. Przedmowa... Cz ± I

Część I Istota analizy biznesowej a Analysis Services

Ewolucja technik modelowania hurtowni danych

Projektowanie hurtowni danych

Plan. Inteligencja bisnesowa (Bussiness Intelligence) Hurtownia danych OLAP

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

OLAP i hurtownie danych c.d.

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Hurtownie danych wykład 3

Business Intelligence (BI) Hurtownie danych, Eksploracja danych. Business Intelligence (BI) Mnogość pojęć z okolic BI

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Hurtownie Danych. Dariusz Dymek

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5

Projektowanie hurtowni danych i modelowanie wielowymiarowe

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych - opis przedmiotu

Hurtownie danych w praktyce

SAS OLAP Cube Studio Wprowadzenie

Migracja XL Business Intelligence do wersji

Wprowadzenie do hurtowni danych

Porównanie wydajności hurtowni danych ROLAP i MOLAP w Oracle 10g

HURTOWNIE DANYCH. Krzysztof Goczyła. Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska. kris@eti.pg.gda.pl. K.

"Kilka słów" o strojeniu poleceń SQL w kontekście Hurtowni Danych wprowadzenie. Krzysztof Jankiewicz

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Modelowanie hurtowni danych

Informatyzacja przedsiębiorstw

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Projektowanie hurtowni danych i modelowanie wielowymiarowe

Wprowadzenie do hurtowni danych

Wprowadzenie do Hurtowni Danych

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA realizacja w roku akademickim 2016/17

Usługi biznesowe w SQL Server Omówienie oraz przykład zastosowania w przemyśle

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

Matematyka kodem nowoczesności. Zaproszenie do składania ofert

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Integracja systemów transakcyjnych

Wprowadzenie do projektowania i wykorzystania baz danych Relacje i elementy projektowania baz

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

PROJEKT WSPÓŁFINANSOWANY ZE ŚRODKÓW UNII EUROPEJSKIEJ W RAMACH EUROPEJSKIEGO FUNDUSZU SPOŁECZNEGO OPIS PRZEDMIOTU. Rozproszone Systemy Baz Danych

Migracja Business Intelligence do wersji

Hurtownie danych czyli jak zapewnić dostęp do wiedzy tkwiącej w danych

1. Ewolucja systemów opartych na bazach danych 2. Czym się rożni modelowanie od strukturalizacji danych? Model danych Struktury (danych)

Migracja Business Intelligence do wersji

Co to jest Business Intelligence?

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

ANALIZA DANYCH SYSTEMU ERP WYKORZYSTANIE KONCEPCJI BUSINESS INTELLIGENCE

Systemy Business Intelligence w praktyce. Maciej Kiewra

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Rola analityki danych w transformacji cyfrowej firmy

Microsoft Excel 2013: Budowanie modeli danych przy użyciu PowerPivot

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Migracja Business Intelligence do wersji

Modelowanie koncepcyjne hurtowni danych

Migracja Business Intelligence do wersji 11.0

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Migracja Comarch ERP Altum Business Intelligence do wersji 2019

Hurtownie danych - przegląd technologii

PRZEWODNIK PO PRZEDMIOCIE

Projektowanie hurtowni danych i modelowanie wielowymiarowe

Transkrypt:

Hurtownie danych dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki Maciej Zakrzewicz (1)

Plan wykładu Wprowadzenie do Business Intelligence (BI) Hurtownia danych Zasilanie hurtowni danych (ETL) Przetwarzanie OLAP Projektowanie hurtowni danych Podsumowanie Maciej Zakrzewicz (2)

Business Intelligence Technologia informatyczna służąca przekształcaniu dużych wolumenów danych w informacje, a następnie przekształcaniu tych informacji w wiedzę Adresowana do pracowników szczebla kierowniczego, wspomagająca podejmowanie ich decyzji Stawia drastyczne wymagania wydajnościowe,przede wszystkim z powodu ogromnych rozmiarów danych, które podlegają przetwarzaniu Skupiona wokół technologii hurtowni danych Maciej Zakrzewicz (3)

Business Intelligence - przykłady zastosowań Maciej Zakrzewicz (4)

Środowisko Business Intelligence model podstawowy systemy starej generacji decydent operacyjne bazy danych korporacyjna hurtownia danych (Enterprise Data Warehouse) aplikacje analityczne pliki zewnętrzne Maciej Zakrzewicz (5)

Środowisko Business Intelligence z obszarem składowania systemy starej generacji decydent operacyjne bazy danych obszar składowania korporacyjna hurtownia danych aplikacje analityczne pliki zewnętrzne Maciej Zakrzewicz (6)

Środowisko Business Intelligence z obszarem składowania i składnicami danych systemy starej generacji korporacyjna hurtownia danych decydent operacyjne bazy danych obszar składowania aplikacje analityczne pliki zewnętrzne oddziałowe składnice danych (data marts) Maciej Zakrzewicz (7)

Hurtownia danych - definicja Hurtownia danych to tematyczna baza danych, która trwale przechowuje zintegrowane dane opisane wymiarem czasu [Inmon96] Tematyczna baza danych dane dotyczą głównych obszarów działalności przedsiębiorstwa trwale przechowuje dane nie są zmieniane ani usuwane; hurtownia danych ma charakter przyrostowy zintegrowane dane dane dotyczące tego samego podmiotu stanowią całość opisane wymiarem czasu dane opisują zdarzenia historyczne, a nie tylko stan aktualny Maciej Zakrzewicz (8)

Porównanie hurtowni danych z systemami klasycznymi Cecha System klasyczny Hurtownia danych czas odpowiedzi aplikacji wykonywane operacje czasowy zakres danych ułamki sekundy sekundy DML sekundy godziny select 30-60 dni 2-10 lat organizacja danych według aplikacji tematyczna rozmiar małe duże duże wielkie intensywność operacji dyskowych mała średnia wielka Maciej Zakrzewicz (9)

Porównanie hurtowni danych ze składnicami danych Cecha Hurtownia danych Składnica danych zasięg wykorzystywania przedsiębiorstwo wydział zakres tematyczny wielotematyczna jednotematyczna liczba źródeł danych wiele 1 kilka czas implementacji i wdrożenia miesiące lata miesiące Maciej Zakrzewicz (10)

ETL: Extraction, Transformation, Loading Ekstrakcja: odczyt źródłowych danych z operacyjnych baz danych, systemów starej generacji, plików zewnętrznych Transformacja: łączenie danych, ich weryfikacja, walidacja, czyszczenie i znakowanie czasowe Wczytywanie: wprowadzanie danych do docelowej hurtowni danych Realizacja ETL jest najtrudniejszym zadaniem implementacji hurtowni danych (pochłania nawet 70% czasu) Maciej Zakrzewicz (11)

Dwa tryby pracy hurtowni danych Ładowanie danych zwykle wykonywane w regularnych odstępach czasu, w porze niskiej aktywności użytkowników Realizacja zapytań analitycznych podstawowy rodzaj obciążenia systemu hurtowni danych ETL Zapytania ETL Zapytania ETL Zapytania Zmienność charakterystyki obciążenia systemu hurtowni danych to poważny problem konfiguracyjny czas Maciej Zakrzewicz (12)

On-Line Analytical Processing (OLAP) W środowisku BI konstruuje się aplikacje, które w wydajny sposób realizują złożone analizy danych Umożliwiają analizę danych w trybie ad-hoc Użytkownicy określają swoje żądania, co do analizy danych, a system bezpośrednio je realizuje Przetwarzanie OLAP (ang. On-Line Analytical Processing), w odróżnieniu od klasycznego przetwarzania transakcyjnego OLTP (ang. On-Line Transaction Processing) Bezpośrednio wspomagają pracę pracowników szczebla kierowniczego Maciej Zakrzewicz (13)

Wielowymiarowy model danych Dane na potrzeby przetwarzania OLAP są w naturalny sposób przedstawiane w postaci wielowymiarowej Logiczne kostki stanowią sposób organizacji miar mających te same wymiary czas 1997-1996 - 1995-321 6mln 854 8mln 232 4mln 567 7mln 117 3mln 98 1mln sklep - Dallas 56 126 119 - Denver 1mln 2mln 3mln - Seattle produkt Thriller Comedy Drama Maciej Zakrzewicz (14)

Miary i wymiary Fakty (ang. facts), miary (ang. measures) Wartości ciągłe, numeryczne Typowe miary: wartość sprzedaży, koszt, zysk Wymiary (ang. dimensions) Wartości dyskretne, niezmienne lub rzadko zmienne Nadają znaczenie danym (miarom, faktom) Typowe wymiary: klient, czas, produkt, sklep Hierarchie (ang. hierarchies) umożliwiają organizację danych na różnych poziomach agregacji Poziom (ang. level) reprezentuje pozycję w hierarchii Atrybuty (ang. attributes) dostarczają dodatkowych informacji o danych, np. kolor, smak, dzień tygodnia Maciej Zakrzewicz (15)

Agregacja, konsolidacja, zwijanie wymiaru Przejście na ogólniejszy poziom wymiaru Wybór operacji agregującej miarę, np. suma, średnia Aggregation, consolidation, roll-up Maciej Zakrzewicz (16)

Rozwijanie wymiaru Przejście na bardziej szczegółowy poziom wymiaru Roll-down, drill-down Maciej Zakrzewicz (17)

Selekcja Wybór fragmentu danych poprzez zawężenie wartości wymiarów Slicing and dicing Maciej Zakrzewicz (18)

Obrót Zamiana miejscami wymiarów Wymiana wyświetlanych wymiarów Pivot Maciej Zakrzewicz (19)

Kroki technicznej implementacji systemu Business Intelligence Analiza wymagań Projekt logiczny hurtowni danych Implementacja struktur fizycznych hurtowni danych Implementacja oprogramowania ETL Realizacja aplikacji analitycznych Strojenie hurtowni danych Maciej Zakrzewicz (20)

Implementacje logicznego wielowymiarowego modelu danych Relacyjna implementacja modelu (ROLAP) Powiązane ze sobą relacje: relacje faktów i wymiarów Schematy logiczne: Schemat gwiazdy (ang. star schema) Schemat płatka śniegu (ang. snowflake schema) Konstelacja faktów (ang. fact constellation) Materializowane perspektywy dla wartości agregowanych Wielowymiarowa reprezentacja modelu (MOLAP) Dane fizycznie składowane w postaci wielowymiarowej Maciej Zakrzewicz (21)

Schemat gwiazdy relacje wymiarów CZAS id_czasu data_transakcji dzien_tygodnia czy_swieto relacja faktów PRODUKTY id_produktu nazwa_produktu typ_produktu kategoria_produktu departament SPRZEDAZ id_czasu id_produktu id_sklepu suma_sprzedazy suma_zysku liczba_klientow liczba_towarow miary SKLEPY id_sklepu nazwa_sklepu miejscowosc region atrybuty Maciej Zakrzewicz (22)

Charakterystyka schematu gwiazdy Centralna relacja faktów Zdenormalizowane relacje wymiarów (1NF) Relacja faktów połączona z relacjami wymiarów poprzez klucze główne i klucze obce Prosta struktura Duża efektywność zapytań ze względu na niewielką liczbę połączeń relacji Stosunkowo długi czas ładowania danych do relacji wymiarów ze względu na denormalizację Dominująca struktura dla hurtowni danych, wspierana przez wiele narzędzi Maciej Zakrzewicz (23)

Schemat płatka śniegu TYPY_PRODUKTOW id_typu typ_produktu KATEGORIE id_kategorii kategoria_produktu id_typu PRODUKTY id_produktu nazwa_produktu departament id_kategorii CZAS id_czasu data_transakcji dzien_tygodnia czy_swieto SPRZEDAZ id_czasu id_produktu id_sklepu suma_sprzedazy suma_zysku liczba_klientow liczba_towarow MIEJSCOWOSCI id_miejscowosci miejscowosc id_regionu SKLEPY id_sklepu nazwa_sklepu id_miejscowosci REGIONY id_regionu region Maciej Zakrzewicz (24)

Charakterystyka schematu płatka śniegu Centralna relacja faktów Znormalizowane relacje wymiarów (3NF) Spadek wydajności zapytań w porównaniu ze schematem gwiazdy ze względu na większą liczbę połączeń relacji Struktura łatwiejsza do modyfikacji Krótki czas ładowania danych do relacji (mniejszy rozmiar relacji) Wykorzystywany rzadziej niż schemat gwiazdy, gdyż efektywność zapytań jest ważniejsza niż efektywność ładowania danych do relacji wymiarów Maciej Zakrzewicz (25)

Konstelacja faktów Schemat stanowiący kombinację schematów gwiazd współdzielących niektóre wymiary Różne relacje faktów mogą odwoływać się do różnych poziomów danego wymiaru WYM_1 WYM_3 FAKT_1 FAKT_2 WYM_4 WYM_2 Maciej Zakrzewicz (26)

Charakterystyka relacji faktów i Relacja faktów: wymiarów Zawiera numeryczne miary Posiada wieloatrybutowy klucz główny złożony z kluczy obcych odwołujących się do wymiarów Największy rozmiar spośród relacji tworzących gwiazdę Typowo zawiera ponad 90% danych Jej rozmiar szybko się powiększa Maciej Zakrzewicz (27)

Charakterystyka relacji faktów i Relacje wymiarów: wymiarów Zawierają atrybuty opisowe Nadają znaczenie faktom Definiują przestrzeń faktów Zawierają dane stosunkowo statyczne Podlegają zmianom np. pojawianie się nowych klientów, produktów Maciej Zakrzewicz (28)

Technologie dla hurtowni danych Rozszerzenia języka SQL Uniwersalne narzędzia ETL Partycjonowanie relacji Indeksy bitmapowe Narzędzia implementacji aplikacji analitycznych Maciej Zakrzewicz (29)

Podsumowanie Cechy środowisk Business Intelligence Modele danych Zagadnienia wydajności Maciej Zakrzewicz (30)

Literatura uzupełniająca Matthias Jarke, Maurizio Lenzerini, Yannis Vassiliou: "Hurtownie danych - podstawy organizacji i funkcjonowania" Chris Todman: "Projektowanie hurtowni danych" Maciej Zakrzewicz (31)