Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Podobne dokumenty
Hurtownie danych. 31 stycznia 2017

Część I Istota analizy biznesowej a Analysis Services

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Pierwsze wdrożenie SAP BW w firmie

Bazy analityczne (hurtownie danych, bazy OLAP)

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Hurtownie danych wykład 3

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Business Intelligence

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Zasady organizacji projektów informatycznych

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Procesowanie i partycjonowanie Analysis Services od podszewki (300) Adrian Chodkowski Adrian.Chodkowski@outlook.com

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

Co to jest Business Intelligence?

Modele danych - wykład V

Hurtownie danych w praktyce

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Spis tre±ci. Przedmowa... Cz ± I

Hurtownia danych praktyczne zastosowania

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Etapy życia oprogramowania

Migracja Comarch ERP Altum Business Intelligence do wersji 2019

Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych

Etapy życia oprogramowania. Modele cyklu życia projektu. Etapy życia oprogramowania. Etapy życia oprogramowania

Część I Rozpoczęcie pracy z usługami Reporting Services

Bartłomiej Graczyk MCT,MCITP,MCTS

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Wstęp do Business Intelligence

LANDINGI.COM. Case Study. Klient Landingi.com. Branża IT, marketing i PR. Okres realizacji od grudnia 2013 do chwili obecnej.

HP Service Anywhere Uproszczenie zarządzania usługami IT

Hurtownie danych a transakcyjne bazy danych

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Jarosław Żeliński analityk biznesowy, projektant systemów

Opis spełnienia wymagań (PSBD)

SAS Institute Technical Support

Jak przeprowadzić integracje pomiędzy aplikacjami dla uzyskania synergii

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

WPROWADZENIE DO BAZ DANYCH

Opracowanie: Izabela Czepil i Andrzej Solski

Jak uczyć się na błędach? Łukasz Malina WEBCON

<Nazwa firmy> <Nazwa projektu> Specyfikacja dodatkowa. Wersja <1.0>

Rady i porady użytkowe

Wielowymiarowy model danych

Bazy danych i ich aplikacje

Ewolucja technik modelowania hurtowni danych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Oferta szkoleniowa Yosi.pl 2012/2013

Wprowadzenie do Hurtowni Danych

Błędy procesu tworzenia oprogramowania (Badania firmy Rational Software Corporation)

Migracja XL Business Intelligence do wersji

Usługa archiwizacji danych w systemie Eureca. Marek Jelenik CONTROLLING SYSTEMS sp. z o.o.

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego Bydgoszcz kontakt@softmaks.pl

Faza Określania Wymagań

Monitoring procesów z wykorzystaniem systemu ADONIS

Księgarnia PWN: Kevin Kenan - Kryptografia w bazach danych. Spis treści. Podziękowania O autorze Wprowadzenie... 15

Wstęp do zarządzania projektami

OPIS PRZEDMIOTU ZAMÓWIENIA

Integracja danych ubezpieczeniowych w czasie rzeczywistym. Łukasz Szewczyk Solution Architect

BCC ECM Autorskie rozwiązanie BCC wspomagające zarządzanie dokumentami oraz procesami biznesowymi

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

Zarządzanie i realizacja projektów systemu Microsoft SharePoint 2010

Bezpieczeństwo aplikacji i urządzeń mobilnych w kontekście wymagań normy ISO/IEC oraz BS doświadczenia audytora

Jarosław Żeliński analityk biznesowy, projektant systemów

Hurtownie danych - przegląd technologii

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Szkolenie: Testowanie wydajności (Performance Testing)

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Systemy Business Intelligence w praktyce. Maciej Kiewra

Jarosław Kuchta Projektowanie Aplikacji Internetowych. Projektowanie warstwy danych

Logotec App Studio - zalety

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

BOC dla KJUF Podsumowanie warsztatów listopada 2011

nr sprawy: BZP ML Wrocław, dn. 29 stycznia 2014 r. INFORMACJA DLA WYKONAWCÓW NR 6

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Tematy projektów Edycja 2014

Usługi analityczne podstawy budowy kostki analitycznej Część druga - zarządzanie

Zajęcia prowadzone przez MCT, auditora wiodącego systemów bezpieczeństwa informacji.

Migracja Business Intelligence do wersji

Szczegółowy opis przedmiotu umowy. 1. Środowisko SharePoint UWMD (wewnętrzne) składa się z następujących grup serwerów:

Zapewnij sukces swym projektom

Portale raportowe, a narzędzia raportowe typu self- service

Wstęp do zarządzania projektami

Specjalizacja magisterska Bazy danych

OLAP i hurtownie danych c.d.

Wprowadzenie do metodologii modelowania systemów informacyjnych. Strategia (1) Strategia (2) Etapy Ŝycia systemu informacyjnego

BMC Control-M Wybrane przypadki zastosowania

Wprowadzenie do projektowania i wykorzystania baz danych Relacje i elementy projektowania baz

BUSINESS INTELLIGENCE DEVELOPMENT Tego Cię nauczymy:

Transkrypt:

Wprowadzenie do Hurtowni Danych Mariusz Rafało mrafalo@sgh.waw.pl

PROJEKTOWANIE WARSTWY DANYCH DETALICZNYCH - ZAGADNIENIA

Partycjonowanie Partycja jest wydzielonym miejscem na dysku, w którym przechowywane są określone dane Stworzenie partycji pozwala na skrócenie czasu dostępu do danych Tabela bez partycji Pobierz sprzedaż w roku 2015 Tabela z partycjami rocznymi Jedna partycja 2013 2014 2015 2016 Skanowanie całej partycji Zapytanie bezpośrednio do wskazanej partycji

Tworzenie partycji Dane w różnych partycjach nie mogą się powielać Wszystkie dane z tabeli muszą należeć do jakieś partycji Dane mogą być wskazane poprzez tabelę lub poprzez zapytanie

WERSJONOWANIE DANYCH

Wersjonowanie Wersjonowanie jest powszechnym zagadnieniem w problematyce hurtowni danych. Zdarza się np. że klient zmieni adres swojej siedziby a ta informacja powinna mieć odzwierciedlenie w systemie Istnieje kilka podejść do problemu wersjonowania elementów wymiarów Change Data Capture (CDC) ogół mechanizmów służących do wychwytywania zmian w bazie danych Slowly Changing Dimension (SCD) wykrycie zmiany w elemencie wymiaru oraz automatyczna reakcja na ta zmianę

SCD Slowly Changing Dimension (1) Nadpisanie wartości Zalety Prosta implementacja (przeliczenie agregatów!) Wady Brak historii (przekłamanie historii!) Stan przed: Id Klienta Imię Nazwisko Województwo 101 Anna Kowalska wielkopolskie Stan po: Id Klienta Imię Nazwisko Województwo 101 Anna Kowalska mazowieckie

SCD Slowly Changing Dimension (2) Dodanie nowego rekordu Zalety Prosta implementacja Zachowanie historii Wady Brak możliwości skojarzenia nowej wartości atrybutu z historycznymi faktami Stan przed: Id Klienta PESEL Imię Nazwisko Województwo Data od 101 76032465444 Anna Kowalska wielkopolskie 2016-01-01 Stan po: Id Klienta PESEL Imię Nazwisko Województwo Data od 101 76032465444 Anna Kowalska wielkopolskie 2016-01-01 123 76032465444 Anna Kowalska mazowieckie 2016-04-23

SCD Slowly Changing Dimension (3) Dodanie nowej kolumny Zalety Zachowanie historii Możliwości skojarzenia nowej wartości atrybutu z historycznymi faktami Wady Nieefektywność dla wielu atrybutów i wielu zmian Stan przed: Id Klienta Imię Nazwisko Województwo 101 Anna Kowalska wielkopolskie Stan po: Id Klienta Imię Nazwisko Województwo Województwo poprzednie 101 Anna Kowalska mazowieckie wielkopolskie

Inne sposoby wersjonowania (1) Określenie czasu obowiązywania wartości (bez znacznika) Stan przed: Id Klienta Imię Nazwisko Województwo Data_od Data_do 101 Anna Kowalska wielkopolskie 2016-01-01 Stan po: Id Klienta Imię Nazwisko Województwo Data_od Data_do 101 Anna Kowalska wielkopolskie 2016-01-01 2016-04-15 121 Anna Kowalska mazowieckie 2016-04-16

Inne sposoby wersjonowania (2) Określenie czasu obowiązywania wartości (ze znacznikiem) Stan przed: Id Klienta Imię Nazwisko Województwo Data_od Data_do Aktualny 101 Anna Kowalska wielkopolskie 2016-01-01 9999-12-31 T Stan po: Id Klienta Imię Nazwisko Województwo Data_od Data_do Aktualny 101 Anna Kowalska wielkopolskie 2016-01-01 2016-04-15 N 121 Anna Kowalska mazowieckie 2016-04-16 9999-12-31 T

Inne sposoby wersjonowania (3) Wersjonowanie przy użyciu identyfikatora Stan przed: Id Klienta Imię Nazwisko Województwo Id Klienta Poprzednie Aktualny 101 Anna Kowalska wielkopolskie T Stan po: Id Klienta Imię Nazwisko Województwo Id Klienta Poprzednie Aktualny 101 Anna Kowalska wielkopolskie N 121 Anna Kowalska mazowieckie 101 N 136 Anna Kowalska małopolskie 121 T

OBSŁUGA BRAKÓW DANYCH

Obsługa braków danych (1) Transakcje: Data Kod produktu Ilość 2016-04-05 AAA 45 2016-05-26 BBB 12 2016-04-23 CCC 89 Tabela faktów Wyznaczenie wartości Produkt Id na podstawie Kodu produktu Data Produkt Id Ilość 2016-04-05 1 45 2016-05-26??? 12 2016-05-26 2 89 Słownik Produkt Produkt Id Kod produktu Nazwa produktu 0 Brak danych 1 AAA Moduł A 2 CCC Moduł C 3 XXX Moduł X

Obsługa braków danych (2) Pomijamy dane, dla których brak informacji Informacja o braku odnotowana w logu LOG (Transakcje niezasilone) Data Kod produktu Ilość 2016-05-26 BBB 12 Transakcje: Data Kod produktu Ilość 2016-04-05 AAA 45 2016-05-26 BBB 12 2016-04-23 CCC 89 Dalsze działanie: Konieczne uzupełnienie słownika Ponowne zasilenie danych tym samym zakresem Tabela faktów Data Produkt Id Ilość 2016-04-05 1 45 2016-05-26 2 89

Obsługa braków danych (3) Wstawiamy rekord wartownika Tracimy informację pierwotną Możliwa różna interpretacja danych Tabela faktów Data Produkt Id Ilość 2016-04-05 1 45 2016-05-26 0 12 2016-05-26 2 89 Brak utraty źródłowej informacji Tabela faktów Dalsze działanie Uzupełnienie słownika Przeliczenie faktów Data Produkt Id Kod produktu Ilość 2016-04-05 1 AAA 45 2016-05-26 0 BBB 12 2016-05-26 2 CCC 89

Obsługa braków danych (4) Słownik uzupełniany online Zachowujemy informację Możliwy bałagan Tabela faktów Data Produkt Id Ilość 2016-04-05 1 45 2016-05-26 4 12 2016-05-26 2 89 Słownik Produkt Dalsze działanie Zarządzanie zawartością słownika (kontrola jakości danych) Produkt Id Kod produktu Nazwa produktu 0 Brak danych 1 AAA Moduł A 2 CCC Moduł C 3 XXX Moduł X 4 BBB Moduł B

PROJEKTOWANIE KOSTEK WIELOWYMIAROWYCH

Możliwości w zakresie przechowywania danych ROLAP (Relational OLAP) Rozwiązanie bazuje na strukturach relacyjnych Zaletą jest możliwość obsłużenia bardzo dużych ilości danych Wadą są wolne zapytania MOLAP (Multidimensional OLAP) Rozwiązanie bazuje na strukturach wielowymiarowych Charakteryzuje się szybką odpowiedzią na zapytania Duże możliwości w zakresie kalkulacji i budowy agregatów Silnik zoptymalizowany pod kątem przetwarzania analitycznego HOLAP (Hybrid OLAP) Połączenie obu rozwiązań, Dane detaliczne przechowywane są w strukturach relacyjnych (ROLAP) Agregaty budowane są w oparciu o wielowymiarową bazę danych (MOLAP)

MOLAP vs ROLAP vs OLAP Model Opóźnienie Szybkość zapytań Szybkość przetwarzania Rozmiar MOLAP Duże Szybko Wolno Duży ROLAP Niskie Wolno Szybko Mały HOLAP Średnie Średnio Szybko Średni

Przykład: Microsoft Analysis Services Low-Latency MOLAP Zarówno dane detaliczne jak i agregaty przechowywane są w kostce, Kostka przetwarzana jest co 30min. Medium-Latency MOLAP Zarówno dane detaliczne jak i agregaty przechowywane są w kostce, Kostka przetwarzana jest co 120min. Automatic MOLAP Kostka przetwarzana jest tylko na żądanie. Scheduled MOLAP Zarówno dane detaliczne jak i agregaty przechowywane są w kostce, Kostka przetwarzana jest zgodnie z harmonogramem.

Agregaty Agregat to obliczona i zapisana wartość kalkulowana Agregaty mogą znacząco zwiększyć wydajność zapytań MDX II poziom agregacji Polska 250.000PLN I poziom agregacji Region wschód 140.000PLN Region zachód 110.000PLN Dane detaliczne Białystok 100.000PLN Biała Podlaska 40.000PLN Poznań 90.000PLN Gorzów Wlkp. 20.000PLN

Poziom agregacji Duży poziom agregacji Agregaty wyliczone na przecięciach wielu wymiarów Duży rozmiar kostki Wolne przetwarzanie kostki Odciążenie kostki pod kątem kalkulacji(dane są już wyliczone, nie muszą być obliczane adhoc) Uzasadniony przy dużych ilościach danych w kostce, gdy kostka przetwarzana jest rzadko Mały poziom agregacji Agregaty wyliczone tylko w kluczowych przecięciach wymiarów Mały rozmiar kostki Duże obciążenie kostki podczas agregowania danych ad-hoc Szybkie przetwarzanie kostki Uzasadniony dla małych kostek, często przetwarzanych

Projektowanie agregatów System pozwala na automatyczne tworzenie agregatów na podstawie: Przewidywanej objętości na dysku Przewidywanego wzrostu wydajności Istnieje także możliwość monitorowania zapytań MDX trafiających na serwer od klientów Na podstawie statystyk uzyskanych w ten sposób można trafniej określić agregaty

CYKL PROJEKTOWY HURTOWNI DANYCH

Przyczyny niepowodzeń projektów 1. Niepełne wymagania - 13.1% 2. Brak zaangażowania użytkowników - 12.4% 3. Brak zasobów - 10.6% 4. Nierealne wymagania - 9.9% 5. Brak wsparcia ze strony wyższych szczebli zarządzania - 9.3% 6. Zmienne wymagania - 8.7% 7. Brak planowania - 8.1% 8. System przestał być potrzebny - 7.5% 9. Błędy w zarządzaniu - 6.2% 10. Nieznajomość technologii - 4.3% 11. Inne - 9.9% źródło: Chaos Report, http://www.standishgroup.com

Hurtownia danych jako proces Architektura techniczna Wybór i instalacja narzędzi Plan projektu Wymagania biznesowe Model danych Model fizyczny System zasilania Wdrożenie Utrzymanie i rozwój Specyfikacja warstwy prezentacji Wykonanie Warstwy prezentacji Zarządzanie projektem i jakością

Cyklprojektowy Faza 1: Uruchomienie projektu zdefiniowanie zakresu prac wybór architektury hurtowni danych ustalenie obsady projektu utworzenie harmonogramu projektu określenie wymagań technicznych systemu podział na tematy (określenie przyrostów) Faza 2: Wybór tematu w pierwszej kolejności przyrost dający najwięcej korzyści przy najmniejszych kosztach i najmniejszym ryzyku

Cykl projektowy Faza 3: Analiza wymagań ścisła współpraca z przyszłymi użytkownikami systemu a projektantami hurtowni cykliczne pojawianie się potrzeb informacyjnych określenie praw dostępu dla poszczególnych grup użytkowników Faza 4: Ocena wykonalności określenie dostępności danych określenie jakości danych

Cykl projektowy Faza 5: Projekt systemu modelowanie analiz projektowanie struktur danych projektowanie systemu zasilania określenie metadanych Faza 6: Implementacja stworzenie struktur danych inicjalne zasilenie systemu skonstruowanie aplikacji i raportów testowanie

Cykl projektowy Faza 7: Szkolenia przygotowanie materiałów szkoleniowych szkolenie administratorów szkolenie użytkowników

RYZYKA ZWIĄZANE Z HURTOWNIĄ DANYCH

Ryzyko techniczne Nowe narzędzia specjalne tryby pracy baz relacyjnych bazy wielowymiarowe/in memory narzędzia dostępu do danych Cloud computing Big data Nowe techniki modelowanie wielowymiarowe czyszczenie danych dystrybucja raportów przetwarzanie rozproszone

Ryzyko biznesowe Współpraca wielu wydziałów wielu firm wielu dostawców Zakres duża część organizacji założenia powiązane ze strategią trudności z zapewnieniem udziału kluczowych użytkowników

Dziękuję za uwagę