Hurtownie danych w praktyce



Podobne dokumenty
Systemy Business Intelligence w praktyce. Maciej Kiewra

Business Intelligence

Część I Istota analizy biznesowej a Analysis Services

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

Hurtownie danych. 31 stycznia 2017

Maciej Kiewra Quality Business Intelligence Consulting

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Ewolucja technik modelowania hurtowni danych

Migracja XL Business Intelligence do wersji

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Procesowanie i partycjonowanie Analysis Services od podszewki (300) Adrian Chodkowski Adrian.Chodkowski@outlook.com

Pierwsze wdrożenie SAP BW w firmie

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

IBM DATASTAGE COMPETENCE CENTER

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Migracja Business Intelligence do wersji

SAS OLAP Cube Studio Wprowadzenie

Prezentacja firmy WYDAJNOŚĆ EFEKTYWNOŚĆ SKUTECZNOŚĆ.

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Hurtownie danych - przegląd technologii

Opis spełnienia wymagań (PSBD)

Migracja Business Intelligence do wersji

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Migracja Business Intelligence do wersji 11.0

Rady i porady użytkowe

Co to jest Business Intelligence?

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Migracja Business Intelligence do wersji

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

COMARCH DATA WAREHOUSE MANAGER 6.2

OLAP i hurtownie danych c.d.

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

dr inż. Maciej Kiewra Prezentacja wygłoszona na konferencji BI vs Big Data podczas Kongresu GigaCon Warszawa, r.

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Migracja Business Intelligence do wersji Aktualizacja dokumentu:

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego Bydgoszcz kontakt@softmaks.pl

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Triki i dobre praktyki

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Rola analityki danych w transformacji cyfrowej firmy

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Nowości w 3.1. Andrzej Solski. CONTROLLING SYSTEMS sp. z o.o.

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Opracowanie: Izabela Czepil i Andrzej Solski

Spis tre±ci. Przedmowa... Cz ± I

Analiza danych i data mining.

Migracja XL Business Intelligence do wersji

Metody automatyzacji sprawozdawczości w systemie asist. Agnieszka Hołownia-Niedzielska

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Misja. Strategia. Cele UNIT4 TETA BI CENTER. Plan prezentacji. Grupa UNIT4 TETA. Grupa kapitałowa UNIT4 UNIT4 TETA BI CENTER

Modele danych - wykład V

Wstęp do Business Intelligence

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Kasy Fiskalne Lublin Analityk

Bazy danych i ich aplikacje

Wprowadzenie do hurtowni danych

Migracja Comarch ERP Altum Business Intelligence do wersji 2019

Specjalizacja magisterska Bazy danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Moduł mapowania danych

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Wielowymiarowy model danych

Szczegółowy opis przedmiotu zamówienia

Hurtownie danych a transakcyjne bazy danych

Hurtownie danych wykład 3

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

INTENSE PLATFORM Zmiany w wersji Wersja 7.2

Proces ETL MS SQL Server Integration Services (SSIS)

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Analityka danych & big data

Bazy analityczne (hurtownie danych, bazy OLAP)

ANALYSIS SERVICES. 1. Tworzymy połączenie ze źródłem danych. 2. Tworzymy nowy widok dla źródła danych

Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.

Spis treści. Przedmowa

Analiza internetowa czyli Internet jako hurtownia danych

Informatyzacja przedsiębiorstw

Integracja systemów transakcyjnych

Modelowanie wielowymiarowe hurtowni danych

Hurtownie danych wykład 5

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Przedmiotem zamówienia jest dostawa:

Matematyka kodem nowoczesności. Zaproszenie do składania ofert

Nowe funkcje w programie SYMFONIA Środki Trwałe Forte w wersji 2008

Do Wykonawców Wrocław, 29 lipca 2014r. CUI-DOAZ CUI/ZP/PN/10/2014/.../...

Wprowadzenie do Hurtowni Danych

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

RO.BHMS. System obsługi rachunków i rejestrów klientów na rynku niepublicznym w Domu Maklerskim. Riskout sp. z o.o.

Bartłomiej Graczyk MCT,MCITP,MCTS

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Hurtownia danych praktyczne zastosowania

Transkrypt:

Hurtownie danych w praktyce Fakty i mity Dr inż. Maciej Kiewra

Parę słów o mnie... 8 lat pracy zawodowej z hurtowniami danych Projekty realizowane w kraju i zagranicą Certyfikaty Microsoft z Business Intelligence (Microsoft SQL Server 2005 i 2008) Od 2007 prowadzę firmę doradczą zajmującą się tworzeniem, audytowaniem, wdrażaniem i utrzymaniem hurtowni danych i wspierającego je oprogramowania Przez 3 lata pracownik dydaktyczno naukowy Politechniki Wrocławskiej (zajęcia z hurtowni danych)

Niezbędnym elementem każdej hurtowni danych są kostki OLAP. Fałsz kostki OLAP są tylko i wyłącznie pomocniczym sposobem organizacji danych. Kostki OLAP mogą być z powodzeniem pominięte np. gdy narzędzie do generowania raportów ad hoc jest w stanie automatycznie generować zapytania w języku SQL

W kostkach OLAP zapytania wykonują się szybciej niż w tabelach relacyjnych. Fałsz w kostkach OLAP będą wykonywały się szybciej zapytania wymagające agregacji w locie dużej ilości danych W tabelach będą wykonywały się szybciej zapytania krzyżujące dużą ilość danych opisowych bez agregacji (np. pokaż mi wszystkie faktury, wystawione wszystkim moim klientom na wszystkie możliwe usługi)

Narzędzia typu OLAP in memory pozwolą przygotować i wdrożyć średniej wielkości hurtownię w kilka tygodni Fałsz te cudowne narzędzia pozwalają dokonywać efektownych operacji na z góry przygotowanych danych Przy wdrażaniu zakłada się, że dane już są w jednym dużym zbiorze np. pliku tekstowym Przy dzisiejszych pojemnościach pamięci RAM wczytajmy cały plik do pamięci i po sprawie W ocenie czasu wdrożenia pomijane są takie czasochłonne operacje jak uzgadnianie danych z tabel źródłowych, definiowanie wspólnej bazy pojęć, czyszczenie danych itp.

Nawet jeśli nie wdrażamy kostek OLAP powinniśmy stosować model wielowymiarowy. Prawda organizacja danych w postaci tabel faktów i wymiarów jest ogólnie przyjętym sposobem organizacji danych w hurtowniach ze względu na: Fakt, że jest on powszechnie obowiązujący w branży Dużą czytelność dla użytkowników biznesowych Wydajność przy sporządzaniu zapytań Prostotę, elegancję oraz łatwą rozszerzalność

Dane w tabelach faktów powinny być maksymalnie zagregowane. Fałsz dane w tabelach faktów powinny być przechowywane na poziomie atomowym np. pozycja na fakturze zamiast tylko zbiorczej sumy Hurtownia danych powinny być przygotowana do sporządzenia dowolnych zestawień Przechowywanie danych zagregowanych znacznie je zubaża

Przy kopiowaniu danych z systemów źródłowych tabele docelowe nie powinny posiadać więzów integralności. Prawda więzy integralności (np. klucze obce) spowalniają proces kopiowania danych Kłóci się to z dobrą praktyką mówiącą o tym, że odczyt z systemów dziedzinowych powinien być tak krótki jak to tylko możliwe (uwaga na blokowania!!!)

Wprowadzenie hurtowni danych pozwala poprawić jakość danych w systemach dziedzinowych. Prawda nieodzownym elementem rozwoju hurtowni danych jest tzw. profiling danych pozwalający wykryć bardzo dużą liczbę błędów na źródle Część awarii po wdrożeniu hurtowni jest powodowana przez błędne dane źródłowe

Najlepszymi kandydatami na klucze główne w tabelach wymiarów są klucze główne z tabel dziedzinowych. Fałsz co zrobimy gdy do tabeli DIM_PRACOWNIK trzeba będzie kopiować osoby zatrudnione także we właśnie przejętej spółce posługującej się innym systemem kadrowym? Odwzorowanie tabela źródłowa tabela wymiaru nie zawsze jest 1 do 1

W hurtowni danych nie ma potrzeby przechowywania identyfikatorów z systemów dziedzinowych Fałsz identyfikatory te okazują się bardzo przydatne, gdyż: Znacząco ułatwiają diagnostykę W wymiarach ujednoliconych tzw. conformed dimension pozwalają w bardzo szybki sposób ocenić integrację tych samych danych z różnych systemów dziedzinowych

Przy kopiowaniu danych z systemów dziedzinowych dobrze jest zapisać dokładną kopię odczytanych danych Prawda są to tzw tabele stage owe, bardzo przydatne, gdyż: Ułatwiają prowadzenie diagnostyki i audytów (bez angażowania źródła) Pozwalają odtworzyć wykonanie procesu ETL w przypadku awarii bez ponownego łączenia się ze źródłem Dane na źródle są ulotne

Z systemów źródłowych nie kopiujemy niepełnych rekordów (np. faktury bez numeru NIP klienta) Fałsz bardzo rzadko systemy źródłowe posiadają pełne i czyste dane Brak w hurtowni części faktur sprzedażowych powoduje, że zmniejszamy obroty firmy!!! Rozwiązanie: kopiujemy niekompletną fakturę, a jej kontrahenta oznaczamy jako nieznanego

Przy tworzeniu raportów nie ma nic złego w krzyżowaniu danych z hurtowni z danymi z systemów dziedzinowych. Fałsz gdyż: System dziedzinowy może zostać wymieniony Może zmienić się struktura danych Dane z systemu źródłowego mogą być nieujednolicone lub zduplikowane Niebezpieczeństwo blokowań w systemach źródłowych

Liczby zmiennoprzecinkowe dobrze reprezentują wartości pieniężne Fałsz wartości pienieżne zazwyczaj podawane są do dwóch miejsc po przecinku Wartości pieniężne to liczby stałoprzecinkowe! Użycie liczb zmiennoprzecinkowych = błąd zaokrąglenia

Dziękuję za uwagę!