Hurtownie danych. Ładowanie, integracja i aktualizacja danych. http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH ETL



Podobne dokumenty
Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Hurtownie danych. Metadane i czynniki jakości. BAZA METADANYCH. Centralna hurtownia danych. Metadane

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Krzysztof Kadowski. PL-E3579, PL-EA0312,

Procesy ETL. 10maja2009. Paweł Szołtysek

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych. 31 stycznia 2017

OLAP i hurtownie danych c.d.

Część I Istota analizy biznesowej a Analysis Services

Hurtownie danych w praktyce

Spis tre±ci. Przedmowa... Cz ± I

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Przestrzenne bazy danych Podstawy języka SQL

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

PRZESTRZENNE BAZY DANYCH WYKŁAD 2

Systemy baz danych. mgr inż. Sylwia Glińska

2017/2018 WGGiOS AGH. LibreOffice Base

nr sprawy: BZP ML Wrocław, dn. 29 stycznia 2014 r. INFORMACJA DLA WYKONAWCÓW NR 6

Oracle11g: Wprowadzenie do SQL

Język SQL. instrukcja laboratoryjna. Politechnika Śląska Instytut Informatyki. laboratorium Bazy Danych

Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

Hurtownie danych - przegląd technologii

Pierwsze wdrożenie SAP BW w firmie

Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.

SQL Server i T-SQL w mgnieniu oka : opanuj język zapytań w 10 minut dziennie / Ben Forta. Gliwice, Spis treści

TP1 - TABELE PRZESTAWNE od A do Z

SZCZEGÓŁOWY HARMONOGRAM SZKOLENIA

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

Jarosław Kuchta Projektowanie Aplikacji Internetowych. Projektowanie warstwy danych

Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

WPROWADZENIE DO BAZ DANYCH

Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5

Przykłady najlepiej wykonywać od razu na bazie i eksperymentować z nimi.

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA realizacja w roku akademickim 2016/17

Relacyjne bazy danych. Podstawy SQL

Przykładowa baza danych BIBLIOTEKA

Część 1: OLAP. Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Laboratorium nr 5. Temat: Funkcje agregujące, klauzule GROUP BY, HAVING

Zakład Usług Informatycznych OTAGO

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0

Import danych z plików Excel. (pracownicy, limity urlopowe i inne)

LK1: Wprowadzenie do MS Access Zakładanie bazy danych i tworzenie interfejsu użytkownika

Bazy danych 2. Wykład 1

Opis spełnienia wymagań (PSBD)

Microsoft Excel 2013: Budowanie modeli danych przy użyciu PowerPivot

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

BAZY DANYCH LABORATORIUM. Studia niestacjonarne I stopnia

Moduł mapowania danych

Spis treści. Przedmowa

Ćwiczenia laboratoryjne nr 11 Bazy danych i SQL.

Projektowanie struktury danych

Projektowanie warstwy danych

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Modele danych - wykład V

Hurtownie danych a transakcyjne bazy danych

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Informatyka sem. III studia inżynierskie Transport 2018/19 LAB 2. Lab Backup bazy danych. Tworzenie kopii (backup) bazy danych

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0

T-SQL dla każdego / Alison Balter. Gliwice, cop Spis treści. O autorce 11. Dedykacja 12. Podziękowania 12. Wstęp 15

Część I Tworzenie baz danych SQL Server na potrzeby przechowywania danych

Zasady transformacji modelu DOZ do projektu tabel bazy danych

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Zamawiający dysponuje szerokim spektrum rozwiązań infrastrukturalnych. Wykonawca uzyska dostęp do infrastruktury w niezbędnym zakresie.

Instrukcja użytkownika programu QImport (wydanie II r.)

PLAN REALIZACJI MATERIAŁU NAUCZANIA Z INFORMATYKI II. Uczeń umie: Świadomie stosować się do zasad regulaminów (P).

Hurtownie danych - przegląd technologii

Usługa archiwizacji danych w systemie Eureca. Marek Jelenik CONTROLLING SYSTEMS sp. z o.o.

Relacyjne bazy danych. Podstawy SQL

Pojęcie bazy danych. Funkcje i możliwości.

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1

Moduł mapowania danych

Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych

Wprowadzenie (17) Część I. Makra w Excelu - podstawy (23)

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Projektowanie bazy danych przykład

OpenOfficePL. Zestaw szablonów magazynowych. Instrukcja obsługi

Wstęp do Business Intelligence

Bazy danych - wykład wstępny

K1A_W11, K1A_W18. Egzamin. wykonanie ćwiczenia lab., sprawdzian po zakończeniu ćwiczeń, egzamin, K1A_W11, K1A_W18 KARTA PRZEDMIOTU

Normalizacja baz danych

Instrukcja użytkownika programu QImport (wydanie I r.)

KOMPUTEROWY SYSTEM WSPOMAGANIA OBSŁUGI JEDNOSTEK SŁUŻBY ZDROWIA KS-SOMED

Bazy danych Access KWERENDY

Migracja XL Business Intelligence do wersji

BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego

Transkrypt:

Hurtownie danych Ładowanie, integracja i aktualizacja danych. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur INTEGRACJA DANYCH Źródła danych ETL Centralna hurtownia danych Do hurtowni danych trafiają informacje z bardzo zróżnicowanych źródeł: - relacyjnych baz danych (np. systemów transakcyjnych) - danych z przestarzałych systemów zastanych w przedsiębiorstwie - plików tekstowych, arkuszy kalkulacyjnych, urządzeń rejestrujących itp. Czyszczeniem i ujednolicaniem danych źródłowych od strony technicznej zajmują się programy typu ETL (Extraction, Transformation, Load). 1

INTEGRACJA W MODELU POJĘCIOWYM Integracja danych na poziomie pojęciowym to ustalenie wspólnego języka przekładającego terminy biznesowe modelu pojęciowego na obiekty występujące po stronie źródeł. Np. kto to jest klient? Czy wszystkie bazy źródłowe rozumieją to pojęcie w ten sam sposób? Jak przekształcić klienta pochodzącego z bazy danych oddziału zagranicznego na klienta według definicji naszej hurtowni? Jak dopasować zestawy cech opisujących klientów w różnych systemach źródłowych? Np. fakt sprzedaży w jednym systemie identyfikowany jest z wystawieniem faktury, a w innym z wydaniem towaru z magazynu. INTEGRACJA W MODELU POJĘCIOWYM Integracja danych na poziomie pojęciowym to również: - Selekcja informacji (pominięcie danych nieistotnych z punktu widzenia założonego modelu pojęciowego hurtowni). - Usuwanie redundancji w danych źródłowych. - Ustalenie reguł poprawności i kontroli jakości danych trafiających do hurtowni (np. minimalny współczynnik kompletności danych). Narzędzia ETL realizują integrację danych od strony technicznej. 2

EKSTRAKCJA Proces ekstrakcji polega na wybraniu informacji, które mają trafić do hurtowni, a następnie pozyskaniu tych informacji z baz źródłowych. Może to wymagać skomplikowanych zabiegów związanych np. ze śledzeniem zmian danych w czasie. Przykładowa architektura: pośrednia baza danych cyklicznie odpytuje źródło za pomocą SQL i gromadzi informacje poddawane następnie transformacji i ładowaniu do hurtowni. Zapytanie SQL: SELECT...dane_klienta... FROM klienci WHERE data_ostatniej_zmiany >... Baza pośrednia Wprowadzenie bazy pośredniej może ułatwić archiwizację danych. WYKRYWANIE ZMIAN: KLASYFIKACJA ŹRÓDEŁ Źródła niewspółpracujące współpracujące z dziennikiem powielane aktywne z mechanizmem migawek specjalne odpytywalne informujące z aktywnością wewnętrzną 3

ŚLEDZENIE ZMIAN Kiedy uruchomić proces ładowania i które dane są nowe? - Czasem dane mają jawnie podaną datę wprowadzenia do systemów źródłowych (lub możemy taką informację dodać). Alternatywnie możemy zapamiętać tylko informację, czy dany rekord został zarchiwizowany. - Jeśli możemy modyfikować systemy źródłowe oraz ich technologia na to pozwala - instalujemy wyzwalacze. Efektem ich działania może być aktywne powiadamianie hurtowni o zmianach, lub powstawanie tablicy różnic. Są to tablice, w których źródłowa baza danych zapisuje dodawane, usuwane i zmieniane rekordy (źródła z aktywnością wewnętrzną). ŚLEDZENIE ZMIAN - Śledzenie dziennika: Kontrola operacji w bazie danych poprzez śledzenie dziennika aktywności (np. przetwarzanych zapytań) bazy danych. - Jeśli nie możemy ingerować w systemy źródłowe, musimy zapamiętać, które dane zostały załadowane (mechanizm migawek: pamiętamy zakres kluczy, pełną listę kluczy, sumy kontrolne, w ekstremalnym przypadku przechowujemy pełną kopię danych źródłowych). - Niektóre źródła są odpytywalne (np. przez SQL), inne wymagają specjalnych programów do ekstrakcji z danych surowych (wrappers). 4

EKSTRAKCJA Przykłady zaawansowanych narzędzi ekstrakcji: wrapper cechy pacjenta Transformacje cechy pacjenta Hurtownia Dane źródłowe: baza zdjęć MRI Wrapper: algorytmy analizy obrazu wrapper Dane źródłowe: karty chorobowe pacjentów Wrapper: algorytmy analizy języka naturalnego TRANSFORMACJA Na transformację danych składają się wszelkie operacje dostosowujące treść i format danych do potrzeb hurtowni. Czyszczenie danych: wypełnianie pustych wartości zmiana formatu (daty, liczby) zmiana wartości (np. przeliczanie jednostek) ujednolicanie wartości (np. na podstawie słowników) utrzymanie integralności danych (więzy) Przykład: płeć w jednych systemach może być przechowywana jako M / K, w innych jako M / F. Systemy mogą się różnić formatem dat, formatem kropki dziesiętnej, nawet kodowaniem (ASCII / EBCDIC, standardy polskich znaków). 5

TRANSFORMACJA Przykłady operacji czyszczenia danych: Uzupełnienie brakującego kodu pocztowego na podstawie adresu. Wykrywanie i (w miarę możliwości) reperacja błędów literowych, słownikowych (błąd w nazwie miasta, których pełną listę mamy w bazie), formatu (nieistniejący numer telefonu zbyt mało cyfr). Normalizacja wartości: zamiana stringów czy spacja na NULL. Wydzielenie imienia i nazwiska z jednego, wspólnego pola tekstowego Niejednorodność może wynikać z różnego pochodzenia danych i ze zwykłych błędów podczas wypełniania. ŁADOWANIE Ładowanie danych do hurtowni to problem przede wszystkim techniczny. Metody postępowania: przekształcanie i ładowanie rekord po rekordzie zewnętrzna obróbka (scalanie, sortowanie) i ładowanie gotowych danych wykorzystanie dedykowanych, wydajnych mechanizmów docelowej bazy danych. Problemy: zapewnienie dyspozycyjności hurtowni (np. praca nocna) wydajność 6

PROBLEMY AKTUALIZACJI Źródła danych Centralna hurtownia danych Propagacja aktualizacji Jak wykrywać zmiany w danych źródłowych? Jak integrować zmienione dane w hurtowni danych? Jak aktualizować systemy pochodne (np. kostki danych w hurtowniach tematycznych)? Elementem odświeżania jest proces ekstrakcji, czyszczenia i integracji danych. PROPAGACJA AKTUALIZACJI Aktualizacja perspektyw Perspektywa (View) to tablica danych zdefiniowana jako wynik zapytania na innych relacjach. Perspektywa może być wirtualna (dane obliczane są na żądanie) lub zmaterializowana (dane są obliczone zawczasu, co pozwala na ich szybkie wykorzystanie). W drugim przypadku niezbędne jest odświeżenie perspektyw, gdy ulegną zmianie dane w hurtowni. Przykład: kostki danych. 7

KIEDY AKTUALIZOWAĆ? - Aktualizacja opóźniona (na żądanie, przy pierwszym użyciu po zmianie danych w hurtowni): - dłużej trwa pierwsze zapytanie; - nie musimy odświeżać tych perspektyw, których nie użyjemy; - Aktualizacja natychmiastowa (podczas odświeżania hurtowni): - dłużej trwa wsadowe przetwarzanie procesu aktualizacji; - przerzucamy kosztowne procesy na godziny nocne; - część aktualizacji może okazać się zbędna. - Optymalne rozwiązanie: analiza obejmująca częstość wykorzystania perspektyw i koszt wykonania aktualizacji natychmiastowej. JAK AKTUALIZOWAĆ? Aktualizacja może polegać na ponownym wykonaniu zapytania, które definiuje daną perspektywę. Jest to jednak rozwiązanie nieefektywne, szybsza metoda polega na modyfikacji danych na podstawie tablicy różnic (delta table). wyzwalacze Definicja kostki uwzględnienie zmian tablica różnic (zmienione, dodane lub skasowane rekordy) miasto_1 miasto_2 skl_1 - skl_3 suma prod_1 3-70... prod_2 0-23... prod_3 7-12... prod_4 0-1... prod_5 0-5... suma... -...... 8

OBSŁUGIWALNOŚĆ Najwygodniejsze w aktualizacji są perspektywy samoobsługowe: gdy nowa zawartość perspektywy może być obliczona na podstawie dotychczasowej zawartości perspektywy oraz zawartości tablicy różnic. Rodzaj perspektywy COUNT(*) SUM MIN, MAX COUNT DISTINCT AVG, MEDIAN Samoobsługowa? tak tak tak (tylko dodawanie danych) nie nie Nie można dowiedzieć się, jakie jest minimum wartości kolumny, jeśli znamy tylko dotychczasowe minimum i informację, że ta wartość została właśnie usunięta z bazy. CO AKTUALIZOWAĆ? Baza (repozytorium) metadanych źródło informacji o wzajemnych powiązaniach tablic. Możemy na tej podstawie wnioskować o tym, które perspektywy wymagają aktualizacji. Z punktu widzenia zastosowań OLAP: Tablica faktów: - bardzo częsta aktualizacja; - wyłącznie dodawanie nowych rekordów; - dane liczbowe (łatwo obsługiwalne). Tablica słownikowa (wymiary i atrybuty): - rzadka aktualizacja; - dodawanie, usuwanie i zmiana danych; - konieczna retrospekcja (notujemy, kiedy i jak zmieniły się dane). 9