Hurtownie Danych Slowly Changing Dimension

Podobne dokumenty
Technologie Zasilania i Odświeżania Hurtowni Danych

Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

Hurtownie danych. 31 stycznia 2017

Modelowanie wymiarów

Wprowadzenie do hurtowni danych

Projektowanie hurtowni danych

1 Przygotował: mgr inż. Maciej Lasota

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

KATOLICKI UNIWERSYTET LUBELSKI. Projekt Bazy Danych. Maciej Lis K A T O L I C K I U N I W E R S Y T E T L U B E L S K I

Przykłady normalizacji

Normalizacja tabel POSTACIE NORMALNE TABEL

Technologie Zasilania i Odświeżania Hurtowni Danych na przykładzie Pentaho DI część 6

Dane wejściowe. Oracle Designer Generowanie bazy danych. Wynik. Przebieg procesu

Posługiwanie się tabelami

Autor: Joanna Karwowska

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Krzysztof Kadowski. PL-E3579, PL-EA0312,

SAS OLAP Cube Studio Wprowadzenie

OLAP i hurtownie danych c.d.

BAZA DANYCH. Informatyka. ZESPÓŁ SZKÓŁ ELEKTRYCZNYCH Prowadzący: inż. Marek Genge

Pierwsza postać normalna

Plan. Raport. Tworzenie raportu z kreatora (1/3)

"Kilka słów" o strojeniu poleceń SQL w kontekście Hurtowni Danych wprowadzenie. Krzysztof Jankiewicz

Bazy danych. Plan wykładu. Diagramy ER. Podstawy modeli relacyjnych. Podstawy modeli relacyjnych. Podstawy modeli relacyjnych

SIECI KOMPUTEROWE I BAZY DANYCH

Cel normalizacji. Tadeusz Pankowski

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Wprowadzenie do Hurtowni Danych

Normalizacja. Pojęcie klucza. Cel normalizacji

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Ewolucja technik modelowania hurtowni danych

Baza danych. Modele danych

Technologia Informacyjna

4. Budowa prostych formularzy, stany sesji, tworzenie przycisków

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

Relacyjny model danych

Zaawansowane Modelowanie I Analiza Systemów Informatycznych

Definicja bazy danych TECHNOLOGIE BAZ DANYCH. System zarządzania bazą danych (SZBD) Oczekiwania wobec SZBD. Oczekiwania wobec SZBD c.d.

Część I Istota analizy biznesowej a Analysis Services

Ćwiczenia z Zaawansowanych Systemów Baz Danych

77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego.

Bazy danych - Materiały do laboratoriów VIII

WPROWADZENIE DO BAZ DANYCH

Model relacyjny bazy danych

Podstawowe zagadnienia z zakresu baz danych

Projektowanie hurtowni danych i modelowanie wielowymiarowe

Zasady transformacji modelu DOZ do projektu tabel bazy danych

Bazy danych. Andrzej Grzybowski. Instytut Fizyki, Uniwersytet Śląski

Technologia informacyjna

Bazy danych - wykład wstępny

Spis tre±ci. Przedmowa... Cz ± I

Normalizacja relacji

Bazy danych Ćwiczenia projektowe

2. Tabele w bazach danych

CAL Access 3 zajęcia 6. Raporty

2017/2018 WGGiOS AGH. LibreOffice Base

Związki pomiędzy tabelami

Informatyka I BAZY DANYCH. dr inż. Andrzej Czerepicki. Politechnika Warszawska Wydział Transportu 2017

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Bazy danych. dr inż. Arkadiusz Mirakowski

Technologie baz danych

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1

Transformacja modelu ER do modelu relacyjnego

Tabele przestawne jako narzędzie analizy biznesowej

Inżynieria Programowania Laboratorium 3 Projektowanie i implementacja bazy danych. Paweł Paduch paduch@tu.kielce.pl

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Tabela wewnętrzna - definicja

Microsoft Access materiały pomocnicze do ćwiczeń cz. 1

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Technologia informacyjna

Modele danych - wykład V

Wykład 4. SQL praca z tabelami 1

1 Wstęp do modelu relacyjnego

P o d s t a w y j ę z y k a S Q L

7. Formularze master-detail

Informatyka Ćwiczenie 10. Bazy danych. Strukturę bazy danych można określić w formie jak na rysunku 1. atrybuty

SQL Server i T-SQL w mgnieniu oka : opanuj język zapytań w 10 minut dziennie / Ben Forta. Gliwice, Spis treści

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Opracowanie: Izabela Czepil i Andrzej Solski

Wprowadzenie do projektowania i wykorzystania baz danych Relacje

Model relacyjny. Wykład II

Baza danych. Baza danych to:

TP1 - TABELE PRZESTAWNE od A do Z

Język SQL. Rozdział 9. Język definiowania danych DDL, część 2.

Systemy baz danych. mgr inż. Sylwia Glińska

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Normalizacja baz danych

030 PROJEKTOWANIE BAZ DANYCH. Prof. dr hab. Marek Wisła

LK1: Wprowadzenie do MS Access Zakładanie bazy danych i tworzenie interfejsu użytkownika

Optymalizacja poleceń SQL

Bazy danych. Algebra relacji

Wstęp do Business Intelligence

Perspektywy Stosowanie perspektyw, tworzenie perspektyw prostych i złożonych, perspektywy modyfikowalne i niemodyfikowalne, perspektywy wbudowane.

Systemy baz danych i hurtowni danych

Wprowadzenie do baz danych

Fizyczna struktura bazy danych w SQL Serwerze

Instytut Mechaniki i Inżynierii Obliczeniowej fb.com/groups/bazydanychmt/

Wykład 2. Relacyjny model danych

PLAN WYKŁADU BAZY DANYCH ZALEŻNOŚCI FUNKCYJNE

Transkrypt:

Hurtownie Danych Slowly Changing Dimension Krzysztof Jankiewicz Politechnika Poznańska Instytut Informatyki

Z założenia hurtownia danych zawiera dane trwałe nieulotne. Nieulotność wymusza wprowadzanie nowych danych do tabel faktów uwzględnienie zmian wartości w atrybutach wymiarów Zazwyczaj stosuje się następujące podejścia do tzw. wymiarów wolnozmiennych (ang. Slowly Changing Dimension) Type 0 brak jakichkolwiek działań Type 1 nadpisywanie Type 2 tworzenie nowych wersji danych Type 3 dodatkowe atrybuty przechowujące np. poprzednią wersję wartości wybranych atrybutów Type 4 przechowywanie poprzednich wersji danych w oddzielnych strukturach 2

type 0 Raz utworzone wartości wymiarów nie są modyfikowane Zmiany w źródłach danych dla wymiarów są ignorowane poprzednie wartości atrybutów obecne wartości atrybutów stałe wartości atrybutów wymiarów 285 26209 Snowshoe 1336 Benin City Drive 342 65583 Waynesville 1293 Nam Dinh Way 399 77850 Concord 734 Bchar Place 3

type 1 Modyfikacja wartości atrybutów wymiarów w źródłach powoduje nadpisanie wartości atrybutów w hurtowni danych poprzednie wartości atrybutów obecne wartości atrybutów przed aktualizacją po aktualizacji 285 26209 Snowshoe 1336 Benin City Drive 342 65583 Waynesville 1293 Nam Dinh Way 399 77850 Concord 734 Bchar Place 285 90001 Los Angeles 28 Stara Zagora Boulevard 342 81418 Eckert 1192 Tongilao Street 399 74082 Vera 953 Hodeida Street 4

type 2 poprzednie wartości atrybutów obecne wartości atrybutów przed aktualizacją po aktualizacji KL_ID KL_KOD KL_MIASTO KL_ULICA KL_SID KL_VER KL_START KL_STOP 285 26209 Snowshoe 1336 Benin City Drive 1 1 1900-01-01 2999-12-31 342 65583 Waynesville 1293 Nam Dinh Way 2 1 1900-01-01 2999-12-31 399 77850 Concord 734 Bchar Place 3 1 1900-01-01 2999-12-31 KL_ID KL_KOD KL_MIASTO KL_ULICA KL_SID KL_VER KL_START KL_STOP 285 26209 Snowshoe 1336 Benin City Drive 1 1 1900-01-01 2013-07-23 342 65583 Waynesville 1293 Nam Dinh Way 2 1 1900-01-01 2013-07-23 399 77850 Concord 734 Bchar Place 3 1 1900-01-01 2013-07-23 285 90001 Los Angeles 28 Stara Zagora Boulevard 4 2 2013-07-23 2999-12-31 342 81418 Eckert 1192 Tongilao Street 5 2 2013-07-23 2999-12-31 399 74082 Vera 953 Hodeida Street 6 2 2013-07-23 2999-12-31 5

type 3 poprzednie wartości atrybutów obecne wartości atrybutów przed aktualizacją po aktualizacji KL_ID KL_KOD KL_MIASTO KL_ULICA KL_KOD_OLD KL_MIASTO_OLD KL_ULICA_OLD 285 26209 Snowshoe 1336 Benin City Drive 342 65583 Waynesville 1293 Nam Dinh Way 399 77850 Concord 734 Bchar Place KL_ID KL_KOD KL_MIASTO KL_ULICA KL_KOD_OLD KL_MIASTO_OLD KL_ULICA_OLD 28 Stara Zagora 1336 Benin City 285 90001 Los Angeles Boulevard 26209 Snowshoe Drive 342 81418 Eckert 1192 Tongilao Street 65583 Waynesville 1293 Nam Dinh Way 399 74082 Vera 953 Hodeida Street 77850 Concord 734 Bchar Place 6

type 4 przed aktualizacją po aktualizacji poprzednie wartości atrybutów KLIENCI KL_ID KL_IMIE KL_NAZWISKO 285 Adam Nowak 342 Piotr Kowalski 399 Zofia Zając KL_ID KL_IMIE KL_NAZWISKO 285 Adam Nowak 342 Piotr Kowalski 399 Zofia Zając obecne wartości atrybutów ADRESY_KLIENTOW AD_SID AD_KOD AD_MIASTO AD_ULICA 1 26209 Snowshoe 1336 Benin City Drive 2 65583 Waynesville 1293 Nam Dinh Way 3 77850 Concord 734 Bchar Place AD_SID AD_KOD AD_MIASTO AD_ULICA 1 26209 Snowshoe 1336 Benin City Drive 2 65583 Waynesville 1293 Nam Dinh Way 3 77850 Concord 734 Bchar Place 4 90001 Los Angeles 28 Stara Zagora Boulevard 5 81418 Eckert 1192 Tongilao Street 6 74082 Vera 953 Hodeida Street 7

s 1-4 wpływ na tabele faktów Różne CDC mają różny wpływ na tabelę faktów Type 0 brak zmian Type 1 brak zmian Type 2 tabela faktów posiada klucz obcy oparty na sztucznym kluczu głównym tabeli wymiarów (ang. surrogate key) Type 3 bez zmian Type 4 dodatkowa tabela wymiaru, ze sztucznym kluczem głównym, wymaga dodatkowego klucza obcego w tabeli faktów 8

Własności SCD 1-4 podsumowanie Type 0 (ignoruj) ignorowanie zmieniających się wartości Type 1 (nadpisz) ignorowanie historycznych wartości Type 2 (dodaj wiersz) zapamiętywanie pełnej historii zmian identyczne traktowanie atrybutów niezmiennych i tych, dla których zmiany zachodzą szybko Type 3 (dodaj kolumnę) częściowe uwzględnianie historii zmian (np. dwa ostatnie zestawy wartości, pierwszy i ostatni zestaw wartości) Type 4 (dodaj mini wymiar) zapamiętywanie pełnej historii zmian rozróżnienie atrybutów niezmiennych i tych, dla których zmiany zachodzą szybko 9

5-7 Oprócz często wykorzystywanych SCD 1-4, stosowane są także bardziej wyrafinowane rozwiązania Type 5 dodatkowy mini wymiar + nadpisywany wskaźnik na bieżący zestaw wartości Type 6 nadpisywane atrybuty typu 1 + dodatkowe wiersze typu 2 Type 7 typ 2 + dodatkowy wymiar zawierający bieżące wartości (type 1) 10

type 5 W SCD type 4 (przypomnienie): W SCD type 5: type 5 = type 4 + type 1 (VIEW + AD_SID_AKTUALNY) 11

type 6 (1/2) Type 6 oparty jest na type 2 (kolejne wiersze z kolejnymi wersjami) rozszerzonym o atrybuty zawierające aktualną wartość. Powyższy zabieg pozwala dokonywać grupowania zarówno uwzględniając historyczne wartości atrybutów (type 2) jak i aktualne wartości atrybutów. Zaproponowany przez inżynierów HP w 2000 roku type 6 = type 2 + z atrybutami type 3 + modyfikowanymi zgodnie z type 1 12

type 6 (2/2) przed aktualizacją poprzednie wartości atrybutów obecne wartości atrybutów KL_ID KL_KOD KL_MIASTO KL_ULICA KL_KOD_A KL_MIASTO_A KL_ULICA_A KL_SID KL_VER KL_START KL_STOP 285 26209 Snowshoe 1336 Benin City Drive 26209 Snowshoe 1336 Benin City Drive 1 1 1900-01-01 2999-12-31 342 65583 Waynesville 1293 Nam Dinh Way 65583 Waynesville 1293 Nam Dinh Way 2 1 1900-01-01 2999-12-31 399 77850 Concord 734 Bchar Place 77850 Concord 734 Bchar Place 3 1 1900-01-01 2999-12-31 po aktualizacji KL_ID KL_KOD KL_MIASTO KL_ULICA KL_KOD_A KL_MIASTO_A KL_ULICA_A KL_SID KL_VER KL_START KL_STOP 285 26209 Snowshoe 1336 Benin City Drive 90001 Los Angeles 28 Stara Zagora Boulevard 1 1 1900-01-01 2013-07-23 342 65583 Waynesville 1293 Nam Dinh Way 81418 Eckert 1192 Tongilao Street 2 1 1900-01-01 2013-07-23 399 77850 Concord 734 Bchar Place 74082 Vera 953 Hodeida Street 3 1 1900-01-01 2013-07-23 285 90001 Los Angeles 28 Stara Zagora Boulevard 90001 Los Angeles 28 Stara Zagora Boulevard 4 2 2013-07-23 2999-12-31 342 81418 Eckert 1192 Tongilao Street 81418 Eckert 1192 Tongilao Street 5 2 2013-07-23 2999-12-31 399 74082 Vera 953 Hodeida Street 74082 Vera 953 Hodeida Street 6 2 2013-07-23 2999-12-31 13

type 7 Utrzymywane są dwa wymiary Type 2 kolejne wiersze z kolejnymi wersjami Type 1 z aktualnymi wartościami atrybutów (zazwyczaj w oparciu o perspektywę na wymiarze type 2) wykorzystany w perspektywie 14

s 5-7 wpływ na tabele faktów Type 5 dodatkowy klucz do wymiaru z często zmieniającymi się atrybutami Type 6 tabela faktów posiada klucz obcy oparty na sztucznym kluczu głównym tabeli wymiarów (ang. surrogate key) Type 7 dodatkowy klucz do wymiaru z często zmieniającymi się atrybutami 15