Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

Podobne dokumenty
Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Zasady projektowania hurtowni cd.

Hurtownie danych w praktyce

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Wprowadzenie do hurtowni danych

Baza danych. Modele danych

Opis spełnienia wymagań (PSBD)

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Hurtownie danych. 31 stycznia 2017

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Schematy logiczne dla hurtowni danych

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

SAS OLAP Cube Studio Wprowadzenie

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

Część I Istota analizy biznesowej a Analysis Services

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Spis tre±ci. Przedmowa... Cz ± I

Hurtownie danych - przegląd technologii

Miesiąc, dla którego będzie generowany raport. Tabela, grupowanie po Konsultancie

OLAP i hurtownie danych c.d.

Hurtownia danych praktyczne zastosowania

COMARCH DATA WAREHOUSE MANAGER 6.2

Hurtownie Danych Slowly Changing Dimension

Proces ETL MS SQL Server Integration Services (SSIS)

Hurtownie danych wykład 3

RELACYJNE BAZY DANYCH

Tworzenie tabel. Bazy danych - laboratorium, Hanna Kleban 1

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Standaryzacja danych w projekcie MICORE

Maciej Kiewra Quality Business Intelligence Consulting

ANALYSIS SERVICES. 1. Tworzymy połączenie ze źródłem danych. 2. Tworzymy nowy widok dla źródła danych

Wykład 2. Relacyjny model danych

Procesy ETL. 10maja2009. Paweł Szołtysek

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Pentaho DI część 1. Paweł Boiński Politechnika Poznańska, Instytut Informatyki

Budowa modeli wymagań dla Regionalnych Systemów Informacji Medycznej opartych o hurtownie danych

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Część 1: OLAP. Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych

Krzysztof Kadowski. PL-E3579, PL-EA0312,

Modelowanie wymiarów

Autor: Joanna Karwowska

Projektowanie hurtowni danych

HURTOWNIE DANYCH. Krzysztof Goczyła. Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska. kris@eti.pg.gda.pl. K.

Procesowanie i partycjonowanie Analysis Services od podszewki (300) Adrian Chodkowski Adrian.Chodkowski@outlook.com

Technologie Zasilania i Odświeżania Hurtowni Danych na przykładzie Pentaho DI część 6

Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.

Wstęp do Business Intelligence

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Migracja Business Intelligence do wersji

Hurtownie danych - przegląd technologii

Plan. Formularz i jego typy. Tworzenie formularza. Co to jest formularz? Typy formularzy Tworzenie prostego formularza Budowa prostego formularza

Szczegółowy opis przedmiotu zamówienia

Opracowanie: Izabela Czepil i Andrzej Solski

Opis przedmiotu zamówienia

Rola analityki danych w transformacji cyfrowej firmy

Relacyjny model baz danych, model związków encji, normalizacje

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

ETL - wykład III. Zagadnienia do omówienia. Identyfikacja wymagań

Business Intelligence

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Migracja Business Intelligence do wersji

Migracja XL Business Intelligence do wersji

Migracja Comarch ERP Altum Business Intelligence do wersji 2019

Migracja Business Intelligence do wersji 11.0

Koncepcja oprogramowania SELS

Transformacja modelu EER do postaci relacyjnego modelu danych. Zbyszko Królikowski

Biocentrum Ochota infrastruktura informatyczna dla rozwoju strategicznych kierunków biologii i medycyny POIG /09

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

1Executive summary Comarch ERP XLBI Wersja:

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

Migracja Business Intelligence do wersji

Hurtownie danych a transakcyjne bazy danych

Bazy danych. Bazy danych. Podstawy języka SQL. Dr inż. Paweł Kasprowski.

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych

Jakub Kisielewski.

Dane wejściowe. Oracle Designer Generowanie bazy danych. Wynik. Przebieg procesu

Ewolucja technik modelowania hurtowni danych

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Sterowany jakością dostęp do usług składowania danych dla e-nauki

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

SIECI KOMPUTEROWE I BAZY DANYCH

Monitoring procesów z wykorzystaniem systemu ADONIS. Krok po kroku

Migracja Comarch ERP Altum Business Intelligence do wersji

Moduł mapowania danych

UMOWY CYWILNOPRAWNE Instalacja, rejestracja i konfiguracja programu

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Hurtownia danych. Załącznik Nr 1 do SIWZ. Opis przedmiotu zamówienia. Lp. FUNKCJONALNOŚĆ/PARAMETRY WYMAGANE

Projektowanie bazy danych. Jarosław Kuchta Projektowanie Aplikacji Internetowych

Podstawowe zagadnienia z zakresu baz danych

Pierwsze wdrożenie SAP BW w firmie

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

WPROWADZENIE DO BAZ DANYCH

Transkrypt:

Proces ETL Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris, tegra}@eti.pg.gda.pl - 1 - Proces ETL - 2 - Wydobywanie danych (Extract) identyfikacja danych potrzebnych do analiz identyfikacja źródeł tych danych opracowanie procedur wydobywania danych Przekształcanie danych (Transform) opracowanie odwzorowań pomiędzy danymi źródłowymi a docelowymi (formaty danych, jednostki miar, skalowanie, ) opracowanie zasad czyszczenia danych (dane odstające, brakujące, ) Ładowanie danych (Load) przygotowanie pamięci (obszarów) na dane (staging area) opracowanie procedur ładowania ładowanie danych do tablic wymiarów ładowanie danych do tablic faktów tworzenie kostek 1

Data Profiling Statystyczna analiza i ocena danych po kątem ich dalszego wykorzystania w projekcie. c 1. Dane, z których źródeł danych zostaną załadowane do hurtowni danych. 2. Identyfikacja jak największej liczby możliwych problemów z danymi. 3. Identyfikacja metadanych. 4. Dane o danych: - Kto jest autorem danych? - Jaka jest struktura danych? - Kiedy dane powstały? - - 3 - Change Data Capture System Pierwsze ładowanie: Wszystkie dane historyczne zostają załadowane Ładowanie co określony przedział czasowy. Załaduj tylko te dane, które zmieniły się od ostatniego ładowania. - 4-2

Change Data Capture System podstawowe zadania 1. Wyizolowanie źródeł danych, w których nastąpiła zmiana. 2. Uchwycenie wszystkich zmian w danych, również tych wykonanych niestandardowymi interfejsami. 3. Oznacznikowanie danych w celu wyodrębnienia zmian związanych z poprawą błędów, a nie rzeczywistymi zmianami danych. 4. - 5 - Extract System - 6-3

Data Cleansing System 1. Wczesna diagnoza i ocena jakości danych. 2. Określenie wymagań na systemy źródłowe i zdefiniowanie procedury umożliwiających dostarczenie lepszych jakościowo danych. 3. Dostarczenie opisu błędów w danych możliwych do napotkania przez proces ETL. 4. Zaprojektowanie rozwiązania umożliwiającego wychwycenia wszystkich błędów związanych z jakością danych i precyzyjne monitorowanie metryk jakościowych w czasie. - 7 - Quality Screens (1) Column screens Testowanie danych w ramach jednej kolumny, np.: czy występuje niedozwolona wartość null, czy wartość jest poza zakresem, itd. Structure screens Testowanie zależności pomiędzy dwoma lub więcej kolumnami, np.: zależności klucz główny/klucz obcy, itd. Business rules screens Złożone testowanie zależności biznesowych - 8-4

Quality Screens (2) Zatrzymanie procesu Quality screens Przesłanie podejrzanych danych do oddzielnego pliku w celu ich późniejszego przetworzenia Oznacznikowanie danych i przesłanie ich do następnego etapu procesu - 9 - Generowanie elementów wymiarów Elementy wymiarów są wartościami opisowymi! Cena Data urodzenia Przedział cenowy Kategoria wiekowa - 10-5

Slowly Changing Dimension Manager Id pacjenta PESEL nazwisko i imię 4 70121201045 Zawadzka Teresa Płeć Wiek Data wstawienia Kobieta Pomiędzy 25 a 35 rokiem 15.11.2010 null Data aktualizacji Pacjent - 11 - Id_pacjenta PESEL (KB) nazwisko i imię płeć czy_ubezpieczony zawód wiek województwo miasto data_wstawienia data_aktualizacji Slowly Changing Dimension Manager Id pacjenta PESEL nazwisko i imię 4 70121201045 Zawadzka Teresa Płeć Wiek Data wstawienia Kobieta Pomiędzy 25 a 35 rokiem Data aktualizacji 15.11.2010 12.09.2015 Id pacjenta PESEL nazwisko i imię 89 70121201045 Zawadzka Teresa Płeć Wiek Data wstawienia Kobieta Pomiędzy 35 a 45 rokiem 12.09.2015 null Data aktualizacji Ulec zmianie może więcej niż jedna wartość atrybutu! - 12-6

Surogate Key Generator 1. Generowanie kluczy surogatowych podczas procesu ETL. 2. Generowanie kluczy surogatowych w bazie danych. - 13 - Date/Time Dimension Wymiary 1. Nie mają typowego źródła danych. 2. Są definiowane i ładowane przed uruchomieniem właściwego procesu ETL. Wymiar Inne 1. Przy stałej, znanej i nie za dużej liczbie krotek może być ładowany przed uruchomieniem właściwego procesu ETL. 2. W przeciwnym przypadku jest generowany w trakcie procesu ETL. - 14-7

Fakty (1) Zazwyczaj ładowane są po tabelach wymiarów. W celu wpisania faktu do tabeli należy pobrać klucze surogatowe z tabel wymiarów, a następnie wyliczyć wartości miar. - 15 - Przetwarzanie kostki Model wielowymiarowy RDBMS Mapowania Projekt Agregatów Przetwarzanie - 16-8

Co każdy student wiedzieć powinien Podstawowe zadania systemu ETL - 17-9