Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.

Podobne dokumenty
Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Proces ETL MS SQL Server Integration Services (SSIS)

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Maciej Kiewra Quality Business Intelligence Consulting

Hurtownie danych - przegląd technologii

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Spis tre±ci. Przedmowa... Cz ± I

ETL - wykład III. Zagadnienia do omówienia. Identyfikacja wymagań

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

RAPORTY JAK SKALOWAĆ, OD JEDNEGO DO WIELU, CZYLI CO MANAGER MOŻE WYMYŚLIĆ NA PRZYKŁADZIE BAZY RAPORTUJĄCEJ Z VERSIONONE.

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Co to jest Business Intelligence?

COMARCH DATA WAREHOUSE MANAGER 6.2

Zamawiający dysponuje szerokim spektrum rozwiązań infrastrukturalnych. Wykonawca uzyska dostęp do infrastruktury w niezbędnym zakresie.

Integracja systemów transakcyjnych

Hurtownie danych i przetwarzanie analityczne - projekt

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych

DOKUMENTACJA BI SOW PFRON. Powykonawcza. dla BI INSIGHT S.A. UL. WŁADYSŁAWA JAGIEŁŁY 4 / U3, WARSZAWA. Strona 1 z 23

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Plan. Wprowadzenie. Co to jest APEX? Wprowadzenie. Administracja obszarem roboczym

Modele danych - wykład V

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Piotr Dynia. PowerPivot. narzędzie do wielowymiarowej analizy danych

Część 1: OLAP. Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych

ANALYSIS SERVICES. 1. Tworzymy połączenie ze źródłem danych. 2. Tworzymy nowy widok dla źródła danych

Część I Istota analizy biznesowej a Analysis Services

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

INTERNETOWE BAZY DANYCH materiały pomocnicze - wykład X

Problemy optymalizacji, rozbudowy i integracji systemu Edu wspomagającego e-nauczanie i e-uczenie się w PJWSTK

3. Budowa prostych raportów opartych o bazę danych

Architektury i technologie integracji danych

Hurtownie danych w praktyce

Wykład I. Wprowadzenie do baz danych

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Praktyczne aspekty pozyskiwania wiedzy z danych z perspektywy matematyka w bankowości (II zajęcia) Jakub Jurdziak

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

Sposób wypełniania arkuszy *.xls dla przedszkoli bez deklaracji

Kostki OLAP i język MDX

Załącznik nr 1e do Formularza Ofertowego

Dlaczego GML? Gdańsk r. Karol Stachura

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

System Zarządzania Forte Łączenie baz. Dokumentacja wdrożeniowa Wersja 2012

Komunikacja i wymiana danych

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych

Mechanizm generowania edeklaracji

Technologie Zasilania i Odświeżania Hurtowni Danych na przykładzie Pentaho DI część 6

TOPWEB Microsoft Excel 2013 i PowerBI Przygotowanie danych, analiza i efektowna prezentacja wyników raportów

Wstęp. Opis ten dotyczy wydziałów orzeczniczych.

Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

ZAPOZNANIE SIĘ ZE SPOSOBEM PRZECHOWYWANIA

Zajęcia prowadzone przez MCT, auditora wiodącego systemów bezpieczeństwa informacji.

Microsoft SQL Server Integration Services

Piotr Dynia. PowerPivot. narzędzie do wielowymiarowej analizy danych

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Power Query pobieranie i przetwarzanie danych w Excelu

Autor: dr inż. Katarzyna Rudnik

SZKOLENIE WPROWADZENIE DO R UNIWERSYTET SZCZECIŃSKI al. Papieża Jana Pawła II nr 22a Szczecin

Sekcja I: Instytucja zamawiająca/podmiot zamawiający

BAZY DANYCH LABORATORIUM. Studia niestacjonarne I stopnia

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Instrukcja migracji danych z bazy Derby do bazy Oracle

Moduł mapowania danych

Identyfikator komórki organizacyjnej, w której złożono deklarację

Instrukcja obsługi xserver

Wykład V. Rzut okiem na języki programowania. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Kadry Optivum, Płace Optivum. Jak przenieść dane na nowy komputer?

OPIS PRZEDMIOTU ZAMÓWIENIA

Przedmiotem zamówienia jest dostawa:

Część I Tworzenie baz danych SQL Server na potrzeby przechowywania danych

RÓWNOWAŻNOŚĆ ZAOFEROWANCH PAKIETÓW PROGRAMÓW BIUROWYCH

przestrzenna, wielowymiarowa prezentacja danych gromadzonych w Analitycznej Bazie Mikrodanych,

Kadry Optivum, Płace Optivum. Jak przenieść dane na nowy komputer?

Szczegółowy opis przedmiotu zamówienia

Laboratorium nr 4. Temat: SQL część II. Polecenia DML

Miejski System Zarządzania - Katowicka Infrastruktura Informacji Przestrzennej

ActiveXperts SMS Messaging Server

Metody automatyzacji sprawozdawczości w systemie asist. Agnieszka Hołownia-Niedzielska

P.2.1 WSTĘPNA METODA OPISU I

SAS Institute TECHNICAL SUPPORT )

Deduplikacja danych. Zarządzanie jakością danych podstawowych

Płace Optivum. 1. Zainstalować serwer SQL (Microsoft SQL Server 2008 R2) oraz program Płace Optivum.

Pentaho DI część 1. Paweł Boiński Politechnika Poznańska, Instytut Informatyki

Jednolity Plik Kontrolny

REFERAT O PRACY DYPLOMOWEJ

Rok akademicki: 2013/2014 Kod: STC s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

1. Zarządzanie informacją w programie Access

Przepływy danych. Oracle Designer: Modelowanie przepływów danych. Diagramy przepływów danych (1) Diagramy przepływów danych (2)

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ

IT CAMP Analiza danych dla analityków

Hurtownie danych wykład 5

Załącznik nr 1 do Instrukcji użytkownika minisiis, SIIS 5.x. Spis kodów błędów

4. Budowa prostych formularzy, stany sesji, tworzenie przycisków

Transkrypt:

Procesy ETL - wykład V Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2012 Struktura 1. Wprowadzenie 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków Wprowadzenie Procesy ETL 1

Wprowadzenie EKSTRAKCJA TRANSFORMACJA ŁADOWANIE - mechanizmy umożliwiające połączenie i pobranie danych ze źródeł - przykłady operacji (MS Visual Studio) lookup fuzzy lookup new column merge split - wykonywanie skryptów, - konwersja typów, - obsługa błędów. - mechanizmy umożliwiające połączenie i zapisanie danych do struktur docelowych Wprowadzenie Przykłady narzędzi: Oracle Warehouse Builder Microsoft SQL Server Integration Services (SSIS) Informatica PowerCenter Cognos Decisionstream BusinessObjects Data Integrator (BODI) Pentaho Data Integration (Kettle) - open source SAS ETL studio Wprowadzenie CZYSZCZENIE I OBRÓBKA DANYCH PO STRONIE ŹRÓDŁA łatwe definiowani e prostych operacji (krótki czas np. w arkuszu), możliwość skorzystania z widoków ALE permanentnoś ć zmian, trudniejsze wyłapywanie błędów (przeglądani e), dla każdego źródła w innym miejscu W PROCESACH ETL powtarzalność procesu, możliwa obsługa błędów, łatwe dołączani e kolejnych placówek ALE czasochłonne, często trudne konstruowani e procesu, POŚREDNIE 2

Wprowadzenie CZYSZCZENIE I OBRÓBKA DANYCH INNE MOŻLIWOŚCI po załadow aniu (np. uzupełni enie wartości, zapisanie danych o procesie), pośrednie (np. eksport z baz źródłowych do formatu arkusza kalkulacyjneg o, obróbka wstępna, potem ładowanie do HD), wieloetapow e (np. proces ETL zasila tabelę, która stanowi źródło dla kolejnego procesu ETL) DYSKUSJA: Proszę wskazać przykłady zastosowań wskazanych rozwiązań. Ekstrakcja Istotne aspekty: z uwzględnieniem możliwości źródeł (współpracujące lub nie patrz. Poprzedni wykład) opracowanie odpowiednich mechanizmów, z uwzględnieniem możliwości i wydajności systemów i łączy (np. równoległa realizacja procesów, dostęp w określonym czasie, dostosowanie łądowania do przepustowość łączy), z uwzględnieniem możliwości wybranych narzędzi (np. sposoby realizacji, sterowniki, mechanizmy dostępu). Ekstrakcja Przykład: źródła danych (Visual Studio 2008): 3

Ekstrakcja Przykład: definiowanie struktury dla źródła typu flat File (dla pliku *.csv). Ekstrakcja Przykład: brak menedżera dla bazy Access 2007 (spróbujemy pod koniec wykładu poradzić sobie korzystając z: http://www.microsoft.com/download/en/details.aspx?displaylang=en&id=237 34 ). Ekstrakcja Przykład struktury sterowników natywnych dla aplikacji z laboratorium (źródło: http://msdn.microsoft.com/enus/library/cc811599%28v=office.12%29.aspx #Ac2007DevelopingSolutions_CodeExamples ) 4

Transformacja Typowe problemy błędne dane analogie homonimy synonimy konflikty strukturalne brak danych atrybuty odbiegające od normy Transformacja Krótkie objaśnienie: błędne dane (np. czeski błąd przestawione cyfry przy wpisywaniu, pomyłki), homonimy - te same nazwy, ale opisujące różne pojęcia, np. bal zabawa, bal kłoda, typ jako model, typ jako rodzaj samochodu ), synonimy - różne nazwy, ale opisujące to samo pojęcie (np. typ jako model samochodu i model jako model samochodu; miejsce urodzenia i miasto), analogie atrybuty/cechy opisujące to samo, ale w różnym zakresie (np. rejon = pomorze odpowiadający trzem wojewodztwom, NIP postaci PL1111111111) Transformacja konflikty strukturalne reprezentowanie tych samych pojęć, ale przez różne konstrukcje (np. województwo reprezentowane poprzez DS oraz jako element struktury łącznie z kodem kraju PLDS ), atrybuty odbiegające od normy, np. zamiast miasta Wrocław, możemy spotkać Wroclaw, Wrocław Pn., brak danych. 5

Transformacja Mechanizmy porządkowania i standaryzacji danych: lookup umożliwia zamianę lub uzupełnienie wartości na podstawie tabeli referencyjnej (np. słownika), fuzzy lookup j.w., ale na zasadzie podobieństwa danych do wzorca; operacja pozwala np. na ujednolicenie pisowni miejscowości Wroclaw, Wrocław, wroclaw, Transformacja Mechanizmy porządkowania i standaryzacji danych: new column pozwala między innymi na dodanie nowej kolumny i uzupełnienie jej określonymi wartościami (np. automatycznie nadanymi numerami, czy wartościami wyliczonymi na podstawie innych danych), merge mechanizmy pozwalające na złączenie danych pozyskanych różnymi ścieżkami przetwarzania (np. z różnych źródeł), split mechanizm służący do podziału danych oraz zdefiniowanie reguł tego podziału. Transformacja Mechanizmy porządkowania i standaryzacji danych: inne jak na przykład konwersja typów, autonumerowanie (zastosowanie skryptów), wykonywanie operacji języka SQL, wykonanie operacji typu data mining. PRZYKŁAD: Analiza złącznik ksero. 6

Ładowanie Istotne aspekty: z uwzględnieniem możliwości i wydajności systemów i łączy (np. równoległa realizacja procesów z różnych oddziałów lub sekwencyjna, dostęp w określonym czasie, dostosowanie do przepustowości łączy), z uwzględnieniem możliwości wybranych narzędzi (np. sposoby realizacji, sterowniki, mechanizmy dostępu), z uwzględnieniem dodatkowych operacji, np. notacji informacji o procesie (np. stempel czasu, informacja o sukcesie), uruchomienia procesów agregacji, walidacja danych. STUDIUM PRZYPADKÓW PRZYKŁAD 1: Założenia: integrujemy dane osobowe z dwóch różnych systemów (np. dane o właścicielach lokali dla potrzeb łączących się firm dostarczających paliwo do ogrzewania lokali), dla uproszczenie: zintegrowano dane dotyczące adresów zameldowania ten sam ID oznacza ten sam adres zameldowania STUDIUM PRZYPADKÓW PRZYKŁAD 1: Zadanie: zintegrować osoby (źródła poniżej oraz ksero 2) 7

STUDIUM PRZYPADKÓW PRZYKŁAD 2: Założenia: źródło zawiera identyfikator deklaracji RZA (analizowanej przez nas wcześniej - dla przypomnienia postaci: rrrr mm nr ) zapisany w jednym atrybucie (jako kolumna w arkuszu kalkulacyjnym excel), Zadanie: zapisać w bazie docelowej jako trzy osobne atrybuty a) dokonując rozbicia po stronie źródła, b) dokonując rozbicia w trakcie procesu ETL. 8