Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)

Podobne dokumenty
Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Architektury i technologie integracji danych

Ewolucja systemów baz danych

Integracja systemów transakcyjnych

Informatyzacja przedsiębiorstw

OLAP i hurtownie danych c.d.

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

Krzysztof Kadowski. PL-E3579, PL-EA0312,

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Systemy baz danych i hurtowni danych

Deduplikacja danych. Zarządzanie jakością danych podstawowych

ETL - wykład III. Zagadnienia do omówienia. Identyfikacja wymagań

Bazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000

Procesy ETL. 10maja2009. Paweł Szołtysek

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Projektowanie hurtowni danych

Hurtownie danych. Metadane i czynniki jakości. BAZA METADANYCH. Centralna hurtownia danych. Metadane

Transformacja wiedzy w budowie i eksploatacji maszyn

SZKOLENIE: Administrator baz danych. Cel szkolenia

Hurtownie danych - przegląd technologii

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Baza danych. Modele danych

Spis tre±ci. Przedmowa... Cz ± I

Technologia informacyjna (IT - Information Technology) dziedzina wiedzy obejmująca:

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl

SAS OLAP Cube Studio Wprowadzenie

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

Systemy baz danych. mgr inż. Sylwia Glińska

Bazy danych - wykład wstępny

Problemy optymalizacji, rozbudowy i integracji systemu Edu wspomagającego e-nauczanie i e-uczenie się w PJWSTK

Projektowanie baz danych

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA realizacja w roku akademickim 2016/17

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Pierwsze wdrożenie SAP BW w firmie

Rozproszone bazy danych. Robert A. Kłopotek Wydział Matematyczno-Przyrodniczy. Szkoła Nauk Ścisłych, UKSW

Projektowanie systemów informatycznych. Roman Simiński siminskionline.pl. Modelowanie danych Diagramy ERD

Problematyka hurtowni danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Spis treści. Przedmowa

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

Bazy danych 2. Wykład 1

Jarosław Żeliński analityk biznesowy, projektant systemów

Faza Określania Wymagań

Rozdział 1 Wprowadzenie do baz danych. (c) Instytut Informatyki Politechniki Poznańskiej 1

Bazy danych Wykład zerowy. P. F. Góra

Usługi analityczne budowa kostki analitycznej Część pierwsza.

SQL w 24 godziny / Ryan Stephens, Arie D. Jones, Ron Plew. Warszawa, cop Spis treści

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Specjalizacja magisterska Bazy danych

TOPWEB Microsoft Excel 2013 i PowerBI Przygotowanie danych, analiza i efektowna prezentacja wyników raportów

Pojęcie systemu informacyjnego i informatycznego

Ekspert MS SQL Server Oferta nr 00/08

Hurtownie danych a transakcyjne bazy danych

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

Dlaczego GML? Gdańsk r. Karol Stachura

PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA W NOWYM SĄCZU SYLABUS PRZEDMIOTU. Obowiązuje od roku akademickiego: 2011/2012

Bazy danych i ich aplikacje

DEKLARATYWNE ZARZĄDZANIE W MICROSOFT SQL SERVER

INŻYNIERIA OPROGRAMOWANIA

Wykład 1 Inżynieria Oprogramowania

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Część I Istota analizy biznesowej a Analysis Services

Jednolity Plik Kontrolny

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1

Pentaho DI część 1. Paweł Boiński Politechnika Poznańska, Instytut Informatyki

Wybrane problemy z dziedziny modelowania i wdrażania baz danych przestrzennych w aspekcie dydaktyki. Artur Krawczyk AGH Akademia Górniczo Hutnicza

Hurtownie danych - przegląd technologii

Technologia informacyjna

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Bezpieczeństwo systemów i lokalnej sieci komputerowej

Szczegółowy opis przedmiotu zamówienia

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Ewolucja technik modelowania hurtowni danych

Zaawansowane Systemy Baz Danych

Hurtownie danych. 31 stycznia 2017

Tytuł kursu: Oracle 11g XE Administracja (kompleksowe)

1 Instalowanie i uaktualnianie serwera SQL Server

7. zainstalowane oprogramowanie zarządzane stacje robocze

Projektowanie hurtowni danych i modelowanie wielowymiarowe

Transkrypt:

Proces ekstrakcji, transformacji i ładowania danych (Proces ETL) Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2008/09 Studia uzupełniajace magisterskie

Systemy baz i hurtowni danych wprowadzenie do wykładu Modele danych i ewolucja systemów baz danych Projektowanie hurtowni danych i modelowanie wielowymiarowe Proces ekstrakcji, transformacji i ładowania danych (Proces ETL) Systemy OLAP I Systemy OLAP II Systemy OLAP III

1 Proces ekstrakcji, transformacji i ładowania 2 Ekstrakcja danych 3 Transformacja i integracja danych 4 Ładowanie danych 5 Odświeżanie hurtowni danych 6 Podsumowanie

1 Proces ekstrakcji, transformacji i ładowania 2 Ekstrakcja danych 3 Transformacja i integracja danych 4 Ładowanie danych 5 Odświeżanie hurtowni danych 6 Podsumowanie

Proces ETL Proces ETL (ang. extraction-transformation-load) składa się z: ekstrakcji danych, transformacji i integracji danych, ładowania danych. Dodatkowym zagadnieniem mocno zwiazanym z procesem ETL jest odświeżanie hurtowni danych. Proces ETL powinien mieć swoje odbicie w metadanych hurtowni danych.

Architektura hurtowni danych

Fizyczne struktury hurtowni danych: Zcentralizowana Sfederowana Warstwowa

Zcentralizowana struktura hurtowni danych

Sfederowana struktura hurtowni danych

Warstwowa struktura hurtowni danych

Systemy mediacyjne: tradycyjne podejście do integracji heterogenicznych baz danych, niepotrzebny proces magazynowania danych, dane bieżace (również bardziej aktualne), potrzeba tłumaczenia zapytań do systemów heterogenicznych, zakłócanie procesów operacyjnych, wirtualna odmiana hurtowni danych.

Zadania narzędzi ETL: ekstrakcja (dostęp do różnorodnych źródeł danych), analiza i kontrola jakości danych (w tym czyszczenie danych), transformacje (np. pomiędzy formatami danych, językami), ładowanie (wprowadzanie danych do hurtowni), szybki transfer danych (ważne dla bardzo dużych hurtowni danych), odświeżanie danych, analiza i zarzadzanie metadanymi (podczas zarzadzania procesem magazynowania danych).

1 Proces ekstrakcji, transformacji i ładowania 2 Ekstrakcja danych 3 Transformacja i integracja danych 4 Ładowanie danych 5 Odświeżanie hurtowni danych 6 Podsumowanie

Tworzenie i korzystanie z hurtowni danych wymaga dostępu do danych z wielu różnorodnych źródeł informacji: systemów baz danych (relacyjnych, obiektowych, hierarchicznych, sieciowych, itp.), źródeł zewnętrznych (uzyskanych od innych przedsiębiorstw, z wyników badań ankietowych, specjalnych serwisów), plików standardowych typów (np. MS Excel), innych dokumentów (.doc, XML, WWW). Ekstrakcja danych z zewnętrznych źródeł odbywa się poprzez programy pośredniczace (gateways) i standardowe interfejsy (ODBC, JDBC, dostarczane przez dostawców systemów baz danych).

Źródła danych: Dane pochodza z systemów pracujacych na różnym sprzęcie: mainframe, maszyny wieloprocesorowe, komputery PC, komputery zewnętrznych usługodawców, Dane pochodza z różnych systemów operacyjnych: Windows, Unix, Linux systemy kodowania znaków: ASCII, EBCDIC, itp., Dane pochodza z różnego oprogramowania: MS Excel, pliki tekstowe, relacyjne bazy danych, sieciowe i hierarchiczne systemy baz danych (COBOL), systemy spadkowe, Dane pochodza z firm zewnętrznych (np.: dane geograficzne, dane marketingowe) i zewnętrznych serwisów (np.: kursy walut, kursy giełdowe). Dane pochodza z systemów operacyjnych, których model danych jest inny niż model danych analitycznych, Dane pochodza z systemów o różnej strukturze logicznej, W danych pojawiaja się konflikty (stad potrzeba integracji).

Ekstrakcja pożadanych informacji: Przykład Do hurtowni danych chcemy składować informacje na temat sprzedaży. Co to jest jednak sprzedaż? Brak jednoznaczności typowych określeń! moment złożenia zamówienia przez klienta, wysłanie zamówienia do klienta, wystawienie faktury dotyczacej zamówienia. W operacyjnej bazie danych może nie być relacji sprzedaż, w zamian może istnieć relacja zamówienie z atrybutem stan zamówienia

Monitorowanie zmian w źródłach danych Ekstrakcja dotyczy tylko danych, które zostały zmienione lub zostały wstawione do bazy danych, Monitorowanie zmian jest bezpośrednio zwiazane z problem odświeżania hurtowni danych, Metody zewnętrzne i inwazyjne, Różne mechanizmy wykrywania zmian jeden produkt może mieć zaimplementowanych wiele mechanizmów (np. RDBMS sa często źródłami aktywnymi, odpytywanymi i z dziennikiem).

Monitorowanie zmian w źródłach danych Źródła z mechanizmem migawek: np. plik, brak mechanizmów selekcji, porównywany jest aktualny stan źródła z poprzednim; znalezione, istotne zmiany propagowane sa dalej, Źródła specjalne: przestarzałe systemy spadkowe, które należy obsłużyć w dedykowany sposób (czasami w systemach takich można tworzyć tzw. pliki różnic), Źródła z dziennikiem: rejestrowane s a wszystkie akcje w ramach źródła danych (SZBD itp.),

Monitorowanie zmian w źródłach danych Źródła odpytywane: udostępniaja interfejs obsługi zapytań; źródła sa odpytywane i wynik zapytania jest porównywalny z poprzednim (część zmian może nie zostać wykryta w danym odstępie czasu dane zostały zapisane i usunięte). Źródła powielane: systemy wyposażone w system replikacji, Źródła informujace: systemy wyposażone w mechanizm wyzwalaczy, Źródła z aktywnościa wewnętrzna: podobnie jak wyżej, jednak wynik działania wyzwalacza nie jest widziany poza systemem, tworzone sa np. pliki różnic.

1 Proces ekstrakcji, transformacji i ładowania 2 Ekstrakcja danych 3 Transformacja i integracja danych 4 Ładowanie danych 5 Odświeżanie hurtowni danych 6 Podsumowanie

Transformacja i integracja danych Proces integracji jest najważniejszym aspektem hurtowni danych. Transformacja i integracja danych stanowi ok. 80% wysiłków w projektach wdrażania hurtowni danych. Polega na usuwaniu sprzeczności i nadmiarowych informacji z danych napływajacych do hurtowni z otoczenia operacyjnego, uwspólnieniu tych informacji oraz utworzeniu jednolitego obrazu danych gromadzonych przez instytucję. Integracja dotyczy zarówno integracji schematów, jak i samych danych.

Poziomy integracji Poziom schematu, Poziom relacji, Poziom krotki, Poziom wartości atrybutów.

Integracja schematów: Informacjami wejściowymi do procesu integracji jest zbiór schematów źródłowych, a wynikiem pojedynczy docelowy schemat, reprezentujacy jednolita, strukturalna reprezentację schematów wejściowych, Wynikiem procesu integracji jest również specyfikacja odwzorowania schematów źródłowych do schematu docelowego.

Konflikty i brudne dane: Konflikty różnorodności pojawiaja się, gdy schematy źródłowe wykorzystuja różne modele danych, Konflikty typów pojawiaja się, gdy ta sama informacja w oddzielnych systemach jest zapisana w różnych typach (numer konta bankowego może być zapisany jako String albo jako Numeric) Konflikty dziedzin pojawiaja się, gdy informacja jest zapisana za pomoca różnych dziedzin (np. płeć: M, F, male, female, 1, 0), Konflikty dat pojawiaja się, gdy daty trzymane sa w różnych formatach (np. dd-mm-yyyy oraz mm-dd-yyyy), Konflikty pól znakowych pojawiaja się, gdy pola te sa różnych rozmiarów (np. pole adresu może być ograniczone do 20 lub 50 znaków),

Konflikty i brudne dane: Konflikty nazewnictwa pojawiaja się, gdy różne schematy używaja różnej terminologii odnośnie tych samych danych (metadane opisujace dane źródłowe moga być niedostateczne): homonimy te same nazwy, używane do różnych pojęć (np. typy zamków), synonimy różne nazwy odnosza się do tego samego pojęcia (np. sex i gender), Konflikty semantyczne pojawiaja się, gdy pewne podobne pojęcia ze świata rzeczywistego sa modelowane na różnym poziomie abstrakcji (np. co to jest sprzedaż?), Konflikty strukturalne pojawiaja się, gdy te same pojęcia reprezentowane sa za pomoca różnych konstrukcji.

Konflikty i brudne dane: Różne formaty danych tych samych pól (np. informacja o nazwie województwa w polu adresu może być podana jako skrót lub pełna nazwa), Pola tekstowe moga ukrywać ważne informacje, np. nazwisko osoby odpowiedzialnej za kontakty dodane do pola adresu instytucji, Niezgodność wartości pola i jego opisu (np. pole name może zawierać nazwę instytucji, jak też nazwisko osoby), Sprzeczne dane na temat tego samego obiektu, wynikajace z pomyłek podczas wprowadzania danych, Niespójna informacja na temat tego samego obiektu ze świata rzeczywistego, Informacja dotyczaca tego samego obiektu, ale opatrzona różnymi kluczami głównymi, Brakujace wartości.

Czyszczenie danych: Zależy nam na analizowaniu danych i podejmowaniu decyzji potrzeba dobrych jakościowo danych.

Techniki czyszczenia danych: Funkcje konwersji i normalizacji przekształcajace i standaryzujace formaty danych (format daty dd/mm/rrrr, duże litery), Parsowanie pól tekstowych w celu identyfikacji i izolacji elementów i struktur danych: Standaryzacja (Jan Kowalski, magister mgr Jan Kowalski), Transformacja (podział tekstu na rekordy {tytuł = mgr, imię = Jan, nazwisko = Kowalski}), Funkcje czyszcz ace specjalnego zastosowania przeznaczone do czyszczenia poszczególnych typów pól z wykorzystaniem słowników ( ul. na ulica, bazy danych farmaceutycznych, bazy danych geograficznych i korekta danych adresowych, baza danych imion),

Techniki czyszczenia danych: Czyszczenie oparte na regułach, zbudowane przy użyciu zbioru reguł biznesowych określajacych warunki dopasowania wartości z różnych źródeł; proste reguły przekształcenia, np.: zastap gender poprzez sex Wykorzystanie dodatkowej wiedzy, np. adresy pocztowe do określania nazw miast, znajomość regularności wyrażeń, Rozszerzanie baz danych o dodatkowe informacje, np. geograficzne, itp., Odkrywanie reguł i relacji poprzez analizę danych. Racjonalizacja danych, czyli przekształcenie nieczytelnych danych do rozpoznawalnych oznaczeń (PHX323RFD110A4 Papier do drukarek laserowych, format A4),

Techniki czyszczenia danych: Identyfikacja duplikatów i deduplikacja, Grupowanie (ang. householding), Przykład Tim Jones 123 Main Street Marlboro MA 12234 T. Jones 123 Main St. Marlborogh MA 12234 Timothy Jones 321 Maine Street Marlborog AM 12234 Jones, Timothy 123 Maine Ave Marlborough MA 13324 Z każda krotka zwiazana jest sprzedaż o wartości ok. $500 Czy to jest jedna osoba?

1 Proces ekstrakcji, transformacji i ładowania 2 Ekstrakcja danych 3 Transformacja i integracja danych 4 Ładowanie danych 5 Odświeżanie hurtowni danych 6 Podsumowanie

Ładowanie danych: Po wydobyciu, oczyszczeniu i przekształceniu dane zostaja przesłane do hurtowni danych, Ładowanie danych składa się z następujacych procesów: sprawdzania ograniczeń integralnościowych, sortowania, agregowania i indeksowania danych, Klasycznie wykorzystywane jest ładowanie wsadowe, Należy zapewnić administratorowi możliwość monitorowania statusu, przerwania ładowania, zawieszenia, wznowienia i ponownego rozpoczęcia ładowania bez utraty spójności danych.

Ładowanie danych dotyczy: Bardzo dużej ilości danych, Może zajać bardzo dużo czasu, Może być traktowane jako jedna, pojedyncza ale bardzo długa transakcja; należy używać punktów kontrolnych w celu uniknięcia, w razie błędu, ponownego ładowania tak dużej ilości danych do hurtowni danych.

1 Proces ekstrakcji, transformacji i ładowania 2 Ekstrakcja danych 3 Transformacja i integracja danych 4 Ładowanie danych 5 Odświeżanie hurtowni danych 6 Podsumowanie

Odświeżanie hurtowni danych Odświeżanie hurtowni danych oznacza wprowadzanie uaktualnień ze źródeł danych do danych składowanych w hurtowni danych, Odświeżanie ma podobna strukturę jak proces ETL, Dostęp do świeżych danych jest jedna z kluczowych własności decydujacych o sukcesie hurtowni danych, Wymagania zwiazane z dziedzina zastosowań (np. świeżość danych, czas obliczania perspektyw i odpowiedzi na zapytania, dokładność danych), Ograniczenia zwiazane ze źródłami danych (np. okna dyspozycyjności, częstotliwość zmian), Ograniczenia systemowe hurtowni danych (np. wielkość dostępnego miejsca).

Główne trudności odświeżania hurtowni danych Ilość danych przechowywana w hurtowniach danych jest bardzo duża i rośnie z czasem, odświeżanie jest propagowane, co zwielokrotnia liczbę danych, Odświeżanie hurtowni danych wymaga uruchomienia wielu transakcji o różnym stopniu złożoności, niektóre bardzo złożone co osłabia wydajność procesu, Odświeżania odbywa się równolegle z obsługa zapytań, Dostępność źródeł danych.

Główne zagadnienia odświeżania hurtowni danych Wykrywanie zmian w źródłach danych, Obliczanie i ekstrakcja zmian, Zapamiętywanie zmian. Zdolność do ładowania danych udostępnianie danych źródłowych w sposób zrozumiały dla systemu docelowego. Monitorowanie zmian wykrywanie zmian, które maja znaczenia z punktu widzenia hurtowni danych. Przekazywanie aktualizacji perspektywom zmaterializowanym.

Rodzaje odświeżania hurtowni danych Okresowe, Natychmiastowe, Na ż adanie (określone przez wykorzystanie, typ danych lub typ źródła danych).

Główne różnice pomiędzy procesem ładowania i odświeżania danych Proces odświeżania może być asynchroniczny, Ładowanie danych wymaga zazwyczaj długiego dostępu do źródeł danych, Proces odświeżania powinien być dużo szybszy, Proces odświeżania dotyczy mniejszej ilości danych.

1 Proces ekstrakcji, transformacji i ładowania 2 Ekstrakcja danych 3 Transformacja i integracja danych 4 Ładowanie danych 5 Odświeżanie hurtowni danych 6 Podsumowanie

Podsumowanie Proces ETL jest elementem strategicznym w projektach hurtowni danych, Najważniejsze pojęcia: ekstrakcja, transformacja i integracja, ładowanie danych, odświeżanie hurtowni danych oraz metadane, Ciekawa, ciagle młoda dziedzina i technologia, Wiele ciekawych zagadnień badawczych i technologicznych.

Systemy baz i hurtowni danych wprowadzenie do wykładu Modele danych i ewolucja systemów baz danych Projektowanie hurtowni danych i modelowanie wielowymiarowe Proces ekstrakcji, transformacji i ładowania danych (Proces ETL) Systemy OLAP I Systemy OLAP II Systemy OLAP III