Architektury i technologie integracji danych

Podobne dokumenty
Integracja systemów transakcyjnych

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Architektury i technologie integracji danych

Integracja systemów transakcyjnych

Plan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Hurtownie danych - przegląd technologii

Problematyka hurtowni danych

Systemy rozproszonych baz danych 1

Hurtownie danych - przegląd technologii

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych - przegląd technologii

Projektowanie bazy danych. Jarosław Kuchta Projektowanie Aplikacji Internetowych

Spis tre±ci. Przedmowa... Cz ± I

Spis treści. Przedmowa

Specjalizacja magisterska Bazy danych

Szczegółowy opis przedmiotu zamówienia

Informatyka I BAZY DANYCH. dr inż. Andrzej Czerepicki. Politechnika Warszawska Wydział Transportu 2017

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Rozproszone bazy danych. Robert A. Kłopotek Wydział Matematyczno-Przyrodniczy. Szkoła Nauk Ścisłych, UKSW

Informatyzacja przedsiębiorstw

Tematy projektów Edycja 2014

PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA W NOWYM SĄCZU SYLABUS PRZEDMIOTU. Obowiązuje od roku akademickiego: 2011/2012

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki

Ekspert MS SQL Server Oferta nr 00/08

Zaawansowane systemy baz danych - ZSBD. Hurtownie danych 1. Problematyka hurtowni danych. Wykład przygotował: Robert Wrembel. ZSBD wykład 12 (1)

Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)

PROJEKT WSPÓŁFINANSOWANY ZE ŚRODKÓW UNII EUROPEJSKIEJ W RAMACH EUROPEJSKIEGO FUNDUSZU SPOŁECZNEGO OPIS PRZEDMIOTU. Rozproszone Systemy Baz Danych

Procesy ETL. 10maja2009. Paweł Szołtysek

OLAP i hurtownie danych c.d.

Nazwa Wydziału Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia. Kod modułu Język kształcenia Efekty kształcenia dla modułu kształcenia

Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)

Ewolucja systemów baz danych

Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.

OPIS PRZEDMIOTU ZAMÓWIENIA

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5

Hurtownia danych praktyczne zastosowania

Opisy efektów kształcenia dla modułu

Wprowadzenie do technologii Business Intelligence i hurtowni danych

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA realizacja w roku akademickim 2016/17

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

Politechnika Śląska, Instytut Informatyki

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

Zagadnienia egzaminacyjne INFORMATYKA. stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

Zagadnienia egzaminacyjne INFORMATYKA. Stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

Modele bezpieczeństwa logicznego i ich implementacje w systemach informatycznych / Aneta Poniszewska-Marańda. Warszawa, 2013.

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

ORGANIZACJA ZAJĘĆ BAZY DANYCH PLAN WYKŁADU SCHEMAT SYSTEMU INFORMATYCZNEGO

Bazy danych. Plan wykładu. Rozproszona baza danych. Fragmetaryzacja. Cechy bazy rozproszonej. Replikacje (zalety) Wykład 15: Rozproszone bazy danych

Architektury rozproszonych baz danych. Robert A. Kłopotek Wydział Matematyczno-Przyrodniczy. Szkoła Nauk Ścisłych, UKSW

INFORMATYKA. PLAN STUDIÓW NIESTACJONARNYCH 1-go STOPNIA STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM 2015/16. zajęć w grupach A K L S P

Tworzenie aplikacji bazodanowych

Grupy pytań na egzamin magisterski na kierunku Informatyka (dla studentów niestacjonarnych studiów II stopnia)

Technologia informacyjna (IT - Information Technology) dziedzina wiedzy obejmująca:

COMARCH DATA WAREHOUSE MANAGER 6.2

Podyplomowe Studium Informatyki w Bizniesie Wydział Matematyki i Informatyki, Uniwersytet Łódzki specjalność: Tworzenie aplikacji w środowisku Oracle

Wyższa Szkoła Technologii Teleinformatycznych w Świdnicy. Dokumentacja specjalności. Sieci komputerowe

BD2 BazyDanych2. dr inż. Tomasz Traczyk 14. Systemy przetwarzania analitycznego

Systemy baz danych i hurtowni danych

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2011/2012

Co to jest Business Intelligence?

Optymalizacja poleceń SQL

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

ZAŁĄCZNIK NR 5 - GRUPA PRODUKTÓW 5: OPROGRAMOWANIE BAZODANOWE

Migracja XL Business Intelligence do wersji

Język XQuery jako narzędzie do integracji danych Oracle XML Data Synthesis

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

Technologia HD w IBM DB2

Wyższa Szkoła Technologii Teleinformatycznych w Świdnicy. Dokumentacja specjalności. Sieci komputerowe

Wprowadzenie do Hurtowni Danych

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

Zaawansowane bazy danych i hurtownie danych Wydział Informatyki Politechnika Białostocka

Hurtownie danych w praktyce

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Ankieta zatrudnienia studentów. Wydział Zastosowań Informatyki i Matematyki SGGW w Warszawie Analizował dr Paweł Jankowski

Technologia informacyjna

Programowanie obiektowe

Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi

Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych

Hbase, Hive i BigSQL

Bazy danych 2. Wykład 1

Nazwa wariantu modułu (opcjonalnie): Laboratorium programowania w języku C++

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Systemy rozproszonych baz danych 2

Tematy projektów Edycja 2017

Część I Istota analizy biznesowej a Analysis Services

INFORMATYKA PLAN STUDIÓW NIESTACJONARNYCH. Podstawy programowania Systemy operacyjne

6. Algorytmy ochrony przed zagłodzeniem dla systemów Linux i Windows NT.

Aplikacje internetowe - opis przedmiotu

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Transkrypt:

Architektury i technologie integracji danych Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Problematyka i architektury integracji danych Problemy dostępu do heterogenicznych źródeł danych Podstawowe architektury integracyjne P2P Systemy mediacyjne Sfederowane BD WEB Services/SOA Systemy hurtowni danych 2

Problematyka integracji danych FoxPro Excel DB2 Access XML Oracle plik 3 Problematyka integracji danych Charakterystyka systemów źródłowych rozproszenie heterogeniczność Cele integracji systemy rozproszone (rozproszone BD) systemy analityczne (BI) 4

Rozproszone BD Przetwarzanie równoległe Load balancing Redukowanie ruchu sieciowego dane "blisko" konsumenta Wzrost bezpieczeństwa danych na skutek awarii węzła 5 Rozproszone BD Mechanizmy partycje repliki odświeżanie replik pełne / przyrostowe wykrywanie zmian moment odświeżenia protokół 2PC algorytmy alokowania zasobów w węzłach statyczne /dynamiczne optymalizacja zapytań redukcja planów wzgl. partycji algorytmy łączenia wybór replik 6

Rozproszone BD update 7 Heterogeniczność źródeł Różni producenci różne technologie implementacyjne Różna funkcjonalność bazy danych / nie bazy danych dialekty SQL sposoby dostępu i przetwarzania danych Różne modele danych hierarchiczne, sieciowe relacyjne obiektowe obiektowo-relacyjne wielowymiarowe semistructured grafowe 8

Heterogeniczność źródeł Różne modele danych w źródłach (relacyjny, obiektowy, semistructured,...) Różne typy danych smallint, int, biging, decimal (SQLServer) smallint, int, biging, float, real, double (DB2) number, binary_integer (Oracle) znakowe typy danych o stałej i zmiennej długości Różne (sprzeczne) ograniczenia integralnościowe 9 Heterogeniczność źródeł Inna reprezentacja tych samych danych Pracownicy{NIP, imię, nazwisko, adres_koresp} Prac{NIP, imię_nazw, ulica, dom, kod, miasto} Pojazdy (zawiera samochody osobowe + dostawcze) Samochody_Osobowe, Samochody_Dostawcze Homonimy Produkty.kod oznacza kod produktu Klienci.kod oznacza kod pocztowy Synonimy Pacjenci.pesel Pacjenci.pacjentID (z wartością peselu) 10

Heterogeniczność źródeł Konflikty na poziomie danych Zduplikowane dane Brakujące i błędne dane Błędy wprowadzania wartości Różne ziarno agregacji sprzedaż dzienna sprzedaż tygodniowa Różne jednostki miary cena {PLN, EUR, USD} waga {kg, dkg} 11 Heterogeniczność źródeł 12

Heterogeniczność źródeł 13 P2P FoxPro Excel DB2 Access XML Oracle plik 14

System mediacyjny mediator konwerter konwerter konwerter Wady czas dostępu do danych niedostępność źródeł konwersja zapytań i danych Zalety brak redundancji danych dostęp do danych aktualnych 15 Sfederowane BD US1 USi USn user / external schema federated schema 1 federated schema 2 federated schema 3 constructing processor ES1 ES2 ES3 export schema filtering processor filtering processor filtering processor component schema 1 component schema 2 component schema 3 common data model transforming processor transforming processor transforming processor local schema 1 local schema 2 local schema 3 local data model component db 1 component db 2 component db 3 16

Jakość danych - studium przypadku Integracja danych dziekanatowych 9 BD dziekanatów łącznie ponad 70 000 studentów WIiZ WTC WMRiT WFT WArch WBiIŚ WE WBMiZ WEiT 17 Wartości unikalne Nr indeksu wartość unikalna w ramach jednej BD dziekanatu wartość nieunikalna globalnie w ramach BD różnych dziekanatów problem integracji danych zidentyfikowano 49 par studentów o takim samym numerze indeksu, studenci w parze są innymi osobami 18

Jakość danych nr indeksów Postać nr indeksu: liczba + opcjonalnie litera a - absolwent d - drugi kierunek s - skreślony lub zrezygnował i - inne przypadki 19 Jakość danych PESEL Różne osoby posiadające ten sam nr PESEL (również z tego samego wydziału) 13 powtarzających się numerów PESEL Poprawność wartości PESEL 20

Jakość imion Wykorzystano słownik imion (ponad 1700 imion; http://piotr.eldora.pl/bazy-danych-kody-pocztowe-imionapanstwa) 21 Jakość imion 22

Jakość nazwisk Wykorzystano słownik nazwisk (r.męski, 20000 najpopularniejszych nazwisk; http://www.futrega.org/etc/nazwiska.html) 23 Jakość danych słownikowych Kategorie studiów poprawne: {stacjonarne, niestacjonarne} 24

Jakość danych słownikowych Rodzaje studiów poprawne: {I stopnia, II stopnia, III stopnia} Kierunki studiów 25/7 2 Jakość danych słownikowych Słownik miast 26

Hurtownia Danych ŹRÓDŁA DANYCH WARSTWA POŚREDNIA HURTOWNIA DANYCH APLIKACJE ANALITYCZNE OPROGRAMOWANIE ETL Raporty Ekstrakcja Transformacja Czyszczenie Agregacja HURTOWNIA DANYCH Analizy finansowe i statystyczne 27