Integracja systemów transakcyjnych Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Problematyka i architektury integracji danych P2P Systemy mediacyjne Sfederowane BD Systemy hurtowni danych 2
Problematyka integracji danych FoxPro DB2 Excel Access XML Oracle plik 3 Problematyka integracji danych (2) Charakterystyka systemów źródłowych rozproszenie heterogeniczność Cele integracji systemy rozproszone systemy analityczne (BI) 4
Heterogeniczność źródeł RóŜni producenci/technologie implementacyjne RóŜna funkcjonalność bazy danych / nie bazy danych dialekty SQL sposoby dostępu i przetwarzania danych RóŜne modele danych hierarchiczne, sieciowe relacyjne obiektowe obiektowo-relacyjne wielowymiarowe semistrukturalne Architektury integracyjne systemy mediacyjne hurtownie (magazyn) danych 5 Charakterystyka źródeł danych Technologia implementacyjna Funkcjonalność Konflikty na poziomie struktur danych róŝne reprezentacje danych (struktury) Dealer A Pojazdy (zawiera samochody osobowe + dostawcze) Dealer B Samochody_Osobowe, Samochody_Dostawcze 6
Charakterystyka źródeł danych Konflikty na poziomie danych Zduplikowane dane Brakujące i błędne dane Błędy wprowadzania wartości 7 RóŜne reprezentacje danych RóŜne modele danych w źródłach (relacyjny, obiektowy, semistrukturalny) RóŜne typy danych smallint, int, biging, decimal (SQLServer) smallint, int, biging, float, real, double (DB2) number, binary_integer (Oracle) znakowe typy danych o stałej i zmiennej długości RóŜne ograniczenia integralnościowe Inna reprezentacja tych samych danych Pracownicy{NIP, imię, nazwisko, adres_koresp} Prac{NIP, imię_nazw, ulica, dom, kod, miasto} 8
RóŜne reprezentacje danych Homonimy Produkty.kod oznacza kod produktu Klienci.kod oznacza kod pocztowy Synonimy Pacjenci.pesel Pacjenci.pacjentID (z wartością peselu) 9 Konflikty na poziomie danych RóŜne ziarno agregacji sprzedaŝ dzienna sprzedaŝ tygodniowa RóŜne jednostki miary cena {PLN, EUR, USD} waga {kg, dkg} 10
Konflikty na poziomie danych 11 Konflikty na poziomie danych 12
P2P FoxPro DB2 Excel Access XML Oracle plik 13 System mediacyjny Wady czas dostępu do danych niedostępność źródeł konwersja zapytań i danych Zalety brak redundancji danych dostęp do danych aktualnych 14
Sfederowane BD US1 USi USn user / external schema federated schema 1 federated schema 2 federated schema 3 constructing processor ES1 ES2 ES3 export schema filtering processor filtering processor filtering processor component schema 1 component schema 2 component schema 3 common data model transforming processor transforming processor transforming processor local schema 1 local schema 2 local schema 3 local data model component db 1 component db 2 component db 3 15 Hurtownia Danych ŹRÓDŁA DANYCH WARSTWA POŚREDNIA HURTOWNIA DANYCH APLIKACJE ANALITYCZNE OPROGRAMOWANIE ETL Raporty Ekstrakcja Transformacja Czyszczenie Agregacja HURTOWNIA DANYCH Hurtownie tematyczne Analizy finansowe i statystyczne 16