Architektury i technologie integracji danych

Podobne dokumenty
Architektury i technologie integracji danych

Integracja systemów transakcyjnych

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Integracja systemów transakcyjnych

Web Services. Bartłomiej Świercz. Łódź, 2 grudnia 2005 roku. Katedra Mikroelektroniki i Technik Informatycznych. Bartłomiej Świercz Web Services

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Usługi sieciowe (Web Services)

Programowanie komponentowe

Zarządzanie sieciami telekomunikacyjnymi

Application Layer Functionality and Protocols

Mirosław Kupczyk Pozna, PCSS, Szkolenie: "Architektura i uytkowanie klastra Linux IA-64"

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii

Rozproszone systemy internetowe

Język XQuery jako narzędzie do integracji danych Oracle XML Data Synthesis

OSI Network Layer. Network Fundamentals Chapter 5. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

Dni Użytkowników Aplikacji QAD Interoperacyjność z QXtend

Architektury rozproszonych baz danych. Robert A. Kłopotek Wydział Matematyczno-Przyrodniczy. Szkoła Nauk Ścisłych, UKSW

Dostęp do komponentów EJB przez usługi Web Services

Informatyka I BAZY DANYCH. dr inż. Andrzej Czerepicki. Politechnika Warszawska Wydział Transportu 2017

POLITYKA PRYWATNOŚCI / PRIVACY POLICY

Tematy projektów Edycja 2014

Paweł Rajba

Plan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych

Komunikacja i wymiana danych

Programowanie w języku Java. Wykład 13: Java Platform, Enterprise Edition (Java EE)

OSI Network Layer. Network Fundamentals Chapter 5. ITE PC v4.0 Chapter Cisco Systems, Inc. All rights reserved.

Architektura i działanie systemów OSGi. Paweł Kaczmarek, WETI, PG

17-18 listopada, Warszawa

Instrukcja obsługi User s manual

SNP SNP Business Partner Data Checker. Prezentacja produktu

Programowanie obiektowe

Healthix Consent Web-Service Specification

Wprowadzenie do technologii Web Services: SOAP, WSDL i UDDI

Network Services for Spatial Data in European Geo-Portals and their Compliance with ISO and OGC Standards

Wybrane działy Informatyki Stosowanej

Systemy rozproszonych baz danych 1

Systemy wbudowane. Poziomy abstrakcji projektowania systemów HW/SW. Wykład 9: SystemC modelowanie na różnych poziomach abstrakcji

OSI Physical Layer. Network Fundamentals Chapter 8. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

Wybrane problemy modelu usługowego

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki

OSI Transport Layer. Network Fundamentals Chapter 4. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

Usługi WWW. dr Zbigniew Lipiński Instytut Matematyki i Informatyki ul. Oleska Opole zlipinski@math.uni.opole.pl

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

1 Wprowadzenie do J2EE

Spis treści. Dzień 1. I Wprowadzenie (wersja 0906) II Dostęp do danych bieżących specyfikacja OPC Data Access (wersja 0906) Kurs OPC S7

Hard-Margin Support Vector Machines

Zmiany techniczne wprowadzone w wersji Comarch ERP Altum

Część I -ebxml. UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz. UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz

Wybrane działy Informatyki Stosowanej

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Wprowadzenie do usług internetowych

Geneza elektronicznej wymiany danych (EDI) XML w elektronicznej wymianie dokumentów i integracji aplikacji. Pojedyncze rozwiązania.

Automatyzacja procesów biznesowych Andrzej Sobecki. ESB Enterprise service bus

Tematy projektów Edycja 2017

Geneza elektronicznej wymiany danych (EDI) XML w elektronicznej wymianie dokumentów i integracji aplikacji. Pojedyncze rozwiązania.

Page 1. Architektura systemów GIS. Architektura klient-serwer. Geoinformaacyjne usługi sieciowe DESKTOP. dr inż. Adam Iwaniak

Typy przetwarzania. Przetwarzanie zcentralizowane. Przetwarzanie rozproszone

Stan zaawansowania prac dotyczących zamówienia na opracowanie i wdrożenie rdzenia systemu e Urząd.

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Kurs OPC S7. Spis treści. Dzień 1. I OPC motywacja, zakres zastosowań, podstawowe pojęcia dostępne specyfikacje (wersja 1501)

Web Services wykład 9

Rozproszone systemy Internetowe

IBM Corporation IBM SOA Center of Excellence

HARMONIZACJA DANYCH PRZESTRZENNYCH JERZY GAŹDZICKI

strukturalny język zapytań używany do tworzenia i modyfikowania baz danych oraz do umieszczania i pobierania danych z baz danych

Oferta przetargu. Poland Tender. Nazwa. Miejscowość. Warszawa Numer ogłoszenia. Data zamieszczenia Typ ogłoszenia

4 Web Forms i ASP.NET Web Forms Programowanie Web Forms Możliwości Web Forms Przetwarzanie Web Forms...152

Web Services. Technologie Biznesu Elektronicznego. Konrad Kunicki. Politechnika Wrocławska, Wydział Informatyki i Zarządzania

OSI Data Link Layer. Network Fundamentals Chapter 7. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

5.14 JSP - Przykład z obiektami sesji Podsumowanie Słownik Zadanie... 86

Cel szkolenia. Konspekt

FORMULARZ REKLAMACJI Complaint Form

Web Services. Wojciech Mazur. 17 marca Politechnika Wrocławska Wydział Informatyki i Zarządzania

Chmura zrzeszenia BPS jako centrum świadczenia usług biznesowych. Artur Powałka Microsoft Services

SNP Business Partner Data Checker. Prezentacja produktu

Technologia informacyjna

Bazy danych. Plan wykładu. Rozproszona baza danych. Fragmetaryzacja. Cechy bazy rozproszonej. Replikacje (zalety) Wykład 15: Rozproszone bazy danych

Zasady rejestracji i instrukcja zarządzania kontem użytkownika portalu

OLAP i hurtownie danych c.d.

Bazy danych i ich aplikacje

Automatyczne generowanie testów z modeli. Bogdan Bereza Automatyczne generowanie testów z modeli

PORTS AS LOGISTICS CENTERS FOR CONSTRUCTION AND OPERATION OF THE OFFSHORE WIND FARMS - CASE OF SASSNITZ

TelCOMM Wymagania. Opracował: Piotr Owsianko Zatwierdził: IMIĘ I NAZWISKO

Narzędzia i aplikacje Java EE. Usługi sieciowe Paweł Czarnul pczarnul@eti.pg.gda.pl

Politechnika Śląska, Instytut Informatyki

MS Visual Studio 2005 Team Suite - Performance Tool

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

PROGRAM STAŻU. IBM Global Services Delivery Centre Sp z o.o. Nazwa podmiotu oferującego staż / Company name. Muchoborska 8, Wroclaw

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Technologia HD w IBM DB2

Spis treści. Przedmowa

Projektowanie bazy danych. Jarosław Kuchta Projektowanie Aplikacji Internetowych

1. Wymagania dla lokalnej szyny ESB

Wpływ dyrektywy PSD II na korzystanie z instrumentów płatniczych. Warszawa, 15 stycznia 2015 r. Zbigniew Długosz

Dobre praktyki w doborze technologii rozwiązań informatycznych realizujących usługi publiczne

Rozproszone bazy danych. Robert A. Kłopotek Wydział Matematyczno-Przyrodniczy. Szkoła Nauk Ścisłych, UKSW

Spis tre±ci. Przedmowa... Cz ± I

Transkrypt:

Architektury i technologie integracji danych Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Problematyka i architektury integracji danych Problemy dostępu do heterogenicznych źródeł danych Podstawowe architektury integracyjne P2P Systemy mediacyjne Sfederowane BD WEB Services/SOA Systemy hurtowni danych 2

Problematyka integracji danych FoxPro Excel DB2 Access XML Oracle plik 3 Problematyka integracji danych Charakterystyka systemów źródłowych rozproszenie heterogeniczność Cele integracji systemy rozproszone (rozproszone BD) systemy transakcyjne systemy analityczne (BI) 4

Rozproszone BD Przetwarzanie równoległe Load balancing Redukowanie ruchu sieciowego dane "blisko" konsumenta Wzrost bezpieczeństwa danych na skutek awarii węzła 5 Rozproszone BD Mechanizmy partycje repliki odświeżanie replik pełne / przyrostowe wykrywanie zmian moment odświeżenia protokół 2PC algorytmy alokowania zasobów w węzłach statyczne /dynamiczne optymalizacja zapytań redukcja planów wzgl. partycji algorytmy łączenia wybór replik 6

Rozproszone BD update 7 Heterogeniczność źródeł Różni producenci różne technologie implementacyjne Różna funkcjonalność bazy danych / nie bazy danych dialekty SQL sposoby dostępu i przetwarzania danych Różne modele danych hierarchiczne, sieciowe relacyjne obiektowe obiektowo-relacyjne wielowymiarowe semistructured grafowe 8

Heterogeniczność źródeł Różne modele danych w źródłach (relacyjny, obiektowy, semistructured,...) Różne typy danych smallint, int, biging, decimal (SQLServer) smallint, int, biging, float, real, double (DB2) number, binary_integer (Oracle) znakowe typy danych o stałej i zmiennej długości Różne (sprzeczne) ograniczenia integralnościowe 9 Heterogeniczność źródeł Inna reprezentacja tych samych danych Pracownicy{NIP, imię, nazwisko, adres_koresp} Prac{NIP, imię_nazw, ulica, dom, kod, miasto} Pojazdy (zawiera samochody osobowe + dostawcze) Samochody_Osobowe, Samochody_Dostawcze Homonimy Produkty.kod oznacza kod produktu Klienci.kod oznacza kod pocztowy Synonimy Pacjenci.pesel Pacjenci.pacjentID (z wartością peselu) 10

Heterogeniczność źródeł Konflikty na poziomie danych Zduplikowane dane Brakujące i błędne dane Błędy wprowadzania wartości Różne ziarno agregacji sprzedaż dzienna sprzedaż tygodniowa Różne jednostki miary cena {PLN, EUR, USD} waga {kg, dkg} 11 Heterogeniczność źródeł 12

Heterogeniczność źródeł 13 P2P FoxPro Excel DB2 Access XML Oracle plik 14

System mediacyjny mediator Wady czas dostępu do danych niedostępność źródeł konwersja zapytań i danych metadane brak modyfikacji konwerter konwerter konwerter Zalety brak redundancji danych dostęp do danych aktualnych 15 Przetwarzanie zapytań Wybór źródeł danych Dekompozycja zapytania ze względu na źródła Optymalizacja zapytania (jak w RBD) statyczna lub dynamiczna Przesyłanie zapytań do źródeł danych (wrapper ów) Wykonywanie zapytań w źródłach danych Przesyłanie wyników do mediatora (ewentualnie do innych wrapper ów celem wykonania dalszych etapów zapytania) Łączenie wyników uzyskanych z poziomu poszczególnych źródeł na poziomie mediatora Prezentacja wyników użytkownikowi 16

Metadane Opisują schemat globalny dostępny dla użytkownika źródła danych zawartość funkcjonalność odwzorowania schematu globalnego schematy udostępniane przez wrapper y 17 Dołączanie źródeł Silna integracja na początku funkcjonowania systemu mediacyjnego źródła są analizowane i jest budowany schemat globalny pojawienie się nowych źródeł wymaga wprowadzenia zmian w schemacie globalnym, które w istotny sposób wpływają na sposób działania mediatora w zakresie dekompozycji i optymalizacji zapytań Słaba integracja każde źródło udostępnia swój lokalny schemat w modelu schematu globalnego schematy lokalne są integrowane w globalnym 18

Rodzaje architektur Scentralizowana źródła danych realizują podstawowe operacje optymalizacja zapytania, wybór danych, łączenie, sortowanie, konwersja wyników są realizowane przez mediator wrapper y nie komunikują się między sobą Zdecentralizowana źródła danych realizują złożone operacje takie selekcja danych, łączenie, sortowanie optymalizacją zapytania zajmuje się mediator, ale pozostałe operacje mogą być przejęte przez warstwę źródeł danych wrapper y mają możliwość komunikowania się między sobą (np. wykonanie rozproszonego połączenia) 19 Sfederowane BD US1 USi USn user / external schema federated schema 1 federated schema 2 federated schema 3 constructing processor ES1 ES2 ES3 export schema filtering processor filtering processor filtering processor component schema 1 component schema 2 component schema 3 common data model transforming processor transforming processor transforming processor local schema 1 local schema 2 local schema 3 local data model component db 1 component db 2 component db 3 20

WEB Services Application integration technology allows programs written in different languages on different platforms to communicate with each other based on an agreed way of communication software service Exchange data between different applications and different platforms Program-to-program communications model, built on existing and emerging standards such as HTTP, XML, SOAP, WSDL, and UDDI Exchanged data encoded as XML Robert Wrembel, Poznań University of Technology, Institute of Computing Science 21 WEB Services Transport protocol XML-based Simple Object Access Protocol (SOAP) to let applications exchange data over HTTP Web services provide a way to describe their interfaces so that other applications can communicate with Web services this description is usually provided in an XML document called a Web Services Description Language (WSDL) document Web services are registered in a directory for the purpose of finding them registration is done by means of Universal Discovery Description and Integration (UDDI) Robert Wrembel, Poznań University of Technology, Institute of Computing Science 22

WEB Services Example A purchasing application automatically obtain price information from multiple vendors select a vendor submit the order track the shipment until it is received A vendor application exposing its services on the Web check the customer's credit charge the customer's account set up the shipment with a shipping company Robert Wrembel, Poznań University of Technology, Institute of Computing Science 23 WEB Services Web Services Description Language Universal Discovery Description and Integration Web Services Conceptual Architecture (IBM) Robert Wrembel, Poznań University of Technology, Institute of Computing Science 24

WEB Services Service provider makes available a software (service) provides the service description (data types, operations, binding information and network location) publishes the description to a service registry or requestor Service requestor finds and retrieves the service description uses the service description to bind with the service provider and to invoke or interact with the Web service implementation Service registry searchable registry of service descriptions where service providers publish their service descriptions service requestors find services and obtain binding information for services during development (for static binding) or during execution (for dynamic binding) Robert Wrembel, Poznań University of Technology, Institute of Computing Science 25 SOAP Simple Object Access Protocol Communication protocol for Web services SOAP is a specification that defines the XML format for messages, i.e., how to represent data the format of an HTTP message that contains a SOAP message Independent of application programming languages Robert Wrembel, Poznań University of Technology, Institute of Computing Science 26

SOAP In practice, SOAP messages are created and parsed by various toolkits that translate function calls from some kind of language to a SOAP message. Microsoft SOAP Toolkit translates COM function calls to SOAP Apache Toolkit translates JAVA function calls to SOAP types of function calls and the data types of the parameters depend on a SOAP implementation Robert Wrembel, Poznań University of Technology, Institute of Computing Science 27 WSDL Web Services Description Language WSDL is an XML document that describes a set of SOAP messages and how the messages are exchanged in practice generated by toolkits based on existing program interfaces parsed by software WSDL describes Web services and is used to locate them Robert Wrembel, Poznań University of Technology, Institute of Computing Science 28

WSDL The service interface includes WSDL:binding - describes among others a protocol, data format, security for a particular service interface (WSDL:portType) WSDL:portType - defines operations (conterpart of a method signature in a programming language) of a Web service, i.e., what XML messages can appear in the input and output data flows WSDL:message - specifies which XML data types constitute various parts of a message (e.g., input and output parameters of an operation) WSDL:type - describes complex data types Robert Wrembel, Poznań University of Technology, Institute of Computing Science 29 UDDI Universal Discovery Description and Integration A UDDI directory entry is an XML file that describes a business and the services it offers Three parts to the entry in the UDDI directory info about a company offering the service: name, address, contacts,... industrial categories based on standard taxonomies such as the North American Industry Classification System and the Standard Industrial Classification description of the interface to the service Robert Wrembel, Poznań University of Technology, Institute of Computing Science 30

WEB Services' interaction Application creates a SOAP message (XML) - a request that invokes the Web service operation at the service provider. SOAP client runtime sends the message to the provided network address using a network protocol (e.g., HTTP). The service processes the message and produces response that is encoded into SOAP message (XML). The message is sent to the requestor. The message is received, converted into native application objects (in a target progr. language), and presented to the application. The message is delivered the service provider s SOAP runtime (server). The runtime converts the message into programming language-specific objects and routes the request message to the service provider's Web service. Web Services Conceptual Architecture (IBM) Robert Wrembel, Poznań University of Technology, Institute of Computing Science 31 Przykład wykorzystania WS 32

Hurtownia Danych ŹRÓDŁA DANYCH WARSTWA POŚREDNIA integrująca dane HURTOWNIA DANYCH APLIKACJE ANALITYCZNE Raporty HURTOWNIA DANYCH Analizy finansowe i statystyczne 33 Jakość danych - studium przypadku Integracja danych dziekanatowych 9 BD dziekanatów łącznie ponad 70 000 studentów WIiZ WTC WMRiT WFT WArch WBiIŚ WE WBMiZ WEiT 34

Wartości unikalne Nr indeksu wartość unikalna w ramach jednej BD dziekanatu wartość nieunikalna globalnie w ramach BD różnych dziekanatów problem integracji danych zidentyfikowano 49 par studentów o takim samym numerze indeksu, studenci w parze są innymi osobami 35 Jakość danych nr indeksów Postać nr indeksu: liczba + opcjonalnie litera a - absolwent d - drugi kierunek s - skreślony lub zrezygnował i - inne przypadki 36

Jakość danych PESEL Różne osoby posiadające ten sam nr PESEL (również z tego samego wydziału) 13 powtarzających się numerów PESEL Poprawność wartości PESEL 37 Jakość imion Wykorzystano słownik imion (ponad 1700 imion; http://piotr.eldora.pl/bazy-danych-kody-pocztowe-imionapanstwa) 38

Jakość imion 39 Jakość nazwisk Wykorzystano słownik nazwisk (r.męski, 20000 najpopularniejszych nazwisk; http://www.futrega.org/etc/nazwiska.html) 40

Jakość danych słownikowych Kategorie studiów poprawne: {stacjonarne, niestacjonarne} 41 Jakość danych słownikowych Rodzaje studiów poprawne: {I stopnia, II stopnia, III stopnia} Kierunki studiów 42/7 2

Jakość danych słownikowych Słownik miast 43