Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Podobne dokumenty
Bazy danych 2. Wykład 1

Integracja systemów transakcyjnych

Architektury i technologie integracji danych

Model semistrukturalny

6. Algorytmy ochrony przed zagłodzeniem dla systemów Linux i Windows NT.

Programowanie obiektowe

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

Tematy projektów Edycja 2014

Oracle11g: Wprowadzenie do SQL

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Jarosław Żeliński analityk biznesowy, projektant systemów

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

Hurtownia danych praktyczne zastosowania

Czytelnik w bibliotece cyfrowej

Bazy danych Wykład zerowy. P. F. Góra

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Spis treści. Przedmowa

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

Zaawansowane Systemy Baz Danych

Plan. Wprowadzenie. Co to jest APEX? Wprowadzenie. Administracja obszarem roboczym

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Hurtownie danych - przegląd technologii

UŻYTKOWNIK PAP - INSTRUKCJA UŻYTKOWANIA SERWISU PAP

STUDIA NIESTACJONARNE I STOPNIA Przedmioty kierunkowe

Wykorzystanie regionalnej biblioteki cyfrowej do tworzenia repozytorium instytucjonalnego

Podstawowy Wykład z Systemów Baz Danych

Teoretyczne podstawy informatyki

Bazy danych dokumentów XML wykład 1 wprowadzenie

5. Kupujący ma w każdej chwili możliwość wglądu, poprawiania, aktualizacji oraz usuwania danych osobowych przechowywanych przez Sprzedawcę.

PRZEWODNIK PO PRZEDMIOCIE

Kontrola spójności modeli UML za pomocą modelu. Stanisław Jerzy Niepostyn, Ilona Bluemke Instytut Informatyki, Politechnika Warszawska

Język programowania DELPHI / Andrzej Marciniak. Poznań, Spis treści

Wyszukiwanie tekstów

Organizacja zajęć BAZY DANYCH II WYKŁAD 1. Plan wykładu. SZBD Oracle

SZKOLENIE: Administrator baz danych. Cel szkolenia

Informatyka I. Standard JDBC Programowanie aplikacji bazodanowych w języku Java

edziennik Ustaw Opis architektury

Bazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Projektowanie oprogramowania cd. Projektowanie oprogramowania cd. 1/34

Tomasz Grześ. Systemy zarządzania treścią

AUTOMATYKA INFORMATYKA

1. Zakłada się, że każda operacja (read, write) w harmonogramie obejmuje również blokowanie i odblokowanie jednostki. Czy następujący harmonogram

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Wykład I. Wprowadzenie do baz danych

Ekspert MS SQL Server Oferta nr 00/08

PROGRAM NAUCZANIA DLA ZAWODU TECHNIK INFORMATYK, O STRUKTURZE PRZEDMIOTOWEJ

Architektura Systemu. Architektura systemu umożliwia kontrolowanie iteracyjnego i przyrostowego procesu tworzenia systemu.

Normalizacja baz danych

Warstwa integracji. wg. D.Alur, J.Crupi, D. Malks, Core J2EE. Wzorce projektowe.

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Transformacja wiedzy w budowie i eksploatacji maszyn

Plan. Raport. Tworzenie raportu z kreatora (1/3)

Paweł Rajba

Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki. Paweł Parys. Nr albumu: Aukcjomat

Zmiany funkcjonalne i lista obsłużonych zgłoszeń Comarch DMS , Comarch DMS i Comarch DMS

Sylabus do programu kształcenia obowiązującego od roku akademickiego 2014/15


Czym jest system antyplagiatowy? Andrzej Sobecki

Logika Temporalna i Automaty Czasowe

Wprowadzenie do metodologii modelowania systemów informacyjnych. Strategia (1) Strategia (2) Etapy Ŝycia systemu informacyjnego

PROLOG WSTĘP DO INFORMATYKI. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

BIBLIOTEKA CYFROWA JAKO KONTENER TREŚCI DLA PORTALI INTERNETOWYCH. DLIBRA & DRUPAL DWA SYSTEMY, JEDNA WITRYNA.

Czym jest jpalio? jpalio jpalio jpalio jpalio jpalio jpalio jpalio jpalio

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

SQL w 24 godziny / Ryan Stephens, Arie D. Jones, Ron Plew. Warszawa, cop Spis treści

STUDIA STACJONARNE I STOPNIA Przedmioty kierunkowe

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Wrota Parsęty II o bazie danych przestrzennych - wprowadzenie

Hurtownie danych - przegląd technologii

Alicja Marszałek Różne rodzaje baz danych

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Informatyka I. Programowanie aplikacji bazodanowych w języku Java. Standard JDBC.

Bazy danych. Plan wykładu. Diagramy ER. Podstawy modeli relacyjnych. Podstawy modeli relacyjnych. Podstawy modeli relacyjnych

LITERATURA. C. J. Date; Wprowadzenie do systemów baz danych WNT Warszawa 2000 ( seria Klasyka Informatyki )

Systemy GIS Tworzenie zapytań w bazach danych

Co to jest jest oprogramowanie? 8. Co to jest inżynieria oprogramowania? 9. Jaka jest różnica pomiędzy inżynierią oprogramowania a informatyką?

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Przestrzenne bazy danych Podstawy języka SQL

Zagadnienia egzaminacyjne INFORMATYKA. Stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

RELACYJNE BAZY DANYCH

Ontologie, czyli o inteligentnych danych

Moduł mapowania danych

Programowanie współbieżne i rozproszone

Rozproszone bazy danych. Robert A. Kłopotek Wydział Matematyczno-Przyrodniczy. Szkoła Nauk Ścisłych, UKSW

Dokumentacja wstępna TIN. Rozproszone repozytorium oparte o WebDAV

Model przestrzenny Diagramu Obiegu Dokumentów. Stanisław Niepostyn, Ilona Bluemke Instytut Informatyki, Politechnika Warszawska

Definicja bazy danych TECHNOLOGIE BAZ DANYCH. System zarządzania bazą danych (SZBD) Oczekiwania wobec SZBD. Oczekiwania wobec SZBD c.d.

STUDIA STACJONARNE I STOPNIA Przedmioty kierunkowe

Nauczanie na odległość

DLIBRA & DRUPAL DWA SYSTEMY, JEDNA WITRYNA

METODY ANALIZY DANYCH ORAZ PREZENTACJI INFORMACJI GEOPRZESTRZENNYCH

K1A_W11, K1A_W18. Egzamin. wykonanie ćwiczenia lab., sprawdzian po zakończeniu ćwiczeń, egzamin, K1A_W11, K1A_W18 KARTA PRZEDMIOTU

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

EXSO-CORE - specyfikacja

Transkrypt:

Architektury i technologie integracji danych Systemy Mediacyjne Multi-wyszukiwarki Wprowadzenie do Mediacyjnych Systemów Zapytań (MQS) Architektura MQS Cechy funkcjonalne MQS Cechy implementacyjne MQS Krzysztof Jankiewicz Politechnika Poznańska, Instytut Informatyki Multi-wyszukiwarki Wykorzystują i integrują standardowe wyszukiwarki internetowe. Cechy języka Operatory logiczne (OR, AND, +, -) Dodatkowe operatory (NEAR, NOT, (, ), ) Wyszukiwanie fraz Możliwość wyboru wyszukiwarek... Cechy prezentacji wyników Ranking wyników Usuwanie duplikatów Udostępnianie (tytułów, podsumowań, liczby trafień, list adekwatności) str. 2 Mediacyjne Systemy Zapytań wprowadzenie Przetwarzanie zapytań bardzo podobne do metasearch engines, z tą różnicą, że dane w swych podstawowych źródłach mogą być heterogeniczne tj. strukturalne, semistrukturalne lub niestrukturalne. Zalety: Umożliwia dostęp do wszystkich możliwych rodzajów danych. Umożliwia precyzyjne i nieprecyzyjne wyszukiwanie informacji. Udostępnia dynamiczny zbiór źródeł danych. Wady: Dostępne tylko zapytania (nie ma modyfikacji) str. 3

Architektura Mediator Metadane Wrapper Wrapper Wrapper Wrapper Relacyjna Baza Danych Obiektowa Baza Danych Baza Danych Dokumentów XML Dokumenty niestrukturalne str. 4 Mediator Jest składnikiem MQS, który pozwala użytkownikom na dostęp do wirtualnej bazy danych. Użytkownicy mogą odpytywać zawartość wirtualnej bazy danych tak, jakby była ona zmaterializowana. Mediator nie przechowuje własnych danych. Odbiera zapytanie od użytkownika Dokonuje jego optymalizacji i translacji na jedno lub wiele zapytań i wysyła je do odpowiednich źródeł. Po uzyskaniu odpowiedzi od poszczególnych źródeł, składa je i przekazuje jako odpowiedź do użytkownika. str. 5 Wrapper Obsługuje jedno lub wiele źródeł danych posiadających podobną charakterystykę. Odbiera zapytania od mediatora i wykonuje odpowiednie czynności na podległych mu źródłach danych. Wynik zapytania przekazuje mediatorowi. str. 6

Metadane Metadane w systemach mediacyjnych przechowują informacje dotyczące: Schematu globalnego schematu zgodnie z którym użytkownik końcowy postrzega zawartość systemu mediacyjnego Źródeł danych Charakterystyka źródła Zawartość źródeł Funkcjonalność źródeł Mapowania schematu globalnego na informacje dotyczące zawartości poszczególnych źródeł str. 7 Cechy funkcjonalne MQS Własności strukturalne danych Charakterystyka zapytań Prezentacja rezultatów zapytań Rozszerzalność systemu o nowe źródła str. 8 Własności strukturalne danych Dane wykorzystywane w MQS są w ogólności heterogeniczne. Określenie "heterogeniczne" dotyczy heterogeniczności strukturalnej. Dane znajdujące się w swoich źródłach mogą być: strukturalne, semistrukturalne, niestrukturalne. str. 9

Charakterystyka zapytań W systemie mediacyjnym zapytania użytkownika są wyrażane za pomocą języka zapytań. Z reguły ten sam język wykorzystywany jest w zapytaniach kierowanych od mediatora do wrapperów. Język zapytań musi posiadać cechy umożliwiające funkcjonowanie w środowisku heterogenicznych źródeł danych. Zagadnienia: Język zapytań Rodzaje zapytań Zależność zapytań od schematu (schemat globalny w MQS) str. 10 Charakterystyka zapytań język zapytań Język zapytań w systemach mediacyjnych powinien: z jednej strony być podobny do języka baz danych, oparty na atrybutach, typach, operacjach; z drugiej, powinna być możliwość wyrażania zapytania za pomocą słów kluczowych lub nawet naturalnego języka. Pożądanym jest wykorzystywanie języków zapytań, w których możliwe jest połączenie obu powyższych elementów. str. 11 Charakterystyka zapytań rodzaje zapytań Ze względu na heterogeniczne środowisko danych, a także mając na uwadze różne potrzeby informacyjne użytkowników, konieczne jest aby język umożliwiał stosowanie różnych rodzajów zapytań: Zapytania dokładne (exact) stosowane w przypadkach gdy znane są: źródła danych, struktury danych, możliwości zapytań. Zapytania ogólnikowe (vague) stosowane gdy źródło danych jest nieznane, gdy nie posiada struktury danych lub struktura danych jest nieznana, gdy możliwości funkcjonalne źródła są ograniczone. Z reguły użytkownik posiada swobodę w wykorzystywaniu określonego rodzaju zapytania. Ograniczenia dotyczące rodzaju zapytań dotyczą zazwyczaj mediatora, który musi uwzględnić charakterystykę źródła danych. str. 12

Charakterystyka zapytań zależność zapytań od schematu Jeżeli schemat globalny jest dostępny, użytkownik może go wykorzystać wyrażając swoje zapytania w oparciu o jego definicję. Użytkownik powinien mieć możliwość tworzenia zapytań, które będą niezależne od schematu globalnego, nawet wówczas gdy został on określony. Dla przykładu MQS może umożliwiać znalezienie informacji w relacyjnej bazie danych w oparciu o wartość, bez specyfikowania, który atrybut posiada tą wartość, a także, w której tabeli znajduje się atrybut. str. 13 Prezentacja rezultatów zapytań Zależne od typu zapytania: Zapytania precyzyjne odpowiedzi dokładne Zapytania ogólnikowe rezultaty powiązane z zapytaniem użytkownika i reprezentujące możliwe odpowiedzi na zapytanie. o Uszeregowana lista (ang. ranked list) adekwatność wyrażona w procentach na podstawie heurystyk. o Sprzężenie adekwatności (ang. relevance feedback) umożliwia poprawę wyliczonych rezultatów przez wyspecyfikowanie dodatkowej liczby faktów dotyczących wyszukiwanej informacji. str. 14 Rozszerzalność MQS powinien umożliwiać rejestrację nowych źródeł danych, rozłączanie (wyłączanie) się już istniejących. Rozszerzalność powoduje, że systemy mediacyjne mogą składać się z wielu, różnorodnych i zmiennych w czasie komponentów. Istotnym zagadnieniem jest minimalizacja kosztu operacji rejestracji i rozłączania zródła oraz możliwie największa automatyzacja tych operacji. Zmiana liczby źródeł wpływa na: Możliwości zapytań Optymalizację zapytań Schemat globalny str. 15

Cechy implementacyjne MQS Architektura Wewnętrzna reprezentacja danych Przetwarzanie zapytań Metadane str. 16 Architektura Podstawowa architektura MQS nie określa precyzyjnie roli każdego z komponentów W zależności od procentu funkcjonalności warstwy mediacyjnej w stosunku do warstwy źródeł danych (wrapperów) można wyróżnić dwa bieguny rozwiązań Scentralizowana Decentralizowana Możliwe są też architektury mieszane uzależnione indywidualnie od funkcjonalności poszczególnych źródeł. str. 17 Wewnętrzna reprezentacja danych Pomiędzy wrapperami a mediatorem przesyłane są nie tylko zapytania, ale także ich wyniki. Sposób przedstawiania wyników przez każdy z wrapperów jest zgodny z: Regułami wynikającymi ze schematu globalnego (odpowiednie konwersje schematu lokalnego źródła na schemat globalny dokonywane są z reguły przez wrappery). Przyjętą w MQS wewnętrzną reprezentacją danych. str. 18

Przetwarzanie zapytań Uzależnione jest w znacznym stopniu od architektury MQS Realizowane jest ono w kilku etapach, na które składają się: Selekcja źródeł danych Dekompozycja zapytania ze względu na źródła Optymalizacja zapytania Przesyłanie zapytań do źródeł danych (wrapperów) Wykonywanie zapytań w źródłach danych Przesyłanie wyników do mediatora (ewentualnie do innych wrapperów celem wykonania dalszych etapów zapytania) Łączenie wyników uzyskanych z poziomu poszczególnych źródeł na poziomie mediatora Prezentacja wyników użytkownikowi str. 19 Metadane Każdy MQS wymaga do swojego działania repozytorium zawierającego metadane. Zawartość metadanych może być różna w zależności od architektury. Z reguły obejmuje ona: Schemat globalny Informacje na temat źródeł o Sposób i parametry statystyczne dostępu o Funkcjonalność o Zawartość źródeł Odniesienie do schematu globalnego Dane statystyczne str. 20