Architektury i technologie integracji danych Systemy Mediacyjne Multi-wyszukiwarki Wprowadzenie do Mediacyjnych Systemów Zapytań (MQS) Architektura MQS Cechy funkcjonalne MQS Cechy implementacyjne MQS Krzysztof Jankiewicz Politechnika Poznańska, Instytut Informatyki Multi-wyszukiwarki Wykorzystują i integrują standardowe wyszukiwarki internetowe. Cechy języka Operatory logiczne (OR, AND, +, -) Dodatkowe operatory (NEAR, NOT, (, ), ) Wyszukiwanie fraz Możliwość wyboru wyszukiwarek... Cechy prezentacji wyników Ranking wyników Usuwanie duplikatów Udostępnianie (tytułów, podsumowań, liczby trafień, list adekwatności) str. 2 Mediacyjne Systemy Zapytań wprowadzenie Przetwarzanie zapytań bardzo podobne do metasearch engines, z tą różnicą, że dane w swych podstawowych źródłach mogą być heterogeniczne tj. strukturalne, semistrukturalne lub niestrukturalne. Zalety: Umożliwia dostęp do wszystkich możliwych rodzajów danych. Umożliwia precyzyjne i nieprecyzyjne wyszukiwanie informacji. Udostępnia dynamiczny zbiór źródeł danych. Wady: Dostępne tylko zapytania (nie ma modyfikacji) str. 3
Architektura Mediator Metadane Wrapper Wrapper Wrapper Wrapper Relacyjna Baza Danych Obiektowa Baza Danych Baza Danych Dokumentów XML Dokumenty niestrukturalne str. 4 Mediator Jest składnikiem MQS, który pozwala użytkownikom na dostęp do wirtualnej bazy danych. Użytkownicy mogą odpytywać zawartość wirtualnej bazy danych tak, jakby była ona zmaterializowana. Mediator nie przechowuje własnych danych. Odbiera zapytanie od użytkownika Dokonuje jego optymalizacji i translacji na jedno lub wiele zapytań i wysyła je do odpowiednich źródeł. Po uzyskaniu odpowiedzi od poszczególnych źródeł, składa je i przekazuje jako odpowiedź do użytkownika. str. 5 Wrapper Obsługuje jedno lub wiele źródeł danych posiadających podobną charakterystykę. Odbiera zapytania od mediatora i wykonuje odpowiednie czynności na podległych mu źródłach danych. Wynik zapytania przekazuje mediatorowi. str. 6
Metadane Metadane w systemach mediacyjnych przechowują informacje dotyczące: Schematu globalnego schematu zgodnie z którym użytkownik końcowy postrzega zawartość systemu mediacyjnego Źródeł danych Charakterystyka źródła Zawartość źródeł Funkcjonalność źródeł Mapowania schematu globalnego na informacje dotyczące zawartości poszczególnych źródeł str. 7 Cechy funkcjonalne MQS Własności strukturalne danych Charakterystyka zapytań Prezentacja rezultatów zapytań Rozszerzalność systemu o nowe źródła str. 8 Własności strukturalne danych Dane wykorzystywane w MQS są w ogólności heterogeniczne. Określenie "heterogeniczne" dotyczy heterogeniczności strukturalnej. Dane znajdujące się w swoich źródłach mogą być: strukturalne, semistrukturalne, niestrukturalne. str. 9
Charakterystyka zapytań W systemie mediacyjnym zapytania użytkownika są wyrażane za pomocą języka zapytań. Z reguły ten sam język wykorzystywany jest w zapytaniach kierowanych od mediatora do wrapperów. Język zapytań musi posiadać cechy umożliwiające funkcjonowanie w środowisku heterogenicznych źródeł danych. Zagadnienia: Język zapytań Rodzaje zapytań Zależność zapytań od schematu (schemat globalny w MQS) str. 10 Charakterystyka zapytań język zapytań Język zapytań w systemach mediacyjnych powinien: z jednej strony być podobny do języka baz danych, oparty na atrybutach, typach, operacjach; z drugiej, powinna być możliwość wyrażania zapytania za pomocą słów kluczowych lub nawet naturalnego języka. Pożądanym jest wykorzystywanie języków zapytań, w których możliwe jest połączenie obu powyższych elementów. str. 11 Charakterystyka zapytań rodzaje zapytań Ze względu na heterogeniczne środowisko danych, a także mając na uwadze różne potrzeby informacyjne użytkowników, konieczne jest aby język umożliwiał stosowanie różnych rodzajów zapytań: Zapytania dokładne (exact) stosowane w przypadkach gdy znane są: źródła danych, struktury danych, możliwości zapytań. Zapytania ogólnikowe (vague) stosowane gdy źródło danych jest nieznane, gdy nie posiada struktury danych lub struktura danych jest nieznana, gdy możliwości funkcjonalne źródła są ograniczone. Z reguły użytkownik posiada swobodę w wykorzystywaniu określonego rodzaju zapytania. Ograniczenia dotyczące rodzaju zapytań dotyczą zazwyczaj mediatora, który musi uwzględnić charakterystykę źródła danych. str. 12
Charakterystyka zapytań zależność zapytań od schematu Jeżeli schemat globalny jest dostępny, użytkownik może go wykorzystać wyrażając swoje zapytania w oparciu o jego definicję. Użytkownik powinien mieć możliwość tworzenia zapytań, które będą niezależne od schematu globalnego, nawet wówczas gdy został on określony. Dla przykładu MQS może umożliwiać znalezienie informacji w relacyjnej bazie danych w oparciu o wartość, bez specyfikowania, który atrybut posiada tą wartość, a także, w której tabeli znajduje się atrybut. str. 13 Prezentacja rezultatów zapytań Zależne od typu zapytania: Zapytania precyzyjne odpowiedzi dokładne Zapytania ogólnikowe rezultaty powiązane z zapytaniem użytkownika i reprezentujące możliwe odpowiedzi na zapytanie. o Uszeregowana lista (ang. ranked list) adekwatność wyrażona w procentach na podstawie heurystyk. o Sprzężenie adekwatności (ang. relevance feedback) umożliwia poprawę wyliczonych rezultatów przez wyspecyfikowanie dodatkowej liczby faktów dotyczących wyszukiwanej informacji. str. 14 Rozszerzalność MQS powinien umożliwiać rejestrację nowych źródeł danych, rozłączanie (wyłączanie) się już istniejących. Rozszerzalność powoduje, że systemy mediacyjne mogą składać się z wielu, różnorodnych i zmiennych w czasie komponentów. Istotnym zagadnieniem jest minimalizacja kosztu operacji rejestracji i rozłączania zródła oraz możliwie największa automatyzacja tych operacji. Zmiana liczby źródeł wpływa na: Możliwości zapytań Optymalizację zapytań Schemat globalny str. 15
Cechy implementacyjne MQS Architektura Wewnętrzna reprezentacja danych Przetwarzanie zapytań Metadane str. 16 Architektura Podstawowa architektura MQS nie określa precyzyjnie roli każdego z komponentów W zależności od procentu funkcjonalności warstwy mediacyjnej w stosunku do warstwy źródeł danych (wrapperów) można wyróżnić dwa bieguny rozwiązań Scentralizowana Decentralizowana Możliwe są też architektury mieszane uzależnione indywidualnie od funkcjonalności poszczególnych źródeł. str. 17 Wewnętrzna reprezentacja danych Pomiędzy wrapperami a mediatorem przesyłane są nie tylko zapytania, ale także ich wyniki. Sposób przedstawiania wyników przez każdy z wrapperów jest zgodny z: Regułami wynikającymi ze schematu globalnego (odpowiednie konwersje schematu lokalnego źródła na schemat globalny dokonywane są z reguły przez wrappery). Przyjętą w MQS wewnętrzną reprezentacją danych. str. 18
Przetwarzanie zapytań Uzależnione jest w znacznym stopniu od architektury MQS Realizowane jest ono w kilku etapach, na które składają się: Selekcja źródeł danych Dekompozycja zapytania ze względu na źródła Optymalizacja zapytania Przesyłanie zapytań do źródeł danych (wrapperów) Wykonywanie zapytań w źródłach danych Przesyłanie wyników do mediatora (ewentualnie do innych wrapperów celem wykonania dalszych etapów zapytania) Łączenie wyników uzyskanych z poziomu poszczególnych źródeł na poziomie mediatora Prezentacja wyników użytkownikowi str. 19 Metadane Każdy MQS wymaga do swojego działania repozytorium zawierającego metadane. Zawartość metadanych może być różna w zależności od architektury. Z reguły obejmuje ona: Schemat globalny Informacje na temat źródeł o Sposób i parametry statystyczne dostępu o Funkcjonalność o Zawartość źródeł Odniesienie do schematu globalnego Dane statystyczne str. 20