Wyszukiwanie strukturalne

Podobne dokumenty
Wyszukiwanie boolowskie i strukturalne. Adam Srebniak

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2

PageRank i HITS. Mikołajczyk Grzegorz

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Badanie struktury sieci WWW

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

Jak posługiwać się edytorem treści

EBSCOhost Wyszukiwanie podstawowe dla Bibliotek akademickich

REFERAT PRACY DYPLOMOWEJ Temat pracy: Projekt i realizacja serwisu ogłoszeń z inteligentną wyszukiwarką

Biblioteka Wirtualnej Nauki

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Wykład I. Wprowadzenie do baz danych

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Co nowego w programie GM EPC

Wykonać Ćwiczenie: Active Directory, konfiguracja Podstawowa

World Wide Web? rkijanka

1. Algorytmy przeszukiwania. Przeszukiwanie wszerz i w głąb.

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

WPROWADZENIE WYSZUKIWANIE OGŁOSZEŃ

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

2.5 Dzielenie się wiedzą

Księgarnia internetowa Lubię to!» Nasza społeczność

Maciej Piotr Jankowski

REFERAT PRACY DYPLOMOWEJ

Wykład 5. Cel wykładu. Korespondencja seryjna. WyŜsza Szkoła MenedŜerska w Legnicy. Informatyka w zarządzaniu Zarządzanie, zaoczne, sem.

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0

Spis treści(aby przejść automatycznie do strony kliknij jej numer lub tytuł w spisie):

3.1. Na dobry początek

POMOC. 1. Wybór Katalogu

Formularze w programie Word

Witryny i aplikacje internetowe - rozkład godzin dla technikum informatycznego

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Podyplomowe Studium Informatyki w Bizniesie Wydział Matematyki i Informatyki, Uniwersytet Łódzki specjalność: Tworzenie aplikacji w środowisku Oracle

Spis treści. 1: Wyszukiwanie elementu : Do linii modelu : Powiel arkusze : Długość kabla : Rozmieszczenie widoków...

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

AiSD zadanie trzecie

5-6. Struktura dokumentu html. 2 Określenie charakteru i tematyki strony. Rodzaje witryn. Projekt graficzny witryny. Opracowanie skryptów

5.5. Wybieranie informacji z bazy

Algorytmy sortujące i wyszukujące

Programowanie dla początkujących w 24 godziny / Greg Perry, Dean Miller. Gliwice, cop Spis treści

ROZDZIAŁ 2. INTERNET. Lekcja 5. Temat: Przeglądanie stron internetowych

Extensible Markup Language (XML) Wrocław, Java - technologie zaawansowane

Projekt przejściowy 2016/2017 BARTOSZ JABŁOŃSKI

Aproksymacja funkcji a regresja symboliczna

Tworzenie prezentacji multimedialnej Microsoft PowerPoint

TEST WSTĘPNY. Imię i Nazwisko: Telefon kontaktowy: 1. Kilobajt jest to: a bajtów b bajtów c bitów d.

Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można

Zakres treści Czas. 2 Określenie charakteru i tematyki strony. Rodzaje witryn. Projekt graficzny witryny. Opracowanie skryptów

Algorytmy i struktury danych. Wykład 4 Tablice nieporządkowane i uporządkowane

Jak stworzyć własny blog w kreatorze Click Web?

WYMAGANIA EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH DLA KLASY SZÓSTEJ W ZAKRESIE WIADOMOŚCI I UMIEJĘTNOŚCI UCZNIÓW

Kryteria oceniania z przedmiotu Informatyka

Pokaz slajdów na stronie internetowej

10. Wstęp do Teorii Gier

ECDL/ICDL Zaawansowane przetwarzanie tekstów Moduł A1 Sylabus, wersja 2.0

SKUTECZNOŚĆ WYSZUKIWANIA W INTERNECIE INFORMACJI ZWIĄZANYCH Z INŻYNIERIĄ ROLNICZĄ

Podręcznik użytkownika

Samouczek do korzystania z dokumentów Google

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Projektowanie bazy danych przykład

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

Projekt przejściowy 2015/2016 BARTOSZ JABŁOŃSKI, TOMASZ JANICZEK

Projektowanie Graficznych Interfejsów Użytkownika Robert Szmurło

Przestrzeń algorytmów klastrowania

PLAN REALIZACJI MATERIAŁU NAUCZANIA Z INFORMATYKI II. Uczeń umie: Świadomie stosować się do zasad regulaminów (P).

Semantyczne podobieństwo stron internetowych

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Dariusz Brzeziński. Politechnika Poznańska, Instytut Informatyki

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego.

Skrócona instrukcja obsługi

Od e-materiałów do e-tutorów

autor poradnika - KS Jak zamieszczać i edytować artykuły na szkolnej stronie internetowej

Przyjazne linki SEO i optymalizacja adresów URL

Wykład XII. optymalizacja w relacyjnych bazach danych

użytkownika 1 Jak wybrać temat pracy 2 Spis treści 3 Część pierwsza problematyka 4 Część druga stosowane metody 5 Część trzecia propozycja rozwiązania

ECDL/ICDL Zaawansowane arkusze kalkulacyjne Moduł A2 Sylabus, wersja 2.0

Opis serwisu IT-PODBESKIDZIE Wersja 1.0

Pozycjonowanie. Co to takiego?

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Wymagania edukacyjne na poszczególne oceny. z przedmiotu Informatyki. w klasie VI

PLAN WYNIKOWY Z INFORMATYKI DLA KLASY VI

BIBLIOTEKA LOKALNE CENTRUM WIEDZY PRAKTYCZNEJ PRZEWODNIK PO NARZĘDZIACH WARSZTAT NR 1: ARKUSZE KALKULACYJNE - MINI SKRYPT

O higienie pracy, komputerze, sieciach komputerowych i Internecie

Kampania FAX. Wybrane funkcjonalności: Definiowanie nagłówka. Personalizacja. Formaty PDF, Office i graficzne. Zapowiedź. Indywidualny numer telefonu

#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL

Język UML w modelowaniu systemów informatycznych

WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1

Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki. Paweł Parys. Nr albumu: Aukcjomat

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Instrukcja dostępu do usługi Google Scholar

POZYCJONOWANIE STRONY SKLEPU

Transkrypt:

Wyszukiwanie strukturalne

Wprowadzenie Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne Każdy dokument jest opatrzony w opis strukturalny dokumentu (właściwości indeksu / właściwości pliku / właściwości dokumentu), które są określane podczas wprowadzania i indeksowania dokumentów. Przy użyciu funkcji wyszukiwania, dokumenty są wyszukiwane są według danych indeksowych. Ponadto, możliwe jest wyszukiwanie dokumentów według całego tekstu. Poprzez połączenie odpowiednich pozycji wyszukiwania możliwe jest wyszukiwanie złożone według całego tekstu i danych indeksowych dokumentu.

Podobieństwo strukturalne Elementem charakterystycznym dokumentów hipertekstowych, odróżniającym go od innych rodzajów dokumentów są odsyłacze. Tworzą one strukturę systemu hipertekstowego. Łącząc dokumenty, równocześnie niosą ze sobą informacje o związkach semantycznych pomiędzy dokumentami. Zakładając, że odsyłacze niosą ze sobą informację o powiązaniach semantycznych między dokumentami, możemy wykorzystać elementy struktury do wyznaczenia podobieństwa pomiędzy dokumentami hipertekstowymi. Przy wyszukiwaniu informacji w sieci wykorzystać można funkcje podobieństwa strukturalnego.

Rola odsyłaczy Odsyłacze pełnią w systemie hipertekstowym dwie podstawowe role: reprezentacyjną (ujmując i prezentując relacje między porcjami informacji w tekście) oraz nawigacyjną (obejmując ścieżki poruszania się użytkownika po systemie). Nierzadko te dwie role przenikają się nawzajem, czasem są rozdzielone.

Główne typy odsyłaczy Semantyczne (znaczeniowe), czyli bazujące na treści, mające za zadanie wiązać dokumenty mieszczące się w tej samej lub pokrewnej tematyce. Organizacyjne, czyli odsyłające, których głównym celem jest lepsza (szybsza, łatwiejsza) nawigacja po systemie. W związku z tym, bywają one także nazywane nawigacyjnymi. Badania wskazują, że dla hipertekstowego środowiska WWW z dużym prawdopodobieństwem (ponad 80%) można automatycznie rozróżnić odsyłacze nawigacyjne od semantycznych.

Założenia funkcji podobieństwa strukturalnego Traktując odsyłacze jako główne źródło informacji o podobieństwie dokumentów, można opracować funkcję podobieństwa strukturalnego (odsyłacze tworzą strukturę systemu hipertekstowego). Założenia przy wyznaczaniu funkcji podobieństwa strukturalnego. W funkcji tej będą uwzględniane: a) Liczba odsyłaczy łączących oba dokumenty (odsyłacze bezpośrednie). b) Liczba wszystkich odsyłaczy, które wychodzą z obu dokumentów. Pozwala to na ważenie odsyłaczy łączących dokumenty. Waga jest większa wtedy, gdy są to jedyne odsyłacze występujące w tych dokumentach; mniejsza - gdy są one jednymi z wielu.

c) Liczba i rodzaj bezpośrednich wspólnych potomków i przodków (w ramach kolekcji i poza nią). d) Rodzaj odsyłaczy według podziału na semantyczne i nawigacyjne przyjmując, że odsyłacze semantyczne lepiej niż nawigacyjne odzwierciedlają podobieństwo tematyczne między dokumentami. Załóżmy także, że zbiorem wartości funkcji podobieństwa jest przedział [0,1].

Wyszukiwanie strukturalne w sieci Sieć i ogrom zawartych w niej informacji stwarza nowe wyzwanie dla sposobów wyszukiwania informacji. Wyszukiwanie z użyciem słów kluczowych zapewniło do nich dostęp. Hiperłącza tworzone przez autorów stron www przedstawiają relacje pomiędzy źródłowymi a docelowymi stronami co dowodzi istnienia struktury hiperłączy pomiędzy stronami w Internecie. Silniki wyszukujące w sieci szukają nie tylko słów kluczowych na stronach lecz także struktury hiperłączy pomiędzy nimi. Rezultaty wyszukiwania z użyciem tej struktury wypadają korzystnie w porównaniu z wyszukiwaniem z użyciem baz słów kluczowych.

Pojęcie Wyszukiwanie strukturalne w sieci - jest procesem przeszukiwania sieci w poszukiwaniu specyficznej struktury hiperłączy i połączone z tekstową analizą zawartości strony. Niekiedy do odnalezienia dużej ilości potencjalnie relewantnych stron nie wystarczają jedynie metody działające w oparciu o czysty tekst. Ludzie chętnie surfują po sieci używając jej graficznej struktury. Aktualnie silniki wyszukujące mogą być używane w celu szukania niektórych słów kluczowych lub ich kombinacji bez narzucania jakiejkolwiek struktury łącz pomiędzy stronami. Innymi słowy wyniki uzyskane przez poszczególne silniki mogą być liczbą trafień z których każde zawiera jedną stronę.

W odniesieniu do wyników wyszukiwania strukturalnego silnik jest liczbą diagramów hiperłączy gdzie każdy węzeł reprezentuje stronę zawierającą słowa kluczowe a krawędzie - hiperłącza pomiędzy stronami. Silnik zapewnia że te strukturalne trafienia pasują do strukturalnych zapytań użytkownika. Przykład: Rysunek 1 pokazuje proste zapytanie strukturalne w którym użytkownik szuka strony o temacie informatyka wskazującej na stronę o temacie osiągnięcia naukowe. Wynik wyszukiwania strukturalnego dla takiego zapytania mógłby być tym samym grafem lub strukturą hiperłączy którą użytkownik wprowadził jako dane wejściowe z wyjątkiem tego, że to już zawiera strony które odpowiadają nie tylko czystemu wyszukiwaniu po słowach kluczowych w silnikach opartych na tekście ale także strukturze hiperłączy pomiędzy nimi.

Przykład zapytania strukturalnego Informatyka Osiągnięcia naukowe

Klasteryzacja (clustering) Związana jest z pojęciem wyszukiwania strukturalnego. Jest to wyznaczanie podobieństw w zbiorze obiektów. Znajduje ono zastosowanie w wyszukiwaniu informacji w Internecie. Silniki wyszukujące oparte o wyszukiwanie słów kluczowych zwracają tysiące linków lecz bez wyjaśnienia tych rezultatów. Pojawia się potrzeba jakiegoś usystematyzowania tych wyników. Search Results Clustering ( SRC ) to efektywna identyfikacja znaczących, tematycznych grup dokumentów w wynikach wyszukiwania oraz ich zwięzła prezentacja.

Przykład

Przebieg działania SRC Dane wejściowe: N linków do dokumentów ( wyniki wyszukiwania ) (0<N<~400), każdy zestawiony z URL, opcjonalnym tytułem i fragmentem. Założenia: Istnieje logiczna struktura tematyczna w zestawie wyników. Dane wyjściowe: Zbiór klastrów ( grup, skupień ) reprezentujących tematy zorganizowanych w hierarchiczną strukturę, częściowo zachodzącą na siebie. Algorytm: Istnieje kilka algorytmów, np. STC (Suffix Tree Clustering), SHOC (Semantic, hierarchical, online clustering), oraz komercyjne Vivisimo, Infonetware i Excavio.

Carrot Projekt, którego celem jest implementacja i weryfikacja przydatności STC do języka polskiego.

Carrot - wnioski STC słabo radzi sobie z polskimi tekstami. Szczególnie trudno zdefiniować wartości progowe. Wciąż jednak rezultaty systemu są obiecujące.

Model przestrzeni wektorowej w wyszukiwaniu informacji Model przestrzeni wektorowej oparty jest o założenia algebry liniowej i przedstawia dokumenty i zapytania jako wektory liczb zawierające wartości odpowiadające wystąpieniom słów ( zwanych termami ) w poszczególnych dokumentach. Niech t będzie wielkością zbioru termów a n wielkością zbioru dokumentów. Zarówno zapytanie Q jak i wszystkie dokumenty D i, i = 1..n można przedstawić jako t wymiarowe wektory. D i = [a i1, a i2,..., a it ] Q = [a q1, a q2,..., a qt ] gdzie współczynniki a ik i a qk reprezentują wartości termu k w dokumencie D i lub odpowiednio zapytania Q. Zatem zarówno dokumenty i termy tworzą macierz termdokument A(n t). Wiersze macierzy reprezentują dokumenty a kolumny także zwane termami wektory. Załóżmy że pozycja a ik jest zbiór równy 1, gdy term k pojawia się w dokumencie i 0 gdy nie pojawia się w nim.

Przykład: Dla zbioru dokumentów odpowiadający zapytaniu "king" możemy stworzyć macierz term-dokument matrix. Zbiór dokumentów: D 1 : The King University College D 2 : King College Site Contents D 3 : University of King College D 4 : King County Bar Association D 5 : King County Government Seattle Washington D 6 : Martin Luther King Zbiór termów: The, King, University, College, Site, Contents, of, County, Bar, Association, Government, Seattle, Washington, Martin, Luther

Łatwo zauważyć że dokumenty odpowiadające podobnym tematom powinny mieć podobne wartości na tych samych pozycjach wektorów. Słabe i mocne strony modelu: Zalety: Po przekształceniu dokumentów na wektory można łatwo przeprowadzić operacje matematyczne na nich używając metod algebry liniowej. Proste, wydajne struktury danych mogą być używane do ich gromadzenia. Wady: Brak informacji zawartych w strukturze dokumentów.

Pokrewne prace badawcze Wiele badań podąża w kierunku wyszukiwania opartego o bazy słów kluczowych a strukturze hiperłączy poświęca się stosunkowo niewiele uwagi. Podczas gdy wiele engine'ów wyszukujących wykorzystuje ją do pozycjonowania stron to sama w sobie nie jest przedmiotem badań. Przykładem może być engin wyszukujący Google. Page Rank jest dobrym sposobem porządkowania wyników wyszukiwania opartego o słowa kluczowe. Oprócz PageRank Google posiada kilka innych możliwości. 1. Posiada informacje o miejscu dla wszystkich trafień co tworzy szerokie pole zastosowania w wyszukiwaniu bliskości dokumentów. 2. Ponadto, Google pamięta ścieżki niektórych wizualnych szczegółów prezentacji tj. rozmiar czcionki słów. 3. Pełny otwarty HTML stron jest dostępny w repozytorium.

Kolejnym podejściem zastosowania struktury hiperłączy do pozycjonowania stron jest identyfikacja wiarygodnych stron. Celem jest zebranie listy źródeł w sieci uznawanych za najbardziej wiarygodne i dobrze oddające tematykę. Najpierw takie listy były tworzone ręcznie lub poprzez prace zarówno automatu jak i człowieka. Obecnie ARC Computer Science Scholarships system automatycznie zestawia listę wiarygodnych sieciowych źródeł na każdy odpowiednio szeroki temat. Ta technika jest zawarta w enginie wyszukującym Clever znajdującym węzły oraz strony wiarygodne. Dobry węzeł zawiera wiele hiperłączy do wartościowych stron podczas gdy dobra wiarygodność posiada wiele linków z dobrych stron-węzłów.

WebSUBDUE Oglądanie struktury hiperłączy pod postacią grafów jest dobrym sposobem do poprawienia wyników wyszukiwania enginów wyszukujących. Połączenie słów kluczowych i struktury hiperłączy stało się główną ideą ostatnich badań nad wyszukiwaniem w sieci tj. WebSUBDUE. WebSUBDUE jest narzędziem, które wyszukuje miejsca korespondujące ze strukturą ukształtowana jako zapytania użytkownika oparte na grafie. WebSUBDUE jest umocniony przez system odnajdywania wiedzy zwany SUBDUE, który m.in. odnajduje wzorce w danych strukturalnych. Autorzy projektu: Nitish Manocha, Diane J. Cook, Lawrence B. Holder - University of Texas at Arlington cook@cse.uta.edu http://www-cse.uta.edu/~cook

Odnajduje wzorce strukturalne w grafie wejściowym. Substruktura jest połączona z subgrafem. Wystąpienie substruktury jest subgrafem izomorficznym z opisem substruktury. T1 S1 Wejściowa baza danych C1 Substructura S1 (graf) shape triangle Skompresowana baza danych S1 C1 T2 S2 R1 T3 S3 T4 S4 on object object shape square S1 R1 S1 S1

SUBDUE - algorytm Zacznij z pojedynczego wierzchołka. Zatrzymaj w zapytaniu jedynie najlepsze substruktury. Rozwiń substrukturę dodając krawędź/wierzchołek. Skompresuj graf i powtórz generowanie hierarchicznego opisu. Opcjonalnie wykorzystuj dalsza wiedzę.

Reprezentacja sieci za pomocą grafu Określ zakres domen do wygenerowania grafu Węzły reprezentują strony / dokumenty Krawędzie reprezentują hiperłącza Dodatkowe węzły reprezentują słowa kluczowe dokumentów texas subdu e university word projects word work page hyperlink page learning group robotics parallel planning

Wyszukiwanie strukturalne w sieci WebSUBDUE Sformułuj zapytanie jako graf Użyj opcji predefiniowanej substruktury Subdue aby wyszukać wystąpienia zapytania. http Instructor http Postscript PDF Teaching Robotics Research Robotics Publicatio n Robotics

Zapytanie: Znajdź wszystkie strony posiadające link do strony zawierającej termin Subdue Wierzchołki subgrafu: page Subdue word hyperlink page 1 page URL: http://cygnus.uta.edu 7 page URL: http://cygnus.uta.edu/projects.html 7 Subdue [1->7] hyperlink [7->8] word /* Vertex ID Label */ s v 1 page v 2 page v 3 Subdue /* Edge Vertex 1 Vertex 2 Label */ d 1 2 hyperlink d 2 3 word

Wyszukiwanie stron prezentujących określoną treść AltaVista zapytanie host:www-cse.uta.edu AND image:next_motif.gif AND image:up_motif.gif AND image:previous_motif.gif. hyperlink hyperlink page hyperlink page page page hyperlink hyperlink

Wyszukiwanie stron z odnośnikami Znajdź strony zawierające przynajmniej 35 linków WebSubdue znalazł 5 stron na www-cse AltaVista nie może przeprowadzić tego typu wyszukiwania hyperlink hyperlink page hyperlink page page page

Wyszukiwanie stron o zawodach w informatyce' Nieprecyzyjny odpowiednik: zezwalaj na jeden poziom synonimów WebSubdue znalazł 33 odpowiedniki Słowa uwzględnione zatrudnienie, praca, zawód, problem, zadanie AltaVista znalazła 2 odpowiedniki word word page word jobs computer science

Wyszukiwanie wiarygodnych stron i wiarygodnych węzłów WebSubdue znalazł 3 węzły ( oraz 3 wiarygodne) strony AltaVista nie może przeprowadzić tego typu wyszukiwania page page page Węzły hyperlink page page page Wiarygodne źródła word word word algorithms algorithms algorithms

Structural Web Search Engine (SWSE) Kolejnym engine'm opartym na wyszukiwaniu strukturalnym jest Structural Web Search Engine (SWSE) w którym aby wyszukać i znaleźć hierarchiczną strukturę przedstawiona przez użytkownika, nie jest potrzebne narzędzie typu data mining. Nie ma wiec potrzeby przygotowywania danych. SWSE korzysta z faktu że sieć jest przeglądana ( crawled ) przez potężny szperacz sieciowy ( web crawler ) oparty na engin'ie wyszukującym słowa kluczowe takim jak Google. SWSE wyszukuje jedynie strony które wymagają przejrzenia przez crawler, to jest strony które posiadają już słowa kluczowe interesujące użytkownika. Wyszukuje on strukturę hiperłączy podaną przez użytkownika pomiędzy poszukiwanymi stronami.. Strony te nie musza być jakąkolwiek specyficzna domeną. SWSE używa podejścia klient-server i może być używany online jak każdy inny engin oparty o słowa kluczowe.

Structural Web Search - interfejs SWSE jest zaimplementowany w Javie i wykonywany jako aplikacja klient-serwer w sieci SWSE jest dostępny pod adresem URL: http://ailab.uta.edu:8080/swse/interface.html.

SWSE - działanie Edytor jest apletem Javy działającym na maszynie klienta. Całe zapytanie przedstawione jako graf na maszynie klienta jest przesyłane do serwera jako obiekt. Program Java nasłuchuje zapytań użytkownika na serwerze i odpowiada z powrotem do klienta z wynikiem wyszukiwania. Wyniki te mają te samą strukturę hiperłączy jak zapytanie przedstawione przez użytkownika z wyjątkiem tego że zawiera strony odpowiadające nie tylko słowom kluczowym wyszukiwanym w każdym węźle ale także strukturze hiperłączy pomiędzy tymi stronami.

SWSE algorytm serwera

W momencie kiedy serwer uzyska graf, dla każdego węzła w grafie wysyła właściwy ciąg zapytań zawierający słowa kluczowe w węźle do engine'u wyszukującego. W odpowiedzi otrzymuje strony HTML zawierające trafienia zwrócone przez engine wyszukujący bazujący na słowach kluczowych jak np. Google. Program analizuje syntaktykę stron HTML i wynajduje wszelkie trafienia. Następnie w każdym węźle mamy liczbę adresów URL z których każdy zawiera słowa kluczowe wyszczególnione w węźle. Serwer próbuje znaleźć te adresy URL, które odpowiadają strukturze narzuconej w zapytaniu.

Prezentacja zapytania W celu zaprojektowania strukturalnego engine'u wyszukującego w sieci potrzebujemy zapytania w formie grafu, zatem pożądana struktura hiperłączy może być narzucona przez użytkownika. Węzły grafu wskazują strony a krawędzie pomiędzy węzłami są linkami pomiędzy nimi. Rozwijany jest prototyp interfejsu gdzie użytkownik może nakreślić swoją pożądana strukturę opartą na grafie w przyjaznym edytorze i wyszczególnić słowa kluczowe dla każdej strony poprzez wstawienie każdego słowa kluczowego do węzłów grafu. Zakłada się ze linki są pomiędzy dwoma różnymi węzłami ( brak linków do samych siebie ). Redukuje to złożoność algorytmu eliminuje linki nawigacyjne stron.

Wydobywanie trafień słów kluczowych Każdy engine wyszukujący w sieci oparty na tekście może być wykorzystany do przeczesywania sieci pod katem słów kluczowych i wyciągać te pasujące. SWSE korzysta z Google z powodu adekwatności jego rezultatów. Po to aby uzyskać strony zawierające słowa kluczowe jest konieczna analiza syntaktyczna stron zwrócona przez Google. Dostosowany do potrzeb użytkownika engin wyszukujący Google był przydatny aby ułatwić fazę analizy syntaktycznej, lecz brak sposobu aby bezpośrednio wysłać ciąg zapytania na serwer i otrzymać rezultat z powrotem. Konieczny jest proces automatyzacji wydobywania trafień. Wersja Yahoo enginu Google udostępnia taką funkcję. Słowa kluczowe zagnieżdżone w węzłach zapytania są automatycznie wysyłane na bazujący na tekście engine Google poprzez odpowiedni ciąg zapytań, i wynikowa strona jest podawana analizie syntaktycznej aby wydobyć strony zawierające słowa kluczowe.

W oparciu o to podejście użytkownik może wstawić jakiekolwiek słowo kluczowe akceptowalne przez Google search engine. To podejście ogranicza wynik liczby trafień które możemy uzyskać z wersji Yahoo enginu Google, który to jest zwykle mniejszy niż wszystkie trafienia które może znaleźć engine Google. Ta liczba trafień jest zadowalająca ponieważ użytkownicy zwykle surfują po najbardziej początkowych trafieniach zwróconych przez engine, lecz dokonuje się analizy syntaktycznej i wybiera tak wiele trafień ile dostarczy Google search engine. Z takim podejściem możemy zakładać że jeśli użytkownik nie może znaleźć żadnego wyniku zwróconego przez SWSE, to jest więcej niż prawdopodobne, że nie może znaleźć żadnego trafienia lub relewantnego trafienia używając engine u opartego na słowach kluczowych jak Google, nawet jeśli surfuje przez wszystkie zwrócone trafienia.

Wyszukiwanie struktury hiperłączy Następnie potrzebujemy odnaleźć specyficzna strukturę narzucona przez użytkownika pomiędzy stronami wyciągniętymi z wyszukiwania opartego o słowa kluczowe. Przykład: w zapytaniu link z węzła posiada Informatyka jako słowo kluczowe do innego węzła posiadającego Osiągnięcia naukowe. Musimy wyciągnąć wszystkie linki w trafieniach wyszukanych z pierwszego, aby zobaczyć czy jest takie hiperłącze do wyszukanego trafienia z drugiego węzła. Przebiega to zgodnie z przedstawionym wcześniej algorytmem.

Ranking wyników W obecnej wersji aplikacji wszystkie wyniki są traktowane tak samo oznacza to że nie ma wprowadzonego rankingu. Powodem jest to ze strony zwracane przez Google search engine maja słowa kluczowe których szuka użytkownik oraz struktura powinna ściśle pasować do struktury zapytania; z drugiej strony to nie jest właściwym trafieniem naszego wyszukiwania. Innym powodem jest to, że użytkownik już wyznaczył węzły przez wstawienie w nie niektórych słów i nie możemy założyć żadnych kryteriów sortowania. Jeden zasięg mógłby spowodować nieścisłość z grafem zapytania, który mógłby wymagać użycia algorytmu izomorficznego. Poziom zgodności może być użyty do pozycjonowania rezultatów. Rozszerzeniem tej aplikacji może być wykorzystanie WordNet, elektronicznej bazy danych leksykonu. Wówczas możemy ustalić ranking wyników oparty o kryteria podobieństwa dla słów kluczowych pasujących do zapytania.

Wyniki empiryczne Od wprowadzenia wyszukiwania strukturalnego nie można porównać wyników SWSE z podobnym enginem wyszukującym. Aby ocenić możliwości SWSE, porównuje się wyniki zapytania SWSE z rezultatami wyszukiwania wygenerowanymi z użyciem trzech popularnych bazujących na słowach kluczowych enginów: Google, Altavista i Infoseek. Zaawansowane wyszukiwanie Google wykorzystuje użycie struktury linków sieci aby ocenić ranking jakości dla każdej strony w sieci i wykorzystać je do usprawnienia wyników wyszukiwania. To zapewnia cenny punkt odniesienia dla rezultatów odnalezionych przez SWSE.

Zapytanie przykładowe: szukamy konkretnej informacji o Alfredzie Noblu. Kładł on nacisk na rozwój wynalazków chemicznych, surowców tj. sztuczny kauczuk, sztuczna skóra, sztuczny jedwab. Został bogaty i zakupił posiadłość przy alei Malakoff. Utrzymywał kontakty z Victorem Hugo i innymi pisarzami. W międzyczasie jego bracia przystąpili do poszukiwania złóż ropy na Morzu Kaspijskim. Zapytanie może wyglądać następująco:

Naszym celem jest znalezienie grupy adresów URL związanych z ludźmi i miejscami opisanymi wyżej. Podajemy SWSE zapytanie w postaci rysunku z poprzedniego slajdu. Strzałka w obydwu kierunkach wskazuje ograniczenie tych linków istniejące w obu kierunkach. Wyniki przedstawia poniższa tabela:

Pierwsza kolumna tabeli przedstawia słowo kluczowe wstawione w każdym węźle. Po uruchomieniu SWSE na przedstawionym zapytaniu adresy URL stron w sieci które odpowiadają słowom kluczowym i strukturze hiperłączy przedstawionego zapytania są przedstawione w drugiej kolumnie tabeli. Wprowadzamy słowa kluczowe w zapytaniu( Alfred Nobel Sztuczny jedwab Victor Hugo Złoża ropy na Morzu kaspijskim ) do wszystkich trzech engine ów opartych o słowa kluczowe i nie otrzymujemy żadnych rezultatów. W niektórych przypadkach nawet gdy usuniemy niektóre słowa kluczowe np. złoża, wciąż nie uzyskamy żadnych wyników albo uzyskamy wyniki nierelewantne do zadanego tematu. Przykładowo kiedy postawimy inne zapytanie ( te same słowa kluczowe bez Malakoff i Złoża ropy ) do engine u Google otrzymamy 35 trafień, lecz żadne z nich nie zawiera któregokolwiek z URL odpowiadających zapytaniu strukturalnemu.

Inne doświadczenie przeprowadzono w celu wyszukania wyników wyszukiwania opartego o bazujący na słowach kluczowych engine dla słów kluczowych w każdym węźle oddzielnie. Wyniki tego przedstawia tabela pod kolumnami Google, Altavista i Infoseek. Liczba reprezentuje pozycję URL z drugiej kolumny w zwróconych trafieniach przez engine wyszukujący (N/A oznacza że URL nie był na zwróconej liście).

Wynik tego eksperymentu wskazuje możliwość strukturalnych engine ów wyszukujących szybszego odnajdywania trafień posiadających poszukiwane relacje pomiędzy interesującymi tematami.

Podsumowanie Internauci czują się zagubieni w cyberprzestrzeni gdy utrącą kontekst w którym szukają informacji i nie są pewni jak postępować aby odnaleźć odpowiednie strony. Strukturalne wyszukiwanie w sieci uwzględnia ten problem. Rozwijany jest engine w którym użytkownik może wpaść na trop danej informacji w odpowiedzi na pojedyncze zapytanie SWSE poprawia efektywność surfowania po sieci - sprawia że jest bardziej precyzyjne niż engin y oparte na słowach kluczowych i ręcznej nawigacji stron internetowych.

Większość metod wyszukiwania skupia się w jakimś stopniu na użyciu danych z hiperłączy aby usprawnić wyszukiwanie w sieci. Pomimo, że te systemy używają struktury hiperłączy do tworzenia rankingu wyszukanych nie wykonują wyszukiwania strukturalnego. W odróżnieniu SWSE prowadzi wyszukiwanie aby odnaleźć zapytania strukturalne połączone z kontekstem tekstowym. Wyniki empiryczne ukazują przewagę takiego podejścia nad tradycyjnym bazującym na słowach kluczowych enginie wyszukującym, kiedy użytkownik jest zainteresowany zarówno strukturą hiperłączy strony internetowej jak i słowami kluczowymi zagnieżdżonymi w tych stronach.

Zaprezentowane wyniki wskazują kilka kierunków badań na polu poszukiwań struktury hiperłączy z użyciem struktury grafu. Zamierzeniem na przyszłość jest zezwolenie użytkownikowi na dodawanie słów kluczowych do krawędzi grafu w celu ograniczenia tekstu zakotwiczonego w hiperłączu oraz przez użycie nieprecyzyjnego grafu do odnajdywania bliskich odpowiedników i tworzenia rankingu odpowiedników na podstawie stopnia bliskości.