Wyszukiwanie boolowskie i strukturalne. Adam Srebniak



Podobne dokumenty
PageRank i HITS. Mikołajczyk Grzegorz

Wyszukiwanie strukturalne

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Wyszukiwanie informacji w internecie. Nguyen Hung Son

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

baton OR mars 282,000, ,000,000 baton OR mars 283,000,000 WYSZUKIWANIE BOOLOWSKIE

OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ<<<

Indukowane Reguły Decyzyjne I. Wykład 3

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD

Teoria grafów dla małolatów. Andrzej Przemysław Urbański Instytut Informatyki Politechnika Poznańska

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Drzewa. Jeżeli graf G jest lasem, który ma n wierzchołków i k składowych, to G ma n k krawędzi. Własności drzew

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Ranking wyników na bazie linków

Matematyka dyskretna - 7.Drzewa

WPROWADZENIE WYSZUKIWANIE OGŁOSZEŃ

*Grafomania z. Neo4j. Praktyczne wprowadzenie do grafowej bazy danych.

Diagramy związków encji. Laboratorium. Akademia Morska w Gdyni

2

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Badanie struktury sieci WWW

Wstęp do Sztucznej Inteligencji

Algorytmy grafowe. Wykład 1 Podstawy teorii grafów Reprezentacje grafów. Tomasz Tyksiński CDV

Biblioteka Wirtualnej Nauki

TEORETYCZNE PODSTAWY INFORMATYKI

AUTOMATYKA INFORMATYKA

a) 7 b) 19 c) 21 d) 34

Załącznik nr 1. Specyfikacja. Do tworzenia Mapy Kompetencji

AiSD zadanie trzecie

Metody Programowania

Zastosowanie wartości własnych macierzy

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Rozwiązywanie problemów metodą przeszukiwania

Multiwyszukiwarka EBSCO Discovery Service przewodnik

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1.

Metody indeksowania dokumentów tekstowych

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Segmentacja obrazów cyfrowych z zastosowaniem teorii grafów - wstęp. autor: Łukasz Chlebda

Audyt SEO. sklep-budowalny.pl Biuro obsługi: al. Grunwaldzka 2/ Gdańsk

5c. Sieci i przepływy

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Projektowanie rozwiązania prostych problemów w języku C++ obliczanie pola trójkąta

Internet wyszukiwarki internetowe

Wyszukiwanie informacji

Primo wyszukiwarka naukowa

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Inteligentne systemy informacyjne

3. Instrukcje warunkowe

Algorytmiczna teoria grafów

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0

REFERAT PRACY DYPLOMOWEJ

REFERAT O PRACY DYPLOMOWEJ

WYSZUKIWANIE INFORMACJI W INTERNECIE

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wymagania na poszczególne oceny szkolne dla klasy VI. (na podstawie Grażyny Koba, Teraz bajty. Informatyka dla szkoły podstawowej.

WPROWADZENIE DO BAZ DANYCH

Dziennik Urzędowy Unii Europejskiej L 274/9

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

Algorytmy wyznaczania centralności w sieci Szymon Szylko

PROLOG WSTĘP DO INFORMATYKI. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

7. Teoria drzew - spinanie i przeszukiwanie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

INTERNET - NOWOCZESNY MARKETING

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

Wybrane działy Informatyki Stosowanej

Biblioteka Wirtualnej Nauki

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0

Czytelnik w bibliotece cyfrowej

TEORIA GRAFÓW I SIECI

Kolorowanie wierzchołków grafu

OpenOfficePL. Zestaw szablonów magazynowych. Instrukcja obsługi

POZYCJONOWANIE STRONY SKLEPU

IMIĘ I NAZWISKO... Wykorzystując wyszukiwarkę Google wykonaj poniższe polecenia:

Wprowadzenie do baz danych

Przekształcenia widmowe Transformata Fouriera. Adam Wojciechowski

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Zmiany funkcjonalne i lista obsłużonych zgłoszeń Comarch DMS , Comarch DMS i Comarch DMS

Nauczanie na odległość

Aproksymacja funkcji a regresja symboliczna

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Baza danych. Modele danych

Skrócona instrukcja obsługi

Księgarnia internetowa Lubię to!» Nasza społeczność

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

Zastosowanie CP-grafów do generacji siatek

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

Specjalizacja magisterska Bazy danych

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Grafem nazywamy strukturę G = (V, E): V zbiór węzłów lub wierzchołków, Grafy dzielimy na grafy skierowane i nieskierowane:

Spis treści. 1: Wyszukiwanie elementu : Do linii modelu : Powiel arkusze : Długość kabla : Rozmieszczenie widoków...

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Transkrypt:

Wyszukiwanie boolowskie i strukturalne Adam Srebniak

Wyszukiwanie boolowskie W wyszukiwaniu boolowskim zapytanie traktowane jest jako zdanie logiczne. Zwracane są dokumenty, dla których to zdanie jest prawdziwe.

Wyszukiwanie boolowskie Opiera się ono na zdefiniowanej przez brytyjskiego matematyka George a Bool a logice, która posiada następujące własności Zmienne mogą przyjmować tylko dwie wartości: 0 lub 1 Występują trzy podstawowe operatory: And, Or, Not

Operator AND Zwraca strony zawierające oba wyrażenia połączone operatorem AND Użycie operatora AND zawęża wyszukiwanie, gdyż zwiększa ilość wyrażeń niezbędnych, aby dokument spełniał kryteria wyszukiwania Im więcej wprowadzimy słów połączonych operatorem AND tym mniej otrzymamy dokumentów

Operator AND - Przykład Przykładowe zapytanie: domy AND mieszkania Koło o etykiecie domy reprezentuje wszystkie dokumenty zawierające słowo domy Koło o etykiecie mieszkania reprezentuje wszystkie dokumenty zawierające słowo mieszkania Obszar zamalowany na żółto reprezentuje dokumenty będące odpowiedzią na zapytanie

Operator OR Zwraca strony zawierające przynajmniej jedno z podanych wyrażeń Użycie operatora OR rozszerza wyszukiwanie Im więcej wprowadzimy słów połączonych operatorem OR tym więcej otrzymamy dokumentów.

Operator OR - Przykład Przykładowe zapytanie: domy OR mieszkania Koło o etykiecie domy reprezentuje wszystkie dokumenty zawierające słowo domy Koło o etykiecie mieszkania reprezentuje wszystkie dokumenty zawierające słowo mieszkania Obszar zamalowany na żółto reprezentuje dokumenty będące odpowiedzią na zapytanie

Operator NOT Zwraca strony nie zawierające danego wyrażenia Zwykle stosuje się AND NOT. Użycie AND NOT zawęża wyszukiwanie Użycie AND NOT powinno być ostrożne, gdyż usuwa on stronę zawierającą dane słowo, choć może się okazać, iż te strony zawierają jednak wartościowe dla nas informacje.

Operator NOT - Przykład Przykładowe zapytanie: domy AND NOT mieszkania Koło o etykiecie domy reprezentuje wszystkie dokumenty zawierające słowo domy Koło o etykiecie mieszkania reprezentuje wszystkie dokumenty zawierające słowo mieszkania Obszar zamalowany na żółto reprezentuje dokumenty będące odpowiedzią na zapytanie

Dodatkowe operatory Nawiasy (,) - umożliwiają tworzenie bardziej złożonych wyrażeń. Najpierw wykonywane są operacje w nawiasach. Użycie nawiasów zmienia kolejność wykonywania operacji

Dodatkowe operatory- c.d. Koło o etykiecie domy reprezentuje wszystkie dokumenty zawierające słowo domy Koło o etykiecie mieszkania reprezentuje wszystkie dokumenty zawierające słowo mieszkania Koło o etykiecie balkon reprezentuje wszystkie dokumenty zawierające słowo balkon Obszar zamalowany na żółto reprezentuje dokumenty będące odpowiedzią na zapytanie

Dodatkowe operatory c.d. W części wyszukiwarek dostępny jest również operator NEAR, który zwraca strony zawierające oba słowa blisko siebie, tzn. w określonej odległości od siebie Operator NEAR jest podobny do operatora AND, gdyż zwraca strony zawierające oba słowa, z tym że dodatkowo słowa te muszą znajdować się wystarczająco blisko siebie

Wady wyszukiwania boolowskiego Główną wadą wyszukiwania boolowskiego jest słaba możliwość posortowania wyników, co związane jest z możliwością jedynie dyskretnego pomiaru zbieżności dokumentu z zapytaniem.

Klasteryzacja Search Results Clustering (SRC) Wyszukiwarki często zwracają jako rezultat znaczną ilość dokumentów W celu usystematyzowania, powiązania ich w grupy tematyczne, a także w celu zwięzłej prezentacji stosuje się SRC Istnieje wiele algorytmów służących do grupowania wyników m.in. :STC

Google

Vivisimo

Wyszukiwanie oparte na słowach kluczowych Rezultatem są dokumenty zawierające określone słowa kluczowe Głównymi problemami są zwykle duża ilość otrzymanych stron, a także ich jakość

Wyszukiwanie strukturalne

Wyszukiwanie strukturalne Sieć Internet zawiera ogromną ilość hiperlinków, które łączą jedne strony z innymi, a struktura grafowa stworzona przez te hiperlinki jest źródłem znaczącej ilości informacji. Wyszukiwanie strukturalne jest procesem przeszukiwania sieci w poszukiwaniu specyficznej struktury hiperłączy i połączone z tekstową analizą zawartości strony.

Wyszukiwanie strukturalne c.d. Struktura hiperlinków reprezentuje związki między stronami źródłowymi i docelowymi. Takie powiązania mogą zawierać hierarchiczne relacje między stroną rodzicielską a stroną potomną zawierającą bardziej szczegółowe informacje połączenia między poprzednią, obecną i następną stroną

Wyszukiwanie strukturalne Podstawowe typy odsyłaczy: Semantyczne wiążące dokumenty o pokrewnej tematyce Organizacyjne (nawigacyjne) mające na celu ulepszenie nawigacji

Wyszukiwanie strukturalne Połączone ze sobą za pomocą hiperlinków dokumenty w sieci tworzą graf skierowany. W grafie tym węzłami są dokumenty, zaś krawędziami odnośniki wiążące te dokumenty. Krawędzie tego grafu są skierowane od dokumentów cytujących do dokumentów cytowanych, zgodnie z występowaniem hiperlinków.

Wyszukiwanie strukturalne Ranking otrzymanych odpowiedzi zależy od: Relewantności do zapytania Jakości otrzymanych stron

Podejście pierwsze im większa liczba wskazań na daną stronę, tym większa jakość strony. W tym podejściu każde hiperłącze jest tak samo ważne. Nie ma znaczenia jakość strony, na której się ono znajduje. Jakość strony oblicza się poprzez zsumowanie liczby wszystkich hiperłączy kierujących do tej strony. Zalety: Łatwość obliczenia jakości strony Wady: Łatwość manipulacji Słabe rezultaty

Ze względu na występujące w tym podejściu znaczące wady zmodyfikowano to podejście Podejście drugie przy ocenie jakości strony brana jest pod uwagę jakość hiperlinków kierujących na nią. Jakość hiperlinków zależy od jakości stron, na których są one umieszczone. Im wyższa jakość strony, tym wyższa jakość hiperlinku znajdującego się na niej Takie podejście utrudnia manipulację i daje lepsze rezultaty, natomiast komplikuje sposób obliczania jakości strony

Algorytm HITS Autorytet - strona, do której kierowanych jest wiele linków z innych stron Hub - strona, która zawiera linki do wielu innych stron, które są uznawane jako autorytety w danej dziedzinie tematycznej Dobry autorytet jest wskazywany przez wiele dobrych hubów, zaś dobry hub wskazuje na wiele dobrych autorytetów

Algorytm HITS Bada powiązania między stronami Znajduje węzły i autorytety dla konkretnych słów kluczowych Tworzy podgraf sieci powiązań Każdy autorytet i hub otrzymują określoną wagę.

Algorytm HITS Wyślij zapytanie do opartego na tekście systemu i uzyskaj zbiór źródłowy Rozszerz zbiór źródłowy o jeden promień aby uzyskać rozszerzony graf Uruchom iteracje dla hubów i autorytetów. Zgłoś najwyżej ocenione autorytety i huby Rezultatem działania algorytmu jest lista węzłów i autorytetów z największymi współczynnikami poprawności.

HITS - Problemy Automatycznie generowane linki Nierelewantne wysoko powiązane strony

HITS - Podsumowanie Algorytm HITS nie może obliczać wagi hubów i autorytetów, dopóki nie są one zależne od zapytania, co niesie ze sobą konsekwencje: Bardziej logiczne jest ograniczenie się do podgrafu sieci relewantnego do zapytania Czas odpowiedzi na zapytanie może być zły

System CLEVER, w którym zastosowano algorytm HITS skanuje najbardziej autorytatywne strony związane z danym tematem używając hiperlinków. Wyszukiwarka Google jest kolejną wyszukiwarką, która wykorzystuje strukturę hiperlinków. Strona jest oceniana poprzez zsumowanie punktów innych dokumentów wskazujących na daną stronę.

PageRank Metoda nadawania stronom internetowym wartości liczbowych określających ich jakość Przy obliczaniu PageRanku stosuje się zasadę iż, jeśli na dany tekst powołuje się dokument, który sam ma wysoką ocenę, ma to większe znaczenie niż gdy na ten sam tekst powołuje się mało popularna strona

HITS vs PageRank Podstawowe różnice między HITS i PageRank: PageRank jest obliczany dla wszystkich zaindeksowanych stron WWW przed zapytaniem HITS jest obliczany dla zbioru wyszukanych stron WWW dla każdego zapytania PageRank oblicza tylko autorytety HITS oblicza autorytety i huby PageRank nie jest prosty do obliczenia HITS jest łatwy do obliczenia, ale wykonywanie w czasie rzeczywistym jest trudne

Websubdue Wyszukiwanie oparte na słowach kluczowych często nie dostarcza satysfakcjonujących rezultatów. W związku z tym rozpoczęto badania mające na celu polepszenie wyników wyszukiwania Możliwość traktowania sieci jako grafu skłoniła naukowców do badań nad powiązaniem wyszukiwania opartego na słowach kluczowych z wykorzystaniem struktury hiperlinków

Websubdue Websubdue jest narzędziem, które wydobywa strony odpowiednie do struktur uformowanych przez zapytania użytkownika oparte na grafach. WebSubdue powstał w 2001 na Uniwersytecie Teksas w Arlington Zapytania są reprezentowane w postaci grafów Wykorzystuje on system odkrywania wiedzy Subdue

Websubdue przygotowanie danych Dane wejściowe dla WebSubdue są przekształcane w postać grafową Zbiór danych jest przygotowywany z wykorzystaniem robota sieciowego Robot podąża tylko linkami do stron znajdujących się na określonych serwerach

Subdue Subdue jest narzędziem wydobywania danych, które odkrywa powtarzające się wzorce w danych strukturalnych Subdue odkrywa wystąpienia zdefiniowanej struktury w grafie Websubdue zgłasza wierzchołki, krawędzie i odpowiadające adresy URL dla każdego odkrytego wystąpienia.

Websubdue niedokładne dopasowanie Algorytm ten zezwala na występowanie różnic pomiędzy zdefiniowaną podstrukturą a wyszukaną podstrukturą Dwa grafy pasują do siebie jeżeli liczba transformacji potrzebna do przekształcenia jednego grafu w drugi nie jest większa niż ustalony przez użytkownika próg pomnożony przez wielkość większego grafu

Websubdue niedokładne dopasowanie Dozwolone transformacje to: dodanie lub usunięcie krawędzi, wierzchołka, zmiana etykiety i zmiana kierunku krawędzi Algorytm niedokładnego pasowania grafów może być wykorzystywany do znajdowania stron, które odpowiadają zapytaniu użytkownika z pewnym przybliżeniem. Jeżeli użytkownik ustali próg wartości 0, wówczas grafy muszą do siebie dokładnie pasować.

Niedokładne dopasowanie - przykład Problem: Szukamy hubów (tutaj stron, które wskazują na co najmniej 3 autorytety) i autorytetów (tutaj stron, które są wskazywane przez co najmniej 3 autorytety) stron, które skupiają się na algorytmach. W przypadku gdy ustalimy wartość progową równą 0, to otrzymamy jedną odpowiedź. Zaś w przypadku gdy wartość progowa wyniesie 0.2, to otrzymamy 13 odpowiedzi.

Wordnet Wordnet jest bazą danych, która stara się organizować informacje według ich znaczenia a nie formy Websubdue wykorzystuje WordNet do zwiększenia wydajności wyszukiwania. Przykład: szukając stron zawierających słowo samochód pominiemy znaczną ilość stron, zawierających słowo auto, które to strony mogą zawierać istotne dla nas informacje. Dlatego wykorzystanie Wordnet umożliwia wyszukiwanie stron zawierających nie tylko dane słowo, ale również inne słowa będące z nim związane.

WordNet - przykład Problem: Znaleźć strony o pracy w informatyce. Websubdue, wykorzystując Wordnet uwzględnia również następujące słowa: zatrudnienie, praca, problem, zadanie.

Structural Web Search Engine SWSE wykorzystuje wyszukiwanie strukturalne Nie wymaga wydobywania danych Nie wymaga przygotowywania danych Korzysta z faktu, iż sieć została już przejrzana wiarygodnym szperaczem sieciowym (Google). Wydobywa tylko strony, które mają już słowa kluczowe interesujące użytkownika Wyszukuje strukturę hiperlinków podaną przez użytkownika między stronami, które wydobywa

SWSE Przyjazny użytkownikowi interface pozwala użytkownikowi w łatwy sposób rysować i edytować zapytanie w formie graficznej Strony nie muszą być specyficzną domeną

SWSE SWSE wykorzystuje podejście klient-serwer. Aplikacja jest napisana w języku Java. Zapytanie sformułowane przez użytkownika w formie grafowej jest przesyłane do serwera w postaci obiektu. Serwer oczekuje na zapytanie od użytkownika. Kiedy serwer otrzyma zapytanie, to dla każdego węzła, na podstawie słów kluczowych występujących w tym węźle tworzy zapytanie tekstowe, które jest następnie przesyłane do engine u wyszukującego. Następnie serwer otrzymuje wyszukane przez engine oparty na słowach kluczowych (np.. Google) strony. Następuje analiza otrzymanych stron i wydobycie wszystkich trafień. Kolejnym krokiem jest znalezienie tych URLi wyznaczonych dla każdego węzła, które odpowiadają strukturze ustalonej w zapytaniu.

SWSE Prezentacja zapytań Zapytanie musi być przedstawione jako graf, w którym węzły odpowiadają stronom, a krawędzie linkom między nimi SWSE zapewnia przyjazne środowisko graficzne, które umożliwia użytkownikowi stworzenie struktury grafowej, a także określenie słów kluczowych dla każdej strony poprzez możliwość ich umieszczenia w węzłach Wyklucza się istnienie krawędzi łączących węzeł z samym sobą. Powoduje to zmniejszenie złożoności algorytmu poprzez eliminację linków nawigacyjnych

SWSE Wydobywanie trafień słów kluczowych Słowa kluczowe znajdujące się w węzłach zapytania są automatycznie wysyłane na oparty na tekście engine Google poprzez odpowiedni ciąg zapytań, a wynikowa strona jest poddawana analizie syntaktycznej w celu wydobycia stron zawierających słowa kluczowe

SWSE Ranking wyników W obecnej wersji aplikacji wszystkie wyniki są traktowane tak samo, co znaczy że nie istnieje ranking wyników Jednym z powodów jest to, iż strony zwrócone przez Google zawierają słowa kluczowe, a struktura odpowiada strukturze zapytania

SWSE Ranking wyników W przypadku gdy stosujemy algorytm niedokładnego dopasowania grafów, stopień podobieństwa obliczony poprzez zsumowanie liczby przekształceń, którym musi być poddany graf, aby otrzymać graf odpowiadający grafowi zapytania, może być używany do stworzenia rankingu wyników. Im niższa liczba potrzebnych przekształceń, tym wyższa pozycja w rankingu W przypadku wykorzystywania WordNet, ranking wyników może być oparty na kryterium podobieństwa do słów kluczowych

SWSE przykład 1 Szukamy kampusów UT i informacji o gościach i bibliotece w UTA(UT Arlington). SWSE zwraca dwa trafienia na to zapytanie. Natomiast Google dla zapytania UT UTA campuses visitors library nie zwraca żadnej strony.

SWSE przykład 2 Szukamy kampusów UT i informacji dla przyszłych studentów na trzech uniwersytetach. SWSE zwraca jedno trafienia na to zapytanie. Natomiast Google dla zapytania UT campuses Austin Arlington Dallas Prospective students nie zwraca żadnej strony.