Wyszukiwanie informacji w internecie. Nguyen Hung Son

HTML
DOWNLOAD

Wielkość: px

Rozpocząć pokaz od strony:

Download "Wyszukiwanie informacji w internecie. Nguyen Hung Son"

Jacek Michalak
8 lat temu
Przeglądów:

1 Wyszukiwanie informacji w internecie Nguyen Hung Son

2 Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy główne moduły Zarządzanie pająków; Serwer indeksowania; Interfejs użytkownika Wyniki wyszukiwania: Lista rankingowa

3 Architektura Menedżer indeksów Serwer indeksowania Wstępne przetwarza nie i tworzenie indeksów Adresy url Wyniki Wyszukiwarka Internetowa Menedżer pająków zapytania Zawartość strony Pająki

4 Lista rankingowa nie jest doskonała!

5 Lista rankingowa nie jest doskonała!

6 Grupowanie wyników wyszukiwania (ang. SRC: Search Result Clustering)

7 SRC korzysta z krótkich fragmentów tekstu (snippets)

8 SRC czy grupowanie dokumentów? Grupowanie dokumentów: Miliardy stron; Ich treści ciągle się zmieniają; Skalowalność wzg. liczby dokumentów Są to niestrukturalne i różnorodne dane; dodatkowe informacje: hiperłącze, przejścia między stronami (click-through data), itp. SRC Próba 100~400 wyników wyszukiwania Informacje są aktualne Działa na bieżąco Skalowalność wzg. potrzeby użytkownika Zbyt mała, zaszumiona informacja gorsza jakość grup

9 Problemy w SRC

Wymagania Kryteria oceniania jakości metod SRC: Semantyczność: dokumenty w jednej grupie powinny dotyczyć tego samego tematu Znaczenie etykiet grup: powinny one dobrze

10 Wymagania Kryteria oceniania jakości metod SRC: Semantyczność: dokumenty w jednej grupie powinny dotyczyć tego samego tematu Znaczenie etykiet grup: powinny one dobrze opisać zawartość całej grupy. Mała liczba grup: należy pokryć jak najwięcej dokumentów używając przy tym jak najmniej grup. Te kryteria są raczej subiektywne aniżeli obiektywne.

11 Model wektorowy dokumentów T={t 1,,t n } zbiór wybranych wyrazów (słów, fraz) Dokument d i = [w i,1,,w i,n ] gdzie w i,j jest wagą wyrazu t j w dokumencie d i Schemat ważenia wyrazów TFxIDF w i, j fi, j log N df t j w i,j : częstość występowania wyrazu t j w dokumencie d i N : liczba dokumentów df(t j ): liczba dokumentów zawierających t j

12 Podobieństwo dokumentów Miara cosinusa: n i k i n i j i n i k i j i k j k j k j w w w w d d d d d d sim 1 2, 1 2, 1,, ), ( t 1 d 2 d 1 t 3 t 2 θ

13 Istniejące metody

14 Klasyfikacja algorytmów grupowania Płaska struktura czy hierarchiczna? Czy grupy są rozłączne? Ostry czy miękki podział? Przyrostowa metoda? Czy liczba grup jest z góry zadana? Czy miary odległości lub podobieństwa muszą być zadane z góry? Z użyciem odległości Hierarchiczna struktura Agglomerative Hierarchical Clustering (AHC) Płaska struktura K-centroidów (możliwe rozmycie) Inkrementalna (Single-pass) Inne Suffix Tree Clustering (Grouper) SOM (Kohonen) Latent Semantic Indexing (LSI) (zmniejsza wymiar)

15 Grupowanie hierarchiczne (AHC)

16 Wynik grupowania: hierarchia pojęć

17 Różne wersje AHC Istnieją różne metody mierzenia podobieństwa grup Maksymum (complete-link) Minimum (single-link) Średnia (average)

18 K-centroidów (k=3)

19 Metoda inkrementalna (single-pass)

20 Grouper (Zamir and Etzioni 1997, 1999) Działa na bieżąco (online) Grupuje wyniki wyszukiwania (snippets) Grupuje dokumenty, które mają wiele wspólnych fraz Grupowanie drzewem sufiksowym (STC - Suffix Tree Clustering) Czas liniowy Metoda inkrementalna Grupy nie są rozłączne Może być hierarchiczna.

21 Algorytm STC (Suffix Tree Clustering) Krok 1: Czyszczenie danych: Normalizacja (stemming, stop-words elimination) Identyfikacja fraz i zdań. Eliminacja znaków interpunkcyjnych. Krok 2: Budowa drzewa sufiksowego: Stworzenie grup bazowych Ocena grup bazowych za pomocą ich rozmiaru i ocen fraz Krok 3: Łączenie grup bazowych: Grupy mające dużą część wspólną są połączone.

22 Drzewo sufiksowe = minimalne drzewo zawierające sufiksy wszystkich napisów 1. cat ate cheese 2. mouse ate cheese too 3. cat ate mouse too Odwrotny indeks fraz

23 Krok 2 Identyfikacja grup bazowych Wierzchołki reprezentują grupy dokumentów mających wspólną frazę Każda grupa B definiowana przez frazę P jest oceniona przez S(B) = B f( P )

24 Krok 3 Łączenie grup bazowych Podobieństwo między grupami bazowymi: 1 sim 0 Łączymy grupy algorytmem przyrostowym B n B B n m 0.5 oraz wpp. B n B B m m 0.5

25 Lingo (S.Osiński, D. Weiss) Korzysta z rozkładu macierzy wzg. wartości osobliwych (SVD) Reprezentacja zbioru dokumentów (snippets) w przestrzeni rzutowej o małym wymiarze Wektory osobliwe wyznaczają etykiety grup Dokumenty są dopisane do grup według miary cosinusa. Implementacja: Carrot2: Search Results Clustering Framework

26 Rozkład wzg. wartości osobliwych (ang. SVD - Singular Value Decomposition) A macierz m x n A =U V T Kolumny U wektory własne AA T Kolumny V wektory własne A T A = diag( 1,, n ): 1,, n wartości osobliwe A 1 > > k > n Aproksymacja: A U k k V kt = U k C k

27 SVD Współrzędne dokumentów w przestrzeni rzutowej Wektory własne wektory własne A U k C k

28 SVD wyznacza etykiety grup Możliwa etykieta

29 Konkluzje SRC próba przyśpieszania procesu wyszukiwania informacji w internecie i w bibliotekach elektronicznych. Temat atrakcyjny również dla dużych graczy Problemy: Brak obiektywnego kryterium oceny Brak personalizacji Źródła informacji: Historie procesów wyszukiwania w przeszłości Publiczne katalogi internetowe Leksykon semantycznych powiązań, np. Wordnet Profil użytkownika

Podobne dokumenty

O szukaniu sensu w stogu siana

O szukaniu sensu w stogu siana Algorytmy grupowania wyników z wyszukiwarek internetowych i propozycje ich ulepszenia przy wykorzystaniu wiedzy lingwistycznej. Dawid Weiss Instytut Informatyki Politechnika