Wyszukiwanie informacji w internecie. Nguyen Hung Son

Podobne dokumenty
O szukaniu sensu w stogu siana

4.3 Grupowanie według podobieństwa

Grupowanie opisowe dużych repozytoriów danych tekstowych. Grupowanie opisowe

CLUSTERING. Metody grupowania danych

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Analiza danych tekstowych i języka naturalnego

Hierarchiczna analiza skupień

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Wyszukiwanie dokumentów/informacji

Semantyczne podobieństwo stron internetowych

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Analiza korespondencji

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

Grupowanie wyników zapytań do wyszukiwarek internetowych

Eksploracja złożonych typów danych Text i Web Mining

Machine Learning. KISIM, WIMiIP, AGH

Wyszukiwanie boolowskie i strukturalne. Adam Srebniak

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Algorytm grupowania danych typu kwantyzacji wektorów

Wstęp do przetwarzania języka naturalnego

AUTOMATYKA INFORMATYKA

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Egzamin z Metod Numerycznych ZSI, Egzamin, Gr. A

Pobieranie i przetwarzanie treści stron WWW

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Sieci Kohonena Grupowanie

Text mining w programie RapidMiner Michał Bereta

Podstawy grupowania danych w programie RapidMiner Michał Bereta

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Hybrydowa metoda rekomendacji dokumentów w środowisku hipertekstowym

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

METODY INDEKSOWANIA DOKUMENTÓW TEKSTOWYCH W SYSTEMACH WEBOWYCH

Grupowanie dokumentów tekstowych z wykorzystaniem technik NLP

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Techniki grupowania danych w środowisku Matlab

Projektowanie architektury informacji katalogu biblioteki w oparciu o badania użytkowników Analiza przypadku

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

1. Dane punkty na płaszczyźnie. Trzeba narysować dendrogram centroidu

Zad. 3: Układ równań liniowych

Wyszukiwanie tekstów

Ontologie, czyli o inteligentnych danych

POZYCJONOWANIE STRONY SKLEPU

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

W poszukiwaniu sensu w świecie widzialnym

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

Sortowanie. Bartman Jacek Algorytmy i struktury

Badanie struktury sieci WWW

Systemy uczące się wykład 2

Wstęp do przetwarzania języka naturalnego. Wykład 10 Zaawansowana wektoryzacja i klasyfikacja

ang. file) Pojęcie pliku (ang( Typy plików Atrybuty pliku Fragmentacja wewnętrzna w systemie plików Struktura pliku

Metody indeksowania dokumentów tekstowych

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Przykładowa analiza danych

Grupowanie danych. Wprowadzenie. Przykłady

Adrian Horzyk

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

Uczenie sieci radialnych (RBF)

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

Macierze. Rozdział Działania na macierzach

Wyszukiwanie strukturalne

Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych

dodatkowe operacje dla kopca binarnego: typu min oraz typu max:

Wykład 6. Metoda eliminacji Gaussa: Eliminacja z wyborem częściowym Eliminacja z wyborem pełnym

Klasteryzacja danych

Część I Rozpoczęcie pracy z usługami Reporting Services

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

CLUSTERING II. Efektywne metody grupowania danych

Zastosowanie wartości własnych macierzy

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści

Transformaty. Kodowanie transformujace

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Kompresja bezstratna. Entropia. Kod Huffmana

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Układy równań i nierówności liniowych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Monitorowanie i Diagnostyka w Systemach Sterowania

Wykład X. Programowanie. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2016 Janusz Słupik

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2

Numeryczna algebra liniowa. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1

Alicja Marszałek Różne rodzaje baz danych

Co to jest grupowanie

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Ogólne wiadomości o grafach


Tadeusz Pankowski

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

KATEGORIA OBSZAR WIEDZY

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2:

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Analiza obrazów - sprawozdanie nr 2

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Transkrypt:

Wyszukiwanie informacji w internecie Nguyen Hung Son

Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy główne moduły Zarządzanie pająków; Serwer indeksowania; Interfejs użytkownika Wyniki wyszukiwania: Lista rankingowa

Architektura Menedżer indeksów Serwer indeksowania Wstępne przetwarza nie i tworzenie indeksów Adresy url Wyniki Wyszukiwarka Internetowa Menedżer pająków zapytania Zawartość strony Pająki

Lista rankingowa nie jest doskonała!

Lista rankingowa nie jest doskonała!

Grupowanie wyników wyszukiwania (ang. SRC: Search Result Clustering)

SRC korzysta z krótkich fragmentów tekstu (snippets)

SRC czy grupowanie dokumentów? Grupowanie dokumentów: Miliardy stron; Ich treści ciągle się zmieniają; Skalowalność wzg. liczby dokumentów Są to niestrukturalne i różnorodne dane; dodatkowe informacje: hiperłącze, przejścia między stronami (click-through data), itp. SRC Próba 100~400 wyników wyszukiwania Informacje są aktualne Działa na bieżąco Skalowalność wzg. potrzeby użytkownika Zbyt mała, zaszumiona informacja gorsza jakość grup

Problemy w SRC

Wymagania Kryteria oceniania jakości metod SRC: Semantyczność: dokumenty w jednej grupie powinny dotyczyć tego samego tematu Znaczenie etykiet grup: powinny one dobrze opisać zawartość całej grupy. Mała liczba grup: należy pokryć jak najwięcej dokumentów używając przy tym jak najmniej grup. Te kryteria są raczej subiektywne aniżeli obiektywne.

Model wektorowy dokumentów T={t 1,,t n } zbiór wybranych wyrazów (słów, fraz) Dokument d i = [w i,1,,w i,n ] gdzie w i,j jest wagą wyrazu t j w dokumencie d i Schemat ważenia wyrazów TFxIDF w i, j fi, j log N df t j w i,j : częstość występowania wyrazu t j w dokumencie d i N : liczba dokumentów df(t j ): liczba dokumentów zawierających t j

Podobieństwo dokumentów Miara cosinusa: n i k i n i j i n i k i j i k j k j k j w w w w d d d d d d sim 1 2, 1 2, 1,, ), ( t 1 d 2 d 1 t 3 t 2 θ

Istniejące metody

Klasyfikacja algorytmów grupowania Płaska struktura czy hierarchiczna? Czy grupy są rozłączne? Ostry czy miękki podział? Przyrostowa metoda? Czy liczba grup jest z góry zadana? Czy miary odległości lub podobieństwa muszą być zadane z góry? Z użyciem odległości Hierarchiczna struktura Agglomerative Hierarchical Clustering (AHC) Płaska struktura K-centroidów (możliwe rozmycie) Inkrementalna (Single-pass) Inne Suffix Tree Clustering (Grouper) SOM (Kohonen) Latent Semantic Indexing (LSI) (zmniejsza wymiar)

Grupowanie hierarchiczne (AHC)

Wynik grupowania: hierarchia pojęć

Różne wersje AHC Istnieją różne metody mierzenia podobieństwa grup Maksymum (complete-link) Minimum (single-link) Średnia (average)

K-centroidów (k=3)

Metoda inkrementalna (single-pass)

Grouper (Zamir and Etzioni 1997, 1999) Działa na bieżąco (online) Grupuje wyniki wyszukiwania (snippets) Grupuje dokumenty, które mają wiele wspólnych fraz Grupowanie drzewem sufiksowym (STC - Suffix Tree Clustering) Czas liniowy Metoda inkrementalna Grupy nie są rozłączne Może być hierarchiczna.

Algorytm STC (Suffix Tree Clustering) Krok 1: Czyszczenie danych: Normalizacja (stemming, stop-words elimination) Identyfikacja fraz i zdań. Eliminacja znaków interpunkcyjnych. Krok 2: Budowa drzewa sufiksowego: Stworzenie grup bazowych Ocena grup bazowych za pomocą ich rozmiaru i ocen fraz Krok 3: Łączenie grup bazowych: Grupy mające dużą część wspólną są połączone.

Drzewo sufiksowe = minimalne drzewo zawierające sufiksy wszystkich napisów 1. cat ate cheese 2. mouse ate cheese too 3. cat ate mouse too Odwrotny indeks fraz

Krok 2 Identyfikacja grup bazowych Wierzchołki reprezentują grupy dokumentów mających wspólną frazę Każda grupa B definiowana przez frazę P jest oceniona przez S(B) = B f( P )

Krok 3 Łączenie grup bazowych Podobieństwo między grupami bazowymi: 1 sim 0 Łączymy grupy algorytmem przyrostowym B n B B n m 0.5 oraz wpp. B n B B m m 0.5

Lingo (S.Osiński, D. Weiss) Korzysta z rozkładu macierzy wzg. wartości osobliwych (SVD) Reprezentacja zbioru dokumentów (snippets) w przestrzeni rzutowej o małym wymiarze Wektory osobliwe wyznaczają etykiety grup Dokumenty są dopisane do grup według miary cosinusa. Implementacja: Carrot2: Search Results Clustering Framework http://www.carrot2.org http://carrot.cs.put.poznan.pl

Rozkład wzg. wartości osobliwych (ang. SVD - Singular Value Decomposition) A macierz m x n A =U V T Kolumny U wektory własne AA T Kolumny V wektory własne A T A = diag( 1,, n ): 1,, n wartości osobliwe A 1 > > k > n Aproksymacja: A U k k V kt = U k C k

SVD Współrzędne dokumentów w przestrzeni rzutowej Wektory własne wektory własne A U k C k

SVD wyznacza etykiety grup Możliwa etykieta

Konkluzje SRC próba przyśpieszania procesu wyszukiwania informacji w internecie i w bibliotekach elektronicznych. Temat atrakcyjny również dla dużych graczy Problemy: Brak obiektywnego kryterium oceny Brak personalizacji Źródła informacji: Historie procesów wyszukiwania w przeszłości Publiczne katalogi internetowe Leksykon semantycznych powiązań, np. Wordnet Profil użytkownika