O szukaniu sensu w stogu siana

Podobne dokumenty
Grupowanie wyników zapytań do wyszukiwarek internetowych

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Analiza danych tekstowych i języka naturalnego

Grupowanie opisowe dużych repozytoriów danych tekstowych. Grupowanie opisowe

Eksploracja złożonych typów danych Text i Web Mining

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

AUTOMATYKA INFORMATYKA

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Semantyczne podobieństwo stron internetowych

Wyszukiwanie dokumentów/informacji

Analiza korespondencji

Wyszukiwanie boolowskie i strukturalne. Adam Srebniak

Optymalizacja. Przeszukiwanie lokalne

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

W poszukiwaniu sensu w świecie widzialnym

Wyszukiwanie tekstów

Wstęp do przetwarzania języka naturalnego

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

Nie święci garnki lepią. czyli wprowadzenie do programowania

WebSty otwarty webowy system do analiz stylometrycznych

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Co to jest grupowanie

Prawdopodobieństwo i statystyka

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Text mining w programie RapidMiner Michał Bereta

Przybliżone algorytmy analizy ekspresji genów.

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

Sieć Hopfielda. Sieci rekurencyjne. Ewa Adamus. ZUT Wydział Informatyki Instytut Sztucznej Inteligencji i Metod Matematycznych.

Skalowanie wielowymiarowe idea

Statystyka i eksploracja danych

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1


Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych

Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee

Hierarchiczna analiza skupień

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Złożoność obliczeniowa zadania, zestaw 2

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

0 + 0 = 0, = 1, = 1, = 0.

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15

Kody blokowe Wykład 2, 10 III 2011

rozpoznawania odcisków palców

Tomasz Grześ. Systemy zarządzania treścią

Stosowana Analiza Regresji

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Wokół wyszukiwarek internetowych

Zastosowanie wartości własnych macierzy

Zastosowanie stereowizji do śledzenia trajektorii obiektów w przestrzeni 3D

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład Kody liniowe - kodowanie w oparciu o macierz parzystości

Bazy dokumentów tekstowych

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Wstęp do przetwarzania języka naturalnego. Wykład 10 Zaawansowana wektoryzacja i klasyfikacja

Obliczenia iteracyjne

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

TEORETYCZNE PODSTAWY INFORMATYKI

Informatyka wspomaga przedmioty ścisłe w szkole

3. Macierze i Układy Równań Liniowych

10. Redukcja wymiaru - metoda PCA

III TUTORIAL Z METOD OBLICZENIOWYCH

POZYCJONOWANIE STRONY SKLEPU

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

Postać Jordana macierzy

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Kurs Chemometrii Poznań 28 listopad 2006

EGZAMIN MATURALNY W ROKU SZKOLNYM 2017/2018 INFORMATYKA

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Zmienne zależne i niezależne

Macierze. Rozdział Działania na macierzach

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

SPOTKANIE 2: Wprowadzenie cz. I

Wybrane działy Informatyki Stosowanej

Symulacja obliczeń kwantowych

WPROWADZENIE DO BAZ DANYCH

Spacery losowe generowanie realizacji procesu losowego

PROLOG WSTĘP DO INFORMATYKI. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

W A R S Z A W S K A W Y Ż S Z A S Z K O Ł A I N F O R M A T Y K I

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Aproksymacja funkcji a regresja symboliczna

Zad. 3: Układ równań liniowych

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

SQL Server i T-SQL w mgnieniu oka : opanuj język zapytań w 10 minut dziennie / Ben Forta. Gliwice, Spis treści

Informatyka szkolna z perspektywy uczelni

Transkrypt:

O szukaniu sensu w stogu siana Algorytmy grupowania wyników z wyszukiwarek internetowych i propozycje ich ulepszenia przy wykorzystaniu wiedzy lingwistycznej. Dawid Weiss Instytut Informatyki Politechnika Poznańska Seminarium Instytut Podstaw Lingwistyki PAN 20 październik 2003

Plan prezentacji o istocie problemu słów kilka algorytmy grupowania wyników wyszukiwania model wektorowy Term Vector Model model powtarzających się fraz alg. STC inne modele lingo rodzimy algorytm, tej propozycje wykorzystania wiedzy lingwistycznej system Carrot 2

W czym tkwi problem? WWW krótka historia wielkiego wybuchu

Ilość jakość większa ilość informacji nie przekłada się na jej jakość internet kiedyś był o wiele bardziej wiarygodny wyszukiwarki nie ułatwiają dostępu do jakościowo lepszej wiedzy wyszukiwarki szukają dokumentów pasujących do pytań, a nie odpowiedzi wyszukiwarki zazwyczaj nie tłumaczą struktury zwracanych wyników

Podejścia do organizowania chaosu wyszukiwarki analiza grafowa, probabilistyczna, inne query-answering systems analiza semantyki zapytań Internet zrozumienie postrzegania wyników, wizualizacja odkrywanie wiedzy z danych przetwarzanie języka naturalnego kognitywistyka

Przykład zapytanie apache systemy wyszukujące dokumenty zawierające postawione pytanie AllTheWeb Altavista Google systemy odpowiadające na pytania System START System AnswerBus systemy organizujące wyniki Vivisimo Carrot 2

apache w Google

apache w AllTheWeb

apache w Altavista.com

apache w systemie START

apache w AnswerBus

apache w Vivisimo.com

apache w systemie Carrot2

Grupowanie w AllTheWeb?

Definicja problemu Search Results Clustering polega na efektywnym utworzeniu sensownych grup tematycznie powiązanych dokumentów, oraz ich zwięzłym opisaniu w sposób zrozumiały dla człowieka. Apache serwer WWW helikopter indianie

Problem nie jest trywialny nie jest znana liczba oczekiwanych grup miara podobieństwa dokumentów jest trudna do zdefiniowania grupy mogą się nakładać znalezienie opisu dla grup nie jest proste wymagana szybkość wykonywania (on-line) dokumenty mogą być wielojęzyczne opisy są zazwyczaj krótkie (snippets) i niepełne

Plan prezentacji o istocie problemu słów kilka algorytmy grupowania wyników wyszukiwania model wektorowy Term Vector Model model powtarzających się fraz alg. STC inne modele lingo rodzimy algorytm, tej propozycje wykorzystania wiedzy lingwistycznej demonstracja systemu Carrot 2

All the real knowledge which we possess, depends on methods by which we distinguish the similar from the dissimilar. - Genera plantarum, Linnaeus

Modelowanie podobieństwa modelowanie odległości w przestrzeniach n-wymiarowych model grafowy współwystępowanie słów i fraz AHC K-means PDDP/ARHP HSTC Lingo STC

Vector Space Model model oparty na algebrze liniowej zbiór unikalnych słów T=t 1, t 2, t n dokumenty (D=d 1, d 2, d m ) reprezentowane jako n-wymiarowe wektory d i =[w i1, w i2, w in ], gdzie w ij jest wagą j-tego słowa w dokumencie i

Ważenie słów wagi słów jak dane słowo jest charakterystyczne dla dokumentu? wiele różnych form: binarna w ij =1 lub w ij =0 częstość wystąpień - w ij =tf ij (t j ) tfidf (Salton) w ij =tf ij (t j )*log(n/df ij (t j )) rola lematyzacji w procesie obliczania wag rola stop words w procesie obliczania wag macierz term-document (A) kolumny dokumenty wiersze słowa Źródło: Prezentacja Carrot2 Milestone report, Stanisław Osiński

Pojęcie bliskości w macierzy A jesteśmy zainteresowani kątem jaki tworzą między sobą wektory dokumentów Identyczny kąt dokumenty są złożone z identycznych słów dokumenty są podobne d j Θ q Źródło: Prezentacja Carrot2 Milestone report, Stanisław Osiński

Przykład macierz A Źródło: Prezentacja Carrot2 Milestone report, Stanisław Osiński

Przykład, c.d. Źródło: Prezentacja Carrot2 Milestone report, Stanisław Osiński

Algorytmy grupowania a macierz A wykorzystanie informacji o bliskości dokumentów w A zastosowanie mają wszelkie metody analizy skupień w danych numerycznych problemy grupy zazwyczaj sferyczne każde słowo jest traktowane oddzielnie problemy ze znalezieniem opisu grup problem z naturalnym kryterium stopu dla większości algorytmów numerycznych

Algorytm STC wykorzystanie fraz Suffix Tree Clustering, Oren Zamir, O. Etzioni fraza = sekwencja występujących po sobie słów algorytm rozważa wspólne podfrazy występujące w dokumentach

Przykład - STC Źródło: O. Zamir PhD thesis, Univ. of Washington Drzewo sufiksów frazy częste Wejściowe dokumenty : (1) cat ate cheese (2) mouse ate cheese too (3) cat ate mouse too Grupy: [a] (1,3) cat ate (cat s culinary habits) [f] (1,2) ate cheese (cheese dining preference)

STC w praktyce zalety brak numerycznej miary odległości frazy stanowią zazwyczaj dobre opisy grup liniowa złożoność - O(N) wady słabo radzi sobie z szumem (home page) problemy z separacją małych grup wrażliwość na progi i język dokumentów

Algorytm Lingo Label INduction Grouping Algorithm autor: Stanisław Osiński, Politechnika Poznańska, uczestnik projektu Carrot 2 odwrócony proces grupowania najpierw opisy, później dokumenty (jak w Vivisimo) opiera się na metodzie rozkładu macierzy A przy pomocy SVD redukcja szumów ujawnia ukryte związki między dokumentami wykorzystuje frazy częste aby opisać odnalezione grupy

Lingo - kroki algorytmu segmentacja tekstu Identyfikacja języka lematyzacja i stop words identyfikacja fraz częstych poszukiwanie grup tematycznych (dekompozycja SVD) Dopasowanie frazy opisowej do każdej grupy dopasowanie dokumentów do grup sortowanie i wyświetlanie grup

Dekompozycja SVD pomijając szczegóły matematyczne kolumny macierzy U tworzą ortogonalną bazę w przestrzeni kolumn macierzy A wektory te wykazują podobieństwo do tematów obecnych w A Źródło: Prezentacja Carrot2 Milestone report, Stanisław Osiński

Dopasowanie fraz do tematów otrzymujemy poprzez wyliczenie kątów między frazami (kandydatami) a podmacierzą U jest to równoważne szukaniu zapytań, do których pasują pewne zbiory wyników

Przykład - Lingo Zakładamy, że r A = 2 (tzn, pod uwagę brane są dwa pierwsze wektory kolumnowe macierzy U). Źródło: Prezentacja Carrot2 Milestone report, Stanisław Osiński

Przykład Lingo, c.d. Źródło: Prezentacja Carrot2 Milestone report, Stanisław Osiński

Dopasowanie dokumentów do grup Ponownie odpytujemy zbiór dokumentów, stosując zbiór opisów grup jako zapytania Używany jest ponownie Vector Space Model W fazie końcowej grupy są sortowane wg wzoru: score = label_score * cluster_size

Przykład Lingo, c.d. Źródło: Prezentacja Carrot2 Milestone report, Stanisław Osiński

LINGO podsumowanie zalety czytelne opisy grup zróżnicowanie tematyczne grup (dzięki użyciu SVD) dokument może należeć do więcej niż jednej grupy niedociągnięcia płaska struktura grup spore wymagania zasobowe (SVD) brak możliwości obliczeń przyrostowych

Plan prezentacji o istocie problemu słów kilka algorytmy grupowania wyników wyszukiwania model wektorowy Term Vector Model model powtarzających się fraz alg. STC inne modele lingo rodzimy algorytm, tej propozycje wykorzystania wiedzy lingwistycznej demonstracja systemu Carrot 2

Motywacja metody frekwencyjne zawsze będą omylne wydaje się, że nawet pobieżna analiza lingwistyczna może przynieść wymierną poprawę wyników

Możliwości dokładna lematyzacja obecnie j. polski - lametyzator własnej produkcji j. angielski alg. Portera przykłady obecnie błędnie interpretowane j. polski beton betoniarka komin kominiarz - kominiarka j. angielski new news

Możliwości usuwanie (ang. pruning) nieczytelnych opisów ograniczenie się tylko do niektórych części mowy co z nazwami własnymi? dopuszczanie jedynie pewnych wzorców (pobieżna analiza składniowa) Przykład: [zawody w] programowaniu zespołowym jak zarówno rzeczownik, jak i zaimek

Możliwości wykrywanie nazw własnych zazwyczaj tworzą dobre opisy grup realne raczej jedynie proste heurystyki problem zmiennego szyku zdania w j. polskim potrzeba detekcji fraz nie na podstawie ich sekwencji

Plan prezentacji o istocie problemu słów kilka algorytmy grupowania wyników wyszukiwania model wektorowy Term Vector Model model powtarzających się fraz alg. STC inne modele lingo rodzimy algorytm, tej propozycje wykorzystania wiedzy lingwistycznej system Carrot 2

O projekcie komponentowy system przetwarzania danych wiele istniejących komponentów i narzędzi wspomagających projekt prowadzony na SourceForge Licencja BSD-podobna ~5 osób zaangażowanych w prace Web controller Google stemming STC Dynamic Tree AllTheWeb pruning Lingo Other wrapper AHC

Adresy, adresy oficjalna strona projektu: www.cs.put.poznan.pl/dweiss/carrot publiczna wersja demonstracyjna: http://carrot.cs.put.poznan.pl

Dziękuję za uwagę kontakt, uwagi: dawid.weiss@cs.put.poznan.pl http://www.cs.put.poznan.pl/dweiss