Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych



Podobne dokumenty
Pobieranie i przetwarzanie treści stron WWW

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Grupowanie stron WWW. Funkcje oceniające.

Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene

Ranking wyników na bazie linków

Wyszukiwanie dokumentów/informacji

Wstęp do grupowania danych

Eksploracja tekstu. Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu. Eksploracja danych. Eksploracja tekstu wykład 1

Wyszukiwanie tekstów

Wprowadzenie do baz danych

Wstęp do przetwarzania języka naturalnego

Text mining w programie RapidMiner Michał Bereta

Bazy dokumentów tekstowych

Skalowanie wielowymiarowe idea

[ A i ' ]=[ D ][ A i ] (2.3)

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

POD- I NADOKREŚLONE UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Wykład 10 Skalowanie wielowymiarowe

Matematyka stosowana i metody numeryczne

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015

Podstawy Programowania Obiektowego

Systemy uczące się Lab 4

Inteligencja obliczeniowa

Inteligencja obliczeniowa

Tablice mgr Tomasz Xięski, Instytut Informatyki, Uniwersytet Śląski Katowice, 2011

Treść wykładu. Układy równań i ich macierze. Rząd macierzy. Twierdzenie Kroneckera-Capellego.

Wyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Wyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search

Hierarchiczna analiza skupień

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Maciej Piotr Jankowski

TEORETYCZNE PODSTAWY INFORMATYKI

Wykład 6. Metoda eliminacji Gaussa: Eliminacja z wyborem częściowym Eliminacja z wyborem pełnym

ALGORYTMY EWOLUCYJNE W OPTYMALIZACJI JEDNOKRYTERIALNEJ

Rozwiązywanie układów równań liniowych metody dokładne Materiały pomocnicze do ćwiczeń z metod numerycznych

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Met Me ody numer yczne Wykład ykład Dr inż. Mic hał ha Łanc Łan zon Instyt Ins ut Elektr Elektr echn iki echn i Elektrot Elektr echn olo echn

Programowanie Współbieżne. Algorytmy

Algorytmy i struktury danych

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Zad. 3: Układ równań liniowych

Technika cyfrowa Synteza układów kombinacyjnych (I)

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2:

Liczby zmiennoprzecinkowe i błędy

SQL (ang. Structured Query Language)

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora.

Rozkłady wielu zmiennych

Systemy Wspomagania Decyzji

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Metody numeryczne Wykład 4

Algorytmy i struktury danych. Wykład 4

Układy równań i nierówności liniowych

Elementy inteligencji obliczeniowej

Lab 9 Podstawy Programowania

SZTUCZNA INTELIGENCJA

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

METODY INŻYNIERII WIEDZY

4. Postęp arytmetyczny i geometryczny. Wartość bezwzględna, potęgowanie i pierwiastkowanie liczb rzeczywistych.

cx cx 1,cx 2,cx 3,...,cx n. Przykład 4, 5

Algorytmy Równoległe i Rozproszone Część V - Model PRAM II

opisuje nazwy kolumn, wyrażenia arytmetyczne, funkcje nazwy tabel lub widoków warunek (wybieranie wierszy)


Technika cyfrowa Synteza układów kombinacyjnych

Operator rozciągania. Obliczyć obraz q i jego histogram dla p 1 =4, p 2 =8; Operator redukcji poziomów szarości

Układy równań liniowych. Krzysztof Patan

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

Komputerowa Analiza Danych Doświadczalnych

Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład Kody liniowe - kodowanie w oparciu o macierz parzystości

Przetwarzanie obrazów rastrowych macierzą konwolucji

3.1. Na dobry początek

Kwantyzacja wektorowa. Kodowanie różnicowe.

Elementy modelowania matematycznego

Wstęp do Programowania Lista 1

Model przepływów międzygałęziowych (model Leontiewa)

Lista. Algebra z Geometrią Analityczną. Zadanie 1 Przypomnij definicję grupy, które z podanych struktur są grupami:

1. PODSTAWY TEORETYCZNE

Matlab Składnia + podstawy programowania

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Wprowadzenie do metod numerycznych Wykład 3 Metody algebry liniowej I Wektory i macierze

Podstawy programowania 2. Temat: Funkcje i procedury rekurencyjne. Przygotował: mgr inż. Tomasz Michno

Agnieszka Nowak Brzezińska Wykład III

Pomiar rezystancji metodą techniczną

Wyszukiwanie binarne

SQL - Structured Query Language -strukturalny język zapytań SQL SQL SQL SQL

Jeśli X jest przestrzenią o nieskończonej liczbie elementów:

Agnieszka Nowak Brzezińska

Badanie struktury sieci WWW

Sponsorem wydruku schematu odpowiedzi jest wydawnictwo

WYKŁAD 9 METODY ZMIENNEJ METRYKI

1 Układy równań liniowych

Wykład 8. SQL praca z tabelami 5

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Dwuczynnikowa ANOVA dla prób niezależnych w schemacie 2x2

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Zad. 3: Rotacje 2D. Demonstracja przykładu problemu skończonej reprezentacji binarnej liczb

Transkrypt:

Eksploracja zasobów internetowych Wykład 3 Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych mgr inż. Maciej Kopczyński Białystok 2014

Wstęp Wyszukiwanie dokumentów za pomocą słów kluczowych bazujące na regułach boolowskich jest proste i szybkie, jednak posiada dużą wadę. Nie pozwala na sortowanie zwróconych wyników wyszukiwania pod względem istotności treści. W jaki sposób poradzić sobie z tym problemem? Poprzez definiowanie zapytań w sposób precyzyjny lub sortowanie zwróconych treści bazując na ilości wystąpień poszczególnych termów w korpusie dokumentu.

Wstęp Najbardziej powszechne struktury danych do przechowywania treś- ci pobranych ze stron WWW: macierz term-dokument typu boolowskiego, macierz term-dokument typu ilościowego, macierz term-dokument typu pozycyjnego. Z wykorzystaniem tych struktur można zwracać wyniki bazujące na słowach kluczowych stosując reguły boolowskie.

Wstęp Przy wyszukiwaniu danych zgodnych z zapytaniem złożonym ze słów kluczowych ważne jest sortowanie pod względem istotności treści zboru wynikowego. Osiągnięcie tego celu wymaga zastosowania odpowiednich algoryt- mów oraz zmodyfikowanych struktur do przechowywania danych. Powstałe struktury bazują na poznanych do tej pory metodach przechowywania pobranych danych.

Dane przykładowe Strona internetowa www.artsci.ccsu.edu:

Dane przykładowe Przykładowy zbiór danych ze strony www.artsci.ccsu.edu:

Analiza danych Pod względem możliwości analizy danych pobranych ze stron WWW najbardziej odpowiednia jest struktura typu pozycyjnego: względna prostota przechowywania danych, łatwość wyszukiwania informacji, możliwość zliczenia ilości wystąpień termów w dokumencie, możliwość wyszukiwania słów leżących w określonych odległościach względem siebie.

Macierz typu pozycyjnego Przykładowa macierz term-dokument typu pozycyjnego:

Model wektorowy Model wektorowy jest bezpośrednio powiązany z macierzowymi strukturami danych i wynikach z ich innej interpretacji logicznej. Struktury modelu wektorowego pozwalają klasyfikować zbiór wyników pod kątem istotności traktując dokumenty jako wektory wielowymiarowe. Każdy z takich wektorów posiada ilość współrzędnych równą ilości termów we wszystkich zbiorach dokumentów.

Model wektorowy Rodzaje powszechnie stosowanych modeli wektorowych w sys- temach typu Information Retrieval: boolowski, Term-Frequency (TF), Inverse Document Frequency (IDF), Term Frequency Inverse Document Frequency (TFIDF). 0

Model wektorowy oznaczenia Oznaczenia wykorzystywane na kolejnych slajdach odnoszące się do struktur logicznych: d, d,..., d dokumenty 1 2 n t, t,..., t termy 1 2 m n ij ilość termów t w dokumencie d i j m ilość wszystkich termów n ilość wszystkich dokumentów 1

Model wektorowy boolowski Pojedynczy wiersz w boolowskim modelu wektorowym opisany jest jako: d j = d j 1 d j 2 d j n d i j = { 0 dla n ij=0 1 dla n ij 0 Dla zbioru termów lab, laboratory, programming, computer oraz program dla dokumentu d 6 d 6 =(0 0 1 1 1) wektor będzie zadany jako: 2

Macierz typu boolowskiego Przykładowa macierz term-dokument typu boolowskiego:

Model wektorowy TF Pojedynczy wiersz w modelu wektorowym typu Term-Frequency opisany jest jako: d j = d j 1 d j 2 d j n Każdy współczynnik wektora opisany jest zależnością: d j i =TF t i, d j 4

Model wektorowy TF Sposoby obliczania współczynników TF: suma termów: TF t i,d j ={0 n ij m n kj k=1 dla n ij=0 dla n ij 0 maksimum: logarytm: TF t i, d j = {0 dla n ij =0 n ij dla n max k n ij 0 kj TF t i, d j = { 0 dla n ij =0 1 log 1 log n ij dla n ij 0 5

Model wektorowy TF Współczynniki TF służą do normalizacji wartości termów opisują- cych dokumenty WWW. Dzięki nim można przeskalować duże war- tości termów związanych z dokumentami do wartości mniejszych, mieszczących się w zdefiniowanym zakresie. Współczynniki TF powiązane są z każdym termem w każdym do- kumencie. Do zapisania współczynników TF wymagana jest macierz dwuwymiarowa (w sensie logicznym!). 6

Model wektorowy IDF Załóżmy, że zbiór D jest zbiorem wszystkich dokumentów, zaś D t i ={d j n ij 0} zbiór zbiorem dokumentów zawierających term t i. Sposoby obliczania współczynników IDF: ułamek: IDF t i = D D t i logarytm: IDF t i =log 1 D D t i 7

Model wektorowy IDF Współczynniki Inverse Document Frequency służą do skalowania współczynników wektorów dokumentów. Dla termów występujących często w różnych dokumentach, istot- ność tego termu nie może być tak duża, jak termu występującego w niewielu dokumentach. Czy wpółczynniki IDF powiązane są tylko z termami czy również z dokumentami? Współczynniki IDF powiązane są tylko z termami (bez uwzględniania dokumentów). 8

Model wektorowy TFIDF Pojedynczy wiersz w modelu wektorowym typu Term-Frequency Inverse Document Frequency opisany jest jako: d j = d j 1 d j 2 d j n Każdy współczynnik wektora opisany jest zależnością: d j i =TF t i,d j IDF t i Model wektorowy TFIDF łączy w sobie zalety współczynników TF oraz współczynników IDF. 9

TFIDF przykład Wektor TF dokumentu d 6 d 6 = 0 0 0,026 0,076 0,039 (strona wydziału Computer Science): Współczynniki modelu IDF dla poszczególnych termów (logarytm): Wektor TFIDF dokumentu d 6 : d 6 = 0 0 0,079 0,112 0,022 0

Macierz typu pozycyjnego Przykładowa macierz term-dokument typu pozycyjnego:

Słowa kluczowe wyszukiwanie Korzystając z modelu wektorowego można przeprowadzić wyszu- kiwanie dokumentów bazując na obliczaniu odległości pomiędzy wektorami. W jaki sposób przedstawić zapytanie w formie wektora? Słowa kluczowe zapytania można przekształcić do termów i ba- zując na zbiorze wszystkich termów stworzyć wektor reprezen- tujący to zapytanie. 2

Słowa kluczowe wyszukiwanie Zwracane wyniki będzie można posortować pod względem istot- ności bazującej na termach poprzez obliczenie odległości po- między wektorem reprezentującym zapytanie, a pozostałymi wek- torami reprezentującymi dokumenty. Odległości pomiędzy wektorami muszą być obliczane z wykorzys- taniem wybranej normy metrycznej. 3

Wyszukiwanie normy Najczęściej w technice IR wykorzystywane są następujące normy metryczne: norma Euklidesowa: m q d j = i=1 q i d j i 2 podobieństwo cosinusowe: m q d j = i=1 q i d j i 4

Wyszukiwanie normy Które ze zwróconych dokumentów dla normy Euklidesowej są bardziej istotne? Dla podobieństwa euklidesowego dokument jest tym bardziej istotny, im mniejsza jest wartość wynikowa normy. Które ze zwróconych dokumentów dla normy cosinusowej są bardziej istotne? Dla podobieństwa cosinusowego dokument jest tym bardziej istotny, im większa jest wartość wynikowa normy. 5

Wyszukiwanie przykład Załóżmy, że korzystając z poznanych wcześniej metod chcemy wyszukać te dokumenty, które zawierają termy computer oraz program. Wektor q odpowiadający zapytaniu jest określony współrzędnymi: q= 0 0 0 0,5 0,5 Po nałożeniu współczynników IDF na wektor q otrzymamy: q= 0 0 0 0,718 0,28 6

7 Wyszukiwanie przykład

Wyniki wyszukiwania Zarówno norma euklidesowa, jak i norma cosinusowa pozwalają zwracać zbiory dokumentów posortowane pod względem ich istot- ności. Obliczana istotność zależy od częstości występujących w ich korpusach termów. Jednak normy te nie uwzględniają faktu występowania wyszukiwanego termu w treści dokumentu. Należy zatem pamiętać, aby brać pod uwagę tylko te dokumenty, które zawierają wszystkie termy z zapytania opartego o słowa kluczowe. 8

Wyszukiwanie z operatorami Silniki wyszukiwania mają możliwość przetwarzania zapytań złożonych ze słów kluczowych wraz z operatorami boolowskimi, np. AND, OR lub NOT. Wprowadzając domyślne zapytanie złożone ze słów kluczowych, wykorzystywany jest operator AND. W jaki sposób zrealizować operatory OR oraz NOT? Przed obliczeniem odległości (lub w trakcie obliczeń) można wy- bierać tylko, te dokumenty, które spełniają podane zależności. 9

Wyszukiwanie słów z błędami Problemem w definiowaniu zapytań złożonych ze słów kluczowych są możliwe błędy w zapisie poszczególnych słów. Jedną z metod radzenia sobie z tym problemem jest dekompozycja termów na n-gramy. W przypadku popełnienia błędu w zapisie termu, porównanie fragmentów termów pozwoli na znalezienie podobieństwa i zwrócenie odpowiednich wyników. Średnia długość stosowanych n-gramów waha się w zakresie od 2 do 4. 0

Wyszukiwanie słów z błędami Przykładowo, term program może być rozłożony na 2-gramy: {pr, ro, og, gr, ra, am} Term program zapisany z błędem, np. prorgam zostanie rozłożony na następujące 2-gramy: {pr, ro, or, rg, ga, am} Porównanie dwóch sekwencji pokazuje, że 2-gramy pokrywają się w 3 na 6 przypadków, w związku z tym można podejrzewać, że termy te są takie same. 1

Sprzężenie zwrotne oceny wyników W procesie sortowania wyszukanych dokumentów pod względem istotności, można wykorzystać ocenę zwróconych wyników przez użytkownika na zasadzie sprzężenia zwrotnego. Użytkownik przydziela wyniki do dwóch zbiorów: D + D dokumenty istotne, dokumenty nieważne. Problemem w tym rozwiązaniu jest jednak czas, który użytkownik musi poświęcić na klasyfikację dokumentów. Pseudo-ocena wyników: np. 5 wyników do D, + reszta do D. 2

Sprzężenie zwrotne oceny wyników Po dokonaniu oceny przez użytkownika wektor zapytania jest przeliczany z wykorzystaniem metody Rocchio. Dokumenty istotne zwiększają współczynniki wektora zapytania, zaś doku- menty nieistotne współczynniki te osłabiają. Zależność modyfikująca wektor zapytania q: q'= q d j D + d j d j D - d j 3

Ocena wyników przykład Załóżmy, że α = 1, β = 0.5, zaś γ = 0. Zapytanie q zostanie zmodyfi- kowane przez trzy istotne dokumenty zwrócone przez oryginalne zapytanie. Dodatkowo, wybrane zostaną trzy termy o najwyższych współczynnikach IDF: lab, laboratory, programming.. Modyfikacja wektora zapytania q będzie wyglądała następująco: q'= q 0.5 d 4 d 6 d 14 0 0 0 q 0 0 '= 0.932 0 0.363 [ 0 0 0 0 0.559 0 0 0.89 0 0 0 0.28 ]= 0.445 0 0.932 0 0.363 4

Ocena wyników przykład Po modyfikacji wektora zapytania q i ponownym zwróceniu wyników zgodnie z podobieństwem liczonym za pomocą miary cosinusów, otrzymane zostały następujące wartości dla dokumentów: d 6 (Computer Science): 0.863, d (Chemistry 4 Chemistry): 0.846, d 14 14 (Music): 0.754. Wynik jest lepszy, gdyż zapytanie złożone z termów computer oraz program,, powinno na pierwszym miejscu zwrócić stronę WWW dotyczącą wydziału Computer Science. 5

Miary oceny jakości wyników W systemach typu IR istotne są mechanizmy pomiaru jakości dzia- łania algorytmów zwracających zbiory wynikowe. W tym celu opra- cowany został system precision-recall. Model ten operuje na dwóch zbiorach: R q zbiór dokumentów zwróconych przez algorytm zgodnie z za- pytaniem q, D q zbiór istotnych dokumentów zgodnych z zapytaniem q,, stwo- rzony przez eksperta. 6

Miary oceny jakości wyników Ilość zwróconych i istotnych wyników w stosunku do wszystkich istotnych dokumentów jest określany jako recall: recall= D q R q D q Wartości parametru recall mogą się zmieniać w zakresie od 0 do 1. Jaki jest najgorszy i najlepszy przypadek? Najgorszy przypadek to wartość 0, kiedy algorytm nie zwrócił żad- nego istotnego dokumentu. Najlepszy przypadek to 1, jednak wcale nie oznacza to, że algorytm zwrócił poprawny zbiór wynikowy. 7

Miary oceny jakości wyników Ilość zwróconych i istotnych wyników w stosunku do wszystkich zwróconych dokumentów jest nazywany precyzją (ang. precision): precision= D q R q R q Wartości precyzji mogą się zmieniać w zakresie od 0 do 1. Jaki jest najgorszy i najlepszy przypadek? 8 Najgorszy przypadek to wartość 0, kiedy algorytm nie zwrócił żad- nego istotnego dokumentu. Najlepszy przypadek to 1, kiedy zbiór wynikowy zwrócony przez algorytm zawiera wszystkie istotne doku- menty.

Miary oceny jakości wyników Każdy system IR dąży do tego, aby jednoczesna wartość obydwu współczynników była równa 1, jednak jest to praktycznie niemożliwe. Modyfikacja zapytań pod kątem uzyskania maksymalnej wartości (ale nie jednocześnie!) precision lub recall jest jest banalna. Aby recall wyniósł 1, należy tworzyć ogólne zapytania, np. złożone z 1 słowa kluczowego. Aby precision wyniósł 1, należy tworzyć tak szczegółowe zapytania, że będą dotyczyły tylko jednego dokumentu. 9

Miary oceny jakości wyników W rzeczywistych systemach IR występuje zawsze jedna z zależ- ności: D q R q D q powiększyć, w tym przypadku zbiór wynikowy trzeba D q R q w tym przypadku, zbiór wynikowy trzeba zmniejszyć. Działanie skutecznego systemu IR musi być zawsze kompromisem pomiędzy wartością współczynnika precision i wartością współczyn- nika recall. 0

Dziękuję za uwagę!