EKSPLORACJA ZASOBÓW INTERNETU LAB 2 - MIŁOSZ KADZIŃSKI OCENA JAKOŚCI WYSZUKIWANIA + HUBS AND AUTHORITIES + QUERY EXPANDING



Podobne dokumenty
Projekt 9: Dyfuzja ciepła - metoda Cranck-Nicloson.

EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM III PAGERANK + SPAM + TRUSTRANK + ROZSZERZENIA

UTRATA STATECZNOŚCI. O charakterze układu decyduje wielkośćobciążenia. powrót do pierwotnego położenia. stabilnego do stanu niestabilnego.

Zaawansowane metody numeryczne

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych

W przestrzeni liniowej funkcji ciągłych na przedziale [a, b] można określić iloczyn skalarny jako następującą całkę:

METODY KOMPUTEROWE W OBLICZENIACH INŻYNIERSKICH

(Dantzig G. B. (1963))

Rozwiązywanie algebraicznych układów równań liniowych metodami iteracyjnymi. Plan wykładu:

Zad. 3: Układ równań liniowych

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Arkusz I. Poziom podstawowy

Wyszukiwanie boolowskie i strukturalne. Adam Srebniak

Testy zgodności 9 113

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

2ql [cm] Przykład Obliczenie wartości obciażenia granicznego układu belkowo-słupowego


Wstęp do Programowania Lista 1

PageRank i HITS. Mikołajczyk Grzegorz

MECHANIKA BUDOWLI 11

6. ANALIZA POST-OPTYMALIZACYJNA analiza wrażliwości rozwiązania optymalnego

WPROWADZENIE WYSZUKIWANIE OGŁOSZEŃ

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Przedmiotowy system oceniania z przedmiotu historia i społeczeństwo w Szkole Podstawowej nr 6 w Głogowie

WYMAGANIA EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH DLA KLASY SZÓSTEJ W ZAKRESIE WIADOMOŚCI I UMIEJĘTNOŚCI UCZNIÓW

Pobieranie i przetwarzanie treści stron WWW

Wymagania programowe z matematyki na poszczególne oceny w klasie III A i III B LP. Kryteria oceny

Ranking wyników na bazie linków

EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM IV PAGERANK + TRUSTRANK


Sponsorem wydruku schematu odpowiedzi jest wydawnictwo

2) R stosuje w obliczeniach wzór na logarytm potęgi oraz wzór na zamianę podstawy logarytmu.

Mechanika Analityczna i Drgania

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Elementy modelowania matematycznego

Rozwiązania MAXPRO dla video IP SPRAWDŹ JEDNO, POZNAJ WSZYSTKIE. Otwarta, elastyczna i skalowalna platforma do monitoringu video

Stacja mobilna Nr produktu

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Inteligentne systemy informacyjne

W. Guzicki Próbna matura, grudzień 2014 r. poziom rozszerzony 1

Wykład 5. Skręcanie nieskrępowane prętów o przekroju prostokątnym.

System komputerowy. Sprzęt. System komputerowy. Oprogramowanie

Układy równań i nierówności liniowych

Zawartość. Wstęp. Moduł Rozbiórki. Wstęp Instalacja Konfiguracja Uruchomienie i praca z raportem... 6

Algorytm grupowania danych typu kwantyzacji wektorów

PLAN WYNIKOWY (zakres podstawowy) klasa 2. rok szkolny 2015/2016

Numeryczne modelowanie ustalonego pola temperatury

Zastosowanie wartości własnych macierzy

Arkusz kalkulacyjny Excel

Aproksymacja funkcji a regresja symboliczna

Rozkład materiału nauczania

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Prawo Coulomba. Autorzy: Zbigniew Kąkol Kamil Kutorasiński

Optymalizacja. Przeszukiwanie lokalne

Wstęp. Numeryczne Modelowanie Układów Ciągłych Podstawy Metody Elementów Skończonych. Warunki brzegowe. Elementy

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY DRUGIEJ LICEUM OGÓLNOKSZTAŁCĄCEGO ZAKRES PODSTAWOWY

BADANIA SYMULACYJNE STEROWANIA ROBOTEM RÓWNOLEGŁYM Z NAPĘDEM HYDRAULICZNYM

Badanie struktury sieci WWW

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

O MACIERZACH I UKŁADACH RÓWNAŃ

Macierze. Rozdział Działania na macierzach

Eksploracja tekstu. Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu. Eksploracja danych. Eksploracja tekstu wykład 1

Postać Jordana macierzy

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

a =, gdzie A(x 1, y 1 ),

WYMAGANIA EDUKACYJNE NIEZBĘDNE DO OTRZYMANIA PRZEZ UCZNIA POSZCZEGÓLNYCH ŚRÓDROCZNYCH I ROCZNYCH OCEN KLASYFIKACYJNYCH Z MATEMATYKI

2. Obliczenie sił działających w huśtawce

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Rozwiązywanie układów równań liniowych metody dokładne Materiały pomocnicze do ćwiczeń z metod numerycznych

System plików warstwa fizyczna

System plików warstwa fizyczna

System plików warstwa fizyczna

Diary przydatne polecenie. Korzystanie z funkcji wbudowanych i systemu pomocy on-line. Najczęstsze typy plików. diary nazwa_pliku

Wymagania edukacyjne z matematyki w klasie III gimnazjum

3. Macierze i Układy Równań Liniowych

Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład Kody liniowe - kodowanie w oparciu o macierz parzystości

WYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE OCENY. (zakres podstawowy) klasa 2

3. Wykład Układy równań liniowych.

Anna Osiewalska Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie

Metody i analiza danych

m Jeżeli do końca naciągniętej (ściśniętej) sprężyny przymocujemy ciało o masie m., to będzie na nie działała siła (III zasada dynamiki):

Eksploracja sieci Web

MATEMATYKA WYKAZ UMIEJĘTNOŚCI WYMAGANYCH NA POSZCZEGÓLNE OCENY DLA KLASY DRUGIEJ

3.1 Zagadnienie brzegowo-początkowe dla struny ograniczonej. = f(x, t) dla x [0; l], l > 0, t > 0 (3.1)

Barycentryczny układ współrzędnych

Inteligentna analiza danych

Wykład z Technologii Informacyjnych. Piotr Mika

Kształcenie w zakresie podstawowym. Klasa 2

Hybrydowa metoda rekomendacji dokumentów w środowisku hipertekstowym

Wykład z modelowania matematycznego. Zagadnienie transportowe.

Definicje i przykłady

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2

Mechanika ogólna statyka

Wyszukiwanie i Przetwarzanie Informacji Information Retrieval & Search

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Testy użyteczności w praktyce

Proces rozproszony. Plan wykładu. Wykład prowadzą: Jerzy Brzeziński Jacek Kobusiński. Proces rozproszony. Zbiór stanów globalnych (1)

Transkrypt:

EKSPLORACJA ZASOBÓW INTERNETU LAB 2 - MIŁOSZ KAZIŃSKI OCENA JAKOŚCI WYSZUKIWANIA + HUBS AN AUTHORITIES + QUERY EXPANING. Pan Laboratorium II.. Ocena akości wyszukiwania (precision - dokładność, reca kompetność oraz inne miary).2. Ranking oparty na strukturze połączeń z eementami istotności na podstawie zawartości - agorytm HITS (authorities and hubs - autorytety i koncentratory).3. Automatyczne rozszerzanie zapytań metoda reevance feedback.4. Inne metody uery expanding 2. Ocena akości wyszukiwania Miary oceny dopasowania odpowiedzi i efektywności systemu. Miara dokładności (precision) i kompetności (reca) są używane również w pokrewnych dziedzinach (uczenie maszynowe, eksporaca danych). any est zbiór zapytań Q oraz zbiór dokumentów i da każdego zapytania przedstawionego systemowi mamy: zbiór dokumentów zwróconych (retrieved) przez system (otrzymane dokumenty) R, zbiór istotnych (reevant) dokumentów wybranych ręcznie z całego zbioru dokumentów. okładność est zdefiniowana ako procent zwróconych dokumentów, które są istotne: R reevant retrieved precision P P( reevant/ retrieved), R retrieved a kompetność ako procent istotnych dokumentów, które są zwrócone: R reevant retrieved reca R P( retrieved/ reevant). reevant Typowy użytkownik chciałby, aby na pierwsze stronie zwróconych dokumentów były tyko dokumenty istotne, ae nia ma ochoty przegądać wszystkich dokumentów istotnych. Przeszukuąc dysk twardy, esteśmy zainteresowani znaezieniem wszystkich dokumentów istotnych. Trade-off pomiędzy miarami precision i reca oddae miara F, która est ich średnią harmoniczną: F ( ) P R 2 ( ) PR 2 2, gdzie P R α naeży do przedziały [0,], a β naeży do przedziału [0, ]. Gdy α=0.5, to β=, co przekada się na równą ważność P i R. Gdy β>, większy priorytet ma reca. Miara biższa minimum dwóch wartości niż średnia arytmetyczna ub geometryczna. - -

Gdy możiwe est stworzenie rankingu zwracanych dokumentów zazwycza stosue się miary obcięte do początkowych k dokumentów. Zdefiniumy wagę r i ako wartość binarną r i = gdy i est istotny, r i =0 w przeciwnym razie. Niech k>0 oznacza iczbę dokumentów z początku isty R, które będziemy rozważać. okładność i kompetność obcięte do początkowych k dokumentów (precision and reca at rank k): k precision ( k) P( k) r i oraz reca ( k) R( k) k ri. i Mean Average Precision (MAP) średnia precyza: k i MAP( Q) Q Q m, gdzie Q to iczba istotnych dokumentów, a m to minimana iczba dokumentów, które zawieraą dokumentów istotnych. - 2 -

3. Agorytm HITS HITS (Hyperink Induced Topic Search) łączy ocenę istotności na podstawie zawartości strony z rankingiem opartym na strukturze połączeń (często połączenia nie maą nic wspónego z popuarnością; nabardzie popuarne strony nie muszą być odpowiedziami na zapytanie). Pomysł: skupienie się na istotnych stronach i obiczenie ich popuarności z uwzgędnieniem podziału na dwie grupy: autorytet (authorities) est wskazywany przez wiee koncentratorów tu można znaeźć istotną informacę, koncentrator (hubs) wskazue na wiee autorytetów mówi gdzie można znaeźć informacę. HITS działa na zaeżne od zapytania części grafu sieci (IBM website vs. computer hardware). Zaczyna od przeszukiwania według słów kuczowych, a potem anaizue strukturę połączeń da otrzymanych istotnych stron (wydobywanie tematu): znadź za pomocą standardowego systemu wyszukiwania informaci tekstowych (niewieki) zbiór istotnych stron internetowych nazywany zbiorem-korzeniem R (root set); rozszerz zbiór-korzeń przez dodanie stron, które cytuą i są cytowane przez strony ze zbioru-korzenia; powstae zbiór bazowy S (base set) (dobry autorytet może nie zawierać słowa kuczowego, ae znadzie się w zbiorze bazowym, eśi koncentrator był częścią odpowiedzi na zapytanie i vice versa; czyi zbiór koncentratorów i autorytetów w anaizowane pui est wzbogacony); przeanaizu strukturę połączeń w S, aby znaeźć autorytety i koncentratory: niech L będzie macierzą sąsiedztwa grafu, gdzie L(i,)= eżei strona i cytue stronę, a L(i,)=0 w przeciwnym razie (i oraz naeżą do S); niech a = (a a 2. a n ) będzie wektorem autorytetu, h = (h h 2. h n ) wektorem koncentratora: inicaizaca: a = ( ), h = ( ), w pęti: h( ) S : A( ) oraz a( ) S : H( ) znormaizu h oraz a (będziemy stosować normaizacę sumy składników do ). Ogónie: h = λla = λμll T h, a = μl T h = λμl T La, Sposoby rozwiązania: Obicz h oraz a iteracynie, zakładaąc da każde strony ednostkowe wartości początkowe da roi koncentratora i autorytetu (w koenych krokach otrzymywane wektory h oraz a mnoży się przez odpowiednio LL T ub L T L), Rozwiąż układ równań, przyrównuąc wartości λμ ub obicz wartości własne macierzy LL T (L T L) i przymi za rozwiązanie wektor własny odpowiadaący nawiększe wartości własne (principe eigenvector). Eksperymenty pokazuą, że zbiór-korzeń powinien mieć ok. 200 stron, a żeby uzyskać dobre przybiżenie wartości h oraz a wystarczy 5 iteraci. - 3 -

4. Reevance feedback Motywaca: trudno sformułować dobre zapytanie, gdy nie zna się koekci dokumentów. Łatwo ocenić poszczegóne dokumenty pod wzgędem istotności. Ogóny agorytm: Użytkownik zadae (proste, krótkie) zapytanie System zwraca istę dokumentów odpowiadaących zapytaniu Użytkownik oznacza wybrane dokumenty ako istotne, a inne ako nieistotne System zwraca istę dokumentów na podstawie automatycznie przeformułowanego zapytania Metoda Rocchio - uaktuanienie wektora zapytań za pomocą iniowe kombinaci poprzednich zapytań wektora i dokumentów wektorów d ważnych ( r ) i nieistotnych ( nr ) dokumentów, czyi: m r d d nr d r nr gdzie α, β i γ są wagami. Maąc wiee ocenionych dokumentów β i γ powinny być większe niż α. Zwyke pozytywna informaca ma większe wagę niż negatywna. Często negatywna informaca w ogóe nie est brana pod uwagę γ=0. Rozsądne wartości α=, β=0.75 i γ=0.5. d ziałanie: przesunięcie wektora zapytań w kierunki centroidu dokumentów istotnych i oddaenie od centroidu dokumentów nieistotnych: Probemy: iterówki, cross-anguage, niezgodność słownictwa, wiee kastrów istotnych i nieistotnych dokumentów, podzbiory dokumentów używaące innego słownictwa (Birma vs. Myanmar), zapytania, da których odpowiedzi są rozegłe ( pop stars who once worked at Burger King ), ogóne poęcia. Reevance feedback vs. Internet: spowonienie (dwa zapytania, wskazanie dokumentów), podniesienie reca (w Internecie bardzie chodzi o precision), skompikowanie interfesu użytkownika, długie zapytania a efektywność wyszukiwarki, trudność zrozumienia. Wyszukiwarka Excite (4% używało reevance feedback, More ike this, 70% obserwowało tyko pierwszą stronę) Simiar/reated pages to est pewna modyfikaca reevance feedback. Pseudoreevance feedback pierwsze k dokumentów w rankingu est uważanych za istotne i zapytanie est automatycznie reformułowane. - 4 -

5. Query expanding Niektóre wyszukiwarki sugeruą frazy powiązane z zapytaniem (rozszerzone zapytania) Wykorzystanie słownika automatyczne rozszerzenie zapytania o synonimy ub słowa z nim powiązane, często z mnieszą wagą niż oryginane zapytanie. Metody opracowania słownika: Słowniki utrzymywane przez edytorów (Library of Congress Subect Headings, ewey ecima, Unified Medica Language używany w MedLine, Statistics Canada (synonimy, uogónienia, uszczegółowienia da dóbr i usług, o których rząd zbiera statystyki)): WordNet http://wordnet.princeton.edu Słownik tworzony automatycznie (współwystępowanie słów podobieństwo, pokrewieństwo znaczeń) A macierz term-dokument, A t,d iczba wystąpień termu t w dokumencie Obiczamy macierz C = AA T, C u,v podobieństwo między termem u oraz v Wiersze macierzy A muszą być znormaizowane każdy eement w konkretnym wierszu dzieimy przez długość wektora z wiersza (wtedy na główne przekątne macierzy C będą ) Appe computer vs. Appe red fruit computer Query og mining (anaiza zapytań wszystkich użytkowników) - 5 -

6. Ćwiczenia. Rozważmy koekcę 00 dokumentów, z których 8 est uważanych za istotne (reevant) wzgędem zapytania: {d2, d, d6, d25, d46, d6, d79, d97}. Podeście wykorzystane w ceu wyszukania (retrieve) dokumentów w odpowiedzi na zapytanie zwróciło 0 dokumentów: d, d2, d0, d25, d40, d49, d5, d6, d76, d97 w formie rankingu. Obicz miary precision oraz reca da 5 i 0 pierwszych dokumentów w rankingu. 2. Załóżmy, że da danego zapytania są 4 istotne dokumenty w koekci dokumentów. Wyniki agorytmu da tego zapytania są następuące (R reevant, N non-reevant): R N R N N N N N R R Jakia est wartość miary MAP da tego systemu? 3. Obicz wagi koncentratorów (h) i autorytetów (a) da następuącego grafu, korzystaąc z kakuatora wartości i wektorów własnych znaezionego w sieci (cacuator for eigenvaues and eigenvectors). Obicz L, LL T oraz L T L. 4 2 3 h={ } h norm ={ } a={ } a norm ={ } Które strony maą nawiększe wartości wag koncentratora i autorytetu? L T LL L T L 4. Załóżmy, że początkowe zapytanie użytkownika est następuące cheap Cs cheap Vs extremey cheap Cs. Użytkownik ocenia dwa pierwsze dokumenty = Cs cheap software cheap Cs i 2= cheap thris Vs zwrócone przez system ako odpowiednio istotny i nieistotny. Zakładaąc wykorzystanie reprezentaci bagof-words, aka będzie postać zmodyfikowanego zapytania, eśi wykorzystano metodę Rocchio reevance feedback z parametrami α=, β=0.75 i γ=0.25? cheap Cs Vs extremey software thris Q 2 Q - 6 -

7. Omówienie zadań do wykonania w zespołach. [2] Lista 20 pierwszych dokumentów zwróconych przez system da zapytania est następuąca (R reevant, N non-reevant): R R N N N N N N R N R N N N R N N N N R Załóż, że w całe koekci est 6 istotnych dokumentów. Jaka est wartość miar precision i reca da 0 zwróconych dokumentów? [0.5] Jaka est wartość miary F da α=0.5 da 0 zwróconych dokumentów? [0.5] Jaka est wartość miary MAP da tego zapytania? [0.5] Jak est wartość miary MAP da następuącego rankingu dokumentów: N R N N N R R N R N N N R N N N R N N N. Czy w zestawieniu z MAP da poprzedniego systemu otrzymany wynik est zgodny z intuicą? aczego? Co ma decyduący wpływ na wysoką miarę MAP? [0.5] 2. [2] Obicz wagi koncentratorów (hubs) i autorytetów (authorities) da następuącego grafu: 3, 2 2, 2 3, 3, 3 3, 3 4, 4 4, 4 5, 5 7, 6 6, 6 7, 7 4, 7 5, 7 7 Przedstaw macierz połączeń L [0.5]. Pokaż obiczone macierze LL T oraz L T L. [0.5] Obicz wektory h oraz a. Po każde iteraci normaizu wartości wektorów tak, by poszczegóne składowe sumowały się do.0. Które strony po 0-te iteraci maą nawiększe wagi ako koncentrator i autorytet? W kontekście wartości wektorów a oraz h oraz macierz połączeń L uzasadni daczego ich ocena est tak wysoka []. 3. [2] W systemie wyszukiwania informaci zaimpementowano metodę reevance feedback, która operue tyko na termach z tytułu zwrócone strony. Użytkownik da zapytania banana sug, rozważył trzy pierwsze dokumenty zwrócone przez system: = banana sug Arioimax coumbianus, 2 = Santa Cruz mountains banana sug, 3 = Santa Cruz Campus Mascot. Pierwsze dwa uznał za istotne, a trzeci za nieistotny. Zakładaąc wykorzystanie reprezentaci bag-of-words oraz metody Rocchio reevance feedback, aka będzie postać zmodyfikowanego zapytania da parametrów α=β=γ=. Ewentuane uemne współrzędne sprowadź do 0. [] Jakie muszą być wagi we wzorze na obiczenie zmodyfikowanego wektora, by zreaizować funkcę znadź stronę taka, ak ta? Uzasadni odpowiedź. [] 4. [5] Rozwiń wyszukiwarkę dokumentów tekstowych, którą zaimpementowałeś po pierwszych zaęciach o moduł automatycznego rozszerzania zapytań. Możesz wykorzystać dowoną metodę (macierz koreaci, reevance feedback ub WordNet, ae zdecydowanie nawięce można się nauczyć przy wykorzystaniu WordNetu). Każdy dokument składa się z dwóch części w pierwsze inii znadue się oznaczenie kasy, do które dokument naeży (na tym etapie zignoru tę inię), a potem następue właściwa treść dokumentu, którą naeży anaizować w tym zadaniu (parametry w przypadku macierzy koreaci iczba słów, o które rozszerzamy zapytanie; da wszystkich metod waga da tych słów; możiwość włączenia/wyłączenia rozszerzania zapytań). Zwróćcie uwagę na zapytania składaące się z większe iczby słów niż (ak proponować rozszerzenia?). W tym zadaniu bardzie niż o ogikę działania modułu wyszukiwania, chodzi o propozycę rozszerzenia zapytań, które prezentuecie. Ideanie byłoby, gdyby prezentowana była okreśona iczba (np. 5) naepszych rozszerzeń i dałoby się kikać w to, które chcemy zadać ak nowe zapytania. Nie odsiewacie więc np. słów które nie znaduą się w słowniku da koekci dokumentów niech i tak poawią się w propozycach rozszerzenia zapytania. Rozszerzenie zapytania powinno zawierać zapytanie oryginane. Część zadaniowa do poniedziałku do północy. Cześć programistyczna na 27-28 października. - 7 -