EKSPLORACJA ZASOBÓW INTERNETU LAB 2 - MIŁOSZ KAZIŃSKI OCENA JAKOŚCI WYSZUKIWANIA + HUBS AN AUTHORITIES + QUERY EXPANING. Pan Laboratorium II.. Ocena akości wyszukiwania (precision - dokładność, reca kompetność oraz inne miary).2. Ranking oparty na strukturze połączeń z eementami istotności na podstawie zawartości - agorytm HITS (authorities and hubs - autorytety i koncentratory).3. Automatyczne rozszerzanie zapytań metoda reevance feedback.4. Inne metody uery expanding 2. Ocena akości wyszukiwania Miary oceny dopasowania odpowiedzi i efektywności systemu. Miara dokładności (precision) i kompetności (reca) są używane również w pokrewnych dziedzinach (uczenie maszynowe, eksporaca danych). any est zbiór zapytań Q oraz zbiór dokumentów i da każdego zapytania przedstawionego systemowi mamy: zbiór dokumentów zwróconych (retrieved) przez system (otrzymane dokumenty) R, zbiór istotnych (reevant) dokumentów wybranych ręcznie z całego zbioru dokumentów. okładność est zdefiniowana ako procent zwróconych dokumentów, które są istotne: R reevant retrieved precision P P( reevant/ retrieved), R retrieved a kompetność ako procent istotnych dokumentów, które są zwrócone: R reevant retrieved reca R P( retrieved/ reevant). reevant Typowy użytkownik chciałby, aby na pierwsze stronie zwróconych dokumentów były tyko dokumenty istotne, ae nia ma ochoty przegądać wszystkich dokumentów istotnych. Przeszukuąc dysk twardy, esteśmy zainteresowani znaezieniem wszystkich dokumentów istotnych. Trade-off pomiędzy miarami precision i reca oddae miara F, która est ich średnią harmoniczną: F ( ) P R 2 ( ) PR 2 2, gdzie P R α naeży do przedziały [0,], a β naeży do przedziału [0, ]. Gdy α=0.5, to β=, co przekada się na równą ważność P i R. Gdy β>, większy priorytet ma reca. Miara biższa minimum dwóch wartości niż średnia arytmetyczna ub geometryczna. - -
Gdy możiwe est stworzenie rankingu zwracanych dokumentów zazwycza stosue się miary obcięte do początkowych k dokumentów. Zdefiniumy wagę r i ako wartość binarną r i = gdy i est istotny, r i =0 w przeciwnym razie. Niech k>0 oznacza iczbę dokumentów z początku isty R, które będziemy rozważać. okładność i kompetność obcięte do początkowych k dokumentów (precision and reca at rank k): k precision ( k) P( k) r i oraz reca ( k) R( k) k ri. i Mean Average Precision (MAP) średnia precyza: k i MAP( Q) Q Q m, gdzie Q to iczba istotnych dokumentów, a m to minimana iczba dokumentów, które zawieraą dokumentów istotnych. - 2 -
3. Agorytm HITS HITS (Hyperink Induced Topic Search) łączy ocenę istotności na podstawie zawartości strony z rankingiem opartym na strukturze połączeń (często połączenia nie maą nic wspónego z popuarnością; nabardzie popuarne strony nie muszą być odpowiedziami na zapytanie). Pomysł: skupienie się na istotnych stronach i obiczenie ich popuarności z uwzgędnieniem podziału na dwie grupy: autorytet (authorities) est wskazywany przez wiee koncentratorów tu można znaeźć istotną informacę, koncentrator (hubs) wskazue na wiee autorytetów mówi gdzie można znaeźć informacę. HITS działa na zaeżne od zapytania części grafu sieci (IBM website vs. computer hardware). Zaczyna od przeszukiwania według słów kuczowych, a potem anaizue strukturę połączeń da otrzymanych istotnych stron (wydobywanie tematu): znadź za pomocą standardowego systemu wyszukiwania informaci tekstowych (niewieki) zbiór istotnych stron internetowych nazywany zbiorem-korzeniem R (root set); rozszerz zbiór-korzeń przez dodanie stron, które cytuą i są cytowane przez strony ze zbioru-korzenia; powstae zbiór bazowy S (base set) (dobry autorytet może nie zawierać słowa kuczowego, ae znadzie się w zbiorze bazowym, eśi koncentrator był częścią odpowiedzi na zapytanie i vice versa; czyi zbiór koncentratorów i autorytetów w anaizowane pui est wzbogacony); przeanaizu strukturę połączeń w S, aby znaeźć autorytety i koncentratory: niech L będzie macierzą sąsiedztwa grafu, gdzie L(i,)= eżei strona i cytue stronę, a L(i,)=0 w przeciwnym razie (i oraz naeżą do S); niech a = (a a 2. a n ) będzie wektorem autorytetu, h = (h h 2. h n ) wektorem koncentratora: inicaizaca: a = ( ), h = ( ), w pęti: h( ) S : A( ) oraz a( ) S : H( ) znormaizu h oraz a (będziemy stosować normaizacę sumy składników do ). Ogónie: h = λla = λμll T h, a = μl T h = λμl T La, Sposoby rozwiązania: Obicz h oraz a iteracynie, zakładaąc da każde strony ednostkowe wartości początkowe da roi koncentratora i autorytetu (w koenych krokach otrzymywane wektory h oraz a mnoży się przez odpowiednio LL T ub L T L), Rozwiąż układ równań, przyrównuąc wartości λμ ub obicz wartości własne macierzy LL T (L T L) i przymi za rozwiązanie wektor własny odpowiadaący nawiększe wartości własne (principe eigenvector). Eksperymenty pokazuą, że zbiór-korzeń powinien mieć ok. 200 stron, a żeby uzyskać dobre przybiżenie wartości h oraz a wystarczy 5 iteraci. - 3 -
4. Reevance feedback Motywaca: trudno sformułować dobre zapytanie, gdy nie zna się koekci dokumentów. Łatwo ocenić poszczegóne dokumenty pod wzgędem istotności. Ogóny agorytm: Użytkownik zadae (proste, krótkie) zapytanie System zwraca istę dokumentów odpowiadaących zapytaniu Użytkownik oznacza wybrane dokumenty ako istotne, a inne ako nieistotne System zwraca istę dokumentów na podstawie automatycznie przeformułowanego zapytania Metoda Rocchio - uaktuanienie wektora zapytań za pomocą iniowe kombinaci poprzednich zapytań wektora i dokumentów wektorów d ważnych ( r ) i nieistotnych ( nr ) dokumentów, czyi: m r d d nr d r nr gdzie α, β i γ są wagami. Maąc wiee ocenionych dokumentów β i γ powinny być większe niż α. Zwyke pozytywna informaca ma większe wagę niż negatywna. Często negatywna informaca w ogóe nie est brana pod uwagę γ=0. Rozsądne wartości α=, β=0.75 i γ=0.5. d ziałanie: przesunięcie wektora zapytań w kierunki centroidu dokumentów istotnych i oddaenie od centroidu dokumentów nieistotnych: Probemy: iterówki, cross-anguage, niezgodność słownictwa, wiee kastrów istotnych i nieistotnych dokumentów, podzbiory dokumentów używaące innego słownictwa (Birma vs. Myanmar), zapytania, da których odpowiedzi są rozegłe ( pop stars who once worked at Burger King ), ogóne poęcia. Reevance feedback vs. Internet: spowonienie (dwa zapytania, wskazanie dokumentów), podniesienie reca (w Internecie bardzie chodzi o precision), skompikowanie interfesu użytkownika, długie zapytania a efektywność wyszukiwarki, trudność zrozumienia. Wyszukiwarka Excite (4% używało reevance feedback, More ike this, 70% obserwowało tyko pierwszą stronę) Simiar/reated pages to est pewna modyfikaca reevance feedback. Pseudoreevance feedback pierwsze k dokumentów w rankingu est uważanych za istotne i zapytanie est automatycznie reformułowane. - 4 -
5. Query expanding Niektóre wyszukiwarki sugeruą frazy powiązane z zapytaniem (rozszerzone zapytania) Wykorzystanie słownika automatyczne rozszerzenie zapytania o synonimy ub słowa z nim powiązane, często z mnieszą wagą niż oryginane zapytanie. Metody opracowania słownika: Słowniki utrzymywane przez edytorów (Library of Congress Subect Headings, ewey ecima, Unified Medica Language używany w MedLine, Statistics Canada (synonimy, uogónienia, uszczegółowienia da dóbr i usług, o których rząd zbiera statystyki)): WordNet http://wordnet.princeton.edu Słownik tworzony automatycznie (współwystępowanie słów podobieństwo, pokrewieństwo znaczeń) A macierz term-dokument, A t,d iczba wystąpień termu t w dokumencie Obiczamy macierz C = AA T, C u,v podobieństwo między termem u oraz v Wiersze macierzy A muszą być znormaizowane każdy eement w konkretnym wierszu dzieimy przez długość wektora z wiersza (wtedy na główne przekątne macierzy C będą ) Appe computer vs. Appe red fruit computer Query og mining (anaiza zapytań wszystkich użytkowników) - 5 -
6. Ćwiczenia. Rozważmy koekcę 00 dokumentów, z których 8 est uważanych za istotne (reevant) wzgędem zapytania: {d2, d, d6, d25, d46, d6, d79, d97}. Podeście wykorzystane w ceu wyszukania (retrieve) dokumentów w odpowiedzi na zapytanie zwróciło 0 dokumentów: d, d2, d0, d25, d40, d49, d5, d6, d76, d97 w formie rankingu. Obicz miary precision oraz reca da 5 i 0 pierwszych dokumentów w rankingu. 2. Załóżmy, że da danego zapytania są 4 istotne dokumenty w koekci dokumentów. Wyniki agorytmu da tego zapytania są następuące (R reevant, N non-reevant): R N R N N N N N R R Jakia est wartość miary MAP da tego systemu? 3. Obicz wagi koncentratorów (h) i autorytetów (a) da następuącego grafu, korzystaąc z kakuatora wartości i wektorów własnych znaezionego w sieci (cacuator for eigenvaues and eigenvectors). Obicz L, LL T oraz L T L. 4 2 3 h={ } h norm ={ } a={ } a norm ={ } Które strony maą nawiększe wartości wag koncentratora i autorytetu? L T LL L T L 4. Załóżmy, że początkowe zapytanie użytkownika est następuące cheap Cs cheap Vs extremey cheap Cs. Użytkownik ocenia dwa pierwsze dokumenty = Cs cheap software cheap Cs i 2= cheap thris Vs zwrócone przez system ako odpowiednio istotny i nieistotny. Zakładaąc wykorzystanie reprezentaci bagof-words, aka będzie postać zmodyfikowanego zapytania, eśi wykorzystano metodę Rocchio reevance feedback z parametrami α=, β=0.75 i γ=0.25? cheap Cs Vs extremey software thris Q 2 Q - 6 -
7. Omówienie zadań do wykonania w zespołach. [2] Lista 20 pierwszych dokumentów zwróconych przez system da zapytania est następuąca (R reevant, N non-reevant): R R N N N N N N R N R N N N R N N N N R Załóż, że w całe koekci est 6 istotnych dokumentów. Jaka est wartość miar precision i reca da 0 zwróconych dokumentów? [0.5] Jaka est wartość miary F da α=0.5 da 0 zwróconych dokumentów? [0.5] Jaka est wartość miary MAP da tego zapytania? [0.5] Jak est wartość miary MAP da następuącego rankingu dokumentów: N R N N N R R N R N N N R N N N R N N N. Czy w zestawieniu z MAP da poprzedniego systemu otrzymany wynik est zgodny z intuicą? aczego? Co ma decyduący wpływ na wysoką miarę MAP? [0.5] 2. [2] Obicz wagi koncentratorów (hubs) i autorytetów (authorities) da następuącego grafu: 3, 2 2, 2 3, 3, 3 3, 3 4, 4 4, 4 5, 5 7, 6 6, 6 7, 7 4, 7 5, 7 7 Przedstaw macierz połączeń L [0.5]. Pokaż obiczone macierze LL T oraz L T L. [0.5] Obicz wektory h oraz a. Po każde iteraci normaizu wartości wektorów tak, by poszczegóne składowe sumowały się do.0. Które strony po 0-te iteraci maą nawiększe wagi ako koncentrator i autorytet? W kontekście wartości wektorów a oraz h oraz macierz połączeń L uzasadni daczego ich ocena est tak wysoka []. 3. [2] W systemie wyszukiwania informaci zaimpementowano metodę reevance feedback, która operue tyko na termach z tytułu zwrócone strony. Użytkownik da zapytania banana sug, rozważył trzy pierwsze dokumenty zwrócone przez system: = banana sug Arioimax coumbianus, 2 = Santa Cruz mountains banana sug, 3 = Santa Cruz Campus Mascot. Pierwsze dwa uznał za istotne, a trzeci za nieistotny. Zakładaąc wykorzystanie reprezentaci bag-of-words oraz metody Rocchio reevance feedback, aka będzie postać zmodyfikowanego zapytania da parametrów α=β=γ=. Ewentuane uemne współrzędne sprowadź do 0. [] Jakie muszą być wagi we wzorze na obiczenie zmodyfikowanego wektora, by zreaizować funkcę znadź stronę taka, ak ta? Uzasadni odpowiedź. [] 4. [5] Rozwiń wyszukiwarkę dokumentów tekstowych, którą zaimpementowałeś po pierwszych zaęciach o moduł automatycznego rozszerzania zapytań. Możesz wykorzystać dowoną metodę (macierz koreaci, reevance feedback ub WordNet, ae zdecydowanie nawięce można się nauczyć przy wykorzystaniu WordNetu). Każdy dokument składa się z dwóch części w pierwsze inii znadue się oznaczenie kasy, do które dokument naeży (na tym etapie zignoru tę inię), a potem następue właściwa treść dokumentu, którą naeży anaizować w tym zadaniu (parametry w przypadku macierzy koreaci iczba słów, o które rozszerzamy zapytanie; da wszystkich metod waga da tych słów; możiwość włączenia/wyłączenia rozszerzania zapytań). Zwróćcie uwagę na zapytania składaące się z większe iczby słów niż (ak proponować rozszerzenia?). W tym zadaniu bardzie niż o ogikę działania modułu wyszukiwania, chodzi o propozycę rozszerzenia zapytań, które prezentuecie. Ideanie byłoby, gdyby prezentowana była okreśona iczba (np. 5) naepszych rozszerzeń i dałoby się kikać w to, które chcemy zadać ak nowe zapytania. Nie odsiewacie więc np. słów które nie znaduą się w słowniku da koekci dokumentów niech i tak poawią się w propozycach rozszerzenia zapytania. Rozszerzenie zapytania powinno zawierać zapytanie oryginane. Część zadaniowa do poniedziałku do północy. Cześć programistyczna na 27-28 października. - 7 -