Wyszukiwaieiformacjitoproceswyszukiwaiawpewymzbiorze tychwszystkichdokumetów,którepoświęcoesąwskazaemuw kweredzietematowi(przedmiotowi)lubzawierająiezbędedla Wg M. A. Kłopotka: użytkowikafaktyiiformacje. Iteligete wyszukiwarki iteretowe AOW W-wa 001 Kluczowy aspekt wyszukiwaia iformacji: Wyszukiwaie iformacji oparte jest a zastosowaiu charakterystyk wyszukiwawczych dokumetów. Charakterystyka wyszukiwawcza dokumetu to sformułoway wg. określoych reguł tekst, w którym został zawarty zasadiczy temat lub przedmiot tego dokumetu i tylko częściowo towarzyszące mu przedmioty lub tematy. Im krócej sformułowae są charakterystyki wyszukiwawcze, tym większa szybkość wyszukiwaia, lecz jedocześie miejsza dokładość i kompletość. Najważiejszą operacją jest ideksowaie dokumetów i kwered. Polega oo a określeiu tematu lub przedmiotu i wyrażeiu go w charakterystyce wyszukiwawczej dokumetu w określoym języku iformacyjo-wyszukiwawczym (stosowaym w daym systemie wyszukiwaia). Problem polega a tym, iż źle sformułowae pytaie spowoduje wyszukaie dokumetów odpowiadających kweredzie a ie prawdziwym potrzebom iformacyjym. Jak się jedak okaże w dalszej części prezetacji powstają i takie awet systemy. Problem przy oceie wyszukiwarek iteretowych polega a tym, ze z uwagi a powiązaia (liki) między dokumetami awet dokumety, formalie ie odpowiadające kweredzie (ie relewate), mogą okazać się częściowo relewatymi, jeżeli zawierają liki do stro relewatych.
Schemat działaia systemy wyszukiwawczego Baza dokumetów Charakterystyka wyszukiwawcza kweredy Idekser dokumetów Szukaie Idekser kweredy Charakterystyki wyszukiwawcze dokumetów kwereda wyiki Schemat działaia systemu wyszukiwawczego UŜytkowik Modele wyszukiwaia iformacji Każda baza daych wyszukiwarki posiada pewe właściwe dla siebie możliwości formułowaia zapytań, lecz dla się wyodrębić kilka ajczęściej spotykaych rodzajów wyszukiwaia: 1. Wyszukiwaia wg słów kluczowych,. Wyszukiwaie boolowskie [AND, OR, NOT], 3. Wyszukiwaie kocepcyje, 4. Szukaie frazy (ciągu wyrazów, pełych zdań), 5. Szukaie z określeiem odległości słów, 6. Tezaurus, 7. Wyszukiwaie rozmyte, Model wyszukiwaia iformacji specyfikuje: 8. Szukaie podobych dokumetów 1. Reprezetację kweredy,. Reprezetację dokumetu, 3. Fukcję wyszukiwaia.
Fukcja wyszukiwaia określa, jak dobrze dokumet odpowiada zapotrzebowaiu użytkowika a iformacje oraz w jakiej kolejości prezetować wyiki wyszukiwaia iformacji. Wyróżia się zasadiczo astępujące modele WI: 1. Model boolowski (logiczy),. (statystyczy) model przestrzei wektorowej, 3. Model oparty a systemach uczących się, 4. Model ligwistyczy (zorietoway a aalizę morfologiczą, sytaktyczą, sytaktyczą i sematyczą tekstu). rakigachwyszukiwarek.jestpierwszymkrokiemwprocesieprzygotowaia Optymalizacjastroserwisumaaceluuzyskaiejakajwyższejpozycjiw strodoideksacji. iteretowych Cel: Czyiki mające wpływ a rakigi w wyszukiwarkach: 1. Tytuł dokumetu TITLE. Zaczik meta DESCRIPTION 3. Zaczik meta KEYWORDS 4. Projekt stroy 5. Tematyka 6. Odośiki 7. Rodzaj wyszukiwarki KEYWORD 8. Spam Po przeaalizowaiu wszystkich elemetów moża przystąpić do zgłaszaia stro do wyszukiwarek. We wczesych latach rozwoju Iteretu (1994-5) elemet był jedyą iformacją, którą wykorzystywały wyszukiwarki w rakigach zalezioych stro. Przy ówczesych małych bazach ideksów moża było szybko i w prosty sposób wybrać słowa kluczowe dla własych stro. Niestety wykorzystali to spamerzy, co
przyczyiło się do faktu, iż z czasem wyszukiwarki zaczęły przywiązywać coraz miejszą wagę do elemetu KEYWORDS, a skupiły się a treści serwisów. Waga sposobem a rakig dokumetów Iteret to źródło ogromej liczby dokumetów, Wszystko zależy od pytaia, bowiem to, jak są prezetowae dokumety zależy od strategii ważeia termów. 1. Statystycze wagi termów,. Statystycze wagi dokumetów, 3. Metoda Robertsoa i Sparcka-Joesa (1997), 4. Metoda Robertsoa (1994), 5. Metoda bazowa B, 6. Metoda lików, 7. PageRak swego rodzaju statycza waga stroy.
PageRak PageRak jest wartością liczbową, reprezetującą wartościowość stroy. Twórcy Google stwierdzili, że odpowiedim współczyikiem wartościowości stroy itererowej jest ilość lików prowadzących do daej stroy. Wzór obliczaia PageRak dla stroy A: gdzie: PR( t1) PR ( A) = (1 d) + d( +... + C( t ) d-współczyik tłumieia zazwyczaj ustawioy a 0.85 t1..t - PR stro zawierających liki do aszej stroy C(x) - liczba lików wychodzących ze stroy x 1 PR( t) ) C( t ) System PageRak moża porówać do głosowaia a lik a stroie A prowadzący do stroy B do głosu oddaego przez A a B. Waga głosu zaś jest wartością PageRak dla stroy A podzieloą przez liczbę lików wychodzących ze stroy. Tak więc im więcej wartościowych stro o jak ajmiejszej liczbie lików wychodzących odwołuje się do aszej stroy tym większa wartość PageRak aszej stroy. Przykład: jede lik ze stroy o PR=5 z 10 likami wychodzącymi przekazuje większą wartość iż 1 lik ze stroy o PR10 ale ze 100 likami wychodzącymi. Nowe tredy... l ia prezetacja wyików: grupowaie, odp, (vivisimo, carrot), l podpowiedzi (keywords) : teoma, ifoetware, aeiwi, l owe iterfejsy użytkowika: google labs. Przyszłość Szukaie odpowiedzi a ie materiałów: Szukaie celowe a ie referecyje(system START, system AswerBus) Wyróżić trzeba: 1. systemy wyszukujące dokumety zawierające postawioe pytaie [google, altavista, alltheweb],. systemy odpowiadające a pytaia [system START, system AswerBus], 3. systemy orgaizujące (grupujące) wyiki [vivisimo, carrot].
Systemy orgaizujące wyiki [vivisimo, carrot] Systemy te opierają swoje działaie a algorytmach klasyfikacji i grupowaia daych, wśród których wyróżić moża: hierarchicze, k-optymalizacyje (ie hierarchicze). Idea algorytmów grupowaia: Na podstawie podobych cech łączy się obiekty w grupy, Na czele grupy staje jej reprezetat cetroid, Grupy traktuje się jak dokumety i dalej łączy a wyższych poziomach, Nie jest przeszukiwaa cała struktura, Dzięki strukturze hierarchiczej osiągamy szybszą odpowiedź a zadae pytaie Kocepcja: s(x,g 1 )=0.634 s(x,g )=0.867 s(x,g 3 )=0.331 s(x,g 1 )=0.878 s(x,g )=0.97 s(x,g 3 )=0.897 s(x,g )=0.9 Jakie dwa dokumety moŝemy uzać za podobe? Miary odległości, Miary podobieństwa.
Przykładowo dla podaych iżej dwóch wektorów: X 4 : 0 0 0 0 1 0 0 3 X : 0 0 0 0 1 1 0 3 Obliczamy odpowiedio odległość i podobieństwo: d( x4, x) = (0 0) + (0 0) + (0 0) + (0 0) + (1 1) + (0 1) + (0 0) + (3 3) = 1 = 1 p( x = 4, x ) = 1+ 9 = 10*11 (0 10 10.49 + 0 + 0 = 0.95 0 0 + 0 0 + 0 0 + 0 0 + 1 1+ 0 1+ 0 0 + 3 3 + 0 + 1 + 0 + 0 + 3 )*(0 + 0 + 0 + 0 + 1 + 1 + 0 + 3 ) = Widać, iż podobieństwo zawsze osiąga wartość z przedziału 0..1 co powoduje, iż wyik łatwo moża ziterpretować, kierując się prostą zależością, że wartość podobieństwa bliska zeru ozacza brak podobieństwa porówywaych obiektów, i aalogiczie wartość bliska jedości ozacza duże podobieństwo. Implemetowae w wyszukiwarkach algorytmy grupowaia wyików powstają w odpowiedzi a pojawiające się problemy: 1. Większa ilość iformacji ie przekłada się a ich jakość,. Iteret kiedyś był o wiele bardziej wiarygody, 3. Wyszukiwarki ie ułatwiają dostępu do jakościowo lepszej wiedzy: bo szukają dokumetów pasujących do pytań a ie do odpowiedzi, ie tłumaczą struktury zwracaych wyików. Istote aspekty grupowaia... GRUPOWANIE WYNIKÓW...gdyż za dużo ich jest...chodzi o wybór tych ajbardziej trafych. Defiicja problemu: SEARCH RESULTS CLUSTERING: Polega a efektywym utworzeiu sesowych grup tematyczie powiązaych dokumetów, oraz, ich zwięzłym opisaiu... w sposób zrozumiały dla człowieka.
klas Wyszukiwaie iformacji Problem ie jest trywialy...bo: ie jest zaa liczba oczekiwaych grup, miara podobieństwa dokumetów jest truda do zdefiiowaia, grupy mogą się akładać, zalezieie opisu dla grupy ie jest łatwe, wymagaa szybkość działaia {o-lie}, dokumety mogą być wielojęzycze, opisy są zazwyczaj krótkie i iepełe. Modelowaie to wykorzystuje techiki: 1. modelowaie odległości w przestrzeiach -wymiarowych,. model grafowy, 3. współwystępowaie słów i fraz. Tematem iiejszej prezetacji jest skupieie się a pierwszej techice, która pozwala a wykorzystywaie do grupowaia różego typu algorytmów. Tutaj omówioy zostaie algorytm aalizy skupień z aglomeracyjym łączeiem obiektów tworzących w te sposób pewą strukturę hierarchiczą, stąd azwa algorytmu: AHC Agglomerative Hierarchical Clusterig. Przebieg grupowaia obiektów w ramach metod aglomeracyjych odbywa się w astępujących krokach: 1. Utwórz Modelowaie podobieństwa Przebieg grupowaia AHC: zawierających pojedycze obiekty.. Oblicz wartość pewiej miary podobieństwa (odległości) dla wszystkich par klas. 3. Połącz dwie klasy ajbardziej podobe. 4. Jeśli wszystkie obiekty ależą do jedej klasy, to zakończ pracę. W przeciwym przypadku przejdź do kroku.
oraz (i,j (i,j Algorytm grupowaia: 1. Mając macierz D=[dij] = 1,,...,) wyzaczamy elemet ajmiejszy (szukamy pary skupień ajmiej odległych od siebie): dpq = mi i,j {dij} = 1,,...,), p<q.. Skupieia Gp i Gq łączymy w jedo owe skupieie, adając mu umer Wyszukiwaie iformacji Gp:= Gp Gq. q. Z macierzy D usuwamy wiersz i kolumę o umerach :=-1. podstawiamy 3. Wyzaczamy odległości dpj (j=1,,...,) utworzoego skupieia Gp od wszystkich pozostałych skupień, stosowie do wybraej metody. Wartości dpj wstawia się do macierzy Pokażdejiteracjimamycorazmiejgrup, D w miejsce p-tego wiersza (w miejsce p-tej kolumy wstawiamy elemety djp). corazmiejsząmacierzodległości. 4. Powtarza się kroki 1-4 do mometu, gdy wszystkie obiekty utworzą jedo skupieie (tz. gdy =1). Graficza ilustracja grupowaia AHC {o 1,o,o 3,o 4,o 5,o 6,o 7,o 8 } o 1 o o 3 o 4 o 5 o 6 o 7 o 8 Rys. Przykład dedrogramu
Surowe dae: (przykład) VAR 1 VAR 1 1 3 1 8 3 5 3 4 1 1 5 8 6 5 7 3 8 4 8 9 7 10 5 8 Docelowo: duże zbiory dokumetów, gdzie każdy opisay jest różym zbiorem deskryptorów, Dae mogą być różego typu mogą być różego typu: ilościowe, jakościowe. Macierz odległości euklidesowych: P_1 P_ P_3 P_4 P_5 P_6 P_7 P_8 P_9 P_10 P_1 0 5,00 4,00,00 5,10 4,1 1,00 5,83 6,08 6,40 P_ 5,00 0 6,40 7,00 1,00 7,1 5,10 3,00 8,49 4,00 P_3 4,00 6,40 0 4,47 5,83 1,00 3,00 5,10,4 5,00 P_4,00 7,00 4,47 0 7,07 4,1,4 7,6 6,08 8,06 P_5 5,10 1,00 5,83 7,07 0 6,71 5,00,00 7,81 3,00 P_6 4,1 7,1 1,00 4,1 6,71 0 3,16 6,08,00 6,00 P_7 1,00 5,10 3,00,4 5,00 3,16 0 5,39 5,10 5,83 P_8 5,83 3,00 5,10 7,6,00 6,08 5,39 0 6,71 1,00 P_9 6,08 8,49,4 6,08 7,81,00 5,10 6,71 0 6,3 P_10 6,40 4,00 5,00 8,06 3,00 6,00 5,83 1,00 6,3 0
1 iteracja Szukamy miimalej odległości, i zajdujemy ją dla pary obiektów P_1 oraz p_7. Teraz łączymy obydwa obiekty w jedo skupieie.
Zgodie z algorytmem z macierzy usuwamy kolume i wiersz dla obiektu o wyższym ideksie (czyli P_7). Tworzymy ową grupę P_17 i a owo obliczamy odległości wszystkich obiektów do owo utworzoej grupy. ap,aq,b,c Ogóla formuła wyzaczaia odległości podczas łączeia skupień Gp i Gq w owe skupieie dla hierarchiczych procedur grupowaia to: d pj = a pd pj + aqdqj + bd pq + c d pj dqj Wielkości są parametrami przekształceia charakterystyczymi dla różych metod tworzeia skupień. Wartości tych parametrów są przedstawioe w tabeli.
Metoda ap aq b c Najbliższego sąsiedztwa 0,5 0,5 0-0,5 Najdalszego sąsiedztwa 0,5 0,5 0 0,5 Mediay 0,5 0,5-0,5 0 Średiej grupowej 0 0 p q p + q p + q Środka ciężkości p p + q q p q p + q ( ) p + q 0 Warda i + i + p p + q i + i + p q + q i + + i p q 0 Po połączeiu obiektów P_1 i P_7: Usuwamy obiekt P_7 (kolumę i wiersz 7) a w wierszu i kolumie dla P_1 wstawiamy owe odległości: Np.: odległość owego skupieia P_17 od obiektu P_ wg miary: d 17 = 0.5 * d1 + 0.5 * d7 + 0 * d17 0.5 d1 d7 = 0.5 * 5 + 0.5 * 5.1 0.5 5 5.1 =.5 +.55 0.05 = 5 W kolejej iteracji łączymy obiekty P_ oraz P_5. W iteracji r 3 łączymy P_3 oraz P_6.
Iteracja 4 łączy obiekty P_8 oraz P_10. Iteracja r 5 to połączeie obiektów p_17 z obiektem P_4. Następie łączymy obiekty P_5 z obiektem P_810
Iteracja koleja to połączeie obiektów P_36 oraz obiektu P_9. Kolejo łaczymy grupy P_174 z grupą P_369 I ostateczie w -1 iteracji połączymy ostatie grupy P_174369 z grupą P_5810.
Przebieg aglomeracji Odległość Łączoe obiekty: 1 P_1, P_7 1 P_, P_5 1 P_3, P_6 1 P_8, P_10 P_1, P_7, P_4 P_, P_5, P_8, P_10 P_3, P_6, P_9 3 P_1, P_7, P_4, P_3, P_6, P_9 5 P_1, P_7, P_4, P_3, P_6, P_9, P_, P_5, P_8, P_10 Dedrogram
Co to jest Carrot? Jak mówią twórcy systemu - Carrot jest systemem grupującym dae tekstowe. Grupuje wyiki z wyszukiwarek iteretowych, podobie jak czyi to serwis Vivisimo. Carrotjest modułowym systemem aukowym przetwarzaia rezultatów wyszukiwaia daych w wyszukiwarkach iteretowych, choć może być użyty rówież do iych typów daych. Architektura systemu jest zorietowaa główie a prostotę rozbudowy i poowego użycia jego istiejących elemetów składowych, czasem kosztem efektywości (dlatego właśie Carrot jest systemem :). System był zbudoway pierwotie do przetwarzaia daych z wyszukiwarek iteretowych, ale może być rówież użyty w iych celach. http://www.cs.put.poza.pl/dweiss/carrot/ Schemat przepływu daych w systemie Carrot
Systemy odpowiadające a pytaia - [system START, system AswerBus]
Podsumowaie Na prawdziwy przełom możemy liczyć dopiero wówczas, gdy astąpi zmiaa sposobu patrzeia a to, jak powiy działać wyszukiwarki. Obiecujące wydaje się być odejście od wyszukiwaia dokumetów w sieci, a skupieie się a poszukiwaiu iformacji tak jak robią to systemu oparte a techikach: kowledge retrieval, questio aswerig system. Przykładem tego typu systemów są system Start MIT, czy AswerBus, będące pracami prowadzoymi a uiwersytecie w Michiga, Wydae im zapytaie staowi cel ie zaś zbiór oderwaych od siebie słów kluczowych. Idealy system wyszukiwaia iformacji: To taki który potrafi odpowiedzieć a każde pytaie poprawie. Niestety taki system igdy ie powstaie. Wiedza płyąca z iteretu jest dość iepewym źródłem iformacji, i faktów, o czym warto pamiętać, - bo każdy może umieścić w sieci iformacje...ie do końca precyzyje ale i często błęde. Pojawiające się owe pomysły mające a celu ułatwiaie użytkowikom korzystaie z wyszukiwarek, to z pewością krok by uczyić tę czyość przyjemiejszą i bardziej ituicyją. Nie moża jedak liczyć a to, ze wyszukiwarki w przyszłości będą w staie wyręczyć as z umiejętości logiczego myśleia i odrobiy dociekliwości w szukaiu tego co as iteresuje. Literatura http://www.cs.put.poza.pl/dweiss/ Kłopotek M., Iteligete wyszukiwarki iteretowe, EXIT, 001 http://www.ipipa.waw.pl/~klopotek/mak/book3.htm