Wyszukiwanie i Przetwarzanie Informacji WWW

Podobne dokumenty
Wyszukiwanie i Przetwarzanie Informacji WWW

1 Metody iteracyjne rozwi zywania równania f(x)=0

Uczenie Wielowarstwowych Sieci Neuronów o

Lab. 02: Algorytm Schrage

PageRank i HITS. Mikołajczyk Grzegorz

Wyszukiwanie i Przetwarzanie Informacji WWW

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

1 Bª dy i arytmetyka zmiennopozycyjna

Wyszukiwanie i Przetwarzanie Informacji WWW

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Wyszukiwanie i Przetwarzanie Informacji WWW

Matematyka wykªad 1. Macierze (1) Andrzej Torój. 17 wrze±nia Wy»sza Szkoªa Zarz dzania i Prawa im. H. Chodkowskiej

Optymalizacja R dlaczego warto przesi ± si na Linuxa?

Metody numeryczne. Wst p do metod numerycznych. Dawid Rasaªa. January 9, Dawid Rasaªa Metody numeryczne 1 / 9

Audyt SEO. Elementy oraz proces przygotowania audytu. strona

Macierze i Wyznaczniki

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

przewidywania zapotrzebowania na moc elektryczn

Grafy i Zastosowania. 10: Zastosowania w sieciach: algorytm PageRank. c Marcin Sydow. Ša«cuchy Markowa. Analiza Linków. PageRank.

Relacj binarn okre±lon w zbiorze X nazywamy podzbiór ϱ X X.

c Marcin Sydow Przepªywy Grafy i Zastosowania Podsumowanie 12: Przepªywy w sieciach

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.

Metody numeryczne i statystyka dla in»ynierów

Ukªady równa«liniowych

Interpolacja Lagrange'a, bazy wielomianów

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

AUTORYTATYWNE I EKSPERCKIE STRONY ŹRÓDŁEM RZETELNYCH WYNIKÓW W WYSZUKIWARKACH INTERNETOWYCH

KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu

epuap Ogólna instrukcja organizacyjna kroków dla realizacji integracji

Podstawy modelowania w j zyku UML

c Marcin Sydow Planarno± Grafy i Zastosowania Tw. Eulera 7: Planarno± Inne powierzchnie Dualno± Podsumowanie

Metody numeryczne i statystyka dla in»ynierów

Edycja geometrii w Solid Edge ST

AUTO-ENKODER JAKO SKŠADNIK ARCHITEKTURY DEEP LEARNING

ANALIZA ZASOBÓW INTERNETOWYCH NA PODSTAWIE STRUKTURY POŁĄCZEŃ

Model obiektu w JavaScript

Inteligentne systemy informacyjne

Marcin Werla

Metodydowodzenia twierdzeń

Bash i algorytmy. Elwira Wachowicz. 20 lutego

Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd.

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Numeryczne zadanie wªasne

Zarządzanie Zasobami by CTI. Instrukcja

Specjalizacja Web Mining

Lekcja 9 - LICZBY LOSOWE, ZMIENNE

PRZYPOMNIENIE Ka»d przestrze«wektorow V, o wymiarze dim V = n < nad ciaªem F mo»na jednoznacznie odwzorowa na przestrze«f n n-ek uporz dkowanych:

Modele wielorównaniowe. Problem identykacji

Plan wykładu. Reguły asocjacyjne. Przykłady asocjacji. Reguły asocjacyjne. Jeli warunki to efekty. warunki efekty

Macierze i Wyznaczniki

Wykªad 4. Funkcje wielu zmiennych.

PRAWA ZACHOWANIA. Podstawowe terminy. Cia a tworz ce uk ad mechaniczny oddzia ywuj mi dzy sob i z cia ami nie nale cymi do uk adu za pomoc

Twierdzenie Wainera. Marek Czarnecki. Warszawa, 3 lipca Wydziaª Filozoi i Socjologii Uniwersytet Warszawski

Ekonometria - wykªad 8

WYKŁAD 4 PLAN WYKŁADU. Sieci neuronowe: Algorytmy uczenia & Dalsze zastosowania. Metody uczenia sieci: Zastosowania

Baza danych - Access. 2 Budowa bazy danych

MiASI. Modelowanie systemów informatycznych. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

Rozwi zanie równania ró»niczkowego metod operatorow (zastosowanie transformaty Laplace'a).

Wyszukiwanie i Przetwarzanie Informacji WWW

1. Wprowadzenie do C/C++

Aplikacje bazodanowe. Laboratorium 1. Dawid Poªap Aplikacje bazodanowe - laboratorium 1 Luty, 22, / 37

Zbiory i odwzorowania

Programowanie Zespołowe

Elementy Modelowania Matematycznego Wykªad 9 Systemy kolejkowe

W dobie postępującej digitalizacji zasobów oraz zwiększającej się liczby dostawców i wydawców

c Marcin Sydow Spójno± Grafy i Zastosowania Grafy Eulerowskie 2: Drogi i Cykle Grafy Hamiltonowskie Podsumowanie

Subversion - jak dziaªa

Moduł. Rama 2D suplement do wersji Konstruktora 4.6

3. (8 punktów) EGZAMIN MAGISTERSKI, Biomatematyka

Wyszukiwanie i Przetwarzanie Informacji WWW

JAO - J zyki, Automaty i Obliczenia - Wykªad 1. JAO - J zyki, Automaty i Obliczenia - Wykªad 1

Wyszukiwanie i Przetwarzanie Informacji WWW

Strukturalne metodyki projektowania systemûw informatycznych

i, lub, nie Cegieªki buduj ce wspóªczesne procesory. Piotr Fulma«ski 5 kwietnia 2017

Podstawa programowa kształcenia ogólnego informatyki w gimnazjum

Funkcje wielu zmiennych

ALGORYTMY SORTOWANIA DANYCH

SVN - wprowadzenie. 1 Wprowadzenie do SVN. 2 U»ywanie SVN. Adam Krechowicz. 16 lutego Podstawowe funkcje. 2.1 Windows

1. Wprowadzenie do C/C++

x y x y x y x + y x y

Rewitalizacja w RPO WK-P

Problemy optymalizacyjne - zastosowania

Przetwarzanie sygnaªów

Programowanie wspóªbie»ne

Podstawy statystycznego modelowania danych Analiza prze»ycia

Teoria grafów i sieci 1 / 58

Macierze. 1 Podstawowe denicje. 2 Rodzaje macierzy. Denicja

Zastosowanie wartości własnych macierzy

XVII Warmi«sko-Mazurskie Zawody Matematyczne

Listy i operacje pytania

2 Liczby rzeczywiste - cz. 2

X WARMI SKO-MAZURSKIE ZAWODY MATEMATYCZNE 18 maja 2012 (szkoªy ponadgimnazjalne)

Wektory w przestrzeni

EDUKARIS - O±rodek Ksztaªcenia

Praca Dyplomowa Magisterska

Bazy danych. Andrzej Łachwa, UJ, /15

Zarządzanie projektami. wykład 1 dr inż. Agata Klaus-Rosińska

Nowy Serwis Pstr gowy. Analiza Rynku Producentów Ryb ososiowatych

dbsamples.udl lub przygotowany wcześniej plik dla Excela) i OK,

Transkrypt:

Wyszukiwanie i Przetwarzanie Informacji WWW Analiza linków (1): Algorytm HITS Marcin Sydow PJWSTK Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 1 / 33

Plan tego wykªadu Przypomnienie: Ranking dokumentów w wyszukiwarkach Podstawy racjonalne analizy linków w liczeniu rankingu Idea algorytmu HITS Sformuªowanie HITS Analiza Rozszerzenia Wybrana literatura dodatkowa Znajdowanie Dokumentów Podobnych Zastosowania HITS w Systemach Reputacyjnych Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 2 / 33

Ranking - Przypomnienie Moduªy wyszukiwarki Moduª zbieraj cy (ang. Crawler) pod»aj po linkach i ±ci gaj dokumenty Repozytorium skªaduj ±ci gni te dokumenty - trwaªo±, dost p Indeks zapisz które sªowo wyst puje w jakim dokumencie System Rankingowy jakie informacje dobrze pasuj do zapytania u»ytkownika? jakie informacje s warto±ciowe same w sobie? Moduª prezentacji znajd¹ dobr form wizualizacji wyników Obsªuga obsªu» zapytania, znajd¹ strony, wy±wietl wyniki Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 3 / 33

Ranking - Przypomnienie Szukanie igªy w stogu siana - Ranking Przeci tne zapytanie: tysi ce zwróconych dokumentów Mo»liwo±ci u»ytkownika: kilkana±cie obejrzanych dokumentów Jak wybra na pocz tek listy te kilkana±cie najlepszych spo±ród tysi cy? Rozwi zaniem jest: System Rankingowy Systemy rankingowe istniaªy od lat w IR, ale nie byªy idealne w przypadku WWW (rewolucja wyszukiwarkowa AD 1998) Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 4 / 33

Ranking - Przypomnienie Ranking Najpilniej strze»one tajemnice wyszukiwarek (decyduj o jako±ci wyników) Dokumentowi przyporz dkowana jest warto± (ang. score) i wyniki s posortowane po tej warto±ci Wiele skªadowych: analiza tekstu (zawarto±, URL, meta,...) analiza tekstu odno±ników (ang. anchor text) analiza struktury linków analiza logów, ruchu internetowego,... Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 5 / 33

Tekst a ranking Ranking - Przypomnienie statystyki (np. tf-idf) pozycja w tek±cie pozycja w kontek±cie (URL, meta, title, anchor, etc.) meta-znaczniki znaczniki prezentacji (rozmiar, pogrubienie nagªówek) Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 6 / 33

Ranking - Przypomnienie WWW - problemy z tekstem Klasyczne, tekstowe techniki IR sprawiaj problemy w przypadku WWW: Problem braku samo-opisu (np. zapytanie: japo«ski producent samochodów) Problem ró»norodno±ci Problem nierównej jako±ci Zaszumienie, bª dy, etc Tekst - ªatwy do spamowania Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 7 / 33

Ranking - Przypomnienie WWW - rozwi zanie problemów IR WWW z jednej strony stwarza problemy dla klasycznego IR. Z drugiej strony, stwarza mo»liwo±ci ich obej±cia dzi ki istnieniu dodatkowych ¹ródeª informacji: spoªeczny aspekt publikowania w WWW (linki) tekst odno±ników (ang. anchor text) To s mocne narz dzia: omini cie problemu braku samo-opisu dokumenty nietekstowe dokumenty o nieznanych formatach dokumenty nie±ci gni te Dodatkowo: nazwa hosta, domeny, pliku, gª boko± ±cie»ki, ilo±c dokumentów na ho±cie,... Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 8 / 33

Analiza Linków Linki s u»yteczn informacj Skupmy si na wykorzystaniu analizy linków grafu WWW do automatycznego obliczania rankingu dokumentów WWW Struktura linków w grae WWW mo»e zosta wykorzystana do automatycznego obliczania wa»no±ci (lub jako±ci) dokumentów, niezale»nie od kontekstu zapytania. Taki skªadnik rankingu (niezale»ny od zapytania) nazywamy statycznym Wa»n cech linkowego skªadnika rankingu danego dokumentu jest to,»e pochodzi spoza tego dokumentu. Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 9 / 33

Analiza Linków Spoªeczny aspekt hiperlinków Podstawowa obserwacja: Zamieszczenie linku z dokumentu p do dokumentu q mo»e by odebrane jako informacja,»e podmiot tworz cy dokument p uwa»a dokument q za warto±ciowy (skoro wybraª go do wskazania spo±ród miliardów innych) W ten sposób sami twórcy dokumentów WWW s w ukryty sposób zaprz gni ci do oceny dokumentów WWW. Pojedynczy link nie jest mo»e bardzo warto±ciow informacj, ale mechanizm ten zastosowany w skali masowej zaczyna dziaªa... Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 10 / 33

Nepotyzm Analiza Linków Nepotyzm Problem stanowi tzw. nepotyzm linków, czyli tworzenie linków wskazuj cych dokumenty b d ce pod kontrol tego samego podmiotu, który tworzy link. Nie ka»dy nepotyczny link jest tworzony w zªej woli, ale oczywi±cie takie linki powinny by inaczej (sªabiej) uwzgl dniane Gªówny problem polega na niemo»liwo±ci pewnego ustalenia czy link tworzony jest przez ten sam podmiot, który kontroluje wskazywany dokument. WWW nie zawiera mechanizmu pozwalaj cego to sprawdzi. Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 11 / 33

Analiza Linków Nepotyzm Reakcja na nepotyzm Typow heurystyk jest traktowanie caªego hosta (lub poddomeny) jako przestrzeni kontrolowanej przez pojedynczy podmiot (autora) W praktyce stosuje si kilka metod uwzgl dniania nepotyzmu opartego na hostach, np: wa»enie linków w ten sposób,»e z ka»dym hostem zwi zana jest ograniczona wielko±, która jest rozdzielana (np. po równo) pomi dzy wszystkie wychodz ce z niego linki ignorowanie linków wewn trz hosta (lub poddomeny) przy obliczaniu rankingu opartego na analizie linków Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 12 / 33

Algorytm HITS Geneza HITS Algorytm HITS (Hyperlink-induced Topic Selection) zostaª wymy±lony przez J.Kleinberga w 1998 roku Algorytm ma wspomaga automatyczn identykacj warto±ciowych dokumentów na dany temat (w kontek±cie zapytania) Równie±nik PageRank Algorytm zostaª oryginalnie przedstawiony w pracy: J. Kleinberg. Authoritative sources in a hyperlinked environment. In Proc. 9th Ann. ACM-SIAM Symp. Discrete Algorithms, pages 668-677, ACM Press, New York, 1998. Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 13 / 33

Idea Idea - autorytety i koncentratory Algorytm pracuje na specjalnie przygotowanym grae bazowym, który jest podgrafem grafu WWW bogatym w potencjalnie interesuj ce dokumenty na dany temat. Koncept autorytetu (ang. authority) i koncentratora (ang. hub) - wzajemnie dualnych poj. Poj cia te s okre±lone wzajemnie rekurencyjnie: Denition Dobry autorytet to taki dokument, który jest cytowany przez wiele dobrych koncentratorów. Analogicznie: dobry koncentrator to taki dokument, który zawiera linki do wielu dobrych autorytetów W efekcie dziaªania algorytmu ka»demu dokumentowi przyporz dkowane zostan 2 wagi x, y [0, 1], które okre±laj jak dobrym jest autorytetem i koncentratorem, odpowiednio. Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 14 / 33

Idea Wyja±nienie koncepcji Koncentratory s poj ciem pomocniczym wprowadzonym po to aby: odró»ni strony autorytatywne od po prostu popularnych Rysunek: Ró»nica pomi dzy autorytetami na jaki± temat (ko-cytowanymi przez podobne dokumenty) a stronami popularnymi (cz sto cytowanymi przez niezwi zane ze sob dokumenty) Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 15 / 33

Sformuªowanie HITS Przygotowanie danych Obliczanie, Faza 1.1 - przygotowanie zbioru pierwotnego Dane jest zapytanie q Najpierw przygotowujemy dla q zbiór bazowy B q (ang. base set) W oryg. pracy miaª on speªnia 3 warunki: 1 bogaty w dokumenty zwi zane z q, 2 zawieraj cy du»o autorytetów, 3 stosunkowo niewielki Wg. Kleinberga wykorzystujemy do tego celu wyszukiwark internetow i pobieramy k najlepszych (wg. rankingu) dokumentów zwróconych w odpowiedzi na zapytanie q, gdzie k jest parametrem. Tak powstaje pomocniczy zbiór pierwotny (ang. root set) R q, który speªnia 1 warunek. Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 16 / 33

Sformuªowanie HITS Przygotowanie danych Obliczanie, Faza 1.2 - przygotowanie zbioru bazowego Nast pnie, aby nie pomin»adnych dobrych autorytetów i koncentratorów, doª czamy do zbioru pierwotnego dokumenty wskazuj ce i wskazywane przez zbiór pierwotny Dokªadniej, dla ka»dego d R q dodajemy do R q co najwy»ej t dokumentów wskazuj cych i wskazywanych przez d (gdzie t jest parametrem - wg. Kleinberga np. 50). (tutaj mo»na by nieuwzgl dnia tzw. nepotycznych linków - w obr bie tego samego hosta, itp.) Zastosowanie ograniczenia t wynika z warunku 3 i natury grafu WWW (istniej np. dobre strony o setkach tysi cy linków wchodz cych - szczególnie w±ród najlepszych na dany temat). Wynikowy zbiór nazywamy zbiorem bazowym B q. Powinien on speªnia warunki 1-3. Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 17 / 33

Sformuªowanie HITS Konstruowanie zbioru bazowego Przygotowanie danych Rysunek: Konstruowanie zbioru bazowego z pierwotnego Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 18 / 33

Sformuªowanie HITS Przygotowanie danych Widoczne wady tego podej±cia Takie sformuªowanie zbioru wej±ciowego algorytmu HITS sprawia,»e ma on nast puj ce wady: zale»y od zewn trznej wyszukiwarki, wi c ±rednio nadaje si jako algorytm rankingowy (przynajmniej w oryginalnym sformuªowaniu) wymaga wiedzy jakie dokumenty wskazuj na zbiór pierwotny. Jest to trudne do zrealizowania w praktyce je±li dysponujemy tylko zbiorem pierwotnym (connectivity server?) Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 19 / 33

Sformuªowanie HITS Obliczanie wag Obliczanie wag (faza 2) - opis koncepcji Maj c obliczony zbiór bazowy iteracyjnie obliczamy wagi x(p) i y(p) dla ka»dej strony p. 1 Inicjalizujemy wszystkie wagi x i y warto±ci 1 2 Wykonujemy na przemian dwie operacje I oraz O 3 Operacja I (input): uaktualniamy autorytatywno± ka»dej strony q sumuj c miar bycia dobrym koncentratorem po wszystkich stronach cytuj cych q 4 Operacja O (output): uaktualniamy dla strony p miar bycia dobrym koncentratorem sumuj c autorytatywno± wszystkich stron wskazywanych przez p 5 Po ka»dej parze iteracji wagi normalizujemy 6 je±li wagi zbiegªy (z po» dan dokªadno±ci ): stop else: goto 2 Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 20 / 33

Sformuªowanie HITS Obliczanie wag (faza 2) - wzory Obliczanie wag Inicjalizujemy wagi warto±ci 1 Operacja I (od ang. input) uaktualnia wagi x odpowiadaj ce konceptowi autorytetu: x q := y p (1) p (p,q) E Analogicznie, operacja O (ang. output) uaktualnia wagi odpowiadaj ce poj ciu koncentratora: y p := x q (2) q (p,q) E Po ka»dej parze I oraz O wyst puje normalizacja wag tak, aby: x 2 p = y 2 p = 1 (3) p V p V Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 21 / 33

Zbie»no± Analiza Niech A oznacza macierz s siedztwa grafu G(V,E) odpowiadaj cego zbiorowi bazowemu B q W j zyku macierzowym operacje I oraz O wyra»aj si bardzo prosto: I : x := A T y (4) O : y := Ax (5) W ten sposób wektor x po k parach iteracji wyra»a si wzorem: x (k) = (A T A) k 1 A T z, (6) gdzie z to wektor pocz tkowy. Analogicznie, wektor y po k parach iteracji jest opisany przez: y (k) = (AA T ) k z (7) Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 22 / 33

Macierze A T A i AA T Analiza x (k) = (A T A) k 1 A T z, y (k) = (AA T ) k z (8) Macierze A T A i AA T nazywamy macierzami ko-referencji i ko-cytowania, odpowiednio. (ang. co-reference, co-citation) Te poj cia istniej od dawna w analizie bibliogracznej dziedzinie wiedzy, która rozwijaªa si w latach 60-tych 20. wieku. Zauwa»my,»e obliczanie wektorów x i y to metoda pot gowa. W tym przypadku obie macierze s kwadratowe i symetryczne. Dzi ki tym wªasno±ciom, metoda pot gowa zbiega do gªównych wektorów wªasnych macierzy ko-referencji i ko-cytowania [Golub and Van Loan Matrix Computations]. Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 23 / 33

Podsumowanie HITS Wady HITS Wady HITS zwi zane z przygotowaniem danych (wymienione wcze±niej) dodatkowo: wysoka podatno± na manipulacje (spam) w HITS wynik zdominowany jest przez gªówn warto± wªasn. Odpowiada to dominuj cemu grafowi dwudzielnemu (dominating bibartite community). Pozostaªe s ignorowane. Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 24 / 33

Podsumowanie HITS Warto± HITS Z powy»szych wzgl dów HITS mniej nadaje si jako algorytm rankingowy w wyszukiwarkach internetowych. Mimo to mo»na stosowa go np. w kontrolowanych kolekcjach (np. intranety). Warto± HITS: Jest to wa»ny, z punktu widzenia rozwoju analizy linków, algorytm, który równolegle z PageRank zapocz tkowaª rozwój tego typu technik. HITS i PageRank posªu»yªy i sªu» za podstaw wielu innym nowym algorytmom rankingowym (np. Salsa, czy Unied Framework). Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 25 / 33

Rozszerzenia HITS Przykªadowe rozszerzenia - PHITS PHITS (Probabilistic HITS) Ulepszenie HITS (wada 3). Wprowadza ukryt zmienn, która modeluje temat dokumentu. Niweluje powa»ny problem dominacji wyniku przez gªówn warto± wªasn. Cohn, D. and H.Chang, Learning to Probabilistically Identify Authoritative Documents, Proceedings of the 17th International Conference on Machine Learning, 2000 Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 26 / 33

Rozszerzenia HITS Przykªadowe rozszerzenia - Salsa Próba poª czenia modelu losowego internauty z koncepcj HITS. W efekcie jest matematycznie równowa»ny zliczaniu stopni wej±ciowych (sic), co jest starannie udowodnione w pracy :) Lempel, R. and S.Moran, The Stochastic Approach for Link-Structure Analysis (SALSA) and the TKC Eect, in Proceedings of the 9th International WWW Conference, 2000 Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 27 / 33

Unied Framework Rozszerzenia HITS Ciekawe uogólnienie i zarazem poª czenie PageRank i HITS w jeden ogólny, parametryzowalny schemat. PageRank i HITS stanowi dwa przeciwlegªe bieguny w tym schemacie. Analizuje si te» kilka po±rednich algorytmów. Ding, C. and X.He and P.Husbands and H.Zha and H.Simon, PageRank, Hits and a Unied Framework for Link Analysis, Lawrence Berkeley National Laboratory Technical Report 49372, 2001 Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 28 / 33

Wybrana Literatura Dodatkowa Wi cej odno±ników literaturowych... S. Chakrabarti, B.E. Dom, S.R. Kumar, P. Raghavan, S. Rajagopalan, A. Tomkins, D. Gibson, and J. Kleinberg,Mining the web's link structure, Computer, 32(8), pp. 60-67, 1999 Brian Amento, Loren Terveen, Will Hill, Does Authority Mean Quality? Predicting Expert Quality Ratings of Web Documents, Proceedings of the Twenty-Third Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2000 A. Borodin, G.O. Roberts, J.S. Rosenthal, and P. Tsaparas, Finding authorities and hubs from link structures on the world wide web, In Tenth International World Wide Web Conference, 2001 R. Lempel and A. Soer, Picashow: Pictorial authority search by hyperlinks on the Web, Acm Transactions On Information Systems, 20(1), pp.1-24, 2002 Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 29 / 33

Inne Zastosowania HITS Automatyczne znajdowanie stron podobnych Koncepcja zbli»ona do HITS, ale stosuje si wagi w celu m.in. zmniejszenia nepotyzmu (wagi dla ka»dego hosta lub dokumentu sumuj si do 1 - podobnie jak w PageRank). Bharat, K. and M.Henzinger, Improved Algorithms for Topic Distillation in Hyperlinked Environments, Proceedings of the 21st International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'98), pp. 104-111, 1998 Dean, J. and M.Henzinger, Finding Related Pages in the World Wide Web, Proceedings of the 8th International WWW Conference, 1999 Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 30 / 33

Inne Zastosowania HITS Liczenie reputacji uczestników w aukcjach on-line Stosunkowo niedawno zauwa»ono,»e w aukcjach internetowych (np. ebay, Allegro) kupuj cy i sprzedaj cy w naturalny sposób s kandydatami do zastosowania na nich HITS i jego wariantów (jako potencjalne koncentratory i autorytety, odpowiednio). Ma to bardzo wa»ne zastosowania w automatycznym obliczaniu tzw. reputacji kupuj cych i sprzedaj cych na aukcjach internetowych. Jest to stosunkowo nowa dziedzina zastosowa«dla pochodnych HITS. Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 31 / 33

Inne Zastosowania HITS Na zaliczenie tego wykªadu: Podstawy racjonalne analizy linków w liczeniu rankingu Idea algorytmu HITS Sformuªowanie HITS Analiza Rozszerzenia Znajdowanie Dokumentów Podobnych Zastosowania HITS w Systemach Reputacyjnych Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 32 / 33

Inne Zastosowania HITS Dzi kuj za uwag Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 33 / 33