EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM IV PAGERANK + TRUSTRANK 1. Laboratorium IV 1.1. Ranking oparty na strukturze połączeń - agorytm PageRank 1.2. Spamowanie - próba oszukania PageRanka ink farms 1.3. Obiczenie współczynnika zaufania a stron agorytm TrustRank 1.4. Krótko o rozszerzeniach PageRanka. 2. Agorytm PageRank Linki mięzy stronami stanowią ścieżki, po których użytkownicy poróżuą o ene strony o inne. Popuarność można mierzyć weług tego, ak często przeciętny użytkownik Internetu owieza aną stronę. PageRank wykorzystue metaforę osowego surfera internetowego, który kika na strony z pewnym prawopoobieństwem i reprezentue osowe przeście po sieci. Iea: ważność strony est wypakową ważności stron, które na nią wskazuą: ) PR( ) : ) c( ) Konstrukca macierz stochastyczne sieci M: Macierz nxn, gzie n est iczbą stron (strona i-ta opowiaa i-temu wierszowi oraz i-te koumnie); M[i,] = 1/n eśi strona posiaa inki o n stron, włączaąc w to ą samą; M[i,] = 0 eśi strona nie posiaa inka o strony i. W ceu obiczenia wartości PageRank a każe strony można rozwiązać ukła równań v = Mv oraz równanie PR( 1 ) + PR( 2 ) + PR( N ) = 1. Symuowanie osowego surfowania po sieci: Niech wektor v bęzie skonstruowany tak, że ego i-ta skłaowa wyraża prawopoobieństwo, że surfer w okreśonym czasie est na stronie i-te; Rozkła prawopoobieństwa opowiezenia koene strony est any przez wektor Mv; W koenych krokach mamy M(M( (Mv))) rozkła prawopoobieństwa owiezenia strony w czasie osowego surfowania; Rozkła graniczny est równy głównemu wektorowi własnemu M (principa eigenvector; wektor własny opowiaaący nawiększe wartości własne macierzy). Moyfikaca, która pozwaa razić sobie ze ea-ens i spier traps : ) PR( ) q ( 1 q) : ) c( ) gzie q (zazwycza równe 0.15) to tzw. amping factor, a c( ) to iczba wychozących ze strony inków., - 1 -
Wykorzystanie PageRank: Wyszukiwarki (uporząkowanie stron w kataogach weług wartości PageRank, czyi zapewnienie tematycznego, ak i akościowego kryterium wyboru stron); Przewiywanie ruchu w sieci (szacowanie iczby wizyt na stronie; obciążenie serwerów) Optymane przeszukiwanie sieci (optima crawing) uży PageRank ważność, robot internetowy powinien e zachować i zineksować w pierwsze koeności); Nawigaca po stronach internetowych (pokazanie wartości a strony w inku). 3. Spam Spamowanie (spamming) każa czynność, która ma na ceu poniesienie rankingu strony w wyszukiwarkach internetowych tak, że est on nieproporconany o e prawziwe wartości. Spam strony, które są wynikiem spamowania (ok. 10-15% całe sieci). Dwie postawowe techniki spamowania: Term spamming (powtórzenia (free, cheap, viagra) wpływa na miary TF-IDF, umping ogromna iość niepowiązanych ze sobą słów, kopiowanie całych słowników, weaving kopiowanie wartościowych stron i wpatanie spamu w osowych pozycach, phrase stitching skeanie zań z różnych źróeł) Link spamming z punktu wizenia spammera istnieą trzy rozae stron: nieostępne a niego, ostępne (może umieścić na nich inki o swoich stron) i ego własne strony. Ce: Maksymaizaca PageRanku strony t. Śroek: na stronach ostępnych a spammera umieść tak użo inków o t, ak to tyko możiwe; zbuu ink farm, by uzyskać efekt powieenia PageRanku. nieostępne t własne 1 2 m ostępne Załóżmy, że w PageRank strony t wniesiony przez strony ostępne wynosi x Oznaczmy PageRank strony t przez y PageRank każe strony z farmy wynosi s = (1-q)y/M + q Obicz PageRank strony t patrz ćwiczenie 2. Zwiększaąc M, można zwiększać y. - 2 -
4. TrustRank Obicz współczynnik zaufania a każe strony. Strony z zaufaniem poniże okreśonego progu są traktowane ako niewiarygone. Założenie: approximate isoation barzo rzako obre strony wskazuą na złe strony (spam) Wybierz małą próbkę stron z sieci ( see pages ) Instanca (człowiek) wskaże, czy strony z próbki są obre czy złe (rogie zaanie, więc próbka musi być mała) Strony z próbki oznaczone ako obre to zaufane strony ( truste pages ) Początkowe zaufanie stron zaufanych to 1: Rozpropagu zaufanie zgonie ze strukturą sieci: Zaufanie powinno spaać wraz z ystansem mierzonym ako iczba inków o strony zaufane Zaufanie strony powinno być zieone równo na wszystkie inki wychozące Moyfikaca agorytmu PageRank (biase PageRank): TrustRank( ) TR( ) q ( 1 q) : TrustRank( ) c( ) - 3 -
Input: M macierz stochastyczna sieci N iczba stron w sieci T imit wywołań wyroczni q amping factor it iczba iteraci obiczenia TrustRank Output: t wektor TrustRank stron w sieci Begin En TrustRank S = seectsee( ) wybierz próbkę σ = Rank({1,,N}, S) uszeregu strony zgonie z miarą oceny (PR ub Inverse PR) i wybierz T stron = O N wyzeru wektor ocen przez wyrocznię for i = 1 to T o if O(σ(i)) == 1 then (σ(i)) = 1 = / - znormaizu wektor ocen, tak by sumowały się o 1 Obicz TrustRank t = for i = 1 to it o t = q + (1- q) M t return t Wybór próbki stron SeectSee( ) wa poeścia: Do obrych stron powinny się ość szybko ze stron z próbki tak, by uzyskały one opowienio wysokie zaufanie. Wybierz k stron o nawyższym PageRanku Strony o wysokim PageRanku są bisko innych stron o wysokim PageRanku Istotne est, by ocenić strony, które mogą być nawyże w opowiezi na zapytanie Wybierz k stron o nawyższym Inverse PageRanku Inverse PageRank obicza się tak samo, ak PageRank, tye że macierz stochastyczna konstruowana est a sieci, w które owrócono kierunek inków Strony, które maą wiee inków wychozących - 4 -
5. Googe Pana, Penguin i Hummingbir Pana (uty 2011, w Posce w sierpniu 2011) zapewnienie wysokich pozyci tyko stronom o wartościowych treściach i backinkach pochozących z różnych źróeł testerzy (ang. human quaity testers) oceniai tysiące stron po wzgęem akości, proektu, zaufania, szybkości ziałania, chęci powrotu o strony w przyszłości. agorytm uczenia maszynowego baał poobieństwo innych stron o stron o wysokie i niskie akości. zaobserwowano wzrost pozyci a stron z wiaomościami i stron społecznościowych oraz ego spaek a stron z użą iczbą rekam Przykła: serwisy ot. fimów, seriai, nowości ze świata fimowego. A krótkie recenze (po 50 słów), uża iczba postron i kikaność rekam. B ługie recenze, ae skopiowane z różnych źróeł. Nacisk na kikaność i iczbę rekam. C recenze napisane przez własny zespół, rzazie, ae ługie. Ce: promowanie serwisu C. Penguin (kwiecień 2012). Obniżenie pozyci stron pozyconowanych nieetycznymi metoami (spamexing). Googe's Wemaster Guieines. Dbanie o akość inków, ich różnoroność, a przee wszystkim naturaność (unikanie sieci kataogów, inków z serwisów niepowiązanych tematycznie). Unikanie przeoptymaizowania strony i upychania słów kuczowych w treści. Działanie punktowo na wybrane postrony, a nie cały serwis. Hummingbir (wrzesień 2013) Wyszukiwanie semantyczne. Anaiza znaczeniowa zawartości strony (związek z kontekstem, w którym frazy i zania występuą) wpływ na mobie search i voice search Knowege Graph (przykła: maarze renesansu) Autorytet strony, nie serwisu; promowanie stron bęących autorytetami w swoich niszach. - 5 -
- 6-6. Ćwiczenia I. Dana est struktura powiązań czterech okumentów w sieci. Zapisz macierz stochastyczną sieci M (przymi koeność wierszy i koumn: a, b, c, ). Obicz PageRank a każe ze stron w grafie, stosuąc poeście z agebry iniowe: v = Mv (bez amping factor q) oraz v=0.85mv+0,15 (z q=0,15 w tym wypaku zapisz tyko równania początkowe). Struktura sieci: Macierz stochastyczna M: M Ukła równań: II. Link farm: załóżmy, że w PageRank y strony t wkła wniesiony przez strony ostępne wynosi x oraz że est M stron w farmie. Poa wzór na PageRank strony t. III. Zapisz macierz stochastyczną sieci M oraz owrotną macierz stochastyczną MI, która est wykorzystywana w agorytmie Inverse PageRank. M= MI= IV. Da poane sieci zapisz wektor początkowych znormaizowanych miar zaufania, eśi see={2, 4, 5}. Zapisz równanie na TrustRank strony 2, 3 i 5, eśi q=0.15. L t2 = t3 = t5 = D1 D2 D3 D4