EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM IV PAGERANK + TRUSTRANK

Podobne dokumenty
EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM III PAGERANK + SPAM + TRUSTRANK + ROZSZERZENIA

EKSPLORACJA ZASOBÓW INTERNETU LAB 2 - MIŁOSZ KADZIŃSKI OCENA JAKOŚCI WYSZUKIWANIA + HUBS AND AUTHORITIES + QUERY EXPANDING

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

PageRank i HITS. Mikołajczyk Grzegorz

Zastosowanie wartości własnych macierzy

Księgarnia PWN: Paweł Kobis - Marketing z Google CZYNNIKI WPŁYWAJĄCE NA POZYCJĘ W WYSZUKIWARKACH

Spis treúci. Księgarnia PWN: Paweł Kobis - Marketing z Google. Podziękowania O Autorze Wstęp... 13

Mechanika kwantowa ćwiczenia, 2007/2008, Zestaw II

(Dantzig G. B. (1963))

Instrukcja do laboratorium Materiały budowlane Ćwiczenie 12 IIBZ ĆWICZENIE 12 METALE POMIAR TWARDOŚCI METALI SPOSOBEM BRINELLA

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Marketing z Google Autor Paweł Kobis

WYSZUKIWANIE I PRZETWARZANIE INFORMACJI LISTA KONTROLNA PYTAŃ, WSKAZÓWEK I PODPOWIEDZI PRZED KOLOKWIUM ZALICZENIOWYM

KO OF Szczecin:

Ranking wyników na bazie linków

OSRAM DULUXSTAR STICK

Poradnik SEO. Ilu z nich szuka Twojego produktu? Jak skutecznie to wykorzystać?

Przykład 1.9. Wyznaczanie obciąŝenia granicznego metodą kinematyczną

Wykłady z Hydrauliki- dr inż. Paweł Zawadzki, KIWIS WYKŁAD 3

UTRATA STATECZNOŚCI. O charakterze układu decyduje wielkośćobciążenia. powrót do pierwotnego położenia. stabilnego do stanu niestabilnego.

ZBIGNIEW FJAŁKOWSKI KPSW w Jeleniej Górze BOGDAN MIEDZIŃSKI KPSW w Jeleniej Górze GRZEGORZ WIŚNIEWSKI KPSW w Jeleniej Górze

skutecznej rekrutacji

POZYCJONOWANIE STRONY SKLEPU

AUTOMATYKA INFORMATYKA

Zaawansowane algorytmy i struktury danych

Projekt 9: Dyfuzja ciepła - metoda Cranck-Nicloson.

Geometria Różniczkowa II wykład dziesiąty


Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

Praca siły wewnętrznej - normalnej

Relacje Kramersa Kroniga

POMIAR WSPÓŁCZYNNIKA PRZEWODNOŚCI CIEPLNEJ ALUMINIUM

U L T R A ZAKŁAD BADAŃ MATERIAŁÓW

INSTYTUT INŻYNIERII ŚRODOWISKA ZAKŁAD GEOINŻYNIERII I REKULTYWACJI ĆWICZENIE NR 5

Bieżące informacje o firmie. Nr 1 Kwiecień 2011

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF >>>WIĘCEJ<<<

Wykład 0. Elementy wspomagania decyzji

Wykład 3. Elementy wspomagania decyzji

Wstęp do informatyki Ćwiczenia. Piotr Fulmański

INTERNET - NOWOCZESNY MARKETING

Walka ze spamem przy wykorzystaniu TrustRank

Zadania z badań operacyjnych Przygotowanie do kolokwium pisemnego

Wokół wyszukiwarek internetowych

WYKŁAD 7 SIŁY WEWNĘTRZNE W PŁYNIE. ZWIĄZKI KONSTYTUTYWNE. PŁYN NEWTONOWSKI.

SERWISY BIBLIOTECZNE w perspektywie SEO

POZYCJONOWANIE CHORZÓW >>>WIĘCEJ<<<

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Wykład Pole magnetyczne, indukcja elektromagnetyczna

2P 2P 5P. 2 l 2 l 2 2l 2l

Pozycjonowanie i optymalizacja stron WWW. Jak się to robi. Wydanie III.

Dobra pozycja w Google? Dlaczego warto nam zaufać?

Inteligentne systemy informacyjne

Wstęp. Numeryczne Modelowanie Układów Ciągłych Podstawy Metody Elementów Skończonych. Warunki brzegowe. Elementy

MECHANIKA BUDOWLI 11

Analiza Algorytmów 2018/2019 (zadania na laboratorium)

Semantyczne podobieństwo stron internetowych

KRYTERIA OCE Y RELEWA T OŚCI WY IKÓW W WYSZUKIWARKACH I TER ETOWYCH I ICH WYKORZYSTA IE DO PROMOCJI WITRY REGIO AL YCH

LVII OLIMPIADA FIZYCZNA ZAWODY III STOPNIA

Rozwiązanie stateczności ramy MES

Wstęp do Sztucznej Inteligencji

Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można

SEARCH ENGINE OPTIMALIZATION CZYLI JAK ZWIĘKSZYĆ KONWERSJE STRONY W 7 KROKACH

EKSPLORACJA ZASOBÓW INTERNETU LAB 1 - MIŁOSZ KADZIŃSKI LABORATORIUM WSTĘPNE WYSZUKIWANIE INFORMACJI TEKSTOWYCH WEDŁUG PODOBIEŃSTWA

SEO: Optymalizacja dla wyszukiwarek. Michał Prysłopski plio.pl 2010

Wykład 13: Zbieżność według rozkładu. Centralne twierdzenie graniczne.

SYSTEM DO POMIARU STRUMIENIA OBJĘTOŚCI WODY ZA POMOCĄ ZWĘŻKI

O nauczaniu oceny niepewności standardowej

Wykład 8: Zbieżność według rozkładu. Centralne twierdzenie graniczne.

WSTĘP. Szanowni Państwo,

TEORETYCZNE PODSTAWY INFORMATYKI

OSRAM DULUX SUPERSTAR STICK

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych

Optyka 2. Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

Jak zdobywać linki z profili TR? Strona 1

DYFRAKCJA NA POJEDYNCZEJ I PODWÓJNEJ SZCZELINIE

Metody i analiza danych

Jak podnieść pozycje w Google?

W przestrzeni liniowej funkcji ciągłych na przedziale [a, b] można określić iloczyn skalarny jako następującą całkę:

Kilka prostych programów

Analiza algorytmów zadania podstawowe

Wyszukiwanie w czasie rzeczywistym sposób na zwiększenie widoczności zasobów bibliotek cyfrowych w wyszukiwarkach internetowych Karolina Żernicka

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Skuteczne sposoby budowania ruchu w oparciu o SEM/SEO. - Karol Wnukiewicz

Wykład 1. Andrzej Leśniak KGIS, GGiOŚ AGH. Cele. Zaprezentowanie praktycznego podejścia do analizy danych (szczególnie danych środowiskowych)

Eksploracja Zasobów Internetu. PageRank intuicja: strona jest tak ważna jak ważne są strony, które na nią wskazują (Google)

OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ<<<

Zagadnienia zaawansowane

Wyszukiwanie dokumentów/informacji

PageRank. Bartosz Makuracki. 28 listopada B. Makuracki PageRank

Termostatyczny zawór mieszający do ciepłej wody

Algorytmy stochastyczne laboratorium 03

Metoda obrazów wielki skrypt przed poświąteczny, CZĘŚĆ POTRZEBNA DO OFa

x = cos θ. (13.13) P (x) = 0. (13.14) dx 1 x 2 Warto zauważyć, że miara całkowania w zmiennych sferycznych przyjmuje postać

EKSPLORACJA ZASOBÓW INTERNETU LAB 1 - MIŁOSZ KADZIŃSKI LABORATORIUM WSTĘPNE WYSZUKIWANIE INFORMACJI TEKSTOWYCH WEDŁUG PODOBIEŃSTWA

Zastosowanie rozmytych map kognitywnych do badania scenariuszy rozwoju jednostek naukowo-dydaktycznych

Część 2 8. METODA CROSSA 1 8. METODA CROSSA Wprowadzenie

POZYCJONOWANIE STRON PROGRAM >>>WIĘCEJ<<<

Transkrypt:

EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM IV PAGERANK + TRUSTRANK 1. Laboratorium IV 1.1. Ranking oparty na strukturze połączeń - agorytm PageRank 1.2. Spamowanie - próba oszukania PageRanka ink farms 1.3. Obiczenie współczynnika zaufania a stron agorytm TrustRank 1.4. Krótko o rozszerzeniach PageRanka. 2. Agorytm PageRank Linki mięzy stronami stanowią ścieżki, po których użytkownicy poróżuą o ene strony o inne. Popuarność można mierzyć weług tego, ak często przeciętny użytkownik Internetu owieza aną stronę. PageRank wykorzystue metaforę osowego surfera internetowego, który kika na strony z pewnym prawopoobieństwem i reprezentue osowe przeście po sieci. Iea: ważność strony est wypakową ważności stron, które na nią wskazuą: ) PR( ) : ) c( ) Konstrukca macierz stochastyczne sieci M: Macierz nxn, gzie n est iczbą stron (strona i-ta opowiaa i-temu wierszowi oraz i-te koumnie); M[i,] = 1/n eśi strona posiaa inki o n stron, włączaąc w to ą samą; M[i,] = 0 eśi strona nie posiaa inka o strony i. W ceu obiczenia wartości PageRank a każe strony można rozwiązać ukła równań v = Mv oraz równanie PR( 1 ) + PR( 2 ) + PR( N ) = 1. Symuowanie osowego surfowania po sieci: Niech wektor v bęzie skonstruowany tak, że ego i-ta skłaowa wyraża prawopoobieństwo, że surfer w okreśonym czasie est na stronie i-te; Rozkła prawopoobieństwa opowiezenia koene strony est any przez wektor Mv; W koenych krokach mamy M(M( (Mv))) rozkła prawopoobieństwa owiezenia strony w czasie osowego surfowania; Rozkła graniczny est równy głównemu wektorowi własnemu M (principa eigenvector; wektor własny opowiaaący nawiększe wartości własne macierzy). Moyfikaca, która pozwaa razić sobie ze ea-ens i spier traps : ) PR( ) q ( 1 q) : ) c( ) gzie q (zazwycza równe 0.15) to tzw. amping factor, a c( ) to iczba wychozących ze strony inków., - 1 -

Wykorzystanie PageRank: Wyszukiwarki (uporząkowanie stron w kataogach weług wartości PageRank, czyi zapewnienie tematycznego, ak i akościowego kryterium wyboru stron); Przewiywanie ruchu w sieci (szacowanie iczby wizyt na stronie; obciążenie serwerów) Optymane przeszukiwanie sieci (optima crawing) uży PageRank ważność, robot internetowy powinien e zachować i zineksować w pierwsze koeności); Nawigaca po stronach internetowych (pokazanie wartości a strony w inku). 3. Spam Spamowanie (spamming) każa czynność, która ma na ceu poniesienie rankingu strony w wyszukiwarkach internetowych tak, że est on nieproporconany o e prawziwe wartości. Spam strony, które są wynikiem spamowania (ok. 10-15% całe sieci). Dwie postawowe techniki spamowania: Term spamming (powtórzenia (free, cheap, viagra) wpływa na miary TF-IDF, umping ogromna iość niepowiązanych ze sobą słów, kopiowanie całych słowników, weaving kopiowanie wartościowych stron i wpatanie spamu w osowych pozycach, phrase stitching skeanie zań z różnych źróeł) Link spamming z punktu wizenia spammera istnieą trzy rozae stron: nieostępne a niego, ostępne (może umieścić na nich inki o swoich stron) i ego własne strony. Ce: Maksymaizaca PageRanku strony t. Śroek: na stronach ostępnych a spammera umieść tak użo inków o t, ak to tyko możiwe; zbuu ink farm, by uzyskać efekt powieenia PageRanku. nieostępne t własne 1 2 m ostępne Załóżmy, że w PageRank strony t wniesiony przez strony ostępne wynosi x Oznaczmy PageRank strony t przez y PageRank każe strony z farmy wynosi s = (1-q)y/M + q Obicz PageRank strony t patrz ćwiczenie 2. Zwiększaąc M, można zwiększać y. - 2 -

4. TrustRank Obicz współczynnik zaufania a każe strony. Strony z zaufaniem poniże okreśonego progu są traktowane ako niewiarygone. Założenie: approximate isoation barzo rzako obre strony wskazuą na złe strony (spam) Wybierz małą próbkę stron z sieci ( see pages ) Instanca (człowiek) wskaże, czy strony z próbki są obre czy złe (rogie zaanie, więc próbka musi być mała) Strony z próbki oznaczone ako obre to zaufane strony ( truste pages ) Początkowe zaufanie stron zaufanych to 1: Rozpropagu zaufanie zgonie ze strukturą sieci: Zaufanie powinno spaać wraz z ystansem mierzonym ako iczba inków o strony zaufane Zaufanie strony powinno być zieone równo na wszystkie inki wychozące Moyfikaca agorytmu PageRank (biase PageRank): TrustRank( ) TR( ) q ( 1 q) : TrustRank( ) c( ) - 3 -

Input: M macierz stochastyczna sieci N iczba stron w sieci T imit wywołań wyroczni q amping factor it iczba iteraci obiczenia TrustRank Output: t wektor TrustRank stron w sieci Begin En TrustRank S = seectsee( ) wybierz próbkę σ = Rank({1,,N}, S) uszeregu strony zgonie z miarą oceny (PR ub Inverse PR) i wybierz T stron = O N wyzeru wektor ocen przez wyrocznię for i = 1 to T o if O(σ(i)) == 1 then (σ(i)) = 1 = / - znormaizu wektor ocen, tak by sumowały się o 1 Obicz TrustRank t = for i = 1 to it o t = q + (1- q) M t return t Wybór próbki stron SeectSee( ) wa poeścia: Do obrych stron powinny się ość szybko ze stron z próbki tak, by uzyskały one opowienio wysokie zaufanie. Wybierz k stron o nawyższym PageRanku Strony o wysokim PageRanku są bisko innych stron o wysokim PageRanku Istotne est, by ocenić strony, które mogą być nawyże w opowiezi na zapytanie Wybierz k stron o nawyższym Inverse PageRanku Inverse PageRank obicza się tak samo, ak PageRank, tye że macierz stochastyczna konstruowana est a sieci, w które owrócono kierunek inków Strony, które maą wiee inków wychozących - 4 -

5. Googe Pana, Penguin i Hummingbir Pana (uty 2011, w Posce w sierpniu 2011) zapewnienie wysokich pozyci tyko stronom o wartościowych treściach i backinkach pochozących z różnych źróeł testerzy (ang. human quaity testers) oceniai tysiące stron po wzgęem akości, proektu, zaufania, szybkości ziałania, chęci powrotu o strony w przyszłości. agorytm uczenia maszynowego baał poobieństwo innych stron o stron o wysokie i niskie akości. zaobserwowano wzrost pozyci a stron z wiaomościami i stron społecznościowych oraz ego spaek a stron z użą iczbą rekam Przykła: serwisy ot. fimów, seriai, nowości ze świata fimowego. A krótkie recenze (po 50 słów), uża iczba postron i kikaność rekam. B ługie recenze, ae skopiowane z różnych źróeł. Nacisk na kikaność i iczbę rekam. C recenze napisane przez własny zespół, rzazie, ae ługie. Ce: promowanie serwisu C. Penguin (kwiecień 2012). Obniżenie pozyci stron pozyconowanych nieetycznymi metoami (spamexing). Googe's Wemaster Guieines. Dbanie o akość inków, ich różnoroność, a przee wszystkim naturaność (unikanie sieci kataogów, inków z serwisów niepowiązanych tematycznie). Unikanie przeoptymaizowania strony i upychania słów kuczowych w treści. Działanie punktowo na wybrane postrony, a nie cały serwis. Hummingbir (wrzesień 2013) Wyszukiwanie semantyczne. Anaiza znaczeniowa zawartości strony (związek z kontekstem, w którym frazy i zania występuą) wpływ na mobie search i voice search Knowege Graph (przykła: maarze renesansu) Autorytet strony, nie serwisu; promowanie stron bęących autorytetami w swoich niszach. - 5 -

- 6-6. Ćwiczenia I. Dana est struktura powiązań czterech okumentów w sieci. Zapisz macierz stochastyczną sieci M (przymi koeność wierszy i koumn: a, b, c, ). Obicz PageRank a każe ze stron w grafie, stosuąc poeście z agebry iniowe: v = Mv (bez amping factor q) oraz v=0.85mv+0,15 (z q=0,15 w tym wypaku zapisz tyko równania początkowe). Struktura sieci: Macierz stochastyczna M: M Ukła równań: II. Link farm: załóżmy, że w PageRank y strony t wkła wniesiony przez strony ostępne wynosi x oraz że est M stron w farmie. Poa wzór na PageRank strony t. III. Zapisz macierz stochastyczną sieci M oraz owrotną macierz stochastyczną MI, która est wykorzystywana w agorytmie Inverse PageRank. M= MI= IV. Da poane sieci zapisz wektor początkowych znormaizowanych miar zaufania, eśi see={2, 4, 5}. Zapisz równanie na TrustRank strony 2, 3 i 5, eśi q=0.15. L t2 = t3 = t5 = D1 D2 D3 D4