EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM III PAGERANK + SPAM + TRUSTRANK + ROZSZERZENIA



Podobne dokumenty
EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM IV PAGERANK + TRUSTRANK

EKSPLORACJA ZASOBÓW INTERNETU LAB 2 - MIŁOSZ KADZIŃSKI OCENA JAKOŚCI WYSZUKIWANIA + HUBS AND AUTHORITIES + QUERY EXPANDING

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

PageRank i HITS. Mikołajczyk Grzegorz

Spis treúci. Księgarnia PWN: Paweł Kobis - Marketing z Google. Podziękowania O Autorze Wstęp... 13

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Zastosowanie wartości własnych macierzy

Księgarnia PWN: Paweł Kobis - Marketing z Google CZYNNIKI WPŁYWAJĄCE NA POZYCJĘ W WYSZUKIWARKACH

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

Poradnik SEO. Ilu z nich szuka Twojego produktu? Jak skutecznie to wykorzystać?

MECHANIKA BUDOWLI 11

Pozycjonowanie i optymalizacja stron WWW. Jak się to robi. Wydanie III.

POZYCJONOWANIE STRONY SKLEPU

Marketing z Google Autor Paweł Kobis

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Zaawansowane algorytmy i struktury danych

skutecznej rekrutacji

Mechanika kwantowa ćwiczenia, 2007/2008, Zestaw II

Ranking wyników na bazie linków

(Dantzig G. B. (1963))

Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można

Instrukcja do laboratorium Materiały budowlane Ćwiczenie 12 IIBZ ĆWICZENIE 12 METALE POMIAR TWARDOŚCI METALI SPOSOBEM BRINELLA

Walka ze spamem przy wykorzystaniu TrustRank

POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF >>>WIĘCEJ<<<

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Analiza Algorytmów 2018/2019 (zadania na laboratorium)

POZYCJONOWANIE CHORZÓW >>>WIĘCEJ<<<

U L T R A ZAKŁAD BADAŃ MATERIAŁÓW

Algorytmy stochastyczne laboratorium 03

Dobra pozycja w Google? Dlaczego warto nam zaufać?

Semantyczne podobieństwo stron internetowych

Eksploracja Zasobów Internetu. PageRank intuicja: strona jest tak ważna jak ważne są strony, które na nią wskazują (Google)

Wykład 0. Elementy wspomagania decyzji

SEO: Optymalizacja dla wyszukiwarek. Michał Prysłopski plio.pl 2010

AUTOMATYKA INFORMATYKA

Wykład 3. Elementy wspomagania decyzji

Jak zdobywać linki z profili TR? Strona 1

LVII OLIMPIADA FIZYCZNA ZAWODY III STOPNIA

INTERNET - NOWOCZESNY MARKETING

Wokół wyszukiwarek internetowych

SERWISY BIBLIOTECZNE w perspektywie SEO

Bieżące informacje o firmie. Nr 1 Kwiecień 2011

Zastosowanie rozmytych map kognitywnych do badania scenariuszy rozwoju jednostek naukowo-dydaktycznych

Wstęp. Numeryczne Modelowanie Układów Ciągłych Podstawy Metody Elementów Skończonych. Warunki brzegowe. Elementy

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Wstęp do Sztucznej Inteligencji

Eksploracja Zasobów Internetu

WYSZUKIWANIE I PRZETWARZANIE INFORMACJI LISTA KONTROLNA PYTAŃ, WSKAZÓWEK I PODPOWIEDZI PRZED KOLOKWIUM ZALICZENIOWYM

KRYTERIA OCE Y RELEWA T OŚCI WY IKÓW W WYSZUKIWARKACH I TER ETOWYCH I ICH WYKORZYSTA IE DO PROMOCJI WITRY REGIO AL YCH

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Eksploracja sieci Web

PAKIETY INTERNETOWE INDEXFIRM.PL

Inteligentne systemy informacyjne

#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL

Skuteczne sposoby budowania ruchu w oparciu o SEM/SEO. - Karol Wnukiewicz

Poradnik obsługi systemu zarządzania treścią (CMS) Concrete5. Optymalizacja strony (SEO) - podstawy

Wstęp do informatyki Ćwiczenia. Piotr Fulmański

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

UTRATA STATECZNOŚCI. O charakterze układu decyduje wielkośćobciążenia. powrót do pierwotnego położenia. stabilnego do stanu niestabilnego.

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

SEARCH ENGINE OPTIMALIZATION CZYLI JAK ZWIĘKSZYĆ KONWERSJE STRONY W 7 KROKACH

Praca siły wewnętrznej - normalnej

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

Języki programowania zasady ich tworzenia

Schemat programowania dynamicznego (ang. dynamic programming)

Zastosowanie analizy faktorowej do równoczesnego oznaczania aspiryny, salicylamidu i kofeiny w środkach uśmierzających ból

Heurystyczne metody przeszukiwania

EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM VI INDEKSOWANIE + LUCENE

Zad. 3: Układ równań liniowych

Kroki dwa. do najlepszych pozycji w Google

Scenariusz zajęć WARSZTATY KOMPUTEROWE DLA NAUCZYCIELI. Autor: Maciej Lisak-Zbroński. 1. Grupa: Nauczyciele (uczący różnych przedmiotów)

1. Algorytmy przeszukiwania. Przeszukiwanie wszerz i w głąb.

ANALIZA ZASOBÓW INTERNETOWYCH NA PODSTAWIE STRUKTURY POŁĄCZEŃ

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Część 2 8. METODA CROSSA 1 8. METODA CROSSA Wprowadzenie

Internetowa strategia marketingowa

Wykład 13: Zbieżność według rozkładu. Centralne twierdzenie graniczne.

Metody i analiza danych

Optyka 2. Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

Relacje Kramersa Kroniga

Jak podnieść pozycje w Google?

Wykład 2. Poprawność algorytmów

Problemy optymalizacyjne - zastosowania

Jak unikąć duplikacji treści na wersjach językowych sklepu PrestaShop?

Analiza algorytmów zadania podstawowe

Wykłady z Hydrauliki- dr inż. Paweł Zawadzki, KIWIS WYKŁAD 3

Zagadnienia zaawansowane

O nauczaniu oceny niepewności standardowej

Podstawy sztucznej inteligencji

PageRank. Bartosz Makuracki. 28 listopada B. Makuracki PageRank

POZYCJONOWANIE W WYSZUKIWARKACH APTEK INTERNETOWYCH

WYSZUKIWARKA INTERNETOWA

Projekt 9: Dyfuzja ciepła - metoda Cranck-Nicloson.

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Metody numeryczne. materiały do wykładu dla studentów

Instytut Informatyki Uniwersytet Wrocławski. Dane w sieciach. (i inne historie) Marcin Bieńkowski

POZYCJONOWANIE STRON PROGRAM >>>WIĘCEJ<<<

Struktury danych i złożoność obliczeniowa Wykład 2. Prof. dr hab. inż. Jan Magott

Wstęp do Programowania Lista 1

Transkrypt:

EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM III PAGERANK + SPAM + TRUSTRANK + ROZSZERZENIA 1. Laboratorium III 1.1. Ranking oparty na strukturze połączeń - agorytm PageRank 1.2. Spamowanie - próba oszukania PageRanka ink farms 1.3. Obiczenie współczynnika zaufania a stron agorytm TrustRank 1.4. Krótko o rozszerzeniach PageRanka. 2. Agorytm PageRank (Page, Brin, 1998) Linki mięzy stronami stanowią ścieżki, po których użytkownicy poróżuą o ene strony o inne. Popuarność można mierzyć weług tego, ak często przeciętny użytkownik Internetu owieza aną stronę. PageRank wykorzystue metaforę osowego surfera internetowego, który kika na strony z pewnym prawopoobieństwem i reprezentue osowe przeście po sieci. Iea: ważność strony est wypakową ważności stron, które na nią wskazuą: ) = PR( ) = : ) c( ) Konstrukca macierzy stochastyczne sieci M: Macierz nxn, gzie n est iczbą stron (strona i-ta opowiaa i-temu wierszowi oraz i-te koumnie); M[i,] = 1/n eśi strona posiaa inki o n stron, włączaąc w to ą samą; M[i,] = 0 eśi strona nie posiaa inka o strony i. W ceu obiczenia wartości PageRank a każe strony można rozwiązać ukła równań v = Mv oraz równanie PR( 1 ) + PR( 2 ) + PR( N ) = 1. Symuowanie osowego surfowania po sieci: Niech wektor v bęzie skonstruowany tak, że ego i-ta skłaowa wyraża prawopoobieństwo, że surfer w okreśonym czasie est na stronie i-te; Rozkła prawopoobieństwa opowiezenia koene strony est any przez wektor Mv; W koenych krokach mamy M(M( (Mv))) rozkła prawopoobieństwa owiezenia strony w czasie osowego surfowania; Rozkła graniczny est równy głównemu wektorowi własnemu M (principa eigenvector; wektor własny opowiaaący nawiększe wartości własne macierzy). Moyfikaca, która pozwaa razić sobie ze ea-ens i spier traps : ) = PR( ) = q + ( 1 q) : ) c( ), gzie q (zazwycza równe 0.15) to tzw. amping factor, a c( ) to iczba wychozących ze strony inków. - 1 -

Wykorzystanie PageRank: Wyszukiwarki (uporząkowanie stron w kataogach weług wartości PageRank, czyi zapewnienie tematycznego, ak i akościowego kryterium wyboru stron); Przewiywanie ruchu w sieci (szacowanie iczby wizyt na stronie; obciążenie serwerów) Optymane przeszukiwanie sieci (optima crawing) uży PageRank ważność, robot internetowy powinien e zachować i zineksować w pierwsze koeności); Nawigaca po stronach internetowych (pokazanie wartości a strony w inku). Zamiast ISI impact factor (eigenfactor.org). Ekosystemy (gatunki kuczowe a zrowia), sieci białkowe. 3. Spam Spamowanie (spamming) każa czynność, która ma na ceu poniesienie rankingu strony w wyszukiwarkach internetowych tak, że est on nieproporconany o e prawziwe wartości. Dwie postawowe techniki spamowania: Term spamming (powtórzenia (free, cheap, viagra) wpływa na miary TF-IDF, keywor stuffing umieszczanie słów kuczowych na stronie (naczęście ukrytych), oorway pages automatyczne przekierowanie o inne strony, mirror websites ta sam treść, inne nazwy (słowa kuczowe), umping ogromna iość niepowiązanych ze sobą słów, kopiowanie całych słowników, weaving kopiowanie wartościowych stron i wpatanie spamu w osowych pozycach, phrase stitching skeanie zań z różnych źróeł) Link spamming ink farms, hien inks, Sybi attack, spam bogs, page hiacking, buying expire omains. Link farms: z punktu wizenia spammera istnieą trzy rozae stron: nieostępne a niego, ostępne (może umieścić na nich inki o swoich stron) i ego własne strony. Ce: Maksymaizaca PageRanku strony t. Śroek: na stronach ostępnych a spammera umieść tak użo inków o t, ak to tyko możiwe; zbuu ink farm, by uzyskać efekt powieenia PageRanku. nieostępne t własne 1 2 m ostępne Załóżmy, że w PageRank strony t wniesiony przez strony ostępne wynosi x Oznaczmy PageRank strony t przez y PageRank każe strony z farmy wynosi s = (1-β)y/M + β Obicz PageRank strony t patrz ćwiczenie 2. Zwiększaąc M, można zwiększać y. - 2 -

4. TrustRank Obicz współczynnik zaufania a każe strony. Strony z zaufaniem poniże okreśonego progu są traktowane ako niewiarygone. Założenie: approximate isoation barzo rzako obre strony wskazuą na złe strony (spam) Wybierz małą próbkę stron z sieci ( see pages ) Instanca (człowiek) wskaże, czy strony z próbki są obre czy złe (rogie zaanie, więc próbka musi być mała) Strony z próbki oznaczone ako obre to zaufane strony ( truste pages ) Początkowe zaufanie stron zaufanych to 1: Rozpropagu zaufanie zgonie ze strukturą sieci: Zaufanie powinno spaać wraz z ystansem mierzonym ako iczba inków o strony zaufane Zaufanie strony powinno być zieone równo na wszystkie inki wychozące Moyfikaca agorytmu PageRank (biase PageRank): TrustRank( ) = TR( ) = q + ( 1 q) : TrustRank( ) c( ) - 3 -

Input: M macierz stochastyczna sieci N iczba stron w sieci T imit wywołań wyroczni q amping factor it iczba iteraci obiczenia TrustRank Output: t wektor TrustRank stron w sieci Begin En TrustRank S = seectsee( ) wybierz próbkę σ = Rank({1,,N}, S) uszeregu strony zgonie z miarą oceny (PR ub Inverse PR) i wybierz T stron = O N wyzeru wektor ocen przez wyrocznię for i = 1 to T o if O(σ(i)) == 1 then (σ(i)) = 1 = / - znormaizu wektor ocen, tak by sumowały się o 1 Obicz TrustRank t = for i = 1 to it o t = q + (1- q) M t return t Wybór próbki stron SeectSee( ) wa poeścia: Do obrych stron powinny się ość szybko ze stron z próbki tak, by uzyskały one opowienio wysokie zaufanie. Wybierz k stron o nawyższym PageRanku Strony o wysokim PageRanku są bisko innych stron o wysokim PageRanku Istotne est, by ocenić strony, które mogą być nawyże w opowiezi na zapytanie Wybierz k stron o nawyższym Inverse PageRanku Inverse PageRank obicza się tak samo, ak PageRank, tye że macierz stochastyczna konstruowana est a sieci, w które owrócono kierunek inków Strony, które maą wiee inków wychozących - 4 -

5. Googe Toobar Liczba całkowita z przeziału 0 o 10 (nabarzie popuarna strona). Nie uawniono agorytmu przeiczenia PageRanka na wartość całkowitą (wartość przybiżona). Rozmiar, iczba zmian, czas o ostatnie zmiany, tekst w nagłówkach, tekst w inkach. Rzako uaktuaniany. 6. Googe Pana, Penguin i Hummingbir Pana (uty 2011, w Posce w sierpniu 2011) zapewnienie wysokich pozyci tyko stronom o wartościowych treściach i backinkach pochozących z różnych źróeł testerzy (ang. human quaity testers) oceniai tysiące stron po wzgęem akości, proektu, zaufania, szybkości ziałania, chęci powrotu o strony w przyszłości. agorytm uczenia maszynowego baał poobieństwo innych stron o stron o wysokie i niskie akości. zaobserwowano wzrost pozyci a stron z wiaomościami i stron społecznościowych oraz ego spaek a stron z użą iczbą rekam Przykła: serwisy ot. fimów, seriai, nowości ze świata fimowego. A krótkie recenze (po 50 słów), uża iczba postron i kikaność rekam. B ługie recenze, ae skopiowane z różnych źróeł. Nacisk na kikaność i iczbę rekam. C recenze napisane przez własny zespół, rzazie, ae ługie. Ce: promowanie serwisu C. Penguin (kwiecień 2012). Obniżenie pozyci stron pozyconowanych nieetycznymi metoami (spamexing). Googe's Wemaster Guieines. Dbanie o akość inków, ich różnoroność, a przee wszystkim naturaność (unikanie sieci kataogów, inków z serwisów niepowiązanych tematycznie). Unikanie przeoptymaizowania strony i upychania słów kuczowych w treści. Działanie punktowo na wybrane postrony, a nie cały serwis. Hummingbir (wrzesień 2013) Wyszukiwanie semantyczne. Anaiza znaczeniowa zawartości strony (związek z kontekstem, w którym frazy i zania występuą) wpływ na mobie search i voice search Knowege Graph (przykła: maarze renesansu) Autorytet strony, nie serwisu; promowanie stron bęących autorytetami w swoich niszach. - 5 -

- 6-7. Ćwiczenia I. Dana est struktura powiązań czterech okumentów w sieci. Zapisz macierz stochastyczną sieci M (przymi koeność wierszy i koumn: a, b, c, ). Obicz PageRank a każe ze stron w grafie, stosuąc poeście z agebry iniowe: v = Mv (bez amping factor q) oraz v=0.85mv+0,15 (z q=0,15 w tym wypaku zapisz tyko równania początkowe). Struktura sieci: Macierz stochastyczna M: = M Ukła równań: II. Link farm: załóżmy, że w PageRank y strony t wkła wniesiony przez strony ostępne wynosi x oraz że est M stron w farmie. Poa wzór na PageRank strony t. III. Zapisz macierz stochastyczną sieci M oraz owrotną macierz stochastyczną MI, która est wykorzystywana w agorytmie Inverse PageRank. M= MI= IV. Da poane sieci zapisz wektor początkowych znormaizowanych miar zaufania, eśi see={2, 4, 5}. Zapisz równanie na TrustRank strony 2, 3 i 5, eśi q=0.15. [ ] = = L t2 = t3 = t5 = D1 D2 D3 D4

8. Omówienie zaań o wykonania w zespołach I. [2] Dana est struktura powiązań 10 okumentów w sieci: D1 D4, D2 D1, D2 D4, D3 D2, D4 D10, D5 D4, D5 D1, D6 D7, D6 D8, D6 D9, D7 D8, D10 D4, D10 D6, D10 D9. Poa macierz stochastyczną sieci [0.75]. Używaąc początkowych wartości równych 1 a wszystkich wierzchołków oraz q=0.15, wykona 10 iteraci obiczenia PageRank-u bez normaizaci i załącz ich wyniki w tabei [0.5]. Wymień 3 okumenty z nawyższym PageRankiem oraz 2 z naniższym PageRankiem i a każego z nich intuicynie uzasani aczego est tak wysoko (nisko) oceniony (w szczegóności aczego D10 est tak obry) [0.75]. II. [2] Kasyczny agorytm PageRank zakłaa, że prawopoobieństwa wyboru owonego z wychozących inków est równe. W praktyce Googe nie traktue równo wszystkich inków, wykorzystuąc szereg heurystyk pozwaaących na okreśenie wagi anego inka. Załóż, że waga każego inka est znana (oznaczona symboem w i, ink o strony i o ) i następna strona est wybierana z prawopoobieństwem proporconanym o wagi. Jakie zmiany muszą być wprowazone w agorytmie PageRank, aby uwzgęnić wagę inków [2]? V. [2] Dana est struktura powiązań 10 okumentów w sieci (ak w zaaniu I). Wiaomo, że strony D4, D5, D6, D8, D9 i D10 są obre, a strony D1, D2, D3 i D7 złe. Obicz wartość zaufania stron, eśi próbką est zbiór D4, D10 i D3 (wyrocznia ma informacę, czy strona est obra czy zła ). Pokaż wyniki po 10 iteracach [1]. Daczego wg TrustRank wartość zaufania strony D5 est niska, pomimo że strona est uznawana za obrą? Jaką własność w ogóności powinna spełniać wybrana próbka stron a agorytmu TrustRank w oniesieniu o grafu sieci, aby wyeiminować taką sytuacę? [1] - 7 -