Ranking wyników na bazie linków

Podobne dokumenty

PageRank i HITS. Mikołajczyk Grzegorz

Badanie struktury sieci WWW

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Inteligentne systemy informacyjne

Wykład z Technologii Informacyjnych. Piotr Mika

Zastosowanie wartości własnych macierzy

Spacery losowe generowanie realizacji procesu losowego

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ<<<

POZYCJONOWANIE STRONY SKLEPU

Wyszukiwanie boolowskie i strukturalne. Adam Srebniak

CMAES. Zapis algorytmu. Generacja populacji oraz selekcja Populacja q i (t) w kroku t generowana jest w następujący sposób:

Centralność w sieciach społecznych. Radosław Michalski Social Network Group - kwiecień 2009

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

PageRank. Bartosz Makuracki. 28 listopada B. Makuracki PageRank

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Wstęp do Sztucznej Inteligencji

Wokół wyszukiwarek internetowych

Algorytmy zrandomizowane

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

TEORIA GRAFÓW I SIECI

Algorytm genetyczny (genetic algorithm)-

Co to jest pozycjonowanie stron internetowych? Dlaczego warto pozycjonować strony internetowe?

Matematyczne Podstawy Informatyki

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

Eksploracja sieci Web

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Hierarchiczna analiza skupień

Grafy Alberta-Barabasiego

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

ALHE. prof. Jarosław Arabas semestr 15Z

Metody numeryczne. materiały do wykładu dla studentów

a) 7 b) 19 c) 21 d) 34

Instytut Informatyki Uniwersytet Wrocławski. Dane w sieciach. (i inne historie) Marcin Bieńkowski

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Zaawansowane metody numeryczne

Marcel Stankowski Wrocław, 23 czerwca 2009 INFORMATYKA SYSTEMÓW AUTONOMICZNYCH

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

5. Rozwiązywanie układów równań liniowych

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Języki, automaty i obliczenia

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Algorytmy grafowe. Wykład 1 Podstawy teorii grafów Reprezentacje grafów. Tomasz Tyksiński CDV

Konferencja Biblioteka Akademicka: Infrastruktura Uczelnia Otoczenie Gliwice, października 2013 r.

Dobra pozycja w Google? Dlaczego warto nam zaufać?

Mechatronika i inteligentne systemy produkcyjne. Modelowanie systemów mechatronicznych Platformy przetwarzania danych

Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można

Analiza Algorytmów 2018/2019 (zadania na laboratorium)

INTERNET - NOWOCZESNY MARKETING

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku.

Oferta SEO. Analiza i optymalizacja

Algorytmy Równoległe i Rozproszone Część V - Model PRAM II

Grafy (3): drzewa. Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków. UTP Bydgoszcz

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Jak zdobywać linki z profili TR? Strona 1

Obliczenia Naukowe. Wykład 12: Zagadnienia na egzamin. Bartek Wilczyński

O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich

Odkryj potencjał swojej strony internetowej

Pobieranie i przetwarzanie treści stron WWW

Optymalizacja. Przeszukiwanie lokalne

Liczby zmiennoprzecinkowe i błędy

Algorytmy genetyczne

Maciej Piotr Jankowski

Elementy modelowania matematycznego

Agnieszka Nowak Brzezińska

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Grafem nazywamy strukturę G = (V, E): V zbiór węzłów lub wierzchołków, Grafy dzielimy na grafy skierowane i nieskierowane:

1. Algorytmy przeszukiwania. Przeszukiwanie wszerz i w głąb.

Fuzja sygnałów i filtry bayesowskie

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Spis Treści. 1. Wprowadzenie. 2. Dlaczego warto wykorzystywać linki sponsorowane? 3. Zasady współpracy. 4. Cennik

Algorytmy metaheurystyczne Wykład 6. Piotr Syga

Rozdział 4. Macierze szyfrujące. 4.1 Algebra liniowa modulo 26

Digraf. 13 maja 2017

Spis treúci. Księgarnia PWN: Paweł Kobis - Marketing z Google. Podziękowania O Autorze Wstęp... 13

Specjalizacja magisterska Bazy danych

Zastosowania algorytmu pagerank w wyszukiwaniu

Internet Semantyczny. Linked Open Data

AUTOMATYKA INFORMATYKA

Metody statystyczne kontroli jakości i niezawodności Lekcja II: Karty kontrolne.

Zakres projektu z przedmiotu: KONSTRUKCJE DREWNIANE. 1 Część opisowa. 2 Część obliczeniowa. 1.1 Strona tytułowa. 1.2 Opis techniczny. 1.

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Aby mówić o procesie decyzyjnym Markowa musimy zdefiniować następujący zestaw (krotkę): gdzie:

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

AiSD zadanie trzecie

Najkrótsza droga Maksymalny przepływ Najtańszy przepływ Analiza czynności (zdarzeń)

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Wstęp do sieci neuronowych, wykład 12 Wykorzystanie sieci rekurencyjnych w optymalizacji grafowej

POZYCJONOWANIE CHORZÓW >>>WIĘCEJ<<<

Metody numeryczne Wykład 4

Wyszukiwanie informacji w internecie. Nguyen Hung Son

2. Układy równań liniowych

SEO / SEM PREZENTACJA OFERTY

Metody numeryczne I Równania nieliniowe

Transkrypt:

Eksploracja zasobów internetowych Wykład 4 Ranking wyników na bazie linków mgr inż. Maciej Kopczyński Białystok 2014

Wstęp Poznane do tej pory mechanizmy sortowania istotności zwróconych wyników bazowały na zawartości tekstowej dokumentów. Jednak cechą sieci WWW jest grafowy charakter, co umożliwia wzbogacenie sortowania o zależności krawędziowe pomiędzy wierzchołkami grafu. Dzięki takiemu rozwiązaniu możliwe jest bardziej niezawodne sortowanie wyników otrzymanych na bazie zapytania.

Wstęp Idea rozwiązania opiera się na przydzielaniu każdej stronie WWW pewnego współczynnika określającego jej istotność. Analiza połączeń pomiędzy stronami może być wykonywana w trybie offline, bazując na już zindeksowanych stronach WWW. Mechanizmy wykorzystujące zależności pomiędzy dokumentami są szeroko wykorzystywane w systemach bibliograficznych związanych np. z artykułami naukowymi i ich wzajemnymi cyto- waniami.

Social networks Sieć WWW jest przykładem sieci typu Social networks,, w których popularność danego obiektu jest uzależniona od ilości połączeń do tego elementu (w sensie krawędzi grafu) pochodzących z innych elementów. Istotnymi pojęciami występującymi w sieciach Social networks są: popularność, autorytet, współczynnik prestiżu. 4

Współczynnik prestiżu Dla każdej zindeksowanej strony WWW przypisywany jest współ- czynnik prestiżu. Jest on obliczany na podstawie ilości linków wskazujących na daną stronę, a także współczynników pres- tiżu stron linkujących. Współczynnik prestiżu oznaczany jest jako p(u). Jak jest obliczana wartość współczynnika prestiżu? Wartość współczynnika prestiżu jest wyliczana rekurencyjnie. 5

Obliczanie współczynnika prestiżu Sieć WWW może być reprezentowana jako graf skierowany. Przyjmijmy następujące oznaczenia: A macierz sąsiedztwa grafu, A(u,v) ) krawędź łącząca wierzchołek u i v. Wartość współczynnika prestiżu dla dokumentu u jest zdefiniowa- na jako: p u = v A v, u p v 6

Obliczanie współczynnika prestiżu Wartości p(u) ) dla wszystkich dokumentów mogą być zapisane jako wektor kolumnowy P.. Po założeniu pewnej wartości począt- kowej wektora P,, nowy wektor P' jest równy: P ' =A T P Po wielokrotnym obliczeniu wartości wektora P' (podstawienie P' za P po każdym kroku),, otrzymamy ostateczną wartość współ- czynników prestiżu, co jest tożsame z rozwiązaniem równania: P=A T P 7

Obliczanie współczynnika prestiżu Rozwiązanie tego równania jest znane w algebrze liniowej jako problemem obliczania wartości własnych i wektorów własnych. Dla macierzy o rozmiarze n x n,, istnieje n takich wektorów. W przypadku obliczania współczynników prestiżu istotny jest wektor związany z największą wartością własną. Poszczególne współ- czynniki tego wektora określają wartości współczynników prestiżu powiązanych ze zindeksowanymi stronami WWW. 8

9 Współczynniki prestiżu przykład

Współczynniki prestiżu przykład Załóżmy, że macierz sąsiedztwa A wygląda następująco: A= 0 1 1 0 0 1 1 0 0 Po wykonaniu transpozycji wektor A T : 0 0 1 0 1 0 0 1 1 A T = 10

Współczynniki prestiżu przykład Po rozwiązaniu równania: P=A T P wektor współczynników prestiżu dla największej wartości włas- nej λ = 1,325 jest równy: P = (0,548 0,414 0,726) T Po podstawieniu do wzoru: 1,325 0,548 0,414 0,726 0 0 1 0,548 = 1 0 0 0,414 0,726 1 1 0 11

12 Współczynniki prestiżu przykład

Współczynniki prestiżu przykład Zgodnie z intuicją, dokument c uzyskał największą wartość współczynnika prestiżu, gdyż wskazują na niego linki z dwóch dokumentów. Dokumenty a oraz b uzyskały niższe wartości współczynnika, gdyż są wskazywane tylko z jednego dokumentu. Dokument a dostał większą wartość prestiżu niż dokument b, gdyż wskazuje na niego link z dokumentu o największej war- tości współczynnika prestiżu. 13

Algorytm PageRank Linki nie są jedynym wyznacznikiem propagowania współczynnika prestiżu. Ważne jest również to, w jaki sposób użytkownicy poru- szają się pomiędzy stronami. Do przybliżenia sposobu poruszania się pomiędzy stronami można wykorzystać model Random Web Surfer.. Symuluje on działanie użytkownika, który w sposób losowy przenosi się pomiędzy stronami. Model ten został po raz pierwszy wykorzystany w algorytmie PageRank w wyszukiwarce Google. 14

Algorytm PageRank Istotną cechą algorytmu PageRank jest to, że korzysta on nie tylko z linków wskazujących na daną stronę, ale również uwzględnia linki wychodzące z danej strony (ang. out-links). Załóżmy, że strona u zawiera N u linków do innych stron (w tym do v). 15 Prawdopodobieństwo przejścia do strony v jest równe 1 / N u. Jaką wartość współczynnika prestiżu strony u dostaje strona v? Wartość współczynnika prestiżu, który otrzymuje strona v jest równa 1 / N u wartości współczynnika prestiżu strony u.

Algorytm PageRank Propagacja współczynnika prestiżu w algorytmie PageRank: 16

Algorytm PageRank Współczynniki prestiżu w algorytmie PageRank otrzymywane przez stronę u można opisać zależnością: R u = v A v,u R v N v gdzie λ jest równa 1. Wykorzystanie notacji macierzowej wymaga przyjęcia w macierzy sąsiedztwa wartości 1 / N u, zamiast wartości 1 i 0 definiujących istnienie krawędzi. 17

Algorytm PageRank - przykład Po przeliczeniu macierzy A: 0 0,5 0,5 0 0 1 A= 1 0 0 Rozwiązanie równania podanego na slajdzie 7 daje wynik: 0,4 0 0 1 0 0,4 0,2 = 0,5 0 0 0,2 0,4 0,5 1 0,4 18

19 Algorytm PageRank - przykład

Algorytm PageRank pętle Algorytm PageRank jest odporny na występowanie pętli, które składają się z dowolnej ilości stron, pod warunkiem, że pętle te posiadają linki, które pozwalają z nich wyjść. Algorytm nie będzie sobie w stanie poradzić w sytuacji, gdy dwie strony będą posiadały linki wskazujące na siebie nawzajem bez możliwości opuszczenia takiej pętli. Ten układ stron nazywany jest rank sink. 20

Algorytm PageRank pętle Istnienie pętli bez linków wyjściowych będzie powodowało sztuczne zwiększanie współczynnika prestiżu tych stron z uwagi na zastosowanie modelu Random Web Surfer. Jak sobie poradzić z tym problemem? Sposobem radzenia sobie z tą sytuacją jest wprowadzenie cechy znudzonego surfera. Polega to na ograniczeniu liczby przejść pomiędzy tymi samymi witrynami i przejściu na inną, losowo wybraną stronę. 21

Algorytm PageRank wektor E 22 Wprowadzenie modelu znudzonego surfera wymaga modyfikacji zależności opisującej wartość współczynnika prestiżu algorytmu PageRank poprzez uwzględnienie współczynników wektora źródeł prestiżu E: R u = [ v A v, u R v E N v u ] Wektor źródeł prestiżu E ma ilość współrzędnych równą ilości wszystkich zindeksowanych stron WWW i jego współczynniki reprezentują rozkład prawdopodobieństwa przejścia do losowego dokumentu sieci WWW.

Algorytm PageRank wektor E Współczynniki wektora E dobierane są w taki sposób, aby norma wektora E wynosiła ok. 0.15. Im wyższa norma, tym skoki do losowych stron występują częściej. Przyjęcie współczynników, które generują zbyt dużą wartość normy dla wektora E powoduje zmniejszenie zależności wartości współczynników prestiżu w odniesieniu do rzeczywistej struktury sieci WWW. Zbyt mała wartość normy przekłada się z kolei na zbyt długie zatrzymywanie się w układach stron typu rank-sink. 23

Algorytm PageRank wektor E Zastosowanie wektora E zabezpiecza również przed celowymi manipulacjami linkami powodującymi zwiększanie wartości współ- czynnika prestiżu. Bez wektora E byłoby możliwe zwiększanie wartości współczyn- nika danej strony poprzez tworzenie linków ze stron o dużym prestiżu, bądź tworzenie wielu linków ze stron o małym prestiżu. Dodatkową zaletą wykorzystania wektora E jest przechodzenie do stron, które tworzą podgrafy niepołączone z głównym grafem. 24

Algorytm PageRank zastosowanie Uniwersalność algorytmu PageRank pozwala na zastosowanie go również w innych aspektach badania sieci niż sam rozdział współ- czynników prestiżu. Inne zastosowania algorytmu: przewidywanie obciążenia stron WWW i serwerów HTTP, modelowanie zachowań użytkowników serwisów internetowych, optymalizacja przeszukiwania sieci WWW, wpływanie na częstość powtórnej indeksacji już odwiedzonych stron WWW. 25

Algorytm HITS Pomimo tego, że istotność dokumentów wynikowych bazująca na wartościach prestiżu jest najpowszechniej wykorzystywana w systemach wyszukiwania danych w sieciach, to bazowanie tylko na tej wartości może stwarzać potencjalne problemy. Nie zawsze strony, które posiadają najwyższe współczynniki pres- tiżu zawierają treści zgodne z zapytaniem, zaś dokumenty, które dokładnie wpasowują się zapytanie często mają bardzo niski współczynnik prestiżu. 26

Algorytm HITS Ranking na bazie współczynników prestiżu musi iść w parze z rankingiem opierającym się na treści zawartej w dokumentach sieci WWW. Przykładem takiego rozwiązania jest algorytm HITS (Hyperlink In- duced Topic Search). Idea jego działania opiera się na: wyszukaniu i posortowaniu stron bazujące na treści dokumentów, bazując na zwróconych wynikach obliczane są współczynniki prestiżu. 27

Algorytm HITS Schemat działania algorytmu HITS można opisać jako: z wykorzystaniem metod IR zwracany jest mały zbiór istotnych stron R q, zbiór R q jest rozszerzany o strony, które wskazują linki ze zbioru bazowego, a także o strony, z których wychodzą linki wskazujące na zbiór bazowy, na bazie utworzonego zbioru obliczane są współczynniki prestiżu, wykonywane jest sortowanie wyników z uwzględnieniem prestiżu oraz metod systemu IR. 28

Algorytm HITS Takie podejście ma dużą wadę, ale jednocześnie dużą zaletę. Dużą wadą algorytmu jest potrzeba każdorazowego przeliczenia współczynników prestiżu na bazie zwróconych wyników, co zwięk- sza koszt obliczeniowy rozwiązania. Jest to jednocześnie duża zaleta, gdyż współczynniki prestiżu są przeliczane jedynie dla stron, które w sposób jednoznaczny wiążą się z zapytaniem złożonym ze słów kluczowych, dzięki czemu zbiór wynikowy jest lepiej posortowany. 29

Algorytm HITS Dobrym przykładem porównania wyników zwracanych przez algorytmy HITS i PageRank jest zapytanie złożone ze słów kluczowych music program. Google bazujące na PageRank umieszcza na pierw- szych miejscach strony odnoszące się do komputerów i muzyki, natomiast na dalszych pozycjach strony dotyczące programów mu- zycznych w radiu czy telewizji. 30 Skąd to wynika? Strony zawierające treści powiązane z komputerami oraz oprog- ramowaniem mają duże wyższe wartości współczynników prestiżu niż strony dotyczące programów radiowych czy telewizyjnych.

Wyniki na bazie linków Badania pokazują, że zmiana tematu danej strony następuje śred- nio po przejściu przez dwa kolejne linki. Bazując na tej obserwacji, można zaproponować algorytm zwracający wyniki na bazie linków. Jest to modyfikacja algorytmu HITS,, opierająca się w dużej mierze na odnajdowaniu stron typu authorities i typu hubs.. Strony typu hub są to strony zawierające duże ilości linków wychodzących, zaś strony typu authorities są stronami, na które wskazuje duża ilość linków. 31

Wyniki na bazie linków Strona typu hub (lewa górna cześć grafu): 32

Wyniki na bazie linków Schemat działania algorytmu przy zadanej stronie u oraz określo- nym parametrze k jest następujący: odnalezienie k stron wskazujących na stronę u oraz wykorzystanie ich do stworzenia zbioru głównego R u, wygenerowanie zbioru bazowego S u na bazie zbioru głównego R, u odnalezienie stron typu hub i stron typu authority w zbiorze S u, zwrócenie jako wyników stron typu authority i stron typu hub z naj- wyższymi współczynnikami prestiżu. 33

Wyniki na bazie linków Zaletą algorytmu zwracającego wyniki na bazie linków jest umiesz- czanie w zbiorze wynikowym stron zawierających niewielką ilość tekstu oraz stron zawierających treść inną niż tekst (np. obrazki czy multimedia). Dużą wadą takiego rozwiązania jest problem związany z popraw- nym doborem strony startowej u dla całego algorytmu. Niewłaściwy dobór takiej strony powoduje zwrócenie wyników niezwiązanych z zapytaniem. 34

Podsumowanie Użycie wartości współczynników prestiżu może być wykorzystywane w procesie sortowania stron pod kątem istotności zwróconych wyników zapytania. Jednak ograniczenie się tylko do tego typu mechanizmów powoduje problemy związane z jakością tworzone- go zbioru wynikowego dokumentów. Każda licząca się na rynku wyszukiwarka łączy poznane do tej pory mechanizmy w celu zwracania jak najlepszych wyników. Wiele wy- korzystywanych mechanizmów jest jednak tajemnicą handlową poszczególnych korporacji. 35

Dziękuję za uwagę!