PageRank i HITS. Mikołajczyk Grzegorz

Podobne dokumenty
Wyszukiwanie boolowskie i strukturalne. Adam Srebniak

POZYCJONOWANIE STRONY SKLEPU

Inteligentne systemy informacyjne

WYSZUKIWANIE INFORMACJI W INTERNECIE I ICH WYKORZYSTANIE. Filip Makowiecki filip.makowiecki@ceo.org.pl

PageRank. Bartosz Makuracki. 28 listopada B. Makuracki PageRank

KRYTERIA OCE Y RELEWA T OŚCI WY IKÓW W WYSZUKIWARKACH I TER ETOWYCH I ICH WYKORZYSTA IE DO PROMOCJI WITRY REGIO AL YCH

OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ<<<

Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można

AUTORYTATYWNE I EKSPERCKIE STRONY ŹRÓDŁEM RZETELNYCH WYNIKÓW W WYSZUKIWARKACH INTERNETOWYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Opis serwisu IT-PODBESKIDZIE Wersja 1.0

Badanie struktury sieci WWW

SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

Tajemnice skutecznego wyszukiwania na przykładzie

Pozycjonowanie i optymalizacja stron WWW. Jak się to robi. Wydanie III.

Internetowa strategia marketingowa

Politechnika Łódzka Biblioteka. Dokumentowanie i rozpowszechniania informacji o publikacjach naukowych pracowników Politechniki Łódzkiej

Nie wiesz co się dzieje w Twojej Gminie? Dowiedz się z Internetu

Wspólna edycja dokumentów czyli jak pracować w grupie i udostępniać materiały

ROZDZIAŁ 2. INTERNET. Lekcja 5. Temat: Przeglądanie stron internetowych

POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF >>>WIĘCEJ<<<

INTERNET - NOWOCZESNY MARKETING

Wokół wyszukiwarek internetowych

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2

Rafał Bill. Koło Studentów Stosunków Międzynarodowych Uniwersytet Jagielloński w Krakowie

Ranking wyników na bazie linków

Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.

Internet wyszukiwarki internetowe

Poradnik SEO. Ilu z nich szuka Twojego produktu? Jak skutecznie to wykorzystać?

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Zastosowanie wartości własnych macierzy

Copyright by Złote Myśli & Arkadiusz Podlaski, rok Autor: Arkadiusz Podlaski Tytuł: Przydatne narzędzia pozycjonera

Internetowa ogólnopolska baza informatycznych projektów badawczych otwartej innowacji Platforma współpracy SPINACZ 1/46

Wyszukiwanie informacji

Co to jest pozycjonowanie stron internetowych? Dlaczego warto pozycjonować strony internetowe?

Gotowanie i pieczenie z Internetu

Scoring w oparciu o Big Data. 8 kwietnia 2014 roku

Konferencja Biblioteka Akademicka: Infrastruktura Uczelnia Otoczenie Gliwice, października 2013 r.

REFERAT PRACY DYPLOMOWEJ

TECHNOLOGIA INFORMACYJNA

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

Instrukcja dostępu do usługi Google Scholar

dokumentów w internetowych przyczyny, skala zjawiska, sposoby przeciwdziałania

WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1

Ogłoszenia parafialne nie tylko z ambony

BIBLIOGRAFICZNA BAZA DANYCH -

Aktualizowanie systemów operacyjnych

Księgarnia internetowa Lubię to!» Nasza społeczność

Zasady tworzenia podstron

Grafem nazywamy strukturę G = (V, E): V zbiór węzłów lub wierzchołków, Grafy dzielimy na grafy skierowane i nieskierowane:

Pozycjonowanie stron w wyszukiwarkach internetowych. Szansa dla małych i średnich firm na konkurowanie z największymi

Rozkład materiału nauczania z przedmiotu INFORMATYKA. dla gimnazjum

Nie jesteś zdecydowany na zakup? Znajdź opinię w Internecie

PODSTAWY w w w. s e r v i t i u m. p l G u staw L a s e k M a j

POZYCJONOWANIE W WYSZUKIWARKACH APTEK INTERNETOWYCH

[1/15] Chmury w Internecie. Wady i zalety przechowywania plików w chmurze

Spacery losowe generowanie realizacji procesu losowego

Ogólne wiadomości o grafach

Załącznik nr 1. Specyfikacja techniczna portalu internetowego Łódź, r.

#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL

Spis treúci. Księgarnia PWN: Paweł Kobis - Marketing z Google. Podziękowania O Autorze Wstęp... 13

Upowszechnianie dorobku naukowego w repozytoriach i bazach danych działania komplementarne czy konkurencyjne?

WYSZUKIWANIE INFORMACJI W INTERNECIE

SPINACZ.edu.pl platforma współpracy nauki z biznesem w zakresie innowacyjnych rozwiązań informatycznych

INDYWIDUALNY PLAN DZIAŁANIA

Przewodnik po serwisie INFORLEX.PL BIZNES

BUDOWA POPULARNOŚCI WITRYNY JAKO KRYTERIUM SKUTECZNEGO POZYCJONOWANIA WITRYN INTERNETOWYCH W WYSZUKIWARKACH

Stosunkimiedzynarodowe.pl

Drzewa. Jeżeli graf G jest lasem, który ma n wierzchołków i k składowych, to G ma n k krawędzi. Własności drzew

Biblioteka Wirtualnej Nauki

POLITYKA PLIKÓW COOKIES

Spis Treści. 1. Wprowadzenie. 2. Dlaczego warto wykorzystywać linki sponsorowane? 3. Zasady współpracy. 4. Cennik

5c. Sieci i przepływy

Co to jest Internet? Lekcja wprowadzająca Opracował: mgr Marcin Bąk

Instrukcja użytkownika BIP

Kroki dwa. do najlepszych pozycji w Google

[domen.pl. Strony jakiejśtam.pl

WPROWADZENIE DO EKSPLORACJI DANYCH TEKSTOWYCH W ŚRODOWISKU WWW WYSZUKIWANIE INFORMACJI WYKŁAD 6. Piotr Gawrysiak. Anna Wróblewska Piotr Andruszkiewicz

Metodyka projektowania komputerowych systemów sterowania

Axiell Arena Biblioteka XXI wieku

Algorytmy i str ruktury danych. Metody algorytmiczne. Bartman Jacek

WPROWADZENIE WYSZUKIWANIE OGŁOSZEŃ

POZYCJONOWANIE STRON INTERNETOWYCH (SEO)

Spis treści

Google Inc. (GOOG) - spółka notowana na giełdzie nowojorskiej (NASDAQ).

Heurystyczne metody przeszukiwania

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

Marketing w wyszukiwarkach, wyniki organiczne i sponsorowane

SKUTECZNOŚĆ WYSZUKIWANIA W INTERNECIE INFORMACJI ZWIĄZANYCH Z INŻYNIERIĄ ROLNICZĄ

Matematyka dyskretna - 7.Drzewa

Pozycjonowanie i SEO w czym jest różnica pojęć?

Załącznik nr 1. Specyfikacja. Do tworzenia Mapy Kompetencji

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Brandle.pl. Przykładowe opisy kampanii

REFERAT PRACY DYPLOMOWEJ Temat pracy: Projekt i realizacja serwisu ogłoszeń z inteligentną wyszukiwarką

AiSD zadanie trzecie

Transkrypt:

PageRank i HITS Mikołajczyk Grzegorz

PageRank Metoda nadawania indeksowanym stronom internetowym określonej wartości liczbowej, oznaczającej jej jakość. Algorytm PageRank jest wykorzystywany przez popularną wyszukiwarkę internetową Google. Został opracowany przez założycieli firmy Google Larry'ego Page'a i Sergeya Brina podczas ich studiów na Uniwersytecie Stanforda w 1998 roku. Nazwa algorytmu pochodzi nie od angielskiego wyrazu określającego stronę (ang. page), lecz od nazwiska twórcy, czyli Larry'ego Page'a.

Pochodzenie PageRank jest rozwinięciem znanej od dawna heurystyki, wedle której jakość tekstu jest proporcjonalna do liczby tekstów na niego się powołujących. Ulepszenie zaproponowane przez autorów Google polegało na ważeniu jakości odnośników wskazujących na rozpatrywany tekst ich własną wartością PageRank. Innymi słowy: jeśli na dany tekst powołuje się artykuł, który sam ma wysoką ocenę, ma to większe znaczenie, niż gdy na ten sam tekst powołuje się mało popularna strona.

Algorytm Szczegóły właściwego algorytmu nigdy nie zostały upublicznione i są jednymi ze ściśle strzeżonych tajemnic Google. Do tego są najprawdopodobniej sukcesywnie poprawiane, aby zwiększać efektywność mechanizmu. Wszystkie informacje dostępne jawnie przedstawiają jedynie wzorcową wersję algorytmu stosowanego w wyszukiwarce Google

Składowe wzoru algorytmu PR - PageRank danej strony d - współczynnik tłumienia, liczba pomiędzy 0 i 1. Dla obliczeń przyjmuje się zazwyczaj wartość 0.85 N - liczba stron internetowych L - liczba linków do których odsyła dana strona internetowa Algorytm ten można interpretować jako znajdowanie stanu ustalonego w łańcuchu Markowa, albo jako problem diagonalizacji macierzy. Nietrywialną kwestią techniczną pozostaje implementacja tego algorytmu, aby nadawał się do przetwarzania danych opisujących sieć WWW.

Problem mamy taki jak na rysunki czyli mamy 4 strony które wzajemnie na siebie linkują zgodnie z rysunkiem. PageRank początkowe każdej strony ustalamy na 1. A współczynnik d na 0,85 Przykład

Rozwiązanie 0/10 0.15 0.9 1/10 0.9 5.4 2/10 5.4 32.4 3/10 32.4 194.4 4/10 194.4 1,166.4 5/10 1,166.4 6,998.4 6/10 6,998.4 41,990.4 7/10 41,990.4 251,942.4 8/10 251,942.4 1,511,654.4 9/10 1,511,654.4 9,069,926.4 10/10 9,069,926.4 0.85? N + 0.15

Google Toolbar Istniej wiele sposobów na sprawdzanie notowania PageRank aktualnie przeglądanej strony lub dowolnej strony która została podana jako wynik wyszukiwania wyszukiwarki. Jednym z sposobów są wtyczki do przeglądarek. Google Toolbar to wtyczka do przeglądarek internetowych, oferowana bezpłatnie przez Google Inc., instalująca dodatkowy pasek narzędziowy. UWAGA Należy zwrócić uwagę, iż w zamian za darmowe oprogramowanie użytkownik zgadza się na śledzenie jego poczynań w sieci oraz wysyłanie danych ze swojego komputera.

open source Istnieją też liczne wtyczki otwartego oprogramowania, spełniające analogiczne funkcje, m.in. googlebar dla Firefoksa. PageRank strony sprawdzać można również w wielu serwisach niezależnych np.: http://www.page-rank.pl/ http://www.ranking.net.pl/pagerank.html http://www.optymalizacja.com/pagerank.php http://www.pageranktester.pl/sprawdzpagerank.html http://pagerank.kz1.pl/index.php

Serwisy niezależne Serwisy różnią się między sobą kilkoma rzeczami np.: możliwością wpisywania stron z parametrami szybkością wynikami sposobem podawania adresu strony szata graficzną funkcjami dodatkowymi itp.

Poprawianie PageRank Od czasu do czasu powstają i pojawiają się w internecie kolejne techniki oszukiwania Google. Ale istnieje również wiele stałych i sprawdzonych sposobów podniesienia PR swojej strony np.: Wymiana linków Danie użytkownikom możliwość komentowania artykułów i dzielenia się nimi poprzez serwisy społecznościowe Pisanie artykułów i umieszczanie pod nimi linków do swojej strony jako źródła informacji Tworzenie dobrze opisanych banrów

HITS HITS - algorytm opracowany przez Jona Kleinberga w 1998 z myślą o silniku przeszukującym pod nazwą CLEVER, wykorzystywany do oceny relatywności tekstu względem termu. Algorytm HITS zakłada, że dokumenty w zbiorze są ze sobą nawzajem połączone, tworząc pewnego rodzaju graf skierowany. W grafie tym węzłami są dokumenty, a krawędziami odnośniki. Krawędzie są skierowane w taki sposób, aby wskazywały na element cytowany, a wychodziły z elementu cytującego. Same założenia modelu wskazują na naturalne wykorzystanie go odnośnie dokumentów

Idee algorytmu Algorytm HITS opiera się na dwóch ideach: autorytetu (ang. authority) i koncentratora (ang. hub). Dokumentem autorytatywnym (autorytetem) jest dokument cytowany wskazywany, taki, na który wskazuje wiele dokumentów (wiele dokumentów cytuje ten dokument). Koncentratorem jest dokument cytujący, który wskazuje na dokumenty autorytarne (dokument cytuje wiele ważnych dokumentów).

Ulepszenia W trakcie obserwacji zauważono, że autorytatywne strony relewantne do początkowego zapytania powinny mieć nie tylko dużą liczbę odnośników, ale będąc autorytetami we wspólnym temacie, powinno istnieć znaczne pokrycie w zbiorze stron, które do nich odsyłają. Dlatego oprócz wyszukania wysoce autorytatywnych stron, spodziewano się znaleźć koncentratory, czyli strony, które mają odnośniki do wielu autorytatywnych stron. To właśnie koncentratory trzymają razem autorytety we wspólnym temacie i pozwalają pozbyć się niepowiązanych stron z dużą liczbą odnośników.

Podgraf Koncentratory i autorytety wykazują wzajemny, obopólnie wzmacniający związek (ang. mutually reinforcing relationship). Dobry koncentrator to strona, która wskazuje do wielu dobrych autorytetów. Dobry autorytet to strona, która jest wskazywana przez wiele dobrych koncentratorów. Autor zauważył, że rezultaty uzyskane poprzez czystą analizę struktury odsyłaczy dają o wiele lepsze rezultaty, niż wyszukiwarki oparte na przeszukiwaniu tekstu. W tym przypadku zastąpiono globalną analizę całej struktury odsyłaczy w WWW bardziej lokalną metodą analizy małego skupionego podgrafu.

Technika konstruowania podgrafu jest zaprojektowana do uzyskania małego zbioru stron, który najprawdopodobniej zawiera najbardziej autorytatywne strony dla danego tematu. Ostatecznym wynikiem działania algorytmu jest lista węzłów i autorytetów z największymi współczynnikami poprawności.

KONIEC Przydatne linki: http://pl.wikipedia.org/wiki/%c5%81a%c5%84cuch_markow a http://pl.wikipedia.org/wiki/diagonalizacja http://pl.wikipedia.org/wiki/google_toolbar http://en.wikipedia.org/wiki/jon_kleinberg http://pl.wikipedia.org/wiki/graf_%28matematyka%29 https://addons.mozilla.org/pl/firefox/addon/googlebar/