Autorzy: Jędrzej Domański Wiktor Siegmund 1
Co to jest PageRank? Względna miara ważności dokumentów w Google. Jak w PageRank u sobie radzimy, gdy strony A oraz B wskazują na siebie wzajemnie? Po wielu iteracjach, czynnik tłumiący sprawi, że wartość PageRank obydwu stron będzie maleć, dążąc do wartości jedynki. Podaj 5 czynników wpływających na wartość PageRank danej strony Jakość kodu HTML Liczba odwołań do rozpatrywanej strony (więcej = lepiej) PageRank stron wskazujących (większy = lepiej) Liczba linków na stronach wskazujących (mniej = lepiej) Czas spędzony na stronie (więcej = lepiej) W jakim celu i jak można wpływać na dystrybucję PageRank a? (2 przykłady) znacznik rel=nofollow użycie pliku robots.txt Cel: Lepsze pozycjonowanie strony głównej oraz ważniejszych podstron 2
Wyjaśnij pojęcia: Indekser automatyczny program rozmieszczający strony wyłapane przez crawlera w indeksie Google na podstawie ich zawartości czynnik tłumiący (podaj wartość) prawdobodobieństwo przejścia przez użytkownika do kolejnej, linkowanej strony. Najczęściej ma wartość 85%. Wymień po 3 metody pozycjonowania naturalnego oraz manipulacyjnego (slajdy 47-49, 51-53) 3
4
2009 was a big year for Bing! "What's Bing?" "I dunno, Google it." 5
6
Projekt Memex (1945) Vannevar Bush Ted Nelson - idea hipertekstu Archie (1990) Listy z serwerów FTP, przeszukiwane przez grep W3 Catalog (1993) Baza danych przeszukiwana Perl em Yahoo! (1994) Katalog stron Ciekawe miejsca w sieci 7
Rosnąca ilość zasobów, Brak uwzględnienia ważności skatalogowanych informacji, Nadużycia, spam, Strony odbiegające od standardów HTML, Usprawnienia: Analiza topologii sieci Proste heurystyki Rozwiązania: PageRank 8
W ogólności: algorytm służący do analizy struktur połączonych, Mechanizm pozwalający na określenie ważności dokumentów w Google, Ważność i trafność wyników wyszukiwania przekłada się później na końcowe pozycje witryn w wynikach wyszukiwania, Nie mierzy powiązań tematycznych, Można głosować tylko na inne strony, Bardzo względny wskaźnik. 9
Stworzony w 1996r. na Stanford University Pantent uzyskany 09.01.1998r. Niedługo później założenie Google Inc. Autorzy Larry Page Sergey Brin (Rajeev Motwani) (Terry Winograd) Nazwa: gra słów page z ang. strona (internetowa) nazwisko Jimmy ego Larry ego Page a 10
Nazwa PageRank jest znakiem handlowym Google. Patent należy jednak do Uniwersytetu Stanforda, a nie przedsiębiorstwa Google. Uzyskała ona od Uniwersytetu Stanforda prawa licencyjne na wyłączność, a w zamian za zezwolenie na korzystanie z patentu uniwersytet otrzymał 1,8 miliona akcji Google. Akcje zostały sprzedane w 2005 za 336 milionów dolarów. 11
Według Larry ego Page a: Jak oceniać jakość oraz trafność stron w taki sposób, jakby zrobił to człowiek? Często dobre strony wskazują na wartościowe źródła, Ważona suma liczby linków prowadzących do danej strony może być podstawą do określenia jej zaufania. Korzystamy z opinii stron, które zdążyły wyrobić sobie renomę, Wagą jest poziom zaufania strony linkującej. Strony zaufane mają znaleźć się jak najwyżej na liście wyszukiwanych wyników.. Rozwiązanie? 12
Informacje w Internecie posegregowane po popularności linków, Im więcej odwołań do strony, tym musi być ona lepsza, Jakość strony zależy również od tego, ile czasu spędził na niej użytkownik, Na wynik końcowy składa się ponad 200 elementów Algorytm jest tajny i cały czas ewoluuje. 13
Strony Internetowe A, B, C oraz D A B C D PPPP(AA) = PPPP(BB) = PPPP(CC) = PPPP(DD) = 0.25 14
Strony Internetowe A, B, C oraz D A B C D PPPP(AA) = PPPP(BB) + PPPP(CC) + PPPP(DD) 15
Strony Internetowe A, B, C oraz D A B C D PPPP AA = PPPP(BB) 2 + PPPP(CC) 1 + PPPP(DD) 3 16
Strony Internetowe A, B, C oraz D PPPP AA = PPPP(BB) 2 + PPPP(CC) 1 + PPPP(DD) 3 Wzór jest konsekwencją zależności: PP AA = PP AA XX 1 PP XX 1 + PP AA XX 2 PP XX 2 + PP AA XX 3 PP XX 3 PP AA XX ii = 1 LL(XX ii ) P(A X i ) - prawdopodbieństwo przejścia na stronę A, pod warunkiem znalezienia się na stronie X i L(X) ilość wychodzących linków ze strony X P(X i ) = PR(X i ) 17
18
d = 0.85 PP AA = PP AA KK PP KK + PP AA! KK PP! KK K zdarzenie kontynuowania wędrówki PP AA! KK = 1, N ilość stron NN PP AA = dd PP AA XX 1 PP XX 1 + PP AA XX 2 PP XX 2 + 1 dd NN +PP AA XX 3 PP XX 3 19
PPPP AA = 1 dd NN BB + dd(pppp LL BB PPPP CC + LL CC PPPP DD + ) LL DD Ostateczny i oficjalny wzór podawany przez Google: PPPP SS ii = 1 dd PPPP(SS jj ) NN jj:pp jj λλ(pp ii ) LL(SS jj ) λλ(p i ) zbiór wszystkich stron mających choć jeden odnośnik do strony p i Jest to wersja uproszczona szczegóły algorytmu nie zostały nigdy upublicznione... 20
Znając wzór to łatwe, prawda? Wystarczy przecież wiedzieć: Jakie strony wskazują na nas, Na ile innych stron w sumie wskazują te strony, Ile wynosi ich PageRank? Co jeśli wskazujemy na stronę, która wskazuje na nas? 21
Wyróżnić możemy trzy podejścia do obliczenia wartości PageRank. Iteracyjne, Algebraiczne, Power Method. Wszystkie dają w rezultacie ten sam wynik.
Założenie: PR = 2 A B Iteracja 1: PageRank A = 0,15 + 0,85(2/1) = 1,85 PageRank B = 0,15 + 0,85(1,85/1) = 1,72 23
A B Iteracja 2: PageRank A = 0,15 + 0,85(1,72/1) = 1,61 PageRank B = 0,15 + 0,85(1,61/1) = 1,51 24
A B Iteracja 3: PageRank A = 0,15 + 0,85(1,51/1) = 1,43 PageRank B = 0,15 + 0,85(1,43/1) = 1,21 25
A B Iteracja 4: PageRank A = 0,15 + 0,85(1,21/1) = 1,17 PageRank B = 0,15 + 0,85(1,17/1) = 1,14 26
A B Iteracja 5: PageRank A = 0,15 + 0,85(1,14/1) = 1,11 PageRank B = 0,15 + 0,85(1,11/1) = 1,09 27
A B Iteracja..: PageRank A =? PageRank B =? 28
A B Iteracja..: PageRank A = 1 PageRank B = 1 29
A B C D Iteracja 1: PageRank A = 0,15 + 0,85(1/3 + 1/1) = 1,28 PageRank B = 0,15 + 0,85(1,28/1) = 1,24 PageRank C = 0,15 + 0,85(1,24/3) = 0,50 PageRank D = 0,15 + 0,85(1,24/3) = 0,50 30
A B C D Iteracja 2: PageRank A = 0,15 + 0,85(1,24/3 + 0,50/1) = 0,93 PageRank B = 0,15 + 0,85(0,93/1) = 0,94 PageRank C = 0,15 + 0,85(0,94/3) = 0,42 PageRank D = 0,15 + 0,85(0,94/3) = 0,42 31
A B C D Iteracja 40: PageRank A =? PageRank B =? PageRank C =? PageRank D =? 32
A B C D Iteracja 40: PageRank A = 0,64 PageRank B = 0,69 PageRank C = 0,34 PageRank D = 0,34 33
0,34 0,64 0,69 0,34 A ma więcej linków na siebie, ale mało wartościowych 0,34 oraz 0,69/3 B natomiast ma tylko jeden, ale wartościowy link: 0,64 C oraz D mają taki sam PR nie zależy on od ilości wychodzących linków tylko przychodzących! 34
A B C D Iteracja końcowa: PageRank A =? PageRank B =? PageRank C =? PageRank D =? 35
A B C D Iteracja końcowa: PageRank A = 1,48 PageRank B = 1,41 PageRank C = 0,55 PageRank D = 0,55 36
GoogleBot (Crawler) Różne typy robotów robots.txt Indekser Ponad 100mln GB danych Złożony, ale szybszy dostęp do danych Searcher Analiza zapytań Zwracanie wyników 37
Google zwraca wiele informacji Tytuł strony Fragment treści zawierający klucz Adres URL strony Adresy URL podobnych stron Multimedia Ważna jest kolejność Jednoznaczne frazy Reklamy 38
<a href=http://www.example.com/ rel="nofollow">link Content</a> robots.txt 39
Wygodniejsze niż metadane <!DOCTYPE html> <html><head> <meta name="robots" content= X" /> ( ) </head> X := noindex nofollow noarchive User-agent: * Disallow: / ]User-agent: GoogleBot Disallow: /katalog/ Disallow: /zdjecia/ Disallow: /plik.html 40
Wartość PageRank Szacowana liczba witryn 10 12 9 148 8 1,816 7 22,330 6 274,664 5 3,378,367 4 41,553,912 3 511,113,116 2 6,286,691,331 1 73,463,463,463+ Źródło: http://doheth.co.uk/info/list-of-web-sites-withhigh-page-rank.php Stan na 04/2012r. 41
Strony mające PageRank równy 10: Google.com W3.org Usa.gov Adobe.com India.gov.in Hhs.gov Recovery.gov TheEuropeanLibrary.org Europeana.eu CNN.com Miibeian.gov.cn AddThis.com 42
Wikipedia.org 9/10 Github.com 8/10 Stackoverflow.com 7/10 Forum.unity3d.com 6/10 Eti.pg.edu.pl 6/10 Trojmiasto.pl 6/10 Kaims.pl 5/10 Według strony: http://checkpagerank.net/index.php 43
The best links are not paid, or exchanged after out-of-the-blue emails the best links are earned and given by choice Matt Cutts, Google engineer 44
Jak sprawić, by nasza strona znalazła się jak najwyżej w rankingu? SERP Search Engine Results Position (lub SEO -Search Engine Optimization) Dwa typy pozycjonowania: Naturalne - etyczne, Manipulacyjne nieetyczne. 45
Podnoszenie atrakcyjności witryny poprzez uzupełnianie jej ciekawą treścią, Budowanie odpowiednio bogatej zawartości wszystkich stron składających się na witrynę, Uwzględnienie regulaminu przeglądarek: np. dostosowanie ilości słów kluczowych do norm Zoptymalizowana, interesująca strona będzie pozycjonować się sama! np. dzięki polecaniu jej w Internecie przez użytkowników. 46
Do dobrych praktyk należą: Wybór odpowiednich słów kluczowych, Optymalizacja treści strony i słów kluczowych w tekście, Gdzie umieścić słowa kluczowe? Optymalizacja tytułu, Unikatowość, długość, trafność Umieszczenie słów kluczowych w linkach do stron, podstron, w opisach obrazków, Pozyskiwanie linków - promocja witryny, 47
Integracja z portalami społecznościowymi, SMO (Social Media Optimization), Dodanie kanału RSS, Dodanie przycisków na stronie z różnych portali np.: lubię to, dodaj do Twittera, +1, etc. Stosowanie nagłówków H1 H6, Tylko 1*H1, reszta zgodnie z hierarchią, Optymalizacja znaczników Meta, <META NAME="DESCRIPTION" CONTENT=" Opis strony www "> <META NAME="KEYWORDS" CONTENT="słowa kluczowe, oddzielone przecinkami "> <! -- "słowa kluczowe" --> Optymalizacja układu strony style CSS w pliku zewnętrznym, utrzymanie tego samego układu treści dla wszystkich podstron witryny 48
Optymalizacja prędkości strony, np. unikać stosowania animowanych stron startowych w technologii flash, Pliki multimedialne powinno się skompresować i opisać, W przypadku dużych obrazów warto skorzystać z miniaturek, serwerowa kompresji kodu HTML. Optymalizacja grafiki na stronie, Atrybuty ALT oraz TITLE, Walidacja kodu HTML i CSS, Kompatybilność, zgodność ze standardami, etc. Poprawność kodu wpływa na ocenę końcową! Adresacja podstron http://strona.pl/index.php?id=19&h=8999 http://strona.pl/kosiarki-ogrodowe 49
Dążenie do ominięcia mechanizmu wyszukującego w celu uzyskania wyższej pozycji, Wykorzystanie regulaminu wyszukiwarki nie jako wytycznych, a informacji nt. wroga, W wypadku wykrycia poważne konsekwencje: Spadek pozycji wyszukiwania, W skrajnych przypadkach nawet usunięcie z indeksu wyszukiwarki! 50
promowanie słów kluczowych, które nie wiążą się z zawartością strony, np. seks, darmowe, wynagrodzenie, najlepsze mnożenie słów kluczowych, Przesadne powtarzanie niektórych wyrażeń umieszczanie ciągów z powtórzeniami do znaczników opisujących elementy graficzne lub do CSS, np. tworzenie przeźroczystych obrazków o rozmiarze do kilku pikseli z ciągiem powtórzeń słów kluczowych do opisu alternatywnego 51
Ukrywanie tekstu, Nadawanie tekstu koloru tła, <input type= hidden /> </noframes> </noscript> Używanie małego tekstu, Ukrywanie odnośników, umieszczanie linków do strony na witrynach mających na celu tylko gromadzenie odnośników, 52
Podmiana stron, Przekierowanie, http 302, <meta http-equiv= refresh content= 30; url=http://strona_a.pl/ strona_b.pl /> Duplikowanie treści, Zakładanie stron-przejść (bramek), Maskowanie (cloacking), Mnożenie domen, Domeny z literówkami, Np.. Gooogle.com Spamowanie blogów i forów,.. (imagination is the limit!) 53
Nie tylko znalezienie odpowiednich linków...... ale przede wszystkim pozbycie się niewłaściwych. 54
Reklamy nie są spamem zawsze znajdują się na szczycie SPAM Sprzedawanie witryn Przekierowywanie do wyników wyszukiwań Masowe tagowanie Czysty spam Metody walki: Wykrywanie wzorców Najskuteczniejsze ręczne zgłoszenia 55
0.22% witryn w indeksie Google to ręcznie wykryty SPAM 56
57
Najczęściej wahania ruchu internetowego 58
Bibliometria, Analiza sieci społecznościowych oraz informacyjnych Spersonalizowana wyszukiwarka osób w Twitterze, Sieci drogowe, Ocena przydatności gatunków w danym ekosystemie, Analiza sieci proteinowych, a nawet jest podstawą do nowego podejścia do demokracji. 59
Przyjmijmy system, gdzie: 1. Osoba staje się kandydatem, jeśli uzyska głos od kogokolwiek, 2. Wszyscy kandydaci uporządkowani są w hierarchii odświeżanej w czasie rzeczywistym, 3. Ilość głosów nie jest jedynym wyznacznikiem ważna jest również siła głosu, 4. Zamiast rankingu wg popularności ranking na podstawie peer ów, 5. Obowiązkowa selekcja co najmniej dwóch kandydatów, 6. Opcjonalnie selekcja tzw. specjalisty. 60
http://en.wikipedia.org/wiki/pagerank http://www.seopt.com/2007/10/understanding-the-basics-ofpagerank/ http://www.entrepreneurs-journey.com/280/pagerank-explained/ http://blog.pelland.com/2009/02/14/the-basics-of-pagerank-whatdoes-it-measure-how-does-it-work/ http://blog.ifabbo.com/google-pagerank/ http://www.ijser.org/researchpaper%5canalysis-of-rank-sink- Problem-in-PageRank-Algorithm.pdf http://pl.wikipedia.org/wiki/optymalizacja_dla_wyszukiwarek_interneto wych http://pl.wikipedia.org/wiki/link_spam http://pl.wikipedia.org/wiki/spam_w_wyszukiwarkach https://www.google.com/search/about/insidesearch/howsearchworks/fi ghting-spam.html http://konaumat.mini.pw.edu.pl/pliki/pagerank.pdf http://www.osdwgoogle.c0.pl/historia%20wyszukiwarek.html 61
Pytania? 62