Wyszukiwanie i Przetwarzanie Informacji WWW



Podobne dokumenty
POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF >>>WIĘCEJ<<<

Inteligentne systemy informacyjne

Spis treúci. Księgarnia PWN: Paweł Kobis - Marketing z Google. Podziękowania O Autorze Wstęp... 13

POZYCJONOWANIE STRONY SKLEPU

Specjalizacja Web Mining

Pozycjonowanie stron w wyszukiwarkach internetowych. Szansa dla małych i średnich firm na konkurowanie z największymi

POZYCJONOWANIE CHORZÓW >>>WIĘCEJ<<<

INTERNET - NOWOCZESNY MARKETING

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

Marketing w wyszukiwarkach, wyniki organiczne i sponsorowane

Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można

Ocena organizacji oceny projektów przedsi biorców w 16 Regionalnych Programach Operacyjnych

OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ<<<

Oferta KEO dla Biznesu

W dobie postępującej digitalizacji zasobów oraz zwiększającej się liczby dostawców i wydawców

Wyszukiwanie i Przetwarzanie Informacji WWW

Plan: 1. Co to jest pozycjonowanie 2. Słowniczek pojęć 3. Podstawy wyszukiwarek (Roboty, bazy danych, manipulowanie) 4. Rankingi

Kroki dwa. do najlepszych pozycji w Google

Kto tak naprawdę odwiedza Twoją stronę?

Strategia SEO. Załącznik B

Oferta przygotowana przez BerMar multimedia. POZYCJONOWANIE oferta. tel.: (71)

UMOWA na przeprowadzenie audytu SEO i UX oraz przygotowanie raportu optymalizacyjnego zawarta w dniu 2016 roku w

SEO / SEM PREZENTACJA OFERTY

Co to jest pozycjonowanie stron internetowych? Dlaczego warto pozycjonować strony internetowe?

Pozycjonowanie i optymalizacja stron WWW. Jak się to robi. Wydanie III.

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych ul. Koszykowa 75, Warszawa

Internetowa strategia marketingowa

Program szkoleniowy Efektywni50+ Moduł III Standardy wymiany danych

SEO oraz Google Adwords dla małych i średnich przedsiębiorstw.

Informacje o omawianym programie. Założenia programu omawianego w przykładzie

Audyt SEO. Elementy oraz proces przygotowania audytu. strona

#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL

Wyszukiwanie i Przetwarzanie Informacji WWW

Wokół wyszukiwarek internetowych

Księgarnia PWN: Paweł Kobis - Marketing z Google CZYNNIKI WPŁYWAJĄCE NA POZYCJĘ W WYSZUKIWARKACH

Jak zdobywać linki z profili TR? Strona 1

Pozycjonowanie. Co to takiego?

POZYCJONOWANIE ORAZ MARKETING GOOGLE

Metody numeryczne i statystyka dla in»ynierów

Skuteczne sposoby budowania ruchu w oparciu o SEM/SEO. - Karol Wnukiewicz

Edycja geometrii w Solid Edge ST

POZYCJONOWANIE I OPTYMALIZACJA STRON WWW

Poniżej instrukcja użytkowania platformy

Marcin Werla

POZYCJONOWANIE STRON INTERNETOWYCH (SEO)

SEARCH ENGINE OPTIMALIZATION CZYLI JAK ZWIĘKSZYĆ KONWERSJE STRONY W 7 KROKACH

Wyszukiwanie i Przetwarzanie Informacji Web Spam

MySource Matrix CMS - PROSTY INTERFEJS UŻYTKOWNIKA. INSTRUKCJA ver 1.2

Kopia zapasowa i odzyskiwanie Podręcznik użytkownika

Program Google AdSense w Smaker.pl

WYSZUKIWANIE INFORMACJI W INTERNECIE I ICH WYKORZYSTANIE. Filip Makowiecki filip.makowiecki@ceo.org.pl

Chmura obliczeniowa. do przechowywania plików online. Anna Walkowiak CEN Koszalin

Przyjazne linki SEO i optymalizacja adresów URL

Ekonomiczny Uniwersytet Dziecięcy. Marketing internetowy

Jak tworzyć strony internetowe, aby były gotowe na pozycjonowanie?

Marketing z Google Autor Paweł Kobis

Kontrola na zakończenie realizacji projektu. Trwałość projektu

Jakie działania promocyjne/reklamowe prowadziło województwo w 201 r.? Jakie prowadzi w 2015.?

PageRank i HITS. Mikołajczyk Grzegorz

Jak stworzyć własny blog w kreatorze Click Web?

skutecznej rekrutacji

SEO: Optymalizacja dla wyszukiwarek. Michał Prysłopski plio.pl 2010

System kontroli wersji SVN

Spis tre±ci. Przedmowa... Cz ± I

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

Bazy danych. Andrzej Łachwa, UJ, /15

Marketing Internetowy

Zarządzanie Zasobami by CTI. Instrukcja

Warstwy. 1. MenedŜer warstw ROZDZIAŁ 7.

Wprowadzenie do reklamy w wyszukiwarkach

Mapa witryny - Poradnik od A do Z

Audyt SEO. sklep-budowalny.pl Biuro obsługi: al. Grunwaldzka 2/ Gdańsk

POZYCJONOWANIE STRON PORADY

PRAKTYCZNE ASPEKTY POZYCJONOWANIA WITRYN INTERNETOWYCH. MACIEJ ROSZKOWSKI PIOTR TAMULEWICZ Zachodniopomorski Uniwersytet Technologiczny w Szczecinie

Numer obszaru: 13. Jak pracować z uczniem uzdolnionym informatycznie? Od grafiki i multimediów do poważnych algorytmów w środowisku Logomocja-Imagine

Usługa Powszechna. Janusz Górski Michał Piątkowski Polska Telefonia Cyfrowa

U M O W A. zwanym w dalszej części umowy Wykonawcą

Modele biznesowe wyszukiwarek internetowych w teorii i praktyce Paweł Bedyński, Łukasz Kidziński

Zobacz to na własne oczy. Przyszłość już tu jest dzięki rozwiązaniu Cisco TelePresence.

Zamawiaj cy: Polska Konfederacja Pracodawców Prywatnych (PKPP Lewiatan) ul. Klonowa 6, Warszawa

Najnowsze zmiany w prawie oświatowym. Zmiany w systemie oświaty

Podręcznik ćwiczeniowy dla pacjenta

Dobra pozycja w Google? Dlaczego warto nam zaufać?

Numer obszaru: 8 E-learning w szkole - wykorzystanie platform edukacyjnych w pracy szkoły

Dziedziczenie : Dziedziczenie to nic innego jak definiowanie nowych klas w oparciu o już istniejące.

Czym jest. Inbound Marketing?

ruchu. Regulując przy tym w sposób szczegółowy aspekty techniczne wykonywania tych prac, zabezpiecza odbiorcom opracowań, powstających w ich wyniku,

Elementy Modelowania Matematycznego Wykªad 9 Systemy kolejkowe

POLITECHNIKA WROCŠAWSKA WYDZIAŠ ELEKTRONIKI PRACA DYPLOMOWA MAGISTERSKA

Projekt z dnia 2 listopada 2015 r. z dnia r.

Odkryj potencjał swojej strony internetowej

Przedmiot: Projektowanie dokumentów WWW. Laboratorium 3: Strona domowa cz. III Formularze. Opracował: Maciej Chyliński

Karty przypuszczeń IDEA

Wewnątrzszkolny system kształcenia PLAN WYNIKOWY

Szkoła Podstawowa nr 1 w Sanoku. Raport z ewaluacji wewnętrznej

Reklama w wyszukiwarkach internetowych. Jak planować i prowadzić kampanię. Wydanie II.

Mateusz Rzeszutek. 19 kwiecie«2012. Sie VLAN nie zmienia nic w kwestii domen kolizyjnych. przynale»no± w oparciu o numer portu

SMO MEDIA I KANAŁY SPOŁECZNOŚCIOWE. Bydgoszcz, dnia r. Usługodawca

Strategia rozwoju kariery zawodowej - Twój scenariusz (program nagrania).

Transkrypt:

Wyszukiwanie i Przetwarzanie Informacji WWW Spoªeczne i ekonomiczne aspekty wyszukiwarek (2): Spam wyszukiwarkowy Marcin Sydow PJWSTK Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 1 / 32

Plan tego wykªadu Przyczyny istnienia spamu w WWW Techniki spamerskie Przykªady Walka ze spamem Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 2 / 32

Wprowadzenie Mechanizmy WWW - przypomnienie Przeprowad¹my nast puj cy tok rozumowania, dotycz cy stron komercyjnych: Strony WWW s odnajdywane za pomoc wyszukiwarek widoczno± strony w wyszukiwarce wpªywa na wielko± ruchu na stronie wielko± ruchu (ang. trac) na stronie przekªada si na zysk Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 3 / 32

Wprowadzenie Spam - motywacja Widoczno± strony w wyszukiwarkach zale»y m.in. od nast puj cych czynników: dla jakich zapyta«dana strona zwracana jest jako wynik zapytania w wyszukiwarkach jak wysoko w rankingach dana strona pojawia si w wynikach wyszukiwania St d istnieje silna motywacja do takiej modykacji stron aby pojawiaªy si jako wyniki okre±lonych zapyta«i»eby ich ranking byª jak najlepszy. Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 4 / 32

Wprowadzenie Spam - motywacja Widoczno± strony w wyszukiwarkach zale»y m.in. od nast puj cych czynników: dla jakich zapyta«dana strona zwracana jest jako wynik zapytania w wyszukiwarkach jak wysoko w rankingach dana strona pojawia si w wynikach wyszukiwania St d istnieje silna motywacja do takiej modykacji stron aby pojawiaªy si jako wyniki okre±lonych zapyta«i»eby ich ranking byª jak najlepszy. Warto± tej motywacji okre±lana jest na: 4.5 milarda dolarów (Google, 2004) Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 4 / 32

Wprowadzenie Co to jest Spam? Celem jest oszukanie algorytmów rankingowych wyszukiwarki (niewykryte przez wyszukiwark ). Przez Spam Wyszukiwarkowy (ang. Search Engine Spam) rozumie si : Celowe modykacje dokumentów WWW maj ce na celu sztuczne poprawienie pozycji rankingowej w wyszukiwarkach bez poprawy jako±ci informacyjnej z punktu widzenia zwykªego u»ytkownika Jest to nieprecyzyjne poj cie. Inne okre±lenie: Wszystko co nie byªoby robione, gdyby nie istniaªy wyszukiwarki Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 5 / 32

Wprowadzenie Spam a pozycjonowanie Nie wszystkie techniki poprawy pozycji danej strony w wynikach wyszukiwania uznawane s za spam. Wszelkie techniki maj ce na celu legaln popraw jako±ci strony, lub uªatwienie dokªadniejszego obliczenia stopnia dopasowania danej strony do okre±lonych zapyta«przez algorytmy rankingowe s nazywane (legalnym) pozycjonowaniem (ang. SEO - search engine optimization), o ile s zgodne z wytycznymi publikowanymi przez dan wyszukiwark. Nale»y jednak pami ta,»e istnieje tylko cienka czerwona linia pomi dzy tym co uwa»ane jest za legalne pozycjonowanie a tym co jest spamem. Nale»y zachowa umiar i rozs dek. Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 6 / 32

Wprowadzenie Spam a wyszukiwarki Spam stanowi powa»ny problem dla wyszukiwarek, gdy» obni»a jako± ich usªug - w efekcie obni»a ich zyski Ze strony wyszukiwarek podejmowane s zdecydowane dziaªania maj ce na celu walk ze spamem (ang. search engine spam combating) Mo»na wymieni rozmaite aspekty tej walki: publikowanie wytycznych dla twórców stron wykrywanie spamu - rozwijanie i stosowanie automatycznych, inteligentnych technik zapewnianie mechanizmów zgªaszania spamu proponowanie pewnych standardów uªatwiaj cych walk ze spamem (np. no follow) reagowanie na wykryty spam Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 7 / 32

Wprowadzenie Reagowanie na spam Reakcj na wykryte przez wyszukiwark dokumenty spamerskie jest na ogóª zupeªne usuni cie ich z indeksu (tak»e nie b d one ju» wogóle widoczne w wynikach zapyta«) Nieco ªagodniejsz form jest obni»anie rankingu, ale jest to rozwi zanie dro»sze dla wyszukiwarek i raczej rzadko stosowane. W niektórych przypadkach konsekwencje wyci gane s nie tylko wobec dokumentu spamerskiego, ale tak»e wobec jego s siedztwa (w grae linków WWW). Powoduje to czasami gor ce dyskusje na temat zasadno±ci takich dziaªa«. Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 8 / 32

Wprowadzenie Wy±cig Zbroje«Z jednej strony, spamerzy stosuj coraz bardziej wyranowane (trudniejsze do wykrycia) techniki niedozwolonej manipulacji. Z drugiej strony, wyszukiwarki stosuj coraz bardziej wyranowane algorytmy rankingowe oraz techniki wykrywania i przeciwdziaªania spamowi. Obie strony koniktu stopniowo ucz si od siebie nawzajem. Wa»ne jest utrzymywanie najnowszych technik w ±cisªej tajemnicy (szczególnie od strony wyszukiwarek) Sytuacja przypomina wy±cig zbroje«, cho nale»y pami ta,»e strony nie s tutaj symetryczne (wy±cig ten mo»e nie mie ko«ca). Kres mo»e poªo»y dobry mechanizm oparty na równowadze ekonomicznej Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 9 / 32

Techniki Taksonomia Ogólnie, techniki spamerskie mo»na podzieli na 2 gªówne grupy: podbijanie (ang. boosting) - bezpo±rednie zwi kszanie szansy,»e strona uka»e si wy»ej w rankingach (wymiary: np. tekst i struktura linków) maskowanie (ang. hiding) - utrudnianie systemom anty-spamowym wyszukiwarek wykrycia zabronionych technik (tekstowe, linkowe, zwi zane z protokoªem HTTP: np. podmiana (ang. cloaking) czy przekierowania) Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 10 / 32

Techniki Spamowanie Tekstu Obserwuje si spamowanie wszystkich kontekstów tekstu w dokumentach WWW: ciaªo dokumentu (ang. body), tytuª, znaczniki meta, tekst odno±ników (ang. anchor text), nazwa URL Przykªadowe techniki podbijaj ce i maskuj ce: powtarzanie (cel: np. zwi kszanie TF) za±miecanie - umieszczanie du»ej ilo±ci niezwi zanych terminów (cel: sprawianie,»e dokument pasuje do bardzo wielu zapyta«o rzadkich sªowach kluczowych) rozpuszczanie(ang. dilution) spamowanych sªów kluczowych w innym, normalnym tek±cie - utrudnia wykrywanie spamu stosowanie bardzo maªych czcionek tekst w kolorze tªa Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 11 / 32

Techniki Spamowanie Linków Mo»na wyró»ni 3 grupy dokumentów (ze wzgl du na dost pno± dla spamera): wªasne (np. b d ce celem manipulacji) pozostaªe dost pne (np. blogi, fora, etc.) niedost pne (pozostaªe strony) Techniki maskuj ce zwi zane z linkami: ukrywanie linków w obrazkach ukrywanie linków w skryptach Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 12 / 32

Techniki Spamowanie Linków, c.d. Przykªadowe techniki: kopiowanie du»ej ilo±ci warto±ciowych linków wychodz cych (cel: np. hub score, etc.) tworzenie wielu kopii innych stron z dodanymi (ukrytymi) linkami do strony docelowej (ang. honey pot) (cel: np. authority score, etc.) tworzenie du»ych ilo±ci linków ze stron z kategorii dost pne do stron docelowych (np. spam blogowy - ang. blog spam - powa»ny problem) kupowanie przeterminowanych domen i zapeªnianie ich stronami docelowymi tworzenie farm linków wymiana linków (ang. link exchange) z niezwi zanymi witrynami Ostatnie 2 przykªady s szczególnie ciekawe z naukowego punktu widzenia. Pojawia si tam nietrywialna matematyka i elementy teorii gier (w ostatnim). Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 13 / 32

Techniki Inne Techniki Popularne techniki spamerskie wykorzystuj te» wªa±ciwo±ci protokoªu HTTP: U»ywanie nazw URL podobnych do innych, znanych, ale nieprawidªowo zapisanych Maskowanie (ang. cloaking) - pokazywanie innej zawarto±ci crawlerowi (do indeksowania) a innej (docelowa strona) regularnym u»ytkownikom (przegl darkom). Niektóre crawlery obchodz ten problem podaj c si za zwykªe przegl darki - ale to z kolei nie jest w peªni fair ze strony wyszukiwarek (poza tym crawler podaj cy si za przegl dark mo»e mie czasami mniejszy dost p do pewnych zasobów) Natychmiastowe przekierowywanie (ang. redirection) do innej strony. Strona pierwotna (ang. doorway page) jest i tak indeksowana, ale u»ytkownik nigdy jej nie zobaczy. Tra natomiast na stron docelow. (u»ywany jest np. meta znacznik refresh albo skrypty) Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 14 / 32

Przykªady Prosty spam Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 15 / 32

Przykªady Ukryty tekst Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 16 / 32

Przykªady Wyszukiwarka? Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 17 / 32

Przykªady Faªszywa wyszukiwarka Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 18 / 32

Przykªady Jedyn tre±ci reklamy Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 19 / 32

Przykªady Farma linków Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 20 / 32

Przykªady Przykªady przekierowa«w javascript Proste przekierowanie <script> document.location="http://www.topsearch10.com/"; </script> Ukryte przekierowanie <script> var1=24; var2=var1; if(var1==var2) { document.location="http://www.topsearch10.com/"; } </script> (Przykªady wzi te z Chellapilla et al. A taxonomy of JavaScript redirection spam, 2007) Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 21 / 32

Przykªady Mocno ukryte przekierwoanie <script> var a1=win,a2=dow",a3=loca,a4=tion., a5=replace,a6=('http://www.top10search.com/'); var i,str=; for(i=1;i<=6;i++) { str += eval(a+i); } eval(str); </script> (Przykªady wzi te z Chellapilla et al. A taxonomy of JavaScript redirection spam, 2007) Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 22 / 32

Przykªady Bardzo mocno ukryte przekierowanie Zakodowany javascript <script> var s = %5CBE0D%5C%05GDHJ_BDE%16...%04%0E; var e =, i; eval(unescape('s%edunescape%28s%29%3bfor...%3b')); </script> (Przykªady wzi te z Chellapilla et al. A taxonomy of JavaScript redirection spam, 2007) Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 23 / 32

Walka ze spamem Wytyczne dla twórców stron Ka»da wi ksza wyszukiwarka publikuje swoje wytyczne, których autorzy stron powinni przestrzega aby nie zosta uznanymi za spamerów. Do najwa»niejszych, wspólnych reguª nale» : zakaz automatycznego nieautoryzowanego odpytywania (lub klikania) (badanie algorytmów rankingowych, atakowanie kampanii reklamowych konkurentów, etc.) unikanie powtarzania/kopiowania tre±ci na wielu stronach, domenach unikanie przekierowywania i maskowania niestosowanie ukrytych linków i tekstu nieuczestniczenie w programach wymiany linków dostarczanie wysokiej jako±ci, oryginalnej zawarto±ci zwi zanej ±ci±le z tematyk strony/witryny unikanie linków do i z (!) podejrzanych dokumentów Wobec podmiotu ªami cego wyci gane s konsekwencje w przypadku wykrycia przez wyszukiwark zªamania reguª. Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 24 / 32

Walka ze spamem Techniki wykrywania spamu - podstawowe techniki tekstowe Automatyczne wykrywanie najprostszych technik powtarzania i ukrywania tekstu nie nastr cza dzisiaj wi kszych trudno±ci. Stosuje si techniki statystyczne i probabilistyczne. Nieco wi cej problemów jest z technikami za±miecania czy rozpuszczania. Powstaj coraz doskonalsze modele j zyka. Wykrywanie za±miecania mo»na zaimplementowa np. jako badanie tematyki dokumentu. Rozpuszczanie mo»na wykry np. za pomoc HMM (Ukrytych Modeli Markowa) wy»szych rz dów, lub badania relacji s siaduj cych wyrazów. Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 25 / 32

Walka ze spamem Wykrywanie spamu - techniki oparte na linkach Analiza statystyczna rozkªadów stopni wej±ciowych i wyj±ciowych. Analiza rozkªadu warto±ci PageRank. Specjalne algorytmy: TrustRank i Anti-TrustRank, BadRank, etc. Wykrywanie farm linków - bardziej skomplikowane metody kombinatoryczne i statystyczne. Wykrywanie bardziej zaawansowanych struktur spamowych i wymian linków (ang. spam alliances) - elementy teorii gier Wykrywanie spamu odno±ników (ang. anchor text spam) - bardzo powa»ny problem w zwi zku z blogami - badanie stopnia niezgodno±ci modelu j zyka (w otoczeniu ¹ródªa linku i w dokumencie docelowym) Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 26 / 32

Walka ze spamem Techniki Wykrywania Spamu c.d. Wykrywanie spamu na etapie ±ci gania dokumentów: Prowadzenie i staªe uaktualnianie czarnych list Analiza rozkªadów wielko±ci hostów, domen, poddomen, etc. Analiza nazw URLi, hostów, plików i struktury witryn Wykrywanie przekierowa«marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 27 / 32

Walka ze spamem Stan Obecny W 2007 zostaª przygotowany ogólno-dost pny zbiór dokumentów z angielskiego WWW 1, wraz z etykietami, do testowania najnowszych algorytmów wykrywania spamu. Dost pne jest te» prawie 300 atrybutów (!) policzonych dla ka»dego z ok. 11 000 hostów. Bardzo dobre efekty w wykrywaniu spamu daje ostatnio stosowanie technik uczenia na grafach (ang. stacked graphical learning) bior ce pod uwag s siedztwo dokumentów. Najnowsze i najlepsze obecnie (2007) techniki wykrywania spamu stosuj analiz ekonomiczn zawarto±ci dokumentów WWW, stosuj c narz dzia zwi zane z przygotowywaniem kampanii reklamowych (Google AdWords, Yahoo! Mindset, Microsoft AdCenter OCI, etc.) i daj obiecuj ce rezultaty. 1 zbiór wraz z atrybutami jest dost pny m.in. w katedrze SI PJWSTK Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 28 / 32

Walka ze spamem Wykrywanie Spamu - podsumowanie Nale»y pami ta,»e rozwojowi technik wykrywania spamu towarzyszy ci gªy post p w technikach spamerskich (wy±cig zbroje«). Najbardziej warto±ciowe s te techniki wykrywania, które s trudne do oszukania nawet, gdy spamerzy poznaj ich istot (np. oparte na zasadach ekonomii, albo wymagaj ce posiadania unikatowych danych) Nale»y te» podkre±li,»e istotn barier w wykrywaniu spamu jest bariera zªo»ono±ci czasowej algorytmów 2 Ogromnie ciekawe zastosowania dla Web Mining i Sztucznej Inteligencji - wiele otwartych problemów. 2 praktycznie, rz du o(n 2 ) (o maªe), gdzie n to liczba wyrazów w dokumencie, wierzchoªków w grae, etc. Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 29 / 32

Walka ze spamem Podsumowanie - wyzwania Rynek wyszukiwarek oferuje fascynuj ce problemy naukowe i techniczne do rozwi zania Mªody rynek o warto±ci kilku miliardów dolarów (obecnie), gwaªtownie rosn cy Fascynuj cy styk Informatyki, Teorii Informacji, Sztucznej Inteligencji, Matematyki, Mikroekonomii (z teori gier i odwrócon teori gier) a nawet Socjologii czy Psychologii Wiele otwartych problemów o praktycznym wymiarze (i realnej warto±ci) np. modele wyceny reklam Wci» mªoda dziedzina - mo»na jeszcze w niej sporo osi gn! Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 30 / 32

Zadania Na zaliczenie tego wykªadu: 1 Spam wyszukiwarkowy - denicja i motywacja 2 Spam a pozycjonowanie 3 Rodzaje technik spamerskich 4 Metody wykrywania spamu Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 31 / 32

Zadania Dzi kuj za uwag Marcin Sydow ( PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 32 / 32