Wyszukiwanie i Przetwarzanie Informacji Web Spam

Podobne dokumenty
Eksploracja Zasobów Internetu Web spamming

Eksploracja Zasobów Internetu Web spamming

Eksploracja Zasobów Internetu. PageRank intuicja: strona jest tak ważna jak ważne są strony, które na nią wskazują (Google)

Eksploracja Zasobów Internetu

#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL

POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF >>>WIĘCEJ<<<

Inteligentne systemy informacyjne

Internetowa strategia marketingowa

Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można

Spis treúci. Księgarnia PWN: Paweł Kobis - Marketing z Google. Podziękowania O Autorze Wstęp... 13

Wyszukiwanie i Przetwarzanie Informacji WWW

1945 (96,1%) backlinks currently link back (74,4%) links bear full SEO value. 0 links are set up using embedded object

Jak tworzyć strony internetowe, aby były gotowe na pozycjonowanie?

Kroki dwa. do najlepszych pozycji w Google

Oferta dla na autorską akcję Commerce PRO, czyli kompleksowe działania polegające na wsparciu sprzedaży przy wykorzystaniu Search Engine Marketing

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

SEO oraz Google Adwords dla małych i średnich przedsiębiorstw.

INTERNET - NOWOCZESNY MARKETING

Marketing w wyszukiwarkach, wyniki organiczne i sponsorowane

MENTI.COM KOD:

Pozycjonowanie stron w wyszukiwarkach internetowych. Szansa dla małych i średnich firm na konkurowanie z największymi

Audyt SEO. sklep-budowalny.pl Biuro obsługi: al. Grunwaldzka 2/ Gdańsk

Plan: 1. Co to jest pozycjonowanie 2. Słowniczek pojęć 3. Podstawy wyszukiwarek (Roboty, bazy danych, manipulowanie) 4. Rankingi

SERWISY BIBLIOTECZNE w perspektywie SEO

POZYCJONOWANIE I OPTYMALIZACJA STRON WWW

Website review radcowie.biz

Zarządzanie treścią (CMS)

[domen.pl. Strony jakiejśtam.pl

Oferta SEO. Analiza i optymalizacja

Księgarnia PWN: Paweł Kobis - Marketing z Google CZYNNIKI WPŁYWAJĄCE NA POZYCJĘ W WYSZUKIWARKACH

Przyjazne linki SEO i optymalizacja adresów URL

Strategia SEO. Załącznik B

2 Podstawy tworzenia stron internetowych

1. Wstęp Optymalizacja struktury adresów URL Wstęp Unikalność adresów URL (duplicate content)... 5

skutecznej rekrutacji

POSTĘPOWANIE KONKURSOWE nr: KO/ /01

Wprowadzenie do reklamy w wyszukiwarkach

PageRank i HITS. Mikołajczyk Grzegorz

Pozycjonowanie i optymalizacja stron WWW. Jak się to robi. Wydanie III.

Website review auto-web.pl

Marketing z Google Autor Paweł Kobis

Jak pisać dobre teksty SEO?

Pozycjonowanie i SEO w czym jest różnica pojęć?

Website review pureorganic.pl

SEO. Optymalizacja TYPO3 dla wyszukiwarek internetowych

POZYCJONOWANIE STRONY SKLEPU

1. Promocja sklepu Wysokość pozycjonowania.

Skuteczne sposoby budowania ruchu w oparciu o SEM/SEO. - Karol Wnukiewicz

Marketing w Internecie. 17 maja 2011 Poznań Enterso - Wojciech Kłodziński

POZYCJONOWANIE STRON PORADY

Spis treści

Mapa witryny - Poradnik od A do Z

Oferta przygotowana przez BerMar multimedia. POZYCJONOWANIE oferta. tel.: (71)

Audyt SEO. strona-korporacyjna.pl Biuro obsługi: al. Grunwaldzka 2/ Gdańsk

Marketing Internetowy

Google AdWords. Gdańsk, 22 maja icbm.info cityboard.pl

Poradnik SEO. Ilu z nich szuka Twojego produktu? Jak skutecznie to wykorzystać?

DOZ.PL Kupowanie przez wyszukiwanie

SEO: Optymalizacja dla wyszukiwarek. Michał Prysłopski plio.pl 2010

Wstęp do encyklopedii linków Audyt linków wskazówki, ciekawostki, zalecenia

Jak zdobywać linki z profili TR? Strona 1

Przekierowanie Redirect Poradnik

Cele pozycjonowania stron

- google.pl (dla serwisów polskich) - google.com (dla witryn i fraz obcojęzycznych)

Jak unikąć duplikacji treści na wersjach językowych sklepu PrestaShop?

Struktura produktów i tekst SEO w pozycjonowaniu sklepów internetowych

Czym jest. Inbound Marketing?

Niniejszy ebook jest własnością prywatną.

KRYTERIA OCE Y RELEWA T OŚCI WY IKÓW W WYSZUKIWARKACH I TER ETOWYCH I ICH WYKORZYSTA IE DO PROMOCJI WITRY REGIO AL YCH

Marketing internetowy w wyszukiwarkach.

Pozycjonowanie stron, czyli jak być wysoko w Google?

Systemy internetowe Wykład 6 Architektura WWW - cd

Sposoby analizy i interpretacji statystyk strony WWW.

SEO / SEM PREZENTACJA OFERTY

Pozycjonowanie. Co to takiego?

Dobra pozycja w Google? Dlaczego warto nam zaufać?

SEO Audit for domain zdrowewidzenie.pl

POZYCJONOWANIE W WYSZUKIWARKACH APTEK INTERNETOWYCH

StartUp IT / rozgrzewka

OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ<<<

Systemy internetowe. Wykład 6 Architektura WWW - cd

Oferta KEO dla Biznesu

Wyszukiwanie w czasie rzeczywistym sposób na zwiększenie widoczności zasobów bibliotek cyfrowych w wyszukiwarkach internetowych Karolina Żernicka

Optymalizacja dla wyszukiwarek internetowych

Jak podnieść pozycje w Google?

SEO Audit for domain blog.rabinek.pl

MARKETING INTERNETOWY

Poradnik obsługi systemu zarządzania treścią (CMS) Concrete5. Optymalizacja strony (SEO) - podstawy

Obsługa kampanii AdWords Spis treści

Google Trends - Poradnik z analizą frazy SEO

WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1

SEO & SEM : przewodnik dla zaawansowanych po Webmarketingu / Marco Maltraversi. Warszawa, Spis treści WSTĘP 15

Tworzenie Stron Internetowych. odcinek 5

POZYCJONOWANIE ZASOBÓW BIBLIOTEK CYFROWYCH

Audyt SEO. sklep-obuwniczy.pl Biuro obsługi: al. Grunwaldzka 2/ Gdańsk

Website review otomoto.pl

netsprint Oferta 360 stopni 1

70 definicji online marketingu

Zasady tworzenia podstron

Transkrypt:

Web Spam Wyszukiwanie i Przetwarzanie Informacji Web Spam Information Retrieval & Search Irmina Masłowska irmina.maslowska@cs.put.poznan.pl http://www.cs.put.poznan.pl/imaslowska/wipi/

Web spamming Web spamming web spamming umyślne działanie człowieka mające na celu oszukanie algorytmów rangujących wyszukiwarek internetowych, tak by oceniały niektóre strony wyżej niż na to zasługują (wyższa pozycja na SERPs search engine results pages)

Web spamming Web spamming web spamming umyślne działanie człowieka mające na celu oszukanie algorytmów rangujących wyszukiwarek internetowych, tak by oceniały niektóre strony wyżej niż na to zasługują (wyższa pozycja na SERPs) 8%-13% indeksowanych stron (2006) szacowane straty finansowe spowodowane spamem: 2005 50 miliardów $, 2009-130 miliardów $ N. Spirim, J. Han: Survey on Web Spam Detection: Principles and Algorithms

Web spamming Web spamming web spamming umyślne działanie człowieka mające na celu oszukanie algorytmów rangujących wyszukiwarek internetowych, tak by oceniały niektóre strony wyżej niż na to zasługują (wyższa pozycja na SERPs) web spamming? search engine optimization (SEO) (pol. pozycjonowanie)

Web spamming Web spamming Typy spamu Content spam Link spam Click spam Cloaking & Redirection

Content spamming Content spamming Content spamming (lub term spamming) to umieszczanie nierzetelnej informacji w: tytule strony meta-tagach sekcji body tekście hiperłącz adresach URL

Content spamming Content spamming Keyword stuffing aby dopasować treść stron do zapytań użytkowników wyszukiwarek stosuje się upychanie odpowiednich słów kluczowych we wszystkich możliwych tekstowych elementach stron np. opisach alternatywnych: <img src="obrazek.jpg" alt="tu powinien być opis tego, co faktycznie znajduje się na obrazku"/>

Content spamming Content spamming Keyword stuffing Wielokrotne powtarzanie wybranych słów kluczowych, aby zwiększyć dopasowanie strony do wybranych zapytań użytkowników Wrzucanie wielu słów kluczowych luźno związanych z treścią strony, aby zwiększyć dopasowanie tej strony do większej liczby zapytań użytkowników

Content spamming Content spamming Keyword stuffing W przypadkach skrajnego spamu cała treść strony może być generowana sztucznie: poprzez skopiowanie treści innych stron/-y o podobnej tematyce poprzez wstawianie do spam-strony zdań skopiowanych z wielu innych różnych stron W obu przypadkach stosuje się tzw. web scraping (web harvesting) aby pozyskać naturalnie wyglądającą treść bazową

Link spamming Link spamming Spamowanie odnośników dotyczy manipulowania hiperłączami, zarówno wychodzącymi z danej spam-strony (outbound links), jak i wskazującymi na daną spam-stronę (inbound links, backlinks)

Do outbound links matter? Do outbound links matter? Linki wychodzące Reboot created 10 new websites each targeting the same keyword, only half of which included links to high authority sites. After five months it was concluded that, Outgoing relevant links to authoritative sites are considered in the algorithms and do have a positive impact on rankings https://searchenginewatch.com/2016/11/02/

Link spamming Link spamming Spamowanie odnośników wychodzących linki wychodzące dość łatwo umieścić na własnej spam-stronie dużą liczbę linków do ważnych stron (np. directory cloning), aby podnieść jej hub score Google bomb zorganizowana akcja internautów polegająca na umieszczeniu na jak największej liczbie stron linków do atakowanej strony, tak by wypromować ją na pierwsze miejsce w SERPs dla pewnego (zwykle prześmiewczego) hasła

Link spamming Link spamming Spamowanie odnośników wychodzących linki wychodzące dość łatwo umieścić na własnej spam-stronie dużą liczbę linków do ważnych stron (np. directory cloning), aby podnieść jej hub score Google bomb zorganizowana akcja internautów polegająca na umieszczeniu na jak największej liczbie stron linków do atakowanej strony, tak by wypromować ją na pierwsze miejsce w SERPs dla pewnego (zwykle prześmiewczego) hasła <a href= http://www.whitehouse.gov/president/gwbbio.html >Miserable Failure</a>

Link spamming Link spamming Spamowanie odnośników wskazujących linki wchodzące manipulowanie linkami wskazującymi z innych (obcych) stron jest trudniejsze, ale istnieją mniej lub bardziej kosztowne metody: wstawianie linków na daną spam-stronę do komentarzy zamieszczanych w serwisach społecznościowych, blogach, dyskusjach na forach, recenzjach (czyli w tzw. user-generated content) lub wiki (wiki spam) dodanie linków na daną spam-stronę do katalogów stron (web directories spamming) kupowanie linków (paid links)

Link spamming Link spamming Spamowanie odnośników wskazujących organizacja grupy wzajemnej wymiany linków kooperacja między spamerami (link exchange) utworzenie własnej spam-farmy, co pozwala na utworzenie dowolnej struktury linków, lecz wymaga kontroli nad większą liczbą witryn tworzenie stron zwanych honey pot, ukrywających linki do spam-strony, której ranking chcemy polepszyć. Atrakcyjność stron honey pot wynika z zamieszczenia na nich informacji użytecznych dla wielu użytkowników (np. list FAQ lub dokumentacji dla popularnych narzędzi)

Click spamming Click spamming Spamowanie kliknięć Clik spamming dotyczy technik generowania zapytań do popularnych wyszukiwarek internetowych, aby następnie wybierać (click) daną spam-stronę z listy wyników SERP, a przez to ją wypromować symulując zainteresowanie prawdziwych użytkowników Click spam ma na celu podniesienia rankingu strony podobnie działa tzw. click fraud zjawisko nieuczciwych, czy fałszywych kliknięć w link sponsorowany (lub inną formę reklamy) rozliczany w modelu PPC. Ma ono na celu wygenerowanie wyższych kosztów konkurencyjnym reklamodawcom i zużycie opłaconych przez nich wyświetleń reklam

Spam hiding techniques Spam hiding techniques Ukrywanie zawartości Użycie (prawie) tego samego koloru tekstu co tła <body background = white> <font color = close-to-white>spam items</font> </body> Zamieszczenie ukrytych hiperłącz <a href= spam_target.html ><img src= blank.gif ></a>

Spam hiding techniques Spam hiding techniques Ukrywanie zawartości Użycie (prawie) tego samego koloru tekstu co tła <body background = white> <font color = close-to-white>spam items</font> </body> Zamieszczenie ukrytych hiperłącz <a href= spam_target.html ><img src= blank.gif ></a> Stosowanie skryptów do ukrycia części stron

Spam hiding techniques Spam hiding techniques Cloaking (maskowanie) Prezentowanie wyszukiwarce internetowej treści odmiennej od zawartości prezentowanej czytelnikom Identyfikacja robotów indeksujących na podstawie predefiniowanych list adresów IP wyszukiwarek lub też analizy nagłówka user-agent Redirection (przekierowywanie) Strona prezentowana robotom nie jest widoczna dla użytkowników, np. dzięki użyciu skryptów lub metatagu refresh (Refresh: 0; url=address)

Combating spam Combating spam Wyszukiwarka Google w swoich oryginalnych założeniach była dość odporna na ówczesne metody spamowania: PageRank dobrze radził sobie z technikami spamowania zawartości, choć był w pewnym stopniu podatny na techniki manipulowania linkami wchodzącymi wykorzystanie w charakterze termów indeksujących słów z tekstów łącz (ang. anchor text) linków zewnętrznych do określania tematycznej zawartości wskazywanych stron pozwalało ocenić tematykę strony w oderwaniu od jej własnej treści (ale Google bombs)

Combating spam Combating spam Jawny spam (keyword stuffing, ukrywanie elementów, przekierowania, linki nieorganiczne, niedopasowane do tematyki strony, itp.) dość łatwo identyfikować Wykorzystanie skryptów komplikuje sprawę, gdyż ich wykonywanie/analizowanie przez serwisy wyszukujące może być zbyt czaso-/kosztochłonne

Combating spam scripts Combating spam dynamic content Zalecenia Google a (m.in. odnośnie użycia JavaScript) Don t cloak to Googlebot Google supports JavaScript to some extent (titles, description & robots meta tags, structured data, and other meta-data) Use the rel=canonical attribute (duplicate content) Pełna lista zaleceń skompilowana na podstawie wypowiedzi Johna Muellera w marcu 2016 dostępna na https://blog.seoprofiler.com/googles-john-mueller-google-indexes-javascript-sites/ Can Google Properly Crawl and Index JavaScript Frameworks? A JavaScript SEO Experiment https://www.elephate.com/blog/javascript-seo-experiment/ https://www.elephate.com/blog/everything-you-know-about-javascript-indexing-is-wrong/

Combating spam content Combating spam content Algorytmy segmentacji dokumentów Warto różnicować ważności słów kluczowych i linków występujących na stronie zależności od ich położenia Automatyczna identyfikacja obszarów dokumentu tekstowego pomoże podzielić go na partie ważniejsze na których skupia się użytkownik i partie poboczne gdzie nie powinny się znajdować żadne kluczowe informacje Najczęściej podejrzane treści czy linki będą umieszczane w takich miejscach dokumentu, które nie rzucają się w oczy użytkownikom (np. na samym dole stron typu honey pot lub stron uczestniczących we wzajemnej wymianie linków), aby uniknąć zgłoszenia spamu do wyszukiwarek (spam report)

Combating spam links Combating spam links Algorytmy grafowe (web structure mining) Wykorzystanie obserwacji, że wartościowe strony i spam-strony tworzą pewne odrębne obszary sieci Web Strony wysokiej jakości rzadko wskazują na spam-strony, jednak spam-strony mogą wskazywać na strony wartościowe Linki wchodzące ze stron o słabej reputacji mogą oznaczać kłopoty (TrustRank, Google Penguin, manual actions)

Combating spam backlinks Combating spam backlinks Google s manual actions W kwietniu 2012 Google zapowiedział obniżenie obniżenia wartości tzw. nieorganicznych (nienaturalnych) linków: pochodzących z farm linków pochodzących z sieci wymiany linków wszelkich innych, które noszą znamiona linków płatnych (w szczególności otagowanych tekstem w postaci popularnych słów kluczowych)

Combating spam backlinks Combating spam backlinks Google s manual actions W kwietniu 2012 Google zapowiedział obniżenie obniżenia wartości tzw. nieorganicznych (nienaturalnych) linków: pochodzących z farm linków pochodzących z sieci wymiany linków wszelkich innych, które noszą znamiona linków płatnych (w szczególności otagowanych tekstem w postaci popularnych słów kluczowych) źródło: searchenginewatch.com

Combating spam backlinks Combating spam backlinks Google s manual actions W październiku 2012 Matt Cutts poinformował o nowym narzędziu dla webmasterów (tool to disavow links), które umożliwia przekazanie do Google w prostym pliku tekstowym listy adresów serwisów (lub pojedynczych stron), z których linki do naszych stron uznajemy za niewartościowe Przykładowa treść pliku: # Contacted owner of spamdomain1.com on 7/1/2012 to # ask for link removal but got no response domain:spamdomain1.com # Owner of spamdomain2.com removed most links, but missed these http://www.spamdomain2.com/contenta.html http://www.spamdomain2.com/contentb.html http://www.spamdomain2.com/contentc.html

Combating spam backlinks Combating spam backlinks Google s manual actions W październiku 2012 Matt Cutts poinformował o nowym narzędziu dla webmasterów (tool to disavow links), które umożliwia przekazanie do Google w prostym pliku tekstowym listy adresów serwisów (lub pojedynczych stron), z których linki do naszych stron uznajemy za niewartościowe Z punktu widzenia Google a bardzo prosta i tania metoda zaangażowania rzeszy darmowych redaktorów (human editors) do wskazania spamerskich serwisów/obszarów sieci Web

Combating spam as a ML task Combating spam as a ML task Zasadniczo każda technika spamowania skupia się na jednym lub wielu aspektach wykorzystywanych przez algorytmy rangujące wyszukiwarek, co może skutkować nienaturalną charakterystyką takich stron W ogólności heurystyki detekcji spamu poszukują statystycznych anomalii w cechach stron/witryn, głównie obserwowalnych z poziomu wyszukiwarki Detekcja spamu sprowadza się obecnie do problemu klasyfikacji wysoka skuteczność metod uczenia maszynowego ML

Combating spam as a ML task Combating spam as a ML task Zasadniczo każda technika spamowania skupia się na jednym lub wielu aspektach wykorzystywanych przez and A. A. Benczúr, ACM Press 2011 algorytmy rangujące wyszukiwarek, co może skutkować >>we investigate how much various classes of Web spam features, some nienaturalną charakterystyką takich stron We realize that advances in machine learning, an area that has received W ogólności less attention heurystyki in the adversarial detekcji IR community, spamu yields poszukują more improvement than new features and result in low cost yet accurate spam filters<< statystycznych anomalii w cechach stron/witryn, Użyte techniki ML: LogitBoost, random forests głównie Obecnie obserwowalnych popularne: techniki z deep poziomu learning wyszukiwarki Detekcja spamu sprowadza się obecnie do problemu klasyfikacji wysoka skuteczność metod uczenia maszynowego ML Web spam classification: a few features worth more, M.Erdélyi, A. Garzó, requiring very high computational effort, add to the classification accuracy.

Combating spam as a ML task Combating spam as a ML task Cechy stron, które mogą być przydatne w klasyfikacji: liczba unikatowych słów na stronie (spam-strony zwykle zawierają ich więcej), średnia długość słowa (dla j. angielskiego =5), która jest często odmienna dla nienaturalnych tekstów, liczba słów w tytule strony (zwykle wyższa dla spam-stron), odsetek stopwords (często niższy dla nienaturalnych tekstów), procent zawartości widocznej (często niższy dla spam-stron), ilość tekstu w opisach łącz (większa dla spam-stron), TLD, IP, podatność na kompresję,

Combating spam as a ML task Combating spam as a ML task Wykorzystanie informacji i powiązań z serwisami społecznościowymi: źródło: Mutually Reinforcing Spam Detection on Twitter and Web Nikita Spirin, 2011

Assesing the quality of sites Assesing the quality of sites Rozwój metod ML przyczynił się do lepszej identyfikacji spamu przez wyszukiwarki takie strony są wyłączane z rankingu Możliwość zastosowanie metod ML na dużą skalę wykorzystano do okresowej oceny regularnych stron pod kątem ich szeroko pojętej jakości (Google s Panda aka Farmer wprowadzony w lutym 2011, a od stycznia 2016 działający jako integralna część mechanizmu rangującego Google a) Efekt: wyraźnie zauważalne zmiany pozycji na listach SERPs wg Google pierwsza edycja Pandy wpłynęła na wyniki ok. 12% zapytań kierowanych do ich wyszukiwarki Kolejne zmiany algorytmu rangującego Google a: Hummingbird (2013) i RankBrain (wprowadzany od 2015)

Assesing the quality of sites Assesing the quality of sites 8 major Google ranking signals in 2017 Cechy stron, wykorzystywane w ocenie jakości: Backlinks (link score, anchor text relevance - but not too much of it exact match keywords in links may get punished) Content (keyword usage, length, comprehensiveness) Technical SEO (page speed, mobile-friendliness) User experience (SERP CTR clickthrough rate) Źródło: https://searchengineland.com/8-major-google-ranking-signals-2017-278450