Wyszukiwanie i Przetwarzanie Informacji WWW



Podobne dokumenty
Wyszukiwanie i Przetwarzanie Informacji WWW

1 Stos: Stack i Stack<T>

Podstawy modelowania w j zyku UML

Bazy danych. Andrzej Łachwa, UJ, /15

Wzorce projektowe kreacyjne

Moduł. Rama 2D suplement do wersji Konstruktora 4.6

Bash i algorytmy. Elwira Wachowicz. 20 lutego

SVN - wprowadzenie. 1 Wprowadzenie do SVN. 2 U»ywanie SVN. Adam Krechowicz. 16 lutego Podstawowe funkcje. 2.1 Windows

Regulamin Usªugi VPS

Charakterystyka systemów plików

Minimalne drzewa rozpinaj ce

Praca Dyplomowa Magisterska

Instrukcja obsługi Norton Commander (NC) wersja 4.0. Autor: mgr inż. Tomasz Staniszewski

System Informatyczny CELAB. Przygotowanie programu do pracy - Ewidencja Czasu Pracy

W dobie postępującej digitalizacji zasobów oraz zwiększającej się liczby dostawców i wydawców

Audyt SEO. Elementy oraz proces przygotowania audytu. strona

Instalacja programu. Omówienie programu. Jesteś tu: Bossa.pl

Instalacja. Zawartość. Wyszukiwarka. Instalacja Konfiguracja Uruchomienie i praca z raportem Metody wyszukiwania...

Lab. 02: Algorytm Schrage

Wyszukiwanie i Przetwarzanie Informacji WWW

Zarządzanie Zasobami by CTI. Instrukcja

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

przewidywania zapotrzebowania na moc elektryczn

Analiza wydajno±ci serwera openldap

Ogólnopolska konferencja Świadectwa charakterystyki energetycznej dla budynków komunalnych. Oświetlenie publiczne. Kraków, 27 września 2010 r.

POLITECHNIKA WROCŠAWSKA WYDZIAŠ ELEKTRONIKI PRACA DYPLOMOWA MAGISTERSKA

Zarządzanie projektami. wykład 1 dr inż. Agata Klaus-Rosińska

Optyka geometryczna. Soczewki. Marcin S. Ma kowicz. rok szk. 2009/2010. Zespóª Szkóª Ponadgimnazjalnych Nr 2 w Brzesku

JAO - J zyki, Automaty i Obliczenia - Wykªad 1. JAO - J zyki, Automaty i Obliczenia - Wykªad 1

Baza danych - Access. 2 Budowa bazy danych

Lekcja 12 - POMOCNICY

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

JĘZYK ANGIELSKI. Przedmiotowy system oceniania w klasach 1-3

GEO-SYSTEM Sp. z o.o. GEO-RCiWN Rejestr Cen i Wartości Nieruchomości Podręcznik dla uŝytkowników modułu wyszukiwania danych Warszawa 2007

Matematyka wykªad 1. Macierze (1) Andrzej Torój. 17 wrze±nia Wy»sza Szkoªa Zarz dzania i Prawa im. H. Chodkowskiej

PERSON Kraków

Sieć komputerowa grupa komputerów lub innych urządzeo połączonych ze sobą w celu wymiany danych lub współdzielenia różnych zasobów, na przykład:

Programowanie i struktury danych 1 / 44

Strategia rozwoju kariery zawodowej - Twój scenariusz (program nagrania).

1 Bª dy i arytmetyka zmiennopozycyjna

Przedmiot: Projektowanie dokumentów WWW. Laboratorium 3: Strona domowa cz. III Formularze. Opracował: Maciej Chyliński

Microsoft Management Console

PROGRAM ZAPEWNIENIA I POPRAWY JAKOŚCI AUDYTU WEWNĘTRZNEGO

SVN - wprowadzenie. 1 Wprowadzenie do SVN. 2 U»ywanie SVN. Adam Krechowicz 24 czerwca Podstawowe funkcje. 2.1 Windows

Stypendia USOS Stan na semestr zimowy 2013/14

MySource Matrix CMS - PROSTY INTERFEJS UŻYTKOWNIKA. INSTRUKCJA ver 1.2

INFORMATOR TECHNICZNY WONDERWARE

Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd.

KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu


Eksploracja Danych. Wprowadzenie. (c) Marcin Sydow

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA NIEMIECKIEGO

SZABLONY KOMUNIKATÓW SPIS TREŚCI

Prezentacja Systemu PDR

STRONA GŁÓWNA SPIS TREŚCI. Zarządzanie zawartością stron... 2 Tworzenie nowej strony... 4 Zakładka... 4 Prawa kolumna... 9

Subversion - jak dziaªa

Wyszukiwanie i Przetwarzanie Informacji WWW

Program Google AdSense w Smaker.pl

Model obiektu w JavaScript

Regulamin Obrad Walnego Zebrania Członków Stowarzyszenia Lokalna Grupa Działania Ziemia Bielska

Ewaluacja projektu szkoleniowego Międzykulturowe ABC

Obowiązki informacyjne i promocyjne dla beneficjentów RPO WM

Vincent Van GOGH: M»czyzna pij cy li»ank kawy. Radosªaw Klimek. J zyk programowania Java

Centralizacji Systemu. Procedury zasilania danymi systemu LAS oprogramowania do aktualizacji LMN. etap C13 pkt 5

Uczenie Wielowarstwowych Sieci Neuronów o

Podstawa prawna. 4. Ustawa z dnia 24 kwietnia 2003 r. o działalności pożytku publicznego i wolontariacie (Dz. U. nr 96 poz.873);

Harmonogramowanie projektów Zarządzanie czasem

Obsługa pakietu biurowego OFFICE

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych ul. Koszykowa 75, Warszawa

Podstawy modelowania w j zyku UML

1 Klasy. 1.1 Denicja klasy. 1.2 Skªadniki klasy.

Regulamin reklamy produktów leczniczych na terenie Samodzielnego Publicznego Zakładu Opieki Zdrowotnej Ministerstwa Spraw Wewnętrznych w Białymstoku

Zarządzenie Nr 325/09 Burmistrza Miasta Bielsk Podlaski z dnia 29 czerwca 2009 r.

PROGRAM ZAPEWNIENIA I POPRAWY JAKOŚCI AUDYTU WEWNĘTRZNEGO

Listy i operacje pytania

Rzut oka na zagadnienia zwi zane z projektowaniem list rozkazów

Technologie Informacyjne

Zintegrowany System Zarządzania Przedsiębiorstwem FIRMA SYSTEM FIRMA WERSJA 22.10

Lekcja 9 - LICZBY LOSOWE, ZMIENNE

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

API transakcyjne BitMarket.pl

Klasyfikacja i oznakowanie substancji chemicznych i ich mieszanin. Dominika Sowa

Integracja systemów, integracja procesów

Optymalizacja R dlaczego warto przesi ± si na Linuxa?

Projekt U S T A W A. z dnia

Zmiany w wersji 1.18 programu VinCent Office.

Wtedy wystarczy wybrać właściwego Taga z listy.

Instrukcja zapisu do grup

Elementy Modelowania Matematycznego Wykªad 9 Systemy kolejkowe

Regulamin serwisu internetowego ramowka.fm

Uchwała Nr XXII / 242 / 04 Rady Miejskiej Turku z dnia 21 grudnia 2004 roku

Aktualizacja CSP do wersji v7.2. Sierpień 2014

MiASI. Modelowanie analityczne. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

Finansujący: Narodowy Fundusz Ochrony Środowiska i Gospodarki Wodnej w Warszawie

Generalny Dyrektor Ochrony rodowiska. Art.32 ust. 1. Art. 35 ust. 5. Art. 38. Art. 26. Art 27 ust. 3. Art. 27a

MUP.PK.III.SG /08 Lublin, dnia r.

W zadaniach na procenty wyró»niamy trzy typy czynno±ci: obliczanie, jakim procentem jednej liczby jest druga liczba,

Strona główna góra

Bazy danych. Joanna Grygiel

Transkrypt:

Wyszukiwanie i Przetwarzanie Informacji WWW Automatyczne zbieranie dokumentów WWW 1: Podstawy Marcin Sydow PJWSTK Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 1 / 31

Plan dzisiejszego wykªadu: Automatyczne Zbieranie Kolekcji Dokumentów WWW. Wprowadzenie Zagadnienia Koncepcyjne Etykieta Zagadnienia Techniczne Podsumowanie materiaªu Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 2 / 31

Wprowadzenie Nazewnictwo Omawiany w niniejszym wykªadzie moduª zbieraj cy ma wiele równolegle istniej cych nazw (szczególnie w j z. angielskim). Jako jednowyrazowa nazwa polska, w tym wykªadzie, b dzie u»ywana nazwa zbieracz. Istniej te» inne okre±lenia: robot, bot, albo szczególnie specyczne: paj k W j zyku angielskim u»ywa si nazw: crawler, Web bot/robot, spider, wanderer Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 3 / 31

Wprowadzenie Do czego sªu»y Moduª Zbierania? (ang. crawler) W klasycznym IR, kolekcje byªy dostarczane bezpo±rednio przez operatorów/u»ytkowników systemów. W przypadku WWW nie ma oczywi±cie katalogu wszystkich dost pnych dokumentów WWW. Wyszukiwarka musi zapewni bazow kolekcj dokumentów w ramach swoich normalnych operacji - do tego sªu»y Moduª Zbierania (ang. crawler) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 4 / 31

Wprowadzenie Moduª Zbierania - zasada dziaªania Startowy zestaw adresów URL - inicjalizuje kolejk Dla ka»dego URL: 1 ±ci gn 2 wyparsowa nast pne adresy URL 3 dorzuci je do kolejki Post powa tak, a» do zajd warunki zako«czenia (np. wyczerpanie zasobów) Nast pnie (niezale»nie od procesu zbierania): 1 ±ci gni te dokumenty traaj do Repozytorium 2 s pó¹niej podawane do Moduªu Indeksuj cego - powstaje Indeks Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 5 / 31

Wprowadzenie Pozostaªe Fazy Dokument po ±ci gni ciu jest na ogóª kompresowany (pojedynczo lub w porcji, razem z innymi dokumentami) parsowany w celu wydobycia kolejnych adresów URL (hiperlinków wychodz cych z danego dokumentu) do umieszczenia w kolejce zada«zapisywany w repozytorium na dysku Zarz dca kolejki zapewnia odpowiedni ilo± bie» cych zada«do ±ci gni cia tak aby optymalnie wykorzysta interfejs sieciowy i zarazem przestrzega szeregu strategii zbierania Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 6 / 31

Wprowadzenie Modykacje Podstawowego Zadania Istniej ró»ne warianty podstawowego zachowania Moduªu Zbierania, w zale»no±ci od jego przeznaczenia. Przykªady: zbieranie maksymalnej liczby dokumentów z okre±lonej grupy hostów lub domen zbieranie dokumentów z jak najwi kszej liczby hostów w danym uniwersum (np. domena.pl) zbieranie tematyczne (ang. focused crawling) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 7 / 31

Architektura Zbieracza Wprowadzenie (wg. Mining the Web S.Chakrabarti, Morgan-Kaufmann, 2003) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 8 / 31

Wprowadzenie Sterowanie Zbieraniem Do sterowania procesem zbierania moduª zbieraj cy mo»e u»ywa informacji z poprzedniego cyklu zbierania lub z innych moduªów systemu wyszukiwawczego Do informacji takich nale» np. struktura linków wielko± hosta/domeny jako± dokumentów/hosta/domeny tematyka dokumentów/hosta/domeny w jakim stopniu dany host(domena) okazaª si chªamem (ang. spam) statystyki zapyta«statystyki ruchu WWW Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 9 / 31

Zagadnienia Koncepcyjne Cechy Zbieracza Podstawowe Problemy Moduª zbieraj cy musi stawi czoªa nast puj cym problemom: Odporno± (ang. robustness): puªapki chªam wyszukiwarkowy (ang. search engine spam) bª dy awarie sprz tu wyczerpanie zasobów Etykieta - ograniczenia: jawne (robots.txt, etc.) niejawne (szanowanie cudzych zasobów - przepustowo±ci, CPU, etc.) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 10 / 31

Zagadnienia Koncepcyjne Cechy Zbieracza Po» dane Cechy: Oprócz tego, dobry moduª zbieraj cy powinien mie nast puj ce cechy: rozproszenie skalowalno± maksymalnie wydajne u»ycie wªasnych zasobów (CPU, RAM, dysk, sie, etc.) zapewnienie jako±ci zbieranej kolekcji zapewnienie ±wie»o±ci zbieranej kolekcji rozszerzalno± Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 11 / 31

Zagadnienia Koncepcyjne Cechy Zbieracza Strategie Zbierania Przy projektowaniu i sterowaniu moduªem zbieraj cym nale»y te» ustali kilka strategii: Które dokumenty zbiera? Jak od±wie»a dokumenty? Jak zminimalizowa obci»enie cudzych zasobów? Jak uwspóªbie»ni proces zbierania? Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 12 / 31

Zagadnienia Koncepcyjne Priorytetyzacja Które dokumenty zbiera? Niemo»liwe jest zebranie wszystkich dobrych dokumentów, ze wzgl du na skal sieci WWW. Dodatkowo: istnienie dokumentów dynamicznych czy aktywnych ci gªa ewolucja sieci WWW ukryty Web (ang. hidden Web) sprawiaj,»e mo»na powiedzie, i» WWW jest niesko«czony Dlatego nale»y obra strategi wyboru dokumentów do zbierania Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 13 / 31

Zagadnienia Koncepcyjne Priorytetyzacja Strategia wyboru dokumentów Dotyczy zapewnienia zbierania wa»nych dokumentów w pierwszej kolejno±ci Nale»y tu rozwa»y kilka aspektów: jak zdeniowa miar wa»no±ci strony jaki wybra algorytm priorytetowania w oparciu o w/w miar jak zgadywa, które nast pne strony s wa»ne - bez mo»liwo±ci uprzednego sprawdzenia ich zawarto±ci Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 14 / 31

Zagadnienia Koncepcyjne Priorytetyzacja Miary wa»no±ci strony Jakie strony uzna za wa»ne? Przykªady: strony o interesuj cej zawarto±ci (np. zawieraj ce okre±lone sªowa kluczowe, b d ce w okre±lonym s siedztwie tematycznym, zawieraj ce du»o obrazków, etc.) strony popularne w sensie struktury linków lub ruchu internetowego (np. maj ce wysok warto± PageRank lub innych miar opartych na analize linków grafu WWW) strony o okre±lonej lokalizacji (np. strony w domenie.pl, albo zawieraj ce czªon edu) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 15 / 31

Etykieta Protokoªy Etykiety Autorzy niektórych zasobów WWW mog zdecydowa, i»»ycz sobie (albo jest to konieczne z innych wzgl dów - np. prawnych) aby nie byªy one ±ci gane lub odwiedzane przez systemy zbieraj ce. Niepisana etykieta dotycz ca zachowania zbieraczy zakªada, i» przestrzegaj one poni»szych protokoªów etykiety (a przynajmniej pierwszego): tzw Protokóª Wykluczania Robotów (ang. The Robots Exclusion Protocol) tzw Protokóª Meta dotycz cy zbierania (ang. The Robots META tag) Protokoªy te mog by jedynie dobrowolnie przestrzegane przez roboty. Je±li to nie skutkuje mo»na zastosowa silniejsze ±rodki ochrony (np. hasªo, albo techniki rozpoznania czªowieka coraz bli»sze idei testu Turinga) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 16 / 31

Robots Exclusion Protocol Etykieta robots.txt W pliku robots.txt, na ogóª w katalogu gªównym danego portalu (ang. site), umieszczone s informacje dotycz ce zasad post powania zbieracza. Pojedynczy rekord ma pierwsze pole User-agent: (jego warto± okre±la nazw zbieracza, albo symbol '*' dotycz cy wszystkich zbieraczy) oraz list pól Disallow: (jego warto± okre±la nazw katalogu lub pliku, który nie ma by zbierany). Pola s w oddzielnych liniach, rekordy s oddzielane pustymi liniami. Pusty plik robots.txt albo pusta warto± pola Disallow: okre±la,»e wszystko jest dost pne. Plik musi by dost pny przez protokóª HTTP. Informacje na temat protokoªu s dost pne pod adresem: www.robotstxt.org Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 17 / 31

Przykªad Etykieta robots.txt User-agent: * Disallow: /draft.html Disallow: /temp/ Disallow: /fotki/robocze/ User-agent: crawl.pl Disallow: Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 18 / 31

Przykªad Etykieta robots.txt User-agent: * Disallow: /draft.html Disallow: /temp/ Disallow: /fotki/robocze/ User-agent: crawl.pl Disallow: Powy»szy zapis zabrania w katalogu gªównym, wszystkim zbieraczom ±ci gania dokumentu draft.hml, oraz wszystkich z katalogów temp oraz fotki/robocze za wyj tkiem zbieracza o nazwie crawl.pl Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 18 / 31

Rozszerzenia Etykieta robots.txt Zaproponowano pewne rozszerzenia skªadni pliku robots.txt. Nale» do nich m.in. pola: Allow:, Request-rate: i Visit-time: Praktyczna implementacja systemu zbieraj cego, który miaªby stosowa si do wszystkich proponowanych rozszerze«nie jest jednak ªatwa (szczególnie dla zbieraczy ±redniej i du»ej skali). Zbieracze poszczególnych wyszukiwarek czasami obsªuguj niektóre rozszerzenia (np. pole Allow: czy dodatkowe symbole wieloznaczne (np. '*' czy '$'). Informacje takie s dost pne na stronach podmiotów odpowiednich dla danych zbieraczy. Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 19 / 31

Etykieta Protokóª oparty na znaczniku META Protokóª wykluczania dla autorów dokumentów Plik robots.txt mo»e by umieszczony tylko jednokrotnie dla danego portalu (ang. site). Umieszczanie dodatkowych plików robots.txt w podkatalogach jest przez zbieracze ignorowane. Do zarz dzania takim plikiem na ogóª uprawniony jest tylko administrator portalu. Dlatego te», dla wygody autorów dokumentów html, istnieje dodatkowy protokóª (ang. The META tag protocol). W ka»dym dokumencie html mo»na umie±ci specjalny znacznik meta okre±laj cy czy zawarto± danego dokumentu mo»e by ±ci gana oraz czy mo»na u»ywa (analizowa ) wychodz ce z niej hiper-linki. Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 20 / 31

U»ycie Etykieta Protokóª oparty na znaczniku META W ka»dym nagªówku dokumentu html mo»na umie±ci znacznik meta z pierwszym atrybutem name=robots i nast pnym content=<lista dyrektyw>, gdzie obecnie zdeniowano 4 dyrektywy: index,noindex,follow,nofollow. Przykªad: <html> <head> <meta name="robots" content="noindex,nofollow"> </head>... Stosowanie si do tego protokoªu przez systemy zbieraj ce nie jest tak powszechne jak do protokoªu robots.txt Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 21 / 31

Zapewnianie Unikalno±ci Parsowanie linków i Normalizacja Zwykle w zbieraczach du»ej skali stosuje si specjalne parsery do wydajnego i odpornego na bª dy parsowania linków (ex) Powa»nym zagadnieniem jest normalizacja adresów URL. Ró»ne, bowiem, adresy URL mog odnosi si do tego samego dokumentu z nast puj cych powodów: w praktyce relacja IP - nazwa hosta jest relacj wiele do wielu kodowanie (np. base-64) kapitalizacja u»ywanie ±cie»ek wzgl dnych (np../../, etc.) domy±lno± /opcjonalno± niektórych fragmentów URL (np. nazwa protokoªu, numer portu, przyrostek.html, plik index.html, zapytanie, fragment dokumentu, etc.) Wszystkie powy»sze niejednoznaczno±ci sprawiaj,»e reguªy normalizacyjne (i ich obliczanie) s do± skomplikowane Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 22 / 31

Zapewnianie Unikalno±ci Unikanie wielokrotno±ci Typowo, w kolejce zbierania trzyma si tylko unikatowe adresy URL. Z tego powodu, zanim nowy URL zostanie dodany do kolejki nale»y sprawdzi czy jeszcze go tam nie ma. Operacja ta odbywa si w praktyce bardzo cz sto, wi c powinna by bardzo szybka. Osi ga si to zwykle obliczaj c kod URL (mo»na stosowa np. algorytm MD5) i stosuj c tablice mieszaj ce (trzymane w pami ci RAM). Zaleca si 2-czªonow struktur kodu mieszaj cego (np. dla hosta i dla reszty adresu URL), aby wykorzysta wyst puj c w WWW lokalno± odwoªa«(przeci tnie odwoªania wewn trz hosta s du»o cz stsze ni» poza dany host) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 23 / 31

Unikanie Duplikatów Zapewnianie Unikalno±ci Mimo stosowania normalizacji adresów URL, problemem o istotnym znaczeniu jest unikanie duplikatów, tzn. wielokrotnego ±ci gania dokumentów o takiej samej zawarto±ci, poniewa» dokumenty o ró»nych adresach URL mog mie bardzo podobn (lub identyczn ) tre±. Powodem jest m.in. replikacja zawarto±ci niektórych portali (ang. mirroring). Nale»y zauwa»y,»e ±ci gni cie duplikatu dokumentu mo»e oznacza nie tylko zb dne zu»ycie zasobów (zbieracza, dysków, etc.), ale tak»e wielokrotne dodanie adresu URL do kolejki, je±li jest on zapisany w sposób wzgl dny. Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 24 / 31

Zapewnianie Unikalno±ci Techniki wykrywania identycznej tre±ci Wydajne wykrycie dokªadnych duplikatów jest ªatwe: mo»na obliczy np. sum kontroln zawarto±ci dokumentu (np. MD5). W celu unikania wielokrotnego dodawania do kolejki linków zapisanych wzgl dnie (z dwóch identycznych dokumentów d1 i d2) mo»na te» dla wzgl dnych adresów URL postaci d1/link, d2/link reprezentowa przedrostki za pomoc haszowania ich tre±ci h(d1)/link, h(d2)/link - pozwoli to unikn wielokrotnego dodania tego samego linku o ile dokumenty s identyczne. W praktyce jednak, problemem s dokumenty prawie identyczne, ró»ni ce si jedynie drobnymi szczegóªami (np. dat modykacji, adresem administratora). Dla dokumentów takich sumy kontrolne b d oczywi±cie ró»ne. Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 25 / 31

Zapewnianie Unikalno±ci Wykrywanie dokumentów prawie identycznych Problem polega na stwierdzeniu, czy dwa dokumenty (tekstowe) maj podobn tre±. Istnieje wiele miar odlegªo±ci edycyjnych (np. Levenshtein, Monge-Elkan, Soundex). Niska warto± takiej miary dla dwóch ªa«cuchów tekstowych, oznacza»e ªa«cuchy te s podobne. Niestety wi kszo± takich miar jest zbyt intensywna obliczeniowo (np. o zªo»ono±ci kwadratowej) aby stosowa je do tre±ci caªych dokumentów WWW (±rednio ok. 10KB) w procesie ±ci gania. Popularn technik o ni»szej zªo»ono±ci obliczeniowej, praktycznie stosowaln do wykrywania dokumentów bardzo podobnych jest technika oparta na q-gramach (ang. shingling). Technika ta jest te» u»yteczna w ostatniej fazie wyszukiwania - prezentacji wyników zapytania - do grupowania wyników bardzo podobnych. Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 26 / 31

Puªapki Zagadnienia Praktyczne W praktyce, du»a cz ± dokumentów obecnych w WWW zawiera bª dy skªadniowe (i nie tylko). System zbieraj cy musi by na nie odporny. Ciekawym zjawiskiem socjologicznym s tzw. puªapki, czyli celowo sporz dzone dokumenty lub caªe grupy dokumentów maj ce doprowadzi do zaªamania systemu zbieraj cego. S.Chakrabarti (Mining the Web) cytuje natkni cie si na URL z 68 tysi cami znaków NULL w ±rodku (!), który spowodowaª zaªamanie si nawet specjalnego dedykowanego parsera przygotowanego za pomoc narz dzia flex. Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 27 / 31

Puªapki, c.d. Zagadnienia Praktyczne Innym rodzajem puªapek s dynamiczne strony produkuj ce niesko«czone kolekcje dokumentów. Ostatnio wa»nym zjawiskiem jest tzw. chªam wyszukiwarkowy (spam), na który system zbieraj cy musi by specjalnie przygotowany. Na ogóª nie ±ci ga si plików, które nie s parsowalnymi dokumentami (np. skrypty CGI albo dokumenty aktywne), co cz ±ciowo eliminuje cz ± zagro»e«marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 28 / 31

Zagadnienia Praktyczne Monitorowanie W praktyce, automatyczne zbieranie dokumentów WWW wymaga systematycznego monitorowania. Dotyczy to m.in. automatycznego ±ledzenia statystyk zwi zanych z: przepustowo±ci sieciow cz sto±ci ±ci gania dokumentów zu»yciem zasobów (RAM, CPU, dyski) Oprócz tego, w praktyce, konieczne jest umo»liwienie przesyªania informacji, uwag i komentarzy od administratorów odwiedzanych portali. Zwykle umieszcza si nazw systemu zbieraj cego wraz z kontaktowym adresem e-mail lub numerem telefonicznym w nagªówku» dania HTTP wysyªanego przez zbieracza i powoªuje osob (lub grup ) odpowiedzialn za natychmiastowe reagowanie na wszelkie sygnaªy. Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 29 / 31

Zadania Na zaliczenie tego wykªadu: 1 podstawowy cykl pracy zbieracza 2 konieczne i po» dane cechy zbieracza 3 zagadnienia strategii zbierania 4 na czym polega etykieta zbierania 5 robots exclusion protocol 6 dlaczego nale»y poda e-mail w nagªówku wysyªanym przez zbieracz 7 jak unikn duplikatów dokumentów 8 puªapki 9 dlaczego nale»y monitorowa proces zbierania Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 30 / 31

Dzi kuj za uwag Zadania Dzi kuj za uwag. Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 31 / 31