Wyszukiwanie i Przetwarzanie Informacji WWW

Podobne dokumenty

Wyszukiwanie i Przetwarzanie Informacji WWW

Subversion - jak dziaªa

POLITECHNIKA WROCŠAWSKA WYDZIAŠ ELEKTRONIKI PRACA DYPLOMOWA MAGISTERSKA

Regulamin Usªugi VPS

1 Stos: Stack i Stack<T>

Edycja geometrii w Solid Edge ST

Lab. 02: Algorytm Schrage

Informacje o omawianym programie. Założenia programu omawianego w przykładzie

Metody numeryczne i statystyka dla in»ynierów

Zarządzanie Zasobami by CTI. Instrukcja

SVN - wprowadzenie. 1 Wprowadzenie do SVN. 2 U»ywanie SVN. Adam Krechowicz. 16 lutego Podstawowe funkcje. 2.1 Windows

Uczenie Wielowarstwowych Sieci Neuronów o

System kontroli wersji SVN

Zarządzanie projektami. wykład 1 dr inż. Agata Klaus-Rosińska

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

1 Metody iteracyjne rozwi zywania równania f(x)=0

Dobre praktyki w zakresie zarządzania ładem architektury korporacyjnej

Lekcja 8 - ANIMACJA. 1 Polecenia. 2 Typy animacji. 3 Pierwsza animacja - Mrugaj ca twarz

Propozycja integracji elementów ±wiata gry przy u»yciu drzew zachowa«

Regulamin rekrutacji

Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd.

Przypomnienie najważniejszych pojęć z baz danych. Co to jest baza danych?

W dobie postępującej digitalizacji zasobów oraz zwiększającej się liczby dostawców i wydawców

Analiza wydajno±ci serwera openldap

Metody numeryczne. Wst p do metod numerycznych. Dawid Rasaªa. January 9, Dawid Rasaªa Metody numeryczne 1 / 9

Moduł. Rama 2D suplement do wersji Konstruktora 4.6

Bazy danych. Joanna Grygiel

Podstawy modelowania w j zyku UML

Praca Dyplomowa Magisterska

Charakterystyka systemów plików

SVN - wprowadzenie. 1 Wprowadzenie do SVN. 2 U»ywanie SVN. Adam Krechowicz 24 czerwca Podstawowe funkcje. 2.1 Windows

Projektowanie bazy danych

POMOC PSYCHOLOGICZNO-PEDAGOGICZNA Z OPERONEM. Vademecum doradztwa edukacyjno-zawodowego. Akademia

Regulamin Pracy Komisji Rekrutacyjnej w Publicznym Przedszkolu Nr 5 w Kozienicach

Bazy danych. Andrzej Łachwa, UJ, /15

Rozwi zywanie Ukªadów Równa«Liniowych Ax=B metod dekompozycji LU, za pomoc JAVA RMI

Matematyka wykªad 1. Macierze (1) Andrzej Torój. 17 wrze±nia Wy»sza Szkoªa Zarz dzania i Prawa im. H. Chodkowskiej

Podstawy modelowania w j zyku UML

Harmonogramowanie projektów Zarządzanie czasem

Wzorce projektowe kreacyjne

UZASADNIENIE. I. Potrzeba i cel renegocjowania Konwencji

Programowanie wspóªbie»ne

ZAŠ CZNIK DANYCH TECHNICZNYCH

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

przewidywania zapotrzebowania na moc elektryczn

Konfiguracja historii plików

Ostatnia cena sprzeda y klienta 1.0 dodatek do Symfonia Faktura dla 1 firmy

Nazwa kierunku Gospodarka przestrzenna

KLAUZULE ARBITRAŻOWE

Baza danych - Access. 2 Budowa bazy danych

Generalny Dyrektor Ochrony rodowiska. Art.32 ust. 1. Art. 35 ust. 5. Art. 38. Art. 26. Art 27 ust. 3. Art. 27a

PRZEDMIOTOWY SYSTEM OCENIANIA Z PODSTAW PSYCHOLOGII W KLASIE DRUGIEJ. Ocenianie wewnątrzszkolne na przedmiocie podstawy psychologii ma na celu:

Ekonometria - wykªad 8

EDUKARIS - O±rodek Ksztaªcenia

USTAWA. z dnia 29 sierpnia 1997 r. Ordynacja podatkowa. Dz. U. z 2015 r. poz

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

w sprawie przekazywania środków z Funduszu Zajęć Sportowych dla Uczniów

Instrukcja postępowania w celu podłączenia do PLI CBD z uwzględnieniem modernizacji systemu w ramach projektu PLI CBD2

Zarz dzanie rm. Zasada 2: samoorganizuj ce si zespoªy. Piotr Fulma«ski. March 17, 2015

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA NIEMIECKIEGO

REGULAMIN przeprowadzania okresowych ocen pracowniczych w Urzędzie Miasta Mława ROZDZIAŁ I

Prawa i obowiązki pracownika oraz pracodawcy w zakresie BHP

Strategia rozwoju kariery zawodowej - Twój scenariusz (program nagrania).

Listy i operacje pytania

Szczegółowe zasady obliczania wysokości. i pobierania opłat giełdowych. (tekst jednolity)

Plan połączenia ATM Grupa S.A. ze spółką zależną ATM Investment Sp. z o.o. PLAN POŁĄCZENIA

Zmiany przepisów ustawy -Karta Nauczyciela. Warszawa, kwiecień 2013

PROCEDURA AWANSU ZAWODOWEGO NA STOPIEŃ NAUCZYCIELA MIANOWANEGO W ZESPOLE SZKÓŁ INTEGRACYJNYCH NR 1 W KATOWICACH

Zastosowania matematyki

REGULAMIN RADY NADZORCZEJ. I. Rada Nadzorcza składa się z co najmniej pięciu członków powoływanych na okres wspólnej kadencji.

Ukªady równa«liniowych

ROZPORZĄDZENIE KOMISJI (UE) NR

Model obiektu w JavaScript

PRZEDMIOTOWY SYSTEM OCENIANIA z przedmiotu matematyka

Szeregowanie zada« Przedmiot fakultatywny 15h wykªadu + 15h wicze« dr Hanna Furma«czyk. 7 pa¹dziernika 2013

Microsoft Management Console

Elementy Modelowania Matematycznego Wykªad 9 Systemy kolejkowe

Nowe podejście do zamówień publicznych Cele i problemy badawcze

Zadanie 1. (8 punktów) Dana jest nast puj ca macierz: M =

ZP Obsługa bankowa budżetu Miasta Rzeszowa i jednostek organizacyjnych

KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu

Statut Audytu Wewnętrznego Gminy Stalowa Wola

Kontrola na zakończenie realizacji projektu. Trwałość projektu

Konfigurator opisuje proces instalacji i konfiguracji karty sieciowej bezprzewodowej D-Link DWL-520+ w systemach /2000/XP /

Programowanie Zespołowe

Metody dowodzenia twierdze«

Program szkoleniowy Efektywni50+ Moduł III Standardy wymiany danych

Portretowanie zdolności i ich rozwój. Projekt współfinansowany z Unii Europejskiej w ramach Europejskiego Funduszu Społecznego

Liczba stron: 3. Prosimy o niezwłoczne potwierdzenie faktu otrzymania niniejszego pisma.

c Marcin Sydow Przepªywy Grafy i Zastosowania Podsumowanie 12: Przepªywy w sieciach

PLD Linux Day. Maciej Kalkowski. 11 marca Wydziaª Matematyki i Informatyki UAM

Spis tre±ci. Przedmowa... Cz ± I

CASE CPI może być wczesnym wskaźnikiem tendencji zmian cen w gospodarce

PROCEDURA OCENY RYZYKA ZAWODOWEGO. w Urzędzie Gminy Mściwojów

Problemy w realizacji umów o dofinansowanie SPO WKP 2.3, 2.2.1, Dzia anie 4.4 PO IG

Audyt SEO. Elementy oraz proces przygotowania audytu. strona

Rzut oka na zagadnienia zwi zane z projektowaniem list rozkazów

Transkrypt:

Wyszukiwanie i Przetwarzanie Informacji WWW Automatyczne zbieranie dokumentów WWW 2: Zagadnienia techniczne i przechowywanie Marcin Sydow PJWSTK Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 1 / 35

Plan dzisiejszego wykªadu: Automatyczne Zbieranie Kolekcji Dokumentów WWW. Wprowadzenie Zapewnienie ±wie»o±ci kolekcji Zagadnienia wspóªbie»no±ci przy zbieraniu Repozytorium dokumentów Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 2 / 35

Wprowadzenie Moduª Zbierania - zasada dziaªania (przypomnienie) Startowy zestaw adresów URL - inicjalizuje kolejk Dla ka»dego URL: 1 ±ci gn 2 wyparsowa nast pne adresy URL 3 dorzuci je do kolejki Post powa tak, a» do zajd warunki zako«czenia (np. wyczerpanie zasobów) Nast pnie (niezale»nie od procesu zbierania): 1 ±ci gni te dokumenty traaj do Repozytorium 2 s pó¹niej podawane do Moduªu Indeksuj cego - powstaje Indeks Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 3 / 35

Wprowadzenie Modykacje Podstawowego Algorytmu Istniej ró»ne warianty podstawowego zachowania Moduªu Zbierania, w zale»no±ci od jego przeznaczenia. Przykªady: zbieranie dokumentów z jak najwi kszej liczby hostów w danym uniwersum (np. domena.pl) zbieranie maksymalnej liczby dokumentów z okre±lonej grupy hostów lub domen zbieranie tematyczne (ang. focused crawling) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 4 / 35

Architektura Zbieracza Wprowadzenie (wg. Mining the Web S.Chakrabarti, Morgan-Kaufmann, 2003) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 5 / 35

Strategia Od±wie»ania Strony WWW zmieniaj si. Od±wie»anie WWW jest nie tylko bardzo dynamiczny, ale równie» zró»nicowany - niektóre strony zmieniaj si w ka»dej minucie (np. wiadomo±ci) inne co kilka miesi cy Nale»y ustali strategi ponownego odwiedzania stron. Np. cz stotliwo± ponownego odwiedzania stron mo»e by : jednorodna (jednakowa cz stotliwo± od±wie»ania wszystkich stron) proporcjonalna (do cz stotliwo±ci zmian odwiedzanych stron - bazuje jedynie na oszacowaniu) specjalna (ustalana odgórnie dla pewnych grup dokumentów. Np. serwisy nansowe i wiadomo±ci - codziennie) Powy»sze (i inne) strategie od±wie»ania mo»na stosowa równocze±nie do ró»nych grup dokumentów. Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 6 / 35

Od±wie»anie Przykªadowe najprostsze miary ±wie»o±ci Najprostszy przykªad: Dyskretna miara ±wie»o±ci dokumentu d i momencie t: { 1 di aktualne w momencie t F (d i, t) = 0 w.p.p. w wie»o± w momencie t kolekcji K zawieraj cej N dokumentów mo»na zdeniowa nast puj co: F (K, t) = 1 N N i=1 F (d i, t) (wg. J.Cho, Crawling the Web. Discovery and maintenance of large-scale Web Data, Ph.D. thesis, Stanford Univ.) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 7 / 35

Od±wie»anie Wiek dokumentu i kolekcji Przykªad miary wieku dokumentu d i w momencie t o czasie ostatniej modykacji mod(d { i ): 0 d A(d i, t) = i aktualne w momencie t t mod(d i ) w.p.p. Wiek kolekcji K zawieraj cej N dokumentów, w momencie t: A(K, t) = 1 N N i=1 A(d i, t) (wg. J.Cho, Crawling the Web. Discovery and maintenance of large-scale Web Data, Ph.D. thesis, Stanford Univ.) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 8 / 35

Od±wie»anie Dynamiczna Miara wie»o±ci Mo»na te» deniowa miar ±wie»o±ci z uwzgl dnieniem upªywu czasu t: dla dokumentu d i : F (d i ) = lim 1 t t t 0 F (d i, t)dt i dla caªej kolekcji K: F (K) = lim t 1 t t 0 F (K, t)dt (wg. J.Cho, Crawling the Web. Discovery and maintenance of large-scale Web Data, Ph.D. thesis, Stanford Univ.) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 9 / 35

Od±wie»anie Porównanie strategii kolejno±ci zbierania Porównanie tempa lokalizowania stron warto±ciowych przy u»yciu ró»nych miar wa»no±ci stron. P ST - udziaª zebranych stron najwa»niejszych (wg. J.Cho, Crawling the Web. Discovery and maintenance of large-scale Web Data, Ph.D. thesis, Stanford Univ.) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 10 / 35

Od±wie»anie Wybór strategii od±wie»ania Udowodniono,»e przy powy»ej zdeniowanych miarach i zaªo»eniu, i» dokumenty s modykowane zgodnie z procesem Poissona strategia jednorodna jest zawsze lepsza od strategii proporcjonalnej. Pokazano te» optymaln (w sensie maksymalizacji ±wie»o±ci kolekcji) strategi od±wie»ania przy zaªo»eniu staªych cz stotliwo±ci od±wie»ania dokumentów. (J.Cho et al. Synchronizing a database to improve freshness. Proc. of the ICMD, 2000) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 11 / 35

Zagadnienia Techniczne Od koncepcji do szczegóªów Nadmienione poprzednio zagadnienia s natury wysoko-poziomowej i koncepcyjnej. Mimo prostej podstawowej zasady dziaªania, moduª zbieraj cy (szczególnie dotycz cy systemów ±redniej i du»ej skali) jest równie» zwi zany z szeregiem ciekawych (i cz sto nieªatwych) problemów natury technicznej. W praktyce, to wªa±nie zagadnienia techniczne sprawiaj,»e zadanie automatycznego zbierania ±rednich i du»ych kolekcji jest uwa»ane za skomplikowane i obtuj ce w szereg wyzwa«natury in»ynieryjnej. Omówione teraz zostan najwa»niejsze w/w aspekty techniczne Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 12 / 35

Zagadnienia Techniczne Wspóªbie»no± Zbierania Z perspektywy technicznej, podstawowa pojedyncza iteracja moduªu zbieraj cego skªada si z nast puj cych kroków: 1 rozwi zywanie DNS (dla hosta w bie» cym adresie URL) 2 nawi zywanie poª czenia (przez gniazdo sieciowe) z wyznaczonym serwerem HTTP i wysªanie» dania 3 odbieranie» danych zasobów (w odpowiedzi) Poniewa» 2 pierwsze kroki sprowadzaj si do oczekiwania, system zbieraj cy powinien wykonywa wiele takich iteracji wspóªbie»nie, aby osi gn zadowalaj c szybko± ±ci gania, poprzez przeplatanie operacji i oczekiwania Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 13 / 35

W skie Gardªo Zagadnienia Techniczne Zauwa»my,»e dla krótkich dokumentów rozwi zywanie DNS i nawi zywanie poª czenia sieciowego z serwerem stanowi stosunkowo du» cz ± czasu potrzebnego na obsªu»enie danego adresu URL. Dodatkowo, istotn obserwacj jest,»e ograniczenia te nie mog by zrównowa»one przez zwi kszenie przepustowo±ci ª cza sieciowego. Cykl ±ci gania pojedynczego dokumentu na ogóª zakodowany jest za pomoc specjalnego w tku logicznego (niezale»nego od w tków dostarczanych przez system operacyjny lub ±rodowisko) reprezentuj cego kolejne poszczególne stany ±ci gania danego dokumentu. Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 14 / 35

Zagadnienia Techniczne Techniczne Wyzwania Du»ej Skali Nale»y podkre±li,»e w przypadku zbierania kolekcji du»ej skali, nast puj ce zagadnienia techniczne nabieraj krytycznej istotno±ci dla prawidªowego dziaªania systemu: opó¹nienia wynikaj ce z operacji sieciowych sprawiaj,»e systemy zbieraj ce du»ej skali musz dokonywa ±ci gania setek lub tysi cy dokumentów równolegle lub wspóªbie»nie warunkiem koniecznym wysokiej wspóªbie»no±ci ±ci gania jest wspóªbie»no± rozwi zywania DNS (mo»na j poprawi m.in. przez replikacj serwerów DNS) w tki, procesy lub procesy lekkie zapewniane przez system operacyjny na ogóª nie s wystarczaj co efektywnym ±rodkiem zapewnienia wspóªbie»no±ci. Nale»y jawnie zakodowa w tki logiczne reprezentuj ce kolejne stany ±ci gania dokumentu i u»ywa asynchronicznego (nieblokuj cego) interfejsu we/wy du»o uwagi nale»y po±wi ci unikaniu ±ci gania duplikatów i radzenia sobie z puªapkami Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 15 / 35

Zagadnienia DNS Zagadnienia Techniczne Zbieranie kolekcji WWW na ±redni i du» skal stwarza warunki, w których standardowe rozwi zania DNS mog okaza si niewystarczaj ce. W wi kszo±ci zastosowa«, kiesa DNS (ang. DNS cache) przystosowana jest do przechowywania dostatecznie du»ej ilo±ci ostatnio rozwi zywanych adresów. Jednak zbieracz musi szczególnie unika obci»ania pojedynczych serwerów HTTP, a wi c pojawia si wyra¹na nielokalno± odwoªa«do kiesy DNS. Ponadto, przy zbieraniu du»ej i ±redniej skali wyst puj setki albo tysi ce odwoªa«w ci gu sekundy. Z tych powodów, standardowe rozwi zania DNS mog okaza si w skim gardªem systemu. Ponadto, niektóre standardowe implementacje klientów DNS, nie wspieraj wspóªbie»nego przetwarzania» da«dns. Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 16 / 35

Zagadnienia Techniczne Rozwi zania Problemów z DNS eby rozwi za w/w problemy, w systemach du»ej skali stosuje si specjalne rozwi zania DNS: specjalne klienty DNS specjalne serwery kiesy (ang. caching server) odpytywanie wyprzedzaj ce DNS (ang. DNS prefetching) realizowane przez specjalnego klienta (przez UDP) replikacja w/w moduªów Np. w systemie Mercator (Compaq System Research Center) zmniejszono czas sp dzany przez zbieracza na rozwi zywaniu DNS z 70% do 14%. (High-Performance Web Crawling, M.Najork, A.Heydon) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 17 / 35

Cykl»ycia dokumentu Fazy cyklu»ycia dokumentu 1 ci ganie 2 Indeksowanie 3 Obsªuga zapyta«4 Aktualizacja Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 18 / 35

Cykl»ycia dokumentu Cykl»ycia dokumentu: faza 1 - zbieranie ci ganie dokumentu: 1 URL wskazuj cy na dokument traa do kolejki zbieracza 2 dokument jest ±ci gany przez moduª zbieraj cy 3 parsowanie w celu wydobycia linków (i ew. innych statystyk) 4 kompresja 5 zapisanie w repozytorium Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 19 / 35

Cykl»ycia dokumentu Cykl»ycia dokumentu: faza 2 - indeksowanie Indeksowanie: 1 pobranie z repozytorium 2 dekompresja 3 preprocessing 4 indeksowanie 5 dokument jest zachowywany w indeksie w nowej formie: list inwersyjnych Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 20 / 35

Cykl»ycia dokumentu Dla peªno±ci: pozostaªe fazy»ycia dokumentu Obsªuga zapytania: oblicz otaczaj cy tekst (ang. snippet) w miar potrzeby zwró kopi (z repozytorium) Aktualizacja: Usu«dokument z repozytorium (w momencie ±ci gni cia nowszej kopii) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 21 / 35

Repozytorium Przechowywanie Kolekcji - Repozytorium Dokumenty kolekcji ±ci ganej przez moduª zbieraj cy traaj do Repozytorium. Dokumenty s przechowywane na ogóª w formie skompresowanej na no±nikach dyskowych lub czasami ta±mowych. Repozytorium ma za zadanie zorganizowa trwaªo± i wygodny dost p do ogromnej ilo±ci danych (dokumentów) Wymagania te sprawiaj,»e Repozytorium dokumentów peªni podobne funkcje do systemów plików lub baz danych. Jednak s pewne ró»nice: 1 Repozytorium nie musi zapewnia wspierania transakcji, logowania czy struktury katalogów 2 Z drugiej strony, Repozytorium wyszukiwarki musi speªnia pewne dodatkowe wymogi, nietypowe dla systemu bazy danych czy systemów plików Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 22 / 35

Cechy Repozytorium Repozytorium Od repozytorium oczekuje si nast puj cych specjalnych wªasno±ci: Skalowalno±ci Dwóch trybów dost pu: swobodnego (np. do obsªugi zapyta«, analizy kolekcji) strumieniowego (np. do szybkiego indeksowania) Mo»liwo±ci masowego uaktualniania kolekcji Zarz dzania dokumentami nieaktualnymi Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 23 / 35

Repozytorium Przykªad Architektury - Stanford WebBase (wg dokumentacji Stanford WebBase) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 24 / 35

Repozytorium Zagadnienia do Rozwi zania Na ogóª, ze wzgl du na rozmiary kolekcji i wydajno±, repozytorium ma architektur rozproszon - kolekcja przechowywana jest w wielu w zªach poª czonych w sie. W takim wypadku, przy projektowaniu repozytorium nale»y podj m.in. nast puj ce decyzje: Strategia przydziaªu dokumentów do poszczególnych w zªów Fizyczna organizacja danych na ka»dym pojedynczym w ¹le Strategia uaktualniania kolekcji Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 25 / 35

Repozytorium Strategia rozpraszania dokumentów Dokumenty mo»na przydziela do w zªów wg ró»nych kryteriów, np.: losowo (obci»enie w zªów proporcjonalne do ich mo»liwo±ci) w oparciu o obliczony identykator (ang. hash) dokumentu. Identykator taki mo»e odzwierciedla rozmaite informacje, np. host z jakiego pochodzi (tzn. dokumenty pochodz ce z tego samego hosta maj np. identyczny przedrostek identykatora) W rzeczywistych systemach cz stym rozwi zaniem jest tak»e replikacja kolekcji. Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 26 / 35

Repozytorium Fizyczna organizacja w ramach w zªa Sposób skªadowania dokumentów musi odzwierciedla podstawowe operacje, które mog by wykonywane na repozytorium - dodawanie pojedynczego dokumentu, szybki transfer du»ych ilo±ci dokumentów, swobodny dost p do danego dokumentu. Do najprostszych metod organizacji nale» : sekwencyjna (zgodna z kolejno±ci zapisu) mieszaj ca (ang. hash) W przypadku organizacji sekwencyjnej utrzymuje si na ogóª dodatkow struktur indeksu (np. w postaci B-drzewa) umo»liwiaj c operacj dost pu swobodnego. Organizacja sekwencyjna mimo swej prostoty spisuje si caªkiem nie¹le w praktyce (za wyj tkiem masowej obsªugi operacji dost pu swobodnego). Nie nadaje si najlepiej do operacji uaktualniania stron. Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 27 / 35

Repozytorium Strategia uaktualniania kolekcji System zbieraj cy mo»e by przystosowany do dziaªania w jednym z dwóch trybów: dyskretnym (cykliczne ±ci ganie z warunkiem zako«czenia) ci gªym (nieustanne odnawianie kolekcji) W trybie dyskretnym pracuj np. niewielkie zbieracze eksperymentalne, naukowe lub zbieracze wyszukiwarek tematycznych, albo zwi zanych z danym portalem. Tryb ci gªy jest natomiast charakterystyczny dla wyszukiwarek komercyjnych wielkiej i ±redniej skali. Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 28 / 35

Repozytorium Strategia uaktualniania kolekcji, c.d. Przy zbieraniu w trybie dyskretnym mo»na: caªkowicie zast pi caª poprzedni kolekcj nowymi dokumentami uaktualnia tylko cz ± dokumentów (np. te o wi kszej warto±ci) W przypadku cz ±ciowej modykacji kolekcji wygodnie jest utrzymywa 2-poziomow struktur repozytorium (dokumenty ±wie»e i poprzednie). Uªatwia to wykonywanie na repozytorium równocze±nie operacji zapisu i odczytu (np. rozwi zanie takie zastosowano w Stanford WebBase) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 29 / 35

Repozytorium Aktualizacja: Klasy dokumentów Przy rozwa»aniu problemu aktualizacji kolekcji mo»na rozró»ni 3 klasy dokumentów: klasa A: nowo ±ci gni te dokumenty (niewidziane wcze±niej, lub widziane ale w innej, starszej wersji) klasa B: niezmienione kopie dokumentów (w najnowszym cyklu ±ci gania nie natraono na ich nowsze wersje) klasa C: stare wersje dokumentów (nowsze wersje ju» s ±ci gni te) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 30 / 35

Repozytorium Kolejno± aktualizacji repozytorium Od±wie»enie kolekcji ma wi c nast puj c posta : 1 przyj cie stron klasy A do repozytorium 2 odbudowanie struktur repozytorium na podstawie dokumentów klas A i B 3 usuni cie dokumentów klasy C Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 31 / 35

Repozytorium Przykªadowa Architektura Repozytorium Architektura Repozytorium Stanford WebBase (wg. Searching the Web, A.Arasu et al.) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 32 / 35

Repozytorium Przykªady znanych repozytoriów (poza wyszukiwarkami) Stanford WebBase (pionierskie, obecnie maªo aktywne?) Internet Archive (powa»na sprawa - obecnie: 150.000.000.000 dokumentów(!) w tym unikalna mo»liwo± obejrzenia jak wygl daª dany dokument w przeszªo±ci (!) - wayback machine) Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 33 / 35

Zadania Na zaliczenie tego wykªadu: 1 zagadnienia strategii zbierania i od±wie»ania 2 (*) miary ±wie»o±ci 3 protokoªy wykluczania 4 (*) wspóªbie»no± 5 (*) zagadnienia DNS 6 Cykl»ycia dokumentu 7 Do czego i kiedy u»ywane jest repozytorium? 8 Po» dane cechy repozytorium 9 Strategie od±wie»ania Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 34 / 35

Dzi kuj za uwag Zadania Dzi kuj za uwag. Marcin Sydow (PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 35 / 35