W STRONÊ INTELIGENTNYCH SYSTEMÓW WYSZUKIWAWCZYCH W SIECI INTERNET



Podobne dokumenty
revati.pl Drukarnia internetowa Szybki kontakt z klientem Obs³uga zapytañ ofertowych rozwi¹zania dla poligrafii Na 100% procent wiêcej klientów

Czy przedsiêbiorstwo, którym zarz¹dzasz, intensywnie siê rozwija, ma wiele oddzia³ów lub kolejne lokalizacje w planach?

Instrukcja U ytkownika Systemu Antyplagiatowego Plagiat.pl

PODNOSZENIE EFEKTYWNOŒCI PRZEDSIÊBIORSTWA - PROJEKTOWANIE PROCESÓW

Wytyczne Województwa Wielkopolskiego

PLANY WYNIKOWE W ZAKRESIE III KLASY GIMNAZJUM. opracowane na podstawie materia³ów katechetycznych Jezus prowadzi i zbawia z serii W DRODZE DO EMAUS

OFERTA PROMOCYJNA

GEO-SYSTEM Sp. z o.o. GEO-RCiWN Rejestr Cen i Wartości Nieruchomości Podręcznik dla uŝytkowników modułu wyszukiwania danych Warszawa 2007

gdy wielomian p(x) jest podzielny bez reszty przez trójmian kwadratowy x rx q. W takim przypadku (5.10)

Jacek Mrzyg³ód, Tomasz Rostkowski* Rozwi¹zania systemowe zarz¹dzania kapita³em ludzkim (zkl) w bran y energetycznej

Rys Mo liwe postacie funkcji w metodzie regula falsi

Œwie e spojrzenie na miasto

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych ul. Koszykowa 75, Warszawa

Blokady. Model systemu. Charakterystyka blokady

Zasady racjonalnego dokumentowania systemu zarządzania

Steelmate - System wspomagaj¹cy parkowanie z oœmioma czujnikami

Polityka prywatności strony internetowej wcrims.pl

elektroniczna Platforma Usług Administracji Publicznej

ECDL Advanced Moduł AM3 Przetwarzanie tekstu Syllabus, wersja 2.0

PREZENTACJA INFORMACJI FINANSOWEJ w analizach i modelowaniu finansowym. - dane z rynków finansowych DANE RÓD OWE

TÜV Rheinland Polska. Nowy Znak. Odpowiadamy na Pañstwa pytania.

Zarządzanie projektami. wykład 1 dr inż. Agata Klaus-Rosińska

Marcin Werla

Ethernet VPN tp. Twój œwiat. Ca³y œwiat.

Modelowanie œrodowiska 3D z danych pomiarowych**

Podstawa programowa kształcenia ogólnego informatyki w gimnazjum

Wytyczne Menad era Funduszy Powierniczych

Nasz kochany drogi BIK Nasz kochany drogi BIK

Innym wnioskiem z twierdzenia 3.10 jest

Przypomnienie najważniejszych pojęć z baz danych. Co to jest baza danych?

Automatyczne przetwarzanie recenzji konsumenckich dla oceny użyteczności produktów i usług

KOMISJA WSPÓLNOT EUROPEJSKICH. Wniosek DECYZJA RADY

3.2 Warunki meteorologiczne

enova Workflow Obieg faktury kosztowej

W dobie postępującej digitalizacji zasobów oraz zwiększającej się liczby dostawców i wydawców

Œwie e spojrzenie na miasto

created by ENIGMATIS POLSKA Identyfikacja wizualna

WZÓR SKARGI EUROPEJSKI TRYBUNAŁ PRAW CZŁOWIEKA. Rada Europy. Strasburg, Francja SKARGA. na podstawie Artykułu 34 Europejskiej Konwencji Praw Człowieka

CENTRUM BADANIA OPINII SPOŁECZNEJ

Instalacja Plugin. Rys. 1. Folder Plugin.

CZY JEDNYM POSUNIÊCIEM DA SIÊ ROZWI ZAÆ WSZYSTKIE UK ADY DWÓCH RÓWNAÑ LINIOWYCH?

Formularz Zgłoszeniowy propozycji zadania do Szczecińskiego Budżetu Obywatelskiego na 2016 rok

Powszechność nauczania języków obcych w roku szkolnym

Program Google AdSense w Smaker.pl

DE-WZP JJ.3 Warszawa,

III. INTERPOLACJA Ogólne zadanie interpolacji. Niech oznacza funkcjê zmiennej x zale n¹ od n + 1 parametrów tj.

STOISKA - spis treœci STOISKA stoiska PROMOCYJNE stoiska SPRZEDA OWE stoiska TARGOWE stoiska SKLEPOWE / zabudowy

Regulamin serwisu internetowego ramowka.fm

ZNAK MARKI ZASADY STOSOWANIA

Program Internet Start Up. WejdŸ do gry. Autor Programu. Partner Programu

Microsoft Management Console

IV. UK ADY RÓWNAÑ LINIOWYCH

Sieć komputerowa grupa komputerów lub innych urządzeo połączonych ze sobą w celu wymiany danych lub współdzielenia różnych zasobów, na przykład:

KRYTERIA OCENIANIA Z INFORMATYKI DLA KLASY VI. Wstęp. Na lekcji informatyki osiągnięcia edukacyjne uczniów będą sprawdzane poprzez:

MIÊDZYNARODOWY STANDARD REWIZJI FINANSOWEJ 610 KORZYSTANIE Z WYNIKÓW PRACY AUDYTORÓW SPIS TREŒCI

Temat: Funkcje. Własności ogólne. A n n a R a j f u r a, M a t e m a t y k a s e m e s t r 1, W S Z i M w S o c h a c z e w i e 1

SYS CO. TYLU MENAD ERÓW ROCZNIE na ca³ym œwiecie uzyskuje kwalifikacje ILM

System do kontroli i analizy wydawanych posiłków

Chmura obliczeniowa. do przechowywania plików online. Anna Walkowiak CEN Koszalin

Rega³y paletowe wykonane zgodnie z zapotrzebowaniem

Technologie internetowe Internet technologies Forma studiów: Stacjonarne Poziom kwalifikacji: I stopnia. Liczba godzin/tydzień: 2W, 2L

Jakie są te obowiązki wg MSR 41 i MSR 1, a jakie są w tym względzie wymagania ustawy o rachunkowości?

Instrukcja obsługi platformy zakupowej e-osaa (klient podstawowy)

FORUM ZWIĄZKÓW ZAWODOWYCH

*** Przeczytaj najpierw, ponieważ to WAŻNE: ***

Rozwiązywanie nazw w sieci. Identyfikowanie komputerów w sieci

Efektywna strategia sprzedaży

System Centrala. System Centrala - opis systemu. System Centralnego Zarz±dzania "Magnat Centrala" stanowi istotne

ARKUSZ III KRYTERIA OCENIANIA

Zapraszamy. codziennej pracy. ka dego naukowca. Efektywne narzêdzie. Platforma ³¹cz¹ca ludzi nauki. Platforma ³¹cz¹ca ludzi nauki.

na otaczający świat pozytywnie wpłynąć

Jeśli jednostka gospodarcza chce wykazywać sprawozdania dotyczące segmentów, musi najpierw sporządzać sprawozdanie finansowe zgodnie z MSR 1.

Instalacja. Zawartość. Wyszukiwarka. Instalacja Konfiguracja Uruchomienie i praca z raportem Metody wyszukiwania...

REGULAMIN PRZESYŁANIA I UDOSTĘPNIANIA FAKTUR W FORMIE ELEKTRONICZNEJ E-FAKTURA ROZDZIAŁ 1. I. Postanowienia ogólne

Archiwum Prac Dyplomowych

Spis treœci. Spis treœci

PoluProduction. <jedi> Vision. Version 1.0

OPIS PRZEDMIOTU ZAMÓWIENIA DO ZAPYTANIA KE1/POIG 8.2/13

HAŚKO I SOLIŃSKA SPÓŁKA PARTNERSKA ADWOKATÓW ul. Nowa 2a lok. 15, Wrocław tel. (71) fax (71) kancelaria@mhbs.

art. 488 i n. ustawy z dnia 23 kwietnia 1964 r. Kodeks cywilny (Dz. U. Nr 16, poz. 93 ze zm.),

Firma Informatyczna JazzBIT

Medium nr 1 w Pszczynie

Rudniki, dnia r. Zamawiający: PPHU Drewnostyl Zenon Błaszak Rudniki Opalenica NIP ZAPYTANIE OFERTOWE

WYMAGANIA EDUKACYJNE Z PRZEDMIOTÓW ZAWODOWYCH ODBYWAJĄCYCH SIĘ W SZKOLNYM LABORATORIUM CHEMICZNYM

EGZAMIN MATURALNY Z INFORMATYKI

Harmonogramowanie projektów Zarządzanie czasem

Skuteczność i regeneracja 48h albo zwrot pieniędzy


85 tys. unikalnych u ytkowników

1. Od kiedy i gdzie należy złożyć wniosek?

Nowości w module: BI, w wersji 9.0

Informacje o omawianym programie. Założenia programu omawianego w przykładzie

System kontroli wersji SVN

Zapraszam do udziału w XIII edycji konferencji z cyklu składowanie i archiwizacja, która tym razem jest poświęcona Backupowi online.

PROE wykład 7 kontenery tablicowe, listy. dr inż. Jacek Naruniec

Zapytanie ofertowe. Projekt realizowany przy współfinansowaniu ze środków Unii Europejskiej, w ramach Programu Operacyjnego Pomoc Techniczna

Monitoring oraz rozliczenie zu ycia. energii i mediów. Systemy pomiarowe, monitorowanie, archiwizacja i wizualizacja

INSTRUKCJA SERWISOWA. Wprowadzenie nowego filtra paliwa PN w silnikach ROTAX typ 912 is oraz 912 is Sport OPCJONALNY

VLAN Ethernet. być konfigurowane w dowolnym systemie operacyjnym do ćwiczenia nr 6. Od ćwiczenia 7 należy pracować ć w systemie Linux.

Transkrypt:

Internet, wyszukiwanie danych, data mining, interfejsy u ytkownika Piotr GAWRYSIAK gawrysia@ii.pw.edu.pl Instytut Informatyki, Politechnika Warszawska ul. Nowowiejska 15/19, 00-665 Wars zawa W STRONÊ INTELIGENTNYCH SYSTEMÓW WYSZUKIWAWCZYCH W SIECI INTERNET W artykule przedstawiono niektóre z problemów zwi¹zanych z projektowaniem i wykorzystywaniem systemów wyszukiwania informacji w sieci Internet. Zwrócono uwagê na heterogenicznoœæ infor macji zawartej w sieci i powodowany przez to wzrost znaczenia metod specyfikowania zapytañ w systemach wyszukiwania danych. Rozwa ono tak e zasadnoœæ stosowania nieklasycznych podejœæ wyszukiwania informacji w Internecie, polegaj¹ce na wykorzystaniu informacji nietekstowej i zastosowaniu metod automatycznej eksploracji danych (ang. data mining). Postuluje siê tak e traktowanie wyszukiwania informacji w sieci jako procesu, w którym efekty mog¹ byæ osi¹gane s¹ dziêki wspó³pracy u ytkownika, inteligentnych narzêdzi przegl¹dania stron WWW i autonomicznych systemów agenckich. 1. WSTÊP Internet zosta³ stworzony jako wojskowy system komunikacyjny, którego u ytecznoœæ zosta³a tak e szybko doceniona i wykorzystana przez spo³ecznoœæ akademick¹. W obu tych przypadkach jego u ytkownikami byli wysokiej klasy profesjonaliœci, dla których efektywne korzystanie ze skomplikowanych rozwi¹zañ sprzêtowych i programowych nie stanowi³o wiêkszego problemu. Najbardziej rozpowszechnionym w latach 80-tych i pocz¹tku lat 90-tych na wy szych uczelniach systemem operacyjnym by³ Unix w swych ró nych odmianach. By³ to (i pozostaje po dziœ dzieñ) bardzo skomplikowany i niezbyt przyjazny u ytkownikowi system operacyjny, tote osoby potrafi¹ce wykorzystywaæ co w codziennej pracy nie mia³y zwykle problemów z u ywaniem narzêdzi "internetowych", tym bardziej e wiele rozwi¹zañ zastosowanych w Internecie jest doœæ œciœle zwi¹zanych w³aœnie z systemem Unix.

Wraz z dynamicznym wzrostem popularnoœci sieci Internet pojawia³o siê coraz wiêcej u ytkowników nieprofesjonalnych. W chwili obecnej zawodowi programiœci, czy te ogólniej osoby których wykszta³cenie zwi¹zane jest choæby poœrednio z informatyk¹, stanowi¹ ju mniejszoœæ wœród osób korzystaj¹cych z us³ug globalnej sieci. Jednoczeœnie jednak wiedza i umiejêtnoœci techniczne - w szczególnoœci zaœ dobra znajomoœæ zasad dzia³ania narzêdzi takich jak przegl¹darki, systemy wyszukiwawcze, czy te serwery HTTP - staj¹ siê coraz bardziej przydatne, a w niektórych przypadkach wrêcz niezbêdne, do efektywnego odnajdywania potrzebnych u ytkownikowi informacji w sieci. G³ówn¹ tego przyczyn¹ wydaje siê byæ zwiêkszaj¹ca siê w bardzo szybkim tempie liczba dostawców informacji, co w po³¹czeniu z niezbyt wysok¹ jakoœci¹ i aktualnoœci¹ dostêpnych katalogów i narzêdzi wyszukiwawczych powoduje,i proces odnajdywania danych w Internecie bywa czasami doœæ skomplikowany 1. W artykule tym rozwa am niektóre aspekty projektowania wspó³czesnych internetowych systemów wyszukiwawczych. Rozdzia³ 2 zawiera rozwa ania dotycz¹ce procesu wyszukiwania danych przez system wyszukiwawczy, w rozdziale 3 przedstawiono pojêcie metafory sieci, rozdzia³ 4 poœwiêcony jest systemom specyfikacji zapytañ, zaœ w rozdziale 5 pokrótce omówiono problematykê obróbki wyników wyszukiwania i przedstawiono koncepcjê wspomaganego przegl¹dania stron WWW. Artyku³ koñczy krótkie podsumowanie i bibliografia. 2. PROCES WYSZUKIWANIA INFORMACJI Obecnie u ywane systemy wyszukiwania informacji w sieci WWW maj¹ swoje korzenie w systemach przeszukiwania klasycznych baz danych. Dziêki temu s¹ zwykle doœæ efektywne w indeksowaniu i grupowaniu informacji, nawet pe³notekstowej, jednak e nie s¹ skuteczne w interpretacji potrzeb informacyjnych u ytkownika. W wielu przypadkach interfejsy u ytkownika w jakie wyposa ono te systemy s¹ bardzo niskiej jakoœci, zaœ mo liwoœci specyfikacji kryteriów wyszukiwania jakie s¹ przez nie udostêpniane wydaj¹ siê byæ bardziej odpowiednie dla prostych baz pe³notekstowych, ni dla bogatego œrodowiska hipermedialnego w którym dzia³aj¹. Praktycznie wszystkie nowoczesne internetowe systemy wyszukiwawcze pozwalaj¹ jedynie na przeszukiwanie tylko tekstu dokumentów WWW, nie pozwalaj¹c nawet na okreœlenie typu informacji jakiej potrzebuje u ytkownik. Z drugiej strony nowo powsta³e narzêdzia, takie jak jêzyki zapytañ W3QS[12] i WebML[14] pozwalaj¹ na bardzo dobr¹ kontrolê procesu wyszukiwania informacji i dok³adne okreœlenie jego celu. Niestety s¹ to narzêdzia stworzone z myœl¹ o u ytkownikach posiadaj¹cych dobr¹ znajomoœæ systemów baz danych (jêzyk SQL), nie s¹ intuicyjne i z tego powodu nie mog¹ zostaæ bezpoœrednio u yte w interfejsie u ytkownika ogólnodostêpnego systemu wyszukiwania. W procesie wyszukiwania informacji, zarówno w klasycznych systemach baz danych, jak i w systemach internetowych, mo emy wyró niæ dwie podstawowe fazy : fazê 1 Patrz [8].

specyfikacji zapytania (ang. query specification phase) i fazê odnajdywania informacji (ang. retrieval phase). Koncepcja Zapytanie Procedura wyszukiwania Heurystyki wyszukiwania danych Wynik Specyfikacja zapytania Internet Odnajdywanie danych Rys 1. Etapy procesu wyszukiwania informacji We wspó³czesnych systemach faza odnajdywania informacji przebiega zwykle bardzo efektywnie [2], jedynym wyj¹tkiem bywa tutaj prezentacja wyników wyszukiwania. W idealnym systemie wyszukiwania, wygenerowany wynik zawiera dok³adnie t¹ informacjê, która zosta³a opisana w koncepcji u ytkownika. Jednak e w rzeczywiœcie istniej¹cych systemach wspó³czynnik relewancji wyszukiwania rzadko osi¹ga poziom stu procent. Wynikiem tego jest "zaœmiecenie" wyniku wyszukiwania informacj¹ nierelewantn¹, nieistotn¹ z punktu widzenia u ytkownika. Z tego te powodu dalsza obróbka surowych wyników wyszukiwania mo e czêsto poprawiæ u ytecznoœæ systemu. Faza specyfikacji zapytania uwa ana jest zwykle za najmniej istotny i tym samym skomplikowany element systemu wyszukiwawczego. Warto jednak zauwa yæ, i w tej w³aœnie fazie podejmowana jest decyzja "czego szukaæ"! W wiêkszoœci przypadków wszystkie czêœci systemu wyszukiwawczego, poczynaj¹c od parsera analizuj¹cego zapytanie, a po generator wyniku, s¹ niewidoczne dla u ytkownika. U ytkownik systemu dostarcza jedynie zapytania (np. wpisuj¹c s³owa kluczowe w pole formularza na stronie WWW), po czym otrzymuje wynik, i jeœli jego zapytanie zosta³o nieprawid³owo zinterpretowane (czego efektem jest b³êdna procedura wyszukiwania 2 ) to wynik ca³ego procesu bêdzie nie satysfakcjonuj¹cy, niezale nie od tego jak bardzo efektywne i skomplikowane bêd¹ algorytmy fazy odnajdywania danych. Jest to szczególnie widoczne w œrodowisku Internetu, gdzie system specyfikacji zapytañ stanowi jedyny interfejs pomiêdzy systemem wyszukiwawczym, a u ytkownikami, którzy na dodatek zwykle nie posiadaj¹ doœwiadczenia w pracy z narzêdziami odnajdywania informacji w bazach danych. Wiêkszoœæ z nich traktuje pole przeznaczone na specyfikacjê zapytania jako miejsce do wpisania ogólnej koncepcji tego, co chcieliby w sieci odnaleÿæ. Jako e ludzie stosuj¹ ró ne wzorce postrzegania otaczaj¹cego œwiata i myœl¹ o Internecie u ywaj¹c wielu ró nych metafor, tote taka koncepcja mo e mieæ wiele form. Dobrymi przyk³adami bêd¹: zadanie systemowi pytania, traktuj¹c Internet jako uniwersaln¹ bazê wiedzy 2 Terminem procedura wyszukiwania okreœlam zbiór instrukcji dla serwera wyszukiwawczego zapisanych w jêzyku formalnym, takim jak np. W3QL.

opisanie za pomoc¹ s³ów kluczowych charakterystyk poszukiwanej strony WWW podanie s³ów, jakie powinny pojawiæ siê w treœci poszukiwanej strony Wszystkie powy sze zapytania mo na by najprawdopodobniej przet³umaczyæ na dobre procedury wyszukiwania, jednak nie jest to mo liwe bez poinformowania systemu o tym która z metafor zosta³a u yta. Na to zaœ nie pozwalaj¹ adne istniej¹ce internetowe narzêdzia wyszukiwawcze. Uwa am zatem, i faza specyfikacji zapytania zas³uguje na wiêcej uwagi ni poœwiêcano jej dotychczas. Poni ej prezentujê model hipotetycznego systemu wyszukiwania informacji, który bêdzie przedmiotem rozwa añ w kolejnych rozdzia³ach. Koncepcja Modu³ wyjaœniania zapytañ Procedura wyszukiwania Heurystyki wyszukiwania danych Wynik wyszukiwania U ytkownik Modu³ specyfikacji zapytañ Baza wiedzy (metafory, wzorce stron, tezaurus) Internet Modu³ wizualizacji Faza specyfikacji zapytania Odnajdywanie danych Faza obróbki wyniku Rys. 2. Inteligentny system wyszukiwania informacji 3. MODELE SIECI WWW Wiêkszoœæ ludzi postrzega Internet nie jako ca³kowicie nowe narzêdzie, ale raczej jako elektroniczn¹ wersjê jednego z do tej pory istniej¹cych systemów archiwizacji i dystrybucji informacji. Nie ma w tym nic dziwnego - w procesie edukacji uczeni byliœmy jak do tej pory jedynie pos³ugiwania siê klasycznymi systemami, wykszta³cenie to zaœ na tyle silnie wp³ywa na nasze zachowanie, e instynktownie traktujemy je jako naturalne 3. Kiedy korzystamy z sieci, traktujemy j¹ zwykle jak ksi¹ kê, lub bazê danych, czy te gazetê, wreszcie u ywamy jednej z wielu innych metafor które s¹ dla nas znajome. Wybór ten staje siê szczególnie istotny w momencie w którym poszukujemy informacji w sieci, poniewa ogranicza rodzaj informacji o wyszukaniu którego mo emy w ogóle pomyœleæ. W efekcie wybrana przez nas metafora, innymi s³owy sposób postrzegania Internetu, okreœla stosowane przez nas podejœcie do konstruowania zapytania. 3 Dobrym przyk³adem bêdzie tu traktowanie pisma odrêcznego jako naturalnego systemu wprowadzania tekstu, podczas gdy jest on znacznie bardziej skomplikowan¹ i trudniejsz¹ do nauczenia czynnoœci¹ ni np. korzystanie z klawiatury.

Ta sytuacja wcale nie musi byæ niekorzystna. Internet jest w istocie tak heterogenicznym Ÿród³em danych, e postrzeganie go z wielu ró nych perspektyw mo e pomóc w zrozumieniu tego jakiego rodzaju informacje mo e on zawieraæ. Musimy przy tym jednak pamiêtaæ o ograniczeniach konkretnej metafory i dobieraæ j¹ w zale noœci od wyników jakie pragniemy osi¹gn¹æ. Poni ej podajê przyk³ady najpopularniejszych metafor Internetu, wraz z typowymi zapytaniami w jêzyku naturalnym jakie s¹ z nimi zwi¹zane: gazeta (newspaper metaphor) Przyk³adowe zapytanie: "Jakie nowe informacje zwi¹zane z moimi zainteresowaniami pojawi³y siê wczoraj?" artyku³y naukowe (proceedings metaphor) Przyk³adowe zapytanie: "Czy istniej¹ inne dokumenty weryfikuj¹ce informacje zawarte w przegl¹danym dokumencie"? baza danych (database metaphor) Przyk³adowe zapytanie: "Odszukaj dokumenty zawieraj¹ce s³owa X i Y, ale nie Z" serwer plików (file repository metaphor) Przyk³adowe zapytanie: "Odszukaj najnowsz¹ wersjê oprogramowania X" encyklopedia (encyclopaedia metaphor) Przyk³adowe zapytanie: "Jaka jest definicja terminu X?" baza wiedzy (kowledge base metaphor) Przyk³adowe zapytanie: "Dlaczego ryby nie mówi¹?" Nie jest mo liwe bezpoœrednie u ycie powy szych zapytañ w istniej¹cych systemach wyszukiwawczych, jako e system który by³by w stanie w pe³ni zrozumieæ semantykê nawet tak prostych zdañ nie zosta³ jak do tej pory stworzony i najprawdopodobniej nie powstanie w najbli szej przysz³oœci. Jest jednak mo liwe przet³umaczenie tych zapytañ do bardziej formalnej postaci, jeœli poinformujemy system wyszukiwawczy jaka konkretna metafora zosta³a u yta w ka dym przypadku. Warto zauwa yæ e dostarczy³oby to tak e systemowi wyszukiwania danych wielu istotnych informacji, zwi¹zanych z procesem wyszukiwania. Dla przyk³adu: jeœli u yjemy zapytania zwi¹zanego z metafor¹ serwera plików, to mo emy proces wyszukiwawczy ograniczyæ jedynie do kilku, wyspecjalizowanych serwisów internetowych (takich jak download.com, shareware.com itp.), przynajmniej na pocz¹tkowym etapie. Z kolei osoba postrzegaj¹ca sieæ WWW przez metaforê artyku³ów naukowych najprawdopodobniej przypisuje du ¹ wagê do wystêpowania hiperpo³¹czeñ pomiêdzy stronami WWW, a zatem system wyszukiwawczy mo e bardziej intensywnie wykorzystywaæ algorytmy analizy grafowej w poszukiwaniu ¹danego zbioru dokumentów. Powy sza optymalizacja procesu wyszukiwania, mimo i mo liwa do "rêcznego" przeprowadzenia, nie powinna raczej byæ dokonywana przez u ytkownika systemu wyszukiwania danych. Zak³ada ona bowiem pewn¹ znajomoœæ Internetu per se - u ytkownik musia³by na przyk³ad wiedzieæ jakie s¹ najlepsze istniej¹ce repozytoria plików

w Internecie - gdy tymczasem idealny system wyszukiwawczy powinien byæ równie u yteczny dla osób nie posiadaj¹cych prawie adnej wiedzy o strukturze sieci WWW. Istotnym czynnikiem jest tu tak e szybka zmiennoœæ Internetu, jako e zasoby uznawane dziœ za dobre wcale nie musz¹ takimi pozostaæ w przysz³oœci. 4. SYSTEMY SPECYFIKACJI ZAPYTAÑ W poprzednim rozdziale argumentowa³em, i dobrze zaprojektowany system wyszukiwania informacji powinien pozwalaæ na podanie pewnych metainformacji o zapytaniu, takich jak na przyk³ad zastosowana metafora sieci WWW. W rzeczywistoœci system specyfikacji metafor nie by³by zapewne mo liwy do zbudowania ze wzglêdów praktycznych (niezale nie od tego jak bardzo rozbudowana by³aby baza metafor dostêpna dla algorytmów wyszukiwawczych systemu, i tak nie pokry³aby wszystkich, bardzo przecie zró nicowanych, potrzeb u ytkowników). Wydaje siê jednak, i nawet udostêpnienie u ytkownikom prostszego zestawu narzêdzi mo e byæ u yteczne. Postulujê, i wiêkszoœæ procesów wyszukiwania informacji we wspó³czesnej sieci Internet mo e byæ zaliczona do jednej z dwóch grup. Pierwsza z nich, wyszukiwanie stron (ang. page searches) zawiera te procesy, których celem jest odnalezienie pojedynczej, dobrze zdefiniowanej strony WWW (lub te, nieco generalizuj¹c, pojedynczego zasobu sieciowego). Przyk³adami takich procesów bêd¹: poszukiwanie strony domowej kolegi, poszukiwanie oficjalnej strony konkretnej firmy lub te odszukanie publikacji naukowej przy u yciu jej tytu³u i nazwisk autorów. Druga grupa, okreœlana przeze mnie terminem wyszukiwanie informacji (ang. information searches) obejmuje zapytania nie odnosz¹ce siê do konkretnych dokumentów, czy te nawet do struktury sieci WWW. Celem tych zapytañ jest odnalezienie informacji, bez wzglêdu na jej Ÿród³o czy te formê jej prezentacji. Dla przyk³adu rozwa my u ycie zasobów WWW do odnalezienia informacji o planetach systemu s³onecznego. Mo liwe, wartoœciowe rezultaty takiego wyszukiwania mog¹ obejmowaæ tak zró nicowane obiekty jak dokumenty tekstowe zawieraj¹ce informacjê statystyczn¹ o charakterystykach planet, trójwymiarowe modele uk³adu s³onecznego stworzone przy wykorzystaniu jêzyka VRML, plakat ze strony NASA ze zdjêciami planet i tak dalej. G³ówn¹ ró nic¹ pomiêdzy dwoma powy szymi typami procesów wyszukiwania stanowi to, i w przypadku wyszukiwania informacji sieæ WWW jest traktowana jako czarna skrzynka, czy te nawet autonomiczny system ekspertowy, natomiast w wyszukiwaniu stron struktura sieci jest istotna dla u ytkownika. Poniewa, jak widaæ, istniej¹ ró ne podejœcia do problemu ekstrakcji informacji z sieci WWW, tote powinny istnieæ tak e ró ne interfejsy u ytkownika, czy te ró ne zestawy narzêdzi, które wspomaga³yby u ytkowników w procesie konstrukcji zapytañ i w ocenianiu wyników wyszukiwania. Pierwszy zestaw narzêdzi, przeznaczony dla celów wyszukiwania stron, powinien pozwalaæ na okreœlanie charakterystyk dokumentów internetowych z mo liwie najwiêksz¹ precyzj¹. Drugi zestaw, wykorzystywany przy wyszukiwaniu

informacji, powinien wspomagaæ u ytkownika w analizie mo liwie bogatego zbioru zró nicowanych zasobów internetowych. W pierwszym przypadku najistotniejszy staje siê system specyfikacji zapytañ, w idealnym wypadku wynik wyszukiwania zawieraæ tu bêdzie wy³¹cznie te strony, które zosta³y opisane przez u ytkownika, w zwi¹zku z czym rola modu³u prezentacji i obróbki wyniku wyszukiwania bêdzie tu niewielka. Dok³adnie odwrotna sytuacja wystêpuje natomiast przy wyszukiwaniu informacji. Wspó³czesne systemy wyszukiwawcze daj¹ doœæ dobre mo liwoœci konstruowania zapytañ do warstwy tekstowej dokumentów, jednak informacja czysto tekstowa nie jest jedyn¹, jaka decyduje o postrzeganiu dokumentów multimedialnych jakimi jest wiêkszoœæ nawet prostych stron WWW. Równie istotny jest rodzaj strony - mo emy pamiêtaæ, e widzieliœmy stronê domow¹ naszego znajomego, nie bêd¹c jednoczeœnie w stanie sobie przypomnieæ jej tekstowej zawartoœci. Podobnie mo emy poszukiwaæ strony "New York Times" znaj¹c jedynie nazwê tej gazety i wiedz¹c e poszukujemy strony z wiadomoœciami prasowymi. Jak widzimy w wielu przypadkach mo liwoœæ specyfikowania typu strony mog³aby pozytywnie wp³ywaæ na efektywnoœæ procesu wyszukiwania informacji. Niezawodny system klasyfikacji stron WWW nie zosta³ jeszcze opracowany, pomimo kilku interesuj¹cych osi¹gniêæ w tej dziedzinie [3], [4]. Wydaje siê, i jednym z najwiêkszych problemów na jakie natrafia siê przy próbach tworzenia takich systemów jest problem rozumienia jêzyka naturalnego (ang. natural language understanding). Niektórzy badacze [11] postuluj¹ nawet, e uniwersalny system klasyfikacyjny dla dokumentów WWW jest niemo liwy do zbudowania z powodu zbyt wielkiej ró norodnoœci potrzeb i preferencji u ytkowników. Rezultaty w grupowaniu stron zaprezentowane przez Pitkowa, Pirollego i Rao w [13], oraz mój eksperyment [7] pokazuj¹ jednak, i proces klasyfikacji mo e byæ skuteczny nawet jeœli nie uwzglêdni siê znaczenia tekstu zawartego w dokumentach. W eksperymencie tym grupa oko³o 20 osób zosta³a poproszona o rêczn¹ klasyfikacjê wybranych uprzednio stron WWW wed³ug systemu klasyfikacji zaproponowanego przez Kazienkê [10]. Strony WWW zosta³y zmodyfikowane w ten sposób, e: tekst zosta³ zamieniony przez losowe ci¹gi znaków, przy czym zachowano rozró nienie pomiêdzy znakami alfabetu ³aciñskiego i cyframi zosta³a zachowana informacja formatuj¹ca (wielkoœæ i kolor czcionki, rozmieszczenie tekstu itp.) wszystkie ilustracje zosta³y usuniête i zast¹pione pustymi prostok¹tami o odpowiednich wymiarach hiperpo³¹czenia zosta³y zmodyfikowane tak, aby nie mo na by³o odczytaæ adresu URL, typ hiperpo³¹czenia (ftp, email, http itp.) oraz jego g³êbokoœæ (liczba czêœci /.../) pozosta³y jednak zachowane Pomimo braku dostêpu do tekstowej treœci dokumentów, u ytkownicy byli w stanie zaklasyfikowaæ niektóre grupy dokumentów do odpowiednich klas z doœæ wysok¹ precyzj¹. Najlepsze rezultaty osi¹gniêto dla poni szych klas najwy szego poziomu: " strony domowe" ~ 70% dok³adnoœci

"strony organizacyjne" ~ 70% dok³adnoœci zaœ najgorsze rezultaty dla klasy "teksty" ~ 40% dok³adnoœci. Wœród klas drugiego poziomu najwy szym wspó³czynnikiem dok³adnoœci klasyfikacji charakteryzowa³a siê klasa "wizytówki" - 90% dok³adnoœci klasyfikacji. Dok³adny opis zastosowanego drzewa klasyfikacji zawiera praca [10]. Wydaje siê zatem, i mo liwe jest skonstruowanie systemu klasyfikacji, który korzystaæ bêdzie jedynie z informacji nietekstowej o stronach WWW (takiej jak wielkoœæ strony, liczba ilustracji, gêstoœæ hiperpo³aczeñ, liczba u ytych czcionek itp.). Nawet jeœli skonstruowany system pozwala³by jedynie na bardzo zgrubn¹ kategoryzacjê, to i tak mo liwoœæ przyporz¹dkowania danej strony do jednej z ogólnych klas, np. "stron informacyjnych" (ang. content delivering pages) i "stron nawigacyjnych" (ang. navigation pages) mog³aby mieæ du e znaczenie dla wielu u ytkowników. Pojedyncza strona WWW mo e byæ tak e scharakteryzowana poprzez funkcjê jak¹ pe³ni w wiêkszej grupie stron. Niektóre strony WWW s¹ indeksami do zbiorów stron, inne spe³niaj¹ rolê list adresowych, map serwisów itp. Informacja formatuj¹ca - to jest wygl¹d strony - w wielu przypadkach mo e byæ zupe³nie wystarczaj¹ca do identyfikacji takich stron. Mo emy tu jednak pos³u yæ siê tak e grafem hiperpo³¹czeñ, by próbowaæ okreœliæ funkcjê danej strony. Dla przyk³adu w strukturze przedstawionej na Rysunku 3, strona A jest najprawdopodobniej centralnym indeksem grupy typu Webring. Strona A Rys.3. Grupa stron typu Webring Oczywiœcie trudno zdefiniowaæ rêcznie wystarczaj¹co wielk¹ liczbê podobnych struktur sieciowych, tak aby zaspokoiæ potrzeby u ytkowników. Jednym z rozwi¹zañ tego problemu mo e byæ umo liwienie zdefiniowania poszukiwanej struktury bezpoœrednio przez u ytkownika, w procesie specyfikacji zapytania. W istocie niektóre z jêzyków przeszukiwania sieci WWW wywodz¹ce siê z SQL posiadaj¹ takie mo liwoœci. Innym rozwi¹zaniem, zapewne mniej efektywnym, lecz przyjaÿniejszym dla u ytkownika, by³oby adaptowanie technik automatycznego odkrywania wiedzy w bazach danych (ang. data mining), takich jak na przyk³ad z³o one regu³y asocjacyjne [1], do celów identyfikacji najczêœciej wystêpuj¹cych, interesuj¹cych struktur, w Internecie. Jeœli zaœ bêdziemy w stanie okreœliæ, choæby zgrubnie, typ strony WWW i funkcjê spe³nian¹ przez ni¹, to mo emy wzbogaciæ system budowy zapytania o mo liwoœci specyfikacji tych e cech.

Inne narzêdzia wspomagaj¹ce proces budowy zapytania mog¹ tak e pozytywnie wp³ywaæ na efektywnoœæ procesu wyszukiwania informacji. Prace prowadzone nad systemami pe³notekstowymi [6] pokazuj¹, i nawet tak proste narzêdzie jak tezaurus dostêpny podczas projektowania zapytania, mo e znacz¹co przyczyniæ siê do wzrostu wydajnoœci ca³ego systemu. Godne rozwa enia mo e byæ tak e zwiêkszenie kontroli u ytkowników nad funkcj¹ oceniaj¹c¹ (ang. ranking expression). Wiêkszoœæ aktualnie dostêpnych internetowych systemów wyszukiwawczych pozwala jedynie na kontrolê nad samym zapytaniem, po czym ocenia zgodnoœæ odnalezionych dokumentów z zapytaniem wed³ug w³asnej funkcji oceniaj¹cej, która niekoniecznie musi odpowiadaæ potrzebom u ytkownika. Na koniec warto tak e rozwa yæ wprowadzenie modu³u wyjaœniaj¹cego zapytanie (ang. query explanation module) do systemu wyszukiwawczego. Modu³ taki t³umaczy³by wprowadzone zapytanie na zdanie w jêzyku naturalnym, lub te nawet konstruowa³by przyk³adow¹ stronê WWW dok³adnie odpowiadaj¹c¹ zapytaniu, aby pokazaæ jakiego rodzaju dokumentów poszukiwaæ bêdzie system. 5. OBRÓBKA WYNIKÓW I WSPOMAGANE PRZEGL DANIE STRON Wyszukiwanie informacji jest zadaniem znacznie bardziej skomplikowanym ni wyszukiwanie stron. Wydaje siê, i efektywne wydobywanie informacji z zasobów sieci WWW powinno byæ traktowane bardziej jako proces (na który sk³ada siê przegl¹danie stron, szukanie danych, porównywanie stron itp.) ni tylko pojedyncza sesja wyszukiwania danych. Taki proces móg³by tak e obejmowaæ inteligentn¹ analizê wyników wygenerowanych przez systemy wyszukiwawcze (razem z prawdopodobnym ulepszeniem zapytania i kolejnymi cyklami wyszukiwania) oraz wspomagane przegl¹danie stron WWW (ang. assisted browsing). Techniki odkrywania wiedzy w bazach danych mog¹ byæ szczególnie u yteczne w analizie wyników pracy systemu wyszukiwawczego. Jak pokazujê w artykule przegl¹dowym [9] szczególne znaczenie mog¹ mieæ tu techniki analizy topologii hiperpo³aczeñ, które (do pewnego stopnia) pozwalaj¹ na sortowanie stron w zale noœci od ich jakoœci postrzeganej przez spo³ecznoœæ internetow¹. Z kolei techniki analizy tekstu (ang. text mining) pozwalaj¹ na sporz¹dzanie wizualizacji i automatycznych podsumowañ, pozwalaj¹c na szybk¹ ocenê treœci odszukanych stron. Proces specyfikacji zapytania jest szczególnie trudny w przypadku wyszukiwania informacji, dlatego te zasadnym wydaje siê poszukiwanie takich metod ekstrakcji informacji z Internetu, w których proces ten nie jest w ogóle potrzebny. Wspomagane przegl¹danie stron WWW mo e byæ jedn¹ z takich w³aœnie metod. Wspomagane przegl¹danie stron WWW jest procesem, w którym wybór nastêpnej strony WWW jak¹ ogl¹daæ bêdzie u ytkownik korzystaj¹cy z przegl¹darki nie jest dokonywany wy³¹cznie na podstawie hiperpo³¹czeñ dostêpnych na danej stronie, ale tak e na podstawie dodatkowej informacji o stronach s¹siednich w grafie hiperpo³aczeñ i o

topologii tego grafu. Informacja ta jest zbierana i analizowana przez przegl¹darkê bez udzia³u u ytkownika. Dobrym przyk³adem takiego systemu jest zbiór narzêdzi oferowanych przez firmê Alexa Inc., które wykorzystuj¹ informacjê statystyczn¹ o popularnoœci stron WWW, by okreœliæ które strony mog¹ byæ potencjalnie tematycznie zwi¹zane z aktualnie ogl¹dan¹ stron¹. Co ciekawe ostatnie badania w tej dziedzinie [5] wykazuj¹, i mo liwe jest odnajdywanie takich semantycznie powi¹zanych stron przy u yciu wy³¹cznie grafu hiperpo³¹czeñ. Zachowanie u ytkownika mo e byæ tak e analizowane, w celu automatycznego zbudowania jego listy preferencji czy te profilu, który opisuje jego potrzeby informacyjne. Taki profil stanowiæ mo e dobry punkt wyjœciowy dla autonomicznych systemów agenckich przegl¹daj¹cych sieæ WWW w poszukiwaniu interesuj¹cych stron. Z tego podejœcia wywodzi siê tak e koncepcja personalizowanych portali sieciowych. Obecnie wiêkszoœæ u ytkowników rozpoczyna przegl¹danie zasobów sieci Internet od jakiegoœ portalu, takiego jak np. Yahoo, który ³¹czy ze sob¹ uniwersalny system wyszukiwania informacji i tematyczny indeks stron WWW. Te portale, pomimo wysi³ków zmierzaj¹cych do tego by by³y w pewnym choæ stopniu modyfikowalne w zale noœci od preferencji u ytkownika (tzw. profilowanie portali), to i tak s¹ narzêdziami bardzo ogólnymi. Mikroportale, tworzone specjalnie dla pojedynczego u ytkownika (lub pojedynczego tematu) powinny byæ znacznie bardziej efektywne, do ich tworzenia zaœ zastosowaæ mo na w³aœnie metody wywodz¹ce siê z data mining [9]. Na koniec pragn¹³bym zwróciæ uwagê na fakt, i ró norodnoœæ informacji dostêpnej w sieci Internet powoduje tak e ró norodnoœæ narzêdzi s³u ¹cych do jej wyszukiwania. Obecnie doœwiadczeni u ytkownicy Internetu korzystaj¹ przynajmniej z kilku ró nych systemów wyszukiwawczych, ich wybór uzale niaj¹c od tego gdzie w sieci spodziewaj¹ siê odnaleÿæ informacjê (np. Deja.com dla grup dyskusyjnych Usenet'u, Altavista dla stron WWW, WhoWhere dla adresów poczty elektronicznej itd.). Wydaje siê zatem i system ekspertowy, potrafi¹cy automatycznie wybraæ najlepsze indeksy i narzêdzia dla konkretnego zapytania, by³by tak e bardzo u yteczny, szczególnie dla osób, które Internetm pos³uguj¹ siê okazjonalnie. 6. PODSUMOWANIE Efektywne odnajdywanie danych w sieci Internet jest z³o onym i trudnym problemem, który jednoczeœnie wydaje siê byæ kluczowym dla u ytecznoœci tego globalnego Ÿród³a informacji. Dobr¹ ilustracj¹ jego z³o onoœci s¹ problemy zwi¹zane z efektywnym konstruowaniem i interpretacj¹ zapytañ w systemach wyszukiwawczych, które stara³em siê przedstawiæ w tym artykule. Zaproponowane rozwi¹zania opieraj¹ siê na wykorzystaniu dodatkowej, nietekstowej informacji zawartej w strukturze sieci WWW, postulujê tak e zwrócenie wiêkszej uwagi na kwestie projektowania interfejsów u ytkownika systemów wyszukiwawczych.

LITERATURA [1]Borges J., Levene M., "Mining Association Rules in Hypertext Databases", AAAI-98 conf. proc., 1998 [2]Brin S., Page L., "The Anatomy of a Large-Scale Hypertextual Web Search Engine", 1998 [3]Chakrabarti S., Berg M., Dom B.., "Focused Crawling: A New Approach to Topic-Specific Web Resource Discovery", IBM Almaden Research Centre, 1999 [4]Chakrabarti S., Dom B., Indyk P. "Enhanced hypertext categorization using hyperlinks", SIGMOD 98 conference proc., 1998 [5]Dean J., Henzinger M., "Finding related pages in the World Wide Web", WWW8 conf. proc., 1999 [6]Frelek M., Gawrysiak P., Rybiñski H., A method of retrieval in flexion-based language text databases, IIS 99 conference proceedings, 1999 [7]Gawrysiak P., "Web page classification", (in preparation), Warsaw University of Technology, 2000 [8]Gawrysiak P., "Using Data Mining methodology for text retrieval", DIBS 99 conference proceedings, 1999 [9]Gawrysiak P., Okoniewski M., "Knowledge discovery in the Internet", submitted to Archiwum Informatyki journal, 1999 [10]Kazienko P., "Rodzaje stron i odsy³aczy w systemie WWWW", Wroclaw University of Technology, 1999 [11]Macskassy S., Banerjee A., Davidson B., Hirsh H., "Human performance on clustering web pages", KDD 98 conference proc., 1998 [12]Mihaila G., "WebSQL An SQL-like Query Language for the World Wide Web", Department of Computer Science, University of Toronto, 1996. [13]Pirolli P., Pitkow J., Rao R., "Silk from a Sow's Ear: Extracting Usable Structures from Web", Proc. of the Conference on Human Factors in Computing Systems: Common Ground, pages 118-125, New York, 1996 [14]Zaiane O., Han J., "WebML: Querying the World Wide Web for resources and knowledge", 1999