Podstawowe zagadnienia pozyskiwania wiedzy w Internecie

Transkrypt

1 Zeszyty Naukowe nr 798 Uniwersytetu Ekonomicznego w Krakowie 2009 Katedra Systemów Obliczeniowych Podstawowe zagadnienia pozyskiwania wiedzy w Internecie Streszczenie. Szybki rozwój Internetu w ostatnim dziesięcioleciu sprawił, że stał się on źródłem informacji obejmującym wszystkie dziedziny aktywności człowieka. Wielkość zasobów powoduje, że głównym problemem jest możliwość dotarcia do właściwych danych. Narzędzia temu służące łączą rezultaty badań z wielu różnych dziedzin: od lingwistyki przez statystykę, metody sztucznej inteligencji po bazy danych i teorię informacji. W niniejszym artykule przedstawiono podstawowe zagadnienia związane z modelowaniem zawartości Internetu na potrzeby wyszukiwania informacji oraz z możliwością wykorzystania Internetu jako źródła wiedzy. Słowa kluczowe: przeszukiwanie Internetu, przetwarzanie tekstu, odkrywanie wiedzy w bazach danych. 1. Wprowadzenie Jeden z istotniejszych problemów, przed którymi staje współczesna informatyka, to zagadnienia zarządzania wiedzą. U podstaw informatyki stosowanej tkwią jednak zagadnienia operowania na danych, lecz brak treści znaczeniowej (semantycznej) na tym poziomie sprawia, że jest on zbyt trudny dla przeciętnego użytkownika komputera. Oczekiwania użytkowników idą w kierunku operowania na poziomach bliższych człowiekowi, tzn. na poziomie informacji i wiedzy. Stąd praktycznie od lat 50. XX wieku trwają badania nad tym zagadnieniem, które początkowo rozwijały się na gruncie systemów wspomagania decyzji, a później objęły znacznie szersze obszary. Problematyka ta stała się szczególnie ważna w ostatnich latach w związku z rozwojem Internetu. Jego wielkość sprawia jednak, że bez dodatkowych narzędzi pomagających w dotarciu do interesujących użytkownika treści jest praktycznie bezużyteczny. Aby te narzędzia mogły skutecznie spełniać swą funkcję, muszą z jednej strony efektywnie komunikować się

2 118 z użytkownikiem, co oznacza funkcjonowanie na poziomie informacji, a z drugiej sprawnie operować na poziomie danych dostępnych w Internecie w postaci stron WWW. W konsekwencji konieczne stało się opracowanie metod wyszukiwania informacji opartych na przetwarzaniu tekstów w języku naturalnym. Wykorzystanie tych metod prowadzi do odwzorowania Internetu w postaci modelu przy równoczesnej identyfikacji treści (informacji znaczeniowej, semantyki) poszczególnych stron [Amrani i in. 2004]. Dzięki temu możliwe staje się traktowanie Internetu jako bazy danych. W połączeniu z tzw. metodami sztucznej inteligencji otwiera to nowe możliwości nie tylko w zakresie wyszukiwania informacji, ale również pozyskiwania wiedzy [Zaiane 1998]. Dało to początek stosunkowo nowej dziedzinie, jaką jest odkrywanie wiedzy w bazach danych (ang. knowledge discovery in databases KDD). 2. Wyszukiwanie informacji 2.1. Uwagi ogólne Wyszukiwanie informacji jest procesem złożonym, w którym można wyodrębnić trzy najważniejsze kroki: interpretację pytania, właściwe wyszukanie informacji oraz przetworzenie i udostępnienie wyników. Pierwszy problem napotykamy przy interpretacji pytania. Dla człowieka najwygodniejszym sposobem komunikacji jest język naturalny, jednak dostępne metody przetwarzania języka naturalnego nie są wystarczająco precyzyjne. Dlatego w większości zastosowań wykorzystywane są sztuczne języki nazywane informacyjno-wyszukiwawczymi. Są one wystarczająco proste, aby mógł się nimi posługiwać przeciętny użytkownik, i jednocześnie na tyle precyzyjne, aby mogły być wykorzystane do opisu zawartości przeszukiwanych zasobów (bazy danych). Język informacyjno-wyszukiwawczy powinien spełniać trzy podstawowe warunki: warunek zupełności: zakres wykorzystywanego słownictwa i gramatyka języka powinny pozwalać na opis dowolnej sytuacji spotykanej w danej dziedzinie nauki, techniki czy działalności praktycznej; warunek jednoznaczności: słowa i wyrażenia w tym języku powinny być jednoznaczne; warunek algorytmizacji: wyrażenia w takim języku powinny się dawać łatwo przekładać na instrukcje wyszukiwania w bazie danych. Kolejnym krokiem w ogólnym schemacie przetwarzania pytania jest wyszukanie informacji, czyli wyszukanie w bazie danych obserwacji spełniających warunki określone pytaniem. W ramach analizy tego kroku można wyróżnić wiele kwestii, wśród których na pierwszy plan wybija się zagadnienie zawartości i organizacji baz danych.

3 Podstawowe zagadnienia pozyskiwania wiedzy w Internecie 119 Internet jako źródło danych ma wiele wad, z których najistotniejszą jest całkowita swoboda w zakresie struktury prezentowanej informacji 1. Aby zniwelować tę wadę, podejmowane są działania w dwóch głównych kierunkach: strukturalizacji Internetu jako takiego, poprzez wprowadzanie mechanizmów umożliwiających, bądź wymuszających, wprowadzanie dodatkowych informacji (metadanych) opisujących aspekt znaczeniowy (semantyczny) stron internetowych. budowy systemów służących do analizy danych zawartych na stronach internetowych i opisywania ich zawartości różnymi metodami analizy: od realizowanych całkowicie przez ludzi po w pełni automatyczne. Systemy te prowadzą do powstawania meta-internetu: bazy danych zawierającej ustrukturalizowany opis zawartości Internetu, której celem jest gromadzenie i udostępnianie informacji na temat treści zasobów dostępnych w Internecie. Oba te kierunki działań prowadzą do wspólnego celu realizacji koncepcji Internetu semantycznego (ang. semantic web), w którym podstawową warstwą funkcjonowania jest poziom informacji. Bezpośrednie poszukiwanie w Internecie odpowiedzi na pytanie użytkownika jest praktycznie niemożliwe ze względu na wielkość sieci. Dlatego konieczne jest odwzorowanie Internetu w postaci opisu strukturalnego [Kłopotek 2001]. Ze względu na sposób analizy stron internetowych można wyróżnić dwie metody tworzenia takiego opisu w postaci baz danych: bazy tworzone przez ludzi oraz bazy generowane automatycznie. Rezultatem pierwszej z nich są tzw. katalogi stron, a druga metoda najczęściej jest utożsamiana z funkcjonowaniem wyszukiwarek internetowych. Ponieważ katalogi stron nie odgrywają już większej roli, w dalszej części skoncentrujemy się na rozwiązaniach automatycznych Bazy danych tworzone automatycznie By rozwiązać problem zakresu i aktualności opisu zasobów Internetu w postaci katalogów stron, praktycznie równolegle rozpoczęto prace nad automatyzacją procesu tworzenia tego opisu. Zaczęły powstawać systemy, które całkowicie automatycznie lub jedynie przy niewielkiej ingerencji człowieka śledziły stan i opisywały zasoby Internetu. Podstawą tych systemów są programy komputerowe, tzw. roboty, pająki czy agenty (ang. robot, spider, crawler, agent), których zadaniem jest odwiedzanie stron internetowych, kopiowanie i analiza ich zawartości oraz podążanie za odsyłaczami hipertekstowymi (automaty skanujące). Automaty skanujące utrzymują informację o już odwiedzonych stronach i odpowiadają za aktualność ich opisu w bazie danych, czyli za ich systematyczne odwiedzanie i badanie, czy ich zawartość nie uległa zmianie. 1 Jednocześnie cecha ta z punktu widzenia rozwoju i popularności Internetu jest jego największą zaletą.

4 120 Cały proces opisywania zasobów Internetu można podzielić na dwa odrębne procesy: skanowanie Internetu i analizę jego zawartości. Choć są one ze sobą powiązane, z technicznego punktu widzenia możemy je rozpatrywać osobno. Skanowanie Internetu polega na usystematyzowanym przeglądaniu stron. Proces ten zaczyna się od wskazanej strony internetowej, następnie gromadzone są dane o przeglądanej stronie, wyodrębniana jest spośród gromadzonych danych informacja o odsyłaczach hipertekstowych do kolejnych stron. Tak powstaje lista potencjalnych stron do odwiedzenia, z której wybierana jest kolejna strona, i proces zaczyna się od początku. Mimo że ogólna zasada działania jest stosunkowo prosta, a identyfikacja odsyłaczy nie stanowi żadnego problemu, skuteczne skanowanie zasobów Internetu wymaga rozwiązania wielu problemów, spośród których za najważniejsze można uznać: wybór stron startowych dla automatów skanujących, sposób zapewnienia synchronizacji pomiędzy automatami, tak aby nie odwiedzać wielokrotnie tych samych stron, sposób wyboru kolejnej strony do przeglądania i przechowywania informacji o już przeglądanych stronach, wybór strategii aktualizacji danych, czyli ponownej analizy stron. Zanim przejdziemy do zagadnienia analizy danych, trzeba odpowiedzieć jeszcze na pytanie o zakres danych, które gromadzimy w celu dalszej analizy, czyli głębokość skanowania. Ze względu na gromadzenie danych w strukturze stron internetowych można wyróżnić trzy podstawowe składowe. Są to: treść strony w postaci tekstu zapisana najczęściej w formacie jednego z języków opisu stron, np. HTML, odsyłacze hipertekstowe do innych stron internetowych oraz odsyłacze hipertekstowe do osadzonych w treści obiektów takich jak pliki graficzne, tekstowe, muzyczne, filmy itd. Odsyłacze hipertekstowe mogą dotyczyć stron lub obiektów znajdujących się na tym samym serwerze WWW lub innych. Każdy z wyróżnionych elementów może podlegać procesowi analizy w różnym stopniu i zakresie. Treść strony jest zazwyczaj zapisana w jednym z języków opisu stron. Ze względu na elastyczność tych języków oraz ich wielość może ona, ale nie musi, zawierać dodatkowe, niewyświetlane w przeglądarkach internetowych dane opisujące zawartość informacyjną strony, tzw. metadane. Przy gromadzeniu danych na temat treści konkretnej strony możemy się ograniczyć jedynie do metadanych lub poddawać procesowi całość, ewentualnie wybrane fragmenty, tekstu zawartego na stronie. Identyfikacja odsyłaczy hipertekstowych nie stanowi problemu ze względu na składnię języków opisu stron i ich jawną deklarację. W procesie analizy wyodrębniamy odsyłacze do stron i obiektów. Odsyłacze do stron stanowią dane dla procesu sterowania automatem skanującym. W przypadku odsyłaczy do obiektów możliwości podejmowania działań zależą od rodzaju tych obiektów. Najczęściej

5 Podstawowe zagadnienia pozyskiwania wiedzy w Internecie 121 spotykanymi obiektami są różnego rodzaju pliki zawierające dokumenty tekstowe, prezentacje, grafikę, muzykę, filmy i inne. Cechą wspólną większości 2 jest to, że do korzystania z nich wymagane jest dodatkowe oprogramowanie bądź w postaci odrębnych aplikacji, bądź tzw. wtyczek (ang. plug-in) zwiększających możliwości przeglądarek internetowych. Istotnym zagadnieniem jest pytanie o możliwości analizy i tworzenia opisów strukturalnych tych obiektów. W przypadku dokumentów tekstowych sytuacja jest najprostsza, gdyż ich większość jest udostępniana w jednym z kilku powszechnie stosowanych formatów takich jak txt, doc, rtf, pdf czy ps. Oznacza to, że niewielkim nakładem pracy można te dokumenty konwertować do formatu pliku tekstowego. Ponieważ analiza zawartości stron internetowych jest oparta na metodach analizy tekstu, tym samym dysponujemy narzędziami pozwalającymi na dalszą analizę i stworzenie opisu strukturalnego dokumentów tekstowych. Z odmienną sytuacją mamy do czynienia w przypadku pozostałych obiektów, w szczególności multimedialnych (grafika, muzyka, film). Rozpoznanie rodzaju danych nie stanowi problemu, gdyż jest on jednoznacznie określony przez format pliku. Natomiast praktycznie nie dysponujemy narzędziami pozwalającymi identyfikować treść zawartą w tych plikach, przy ich analizie jesteśmy zatem skazani na analizę ich opisu tekstowego lub próbę identyfikacji zawartości na podstawie nazwy obiektu (pliku). W taki sposób działa większość wyszukiwarek internetowych pozwalających na wyszukiwanie grafiki czy utworów muzycznych 3. Wykorzystywane obecnie narzędzia koncentrują się jedynie na gromadzeniu i analizie danych zawartych w treści stron internetowych. Wyjątkiem są tzw. osobiste narzędzia multiwyszukiwawcze, które po zlokalizowaniu potencjalnych stron zawierających dane interesujące użytkownika (korzystając z klasycznych wyszukiwarek), przeprowadzają ich dokładną analizę, często pogłębioną o zawarte na stronie odsyłacze do obiektów tekstowych. Jest to możliwe, gdyż narzędzia te nie mają ograniczenia czasu odpowiedzi nacisk położony jest na relewantność, czyli zgodność odpowiedzi z zapytaniem. Proces skanowania Internetu i gromadzenia danych o poszczególnych stronach oraz ewentualnie obiektach w nich osadzonych dostarcza nam opisu tych zasobów w postaci tekstu. Dzięki temu możemy, bez straty ogólności, ograniczyć się do problemu wyszukiwania informacji w zbiorze dokumentów tekstowych. Tekst w czystej postaci, nawet wzbogacony o dodatkową informację pochodzącą z języków opisu stron internetowych, nie jest postacią danych umożliwiającą szybkie ich przetwarzanie. Dlatego w kolejnym procesie podlega on indeksacji, 2 Nie dotyczy to wszystkich obiektów. Przykładowo pliki w formacie txt mogą być wyświetlane przez większość przeglądarek internetowych i nie wymagają dodatkowego oprogramowania. 3 Stąd stosunkowo niewielkie ich możliwości oraz mała adekwatność uzyskiwanych odpowiedzi.

6 122 czyli przetworzeniu do postaci opisu strukturalnego w formie bazy danych, zoptymalizowanej w celu szybkiego tworzenia listy dokumentów (stron) zawierających określone słowa bądź frazę (termy). Proces indeksacji przebiega zasadniczo według następującego schematu [Kłopotek 2001]: wyodrębnienie z tekstu słów i fraz, usunięcie słów popularnych, wyodrębnienie tematów słów algorytmem szukającym tematu i zastąpienie ich przez identyfikatory numeryczne termów indeksujących w celu wydajniejszego przetwarzania, wyliczenie częstości występowania poszczególnych termów w dokumencie, zastąpienie termów o niskiej częstości termami ogólniejszymi (opcjonalnie), tworzenie fraz dla termów o wysokiej częstości występowania (opcjonalnie), obliczenie wag dla poszczególnych termów, fraz i klas wyróżnianych w modelu opisu strukturalnego i przypisanie ich do indeksowanego dokumentu. Po zakończeniu procesu z każdym analizowanym dokumentem jest związany jego opis strukturalny, stworzony w określonym modelu opartym na języku informacyjno-wyszukiwawczym i zapisany w bazie danych. Dwa spośród wyróżnionych etapów analizy dokumentu, a mianowicie identyfikacja termów oraz obliczenie wag dla nich, mają największe znaczenie z punktu widzenia tworzenia opisu strukturalnego. We wstępnej fazie obróbki tekst jest dzielony na słowa i frazy, następnie usuwane są słowa pospolite, które nie niosą z sobą informacji o treści dokumentu. Aby to było możliwe, musimy znać język, w którym dany dokument jest napisany. Język można określić dzięki informacjom zawartym w metadanych, na podstawie jawnej deklaracji języka, strony kodowej (zestawu znaków ASCII), poprzez identyfikację charakterystycznych dla danego języka sekwencji liter lub w przypadku, gdy mamy do czynienia z rozszerzonym zestawem ASCII lub zestawem znaków UniCode, wyszukiwaniem charakterystycznych dla danego języka znaków specjalnych czy diakrytycznych. Kolejnym krokiem jest identyfikacja termów. Polega ona na wyodrębnieniu tematu słowa, a następnie przypisaniu mu identyfikatora numerycznego. W wielu językach słowa w tekście mogą występować w różnych formach, które często nie są związane ze znaczeniem słowa, a jedynie z gramatyką języka. Stąd konieczność odfiltrowania słów i fraz, by dotrzeć do ich podstawowej postaci. W dalszej kolejności zastępujemy termy numerami indeksującymi. Powtarzając całość procesu dla wielu dokumentów i łącząc indeksy termów, budujemy model reprezentacji dokumentów. Ponieważ liczba termów jest stosunkowo duża, reprezentacja ta jest bardzo rozbudowana. Możemy ją uprościć poprzez redukcję liczby termów. Do tego celu możemy użyć tezaurusa, likwidując występowanie synonimów, a termy

7 Podstawowe zagadnienia pozyskiwania wiedzy w Internecie 123 o niskiej częstości występowania w dokumencie możemy zastąpić termami ogólniejszymi (np. słowa: klacz, wałach, ogier możemy zastąpić słowem koń 4 ). Nawet po przeprowadzeniu opisanych etapów przetwarzania dokumentu uzyskana jego postać jest bardzo rozbudowana i nie pozwala na efektywne wykorzystanie w procesie wyszukiwania informacji. Dlatego konieczna jest dalsza redukcja wielkości reprezentacji dokumentu. W tym celu termom przypisywane są wagi. Poszczególne słowa (termy) występujące w dokumencie mają różne znaczenie dla jego treści i zdolności odróżniania poszczególnych dokumentów. Można przyjąć, że częstość występowania różnych słów w dokumencie w języku naturalnym jest związana z ważnością tych słów dla reprezentowania treści danego dokumentu. Ponieważ na wcześniejszych etapach procesu indeksowania usunęliśmy z reprezentacji słowa pospolite niezwiązane bezpośrednio z treścią dokumentu, możemy przyjąć, że ważność słowa dla treści jest proporcjonalna do częstości występowania słowa w dokumencie 5. Dlatego dalszą analizę dokumentu zaczynamy od obliczenia częstości występowania w nim poszczególnych termów. W analizie częstości występowania termów nie można się ograniczać tylko do pojedynczego dokumentu, należy brać pod uwagę również częstość całkowitą, czyli częstość występowania we wszystkich analizowanych dokumentach 6. W ten sposób możemy zidentyfikować termy, które ze względu na częstość występowania w całym zbiorze dokumentów nie pozwalają na identyfikację pojedynczych dokumentów. Z kolei termy o niskiej częstości występowania w całej grupie dokumentów pozwalają na większą precyzję identyfikacji, ale nie wolno zapominać, że te, które występują sporadycznie jedynie w pojedynczych dokumentach, nie zwiększają istotnie możliwości identyfikacji dokumentów, a mogą powodować bardzo duży wzrost liczby termów. Dysponując częstością termów w dokumencie oraz częstością całkowitą termów, możemy przystąpić do nadania wag poszczególnym termom. W najprostszej metodzie porządkujemy termy według częstości całkowitej, ustawiamy progi pozwalające wyeliminować termy o największej i najniższej częstości występowania, pozostałe termy traktujemy jako termy indeksujące, tzn. wykorzystujemy je 4 Należy pamiętać, że takiemu procesowi musi być również poddane zapytanie do bazy danych. 5 Zależność ta nosi nazwę prawa Zipfa od nazwiska autora, który jako pierwszy postawił taką hipotezę. 6 W przypadku analizowania zasobów Internetu nie możemy oczywiście dysponować takimi informacjami. Zamiast tego możemy po prostu wziąć pod uwagę odpowiednio dużą próbkę i na tej podstawie obliczyć częstość występowania termów. Wartość ta może ulegać zmianom w miarę analizy kolejnych dokumentów, a zakładana aktualizacja danych na temat zasobów Internetu, czyli ponowne przeglądanie i indeksacja, będzie powodować również aktualizację reprezentacji dokumentów opartej na wagach termów.

8 124 do budowy reprezentacji dokumentu. Wagę poszczególnym termom indeksującym w dokumencie nadajemy na podstawie częstości ich występowania w danym dokumencie. Tak uzyskany wektor wag tworzy reprezentację wektorową dokumentu. Opieranie się w nadawaniu wag jedynie na częstości występowania termów indeksujących ma istotne wady. W szczególności może nadawać wysokie wagi termom równie często występującym w całym zbiorze dokumentów, a tym samym nieposiadającym istotnej wartości dyskryminacyjnej, czyli niepozwalających na rozróżnienie dwóch dokumentów. Dlatego często modyfikuje się tę metodę, wykorzystując do wyliczenia wag częstość występowania termów indeksujących w dokumencie w połączeniu z odwrotnością ich częstości całkowitej. Takie podejście nadaje większe wagi tym termom, które rzadziej występują w całym zbiorze dokumentów. Inne modyfikacje polegają na wykorzystywaniu dodatkowej informacji o termach, którą można uzyskać w trakcie analizy tekstu. Może ona pochodzić np. ze struktury dokumentu. Termy występujące w nagłówkach, tytułach czy znajdujące się blisko początku dokumentu są traktowane jako istotniejsze dla treści dokumentu od pozostałych i przypisuje się im większą wagę. Termy indeksujące wyznaczają przestrzeń wektorową, w której każdy z dokumentów jest reprezentowany w postaci wektora Przetwarzanie zapytania i poszukiwanie odpowiedzi Po odwzorowaniu zasobów Internetu do postaci bazy danych możemy przystąpić do uruchomienia procesu odpowiedzi na zapytanie użytkownika. Aby móc rozpocząć ten proces, musimy dysponować zapytaniem w postaci zgodnej z przyjętym przez nas modelem danych dla reprezentacji dokumentów, czyli zapisanym w języku informacyjno-wyszukiwawczym zgodnym z tym modelem. W przypadku systemów specjalizowanych, przeznaczonych dla określonej grupy użytkowników znających strukturę i model danych, można przyjąć, że będą oni zadawać pytanie bezpośrednio w tym języku. Niemniej jednak w przypadku ogólnym takie założenie okazuje się zbyt daleko idące. Stałe dążenie do ułatwienia pracy użytkownika sprawia, że w większości systemów ogólnie dostępnych dopuszcza się zadawanie pytań w języku zbliżonym do języka naturalnego. Stąd konieczność przetłumaczenia takiego zapytania na język obowiązujący wewnątrz systemu. Najprostszą metodą działania jest poddanie zapytania takiemu samemu procesowi, jakiemu poddawane są indeksowane dokumenty w rezultacie dostaniemy reprezentację zapytania zgodną z bazą danych. Po wyodrębnieniu tematów słów z zapytania są one porównywane z listą termów indeksujących i jeżeli występują na niej, możemy przystąpić do przeszukiwania bazy danych. Jeżeli tematy słów z zapytania nie występują na liście termów indeksujących, możemy na podstawie tezaurusa zaproponować synonimy lub próbować korzystać z termów ogólniejszych. Po wstępnym przetworzeniu formy

9 Podstawowe zagadnienia pozyskiwania wiedzy w Internecie 125 zapytania możemy rozpocząć proces wyszukiwania dokumentów spełniających kryteria. Model wyszukiwania informacji obejmuje trzy podstawowe elementy, a mianowicie reprezentację zapytania (kwerendy), reprezentację dokumentów oraz funkcję wyszukującą. Ze względu na te elementy można wyróżnić następujące modele [Kłopotek 2001]: model boolowski, w którym dokumenty traktuje się jako zbiory słów (w sensie matematycznym), a wyszukanie opiera się na wyrażeniach logicznych; model przestrzeni wektorowej, opisany powyżej, w którym szukając dokumentów spełniających kryteria, szukamy tak naprawdę odległości pomiędzy reprezentacją dokumentów i reprezentacją kwerendy, czyli odległości pomiędzy dwoma wektorami w przestrzeni wektorowej; model probabilistyczny, u którego podstaw tkwi założenie o istnieniu ukrytej struktury we wzorcu używania słów w dokumentach i o możliwości wykrycia tej struktury wzorca metodami statystycznymi. Wybór dokumentów dokonuje się na podstawie prawdopodobieństwa spełnienia przez nie warunków narzuconych przez kryterium; modele oparte na wiedzy różnią się istotnie od wcześniej prezentowanych. Nie zakładają one specyficznej postaci reprezentacji dokumentów, a koncentrują się raczej na stworzeniu modelu zachowania potencjalnego użytkownika. Jednym z kierunków działań w tych modelach jest próba stworzenia modelu strategii poszukiwania informacji przez eksperta w interakcji z systemem. Innym są próby modelowania zachowań typowego użytkownika. Po zakończeniu procesu przeszukiwania bazy danych uzyskujemy w odpowiedzi zbiór dokumentów spełniających kwerendę. Ostatnim krokiem, który powinniśmy wykonać, jest zaprezentowanie wyników użytkownikowi Prezentacja wyników zapytania ranking dokumentów W przypadku przeszukiwania Internetu liczba dokumentów spełniających kryteria określone w kwerendzie jest przeważnie bardzo duża i użytkownik nie jest w stanie przejrzeć ich wszystkich, ogranicza się więc przeważnie do maksymalnie kilkudziesięciu pierwszych dokumentów. Stąd ważne jest, w jakiej kolejności będą zaprezentowane dokumenty w wyniku zapytania. Rozwiązanie tego problemu nie jest proste i brak metody sprawdzającej się we wszystkich zastosowaniach. Najczęściej używane są metody wykorzystujące wagi termów. Na podstawie wartości wag termów występujących w kwerendzie, dokumentach będących odpowiedzią na zapytanie oraz wagach całkowitych wyliczane są wagi dla całych dokumentów, które definiują ranking (kolejność) dokumentów w odpowiedzi. Inną metodą, niezależną od wag termów, jest metoda PageRank. Analizując zasoby Internetu, można zauważyć, że istnieją strony, do których wiele osób umieszcza linki na swoich stronach. Można przyjąć, że strony te odgrywają rolę

10 126 autorytetów (ang. authorities). Z drugiej strony mamy strony startowe, które z kolei zawierają wiele linków do innych stron. Metoda PageRank opiera się na liczeniu linków wejściowych i wyjściowych, przy czym dla dwóch dokumentów o tej samej liczbie linków wejściowych za ważniejszą uznajemy tę, na którą wskazuje więcej autorytetów. Opierając się na tej idei, zaproponowano model przepływu autorytetu. W najprostszej postaci można przyjąć, że każda strona jest źródłem autorytetu, który jest dzielony po równo pomiędzy wszystkie linki z niej wychodzące, ale sama strona ma tylko tyle autorytetu, ile jest linków na nią wskazujących. Łatwo zauważyć, że strony, na które wskazuje dużo linków (autorytety), są źródłem dużej ilości autorytetu w przeciwieństwie do np. stron startowych. 3. Pozyskiwanie wiedzy 3.1. Uwagi ogólne Przy omawianiu metod gromadzenia, przetwarzania i wyszukiwania danych w procesie wyszukiwania informacji wielokrotnie w kwestiach problemowych mówiliśmy o wyborze optymalnej strategii czy konstrukcji właściwych algorytmów. Pod tymi pojęciami rozumieliśmy budowę oprogramowania, które będzie spełniać nasze wymagania. Jednym z problemów, przed którymi stawaliśmy, było określenie wymagań na tyle jasno i precyzyjnie, aby móc na ich podstawie dokonać wyboru właściwej metody. Pierwszym podejściem do tego problemu były katalogi stron WWW, które były nie tyle rozwiązaniem, ile obejściem problemu, poprzez pozostawienie decyzji w rękach człowieka. To on decydował, jakie strony internetowe przeglądać, do jakiej kategorii zaliczyć daną stronę, tworzył jej opis itd. Ponieważ precyzja, a przede wszystkim wydajność tej metody była daleko niezadowalająca, konieczna była automatyzacja całego procesu. Oznaczało to potrzebę stworzenia szeregu metod, które będą symulować pracę redaktora. Ponieważ jego praca opiera się w znacznym stopniu na wiedzy, metody takie muszą również opierać się na wiedzy zaszytej w konkretnych algorytmach i dodatkowo, podobnie jak w przypadku człowieka, muszą mieć zdolność uczenia się, czyli samodzielnego pozyskiwania wiedzy ze zgromadzonych danych. Oznacza to, że chcemy stworzyć system o trzech podstawowych właściwościach: który jest w stanie samodzielnie pozyskiwać dane z otoczenia, który z pozyskanych danych potrafi generować wiedzę, który umie wykorzystać wygenerowaną wiedzę do rozwiązania postawionego mu problemu. System taki ma za zadanie inteligentną analizę danych, czyli budowę modelu w sytuacji, gdy nie ma wystarczającej podbudowy teoretycznej.

11 Podstawowe zagadnienia pozyskiwania wiedzy w Internecie Przebieg procesu odkrywania wiedzy w bazach danych Jak zostało pokazane w poprzedniej części artykułu, dzięki procesowi modelowania zasobów Internet można postrzegać jako bazę danych. Tym samym w dalszej części będziemy mogli zawęzić nasze rozważania do baz danych bez utraty ich ogólności. Odkrywanie wiedzy w bazach danych (ang. KDD knowledge discovery in databases) jest stosunkowo nową dziedziną badań łączącą metody z różnych dziedzin takich jak statystyka, systemy uczące się (ang. machine learning) czy bazy danych w celu identyfikacji nieoczywistych zależności w bazach danych bez konieczności stawiania explicite hipotez o ich istnieniu. Zależności te powinny spełniać szereg istotnych z punktu widzenia użytkownika wymagań: być nowe (nieznane wcześniej), potencjalnie użyteczne (w kontekście zadania, które zostało postawione), regularne (nieprzypadkowe) oraz zrozumiałe. Ten ostatni warunek jest szczególnie ważny w kontekście możliwości wykorzystania znalezionych zależności, gdyż z psychologicznego punktu widzenia rezultaty otrzymane w wyniku działań, których nie jesteśmy w stanie prześledzić, są traktowane jako mało wiarygodne i rzadko są wykorzystywane w praktyce. Całość procesu odkrywania wiedzy w bazach danych można podzielić na kilka etapów. Są to: identyfikacja celu działania i dostępnej wiedzy, wybór i przygotowanie danych, wybór metody działania, poszukiwanie (potencjalnych) zależności, interpretacja rezultatów i konsolidacja wiedzy. Każdy z wyróżnionych etapów odpowiada innemu aspektowi procesu. Choć obecnie większość działań koncentruje się głównie bezpośrednio na problemie poszukiwania potencjalnych zależności nazywanym drążeniem danych (ang. DM data mining), pozostałe etapy, szczególnie w przypadku praktycznego zastosowania, są nie mniej istotne dla końcowego sukcesu. Proces rozpoczynamy od ustalenia celów naszego działania. Potencjalny użytkownik systemu może być zainteresowany bardzo różnorodnymi zagadnieniami. W zależności od postawionego zadania możemy mieć do czynienia z zagadnieniem klasyfikacji, np. wyszukiwaniem stron internetowych o treściach sprzecznych z prawem, z problemem wykrywania i analizy skupień, np. podziałem zbioru dokumentów na grupy o podobnej tematyce lub szukaniem dokumentów podobnych do danego czy problemem wykrywania zmian i odchyleń, np. pojawiania się stron internetowych poświęconych nowej tematyce. Przy ustalaniu celu musimy zadanie postawione przez użytkownika przeformułować na język zadań realizowanych przez system. Dodatkowo na tym samym etapie musimy dokonać identyfikacji wiedzy, jaką mamy na dany temat. W zależności od niej na dalszych etapach będziemy mogli dokonać wyboru algorytmów, które wykorzystamy do poszukiwania zależności.

12 128 Kolejnym krokiem jest wybór i przygotowanie danych. Etap ten oprócz wyboru danych oraz modelu ich reprezentacji obejmuje również ich wstępną obróbkę oraz analizę możliwości redukcji. Wstępna obróbka danych polega na analizie zakresu poszczególnych atrybutów oraz niepoprawnych kombinacji atrybutów, sugerujących możliwość wystąpienia błędów w danych, na dyskretyzacji i normalizacji atrybutów oraz na wykryciu i rozwiązaniu problemu brakujących wartości atrybutów. Oprócz wstępnej obróbki danych możemy dokonać redukcji lub rzutowania danych, dzięki czemu jest możliwe znaczne przyspieszenie wykonania zadania. Jakość i dostosowanie danych do konkretnego zadania są bardzo istotne dla uzyskania poprawnych wyników. Po przygotowaniu danych przystępujemy do wyboru metody działania, czyli wyboru rodzaju zadania, z jakim mamy do czynienia, oraz wyboru algorytmu lub algorytmów, które w tym celu wykorzystamy. Wśród rodzajów zadań możemy wyróżnić następujące: klasyfikacja, analiza skupień (klasteryzacja, grupowanie), predykcja (numeryczna), wykrywanie związków (asocjacji), wykrywanie zmian i odchyleń. W zależności od rodzaju zadania wybieramy najczęściej kilka często odmiennych w swej istocie działania algorytmów, które później wykorzystamy w procesie poszukiwania potencjalnych zależności (stawiania hipotez). Algorytmy te w zależności od sposobu działania można podzielić na dwie podstawowe grupy [Machine Learning 1994]: metody oparte na modelach to grupa metod polegających na jawnym określaniu modeli probabilistycznych i odpowiedzi na pytanie o prawdopodobieństwo zachodzenia poszukiwanych związków. Do tej grupy zaliczamy większość metod statystycznych; metody oparte na danych to grupa metod, w której model nie jest explicite określany, lecz powstaje w procesie wstępnej analizy danych zwanym procesem uczenia się. Do tej grupy należą: drzewa decyzyjne, wnioskowanie oparte na regułach (ang. rule based system), algorytmy ewolucyjne (genetyczne), systemy rozmyte, sieci neuronowe. Metody oparte na danych pozwalają rozwiązywać bardziej złożone problemy z właściwościami różnego typu, zmienną liczbą atrybutów oraz dodatkowymi poziomami takimi jak hierarchie atrybutów czy ich klasy. Celem tych metod jest wykreowanie reguł logicznych wystarczająco prostych, by były zrozumiałe dla człowieka, przy jednoczesnym zapewnieniu wglądu w proces wnioskowania, tak aby był on dla człowieka przejrzysty i zrozumiały oraz w maksymalnym stopniu odwzorowywał sposób wnioskowania człowieka [Cichosz 2000]. Tego

13 Podstawowe zagadnienia pozyskiwania wiedzy w Internecie 129 ostatniego warunku nie spełniają sieci neuronowe, gdyż ze względu na ich istotę proces ich uczenia się i działania nie przebiega w sposób w pełni czytelny dla człowieka, przez co nie potrafimy śledzić procesu wnioskowania i go odtworzyć. W konsekwencji uzyskiwane wyniki często nie są traktowane jako dobrze udokumentowane i w pełni wiarygodne. Wszystkie te metody zakładają, że w fazie przygotowawczej może być wykorzystywana cała wiedza i doświadczenie człowieka (osadzenie wiedzy), sam przebieg procesu natomiast musi się odbywać bez ingerencji człowieka. Po zakończeniu przygotowań możemy już przejść do właściwego działania, czyli poszukiwania potencjalnych zależności. W tym celu stosujemy wybrany algorytm (lub algorytmy) do przygotowanego podzbioru uczącego bazy danych, a następnie sprawdzamy jego działanie na próbie testującej. Po tej weryfikacji uruchamiamy algorytm dla wcześniej przygotowanych danych i analizujemy otrzymane rezultaty. Tak uzyskane wyniki poddajemy interpretacji. Polega ona przede wszystkim na przeformułowaniu uzyskanych wyników w sposób zrozumiały dla człowieka [Grabara 2003, Rutkowski 2005]. Innymi słowy, próbujemy zrozumieć otrzymane rezultaty i opisać je w języku pierwotnie postawionego zadania. W razie powodzenia przystępujemy do konsolidacji wiedzy. Oznacza to włączenie nowych informacji do początkowego zasobu wiedzy, np. poprzez publikacje wyników czy wykorzystanie ich w procesach podejmowania decyzji lub systemie komputerowym. W dalszej części zostały przybliżone wybrane metody stosowane w najczęściej spotykanych rodzajach zadań poszukiwania wiedzy w bazach danych: zadaniach klasyfikacji i grupowania Zadania klasyfikacji i grupowania Zadania klasyfikacji to jedne z najczęściej spotykanych rodzajów zadań KDD. Klasyfikacja jest formalnym i obiektywnym procesem służącym do szybkiego określenia cech obiektu poprzez przypisanie go do klasy obiektów o już znanych cechach. W przypadku odkrywania wiedzy w bazach danych zadanie klasyfikacji to zadanie wykrycia zasad przypisywania obiektów do istniejących klas. System realizujący takie zadanie działa na podstawie próbki uczącej, która zawiera rekordy danych opisujące już sklasyfikowane obiekty w formie atrybutów informacyjnych, opisujących cechy obiektu, oraz atrybutów klasyfikujących wskazujących, do jakiej klasy dany obiekt jest zaliczany. Proces uczenia się systemu polega na wykryciu bądź skonstruowaniu zasad pozwalających, jedynie na podstawie atrybutów informacyjnych, zaliczyć obiekt do konkretnej klasy, czyli przewidzieć wartość atrybutu klasyfikującego. Zadanie klasyfikacji jest realizowane w dwóch krokach. W pierwszym system tworzy zasady klasyfikacji na bazie części danych (próbka ucząca), a w drugim stosuje je do całości danych. Do tworzenia zasad klasyfikacji wykorzystywane

14 130 są algorytmy uczące podporządkowane metodzie, którą chcemy wykorzystać w procesie klasyfikacji. Oprócz klasycznych metod statystycznych do najpopularniejszych metod klasyfikacji należą: drzewa i reguły decyzyjne, naiwna reprezentacja bayesowska (ang. naive Bayes), sieci bayesowskie, sieci neuronowe. W praktyce najczęściej wykorzystywane są drzewa decyzyjne, co wynika z ich zalet. Drzewa decyzyjne mogą reprezentować dowolne pojęcia, często bardzo złożone. Forma drzewa jest formą intuicyjną i zrozumiałą dla człowieka, a dodatkowo jest łatwo konwertowalna na zestawy reguł typu jeżeli, to, które z kolei są łatwe w analizie i implementacji. Zarówno algorytmy uczące, jak i same drzewa mają małą złożoność obliczeniową i nie wykorzystują złożonych transformacji jak logarytm czy pierwiastek kwadratowy, pozostając tym samym bardzo efektywne nawet dla dużych zbiorów danych. Do podstawowych wad drzew decyzyjnych należy zaliczyć fakt, że w każdym kroku klasyfikacji dokonujemy, opierając się przeważnie na wartościach pojedynczego atrybutu 7. Inną wadą drzew decyzyjnych jest ich silna zależność od danych należących do próbki uczącej, mogąca prowadzić do uzyskiwania niesatysfakcjonujących rezultatów w przypadku innych danych. Mimo to drzewa decyzyjne są szeroko wykorzystywane w zadaniach klasyfikacji. W systemach wyszukiwania informacji w Internecie drzewa decyzyjne są wykorzystywane między innymi do: kategoryzacji dokumentów na podstawie zbioru dokumentów już skategoryzowanych, automatycznego indeksowania dokumentów przy wykorzystaniu słów z tezaurusa, filtrowania dokumentów dla potrzeb systemów (wyszukiwarek) dziedzinowych, identyfikacji profili użytkowników. O ile drzewa decyzyjne powszechnie znajdują zastosowanie w praktyce, o tyle sieci bayesowskie, zaliczane do grupy metod statystycznych, są dość rzadko wykorzystywane do przetwarzania tekstu (choć są dość popularne w innych dziedzinach). Podstawowym tego powodem jest wysoka złożoność obliczeniowa. Niemniej jednak ich przewidywane możliwości sprawiają, że cały czas trwają prace nad konstrukcją coraz efektywniejszych algorytmów bazujących na sieciach 7 Problem ten występuje głównie w procesie tworzenia drzew, gdzie w kolejnych krokach opieramy się przeważnie na wartościach pojedynczego atrybutu. W ostatecznej postaci drzewa, po jego optymalizacji, wyboru ścieżki w drzewach często dokonujemy na podstawie kombinacji wartości kilku atrybutów.

15 Podstawowe zagadnienia pozyskiwania wiedzy w Internecie 131 bayesowskich i ich pochodnych. Szczególnie ciekawe wydają się próby generowania streszczeń dokumentów dzięki algorytmom generacji sieci bayesowskiej. Innym dużym obszarem zastosowań metod odkrywania wiedzy w bazach danych są zadania grupowania (klasteryzacji). Polegają one na podziale obiektów na grupy (klasy, klastry, kategorie) obiektów o podobnych właściwościach, przy czym pomiędzy obiektami należącymi do jednej grupy podobieństwo jest znacznie większe niż pomiędzy obiektami z dwóch dowolnych grup. W zastosowaniach odkrywania wiedzy w bazach danych zadanie polega na wykryciu grup (skupień obiektów o podobnych właściwościach) oraz znalezieniu zasad grupowania na podstawie danych wchodzących w skład próbki uczącej. Kryterium grupowania jest tzw. funkcja przynależności oparta na miarach odległości lub prawdopodobieństwa. Czasami dodatkowo określamy pożądaną liczbę grup lub wymagany minimalny stopień podobieństwa (wartości graniczne funkcji przynależności). O skuteczności metod w tego typu zadaniach decydują trzy podstawowe czynniki: silne podobieństwo wewnątrzgrupowe, minimalne podobieństwo pomiędzy grupami oraz efektywność obliczeniowa. Mimo pewnego podobieństwa pomiędzy zadaniami klasyfikacji i grupowania, wynikającego przede wszystkim z wykrywania zasad grupowania (przypisywania do poszczególnych grup), zadania te różnią się istotnie. Podstawowa różnica tkwi w procesie uczenia: podczas gdy dla zadań klasyfikacji mamy określoną liczbę klas i ich właściwości, w zadaniach grupowania oba te istotne z punktu widzenia procesu elementy są właśnie poszukiwane. Stąd często w przypadku zadań klasyfikacji mówimy o uczeniu z nadzorem, gdyż to operator określa klasy, do jakich należą obiekty w próbce uczącej, podczas gdy w zadaniach grupowania mówimy o uczeniu bez nadzoru. Z drugiej strony, analizując szczegółowo oba procesy, można jednak zauważyć, że w obu istotną rolę odgrywa człowiek nadzorca, z tym że funkcjonuje on na różnych poziomach. W zadaniach klasyfikacji określa on explicite przynależność obiektów do danej klasy dla obiektów z próbki uczącej, a w przypadku zadań grupowania określa jedynie funkcję przynależności, którą system uczący się zamienia na prostsze w obliczeniach wyrażenie. W zadania grupowania wykorzystywane są przeważnie te same metody co w zadaniach klasyfikacji. W analizie zasobów Internetu zadania grupowania są wykorzystywane do różnych celów, od procesu przygotowywania danych do prezentacji wyników zapytania. Standardowo stosuje się je m.in. do: automatycznego tworzenia tezaurusów, wyboru i redukcji liczby atrybutów (termów indeksujących), eliminacji stron prawie identycznych (lustrzanych), grupowania dokumentów w bazie danych, grupowania dokumentów w wynikach zapytania.

16 132 Ich wykorzystanie, szczególnie w zakresie redukcji liczby atrybutów i grupowania dokumentów w bazie (redukcja wymiaru danych), ma kluczowe znaczenie dla szybkości działania systemów wyszukiwania informacji. 4. Podsumowanie Wiele dziedzin badań, które przez lata były traktowane jako niszowe, nagle zyskało nowe, praktyczne zastosowania. Dotyczy to między innymi takich dziedzin jak komputerowa analiza tekstu, metody sztucznej inteligencji czy metody komunikacji człowiek komputer. Wszystkie one znalazły zastosowanie w narzędziach wyszukiwania informacji w Internecie. Problemy wyszukiwania i rozpoznawania treści dokumentów dostępnych w Internecie sprawiły, że podjęto próby jej strukturalizacji poprzez wypracowanie i upowszechnienie standardów notacji wymuszających opisywanie treści stron internetowych explicite 8. Skuteczne wprowadzenie tych zamierzeń w życie pozwoliłoby na stworzenie wspólnej pojęciowo platformy identyfikacji treści spotykanych w Internecie [Proceedings 2003, Proceedings 2001] i znacznie ograniczyłoby konieczność korzystania ze skomplikowanych metod analizy tekstu. W zamyśle badaczy zajmujących się tym zagadnieniem pozwoli to na stworzenie inteligentnego Internetu określanego również jako sieć semantyczna, który pozwoliłby użytkownikom korzystać z sieci na poziomie informacji (treści), ukrywając przed nim skomplikowaną i nienaturalną dla człowieka strukturę sieci na poziomie danych (stron internetowych, serwerów, różnego rodzaju usług sieciowych), który to poziom jest obecnie podstawowy i praktycznie jako jedyny szeroko dostępny. Koncepcja ta jest dla wielu oczywistym kierunkiem ewolucji Internetu jako sieci globalnej dostępnej praktycznie dla każdego człowieka bez względu na wykształcenie i umiejętności [Straszak 2002]. Należy jednak pamiętać, że strukturalizacja Internetu nie rozwiązuje wszystkich problemów, z jakimi mamy do czynienia przy wyszukiwaniu informacji w sieci. Ułatwia ona jedynie kwestię identyfikacji treści, pozostawiając do rozwiązania problemy skanowania, reprezentacji czy szybkiego wyszukiwania informacji. Nie rozwiązuje również bardzo istotnego problemu wiarygodności danych. Oznacza to, że znaczna cześć prezentowanych wcześniej zagadnień pozostaje aktualna jako problemy badawcze. 8 W tych działaniach oparto się na sztucznych językach opisu semantycznego wywodzących się głównie ze standardów bazujących na językach typu XML, dostosowując je do potrzeb i możliwości Internetu. Prace te są cały czas kontynuowane, a przyjęta forma działania, związana ze współpracą wielu środowisk i popularyzacją zamiast formalnego wymuszania, stosowania przyjętych a priori standardów rokuje nadzieję na skuteczność.

17 Podstawowe zagadnienia pozyskiwania wiedzy w Internecie 133 Literatura Amrani A. i in. [2004], From the Text to the Concepts They Contain: A Chain of Linguistic Treatments, Cichosz P. [2000], Systemy uczące się, WNT, Warszawa. Grabara I. [2003], Wizualizacja w procesie zdobywania wiedzy [w:] Efektywność zastosowań systemów informatycznych 2003, t. 2, WNT, Warszawa Szczyrk. Kłopotek M.A. [2001], Inteligentne wyszukiwarki internetowe, Akademicka Oficyna Wydawnicza EXIT, Warszawa. Machine Learning, Neural and Statistical Classification [1994], red. D. Michie, D.J. Spiegelhalter, C.C. Taylor, Proceedings of Semantic Integration Workshop SI-2003 [2003], Second International Semantic Web Conference, Sanibel Island, Florida, USA, October 20, sematicweb.org. Proceedings of SWWS 01 [2001], The First Semantic Web Working Symposium, Stanford University, California, USA, July 30 August 1, Rutkowski L. [2005], Metody i techniki sztucznej inteligencji, PWN, Warszawa. Straszak A. [2002], Badania operacyjne i systemowe [w:] Społeczeństwo informacyjne. Badania operacyjne i zarządzanie, Akademicka Oficyna Wydawnicza EXIT, Warszawa. Zaiane O.R. [1998], From Resource Discovery to Knowledge Discovery on the Internet, School of Computing Science Simon Fraser University, Burnaby, Canada, Basic Issues of Acquiring Knowledge in the Internet The fast development of the Internet in the last decade caused that it has become an enormous source of information concerning all areas of human activity. On account of the magnitude of these resources, the main issue is an access to desired data. Tools that help to solve this problem connect achievements of various disciplines like linguistics, statistics, artificial intelligence, databases and information theory. The paper presents basic issues related to the Internet contents modelling, focused on information searching and on exploitation of the Internet as a source of knowledge.