METODY INDEKSOWANIA DOKUMENTÓW TEKSTOWYCH W SYSTEMACH WEBOWYCH

Indeksowanie, Indeks Inwersyjny Grupowanie, Pliki Podpisu Daniel Halikowski METODY INDEKSOWANIA DOKUMENTÓW TEKSTOWYCH W SYSTEMACH WEBOWYCH Zasoby sieci Internet to miliardy plików zlokalizowanych na całym świecie. Wraz z pojawieniem się tak ogromnych ilości stron WWW, dokumentów, baz danych oraz aplikacji zaistniała potrzeba usprawniania mechanizmów ich wyszukiwania oraz przechowywania. Najważniejszą operacją wykonywaną przez wyszukiwarkę, umożliwiającą szybkie wyszukiwanie relewantnych danych jest indeksowanie dokumentów oraz ich poprawna klasyfikacja w bazie danych. Indeksowanie dokumentu polega na określeniu tematu lub przedmiotu i wyrażeniu tego tematu lub przedmiotu w języku informacyjno-wyszukiwawczym (stosowanym w danym systemie wyszukiwania informacji) w charakterystyce wyszukiwawczej indeksowanego dokumentu [6]. Jedną z metod indeksowania dużej ilości plików tekstowych takich jak np. strony Web jest zastosowanie indeksu inwersyjnego. Kolejnymi metodami są grupowanie oraz pliki podpisu. Zastosowanie każdej z tych technik nie daje nam precyzyjnych rezultatów, ale są one najbardziej rozpowszechnionymi rozwiązaniami wśród silników wyszukujących. W referacie przedstawiono analizy i charakterystyki technik indeksowania dokumentów tekstowych, przedstawiono ich wady i zalety. Porównanie tych metod umożliwi wybór najlepszego rozwiązania podczas tworzenia systemu indeksującego. 1. WSTĘP Działanie mechanizmów indeksujących (porządkujących dokumenty) polega na penetrowaniu sieci w celu wyszukania odpowiednich dokumentów, a następnie stworzenia indeksu, czyli bazy danych zawierającej informacje o zawartości indeksowanego pliku. Programy przeszukujące Internet można podzielić na dwie kategorie. Pierwszą z nich stanowią aplikacje korzystające ze specjalnego programu komputerowego, tzw. crawlera (zwanego również robotem lub pająkiem). Drugą stanowią aplikacje przedstawiające wyniki w postaci katalogów tworzonych przez redaktorów. W przypadku Crawlerów po sformułowaniu kryteriów przeszukują one strony sieci Web w celu znalezienia relewantnych wyników, które w przypadku tych Instytut Informatyki, Państwowa Wyższa Szkoła Zawodowa w Nysie, ul Grodzka 19, 48-300 Nysa (e-mail: dhalikowski@pwsz.nysa.pl)

aplikacji generowane są automatycznie. Bardzo ważną cechą Crawlerów jest regularne odwiedzanie stron które już wcześniej zostały przeszukane, dzięki czemu odnotowują one zmiany dokonywane w serwisie WWW. Praca tych robotów polega przede wszystkim na analizie adresów internetowych, treści nagłówków i zawartości strony głównej, na podstawie których zostają wygenerowane słowa kluczowe, które z kolei umożliwiają odpowiednie segregowanie treści. Informacja dostarczona przez pająka podlega jeszcze odpowiedniej obróbce przez oprogramowanie wyszukiwarki, która ma na celu znalezienie odpowiedzi na zadane zapytanie oraz uszeregowanie wyników w odpowiedniej kolejności. W przypadku katalogów, są one tworzone przez redaktorów i zawierają wybrane przez nich adresy oraz strony zgłoszone przez webmasterów. Proces ten ma kilka wad. Jest bardzo pracochłonny, ponieważ nie jest on wykonywany automatycznie, a aktualizacja stron jest dokonywana bardzo rzadko. Niesie ze sobą także inne niebezpieczeństwa, gdyż wartość strony i to czy zostanie ona skatalogowana zależy od upodobań redaktora. Jak wynika z powyższego podstawowym celem wyszukiwania i indeksowania dokumentów jest gromadzenie informacji, jakie słowa zawierają poszczególne dokumenty, dlatego tak ważne jest stworzenie systemu, który w optymalny sposób będzie analizował zawartość indeksowanego pliku. Większość obecnych metod tworzenia indeksu opiera się w zasadzie na tej samej idei, w której kluczem do sukcesu jest oczywiście właściwa treść dokumentu. 2. REPREZENTACJA DOKUMENTU Techniki indeksowania opierają się na odpowiedniej interpretacji danego dokumentu i reprezentacji jego zawartości. Najlepszym sposobem jest reprezentacja dokumentu jako wektora słów lub fraz. Na podstawie szeregu badań stwierdzono jednak, że indeksowanie słów (czy pojedynczych termów), czyli tzw. reprezentacja prosta, jest bardziej efektywna niż indeksowanie fraz. Przyczyną takiego stanu rzeczy może być fakt, iż różne frazy mogą mieć to samo znaczenie. Ważną rzeczą jest też odpowiedni dobór termów (słów) reprezentujących dany dokument. Dobór opiera się zwykle na iloczynie tfxidf, w którym tf wskazuje na lokalne znaczenie termu, a df lub idf na globalne znaczenie termu. Tf jest to częstotliwość termu w dokumencie, df częstotliwość termu w populacji dokumentów, a idf inwersyjna częstotliwość dokumentu. Ważność termu ocenia się na podstawie jego zdolności do odróżnienia dokumentów relewantnych od nierelewantnych. Zdroworozsądkowe rozważania prowadzą do postawienia hipotezy, że częstotliwość występowania różnych słów w tekście w języku naturalnym jest związana z ważnością tych słów dla reprezentacji treści [6], nie do końca jednak tak jest. Jeżeli weźmiemy pod uwagę typowy zbiór dokumentów zauważymy, że słowa często występujące są na ogół mało znaczące, co zaprzecza wcześniejszym stwierdzeniom. Słowa rzadko występujące mogą za to być

słowami o dużym znaczeniu dla danego dokumentu, a ich eliminacja wiąże się automatycznie ze spadkiem precyzji. Praktyczny schemat doboru termów eliminujący podstawowe wady miałby następującą formę: - Użycie stop-lista, która eliminuje słowa często występujące o małym znaczeniu - Obliczenie częstotliwości termów tf ij oznaczającej liczbę wystąpień T j w D i, gdzie T j oznacza term w dokumencie D i - Wybranie progowej częstości T, i przypisanie każdemu dokumentowi grupy termów, których tf ij jest większa od T 3. INDEKS INWERSYJNY Techniką indeksowania bazującą na powyższej formie reprezentacji dokumentu jest indeks inwersyjny (inverted index), z którego korzysta większość serwisów indeksujących. Indeks taki jest skonstruowany podobnie jak spis terminów na końcu książki - dla każdego słowa przechowywana jest lista dokumentów zawierających to słowo (każde słowo znajdujące się w bazie danych ma odpowiedni wpis w indeksie inwersyjnym, a każdy indeks zawiera wskaźnik do dokumentów, które zawierają tamto słowo). Umożliwia to bardzo szybkie wyszukiwanie, ponieważ indeksy są sprawdzane w celu znalezienia reprezentanta dla słowa kluczowego. Ten reprezentant zawiera odnośniki do wszystkich dokumentów lub stron web-owych, które zawierają to słowo (rys 1). Dokument 1 Fryderyk Szopen Fortepian Utwór Dokument 3 Jan Nowak Szopen Utwór Dokument 2 Fryderyk Szopen Biografia Fryderyk Dokument1, Dokument 2 Szopen Dokument1, Dokument 2 Fortepian Dokument1 Utwór Dokument1, Dokument 3 Jan Dokument3 Nowak Dokument3 Biografia Dokument 2 Rys 1. Przykład indeksu inwersyjnego Fig 1. Inverted index example

Możliwym rozszerzeniem indeksu odwróconego może być wersja, w której przechowywane są także dodatkowe informacje na temat słowa, takie jak lokalizacja słowa w dokumencie, liczba wystąpień we wszystkich dokumentach czy liczba wystąpień w każdym z dokumentów. Umożliwi to szybsze wyszukiwanie fraz, zastosowanie wyszukiwania przybliżonego wykorzystującego informację o słowach, które znajdują się blisko siebie, oraz formułowanie bardziej skomplikowanych składni zapytań [3]. Ta dodatkowa informacja ułatwia nam także proces zaszeregowania dokumentów. Na przykład, term występujący w dokumencie częściej, z oczywistych względów ma szansę być bardziej relewantnym (mając na uwadze wcześniej opisane warunki) takie zjawisko nazywamy Częstotliwością Terminu [2]. Także, jeśli zapytanie zawiera wielorakie słowa i jedno z takich słów występuje tylko w kilku dokumentach to te dokumenty będą w wyższych pozycjach rankingu, nazywamy to inwersyjną częstotliwością dokumentu. Oczywiście to niesie ze sobą pewne konsekwencje. Im więcej informacji przechowujemy, tym więcej miejsca na dysku będziemy potrzebować, a także może to spowodować wydłużony czas znajdowania indeksu. Istnieją także pewne ograniczenia wynikające z używania tej metody, które wpływają na indeksowanie a w konsekwencji na późniejsze wyszukiwanie. Przykładami tych ograniczeń są: - Kontrolowany słownik, który jest kolekcją słów kluczowych, które mają być zaindeksowane. Słowa, które są w dokumencie, a nie są w tym słowniku nie zostaną zaindeksowane, a co się z tym wiąże znalezione. - Użycie Stop-Listy zawierającej słowa, których nie ma potrzeby indeksować (np. przyimki, przedimki) - Użycie zestawu reguł, które decydują o początku słowa lub tekstu, który ma być zaindeksowany. Reguły te muszą uporać się np. z różnym rozmieszczeniem, interpunkcją i formatem słów, co ma znaczny wpływ na jakość indeksowania. - Lista ciągu znaków przeznaczonych do indeksowania (lub wykluczonych przy indeksowaniu). W dużych bazach tekstowych nie wszystkie ciągi znaków są indeksowane (często np. nie indeksuje się ciągu następujących po sobie znaków numerycznych). 3.1. IMPLEMENTACJA INDEKSU ODWROTNEGO Poniżej przedstawiony system (rys 2) stanowi przykładową implementację indeksowania inwersyjnego. System ten nie indeksuje stron, ale zasada jego działania pozwala na zastosowanie go w procesie indeksowania dokumentów tekstowych (tylko w małym zakresie).

Indeks inwersyjny Katalog główny aa ab ac ad........ za zi zo zz Advanced adam... advanced advocacy Rys 2. Struktura indeksów Fig 2. Index structure Jak widać cały indeks posiada katalog macierzysty. W tym katalogu znajduje się wiele podkatalogów, a nazwy tych podkatalogów zaczynają się od dwóch liter. Podkatalogi są posortowane alfabetycznie. Dla każdego słowa znajdującego się w dokumencie istnieje plik, który znajduje się w katalogu, którego nazwa jest dwiema pierwszymi literami tego słowa. Na przykład, pliki indeksu słowa adam, advanced, advocacy będą znajdować się w katalogu o nazwie ad. Pliki te zawierają pełną nazwę pliku dokumentów zawierających te słowa. Oczywiście w przypadku indeksowania stron zamiast nazwy pliku będzie znajdować się skrót URL [3]. Algorytm indeksujący dokumenty w ten sposób może wyglądać następująco: 1. Wczytaj pierwszy dokument. 2. Podziel zawartość na słowa ( terminy). 3. Zapamiętaj słowa w pamięci. 4. Wczytaj kolejny dokument. 5. Zapisz słowa do pliku indeksu. 6. Wróć do kroku 4 w przypadku, gdy są jeszcze pliki do indeksowania. Przeszukiwanie indeksu rozpoczynamy od ustawienia się na początku struktury podkatalogów (katalog aa ) i porównywaniu nazw poszczególnych podkatalogów

z szukanym słowem. W przypadku znalezienie katalogu, którego nazwa odpowiada dwóm pierwszym literom szukanego terminu, wewnątrz tego katalogu znajdziemy plik, którego nazwa będzie szukanym terminem a w jego wnętrzu będą ścieżki dostępu do plików, w których się to słowo znajduje. Ten system jest bardzo prosty, co sprowadza się do tego, że pozwala na szukanie jedynie pojedynczych słów. Stanowi jednak podstawę dla bardziej złożonego systemu, w którym użycie koniunkcji, dysjunkcji czy negacji da możliwość porównania zwróconych pozycji. Na przykład użycie operatora AND spowoduje, że system zwróci nam nazwy plików, w których znajdują się oba szukane słowa [1]. 4. GRUPOWANIE Grupowanie jest techniką używaną w celu zwiększenia szybkości wyszukiwania oraz do zwracania większej ilości jak najbardziej adekwatnych wyników. Z reguły jest tak, że podobne dokumenty mają tendencję być relewantnymi na to samo zapytanie, więc są one grupowane w jednym zbiorze. Jeżeli wynikiem zapytania jest dokument znajdujący się w takim zbiorze, wtedy jako wynik może być zwracana adekwatna grupa dokumentów. Grupowanie możemy stosować zarówno do dokumentów jak i do słów [5]. Grupy słów będą zawierać terminy, które mają podobne znaczenie (np. synonimy). Kiedy poszukujemy określonego terminu, silnik wyszukujący może poszukiwać wśród innych słów znajdujących się w określonej grupie. Takie grupy słów mogą być tworzone manualnie lub przez inteligentny algorytm, który może na bieżąco aktualizować i modyfikować takie zbiory. Rola tego algorytmu polega na analizie wartości i znaczenia słów i odpowiednim sklasyfikowaniu ich przynależności (wrzucenie do odpowiedniego zbioru). Może być też tak, że będą one tworzone przez połączenie obu sposobów. 4.1.W JAKI SPOSÓB GENERUJEMY GRUPY Jedną z metod generowania zbiorów (grup) jest tworzenie wektora dla każdego z dokumentów. Wektor ten jest rozmiaru t, gdzie t jest liczbą słów kluczowych dla wszystkich dokumentów, wskutek czego każdy wektor będzie dosyć duży. Wartość t może być zmniejszona poprzez zastosowanie trzech procesów: - Użycie 'Negative dictionary', który eliminuje proste słowa o małym znaczeniu takie jak 'i', 'z', 'lub', 'jest', etc. - Redukcja słowa do jego podstawy. Na przykład advertising, advert, advertiser, advertisement możemy zredukować do advert i to jest ta podstawa. W tym momencie warto wspomnieć o tzw. Stemmingu czyli transformacji słowa do postaci bazowej w celu wyeliminowania fleksyjności języka (prace nad tym rozwiązaniem prowadzi m.in. p. D Weiss).

- Następnie użycie tezaurus a stanowiącego zbiór semantycznie i hierarchicznie powiązanych terminów, ułatwiający wyszukiwanie pochodnych informacji, który przypisze słowa do jednej klasy słów zawierających synonimy innych (spowoduje to redukcję wektora w przypadku wystąpienia takowych synonimów). To klasa słów byłaby wtedy pozycją t w wektorze każdego dokumentu [3]. Wszystkie dokumenty mają wektory o tej samej strukturze. Każda pozycja w wektorze jest przypisana do odpowiedniej klasy słów. Ilustruje to następujący przykład: Jeżeli jedyną klasą słów w bazie danych byłyby słowa: słowo1, słowo2 i słowo3, wektor dla tych dokumentów byłby następujący: W={słowo1; słowo2; słowo3} Jeżeli mamy dokument ze słowami słowo1 i słowo3 to wektor miałoby postać: W={1; 0; 1} Jeżeli mamy dokument tylko ze słowem słowo1 to wektor miałoby postać: W={1; 0 ; 0} Zero jest wstawiane w wektorze klasy słów, jeżeli słowo nie występuje w tym dokumencie. Najprostszym sposobem przedstawienia obecności słowa byłoby wstawienie jedynki w wektorze na pozycji słowa, ale możemy to udoskonalić poprzez nadanie słowu wagi dla każdego dokumentu. Wagę taką można obliczyć np. na podstawie strategii ważenia termów zwanej term frequency-inverse dokument frequency ze wzoru [6]: tfidf ij =tf ij xidf j =tf ij xlog 2 (N/df j ) (1) gdzie: tf ij : liczba wystąpień termu j w dokumencie I df j : liczba dokumentów zawierających term j N: ogólna liczba dokumentów Najpopularniejszymi czynnikami branymi pod uwagę w metodzie grupowania (tak jak w indeksie odwróconym) są: - Częstotliwość występowania terminu na stronie (może być normalizowana do obliczenia dla różnych długości dokumentów) - Specyfikacja terminu tj. branie pod uwagę częstości występowania terminu w całej bazie danych.

Po utworzeniu wektora musimy zaktualizować grupy klastrów. Możemy tego dokonać poprzez zastosowanie na macierzy funkcji znajdującej dokumenty, które powinny być połączone w grupę. To oznacza porównanie każdego wektora pozostałymi wektorami, co daje nam n 2 operacji, jeżeli mamy n- dokumentów. Następnie możemy stworzyć hierarchię klastrów poprzez porównanie właściwości wektorów. To pozwali nam na utworzenie struktury katalogów, które będą użyte w razie wyszukiwania ręcznego. 5. PLIKI PODPISU (SIGNATURE FILES) Mniej znaną metodą indeksowania, o której warto jeszcze wspomnieć jest technologia tzw. plików podpisu. Pliki takie są plikami binarnymi stworzonymi na podstawie funkcji hashowania głównego dokumentu. Plik podpisu zawiera ciąg bitów reprezentujących zawartość danego dokumentu albo jego części. Podpis jest odpowiednio długim wektorem składającym się z zer lub jedynek. Podpis słowa jest wektorem bitów odpowiadającym właściwemu słowu. Aby stworzyć taki plik podpisu należy zawartość indeksowanego pliku podzielić na oddzielne części (słowa) oraz usunąć słowa znajdujące się na stopliście. Następnie przypisujemy każdemu słowu n- bitowy podpis. Wstępnie wszystkie bity wektora ustawione są na zero, jednak w ciągu dalszego przetwarzania danych bity na pozycjach k zostają ustawione na jeden używając k- różnych funkcji hashowania. Aby zlokalizować dokument zawierający szukane słowo, dla każdego termu znajdującego się w zapytaniu tworzymy podpis używając tych samych funkcji hashujących co podczas tworzenia pliku podpisu a następnie porównujemy podpis z wcześniej stworzonym plikiem podpisu. Najprostszą formą tej technologii była idea rozwijana przez p. Tsichritzisa i Christodoulakisa, którzy to zaproponowali binarny kod dla każdego słowa, który w prosty sposób zastępowałoby faktyczne słowo w dokumencie. Zastosowanie takiego rozwiązania pozwala oszczędzić przestrzeń na dysku, chroni porządek słów, i zwiększa szybkość przeszukiwania. Na przykład, proste i często używane słowa mogą być reprezentowane przez tak małe słowo binarne jak to tylko możliwe. 6. WNIOSKI Indeksowanie ma ogromny wpływ na działanie serwisu wyszukiwawczego. Dzięki indeksowi możemy wyszukać określone dane spośród ogromnego zbioru w ciągu ułamku sekundy. Dobranie odpowiednich algorytmów indeksujących daje nam możliwość wyszukiwania najbardziej relewantnych dokumentów a to jest celem każdego serwisu wyszukiwawczego. Metody tu przedstawione są jednymi

z najpopularniejszych technik używanych przez przeglądarki internetowe, choć mają jednak swoje wady. Badanie ich i ulepszanie, a jednoczesne szukanie nowych metod daje jednak szansę na stworzenie technologii optymalnej i najbardziej praktycznej, może niepozbawionej wad, ale dużej mierze satysfakcjonującej użytkownika, a to jest przecież najważniejsze. LITERATURA [1] http://dent.ii.fmph.uniba.sk/~kravcik/ir/convtrs/invrtind.html. [2] http://www.cfar.umd.edu/~kanungo/cmsc828k/thomas/index.ppt [3] http://www.doc.ic.ac.uk/~nd/surprise_97/journal/vol4/mjc4/indexing.html [4] GLOSSBRENNER A., GLOSSBRENNER E., Search Engines for the World Wide Web, Peachpit Press, Berkeley 1998. [5] KIMMO PALIN, JANNE PASANEN, TEEMU ROOS, Clustering Documents by Minimum Encoding, University of Helsinki 2001. [6] KŁOPOTEK A. M., Inteligentne wyszukiwarki internetowe, Warszawa, AOW EXIT, 2001, 173 209. [7] OPPENHEIM C., MORRIS A., McKNIGHT C., The evaluation of WWW serach engines, J. of Documentation, 2000, Vol. 56, nr 2, s. 150-211. [8] SHWARTZ C., Web search engines, J. of the ASIS, 1998, Vol. 49, nr 11, s. 910-970. STRESZCZENIE (Indexing text documents in Web systems) The Internet consists of many files across the world. There are millions World Wide Web pages, text files, applications and databases. To search relevant documents search engines have to use good indexing method to classification those documents in storing databases. One method of storing many pages of text, such as Web pages, is to use an inverted index. Another methods of storing the pages in a database is to use a clastering and signature files. Those techniques unfortunately cannot give precise results, but are most popular methods used by search engines. In this paper are characteristics of each indexing techniques, those advantages and defects. There are also comparisons methods which let us to choose the best method to use in indexing systems.