ZASTOSOWANIE ROSZERZONEJ METODOLOGII WNIOSKOWANIA NA PODSTAWIE PRZYPADKÓW TEXTUAL CBR W PRACY Z DOKUMENTAMI TEKSTOWYMI Anna Kempa Wstęp Próby automatycznego wyszukiwania, analizy i obróbki dokumentów tekstowych przez komputer prowadzone są od dawna. Przedstawienie jednej ze stosowanych motodologii na tym obszarze Textual Case-Based Reasoning (Textual CBR, TCBR) zostanie poprzedzone krótkim omówieniem znanych metod i kategorii systemów zajmujących się czytaniem dokumentów tekstowych. Głównym celem artykułu jest przedstawienie Textual CBR na tle innych stosowanych rozwiązań w pracy z tekstami. Przy czym naleŝy zaznaczyć, Ŝe inne rozwiązania nie oznacza tu alternatywne, czy konkurencyjne. Prace nad takimi systemami polegają w duŝej mierze na interdyscyplinarnym kojarzeniu wielu róŝnych metod, w tym matematycznych i statystycznych. Kolejne rozwiązania stanowią nierzadko drobną mutację poprzednich, a o ich skuteczności, a takŝe dalszym kierunku zmian zdecydują zrealizowane zastosowania. Sama metodologia Textual CBR nie jest statycznym, z góry zdefiniowanym narzędziem, jak zostanie pokazane to w dalszej części takŝe ewoluuje ogarniając coraz to nowe obszary dziedzinowego zastosowania. Podejścia wyszukiwania i analizy tekstu Wśród stosowanych podejść wyszukiwania i analizy dokumentów tekstowych wymienia się m.in.: Systemy wyszukiwania informacji ( ang. Information Retrieval, IR) Rozumienie języków naturalnych ( ang. Natural Language Processing) Metody ekstrakcji informacji ( ang. Information Extraction, IE) Metody eksploracji tekstu ( ang. Text Mining)
ZARZĄDZANIE WIEDZĄ I ROZWIĄZANIA BUSINESS INTELLIGENCE Information Retrieval Information Retrieval, IR (wyszukiwanie informacji) jest określeniem powszechnie uŝywanym, chociaŝ po części nie do końca trafnie. System wyszukiwania informacji nie tyle informuje uŝytkownika na temat, który go interesuje, co informuje o istnieniu (lub jego braku) miejsca, gdzie dokument odpowiadający wymaganiom uŝytkownika się znajduje [Toma02]. W typowym IR uŝytkownik tworzy zapytanie, złoŝone z jednego lub kilku wyrazów, na podstawie którego system wyszukuje dokumenty. WyróŜnia się dwa główne podejścia IR: model Boolowski (Boolean Logic Model, BLM) oraz rankingowy (ranked-output systems) [Toma02]. Zapytanie BML składa się ze słów lub fraz połączonych logicznymi operatorami AND, OR oraz NOT. Rezultatem zapytania jest zazwyczaj podział zbioru dokumentów na dwie części: jedną zawierającą dopasowane dokumenty oraz drugą zawierającą dokumenty niedopasowane. System rankingowy, stosując algebrę wektorów ocenia podobieństwo treści dokumentów z treścią zapytania i na tej podstawie dokonuje rankingu znalezionych dokumentów. Systemy rankingowe wykorzystują najczęściej następujące modele do oceny podobieństwa dokumentów: Model wektorowy (Vector Space Model, VSM), model probabilistyczny (Probabilistic Model, PM), a takŝe inne, m.in. Inference Network Model (INM). Zaletą systemów IR jest dziedzinowa niezaleŝność oraz elastyczność językowa (zmiana języka nie wymaga zbyt wielu adaptacji). Natomiast do najwaŝniejszych ograniczeń tych systemów naleŝy załoŝenie niezaleŝności indeksów termów, co moŝe prowadzić do oszacowania zerowego podobieństwa między dokumentami zawierającymi synonimiczne wyraŝenia [Toma02]. Natural Language Processing Metody Natural Language Processing, NLP (rozumienie języków naturalnych) zawierają mechanizmy próbujące dokonać zrozumienia kontekstu tekstu. W metodach tych nie oblicza się podobieństwa termów, ale oznacza się poszczególne części mowy (analiza płytka) oraz szuka się znaczenia danego wyraŝenia w kontekście poprzez pełną analizę gramatyczną (analiza głęboka). Niektóre serwisy internetowe proponują uŝytkownikom alternatywnie dla metod IR wyszukiwanie informacji poprzez systemy wzbogacone o NLP, co moŝe dać w wyniku lepiej dopasowane do danego zapytania dokumenty. Metody NLP mają jednak swoje wady, naleŝą do nich: większa złoŝoność i czasochłonność (zwłaszcza głęboka analiza), są silnie związane z danym językiem (adaptacja na inne języki wymaga wiele pracy), tracą znacznie swoją skuteczność w przypadku występowania w tekście terminów spoza słowników oraz w przypadku analizy tekstów sporządzonych jako krótkie notatki (dość często pozbawione poprawnej struktury gramatycznej). 317
ROZDZIAŁ III Information Extraction Zadaniem ekstrakcji informacji (Information Extraction, IE) jest zidentyfikowanie instancji pewnej predefiniowanej klasy zdarzeń, ich powiązań oraz wystąpień w dokumentach pisanych w języku naturalnym [Fili04]. W odróŝnieniu od systemów IR, systemy IE nie wyszukują samych dokumentów, ale zgodnie z nazwą dokonują ekstrakcji informacji z ich treści. Pozyskane informacje mogą zostać umieszczone w bazie danych. Informacja, jaka będzie pozyskiwana z dokumentu jest specyfikowana przez uŝytkownika, który tworzy wzorzec. Zawiera on określone sekcje - dziury (ang. slots), które wypełniane są fragmentami tekstu. Jądro systemu ekstrakcji informacji składa się z dwóch komponentów: procesora tekstów (którym moŝe być jedna z metod NLP) oraz generatora wzorców, które osadzone są w wiedzy dziedzinowej. Zadaniem procesora tekstów jest analiza leksykalna tekstu (obecnie najczęściej stosuje się płytką analizę) [Fili04]. Text Mining Text mining jest metodologią wywodzącą się z data mining, wyszukiwania informacji, ekstrakcji danych, kategoryzacji tekstu, modelowania probabilistycznego, algebry liniowej, uczenia maszynowego zastosowanych w celu wykrycia wiedzy z dokumentów tekstowych [Fili04]. Definicja wskazuje na podobieństwo z technikami IE. Ekstrakcji informacji dokonuje się jednak zwykle w oparciu o znane wzorce, w przypadku text mining wzorce wychwytywane są dopiero w procesie przetwarzania dokumentu. Do typowych zadań text mining naleŝy: znajdowanie dokumentów najbardziej pasujących do zapytania uŝytkownika, tworzenie rankingów dokumentów, grupowanie dokumentów (analiza skupień), klasyfikowanie dokumentów (kategoryzacja), analiza powiązań między jednostkami tekstu, dokonywanie automatycznych streszczeń dokumentów [Fili04]. Textual Case-Based Reasoning W dalszej części opisano główne załoŝenia metodologii CBR oraz je rozszerzenia - Textual CBR. Case-Based Reasoning CBR definiowane są jako systemy rozwiązujące nowe problemy poprzez adaptację rezultatów, które były wykorzystane podczas rozwiązywania starych problemów. Nowy problem jest rozwiązywany poprzez odnalezienie podobnego do niego przypadku w zbiorze i zastosowaniu do niego rozwiązania skojarzonego z odnalezionym przypadkiem. Cykl działania systemu realizującego metodę 318
ZARZĄDZANIE WIEDZĄ I ROZWIĄZANIA BUSINESS INTELLIGENCE CBR moŝna opisać przy pomocy czterech procesów [AaPl94]: Wyszukanie (ang. retrieve) najbardziej podobnego przypadku lub zbioru przypadku; Wykorzystanie (ang. reuse) wiedzy zawartej w tym przypadku do rozwiązania problemu; Ocena przydatności (ang. revise) zaproponowanego rozwiązania; Zapamiętanie (ang. retain) doświadczenia w celu późniejszego wykorzystania podczas rozwiązywania nowych problemów w przyszłości. Definicja Textual CBR W klasycznych systemach CBR wiedza o przypadkach, zapisana w bazie przypadków, ma postać uporządkowanych, wydzielonych porcji informacji (bazy przypadków wraz z metodami dostępu i aktualizacji). Textual Case-Based Reasoning (Textual CBR, TCBR) jest podejściem poszukującym moŝliwości stosowania wnioskowania na podstawie przypadków (CBR) w obszarach, gdzie wiedza o przypadkach zapisana jest w postaci tekstowej [AsLe98] [WiBr99]. W systemach TCBR wykorzystuje się opisane w poprzednim rozdziale metody analizy tekstu, w największym stopniu IR, ale takŝe metody NLP. Istotnym punktem przewagi, który wyróŝnia Textual CBR od wymienionych metod pracujących samodzielnie (bez CBR), jest zdolność TCBR pozyskiwania wiedzy podczas procesu wnioskowania, czyli uczenie się w trakcie działania systemu. Porównując TCBR z metodologią Text Mining, która takŝe obejmuje typowe metody NLP, IR oraz IE moŝna zauwaŝyć, Ŝe mimo podobieństw nie są wobec siebie konkurencyjne, a raczej w razie potrzeby mogą się stać komplementarne. W Data Mining moduły CBR uŝywane są do rozwiązywania problemów kategoryzacji, natomiast CBR mogą wykorzystywać Data (i/lub) Text Mining do budowy przypadków 1. Stopień ustrukturalizowania przypadku Istnieją systemy TCBR pracujące na przypadkach, które odpowiadają w całości zawartości pełnotekstowych dokumentów. Jednak przypadek moŝe zawierać zarówno pełnotekstowe jak i ustrukturalizowane komponenty. Przykładowo w problemach serwisu sprzętowego operator otrzymuje strukturalne informacje (np. typ maszyny, system operacyjny) wraz z tekstowym opisem problemu w działaniu danego sprzętu. Częściowo ustrukturalizowane przypadki (ang. semi-structured cases) definiowane są [WiBr99] jako proste lub złoŝone przypadki zawierające zarówno dobrze zdefiniowane, bogate w wiedzę cechy jak i nieustrukturalizowane elementy charakterystyczne dla dokumentów tekstowych. W [WiBr99] przedstawiono proces kompozycji przypadku jako kontinuum for- 1 Przykład wykorzystania Text Mining (systemu TextAnalyst) do budowy przypadków: http://www.megaputer.com/company/cases/casebank.php3 319
ROZDZIAŁ III my przypadku od pełnotekstowej, poprzez częściowo ustrukturalizowaną do w pełni strukturalnej (Rys 1). Fully Structured Semi-Structured Fully Textual Rys 1. Częściowo ustrukturalizowana wiedza przypadku Źródło: [WiBr99] Silny i słaby Textual CBR W zaleŝności od wagi tekstu w procesie wnioskowania wyróŝnia się silnie i słabo tekstowe podejście TCBR. Systemy, w których waga tekstu przewyŝsza wagę dostępnych informacji ustrukturalizowanych są silnie tekstowe (ang. strongly-textual CBR). Natomiast systemy, w których przewaŝa wpływ informacji ustrukturalizowanych są słabo tekstowe (ang. Weakly-textual CBR). Silnie tekstowy TCBR Stopień analizy tekstu Słabo tekstowy TCBR Dostępność kontekstu przypadku Rys. 2. Poziomy wagi tekstu w TCBR Źródło: [WiBr99] Rysunek 2 pokazuje kontinuum pomiędzy silnym i słabym TCBR. Przy niskiej dostępności kontekstu przypadku w procesie wnioskowania (np. gdy przypadkiem jest dokument pełnotekstowy) konieczne jest włączenie metod, które pozwolą zrozumieć kontekst (np. metody NLP). Wraz ze wzrostem dostępności kontekstu przypadku maleje wkład pracy systemów nad samym tekstem, przy słabo tekstowym TCBR ogranicza się on do tradycyjnych metod IR (np. model wektorowy). 320
ZARZĄDZANIE WIEDZĄ I ROZWIĄZANIA BUSINESS INTELLIGENCE Wybrane projekty Textual CBR Nazwa projektu CBR- Answer DRAMA SPIRE Wybrane projekty Textual CBR Opis Tabela 1 System opracowano na Uniwersytecie Humbolt w Berlinie. CBR-Answer wspomaga działanie FAQs (Frequently Asked Questions). Typowy FAQ składa się z pytania i odpowiedzi, para pytanie-odpowiedź wykorzystana jest to do reprezentacji przypadku. System składa się z dwóch faz: offline pre-processing oraz online retrieval. W obu fazach uruchamiane są podprocesy, które obejmują m.in.: wygenerowanie na podstawie tekstu zbioru encji, płytkie NLP (oparte na częściach mowy), metody ekstrakcji danych (IE). Inne, znane w literaturze, projekty TCBR działające na obszarze FAQ FALLQ, SIMANTIC, FAQ Finder [Toma02] Zadaniem projektu DRAMA, zrealizowanego dla NASA, jest interaktywne wspomaganie działu planowania powietrznej przestrzeni ziemskiej. DRAMA przy pomocy CBR wzbogaconym o metodę concept mapping pozyskuje i wykorzystuje wiedzę dziedzinową na temat planowania. Część danych na temat planu ma postać ustrukturalizowaną, plan jednak jest takŝe opisywany słownie przez tworzące go osoby. Opis słowny zawiera m.in. uzasadnienia i dodatkowe wyjaśnienia dotyczące budowanego planu. DRAMA wykorzystuje słabo tekstowe podejście TCBR bazując głównie na typowych metodach IR [WiBr99] SPIRE jest hybrydowym systemem integrującym CBR i IR, którego zadaniem jest automatyczne generowanie zapytań. UŜytkownicy tradycyjnych IR mają nierzadko problemy z formułowaniem trafnych zapytań, SPIRE na podstawie doświadczeń w wyszukiwaniu dokumentów z przeszłości, zapisanych w bazie przypadków, daje wskazówki podczas formułowania pytania odnoszącego się do nowego problemu [Toma02] MERCURE Projekt opracowany na Uniwersytecie w Montrealu wspomaga generowanie odpowiedzi e-mail. Zakres dziedzinowy obejmuje zagadnienia dotyczące komunikacji inwestorów z firmą. System prezentuje silnie tekstowe podejście TCBR, wykorzystano do pracy nad tekstem oprócz metod IR (model wektorowy) takŝe płytkie metody NLP (podział części mowy) [LaLa03] Pozyskiwanie wiedzy przez Textual CBR W zaleŝności od stopnia ustrukturalizowania dokumentu tekstowego, stosuje się róŝne metody pozyskiwania wiedzy z tekstu przez TCBR. Słabo tekstowe TCBR wykorzystują najczęściej typowe metody IR, których zaleta niezaleŝność dziedzinowa bywa jednocześnie wadą powodującą błędne uproszczenia. W niektórych systemach TCBR stosuje się bardziej ukierunkowane dziedzinowo metody ekstrakcji danych (IE), które na podstawie szablonów pozwalają wydobyć z tekstu dane w postaci pary atrybut wartość. Przykładowo w tekście opi- 321
ROZDZIAŁ III sującym samochód mogą się pojawić wyraŝenia Audi, 10000 km, 4 drzw.. Wykonanie porównania takiego przypadku z innymi w bazie przypadków musi być oparte o wiedzę dziedzinową, z której będzie wynikać, Ŝe Audi to jest nazwa marki, 10000 km to przebieg 10000 km, 4 drzw. to wersja czterodrzwiowa samochodu. Zawarte jednak w opisie samochodu sformułowanie: Komfort bezpiecznej jazdy uzyskano dzięki zastosowaniu poduszek powietrznych moŝe juŝ wymagać dokładniejszych analiz gramatycznych opartych na NLP, tak aby przy porównaniu z tekstem W modelu nie zastosowano poduszek powietrznych było oczywiste, Ŝe w pierwszym przypadku poduszki są, a w drugim nie. Metody NLP są jednak kosztowne i jak opisano wcześniej zawodne w sytuacji, gdy tekst pojawia się w postaci lakonicznej, pozbawionej poprawnych struktur gramatycznych. Dobór metod analizy tekstu w TCBR zale- Ŝy, jak wspomniano wyŝej, od stopnia ustrukturalizowania przypadku, a takŝe obszaru, w którym uŝywany będzie TCBR. Wybrane przykłady projektów TCBR przedstawia Tabela 1. Do tradycyjnego dorobku metod operujących na tekstach: IR, IE, NLP autorzy [CWPF+04] dodają dla potrzeb TCBR metodę opierającą się na prezentacji przypadków tekstowych w postaci grafów. W grafie składającym się z węzłów i łuków moŝna opisać związki pomiędzy elementami, co pozwala lepiej zawrzeć wiedzę w treści przypadku. Konstrukcja grafu zezwala na łatwe usuwanie lub dodawanie nowych elementów, co czyni taką prezentację bardzo elastyczną i dobrze dopasowaną do idei samouczącego się CBR. Uwagi końcowe W odniesieniu do CBR i TCBR często uŝywa się zamiennie określeń technika, technologia oraz metodologia. Niemniej jak wskazuje [Wats99] poprawne właściwie jest tylko jedno z nich metodologia. Główne cechy tej metodologii opisują cztery podstawowe fazy cyklu CBR (retrieve, reuse, revise, retain), natomiast stosowane komponenty techniczne w poszczególnych systemach CBR bywają róŝne. Do wyszukania najbardziej podobnych przypadków uŝywa się najczęściej algorytmu najbliŝszego sąsiada, niemniej stosowane są takŝe inne algorytmy (np. dla przypadków prezentowanych w postaci grafu izomorfizm grafów, w niektórych TCBR model wektorowy). ZauwaŜalny jest udział systemów CBR w hybrydowych projektach współpracują m.in. z systemami ekspertowymi, sieciami neuronowymi. W przypadku TCBR współpraca obejmuje metody analizy tekstu (m.in. IR, IE, NLP). Integracja ta moŝe mieć róŝnoraki charakter, moŝna spotkać zarówno CBR z innymi metodami jako pomocniczymi komponentami jak i inne metody z CBR na usługach. Postrzeganie TCBR jako metodologii jest istotne z punktu widzenia moŝliwości jej rozwoju. Brak technologicznej sztywności pozwala na liczne eksperymenty kompozycji poszczególnych technologii. Badania te obejmują bardzo zróŝnicowane dziedzinowo obsza- 322
ZARZĄDZANIE WIEDZĄ I ROZWIĄZANIA BUSINESS INTELLIGENCE ry i niemoŝliwe jest obiektywne porównanie ich rezultatów bez kontekstu dziedzinowego. Kryterium selekcji osadzone jest w realiach biznesu, które wymagają coraz większej sprawności w zarządzaniu wiedzą i informacją. Metodologia Textual CBR (podobnie jak i CBR) opierając się na swojej głównej idei uczenia się na podstawie przykładów z przeszłości podejmuje te wyzwania. Literatura [AaPl94] [AsLe98] [CWPF+04] [Fili04] [LaLa03] [Toma02] [Wats99] [WiBr99] Aamodt A., Plaza E.: Case-Based Reasoning: Foundational Issues, Methodological Variations, and System Approaches, AI- Com, Artificial Intelligence Communications, IOS Press 1994. Ashley K.D., Lenz M.: Textual Case-Based Reasoning, AAAI- 98 Workshop, Menlo Park: AAAI Press 1998. Cunningham C.M., Weber R., Proctor J.M., Flowler C., Murphy M.: Investigating Graphs in Textual Case-Based Reasoning in Funk P., Gonzalez Calero, Pedro A. (Eds) Advanced in Case- Based Reasoning, Lecture Notes in Artificial Intelligence, Vol. 3155, Springer-Verlag 2004. Filipowska A.: Jak zaoszczędzić na czytaniu? Automatyczne tworzenie abstraktów z dokumentów, http://www.gazetait.pl/trendy/git22/automatyczne_tworzenie_abstraktow2.htm, Gazeta IT nr 3, marzec 2004. Lamontagne L., Lapalme G., Applying Cased-Based Reasoning To Email Response, International Conference of Enterprise Information Systems ICEIS-03, Angers, France 2003. Tomassen S.L.: Semi-automatic generation of ontologies for knowledge-intensive CBR, Norwegian University of Science and Technology, 2002. Watson I.: Case-Based Reasoning is methodology not technology, Knowledge-Based Systems 12, 1999. Wilson D. C., Bradshah S.: CBR Textuality, Expert Update, Vol.3(1), 1999. 323