ZASTOSOWANIE ROSZERZONEJ METODOLOGII WNIOSKOWANIA NA PODSTAWIE PRZYPADKÓW TEXTUAL CBR W PRACY Z DOKUMENTAMI TEKSTOWYMI



Podobne dokumenty
Systemy wnioskujące na podstawie przypadków

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

bo od managera wymaga się perfekcji

2

Aproksymacja funkcji a regresja symboliczna

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PROJEKT CZĘŚCIOWO FINANSOWANY PRZEZ UNIĘ EUROPEJSKĄ. Opis działania raportów w ClearQuest

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

AUTOMATYKA INFORMATYKA

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Definicje. Najprostszy schemat blokowy. Schemat dokładniejszy

Spis treści. I. Czym jest Indeks Haseł 3 II. Wyszukiwanie hasła 4. 1) Alfabetyczna lista haseł 4 2) Wyszukiwarka haseł 4 3) Grupy haseł 6

APIO. W7 SPECYFIKACJA (UŻYCIA) DOSTĘPU DO DANYCH I SPOSOBU ICH PRZETWARZANIA 1. METODA CRUD 2. LOGIKA FUNKCJI

Laboratorium modelowania oprogramowania w języku UML. Ćwiczenie 6 Modelowanie przypadków uŝycia i czynności. Materiały dla studentów

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE MEINE DEUTSCHTOUR KL.II gimnazjum

Laboratorium modelowania oprogramowania w języku UML. Ćwiczenie 5 Ćwiczenia w narzędziu CASE diagram przypadków uŝycia. Materiały dla nauczyciela

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Najprostszy schemat blokowy

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

PRZEWODNIK PO PRZEDMIOCIE

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

WYMAGANIA EDUKACYJNE Z JĘZYKA NIEMIECKIEGO W KLASIE VII PODRĘCZNIK MEINE DEUTSCHTOUR ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

PLAN ZARZĄDZANIA WYMAGANIAMI PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Odniesienie do efektów kształcenia dla obszaru nauk EFEKTY KSZTAŁCENIA Symbol

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Multiwyszukiwarka EBSCO Discovery Service przewodnik

Nazwa wariantu modułu (opcjonalnie): Laboratorium programowania w języku C++

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Relacyjne bazy danych. Podstawy SQL

Semantyczny Monitoring Cyberprzestrzeni

SYSTEM OCENIANIA Z JĘZYKA ROSYJSKIEGO

!!!!!!!!!!! PORTFOLIO: Analiza zachowań użytkowników serwisów internetowych. Autorzy: Marek Zachara

The University of Michigan Digital Library Production Service Collection

Technologia informacyjna

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA NIEMIECKIEGO W SZKOLE PODSTAWOWEJ NR 11 W JAWORZNIE NA PODSTAWIE PODRĘCZNIKA MEINE DEUTSCHTOUR 3

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

SYSTEM OCENIANIA Z JĘZYKÓW OBCYCH.

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

PROGRAM KSZTAŁCENIA DLA STUDIÓW PODYPLOMOWYCH: ZINTEGROWANE NAUCZANIE PRZEDMIOTOWO-JĘZYKOWE (JĘZYK ANGIELSKI)

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

1. WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

JĘZYK NIEMIECKI - ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Wymagania edukacyjne z języka niemieckiego w roku szkolnym 2017/2018. Kryteria Oceniania

Laboratorium modelowania oprogramowania w języku UML. Ćwiczenie 1 Wprowadzenie do narzędzia CASE. Materiały dla nauczyciela

Podstawowe zasady projektowania w technice

SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO

Transformacja wiedzy w budowie i eksploatacji maszyn

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Kryteria oceniania obejmujące zakres umiejętności ucznia na poszczególne oceny cząstkowe w klasach VII-VIII z Języka Hiszpańskiego

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA NIEMIECKIEGO DLA KLASY 7 W ROKU SZKOLNYM 2017/2018. PODRĘCZNIK Meine Deutschtour.

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Ćwiczenie numer 4 JESS PRZYKŁADOWY SYSTEM EKSPERTOWY.

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa

Agile Project Management

OCENA CELUJĄCA SPRAWNOŚĆ PISANIA

Laboratorium modelowania oprogramowania w języku UML. Ćwiczenie 2 Ćwiczenia w narzędziu CASE diagram klas. Materiały dla nauczyciela

Wymagania edukacyjne na poszczególne oceny z języka niemieckiego MEINE DEUTSCHTOUR 3 OCENA CELUJĄCA GRAMATYKA I SŁOWNICTWO SPRAWNOŚĆ PISANIA

OCENA CELUJĄCA INNE UMIEJĘTNOŚCI I FORMY ROZUMIENIE TEKSTU SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO

Działania w zakresie dodawania i odejmowania Bezbłędnie wykonuje działania w poznanym zakresie liczbowym.


Portale raportowe, a narzędzia raportowe typu self- service

Działania naprawcze po analizie wyników sprawdzianu zewnętrznego Szkoły Podstawowej nr 21 w Bytomiu Bytom, wrzesień 2016 r.

Wprowadzenie do teorii systemów ekspertowych

Wymagania edukacyjne język niemiecki dla klas: I, II i III

Wyszukiwarka naukowa EBSCO Discovery Service - przewodnik

Oprogramowanie dla biznesu Numer 11 (69) Listopad 2009 JAK SZYBKO I SKUTECZNIE ZAMKNĄĆ ROK?

Co to jest jest oprogramowanie? 8. Co to jest inżynieria oprogramowania? 9. Jaka jest różnica pomiędzy inżynierią oprogramowania a informatyką?

KRYTERIA OCENIANIA Z JĘZYKA NIEMIECKIEGO DLA KLAS TRZECICH ODDZIAŁÓW GIMNAZJALNYCH

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY Z JĘZYKA NIEMIECKIEGO Nauczyciel prowadzący: mgr Agnieszka Krzeszowiak, mgr Teresa Jaśkowska

KIERUNKOWE EFEKTY KSZTAŁCENIA

Kryteria wymagań na poszczególne oceny do podręcznika Meine Deutschtour do języka niemieckiego do klasy VII

Scenariusz zajęć języka angielskiego w klasie Va Temat: Where is the bank? opis położenia budynków względem siebie.

Kryteria wymagań na poszczególne oceny z języka niemieckiego dla klasy VII OCENA CELUJĄCA

OCENA CELUJĄCA SPRAWNOŚĆ PISANIA

Wymagania edukacyjne z informatyki w klasie VIII

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Przedmiotowy System Oceniania Fizyka z Astronomią

9. ILE TO KOSZTUJE CZYLI OD ZAGADKI DO ZADANIA TEKSTOWEGO, CZ. III

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

7. ILE TO KOSZTUJE CZYLI OD ZAGADKI DO ZADANIA TEKSTOWEGO, CZ. I

PLAN ZARZĄDZANIA KONFIGURACJĄ OPROGRAMOWANIA PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Mówienie. Rozumienie ze słuchu

W poszukiwaniu sensu w świecie widzialnym

Wprowadzenie do baz danych

Rachunek prawdopodobieństwa projekt Ilustracja metody Monte Carlo obliczania całek oznaczonych

Karta opisu przedmiotu Zaawansowane techniki analizy systemowej oparte o modelowanie warsztaty

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Procesy biznesowe w praktyce. Przykłady użycia z wykorzystaniem jbpm 4.4

Co to jest SUR-FBD? 3

WYMAGANIA EDUKACYJNE Z JĘZYKA NIEMIECKIEGO KLASA

Wymagania edukacyjne z języka angielskiego dla klasy czwartej

Wymagania edukacyjne na poszczególne oceny z języka niemieckiego

Systemy ekspertowe. Wnioskowanie w systemach regułowych. Część piąta. Autor Roman Simiński.

Anna Kempa Akademia Ekonomiczna

Transkrypt:

ZASTOSOWANIE ROSZERZONEJ METODOLOGII WNIOSKOWANIA NA PODSTAWIE PRZYPADKÓW TEXTUAL CBR W PRACY Z DOKUMENTAMI TEKSTOWYMI Anna Kempa Wstęp Próby automatycznego wyszukiwania, analizy i obróbki dokumentów tekstowych przez komputer prowadzone są od dawna. Przedstawienie jednej ze stosowanych motodologii na tym obszarze Textual Case-Based Reasoning (Textual CBR, TCBR) zostanie poprzedzone krótkim omówieniem znanych metod i kategorii systemów zajmujących się czytaniem dokumentów tekstowych. Głównym celem artykułu jest przedstawienie Textual CBR na tle innych stosowanych rozwiązań w pracy z tekstami. Przy czym naleŝy zaznaczyć, Ŝe inne rozwiązania nie oznacza tu alternatywne, czy konkurencyjne. Prace nad takimi systemami polegają w duŝej mierze na interdyscyplinarnym kojarzeniu wielu róŝnych metod, w tym matematycznych i statystycznych. Kolejne rozwiązania stanowią nierzadko drobną mutację poprzednich, a o ich skuteczności, a takŝe dalszym kierunku zmian zdecydują zrealizowane zastosowania. Sama metodologia Textual CBR nie jest statycznym, z góry zdefiniowanym narzędziem, jak zostanie pokazane to w dalszej części takŝe ewoluuje ogarniając coraz to nowe obszary dziedzinowego zastosowania. Podejścia wyszukiwania i analizy tekstu Wśród stosowanych podejść wyszukiwania i analizy dokumentów tekstowych wymienia się m.in.: Systemy wyszukiwania informacji ( ang. Information Retrieval, IR) Rozumienie języków naturalnych ( ang. Natural Language Processing) Metody ekstrakcji informacji ( ang. Information Extraction, IE) Metody eksploracji tekstu ( ang. Text Mining)

ZARZĄDZANIE WIEDZĄ I ROZWIĄZANIA BUSINESS INTELLIGENCE Information Retrieval Information Retrieval, IR (wyszukiwanie informacji) jest określeniem powszechnie uŝywanym, chociaŝ po części nie do końca trafnie. System wyszukiwania informacji nie tyle informuje uŝytkownika na temat, który go interesuje, co informuje o istnieniu (lub jego braku) miejsca, gdzie dokument odpowiadający wymaganiom uŝytkownika się znajduje [Toma02]. W typowym IR uŝytkownik tworzy zapytanie, złoŝone z jednego lub kilku wyrazów, na podstawie którego system wyszukuje dokumenty. WyróŜnia się dwa główne podejścia IR: model Boolowski (Boolean Logic Model, BLM) oraz rankingowy (ranked-output systems) [Toma02]. Zapytanie BML składa się ze słów lub fraz połączonych logicznymi operatorami AND, OR oraz NOT. Rezultatem zapytania jest zazwyczaj podział zbioru dokumentów na dwie części: jedną zawierającą dopasowane dokumenty oraz drugą zawierającą dokumenty niedopasowane. System rankingowy, stosując algebrę wektorów ocenia podobieństwo treści dokumentów z treścią zapytania i na tej podstawie dokonuje rankingu znalezionych dokumentów. Systemy rankingowe wykorzystują najczęściej następujące modele do oceny podobieństwa dokumentów: Model wektorowy (Vector Space Model, VSM), model probabilistyczny (Probabilistic Model, PM), a takŝe inne, m.in. Inference Network Model (INM). Zaletą systemów IR jest dziedzinowa niezaleŝność oraz elastyczność językowa (zmiana języka nie wymaga zbyt wielu adaptacji). Natomiast do najwaŝniejszych ograniczeń tych systemów naleŝy załoŝenie niezaleŝności indeksów termów, co moŝe prowadzić do oszacowania zerowego podobieństwa między dokumentami zawierającymi synonimiczne wyraŝenia [Toma02]. Natural Language Processing Metody Natural Language Processing, NLP (rozumienie języków naturalnych) zawierają mechanizmy próbujące dokonać zrozumienia kontekstu tekstu. W metodach tych nie oblicza się podobieństwa termów, ale oznacza się poszczególne części mowy (analiza płytka) oraz szuka się znaczenia danego wyraŝenia w kontekście poprzez pełną analizę gramatyczną (analiza głęboka). Niektóre serwisy internetowe proponują uŝytkownikom alternatywnie dla metod IR wyszukiwanie informacji poprzez systemy wzbogacone o NLP, co moŝe dać w wyniku lepiej dopasowane do danego zapytania dokumenty. Metody NLP mają jednak swoje wady, naleŝą do nich: większa złoŝoność i czasochłonność (zwłaszcza głęboka analiza), są silnie związane z danym językiem (adaptacja na inne języki wymaga wiele pracy), tracą znacznie swoją skuteczność w przypadku występowania w tekście terminów spoza słowników oraz w przypadku analizy tekstów sporządzonych jako krótkie notatki (dość często pozbawione poprawnej struktury gramatycznej). 317

ROZDZIAŁ III Information Extraction Zadaniem ekstrakcji informacji (Information Extraction, IE) jest zidentyfikowanie instancji pewnej predefiniowanej klasy zdarzeń, ich powiązań oraz wystąpień w dokumentach pisanych w języku naturalnym [Fili04]. W odróŝnieniu od systemów IR, systemy IE nie wyszukują samych dokumentów, ale zgodnie z nazwą dokonują ekstrakcji informacji z ich treści. Pozyskane informacje mogą zostać umieszczone w bazie danych. Informacja, jaka będzie pozyskiwana z dokumentu jest specyfikowana przez uŝytkownika, który tworzy wzorzec. Zawiera on określone sekcje - dziury (ang. slots), które wypełniane są fragmentami tekstu. Jądro systemu ekstrakcji informacji składa się z dwóch komponentów: procesora tekstów (którym moŝe być jedna z metod NLP) oraz generatora wzorców, które osadzone są w wiedzy dziedzinowej. Zadaniem procesora tekstów jest analiza leksykalna tekstu (obecnie najczęściej stosuje się płytką analizę) [Fili04]. Text Mining Text mining jest metodologią wywodzącą się z data mining, wyszukiwania informacji, ekstrakcji danych, kategoryzacji tekstu, modelowania probabilistycznego, algebry liniowej, uczenia maszynowego zastosowanych w celu wykrycia wiedzy z dokumentów tekstowych [Fili04]. Definicja wskazuje na podobieństwo z technikami IE. Ekstrakcji informacji dokonuje się jednak zwykle w oparciu o znane wzorce, w przypadku text mining wzorce wychwytywane są dopiero w procesie przetwarzania dokumentu. Do typowych zadań text mining naleŝy: znajdowanie dokumentów najbardziej pasujących do zapytania uŝytkownika, tworzenie rankingów dokumentów, grupowanie dokumentów (analiza skupień), klasyfikowanie dokumentów (kategoryzacja), analiza powiązań między jednostkami tekstu, dokonywanie automatycznych streszczeń dokumentów [Fili04]. Textual Case-Based Reasoning W dalszej części opisano główne załoŝenia metodologii CBR oraz je rozszerzenia - Textual CBR. Case-Based Reasoning CBR definiowane są jako systemy rozwiązujące nowe problemy poprzez adaptację rezultatów, które były wykorzystane podczas rozwiązywania starych problemów. Nowy problem jest rozwiązywany poprzez odnalezienie podobnego do niego przypadku w zbiorze i zastosowaniu do niego rozwiązania skojarzonego z odnalezionym przypadkiem. Cykl działania systemu realizującego metodę 318

ZARZĄDZANIE WIEDZĄ I ROZWIĄZANIA BUSINESS INTELLIGENCE CBR moŝna opisać przy pomocy czterech procesów [AaPl94]: Wyszukanie (ang. retrieve) najbardziej podobnego przypadku lub zbioru przypadku; Wykorzystanie (ang. reuse) wiedzy zawartej w tym przypadku do rozwiązania problemu; Ocena przydatności (ang. revise) zaproponowanego rozwiązania; Zapamiętanie (ang. retain) doświadczenia w celu późniejszego wykorzystania podczas rozwiązywania nowych problemów w przyszłości. Definicja Textual CBR W klasycznych systemach CBR wiedza o przypadkach, zapisana w bazie przypadków, ma postać uporządkowanych, wydzielonych porcji informacji (bazy przypadków wraz z metodami dostępu i aktualizacji). Textual Case-Based Reasoning (Textual CBR, TCBR) jest podejściem poszukującym moŝliwości stosowania wnioskowania na podstawie przypadków (CBR) w obszarach, gdzie wiedza o przypadkach zapisana jest w postaci tekstowej [AsLe98] [WiBr99]. W systemach TCBR wykorzystuje się opisane w poprzednim rozdziale metody analizy tekstu, w największym stopniu IR, ale takŝe metody NLP. Istotnym punktem przewagi, który wyróŝnia Textual CBR od wymienionych metod pracujących samodzielnie (bez CBR), jest zdolność TCBR pozyskiwania wiedzy podczas procesu wnioskowania, czyli uczenie się w trakcie działania systemu. Porównując TCBR z metodologią Text Mining, która takŝe obejmuje typowe metody NLP, IR oraz IE moŝna zauwaŝyć, Ŝe mimo podobieństw nie są wobec siebie konkurencyjne, a raczej w razie potrzeby mogą się stać komplementarne. W Data Mining moduły CBR uŝywane są do rozwiązywania problemów kategoryzacji, natomiast CBR mogą wykorzystywać Data (i/lub) Text Mining do budowy przypadków 1. Stopień ustrukturalizowania przypadku Istnieją systemy TCBR pracujące na przypadkach, które odpowiadają w całości zawartości pełnotekstowych dokumentów. Jednak przypadek moŝe zawierać zarówno pełnotekstowe jak i ustrukturalizowane komponenty. Przykładowo w problemach serwisu sprzętowego operator otrzymuje strukturalne informacje (np. typ maszyny, system operacyjny) wraz z tekstowym opisem problemu w działaniu danego sprzętu. Częściowo ustrukturalizowane przypadki (ang. semi-structured cases) definiowane są [WiBr99] jako proste lub złoŝone przypadki zawierające zarówno dobrze zdefiniowane, bogate w wiedzę cechy jak i nieustrukturalizowane elementy charakterystyczne dla dokumentów tekstowych. W [WiBr99] przedstawiono proces kompozycji przypadku jako kontinuum for- 1 Przykład wykorzystania Text Mining (systemu TextAnalyst) do budowy przypadków: http://www.megaputer.com/company/cases/casebank.php3 319

ROZDZIAŁ III my przypadku od pełnotekstowej, poprzez częściowo ustrukturalizowaną do w pełni strukturalnej (Rys 1). Fully Structured Semi-Structured Fully Textual Rys 1. Częściowo ustrukturalizowana wiedza przypadku Źródło: [WiBr99] Silny i słaby Textual CBR W zaleŝności od wagi tekstu w procesie wnioskowania wyróŝnia się silnie i słabo tekstowe podejście TCBR. Systemy, w których waga tekstu przewyŝsza wagę dostępnych informacji ustrukturalizowanych są silnie tekstowe (ang. strongly-textual CBR). Natomiast systemy, w których przewaŝa wpływ informacji ustrukturalizowanych są słabo tekstowe (ang. Weakly-textual CBR). Silnie tekstowy TCBR Stopień analizy tekstu Słabo tekstowy TCBR Dostępność kontekstu przypadku Rys. 2. Poziomy wagi tekstu w TCBR Źródło: [WiBr99] Rysunek 2 pokazuje kontinuum pomiędzy silnym i słabym TCBR. Przy niskiej dostępności kontekstu przypadku w procesie wnioskowania (np. gdy przypadkiem jest dokument pełnotekstowy) konieczne jest włączenie metod, które pozwolą zrozumieć kontekst (np. metody NLP). Wraz ze wzrostem dostępności kontekstu przypadku maleje wkład pracy systemów nad samym tekstem, przy słabo tekstowym TCBR ogranicza się on do tradycyjnych metod IR (np. model wektorowy). 320

ZARZĄDZANIE WIEDZĄ I ROZWIĄZANIA BUSINESS INTELLIGENCE Wybrane projekty Textual CBR Nazwa projektu CBR- Answer DRAMA SPIRE Wybrane projekty Textual CBR Opis Tabela 1 System opracowano na Uniwersytecie Humbolt w Berlinie. CBR-Answer wspomaga działanie FAQs (Frequently Asked Questions). Typowy FAQ składa się z pytania i odpowiedzi, para pytanie-odpowiedź wykorzystana jest to do reprezentacji przypadku. System składa się z dwóch faz: offline pre-processing oraz online retrieval. W obu fazach uruchamiane są podprocesy, które obejmują m.in.: wygenerowanie na podstawie tekstu zbioru encji, płytkie NLP (oparte na częściach mowy), metody ekstrakcji danych (IE). Inne, znane w literaturze, projekty TCBR działające na obszarze FAQ FALLQ, SIMANTIC, FAQ Finder [Toma02] Zadaniem projektu DRAMA, zrealizowanego dla NASA, jest interaktywne wspomaganie działu planowania powietrznej przestrzeni ziemskiej. DRAMA przy pomocy CBR wzbogaconym o metodę concept mapping pozyskuje i wykorzystuje wiedzę dziedzinową na temat planowania. Część danych na temat planu ma postać ustrukturalizowaną, plan jednak jest takŝe opisywany słownie przez tworzące go osoby. Opis słowny zawiera m.in. uzasadnienia i dodatkowe wyjaśnienia dotyczące budowanego planu. DRAMA wykorzystuje słabo tekstowe podejście TCBR bazując głównie na typowych metodach IR [WiBr99] SPIRE jest hybrydowym systemem integrującym CBR i IR, którego zadaniem jest automatyczne generowanie zapytań. UŜytkownicy tradycyjnych IR mają nierzadko problemy z formułowaniem trafnych zapytań, SPIRE na podstawie doświadczeń w wyszukiwaniu dokumentów z przeszłości, zapisanych w bazie przypadków, daje wskazówki podczas formułowania pytania odnoszącego się do nowego problemu [Toma02] MERCURE Projekt opracowany na Uniwersytecie w Montrealu wspomaga generowanie odpowiedzi e-mail. Zakres dziedzinowy obejmuje zagadnienia dotyczące komunikacji inwestorów z firmą. System prezentuje silnie tekstowe podejście TCBR, wykorzystano do pracy nad tekstem oprócz metod IR (model wektorowy) takŝe płytkie metody NLP (podział części mowy) [LaLa03] Pozyskiwanie wiedzy przez Textual CBR W zaleŝności od stopnia ustrukturalizowania dokumentu tekstowego, stosuje się róŝne metody pozyskiwania wiedzy z tekstu przez TCBR. Słabo tekstowe TCBR wykorzystują najczęściej typowe metody IR, których zaleta niezaleŝność dziedzinowa bywa jednocześnie wadą powodującą błędne uproszczenia. W niektórych systemach TCBR stosuje się bardziej ukierunkowane dziedzinowo metody ekstrakcji danych (IE), które na podstawie szablonów pozwalają wydobyć z tekstu dane w postaci pary atrybut wartość. Przykładowo w tekście opi- 321

ROZDZIAŁ III sującym samochód mogą się pojawić wyraŝenia Audi, 10000 km, 4 drzw.. Wykonanie porównania takiego przypadku z innymi w bazie przypadków musi być oparte o wiedzę dziedzinową, z której będzie wynikać, Ŝe Audi to jest nazwa marki, 10000 km to przebieg 10000 km, 4 drzw. to wersja czterodrzwiowa samochodu. Zawarte jednak w opisie samochodu sformułowanie: Komfort bezpiecznej jazdy uzyskano dzięki zastosowaniu poduszek powietrznych moŝe juŝ wymagać dokładniejszych analiz gramatycznych opartych na NLP, tak aby przy porównaniu z tekstem W modelu nie zastosowano poduszek powietrznych było oczywiste, Ŝe w pierwszym przypadku poduszki są, a w drugim nie. Metody NLP są jednak kosztowne i jak opisano wcześniej zawodne w sytuacji, gdy tekst pojawia się w postaci lakonicznej, pozbawionej poprawnych struktur gramatycznych. Dobór metod analizy tekstu w TCBR zale- Ŝy, jak wspomniano wyŝej, od stopnia ustrukturalizowania przypadku, a takŝe obszaru, w którym uŝywany będzie TCBR. Wybrane przykłady projektów TCBR przedstawia Tabela 1. Do tradycyjnego dorobku metod operujących na tekstach: IR, IE, NLP autorzy [CWPF+04] dodają dla potrzeb TCBR metodę opierającą się na prezentacji przypadków tekstowych w postaci grafów. W grafie składającym się z węzłów i łuków moŝna opisać związki pomiędzy elementami, co pozwala lepiej zawrzeć wiedzę w treści przypadku. Konstrukcja grafu zezwala na łatwe usuwanie lub dodawanie nowych elementów, co czyni taką prezentację bardzo elastyczną i dobrze dopasowaną do idei samouczącego się CBR. Uwagi końcowe W odniesieniu do CBR i TCBR często uŝywa się zamiennie określeń technika, technologia oraz metodologia. Niemniej jak wskazuje [Wats99] poprawne właściwie jest tylko jedno z nich metodologia. Główne cechy tej metodologii opisują cztery podstawowe fazy cyklu CBR (retrieve, reuse, revise, retain), natomiast stosowane komponenty techniczne w poszczególnych systemach CBR bywają róŝne. Do wyszukania najbardziej podobnych przypadków uŝywa się najczęściej algorytmu najbliŝszego sąsiada, niemniej stosowane są takŝe inne algorytmy (np. dla przypadków prezentowanych w postaci grafu izomorfizm grafów, w niektórych TCBR model wektorowy). ZauwaŜalny jest udział systemów CBR w hybrydowych projektach współpracują m.in. z systemami ekspertowymi, sieciami neuronowymi. W przypadku TCBR współpraca obejmuje metody analizy tekstu (m.in. IR, IE, NLP). Integracja ta moŝe mieć róŝnoraki charakter, moŝna spotkać zarówno CBR z innymi metodami jako pomocniczymi komponentami jak i inne metody z CBR na usługach. Postrzeganie TCBR jako metodologii jest istotne z punktu widzenia moŝliwości jej rozwoju. Brak technologicznej sztywności pozwala na liczne eksperymenty kompozycji poszczególnych technologii. Badania te obejmują bardzo zróŝnicowane dziedzinowo obsza- 322

ZARZĄDZANIE WIEDZĄ I ROZWIĄZANIA BUSINESS INTELLIGENCE ry i niemoŝliwe jest obiektywne porównanie ich rezultatów bez kontekstu dziedzinowego. Kryterium selekcji osadzone jest w realiach biznesu, które wymagają coraz większej sprawności w zarządzaniu wiedzą i informacją. Metodologia Textual CBR (podobnie jak i CBR) opierając się na swojej głównej idei uczenia się na podstawie przykładów z przeszłości podejmuje te wyzwania. Literatura [AaPl94] [AsLe98] [CWPF+04] [Fili04] [LaLa03] [Toma02] [Wats99] [WiBr99] Aamodt A., Plaza E.: Case-Based Reasoning: Foundational Issues, Methodological Variations, and System Approaches, AI- Com, Artificial Intelligence Communications, IOS Press 1994. Ashley K.D., Lenz M.: Textual Case-Based Reasoning, AAAI- 98 Workshop, Menlo Park: AAAI Press 1998. Cunningham C.M., Weber R., Proctor J.M., Flowler C., Murphy M.: Investigating Graphs in Textual Case-Based Reasoning in Funk P., Gonzalez Calero, Pedro A. (Eds) Advanced in Case- Based Reasoning, Lecture Notes in Artificial Intelligence, Vol. 3155, Springer-Verlag 2004. Filipowska A.: Jak zaoszczędzić na czytaniu? Automatyczne tworzenie abstraktów z dokumentów, http://www.gazetait.pl/trendy/git22/automatyczne_tworzenie_abstraktow2.htm, Gazeta IT nr 3, marzec 2004. Lamontagne L., Lapalme G., Applying Cased-Based Reasoning To Email Response, International Conference of Enterprise Information Systems ICEIS-03, Angers, France 2003. Tomassen S.L.: Semi-automatic generation of ontologies for knowledge-intensive CBR, Norwegian University of Science and Technology, 2002. Watson I.: Case-Based Reasoning is methodology not technology, Knowledge-Based Systems 12, 1999. Wilson D. C., Bradshah S.: CBR Textuality, Expert Update, Vol.3(1), 1999. 323