WSPOMAGANIE TWORZENIA ODPOWIEDZI E-MAIL PRZY POMOCY TECHNIKI WNIOSKOWANIA NA PODSTAWIE PRZYPADKÓW (CBR) Streszczenie Anna Kempa Akademia Ekonomiczna kempa@ae.katowice.pl W artykule opisano zastosowanie techniki wnioskowania na podstawie przypadków (CBR) do częściowo automatycznego generowania odpowiedzi e-mail. Zadanie to stawia przed systemami CBR nowe problemy. Artykuł prezentuje technikę wnioskowania na podstawie przypadków rozszerzoną o moŝliwość konstrukcji przypadków na podstawie dokumentów tekstowych (Textual CBR). Słowa kluczowe: Case-based Reasoning, CBR, Textual CBR, TCBR, Systemy wnioskujące przez przypadki Wstęp Udział poczty elektronicznej w biznesie jest znaczący. Wiele osób, za równo po stronie klientów jak i pracowników organizacji preferuje wymianę informacji w ten właśnie sposób. W organizacjach, w których kontakt e-mail jest szeroko stosowany pojawia się problem zaangaŝowania pracowników w odpowiadanie na listy, które częściowo dotyczą tych samych bądź podobnych zagadnień. Wiele firm umieszcza odpowiedzi na najczęściej zadawane pytania w sekcji FAQ (ang. Frequently Asked Question) oraz na swoich stronach w postaci tekstu, raportów, rysunków. Niemniej dodatkowo udostępnia się klientowi adresy e- mail, zachęcając go do pisania w razie wątpliwości. W celu usprawnienia pracy osób odpowiedzialnych za tworzenie odpowiedzi zaczęto rozwaŝać wykorzystanie technik informatycznych, w tym sztucznej inteligencji. W artykule opisano takie próby wykonane przy pomocy wersji tekstowej techniki wnioskowania na podstawie przypadków Textual Case- Base Reasoning (Textual CBR, TCBR). Systemy wnioskujące na podstawie przypadków Wnioskowanie na podstawie przypadków (ang. Case-Based Reasoning, CBR) wykorzystuje wiedzę specyficzną zawartą w doświadczonych w przeszłości sytuacjach, zwanych przypadkami (ang. case) [Zado99].
284 Zarządzanie wiedzą i rozwiązania Business Intelligence CBR definiowane są jako systemy rozwiązujące nowe problemy poprzez adaptację rezultatów, które były wykorzystane podczas rozwiązywania starych problemów [RSH89]. Nowy problem jest rozwiązywany poprzez odnalezienie podobnego do niego przypadku w zbiorze i zastosowaniu do niego rozwiązania skojarzonego z odnalezionym przypadkiem. Istotną cechą CBR jest zdolność do uczenia się, co odbywa się poprzez gromadzenie rozwiązań przeszłych problemów i udostępnianie ich do rozwiązywania nowych problemów w przyszłości. Przypadki będące elementami bazy wiedzy systemów CBR zawierają zazwyczaj wiedzę specyficzną dla danego problemu. Pamięć przypadków nie musi zawierać wiedzy kompletnej dla danej dziedziny [WrZa97]. Cykl działania systemu realizującego metodę CBR moŝna opisać przy pomocy czterech procesów [AaPl94]: Wyszukanie (ang. retrieve) najbardziej podobnego przypadku lub zbioru przypadku, Wykorzystanie (ang. reuse) wiedzy zawartej w tym przypadku do rozwiązania problemu, Ocena przydatności (ang. revise) zaproponowanego rozwiązania, Zapamiętanie (ang. retain) doświadczenia w celu późniejszego wykorzystania podczas rozwiązywania nowych problemów w przyszłości. Problem znajdujący się na wejściu systemu jest porównywany z przypadkami zgromadzonymi w bazie przypadków. Wyodrębniany jest z bazy jeden lub więcej przypadków spełniających kryterium podobieństwa do przypadku wejściowego. JeŜeli podobieństwo wyodrębnionych przypadków nie jest zbyt duŝe, moŝe się okazać konieczna odpowiednia adaptacja. Po jej dokonaniu, gotowe rozwiązanie jest zapisywane w bazie przypadków. Textual CBR W klasycznych systemach Case-Based Reasoning wiedza o przypadkach, zapisana w bazie przypadków, ma postać uporządkowanych, wydzielonych porcji informacji (dokładniej: bazy przypadków wraz z metodami dostępu i aktualizacji, organizowane są w obiekty znajdujące się na wyŝszym stopniu uogólnienia, zwane modelami. WyróŜnia się m.in. dwa takie modele: pamięci dynamicznej oraz model kategorii przypadków [Zado99]). Poszczególne atrybuty opisują specyficzne wartości przypadku. PowaŜnym wyzwaniem dla systemów CBR jest umiejętność wykorzystania wiedzy o przypadkach zachowanej w postaci dokumentów tekstowych. Textual CBR (TCBR) jest podejściem poszukującym moŝliwości stosowania techniki CBR w obszarach, gdzie wiedza o przypadkach zapisana jest w postaci tekstowej [AsLe98]. Technika TCBR znalazła zastosowanie w ekstrakcji informacji (ang. Information Extraction - IE), której zadaniem jest zidentyfikowanie instancji predefiniowanej klasy zdarzeń, ich powią-
Wspomaganie tworzenia odpowiedzi e-mail przy pomocy techniki 285 zań oraz wystąpień w dokumentach pisanych w języku naturalnym, a następnie ekstrakcji tych faktów [Fili04]. [WeAh01] przytacza przykład systemu uŝywającego wariant techniki IE nazywany template mining do ekstrakcji informacji bezpośrednio z tekstu, w przypadku gdy jest dostępny automatycznie rozpoznawalny wzorzec. TCBR jest techniką mającą zastosowanie takŝe w wyszukiwaniu informacji (ang. Information Retrieval - IR). Wraz z zastosowaniem algebry liniowej, metod statystycznych oraz uczenia maszynowego umoŝliwia pozyskanie wiedzy z nieustrukturalizowanych danych tekstowych. Zastosowanie Textual CBR do tworzenia odpowiedzi e-mail Przedstawienie systemu Przykład zastosowania Textual CBR do wspomagania tworzenia odpowiedzi na e-mail, projekt Mercure z Uniwersytetu w Montrealu, został zaczerpnięty z prac [LaLa03] i [LaLL03]. Autorzy wykorzystali jako zakres dziedzinowy zagadnienia dotyczące komunikacji inwestorów z firmą. Na tym obszarze przedsiębiorstwa wykorzystują elektroniczną korespondencję w dwóch celach: po pierwsze listy wysyłane są w celu promocji wyników finansowych; po drugie (co stanowi kierunek dalszych rozwaŝań), większość przedsiębiorstw posiada na swoich stronach www sekcję słuŝącą do obustronnych kontaktów inwestorów z analitykami firmy. Zadaniem analityków jest udzielanie inwestorom odpowiednich informacji finansowych na temat firmy, takich jak ceny akcji, raporty finansowe. Korespondencja przychodząca pochodzi od inwestorów róŝniących się od siebie stopniem znajomości zagadnień dziedzinowych. Mogą to być zarówno pobieŝnie zorientowane na rynku inwestycyjnym osoby prywatne, jak i zawodowi finansiści prezentujący inne organizacje. Przed przystąpieniem prac nad systemem wspomagania udzielania odpowiedzi zbadano ponad 1500 otrzymanych maili. Obliczono średnią długość listu wynoszącą 87 słów. ZauwaŜono, Ŝe ze względu na bardzo duŝą liczbę inwestorów, w porównaniu do stylu treści odpowiedzi, sporządzanych przez 5-10 analityków styl maili przychodzących jest bardzo zróŝnicowany. Wyłoniono strukturę korespondencji przychodzącej, w której skład wchodzą następujące części: Nagłówek wraz z datą, nazwą i adresem nadawcy oraz tematem, Krótki opis przyczyny, która skłoniła inwestora do napisania maila (np. RozwaŜam dokonanie inwestycji w waszej firmie ), Jedno lub kilka zapytań odnoszących się do przedstawionego wcześniej obszaru, Dane dotyczące inwestora (nazwisko, tytuł, stanowisko, pocztowy i elektroniczny adres).
286 Zarządzanie wiedzą i rozwiązania Business Intelligence ZauwaŜono, Ŝe bardzo rzadko ma miejsce intensywna wymiana korespondencji pomiędzy danym inwestorem a analitykiem. MoŜna było dzięki temu załoŝyć niezaleŝność poszczególnych sekwencji pytanie-odpowiedź. Nie moŝna było jednak pominąć kwestii występowania więcej niŝ jednego pytania w jednym mailu od inwestora. Fakt ten stanowił niemałe utrudnienie podczas konstrukcji bazy przypadków. WaŜną cechą badanej korespondencji jest jej tymczasowość. Zagadnienia finansowe często dotyczą określonego czasu. Niektórzy stosują opis względny punktu w czasie (np. następny miesiąc) inni piszą dokładnie datę. W pierwszej fazie projektu studiowano moŝliwości połączenia technik ekstrakcji informacji i generacji tekstu. Ze względu na występowanie róŝnorodności moŝliwych sytuacji zastosowanie ekstrakcji informacji dla analizy przychodzącej korespondencji rodziło pewne problemy w drugiej fazie projektu. PowaŜnym zadaniem było przewidzenie róŝnych sytuacji i wyłonienia właściwych szablonów. Nowy mail od inwestora Case Base Wyszukanie (Retrieval) Poprzednie listy (zapytania i odpowiedzi) Projekt: - granulowanie przypadku - ustalenie słów współwystęp. Podobieństwo: słowne skojarzenia - określenie problemu i Adaptacja: Adaptacja: Modele - ekstrakcja encji - identyfikacja stosow- Proponowane rozwiązanie Rys. 1. Proces tworzenia odpowiedzi e-mail poprzez Textual CBR. Opracowano na podstawie [LaLa03]. W drugiej fazie projektu rozwinięto moduł case-based reasoning w kierunku syntezy odpowiedzi. Moduł CBR został wykorzystany do ponownego uŝycia listów wysłanych podczas tworzenia odpowiedzi na nowy list z zapytaniem. Jak pokazano na Rys. 1. schemat poszukiwania i adaptacji CBR został poszerzony o następujące zadania: wyszukanie listów zawierających wiele zapytań, ekstrakcję i podstawienie encji oraz identyfikacja stosownych fragmentów odpowiedzi.
Wspomaganie tworzenia odpowiedzi e-mail przy pomocy techniki 287 W dalszej części przedstawiono przykład wymiany e-maili, a następnie omówiono szerzej niektóre z etapów działania systemu (granulowanie przypadku, wyszukanie, wykorzystanie rozwiązania) Przykład Dla zobrazowania działania procesu tworzenia odpowiedzi z wykorzystaniem CBR zostaną zaprezentowane przykłady pytań inwestora i odpowiedzi analityka. Pytanie 1: Czy moŝesz mi powiedzieć, kiedy będzie gotowy następny raport? Dziękuję, Adam. System musi wygenerować odpowiedź na pytanie 1. Zakładając, Ŝe w fazie wyszukania (retrieval) wydobyto przypadek j (najbardziej podobny), system musi zidentyfikować stosowne fragmenty odpowiedzi w celu ich ponownego wykorzystania (reuse). PoniŜej zaprezentowano przypadek j. Pytanie j: Witam! Czy mógłby mi Pan powiedzieć, kiedy zostanie wypuszczony następny raport o dochodach oraz kiedy będzie gotowe podsumowanie roku. Z powaŝaniem, Jan Kowalski. Odpowiedź j: Drogi Panie Kowalski, Podsumowanie roku będzie gotowe 31 grudnia 2004. Następny raport o dochodach zostanie wypuszczony 27 maja 2005. Proszę nie wahać się i pisać do nas w razie jakichkolwiek wątpliwości. Z wyrazami szacunku... UŜywając przypadku j, moduł CBR ustala, Ŝe dla fragmentu odnoszącego się do dochodów przydatna (moŝliwa do wykorzystania) jest data wypuszczenia raportu. Natomiast fragmenty dotyczące podsumowania roku powinny być zmienione lub usunięte. Fragmenty przeznaczone do usunięcia lub modyfikacji zaznaczono jako {tekst j}/{tekst 1}. Gdzie {tekst j} jest tekstem w oryginalnej odpowiedzi j, natomiast {tekst 1} jest tekstem proponowanym do podstawienia. PoniŜej zaprezentowano sugerowaną odpowiedź systemu: Odpowiedź 1: Drogi {Panie Kowalski}/ {Adamie}, {Podsumowanie roku będzie gotowe 31 grudnia 2004}/ { } Następny raport o dochodach zostanie wypuszczony {27 listopada 2004}/ {23 grudnia 2004}. Proszę nie wahać się i pisać do nas w razie jakichkolwiek wątpliwości. Z wyrazami szacunku... Granulowanie Naturalnym podejściem do projektowania bazy przypadków jest kojarzenie poprzedniego listu zawierającego zapytanie inwestora i odpowiedzi analityka w jednym przypadku. Niemniej, wyszukanie poprzednich przypadków-listów jest tu skomplikowane poprzez istnienie moŝliwości odnoszenia się jednego listu do kilku problemów. Trudność ta wymusiła dobranie stosownego podejścia do granulowania przypadku, czyli określenia sposobu relacji pomiędzy podzapyta-
288 Zarządzanie wiedzą i rozwiązania Business Intelligence niami (prezentującymi oddzielne problemy) a przypadkami. RozwaŜono trzy sposoby: relacja 1:N: przypadek odpowiada listowi, który moŝe zawierać wiele pytań i odpowiedzi, relacja 1:1: przypadek moŝe zawierać tylko jedno pytanie i związaną z nim odpowiedź, relacja M.:N: Wiele przypadków zawiera wiele tematów. Rozszerzenie fazy wyszukiwania (retrieval) Wybrano relację 1:N, czyli jeden przypadek odpowiada wiadomości zawierającej wiele pytań i odpowiedzi. Prawdopodobieństwo pomiędzy tekstami listów zostało policzone w oparciu o model wektorowy znany w literaturze takŝe pod nazwą tf*idf. Model wektorowy traktuje tekst jako wielozbiór (ang. bags) słów, wyrazów, tematów, znaczeń. Inaczej: dokumenty to wielozbiory termów [Prze04]. Model ten wykorzystuje listę termów do reprezentacji dokumentów i zapytań, uŝywając algebry liniowej oblicza podobieństwo pomiędzy nimi (stanowi je funkcja cosinus kąta pomiędzy wektorami) [Kowa03]. Wszystkie listy zostały poddane procesowi oznaczania (wyodrębniania) wyrazów (ang. tokenization) wraz z przypisaniem im poszczególnych części mowy. Następnie maile poddane zostały morfologicznej analizie (wybrano technikę redukcji słów do syntaktycznego trzonu, ang. lemmatization). W wyniku obliczeń znaleziono grupy wyrazów występujących w zapytaniach i skojarzonych z nimi, współwystępującymi (ang. co-occurrence) wyrazami występującymi w odpowiedziach. Tabela przedstawia przykładowe grupy wyrazów [LaLL03]. Tabela 1 Przykładowe grupy wyrazów współwystępujących w rozwiązaniach Problem Lista współwystępujących określeń w odpowiedziach Release Earn, BCE_Emergis, CGI, EMAIL_ADDRESS, next, meeting, schedule, release, TIME, coference Earnings EPS, reflect, study, read, such, accounting, note, analysis, next, holding, prior, item, give, also Report Next, day, give, quarter, far, TIME, DATE, detail, release, afternoon, after, replay, also, date, corporation, number Wykorzystanie znalezionego rozwiązania (reuse) Po otrzymaniu nowej wiadomości, wykorzystując rozwiązania wyłonione podczas fazy wyszukiwania, system usiłuje ponownie uŝyć znalezione rozwiązanie w procesie złoŝonym z trzech etapów: identyfikacja odpowiednich fragmentów: oznaczanie istotnych fragmentów tekstu w danym kontekście. Istnienie nieodpowiednich fragmentów związane jest z moŝliwością występowania kilku tematów w jednym zapytaniu lub
Wspomaganie tworzenia odpowiedzi e-mail przy pomocy techniki 289 odpowiedzi. W prezentowanym wyŝej przykładzie odpowiedź j zawiera uwagi dotyczące dwóch tematów (raport o dochodach oraz podsumowanie roku). Stosując statystyczne metody dopasowuje się fragment najbardziej podobny (odpowiedni), personalizacja wiadomości: oznaczenie porcji tekstu (encji), przeznaczonych do modyfikacji, takich jak nazwa firmy, personalia, wskaźniki finansowe, daty i odniesienia do czasu. W tym celu wykorzystuje się techniki ekstrakcji informacji, które przy uŝyciu wzorców regułowych lub statystycznych modeli identyfikują informacje w dokumentach tekstowych, czyszczenie i podstawianie: usuwanie nieistotnych fragmentów oraz podstawianie fragmentami, które zostały oznaczone w poprzednim etapie. Uwagi końcowe Technika CBR wraz ze swoim cyklem, wyraŝonym poprzez fazy: wyszukania (retrive), ponownego uŝycia (reuse), oceny przydatności (revise), zapamiętania (retain) jest dobrze dopasowana do problemów zarządzania wiedzą, dla których przedstawiony cykl jest czymś naturalnym. Próby zastosowania systemów CBR do wyłaniania wiedzy zapisanej w dokumentach tekstowych, takich jak wiadomości e-mail wymaga od twórców systemów rozszerzenia moŝliwości samej techniki. Działanie przykładowego systemu wykazało konieczność rozszerzenia techniki o dodatkowe metody statystyczne. Ekstrakcja informacji z tekstów musi uwzględniać takŝe wiedzę o języku. Twórcy prezentowanego projektu zamierzają kontynuować swoje prace w kierunku udoskonalania fazy wyszukiwania (retrival), stosując nowe modele statystyczne zamierzają dąŝyć do redukcji poziomu szumów powstałych podczas procesu wyszukiwania. W literaturze moŝna spotkać przykłady innych badań wykorzystania Textual CBR, mi.in. w odpowiadaniu na listy pisane przez uczniów do tutora (w e-learnigu), w automatycznym tworzeniu streszczenia tekstu. Godne uwagi wydaje się śledzenie przebiegu i postępu tych prac. Literatura [AaPl94] [AsLe98] [Fili04] Aamodt A., Plaza E.: Case-Based Reasoning: Foundational Issues, Methodological Variations, and System Approaches, AI- Com, Artificial Intelligence Communications, IOS Press 1994 Ashley K.D., Lenz M.: Textual Case-Based Reasoning, AAAI- 98 Workshop, Menlo Park: AAAI Press 1998 Filipowska A.: Jak zaoszczędzić na czytaniu? Automatyczne tworzenie abstraktów z dokumentów, http://www.gazeta-
290 Zarządzanie wiedzą i rozwiązania Business Intelligence [Kowa03] [LaLa03] [LaLL03] [Prze04] [RSH89] [WeAh01] [WrZa97] [Zado99] it.pl/trendy/git22/automatyczne_tworzenie_abstraktow2.htm, Gazeta IT nr 3, marzec 2004 Kowalik P., Wspomaganie tworzenia analizatorów stron wyników z internetowych systemów wyszukujących, Strona www http://www.cs.put.poznan.pl/dweiss/carrot-bin/kowalik-2003- wrapit.pdf Lamontagne L., Lapalme G., Applying Cased-Based Reasoning To Email Response, International Conference of Enterprise Information Systems ICEIS-03, Angers, France 2003 Lamontagne L., Langlais P., Lapalme G., Using Statistical Word Associations for the Retrieval of Strongly-Textual Cases, Special Track on Case-Based Reasoning, FLAIRS-2003, AAAI Press, Ste-Augustine, Florida, 2003 Przepiórkowski A., InŜynieria lingwistyczna, Strona www http://dach.ipipan.waw.pl/~adamp/teaching/le200304/lecture_ notes/031031-4up.pdf Riesbeck C., Schank R., Hillsdale N.J.: Inside Case-Based Reasoning, Lawrence Erlbaum 1989 Weber R., Aha D.W., Sandhu N., Munoz-Avila H., A Textual Cese-Based Reasoning Framework for Knowledge Managament Applications, Proceedings of the Ninth German Workshop on Case-Based Reasoning, Baden-Baden, Germany March 2001. Wrona S., Zadora P.: Przetwarzanie wiedzy pochodzącej z przeszłości w celu rozwiązania problemów klasyfikacyjnych. W: Sroka H., Stanek S.: Inteligentne systemy wspomagania decyzji w zarządzaniu. Transformacje systemów, AE Katowice 1997 Zadora P.: Wnioskowanie na podstawie przypadków jako metoda wspomagająca proces podejmowania decyzji, Praca doktorska pod kierunkiem prof. zw. dr hab. H.Sroki, AE Katowice 1999 EMPLOYMENT CASE-BASED REASONING TO SUPPORT EMAIL RESPONSE The article attempts to describe case-based reasoning approach for the semiautomatic generation of responses to email messages. This task poses some challenges from case-based reasoning. The article presents case-based reasoning extended by the possibility of construction of case base on the ground of text documents ( textual case-based reasoning). Key words Case-based Reasoning, CBR, Textual CBR, TCBR