EKSPLORACJA DANYCH TEKSTOWYCH (TEXT MINING) W PRZEDSI BIORSTWIE KAROLINA KULIGOWSKA, MIROSŁAWA LASEK Uniwersytet Warszawski Streszczenie Metody eksploracji danych tekstowych Text Mining ł cz w sobie techniki Data Mining z analizowaniem tre ci ró norodnych dokumentów tekstowych. Dzi ki tym metodom z nieustrukturyzowanych danych o charakterze tekstowym mo na odnale nieznane wcze niej informacje oraz dotrze do sporej warto ci wiedzy dotycz cej przedsi biorstwa. Pozyskane w ten sposób, usystematyzowane informacje s coraz cz ciej wykorzystywane do podejmowania decyzji biznesowych. Słowa kluczowe: Text Mining, eksploracja danych tekstowych, Data Mining, Web Mining 1. Wprowadzenie Od pocz tku bada w dziedzinie sztucznej inteligencji próbowano skonstruowa oprogramowanie pozwalaj ce efektywnie analizowa dane tekstowe w inteligentny sposób. W miar jak rozwijano technologi i konstruowano komputery o coraz wi kszej mocy obliczeniowej, mo liwe było przeprowadzanie coraz bardziej zaawansowanych analiz danych. Dzi ki aplikacjom analitycznym programy zacz ły przetwarza obszerne bazy danych cyfrowych o wiele efektywniej i szybciej ni człowiek. Pomimo to maszyny wci nie radziły sobie z podstawow umiej tno ci ludzk : rozumieniem i przetwarzaniem komunikatów w j zyku naturalnym. Dalsze badania naukowe prowadzone w zakresie lingwistyki obliczeniowej (ang. computational linguistics) okazały si na tyle owocne, e zacz to wytwarza oprogramowanie do analiz tekstu, tzw. Text Mining. Narz dzia Text Miningu stanowi poł czenie metod Data Miningu zastosowanych do przetwarzania j zyka naturalnego. Narz dzia te umo liwiaj wyłuskiwanie cennych informacji z bardzo wielu, ró norodnych dokumentów tekstowych, a co za tym idzie odkrywanie nieznanych wcze niej współzale no ci mi dzy danymi oraz powi za pomi dzy dokumentami (Gaizauskas, 2004). Badania nad Text Miningowymi metodami eksploracji danych wydaj si by bardzo obiecuj ce, gdy pozwalaj na zaoszcz dzenie czasu i pieni dzy, które musiałyby zosta przeznaczone na przeczytanie i ewentualne eksplorowanie przez człowieka ogromnego repozytorium dokumentów tekstowych. Text Mining jest ju stosowany w przedsi biorstwach, a niektóre z zastosowa zostan omówione w niniejszym artykule. 2. Metody eksploracji danych tekstowych Podczas u ywania narz dzi bazuj cych na Data Miningu informacje zostaj wyłuskiwane z ustrukturyzowanych baz danych. W procesie Text Miningu natomiast dane s wydobywane z nieustrukturyzowanych tre ci dokumentów tekstowych zapisanych w j zyku naturalnym. W celu przeprowadzenia analizy tekstu dokument powinien by na samym pocz tku przekształcony w odpowiedni form. Etap ten nazywa si wst pn obróbk pliku tekstowego (ang.
POLSKIE STOWARZYSZENIE ZARZ DZANIA WIEDZ Seria: Studia i Materiały, nr 13, 2008 127 preprocessing), podczas którego dane tekstowe zapisane w ró norodnych formatach zostaj zaimportowane do pojedynczego zbioru, łatwego do pó niejszego odczytywania. Kiedy surowe dokumenty s ju przekształcone w jednolity format kodowania, tekst jest przeszukiwany i nast pnie poddawany rozbiorowi. Jest to kolejny krok w procesie analizy kolekcji dokumentów. Podczas rozbioru struktury dokumentu (ang. parsing) z dalszej analizy wył czone zostaj wyrazy o niskiej warto ci informacyjnej. Rodzajniki, spójniki, przyimki i inne nieistotne semantycznie cz ci mowy zgromadzone s na osobnej li cie, tzw. stop li cie (ang. stop list), za pomoc której mo na kontrolowa pomijane wyrazy. W etapie tym zostaj równie wyodr bnione terminy, które maj istotne znaczenie i które nale y wł czy do analizy; mog to by pojedyncze wyrazy, wyra enia, nazwy oraz numery. Podczas przeszukiwania dokumentu nast puje tak e automatyczne znajdowanie podstawy fleksyjnej (ang. stemming), czyli sprowadzenie wszystkich odmian i form danego wyrazu do jego formy podstawowej. Czynno ta ułatwia analiz terminów bardziej abstrakcyjnych, cho oczywi- cie istniej terminy maj ce identyczne znaczenie kontekstowe, lecz oparte na innych podstawach fleksyjnych. W takim przypadku niezb dna jest lista synonimów, które maj takie samo znaczenie, cho nie wywodz si bezpo rednio z tych samych form podstawowych (W cel, 2005). Efektem przeszukiwania dokumentu jest wygenerowanie liczbowej reprezentacji danego dokumentu. Mo e ona by oparta na prostych metodach statystycznych bazuj cych na cz sto ci i współwyst powaniu wyrazów. W celu analizy liczby wyrazów w zbiorze dokumentów najcz ciej tworzona jest macierz cz sto ci wyst powania wyrazów w dokumencie. Wagi u ywane do mierzenia cz sto ci wyst powania słów zale od cz sto ci wyst powania danego wyrazu w dokumencie oraz w kolekcji dokumentów jako cało ci. Po zmierzeniu cz sto ci mo na nast pnie stosowa filtrowanie tekstu i ekstrakcja faktów. Celem stosowania eksploracji danych tekstowych jest przeszukanie dokumentów zawieraj cych nieustrukturyzowany tekst, wydobycie z niego warto ciowych dla analizy słów, do których nast pnie stosuje si ró ne algorytmy Data Miningu. Wydobyte informacje mog by u yte do sporz dzania streszcze dokumentów, okre lenia podobie stw pomi dzy wieloma dokumentami, znalezienia zale no ci pomi dzy jednostkami tekstu lub tworzenia rankingów dokumentów (Filipowska, 2004). Wida wi c, e metody Text Miningu s pot nym narz dziem przekształcaj cym bezładny tekst w liczby, które s łatwiejsze do analitycznej obróbki i mog by nast pnie wł czone do analiz, takich jak modelowanie Data Miningowe, predykcja lub biznesowe zastosowania klasteryzacji i klasyfikacji. 3. Text Mining w przedsi biorstwie Głównym zadaniem metod eksploracji tekstu jest wyłuskiwanie istotnych danych i u ycie ich do sporz dzania prognoz i podejmowania decyzji biznesowych. Do osi gni cia tego celu analitycy wykorzystuj klasteryzacj dokumentów oraz ich klasyfikowanie. Klasteryzacja kolekcji dokumentów umo liwia sporz dzenie ich streszcze bez konieczno ci czytania przez człowieka ka dego dokumentu z osobna. Klaster zawieraj cy kilka tysi cy dokumentów mo e pomóc w ujawnieniu wa nych zagadnie i kluczowych idei zwi zanych z funkcjonowaniem przedsi biorstwa, a zawartych w zgromadzonych w firmie dokumentach. Klasteryzacj dokumentów stosuje si w analizie danych ankietowych, analizie opinii klientów lub zbiorów wiadomo ci e-mail do odkrycia wcze niej nieznanej wiedzy. Klasteryzacja daje równie wskazówki
128 Karolina Kuligowska, Mirosława Lasek Eksploracja danych tekstowych (Text Mining) w przedsi biorstwie jakie wyrazy maj tendencj do bycia u ywanymi ł cznie lub jakie kategorie słownictwa wyst puj w kolekcji dokumentów. Klasyfikowanie dokumentów polega na ich rozdzieleniu pomi dzy wcze niej zdefiniowane kategorie. Mo na powiedzie, e klasyfikowanie jest w zasadzie form predykcji. Jest ona cz sto u ywana do inteligentnego filtrowania wiadomo ci e-mail lub automatycznego wykrywania spamu. Najbardziej spektakularne i obiecuj ce zastosowania Text Miningu dotycz sporz dzania prognoz w takich dziedzinach, jak: giełda i kursy walut, ocena satysfakcji klienta oraz przewidywanie zachowa i preferencji klienta (Weiss, 2005). Inne typowe obszary zastosowa eksploracji danych tekstowych: zmiany cen akcji na giełdzie przewidziane na podstawie prasowych informacji o kondycjach finansowych firm; koszty usług prognozowane na podstawie opisu problemu; identyfikacja konkretnych słów i wyra e dla procesu filtrowania wiadomo ci e-mail w celu wykrycia spamu; satysfakcja konsumenta przewidziana na podstawie analiz danych ankietowych oraz komentarzy klientów wpisanych na stronie internetowej; zbadanie próbek artykułów napisanych przez jedn osob mo e by podstaw do udowodnienia jej autorstwa innego fragmentu tekstu, który ma kilku potencjalnych autorów. Inne zastosowania Text Miningu mog dotyczy analiz ankiet zło onych z pyta otwartych, automatycznego przetwarzania wiadomo ci, analiz roszcze ubezpieczeniowych oraz analiz ró norodnych diagnoz (Hearst, 1999). 4. Eksploracja danych zawartych w internecie (Web Mining) na potrzeby przedsi biorstw Internet w bardzo intensywny sposób oddziałuje na współczesne społecze stwo, zmieniaj c sposoby wymiany informacji oraz zbierania danych. To Internet jest uwa any za najobszerniejsze ródło informacji na całej planecie. Mo na go okre li jako niewiarygodnie wielki magazyn wszelakich nieuporz dkowanych danych. Nic wi c dziwnego, e równie w internecie zacz to stosowa techniki Text Minigu do danych zawartych w internecie, czyli po prostu Web Miningu. Narz dzia eksploracji danych internetowych umo liwiaj przeszukiwanie danych rozproszonych w całej wiatowej sieci internetowej. Rozró nia si trzy rodzaje Web Miningowych analiz danych, mianowicie: eksploracja zawarto ci stron internetowych (ang. Web content mining), eksploracja struktur internetowych (ang. Web structure mining) oraz eksploracja u ytkowania internetu (ang. Web usage mining). Pierwsza metoda skupia si na wyszukiwaniu u ytecznych informacji bezpo rednio z zawarto ci stron internetowych i dokumentów zamieszczonych w internecie. Druga metoda umo liwia odkrywanie modeli struktur hiperł czy. Trzecie podej cie odnosi si do technik przewidywania zachowania u ytkowników na podstawie ich wcze niej zaobserwowanych wzorców zachowa (Wang, 2000). Internauci powszechnie ju u ywaj w codziennej pracy narz dzi, takich jak wyszukiwarki, gdy zale y im na szybkim i precyzyjnym odnalezieniu wa nych informacji. Z drugiej strony dostawcy internetu staraj si przewidzie zachowania u ytkowników oraz wzorce ich nawigacji w sieci w celu zredukowania przeci enia w ładowaniu stron oraz w celu personalizacji dostarczanych informacji. Analitycy w firmie szczególnie ceni sobie zrozumienie i mo liwo ci predykcji preferencji i oczekiwa u ytkownika. Wszystkie wy ej wymienione grupy chciałyby u ywa od-
POLSKIE STOWARZYSZENIE ZARZ DZANIA WIEDZ Seria: Studia i Materiały, nr 13, 2008 129 powiednich narz dzi Web Miningowych, które pomogłyby im rozwi za problemy dotycz ce ogromnej ilo ci danych zawartych w internecie. Metody Web Miningu przyczyniaj si do sprawniejszego wykonywania zada wewn trz przedsi biorstwa poprzez efektywn eksploracj portali internetowych. Narz dzia te umo liwiaj dokładne personalizowanie serwisów internetowych poprzez ledzenie wzorców nawigacji u ytkowników oraz na tej podstawie odpowiedni indywidualizacj zawarto ci stron. Wykorzystanie wiedzy dotycz cej klientów oraz ich preferencji jest bardzo wa nym aspektem wykorzystywanym przy podejmowania decyzji rynkowych w przedsi biorstwie. Dzi ki Web Miningowi satysfakcja klienta mo e by mierzona i analizowana ju cho by na bazie wypełnianych on-line kwestionariuszy (Night, 1999). Przyspieszony wzrost ródeł informacji dost pnych w internecie oraz zainteresowanie handlem elektronicznym sprawia, e globalna sie stała si bardzo atrakcyjnym miejscem wymiany do- wiadcze naukowców i praktyków biznesu dzi ki mo liwo ci sprawnego przeszukiwania informacji oraz metodom sztucznej inteligencji, a szczególnie przetwarzania j zyka naturalnego. 5. Narz dzia wykorzystywane do Text Miningu Pomi dzy wieloma dost pnymi programami u ywanymi do Text Miningu najcz ciej u ywanymi s : Text Miner (SAS), Text Miner (StatSoft), Text Analyst (Megaputer Intelligence) oraz Text Mining Solutions (NetOwl). Narz dzia te potrafi zanalizowa tekst znajduj cy si w kolekcji dokumentów, a nast pnie dokona na tej podstawie predykcji lub dalszej eksploracji tekstu. Powy sze oprogramowanie ułatwia tak e nawigacj w bardzo zło onych bazach danych oraz umo liwia sporz dzenie streszcze bez konieczno ci zapoznawania si z całymi dokumentami. Dodatkowe opcje, w jakie wyposa one s te programy to klasteryzacja dokumentów, automatyczne rozpoznawanie zło onych wyra e oraz znajdywanie grup słów o podobnym znaczeniu lub znajdywanie grup podobnych tre ciowo dokumentów. U ywaj c modułu SAS Text Miner mo na tak e analizowa powi zania pomi dzy terminami. Przykładow graficzn prezentacj słów wyst puj cych najcz ciej razem w tek cie mo na obejrze na rysunku poni ej.
130 Karolina Kuligowska, Mirosława Lasek Eksploracja danych tekstowych (Text Mining) w przedsi biorstwie Rys. 1. Słowa najcz ciej wyst puj ce z wyrazem hurtownia ródło: opracowanie własne na podstawie programu SAS Text Miner Bibliografia 1. Filipowska A., Jak zaoszcz dzi na czytaniu? Automatyczne tworzenie abstraktów z dokumentów, Gazeta IT, nr 3 (22), 2004, 1-6. 2. Gaizauskas R., Saggion H., Multi-Document Summarization by Cluster/Profile Relevance and Redundancy Removal, Proceedings of the HLT/NAACL Document Understanding Workshop, Boston 2004, 1-8. 3. Hearst M., A., Untangling Text Data Mining, Proceedings of ACL, 37th Annual Meeting of the ACL, New Jersey 1999, 3-10. 4. Night K., Mining Online Text, Communications of the ACM 42(11), ACM Press, New York 1999, 58 61. 5. Wang Y., Web Mining and Knowledge Discovery of Usage Patterns, CS 748T Project 2000, 1-25 6. Weiss S. (red.), Text Mining: Predictive Methods for Analyzing Unstructured Information, Springer Science and Business Media, New York 2005. 7. W cel K., SAS, rejestry pa stwowe i text mining, Gazeta IT, nr 9 (39), 2005, 1-4
POLSKIE STOWARZYSZENIE ZARZ DZANIA WIEDZ Seria: Studia i Materiały, nr 13, 2008 131 TEXT MINING METHODS AND APPLICATIONS IN THE ENTERPRISE Summary Text Mining methods consist of Data Mining algorithms applied to unstructured textual data. Those methods allow to explore quickly thousands of documents and to extract previously unktnown patterns and correlations used in business decision making and other managerial activities in the enterprise. Keywords: Text Mining, eksploracja danych tekstowych, Data Mining, Web Mining Karolina Kuligowska kkuligowska@wne.uw.edu.pl Mirosława Lasek mlasek@wne.uw.edu.pl Katedra Informatyki Gospodarczej i Analiz Ekonomicznych, Uniwersytet Warszawski ul. Długa 44/50, 00-241 Warszawa