Metody i narzêdzia automatycznego przetwarzania informacji tekstowej i ich wykorzystanie w procesie zarz¹dzania wiedz¹

Transkrypt

1 AUTOMATYKA 2011 Tom 15 Zeszyt 2 Piotr Potiopa* Metody i narzêdzia automatycznego przetwarzania informacji tekstowej i ich wykorzystanie w procesie zarz¹dzania wiedz¹ 1. Wprowadzenie Przewa aj¹ca wiêkszoœæ informacji wykorzystywanych we wspó³czesnych firmach i instytucjach przechowywana jest nadal w postaci informacji w jêzyku naturalnym. Stanowi on podstawowy noœnik i œrodek komunikacji w procesach dzielenia siê wiedz¹. Jednoczeœnie coraz wiêksze znaczenie maj¹ systemy i narzêdzia informatyczne, które umo liwiaj¹ ³atwe i zautomatyzowane przetwarzanie danych i informacji przechowywanych w³aœnie za pomoc¹ jêzyka naturalnego. Problematyka analizy tekstów, dokumentów od d³u szego czasu w ró nych organizacjach nabieraj¹ coraz wiêkszego znaczenia. Zasadnie jest zatem, aby zadania realizowane w zakresie zarz¹dzania wiedz¹, najbardziej w obszarze jej reprezentacji i ekstrakcji, spe³nia³y systemy przetwarzania jêzyka naturalnego. Jednym z wa nych aspektów realizacji takich zadañ jest budowa odpowiednich ontologii dziedzinowych. S³u ¹ one poprawnemu modelowaniu i reprezentacji struktur wiedzy w sposób zarówno czytelny dla cz³owieka, jak i umo liwiaj¹cy jej przetwarzanie przez komputer. Obecnie ontologie s¹ obiektem badañ w ro nych œrodowiskach naukowych, m.in. w in ynierii jêzyka naturalnego, w in ynierii systemów informatycznych, w in ynierii wiedzy, a tak e w teorii zarz¹dzania wiedz¹ [1]. Drugim wa nym obszarem dzia³añ w zakresie zarz¹dzania wiedz¹ jest wyszukiwanie, analiza i obróbka dokumentów zawieraj¹cych potrzebne nam informacje. Nierzadko informacja zawarta w tych dokumentach stanowi bazê do rozwi¹zania aktualnych, nowych problemów wystepujacych w danym systemie wiedzy. Zdobywanie wiedzy i dzielenie siê przesz³ymi doœwiadczeniami do ponownego wykorzystania jest coraz bardziej istotne ze wzglêdu na iloœæ technicznych informacji, od których jestesmy uzale nieni obecnie. W systemach zarz¹dzania wiedz¹ techniki te s¹ okreœlane mianem wnioskowania na podstawie przypadków (Case-Based Reasoning) [2]. * AGH Akademia Górniczo-Hutnicza, Wydzia³ Zarz¹dzania, Katedra Informatyki Stosowanej 409

2 410 Piotr Potiopa Analizy tekstów w jêzyku naturalnym s¹ mo liwe dziêki, ju dziœ rozwiniêtym, metodom jego przetwarzania. Wykorzystanie podejœæ i metod takich jak: information retrieval, information extraction, text mining czy natural language processing pozwala na budowanie bazy wiedzy i na jej usystematyzowanie, a co za tym idzie na efektywne ni¹ zarz¹dzanie. W tym artykule zostan¹ przedstawione metody analizy tekstów wykorzystuj¹ce znane algorytmy wspomagaj¹ce ich przetwarzanie. Nacisk po³o ono na aspekty podobieñstwa dokumentów i technik zwi¹zanych z metodami jego okreœlania. Przedstawiono te przyk³ady istniej¹cych narzêdzi obróbki i analizy dokumentów. 2. Metody wyszukiwania i analizy tekstu W procesach wyszukiwania i analizy dokumentów tekstowych wyró nia siê m.in. nastêpuj¹ce metody: Systemy wyszukiwania informacji (Information Retrieval, IR). Rozumienie jêzyków naturalnych (Natural Language Processing). Metody ekstrakcji informacji (Information Extraction, IE). Metody eksploracji tekstu (Text Mining). Poni ej zosta³y one wyjaœnione i opisane z uwzglêdnieniem technik jakie umo liwiaj¹ dzia³anie danej metody Information Retrieval Information Retrieval, IR (wyszukiwanie informacji) jest okreœleniem powszechnie u ywanym, chocia niezupe³nie trafnie. System wyszukiwania informacji nie tyle informuje u ytkownika na temat, który go interesuje, co informuje o istnieniu (lub jego braku) miejsca, gdzie dokument odpowiadaj¹cy wymaganiom u ytkownika siê znajduje [3]. W typowym IR u ytkownik tworzy zapytanie, z³o one z jednego lub kilku wyrazów, na podstawie którego system wyszukuje dokumenty. Wyró nia siê dwa g³ówne podejœcia IR: model boolowski (Boolean Logic Model, BLM) oraz rankingowy (ranked-output systems) [3, 8]. Zapytanie BML sk³ada siê ze s³ów lub fraz po³¹czonych logicznymi operatorami AND, OR oraz NOT. Rezultatem zapytania jest zazwyczaj podzia³ zbioru dokumentów na dwie czêœci: jedn¹ zawieraj¹c¹ dopasowane dokumenty oraz drug¹ zawieraj¹c¹ dokumenty niedopasowane. System rankingowy, stosuj¹c algebrê wektorów ocenia podobieñstwo treœci dokumentów z treœci¹ zapytania i na tej podstawie dokonuje rankingu znalezionych dokumentow. Systemy rankingowe wykorzystuj¹ najczêœciej nastêpuj¹ce modele do oceny podobieñstwa dokumentów: model wektorowy (Vector Space Model, VSM), model probabilistyczny (Probabilistic Model, PM), a tak e inne, m.in. Inference Network Model (INM). Zalet¹ systemów IR jest dziedzinowa niezale noœæ oraz elastycznoœæ jêzykowa (zmiana jêzyka nie wymaga zbyt wielu adaptacji). Natomiast do najwa niejszych ograniczeñ tych

3 Metody i narzêdzia automatycznego przetwarzania informacji tekstowej systemów nale y za³o enie niezale noœci indeksów termów, co mo e prowadziæ do oszacowania zerowego podobieñstwa miêdzy dokumentami zawieraj¹cymi synonimiczne wyra enia [3, 8] Information Extraction Zadaniem ekstrakcji informacji (Information Extraction, IE) jest zidentyfikowanie instancji pewnej predefiniowanej klasy zdarzeñ, ich powi¹zañ oraz wyst¹pieñ w dokumentach pisanych w jêzyku naturalnym [4]. W odró nieniu od systemów IR, systemy IE nie wyszukuj¹ samych dokumentów, ale zgodnie z nazw¹ dokonuj¹ ekstrakcji informacji z ich treœci. Pozyskane informacje mog¹ zostaæ umieszczone w bazie danych. Informacja, jaka bêdzie pozyskiwana z dokumentu, jest specyfikowana przez u ytkownika, który tworzy wzorzec. Zawiera on okreœlone sekcje dziury (slots), ktore wype³niane s¹ fragmentami tekstu. J¹dro systemu ekstrakcji informacji sk³ada siê z dwóch komponentów: procesora tekstów (którym mo e byæ jedna z metod NLP) oraz generatora wzorców, które osadzone s¹ w wiedzy dziedzinowej. Zadaniem procesora tekstów jest analiza leksykalna tekstu (obecnie najczêœciej stosuje siê p³ytk¹ analizê) Text Mining Text mining jest metodologi¹ wywodz¹c¹ siê z data mining, wyszukiwania informacji, ekstrakcji danych, kategoryzacji tekstu, modelowania probabilistycznego, algebry liniowej, uczenia maszynowego zastosowanych w celu wykrycia wiedzy z dokumentów tekstowych [4]. Definicja wskazuje na podobieñstwo z technikami IE. Ekstrakcji informacji dokonuje siê jednak zwykle w oparciu o znane wzorce, w przypadku text mining wzorce wychwytywane s¹ dopiero w procesie przetwarzania dokumentu. Do typowych zadañ text mining nale y: znajdowanie dokumentów najbardziej pasuj¹cych do zapytania u ytkownika, tworzenie rankingow dokumentów, grupowanie dokumentów (analiza skupieñ), klasyfikowanie dokumentów (kategoryzacja), analiza powi¹zañ miêdzy jednostkami tekstu, dokonywanie automatycznych streszczeñ dokumentów [4] Natural Language Processing Metody Natural Language Processing NLP (rozumienie jêzyków naturalnych) zawieraj¹ mechanizmy próbuj¹ce dokonaæ zrozumienia kontekstu tekstu. W metodach tych nie oblicza siê podobieñstwa termów, ale oznacza siê poszczególne czêœci mowy (analiza p³ytka) oraz szuka siê znaczenia danego wyra enia w kontekœcie poprzez pe³n¹ analizê gramatyczn¹ (analiza g³êboka) [4]. Niektóre serwisy internetowe proponuj¹ u ytkownikom alternatywnie dla metod IR wyszukiwanie informacji poprzez systemy wzbogacone o NLP, co mo e daæ w wyniku lepiej dopasowane do danego zapytania dokumenty. Metody NLP maj¹ jednak swoje wady, nale ¹ do nich: wiêksza z³o onoœæ i czasoch³onnoœæ (zw³aszcza g³êboka analiza), s¹ silnie

4 412 Piotr Potiopa zwi¹zane z danym jêzykiem (adaptacja na inne jêzyki wymaga wiele pracy), trac¹ znacznie swoj¹ skutecznoœæ w przypadku wystêpowania w tekœcie terminów spoza s³owników oraz w przypadku analizy tekstów sporz¹dzonych jako krótkie notatki (doœæ czêsto pozbawione poprawnej struktury gramatycznej). Analiza dokumentów tekstowych jest ³¹czona zwykle z metodami NLP (Natural Language Processing). Skupia siê ona na pojedynczym dokumencie. Natomiast bazowy charakter ontologii z danego obszaru tematycznego wymaga dzia³añ szerszych, analizy du ych wolumenów dokumentów (korpusu), na podstawie których bêdzie ona tworzona. Do tego celu mo na zastosowaæ technikê wykorzystywan¹ przy analizie danych strukturalnych DM (Data Mining). Czêsto okreœla siê TM (Text Mining) jako DM dla dokumentów niestrukturalnych (rys. 1) [5], w których szuka wzorców i szablonów. Rys. 1. Techniki analizy danych strukturalnych i niestrukturalnych Automatyczne przetwarzanie dokumentów jêzyka naturalnego obejmuje nastêpuj¹ce zasadnicze fazy: podzia³ tekstu wejœciowego na zdania, tokeny, s³owa; odrzucenie s³ów (tagów) nieistotnych (z tzw. stop-listy); tematyzacja tzn. wybór s³ów istotnych i sprowadzenie ich do postaci podstawowe (stemmer); s¹ stosowane dwie metody: regu³y gramatyki w algorytmie lub s³owniki; automatyczne generowanie s³ów kluczowych, klasteryzacja dokumentów, ontologie, tezaurusy itp.

5 Metody i narzêdzia automatycznego przetwarzania informacji tekstowej Z kolei sam proces analizy tekstu przebiega wg schematu przedstawionego na rysunku 2 [5]. Dokumenty wejœciowe Analiza flexalna i gramatyczna Stop-lista Stemmer Dokumenty przetworzone Rys. 2. Etapy analizy dokumentów Tokeny pozwalaj¹ na podzia³ tekstu na proste elementy, czyli np.: liczby, punktacja, s³owa. Proces ten jest uzalezniony od jêzyka, w jakim dany tekst zosta³ zbudowany i do jakiego obszaru tematycznego siê odnosi. Dosyæ ³atwo go przeprowadziæ dla jêzyka niemieckiego czy angielskiego, ale o wiele trudniej dla jêzyka polskiego, poniewa gramatyka jest tu bardziej z³o ona i wymaga z³o onej analizy tekstu wejœciowego [5]. Wa nym aspektem jest równie brak równowa noœci miêdzy tekstami. Inny jest tekst literacki, z publicznie dostêpnych gazet czy te naukowy czêsto zawieraj¹cy obok terminów naukowych rysunki wykresy, wzory matematyczne czy chemiczne, litery alfabetu greckiego. Jak na razie brakuje idealnego programu, który by potrafi³ bezb³êdnie przetworzyæ ka dy dokument. Co prawda s¹ dostêpne narzêdzia zarówno komercyjne, jak i bezp³atne umo liwiaj¹ce analizê tekstów, ale ich jakoœæ jest ró na, od bardzo prostych po bardziej zaawansowane. Wiele z nich dostosowana jest do jêzyków zachodnich, niektóre z nich potrafi¹ analizowaæ nawet teksty chiñskie czy te japoñskie. Gorzej jest z jêzykiem polskim ze wzglêdu na ma³y rynek dla takiego produktu. Aczkolwiek s¹ ju dostêpne pewne rozwi¹zania, które zostan¹ przedstawione w rozdziale 4.

6 414 Piotr Potiopa Osobne zagadnienie to wymagany format wejœciowy danych do systemu analizuj¹cego dokumenty. Na ogó³ jest to.txt,.html, rzadziej.doc czy.pdf. W przypadku innych formatów ni.txt systemy maj¹ wbudowane w³asne konwertery do wymaganego formatu. A zatem czêsto trzeba dokonaæ konwersji dokumentu np. z formatu.pdf do.txt. Jednak w przypadku dokumentów naukowych zawieraj¹cych wzory matematyczne, chemiczne, specyficzne litery z ró nych jêzyków, otrzymuje siê postaæ wynikow¹ mocno zniekszta³con¹ i bardzo odbiegaj¹c¹ od orygina³u. Do analizy dokumentów testowych uzywa siê dedykowanych narzêdzi informatycznych. Ogólnie mo na je podzieliæ na: proste umo liwiaj¹ce uzyskanie podstawowych statystyk w dokumentach takich jak czêstoœæ wystêpowania, wspó³wystêpowania s³ów) (np.textstat, AntConc); silniki indeksowania i wyszukiwania informacji (np. Lucene, Windows Desktop Search, Google, Yahoo); zaawansowane pozwalaj¹ce na z³o on¹ analizê tekstów, z wykorzystaniem technik klasteryzacji, wizualizacj¹ wyników i mo liwoœci¹ budowania ontologii (np. SAS Text Miner, Oracle Text, OntoGen Text Garden). Wynikiem analizy fleksalnej i gramatycznej dokumentu jest zbiór s³ów. Tylko czêœæ z nich jest istotna dla treœci. S³owa, które najczêœciej wystêpuj¹ w wiêkszoœci dokumentów powinny zostaæ pominiête, poniewa s¹ to zaimki, przyimki i spójniki. Nastêpny etap stemming usuwa przyrostki i przedrostki oraz sprowadza s³owa do formy podstawowej w oparciu o algorytmy rozpoznaj¹ce regu³y gramatyczne lub te poprzez odwo³anie siê do stosownych s³owników. Przyk³adem s³ownika dla jêzyka angielskiego mo e byæ WordNet. Natomiast prace nad stworzeniem polskiego WordNetu s¹ prowadzone przez zespó³ kierowany przez Politechnikê Wroc³awsk¹. Wiêcej informacji na ten temat jest dostêpnych pod adresem [6]. Dokumenty s¹ przedstawiane jako zbiory s³ów (bag of words) z wyliczeniem, jak czêsto ka de z nich wystêpuje w ka dym dokumencie (term-by-document frequency) [8]. 3. Podobieñstwo dokumentów podstawy matematyczne Przeszukiwanie danych niestrukturalnych (wyszukiwanie pe³notekstowe FTS) jest technik¹ wydajnego przeszukiwania dokumentów o charakterze tekstowym, wykorzystuj¹c¹ specjalny rodzaj indeksów tzw. indeksy pe³notekstowe. FTS jest oparty na modelu przestrzeni wielowymiarowej. Tworz¹ j¹ wszystkie s³owa zawarte w przetwarzanych dokumentach. Dokument mo na interpretowaæ jako wektor sk³adaj¹cy siê z n s³ów, gdzie ka da wspó³rzêdna okreœla czêstoœæ wyst¹pieñ danego s³owa w danym dokumencie. Analizy zbioru dokumentów mo na dokonaæ, buduj¹c macierz term-by-document frequency [7 8]. Dla przyk³adowych dwóch dokumentów mo e ona wygl¹daæ nastêpuj¹co (tab. 1): D1 The cat is black D2 Black cat is my cat

7 Metody i narzêdzia automatycznego przetwarzania informacji tekstowej Tabela 1 Przyk³adowa macierz term-by-document frequency the cat is black my D D Wa noœæ s³ów w macierzy mo na zwiêkszaæ lub zmniejszaæ, stosuj¹c wspó³czynniki zwane wagami (a ij, gdzie i, j to odpowiednio indeksy wierszy i kolumn w rozpatrywanej macierzy). Otrzymujemy wówczas macierz wa onej czêstotliwoœci. Rozró niamy nastêpuj¹ce wagi: frequency Weight (dotyczy wystêpowania samego wyra enia), term Weight (dotyczy liczby wyst¹pieñ danego wyra enia w ca³ej kolekcji zbiorze dokumentów). Frequency Weight precyzuje metodê okreœlania czêstoœci wystêpowania okreœlonych zwrotów w dokumencie. Mo na tutaj wymieniæ nastêpuj¹ce metody [8]: binarna (waga w ij = 1 w przypadku wystêpowania zwrotu, a w ij = 0 przypadku jego braku; logarytmiczna wij = log 2( aij + 1) (logarytm przy podstawie 2 z liczby okreœlaj¹cej czêstoœæ wystêpowania s³owa pomniejsza wagê s³ów, które siê czêsto powtarzaj¹); none (czêstotliwoœæ wystêpowania s³ów bez modyfikacji: w ij = a ij ). Term weight wagowanie zwrotu mo na okreœlaæ m.in. za pomoc¹ metod [8]: Entropy przypisuje najwy sz¹ wagê s³owom, które wyst¹pi³y najrzadziej w danym dokumencie; IDF (Inverse Document Frequency) waga jest odwrotnoœci¹ liczby dokumentów, w których pojawi³ siê dany zwrot; GF-IDF (Global Frequency-Inverse Document Frequency) obliczamy mno ¹c IDF przez ca³kowit¹ czêstotliwoœæ; Normal waga ta jest proporcjonalna to iloœci wyst¹pienia danego s³owa w dokumencie; None ka demu zwrotowi przypisuje siê wagê 1; Chi-Squared wykorzystuje wartoœæ testu Chi-kwadrat; Mutual Information pokazuje jak rozk³ad dokumentów z wyra eniem i, znajduje siê blisko rozk³adu dokumentów w ca³ym zbiorze; Information Gain okreœla oczekiwan¹ redukcjê w Entropy w przypadku podzieleniu zbioru dokumentów wed³ug tego wyra enia i.

8 416 Piotr Potiopa Istnieje wiele algorytmów wagowania macierzy, takich jak algorytm modelu przestrzeni wektorowej, algorytm TF-IDF i tak dalej. Algorytmy wagowania w po³¹czeniu z algorytmem mierzenia podobieñstwa wektorów, takim jak na przyk³ad miara kosinusowa lub wspó³czynnik Jaccarda tworz¹ skuteczn¹ metodê miary podobieñstwa dokumentów TF-IDF Waga TF-IDF (term frequency inverse document frequency) jest czêsto u ywana w metodach information retrieval i text mining. Mimo e TF-IDF jest doœæ wiekowym algorytmem wagowania, jest prosty i skuteczny. TF-IDF polega na ustalaniu wzglêdnej czêstotliwoœci s³ów w danym, lokalnym dokumencie i porównaniu z odwrócon¹ czêstotliwoœci¹ s³owa w ca³ej kolekcji dokumentów. Dla ka dego s³owa jego TF (term frequency) jest wzgledn¹ czêstotliwoœci¹ wyst¹pieñ tego s³owa w kolekcji dokumentów, które stanowi wa noœæ s³owa wewn¹trz danego dokumentu, a jego IDF (inverse document frequency) jest odwrotnie proporcjonalna do wystapieñ s³owa w odniesieniu do korpusu dokumentu, czyli przedstawia znaczenie tego s³owa w ca³ej kolekcji dokumentów [8 9]. Algorytm dzia³a w nastêpuj¹cy sposób: maj¹c: D kolekcja dokumentów, d dany dokument, dla którego d D, w s³owo wystêpuj¹ce w dokumencie d, obliczamy: wd fw, d log( D fw, D ) a = (1) gdzie f w,d jest iloœci¹ wyst¹pieñ s³owa w dokumencie d, D jest rozmiarem korpusu dokumentu oraz f w,d jest iloœci¹ dokumentów, w których wystêpuje s³owo w. Czasami przy du- ych kolekcjach dokumentów mo emy dokonaæ normalizacji czêœci TF, stosuj¹c technikê redukcji wymiaru SVD (Singular Value Decomposition). Redukcja pomog¹ nam zmniejszyæ iloœæ wymiarów i przybli yæ macierz wa onej czêstotliwoœci [8 9] Miara kosinusowa Miara kosinusowa jest wydajnym algorytmem obliczania podobieñstwa w przypadku tekstów. Podstawowym za³o eniem tej metody obliczania podobieñstwa jest nastêpuj¹ca idea: Dla dwóch punktów A, B na skali xy jak pokazuje rysunek 3, podobieñstwa miêdzy A i B s¹ zdefiniowane nastêpuj¹co: Sim( A, B) = cos Θ= A B A B (2)

9 Metody i narzêdzia automatycznego przetwarzania informacji tekstowej gdzie Sim(A, B) jest podobieñstwem dokumentu A do dokumentu B, A B jest iloczynem skalarnym wektorów A i B, który to równa siê: x1*x2 + y1*y2, A B okreœla odleg³oœæ pomiêdzy A i B, która jest okreœlona wzorem: (x y 1 2 ) 1/2 (x y 2 2 ) 1/2 [8, 10]. Rys. 3. Wspó³rzêdne punktów A i B na dwuwymiarowej skali liczbowej 4. Przyk³ady narzêdzi do analizy tekstów Do analizy danych tekstowych dostêpne s¹ narzêdzia zarówno ogólnodostêpne typu open source, jak i komercyjne. Ich mo liwoœci s¹ bardzo zró nicowane od prostych podaj¹cych podstawowe informacje statystyczne na temat dokumentów po bardziej wyrafinowanie systemy buduj¹ce ontologie pojêæ lub maj¹ce wbudowane zaawansowane algorytmy analizy sk³adni. Wszystkie dobrze sobie radz¹ z jêzykami zachodnimi, chiñskim czy nawet japoñskim. Problem jest z jêzykiem polskim. Nie dotyczy on tylko sposobu kodowania polskich znaków, ale i programów analizuj¹cych sk³adniê. W ramach opracowania przeanalizowano kilka wybranych narzêdzi TextSTAT TextSTAT to prosty program do analizy tekstów. Potrafi on obs³ugiwaæ pliki ASCII/ ANSI, HTML, formaty MS Word (.doc i.docx) oraz OpenOffice (sxw i.odt), z których tworzy listê czêstotliwoœci wystêpowania poszczególnych s³ów, ma mo liwoœæ tworzenia konkordancji oraz list frekwencyjnych. TextStat posiada a 6 wersji jêzykowych interfejsu (równie j. polski) i pracuje we wszystkich systemach operacyjnych. To co wyró nia go spoœród innych darmowych programów tego typu, to mo liwoœæ tworzenia korpusu ze stron internetowych wczytywanych przez program bezpoœrednio z sieci. Niestety, program nie posiada kilku istotnych funkcji, takich jak tworzenie listy s³ów kluczowych czy wyszukiwanie kolokacji oraz ci¹gów wielowyrazowych [11].

10 418 Piotr Potiopa 4.2. AntConc AntConc to darmowy program do analizy tekstów oferuj¹cy szeroki wachlarz funkcji. Wœród nich znajduje siê tworzenie konkordancji, list frekwencyjnych, list s³ów kluczowych i wykresów dystrybucji, a tak e wyszukiwanie ci¹gów wielowyrazowych i kolokacji. Przyjazny interfejs, szybkoœæ wykonywanych analiz i funkcjonalnoœæ dorównuj¹ca wielu komercyjnym aplikacjom sprawiaj¹, e AntConc jest szczególnie godny polecenia zarówno dla osób stawiaj¹cych swoje pierwsze kroki w pracy z korpusami dokumentów, jak i dla bardziej zaawansowanych u ytkowników [12] WordSmith WordSmith Tools to prawdopodobnie najbardziej popularny w oœrodkach akademickich pakiet narzêdzi do analizy danych tekstowych. Oferuje imponuj¹cy wachlarz funkcji oraz mo liwoœci dostosowania poszczególnych narzêdzi do konkretnych zadañ. Obs³uguje znaczniki, dzia³a szybko i dobrze radzi sobie nawet z du ymi korpusami. WordSmith Tools dzia³a w Windows oraz Mac OS X. Pe³na wersja oprogramowania jest p³atna, ale istnieje mo liwoœæ wypróbowania wersji demo o ograniczonej funkcjonalnoœci. Program opiera siê na trzech podstawowych funkcjach: konkordancja (Concord), lista s³ów kluczowych (Key- Word) oraz lista frekwencyjna (WordList) [12] Poliqarp Poliqarp to darmowe oprogramowanie do przeszukiwania du ych korpusów. Powsta³ w efekcie prac nad Korpusem IPI PAN i obs³uguje ten korpus zarówno w wersji on-line, jak i off-line. Dziêki przejrzystemu interfejsowi korzystanie z podstawowych funkcji programu oraz wykorzystanie jego mo liwoœci konfiguracyjnych nie powinno sprawiaæ trudnoœci nawet pocz¹tkuj¹cym u ytkownikom. Program mo na uruchamiaæ zarówno w œrodowisku Windows, jak i Linux. Dodatkowym atutem jest fakt, e istniej¹ dwie wersje jêzykowe polska i angielska. Poliqarp daje mo liwoœæ wyszukiwania okreœlonych s³ów czy fraz. Pozwala tak e na znajdowanie sekwencji okreœlanych za pomoc¹ wyra eñ regularnych, na przyk³ad: wszystkich wystêpuj¹cych w korpusie fraz sk³adaj¹cych siê z rzeczownika i przymiotnika lub wszystkich form fleksyjnych wybranego wyrazu (funkcja szczególnie przydatna w przypadku badañ nad jêzykiem polskim). Operacje te, zarówno w wersji on-line, jak i off-line, przebiegaj¹ doœæ szybko przy prostych zapytaniach wyszukiwanie nie zajmuje wiêcej ni kilka sekund. [12-13] 5. Podsumowanie Technologie przetwarzania jêzyka naturalnego mo na wskazywaæ jako jedne z podstawowych dla technologii zarz¹dzania wiedz¹, poniewa umo liwiaj¹:

11 Metody i narzêdzia automatycznego przetwarzania informacji tekstowej automatyczne przetwarzanie dokumentów (treœci) np. WWW, maszynowo przetwarzane opisywanie (annotation) tekstów w jêzyku naturalnym za pomoc¹ pojêæ zawartych w ontologii, odkrywanie nowych elementów ontologii (tj. pojêæ, klas, instancji, atrybutów, relacji, twierdzeñ), automatyczne wyszukiwanie elementów wiedzy. Wymienione aspekty mo na traktowaæ w œwietle automatyzacji t³umaczenia tekstów zapisanych w jêzyku naturalnym na sformalizowany jêzyk reprezentacji wiedzy. Tak postawione zagadnienie, tzn. automatyzacja translacji tekstów w jêzyku naturalnym na jêzyk formalny, jest jednym z najbardziej po ¹danych i obiecuj¹cych kierunków wspó³czesnych badañ w dziedzinie systemów zarz¹dzania wiedz¹. Celem automatyzacji jest tworzenie baz wiedzy zapisanej w jêzyku sformalizowanym, umo liwiaj¹cym operowanie t¹ wiedz¹ w sposób automatyczny. Literatura [1] Go³uchowski J., Technologie informatyczne w zarz¹dzaniu wiedz¹ w organizacji. AE, Katowice [2] Aamodt A., Plaza E., Case-Based Reasoning: Foundational Issues. Methodological Variations, and System Approaches, AICom, Artificial Intelligence Communications, IOS Press [3] Tomassen S.L., Semi-automatic generation of ontologies for knowledge-intensive CBR. Norwegian University of Science and Technology, [4] Filipowska A., Jak zaoszczêdziæ na czytaniu? Automatyczne tworzenie abstraktów z dokumentów. Gazeta IT nr 3, marzec [5] Wybrane problemy zarz¹dzania wiedz¹. Instytut ¹cznoœci, Pañstwowy Instytut Badawczy, Praca nr , [6] [7] Ikonomakis M., Kotsiantis S., Tampakas V., Text Classification Using Machine Learning Techniques. WSEAS TRANSACTIONS on COMPUTERS, Issue 8, vol. 4, August 2005, [8] K³opotek M.A., Inteligentne wyszukiwarki internetowe. Exit, [9] Ramos J., Using TF-IDF to Determine Word Relevance in Document Queries [10] [11] [12] [13]