Metody i narzêdzia automatycznego przetwarzania informacji tekstowej i ich wykorzystanie w procesie zarz¹dzania wiedz¹

Wielkość: px
Rozpocząć pokaz od strony:

Download "Metody i narzêdzia automatycznego przetwarzania informacji tekstowej i ich wykorzystanie w procesie zarz¹dzania wiedz¹"

Transkrypt

1 AUTOMATYKA 2011 Tom 15 Zeszyt 2 Piotr Potiopa* Metody i narzêdzia automatycznego przetwarzania informacji tekstowej i ich wykorzystanie w procesie zarz¹dzania wiedz¹ 1. Wprowadzenie Przewa aj¹ca wiêkszoœæ informacji wykorzystywanych we wspó³czesnych firmach i instytucjach przechowywana jest nadal w postaci informacji w jêzyku naturalnym. Stanowi on podstawowy noœnik i œrodek komunikacji w procesach dzielenia siê wiedz¹. Jednoczeœnie coraz wiêksze znaczenie maj¹ systemy i narzêdzia informatyczne, które umo liwiaj¹ ³atwe i zautomatyzowane przetwarzanie danych i informacji przechowywanych w³aœnie za pomoc¹ jêzyka naturalnego. Problematyka analizy tekstów, dokumentów od d³u szego czasu w ró nych organizacjach nabieraj¹ coraz wiêkszego znaczenia. Zasadnie jest zatem, aby zadania realizowane w zakresie zarz¹dzania wiedz¹, najbardziej w obszarze jej reprezentacji i ekstrakcji, spe³nia³y systemy przetwarzania jêzyka naturalnego. Jednym z wa nych aspektów realizacji takich zadañ jest budowa odpowiednich ontologii dziedzinowych. S³u ¹ one poprawnemu modelowaniu i reprezentacji struktur wiedzy w sposób zarówno czytelny dla cz³owieka, jak i umo liwiaj¹cy jej przetwarzanie przez komputer. Obecnie ontologie s¹ obiektem badañ w ro nych œrodowiskach naukowych, m.in. w in ynierii jêzyka naturalnego, w in ynierii systemów informatycznych, w in ynierii wiedzy, a tak e w teorii zarz¹dzania wiedz¹ [1]. Drugim wa nym obszarem dzia³añ w zakresie zarz¹dzania wiedz¹ jest wyszukiwanie, analiza i obróbka dokumentów zawieraj¹cych potrzebne nam informacje. Nierzadko informacja zawarta w tych dokumentach stanowi bazê do rozwi¹zania aktualnych, nowych problemów wystepujacych w danym systemie wiedzy. Zdobywanie wiedzy i dzielenie siê przesz³ymi doœwiadczeniami do ponownego wykorzystania jest coraz bardziej istotne ze wzglêdu na iloœæ technicznych informacji, od których jestesmy uzale nieni obecnie. W systemach zarz¹dzania wiedz¹ techniki te s¹ okreœlane mianem wnioskowania na podstawie przypadków (Case-Based Reasoning) [2]. * AGH Akademia Górniczo-Hutnicza, Wydzia³ Zarz¹dzania, Katedra Informatyki Stosowanej 409

2 410 Piotr Potiopa Analizy tekstów w jêzyku naturalnym s¹ mo liwe dziêki, ju dziœ rozwiniêtym, metodom jego przetwarzania. Wykorzystanie podejœæ i metod takich jak: information retrieval, information extraction, text mining czy natural language processing pozwala na budowanie bazy wiedzy i na jej usystematyzowanie, a co za tym idzie na efektywne ni¹ zarz¹dzanie. W tym artykule zostan¹ przedstawione metody analizy tekstów wykorzystuj¹ce znane algorytmy wspomagaj¹ce ich przetwarzanie. Nacisk po³o ono na aspekty podobieñstwa dokumentów i technik zwi¹zanych z metodami jego okreœlania. Przedstawiono te przyk³ady istniej¹cych narzêdzi obróbki i analizy dokumentów. 2. Metody wyszukiwania i analizy tekstu W procesach wyszukiwania i analizy dokumentów tekstowych wyró nia siê m.in. nastêpuj¹ce metody: Systemy wyszukiwania informacji (Information Retrieval, IR). Rozumienie jêzyków naturalnych (Natural Language Processing). Metody ekstrakcji informacji (Information Extraction, IE). Metody eksploracji tekstu (Text Mining). Poni ej zosta³y one wyjaœnione i opisane z uwzglêdnieniem technik jakie umo liwiaj¹ dzia³anie danej metody Information Retrieval Information Retrieval, IR (wyszukiwanie informacji) jest okreœleniem powszechnie u ywanym, chocia niezupe³nie trafnie. System wyszukiwania informacji nie tyle informuje u ytkownika na temat, który go interesuje, co informuje o istnieniu (lub jego braku) miejsca, gdzie dokument odpowiadaj¹cy wymaganiom u ytkownika siê znajduje [3]. W typowym IR u ytkownik tworzy zapytanie, z³o one z jednego lub kilku wyrazów, na podstawie którego system wyszukuje dokumenty. Wyró nia siê dwa g³ówne podejœcia IR: model boolowski (Boolean Logic Model, BLM) oraz rankingowy (ranked-output systems) [3, 8]. Zapytanie BML sk³ada siê ze s³ów lub fraz po³¹czonych logicznymi operatorami AND, OR oraz NOT. Rezultatem zapytania jest zazwyczaj podzia³ zbioru dokumentów na dwie czêœci: jedn¹ zawieraj¹c¹ dopasowane dokumenty oraz drug¹ zawieraj¹c¹ dokumenty niedopasowane. System rankingowy, stosuj¹c algebrê wektorów ocenia podobieñstwo treœci dokumentów z treœci¹ zapytania i na tej podstawie dokonuje rankingu znalezionych dokumentow. Systemy rankingowe wykorzystuj¹ najczêœciej nastêpuj¹ce modele do oceny podobieñstwa dokumentów: model wektorowy (Vector Space Model, VSM), model probabilistyczny (Probabilistic Model, PM), a tak e inne, m.in. Inference Network Model (INM). Zalet¹ systemów IR jest dziedzinowa niezale noœæ oraz elastycznoœæ jêzykowa (zmiana jêzyka nie wymaga zbyt wielu adaptacji). Natomiast do najwa niejszych ograniczeñ tych

3 Metody i narzêdzia automatycznego przetwarzania informacji tekstowej systemów nale y za³o enie niezale noœci indeksów termów, co mo e prowadziæ do oszacowania zerowego podobieñstwa miêdzy dokumentami zawieraj¹cymi synonimiczne wyra enia [3, 8] Information Extraction Zadaniem ekstrakcji informacji (Information Extraction, IE) jest zidentyfikowanie instancji pewnej predefiniowanej klasy zdarzeñ, ich powi¹zañ oraz wyst¹pieñ w dokumentach pisanych w jêzyku naturalnym [4]. W odró nieniu od systemów IR, systemy IE nie wyszukuj¹ samych dokumentów, ale zgodnie z nazw¹ dokonuj¹ ekstrakcji informacji z ich treœci. Pozyskane informacje mog¹ zostaæ umieszczone w bazie danych. Informacja, jaka bêdzie pozyskiwana z dokumentu, jest specyfikowana przez u ytkownika, który tworzy wzorzec. Zawiera on okreœlone sekcje dziury (slots), ktore wype³niane s¹ fragmentami tekstu. J¹dro systemu ekstrakcji informacji sk³ada siê z dwóch komponentów: procesora tekstów (którym mo e byæ jedna z metod NLP) oraz generatora wzorców, które osadzone s¹ w wiedzy dziedzinowej. Zadaniem procesora tekstów jest analiza leksykalna tekstu (obecnie najczêœciej stosuje siê p³ytk¹ analizê) Text Mining Text mining jest metodologi¹ wywodz¹c¹ siê z data mining, wyszukiwania informacji, ekstrakcji danych, kategoryzacji tekstu, modelowania probabilistycznego, algebry liniowej, uczenia maszynowego zastosowanych w celu wykrycia wiedzy z dokumentów tekstowych [4]. Definicja wskazuje na podobieñstwo z technikami IE. Ekstrakcji informacji dokonuje siê jednak zwykle w oparciu o znane wzorce, w przypadku text mining wzorce wychwytywane s¹ dopiero w procesie przetwarzania dokumentu. Do typowych zadañ text mining nale y: znajdowanie dokumentów najbardziej pasuj¹cych do zapytania u ytkownika, tworzenie rankingow dokumentów, grupowanie dokumentów (analiza skupieñ), klasyfikowanie dokumentów (kategoryzacja), analiza powi¹zañ miêdzy jednostkami tekstu, dokonywanie automatycznych streszczeñ dokumentów [4] Natural Language Processing Metody Natural Language Processing NLP (rozumienie jêzyków naturalnych) zawieraj¹ mechanizmy próbuj¹ce dokonaæ zrozumienia kontekstu tekstu. W metodach tych nie oblicza siê podobieñstwa termów, ale oznacza siê poszczególne czêœci mowy (analiza p³ytka) oraz szuka siê znaczenia danego wyra enia w kontekœcie poprzez pe³n¹ analizê gramatyczn¹ (analiza g³êboka) [4]. Niektóre serwisy internetowe proponuj¹ u ytkownikom alternatywnie dla metod IR wyszukiwanie informacji poprzez systemy wzbogacone o NLP, co mo e daæ w wyniku lepiej dopasowane do danego zapytania dokumenty. Metody NLP maj¹ jednak swoje wady, nale ¹ do nich: wiêksza z³o onoœæ i czasoch³onnoœæ (zw³aszcza g³êboka analiza), s¹ silnie

4 412 Piotr Potiopa zwi¹zane z danym jêzykiem (adaptacja na inne jêzyki wymaga wiele pracy), trac¹ znacznie swoj¹ skutecznoœæ w przypadku wystêpowania w tekœcie terminów spoza s³owników oraz w przypadku analizy tekstów sporz¹dzonych jako krótkie notatki (doœæ czêsto pozbawione poprawnej struktury gramatycznej). Analiza dokumentów tekstowych jest ³¹czona zwykle z metodami NLP (Natural Language Processing). Skupia siê ona na pojedynczym dokumencie. Natomiast bazowy charakter ontologii z danego obszaru tematycznego wymaga dzia³añ szerszych, analizy du ych wolumenów dokumentów (korpusu), na podstawie których bêdzie ona tworzona. Do tego celu mo na zastosowaæ technikê wykorzystywan¹ przy analizie danych strukturalnych DM (Data Mining). Czêsto okreœla siê TM (Text Mining) jako DM dla dokumentów niestrukturalnych (rys. 1) [5], w których szuka wzorców i szablonów. Rys. 1. Techniki analizy danych strukturalnych i niestrukturalnych Automatyczne przetwarzanie dokumentów jêzyka naturalnego obejmuje nastêpuj¹ce zasadnicze fazy: podzia³ tekstu wejœciowego na zdania, tokeny, s³owa; odrzucenie s³ów (tagów) nieistotnych (z tzw. stop-listy); tematyzacja tzn. wybór s³ów istotnych i sprowadzenie ich do postaci podstawowe (stemmer); s¹ stosowane dwie metody: regu³y gramatyki w algorytmie lub s³owniki; automatyczne generowanie s³ów kluczowych, klasteryzacja dokumentów, ontologie, tezaurusy itp.

5 Metody i narzêdzia automatycznego przetwarzania informacji tekstowej Z kolei sam proces analizy tekstu przebiega wg schematu przedstawionego na rysunku 2 [5]. Dokumenty wejœciowe Analiza flexalna i gramatyczna Stop-lista Stemmer Dokumenty przetworzone Rys. 2. Etapy analizy dokumentów Tokeny pozwalaj¹ na podzia³ tekstu na proste elementy, czyli np.: liczby, punktacja, s³owa. Proces ten jest uzalezniony od jêzyka, w jakim dany tekst zosta³ zbudowany i do jakiego obszaru tematycznego siê odnosi. Dosyæ ³atwo go przeprowadziæ dla jêzyka niemieckiego czy angielskiego, ale o wiele trudniej dla jêzyka polskiego, poniewa gramatyka jest tu bardziej z³o ona i wymaga z³o onej analizy tekstu wejœciowego [5]. Wa nym aspektem jest równie brak równowa noœci miêdzy tekstami. Inny jest tekst literacki, z publicznie dostêpnych gazet czy te naukowy czêsto zawieraj¹cy obok terminów naukowych rysunki wykresy, wzory matematyczne czy chemiczne, litery alfabetu greckiego. Jak na razie brakuje idealnego programu, który by potrafi³ bezb³êdnie przetworzyæ ka dy dokument. Co prawda s¹ dostêpne narzêdzia zarówno komercyjne, jak i bezp³atne umo liwiaj¹ce analizê tekstów, ale ich jakoœæ jest ró na, od bardzo prostych po bardziej zaawansowane. Wiele z nich dostosowana jest do jêzyków zachodnich, niektóre z nich potrafi¹ analizowaæ nawet teksty chiñskie czy te japoñskie. Gorzej jest z jêzykiem polskim ze wzglêdu na ma³y rynek dla takiego produktu. Aczkolwiek s¹ ju dostêpne pewne rozwi¹zania, które zostan¹ przedstawione w rozdziale 4.

6 414 Piotr Potiopa Osobne zagadnienie to wymagany format wejœciowy danych do systemu analizuj¹cego dokumenty. Na ogó³ jest to.txt,.html, rzadziej.doc czy.pdf. W przypadku innych formatów ni.txt systemy maj¹ wbudowane w³asne konwertery do wymaganego formatu. A zatem czêsto trzeba dokonaæ konwersji dokumentu np. z formatu.pdf do.txt. Jednak w przypadku dokumentów naukowych zawieraj¹cych wzory matematyczne, chemiczne, specyficzne litery z ró nych jêzyków, otrzymuje siê postaæ wynikow¹ mocno zniekszta³con¹ i bardzo odbiegaj¹c¹ od orygina³u. Do analizy dokumentów testowych uzywa siê dedykowanych narzêdzi informatycznych. Ogólnie mo na je podzieliæ na: proste umo liwiaj¹ce uzyskanie podstawowych statystyk w dokumentach takich jak czêstoœæ wystêpowania, wspó³wystêpowania s³ów) (np.textstat, AntConc); silniki indeksowania i wyszukiwania informacji (np. Lucene, Windows Desktop Search, Google, Yahoo); zaawansowane pozwalaj¹ce na z³o on¹ analizê tekstów, z wykorzystaniem technik klasteryzacji, wizualizacj¹ wyników i mo liwoœci¹ budowania ontologii (np. SAS Text Miner, Oracle Text, OntoGen Text Garden). Wynikiem analizy fleksalnej i gramatycznej dokumentu jest zbiór s³ów. Tylko czêœæ z nich jest istotna dla treœci. S³owa, które najczêœciej wystêpuj¹ w wiêkszoœci dokumentów powinny zostaæ pominiête, poniewa s¹ to zaimki, przyimki i spójniki. Nastêpny etap stemming usuwa przyrostki i przedrostki oraz sprowadza s³owa do formy podstawowej w oparciu o algorytmy rozpoznaj¹ce regu³y gramatyczne lub te poprzez odwo³anie siê do stosownych s³owników. Przyk³adem s³ownika dla jêzyka angielskiego mo e byæ WordNet. Natomiast prace nad stworzeniem polskiego WordNetu s¹ prowadzone przez zespó³ kierowany przez Politechnikê Wroc³awsk¹. Wiêcej informacji na ten temat jest dostêpnych pod adresem [6]. Dokumenty s¹ przedstawiane jako zbiory s³ów (bag of words) z wyliczeniem, jak czêsto ka de z nich wystêpuje w ka dym dokumencie (term-by-document frequency) [8]. 3. Podobieñstwo dokumentów podstawy matematyczne Przeszukiwanie danych niestrukturalnych (wyszukiwanie pe³notekstowe FTS) jest technik¹ wydajnego przeszukiwania dokumentów o charakterze tekstowym, wykorzystuj¹c¹ specjalny rodzaj indeksów tzw. indeksy pe³notekstowe. FTS jest oparty na modelu przestrzeni wielowymiarowej. Tworz¹ j¹ wszystkie s³owa zawarte w przetwarzanych dokumentach. Dokument mo na interpretowaæ jako wektor sk³adaj¹cy siê z n s³ów, gdzie ka da wspó³rzêdna okreœla czêstoœæ wyst¹pieñ danego s³owa w danym dokumencie. Analizy zbioru dokumentów mo na dokonaæ, buduj¹c macierz term-by-document frequency [7 8]. Dla przyk³adowych dwóch dokumentów mo e ona wygl¹daæ nastêpuj¹co (tab. 1): D1 The cat is black D2 Black cat is my cat

7 Metody i narzêdzia automatycznego przetwarzania informacji tekstowej Tabela 1 Przyk³adowa macierz term-by-document frequency the cat is black my D D Wa noœæ s³ów w macierzy mo na zwiêkszaæ lub zmniejszaæ, stosuj¹c wspó³czynniki zwane wagami (a ij, gdzie i, j to odpowiednio indeksy wierszy i kolumn w rozpatrywanej macierzy). Otrzymujemy wówczas macierz wa onej czêstotliwoœci. Rozró niamy nastêpuj¹ce wagi: frequency Weight (dotyczy wystêpowania samego wyra enia), term Weight (dotyczy liczby wyst¹pieñ danego wyra enia w ca³ej kolekcji zbiorze dokumentów). Frequency Weight precyzuje metodê okreœlania czêstoœci wystêpowania okreœlonych zwrotów w dokumencie. Mo na tutaj wymieniæ nastêpuj¹ce metody [8]: binarna (waga w ij = 1 w przypadku wystêpowania zwrotu, a w ij = 0 przypadku jego braku; logarytmiczna wij = log 2( aij + 1) (logarytm przy podstawie 2 z liczby okreœlaj¹cej czêstoœæ wystêpowania s³owa pomniejsza wagê s³ów, które siê czêsto powtarzaj¹); none (czêstotliwoœæ wystêpowania s³ów bez modyfikacji: w ij = a ij ). Term weight wagowanie zwrotu mo na okreœlaæ m.in. za pomoc¹ metod [8]: Entropy przypisuje najwy sz¹ wagê s³owom, które wyst¹pi³y najrzadziej w danym dokumencie; IDF (Inverse Document Frequency) waga jest odwrotnoœci¹ liczby dokumentów, w których pojawi³ siê dany zwrot; GF-IDF (Global Frequency-Inverse Document Frequency) obliczamy mno ¹c IDF przez ca³kowit¹ czêstotliwoœæ; Normal waga ta jest proporcjonalna to iloœci wyst¹pienia danego s³owa w dokumencie; None ka demu zwrotowi przypisuje siê wagê 1; Chi-Squared wykorzystuje wartoœæ testu Chi-kwadrat; Mutual Information pokazuje jak rozk³ad dokumentów z wyra eniem i, znajduje siê blisko rozk³adu dokumentów w ca³ym zbiorze; Information Gain okreœla oczekiwan¹ redukcjê w Entropy w przypadku podzieleniu zbioru dokumentów wed³ug tego wyra enia i.

8 416 Piotr Potiopa Istnieje wiele algorytmów wagowania macierzy, takich jak algorytm modelu przestrzeni wektorowej, algorytm TF-IDF i tak dalej. Algorytmy wagowania w po³¹czeniu z algorytmem mierzenia podobieñstwa wektorów, takim jak na przyk³ad miara kosinusowa lub wspó³czynnik Jaccarda tworz¹ skuteczn¹ metodê miary podobieñstwa dokumentów TF-IDF Waga TF-IDF (term frequency inverse document frequency) jest czêsto u ywana w metodach information retrieval i text mining. Mimo e TF-IDF jest doœæ wiekowym algorytmem wagowania, jest prosty i skuteczny. TF-IDF polega na ustalaniu wzglêdnej czêstotliwoœci s³ów w danym, lokalnym dokumencie i porównaniu z odwrócon¹ czêstotliwoœci¹ s³owa w ca³ej kolekcji dokumentów. Dla ka dego s³owa jego TF (term frequency) jest wzgledn¹ czêstotliwoœci¹ wyst¹pieñ tego s³owa w kolekcji dokumentów, które stanowi wa noœæ s³owa wewn¹trz danego dokumentu, a jego IDF (inverse document frequency) jest odwrotnie proporcjonalna do wystapieñ s³owa w odniesieniu do korpusu dokumentu, czyli przedstawia znaczenie tego s³owa w ca³ej kolekcji dokumentów [8 9]. Algorytm dzia³a w nastêpuj¹cy sposób: maj¹c: D kolekcja dokumentów, d dany dokument, dla którego d D, w s³owo wystêpuj¹ce w dokumencie d, obliczamy: wd fw, d log( D fw, D ) a = (1) gdzie f w,d jest iloœci¹ wyst¹pieñ s³owa w dokumencie d, D jest rozmiarem korpusu dokumentu oraz f w,d jest iloœci¹ dokumentów, w których wystêpuje s³owo w. Czasami przy du- ych kolekcjach dokumentów mo emy dokonaæ normalizacji czêœci TF, stosuj¹c technikê redukcji wymiaru SVD (Singular Value Decomposition). Redukcja pomog¹ nam zmniejszyæ iloœæ wymiarów i przybli yæ macierz wa onej czêstotliwoœci [8 9] Miara kosinusowa Miara kosinusowa jest wydajnym algorytmem obliczania podobieñstwa w przypadku tekstów. Podstawowym za³o eniem tej metody obliczania podobieñstwa jest nastêpuj¹ca idea: Dla dwóch punktów A, B na skali xy jak pokazuje rysunek 3, podobieñstwa miêdzy A i B s¹ zdefiniowane nastêpuj¹co: Sim( A, B) = cos Θ= A B A B (2)

9 Metody i narzêdzia automatycznego przetwarzania informacji tekstowej gdzie Sim(A, B) jest podobieñstwem dokumentu A do dokumentu B, A B jest iloczynem skalarnym wektorów A i B, który to równa siê: x1*x2 + y1*y2, A B okreœla odleg³oœæ pomiêdzy A i B, która jest okreœlona wzorem: (x y 1 2 ) 1/2 (x y 2 2 ) 1/2 [8, 10]. Rys. 3. Wspó³rzêdne punktów A i B na dwuwymiarowej skali liczbowej 4. Przyk³ady narzêdzi do analizy tekstów Do analizy danych tekstowych dostêpne s¹ narzêdzia zarówno ogólnodostêpne typu open source, jak i komercyjne. Ich mo liwoœci s¹ bardzo zró nicowane od prostych podaj¹cych podstawowe informacje statystyczne na temat dokumentów po bardziej wyrafinowanie systemy buduj¹ce ontologie pojêæ lub maj¹ce wbudowane zaawansowane algorytmy analizy sk³adni. Wszystkie dobrze sobie radz¹ z jêzykami zachodnimi, chiñskim czy nawet japoñskim. Problem jest z jêzykiem polskim. Nie dotyczy on tylko sposobu kodowania polskich znaków, ale i programów analizuj¹cych sk³adniê. W ramach opracowania przeanalizowano kilka wybranych narzêdzi TextSTAT TextSTAT to prosty program do analizy tekstów. Potrafi on obs³ugiwaæ pliki ASCII/ ANSI, HTML, formaty MS Word (.doc i.docx) oraz OpenOffice (sxw i.odt), z których tworzy listê czêstotliwoœci wystêpowania poszczególnych s³ów, ma mo liwoœæ tworzenia konkordancji oraz list frekwencyjnych. TextStat posiada a 6 wersji jêzykowych interfejsu (równie j. polski) i pracuje we wszystkich systemach operacyjnych. To co wyró nia go spoœród innych darmowych programów tego typu, to mo liwoœæ tworzenia korpusu ze stron internetowych wczytywanych przez program bezpoœrednio z sieci. Niestety, program nie posiada kilku istotnych funkcji, takich jak tworzenie listy s³ów kluczowych czy wyszukiwanie kolokacji oraz ci¹gów wielowyrazowych [11].

10 418 Piotr Potiopa 4.2. AntConc AntConc to darmowy program do analizy tekstów oferuj¹cy szeroki wachlarz funkcji. Wœród nich znajduje siê tworzenie konkordancji, list frekwencyjnych, list s³ów kluczowych i wykresów dystrybucji, a tak e wyszukiwanie ci¹gów wielowyrazowych i kolokacji. Przyjazny interfejs, szybkoœæ wykonywanych analiz i funkcjonalnoœæ dorównuj¹ca wielu komercyjnym aplikacjom sprawiaj¹, e AntConc jest szczególnie godny polecenia zarówno dla osób stawiaj¹cych swoje pierwsze kroki w pracy z korpusami dokumentów, jak i dla bardziej zaawansowanych u ytkowników [12] WordSmith WordSmith Tools to prawdopodobnie najbardziej popularny w oœrodkach akademickich pakiet narzêdzi do analizy danych tekstowych. Oferuje imponuj¹cy wachlarz funkcji oraz mo liwoœci dostosowania poszczególnych narzêdzi do konkretnych zadañ. Obs³uguje znaczniki, dzia³a szybko i dobrze radzi sobie nawet z du ymi korpusami. WordSmith Tools dzia³a w Windows oraz Mac OS X. Pe³na wersja oprogramowania jest p³atna, ale istnieje mo liwoœæ wypróbowania wersji demo o ograniczonej funkcjonalnoœci. Program opiera siê na trzech podstawowych funkcjach: konkordancja (Concord), lista s³ów kluczowych (Key- Word) oraz lista frekwencyjna (WordList) [12] Poliqarp Poliqarp to darmowe oprogramowanie do przeszukiwania du ych korpusów. Powsta³ w efekcie prac nad Korpusem IPI PAN i obs³uguje ten korpus zarówno w wersji on-line, jak i off-line. Dziêki przejrzystemu interfejsowi korzystanie z podstawowych funkcji programu oraz wykorzystanie jego mo liwoœci konfiguracyjnych nie powinno sprawiaæ trudnoœci nawet pocz¹tkuj¹cym u ytkownikom. Program mo na uruchamiaæ zarówno w œrodowisku Windows, jak i Linux. Dodatkowym atutem jest fakt, e istniej¹ dwie wersje jêzykowe polska i angielska. Poliqarp daje mo liwoœæ wyszukiwania okreœlonych s³ów czy fraz. Pozwala tak e na znajdowanie sekwencji okreœlanych za pomoc¹ wyra eñ regularnych, na przyk³ad: wszystkich wystêpuj¹cych w korpusie fraz sk³adaj¹cych siê z rzeczownika i przymiotnika lub wszystkich form fleksyjnych wybranego wyrazu (funkcja szczególnie przydatna w przypadku badañ nad jêzykiem polskim). Operacje te, zarówno w wersji on-line, jak i off-line, przebiegaj¹ doœæ szybko przy prostych zapytaniach wyszukiwanie nie zajmuje wiêcej ni kilka sekund. [12-13] 5. Podsumowanie Technologie przetwarzania jêzyka naturalnego mo na wskazywaæ jako jedne z podstawowych dla technologii zarz¹dzania wiedz¹, poniewa umo liwiaj¹:

11 Metody i narzêdzia automatycznego przetwarzania informacji tekstowej automatyczne przetwarzanie dokumentów (treœci) np. WWW, maszynowo przetwarzane opisywanie (annotation) tekstów w jêzyku naturalnym za pomoc¹ pojêæ zawartych w ontologii, odkrywanie nowych elementów ontologii (tj. pojêæ, klas, instancji, atrybutów, relacji, twierdzeñ), automatyczne wyszukiwanie elementów wiedzy. Wymienione aspekty mo na traktowaæ w œwietle automatyzacji t³umaczenia tekstów zapisanych w jêzyku naturalnym na sformalizowany jêzyk reprezentacji wiedzy. Tak postawione zagadnienie, tzn. automatyzacja translacji tekstów w jêzyku naturalnym na jêzyk formalny, jest jednym z najbardziej po ¹danych i obiecuj¹cych kierunków wspó³czesnych badañ w dziedzinie systemów zarz¹dzania wiedz¹. Celem automatyzacji jest tworzenie baz wiedzy zapisanej w jêzyku sformalizowanym, umo liwiaj¹cym operowanie t¹ wiedz¹ w sposób automatyczny. Literatura [1] Go³uchowski J., Technologie informatyczne w zarz¹dzaniu wiedz¹ w organizacji. AE, Katowice [2] Aamodt A., Plaza E., Case-Based Reasoning: Foundational Issues. Methodological Variations, and System Approaches, AICom, Artificial Intelligence Communications, IOS Press [3] Tomassen S.L., Semi-automatic generation of ontologies for knowledge-intensive CBR. Norwegian University of Science and Technology, [4] Filipowska A., Jak zaoszczêdziæ na czytaniu? Automatyczne tworzenie abstraktów z dokumentów. Gazeta IT nr 3, marzec [5] Wybrane problemy zarz¹dzania wiedz¹. Instytut ¹cznoœci, Pañstwowy Instytut Badawczy, Praca nr , [6] [7] Ikonomakis M., Kotsiantis S., Tampakas V., Text Classification Using Machine Learning Techniques. WSEAS TRANSACTIONS on COMPUTERS, Issue 8, vol. 4, August 2005, [8] K³opotek M.A., Inteligentne wyszukiwarki internetowe. Exit, [9] Ramos J., Using TF-IDF to Determine Word Relevance in Document Queries [10] [11] [12] [13]

Wybrane problemy zarządzania wiedzą

Wybrane problemy zarządzania wiedzą Zakład Zaawansowanych Technik Informacyjnych (Z-6) Wybrane problemy zarządzania wiedzą Zadanie nr 1 Praktyczne aspekty zarządzania wiedzą Praca nr 06300017 Warszawa, grudzień 2007 Wybrane problemy zarządzania

Bardziej szczegółowo

Adam Iwaniak. Laboratorium GIS, Akademia Rolnicza we Wroc³awiu

Adam Iwaniak. Laboratorium GIS, Akademia Rolnicza we Wroc³awiu Rola serwisów POLSKIE WMS WFS TOWARZYSTWO i generalizacji w INFORMACJI upowszechnianiu PRZESTRZENNEJ informacji geograficznej ROCZNIKI GEOMATYKI 2005 m TOM III m ZESZYT 4 77 ROLA SERWISÓW WMS WFS I GENERALIZACJI

Bardziej szczegółowo

FUNKCJONALNOή GEOINFORMACYJNYCH WITRYN INTERNETOWYCH GEOINFORMATION WEBSITES USABILITY. Wprowadzenie

FUNKCJONALNOή GEOINFORMACYJNYCH WITRYN INTERNETOWYCH GEOINFORMATION WEBSITES USABILITY. Wprowadzenie POLSKIE FunkcjonalnoϾ TOWARZYSTWO geoinformacyjknych INFORMACJI witryn internetowych PRZESTRZENNEJ ROCZNIKI GEOMATYKI 2005 m TOM III m ZESZYT 2 77 FUNKCJONALNOή GEOINFORMACYJNYCH WITRYN INTERNETOWYCH

Bardziej szczegółowo

Nowy element w instrumentarium inteligencji obliczeniowej automatyczne rozumienie obrazów

Nowy element w instrumentarium inteligencji obliczeniowej automatyczne rozumienie obrazów AUTOMATYKA 2008 Tom 12 Zeszyt 2 Ryszard Tadeusiewicz*, Marek R. Ogiela* Nowy element w instrumentarium inteligencji obliczeniowej automatyczne rozumienie obrazów 1. Wprowadzenie Zafascynowani ró nymi aspektami

Bardziej szczegółowo

Budowa rekomendacji w oparciu o wspóln filtracj

Budowa rekomendacji w oparciu o wspóln filtracj Politechnika Warszawska Wydzia Elektroniki i Technik Informacyjnych Instytut Automatyki i Informatyki Stosowanej Rok akademicki 2011/2012 PRACA DYPLOMOWA MAGISTERSKA Wojciech B k Budowa rekomendacji w

Bardziej szczegółowo

KWARTALNIK POLSKIEGO TOWARZYSTWA INFORMACJI NAUKOWEJ

KWARTALNIK POLSKIEGO TOWARZYSTWA INFORMACJI NAUKOWEJ ptint PRAKTYKA i TEORIA INFORMACJI NAUKOWEJ i TECHNICZNEJ PRACTICE and THEORY of SCIENTIFIC and TECHNICAL INFORMATION Tom XXI Nr 3 (83)/2013 ISSN 1230-5529 PROBLEMY BADANIA PRZEGLĄDY Z PRAKTYKI INT RECENZJE

Bardziej szczegółowo

Celem niniejszego artyku³u jest zaprezentowanie rozwi¹zania dla usprawnienia systemu

Celem niniejszego artyku³u jest zaprezentowanie rozwi¹zania dla usprawnienia systemu Aleksandra ZIÊBA, Anna WRÓBLEWSKA Warszawa System Zarz¹dzania Wiedz¹ dla Zarz¹dzania Kryzysowego 1. Wprowadzenie Celem niniejszego artyku³u jest zaprezentowanie rozwi¹zania dla usprawnienia systemu zarz¹dzania

Bardziej szczegółowo

Ministerstwo Gospodarki i Pracy Departament Rynku Pracy. Krzysztof Symela PORADNIK METODYCZNY. dla autorów modu³owych programów szkolenia zawodowego

Ministerstwo Gospodarki i Pracy Departament Rynku Pracy. Krzysztof Symela PORADNIK METODYCZNY. dla autorów modu³owych programów szkolenia zawodowego Ministerstwo Gospodarki i Pracy Departament Rynku Pracy Krzysztof Symela PORADNIK METODYCZNY dla autorów modu³owych programów szkolenia zawodowego Warszawa 2005 Ministerstwo Gospodarki i Pracy, Departament

Bardziej szczegółowo

METODOLOGICZNE PROBLEMY EMPIRYCZNYCH BADAÑ EKONOMICZNYCH. Jacek Chotkowski

METODOLOGICZNE PROBLEMY EMPIRYCZNYCH BADAÑ EKONOMICZNYCH. Jacek Chotkowski 74 ROCZNIKI NAUK ROLNICZYCH, J. CHOTKOWSKI SERIA G, T. 98, z. 2, 2011 METODOLOGICZNE PROBLEMY EMPIRYCZNYCH BADAÑ EKONOMICZNYCH Jacek Chotkowski Pracownia Badañ Rynkowych w Boninie, Instytut Hodowli i Aklimatyzacji

Bardziej szczegółowo

Kompendium infrastruktur danych przestrzennych

Kompendium infrastruktur danych przestrzennych Czêœæ I skróconej wersji polskiej podrêcznika Developing Spatial Data Infrastructures: The SDI Cookbook Kompendium infrastruktur danych przestrzennych GSDI, wersja 1.1, 2001, pod redakcj¹ Douglasa D. Neberta

Bardziej szczegółowo

KWARTALNIK POLSKIEGO TOWARZYSTWA INFORMACJI NAUKOWEJ

KWARTALNIK POLSKIEGO TOWARZYSTWA INFORMACJI NAUKOWEJ ptint PRAKTYKA i TEORIA INFORMACJI NAUKOWEJ i TECHNICZNEJ PRACTICE and THEORY of SCIENTIFIC and TECHNICAL INFORMATION Tom XX Nr 3-4 (79-80)/2012 ISSN 1230-5529 XI Krajowe Forum INT KSZTAŁCENIE KWARTALNIK

Bardziej szczegółowo

Wyýsza Szkoùa Ekonomii i Informatyki w Krakowie ZESZYTY NAUKOWE. Zeszyt nr 8

Wyýsza Szkoùa Ekonomii i Informatyki w Krakowie ZESZYTY NAUKOWE. Zeszyt nr 8 Wyýsza Szkoùa Ekonomii i Informatyki w Krakowie ZESZYTY NAUKOWE Zeszyt nr 8 Kraków 2012 Redaktor Naukowy: prof. dr hab. Henryk Gurgul Sekretarz: mgr Krzysztof K³êk Recenzenci: prof. dr hab. Stanis³aw Belniak

Bardziej szczegółowo

MESsenger. W tym numerze miêdzy innymi: Optymalizacja konstrukcji DesignSpace i DesignXplorer. Analizy dynamiczne w programach CAD Dynamic Designer

MESsenger. W tym numerze miêdzy innymi: Optymalizacja konstrukcji DesignSpace i DesignXplorer. Analizy dynamiczne w programach CAD Dynamic Designer MESsenger numer 2 I oto mamy drugi numer MESsenger-a. Reakcje czytelników po pierwszym numerze by³y jednoznacznie pozytywne. Dostaliœmy sporo poczty zachêcaj¹cej nas do kontynuacji. To dodaje otuchy. Tym

Bardziej szczegółowo

ODDZIAŁYWANIE MASS MEDIÓW

ODDZIAŁYWANIE MASS MEDIÓW ODDZIAŁYWANIE MASS MEDIÓW ODDZIAŁYWANIE MASS MEDIÓW Anna Koz³owska SZKO A G ÓWNA HANDLOWA W WARSZAWIE WARSZAWA 2006 Spis treœci Wprowadzenie... 9 Rozdzia³ 1 Komunikowanie. Zarys problematyki... 17 1.1.

Bardziej szczegółowo

Zastosowanie informatyki wspó³czesnej ISBN 83-61389-00-2. seria wydawnicza Pañstwowej Wy szej Szko³y Zawodowej im. Witelona w Legnicy

Zastosowanie informatyki wspó³czesnej ISBN 83-61389-00-2. seria wydawnicza Pañstwowej Wy szej Szko³y Zawodowej im. Witelona w Legnicy Zastosowanie informatyki wspó³czesnej Zastosowanie informatyki wspó³czesnej ISBN 83-61389-00-2 9 788361 389002 seria wydawnicza Pañstwowej Wy szej Szko³y Zawodowej im. Witelona w Legnicy Seria wydawnicza

Bardziej szczegółowo

WOLNE OPROGRAMOWANIE DO PROJEKTOWANIA BAZ DANYCH PRZESTRZENNYCH * FREE SOFTWARE FOR DESIGNING SPATIAL DATABASES. Wstêp

WOLNE OPROGRAMOWANIE DO PROJEKTOWANIA BAZ DANYCH PRZESTRZENNYCH * FREE SOFTWARE FOR DESIGNING SPATIAL DATABASES. Wstêp WOLNE POLSKIE OPROGRAMOWANIE TOWARZYSTWO DO PROJEKTOWANIA INFORMACJI BAZ DANYCH PRZESTRZENNEJ PRZESTRZENNYCH ROCZNIKI GEOMATYKI 2011 m TOM IX m ZESZYT 4(48) 43 WOLNE OPROGRAMOWANIE DO PROJEKTOWANIA BAZ

Bardziej szczegółowo

Quick Response Manufacturing (QRM) nowa metoda wytwarzania

Quick Response Manufacturing (QRM) nowa metoda wytwarzania RADOS AW PYREK* Quick Response Manufacturing (QRM) nowa metoda wytwarzania 1. Uwagi wstêpne Niewielu mened erów docenia wp³yw komputerowo wspomaganych metod zarz¹dzania na przyspieszenie rozwoju gospodarczego.

Bardziej szczegółowo

Robert Olszewski, Anna Fiedukowicz. Politechnika Warszawska, Wydzia³ Geodezji i Kartografii, Zak³ad Kartografii

Robert Olszewski, Anna Fiedukowicz. Politechnika Warszawska, Wydzia³ Geodezji i Kartografii, Zak³ad Kartografii EWALUACJA METODYKI POLSKIE PROWADZENIA TOWARZYSTWO ANALIZ PRZESTRZENNYCH INFORMACJI W PRZESTRZENNEJ WIELOREPREZENTACYJNEJ... ROCZNIKI GEOMATYKI 2013 m TOM XI m ZESZYT 5(62) 87 EWALUACJA METODYKI PROWADZENIA

Bardziej szczegółowo

Analiza i opis procesów e-urzêdu

Analiza i opis procesów e-urzêdu Analiza i opis procesów e-urzêdu Pawe³ Kamecki* Dokument e-europa. Spo³eczeñstwo informacyjne dla wszystkich W marcu roku 2000 podczas szczytu w Lizbonie pañstwa Unii Europejskiej przyjê³y dokument o nazwie

Bardziej szczegółowo

Adam Jasiñski. Streszczenie

Adam Jasiñski. Streszczenie Adam Jasiñski 1. Raport z badania: Skutecznoœæ promocji z wykorzystaniem internetowych portali agroturystycznych w œwietle opinii ich u ytkowników. Model portalu internetowego dla regionu. Streszczenie

Bardziej szczegółowo

OBIEKTOWA ANALIZA OBRAZÓW OBJECT-BASED IMAGE ANALYSIS. Wstêp

OBIEKTOWA ANALIZA OBRAZÓW OBJECT-BASED IMAGE ANALYSIS. Wstêp POLSKIE TOWARZYSTWO Obiektowa analiza INFORMACJI obrazów PRZESTRZENNEJ ROCZNIKI GEOMATYKI 2006 m TOM IV m ZESZYT 3 11 OBIEKTOWA ANALIZA OBRAZÓW OBJECT-BASED IMAGE ANALYSIS Joanna Adamczyk Katedra Urz¹dzania

Bardziej szczegółowo

Projektowanie funkcjonalnych serwisów internetowych

Projektowanie funkcjonalnych serwisów internetowych IDZ DO PRZYK ADOWY ROZDZIA KATALOG KSI EK ZAMÓW DRUKOWANY KATALOG Wydawnictwo Helion ul. Chopina 6 44-100 Gliwice tel. (32)230-98-63 e-mail: helion@helion.pl TWÓJ KOSZYK CENNIK I INFORMACJE ZAMÓW INFORMACJE

Bardziej szczegółowo

Katalog rozwi¹zañ dla Microsoft Office Sharepoint Server SPIS TREŒCI: Absence and Timesheet Management Application (ATMA) Aplikacja obs³ugi dokumentów dzia³u BHP i Ochrony Œrodowiska Aplikacja obs³ugi

Bardziej szczegółowo

Dodatkowo zaobserwowaæ mo na wzrost przeciêtnego

Dodatkowo zaobserwowaæ mo na wzrost przeciêtnego Zaawansowane techniki informatyczne wspomagaj¹ce podejmowanie decyzji na podstawie analizy zgromadzonych danych Grzegorz Migut Analiza danych i CRM przegl¹d zastosowañ Ka da organizacja jest w olbrzymim

Bardziej szczegółowo

ZESZYTY NAUKOWE MA OPOLSKIEJ WY SZEJ SZKO Y EKONOMICZNEJ W TARNOWIE ZESZYT 1(11)/2008

ZESZYTY NAUKOWE MA OPOLSKIEJ WY SZEJ SZKO Y EKONOMICZNEJ W TARNOWIE ZESZYT 1(11)/2008 ZESZYTY NAUKOWE MA OPOLSKIEJ WY SZEJ SZKO Y EKONOMICZNEJ W TARNOWIE ZESZYT 1(11)/2008 TARNÓW 2008 RADA ZESZYTÓW NAUKOWYCH MA OPOLSKIEJ WY SZEJ SZKO Y EKONOMICZNEJ W TARNOWIE prof. dr hab. Leszek Ka³kowski,

Bardziej szczegółowo

Marian Dobrzyñski, Krzysztof Klincewicz* Zarz¹dzanie ludÿmi a TI automatyzacja i kreatywne tworzenie organizacji

Marian Dobrzyñski, Krzysztof Klincewicz* Zarz¹dzanie ludÿmi a TI automatyzacja i kreatywne tworzenie organizacji Marian Dobrzyñski, Krzysztof Klincewicz* Zarz¹dzanie ludÿmi a TI automatyzacja i kreatywne tworzenie organizacji Marian Zarz¹dzanie Dobrzyñski, ludÿmi Artyku³ a Krzysztof TI przedstawia automatyzacja Klincewicz

Bardziej szczegółowo

Prognozy rynku pracy i zapotrzebowania na kwalifikacje

Prognozy rynku pracy i zapotrzebowania na kwalifikacje Audyt ofert pracy, zapotrzebowanie na kwalifikacje i szkolenia na Dolnym Œl¹sku projekt nr Z/2.02/II/2.1/5/04 finansowany ze œrodków Europejskiego Funduszu Spo³ecznego Unii Europejskiej w ramach Zintegrowanego

Bardziej szczegółowo

ROCZNIKI 2003 GEOMATYKI. Podstawy metodyczne i technologiczne infrastruktur geoinformacyjnych. Janusz Michalak. Tom I Zeszyt 2 Warszawa

ROCZNIKI 2003 GEOMATYKI. Podstawy metodyczne i technologiczne infrastruktur geoinformacyjnych. Janusz Michalak. Tom I Zeszyt 2 Warszawa POLSKIE TOWARZYSTWO INFORMACJI PRZESTRZENNEJ ROCZNIKI 2003 GEOMATYKI Podstawy metodyczne i technologiczne infrastruktur geoinformacyjnych Janusz Michalak Tom I Zeszyt 2 Warszawa ZESPÓ REDAKCYJNY EDITORS

Bardziej szczegółowo

E-GOSPODARKA. Poradnik przedsiêbiorcy

E-GOSPODARKA. Poradnik przedsiêbiorcy E-GOSPODARKA Poradnik przedsiêbiorcy Warszawa 2003 1 Autor Adam Wawszczyk Redakcja i korekta Agnieszka Tokaj-Krzewska Copyright by Polska Agencja Rozwoju Przedsiêbiorczoœci, 2003 Projekt ok³adki Jakub

Bardziej szczegółowo

ROCZNIKI 2010 GEOMATYKI. Metodyka i technologia budowy geoserwera tematycznego jako komponentu INSPIRE. Tom VIII Zeszyt 3(39) Warszawa

ROCZNIKI 2010 GEOMATYKI. Metodyka i technologia budowy geoserwera tematycznego jako komponentu INSPIRE. Tom VIII Zeszyt 3(39) Warszawa POLSKIE TOWARZYSTWO INFORMACJI PRZESTRZENNEJ ROCZNIKI 2010 GEOMATYKI Metodyka i technologia budowy geoserwera tematycznego jako komponentu INSPIRE Tom VIII Zeszyt 3(39) Warszawa PROPOZYCJA ZASAD POLSKIE

Bardziej szczegółowo