GŁADYSZ Anna 1 Automatyczna identyfikacja słów i fraz kluczowych algorytm RAKE WSTĘP Zagadnienie automatycznej identyfikacji słów i fraz kluczowych należy do grupy najistotniejszych problemów rozpatrywanych na gruncie eksploracyjnej analizy tekstów. Wypracowane w tym zakresie metody podzielić można na grupy, wśród których na szczególną uwagę zasługują metody: bazujące na macierzy częstości [3, 10], korzystające z dekompozycji macierzy częstości według wartości osobliwych [2], oparte na modelowaniu tematów [7], wykorzystujące wyniki klasyfikacji bezwzorcowej lub wzorcowej oraz oparte na teorii grafów [4].Do tej ostatniej grupy należy miedzy innymi algorytm RAKE (RapidAutomticKeywordExractionalgorithm) zaproponowany w [1, 9]. Celem algorytmu RAKE jest opracowanie skutecznej metody ekstrakcji słów lub fraz kluczowych, która działałaby na tekstach niezależnie od ich zakresu tematycznego oraz gramatyki języka, w którym zostały przygotowane. Do podstawowych cech algorytmu RAKE należy zaliczyć: zdolność do identyfikacji fraz, możliwość funkcjonowania na tekstach przygotowanych w dowolnych językach, niezależność od dziedziny zastosowań, brak konieczności korzystania z wiedzy zewnętrznej (jedynym elementem wymaganym poza analizowanym tekstem jest stop-lista), stosunkowo niewielka złożoność obliczeniowa. W artykule poddane zostało analizie działanie algorytmu RAKE. Przeprowadzona została także własna empiryczna analiza wybranych zbiorów dokumentów polskojęzycznych z wykorzystaniem algorytmu RAKE. Celem badania doświadczalnego było określenie skuteczności działania badanego algorytmu dla tekstów polskojęzycznych. 1 ANALIZA DZIAŁANIA ALGORYTMU RAKE Algorytm RAKE opiera się na spostrzeżeniu, że ręcznie określane frazy kluczowe często złożone są z wielu słów, ale zwykle pomijane są w nich słowa pełniące w większym stopniu funkcje gramatyczne niż leksykalne (np. się w języku polskim lub of w języku angielskim). Zbiór słów pomijanych we frazach kluczowych zwykle w dużym stopniu pokrywa się ze zbiorem tworzącym stop-listę [6]. Takie rozumowanie opiera się na założeniu, że są to słowa zbyt często i szeroko wykorzystywane przez użytkowników jako pomocnicze do analizy lub w zadaniach wyszukiwania. Słowa które niosą sens w dokumencie są opisane jako mające zawartość informacyjną i często określane są jako słowa treści. Potwierdzeniem tego jest rysunek 1, gdzie przeglądając ręcznie przypisane słowa kluczowe streszczenia można wyłonić tylko jedno słowo występujące na stop liście języka angielskiego (jest to słowo of). 1 Politechnika Rzeszowska im. Ignacego Łukasiewicza, Wydział Zarządzania; 35-959 Rzeszów; al. Powstańców Warszawy 12. Tel: +48 17 865-10-89, anna.gladysz@prz.edu.pl 3930
Rys. 1.Przykład streszczenia artykułu z ręcznie określonymi słowami kluczowymi [1]. Frazy kluczowe, które określamy jako sekwencję jednego lub wielu słów zapewniają kompaktową reprezentacje treści dokumentu. Słowa i frazy kluczowe winny stanowić w skondensowanej formie zasadniczą treść dokumentu. Są one szeroko stosowane do definiowania zapytań w ramach systemów wyszukiwania informacji (Information Retrieval), ponieważ są łatwe do zdefiniowania, zmiany, zapamiętania i udostępniania [4]. Parametry wejściowe dla algorytmu RAKE zawierają stop listę, zestaw separatorów fraz, oraz zestaw ograniczników słów. RAKE używa stop listy i ograniczników fraz do partycjonowania tekstu dokumentu na kandydujące frazy kluczowe, które są spójną sekwencją słów treści występujących w tekście. 1.1 Kandydujące słowa kluczowe Algorytm RAKE rozpoczyna ekstrakcję słów i fraz kluczowych z dokumentu poprzez utworzenie zestawu kandydujących słów kluczowych. W pierwszym kroku tekst dokumentu zostaje podzielony na: wyrazy podział następuje w miejscu pojawienia się seperatora wyrazów, frazy będące sekwencją wyrazów ograniczaną na początku i końcu przez ograniczniki fraz. Utworzona lista fraz zawiera frazy kandydujące, które mogą stać się frazami kluczowymi. Rys. 2.Przeanalizowane kandydujące słowa kluczowe z przykładowego streszczenia [1]. Rysunek2 wskazuje kandydujące frazy kluczowe w kolejności, w której są przetwarzane z przykładowego streszczenia zobrazowanego na rysunku1. Na przykład fraza lineardiophantineequation (liniowe równanie diofantyczne) jako kandydująca fraza kluczowa zaczyna się po słowie ze stop listy (of), zaś kończy się przecinkiem. Po separatorze znajduje się następne słowo, które zaczyna kolejną kandydującą frazę kluczową przykładowego streszczenia. 1.2 Ocena słów kluczowych W kolejnym kroku analizowany jest zbiór wszystkich słów wyróżnionych w tekście. Dla każdej pary słów wyznacza się miernik określający liczbę fraz, w których te dwa słowa łącznie się pojawiły. Każde zidentyfikowane łączne pojawienie się słów w tej samej frazie zapamiętywane jest jako waga związana z krawędzią grafu, w którym wierzchołkami są poszczególne słowa. Graf ten pokazany jest w postaci macierzy sąsiedztwa na rysunku 3. Elementy występujące na głównej przekątnej macierzy wskazują na liczbę wystąpień danego słowa. 3931
Rys. 3.Graf współwystępowania słów do zawartości słów przykładowego streszczenia [1]. Następnie słowa oceniane są za pomocą miar wyznaczanych na podstawie macierzy sąsiedztwa. Autorzy algorytmu proponują następujące miary służące do oceny słów: częstotliwość słowa (freq (w)), stopień słowa (deg (w)), iloraz stopnia do częstotliwości (deg (w) / freq (w)). Wyniki metod pomiaru punktów obliczeniowych dla przykładowego tekstu streszczenia przedstawia rysunek 4. Rys. 4.Wyniki obliczeń dla poszczególnych słów występujących w grafie współwystępowania [1]. Podsumowując, pomiary wykorzystujące stopień słowa - deg(w) faworyzują słowa, które występują częściej. Słowa, które często występują niezależnie od liczby słów z którym współwystępują są preferowane przez pomiar częstotliwości słowa - freq(w). Słowa, które przeważnie występują z dłuższymi kandydującymi słowami kluczowymi są preferowane przez wskaźnik ilorazu stopnia do częstości - deg(w)/freq(w). Następnie obliczana jest liczba punktów dla fraz kluczowych. Jest ona obliczana jako suma miar wyznaczonych dla pojedynczych słów składających się na kandydującą frazę kluczową. 3932
1.3 Sąsiadujące słowa kluczowe Jedną z przyczyn, dla których algorytm RAKE wzbudził duże zainteresowanie jest jego zdolność do identyfikacji fraz kluczowych, w których występują słowa zawarte na stop liście, np. axis of evil (oś zła). W celu wykrycia fraz zawierających element pochodzący ze stop listy algorytm RAKE sprawdza, czy w dokumencie pojawia się przynajmniej dwukrotnie identyczna sekwencja złożona z dwóch fraz oddzielona jednym słowem pochodzącym ze stop listy. Jeśli odpowiedź na sformułowane pytanie jest pozytywna, to sekwencja ta staje się kandydującą frazą kluczową. Jej ocena jest równa sumie ocen łączonych fraz. Należy zauważyć, że dzięki słowom ze stop listy niektóre z tych połączonych słów kluczowych nabierają całkiem innego znaczenia niż poszczególne słowa składające się na kandydujące słowo kluczowe. Ponieważ sąsiadujące frazy kluczowe muszą wystąpić dwa razy w tej samej kolejności w dokumencie, ich ekstrakcja jest bardziej powszechna dla tekstów, które są dłuższe. 1.4 Uzyskane słowa kluczowe Ostatnim etapem analizy jest uszeregowanie kandydujących fraz kluczowych zgodnie z wartościami wyznaczonych dla nich mierników. Najlepiej ocenionych T fraz kandydujących jest wybrane jako frazy kluczowe dokumentu. T stanowi jedną trzecią liczby słów na grafie współwystępowania [5]. Przykładowy tekst zawiera w treści 28 słów, stąd T = 9 słów kluczowych. Rysunek 5 przedstawia listę słów kluczowych wyodrębnionych przez algorytm RAKE w porównaniu z wyznaczonymi ręcznie słowami kluczowymi dla przykładowego teksu. Rys. 5.Porównanie słów kluczowych uzyskanych algorytmem RAKE z ręcznie przypisanymi [1]. Z dziewięciu wyodrębnionych słów kluczowych, sześć pokrywa się, co oznacza, że dokładnie sześć z ręcznie wyznaczonych słów kluczowych odpowiada słowom wyznaczonym przez algorytm RAKE. Słowo kluczowe naturalnumbers jest podobne do słowa kluczowego set of naturalnumbers, jednak do celów omówienia uzyskanych wyników zostaną one pominięte. Analizując uzyskane wyniki można wyodrębnić trzy niepoprawnie wyodrębnione słowa kluczowe dla przykładowego tekstu, co w wyniku daje nam dokładność 67%. Porównując sześć prawdziwych wyników w zbiorze wyodrębnionych słów kluczowych z sumy siedmiu ręcznie przypisanych słów kluczowych, dokładność trafień wynosi 86%. Uzyskane wyniki procentowe świadczą o bardzo dobrej skuteczności algorytmu RAKE, który nie tylko przynosi korzyści ale także uwalnia zasoby obliczeniowe dla innych metod analitycznych. 3933
2 ZASTOSOWANIE ALGORYTMU RAKE DLA POLSKOJĘZYCZNYCH DOKUMENTÓW Podejmowane próby zastosowania algorytmu RAKE do analizy tekstów przygotowanych w języku polskim wskazują na kilka problemów związanych z jego zastosowaniem. Najistotniejszym z nich wydaje się być konieczność jednoczesnej analizy tekstu oryginalnego (aby odtworzyć prawidłową postać frazy) oraz tekstu złożonego z wyrazów w formie podstawowej (w celu zliczania wszystkich wystąpień fraz). Również należy zwrócić uwagę na potrzebę właściwego zdefiniowania separatorów fraz oraz oceny jakości fraz kandydujących. 2.1 Empiryczna analiza wybranych kolekcji dokumentów tekstowych W badaniu wykorzystane zostały kolekcje dokumentów tekstowych dotyczące streszczeń polskojęzycznych artykułów naukowych oraz opinii konsumenckich o danym produkcie telefonie komórkowym. Zestaw streszczeń artykułów zawiera także ręcznie przypisane przez autorów artykułów słowa kluczowe. Umożliwiają one określenie skuteczności zastosowania danej metody identyfikacji słów i fraz kluczowych. Należy jednak zauważyć, że czasami wybrane przez autora słowa kluczowe wynikają z analizy całej treści artykułu, nie zaś jego streszczenia. Wiąże się to z faktem występowania w słowach kluczowych fraz które nie są ani razu użyte w streszczeniu danego artykułu. Wybrany zestaw streszczeń artykułów pochodzi z Kongresu Statystyki Polskiej, który miał miejsce w 2012 roku. Opinie klientów danego modelu telefonu komórkowego zostały zaczerpnięte ze strony internetowej http://www.euro.com.pl. Zebranych zostało 100 opinii na temat wybranego modelu, zaś analiza słów kluczowych możliwa jest po uwzględnieniu dostępnych możliwości wyboru plusów i minusów dostępnych przy wystawianiu opinii przez klienta. Algorytm RAKE działa nie na zbiorze dokumentów, lecz na pojedynczych plikach, jednak wyniki można uzyskać automatycznie dla wszystkich plików z kolekcji dokumentów. Punktem wyjścia dla algorytmu RAKE było określenie parametrów wejściowych: stop-listy, zestawu separatorów fraz oraz ograniczników słów (m.in. spacja, przecinek, kropka). W tym celu dla analizowanych kolekcji opinii konsumenckich oraz streszczeń artykułów naukowych napisano skrypt, który dodawał znak. po tytule, w miejscu przejścia do nowej linii oraz na koniec dokumentu (jeśli brakowało). Skrypt został napisany w języku R. W pierwszym kroku tekst dokumentu podzielono na frazy będące sekwencją wyrazów ograniczaną na początku i końcu przez ograniczniki fraz. W kolejnym kroku analizowano zbiór wszystkich słów i fraz wyróżnionych w tekście. Dla każdego zdania wyznaczono miernik określający liczbę fraz, w których te frazy łącznie się pojawiły. Algorytm został zaimplementowany w języku Python w wersji 2.7.4 [8]. Wykonano obliczenia dla kolekcji zarówno opinii konsumenckich jak i streszczeń artykułów naukowych bez redukcji słów do ich form podstawowych. Wynika to z faktu, iż redukcja do rdzenia spowodowałaby wystąpienie frazy w niepoprawnej formie. W tabeli 1 zestawiono uzyskane wyniki działania algorytmu RAKE dla przykładowych dwóch plików zawierających opinie konsumenckie na temat telefonu komórkowego. W tabeli 2 zestawiono uzyskane wyniki działania algorytmu RAKE dla przykładowego pliku zawierającego streszczenie artykułu naukowego. Tab. 1. Wyniki działania algorytmu RAKE dla przykładowego dokumentu zawierającego opinię konsumencką opracowanie własne. Wyniki działania algorytmu RAKE Tekst źródłowy Istotność Słowa i frazy kandydujace frazy Zakupiłem telefonik około miesiąca temu. Zapewne interesuje was opinia co i jak z telefonem. Telefon bardzo dobry w swojej trochę krótko trzyma bateria, posiadałem htc hd2, zakupiłem telefonik, 25,0 15,5 9,5 3934
klasie. Jest po prostu rewelacyjny. Wcześniej posiadałem HTC HD2 ale Samsung bije we wszystkich kategoriach. Szybki i co najważniejsze nie wiesza się. Trochę krótko trzyma bateria ale jest to minusem chyba wszystkich smartfonów. Jeżeli miał bym jeszcze raz dokonywać wyboru to kupił bym samsunga z zamkniętymi oczami. Polecam wszystkim ten telefon. Telefon idealny mam go już dwa tyg. i nie widzę żadnych wad lecz same zalety. Gorąco polecam. miesiąca temu, jeżeli miał bym, zamkniętymi oczami, kupił bym samsunga, dokonywać wyboru, widzę żadnych wad, telefon idealny, 4,0 4,0 Tab. 2. Wyniki działania algorytmu RAKE dla przykładowego dokumentu zawierającego streszczenie artykułu naukowego opracowanie własne. Wyniki działania algorytmu RAKE Tekst źródłowy edukacja, Słowa kluczowe statystyka społeczna, wskaźniki, Wykorzystanie wskaźników w obszarze edukacji w kontekście rozwoju polityki opartej na faktach. Artykuł ma na celu prezentacje i analizę wskaźników, które mogą być używane do monitorowania oraz ewaluacji polityki edukacyjnej w Polsce oraz efektów aktywności edukacyjnej. Analiza będzie się skupiać na istniejących źródłach danych, w tym danych administracyjnych (System Informacji Oświatowej) oraz dane z badan reprezentacyjnych, takich jak Badanie Aktywności Ekonomicznej Ludności, Badanie Dochodów i Warunków Życia (EU- SILC), badania międzynarodowe (badanie PISA, badanie Generation and GenderSurvey) oraz badania krajowe (np. Diagnoza Społeczna). Edukacja jest obszarem polityki publicznej, który ma wpływ na wiele obszarów rozwoju społecznego. W artykule chciała wskazać na określone grupy wskaźników z wybranych obszarów, zarówno z perspektywy indywidualnego uczestnictwa w edukacji i efektów tego uczestnictwa, jak również międzypokoleniowe aspekty aktywności edukacyjnej gospodarstw domowych. Pierwszym obszarem jest uczestnictwo w uczeniu się przez całe życie, w tym udział w edukacji dzieci i młodzieży, ale także uczenie się dorosłych w różnych formach uczenia się formalnego, pozaformalnego oraz nieformalnego. W tym celu ważne jest wskazanie uwagi na potrzebę Słowa i frazy kandydujace uwzględnione zostanie również międzypokoleniowy kontekst poziomu wykształcanie, tym również deprywacja gospodarstw domowych dotycząca możliwości uczestnictwa, również międzypokoleniowe aspekty aktywności edukacyjnej gospodarstw domowych, wskazane są rekomendacje dotyczące dalszego rozwoju statystyki edukacyjnej, analiza uwzględni również charakterystyki demograficzne (wiek, czwarty obszar dotyczy rozwoju kapitału ludzkiego osób, zależności pomiędzy aktywnością edukacyjna dzieci, drugi obszar uwzględnia powiazanie pomiędzy edukacją, uwzględniony zostanie również rola pracodawców, trzeci obszar uwzględnia zasoby gospodarstw domowych, również przechodzenie pomiędzy edukacja, istniejących źródłach danych, badanie aktywności ekonomicznej ludności, Istotność frazy 101,321428571 100,171428571 81,7380952381 74,4 63,4047619048 63,25 60,2833333333 59,6666666667 53,9047619048 48,3333333333 42,4047619048 37,7380952381 36,7 3935
precyzyjnego zdefiniowania różnych form uczenia się tak, aby możliwe było ich właściwe monitorowanie. Uwzględnione zostanie również międzypokoleniowy kontekst poziomu wykształcanie, uwzględniając wpływ wykształcenia rodziców na wykształcenie dzieci. Analiza uwzględni również charakterystyki demograficzne (wiek, płeć, niepełnosprawność, stan cywilny). Drugi obszar uwzględnia powiazanie pomiędzy edukacją i rynkiem pracy. W szczególności, dotyczy to statusu na rynku pracy osób w zależności od wykształcenia, ale też zależności pomiędzy aktywnością edukacyjna dzieci i statusem rodziców na rynku pracy. Uwzględniony zostanie również rola pracodawców w organizowaniu uczenia się przez całe życie pracowników, jak również przechodzenie pomiędzy edukacja a rynkiem pracy. Trzeci obszar uwzględnia zasoby gospodarstw domowych i ich wykorzystanie na cele edukacyjne, w tym również deprywacja gospodarstw domowych dotycząca możliwości uczestnictwa w edukacji. Zwrócona zostanie uwaga zarówno na zasoby finansowe, jak i czasowe gospodarstw domowych przeznaczone na edukacje osób dorosłych oraz dzieci. Czwarty obszar dotyczy rozwoju kapitału ludzkiego osób, w tym ich umiejętności i kompetencji (językowych, ICT). Piąty obszar dotyczy terytorialnych aspektów polityki edukacyjnej, takich jak zróżnicowanie wyników edukacyjnych lub dostęp do wybranych usług edukacyjnych. W podsumowaniu wskazane są rekomendacje dotyczące dalszego rozwoju statystyki edukacyjnej, w tym rekomendacje badań mających na celu wypełnienie istniejących luk informacyjnych. wypełnienie istniejących luk informacyjnych, które mogą być używane, zwrócona zostanie uwaga zarówno, tym rekomendacje badań mających, badania międzynarodowe (badanie pisania, edukacje osób dorosłych, analiza będzie się skupiać, piąty obszar dotyczy terytorialnych aspektów, tym danych administracyjnych (system informacji, kontekście rozwoju polityki opartej, badanie generation and gendersurvey), czasowe gospodarstw domowych przeznaczone, tym ich umiejętności, że uczenie się dorosłych, aby możliwe był, aktywności edukacyjnej, zależności, całe życie pracowników, rynku pracy osób, wybranych usług edukacyjnych, edukacyjnych lub dostęp, formach uczenia się formalnego, 35,6666666667 35,0 34,0 27,6666666667 27,1666666667 26,75 25,9166666667 25,5 25,5 24,75 24,5 24,5 24,2666666667 22,1666666667 21,0 1 18,6 17,3333333333 17,25 15,0 15,0 15,0 2.2 Ocena działania algorytmu RAKE W badaniu algorytmu RAKE dla dokumentów polskojęzycznych modelem bazowym słów jest listowy model dokumentu. Konieczność zastosowania listy w miejsce macierzy częstości wynika z potrzeby zachowania informacji o kolejności wyrazów w dokumencie.frazy istotne są wyznaczane niezależnie dla poszczególnych dokumentów. Nie ma możliwości wyznaczenia fraz istotnych dla całego zbioru dokumentów. Badania pokazały, że w przypadku opinii konsumenckich uzyskane frazy kluczowe w bardzo wysokim stopniu oddają sens i przesłanie opinii. W przypadku badania streszczeń artykułów naukowych algorytm RAKE wyodrębnia sporą ilość fraz pokazując ich mierniki. Bardzo ciężko na podstawie jego działania określić ich istotność w porównaniu ze słowami kluczowymi zaproponowanymi przez autora abstraktu. Wynika to z faktu, że większość słów kluczowych stanowią pojedyncze wyrazy. Nie ma informacji o frazach kluczowych autora abstraktu. 3936
Przeprowadzone badania wskazują na potrzebę dostosowania algorytmu do specyfiki języka polskiego i słownictwa właściwego dla obszaru zastosowań, z którego pochodzą analizowane dokumenty. WNIOSKI Należy pozytywnie ocenić funkcjonowanie algorytmu RAKE. Jednakże w przypadku jego zastosowania dużym utrudnieniem okazała się jego duża wrażliwość na zawartość stop-listy. Problemy z zastosowaniem tej metody w dużej mierze są wynikiem opracowania i implementowania badanego algorytmu dla tekstów anglojęzycznych. Specyfika języka polskiego jest zgoła odmienna i wymaga stworzenia wersji algorytmu dostosowanej do języka polskiego. Nie dokonano także porównania wyników działania algorytmu z frazami kluczowymi zaproponowanymi przez autora, bo takie nie zostały podane. Próby automatycznej analizy dokumentów tekstowych w zdecydowanej większości opierają się na identyfikacji słów i fraz kluczowych. Podejście takie bez wiedzy o zwyczajach językowych autoró w wypowiedzi, uwzględnienia specyfiki słów czy też kontekstowej zmienności znaczeń nastręcza wiele trudnych do rozwiązania problemów. W przypadku analizy tekstów polskojęzycznych dostępne narzędzia i możliwości jakie oferują od prostych po bardziej zaawansowane budujące ontologie pojęć lub też mające wbudowane zaawansowane algorytmy analizy składni nie przynoszą oczekiwanych rezultatów. Problemem jest nie tylko sposób kodowania polskich znaków, ale chyba co ważniejsze programy analizujące składnię. W świetle tych rozważań automatyzacja translacji tekstów w języku naturalnym na język formalny jest jednym z najbardziej pożądanych i obiecujących kierunków współczesnych badań. Streszczenie Frazy kluczowe, które są definiowane jako sekwencja kliku słów, zapewniają zwartą reprezentację treści danego dokumentu. Słowa i frazy kluczowe są powszechnie wykorzystywane w ramach systemów wyszukiwania informacji IR ponieważ są łatwe do zdefiniowania, zmiany, zapamiętania i udostępniania. Jednak pomimo ich przydatności do analizy, indeksowania i wyszukiwania większość dokumentów nie przypisuje automatycznie słów i fraz kluczowych. Rozwiązaniem może być algorytm RAKE niezależny od języka, prezentujący metodę ekstrakcji słów i fraz kluczowych z poszczególnych dokumentów. Podejmowane próby zastosowania algorytmu RAKE do analizy tekstów przygotowanych w języku polskim wskazują na kilka problemów związanych z jego zastosowaniem. Najistotniejszym z nich wydaje się być konieczność jednoczesnej analizy tekstu oryginalnego (aby odtworzyć prawidłową postać frazy) oraz tekstu złożonego z wyrazów w formie podstawowej (w celu zliczania wszystkich wystąpień fraz). Również należy zwrócić uwagę na potrzebę właściwego zdefiniowania separatorów fraz oraz oceny jakości fraz kandydujących. Próba rozwiązania wymienionych problemów stanowi główny cel artykułu. Automatic identification words and key phrases - RAKE algorithm Abstract Key phrases, which we define as a sequence of more words, provide a compact representation of a document s content. Keywords and key phrases are widely used to define queries within information retrieval (IR) systems as they are easy to define, revise, remember, and share. However, despite their utility for analysis, indexing, and retrieval, most documents do not have assigned automatically keywords and key phrases. The solution may be Rapid Automatic Keyword Extraction (RAKE), an unsupervised, domain-independent, and language-independent method for extracting keywords and key phrases from individual documents. Attempts to use RAKE algorithm to analyze texts in Polish indicate many problems associated with its use. The most important of them seems to be a need for simultaneous analysis of the original text (in order to reproduce the correct form of the phrase) and a text composed of words in primary forms (to count all occurrences of the phrase). Also, pay attention to the need to properly define separators phrases and quality evaluation of candidate phrases. Attempt to solve these problems is the main purpose of the article. 3937
BIBLIOGRAFIA 1. Berry M. W., Kogan J., Text Mining Applications and Theory. John Wiley & Sons Ltd, United Kingdom 2010. 2. Deerwester S., Dumais S. T., Furnas G., Landauer T. K, Harshman R., Indexing by Latent Semantic Analysisis. Journal of the American Society for Information Science, 41(6), 1990. 3. Hand D., Mannila H., Smyth P., Eksploracja danych. WNT, Warszawa 2005. 4. Manning C., Schuetze H., Foundations of Statistical Natural Language Processing. The MIT Press, 1999. 5. Mihalcea R., Tarau P., Textrank: Bringing order into texts.in Proceedings of EMNLP 2004 (ed, Lin D., Wu D.), Association for Computational Linguistics, Barcelona 2004, s. 404 411. 6. Mykowiecka A, Inżynieria lingwistyczna. Komputerowe przetwarzanie tekstów w języku naturalnym. PJWSTK, Warszawa, 2007. 7. Pang B., Lee L., Vaithyanathan S., Thumbs up? Sentiment Classification using Machine Learning Techniques. EMNLP, 2002. 8. Perkins J., Python Text Processing with NLTK 2.0 Cookbook. Packt Publishing, 2010. 9. Rose S., Engel D., Cramer N., Cowley W., Automatic Keyword Extraction from Individual Documents. M. W. Berry & J. Kogan (red.), Text Mining: Theory and Applications, John Wiley & Sons, 2010, s. 3 19. 10. Salton G., Wong A., Yang C. S., A vector space model for automatic indexing. Communications of the ACM, vol, 18, 1975, s. 613 620. 3938