PRZEGLĄD METOD I TECHNIK EKSPLORACJI DANYCH TEKSTOWYCH

Transkrypt

1 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str PRZEGLĄD METOD I TECHNIK EKSPLORACJI DANYCH TEKSTOWYCH Marcin Mirończu Politechnia Białostoca Wydział Eletryczny ul Wiejsa 45A, Białysto mmarcinmichal@gmailcom Streszczenie : W artyule opisano autorsą lasyfiację metod i techni esploracji danych testowych Opisano atualnie dostępne oraz stosowane metody reprezentacji danych testowych oraz technii ich przetwarzania Przeprowadzono taże dysusję na temat przetwarzania doumentów za pomocą prezentowanych metod Omówiono możliwości ja i ograniczenia poszczególnych prezentowanych metod do przetwarzania doumentów testowych esploracja danych testowych, metody analizy danych testowych, esploracyjna analiza danych testowych Review of methods and text data mining techniques Abstarct: This article describes the author's classification of the methods and techniques of textual data mining In this article also describes the currently available methods and sauces representation of textual data and their processing techniques Also conducted a discussion on the processing of text documents using the presented methods This paper also discussed the possibilities and limitations of individual methods to process the presented text documents Keywords: text data mining, methods of analysis of textual data, exploratory analysis of text data, text analyzing 1 WSTĘP W badaniach dotyczących przetwarzania doumentacji ze zdarzeń [1-4], pochodzącej z systemu ewidencji zdarzeń EWID-99 [4-8] przeznaczonego dla Państwowej Straży Pożarnej PSP, autor wyorzystuje metody oraz technii z zaresu esploracyjnej analizy danych testowych (ang text mining) W publiacji [9] przedstawiono autorsi przegląd i lasyfiację zastosowań, metod oraz techni z zaresu ogólnie pojętej esploracji danych W niemniejszej publiacji opisano szczegółowo wybraną gałąź tej lasyfiacji związaną z testowym źródłem danych [9] tóre stanowią doumenty wyrażone za pomocą języa naturalnego Celem publiacji jest w szczególności przedstawienie czytelniowi tzw płytich metod analizy testu Atualnie dostępna jest dość znaczna ilość publiacji i siąże dotyczących głęboiego przetwarzania testów w języu polsim [10-13] Natomiast ilość pozycji dotyczących płytiej analizy testu jest znacznie ograniczona oraz nie omawia omplesowo pod względem 25 tasonomii tego zagadnienia [10, 14] Z tych względów autor zaproponował i opisał własny podział metod z zaresu metod analizy testu a w szczególności metod służących do płytiej analizy doumentów testowych Prezentacja rozważań nad metodami esploracji danych testowych (punt 2) została rozpoczęta od opisu atualnie dostępnych i używanych reprezentacji doumentów testowych (podpunt 21) Następnie omówiono metody analizy doumentów testowych niewymagające ja i wymagające (podpunt 22) opisanych reprezentacji testu W dalszej olejności opisano metody wizualizacji wyniów pochodzących z przetwarzania testów (podpunt (23) Na ońcu przedstawiono podsumowanie oraz wniosi dotyczące proponowanej tasonomii oraz samej esploracji danych testowych 2 METODY EKSPLORACJI DANYCH TEKSTOWYCH Dziedzina technii zajmująca się przetwarzaniem omputerowym nieustruturyzowanych danych w postaci

2 Marcin Mirończu, Przegląd metod i techni esploracji danych testowych doumentów testowych i wyciągania z nich informacji wysoiej jaości nazywa się esploracją testu [15, 16] W obrębie tej dziedziny powstało wiele nie do ońca usystematyzowanych metod, techni oraz pojęć, tóre w niniejszym artyule zostały odpowiednio pogrupowane i szczegółowo omówione Autorsą tasonomię metod analizy testu przedstawia rysune 1 Płytie Metody analizy Głęboie Sformalizowane Niesformalizowane Wizualizacje Wydobywanie wyrażeń Wyszuiwanie Technii wstępnego przetwarzania Estracja informacji rozpoznane z dużym stopniem pewności Strutury wymagające złożonej analizy wielu możliwych rozwiązań są pomijane lub analizowane częściowo Analiza sierowana jest głównie na rozpoznawanie nazw własnych, wyrażeń rzeczowniowych, grup czasowniowych bez rozpoznawania ich wewnętrznej strutury i funcji w zdaniu Analiza dotyczy też głównie dużych zbiorów doumentów testowych a nie pojedynczych doumentów a taże taich zagadnień ja min lasyfiacja (ategoryzacja) doumentów (ang document classification lub document categorization) ich grupowania (ang doument clustering) i wyszuiwania z nich informacji (ang information retrieval IR) [17-19] Celem tej analizy jest przyporządowanie nieustruturyzowanego testu wyrażonego za pomocą języa naturalnego do ustalonej reprezentacji (zazwyczaj sładającej się ze zbioru obietów) Przyporządowanie to odbywa się na drodze procesu wyorzystującego specyficzne dla danej dziedziny algorytmy [19] Druga metoda opiera się na tzw głęboiej analizie testu (ang deep text processing DTP) i jest procesem omputerowej analizy lingwistycznej wszystich możliwych interpretacji i relacji gramatycznych występujących w teście naturalnym Zazwyczaj jest bardzo złożona i z reguły dotyczy pojedynczego doumentu Pomija się wszelie zależności statystyczne i stosuje się rozwiązania polegające na przetwarzaniu danych w oparciu o predefiniowane wzorce lub gramatyi [10, 19] Klasyfiacja Grupowanie Automatyczne rozpoznawanie języa Automatyczna Translacja Streszczenia 21 Reprezentacja doumentów testowych Atualnie rozwinięte i wyorzystywane pratycznie są dwie reprezentacje doumentów testowych: reprezentacja wetorowa oraz reprezentacja grafowa Obie z nich zostały omówione w podpuntach 211 oraz Model wetorowy reprezentacji doumentów testowych Rysune 1 Tasonomia esploracyjnych metod analizy testu Źródło: [opracowanie własne] W esploracyjnej analizie testu dostępne są dwie metody przetwarzania testu: płytie i głęboie Pierwsza metoda dotycząca płytiej analizy testu (ang shallow text processing STP), oreśla grupę działań polegających na rozpoznawaniu strutur testów niereurencyjnych lub o ograniczonym poziomie reurencji, tóre mogą być Model wetorowy reprezentacji doumentów testowych polega na przedstawieniu ich w postaci przestrzenno-wetorowego opisu (modelu wetorowego, ang vector space model VSM) Doumenty i występujące w nich wyrażenia, są reprezentowane w postaci macierzy Powszechnie, za wyrażenie w reprezentacji przestrzenno-wetorowej, uważane jest jedno wyrażenie np pożar lub para wyrażeń np mocne zadymienie Zazwyczaj nie są to wszystie możliwe wyrażenia zwyle w etapie wstępnego przetwarzania 26

3 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str (ang preprocessing) doonuje się ich selecji (za pomocą metod opisanych w podpuncie 221 i 222) oraz oceny ich istotności dla modelowanej dziedziny Rysune 2 przedstawia macierzową postać zapisu doumentów i związanych z nimi wyrażeń Doumenty reprezentowane są poprzez wiersze (m), natomiast wyrażenia znajdują się w olumnach (n) macierzy A zwanej macierzą doumentów-wyrażeń (ang term-document matrix) Bardziej ogólnym pojęciem stosowanym w lingwistyce omputerowej jest orpus oreślający dużą olecję doumentów, opisanych i sprowadzonych np w szczególnym przypadu do opisywanej postaci macierzowej (rysune 2) W niniejszym teście orpus będzie równoważny macierzy A w A = wi Gdzie : i m w1 j, A R w ij m n 1 j n Rysune 2 Strutura reprezentacji przestrzenno-wetorowej doumentów Źródło: [opracowanie własne na podstawie [20]] W rozwiązaniach pratycznych ilość wierszy macierzy A jest znacznie więsza od ilości wyrażeń (m >> n) Do poprawy przetwarzania, wydajniejszego sładowania taiej strutury w systemach informatycznych i analizy stosuje się onwencję odwróconą tj w wierszach zapisywane są wyrażenia natomiast w olumnach doumenty Wówczas tai zapis nosi nazwę pliu odwróconego a jego sposób indesowania wyrażony jest poprzez indes odwrotny [21, 22] Element macierzy w ij oznacza wagę, a tym samym znaczenie j-tego wyrażenia w i-tym doumencie (rysune 2 reprezentuje tai zapis) W zależności od sposobu odowania informacji zawartej w elemencie w ij czyli w wadze wyrażenia lub bardziej precyzyjnie w wartościach sładowych wetora wyrażeń, istnieje możliwość otrzymania różnych odmian reprezentacji przestrzenno-wetorowej testu Do popularnych, stosowanych w pratyce odmian zaliczamy min reprezentacje boolowsą (binarną), częstotliwościową występowania wyrażeń (ang term frequency TF), odwrotną częstość doumentu (ang inverse-documentfrequency IDF), mieszaną TF-IDF, logarytmiczną, ważoną logarytmiczną, oapi BM25 oraz probabilistyczną [10, 20, 23-25] Reprezentacja: a) boolowsa (binarna) występuje wówczas, iedy zostanie odnotowany fat zaistnienia j-tego wyrażenia w i-tym doumencie, natomiast nie precyzuje ona liczby wystąpień Element w ij macierzy A przyjmuje wartość 1 (j-te wyrażenie znajduje się w i-tym doumencie) lub 0 (j-te wyrażenie nie znajduje się w i-tym doumencie), b) częstotliwościowa występowania wyrażeń (ang term frequency TF) występuje wówczas, iedy oprócz odnotowania fatu zaistnienia j-tego wyrażenia w i-tym doumencie zostanie oreślona taże jego częstość, czyli liczba jego wystąpień w zadanym doumencie, c) odwrotnej częstości doumentu (ang inverse-documentfrequency IDF) polegającą na tym, iż poszczególne wagi w ij wyrażone są za pomocą wyrażenia log(n/n j ), gdzie: N reprezentuje liczbę wszystich doumentów zaś n j liczbę doumentów z j-tym wyrażeniem, d) mieszana TF-IDF występuje wówczas, gdy pomnożone zostaną przez siebie wagi w ij wyrażone za pomocą ww schematu TF i IDF, czyli mieszana reprezentacja TF-IDF równa jest TF IDF, e) logarytmiczna występuje wówczas, gdy następuje zastąpienie wszystich niezerowych elementów macierzy A wartościami w ij równymi 1+log(w ij ), f) ważona logarytmiczna występuje wówczas, gdy następuje zastąpienie wszystich niezerowych elementów macierzy A wartościami w ij obliczonymi za pomocą N następującej formuły (1 + log( wij )) log( ) n j, g) oapi BM25 stosowana jest w przypadach długich doumentów testowych, gdzie prawdopodobieństwo, że dany wyraz pojawi się wiele razy jest wysoie Powoduje to wzrost wartości wagi TF co w efecie sprawia, że długie doumenty są bardziej faworyzowane BM25 to rodzina funcji wyorzystywana do obliczenia wagi w ij z uwzględnieniem długości doumentów Mając doument d (od angielsiego słowa document) i wyrażenie t (od angielsiego słowa term) można obliczyć wagę orzystając z zależności: f ( t, d ) ( 1 + 1) bm25( d, t) = idf (1) d f ( t, d ) + 1 (1 b + b avg( d ) 27

4 Marcin Mirończu, Przegląd metod i techni esploracji danych testowych Gdzie: - f(t,d) liczba wystąpień wyrażenia t w doumencie d - d długość doumentu d - avg(d) średnia długość doumentu w olecji - 1 i b wartości stałe (przeważnie przyjmuje się 1 = 12 i b = 075) - idf zmodyfiowany schemat IDF wyrażony w postaci N n( t) + 05 formuły idf ( t) = log, N oznacza liczbę n( t) + 05 wszystich doumentów, a n(t) liczbę doumentów zawierających wyrażenie t h) probabilistyczna występuje wówczas, gdy waga w ij wyrażenia t w doumencie d zostanie oszacowana na podstawie zdarzenia losowego, polegającego na wystąpieniu danego wyrażenia t w doumencie d pod waruniem modelu M Model M zawiera informacje na temat orpusu A tj całowitą ilość wyrażeń oraz częstotliwość występowania poszczególnych wyrażeń w orpusie A Proste oszacowanie prawdopodobieństwa wystąpienia wyrażenia t można doonać zgodnie z zasadą estymacji najwięszej wiarygodności (ang maximum lielihood estimation MLE) [23]: TF t, d w ij = P ML ( Y i = t d, M ) = (2) t d TF t, d Wzór na wagę wyrażenia przedstawiony w postaci estymacji najwięszej wiarygodności można interpretować następująco: P ML ( Y i = t d, M ) = czestotliwosc wystepowania wyrazenia t w doumencie d suma wszystich czestotliwosci wyrazen t w doumencie d Na podstawie macierzy A z odpowiednio sonstruowanymi wagami w ij możliwe jest więc wyznaczenie podobieństwa słów oraz doumentów Podobieństwo słów wyrażane jest poprzez oreślenie podobieństwa odpowiadających im olumn tej macierzy, natomiast o podobieństwie doumentów wniosuje się na podstawie analizy podobieństwa wierszy tej macierzy (3) Najczęściej wszystie wagi w ij wetorów macierzy A w zastosowaniach pratycznych są normalizowane do 1 Wprowadzenie wetorowo-przestrzennego modelu doumentów umożliwia matematyczną analizę zagadnienia np wyszuiwania doumentów testowych Zagadnienie wyszuiwania zostało omówione w podpuncie 222 Budowanie reprezentacji testu na samych wyrażeniach jest jedna często mocno ograniczone Do zasadniczych wad tego modelu należą: - utrata wszeliej informacji na temat strutury doumentów: tytuł, nagłówi etc, - pominięcie informacji na temat olejności słów a więc i związów między nimi (występowanie wyrażeń jest niezależne od siebie), - istnieje onieczność wyboru wyrażeń, dla tórych zostanie stworzona macierz liczba wymiarów musi być z góry znana Ze względu na ww ograniczenia, proponowane są taie rozwiązania aby sładowymi wetora reprezentującego doument były automatycznie wydobyte cechy testu (ja języ, styl, itp) zamiast wyrażeń luczowych oraz elementy wydobyte z semantycznego zbioru, a więc wyrażenia i powiązania między nimi soncentrowane na stronie znaczeniowej testu [17] Ograniczenia związane z reprezentacją przestrzenno-wetorową wymogły stosowanie drugiego sposobu reprezentacji doumentów testowych, a mianowicie ich opis grafowy Należy zaznaczyć, że reprezentacja przestrzenno-wetorowa mimo ograniczeń posiada też zalety Sprawiają one, że jest ona dalej powszechnie stosowaną i badaną reprezentacją doumentów testowych Zaletą wyboru taiej reprezentacji doumentów jest jej zbieżność z reprezentacją stosowaną typowo w uczeniu maszynowym (obiety opisane za pomocą atrybutów), dzięi czemu można do niej zastosować istniejące metody z tej dziedziny Badania taże dowodzą, że nietóre relacje semantyczne mogą zostać wydobyte z testu z dużą doładnością z pominięciem olejności słów [26], natomiast związe pomiędzy wyrażeniami może zostać ustalony za pomocą analizy współwystępowania wyrażeń [27] Również wyonywanie operacji, taich ja: liczenie odległości, przeprowadzanych na wetorach, jest apliacyjnie łatwiejsze w realizacji i bardziej efetywne obliczeniowo od onurencyjnej reprezentacji, np opartej na modelu grafowym 28

5 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str Model grafowy reprezentacji doumentów testowych Model grafowy reprezentacji testu bazuje na teorii grafów Model ten nazywany jest taże modelem ustruturyzowanym Początowo został on zaproponowany do analizy stron ogólnoświatowej sieci (ang World Wide Web WWW) a potem do opisu, analizy i poddawania procesom np lasyfiacji [28] doumentów z pewną struturą [29] Podstawowym założeniem wprowadzenia reprezentacji grafowej była chęć przeciwdziałania manamentom związanym z reprezentacją przestrzenno-wetorową Dzięi zastosowaniu grafów do opisu doumentów testowych możliwe stało się przechowywanie informacji min o: związach wyniających z olejności wyrazów, charaterystyach opisywanych w doumentach obietów, relacjach między nimi oraz zależnościach przyczynowosutowych Schener i współautorzy [30] zaproponowali podejście modelowania całego doumentu testowego jao grafu połączeń między wyrażeniami W swojej pracy przedstawili następujące sposoby reprezentacji doumentu: standardowa (ang standard representation), prosta (ang simple representation), n-odległości (ang n-distance representation), prostej n-odległości (ang n-simple distance), bezwzględnej częstości (ang absolute frequency), względnej częstości (ang relative frequency) [30, 31] Kolejno poszczególne sposoby reprezentacji doumentów definiowane są następująco: a) reprezentacja standardowa (ang standard representation) dla ażdego wyrażenia tworzony jest węzeł, przy czym jedno wyrażenie występuje tylo raz w grafie dla doumentu Doument jest podzielony na secje: tytuł (wraz z metadanymi), odnośnii (test w odnośniach), test (cały widoczny test, włącznie z odnośniami) Jeżeli dwa wyrażenia występują bezpośrednio po sobie w obrębie jednej secji to jest tworzony łu sierowany od pierwszego do drugiego z nich Łu jest oznaczony zgodnie z miejscem występowania jao tytuł (ang title TI), powiązanie (ang lins L) lub test (ang text TX) Po zbudowaniu grafu wyrażenia sprowadzane są do rdzeni morfologicznych (ang stemming) a węzły są zwijane do najczęściej występującej formy, b) reprezentacja prosta (ang simple representation) analogiczna do reprezentacji standardowej z tą różnicą, że przetwarzany jest tylo test widoczny na stronie a do łuów nie są przypisywane etyiety, c) reprezentacja n-odległości (ang n-distance representation) łui grafu są tworzone nie tylo dla wyrażeń występujących bezpośrednio po sobie, ale również dla n wyrażeń do przodu (n jest parametrem dostarczanym przez użytownia) Połączenie między wyrażeniami jest tworzone tylo wtedy, gdy nie zostaną napotane predefiniowane znai interpuncyjne Łu jest etyietowany odległością pomiędzy słowami, d) reprezentacja prostej n-odległości (ang n-simple distance) analogiczna reprezentacja do n-odległości, z tą różnicą, że łui nie są etyietowane odległością Graf mówi tylo o tym, że pomiędzy wyrażeniami występuje połączenie, ale nie mówi ja jest ono silne, e) reprezentacja bezwzględnej częstości (ang absolute frequency) podobna do reprezentacji prostej węzły są tworzone dla wyrażeń występujących bezpośrednio po sobie, nie są uwzględniane informacje struturalne Do węzła przypisywana jest ilość wystąpień wyrażenia w doumencie, do łuu częstość wystąpienia dwóch wyrażeń po sobie, f) reprezentacja względnej częstości (ang relative frequency) analogicznie do reprezentacji bezwzględnej częstości, przy czym ilość wystąpień wyrażenia (etyiety węzłów) są normalizowane przez masimum z częstości wszystich węzłów, a ilość powiązań miedzy wyrażeniami (etyiety łuów) przez masimum liczebności wszystich powiązań Model grafowy często powiązany jest z ontologią, rozumianą jao formalny sposób opisu wyodrębnionego fragmentu rzeczywistości [32] Definicja ontologii obejmuje opis obietów występujących w rzeczywistości oraz opis zależności pomiędzy nimi Pod tym względem możliwe więc jest aby reprezentatywne, wybrane wyrażenia z grafu stały się obietami z ontologii lub lasami z hierarchii las obietów Wśród zależności występujących pomiędzy reprezentowanymi w ontologii obietami szczególnie ważną role odgrywają relacje semantyczne np zawiera, obejmuje, posiada Z tego powodu uład obietów wraz z opisem występujących pomiędzy nimi relacji semantycznych nazywa się siecią semantyczną Dogodną struturą do reprezentowania taich sieci są grafy, raty (ang lattice) ja i hierarchie las obietów Wyrażenie hierarchie las obietów należy tratować jao termin z dziedziny programowania obietowego [33] Wadą reprezentacji grafowej jest znacznie mniejszy wachlarz metod analitycznych przystosowanych do operowania na informacjach przechowywanych przy wyorzystaniu złożonych strutur danych [34] Ograniczenia te w szczególności związane 29

6 Marcin Mirończu, Przegląd metod i techni esploracji danych testowych z przechowywaniem danych, powoli przestają mieć znaczenie ze względu na opracowywany prototypowy model zorientowany oncepcyjnie, przystosowany do przechowywania strutur zagnieżdżonych [35-37] Model zorientowany oncepcyjnie lub model zorientowany na pojęcia (ang concept oriented model COM) zaproponowany został przez Savinova w 2004 [36] Model ten stanowi nowe podejście do modelowania danych i bazuje na trzech głównych zasadach [37, 38]: zasadzie dwoistości (ang duality principle) mówiącej, że ażdemu elementowi (pojęciu) przypisana jest tożsamość (ang identity) oraz encja (ang entity), zasadzie włączenia (ang inclusion principle) dotyczącej używania hierarchicznej strutury dla modelowania tożsamości oraz zasadzie porządu (ang order principle) tóra mówi o używaniu matematycznej zasady porządu częściowego (ang partial order) do reprezentowania semantyi danych W przypadu modelu grafowego onceptami z modelu COM mogą być wybrane wyrażenia z modelu grafowego 22 Metody analizy testu Metody płytiej analizy testu można podzielić ze względu na to czy do ich działania potrzebna jest sformalizowana reprezentacja doumentu opisana w podpuntach 211 i 212 czy też nie Przyład sformalizowanej reprezentacji testu stanowi reprezentacja wetorowa opisana w podpuntach 211 i 212 Niesformalizowana reprezentacja natomiast nie wymaga żadnej z powyższych reprezentacji Metodami, tóre nie wymagają sformalizowanej reprezentacji, są: wstępne przetwarzanie testu, estracja informacji, automatyczne rozpoznawanie języa, automatyczna translacja testów Metody te olejno zostały omówione w podpuncie 221 W przypadu sformalizowanych reprezentacji testu do metod jego analizy zaliczane są: wydobywanie wyrażeń z testów, wyszuiwanie informacji w szczególności wyszuiwanie informacji w reprezentacji przestrzenno wetorowej oraz grafowej, lasyfiacja oraz grupowanie Metody te zostały omówione w podpuncie Metody analizy bezpośredniej na teście Metodami, tóre nie wymagają sformalizowanej reprezentacji testu, są: wstępne przetwarzanie testu (podpunt 2211), estracja informacji (podpunt 2212), automatyczne rozpoznawanie języa (podpunt 2213), automatyczna translacja testów (podpunt 2214) oraz streszczenia doumentów testowych (podpunt 2215) 2211 Technii wstępnego przetwarzania doumentów testowych Do techni wstępnego przetwarzania doumentów testowych należą: estracja rdzeni wyrażeń (ang stemming), tagowanie (ang tagging), lematyzacja, usuwanie słów ze stop listy, przycinanie (ang pruning) [10, 18] Operacje te podejmowane są zanim doument lub grupa doumentów testowych zostanie przesłana do głównego procesu analizy np wyszuiwania pełnotestowego (ang full text serach) [39] czy też innych metod przetwarzania testu Przedstawione terminy, związane ze wstępnym przetwarzaniem testu, można zdefiniować w następujący sposób [10, 18]: a) estracja rdzeni wyrażeń (ang stemming) oreśla znajdowanie tematów słów lub tych ich fragmentów, tóre są niezmienne dla wszystich form, b) tagowanie (ang tagging) oznacza wybór opisu morfosładniowego, tóry jest właściwy w onretnym onteście użycia danej formy, c) lematyzacja jest to analiza morfologiczna ograniczana do znalezienia podstawowej formy wyrazu (identyfiacja lesemu), d) usuwanie słów ze stop listy na stop liście umieszcza się wyrażenia, tóre występują zbyt często by ich użycie jao luczy wyszuiwania było celowe Wyrażenia umieszczone na stop liście słów są odrzucane (filtrowane) podczas wczytywania doumentu, e) przycinanie (ang pruning) polega na usuwaniu niepotrzebnych słów, operacja ta ma na celu polepszenie suteczności lasyfiacji Można usuwać wyrażenia występujące najczęściej (ang most frequent) i najrzadziej (ang least frequent) Wszystie wyżej wymienione zabiegi stosuje się w celu ulepszenia przeprowadzanej analizy doumentów testowych oraz ich wydajniejszego indesowania Zabiegi te stosowane w onteście analizy testu pozwalają na identyfiację początowego zestawu cech, tóry może być później ograniczony (i zoptymalizowany) w procesie wydobywania wyrażeń (podpunt 222) 2212 Estracja informacji Estracja informacji (ang information extraction IE) jest to identyfiacja, polegająca na odnajdywaniu właściwej informacji w nieustruturyzowanych danych testowych wyrażonych za pomocą języa naturalnego Proces ten jest zgodny z lasyfiacją polegającą na struturyzowaniu poprzez nadawanie las semantycznych dla wybranych elementów testu Proces ten czyni informację zawartą w 30

7 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str teście bardziej właściwą i przydatną w realizowanych zdaniach [40] Estracja informacji nazywana jest taże estracją (rozpoznawaniem) encji i modelowania ich relacji (ang concept/entity extraction, named entity recognition) [41], jedna jest to ograniczenie definicji estracji informacji tylo do jednego z podstawowych jej zadań Wymienione zadanie polega na pozysiwaniu z doumentów testowych nazw obietów np osób oraz na wyznaczaniu związów i relacji pomiędzy wydobytymi obietami W ogólnym przypadu można pozysiwać w ten sposób z testu nazwy miast, imiona i nazwisa osób, ody pocztowe, numery PESEL itp W przypadu szczególnym, tóry stanowią analizy raportów z acji ratowniczogaśniczych, można pozysać informacje na temat: ilości acji, w tórych brała udział dana osoba, ilości ofiar śmiertelnych zarejestrowanych w acji ratunowej Przy pomocy ta wydobytych cech można sprawdzać czy analizowany obiet np osoba nie zmieniła rangi (nie awansowała na wyższy stopień), czy nie zaszły jaieś luczowe zmiany na obiecie np niedziałające hydranty, czy też w przestrzeni mediów nie pojawiły się informacje o zdarzeniach oreślonego typu (atastrofy, wypadi, aty terrorystyczne) Do pozostałych podstawowych zadań z zaresu estracji informacji należą: rozróżnianie wyrażeń rzeczowniowych z relacją gramatyczną (ang noun phrase coreference resolution), rozpoznawanie ról semantycznych (ang semantic role recognition), rozpoznawanie relacji między encjami (ang entity relation recognition) czy też rozpoznanie czasu oraz oreślanie linii czasu zachodzenia zdarzeń (ang timex and time line recognition) [40] Do typowych problemów, tóre muszą być rozwiązane przez system estracji informacji, należą następujące zagadnienia [10, 40]: a) rozpoznanie i utworzenie sryptów (scenariuszy) będących omplesowym opisem zdarzeń, b) utworzenie modeli (wzorców) wyniających z testu, c) podział testu na ciągi zdań, d) podział zdań na wyrażenia z przypisanymi wartościami cech gramatycznych, e) rozpoznawanie srótów, fraz rzeczowniowych, nazw bez wniania w ich struturę wewnętrzną i ich funcje w zdaniu, f) budowanie przybliżonej strutury zdania (np drzewa rozbioru) ze słów i wcześniej rozpoznanych elementów, g) wypełnienie przygotowanych modeli informacjami z testu 31 Pierwsze cztery ww zadania mają charater ogólny i ich rozwiązania mogą być stosowane w wielu różnych systemach Ostatnie zadanie natomiast jest ściśle związane z onretnym zastosowaniem Wzorce i reguły ich wypełniania zależą od tego, jaich informacji poszuujemy Przytoczone wyżej pojęcia estracji informacji wiążą się najczęściej z normalizacją i identyfiacją w teście wybranych typów danych oraz ich powiązań Niemniej w sład tej metody można zaliczyć podejścia i zabiegi stosowane do wydobywania wyrażeń (cech) reprezentatywnych, od jaości tórych zależą np wynii wyszuiwania informacji dla doumentu czy też ich grupy W onteście analizy testu i niniejszego opracowania cecha (ang feature) znaczeniowo tratowana jest jao wyrażenie (ang term) W dalszej olejności, oprócz samego wydobywania, wyrażeń można też estrahować semantyę tych wyrażeń za pomocą np analizy opartej o dane z orpusu lingwistycznego (reprezentacji przestrzennowetorowej doumentów) [31] Ogólnie do obu tych celów mogą służyć metody grupujące opisane w podpuncie 222, jeżeli zadanie grupowania zostanie zdefiniowane na mniejszym poziomie ziarnistości niż doument, a mianowicie na poziomie wyrażeń 2213 Automatyczne rozpoznawanie języa Automatyczne rozpoznawanie języa (ang automatic language identification ALI) polega na identyfiacji wersji języowej doumentu, w szczególności doumentu testowego, tóry może zostać napisany w więcej niż jednym języu [42] Do automatycznej identyfiacji wersji języowej wyorzystywane są głównie dwa rodzaje rozwiązań Pierwsze rozwiązanie bazuje na statystycznym modelu języa i polega na oszacowaniu prawdopodobieństwa (ang estimate the probability), że dana wejściowa próba testu jest napisana w zadanym języu Drugie rozwiązanie polega na porównaniu pomiędzy częstotliwością używanych wspólnych słów lub wyrażeń w próbce testowej z częstotliwością wydobytą ze statystycznej analizy dużego orpusu służącego jao odniesienie Automatyczne rozpoznawanie języa wyorzystywane jest najczęściej w sieci internetowej do analizowania wersji języowych stron internetowych, czy też orespondencji Pewne jego elementy mogą też być wyorzystane we wstępnym procesie testowej esploracji danych w celu polepszenia jaości analizy 2214 Automatyczna translacja testów Automatyczna translacja testów nazywana taże tłumaczeniem maszynowym TM, polega na doonywaniu

8 Marcin Mirończu, Przegląd metod i techni esploracji danych testowych przeładu z jednego języa na drugi Pierwsze próby TM były podejmowane w latach 50-tych W latach 70-tych dziedzina ta przeżyła swój rozwit ze względu na gwałtowny rozwój sprzętu ja i oprogramowania omputerowego Do automatycznego tłumaczenia testu podchodzi się dwojao tj doonuje się tłumaczenia zgrubnego, przeznaczonego do poprawiania przez człowiea (mamy tutaj do czynienie raczej ze wspomaganiem tłumaczenia, a nie z samym tłumaczeniem) oraz tłumaczenia ograniczonego do wąsiego podzbioru języa (np prognozy pogody, raportów giełdowych) [10] Najwięszym problemem w tłumaczeniu i luczem do jego sucesu jest prawidłowe tłumaczenie słów a raczej ich znaczeń Mimo pojawiających się problemów związanych z TM, w dalszym ciągu budzi ono wielie zainteresowanie zarówno w środowisu nauowców ja i biznesowym [43-45] 2215 Streszczenia doumentów testowych Streszczenia (podsumowania) doumentów testowych (ang text document summarization) polegają na wytwarzaniu streszczenia z obszernego doumentu lub ich grupy [22, 34, 46] Przyładowy algorytm bada powiązania między wyrażeniami Jeżeli następuje odwołanie ilu wyrażeń do danego wyrażenia, wówczas zachodzi zwięszenie jego pozycji w raningu Jao podsumowanie analizy wyświetlane jest n zdań o najwyższym raningu, tworząc w ten sposób streszczenie Zagadnienie streszczenia doumentów może zostać sprowadzone do podejścia selecje cech ze względu na zastosowane technii uczenia: uczenie nadzorowane lub nienadzorowane Uczenie nadzorowane polega na estracji cech z odpowiednio dużego oznaczonego orpusu testowego (mamy dostęp do predefiniowanych las cech) [47, 48] Uczenie nienadzorowane natomiast polega na uchwyceniu pewnych właściwości testu, tóre umożliwią wydobycie wyrażeń luczowych dla danego doumentu lub ich grupy W przypadu zastosowania uczenia nienadzorowanego możliwe jest podejście loalne lub globalne Przypade loalny, w onteście analizy testu, występuje wówczas, gdy w procesie wydobywania słów luczowych wyorzystywana jest tylo informacja o dostępnej grupie doumentów lub pojedynczym doumencie Przyładowy algorytm wydobywania słów luczowych oparty o tylo jeden doument testowy, bez wyorzystania całego orpusu testów, zaproponowali Matsno i Ishizua [27] Podejście globalne bazuje natomiast, przy wydobywaniu wyrażeń luczowych, na informacji o grupie doumentów ja i całego orpusu Propozycja analizy testu opartej o metodę globalną została opisana w pracy [49] 222 Metody analizy sformalizowanych reprezentacji testu W przypadu sformalizowanych reprezentacji testu do metod jego analizy zaliczane są: wydobywanie wyrażeń z testów (podpunt 2221), wyszuiwanie informacji w szczególności wyszuiwanie informacji w reprezentacji przestrzenno wetorowej oraz grafowej (podpunt 2222), lasyfiacja (podpunt 2223) oraz grupowanie (podpunt 2224) 2221 Wydobywanie wyrażeń Wydobywanie wyrażeń może następować poprzez ich estracje (ang feature extraction) Estracja cech w literaturze oreślana jest taże jao transformacja cech (ang feature transform) czy też generowanie, uogólnianie cech (ang feature generation) Proces estracji cech podzielony jest na dwa etapy: onstruowania cech (ang feature construction) a następnie ich selecji (ang feature selection) [50, 51] Selecja cech w literaturze oreślana jest taże jao: selecja zmiennych (ang variable selection), reducja cech (ang feature reduction), selecja atrybutów (ang attribute selection), lub selecja podzbioru zmiennych (ang variable subset selection) Metody selecji cech można rozpatrywać w onteście dziedziny naui związanej z uczeniem maszynowym (ang machine learning), wówczas otrzymany zostanie dodatowy podział (ze względu na zastosowane ryterium oceny podzbioru cech), na tóry sładają się podategorie: filtry (ang filters), opaowywacze (ang wrapper) i metody wbudowane (ang embedded methods) Metody estracji, nie tylo samych wyrażeń lecz i ich semantyi, są oparte na hipotezie dystrybucyjnej [52] i stanowią specyficzną odmianę metod estracji specjalnie stworzonych na potrzeby analizy testów Metody wydobywania podobieństwa semantycznego wyrażeń z testów opierają się na uzysaniu funcji podobieństwa semantycznego Przegląd taich metod, odwołania do nich i opisy można znaleźć w pracy [31] Powyżej zostały opisane lasyfiacyjne statyczne aspety estracji cech Na proces estracji cech można spojrzeć w sposób dynamiczny, wyrażony w postaci algorytmu i automatu z oreśloną ilością sewencji (stanów, etapów), tórego działanie ma przynieść wydobycie interesujących sładowych Kluczowe etapy tego procesu przedstawia rysune 3 32

9 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str Rysune 3 Kluczowe etapy estracji cech Źródło: [rozszerzone opracowanie własne na podstawie [53]] Rysune 3 prezentuje omplesowy proces estracji cech obietów, tóry w przypadu analizy testu obejmuje: onstruowanie cech, generowanie ich podzbioru, ocenianie otrzymanych podzbiorów oraz zatwierdzanie rezultatów jeśli uprzednio zostało spełnione ryterium stopu W nietórych zastosowaniach pierwszy etap onstruowania cech nazywany jest etapem wstępnego przetwarzania (ang preprocessing) Konstruowanie cech w analizie testu zawiera taie działania, ja standaryzacja (ang standadization), normalizacja (ang normalization), wydobycie loalnych cech (ang extraction of local features) [54] Dodatowo, do działań tych można zaliczyć technii wstępnego przetwarzania doumentów testowych wymienione w podpuncie 221 Konstruowanie cech polega więc na wyorzystaniu całej dostępnej informacji w celu przejścia do nowej przestrzeni Nowo uzysana przestrzeń może być, w zależności od wyorzystanych metod, zreduowana, rozszerzona, pozostawiona bez zmian lub wewnętrznie zmieniana w różnych ierunach Reducja wymiaru dotyczy zastosowania metod wbudowanych, tóre również powodują sonstruowanie nowych cech (pseudo wyrażeń) z cech wyjściowych (podstawowych, bazowych) [55-57] Transformacja reduująca odbywa się na drodze przeształcenia liniowego bądź nieliniowego Do liniowych przeształceń należą: analiza sładowych głównych (ang principal components analysis PCA) lub rozład na wartości osobliwe (ang singular value decomposition SVD) wyorzystywane w urytym indesowaniu semantycznym (ang latent semantic indexing LSI) [20, 58] Natomiast do nieliniowych przeształceń można zaliczyć odwzorowanie Sammona oraz salowanie 33 wielowymiarowe (ang multi dimensional scaling MDS) [56] Rozszerzanie przestrzeni w przypadu analizy testu (estracji wyrażeń) nie znajduje zastosowania Metodą, tóra działa i modyfiuje w różnych ierunach zbiór cech, jest metoda wydobywania cech loalnych Przypade, gdy przestrzeń cech (jej wymiarowość) pozostaje bez zmian, świadczy o zastosowaniu metod z zaresu standaryzacji, normalizacji i zabiegów semantycznych omówionych w podpuncie 221 Etapem, tóry następuje po onstruowaniu cech obietów, jest ich selecja Polega ona na wyborze możliwie małego podzbioru cech, tóry da ja najwięszą możliwość rozróżnienia obietów (doumentów lub wyrażeń w orpusie lingwistycznym) Należy przy tym zaznaczyć, że może być wiele różnych ryteriów oceny, zależnych od specyficznego zastosowania (zwłaszcza w przypadu podejścia typu wrapper) Wybór cech polega więc na zachowaniu jedynie tych użytecznych, tóre niosą najwięszą ilość informacji i wyeliminowaniu pozostałych [55] Proces selecji z oryginalnego zbioru cech dąży do otrzymania optymalnego ich podzbioru, tóry zazwyczaj jest niemożliwy do osiągnięcia Podzbiór ten otrzymywany jest w wyniu procesu (rysune 3) sładającego się z liu podetapów generowania podzbioru cech na drodze pomiaru i związanego z nim przyjętego ryterium oceny, oraz decyzji czy wygenerowany podzbiór cech jest odpowiedni po spełnieniu zadanego ryterium stopu [53, 54] Po sparametryzowaniu i wyonaniu etapu generującego podzbiory dochodzi się do ich oceny Posługując się ryterium oceny podzbiorów, można podzielić algorytmy selecji cech na cztery ategorie: filtry, wrapper, metody wbudowane (ang embedded methods) oraz hybrydy [54, 57, 59] Przy użyciu wrappera oraz metod wbudowanych można otrzymać różne podzbiory cech z małymi peturbacjami w zbiorze danych W celu zminimalizowania tego efetu wyorzystuje się zbiór różnych metod (ang ensemble learning) [60] Dodatowo, oprócz ww podziału na filtry, wrappery, metody wbudowane i hybrydy, wprowadzane są ryteria niezależne (ang independent criteria) oraz zależne (ang dependent criteria) [53] Kryteria niezależne zazwyczaj związane są z modelem filtrów i do oceny podzbioru cech nie wyorzystują żadnego algorytmu esploracji danych Kryteria te posługują się pomiarem odległości (ang distance measures), zawartości informacji (ang information measures), zależności (ang dependency measures) i spójności zmiennych (ang consistency measures) Drugie ryterium zależne,

10 Marcin Mirończu, Przegląd metod i techni esploracji danych testowych odnosi się do modelu wrappera i wyorzystuje predefiniowane i wydajne algorytmy esploracji danych w selecji cech Niezależnie od podziału, w przypadu wrapperów oraz rozwiązań hybrydowych, wybrane cechy są dobierane w tai sposób, aby zapewnić możliwe najlepsze wynii działania docelowej metody (np grupowanie, lasyfiacja), podczas gdy filtr jest niezależny od stosowanej później metody przetwarzania doumentów Wybór podzbiorów odpowiednich cech i ich ocenianie trwa dopói nie zostanie spełniony warune stopu Rysune 3 prezentuje ten warune jao ację decyzyjną pt Kryterium stopu spełnione? Warune stopu jest spełniony gdy spełnione są następujące waruni: a) przeszuiwanie jest ompletne tj zbadano całą przestrzeń za pomocą algorytmu przeszuiwania, b) osiągnięta została specyficzna granica np ilości iteracji czy też ilości cech, c) dodawanie lub usuwanie cech nie polepsza i nie generuje ich podzbiorów o lepszych parametrach, d) oreślony błąd pomiaru spadł poniżej wyznaczonej granicy Ostatnim etapem selecji cech, choć nie oniecznie ończącym ten proces, jest faza zatwierdzania rezultatów Bezpośrednio jaość wybranego podzbioru cech można ocenić a priori na podstawie jego porównania z cechami jaie się oczeuje Zazwyczaj taa wiedza a priori nie jest dana, wówczas wyorzystywane są metody pośrednie polegające na badaniu jaości osiągów (zwięszanie, bądź zmniejszanie np celności lasyfiacji) algorytmów esploracyjnych do wyznaczonego zadania np lasyfiacji W ogólnym przypadu zastosowanie selecji cech, czy też ogólniej estracji cech, ma dodatowo za zadanie: zreduować dane, zmniejszyć ilość potrzebnej pamięci i tym samym przyczynić się do przyśpieszenia algorytmów operujących na tych danych, zreduować zbiór cech, ulepszyć przetwarzanie (osiągi) związane z doładnością przewidywania oraz doprowadzić do zrozumienia danych poprzez pozysanie wiedzy o procesie, tóry generuje dane i dostarczyć możliwość ich wizualizowania [54] Koncepcję podziału selecji cech wyrażoną w postaci trójwymiarowego szieletu (ang three-dimensional framewor), oraz uogólnione, algorytmiczne modele filtrów zostały przedstawione w pracy [53] 2222 Wyszuiwanie informacji Termin wyszuiwanie informacji oreśla i odnosi się do procesów oraz metod i techni wyorzystywanych w wyszuiwaniu żądanej informacji w zbiorze doumentów testowych) [10, 20, 61, 62] Wyszuiwanie to odbywa się na podstawie zadanych zapytań sładających się z wyrażeń t (ang terms) Z dziedziny wyszuiwania informacji wywodzą się też oncepcje dotyczące min budowy i reprezentacji doumentów testowych, ich indesowania oraz oceny zastosowanego rozwiązania Koncepcje te stosowane są przy analizach doumentów testowych opisanych w niniejszym opracowaniu Wyszuiwanie informacji reprezentacja przestrzenno-wetorowa Na podstawie macierzy A z odpowiednio sonstruowanymi wagami w ij możliwe jest wyznaczenie podobieństwa słów oraz doumentów Podobieństwo słów wyrażane jest poprzez oreślenie podobieństwa odpowiadających im olumn tej macierzy, natomiast o podobieństwie doumentów wniosuje się na podstawie analizy podobieństwa wierszy tej macierzy Najczęściej wszystie wagi w ij wetorów macierzy A w zastosowaniach pratycznych są normalizowane do 1 W celu oreślenia miary podobieństwa (doumentów ja i wyrażeń) stosuje się metryi ja np: eulidesową, bloową (Manhattanowi), L, uogólnioną Minowsiego L λ, cosinusową, Jaccarda czy też Dicea [10, 20, 23] Podobieństwo doumentów ustala się na podstawie pomiaru odległości W wyszuiwaniu należy minimalizować odległość masymalizując w ten sposób podobieństwo Najpopularniejsze w zastosowaniach metryi, oreślające podobieństwo doumentów wrażane są w następujący sposób: a) miara Eulidesowa, wyrażana jest w postaci wzoru: (, ) = n d E i j = ( w ( i) w ( j)) (4) 1 Gdzie: - i oraz j oznaczają i-ty i j-ty doument między tórymi wyznaczana jest odległość (odpowiednie wiersze macierzy A z reprezentacji, tórą przedstawia rysune 2) - n ilość sładowych (wyrażeń) występujących w macierzy A - w (i) i w (j) olejne -te wagi (wartości obserwacji) dla i-tego oraz j-tego doumentu b) miara Manhattanu (L 1 ) nazywana taże miarą miejsą, wyrażana jest w postaci wzoru: d = n M ( i, j) ( w ( i) w ( j)) (5) = 1 c) miara L, wyrażana jest w postaci wzoru: 34

11 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str d ( i, j) = max ( w ( i) w ( j) (6) d) miara uogólniona Minowsiego L λ, wyrażana jest w postaci wzoru: 1 d λ λ λ ( i, j) = ( n ( w ( i) w ( j)) ) (7) = 1 Gdzie: - λ 1 jeśli za λ przyjęte zostanie: λ = 2 uzysana zostanie metrya Eulidesowa, λ = 1 to uzysana zostanie metrya Manhattanu i λ à to uzysana zostanie metrya L e) miara odległości osinusowa, wyrażana jest w postaci wzoru: n w ( i) w ( j) d = = C ( i, j) 1 (8) n n w ( i) 2 w ( j) 2 = 1 = 1 f) miara Jaccarda, wyrażana jest w postaci wzoru: n 2 w ( i) w ( j) d = = J ( i, j) 1 n (9) n w ( i) 2 + w ( j) 2 = 1 = 1 g) miara współczynnia Dicea, wyrażany jest w postaci wzoru: 2 d i d j d D ( i, j) = (10) ( d i + d j ) Wzór (współczynni) Dicea można interpretować następująco: 2 liczba wspolnych wyrazen w doumencie d i i d j d D ( i, j) = (11) liczba wyrazen w doumencie d i + liczba wyrazen w doumencie d j h) miara oszacowania porycia (ang expected overlap measure) [23], wyorzystywana gdy wagi wyrażeń w ij zostały wyrażone probabilistycznie (równanie 2) Miara ta wyrażana jest w postaci wzoru: P( Y i = t d i, M ) d EO ( d i, d j, A) = (12) t d d P( Y = t d M i j j j, ) W przestrzeni wetorowej wyorzystując ww miary podobieństwa istnieje możliwość wyszuiwania doumentów na podstawie zapytania Q Wyszuiwanie to polega na wniosowaniu opierającym się na zapytaniu Q, prowadzącym do odnalezienia najbardziej podobnych do niego obietów Obiety te w opisywanym przypadu stanowią zbiór doumentów testowych Zapytanie Q może zostać wyrażone w postaci: a) Boolowsiej funcji logicznej na zbiorze dostępnych wyrażeń np pożar AND mocne zadymienie AND prąd gaśniczy AND NOT (prąd eletryczny), b) wetora wag Q = (q 1,,q j ), gdzie q j stanowi wagę wyrażenia w zapytaniu i q j є <0,1> Jeżeli zapytanie Q będzie sładało się z poszuiwanych wyrażeń i w przypadu zastosowania innej reprezentacji ich wag niż Boolowsa, to otrzymany zostanie raning poszuiwanych doumentów Zastosowanie zapytania Q w wetorowej wagowej postaci wyrażeń i zastosowanie jednolitego zapisu, tj taiej samej wetorowej reprezentacji dla zbioru doumentów i wyrażeń w postaci macierzy A oraz wetora Q, umożliwia stworzenie raningu poszuiwanych doumentów Wyszuiwanie w tym przypadu opiera się na badaniu odległości, tóra jest oreślona za pomocą opisanych powyżej miar między wetorem zapytań Q sładającym się z wybranych wyrażeń i ich wag a macierzą A (wierszami w przyjętej w opracowaniu reprezentacji) W przypadu zastosowania reprezentacji Boolowsiej zarówno dla A ja i Q przy wyszuiwaniu nie opartym na mierze lecz na dopasowaniu, istnieje szereg problemów min: a) bra jest naturalnego znaczenia pojęcia odległości między zapytaniem a doumentem W wyniu wyszuiwania uzysiwany jest nieuporządowany zbiór (względem miary) doumentów, pasujących doładnie do zapytania Q, b) bra jest możliwości wprowadzenia raningu doumentów, c) powstaje problem z onstruowaniem wyrażeń boolowsich, stąd pojawia się problem użyteczności (ang usability) polegający na zrozumieniu przez 35

12 Marcin Mirończu, Przegląd metod i techni esploracji danych testowych użytownia sposobu formułowania tych wyrażeń i ich stosowaniu Mimo tych wad rozwiązanie oparte o reprezentacje Boolowsą jest dalej popularne i szeroo stosowane ze względu na implementacyjną prostotę i efetywność W celu przezwyciężenia ww problemów stosuje się rozszerzone podejścia boolowsie do reprezentacji i wyszuiwania doumentów, tóre pozwalają na uzysanie raningu (załadają one częściowe dopasowanie doumentów do zapytania) Wyorzystuje się również pozostałe wyżej wymienione odmiany reprezentacji doumentów testowych tj: częstotliwościową występowania wyrażeń, odwrotną częstość etc Ich głównym atutem jest to iż umożliwiają tworzenie raningu istotności zwracanych doumentów na podstawie zadanego wzorca Q Wyszuiwanie informacji reprezentacja grafowa W reprezentacji grafowej analogicznie ja w reprezentacji przestrzenno-wetorowej w celu np wyszuiwania informacji, należy oreślić czym jest podobieństwo pomiędzy samymi doumentami ja i doumentami a wzorcem zapytania Q Wzorzec zapytania Q w tym przypadu może być tratowany i reprezentowany jao pewnego rodzaju graf Schener i współpracownicy zdefiniowali ila miar, min: opartych na masymalnym wspólnym podgrafie, odległości edycyjnej (ile operacji należy wyonać aby przeształcić jeden graf w drugi) itp Po zdefiniowaniu odpowiednich miar możliwe jest taże przeprowadzenie innych niżej opisanych metod analizy testu ja np lasyfiacja czy grupowanie opisanych poniżej 2223 Klasyfiacja doumentów testowych Klasyfiacja, nazywana taże ategoryzacją, doumentów testowych polega na oreśleniu do jaiej lasy doumentów można zaliczyć wybrany test [18, 63-66] lub jego fragment [67, 68] Klasyfiacja odbywa się za pomocą wyznaczonego w procesie uczenia lasyfiatora, tóry będzie doonywał przyporządowania doumentów do jednej lub ilu uprzednio zdefiniowanych las Klasy te nie są definiowane wprost, lecz poprzez zbiór trenujący, tóry stanowi grupa doumentów już odpowiednio zalasyfiowana ręcznie np przez espertów W więszości przypadów lasy nie są zagnieżdżane, natomiast przyjmuje się, iż jeden doument może należeć do więcej niż jednej lasy Do ategoryzacji doumentów testowych używane są taie technii, ja: drzewa decyzyjne (ang decission tree), reguły decyzyjne, algorytmy najbliższych sąsiadów i związane z nimi różne metryi (min przedstawione w podpuncie 211), lasyfiator bayesowsi, sieci neuronowe, metody regresyjne czy też technii z zaresu maszyn wetorów wspierających (ang suport vector machines SVM) [69] oraz metody odnajdywania wspólnych podgrafów opartej na metodzie najbliższych sąsiadów ze specjalizowaną miarą odległości, w przypadu zastosowania modelu grafowego doumentów [30] 2224 Grupowanie doumentów testowych Grupowanie doumentów testowych polega na wyznaczeniu grup podobnych doumentów np ze względu na ich tematyę, min za pomocą analizy statystycznej słów występujących w teście [17, 18, 31, 70-72] Grupowanie doumentów testowych jest zadaniem porewnym do lasyfiacji W tym przypadu jedna system nie posiada wejściowej wiedzy w postaci już zawalifiowanych doumentów, czy też las wyznaczonych przez espertów Zadaniem tej metody jest taie pogrupowanie doumentów, by doumenty należące do jednej lasy były do siebie ja najbardziej podobne i jednocześnie różniły się znacząco od tych należących do innych las Do grupowania doumentów testowych używane są taie technii, ja: analiza supień, lastrowanie (ang clustering) [73], samoorganizujące się mapy (ang self-organization map) [74], algorytmy aprosymacji wartości oczeiwanej (ang expectationmaximization) [75] czy też zbiory przybliżone [76] 23 Wizualizacja Wizualizacja to metoda związana z ońcową realizacją analizy testu i wyonywana jest w celu zaprezentowania i lepszego zrozumienia otrzymanych wyniów Głównym celem wizualizacji jest zapewnienie inżynierowi wiedzy lub oprogramowania prostej metody interpretacji uzysanych wyniów Najczęściej wizualizacji poddawane są związi zachodzące pomiędzy wyodrębnionymi fatami lub zależności zachodzące w struturze rozpatrywanego zbioru doumentów testowych [34] Metody wizualizacyjne związane są zarówno z inżynierią wiedzy ja i esploracyjną analizą testu Do najbardziej znanych metod reprezentacji (wizualizacji) wyniów (danych), należą: sieci semantyczne związane z ontologiami, raty pojęć (ang line diagrams) wyorzystywane w formalnej analizie pojęć (ang formal concept analysis FCA), histogramy, grafy strony internetowych (ang websites as graphs), wyresy słupowe, olumnowe, mapy znaczeń (ang mindmaps), wyresy gwiazdowe, macierze orelacji 36

13 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str narysowane jao obrazy piselowe wyorzystywane w wyszuiwaniu, lasyfiowaniu oraz grupowaniu doumentów testowych [20, 72, 77-79] Przyład wizualizacji za pomocą piselowych macierzy orelacji stosowanych podczas wyszuiwania doumentów testowych W przypadu gdy doumenty są reprezentowane za pomocą modelu wetorowego (podpunt 211) i gdy jest budowana macierz strutury reprezentacji przestrzenno-wetorowej doumentów (rysune 2) o znacznych wymiarach wówczas pomocne oazują się piselowe macierze orelacji Ułatwiają one porównanie i wyznaczenie podobnych do siebie doumentów Przyładową piselową macierz orelacji przedstawia rysune 4 Rysune 4 Odległość między parami doumentów Źródło: [opracowanie własne] Rysune 4 przedstawia sytuację, w tórej do porównania zostały wzięte trzy doumenty, ta więc macierz A ma wymiary 3x3 Stopień orelacji pomiędzy doumentami oreśla się na podstawie wybranej odległości (podpunt 222): Minowsiego, osinusowej, Jacarda czy też Dicea Odległość pomiędzy doumentami w rozpatrywanej macierzy została znormalizowana do 1 i wartościom od 0 do 1 przypisano odpowiednią salę barw Kwadraty blisie niebiesiemu oznaczają doumenty mniej podobne do siebie, blisie czerwonemu zaś bardziej podobne W przypadu, gdy np zostanie użyta odległość osinusowa to wówczas: bardziej czerwone pisele odpowiadać będą więszym wartościom osinusa (bliższe ąty), a bardziej niebiesie dopowiadać mniejszym wartościom osinusa (więsze ąty) 3 PODSUMOWANIE I WNIOSKI W procesie wstępnego przetwarzania analizy doumentów testowych stosuje się zabiegi związane 37 z automatyczną oretą testów (ortograficzną, gramatyczną) w celu polepszenia jaości doonywanej analizy Dodatowo w tym celu stosuje się również taie metody, ja: wyrywanie ońca zdań, analizę morfologiczną, usuwanie niejednoznaczności (estracja rdzeni wyrażeń, lematyzacja), wyrywanie występowania zaimów, wyrywanie nazw własnych i terminów specjalistycznych, rozład zdań złożonych na zdania proste, rozpoznawanie wyrażeń rzeczowniowych oraz grup czasowniowych, zmniejszanie liter wyrażeń etc Zadania te należą do głęboiej analizy testu Podczas doonywania płytiej analizy testu we wstępnym przetwarzaniu zazwyczaj wyorzystuje się tylo część techni z głęboiej analiza testu Rola jej ograniczana jest najczęściej do odfiltrowania zbędnych wyrażeń, znalezienia formy podstawowej wyrażenia lub wyestrahowania i uwypulenia najważniejszych poszuiwanych cech w zależności od rodzaju doonywanej analizy W dalszym procesie płytiej analizy pomija się jedna rozpoznawanie wewnętrznej strutury i funcji wyrażeń w zdaniach czy całych testach Ze względu na zastosowanie niepełnej głęboiej analizy testu na początu procesu płytiej analizy, otrzymywany jest ompromis w postaci hybrydowego przetwarzania testu W wielu przypadach np podczas przeszuiwania i wyszuiwania doumentów zastosowanie płytiej analizy testu z elementami złożonej analizy we wstępnym przetwarzaniu oazuje się wystarczającym podejściem do uzysania potrzebnych informacji Uproszczenia pozwalają na uzysanie oszczędności czasu w przetwarzaniu dużych orpusów i grup doumentów testowych Pomimo ich zastosowania płyta analiza testu wciąż jest procesem złożonym i silnie związanym z jaością danych testowych (użytego języa i jego poprawności do opisu pewnej rzeczywistości) oraz ze słownictwem, tóre wyznacza ontest doumentów np raporty biznesowe będą posiadać inne słownictwo niż raporty z acji ratowniczo-gaśniczych Kontest ten powoduje iż trzeba będzie poszuiwać i modelować różne zagadnienia i starać się estrahować cechy specyficzne dla danej dziedziny Powoduje to potrzebę tworzenia narzędzi dedyowanych i profilowanych pod daną dziedzinę zastosowań, nie zaś uniwersalnych, działających na dużym poziomie abstracji niezależnym od dziedziny i ontestu analizy Oczywiście sam mechanizm taiego wysoo abstracyjnego, wstępnego przetwarzania doumentów testowych, może być zaimplementowany Główny rdzeń płytiej analizy, prowadzący np do

14 Marcin Mirończu, Przegląd metod i techni esploracji danych testowych wyestrahowania cech analizowanej dziedziny i przetworzenia wyniów w ontologie, już taim automatycznym procesem być nie musi Wynia to z tego, iż espert z danej dziedziny decyduje o tym czy pozysane atrybuty są przydatne czy też nie w modelowaniu danego zjawisa Algorytm, czy wybrana technia, jest sama w sobie mało użyteczna w tym sensie, że to człowie nadaje znaczenie uzysanym rezultatom w wyniu zastosowania taiego a nie innego podejścia w badaniach Należy podreślić fat, że wyżej wymienione i opisane metody analizy w zastosowaniach coraz bardziej przestają być autonomiczne Należy przez to rozumieć, że w celu przeprowadzenia np wyszuiwania testu stosuje się zabiegi związane z grupowaniem doumentów testowych lub grupowaniem pojęć przy wyorzystaniu przyładowo metody urytego indesowania semantycznego [20, 58, 80] Zabiegi te mają zazwyczaj na celu zmniejszenie, w tym przypadu, przestrzeni wyszuiwanych doumentów oraz indesujących je wyrażeń Poprzez taie mieszane podejście omponowania techni uzysuje się znaczną poprawę jaości przeprowadzanej analizy W przypadu wyszuiwania testów następuje polepszenie stosunu doładności do ompletności w zwracanej odpowiedzi, inaczej mówiąc polepsza się precyzja i przywołanie doumentów testowych na podstawie wygenerowanego zapytania Możliwe staje się taże, w przypadu łączenia wyszuiwania z grupowaniem, otrzymanie wydzielonych grup tematycznych doumentów w zależności od zadanego wzorca wyszuiwania Każda metoda charateryzuje się własnym sposobem oceniania jaości i dobieraniem odpowiedniej do tego miary Zagadnienia te są specyficzne i zależne od sposobu wybranej reprezentacji testu ja i algorytmu przetwarzania testu a nawet samego sposobu indesowania (różne sposoby indesowania i metody mogą wpływać np na szybość analizy) Wobec tego mierzenie jaości tórejś z metod ja i procesu esploracji doumentów testowych wydaje się być procesem wielowymiarowym i złożonym, zależnym od tego co chcemy osiągnąć w badaniu Musi jedna pozostać obietywne, reprezentatywne i rytyczne Literatura [1] Mirończu M Esploracja Danych w ontescie procesu Knowledge Discovery In Databases (KDD) i metodologii Cross-Industry Standard Process for Data Mining (CRISP-DM) Metody Informatyi Stosowanej, No 2, 2009 [2] Mirończu M Zmodyfiowana analiza FMEA z elementami SFTA w projetowaniu systemu wyszuiwania informacji na temat obietów hydrotechnicznych w nierelacyjnym atalogowym rejestrze Studia Informatica, No 2, 2011 [3] Mirończu M, Macia T Problematya projetowania modelu hybrydowego systemu wspomagania decyzji dla Państwowej Straży Pożarnej Zeszyty Nauowe SGSP, No 39, 2009 [4] Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 29 grudnia 1999 r w sprawie szczegółowych zasad organizacji rajowego systemu ratowniczo-gaśniczego DzU pt 5 i 6 [5] Abaus: System EWID99 [on-line] [dostęp: 1 maja 2009] Dostępny w Internecie: [6] Abaus: System EWIDSTAT [on-line] [dostęp: 1 maja 2009] Dostępny w Internecie: [7] Strona firmy abaus [on-line] [dostęp: 1 marca 2009] Dostępny w Internecie: [8] Krasusi A, Kreńs K Ewid 9x i co dalej? Przegląd Pożarniczy, No 6, 2006 [9] Mirończu M Przegląd i lasyfiacja zastosowań, metod oraz techni esploracji danych Studia i Materiały Informatyi Stosowanej SIMIS, No 2, 2010 [10] Myowieca A Inżynieria lingwistyczna Komputerowe przetwarzanie testów w języu naturalnym Warszawa: PJWSTK, 2007 [11] Przepiórowsi A Technii dezambiguacji morfo syntatycznej Powierzchniowe przetwarzanie języa polsiego Warszawa: Aademica oficyna wydawnicza EXIT, 2008 s [12] Vetulani Z Komuniacja człowiea z maszyną Komputerowe modelowanie ompetencji języowej Warszawa: Aademica Oficyna Wydawnicza Exit, 2004 [13] Przepiórowsi A, Kupść A, Marcinia M, Myowieca A Formalny opis języa polsiego Teoria i implementacja Warszawa: Aademica Ofcyna Wydawnicza Exit, 2002 [14] Lubaszewsi W (redator) Słownii omputerowe i automatyczna estracja informacji z testu Kraów: AGH, 2009 [15] Feldman R, Dagan I, Hirsh H Mining Text Using Keyword Distributions Journal of Intelligent Information Systems, No 10, 1998 [16] Witten I H, Don K J, Dewsnip M, Tablan V Text mining in a digital library International Journal on Digital Libraries, No 4, 2004, s

15 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str [17] Kozłowsi J, Neuman Ł Wspomaganie wyszuiwania doumentów mapami samoorganizującymi [Wrocław]: III Krajowa Konferencja MISSI 2002, września - Multimedialne i Sieciowe Systemy Informacyjne, 2002 [dostęp: 10 czerwca 2009] Dostępny w Internecie: [18] Boryci Ł, Sołdaci P Automatyczna lasyfiacja testów [Wrocław]: III Krajowa Konferencja MISSI 2002, września - Multimedialne i Sieciowe Systemy Informacyjne, 2002 [dostęp: 10 czerwca 2009] Dostępny w Internecie: [19] Neumann G, Pisorsi J A Shallow Text Processing Core Engine Computational Intelligence, No 18, 2002, s [20] Hand D,, Mannila H, Smith P Esploracja danych Wydanie 1 Warszawa: Wydawnictwo Nauowo- Techniczne, 2005 [21] Morzy M, Króliowsi Z Metody indesowania atrybutów zawierajacych zbiory Pro Dialog, No 15, 2003, s [22] Dudcza A Zastosowanie wybranych metod esploracji danych do tworzenia streszczeń testów prasowych dla języa polsiego Wydział Informatyi i Zarządzania Instytut Informatyi Poznań: Politechnia Poznańsa 2007 [23] Goldszmidt M, Sahami M A Probabilistic Approach to Full-Text Document Clustering 1998 [24] Singhal A, Bucley C, Mitra M, Mitra A Pivoted Document Length Normalization ACM Press, 1996, s [25] Robertson S E, Waler S, Jones S, Hancoc-Beaulieu M M, Gatford M Oapi at TREC , s [26] Lin D Using syntactic dependency as local context to resolve word sense ambiguity [Madrid, Spain]: Annual Meeting of the ACL Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics, 1997 [27] Matsuo Y, Ishizua M Keyword Extraction From A Single Document Using Word Co-Occurrence Statistical Information International Journal on Artificial Intelligence Tools, No 13, 2004, s [28] Maciołe P, Dobrowolsi G Propozycja metody lasyfiacji doumentów w języu polsim In: Grzech A, Juszczyszyn K, Kwaśnica H and Nguyes NT, editors Inżynieria wiedzy i systemy espertowe Warszawa: Aademica oficyna wydawnicza EXIT, 2009 [29] Chow T W S, Haijun Zhang, Rahman M K M A new document representation using term frequency and vectorized graph connectionists with application to document retrieval Expert Systems with Applications, No 36, 2009, s [30] Schener A, Kandel A, Bune H, Last M Graph- Theoretic Techniques for Web Content Mining World Scientific Publishing Co, 2005 [31] Broda B Mechanizmy grupowania doumentów w automatycznej estracji sieci semantycznych dla języa polsiego Wydział Informatyi i Zarządzania Wrocław: Politechnia Wrocławsa, 2007 [32] Gruber T R A translation approach to portable ontology specifications Knowledge Acquisition, No 5, 1993, s [33] Meyer B Programowanie zorientowane obietowo 2005 [34] Lula P Text mining jao narzędzie pozysiwania informacji z doumentów testowych StatSoft, 2005 [35] Savinov A Concept-Oriented Model In: Ferraggine V E, Doorn J H, Rivero L C, editors Handboo of Research on Innovations in Database Technologies and Applications: Current and Future Trends: IGI Global, 2009 [36] Savinov A Principles of the Concept-Oriented Data Model 2004 [dostęp: 22 grudnia 2009] Dostępny w Internecie: 04pdf [37] Savinov A Informal introduction into the Concept- Oriented Data Model 2005 [dostęp: 22 grudnia 2009] Dostępny w Internecie: pdf [38] Savinov AA Concept-Oriented Model and Query Language CoRR, No abs/ , 2009 [39] Praca zbiorowa Wiipedia Full text search [dostęp: 22 grudnia 2009] Dostępny w Internecie: [40] Moens M F Information Extraction: Algorithms and Prospects in a Retrieval Context (The Information Retrieval Series) Springer, 2006 [41] Biel D M, Schwartz R, Weischedel R M An Algorithm that Learns What's in a Name Machne Learning, 1999, s [42] McNamee P Language identification: a solved problem suitable for undergraduate instruction Journal of Computing Sciences in Colleges, No 20, 2005, s

16 Marcin Mirończu, Przegląd metod i techni esploracji danych testowych [43] He X, Yang M, Gao J, Nguyen P, Moore R Improved Monolingual Hypothesis Alignment for Machine Translation System Combination No 8, 2009, s 1-19 [44] Feng Y, Liu Y, Mi H, Liu Q Lattice-based system combination for statistical machine translation [Singapore]: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing Volume 3, 2009 [45] He X, Toutanova K Joint optimization for machine translation system combination [Singapore]: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing Volume 3, 2009 [46] Afantenos S, Karaletsis V, Stamatopoulos P Summarization from medical documents: a survey No 33, 2005, s [47] Turney P D Learning Algorithms for Keyphrase Extraction Information retrieval, No 2, 2000, s [48] Turney P D Mining the Web for Lexical Knowledge to Improve Keyphrase Extraction: Learning from Labeled and Unlabeled Data 2002 [49] Indya-Piaseca A Model użytownia w internetowych systemach wyszuiwania informacji Wydział Informatyi i Zarządzania Wrocław: Politechnia Wrocławsa, 2004 [50] Dasgupta A, Drineas P, Harb B, Josifovsi V, Mahoney M W Feature selection methods for text classification [San Jose, California, USA]: Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, 2007 [51] Li S, Xia R, Zong C, Huang C R A framewor of feature selection methods for text categorization [Suntec, Singapore]: Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP Volume 2, 2009 [52] Karlgren J, Sahlgren M From Words to Understanding 2001 [dostęp: 10 stycznia 2010] Dostępny w Internecie: df [53] Liu H, Yu L Toward integrating feature selection algorithms for classification and clustering Knowledge and Data Engineering, IEEE Transactions on, No 17, 2005, s [54] Guyon I, Elisseeff A Introduction to Feature Extraction Studies in Fuzziness and Soft Computing Berlin/Heidelberg: Springer 2006 [55] Torola K Feature extraction by non parametric mutual information maximization The Journal of Machine Learning Research, No 3, 2003, s [56] Pal S K, Mitra P Pattern Recognition Algorithms for Data Mining Scalability, Knowledge Discovery and Soft Granular Computing London New Yor Washington, DC: CHAPMAN & HALL/CRC, 2004 [57] Praca zbiorowa JMLR Special Issue on Variable and Feature Selection [dostęp: 5 stycznia 2010] Dostępny w Internecie: [58] Deerwester S, Dumais S T, Furnas G W, Landauer T K, Harshman R Indexing by latent semantic analysis Journal of the American Society for Information Science, No 41, 1990, s [59] Kozłowsi M Systemy uczące się - studium problemów Warszawa: Politechnia Warszawsa, Wydział Eletronii i Techni Informacyjnych [dostęp: 12 stycznia 2010] Dostępny w Internecie: sipdf [60] Tuv E Ensemble Learning In: Guyon I, Gunn S, Niravesh M, Zadeh L A, editors Feature Extraction: Foundations and Applications (Studies in Fuzziness and Soft Computing) (Hardcover): Springer, 2006 [61] Baeza-Yates R, Ribeiro-Neto B Modern Information Retrieval Boston: Addison-Wesley Longman Publishing, 1999 [62] Manning C D, Raghavan P, Schtze H Introduction to Information Retrieval Cambridge University Press India, 2008 [63] Song F, Liu S, Yang J A comparative study on text representation schemes in text categorization Pattern Analysis & Applications, No 8, 2005, s [64] Weigend A S, Wiener E D, Pedersen J O Exploiting Hierarchy in Text Categorization Information Retrieval, No 1, 1999 [65] Yang Y, Liu X A re-examination of text categorization methods [New Yor]: ACM SIGIR Conference of Research and Development in Information Retrieval, 1998 [66] Łażewsi Ł, Piuła M, Siemion A, Szlarzewsi M Klasyfiacja doumentów testowych Warszawa: PJWSTK 2005 Dostępny w Internecie: [67] Agarwal S, Yu H Automatically classifying sentences in full-text biomedical articles into Introduction, Methods, Results and Discussion Bioinformatics, No 25, 2009, s [68] Sebastiani F Machine learning in automated text categorization ACM Comput Surv, No 34, 2002, s 1-47 [69] Aas K, Eivil L Text Categorisation: A Survey Technical Report, Norwegian Computing Center,

17 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str [70] Weiss S, White B, Apte C, Weiss S M, White B F, Apte V Lightweight Document Clustering 2000 [71] Domeniconi C, Gunopulos D, Ma S, Papadopoulos D, Yan B Locally adaptive metrics for clustering high dimensional data Data Mining and Knowledge Discovery, No 1, 2006, s [72] Sola J L Text Data Mining: Theory and Methods Statistic Survey [73] Everitt B S, Landau S, Leese M Cluster Analysis 2001 [74] Kohonen T Self-Organizing Maps In: Sciences SSiI, editor Wydanie 3 Berlin: Springer, 2001 [75] Dempster A P, Laird N M, Rdin D B Maximum Lielihood from Incomplete Data via the EM Algorithm Journal of the Royal Statistical Society, No 39, 1977, s 1-38 [76] Rutowsi L Metody i technii sztucznej inteligencji Wydawnictwo Nauowe PWN, 2005 [77] Wolff K E A first course in formal concept analysis 1994 [dostęp: 22 grudnia 2009] Dostępny w Internecie: _Formal_Concept_Analysispdf [78] Friedman V Data Visualization: Modern Approaches [dostęp: 29 grudnia 2009] Dostępny w Internecie: [79] Piwowar K Wizualizacja danych a ich używalność czyli poazać to ta, aby inni to zrozumieli [dostęp: 29 grudnia 2009] Dostępny w Internecie: esperci/blogi/wizualizacja-danych-a-ich-uzywalnosc czyli-poazac-to-ta-aby-inni-to-zrozumieli-384 [80] Osińsi S, Weiss D Projet Lingo i Carrot2 [dostęp: 1 stycznia 2010] Dostępny w Internecie: Projet współfinansowany ze środów Europejsiego Funduszu Społecznego w ramach Programu Operacyjnego Kapitał Ludzi Działanie 82 Transfer wiedzy, Poddziałanie 822 Regionalne strategie innowacji, budżetu państwa oraz środów Samorządu Województwa Podlasiego 41

Pokazać jeszcze