AUTOREFERAT. Załącznik nr Imię i nazwisko: Julian Szymański

Transkrypt

1 Załącznik nr 3 AUTOREFERAT 1. Imię i nazwisko: Julian Szymański 2. Posiadane dyplomy, stopnie naukowe/ artystyczne z podaniem nazwy, miejsca i roku ich uzyskania oraz tytułu rozprawy doktorskiej dr nauk technicznych dziedzina: nauki techniczne dyscyplina: informatyka specjalność: sztuczna inteligencja tytuł pracy: Wyszukiwanie kontekstowe w pamięci semantycznej instytucja: Politechnika Gdańska; Wydział Elektroniki, Telekomunikacji i Informatyki 2003 mgr filozofii, instytucja: Uniwersytet Mikołaja Kopernika w Toruniu; Wydział humanistyczny, Instytut Filozofii 1998 mgr inż. informatyki, instytucja: Politechnika Gdańska; Wydział Elektroniki, Telekomunikacji i Informatyki 3. Informacje o dotychczasowym zatrudnieniu w jednostkach naukowych/ artystycznych obecnie Politechnika Gdańska; Wydział Elektroniki, Telekomunikacji i Informatyki, Katedra Architektury Systemów Komputerowych; stanowisko: adiunkt; zakres prac: praca dydaktyczna oraz badawcza w ramach projektów naukowych związanych z wyszukiwaniem informacji i sztuczną inteligencją Politechnika Gdańska; Wydział Elektroniki, Telekomunikacji i Informatyki, Katedra Architektury Systemów Komputerowych; stanowisko: asystent; zakres prac: praca badawcza i dydaktyczna. 1

2 4. Wskazanie osiagnięcia 1 wynikającego z art. 16 ust. 2 ustawy z dnia 14 marca 2003 r. o stopniach naukowych i tytule naukowym oraz o stopniach i tytule w zakresie sztuki (Dz. U r. poz. 882 ze zm. w Dz. U. z 2016 r. poz ): a) tytuł osiagnięcia naukowego/artystycznego: Metody reprezentacji i analizy tekstu do automatycznego przetwarzania repozytoriów encyklopedycznych b) (autor/autorzy, tytuł/tytuły publikacji, rok wydania, nazwa wydawnictwa, recenzenci wydawniczy): 1. Julian Szymański Comparative Analysis of Text Representation Methods Using Classification Cybernetics and Systems, Taylor & Francis 45(2): (2014) (wkład 100%, IF 2014: 0,840) DOI: 2. Julian Szymański, Nathan Kawalec An Analysis of Neural Word Representations for Wikipedia Articles Classification Cybernetics and Systems, Taylor & Francis (2019) (wkład 50%, IF 2017: 1.197) DOI 3. Łukasz Kucharczyk, Julian Szymański Path-based methods on categorical structures for conceptual representation of Wikipedia articles Journal of Intelligent Information Systems, Springer 48(2): (2017) (wkład 50%, IF 2017: 1,107) DOI: 4. Julian Szymański, Jacek Rzeniewicz: Identification of category associations using a multilabel classifier Expert Systems with Applications, Elsevier 61: (2016) (wkład 50%, IF 2016: 3,928) DOI: 1 w przypadku, gdy osiągnięciem tym jest praca/ prace wspólne, należy przedstawić oświadczenia wszystkich jej współautorów, określające indywidualny wkład każdego z nich w jej powstanie. W przypadku, gdy praca zbiorowa ma więcej niż pięciu współautorów, habilitant załącza oświadczenie określające jego indywidualny wkład w powstanie tej pracy oraz oświadczenia co najmniej czterech pozostałych współautorów 2

3 5. Julian Szymański, Tomasz Boiński Crowdsourcing based evaluation of automatic references between Wordnet and Wikipedia International Journal of Software Engineering and Knowledge Engineering, World Scientific Publishing Company 29(3): (2019) (wkład 50%, IF 2017: 0,397) DOI: c) omówienie celu naukowego/artystycznego ww. pracy/prac i osiagniętych wyników wraz z omówieniem ich ewentualnego wykorzystania: C 1. Kontekst prowadzonych prac badawczych i cele naukowe. Ilość informacji zapisanej w języku naturalnym przyrasta w bardzo szybkim tempie. W związku z tym przeszukiwanie i automatyczna organizacja tych zasobów wymaga zastosowania algorytmów analizy tekstu. Dla ludzi rozumienie języka jest naturalne. Maszyny obecnie nie rozumieją języka naturalnego, co najwyżej potrafią go poprawnie przetworzyć, tak by w efekcie działania algorytmu na wyjściu pojawił się oczekiwany przez użytkownika rezultat. Przykładem takiego przetworzenia zasobów tekstowych jest dostarczanie przez system wyszukujący informacji, które są dla końcowego użytkownika najbardziej istotne z punktu widzenia jego preferencji. Sposób reprezentacji języka naturalnego w maszynie jest kluczowy do uzyskania dobrych rezultatów jego automatycznego przetwarzania. W przypadku stosowania do tego celu metod uczenia maszynowego potrzebne jest wyekstrahowanie cech, które będą charakteryzowały tekst. Cechy te dostarczają maszynie informacji o treści tekstu i stanowią jego reprezentację umożliwiającą automatyczną analizę. W zależności od zadania, jakie jest stawiane przed komputerem, do automatyzacji przetwarzania tekstu mogą być wykorzystywane różnego rodzaju reprezentacje. Ich wybór będzie miał wpływ na efektywność analizy oraz jakość wyników zwracanych przez algorytm użyty do rozwiązania określonego zadania, np.: przeszukania repozytorium tekstów czy też wykonania automatycznej kategoryzacji dokumentów (takiej jak klasyfikacja, grupowanie czy rankingowanie). Głównymi celami naukowymi przedstawionego cyklu publikacji powiązanych tematycznie było zbadanie własności reprezentacji tekstu umożliwiających jego kategoryzację z użyciem komputera oraz poprawa wybranych metod automatycznego przetwarzania danych tekstowych, takich jak: identyfikacja powiązań między kategoriami i integracja repozytoriów językowych. Do realizacji powyższych celów zbudowane zostały narzędzia umożliwiające wykonanie eksperymentów mających na celu porównanie różnych metod repre- 3

4 zentacji tekstu, które zweryfikowane zostały poprzez zastosowania w typowych zadaniach uczenia maszynowego: nadzorowanych i nienadzorowanych. Jako repozytorium badawcze wybrana została Wikipedia ze względu na jej rozmiar i powszechność dostępu do zapisanych w niej danych. Wynikiem zrealizowanych prac, przedstawionych w ramach cyklu publikacji, były wnioski i usprawnienia metod przetwarzania artykułów z tego repozytorium. Opracowano algorytmy do automatycznej integracji Wikipedii i słownika WordNet, jak również wskazano metody walidacji tego procesu w modelu wykorzystującym społeczność użytkowników (ang. crowdsourcing). Zaproponowano i dokonano oceny metod oczyszczania istniejących i budowy nowych powiązań w grafach kategorii w Wikipedii. Najważniejsze osiągnięcia przeprowadzonych badań: Wyniki analizy i usprawnienia metod reprezentacji artykułów Wikipedii dla nadzorowanych i nienadzorowanych metod uczenia maszynowego [1, 2, 3]. Do wykonania tych badań opracowano aplikację do automatycznego przetwarzania Wikipedii. Może ona zostać zastosowana w szeregu innych projektów analizujących to repozytorium i udostępniona została na licencji open source jako uniwersalne narzędzie do przetwarzania Wikipedii. Z użyciem tego narzędzia przeprowadzono analizę i usprawnienia następujących reprezentacji tekstu: metod klasycznych wykorzystujących treść, takich jak BoW (Bag of Words), ESA, kompresja, n-gramy oraz odnośniki pochodzące z powiązań pomiędzy analizowanymi tekstami, metod wykorzystujących wektorowe reprezentacje słów (ang. word embeddings), metod wykorzystujących kategorie. Metody identyfikacji nowych powiązań w sieciach kategorii wykorzystujące wielkoskalowy (wieloklasowy i wieloetykietowy) klasyfikator tekstów [4]. W rezultacie zastosowania zaproponowanych metod do analizy sytemu kategorii Wikipedii uzyskano sieć pojęć, która może być wykorzystana do opisu słów występujących jawnie w tekście na wyższym poziomie abstrakcji. Algorytmy automatycznego tworzenia powiązań między artykułami Wikipedii i słownikiem WordNet oraz metodologia ich oceny i poprawy w mode- 4

5 lu kooperacyjnym [5]. Rezultatem realizacji tego zadania jest udostępniona publicznie baza powiązań, która może być wykorzystana w szeregu zadań związanych z przetwarzaniem języka naturalnego takich jak np.: rozszerzanie informacji zawartej jawnie w tekście, czy też semantyczne oznaczanie powiązań miedzy artykułami Wikipedii. C 2. Przeprowadzone prace badawcze i uzyskane wyniki. Wikipedia jest jednym z największych repozytoriów wiedzy. Rozwijana jest przez społeczność wolontariuszy, którzy tworzą artykuły opisujące wybrane zagadnienia wiedzy ludzkiej i organizują je z użyciem kategorii. Dodatkowo kategorie te są powiązane ze sobą, tworząc sieć pojęć stanowiącą abstrakcyjny opis treści artykułów. Repozytorium to, jako publicznie dostępne, może być użyte w wielu zadaniach, między innymi do testowania jakości algorytmów analizujących aspekty ludzkiej aktywności. W przedstawionych tu badaniach Wikipedia użyta została jako źródło danych, na którym testowane były metody reprezentacji tekstu oraz opracowane zostały algorytmy kategoryzacji mające na celu automatyczne odtwarzanie kategorii artykułów pierwotnie utworzonych przez ludzi. Opracowano również algorytmy identyfikacji powiązań między tymi kategoriami oraz metody automatycznego łączenia zasobów językowych. Istnieją dwa główne źródła, na podstawie których można tworzyć reprezentacje tekstu: treść (wewnętrzne), odnośniki (zewnętrzne). Reprezentacje wykorzystujące treść dokumentu (ang. content based) opierają się bezpośrednio na tekście, z którego wydobywają cechy charakteryzujące go. Typowe metody reprezentacji wykorzystują jako cechy słowa wstępujące w tekście (BoW) lub też konstruują je z n-kolejnych tokenów, którymi mogą być słowa czy litery (n-gramy). Głównym ograniczeniem tego typu reprezentacji jest używanie jedynie tej informacji, która jawnie występuje w tekście. W oczywisty sposób uniemożliwia to uzyskanie jakości kategoryzacji porównywalnej z tą jaką wykonałby człowiek, który np. zna podobieństwa pomiędzy synonimami, czy też potrafi generalizować pojęcia. Rozszerzenia reprezentacji wnoszą dodatkową informację do tej, która jest jawnie zawarta w tekście np. poprzez odniesienie się do dodatkowej bazy dokumentów, jak ma to miejsce w metodzie jawnej analizy semantycznej (ang. Explicit 5

6 Semantic Analysis ESA) [6]. Inną metodą jest dostarczanie dodatkowej informacji o podobieństwie, czy znaczeniu słów, z zewnętrznych baz wiedzy o języku lub ze statystycznej analizy dużych korpusów tekstowych. Reprezentacje oparte na odnośnikach (ang. contex based) wykorzystują powiązania występujące pomiędzy dokumentami. Powiązania mogą być różnego rodzaju i zależą od typu dokumentów, np.: dla hipertekstu mogą być to odnośniki między stronami, a dla artykułów naukowych wykorzystać można przypisy bibliograficzne. Wstępne wyniki badania reprezentacji tekstów przeprowadzone na artykułach Wikipedii przedstawione zostały w pracy [1]. Wykonany został tam przegląd głównych metod reprezentacji wykorzystujących treść oraz odnośniki. Do analizy reprezentacji opartej na treści wybrano następujące podejścia: BoW. Podstawowy model reprezentacji tekstów wykorzystuje słowa zawarte w dokumencie do zbudowania wektora cech. W przeprowadzonych eksperymentach do wyznaczenia istotności poszczególnych cech użyto typowej metody ich ważenia TF IDF (ang. Term Frequency Inverse Document Frequency). By zwiększyć wyrazistość różnic i podobieństw między reprezentowanymi artykułami zastosowano przekształcenie wykorzystujące odległość kosinusową. Podejście to zamienia każdy wektor cech poszczególnego artykułu na wektor odległości pomiędzy wszystkimi artykułami w zbiorze uczącym. W rezultacie zamiast reprezentacji artykułua 1 opisanego zbiorem cechf a 1 = [f 1,...,f N ] wykorzystywany jest wektor odległości a 1 = [1,cos(a 1,a 2 ),cos(a 1,a 2 ),...,cos(a 1,a k )], gdzie cos(a i,a j ) = a i a j a i a j (1) n-gramy (znakowe i słowne). Alternatywna dla reprezentacji BoW metoda tworzy reprezentacje z sekwencji znaków lub słów o określonej długości. W pracy przedstawiono wyniki dla sekwencji tworzonych z n = 2 słów i n = 4 znaków. Wartości te ustalone zostały empirycznie podczas wstępnych testów w zadaniach klasyfikacji, w których dawały najlepsze rezultaty. Kompresyjny. Na początku automatycznego przetwarzania tekstu przeważnie przeprowadzane jest jego wstępne przygotowanie. Do tego celu stosuje się różne narzędzia NLP (ang. Natural Language Processing) takie jak: tokenizacja, stemmming czy usuwanie najmniej informatywnych cech. By 6

7 ominąć proces wstępnego przetwarzania tekstu zaproponowano wykorzystanie miar opartych na kompresji, które umożliwiają określenie podobieństwa poprzez obserwację faktu, że dwa dokumenty podobne do siebie będą się kompresowały lepiej niż dwa dokumenty różne. Wykorzystując wzór 2 ( ) size(a+b) p sim A,B = 2 1, (2) size(a) p +size(b) p gdzie A i B oznaczają odpowiednio dwa pliki tekstowe, p operacje kompresji, a + operację konkatenacji plików, zaproponowano sposób określania podobieństwa pomiędzy parą plików tekstowych bez używania wstępnego przetwarzania. Miara 2 wykorzystana została do zbudowania reprezentacji dokumentu poprzez utworzenie wektora podobieństw do wszystkich dokumentów występujących w repozytorium. Explicit Semantic Analysis. Reprezentacja zaproponowana przez [6] bazuje na wyznaczeniu podobieństwa między określonym tekstem, a zewnętrznym repozytorium dokumentów. W podejściu tym reprezentacją konkretnego dokumentu jest wektor podobieństwa do zewnętrznego zbioru dokumentów, którymi w oryginalnej wersji tego podejścia były artykuły z Wikipedii. Do analizy reprezentacji opartej na odnośnikach wybrano następujące podejścia: Powiązania między artykułami. W podstawowej realizacji tej reprezentacji dla każdego artykułu tworzony jest binarny wektor. Jego elementy określają, czy istnieje powiązanie pomiędzy reprezentowanym artykułem, a pozostałymi dokumentami w przetwarzanym repozytorium. Należny zaznaczyć, że dla dużych zbiorów danych utworzona reprezentacja jest wysokowymiarowym wektorem rzadkim, co często może być niewystarczające do uzyskania dobrych rezultatów kategoryzacji. Powiązania wyższego rzędu. Zaproponowano rozszerzenie wcześniejszego podejścia, które polegało na dodaniu do reprezentacji dodatkowych informacji uzyskiwanych poprzez dołączanie z częściową wagą powiązań niebędących bezpośrednio powiązanymi z reprezentowanym artykułem. Kompromis pomiędzy ilością informacji dodawanej do wektora, a jej jakością osiągnięto wykorzystując do utworzenia reprezentacji powiązania wyższych rzędów, które realizowane były do maksymalnego poziomu zagłębienia 7

8 H max = 3. Wagi dodatkowych powiązań dla kolejnych poziomów zagłębiania ustalone zostały jako b dist(a 1,a 2 ), gdzie b = 0,66, a dist(a 1,a 2 ) jest poziomem zagłębienia między artykułami a 1 i a 2, czyli liczbą węzłów w grafie artykułów jakie należy odwiedzić, by przejść z a 1 do a 2. Przyjęte wartości parametrów b i H max ustalone zostały empirycznie na podstawie wstępnych eksperymentów, gdzie dawały najlepsze rezultaty klasyfikacji. Do realizacji eksperymentów zaimplementowana została aplikacja Matrix u umożliwiająca generowanie określonego typu reprezentacji dla artykułów z Wikipedii. Aplikacja ta, jako że może znaleźć szereg zastosowań w innego rodzaju projektach, została udostępniona on-line na stronach projektu CompWiki związanego z maszynową analizą repozytorium Wikipedii 1. Źródła aplikacji napisane w języku C# udostępnione zostały na licencji open source. Opracowane narzędzie oferuje szereg dodatkowych funkcjonalności w porównaniu do alternatywnego rozwiązania wykonanego w języku Java [7]. M.in. Matrix u oferuje intuicyjne definiowanie sposobu przetwarzania Wikipedii w wersji polskiej, angielskiej i angielskiej uproszczonej (simple english) z użyciem interfejsu graficznego (zaprezentowanego w [1] na rysunku 2). W szczególności aplikacja ta pozwala zastosować wskazaną metodę reprezentacji umożliwiającą zamianę Wikipedii z postaci czytelnej dla człowieka na postać, która może być przetworzona przez maszynę. Szczegółowy opis funkcjonalności znajduje się w dokumentacji aplikacji na stronach www projektu CompWiki. Do realizacji eksperymentów oceniających jakość reprezentacji w zadaniu klasyfikacji wybrano metodę wektorów wspierających (ang. Support Vector Machines SVM). Podejście to jest popularną metodą do klasyfikacji danych tekstowych, która daje dobre rezultaty [8]. Podstawowa realizacja SVM działa jako klasyfikator binarny. Aby użyć go do zadania klasyfikacji tekstów wykorzystano metodę 1-vs-all, dzięki której został on przekształcony do narzędzia umożliwiającego wieloklasową i wieloetykietową klasyfikację, gdzie jeden obiekt może przynależeć do więcej niż jednej klasy. Jako że celem eksperymentów nie była maksymalizacja jakości klasyfikacji, a obserwacja różnic, jakie wnosi użycie określonych reprezentacji, klasyfikator uruchamiany był z domyślnymi wartościami parametrów. Eksperymenty przeprowadzone zostały na czterech zbiorach danych wygenerowanych z użyciem aplikacji Matrix u. W publikacji [1] w tabelach 4-5 przedstawiono pełne zestawienie rezultatów eksperymentu, które wskazują, że zarówno podejście oparte na treści, jak i odnośnikach, umożliwia zbudowanie klasyfikatora, który dla liczności klas < 100 po

9 zwala uzyskiwać skuteczność bliską 90% (mierzonej jako miara F1). Zaznaczyć należy, że większość błędów klasyfikatora wynikała tu z etykiet będących rezultatem wieloklasowych przypisań, które w zbiorze treningowym były mało liczne. Zwiększenie liczby klas powyżej powoduje spadek jakości klasyfikacji do około 80%. Zaproponowana metoda reprezentacji oparta na kompresji dawała gorsze rezultaty niż BoW. Mimo to, do pewnych zastosowań może być ona użyteczna ze względu na fakt, że nie wymaga żadnego wstępnego przetwarzania tekstu, co ma miejsce w przypadku BoW. Wykonanie przekształcenia wykorzystującego odległość kosinusową na reprezentacji opartej na BoW poprawiło rezultaty klasyfikacji. Użycie reprezentacji n kolejnych słów dla n = 2, które dawało najlepsze rezultaty podczas wstępnych badań nie poprawiło reprezentacji wykorzystującej pojedyncze słowa. Dla reprezentacji n-gramowych wykorzystujących pojedyncze znaki najlepsze rezultaty uzyskano dla n = 4. Rozszerzenie reprezentacji opartej na odnośnikach, poprzez wprowadzenie powiązań wyższego rzędu dla przeskoku H max = 3, pozwoliło istotnie poprawić wyniki w porównaniu do podejścia wykorzystującego jedynie powiązania bezpośrednie. Głównym wkładem pracy [1] było opracowanie metodologii oceny reprezentacji artykułów Wikipedii z użyciem uczenia nadzorowanego i przeprowadzenie z jej zastosowaniem porównania pięciu podejść, dla których główne wnioski przedstawiono powyżej. Zaproponowano i przetestowano metodę reprezentacji opartą na kompresji artykułów. Wprowadzono modyfikację polegającą na zamianie reprezentacji danych z przestrzeni cech do przestrzeni odległości. Pozwoliła ona uzyskać poprawę we wszystkich testowanych reprezentacjach, co jest uniwersalnym mechanizmem do wzbogacania jakości reprezentacji artykułów Wikipedii. Podejście to prawdopodobnie może być również z powodzeniem zastosowane dla innych danych. Ponadto, w pracy opisano aplikację do przetwarzania Wikipedii oferującą dodatkowe funkcjonalności w porównaniu do narzędzia [7]. Opracowana aplikacja jako uniwersalne narzędzie do przetwarzania Wikipedii została publicznie udostępniona do wykorzystywania w innych projektach związanych z przetwarzaniem tego repozytorium. Coraz bardziej popularnym podejściem do analizy danych stają się głębokie sieci neuronowe. Podejście to znajduje również zastosowanie w budowie wektorowych reprezentacji słów, które mogą zostać użyte do reprezentacji całych dokumentów. W pracy [2] przeprowadzono analizę wykorzystania znanych metod wektorowych reprezentacji słów do klasyfikacji dokumentów. Reprezentacje te porównano do 9

10 klasycznego podejścia BoW. Ponieważ wykorzystanie wektorów słów działa również jako metoda redukcji wymiarowości przeprowadzono porównanie tego podejścia z metodą LSA (ang. Latent Semantic Analysis) [9]. Do oceny jakości reprezentacji wykorzystano metody klasyfikacji, będące reprezentantami metod generatywnych (naiwna metoda Bayesa), dyskryminacyjnych (SVM) i dodatkowo wykonano klasyfikacje z użyciem sieci neuronowych typu FeedForward (FF). Do analizy reprezentacji dokumentów z użyciem wektorów słów wykorzystano trzy metody: 1. Word2Vec [10] - model do zbudowania wektorów słów wykorzystuje sieć neuronową, którą trenuje się podając na wejście sieci zadane słowo, a na wyjściu prognozowany jest jego kontekst. W modelu tym wykorzystuje się sieci typu FF, które są trenowane za pomocą modelu CBoW lub modelu skipgramowego i negatywnego próbkowania (ang. negative sampling). W procesie optymalizacji parametrów sieci powstają wektory reprezentujące poszczególne słowa. Mają one własności zachowywania elementarnej semantyki słów realizowanej poprzez operacje arytmetyczne na wektorach (np.: król - królowa = mężczyzna - kobieta). 2. GloVE tworzy wektory słów wykorzystując statystyczną analizę tekstów z użyciem przesuwanego po dokumencie okna kontekstu [11]. Algorytm tworzenia wektorów słów rozpoczyna się od zbudowania macierzy podobieństwa słów. Odbywa się to na podstawie wyznaczenia statystyk liczności współwystąpień par słów w korpusie treningowym, w obrębie określonego okna kontekstu. Współwystąpienia słów są ważone w zależności od ich wzajemnej odległości w oknie kontekstu. W końcowym etapie zbudowana w ten sposób macierz poddawana jest kompresji, tak by uzyskać wektory słów o zadanej długości. Metoda ta zaproponowana została w 2014 r. Zaznaczyć w tym miejscu należy, że w 2012 r. habilitant w pracy [12] zaproponował bardzo zbliżone podejście, które wykorzystane zostało do wyszukiwania słów z użyciem kontekstu. 3. FASTTEXT wykorzystuje podejście zbliżone do Word2Vec z tą różnicą, że zamiast na całych słowach operacje są wykonywane na n-znakowych podciągach. W podejściu tym pojedyncze słowo jest złożeniem n-gramowych wektorowych reprezentacji. By zbadać jakość reprezentacji niezależnie od użytej metody klasyfikacji do oceny wykorzystano trzy klasyfikatory: SVN, NaiveBayes oraz sieć neuronową 10

11 FF. Eksperymenty zostały przeprowadzone na zbiorach danych wygenerowanych z Wikipedii polskiej i angielskiej, tak by można sprawdzić, czy uzyskane wyniki są niezależne od języka. Dla każdego języka zbudowano 7 paczek danych, różniących się skalą trudności w zadaniu uczenia: rosnąca liczba klas, cech i obiektów. Szczegółowy opis poszczególnych paczek danych przedstawiono w pracy [2] w tabeli 1. Dane te udostępnione zostały on-line, tak by stanowiły punkt odniesienia dla dalszych studiów nad metodami reprezentacji artykułów Wikipedii. W przeprowadzonych eksperymentach zbadano również wpływ zastosowania przekształcenia danych z użyciem odległości kosinusowej i gaussowskiej na jakość klasyfikacji. Uzyskane w przeprowadzonych eksperymentach wyniki opisane zostały w pracy [2] w tabelach 2-8 i pozwoliły wyciągnąć następujące główne wnioski: 1. Użycie wektorowych reprezentacji słów do utworzenia reprezentacji dokumentów poprzez ich uśrednienie daje dobre wyniki dla krótkich dokumentów i małej liczby klas. W przypadku zwiększania się liczby klas (ponad 20) wyniki wyraźnie się pogarszają. 2. Uzyskiwanie lepszych jakościowo wyników przez klasyfikator SVM z reprezentacją BoW w porównaniu do reprezentacji neuronowych wskazuje na konieczność stosowania do budowy wektorowych reprezentacji dokumentów lepszych metod łączenia wektorów słów niż typowo stosowane uśrednianie. 3. Zastosowane do badanych reprezentacji przekształcenia opartego na przekształceniach kosinusowych i gaussowskich dało poprawę wyników we wszystkich klasyfikatorach. Nie można było jednak jednoznacznie wskazać, które z przekształceń daje lepsze wyniki. 4. Metody reprezentacji wykorzystujące wektory słów są skuteczną metodą redukcji wymiarowości. W porównaniu do podejścia LSA, przy tej samej długości wektorów, dają zdecydowanie lesze rezultaty. Zaznaczyć należy również mniejszą złożoność obliczeniową tworzenia reprezentacji opartych na wektorach słów w porównaniu do LSA. 5. Zastosowanie sieci neuronowych do klasyfikacji tekstów jest bardzo kosztowne obliczeniowo. Przy większej liczbie klas reprezentacja BoW uniemożliwia praktyczne zastosowania typowej sieci FF do klasyfikacji. Zastosowanie reprezentacji opartej na wektorach słów umożliwia efektywną 11

12 kategoryzację tekstów z użyciem sieci FF w sytuacji dużej liczby klas i obiektów. 6. Uzyskane rezultaty wskazują na ich niezależność od języka zaobserwowane regularności powtarzają się zarówno dla danych przygotowanych dla polskiej, jak i angielskiej Wikipedii. Zaznaczyć należy, że badania przeprowadzone zostały tylko dla dwóch języków fleksyjnych. W celu potwierdzenia uniwersalności tej obserwacji należałoby wykonać eksperyment dla większej liczby języków, co może zostać zrealizowane przy użyciu aplikacji Matrix u. W pracy [2] przedstawiono wyniki badań będące rozszerzeniem eksperymentów przedstawionych w [1] o reprezentacje wektorowe słów. Głównym moim indywidualnym wkładem opisanym w tej pracy są przedstawione powyżej wnioski z przeprowadzonej analizy rezultatów klasyfikacji artykułów Wikipedii wykorzystującymi wektorowe reprezentacje słów. Artykuły w Wikipedii zorganizowane są z użyciem kategorii. Podobnie jak artykuły, system kategorii rozwijany jest przez społeczność wolontariuszy. Tworzą oni ręcznie powiązania zarówno pomiędzy kategoriami, jak i przypisują artykuły do grup tematycznych. System kategorii tworzy skierowany graf, który ma ułatwiać przeszukiwanie Wikipedii. Dotychczas analizowane metody reprezentacji opierały się w głównej mierze na informacji zawartej jawnie w tekście. W pracy [3] do reprezentacji artykułów Wikipedii zaproponowano użycie grafu kategorii. Podejście to poprawić ma reprezentacje poprzez wyznaczanie podobieństw między pojęciami wynikającymi z analizy ich generalizacji. Ze względu na skalę grafu kategorii i gęstość powiązań hierarchicznych istotnym zagadnieniem jest sposób wykorzystania kategorii nadrzędnych, tak aby podczas tworzenia reprezentacji dla artykułu użyć tylko informacji istotnych, pomijając te, które wprowadzają szum. Do porównywania artykułów z użyciem grafu kategorii zastosowana została metoda Path Length (PL) [13], która jako miarę podobieństwa wykorzystuje najkrótszą ścieżkę między badanymi węzłami. Podejście to w szeregu zastosowań dało dobre rezultaty i w badaniach przedstawionych w omawianym artykule wykorzystane zostało jako punkt odniesienia dla zaproponowanych usprawnień. Oznaczając C 1 i C 2 jako zbiór kategorii przypisanych do artykułów a 1 i a 2 odległość PL jest wyznaczana dla każdej pary (c k,c l ), gdzie c i C 1 i c k C 2. Wtedy do wyznaczenia odległości wyznaczana jest najmniejsza (3) lub średnia (4) wartość pomiędzy wszystkimi parami: 12

13 dist PL+Min (a 1,a 2 ) = min c i C 1,c j C 2 dist PL (c i,c j ) (3) dist PL+Avg (a 1,a 2 ) = c i C 1 c j C 2 dist PL (c i,c j ) C 1 C 2 Ponieważ artykuł w Wikipedii może przynależeć do więcej niż jednej kategorii wykorzystanie metody najkrótszej ścieżki powodować będzie pominięcie informacji pochodzących od kategorii leżących poza nią. Może się to objawiać zmniejszeniem różnic między artykułami, które posiadają wspólne przypisanie do jednego węzła w grafie kategorii. Modyfikacja tej metody wprowadza zamiast najkrótszej ścieżki jej wartość średnią. Jednakże uśrednienie po wszystkich możliwych parach kategorii powoduje przypisywanie nadmiernych wag do tych, które są redundantne. Jest to problematyczne zwłaszcza w przypadku, gdy reprezentacja artykułów realizowana jest przez różne zbiory kategorii, z którymi są one powiązane (co przeważnie ma miejsce). W celu przeciwdziałania tym problemom zaproponowane i ocenione zostały trzy metody alternatywnego wyznaczania podobieństwa artykułów wykorzystujących graf kategorii. Metoda 1: semi-average path length (PL+Avg*) W metodzie tej obejście powyższych problemów zostało przeprowadzone poprzez modyfikację polegającą na zmianie sposobu wyznaczania średniej. Zamiast wyznaczać ją po wszystkich parach kategorii zastosowano następującą procedurę: Dla artykułówa 1,a 2 i przypisanym im zbiorom kategoriic 1,C 2 wyznaczone zostają odległości pomiędzy każdą kategorią i dokumentem przeciwnym, to znaczy dla każdej kategorii ze zbioru C 1 wyznaczana jest jej odległość do artykułua 2 i analogicznie dla każdej kategorii zc 2 wyznaczana jest odległość do artykułu a 1. Następnie wyznaczona zostaje średnia po wszystkich tak uzyskanych odległościach z użyciem wzoru 5. (4) dist PL+Avg (a 1,a 2 ) = c i C 1 dist PL (c i,a 2 )+ c j C 2 dist PL (c j,a 1 ) C 1 + C 2 (5) 13

14 Zaletą użycia tej metody w porównaniu dopl+avg jest redukcja wpływu redundantnych kategorii na końcową wartość odległości. Metoda 2: Semi-average path length z redukcja częstości (PL+Avg*+DF) Rozszerzenie metody 1 wprowadza dopasowanie ignorujące węzły poniżej zadanego progu DF (ang. document frequency) składowej miary typowo wykorzystywanej do wyznaczania wag cech w modelu przestrzeni wektorowej. W tym przypadku jest to liczność artykułów kategorii. Podczas przeglądania grafu kategorii węzły, których wagi będą poniżej określonego progu, nie będą używane do budowy reprezentacji, a ich węzły potomne są przetwarzane dalej normalnie, tak jakby były o jeden poziom bliżej reprezentowanego artykułu. Miara ta określona jest wzorem 6. dist PL+DF (a,c) = dist PL (a,c) R a,c, (6) gdzie R a,c = {r : r p a,c DF(r) < THRESHOLD, p a,c = (a,...,...,c) jest ciągiem węzłów, leżących na ścieżce pomiędzy artykułem a i kategorią c, a R a,c jest podsekwencją p a,c zawierającą te węzły, których częstość dokumentu jest poniżej DF(c) < THRESHOLD. Następnie wyznaczany jest dist PL+Avg +DF tak samo, jak w przypadku metody 1, podstawiając wartościdist PL w równaniu 5 wartościami dist PL+DF. Metoda 3: Minimalna ważona path length (PL+Min+IDF) Metoda ta jest modyfikacją P L+M in, która używa tylko najkrótszej ścieżki do wyznaczenia odległości. PL+Min+IDF nie używa typowego przeszukiwania wszerz, lecz wykonuje wyszukanie najkrótszej ścieżki z użyciem algorytmu Dijkstry. W zaproponowanej metodzie graf kategorii jest ważony, a koszt przejścia przez węzeł kategoriic i wynosi odwrotność jego popularności IDF (inverse document frequency) i jest określony wzorem 7. cost(c i ) = 1 IDF(c i ), (7) N gdzie IDF(c i ) = logdf(c i, a N jest liczbą reprezentowanych artykułów. ) 14

15 Ocenę zaproponowanych metod wykonano poprzez zastosowanie ich w zadaniach uczenia nienadzorowanego, wykorzystującego dwa algorytmy klasteryzujące: OPTICS [14] i K-means. Algorytmy te użyte zostały do grupowania artykułów będącymi rezultatami wyszukiwania w Wikipedii z użyciem wybranych słów kluczowych, dla których stworzono ręcznie oczekiwany wzorzec podziału. Wyniki uzyskiwane za pomocą algorytmu gęstościowego są silnie zależne od zadanych parametrów. Dodatkowo w podstawowej wersji OPTICS nie umożliwia uzyskania hierarchii bezpośrednio z wykresów reachability plots. W związku z tym użyte zostało jego rozszerzenie Cluster Tree, zawierające jeden parametr ratio of significance, który wedle zaleceń jest ustawiany na stałą wartość 0, 75 [15]. Wyniki uzyskane dla wartości tego parametru porównane zostały z optymalną jego wartością maksymalizującą jakość klasteryzacji, będącą zmodyfikowaną do oceny hierarchicznych klastrów wersją miary Pmcc (ang. Pearson productmoment correlation coefficient) [16]. Jako punkt odniesienia wykorzystane zostały miary zdefiniowane wzorami (3) i (4) oraz reprezentacja BoW. Szczegółowe wyniki zamieszczone zostały w pracy [3] w tabelach 1 4. Analiza uzyskanych rezultatów wskazała, że w przypadku użycia algorytmu OPTICS z metodą PL + Avg wyniki ulegają poprawie w porównaniu do wartości uzyskiwanych przez miarę referencyjną (P L). Zaskakującym okazał się fakt uzyskania słabych rezultatów z użyciem metody 3PL+Min+IDF, zwłaszcza dla standardowej wartości parametru ratio of significance. Standardowa wartość nie sprawdziła się również w przypadku reprezentacji BoW. Uśredniona wartość uzyskanych wyników wskazuje, że użycie grafu kategorii daje lepsze rezultaty w stosunku do użycia typowej metody reprezentacji wykorzystującej treść artykułów. Zweryfikowano również, czy uzyskane rezultaty porównania metod reprezentacji są niezależne od użytego algorytmu grupowania. W tym celu eksperymenty zostały powtórzone również dla algorytmu K-Means. Zapewnienie podziału zbioru na oczekiwaną liczbę podgrup przyjęto przez ustalenie parametru K równego liczbie klastrów, jaka była oczekiwana we wzorcowym podziale. Ponieważ algorytm K-Means jest wrażliwy na wartości, którymi jest inicjalizowany, eksperymenty zostały powtórzone 50 razy, a do analizy użyto uśrednione wartości uzyskanych rezultatów. W przypadku tego algorytmu różnice pomiędzy poszczególnymi metodami były mniej wyraźne, jednakże we wszystkich przypadkach zaobserwować można było dominację metody P L + Avg. Również tu wyraźna była przewaga zaproponowanych metod reprezentacji wykorzystujących kategorie, nad standardową metodą BoW. 15

16 Głównym moim indywidualnym wkładem przedstawionym w pracy [3] jest zaproponowanie wykorzystania do reprezentacji artykułów Wikipedii kategorii pochodzących z tego repozytorium oraz zaproponowanie metod wyznaczania podobieństwa artykułów wykorzystujących graf kategorii które w praktycznych zastosowaniach pozwoliły uzyskać jakościowo lepsze rezultaty od miar referencyjnych. Podejście wykorzystujące reprezentacje z użyciem kategorii (w szczególności metoda 1) pozwoliło poprawić jakość nienadzorowanego kategoryzowania rezultatów wyszukiwania w Wikipedii w porównaniu do użycia standardowego podejścia BoW średnio o 21 punktów procentowych. Do zrealizowania podejścia reprezentacji kategoriami opracowano miary podobieństwa artykułów wyznaczane w grafach kategorii. Zaproponowana miara, opisana wzorem 5 dawała lepsze rezultaty w porównaniu do referencyjnej miary Path Length (PL) zaproponowanej przez [13]. Wykorzystywany w opisanych powyżej eksperymentach graf kategorii jest tworzony ręcznie przez wikipedystów. W związku z tym zawiera on niepoprawne oraz nadmiarowe powiązania, a istotne połączenia bywają pominięte, co należy traktować jako szum informacyjny. Jak widać z wyników przedstawionych w pracy [3] graf kategorii Wikipedii (GKW) może być użyteczny w zadaniach kategoryzacji tekstów. Jednakże ze względu na występujący szum jego użycie może powodować szereg problemów w przetwarzaniu tekstu. W artykule [4] zaproponowano metodę oczyszczenia istniejącego systemu kategorii oraz identyfikacji nowych istotnych powiązań w tym grafie. Zadanie oczyszczenia GKW zrealizowane zostało poprzez przeprowadzenie procedur, mających na celu przygotowanie go do dalszego przetwarzania. Kolejnymi procedurami przetwarzającymi GKW były: a) Redukcja ziarnistości: w procedurze tej usunięte zostają kategorie, które są bardzo specyficzne. Procedura posiada parametrl min określający minimalną liczbę artykułów, jakie mają się znaleźć w węzłach struktury kategorii będących liśćmi. W iteracyjnym procesie wszystkie takie kategorie zostają złączone z nadrzędnymi. W ten sposób usunięte zostają mało liczne liście, a rozmiar grafu zostaje zredukowany. b) Usunięcie mało licznych węzłów: poprzednia procedura redukowała jedynie końcowe kategorie, jednakże w grafie cały czas pozostały kategorie zawierające niewielką liczbę artykułów. W związku z tym przeprowadzone zostało kolejne dopasowanie GKW polegające na usunięciu wszystkich kategorii mających mniej niż N min artykułów. Podobnie jak w poprzedniej 16

17 procedurze, redukcja przebiegła poprzez przypisanie artykułów do nadrzędnej kategorii. Na bazie testowego podzbioru, utworzonego z fragmentu oryginalnego grafu kategorii Wikipedii, parametry powyższych procedur ustalone zostały na wartości:l min = 40 i N min = 12. c) Wykorzystanie wyrażeń regularnych: trzecim dopasowaniem, mającym na celu oczyszczenie struktury kategorii, był zbiór reguł wykorzystujący przygotowane ręcznie szablony wzorców znakowych, które wyszukiwane były w nazwach kategorii. Umożliwiło to dalsze oczyszczenie GKW poprzez usuniecie kategorii administracyjnych, takich jak stubs, containers, lists etc. Dla tak przygotowanego GKW opracowano metody identyfikacji nowych, istotnych powiązań, opartych na miarach podobieństwa kategorii wykorzystujących m.in. wielkoskalowy klasyfikator tekstowy bazujący na metodzie wektorów wspierających (SVM). Użycie różnego rodzaju miar ma na celu umożliwienie uchwycenia odmiennych aspektów podobieństwa między kategoriami, dlatego ważne jest, by bazowały one na odmiennych źródłach. W pracy [4] użyto następujące miary podobieństwa między kategoriami: A) Pierwsza miara podobieństwa zaproponowana została na bazie pracy [17]. W metodzie tej, inspirowanej podejściem do identyfikacji reguł asocjacyjnych [18], artykuły odpowiadają koszykom (ang. baskets), a kategorie przypisane do artykułów tworzą pojedynczy zbiór elementów (ang. itemset). W podejściu tym podobieństwo pomiędzy kategoriami jest wyznaczone z użyciem wzoru 8. cos i,j = nk=1 A k C i A k C j nk=1 A k C i n k=1 A k C j, (8) gdzie A k C i jest równe 1, gdy artykuł A k jest przypisany do C i, a 0 w przeciwnym przypadku. Zauważyć należy, że miarę daną wzorem 8 można zinterpretować geometrycznie jako kosinus kąta pomiędzy wektorami kategorii reprezentowanymi w przestrzeni artykułów. Rezultaty uzyskiwane przez tę miarę ustalone zostały jako punkt odniesienia dla miar zaproponowanych dalej (B-E). 17

18 B) Druga miara podobieństwa oparta została na treści tekstowej artykułów przynależących do poszczególnych kategorii. Założeniem jej jest, że podobieństwo pomiędzy kategoriami jest odzwierciedlone w rozkładzie słów. Podobnie jak w typowym modelu przestrzeni wektorowej, wykorzystywanym do wyznaczania podobieństwa między dokumentami z użyciem BoW, kategorie są reprezentowane tu jako złączony zbiór wszystkich słów występujących w artykułach przypisanych do nich. Podobieństwo między wektorami kategorii wyznaczane zostało jako miara kosinusowa. Kolejne miary podobieństwa kategorii wykorzystywały wielkoskalowy klasyfikator: C) Trzecia miara podobieństwa bazuje na współprzypisaniach klasyfikatora dokonującego decyzji dotyczącej przypisania artykułu do więcej niż jednej kategorii. Utworzono ją na bazie założenia przyjmującego, że jeśli klasyfikator prognozuje, iż obiekt przynależy do dwóch klas, to wtedy klasy te są podobne. Analogicznie w sytuacji, gdy klasyfikator dla dwóch klas wskazuje na jedną, jest to wskazaniem do tego, że prawdopodobnie klasy nie są do siebie podobne. D) Czwarta miara podobieństwa wykorzystuje błędy klasyfikatora. Założeniem jej jest, że w sytuacji, gdy następuje niepoprawne przypisanie klasyfikacyjne, istnieje podobieństwo między klasą poprawną a niepoprawną. E) Piąta miara wykorzystuje klasyfikator do określenia podobieństwa poprzez analizę hiperpłaszczyzny rozdzielającej klasy. W przypadku gdy wieloklasowe przypisania z użyciem SVM uzyskane zostały poprzez strategie 1-vsall, model zawiera tyle hiperpłaszczyzn, ile jest klas. W sytuacji tej każda hiperpłaszczyzna oddziela obiekty pojedynczej klasy od reszty. Zaproponowana miara analizuje kąty pomiędzy hiperpłaszczyznami i na podstawie ich wielkości wnioskuje o podobieństwie klas im kąt pomiędzy hiperpłaszczyznami jest mniejszy, tym większe jest podobieństwo między klasami. Podejście to okazało się właściwe dla danych opisanych małą liczbą cech, w przypadku rzeczywistych danych tekstowych obliczenia są wykonywane w przestrzeniach wysokowymiarowych. Analiza tych przestrzeni wykazała, że w przypadku budowy z ich użyciem wieloklasowego klasyfikatora, odsetek dodatnich współczynników kierunkowych hiperpłaszczyny (czyli wskazujących na korelacje z konkretną klasą) jest niewielki. Duża część 18

19 ujemnych wartości negatywnie wpływała na uzyskiwane wyniki. W związku z tym przeprowadzone zostało dopasowanie redukujące cechy ujemne w hiperpłaszczyźnie n tworząc hiperpłaszczyznę n, której współczynniki f określono jako: n [f] = max(n[f],0). W sytuacji tej podobieństwo między kategoriami wyznaczone zostało wzorem 9. s(c i,c j ) = n i n j n i n j (9) Opisane powyżej miary wyznaczają jedynie podobieństwo bezpośrednie. Na podobieństwo między kategoriami będą miały również wpływ powiązania wynikające ze współprzynależności do nadrzędnej klasy. Dlatego, by rozszerzyć zastosowanie powyżej przedstawionych miar do identyfikacji nowych powiązań wprowadzono dodatkową modyfikację określoną jako podobieństwo łączone. Jest ono liniową kombinacją powiązań bezpośrednich i powiązań wynikających z posiadania wspólnego węzła, będącego bezpośrednim przodkiem dwóch wybranych kategorii. Miara ta określona została wzorem 10. s a (C i,c j ) = w 1 s(c i,c j )+w 2 s (C i,c j ), (10) gdzie s(c i,c j ) jest podobieństwem bezpośrednim między klasami C i, C j, natomiast s (C i,c j ) określa średnie podobieństwa między ich przodkami. Miara ta jest rozwinięciem miary zaproponowanej przez [19], której autorzy wykazali, że wagi bezpośrednich podobieństw i podobieństw wyznaczonych poprzez odległości przodków ustalone na w 1 = 0,33 i w 2 = 0,67 są optymalne, i takie wartości parametrów przyjęto w przeprowadzonych eksperymentach. Opracowane miary podobieństwa ocenione zostały w dwojaki sposób. a) Ręczny: dla każdej miary do oceny wybrano par kategorii, które otrzymały najwyższe wartości podobieństwa (zbiór top). Drugi zbiór (deep) utworzono z par pozostałych po pominięciu pierwszych Poprzez porównanie pokrycia uzyskanych wyników z tymi dwoma zbiorami możliwe było wykonanie przybliżonej (bo wykonanej na zredukowanym podzbiorze danych) oceny użyteczności opracowanych miar do identyfikacji istotnych powiązań między kategoriami. b) Automatyczny: polegający na zastosowaniu opracowanych miar podobieństwa do odtworzenia oryginalnych powiązań między kategoriami, które zostały utworzone przez edytorów Wikipedii. Przeprowadzono również ocenę 19

20 podobieństwa wszystkich miar w wersji bezpośredniej i łączonej oraz zbadano rozkłady wartości podobieństw dla pierwszego miliona par powiązanych ze sobą kategorii. Szczegółowe wyniki zaprezentowano w artykule [4] na rysunkach Wskazują one, że miary A i E mają bardzo zbliżone rozkłady wartości podobieństw, jednocześnie A i B są znacząco różne. W celu dokładniejszego porównania wszystkich miar przeprowadzono ich analizę na zbiorze pierwszych i kolejnych po pierwszych parach kategorii. W rezultacie potwierdzone zostało, że miary A i E są najbardziej podobne. Jest to interesujące ze względu na fakt, że były one wyznaczane w zupełnie różny sposób. Dodatkowo zbiór podobnych kategorii uzyskanych za pomocą miary E i miary A używającej podobieństwa łączonego wyniósł blisko 30%. Jest to zbliżone do rozmiaru zbioru podobnych kategorii wygenerowanych przez miarę A w wersji bezpośredniej i łączonej, a jednocześnie więcej niż dla takiego samego przypadku dla miary E. Potwierdza to wcześniejszą obserwację podobieństwa tych dwóch miar. Zaproponowany algorytm do wyznaczanie podobieństwa łączonego ma silny wpływ na uzyskane wyniki podobieństwa par kategorii. W przypadku zbioru top wpływa on na większość analizowanych par, dla zbioru deep zmienia wartości około 30% par. Zgodnie z oczekiwaniami eksperymenty potwierdziły, że użycie podobieństwa łączonego powoduje, że miary stają się bardziej do siebie podobne. Ocena jakości miar podobieństwa w zadaniu odtworzenia oryginalnych powiązań w systemie kategorii wskazała, że najlepiej do tego celu nadaje się miara D. Dla pierwszych par powiązań 22,9% z nich zostało prawidłowo odtworzonych. Interesujący był fakt, że wprowadzenie podobieństwa łączonego nie wpłynęło znacząco na poprawę rezultatów. Ręczna ocena przeprowadzona na zbiorze top wykazała, że zaproponowane podejścia dają dobre rezultaty każda z ocenianych miar uzyskała ponad 80% skuteczność. W większości uzyskane tu rezultaty były lepsze dla podobieństw bezpośrednich. W przypadku oceny na zbiorze deep wszystkie miary uzyskały gorsze rezultaty, co jest zgodne z oczekiwaniami, ponieważ wartości podobieństwa były tu niższe. Zaobserwowano również, że wprowadzenie podobieństwa łączonego powoduje pogorszenie wyników. Zaproponowane miary wykorzystane zostały do zbudowania ważonej sieci kategorii, gdzie poszczególne wartości wag krawędzi określały istotność poszczególnych powiązań. Sieć taka, opisująca powiązania między pojęciami, może znaleźć zastosowanie w zadaniach przetwarzania języka naturalnego jako zewnętrzna baza wiedzy o języku. Dzięki niej możliwe będzie dodanie abstrakcyjnego opisu 20

21 dla pojęć występujących bezpośrednio w analizowanym tekście. W rezultacie połączenia zaproponowanych miar podobieństwa powstał graf pojęć składający się z węzłów i ważonych powiązań. Zaznaczyć należy, że w grafie tym jedynie 10% było oryginalnymi powiązaniami pochodzącymi z systemu kategorii Wikipedii. Tak niski odsetek obrazuje ilość istotnych informacji, która nie została uwzględniona przez edytorów Wikipedii. Głównym moim indywidualnym wkładem przedstawionym w pracy [4] było zaproponowanie miar podobieństwa między kategoriami Wikipedii, które w szczególności wykorzystywały wielkoskalowy klasyfikator i użyte zostały do identyfikacji nowych powiązań w grafach kategorii. Zaproponowane miary (B-E) pozwoliły na uzyskiwanie wysokiej jakości powiązań porównywalnych z wynikami uzyskiwanymi przez bazową miarę (A) zaproponowaną przez [17], jednocześnie wprowadzając nowe, istotne powiązania, które nie były wynajdywane przez miarę bazową. Jedną z możliwości rozszerzania reprezentacji tekstu jest dołączanie do zidentyfikowanych pojęć dodatkowych informacji pochodzących z zewnętrznych repozytoriów danych. Repozytorium takim może być np. słownik WordNet, dzięki któremu można do reprezentacji dołączyć definicje pojęć zidentyfikowanych w tekście oraz relacje określonego typu do innych znaczeń [20]. Umożliwia to rozszerzenie zawartości tekstu ponad to, co jest jawnie dane w jego treści. Dołączenie do Wikipedii informacji pochodzących ze słownika WordNet rozszerza artykuły o informacje zawarte w ustrukturalizowanej sieci znaczeń powiązanych ze sobą określonym typem. Przeszkodą stojącą na drodze użycia synsetów słownika WordNet do opisu artykułów Wikipedii jest brak powszechnie dostępnych, wysokiej jakości powiązań pomiędzy tymi dwoma repozytoriami. W artykule [5] przedstawiono wyniki prac nad integracją Wikipedii i słownika WordNet. By przeprowadzić takie połączenie, zdecydowano najpierw automatyczne wygenerować powiązania między artykułami Wikipedii, a znaczeniami (synsetami) słownika WordNet. Kolejnym krokiem była weryfikacja i korekta tak utworzonych powiązań poprzez wolontariuszy realizujących to zadanie z użyciem zbudowanego narzędzia do pracy kooperacyjnej. Automatyczne utworzenie inicjalnych powiązań między Wikipedią, a słownikiem WordNet wykonane zostało z użyciem następujących algorytmów: 1. Unique results podejście to opiera się na obserwacji, że duża część słów (fraz) w WordNecie jest użyta tylko w jednym synsecie. W sytuacji, kiedy fraza jest unikalna dla wszystkich synsetów i zapytanie o nią Wikipedii 21

22 zwróci tylko jeden artykuł, to utworzone powiązanie artykuł - synset powinno być poprawne. W artykule [5] podano szczegółowy opis tej procedury w pseudokodzie algorithm 2. Ręczna ocena 200 losowo wybranych synsetów wykazała wysoką precyzję proponowanego podejścia na poziomie 97%. Umożliwiło to utworzenie powiązań dla synsetów, co jest 38,99% pokryciem całego zbioru. 2. Podejście oparte na synonimach zakłada odpytanie Wikipedii synonimami synsetu i w sytuacji, gdy w rezultatach wyszukiwania znajdzie się ten sam artykuł, zostaje dla niego utworzone powiązanie. W artykule [5] podano szczegółowy opis tej procedury w pseudokodzie algorithm 3. Ocena 200 losowo wybranych powiązań wskazała precyzję na poziomie 88%, co w rezultacie pozwoliło na utworzenie powiązań. 3. Exact matches trzeci sposób łączenia Wikipedii i słownika WordNet tworzył powiązanie, gdy nagłówek artykułu i wyraz z synsetu były takie same. Szczegółowy opis tej procedury podano w artykule [5] w pseudokodzie algorithm 4. W wyniku wykonania tej procedury 59% synsetów zostało powiązanych z artykułami Wikipedii. Dla ręcznie ocenionego zbioru 200 losowych synsetów uzyskano precyzję 83%. Z użyciem tego podejścia zbudowano powiązania dla synsetów. 4. Most-used czwarte podejście do łączenia artykułów Wikipedii i synsetów słownika WordNet zakładała, że w przypadku zwracania rezultatów, które są uporządkowane według pewnej miary istotności ustalanej przez system wyszukujący (w tym wypadku Wikipedia Opensearch API), najbardziej prawdopodobnym do utworzenia powiązania jest artykuł będący najczęściej na szczycie listy zwracanych rezultatów. Szczegółowy opis procedury przedstawiono pseudokodem algorithm 5 w artykule [5]. Ocena tej procedury, wykonana ręcznie na wylosowanych 200 testowych powiązaniach, potwierdziła że daje ona duże pokrycie 84% synsetów zostało w ten sposób połączonych, jednakże ich precyzja jest niska, rzędu 17%. W rezultacie powstało powiązań z których powinno być poprawnych. Zaproponowane powyżej metody automatycznego łączenia Wikipedii i słownika WordNet są metodami dającymi dobre rezultaty, wybranymi ze wcześniej przeprowadzonych badań, i które mogłyby być uruchomiane dla wszystkich wpisów w słowniku WordNet. Zaznaczyć należy, że do realizacji tego zdania testowano również szereg innych metod, które nie dały oczekiwanych rezultatów, jak np. 22

23 metoda oparta na łączeniu tych dwóch repozytoriów wykorzystująca model przestrzeni wektorowej. Porównuje ona z użyciem BoW definicję synsetu i pierwszego akapitu artykułu [21]. Rezultaty tego podejścia okazały się jednak niewystarczające do stworzenia dobrych jakościowo powiązań dla całego słownika WordNet. W celu uzyskania optymalnego zbioru inicjalnych powiązań przebadano różne kombinacje łączenia wyników zaproponowanych powyższej metod. Do rozstrzygnięcia konfliktów przyjęto następujące reguły: 1. jeśli co najmniej dwie metody utworzyły te samo powiązanie, to uznawane jest ono za właściwe, 2. jeśli dwa lub więcej podejść tworzą różne powiązania, wówczas jako właściwe wybierane jest to, które zostało utworzone przez metodę mającą większą precyzję. Zbudowany w ten sposób zbiór inicjalnych powiązań oceniony został na 200 wylosowanych parach. Dodatkowo przeprowadzono walidacje na powiązaniach utworzonych podczas oceny metod 1-4. Na podstawie tak utworzonego zbioru testowego oszacowano, że w zbiorze automatycznie utworzonych powiązań jest 54% powiązań poprawnych, 19% jest niepoprawnych, a dla reszty 27% nie udało się znaleźć poprawnego powiązania. Zbiór tak zbudowanych powiązań poddany został weryfikacji i korekcie poprzez społeczność użytkowników. Do tego celu utworzona została dedykowana strona internetowa 2 (nie będąca indywidualnym wkładem habilitanta), na której zarejestrowanemu użytkownikowi przedstawiany jest wylosowany synset. Jeżeli ma on wygenerowane powiązanie do Wikipedii, użytkownik może je ocenić jako: właściwe, niewłaściwe lub idealne. W przypadku braku powiązania użytkownik może wyszukać pasujący do zadanego synsetu artykuł Wikipedii lub też ocenić brak powiązania jako właściwy. W rezultacie dla (61,06%) spośród synsetów utworzono powiązania. Zaznaczyć należy, że dla części synsetów takie powiązania mogą nie istnieć. W procesie kooperacyjnej walidacji ponad par powiązań zostało ocenionych przez 15 użytkowników, co pozwoliło ocenić poprawność powiązań na poziomie 92,72%. W celu uatrakcyjnienia procesu oceny utworzono również grę internetową, stanowiącą implementację podejścia do akwizycji wiedzy z użyciem metody tzw. gier z celem [22, 23]. Zaznaczyć należy, że rozwiązanie to nie jest autorskim

Pokazać jeszcze