Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów Maciej Piasecki, Jan Kocoń Politechnika Wrocławska Katedra InteligencjiObliczeniowej Grupa Naukowa G4.19 Technologii Językowej i Lingwistyki Informatycznej maciej.piasecki@pwr.edu.pl
Cel Tło lingwistyczna analiza tekstów w Polskim Korpusie Listów Pożegnalnych (Zaśko-Zielińska, 2013) ujawniła szereg cech, które wydają się charakterystyczne dla listów pożegnalnych głównie cech na poziomie semantyki i pragmatyki językowej Cel opracowanie automatycznej metody do rozpoznawania autentycznych listów pożegnalnych pomiędzy innymi rodzajami tekstów Identyfikacja cech lingwistycznych, które są charakterystyczne dla listów pożegnalnych i które mogą stanowić cenną informację na temat osób popełniających samobójstwa
Dane Polski Korpus Listów Pożegnalnych ( Zaśko-Zielińska, 2013) 1 244 autentyczne listy pożegnalne skanowe, ręcznie transkrybowane opatrzone warstwą skorygowaną pod względem błędów językowych anotowane lingwistycznie na kilku poziomach 334 symulowane listy pożegnalne napisane przez ochotników w celu oszukania programu każdy list dla zadanej charakterystyki osoby, która miałaby popełnić samobójstwo 2 200 tekstów o charakterze listów z Internetu Np. cytowane listy, posty na forach internetowych 1 000 losowo wybranych tekstów z Wikipedii
Cechy opisowe Poziomy analizy języka Morfologiczny Morfo-syntaktyczny Semantyki leksykalnej Wykorzystywane narzędzia językowe program do segmentacji tekstu i analizy morfologicznej - MACA tager morfosyntaktyczny - WCFRT2 (Radziszewski, 2013), program do rozpoznawania nazw własnych - Liner2 (Marcińczuk et al., 2013) program do ujednoznaczniania sensów słów WoSeDon (Kędzia et al., 2015) Pracujący w oparciu o Słowosieć 3.0 emo (Maziarz et al., 2016)
Cechy opisowe Główne typy leksykalno-syntaktyczne znaczeń leksykalnych Leksykalno-syntaktyczne lemat wystąpienie konkretnej podstawowe formy morfologicznej wyznaczane z pomocą tagera morfosyntaktycznego WCRFT2 np. o wszystkich zmartwieniach [zmartwienie] znak_interpunkcyjny - znaki interpunkcyjne wielka_litera wystąpienie słowa napisanego z wielkiej litery czasownik12 wystąpienie czasownika w 1 i 2 osobie bigram wystąpienie konkretnej dwuelementowej sekwencji klas gramatycznych
Cechy opisowe Leksykalno-syntaktyczne c.d. bigram wystąpienie konkretnej dwuelementowej sekwencji klas gramatycznych według tagsetu (zbioru tagów) Narodowego Korpusu Języka Polskiego np. o wszystkich zmartwieniach -> prep adj subst -> <empty> prep, prep adj, adj subst, subst <empty> deminutyw wystąpienie konkretnego zdrobnienia (wg Słowosieci 3.0) augmentatyw wystąpienie konkretnego augmentatywu w tekście (wg Słowosieci 3.0) klasa_nazwy wystąpienie nazwy własnej przynależnej do określonej klasy semantycznej wg Liner2 np. Jan Kowalski -> <person_name>
Cechy opisowe Oparte na znaczeniach leksykalnych synset wystąpienie konkretnego synsetu ze Słowosieci, reprezentującego określone znaczenie leksykalne np. {zmartwienie 1, zafrasowanie 1, strapienie 1} {zmartwienie 2, znieruchomienie 1, zamarcie 1, zastygnięcie 1, zakrzepnięcie 1} {zmartwienie 4, zgryzota 1, frasunek 1, strapienie 2, utrapienie 2, troska 3} wyznaczony za pomocą WoSeDona hiperonim5 hiperonimy synsetu z tekstu do 5 poziomów np. {zmartwienie 1, }: ->{wbudzenie uczuć negatywnych 1} -> {wzbudzenie 1} -> {wywołanie 1} -> {GERUNDIUM WYPADEK oznaczający spowodowanie zmiany sytuacji związanych (lub sytuacje związane) ze współżyciem w społeczeństwie 1}
Cechy opisowe Oparte na znaczeniach leksykalnych c.d. wn.domains dziedzina semantyczna WordNet Domains (Bentivogli et al., 2004) przypisana do synsetu z tekstu sumo najbardziej szczegółowe pojęcie z ontologii SUMO przypisane do synsetu z tekstu synset.hyp hiperonim synsetu z tekstu znajdujący się dwa poziomy wyżej Np. {zmartwienie 1, }: ->{wbudzenie uczuć negatywnych 1} -> {wzbudzenie 1} -> {wywołanie 1} -> dziedzina dziedzina lingwistyczna synsetu z tekstu wg podziału synsetów na tzw. pliki leksykograficzne, około 100
Cechy opisowe Oparte na znaczeniach leksykalnych c.d. czas_emo wystąpienie lematu czasownikowego ze zbioru wyznaczonego jako czasowniki wyrażające emocje wg (Zaśko- Zielińska, 2013) rzecz_emo j.w. tylko lematy rzeczownikowe przym_emo j.w. tylko lematy przymiotnikowe Słowniki synsetów ustalone dla poszczególnych typów tekstów Cel: wyznaczenie synsetów, które są charakterystyczne dla poszczególnych klas tekstów (Kocoń and Marcińczuk, 2016) zbalansowane uogólnienie synsetów dla słów z tekstów równowaga pomiędzy wielkością a szczegółowością klasy wyznaczone na podstawie wydzielonego, odłożonego podzbioru tekstów
Nadzorowana klasyfikacja semantyczna Klasy wyznaczone poprzez zbiory przykładów główne: listy pożegnalne vs inne teksty szczegółowe: listy pożegnalne, udawane listy pożegnalne, inne teksty Proces 1. wyznaczenie słowników synsetów na podstawie zbioru odłożonego 2. Losowy podział na zbiór treningowy (k-1 części) i testowy (1 część) 3. wyznaczenie wartości cech (częstości) dla każdego z dokumentów 4. nauczenie klasyfikatora na zbiorze treningowym 5. testowanie na zbiorze testowym 6. powtórzenie 2-5 k razy
Proces budowy klasyfikatora 1. 2. 3. Identyfikacja źródeł Pozyskanie korpusu tekstów Wstępne przetwarzanie korpusu 4. Ręczna anotacja podkorpusu treningowo-testowego 5. 6. Automatyczna anotacja korpusu Analiza i udostępnienie anotowanego korpusu * Przyrostowa automatyczna anotacja: powtarzanie etapów 4-6
Eksperymenty Podział: 9 części na zbiór treningowo-testowy, 1 na zbiór odłożony Ważenie wartości cech przekształcenie częstości w miary istotności cechy dla klasy Miara informacji wzajemnej wg ( Lin, 1998) częstość dokumentowa tf normalizowana przez najczęstsze słowo/synset w dokumencie Progi minimalna częstość cechy: 20 minimalna liczba dokumentów zawierających cechę: 5 Algorytm klasyfikacji SVM (maszyna wektorów wspierających) z biblioteki programistycznej LIBSVM library (Chang i Lin, 2011) jądro RBF
Eksperymenty: wyniki AnnLemmas lematy, interpunkcja, klasy gram., czasownik12, klasy nazw, bigramy; AnLem+Deriv = AnnLemmas plus wielka litera, deminutywy, i augmentatywy NonPerLem = AnLem+Deriv minus verb12
Eksperymenty: wyniki Synsets = AnLem+Deriv minus lematy plus synsety, hypernonimy5, wn.domains i sumo GenSyn+Dom = AnLem+Deriv minus lematy plus synset_hyp, dziedziny, czas_emo, rzecz_emo, przym_emo i sumo Dom+SUMO = GenSyn+Dom minus synset_hyp SenseDict = GenSyn+Dom plus słowniki synsetów
Przykład cech istotnych: klasyfikacja listów pożegnalnych 1. Słownik: teksty inne 2. lexclass:subst 3. Bigram: interp+empty 4. lexclass:interp 5. Bigram: adj+interp 6. Słownik: prawdziwe listy 7. Czasownik 1 i 2 8. Bigram: subst+interp 9. lexclass:ppron12 10. interp:comma 11. lexclass:noun 12. lexclass:prep 13. Bigram:subst+adj 14. Dziedzina: przym. relacyjne 15. lexclass:adj 16. Słownik: listy symulowane 17. Bigram:prep+subst 18. lexclass:impt 19. Bigram:interp+interp 20. lexclass:ger 21. interp:question 22. Bigram:adj+subst 23. interp:hyphen 24. Bigram:subst+subst 25. interp:fullstop 26. Bigram:interp+adj 27. Bigram:subst+ppas 28. synhyp:{grupa 4, zbiór 1} 29. synhyp:{właściwość 1, przymiot 1, cecha 1, własność 2, atrybut 1} 30. Bigram:ppas+prep
Przykład cech istotnych: klasyfikacja listów pożegnalnych 31. Bigram:num+subst 32. Bigram:interp+subst 33. Nazwy: kraj 34. Dziedzina: zdarz 35. synsethyp:gerundium 36. sumo:sbjassessmentatr 37. synhyp:{ [sztuczny] wykonywanie czynności religijnych bądź magicznych 1} 38. synhyp:{oddalanie się 1} 39. interp:dash 40. synhyp:{ [sztuczny] człowiek ze względu na relacje społeczne 1} 41. synhyp:{stan 1} 42. synhyp:{[sztuczny] GERUNDIUM OD CZASOWNIKA DYNAMICZNEGO NIEZMIENNOSTANOWEGO} 43. Bigram:adj+prep 44. lexclass:aglt 45. Bigram:ppron12+praet
Przykład cech istotnych: klasyfikacja listów pożegnalnych Cechy semantyczne 9) Dziedzina: rel (przym. relacyjne) 18) Dziedzina: zwz (związki) 22) Dziedzina: zdarz (zdarzenia) 24) Uog. znaczenie:grupa-4(grp) zbiór-1(grp) 30) Uog. znaczenie: wykonywanie_czynności_ religijnych_bądź_magicznych-1 (czy) 39) Uog. znaczenie: właściwość- 1(cech) przymiot-1(cech) cecha- 1(cech) własność-2(cech) atrybut-1(cech) 41) oddalanie_się-1(czy) 43) Uog. znaczenie: człowiek_określany_pieszczotliwie-1 (os) człowiek_określany_familiarnie-1 (os) 44) Uog. znaczenie: doświadczać_pozytywnego_uczucia-1 (cst) 45) Uog. znaczenie: chować-7(cczuj) żywić-2 (cczuj) 46) Uog. znaczenie: GERUNDIUM- 1(bhp) 47) Uog. znaczenie: GERUNDIUM_OD_CZASOWNIKA_D YNAMICZNEGO_NIEZMIENNOSTAN OWEGO-1(czy)
Wnioski Uzyskane rezultaty wskazują na fundamentalne różnice pomiędzy prawdziwymi i symulowanymi listami pożegnalnymi. różnice są szczególnie widoczne w stosunku do innych rodzajów tekstów Porównywane były wersje transkrybowane i skorygowane językowo różne typy błędów nie były brane pod uwagę Analiza była ukierunkowana na cechy lingwistyczne Modele klasyfikacji oparte na synsetach są trochę lepsze niż modele oparte na słowach Zastosowana metoda budowy słowników synsetów okazała się najlepszym sposobem poprawy wyników klasyfikacji
Szczegółowe informacje Maciej Piasecki, Ksenia Młynarczyk i Jan Kocoń (2017) Recognition of Genuine Polish Suicide Notes. W Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP. https://aclanthology.info/papers/r17-1076/r17-1076
Dziękuję bardzo za uwagę www.clarin-pl.eu www.clarin.eu