Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Podobne dokumenty
WebSty otwarty webowy system do analiz stylometrycznych

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Narzędzia do automatycznego wydobywania kolokacji

System do klasyfikacji tekstu i analizy stylometrycznej

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

Program warsztatów CLARIN-PL

Inforex - zarządzanie korpusami i ich anotacja

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Narzędzia do automatycznego wydobywania kolokacji

Ujednoznacznianie sensów słów

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

LEM wydobywanie statystyk z korpusów

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Open Access w technologii językowej dla języka polskiego

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

CLARIN infrastruktura naukowa technologii językowych

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna

Narzędzia do automatycznej analizy odniesień w tekstach

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1

Słowosieć - polskie zasoby leksykalne i możliwość ich wykorzystania

AUTOMATYKA INFORMATYKA

Zapytanie ofertowe nr 1/2016

Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowania

Rzutowanie Słowosieci na pojęcia ontologii SUMO i inne zasoby semantyczne

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

Narzędzia do ekstrakcji informacji z tekstu

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Spis treści Wstęp 1. Językoznawstwo sądowe

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Automatyczne rozpoznawanie polskich leksykalnych relacji derywacyjno-semantycznych

Słowosiec leksykalna siec semantyczna języka polskiego i jej zastosowania

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Zastosowanie Wikipedii w przetwarzaniu języka naturalnego

S owosiec leksykalna siec semantyczna jezyka polskiego i jej zastosowania

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Co wylicza Jasnopis? Bartosz Broda

Spis treści tomu pierwszego

Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Analiza danych tekstowych i języka naturalnego

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen

Część 1. Wydobywanie informacji z tekstu i stylometria CLARIN-PL. Tomasz Walkowiak, Maciej Piasecki

Prof. Stanisław Jankowski

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Lokalizacja Oprogramowania

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Automatyczna ekstrakcja i klasyfikacja semantyczna wielosegmentowych jednostek leksykalnych języka naturalnego

SEMANTYCZNE ZNACZNIKOWANIE ARTYKUŁÓW WIKIPEDII SYNSETAMI SŁOWNIKA WORDNETA 1

Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń

Wymagana wiedza i umiejętności z języka niemieckiego dla uczniów szkoły gimnazjum na poszczególne stopnie szkolne obejmująca wszystkie sprawności

Część 1. Ekstrakcja informacji oraz stylometria na usługach psychologii CLARIN-PL. Tomasz Walkowiak

Programowanie komputerów

Podstawy Informatyki. Algorytmy i ich poprawność

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Semantyczna analiza języka naturalnego

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

6. Algorytmy ochrony przed zagłodzeniem dla systemów Linux i Windows NT.

Marcin Miłkowski IFiS PAN

Ontologie, czyli o inteligentnych danych

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

CLARIN-PL w praktyce badawczej

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO KLASY IV-VI SZKOŁA PODSTAWOWA NR 43 w BIAŁYMSTOKU

Tytuł rozprawy: Metody semantycznej kategoryzacji w zadaniach analizy dokumentów tekstowych.

Umysł-język-świat 2012

Słowosieć jako narzędzie wspomagające pracę tłumacza

Pattern Classification

Widzenie komputerowe (computer vision)

Narzędzia do automatycznej analizy odniesień w tekstach

Problem ujednoznaczniania sensu w kontekście ekstrakcji relacji semantycznych

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO Szkoła Podstawowa w Mysiadle

Testowanie hipotez statystycznych

Znaczenia złapane w sieć

Transkrypt:

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów Maciej Piasecki, Jan Kocoń Politechnika Wrocławska Katedra InteligencjiObliczeniowej Grupa Naukowa G4.19 Technologii Językowej i Lingwistyki Informatycznej maciej.piasecki@pwr.edu.pl

Cel Tło lingwistyczna analiza tekstów w Polskim Korpusie Listów Pożegnalnych (Zaśko-Zielińska, 2013) ujawniła szereg cech, które wydają się charakterystyczne dla listów pożegnalnych głównie cech na poziomie semantyki i pragmatyki językowej Cel opracowanie automatycznej metody do rozpoznawania autentycznych listów pożegnalnych pomiędzy innymi rodzajami tekstów Identyfikacja cech lingwistycznych, które są charakterystyczne dla listów pożegnalnych i które mogą stanowić cenną informację na temat osób popełniających samobójstwa

Dane Polski Korpus Listów Pożegnalnych ( Zaśko-Zielińska, 2013) 1 244 autentyczne listy pożegnalne skanowe, ręcznie transkrybowane opatrzone warstwą skorygowaną pod względem błędów językowych anotowane lingwistycznie na kilku poziomach 334 symulowane listy pożegnalne napisane przez ochotników w celu oszukania programu każdy list dla zadanej charakterystyki osoby, która miałaby popełnić samobójstwo 2 200 tekstów o charakterze listów z Internetu Np. cytowane listy, posty na forach internetowych 1 000 losowo wybranych tekstów z Wikipedii

Cechy opisowe Poziomy analizy języka Morfologiczny Morfo-syntaktyczny Semantyki leksykalnej Wykorzystywane narzędzia językowe program do segmentacji tekstu i analizy morfologicznej - MACA tager morfosyntaktyczny - WCFRT2 (Radziszewski, 2013), program do rozpoznawania nazw własnych - Liner2 (Marcińczuk et al., 2013) program do ujednoznaczniania sensów słów WoSeDon (Kędzia et al., 2015) Pracujący w oparciu o Słowosieć 3.0 emo (Maziarz et al., 2016)

Cechy opisowe Główne typy leksykalno-syntaktyczne znaczeń leksykalnych Leksykalno-syntaktyczne lemat wystąpienie konkretnej podstawowe formy morfologicznej wyznaczane z pomocą tagera morfosyntaktycznego WCRFT2 np. o wszystkich zmartwieniach [zmartwienie] znak_interpunkcyjny - znaki interpunkcyjne wielka_litera wystąpienie słowa napisanego z wielkiej litery czasownik12 wystąpienie czasownika w 1 i 2 osobie bigram wystąpienie konkretnej dwuelementowej sekwencji klas gramatycznych

Cechy opisowe Leksykalno-syntaktyczne c.d. bigram wystąpienie konkretnej dwuelementowej sekwencji klas gramatycznych według tagsetu (zbioru tagów) Narodowego Korpusu Języka Polskiego np. o wszystkich zmartwieniach -> prep adj subst -> <empty> prep, prep adj, adj subst, subst <empty> deminutyw wystąpienie konkretnego zdrobnienia (wg Słowosieci 3.0) augmentatyw wystąpienie konkretnego augmentatywu w tekście (wg Słowosieci 3.0) klasa_nazwy wystąpienie nazwy własnej przynależnej do określonej klasy semantycznej wg Liner2 np. Jan Kowalski -> <person_name>

Cechy opisowe Oparte na znaczeniach leksykalnych synset wystąpienie konkretnego synsetu ze Słowosieci, reprezentującego określone znaczenie leksykalne np. {zmartwienie 1, zafrasowanie 1, strapienie 1} {zmartwienie 2, znieruchomienie 1, zamarcie 1, zastygnięcie 1, zakrzepnięcie 1} {zmartwienie 4, zgryzota 1, frasunek 1, strapienie 2, utrapienie 2, troska 3} wyznaczony za pomocą WoSeDona hiperonim5 hiperonimy synsetu z tekstu do 5 poziomów np. {zmartwienie 1, }: ->{wbudzenie uczuć negatywnych 1} -> {wzbudzenie 1} -> {wywołanie 1} -> {GERUNDIUM WYPADEK oznaczający spowodowanie zmiany sytuacji związanych (lub sytuacje związane) ze współżyciem w społeczeństwie 1}

Cechy opisowe Oparte na znaczeniach leksykalnych c.d. wn.domains dziedzina semantyczna WordNet Domains (Bentivogli et al., 2004) przypisana do synsetu z tekstu sumo najbardziej szczegółowe pojęcie z ontologii SUMO przypisane do synsetu z tekstu synset.hyp hiperonim synsetu z tekstu znajdujący się dwa poziomy wyżej Np. {zmartwienie 1, }: ->{wbudzenie uczuć negatywnych 1} -> {wzbudzenie 1} -> {wywołanie 1} -> dziedzina dziedzina lingwistyczna synsetu z tekstu wg podziału synsetów na tzw. pliki leksykograficzne, około 100

Cechy opisowe Oparte na znaczeniach leksykalnych c.d. czas_emo wystąpienie lematu czasownikowego ze zbioru wyznaczonego jako czasowniki wyrażające emocje wg (Zaśko- Zielińska, 2013) rzecz_emo j.w. tylko lematy rzeczownikowe przym_emo j.w. tylko lematy przymiotnikowe Słowniki synsetów ustalone dla poszczególnych typów tekstów Cel: wyznaczenie synsetów, które są charakterystyczne dla poszczególnych klas tekstów (Kocoń and Marcińczuk, 2016) zbalansowane uogólnienie synsetów dla słów z tekstów równowaga pomiędzy wielkością a szczegółowością klasy wyznaczone na podstawie wydzielonego, odłożonego podzbioru tekstów

Nadzorowana klasyfikacja semantyczna Klasy wyznaczone poprzez zbiory przykładów główne: listy pożegnalne vs inne teksty szczegółowe: listy pożegnalne, udawane listy pożegnalne, inne teksty Proces 1. wyznaczenie słowników synsetów na podstawie zbioru odłożonego 2. Losowy podział na zbiór treningowy (k-1 części) i testowy (1 część) 3. wyznaczenie wartości cech (częstości) dla każdego z dokumentów 4. nauczenie klasyfikatora na zbiorze treningowym 5. testowanie na zbiorze testowym 6. powtórzenie 2-5 k razy

Proces budowy klasyfikatora 1. 2. 3. Identyfikacja źródeł Pozyskanie korpusu tekstów Wstępne przetwarzanie korpusu 4. Ręczna anotacja podkorpusu treningowo-testowego 5. 6. Automatyczna anotacja korpusu Analiza i udostępnienie anotowanego korpusu * Przyrostowa automatyczna anotacja: powtarzanie etapów 4-6

Eksperymenty Podział: 9 części na zbiór treningowo-testowy, 1 na zbiór odłożony Ważenie wartości cech przekształcenie częstości w miary istotności cechy dla klasy Miara informacji wzajemnej wg ( Lin, 1998) częstość dokumentowa tf normalizowana przez najczęstsze słowo/synset w dokumencie Progi minimalna częstość cechy: 20 minimalna liczba dokumentów zawierających cechę: 5 Algorytm klasyfikacji SVM (maszyna wektorów wspierających) z biblioteki programistycznej LIBSVM library (Chang i Lin, 2011) jądro RBF

Eksperymenty: wyniki AnnLemmas lematy, interpunkcja, klasy gram., czasownik12, klasy nazw, bigramy; AnLem+Deriv = AnnLemmas plus wielka litera, deminutywy, i augmentatywy NonPerLem = AnLem+Deriv minus verb12

Eksperymenty: wyniki Synsets = AnLem+Deriv minus lematy plus synsety, hypernonimy5, wn.domains i sumo GenSyn+Dom = AnLem+Deriv minus lematy plus synset_hyp, dziedziny, czas_emo, rzecz_emo, przym_emo i sumo Dom+SUMO = GenSyn+Dom minus synset_hyp SenseDict = GenSyn+Dom plus słowniki synsetów

Przykład cech istotnych: klasyfikacja listów pożegnalnych 1. Słownik: teksty inne 2. lexclass:subst 3. Bigram: interp+empty 4. lexclass:interp 5. Bigram: adj+interp 6. Słownik: prawdziwe listy 7. Czasownik 1 i 2 8. Bigram: subst+interp 9. lexclass:ppron12 10. interp:comma 11. lexclass:noun 12. lexclass:prep 13. Bigram:subst+adj 14. Dziedzina: przym. relacyjne 15. lexclass:adj 16. Słownik: listy symulowane 17. Bigram:prep+subst 18. lexclass:impt 19. Bigram:interp+interp 20. lexclass:ger 21. interp:question 22. Bigram:adj+subst 23. interp:hyphen 24. Bigram:subst+subst 25. interp:fullstop 26. Bigram:interp+adj 27. Bigram:subst+ppas 28. synhyp:{grupa 4, zbiór 1} 29. synhyp:{właściwość 1, przymiot 1, cecha 1, własność 2, atrybut 1} 30. Bigram:ppas+prep

Przykład cech istotnych: klasyfikacja listów pożegnalnych 31. Bigram:num+subst 32. Bigram:interp+subst 33. Nazwy: kraj 34. Dziedzina: zdarz 35. synsethyp:gerundium 36. sumo:sbjassessmentatr 37. synhyp:{ [sztuczny] wykonywanie czynności religijnych bądź magicznych 1} 38. synhyp:{oddalanie się 1} 39. interp:dash 40. synhyp:{ [sztuczny] człowiek ze względu na relacje społeczne 1} 41. synhyp:{stan 1} 42. synhyp:{[sztuczny] GERUNDIUM OD CZASOWNIKA DYNAMICZNEGO NIEZMIENNOSTANOWEGO} 43. Bigram:adj+prep 44. lexclass:aglt 45. Bigram:ppron12+praet

Przykład cech istotnych: klasyfikacja listów pożegnalnych Cechy semantyczne 9) Dziedzina: rel (przym. relacyjne) 18) Dziedzina: zwz (związki) 22) Dziedzina: zdarz (zdarzenia) 24) Uog. znaczenie:grupa-4(grp) zbiór-1(grp) 30) Uog. znaczenie: wykonywanie_czynności_ religijnych_bądź_magicznych-1 (czy) 39) Uog. znaczenie: właściwość- 1(cech) przymiot-1(cech) cecha- 1(cech) własność-2(cech) atrybut-1(cech) 41) oddalanie_się-1(czy) 43) Uog. znaczenie: człowiek_określany_pieszczotliwie-1 (os) człowiek_określany_familiarnie-1 (os) 44) Uog. znaczenie: doświadczać_pozytywnego_uczucia-1 (cst) 45) Uog. znaczenie: chować-7(cczuj) żywić-2 (cczuj) 46) Uog. znaczenie: GERUNDIUM- 1(bhp) 47) Uog. znaczenie: GERUNDIUM_OD_CZASOWNIKA_D YNAMICZNEGO_NIEZMIENNOSTAN OWEGO-1(czy)

Wnioski Uzyskane rezultaty wskazują na fundamentalne różnice pomiędzy prawdziwymi i symulowanymi listami pożegnalnymi. różnice są szczególnie widoczne w stosunku do innych rodzajów tekstów Porównywane były wersje transkrybowane i skorygowane językowo różne typy błędów nie były brane pod uwagę Analiza była ukierunkowana na cechy lingwistyczne Modele klasyfikacji oparte na synsetach są trochę lepsze niż modele oparte na słowach Zastosowana metoda budowy słowników synsetów okazała się najlepszym sposobem poprawy wyników klasyfikacji

Szczegółowe informacje Maciej Piasecki, Ksenia Młynarczyk i Jan Kocoń (2017) Recognition of Genuine Polish Suicide Notes. W Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP. https://aclanthology.info/papers/r17-1076/r17-1076

Dziękuję bardzo za uwagę www.clarin-pl.eu www.clarin.eu