Słowosieć - polskie zasoby leksykalne i możliwość ich wykorzystania Agnieszka Dziob Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 agnieszka.dziob@pwr.edu.pl 2018-05-24
Instalowanie aplikacji
.EU/PL/USLUGI/
O Słowosieci
Stan wyjściowy
O Słowosieci Zastosowania
Lingwistyka, translacje, dydaktyka Dane multimodalne Semantic Web Text mining WSD Wydobywanie informacji Generatory danych Psychologia i medycyna
Lingwistyka, translacje, dydaktyka Dane multimodalne Semantic Web Text mining WSD Wydobywanie informacji Generatory danych Psychologia i medycyna
Lingwistyka, translacje, dydaktyka Dane multimodalne Semantic Web Text mining WSD Wydobywanie informacji Generatory danych Psychologia i medycyna
Lingwistyka, translacje, dydaktyka Dane multimodalne Semantic Web Text mining WSD Wydobywanie informacji Generatory danych Psychologia i medycyna
Lingwistyka, translacje, dydaktyka Dane multimodalne Semantic Web Text mining WSD Wydobywanie informacji Generatory danych Psychologia i medycyna
Lingwistyka, translacje, dydaktyka Dane multimodalne Semantic Web Text mining WSD Wydobywanie informacji Generatory danych Psychologia i medycyna
Lingwistyka, translacje, dydaktyka Dane multimodalne Semantic Web Text mining WSD Wydobywanie informacji Generatory danych Psychologia i medycyna
Lingwistyka, translacje, dydaktyka Dane multimodalne Semantic Web Text mining WSD Wydobywanie informacji Generatory danych Psychologia i medycyna
Lingwistyka, translacje, dydaktyka Dane multimodalne Semantic Web Text mining WSD Wydobywanie informacji Generatory danych Psychologia i medycyna
Lingwistyka, translacje, dydaktyka Dane multimodalne Semantic Web Text mining WSD Wydobywanie informacji Generatory danych Psychologia i medycyna
Budowa Słowosieci
Zadanie badawcze Przykładowy problem badawczy: diagnostyka zaburzeń osobowości Przykładowy materiał: wypowiedzi osób diagnozowanych
System relacji 305 typów i podtypów relacji, w tym: 76 typów i podtypów relacji słownika walencyjnego Walenty (obrazują preferencje selekcyjne) 42 typów i podtypów relacji synsetów i jednostek łączących Słowosieć z Princeton WordNetem 29 typów relacji jednostek i synsetów Princeton WordNet
System relacji Podstawowa: hiperonimia (odwrotna hiponimia) wiąże z kategorią nadrzędną (kot -> ssak drapieżny) Relacja cząstkowości-całościowości: meronimia-holonimia dla rzeczowników (awans -> kariera) Relacja mero-/holonimii taksonomicznej dla rzeczownika wiąże drzewo taksonomii naukowej z drzewem wiedzy potocznej (pies -> psowate) Relacja dla nazw własnych: typ-egzemplarz (oznaczenie nazw własnych: NP w komentarzu) (Mendel -> botanik) Relacje opisu związków przyczynowo-skutkowych dla czasowników: Wcześniej (przyczyna): uprzedniość i presupozycja Jednocześnie: mero-/ i holonimia czasownikowa Później (skutek): kauzacja (inchoatywność) i procesywność Relacje wielokrotności dla czasowników: dystrybutywność i iteratywność
System relacji wartość cechy (Adj-N) X to przymiotnik, N to rzeczownik Jeżeli ktoś coś jest X-owy(e), to ma określone N / jest kimś czymś o określonym N. Jeżeli ktoś coś ma określone N / jest o określonym N, to niekoniecznie jest X-owy(e).
System relacji wartość cechy (Adj-N) X to przymiotnik, N to rzeczownik Jeżeli ktoś coś jest X-owy(e), to ma określone N / jest kimś czymś o określonym N. X to derywat przymiotnikowy od czasownika V Jeżeli ktoś coś ma określone N / jest o określonym N, to niekoniecznie jest X-owy(e). X oznacza taki [prep] który można V-ować atrakcyjny to przymiotnik, wygląd to rzeczownik Jeżeli ktoś coś jest atrakcyjny, to ma określony wygląd / jest kimś czymś o określonym wyglądzie. Jeżeli ktoś coś ma określony wygląd / jest o określonym wyglądzie, to niekoniecznie jest atrakcyjny.
Zadanie badawcze Przykładowy problem badawczy: diagnostyka zaburzeń osobowości Przykładowy materiał: wypowiedzi osób diagnozowanych Proszę wyszukać w Słowosieci czasowniki z kauzacją i procesywnością Czym różnią się jedne od drugich?
Przykładowy scenariusz rozwiązania problemu: 1. Badanie, jaki procent stanowią czasowniki wyrażające postawę czynną a jaki bierną, 2. Przyporządkowanie na podstawie relacji czasowników agentywnych i bezagentywnych do obszarów semantycznych.
Dziedziny w Słowosieci 53 dziedziny semantyczne dla wszystkich części mowy lexicographer files zastosowanie czysto techniczne brak zasad dziedzinowej kwalifikacji semantycznej brak kodyfikacji (dziedziny nie są opisane w wytycznych ani instrukcjach użytkownika; wyjątkiem jest przymiotnik i niektóre dziedziny czasownika)
bhp najwyższe w hierarchii wytw wytwory ludzkie(nazwy) grp grupy ludzi i rzeczy jedz jedzenie sys systematyka, klasyfikacja msc miejsca i umiejscowienie cst czasowniki stanowe umy związane z myśleniem cdystr czasownki dystrybutywne por związane z porozumiewaniem się caku czasowniki akumulatywne czuj uczucia, odczucia i emocje cper czasowniki perduratywne zwz związek miedzy ludźmi, rzeczami lub ideami cdel czasowniki delimitatywne cumy czasowniki myślenia (szeroko rozumianego) czy czynności (nazwy) zdarz zdarzenia cpor czasowniki mówienia, śpiewania itp. wal czasowniki rywalizacji fizycznej cel cel działania cczuj czasowniki wyrażające uczucia st sytuacje statyczne (stany) czc części ciała cpos czasowniki posiadania i zmiany posiadania os ludzie sp czasowniki oznacz. wydarzenie i działania społeczne i polityczne rsl nazwy roślin pog czasowniki oznacz. zjawiska pogodowe zw zwierzęta prc procesy naturalne hig pielęgnacja ciała rz obiekty naturalne cjedz czasowniki jedzenia zj zjawiska naturalne pst czasowniki postrzegania (percepcji) sbst substancje cech cechy ludzi i zwierząt dtk czasowniki oznacz. kontakt fizyczny (dotykanie, uderzenie, rycie itp.) pos posiadanie i jego zmiana cwyt czasowniki oznacz. wytwarzanie czegoś il ilość, liczebność, jednostki miary ruch czasowniki ruchu ksz kształty jak przymiotniki jakościowe czas czas i stosunki czasowe mat przymiotniki materiałowe rel przymiotniki relacyjne (rzeczownikowe) adv przysłówki zmn zmiana wielkości, temperatury natężenia, itp.
Zadanie badawcze Przykładowy problem badawczy: badanie zdolności dziecka szkolnego Przykładowy materiał: teksty tworzone przez dziecko
Rejestr jednostki leksykalnej 11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej:
Rejestr jednostki leksykalnej 11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej: nienorm. nienormatywne
Rejestr jednostki leksykalnej 11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej: nienorm. nienormatywne daw. dawne
Rejestr jednostki leksykalnej 11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej: nienorm. nienormatywne daw. dawne reg. regionalne
Rejestr jednostki leksykalnej 11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej: nienorm. nienormatywne daw. dawne reg. regionalne środ. środowiskowe
Rejestr jednostki leksykalnej 11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej: nienorm. nienormatywne daw. dawne reg. regionalne środ. środowiskowe specj. specjalistyczne
Rejestr jednostki leksykalnej 11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej: nienorm. nienormatywne daw. dawne reg. regionalne środ. środowiskowe specj. specjalistyczne urz. urzędowe
Rejestr jednostki leksykalnej 11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej: nienorm. nienormatywne daw. dawne reg. regionalne środ. środowiskowe specj. specjalistyczne urz. urzędowe książk. książkowe
Rejestr jednostki leksykalnej 11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej: nienorm. nienormatywne daw. dawne reg. regionalne środ. środowiskowe specj. specjalistyczne urz. urzędowe książk. książkowe wulg. wulgarne
Rejestr jednostki leksykalnej 11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej: nienorm. nienormatywne daw. dawne reg. regionalne środ. środowiskowe specj. specjalistyczne urz. urzędowe książk. książkowe wulg. wulgarne posp. pospolite
Rejestr jednostki leksykalnej 11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej: nienorm. nienormatywne daw. dawne reg. regionalne środ. środowiskowe specj. specjalistyczne urz. urzędowe książk. książkowe wulg. wulgarne posp. pospolite pot. potoczne
Rejestr jednostki leksykalnej 11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej: nienorm. nienormatywne daw. dawne reg. regionalne środ. środowiskowe specj. specjalistyczne urz. urzędowe książk. książkowe wulg. wulgarne posp. pospolite pot. potoczne og. rejestr ogólny
Rejestr jednostki leksykalnej 11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej: nienorm. nienormatywne daw. dawne reg. regionalne środ. środowiskowe specj. specjalistyczne urz. urzędowe książk. książkowe wulg. wulgarne posp. pospolite pot. potoczne og. rejestr ogólny
Zadanie badawcze Przykładowy problem badawczy: badanie zdolności dziecka szkolnego Przykładowy materiał: teksty tworzone przez dziecko Proszę wyszukać w Słowosieci słownictwo książkowe i specjalistyczne abstrakcyjne Na podstawie relacji proszę sprawdzić, do jakich dziedzin może należeć słownictwo
Przykładowy scenariusz rozwiązania problemu: 1. Badanie, jaki procent tekstu dziecka to słownictwo specjalistyczne i książkowe, 2. Badanie, do jakich obszarów semantycznych należy słownictwo (jaki obszar nauk) na podstawie relacji jednostek i dziedzin semantycznych, 3. Utworzenie słownika (listy) jako materiału porównawczego w stosunku do innych dzieci w podobnym wieku.
Synsety sztuczne Synsety o charakterze porządkującym, niebędące jednostkami języka Przykład: proszę prześledzić hiponimy czasownika czuć 2 Proszę zobaczyć, jakie anotacje emotywne mają
Zadanie badawcze Przykładowy problem badawczy: analiza sentymentu Przykładowy materiał: forum dyskusyjne chorych na depresję
Nastawienie emocjonalne Emocje podstawowe radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980)
Nastawienie emocjonalne Emocje podstawowe radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980) Wartości uniwersalne użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992)
Nastawienie emocjonalne Emocje podstawowe radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980) Wartości uniwersalne użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992) Nastawienie pozytywne (bardzo słabo), negatywne (bardzo słabo), neutralne.
Nastawienie emocjonalne Emocje podstawowe radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980) Wartości uniwersalne użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992) Nastawienie pozytywne (bardzo słabo), negatywne (bardzo słabo), neutralne. Ponad 100 000 oznakowanych jednostek.
Nastawienie emocjonalne
Nastawienie emocjonalne Dwójka anotatorów (lingwista i psycholog) dla każdej jednostki;
Nastawienie emocjonalne Dwójka anotatorów (lingwista i psycholog) dla każdej jednostki; Superanotator, którego decyzja jest rozstrzygająca w przypadku niezgodnych anotacji;
Nastawienie emocjonalne Dwójka anotatorów (lingwista i psycholog) dla każdej jednostki; Superanotator, którego decyzja jest rozstrzygająca w przypadku niezgodnych anotacji; Anotatorzy nie widzą wzajemnie swoich anotacji.
Zadanie badawcze Przykładowy problem badawczy: analiza sentymentu Przykładowy materiał: forum dyskusyjne chorych na depresję Proszę wyszukać w Słowosieci słownictwo mocno negatywnie nacechowane Na podstawie relacji proszę sprawdzić, do jakich dziedzin może należeć słownictwo
WNLoom
Długotrwały kontakt językowy i jego skutki leksykalne oraz semantyczne na przykładzie polskich zapożyczeń leksykalnych w jidysz - grant NCN (OPUS 11); kierownik prof. Ewa Geller (UW)
Do poczytania Subiektywny wybór tekstów
Nowaczyk, A., & Jackowska-Strumiłło, L. (2017). Rozpoznawanie emocji w tekstach polskojęzycznych z wykorzystaniem metody słów kluczowych. Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska, 7. Sansonnet, J. P., & Bouchet, F. (2010). Extraction of agent psychological behaviors from glosses of wordnet personality adjectives. In Proc. of the 8th European Workshop on Multi-Agent Systems (EUMAS10). Sigman, M., & Cecchi, G. A. (2002). Global organization of the Wordnet lexicon. Proceedings of the National Academy of Sciences, 99(3), 1742-1747. Mikołajczak-Matyja, N. (2015). The associative structure of the mental lexicon: hierarchical semantic relations in the minds of blind and sighted language users. Psychology of Language and Communication, 19(1), 1-18. Gatkowska, I. (2015). Empiryczna sieć powiązań leksykalnych. Polonica, 35, 155-178.
Dziękuję bardzo za uwagę Zapraszamy do kontaktu: agnieszka.dziob@pwr.edu.pl