Słowosiec 4.0 - leksykalna siec semantyczna języka polskiego i jej zastosowania Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 agnieszka.dziob@, marek.maziarz@, maciej.piasecki@pwr.edu.pl, ewa.rudnicka@pwr.edu.pl 2018-11-17
Słowosieć (plwordnet) Elektroniczny słownik relacyjny, rodzaj tezaurusa Podstawy teoretyczne: Princeton WordNet Pochodzenie: Politechnika Wrocławska, 2005-2018 Cel: bardzo obszerny opis systemu językowego z wykorzystaniem relacji leksykalno-semantycznych Opis czterech części mowy: czasowników, rzeczowników, przymiotników i przysłówków Zastosowanie: słownik (do użytku przez nieprofesjonalnego użytkownika) zasób leksykalny (do użytku przez badaczy języka z różnych dziedzin) baza danych (w przetwarzaniu języka naturalnego) Warsztaty
Słowosieć (plwordnet) ver. 4.0 Ponad 191 tys. słów (lematów) jedno- i wielowyrazowych = ok. 285 tys. znaczeń (jednostek leksykalnych) Opisanych ponad 635 tys. relacjami jednostek i synsetów Ok. 247 tys. haseł polsko-angielskich Ok. 80 tys. jednostek z anotacją emotywną Ponad 167 tys. definicji Ponad 76 tys. przykładów użycia Warsztaty
Słowosieć (plwordnet) Wytyczne do budowy Słowosieci dla lingwistów: http://clarin-pl.eu/pl/publikacje-slowosiec/ Publikacje o Słowosieci: http://nlp.pwr.wroc.pl/publikacje?filter_area=7 Słowosieć online: http://plwordnet.pwr.wroc.pl/wordnet/ Opis zasobu Słowosieci na stronie Grupy Technologii Językowych G4.19 http://nlp.pwr.wroc.pl/narzedzia-i-zasoby/zasoby/slowosiec Warsztaty
Zastosowania Warsztaty Analiza morfologii języka polskiego na podstawie relacji, badania nad frazeologią, badanie gniazd słowotwórczych, wyznaczanie pól semantycznych Kategoryzacja wyrażeń metaforycznych w oparciu o hiperonimy Pomoc przy tworzeniu tekstów i ich pozycjonowaniu na potrzeby wyszukiwarki Google (copywriting) Semantyczna anotacja korpusu gestów wskazujących Leksykony semantycznych ram walencyjnych (E. Hajnicz) Analiza językowa forów, wypowiedzi na serwisach społecznościowych (w tym analiza nastawienia emocjonalnego), analiza zawartości prasy Analiza treści i grupowanie tekstów, np. kazań, legend, tekstów ze stron w domenie publicznej, tekstów ekonomicznych Analiza samoopisów osób badanych, analizy z wykorzystaniem medycznym (np. język chorych na afazję)
Chcę wykorzystać Słowosieć w badaniach własnych Warsztaty Pierwszy krok: zlokalizowanie własnego obszaru badawczego = pomysł na badania Drugi krok: kontakt clarin-pl@pwr.edu.pl, Jan.Wieczorek@pwr.edu.pl (wsparcie użytkownika, wykorzystanie wielu narzędzi) Agnieszka.Dziob@pwr.edu.pl (Słowosieć) Ewa.Rudnicka@pwr.edu.pl (dwujęzyczna Słowosieć, enwordnet) Trzeci krok: staramy się o grant na badania Możliwa jest opcja: bez grantu
Jak korzystać ze Słowosieci W formie słownika internetowego: Przeglądanie drzew relacji online: http://plwordnet.pwr.wroc.pl/wordnet/ http://clarin-pl.eu/dspace/ Jako część Platformy Leksykalnej W formie bazy danych do pobrania (MySQL) W formie aplikacji mobilnej na Androida (do pobrania z Google Play) W formie wizualizacji do przeglądania (WordNetLoom Viewer) Warsztaty
Przeglądanie drzew online http://clarin-pl.eu/dspace/ WordnetViewer Online Warsztaty
Platforma leksykalna http://lexp.clarin-pl.eu/lemma/pl Warsztaty
Do pobrania Warsztaty
Warsztaty WordNetLoom Viewer 3 1 4 5 2 6 7
Ad. 1: Wyszukiwanie Wyszukiwanie jednostek i synsetów Opcje wyszukiwania jednostek: Leksykon (Słowosieć, Princeton WordNet, enwordnet) Część mowy (rzeczownik, czasownik, przymiotnik, przysłówek) Dziedzina semantyczna Relacje Rejestr Fragment komentarza Fragment przykładu użycia Opcje wyszukiwania synsetów Leksykon (Słowosieć, Princeton WordNet, enwordnet) Część mowy (rzeczownik, czasownik, przymiotnik, przysłówek) Relacje Rejestr Rodzaj synsetu: normalny, sztuczny, wszystkie Warsztaty
Krótka dygresja: czym jest synset Warsztaty Synset zbiór jednostek leksykalnych o wspólnych relacjach konstytutywnych, np. hiperonimii, holo/meronimii, jednostki zawarte w synsecie są uznawane za synonimy jest rodzajem skróconego zapisu, np. {afekt 1, uczucie 2} hiperonim {zakochanie 1, zadurzenie 1} Relacje konstytutywne podstawa konstrukcji synsetu, współdzielone i relatywnie częste Dodatkowe rozróżnienia: rejestr stylistyczny, aspekt
Warsztaty Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Istotnie różnią się np. rejestry ogólny i wulgarny. Jednostki takie będą połączone relacją bliskoznaczności (relacja synsetów).
Jeszcze jedna krótka dygresja o rejestrach Warsztaty 11 rejestrów oznaczających zakres stosowalności jednostki leksykalnej: nienorm. nienormatywne daw. dawne reg. regionalne środ. środowiskowe specj. specjalistyczne urz. urzędowe książk. książkowe wulg. wulgarne posp. pospolite pot. potoczne og. rejestr ogólny tygrys baskijski1 (zw) specj. tygrys1 (zw) og. rozpruwacz1 (os) pot. http://clarin-pl.eu/wp-content/uploads/2017/06/kwalifikator%c3%b3wsystem.pdf
Warsztaty Ad. 2: Wyniki wyszukań 3 1 4 5 2 6 7
Ad. 2: Wyniki wyszukań Warsztaty Lista rozwijana Pojawia się lemat (słowo, forma) i numer jednostki; lemat + numer = konkretne znaczenie Jednostki jedno- i wielowyrazowe Każda jednostka ma oznaczenie dziedziny semantycznej i leksykonu Przy wyszukaniach synsetu pojawia się pełen skład synsetu
Warsztaty Ad. 3: Okno grafu 3 1 4 5 2 6 7
Warsztaty Ad. 3: Okno grafu Łódeczki = synsety Pokazują się tylko relacje synsetów, polskie i międzyjęzykowe Synsety mają oznaczenie języka Możliwość otwarcia wielu grafów (krzyżyk w prawym górnym rogu) Niebieski trójkąt = można rozwinąć relacje Czerwony trójkąt = można zwinąć relacje Relacje pionowe, budujące hierarchię: hiponimia, hiperonimia, wartość cechy dla przymiotników i przysłówków Synset żółty ten, którego właściwości przeglądamy Synset czerwony ten, który wyszukaliśmy
Warsztaty Ad. 4: Podgląd 3 1 4 5 2 6 7
Warsztaty Ad. 4: Podgląd Ułatwia orientację w dużych drzewach Czerwone kółko synset, który wyszukaliśmy Żółte kółko synset, którego właściwości są wyświetlone Manipulujemy mapą za pomocą myszy (najeżdżamy kursorem i przytrzymujemy go; jak np. w Google Maps)
Warsztaty Ad. 5: Właściwości synsetu 3 1 4 5 2 6 7
Ad. 5: Właściwości synsetu Warsztaty W okienku synset: pojawiają się wszystkie jednostki danego synsetu, tj. synonimy W okienku właściwości pojawiają się oznaczenia techniczne (dla zainteresowanych) Princeton WordNet nie ma opisu jednostek, ale ma opis synsetów w polu Właściwości
Krótka dygresja: a co z właściwościami jednostki? Warsztaty Pojawiają się po kliknięciu w jednostkę w synsecie prawym przyciskiem myszy; Zakładka Emocje pokazuje anotację sentymentem
Jeszcze jedna dygresja o sentymencie Warsztaty ANOTACJA NASTAWIENIEM EMOCJONALNYM Emocje podstawowe radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980) Wartości uniwersalne użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992) Nastawienie pozytywne (bardzo słabo), negatywne (bardzo słabo), neutralne. Ponad 80 000 oznakowanych jednostek.
Warsztaty Dwójka anotatorów (lingwista i psycholog) dla każdej jednostki; Superanotator, którego decyzja jest rozstrzygająca w przypadku niezgodnych anotacji; Anotatorzy nie widzą wzajemnie swoich anotacji; Anotatorzy dodają przykłady użycia do anotacji starsze anotacje nie mają przykładów; Przykład: odpowiedzialny 2, Przykład z superanotacją: faszysta 1.
Warsztaty Ad. 6: Relacje jednostki 3 1 4 5 2 6 7
Warsztaty Ad. 6: Relacje jednostki Relacje jednostek: Relacje o charakterze derywacyjnym: np. rola agens: rozpruwacz1 (os) rozpruwać1 (dtk), np. zawieranie roli narzędzie: sztyletować1 (wal) sztylet1 (wytw). Pozostałe relacje: antonimia: miłość1 (czuj) nienawiść1 (czuj), konwersja: mąż2 (os) żona1 (os). Przykład: faszysta 1
Warsztaty Ad. 7: Przykłady z korpusu 3 4 1 5 2 6 7
Ad. 7: Przykłady z korpusu Przykład: nosić 1 Warsztaty Nie wszystkie znaczenia mają przykłady użycia Przykłady zostały dobrane na podstawie algorytmów tak, żeby odwzorowywały różne znaczenia KPWr Korpus Politechniki Wrocławskiej, otwarta licencja, można cytować
Co znajdziemy w Słowosieci Jednostki jedno- i wielowyrazowe czterech części mowy: rzeczownika, czasownika, przymiotnika i przysłówka Opisane za pomocą ok. 240 relacji leksykalno-semantycznych w obrębie leksykonu i pomiędzy leksykonami Słownictwo ogólne i z różnych rejestrów stylistycznych Synsety polskie zostały połączone z angielskimi z Princeton WordNet Dla synsetów, z których znaczenia zostały opisane za pomocą ram semantycznych w Walentym, pojawiają się relacje synsetów Wielowyrazowce zostały opisane strukturalnie (tagset NKJP) w słowniku jednostek wielowyrazowych MWELexicon: https://clarinpl.eu/dspace/handle/11321/508 Warsztaty
Krótka dygresja o relacjach Organizujące hierarchię: hiponimia i hiperonimia, wartość cechy dla przymiotników i przysłówków (np. czerwony kolor), typ i egzemplarz dla nazw własnych (np. Wrocław miasto) Mero- i holonimia (część całość) i mero- i holonimia czasownikowa Relacje specyficzne dla czasowników (np. relacje następstwa: kauzacja, procesywność, uprzedniość), wielokrotność Relacje odwzorowujące ramy semantyczne z Walentego Relacje pomiędzy leksykonami (pl-ang) Relacje jednostek: Relacje synsetów: Warsztaty Derywacyjne dla różnych części mowy, Aspektowość dla czasownika, Semantyczne (antonimia, konwersja), Kolokacyjność (wskazuje powiązania pomiędzy jednostkami częste w korpusie). Jest ich tak dużo, że w przypadku zainteresowania jakąś częścią mowy lub konkretną relacją, prosimy o kontakt. Relacje skrótowo opisane w tooltipach na stronie Słowosieci: http://plwordnet.pwr.wroc.pl/wordnet/
Warsztaty Hiponimia tygrys1 (zw) «Panthera tigris» kot1 (zw) «każdy ssak z rodziny kotowatych» Testy podstawieniowe Hiponimia Jeśli coś jest tygrysem1, to musi być kotem1. Jeśli coś jest kotem1, to niekoniecznie jest tygrysem1. Jeśli coś nie jest kotem1, to nie może być tygrysem1.
Kolejna krótka dygresja dwujęzyczna Słowosieć Warsztaty Wielka polsko-angielska sieć leksykalno-semantyczna: ok 247 000 polsko-angielskich haseł obecnie największy słownik polsko-angielski dostępny na całkowicie otwartej licencji tworzona w całości ręcznie Powstaje w wyniku powiązania Słowosieci: z WordNetem princetońskim (Princeton WordNet) i jego rozszerzeniem enwordnetem (Rudnicka et al. 2015) (ok 10 000 nowych angielskich haseł) 'Brama' do wielojęzycznych zasobów światowych Platforma Leksykalna: http://lexp.clarin-pl.eu/, Open Multilingual Wordnet: http://compling.hss.ntu.edu.sg/omw/
Warsztaty Bogata sieć relacji międzyjęzykowych: Priorytetowa synonimia rozumiana jako pełna ekwiwalencja Najczęstsza hiponimia powodowana licznymi różnicami pomiędzy językami i wordnetami Synonimia częściowa i międzyrejestrowa w przypadku niepełnej ekwiwalencji Typ/egzemplarz dla nazw własnych Dodatkowe relacje doprecyzowujące znaczenie: Meronimia/holonimia Synonimia międzyparadygmatyczna (przymiotnik-rzeczownik) Specyficzne relacje czasownikowe
I jeszcze dygresja o połączeniu z Walentym Powiązania ze słownikiem walencyjnym Walenty, tworzonym przez IPI PAN: http://walenty.ipipan.waw.pl/ W zakładce Semantyka są opisane role semantyczne i preferencje selekcyjne; preferencje selekcyjne oznaczają konkretne synsety ze Słowosieci (czasem predefiniowane), numery przy opisywanych jednostkach to numery znaczeń ze Słowosieci Relacje w Słowosieci = role semantyczne, połączenie na poziomie synsetów http://clarin-pl.eu/wpcontent/uploads/2017/05/instrukcja_uz ytkownika_walentego.pdf Warsztaty Typy relacji: Theme_WAL Condition_WAL Path_WAL Manner_WAL Location_WAL Purpose_WAL Iniciator_WAL Recipient_WAL Attribute_WAL Stimulus_WAL Instrument_WAL Result_WAL Measure_WAL Time_WAL Factor_WAL Experiencer_WAL Duration_WAL
Kolejna krótka dygresja: WJL Warsztaty Wielowyrazowa jednostka leksykalna takie połączenie wyrazowe, które jest przechowywane w naszym mentalnym leksykonie jako jednostka, całostka semantyczna i którego to połączenia nie musimy składać na bieżąco w tekście, tylko przywołujemy je z pamięci Svensen 2009, Murphy 2003, Laskowski 1999, Jackendoff 1997 Więcej informacji Wytyczne do budowy Słowosieci dla lingwistów: http://clarin-pl.eu/pl/publikacje-slowosiec/
Warsztaty
Ćwiczenie 1 Proszę wyszukać w Słowosieci jednostki pospolite o dziedzinie os (rzeczowniki) Warsztaty
Ćwiczenie 2 Proszę wyszukać w Słowosieci wielowyrazowe terminy (jednostki specjalistyczne) Warsztaty
Ćwiczenie 3 Proszę wyszukać w Princeton WordNet synsety, które są połączone z synsetami polskimi synonimią międzyjęzykową Warsztaty
Ćwiczenie 4 Warsztaty Proszę wyszukać w Słowosieci nazwy własne (NP w komentarzu)
Ćwiczenie 5 Warsztaty Proszę wyszukać w Słowosieci czasowniki, które są opisane w Walentym
Ćwiczenie 6 Warsztaty Proszę wyszukać w Słowosieci czasowniki odrzeczownikowe (relacja zawierania roli)
Na zakończenie: plany na najbliższą przyszłość Warsztaty Obecnie: łączenie Słowosieci z zasobami LinkedOpenData w ramach projektu AZON ( Atlas Zasobów Otwartej Nauki); m.in. Wikipedia, tezaurusy specjalistyczne, GeoNames, DBPedia; osoba odpowiedzialna: Marek.Maziarz@pwr.edu.pl Słowosieć: praca nad opisem czasownika (osoba odpowiedzialna: Agnieszka.Dziob@pwr.edu.pl) i łączeniem go z Princeton WordNetem (osoba odpowiedzialna: Ewa.Rudnicka@pwr.edu.pl) Pilotażowy opis ekwiwalencji pomiędzy jednostkami polskimi i angielskimi w ramach projektu HARMONIA (osoba odpowiedzialna: Ewa.Rudnicka@pwr.edu.pl) Strukturalny opis wielowyrazowych czasownikowych jednostek leksykalnych (osoba odpowiedzialna: Agnieszka.Dziob@pwr.edu.pl) Poza tym: to, co będzie Państwu potrzebne do badań, jesteśmy otwarci i elastyczni
Literatura (cytowania) Warsztaty Niewiara A., Słowa klucze kultury jako nazwy pojęć wyrazistych o wysokim stopniu utrwalenia a zagadnienia synonimii leksykalnej, LingVaria, nr 1 (23) 2017. Bosch, S. E., & Griesel, M. (2017). Strategies for building wordnets for under-resourced languages: The case of African languages. Literator (Potchefstroom. Online), 38(1), 1-12. McCrae, J., Wood, I. Hicks, A. (2017). The Colloquial WordNet: Extending Princeton WordNet with Neologisms. Proc. of International LDK Conf. Łukasik, M. (2017). Contrastive Terminography. Cognitive Studies 2017 (17). DOI 10.11649/cs.1378 Plater-Zyberk, A. (2017). Procedura identyfikacji i kategoryzacji wyrażeń metaforycznych w tekstach publicystycznych. Analiza porównawcza wyrażeń metaforycznych dotyczących lustracji. Socjolingwistyka, (31). Rybiński, K. (2017). Sentiment analysis of Polish politicians. e-politikon. Kwartalnik Naukowy Ośrodka Analiz Politologicznych Uniwersytetu Warszawskiego, nr XXIV/2017, s. 162-195. Lis, M., Navarretta, C. (2014, June). Classifying the form of iconic hand gestures from the linguistic categorization of co-occurring verbs. In Proceedings from the 1st European Symposium on Multimodal Communication University of Malta; Valletta; October 17-18; 2013 (No. 101, pp. 41-50). Linköping University Electronic Press.
Prace własne Warsztaty Rudnicka, E., Piasecki, M. (2013). Polish-English Wordnet -- a New Resource and Its Potential for Translators. Proc. of the Translator and the Computer Conf. Zaśko-Zielińska, M., and Piasecki, M. (2015), Lexical means in communicating emotion in suicide notes on the basis of the polish corpus of suicide notes, Cognitive Studies, 15, s. 237 252 Maziarz, M., Szpakowicz, S., Piasecki, M. (2015), A procedural definition of multi-word lexical units, [w:] Proc. Of RANLP. Maziarz, M., Piasecki, M., Szpakowicz, S. (2015), The system of register labels in plwordnet, Cognitive Studies, 15, s. 161-175 Piasecki, M., Walkowiak, T., Rudnicka, E., Naskręt, T., Bond, F., (2017), The Concept of Lexical Platform. Proc. of the LDK workshops: OntoLex, TIAD and Challenges for Wordnets. Naskret, T., Dziob, A., Piasecki, M., Saedi, C., & Branco, A. (2018), WordnetLoom a Multilingual Wordnet Editing System Focused on Graph-based Presentation, In Proc. Of GWC. Czachor, G., Piasecki, M., & Janz, A. Recognition of Hyponymy and Meronymy Relations in Word Embeddings for Polish, https://pdfs.semanticscholar.org/c548/1ee736a38bd217753b13adbff8b0475f7dc7.pdf Rudnicka, E., Bond, F., Grabowski, Ł., Piasecki, M., Piotrowski, T. (2018). Lexical Perspective on Wordnet to Wordnet Mapping. Proc. of GWC.
Dziękujemy bardzo za uwagę I zapraszamy do kontaktu