Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej zastosowania Agnieszka Dziob, Marek Maziarz, Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 agnieszka.dziob@, marek.maziarz@, maciej.piasecki@pwr.edu.pl 2017-02-04
Wordnet Warsztaty Uniwersytet w Princeton, lata 80., psycholingwistyka i lingwistyka informatyczna (J. Miller, Ch. Fellbaum) Badania nad językiem dzieci Wielka sieć leksykalno-semantyczna języka angielskiego Cztery części mowy rzeczowniki, czasowniki, przymiotniki i przysłówki Synset zbiór prawie synonimów (ang. near synonyms) Relacje semantyczne Podstawowy zasób językowy Global Wordnet Association
Słowosieć (plwordnet) Warsztaty Pochodzenie Politechnika Wrocławska, 2005-2013 szereg projektów cel: bardzo obszerny opis systemu relacji leksykalno-semantycznych
Proces budowy Słowosieci Warsztaty Kto tworzy Słowosieć? zespół polonistów i anglistów informatycy, specjaliści od przetwarzania języka sztuczna inteligencja (narzędzia półautomatyczne)
Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze) wyróżnić znaczenia zdefiniować jednostkę przypisać relacje = podpiąć narzędzia komputerowe Tkacz Wordnetu słowniki, encyklopedie, leksykony wytyczne zespół Słowosieci
Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów wyróżnić znaczenia siatka haseł (słowa najczęstsze) Sketch Engine narzędzia komputerowe konkordancer korpusu automatyczne przykłady użycia Inforex
Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze) wyróżnić znaczenia zdefiniować jednostkę przypisać relacje = podpiąć narzędzia komputerowe Tkacz Wordnetu słowniki, encyklopedie, leksykony wytyczne zespół Słowosieci
Proces budowy Słowosieci Warsztaty Korpus Słowosieci siatka haseł n.a. 2 mld - przykłady tokenów `o zwierzętach: użycia gryźć -> wyróżnianie używając (słowa zębów, najczęstsze) znaczeń, przykłady typowe, powodując 10 znaczeń rany `o zjawiskach pogodowych (Marek) (np. mrozie): gryźć, szczypać narzędzia komputerowe 1 2 3 4 5 6 7 8 9 10 `o owadach: wyróżnić gryźć znaczenia `o zmartwieniach, wyrzutach sumienia: gryźć `o ludziach: dokuczać, szkodzić komuś Przykłady użycia wyrazu kąsać konkordancer korpusu automatyczne przykłady użycia
Słowosieć w liczbach Warsztaty Liczba haseł (lematów) w Słowosieci i w WordNecie 140 000 120 000 100 000 80 000 60 000 Słowosieć WordNet haseł 167 000 156 000 synsetów 178 000 118 000 jednostek 237 000 207 000 relacji > 500 000 > 500 000 40 000 20 000 0 rzeczownik czasownik przymiotnik przysłówek
Słowosieć 3.0 emo Warsztaty LUs lexical units (= senses) ŚRS średni rozmiar synsetu synsety lematy jed. lek. GermaNet 101 371 119 231 131 814 Princeton WordNet 3.1 117 659 155 593 206 978 1,74 enwordnet 1.0 125 500 165 712 218 611 1,74 plwordnet 3.0 emo 197 721 179 125 260 214 1,32
Słowosieć 3.0 emo Warsztaty >40 różnych typów relacji (>100 łącznie z podtypami) w tym wiele wiele leksykalno-semantycznych relacji pomiędzy częściami mowy Dziedziny semantyczne (lexicographer files z WordNetu) Klasy semantyczne czasowników wywodzące się z klasyfikacji Vendlera i Laskowskiego Rejestry stylistyczne (11 łącznie) Poziom opisu Liczba elementów Instacje relacji leks.-semantycznych >700K Glosy >100K Przykłady użycia 83K Odnośniki do Wikipedii 55K Anotacja emotywna 31K
System zasobów leksykalnosemantycznych Warsztaty Kompleksowy system zaosób leksykalno-semantycznych (Maziarz et al. 2016) Walenty (słownik walencyjny) > 15 000 lematy MWE lexicon (54 000) Struktury leksykalnosyntaktyczne (Hajnicz, 2014) ICS PAS Warsaw Nazwy własne NELexicon 2.0 (2.4 mln) plwordnet 3.0 emo enwordnet 1.0 (ext.: WordNet 3.1 plus 10k senses) Ontology SUMO (upper and intermediate level)
Słowosieć w liczbach Warsztaty Słowosieć a słowniki polszczyzny współczesnej 0 50 100 150 200 Słowosieć Praktyczny słownik współczesnej polszczyzny Słownik języka polskiego W. Doroszewskiego Uniwersalny słownik języka polskiego Inny słownik języka polskiego haseł [tys.]
Praca ze Słowosiecią Warsztaty www.clarin-pl.eu Słowosieć online Słowosieć mobilna WordnetLoom- Viewer
Praca ze Słowosiecią Warsztaty www.plwordnet.pwr.wroc.pl/wordnet
Praca ze Słowosiecią Warsztaty Słowosieć mobilna
Zastosowania: projekty badawcze (wybrane) Warsztaty Semantyczna anotacja korpusu gestów wskazujących (Lis, 2012) Leksykony semantycznych ram walencyjnych (Hajnicz, 2011; Hajnicz, 2012) Wyznaczanie pól semantycznych Grupowanie czasowników na potrzeby badania klas alternacji Kategoryzacja wyrażeń metaforycznych w oparciu o hiperonimy Wspomagana komputerowo analiza danych jakościowych Badania nad frazeologią Nauka języka przygotowanie słowniku dla kursu języka czeskiego dla obcokrajowców (Uniwersytet Masaryka, Brno) Konstrukcja programów do nauki języka Badanie treści prac uczniowskich/studenckich Edukacyjne: językoznawstwo, leksykologia, leksykografia Tłumaczenia Analiza leksykalizacji pojęć
Zastosowania (wybrane) Warsztaty Wyszukiwanie semantyczne w korpusach tekstu Grupowanie semantyczne tekstów określanie podobieństwa zdań i fragmentów tekstów, np. (Siemiński, 2012) Klasyfikacja semantyczna tekstu, np. (Maciołek, 2010) Korekta rozpoznawania mowy w systemach dialogowych Systemy odpowiedzi na pytania w języku naturalnym Np. do rozpoznania typu pytania Wydobywanie terminologii i słów kluczowych, np. (Mykowiecka i Marciniak, 2012) Wnioskowania w oparciu o logiki naturalne Tworzenie programów do grania w gry słowne Wykrywanie i generowanie pleonazmów
Zastosowania (wybrane) Warsztaty Definiowanie cech na potrzeby Text Mining ze stron WWW (Maciolek and Dobrowolski, 2013) Rzutowanie pomiędzy leksykonem a ontologią (Wróblewska et al., 2013) Miara podobieństwa semantycznego słów na potrzeby analizy ontologii (Lula and Paliwoda-Pękosz, 2009) Automatyczne wydobywanie leksykonów atrybutów opinii (Wawer and Gołuchowski, 2012) Rozpoznawanie i klasyfikacja nazw własnych (własne G4.19) Ujednoznacznianie sensów słów (Gołuchowski and Przepiórkowski, 2012, własne G4.19, 2015) Rozpoznawanie powiązań anaforycznych (własne G4.19)
Synset Warsztaty Synset zbiór jednostek leksykalnych o wspólnych relacjach konstytutywnych, np. hiperonimii, holo/meronimii, jednostki zawarte w synsecie są uznawane za synonimy jest rodzajem skróconego zapisu, np. {afekt 1, uczucie 2} hiperonim {miłość 1, umiłowanie 1, kochanie 1} Relacje konstytutywne podstawa konstrukcji synsetu, współdzielone i relatywnie częste Dodatkowe rozróżnienia: rejestr stylistyczny, aspekt
Relacje Warsztaty Relacje leksykalno-semantyczne, ok. 40 głównych typów rzeczownik czasownik przymiotnik hiponimia meronimia antonimia mieszkaniec role semantyczne hiponimia kauzacja procesywność zawieranie roli aspektowość hiponimia wartość cechy gradacyjność charakteryzowanie podobieństwo
Relacje Warsztaty
Relacje Warsztaty 1. Relacje synsetów = pomiędzy zbiorami synonimów. 2. Relacje jednostek leksykalnych = pomiędzy znaczeniami. 3. Relacja synonimii.
Relacje synsetów Warsztaty Hiponimia Najważniejsza z relacji synsetów 70% 65,9% Rzeczowniki 60% 50% 40% 30% 20% 10% 15,1% 12,4% 3,7% 2,6% 0,3% 0% 66% instancji wszystkich relacji synsetów kościec każdego wordnetu
Relacje synsetów Warsztaty Hiponimia testy podstawieniowe tygrys 1 (zw) «Panthera tigris» kot 1 (zw) «każdy ssak z rodziny kotowatych» Hiponimia Jeśli coś jest tygrysem 1, to musi być kotem 1. Jeśli coś jest kotem 1, to niekoniecznie jest tygrysem 1. Jeśli coś nie jest kotem 1, to nie może być tygrysem 1.
Relacje synsetów Warsztaty Hiponimia testy podstawieniowe tygrys 1 (zw) «Panthera tigris» kot 1 (zw) «każdy ssak z rodziny kotowatych» Hiponimia Jeśli coś jest tygrysem 1, to musi być kotem 1. Jeśli coś jest kotem 1, to niekoniecznie jest tygrysem 1. Jeśli coś nie jest kotem 1, to nie może być tygrysem 1.
Relacje synsetów Warsztaty Hiponimia testy podstawieniowe tygrys 1 (zw) «Panthera tigris» kot 1 (zw) «każdy ssak z rodziny kotowatych» Hiponimia Jeśli coś jest tygrysem 1, to musi być kotem 1. TAK Jeśli coś jest kotem 1, to niekoniecznie jest tygrysem 1. TAK Jeśli coś nie jest kotem 1, to nie może być tygrysem 1. TAK
Relacje synsetów Warsztaty Hiponimia «każdy ssak z rodziny kotowatych» «Acinonyx jubatus» «Panthera onca» «Panthera leo» «Panthera tigris»
Relacje synsetów Warsztaty Hiponimia
Relacje synsetów Warsztaty Hiponimia istota żywa 1 (zw) organizm 1 (rz) mięsożerca 1 (zw) drapieżnik 1 (zw) kot 1 (zw) «każdy ssak z rodziny kotowatych» tygrys 1 (zw) «Panthera tigris»
Relacje synsetów Warsztaty Hiponimia hiperonim hiponimy
Relacje synsetów Warsztaty Meronimia relacja część całość druga w kolejności, 15% instancji relacji 70% 65,9% Rzeczowniki 60% 50% 40% 30% 20% 10% 15,1% 12,4% 3,7% 2,6% 0,3% 0%
Relacje synsetów Warsztaty Meronimia relacja część całość holonim (całość) meronimy (części)
Relacje synsetów Warsztaty Meronimia test podstawieniowy Meronimia Kiosk 3 jest częścią okrętu podwodnego 1. meronim (część) holonim (całość)
Relacje synsetów Warsztaty Meronimia test podstawieniowy Meronimia Kiosk 3 jest częścią okrętu podwodnego 1. TAK meronim (część) holonim (całość)
Relacje jednostek leksykalnych Warsztaty relacje pomiędzy jednostkami leksykalnymi (znaczeniami) nie mniej ważne niż relacje synsetów dostarczają informacji dodatkowej
Relacje jednostek leksykalnych Warsztaty
Relacje jednostek leksykalnych «kaleczyć, ranić, rozcinając ciało i odsłaniając wewnętrzne tkanki» Warsztaty «używać sztyletu w celu zadania ciosu» «o zwierzętach: gryźć»
Relacje jednostek leksykalnych Warsztaty
Relacje jednostek leksykalnych Warsztaty
Relacje jednostek leksykalnych Warsztaty
Relacje jednostek leksykalnych Warsztaty
Relacje jednostek leksykalnych Warsztaty AGENS rozpruwacz 1 (os) «ktoś, kto rozpruwa» NARZĘDZIE «sztyletuje się sztyletem 1 (wytw)»
Relacje jednostek leksykalnych Warsztaty AGENS rozpruwacz 1 (os) «ktoś, kto rozpruwa» NARZĘDZIE «sztyletuje się sztyletem 1 (wytw)»
Relacje jednostek leksykalnych Warsztaty AGENS rozpruwacz 1 (os) «ktoś, kto rozpruwa» NARZĘDZIE «sztyletuje się sztyletem 1 (wytw)»
Relacje jednostek leksykalnych Warsztaty rozpruwać 1 (dtk) «kaleczyć (kogoś); czynność wykonywana przez mordercę nazywanego rozpruwaczem» NARZĘDZIE «sztyletuje się sztyletem 1 (wytw)»
Relacje jednostek leksykalnych Warsztaty rozpruwać 1 (dtk) «kaleczyć (kogoś); czynność wykonywana przez mordercę nazywanego rozpruwaczem» sztyletować 1 (wal) «kaleczyć (kogoś) sztyletem»
Relacje jednostek leksykalnych Warsztaty 1. Relacje o charakterze derywacyjnym: np. rola agens: rozpruwacz 1 (os) à rozpruwać 1 (dtk), np. zawieranie roli narzędzie: sztyletować 1 (wal) à sztylet 1 (wytw). 2. Pozostałe relacje: antonimia: miłość 1 (czuj) nienawiść 1 (czuj), konwersja: mąż 2 (os) żona 1 (os).
Relacje jednostek leksykalnych Warsztaty Testy podstawieniowe Rola agens Rzeczownik rozpruwacz 1 jest derywatem czasownika rozpruwać 1. Rozpruwacz 1 jest rozpruwaczem 1, ponieważ rozpruwacz 1 rozpruwa 1. Rozpruwacz 1 to AGENS czynności rozpruwać 1. Znaczenie rozpruwacza 1 zawiera w sobie czynność wyrażaną przez czasownik rozpruwać 1.
Relacja synonimii Warsztaty Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Relacje konstytutywne = hiponimia, meronimia,
Relacja synonimii holk, hulk «północnoeur. żaglowiec (XIV XVI w.); miał 2 lub 3 maszty, był większy od kogi, którą zastąpił; miał też większą nośność dzięki innej konstrukcji poszycia (klepkowego n a zakładkę).» [Encyklop edie PWN; Kopaliński, Słownik wyrazów obcych] Warsztaty 1 2 3 4 5 6
Relacja synonimii Warsztaty {hulk 1 (wytw), holk 1 (wytw)} holk 1 = hulk 1 (warianty) pełna synonimia, te same testy podstawieniowe, to samo miejsce w sieci.
Relacja synonimii Warsztaty Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Relacje konstytutywne = hiponimia, meronimia, Istotnie różnią się np. rejestry wulgarny i potoczny.
Relacja synonimii Warsztaty Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Relacje konstytutywne = hiponimia, meronimia, Istotnie różnią się np. rejestry wulgarny i potoczny.
Relacja synonimii Warsztaty {afekt 1, uczucie 2} hiponimia {miłość 1, umiłowanie 1, kochanie 1}
Rejestr jednostki leksykalnej Warsztaty Rejestr = zakres stosowalności jednostki leksykalnej. 11 rejestrów Słowosieci
Rejestr jednostki leksykalnej Warsztaty Rejestr = zakres stosowalności jednostki leksykalnej. 11 rejestrów Słowosieci: nienorm. nienormatywne daw. dawne reg. regionalne środ. środowiskowe specj. specjalistyczne urz. urzędowe książk. książkowe wulg. wulgarne posp. pospolite pot. potoczne og. rejestr ogólny hulk 1 (wytw) specj. holk 1 (wytw) specj. tygrys 1 (zw) og. rozpruwacz 1 (os) pot.
Glosy Warsztaty Glosy to skrócone definicje. W Słowosieci jest ich ponad 90 tys.
Glosy Warsztaty Glosy to skrócone definicje. W Słowosieci jest ich ponad 90 tys. tygrys 1 (zw) og. «Panthera tigris gatunek dużego, drapieżnego ssaka łożyskowego z rodziny kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich, ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych wielkością ustępuje jedynie niektórym niedźwiedziom» rozpruwacz 1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub końcyzny, rozcina tułów, masakruje różne części ciała»
Przykłady użycia Warsztaty dokumentacja korpusowa lub ilustracja znaczenia preparowane lub ze źródeł o otwartej licencji ponad 100 tys. opisanych znaczeń (głównie rzeczowników i przymiotników) tygrys 1 (zw) og. «Panthera tigris gatunek dużego, drapieżnego ssaka łożyskowego z rodziny kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich, ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych wielkością ustępuje jedynie niektórym niedźwiedziom» Umiejętność chowania pazurów umożliwia tygrysowi bardzo ciche stąpanie przy podkradaniu się do ofiary, a ich wysunięcie ułatwia przytrzymywanie i rozrywanie zdobyczy. (źródło: Wikipedia)
Przykłady użycia Warsztaty dokumentacja korpusowa lub ilustracja znaczenia preparowane lub ze źródeł o otwartej licencji ponad 100 tys. opisanych znaczeń (głównie rzeczowników i przymiotników) fluita 1 (wytw) specj. «typ handlowego statku żaglowego, zbudowany przez budowniczych z Hoorn i rozwijany w Holandii od lat 90. XVI wieku, następnie używany także w innych krajach» Fluita miała zaokrągloną rufę; nadbudówki (kasztele) były niższe, niż na galeonach. (źródło: Wikipedia) wyłącznie źródła o otwartej licencji
Nastawienie emocjonalne Warsztaty ANOTACJA NASTAWIENIEM EMOCJONALNYM Emocje podstawowe radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980) Wartości uniwersalne użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992) Nastawienie pozytywne (bardzo słabo), negatywne (bardzo słabo), neutralne. Ponad 20 000 oznakowanych jednostek.
Nastawienie emocjonalne Warsztaty rozpruwacz 1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała.»
Nastawienie emocjonalne Warsztaty pierwszy anotator rozpruwacz 1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą emocje podstawowe wartości nastawienie noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała.» ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.] drugi anotator