S owosiec 3.0 - leksykalna siec semantyczna jezyka polskiego i jej zastosowania Agnieszka Dziob, Marek Maziarz, Maciej Piasecki Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 agnieszka.dziob@, marek.maziarz@, maciej.piasecki@pwr.edu.pl 2017-06-28
Wordnet Warsztaty Uniwersytet w Princeton, lata 80., psycholingwistyka i lingwistyka informatyczna (G. Miller, Ch. Fellbaum) Badania nad językiem dzieci Wielka sieć leksykalno-semantyczna języka angielskiego Cztery części mowy rzeczowniki, czasowniki, przymiotniki i przysłówki Synset zbiór prawie synonimów (ang. near synonyms) Relacje semantyczne Podstawowy zasób językowy Global Wordnet Association
Słowosieć (plwordnet) Pochodzenie Politechnika Wrocławska, 2005-2017 szereg projektów cel: bardzo obszerny opis systemu relacji leksykalno-semantycznych Warsztaty
Proces budowy Słowosieci Kto tworzy Słowosieć? zespół polonistów i anglistów informatycy, specjaliści od przetwarzania języka sztuczna inteligencja (narzędzia półautomatyczne) Warsztaty
Warsztaty Proces budowy Słowosieci Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze) narzędzia komputerowe wyróżnić znaczenia Tkacz Wordnetu zdefiniować jednostkę przypisać relacje = podpiąć słowniki, encyklopedie, leksykony wytyczne zespół Słowosieci
Warsztaty Proces budowy Słowosieci Korpus Słowosieci 2 mld tokenów wyróżnić znaczenia siatka haseł (słowa najczęstsze) NoSketch narzędzia komputerowe Engine konkordancer korpusu automatyczne przykłady użycia Inforex
Warsztaty Proces budowy Słowosieci Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze) narzędzia komputerowe wyróżnić znaczenia Tkacz Wordnetu zdefiniować jednostkę przypisać relacje = podpiąć słowniki, encyklopedie, leksykony wytyczne zespół Słowosieci
Warsztaty Proces budowy Słowosieci Korpus Słowosieci siatka haseł n.a. - przykłady użyciagryźć -> wyróżnianie znaczeń, przykłady 2 mld tokenów (słowazębów, najczęstsze) `o zwierzętach: używając powodując rany (Marek) typowe,`o 10 znaczeń zjawiskach pogodowych (np. mrozie): gryźć, narzędzia komputerowe szczypać `o owadach: gryźć znaczenia wyróżnić `o zmartwieniach, wyrzutach sumienia: konkordancer korpusu gryźć `o ludziach: dokuczać, szkodzić komuś Przykłady użycia wyrazu kąsać 1 2 3 4 5 6 7 8 9 10 automatyczne przykłady użycia
Synset Warsztaty Synset zbiór jednostek leksykalnych o wspólnych relacjach konstytutywnych, np. hiperonimii, holo/meronimii, jednostki zawarte w synsecie są uznawane za synonimy jest rodzajem skróconego zapisu, np. {afekt 1, uczucie 2} hiperonim {zakochanie 1, zadurzenie 1} Relacje konstytutywne podstawa konstrukcji synsetu, współdzielone i relatywnie częste Dodatkowe rozróżnienia: rejestr stylistyczny, aspekt
Relacje Warsztaty 1. Relacje synsetów = pomiędzy zbiorami synonimów. 2. Relacje jednostek leksykalnych = pomiędzy znaczeniami. 3. Relacja synonimii.
Relacja synonimii Warsztaty Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Relacje konstytutywne = hiponimia, meronimia, Istotnie różnią się np. rejestry wulgarny i potoczny.
Relacja synonimii Warsztaty
Warsztaty Relacje Relacje leksykalno-semantyczne, ok. 40 głównych typów rzeczownik czasownik przymiotnik hiponimia meronimia antonimia mieszkaniec role semantyczne hiponimia kauzacja procesywność zawieranie roli aspektowość hiponimia wartość cechy gradacyjność charakteryzowanie podobieństwo
Relacje Warsztaty
Relacje synsetów Hiponimia Najważniejsza z relacji synsetów 66% instancji wszystkich relacji synsetów kościec każdego wordnetu Warsztaty
Relacje synsetów Warsztaty Hiponimia testy podstawieniowe tygrys1 (zw) «Panthera tigris» kot1 (zw) «każdy ssak z rodziny kotowatych» Hiponimia Jeśli coś jest tygrysem1, to musi być kotem1. Jeśli coś jest kotem1, to niekoniecznie jest tygrysem1. Jeśli coś nie jest kotem1, to nie może być tygrysem1.
Relacje synsetów Warsztaty Hiponimia testy podstawieniowe tygrys1 (zw) «Panthera tigris» kot1 (zw) «każdy ssak z rodziny kotowatych» Hiponimia Jeśli coś jest tygrysem1, to musi być kotem1. Jeśli coś jest kotem1, to niekoniecznie jest tygrysem1. Jeśli coś nie jest kotem1, to nie może być tygrysem1.
Relacje synsetów Warsztaty Hiponimia testy podstawieniowe tygrys1 (zw) «Panthera tigris» kot1 (zw) «każdy ssak z rodziny kotowatych» Hiponimia Jeśli coś jest tygrysem1, to musi być kotem1. TAK Jeśli coś jest kotem1, to niekoniecznie jest tygrysem1. TAK Jeśli coś nie jest kotem1, to nie może być tygrysem1. TAK
Relacje synsetów Warsztaty Hiponimia istota żywa1 (zw) mięsożerca1 (zw) drapieżnik1 (zw) kot1 (zw) «każdy ssak z rodziny kotowatych» tygrys1 (zw) «Panthera tigris» organizm1 (rz)
Relacje jednostek leksykalnych Warsztaty relacje pomiędzy jednostkami leksykalnymi (znaczeniami) nie mniej ważne niż relacje synsetów dostarczają informacji dodatkowej
Relacje jednostek leksykalnych Warsztaty
Relacje jednostek leksykalnych «kaleczy, rani, rozcinaj c cia o i ods aniaj c wewn trzne tkanki» «u ywa sztyletu w celu zadania ciosu» «o zwierzętach: gryźć» Warsztaty Warszawa 29-30.05.2017
Relacje jednostek leksykalnych Warsztaty Warszawa 29-30.05.2017
Relacje jednostek leksykalnych Warsztaty
Relacje jednostek leksykalnych Warsztaty
Relacje jednostek leksykalnych Warsztaty
Relacje jednostek leksykalnych AGENS rozpruwacz1 (os) «kto, kto rozpruwa» NARZ DZIE «sztyletuje si sztyletem1 (wytw)» Warsztaty
Relacje jednostek leksykalnych AGENS rozpruwacz1 (os) «kto, kto rozpruwa» NARZ DZIE «sztyletuje si sztyletem1 (wytw)» Warsztaty
Relacje jednostek leksykalnych AGENS rozpruwacz1 (os) «kto, kto rozpruwa» NARZ DZIE «sztyletuje si sztyletem1 (wytw)» Warsztaty
Relacje jednostek leksykalnych Warsztaty rozpruwa 1 (dtk) «kaleczy (kogo ); czynno wykonywana przez morderc nazywanego rozpruwaczem» NARZ DZIE «sztyletuje si sztyletem1 (wytw)»
Relacje jednostek leksykalnych Warsztaty rozpruwa 1 (dtk) «kaleczy (kogo ); czynno wykonywana przez morderc nazywanego rozpruwaczem» sztyletowa 1 (wal) «kaleczy (kogo ) sztyletem»
Relacje jednostek leksykalnych 1. Relacje o charakterze derywacyjnym: np. rola agens: rozpruwacz1 (os) rozpruwać1 (dtk), np. zawieranie roli narzędzie: sztyletować1 (wal) sztylet1 (wytw). 2. Pozostałe relacje: antonimia: miłość1 (czuj) nienawiść1 (czuj), konwersja: mąż2 (os) żona1 (os). Warsztaty
Warsztaty Rejestr jednostki leksykalnej Rejestr = zakres stosowalności jednostki leksykalnej. 11 rejestrów Słowosieci: nienorm. nienormatywne daw. dawne reg. regionalne środ. środowiskowe specj. specjalistyczne urz. urzędowe książk. książkowe wulg. wulgarne posp. pospolite pot. potoczne og. rejestr ogólny tygrys baskijski1 (zw) specj. tygrys1 (zw) og. rozpruwacz1 (os) pot.
Glosy Glosy to skrócone definicje. W Słowosieci jest ich ponad 90 tys. Warsztaty
Glosy Warsztaty Glosy to skrócone definicje. W Słowosieci jest ich ponad 140 tys. tygrys1 (zw) og. «Panthera tigris gatunek dużego, drapieżnego ssaka łożyskowego z rodziny kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich, ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych wielkością ustępuje jedynie niektórym niedźwiedziom» rozpruwacz1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub końcyzny, rozcina tułów, masakruje różne części ciała»
Przykłady użycia Warsztaty dokumentacja korpusowa lub ilustracja znaczenia preparowane lub ze źródeł o otwartej licencji ponad 100 tys. opisanych znaczeń (głównie rzeczowników i przymiotników) tygrys1 (zw) og. «Panthera tigris gatunek dużego, drapieżnego ssaka łożyskowego z rodziny kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich, ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych wielkością ustępuje jedynie niektórym niedźwiedziom» Umiejętność chowania pazurów umożliwia tygrysowi bardzo ciche stąpanie przy podkradaniu się do ofiary, a ich wysunięcie ułatwia przytrzymywanie i rozrywanie zdobyczy. (źródło: Wikipedia)
Przykłady użycia Warsztaty dokumentacja korpusowa lub ilustracja znaczenia preparowane lub ze źródeł o otwartej licencji ponad 100 tys. opisanych znaczeń (głównie rzeczowników i przymiotników) fluita1 (wytw) specj. «typ handlowego statku żaglowego, zbudowany przez budowniczych z Hoorn i rozwijany w Holandii od lat 90. XVI wieku, następnie używany także w innych krajach» Fluita miała zaokrągloną rufę; nadbudówki (kasztele) były niższe, niż na galeonach. (źródło: Wikipedia) wyłącznie źródła o otwartej licencji
Nastawienie emocjonalne Warsztaty ANOTACJA NASTAWIENIEM EMOCJONALNYM Emocje podstawowe radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980) Wartości uniwersalne użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992) Nastawienie pozytywne (bardzo słabo), negatywne (bardzo słabo), neutralne. Ponad 80 000 oznakowanych jednostek.
Nastawienie emocjonalne Dwójka anotatorów (lingwista i psycholog) dla każdej jednostki; Superanotator, którego decyzja jest rozstrzygająca w przypadku niezgodnych anotacji; Anotatorzy nie widzą wzajemnie swoich anotacji. Warsztaty
Nastawienie emocjonalne Warsztaty rozpruwacz1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała.»
Nastawienie emocjonalne Warsztaty pierwszy anotator rozpruwacz1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą emocje podstawowe wartości nastawienie noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała.» ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.] drugi anotator
Warsztaty Słowosieć w liczbach Liczba haseł (lematów) w Słowosieci i w WordNecie Słowosieć 3.0 Princeton WordNet haseł 170834 156 000 140000 synsetów 184240 118 000 120000 jednostek 244286 207 000 100000 relacji > 500 000 > 500 000 80000 Słowosieć Princeton WN 60000 40000 117798 20000 0 Rzeczownik Przymiotnik
Słowosieć w liczbach Słowosieć a słowniki polszczyzny współczesnej Warsztaty
Warsztaty Praca ze Słowosiecią www.clarin-pl.eu Słowosieć online Słowosieć mobilna WordnetLoomViewer
Praca ze Słowosiecią www.plwordnet.pwr.wroc.pl/wordnet Warsztaty
Wizualizacja graficzna Warsztaty
Warsztaty Wizualizacja graficzna www.plwordnet.pwr.wroc.pl/wordnet Zapisywanie grafu na dysku
Zastosowania: projekty badawcze (wybrane) Warsztaty Semantyczna anotacja korpusu gestów wskazujących (Lis, 2012) Leksykony semantycznych ram walencyjnych (Hajnicz, 2011; Hajnicz, 2012) Wyznaczanie pól semantycznych Grupowanie czasowników na potrzeby badania klas alternacji Kategoryzacja wyrażeń metaforycznych w oparciu o hiperonimy Wspomagana komputerowo analiza danych jakościowych Badania nad frazeologią Nauka języka przygotowanie słowniku dla kursu języka czeskiego dla obcokrajowców (Uniwersytet Masaryka, Brno) Konstrukcja programów do nauki języka Badanie treści prac uczniowskich/studenckich Edukacyjne: językoznawstwo, leksykologia, leksykografia Tłumaczenia Analiza leksykalizacji pojęć
Zastosowania (wybrane) Warsztaty Wyszukiwanie semantyczne w korpusach tekstu Grupowanie semantyczne tekstów określanie podobieństwa zdań i fragmentów tekstów, np. (Siemiński, 2012) Klasyfikacja semantyczna tekstu, np. (Maciołek, 2010) Korekta rozpoznawania mowy w systemach dialogowych Systemy odpowiedzi na pytania w języku naturalnym Np. do rozpoznania typu pytania Wydobywanie terminologii i słów kluczowych, np. (Mykowiecka i Marciniak, 2012) Wnioskowania w oparciu o logiki naturalne Tworzenie programów do grania w gry słowne Wykrywanie i generowanie pleonazmów
Zastosowania (wybrane) Warsztaty Definiowanie cech na potrzeby Text Mining ze stron WWW (Maciolek and Dobrowolski, 2013) Rzutowanie pomiędzy leksykonem a ontologią (Wróblewska et al., 2013) Miara podobieństwa semantycznego słów na potrzeby analizy ontologii (Lula and Paliwoda-Pękosz, 2009) Automatyczne wydobywanie leksykonów atrybutów opinii (Wawer and Gołuchowski, 2012) Rozpoznawanie i klasyfikacja nazw własnych (własne G4.19) Ujednoznacznianie sensów słów (Gołuchowski and Przepiórkowski, 2012, własne G4.19, 2015) Rozpoznawanie powiązań anaforycznych (własne G4.19) Rozpoznawanie językowych wyrażeń odnoszących się do relacji czasowych i przestrzennych (własne G4.19)
Ważne linki Warsztaty Wytyczne do budowy Słowosieci dla lingwistów oraz publikacje o Słowosieci: http://clarin-pl.eu/pl/publikacje-slowosiec/ Słowosieć online: http://plwordnet.pwr.wroc.pl/wordnet/ Opis zasobu Słowosieci na stronie Grupy Technologii Językowych G4.19 http://nlp.pwr.wroc.pl/narzedzia-i-zasoby/zasoby/slowosiec
Ćwiczenia warsztatowe Instalowanie aplikacji WordNetViewer Wyszukiwanie jednostek Przeglądanie relacji jednostek i synsetów Przeglądanie synsetów Przeglądanie definicji Wyszukiwanie zaawansowane Generowanie list z wynikami wyszukiwań Warsztaty
Warsztaty Instalowanie aplikacji 1 2 http://clarin-pl.eu/pl/uslugi/ 3 4
Instalowanie aplikacji KLIK! KLIK! Warsztaty
Instalowanie aplikacji Warsztaty
Wyszukiwanie jednostek wpisz osoba Warsztaty
Wyszukiwanie jednostek Warsztaty
WordnetLoom-Viewer panel wyszukiwania Warsztaty
Wyszukiwanie jednostek panel wyszukiwania forma hasłowa status część mowy aspekt dla czasownika Warsztaty
Wyszukiwanie jednostek panel wyszukiwania dziedzina (z wytycznych dla lingwistów) relacje jednostek ID synsetu Warsztaty
Wyszukiwanie jednostek panel wyszukiwania osoba jednostki zawierające ciąg liter osoba Warsztaty
Wyszukiwanie jednostek panel wyszukiwania osoba 1 (os) 1. znaczenie rzeczownika osoba dziedzina = os = osoby Warsztaty
Wyszukiwanie jednostek Warsztaty
Przeglądanie relacji synsetów panel relacji synsetów relacje synsetów Warsztaty
Warsztaty Przeglądanie relacji synsetów panel relacji synsetów KLIK!
Przeglądanie relacji synsetów Warsztaty mapka kliknij lewym przyciskiem myszy, i przytrzymaj, przesuwaj mapkę
Przeglądanie synsetów Warsztaty
Przeglądanie relacji synsetów hiperonimy osoby 1 Warsztaty
Przeglądanie relacji synsetów hiponimy osoby 1 Warsztaty
Przeglądanie relacji synsetów określniki osoby 1 Warsztaty
Przeglądanie relacji synsetów Warsztaty holonim osoby 1
Przeglądanie relacji synsetów Warsztaty relacje w jęz. angielskim
Warsztaty Skład synsetów wybrany aktualnie synset jest żółty KLIK! skład synsetu
Skład synsetów Warsztaty KLIK! kliknięty synset jest żółty na czerwono synset główny (hasło)
Skład synsetów Warsztaty kliknij lewym przyciskiem myszy, i przytrzymaj, przesuwaj suwak
Skład synsetów złap lewym przyciskiem myszy krawędź panelu przesuwają ją, Warsztaty
Skład synsetów Warsztaty
Relacje jednostek w tym panelu widać relacje jednostek Warsztaty
Relacje jednostek Warsztaty Dwukrotne kliknięcie jednostki w polu relacji jednostek powoduje otwarcie synsetu w oknie głównym.
Relacje jednostek brak relacji jednostek Warsztaty
Kwalifikatory, glosy, przykłady Warsztaty
Wyszukiwanie zaawansowane % zastępuje dowolny ciąg znaków Warsztaty
Wyszukiwanie zaawansowane wyszukiwanie po części mowy Warsztaty
Wyszukiwanie zaawansowane wyszukiwanie po dziedzinie Warsztaty
Wyszukiwanie zaawansowane Warsztaty Wyszukiwanie po relacjach jednostek
Wyszukiwanie zaawansowane Warsztaty wyszukiwanie czasowników po aspekcie
Wyszukiwanie zaawansowane Warsztaty
Generowanie list z wynikami wyszukiwań prawy przycisk myszy + Shift Warsztaty
Listy z wynikami Warsztaty
Listy z wynikami wyraz (lemat) Warsztaty
Listy z wynikami część mowy Warsztaty
Warsztaty Warszawa 29-30.05.2017 Listy z wynikami dziedzina ze Słowosieci
Listy z wynikami Warsztaty komentarz
Dziękujemy bardzo za uwagę