Kategorialny Parser Składniowo-Semantyczny dla języka polskiego Wojciech Jaworski Instytut Informatyki Uniwersytetu Warszawskiego Instytut Podstaw Informatyki Polskiej Akademii Nauk 26 kwietnia 2016 Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 1 / 36
Architektura Preprocesing Określanie struktury zależnościowej Anotacja sensami słów i rolami tematycznymi Dezambiguacja (w tym sprawdzanie preferencji selekcyjnych) Generowanie reprezentacji semantycznej Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 2 / 36
Rozmyty potok przetwarzania Parser nie wykonuje dezambiguacji po każdym kroku przetwarzania tekstu. Zamiast tego tworzy zwarta reprezentację niejednoznacznego wyniku, która przekazuję do następnego etapu; wykonuje dezambiguację pod koniec potoku przetwarzania. Uzasadnienie: dezambiguacja działa poprawnie jedynie w pewnym procencie przypadków złożenie kilku procedur, które nie działaja całkowicie poprawnie radykalnie zmniejsza szansę uzyskania poprawnego wyniku np. tagery dla języka polskiego maja skuteczność ok 93%, w zdaniu występuje średnio 15 słów, więc prawdopodobieństwo poprawnego otagowania typowego zdania wynosi 0, 93 15 = 0, 3367. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 3 / 36
Preprocesing Tekst reprezentowany jest jako graf. Krawędzie etykietowane sa tokenami. Podczas preprocesingu dodawane sa nowe krawędzie i wierzchołki Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 4 / 36
Etapy preprocesingu identyfikacja wielkich i małych liter identyfikacja złożonych znaków interpunkcyjnych dezambiguacja znaczenia znaków interpunkcyjnych i wielkich liter w tym obsługa haplologii, oznaczanie możliwych poczatków i końców zdań składowych (rozdzielanych przecinkami) podział na tokeny rozpoznawanie liczebników zapisanych za pomoca cyfr, dat itp. rozpoznawanie odmienionych akronimów i wyrazów obcych lematyzacja (SGJP-20151020 oraz Polimorf-20151020) rozwijanie skrótów rozpoznawanie wyrażeń wielosłownych wykrywanie nazw własnych (SGJP-20151020 oraz Polimorf-20151020) określanie sensów słów (Słowosieć 2.1.0) określanie walencji (Walenty-20150412) Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 5 / 36
Gramatyka kategorialna Reguły podzbiór systemu dowodowego dla niekomutatywnej intuicjonistycznej logiki liniowej Leksykon tworzony dynamicznie dla każdego zapytania na podstawie haseł z SGJP i Walentego, wzbogacony o domyślna walencję dla słów nie występujacych w Walentym oraz pozycje w ramach walencyjnych dla modyfikatorów. Gramatyka uzupełniona jest o konstrukcje mowy niezależnej zleksykalizowany opis określeń czasu. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 6 / 36
Parser Bazuje na algorytmie CYK. Bezpośrednia implementacja ograniczonego systemu dowodowego. Formalizm pozwala w zwarty sposób reprezentować niejednoznaczności wynikajace z polskiej fleksji. Siła wyrazu: gramatyka bezkontekstowa z wykładniczo skompresowanymi regułami. Generuje strukturę zależnościowa pomiędzy tokenami. Wyraża niejednoznaczność w formie skompresowanego lasu. Generowanie struktury zależnościowej jest wykonywane w sposób leniwy. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 7 / 36
Walencja semantyczna Ramy semantyczne zawarte w Walentym dostarczaja informacje o rolach tematycznych poszczególnych argumentów oraz ich preferencjach selekcyjnych. Preferencje selekcyjne sa sensami ze Słowosieci (lub ich uogólnieniami). Sensy te powinny być bardziej ogólne od sensu podrzędnika. Spełnialność preferencji selekcyjnych przez sens danego słowa można określić, sprawdzajac czy zbiór wszystkich jego hiperonimów ma niepuste przecięcie ze zbiorem preferencji selekcyjnych danego argumentu. Preferencje selekcyjne w Walentym umożliwiaja m.in. rozstrzygnięcie, że w zdaniu Kot aranżuje na fortepian, Kot jest nazwa własna a nie rzeczownikiem pospolitym. Pomagaja też rozróżniać argumenty od modyfikatorów i dzięki temu wskazywać właściwe role tematyczne: Załadował bagażnik jabłkami Theme. Załadował bagażnik koparka Instrument. Załadował bagażnik wieczoremtime. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 8 / 36
Niejednoznaczność sensów słów i ram walencyjnych Sensy słów wprowadzaja olbrzymia niejednoznaczność, która tylko w niewielkim stopniu redukowana jest przez preferencje selekcyjne. Wynika to m.in. z tego, że poszczególne sensy danego leksemu sa do siebie na tyle podobne, że wpadaja w te same preferencje selekcyjne. Np. w zdaniu Człowiek aranżuje czasownik ma pięć ram/schematów (skojarzonych z 3 sensami), w których podmiot ma preferencje LUDZIE, badź PODMIOTY; a rzeczownik ma 5 znaczeń, z czego znaczenia 2, 4 i 5 maja jako hiperonim znaczenie 1. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 9 / 36
Anotacja sensami słów i rolami tematycznymi Z uwagi na niejednoznaczność walencja semantyczna jest wprowadzana dopiero po określeniu struktury zależnościowej. Poszczególne znaczenia i alternatywne ramy walencyjne sa nakładane na strukturę zależnościowa w taki sposób, by jedynie lokalnie zwiększać niejednoznaczność. Pojedynczy węzeł w strukturze zależnościowej jest powielany proporcjonalna ilość razy do liczby jego interpretacji. To powielenie nie propaguje się na resztę struktury. Konsekwencja takiego podejścia jest wymaganie by preferencje selekcyjne dotyczyły zawsze bezpośrednich podrzędników danego węzła. Wymusza to odejście od klasycznych zasad rozbioru składniowego: niesemantyczne przyimki, liczebniki, rzeczowniki użyte w znaczeniu pojemnikowym, czasowniki posiłkowe staja się teraz podrzędnikami swoich zwyczajowych argumentów. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 10 / 36
Dezambiguacja Dezambiguacja odbywa się etapami: 1 Badanie spełnialności preferencji selekcyjnych tam, gdzie moga one wpłynać na strukturę zależnościowa, czy w przypadku argumentów, które nie moga być modyfikatorami. 2 Wybór najbardziej prawdopodobnych lematów na podstawie listy frekwencyjnej z NKJP1M. 3 Badanie spełnialności preferencji selekcyjnych w pozostałych przypadkach. 4 Wybór sensów słów. Pozostałe typy niejednoznaczności, takie jak np. niejednoznaczność dowiazania frazy przyimkowej, pozostaja aktualnie niezdezambiguowane. Na potrzeby prezentacji w interfejsie webowym losowane jest 10 struktur zależnościowych. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 11 / 36
Semantyka Wyrażana za pomoca grafów semantycznych równoważnych Minimal Recursion Semantics. Rozwijana do formuł logiki pierwszego rzędu rozszerzonych o predykat metajęzykowy i kwantyfikatory specyficzne dla języka naturalnego. Język reprezentacji znaczenia (teoria opisu świata) wykorzystywany przez parser został szczegółowo opisany w ramach projektu Clarin-pl. Ontologia (zestaw pojęć) zadana jest przez Słowosieć. Relacje między pojęciami sa rozszerzaja zbiór ról tematycznych zdefiniowanych w Walentym. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 12 / 36
Demo Dostępne tymczasowo pod adresem: http://students.mimuw.edu.pl/ wjaworski Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 13 / 36
Kot miauczy codziennie. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 14 / 36
Kot miauczy codziennie. [x, DSCR[x, [k, TYPE(k, kot 1) k = 1, CODZIENNIE[m, TYPE(m, miauczeć 1) PRES(m) INITIATOR(m, k)]]]] Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 15 / 36
Jaś wystosował petycję do urzędu. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 16 / 36
Jaś wystosował petycję do urzędu. [x, DSCR[x, [o, TYPE(o, osoba 1) HASNAME(o, Jaś ) o = 1, [w, TYPE(w, wystosować 1) PAST(w) [u, TYPE(u, urzad 1) u = 1, RECIPIENT(w, u)] [p, TYPE(p, petycja 1) p = 1, THEME(w, u)] INITIATOR(w, o)]]]] Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 17 / 36
Ania schowała piłkę głęboko w szafie. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 18 / 36
Ania schowała piłkę głęboko w szafie. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 19 / 36
Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 20 / 36
- Chcę jeść - zawołał Jaś. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 21 / 36
- Chcę jeść - zawołał Jaś. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 22 / 36
Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 23 / 36
Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 24 / 36
Jaś zawołał, że chce jeść. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 25 / 36
Jaś zawołał, że chce jeść. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 26 / 36
Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 27 / 36
Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 28 / 36
Kucharz posolił wszystkie dania dwoma łyżkami soli. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 29 / 36
Kucharz posolił wszystkie dania dwoma łyżkami soli. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 30 / 36
Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 31 / 36
Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 32 / 36
Kot odkupił 25 sierpnia 2015 samochód za 20000zł. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 33 / 36
Kot odkupił 25 sierpnia 2015 samochód za 20000zł. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 34 / 36
Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 35 / 36
Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 36 / 36