Parsowanie semantyczne i jego zastosowania Wojciech Jaworski, Adam Przepiórkowski Instytut Podstaw Informatyki Polskiej Akademii Nauk 18 czerwca 2015 Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 1 / 19
Co to jest parsowanie semantyczne? Zadanie znajdowania form logicznych. Wyrażanie treści zdania, akapitu, czy tekstu w sposób jawny, uporzadkowany i zrozumiały dla komputera. Wymaga przyjęcia języka opisu zwanego językiem reprezentacji znaczenia oraz teorii (sposobu, koncepcji) opisu świata. Jako język reprezentacji znaczenia wykorzystuje się zwykle logikę formalny język opisu reguły wnioskowania formalna semantyka oparta na teorii modeli Teoria opisu świata składa się z ontologii definiujacej typy bytów (pojęcia) teorii poszczególnych dziedzin (teoria czasu, przestrzeni, zdarzeń itp.) Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 2 / 19
Język reprezentacji znaczenia Jako język reprezentacji znaczenia przyjmujemy rozszerzona logikę pierwszego rzędu Formuły naszego języka reprezentacji znaczenia będziemy wyrażać graficznie w formie grafów semantycznych. Słoń trabi. trabić Agnt SG słoń SG (s, TYPE(s, słoń), (t, TYPE(t, trabić) AGENT(t, s))) (s, TYPE(s, słoń) s = 1, (t, TYPE(t, trabić) AGENT(t, s))) W powyższym grafie pudełka reprezentuja obiekty, o których jest mowa. występuje zatem obiekt słoń i zdarzenie trabić, symbole i SG to kwantyfikatory określajace liczność obiektów odpowiednio jako przynajmniej 1 i dokładnie 1. Kółeczka reprezentuja relacje między obiektami. Agnt wskazuje na to, że słoń jest agensem trabienia. Strzałka wchodzaca to pierwszy argument, wychodzaca drugi. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 3 / 19
Kwantyfikatory Składnię rachunku predykatów pierwszego rzędu rozszerzamy o kwantyfikatory (np. co dziesiaty, czy prawie każdy). Słoń codziennie trabi. CODZIENNIE trabić Agnt SG słoń SG (s, TYPE(s, słoń), CODZIENNIE(t, TYPE(t, trabić) AGENT(t, s))) CODZIENNIE(t, TYPE(t, trabić) SG (s, TYPE(s, słoń), AGENT(t, s))) Reprezentacja grafowa pozwala nie dospecyfikowywać stosunków zakresowych i precyzyjnie sterować stopniem tego niedospecyfikowania. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 4 / 19
Nazwy własne Teofil trabi. trabić Agnt SG Teofil SG (s, HASNAME(s, Teofil ), (t, TYPE(t, trabić) AGENT(t, s))) Nazwy własne (np. Poznań) umieszczamy w cudzysłowach. Nazwy własne nie definiuja typu obiektu, tylko identyfikuja obiekt poprzez podanie przypisanej mu etykiety. W reprezentacji logicznej nazwy własne sa napisami, powiazanymi z obiektami za pomoca relacji HASNAME. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 5 / 19
Teoria opisu świata Płytka analiza semantyczna: opisujemy świat zgodnie z jego obrazem przedstawionym w języku: pojęcia to leksemy, relacje między pojęciami wynikaja z relacji składniowych Zalety: niewielka liczba zasobów potrzebna do stworzenia reprezentacji semantycznej Wady: brak informacji o powiazaniach semantycznych pomiędzy różnymi predykatami. Na przykład, aby automatycznie rozpoznać implikację zachodzac a pomiędzy zdaniami Przygladam się słoniowi, Patrzę na słonia, Widzę słonia, należy zauważyć, że słoń jest zwiazany ze zdarzeniem ta sama relacja we wszystkich trzech przypadkach, znać zależności semantyczne między predykatami przygladać się, patrzyć i widzieć. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 6 / 19
Cechy Zazwyczaj wyrażane przez przymiotniki i przysłówki. Przyjmujemy, że cechy (atrybuty) to pojęcia majace swoje instancje. Przykładowo instancjami koloru różowy moga być różne odcienie tego koloru. Intensywnie różowy słoń trabi. trabić Agnt SG słoń Attr różowy Attr intensywnie Cechę łaczymy z określanym pojęciem za pomoca relacji Attr. Cechy moga mieć swoje własne cechy. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 7 / 19
Określenia miejsca Zazwyczaj wyrażane przez wyrażenia przyimkowe i przysłówki. Przyimki lokatywne reprezentuja relacje pomiędzy miejscami. Relacje te moga być modyfikowane, np. dość głęboko w szafie. Relacje Loc, Abl, Adl, Perl wskazuja na kierunek ruchu. Relacja Ref łaczy przyimek z jego podrzędnikiem. Z Poznania jedzie pociag przez Wrocław. Abl z Ref SG Poznań jechać Agnt SG pociag Perl przez Ref SG Wrocław Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 8 / 19
Role tematyczne Relacje wiaż ace czasowniki z ich podrzędnikami. Zdeterminowane przez relacje składniowe. Rola Przybliżony opis Agnt Aktor akcji Ptnt Obiekt podlegajacy akcji Dat Argument celownikowy Inst Argument narzędnikowy Adl Argument adlatywny Abl Argument ablatywny Loc Argument lokatywny Perl Argument perlatywny Topic Temat komunikacji PTim Argument czasowy Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 9 / 19
Konteksty sytuacyjne Jan wierzy, że słoń trabi. wierzyć Agnt SG Jan Situation że trabić Agnt SG słoń (w, TYPE(w, wierzyć) SG (j, HASNAME(j, Jan ), AGENT(w, j)) (x, DSCR(x, SG (s, TYPE(s, słoń), (t, TYPE(t, trabić) AGENT(t, s)))), że(w, x))) Zdanie, które jest przedmiotem przekonań nie musi być obiektywnie prawdziwe. Umieszczamy je w kontekście oznaczajacym, że jego prawdziwość należy określać ze względu na subiektywny model świata posiadany przez Jana. Aby reprezentować konteksty w notacji logicznej, rozszerzamy ja o metajęzykowy predykat DSCR. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 10 / 19
Relacja Root Jan przybył na dwie umówione przez Marysię kolacje. Root przybyć Agnt SG Jan Adl na Ref 2 kolacja SG Marysia Agnt umówić Ptnt Relacja Root wskazuje na element nadrzędny w drzewie. Odróżnia powyższe zdanie od Marysia umówiła dwie kolacje, na które Jan przybył. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 11 / 19
Niejednoznaczność Chłód wiatru powiewem ogarnał Jana. Inst SG powiew A 1 Poss wiatr Root ogarnać Ptnt SG Jan Agnt chłód A 2 Poss wiatr W powyższym zdaniu występuje niejednoznaczność składniowa: mamy tu chłód wiatru, albo powiew wiatru. Niejednoznaczność jest wyrażona przez symbole A 1 i A 2 występuje przy relacjach łacz acych wiatr z jego nadrzędnikiem. Poszczególne odczyty niejednoznacznego zdania uzyskujemy wybierajac jeden z tych symboli i odrzucajac relacje etykietowane drugim z nich. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 12 / 19
Analizator fleksyjny Morfeusz Morfeusz Źródło: najlepszy analizator dla języka polskiego, szybki, stabilny, wygodny w użyciu, bardzo duże pokrycie, tagset podobny do NKJP. informacji o charakterystyce fleksyjnej, informacje sa konwertowane na wpisy leksykalne. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 13 / 19
Słownik walencyjny Walenty elektroniczny słownik walencyjny (dla ludzi i maszyn), duży i szczegółowy, obecnie głównie powierzchniowoskładniowy, niebawem będzie dodawany poziom semantyczny, główne źródło empiryczne: NKJP publicznie dostępny na licencji swobodnej (open source): http://walenty.ipipan.waw.pl/. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 14 / 19
Gramatyka POLFIE Gramatyka POLFIE: podejście LFG, implementacja w XLE (platforma dedykowana LFG), stworzona w oparciu o wcześniejsze implementowane gramatyki języka polskiego: GFJP (DCG): FOJP (HPSG): korzysta z informacji: walencyjnych z Walentego, fleksyjnych z Morfeusza, testowana na: banku struktur Składnica: korpusie NKJP (szczególnie NKJP1M); intensywnie rozwijana (m.in. semantyka). Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 15 / 19
Poziomy reprezentacji w formaliźmie LFG Dwa podstawowe poziomy reprezentacji: c-struktura: struktura składnikowa w formie drzewa, oparta na kategoriach składniowych, struktura powierzchniowa, zależna od języka; f-struktura: struktura funkcyjna w formie struktury atrybutów, oparta na funkcjach gramatycznych, struktura głęboka, dość uniwersalna, bliska semantyce (ale to nie semantyka). Pozostałe: s(emantic)-structure, a(rgument)-structure, i(nformation)-structure... Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 16 / 19
Przykład S N ( SUBJ)= Antek V = idzie Antek idzie. PRED IŚĆ 1 SUBJ 1 NUM TENSE PRES PRED CASE GEND ANTEK NOM M1 SG Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 17 / 19
Funkcje gramatyczne podstawowe pojęcie w LFG, określa relację między nadrzędnikiem a podrzędnikiem, niezależne od pozycji w drzewie, niezależne od semantyki. Podstawowy zestaw fukcji gramatycznych SUBJ: podmiot (Antek idzie), OBJ: dopełnienie bliższe (Eryk lubi Antka), OBJ θ : dopełnienie dalsze (Antek dał Erykowi płytę), OBL: dopełnienie przyimkowe (Eryk czeka na Antka), COMP: dopełnienie zdaniowe (Antek mówi, że idzie), XCOMP: dopełnienie bezokolicznikowe (Antek chce iść), XCOMP-PRED: dopełnienie predykatywne (Antek jest miły). Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 18 / 19
Zastosowania automatyczne wnioskowanie, ekstrakcja informacji, wyszukiwanie semantyczne, odpowiadanie na pytania, tworzenie baz wiedzy. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 19 / 19