Kategorialny Parser Składniowo-Semantyczny dla języka polskiego

Podobne dokumenty
Parsowanie semantyczne wypowiedzi w języku polskim z użyciem parsera ENIAM

Parsowanie semantyczne i jego zastosowania

Program warsztatów CLARIN-PL

Gramatyka Kategorialna Języka Polskiego

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Języki programowania zasady ich tworzenia

Wykład 11a. Składnia języka Klasycznego Rachunku Predykatów. Języki pierwszego rzędu.

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Open Access w technologii językowej dla języka polskiego

Leksykon gramatyki kategorialnej dla języka polskiego

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Analiza wyników egzaminu gimnazjalnego 2016 r. Test humanistyczny język polski

KONSTRUKCJA KOMPILATORÓW

Logika Stosowana. Wykład 1 - Logika zdaniowa. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017

Imię, nazwisko, nr indeksu

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

MATEMATYKA DYSKRETNA, PODSTAWY LOGIKI I TEORII MNOGOŚCI

Podstawy Sztucznej Inteligencji (PSZT)

Wprowadzenie do analizy składniowej. Bartosz Bogacki.

Analiza znaczeniowa sterowana składnią

Inżynieria języka z językiem migowym w tle

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Programowanie deklaratywne

Matematyczne Podstawy Informatyki

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

Egzamin Gimnazjalny z WSiP MAJ 2015 Analiza wyników próbnego egzaminu gimnazjalnego Część humanistyczna z zakresu języka polskiego Klasa 1

Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki

Adam Meissner.

Walenty. słownik walencyjny języka polskiego z kontrolą i koordynacją. Filip Skwarski. 5 listopada 2012 r. IPI PAN

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Klasyfikacja tradycyjna Klasyfikacja Zygmunta Saloniego Przykład analizy. Części mowy. Anna Kozłowska. Uniwersytet Kardynała Stefana Wyszyńskiego

SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie

Logika Stosowana. Wykład 2 - Logika modalna Część 2. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017

Cele kształcenia wymagania ogólne

Negacja w języku polskim,

Metoda Tablic Semantycznych

Lingwistyczne podsumowania baz danych.inteligentne generowanie s

System Korekty Tekstu Polskiego

Analiza semantyczna. Gramatyka atrybutywna

SPIS TREŚCI. Wykaz skrótów Przedmowa... 11

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Wymagania edukacyjne na poszczególne oceny w klasie 5 Teraz polski!

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

Inforex - zarządzanie korpusami i ich anotacja

Perl a XML. Narzędzia informatyczne w językoznawstwie. Generowanie danych XML - Przykład. Generowanie danych XML. Perl - Przetwarzanie XML

Gramatyki (1-2) Definiowanie języków programowania. Piotr Chrząstowski-Wachjtel

GRAMATYKI BEZKONTEKSTOWE

Narzędzia do automatycznego wydobywania kolokacji

Z punktu widzenia kognitywisty: język naturalny

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Reprezentacja wiedzy ontologie, logiki deskrypcyjne

Analiza wyników egzaminu gimnazjalnego 2014 r. Test humanistyczny język polski

AUTOMATYKA INFORMATYKA

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Zadanie analizy leksykalnej

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2014/2015

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Koordynacja w Kategorialnej Gramatyce Logicznej

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

Plan wykładu. Kompilatory. Literatura. Translatory. Literatura Translatory. Paweł J. Matuszyk

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Automatyczne planowanie oparte na sprawdzaniu spełnialności

Języki i gramatyki formalne

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Metody Kompilacji Wykład 1 Wstęp

Wstęp do logiki. Semiotyka cd.

Internet Semantyczny i Logika I

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

WSTĘP ZAGADNIENIA WSTĘPNE

Spis treści tomu pierwszego

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

Metoda tabel semantycznych. Dedukcja drogi Watsonie, dedukcja... Definicja logicznej konsekwencji. Logika obliczeniowa.

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2017/2018 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Kryteria ocen z języka polskiego dla klasy V szkoły podstawowej

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

Kompresja tablic obliczeń wstępnych alternatywa dla tęczowych tablic. Michał Trojnara.

Marek Świdziński Elementy gramatyki opisowej języka polskiego Uniwersytet Warszawski * Wydział Polonistyki Seria szósta, T. XXXIII Warszawa 1997

Lokalizacja Oprogramowania

Wprowadzenie do logiki Zdania, cz. III Język Klasycznego Rachunku Predykatów

Technologie baz danych

KRYTERIA OCEN Z JĘZYKA POLSKIEGO W KLASIE V

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Wymagania edukacyjne z języka polskiego. dla klasy III gimnazjum

WYMAGANIA PROGRAMOWE DLA KLASY IV SZKOŁY PODSTAWOWEJ Z PRZEDMIOTU JĘZYK POLSKI NA ROK SZKOLNY 2014/2015

Wstęp do logiki. Kto jasno i konsekwentnie myśli, ściśle i z ładem się wyraża,

Dopełnienie to można wyrazić w następujący sposób:

Z punktu widzenia kognitywisty: język naturalny

Metody Kompilacji Wykład 3

Kryteria oceniania z języka polskiego KLASA V

Transkrypt:

Kategorialny Parser Składniowo-Semantyczny dla języka polskiego Wojciech Jaworski Instytut Informatyki Uniwersytetu Warszawskiego Instytut Podstaw Informatyki Polskiej Akademii Nauk 26 kwietnia 2016 Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 1 / 36

Architektura Preprocesing Określanie struktury zależnościowej Anotacja sensami słów i rolami tematycznymi Dezambiguacja (w tym sprawdzanie preferencji selekcyjnych) Generowanie reprezentacji semantycznej Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 2 / 36

Rozmyty potok przetwarzania Parser nie wykonuje dezambiguacji po każdym kroku przetwarzania tekstu. Zamiast tego tworzy zwarta reprezentację niejednoznacznego wyniku, która przekazuję do następnego etapu; wykonuje dezambiguację pod koniec potoku przetwarzania. Uzasadnienie: dezambiguacja działa poprawnie jedynie w pewnym procencie przypadków złożenie kilku procedur, które nie działaja całkowicie poprawnie radykalnie zmniejsza szansę uzyskania poprawnego wyniku np. tagery dla języka polskiego maja skuteczność ok 93%, w zdaniu występuje średnio 15 słów, więc prawdopodobieństwo poprawnego otagowania typowego zdania wynosi 0, 93 15 = 0, 3367. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 3 / 36

Preprocesing Tekst reprezentowany jest jako graf. Krawędzie etykietowane sa tokenami. Podczas preprocesingu dodawane sa nowe krawędzie i wierzchołki Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 4 / 36

Etapy preprocesingu identyfikacja wielkich i małych liter identyfikacja złożonych znaków interpunkcyjnych dezambiguacja znaczenia znaków interpunkcyjnych i wielkich liter w tym obsługa haplologii, oznaczanie możliwych poczatków i końców zdań składowych (rozdzielanych przecinkami) podział na tokeny rozpoznawanie liczebników zapisanych za pomoca cyfr, dat itp. rozpoznawanie odmienionych akronimów i wyrazów obcych lematyzacja (SGJP-20151020 oraz Polimorf-20151020) rozwijanie skrótów rozpoznawanie wyrażeń wielosłownych wykrywanie nazw własnych (SGJP-20151020 oraz Polimorf-20151020) określanie sensów słów (Słowosieć 2.1.0) określanie walencji (Walenty-20150412) Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 5 / 36

Gramatyka kategorialna Reguły podzbiór systemu dowodowego dla niekomutatywnej intuicjonistycznej logiki liniowej Leksykon tworzony dynamicznie dla każdego zapytania na podstawie haseł z SGJP i Walentego, wzbogacony o domyślna walencję dla słów nie występujacych w Walentym oraz pozycje w ramach walencyjnych dla modyfikatorów. Gramatyka uzupełniona jest o konstrukcje mowy niezależnej zleksykalizowany opis określeń czasu. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 6 / 36

Parser Bazuje na algorytmie CYK. Bezpośrednia implementacja ograniczonego systemu dowodowego. Formalizm pozwala w zwarty sposób reprezentować niejednoznaczności wynikajace z polskiej fleksji. Siła wyrazu: gramatyka bezkontekstowa z wykładniczo skompresowanymi regułami. Generuje strukturę zależnościowa pomiędzy tokenami. Wyraża niejednoznaczność w formie skompresowanego lasu. Generowanie struktury zależnościowej jest wykonywane w sposób leniwy. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 7 / 36

Walencja semantyczna Ramy semantyczne zawarte w Walentym dostarczaja informacje o rolach tematycznych poszczególnych argumentów oraz ich preferencjach selekcyjnych. Preferencje selekcyjne sa sensami ze Słowosieci (lub ich uogólnieniami). Sensy te powinny być bardziej ogólne od sensu podrzędnika. Spełnialność preferencji selekcyjnych przez sens danego słowa można określić, sprawdzajac czy zbiór wszystkich jego hiperonimów ma niepuste przecięcie ze zbiorem preferencji selekcyjnych danego argumentu. Preferencje selekcyjne w Walentym umożliwiaja m.in. rozstrzygnięcie, że w zdaniu Kot aranżuje na fortepian, Kot jest nazwa własna a nie rzeczownikiem pospolitym. Pomagaja też rozróżniać argumenty od modyfikatorów i dzięki temu wskazywać właściwe role tematyczne: Załadował bagażnik jabłkami Theme. Załadował bagażnik koparka Instrument. Załadował bagażnik wieczoremtime. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 8 / 36

Niejednoznaczność sensów słów i ram walencyjnych Sensy słów wprowadzaja olbrzymia niejednoznaczność, która tylko w niewielkim stopniu redukowana jest przez preferencje selekcyjne. Wynika to m.in. z tego, że poszczególne sensy danego leksemu sa do siebie na tyle podobne, że wpadaja w te same preferencje selekcyjne. Np. w zdaniu Człowiek aranżuje czasownik ma pięć ram/schematów (skojarzonych z 3 sensami), w których podmiot ma preferencje LUDZIE, badź PODMIOTY; a rzeczownik ma 5 znaczeń, z czego znaczenia 2, 4 i 5 maja jako hiperonim znaczenie 1. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 9 / 36

Anotacja sensami słów i rolami tematycznymi Z uwagi na niejednoznaczność walencja semantyczna jest wprowadzana dopiero po określeniu struktury zależnościowej. Poszczególne znaczenia i alternatywne ramy walencyjne sa nakładane na strukturę zależnościowa w taki sposób, by jedynie lokalnie zwiększać niejednoznaczność. Pojedynczy węzeł w strukturze zależnościowej jest powielany proporcjonalna ilość razy do liczby jego interpretacji. To powielenie nie propaguje się na resztę struktury. Konsekwencja takiego podejścia jest wymaganie by preferencje selekcyjne dotyczyły zawsze bezpośrednich podrzędników danego węzła. Wymusza to odejście od klasycznych zasad rozbioru składniowego: niesemantyczne przyimki, liczebniki, rzeczowniki użyte w znaczeniu pojemnikowym, czasowniki posiłkowe staja się teraz podrzędnikami swoich zwyczajowych argumentów. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 10 / 36

Dezambiguacja Dezambiguacja odbywa się etapami: 1 Badanie spełnialności preferencji selekcyjnych tam, gdzie moga one wpłynać na strukturę zależnościowa, czy w przypadku argumentów, które nie moga być modyfikatorami. 2 Wybór najbardziej prawdopodobnych lematów na podstawie listy frekwencyjnej z NKJP1M. 3 Badanie spełnialności preferencji selekcyjnych w pozostałych przypadkach. 4 Wybór sensów słów. Pozostałe typy niejednoznaczności, takie jak np. niejednoznaczność dowiazania frazy przyimkowej, pozostaja aktualnie niezdezambiguowane. Na potrzeby prezentacji w interfejsie webowym losowane jest 10 struktur zależnościowych. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 11 / 36

Semantyka Wyrażana za pomoca grafów semantycznych równoważnych Minimal Recursion Semantics. Rozwijana do formuł logiki pierwszego rzędu rozszerzonych o predykat metajęzykowy i kwantyfikatory specyficzne dla języka naturalnego. Język reprezentacji znaczenia (teoria opisu świata) wykorzystywany przez parser został szczegółowo opisany w ramach projektu Clarin-pl. Ontologia (zestaw pojęć) zadana jest przez Słowosieć. Relacje między pojęciami sa rozszerzaja zbiór ról tematycznych zdefiniowanych w Walentym. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 12 / 36

Demo Dostępne tymczasowo pod adresem: http://students.mimuw.edu.pl/ wjaworski Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 13 / 36

Kot miauczy codziennie. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 14 / 36

Kot miauczy codziennie. [x, DSCR[x, [k, TYPE(k, kot 1) k = 1, CODZIENNIE[m, TYPE(m, miauczeć 1) PRES(m) INITIATOR(m, k)]]]] Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 15 / 36

Jaś wystosował petycję do urzędu. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 16 / 36

Jaś wystosował petycję do urzędu. [x, DSCR[x, [o, TYPE(o, osoba 1) HASNAME(o, Jaś ) o = 1, [w, TYPE(w, wystosować 1) PAST(w) [u, TYPE(u, urzad 1) u = 1, RECIPIENT(w, u)] [p, TYPE(p, petycja 1) p = 1, THEME(w, u)] INITIATOR(w, o)]]]] Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 17 / 36

Ania schowała piłkę głęboko w szafie. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 18 / 36

Ania schowała piłkę głęboko w szafie. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 19 / 36

Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 20 / 36

- Chcę jeść - zawołał Jaś. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 21 / 36

- Chcę jeść - zawołał Jaś. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 22 / 36

Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 23 / 36

Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 24 / 36

Jaś zawołał, że chce jeść. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 25 / 36

Jaś zawołał, że chce jeść. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 26 / 36

Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 27 / 36

Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 28 / 36

Kucharz posolił wszystkie dania dwoma łyżkami soli. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 29 / 36

Kucharz posolił wszystkie dania dwoma łyżkami soli. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 30 / 36

Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 31 / 36

Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 32 / 36

Kot odkupił 25 sierpnia 2015 samochód za 20000zł. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 33 / 36

Kot odkupił 25 sierpnia 2015 samochód za 20000zł. Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 34 / 36

Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 35 / 36

Wojciech Jaworski (MIM UW, IPI PAN) Kategorialny Parser Składniowo-Semantyczny 26 kwietnia 2016 36 / 36