Parsowanie semantyczne i jego zastosowania

Podobne dokumenty
Parsowanie semantyczne wypowiedzi w języku polskim z użyciem parsera ENIAM

Bank częściowo ujednoznacznionych struktur LFG

i INSTYTUT PODSTAW INFORMATYKI

Kategorialny Parser Składniowo-Semantyczny dla języka polskiego

j INSTYTUT PODSTAW INFORMATYKI

Wykład 11a. Składnia języka Klasycznego Rachunku Predykatów. Języki pierwszego rzędu.

Ontologie, czyli o inteligentnych danych

Walenty. słownik walencyjny języka polskiego z kontrolą i koordynacją. Filip Skwarski. 5 listopada 2012 r. IPI PAN

Elementy kognitywistyki III: Modele i architektury poznawcze

AUTOMATYKA INFORMATYKA

Reguły gry zaliczenie przedmiotu wymaga zdania dwóch testów, z logiki (za ok. 5 tygodni) i z filozofii (w sesji); warunkiem koniecznym podejścia do

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Wstęp do logiki. Semiotyka cd.

SGJP Model odmiany Przymiotniki Rzeczowniki Czasowniki Podsumowanie

Metody Kompilacji Wykład 1 Wstęp

Metody Kompilacji Wykład 3

Systemy ekspertowe i ich zastosowania. Katarzyna Karp Marek Grabowski

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Wprowadzenie do składni

Semantyka rachunku predykatów

Wprowadzenie do analizy składniowej. Bartosz Bogacki.

Matematyczne Podstawy Informatyki

Metody Kompilacji Wykład 8 Analiza Syntaktyczna cd. Włodzimierz Bielecki WI ZUT

Spis treści tomu pierwszego

Składnia rachunku predykatów pierwszego rzędu

Gramatyka Kategorialna Języka Polskiego

Wprowadzenie do Prologa

Wstęp do Językoznawstwa

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Predykat. Matematyka Dyskretna, Podstawy Logiki i Teorii Mnogości Barbara Głut

WSTĘP ZAGADNIENIA WSTĘPNE

MATEMATYKA DYSKRETNA, PODSTAWY LOGIKI I TEORII MNOGOŚCI

Wprowadzenie do logiki Zdania, cz. III Język Klasycznego Rachunku Predykatów

3 grudnia Sieć Semantyczna

Co to jest znaczenie? Współczesne koncepcje znaczenia i najważn. i najważniejsze teorie semantyczne

Język UML w modelowaniu systemów informatycznych

Metodologia prowadzenia badań naukowych Semiotyka, Argumentacja

Spis treści Informacje podstawowe Predykaty Przykłady Źródła RDF. Marek Prząda. PWSZ w Tarnowie. Tarnów, 6 lutego 2009

Reprezentacja wiedzy ontologie, logiki deskrypcyjne

Gramatyki atrybutywne

Główne problemy kognitywistyki: Reprezentacja

Techniki informacyjne dla wnioskowania oraz generowania, reprezentacji i zarządzania wiedzą

Plan wykładu. Kompilatory. Literatura. Translatory. Literatura Translatory. Paweł J. Matuszyk

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Z punktu widzenia kognitywisty: język naturalny

Negacja w języku polskim,

OPIS PRZEDMIOTU. gramatyka opisowa języka polskiego (składnia) Humanistyczny. Instytut Filologii Polskiej i Kulturoznawstwa.

Diagramu Związków Encji - CELE. Diagram Związków Encji - CHARAKTERYSTYKA. Diagram Związków Encji - Podstawowe bloki składowe i reguły konstrukcji

Metoda Tablic Semantycznych

Logika dla socjologów Część 2: Przedmiot logiki

Język programowania Scala / Grzegorz Balcerek. Wyd. 2. Poznań, cop Spis treści

Analiza znaczeniowa sterowana składnią

Modelowanie treści sumeryjskich tekstów gospodarczych z epoki Ur III.

Technologie obiektowe

PRZEWODNIK PO PRZEDMIOCIE

Semantic Web Internet Semantyczny

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI

Świat rzeczywisty i jego model

Strukturalizacja otoczenia agentów: ontologie, CYC, sieci semantyczne

Indukcja reguł gramatyki j. polskiego

Analiza i projektowanie obiektowe 2017/2018. Wykład 3: Model wiedzy dziedzinowej

Co to jest znaczenie? Współczesne koncepcje znaczenia i najważn. i najważniejsze teorie semantyczne

Adam Meissner.

Metoda tabel semantycznych. Dedukcja drogi Watsonie, dedukcja... Definicja logicznej konsekwencji. Logika obliczeniowa.

Dariusz Brzeziński. Politechnika Poznańska, Instytut Informatyki

TECHNOLOGIE OBIEKTOWE WYKŁAD 2. Anna Mroczek

Wprowadzenie. Teoria automatów i języków formalnych. Literatura (1)

Diagramy klas. dr Jarosław Skaruz

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Leksykon gramatyki kategorialnej dla języka polskiego

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Spis treści. ROZDZIAŁ 2 Wzajemne oddziaływanie między leksykonem a innymi środkami służącymi kodowaniu informacji... 67

Podejście obiektowe - podstawowe pojęcia

Logika Stosowana. Wykład 1 - Logika zdaniowa. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

2. Wymagania wstępne w zakresie wiedzy, umiejętności oraz kompetencji społecznych (jeśli obowiązują): BRAK

Kultura logicznego myślenia

Język opisu sprzętu VHDL

Reprezentacja znaczenia

Tutorial prowadzi przez kolejne etapy tworzenia projektu począwszy od zdefiniowania przypadków użycia, a skończywszy na konfiguracji i uruchomieniu.

Piotr Kulicki Katolicki Uniwersytet Lubelski Jana Pawła II Instytut Filozofii Teoretycznej Katedra Podstaw Informatyki

LOGIKA I TEORIA ZBIORÓW

Logika dla prawników

Klasyczny rachunek zdań 1/2

Logika Stosowana. Wykład 2 - Logika modalna Część 2. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017

Cele kształcenia wymagania ogólne

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Kultura logiczna Klasyczny rachunek zdań 1/2

Program warsztatów CLARIN-PL

Sztuczna inteligencja i logika. Podsumowanie przedsięwzięcia naukowego Kisielewicz Andrzej WNT 20011

Wykład I. Wprowadzenie do baz danych

PODSTAWY SZTUCZNEJ INTELIGENCJI

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

Projektowanie systemów informatycznych. Roman Simiński siminskionline.pl. Modelowanie danych Diagramy ERD

Modelowanie danych, projektowanie systemu informatycznego

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2014/2015

Bazy danych. Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Wykład 3: Model związków encji.

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Transkrypt:

Parsowanie semantyczne i jego zastosowania Wojciech Jaworski, Adam Przepiórkowski Instytut Podstaw Informatyki Polskiej Akademii Nauk 18 czerwca 2015 Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 1 / 19

Co to jest parsowanie semantyczne? Zadanie znajdowania form logicznych. Wyrażanie treści zdania, akapitu, czy tekstu w sposób jawny, uporzadkowany i zrozumiały dla komputera. Wymaga przyjęcia języka opisu zwanego językiem reprezentacji znaczenia oraz teorii (sposobu, koncepcji) opisu świata. Jako język reprezentacji znaczenia wykorzystuje się zwykle logikę formalny język opisu reguły wnioskowania formalna semantyka oparta na teorii modeli Teoria opisu świata składa się z ontologii definiujacej typy bytów (pojęcia) teorii poszczególnych dziedzin (teoria czasu, przestrzeni, zdarzeń itp.) Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 2 / 19

Język reprezentacji znaczenia Jako język reprezentacji znaczenia przyjmujemy rozszerzona logikę pierwszego rzędu Formuły naszego języka reprezentacji znaczenia będziemy wyrażać graficznie w formie grafów semantycznych. Słoń trabi. trabić Agnt SG słoń SG (s, TYPE(s, słoń), (t, TYPE(t, trabić) AGENT(t, s))) (s, TYPE(s, słoń) s = 1, (t, TYPE(t, trabić) AGENT(t, s))) W powyższym grafie pudełka reprezentuja obiekty, o których jest mowa. występuje zatem obiekt słoń i zdarzenie trabić, symbole i SG to kwantyfikatory określajace liczność obiektów odpowiednio jako przynajmniej 1 i dokładnie 1. Kółeczka reprezentuja relacje między obiektami. Agnt wskazuje na to, że słoń jest agensem trabienia. Strzałka wchodzaca to pierwszy argument, wychodzaca drugi. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 3 / 19

Kwantyfikatory Składnię rachunku predykatów pierwszego rzędu rozszerzamy o kwantyfikatory (np. co dziesiaty, czy prawie każdy). Słoń codziennie trabi. CODZIENNIE trabić Agnt SG słoń SG (s, TYPE(s, słoń), CODZIENNIE(t, TYPE(t, trabić) AGENT(t, s))) CODZIENNIE(t, TYPE(t, trabić) SG (s, TYPE(s, słoń), AGENT(t, s))) Reprezentacja grafowa pozwala nie dospecyfikowywać stosunków zakresowych i precyzyjnie sterować stopniem tego niedospecyfikowania. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 4 / 19

Nazwy własne Teofil trabi. trabić Agnt SG Teofil SG (s, HASNAME(s, Teofil ), (t, TYPE(t, trabić) AGENT(t, s))) Nazwy własne (np. Poznań) umieszczamy w cudzysłowach. Nazwy własne nie definiuja typu obiektu, tylko identyfikuja obiekt poprzez podanie przypisanej mu etykiety. W reprezentacji logicznej nazwy własne sa napisami, powiazanymi z obiektami za pomoca relacji HASNAME. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 5 / 19

Teoria opisu świata Płytka analiza semantyczna: opisujemy świat zgodnie z jego obrazem przedstawionym w języku: pojęcia to leksemy, relacje między pojęciami wynikaja z relacji składniowych Zalety: niewielka liczba zasobów potrzebna do stworzenia reprezentacji semantycznej Wady: brak informacji o powiazaniach semantycznych pomiędzy różnymi predykatami. Na przykład, aby automatycznie rozpoznać implikację zachodzac a pomiędzy zdaniami Przygladam się słoniowi, Patrzę na słonia, Widzę słonia, należy zauważyć, że słoń jest zwiazany ze zdarzeniem ta sama relacja we wszystkich trzech przypadkach, znać zależności semantyczne między predykatami przygladać się, patrzyć i widzieć. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 6 / 19

Cechy Zazwyczaj wyrażane przez przymiotniki i przysłówki. Przyjmujemy, że cechy (atrybuty) to pojęcia majace swoje instancje. Przykładowo instancjami koloru różowy moga być różne odcienie tego koloru. Intensywnie różowy słoń trabi. trabić Agnt SG słoń Attr różowy Attr intensywnie Cechę łaczymy z określanym pojęciem za pomoca relacji Attr. Cechy moga mieć swoje własne cechy. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 7 / 19

Określenia miejsca Zazwyczaj wyrażane przez wyrażenia przyimkowe i przysłówki. Przyimki lokatywne reprezentuja relacje pomiędzy miejscami. Relacje te moga być modyfikowane, np. dość głęboko w szafie. Relacje Loc, Abl, Adl, Perl wskazuja na kierunek ruchu. Relacja Ref łaczy przyimek z jego podrzędnikiem. Z Poznania jedzie pociag przez Wrocław. Abl z Ref SG Poznań jechać Agnt SG pociag Perl przez Ref SG Wrocław Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 8 / 19

Role tematyczne Relacje wiaż ace czasowniki z ich podrzędnikami. Zdeterminowane przez relacje składniowe. Rola Przybliżony opis Agnt Aktor akcji Ptnt Obiekt podlegajacy akcji Dat Argument celownikowy Inst Argument narzędnikowy Adl Argument adlatywny Abl Argument ablatywny Loc Argument lokatywny Perl Argument perlatywny Topic Temat komunikacji PTim Argument czasowy Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 9 / 19

Konteksty sytuacyjne Jan wierzy, że słoń trabi. wierzyć Agnt SG Jan Situation że trabić Agnt SG słoń (w, TYPE(w, wierzyć) SG (j, HASNAME(j, Jan ), AGENT(w, j)) (x, DSCR(x, SG (s, TYPE(s, słoń), (t, TYPE(t, trabić) AGENT(t, s)))), że(w, x))) Zdanie, które jest przedmiotem przekonań nie musi być obiektywnie prawdziwe. Umieszczamy je w kontekście oznaczajacym, że jego prawdziwość należy określać ze względu na subiektywny model świata posiadany przez Jana. Aby reprezentować konteksty w notacji logicznej, rozszerzamy ja o metajęzykowy predykat DSCR. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 10 / 19

Relacja Root Jan przybył na dwie umówione przez Marysię kolacje. Root przybyć Agnt SG Jan Adl na Ref 2 kolacja SG Marysia Agnt umówić Ptnt Relacja Root wskazuje na element nadrzędny w drzewie. Odróżnia powyższe zdanie od Marysia umówiła dwie kolacje, na które Jan przybył. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 11 / 19

Niejednoznaczność Chłód wiatru powiewem ogarnał Jana. Inst SG powiew A 1 Poss wiatr Root ogarnać Ptnt SG Jan Agnt chłód A 2 Poss wiatr W powyższym zdaniu występuje niejednoznaczność składniowa: mamy tu chłód wiatru, albo powiew wiatru. Niejednoznaczność jest wyrażona przez symbole A 1 i A 2 występuje przy relacjach łacz acych wiatr z jego nadrzędnikiem. Poszczególne odczyty niejednoznacznego zdania uzyskujemy wybierajac jeden z tych symboli i odrzucajac relacje etykietowane drugim z nich. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 12 / 19

Analizator fleksyjny Morfeusz Morfeusz Źródło: najlepszy analizator dla języka polskiego, szybki, stabilny, wygodny w użyciu, bardzo duże pokrycie, tagset podobny do NKJP. informacji o charakterystyce fleksyjnej, informacje sa konwertowane na wpisy leksykalne. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 13 / 19

Słownik walencyjny Walenty elektroniczny słownik walencyjny (dla ludzi i maszyn), duży i szczegółowy, obecnie głównie powierzchniowoskładniowy, niebawem będzie dodawany poziom semantyczny, główne źródło empiryczne: NKJP publicznie dostępny na licencji swobodnej (open source): http://walenty.ipipan.waw.pl/. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 14 / 19

Gramatyka POLFIE Gramatyka POLFIE: podejście LFG, implementacja w XLE (platforma dedykowana LFG), stworzona w oparciu o wcześniejsze implementowane gramatyki języka polskiego: GFJP (DCG): FOJP (HPSG): korzysta z informacji: walencyjnych z Walentego, fleksyjnych z Morfeusza, testowana na: banku struktur Składnica: korpusie NKJP (szczególnie NKJP1M); intensywnie rozwijana (m.in. semantyka). Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 15 / 19

Poziomy reprezentacji w formaliźmie LFG Dwa podstawowe poziomy reprezentacji: c-struktura: struktura składnikowa w formie drzewa, oparta na kategoriach składniowych, struktura powierzchniowa, zależna od języka; f-struktura: struktura funkcyjna w formie struktury atrybutów, oparta na funkcjach gramatycznych, struktura głęboka, dość uniwersalna, bliska semantyce (ale to nie semantyka). Pozostałe: s(emantic)-structure, a(rgument)-structure, i(nformation)-structure... Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 16 / 19

Przykład S N ( SUBJ)= Antek V = idzie Antek idzie. PRED IŚĆ 1 SUBJ 1 NUM TENSE PRES PRED CASE GEND ANTEK NOM M1 SG Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 17 / 19

Funkcje gramatyczne podstawowe pojęcie w LFG, określa relację między nadrzędnikiem a podrzędnikiem, niezależne od pozycji w drzewie, niezależne od semantyki. Podstawowy zestaw fukcji gramatycznych SUBJ: podmiot (Antek idzie), OBJ: dopełnienie bliższe (Eryk lubi Antka), OBJ θ : dopełnienie dalsze (Antek dał Erykowi płytę), OBL: dopełnienie przyimkowe (Eryk czeka na Antka), COMP: dopełnienie zdaniowe (Antek mówi, że idzie), XCOMP: dopełnienie bezokolicznikowe (Antek chce iść), XCOMP-PRED: dopełnienie predykatywne (Antek jest miły). Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 18 / 19

Zastosowania automatyczne wnioskowanie, ekstrakcja informacji, wyszukiwanie semantyczne, odpowiadanie na pytania, tworzenie baz wiedzy. Wojciech Jaworski, Adam Przepiórkowski (IPI PAN) Parsowanie semantyczne 18 czerwca 2015 19 / 19