Leksykon gramatyki kategorialnej dla języka polskiego

Podobne dokumenty
Gramatyka TAG dla języka polskiego

Gramatyka Kategorialna Języka Polskiego

Walenty. słownik walencyjny języka polskiego z kontrolą i koordynacją. Filip Skwarski. 5 listopada 2012 r. IPI PAN

Metody Kompilacji Wykład 3

Kategorialny Parser Składniowo-Semantyczny dla języka polskiego

Wstęp do Językoznawstwa

Bank częściowo ujednoznacznionych struktur LFG

Analiza znaczeniowa sterowana składnią

Analiza semantyczna. Gramatyka atrybutywna

Spis treści 5. Spis treści. Przedmowa Przedmowa do wydania II Część pierwsza MORFOLOGIA

Konotacja składniowajako podstawowy mechanizm zdaniotwórczy

Wizualizacja wyników analizy syntaktycznej

i INSTYTUT PODSTAW INFORMATYKI

2. Zdanie z orzeczeniem przymiotnikowym (model podstawowy, negacja, pytania) Przysłówki stopnia (,,,,, ) Inne formy wyrażające stopień Zaimek

Negacja w języku polskim,

Koordynacja w Kategorialnej Gramatyce Logicznej

Metody Kompilacji Wykład 1 Wstęp

Metody Kompilacji Wykład 7 Analiza Syntaktyczna

Parsery wykorzystywane w analizie języka naturalnego

Gramatyka. języka rosyjskiego z ćwiczeniami

11 Probabilistic Context Free Grammars

j INSTYTUT PODSTAW INFORMATYKI

Języki formalne i automaty Ćwiczenia 2

Wstęp do logiki. Semiotyka cd.

KLASA IV (ocenę wyższą otrzymuje uczeń, który spełnia wszystkie wymagania ocen niższych pozytywnych)

NaCoBeZu na co będę zwracać uwagę. Nauka o języku

Metody Kompilacji Wykład 8 Analiza Syntaktyczna cd. Włodzimierz Bielecki WI ZUT

Maszynowe tłumaczenie Polskiego Języka Migowego

Typy wymagań konotacyjnychpolskich leksemów i form

Klasyfikacja tradycyjna Klasyfikacja Zygmunta Saloniego Przykład analizy. Części mowy. Anna Kozłowska. Uniwersytet Kardynała Stefana Wyszyńskiego

Cele kształcenia wymagania ogólne

Analizator syntaktyczny

Wprowadzenie do analizy składniowej. Bartosz Bogacki.

Spis treści. ROZDZIAŁ 2 Wzajemne oddziaływanie między leksykonem a innymi środkami służącymi kodowaniu informacji... 67

Uproszczony schemat działania kompilatora

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

SPIS TREŚCI. Wykaz skrótów Przedmowa... 11

Marek Świdziński Elementy gramatyki opisowej języka polskiego Uniwersytet Warszawski * Wydział Polonistyki Seria szósta, T. XXXIII Warszawa 1997

Politechnika Częstochowska, Wydział Zarządzania PRZEWODNIK PO PRZEDMIOCIE

Programowanie w Logice Gramatyki metamorficzne. Przemysław Kobylański na podstawie [CM2003] i [SS1994]

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Inżynieria języka z językiem migowym w tle

Języki formalne i automaty Ćwiczenia 4

Konstrukcje werbalne z aż w gramatyce Świdzińskiego

Parsowanie semantyczne i jego zastosowania

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2014/2015

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

Z punktu widzenia kognitywisty: język naturalny

Myśl w języku Python! : nauka programowania / Allen B. Downey. Gliwice, cop Spis treści

Nr Tytuł Przykład Str.

Gramatyki wykorzystywane w analizie języka naturalnego Ciekawe zastosowania

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2017/2018 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

j INSTYTUT PODSTAW INFORMATYKI

Generator YACC: gramatyki niejednoznaczne

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Znak, język, kategorie syntaktyczne

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

GRAMATYKI BEZKONTEKSTOWE

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Wykład 11a. Składnia języka Klasycznego Rachunku Predykatów. Języki pierwszego rzędu.

Załącznik nr 2 Wymagania programowe w klasie V

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

10. Translacja sterowana składnią i YACC

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Programowanie w logice

Metody automatycznego wykrywania błędów w bankach drzew

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO KLASA V. Uczniów obowiązują wiadomości i umiejętności nabyte w klasie IV.

NOWA DEFINICJA FRAZY NOMINALNEJ Wersja 2β *

Uproszczony schemat działania kompilatora

Komputerowa weryfikacja gramatyki Świdzińskiego

KARTA PRZEDMIOTU. M2/2/7 w języku polskim Gramatyka opisowa 2 w języku angielskim Descriptive grammar 2 USYTUOWANIE PRZEDMIOTU W SYSTEMIE STUDIÓW

SPIS TREŚCI WSTĘP... 11

KLASA 4. I. Kształcenie literackie i kulturowe.

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

Wprowadzenie do programowania języki i gramatyki formalne. dr hab. inż. Mikołaj Morzy

Generatory analizatorów

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD IX: Agent przetwarza język naturalny

Parsowanie semantyczne wypowiedzi w języku polskim z użyciem parsera ENIAM

ANALIZA WYNIKÓW EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

NACOBEZU JĘZYK POLSKI

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2015/2016 JĘZYK POLSKI

Wprowadzenie. Teoria automatów i języków formalnych. Literatura (1)

Jak się nie zgubić w lesie, czyli o wynikach analizy składniowej według gramatyki Świdzińskiego

Modelowanie języka polskiego z wykorzystaniem gramatyki struktur frazowych

Darmowy artykuł, opublikowany na:

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI

Gramatyka operatorowa

Wymagania edukacyjne na poszczególne oceny w klasie 5 Teraz polski!

WYMAGANIA EDUKACYJNE JĘZYK POLSKI KLASA 4 PANI PATRYCJA KOWALEWSKA. Wymagania edukacyjne

Uzgodnienia. Uzgodnienia. 3. Formalny opis j zyka naturalnego. Gramatyki CFG z atrybutami (features, attributes) rzeczownik-przymiotnik

SZKOŁA PODSTAWOWA W ZESPOLE SZKÓŁ W RUSKU. PROGRAM ZAJĘĆ DYDAKTYCZNO WYRÓWNAWCZYCH Nauczanie zintegrowane

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Imię i nazwisko:... OBROŃCY PRAWDY

Transkrypt:

Leksykon gramatyki kategorialnej dla języka polskiego MIM UW pm262952@students.mimuw.edu.pl 1 października 2012

Cel pracy CCG Celem jest konwersja polskiego banku drzew na format wywodów CCG. Potrzebne będą: formalizm dostosowany do polskiego szyku swobodnego warstwa semantyczna (kodująca zależn ości składniowe) algorytm konwersji drzew Świgry ewaluacja (cross-validation na zależnościach)

Plan CCG 1 CCG 2 3 4 5 6

Plan CCG 1 CCG 2 3 4 5 6

Combinatory Categorial Grammar Leksykon: typy proste + informacje semantyczne Łączymy elementy zdania tworząc wywód Kilka prostych reguł, opartych na rachunku kombinatorów CCG pozwala na parsowanie bardziej dowolnych części tekstu niż CFG

Leksykon CCG Każde słowo ma przypisaną kategorię: kategorie atomowe: S, N, PP... kategorie złożone: X/Y, X\Y (prawa część to argument, lewa to wynik) Na przykład: dog := NP big := NP/NP very := (NP/NP)/(NP/NP) Informacje o języku zawarte są w leksykonie, nie w regułach

Aplikacja CCG (>) X /Y, Y X Marcel proved completeness NP (S\NP)/NP NP S\NP S > <

Przykład koordynacji Marcel conjectured and proved completeness NP (S\NP)/NP (X\X)/X (S\NP)/NP NP > ((S\NP)/NP)\((S\NP)/NP) < (S\NP)/NP S S\NP > <

Kompozycja CCG (> B) X /Y, Y /Z X /Z Marcel conjectured and might prove completeness NP (S\NP)/NP conj (S\NP)/(S\NP) (S\NP)/NP NP >B (S\NP)/NP (S\NP)/NP S S\NP > <

Podnoszenie typu (> T ) X Y /(Y \X ) Marcel proved and I disproved completeness NP (S\NP)/NP conj NP (S\NP)/NP NP S/(S\NP) >T >T S/NP S/(S\NP) >B >B S/NP S S/NP >

CCG Zazwyczaj termy rachunku lambda. Marcel proved completeness marcel : NP λx.λy.prove(x, y) : (S\NP)/NP completeness : NP λy.prove(completeness, y) : S\NP > prove(completeness, marcel) : S <

Plan CCG 1 CCG 2 3 4 5 6

Multizbiory CCG Części zdania mogą się pojawić w dowolnej kolejności: Marysia lubi Janka, lubi Marysia Janka, Janka lubi Marysia, itd. Chcemy, żeby lubi miało zawsze ten sam typ Rozwiązanie: multizbiory Marysia : NP, Janka : NP lubi : S{ NP nom, NP acc } biegnie : S{ NP nom }

Okoliczniki w zdaniu Modyfikatory zdania wyrażenia przyimkowe, wtrącenia, przysłówki Chcemy, żeby ich typ był niezależny od modyfikowanego czasownika i pozycji Najlepiej: zawsze S S Rozwiązanie: wprowadzamy kompozycję

Kompozycja CCG Dopuszczamy kompozycję dla specjalnych kategorii: X //Y, X \\Y, X Y Reguła: (> B) X Z, Z{...} X {...} Janek je szybko obiad NP nom S{ NP nom, NP acc } S S NP acc <B S{ NP nom, NP acc } > S NP nom < S

Modyfikatory jako argumenty Ta sama fraza (np. przysłówek) może być wymagana lub nie wyglądam dobrze, dobrze piszę Obecne rozwiązanie przydzielić różne typy dobrze : S S, AdvP piszę : S wyglądam : S AdvP Inne możliwości wszystko jest modyfikatorem (zawsze S S) wszystko jest argumentem (zawsze AdvP) argumenty opcjonalne (piszę : S{ AdvP? }) specjalne reguły (AdvP S S)

Reguły PL-CCG (>) X {/Y,...}, Y X {...} (> B) X //Z, Z{...} X {...} (//) X //Y X /Y (oraz analogiczne reguły dla \ i )

Plan CCG 1 CCG 2 3 4 5 6

CCG Wieloargumentowy rachunek lambda Marysia = marysia Janka = janek lubi = λ x, y.lubi(x, y) Służy do odzyskania zależności składniowych między słowami: lubi(marysia, janek) [lubi, marysia], [lubi, janek]

Zależności składniowe Wynikowy term nie zawsze odzwierciedla zależności! Quick brown fox jumps over lazy dog jumps quick brown fox over lazy dog Widać, że modyfikatury (tu przymiotniki) stwarzają problem.

Język reprezentacji zależności Rozwiązanie oznaczyć węzły jako modyfikatory, zbierać zależności z ich uwzględnieniem. jumps quick m over brown m fox lazy m dog Dodatkowe komplikacje: modyfikatory wyższego poziomu (np. przysłówek) dodatkowe argumenty (np. rzeczownik we frazie przyimkowej)

Plan CCG 1 CCG 2 3 4 5 6

Składnica CCG Składnica polski bank ok. 8000 drzew Zdania sparsowane przez Świgrę, poprawne drzewa wybrane przez ludzi zdanie fw fno ff fwe fl fpm fpt fno wykonał przyimek fno Pierwsze rzeźby w fno fpt latach dwudziestych

Algorytm konwersji Dzielimy węzły na głowę, argumenty i modyfikatory Argumentom przyznajemy kategorie S A B X head C Y mod D..................

Algorytm konwersji Aplikujemy głowę do argumentów, dodajemy modyfikator: S (<) A S\A (<)... B S\A\B (>)... S\A\B/D (<) D S\A\B/D (>) (S\A\B/D)\(S\A\B/D)... S\A\B/D/C C...

Algorytm konwersji W przypadku zdań kategorie są multisetowe: S (<) A S A (<)... B S{ A, B} (>)... S{ A, B, D} (< B) D S{ A, B, D} (>) S S... S{ A, B, D, C} C...

Użyte kategorie atomowe Kategorie atomowe dla argumentów zależą od typu węzła w Świgrze: Fraza Typ Kategoria Cechy nominalna fno NO przyp, rodzaj, liczba, osoba przymiotnikowa fpt PT przyp, rodzaj, liczba przyim.-nom. fpm PM przyim, przyp przyim.-przym. fpmpt PMPT przyim, przyp przysłówkowa fps PS werbalna fwe WE zdaniowa fzd SS typ zdanie zdanie, S wypowiedzenie luźna fl L

Plan CCG 1 CCG 2 3 4 5 6

Metoda ewaluacji Cztery wersje algorytmu: normal, no-mods, no-sets, nm+ns Leave-one-out cross-validation Parser zwraca wszystkie możliwe wyniki dla danego zdania Porównuję uzyskane relacje zależnościowe z wzorcowymi W wyniku: LP, LR, UP, UR (labeled/unlabeled, precision/recall)

Wyniki parsowania Wersja Sparsowane LP LR UP UR nm+ns 215/8227 (2.61%) 97.08% 98.09% 98.45% 98.82% no-mods 220/8227 (2.67%) 96.46% 97.87% 98.12% 98.48% no-sets 539/8227 (6.55%) 86.78% 96.56% 91.36% 98.46% normal 588/8227 (7.15%) 85.13% 96.32% 90.11% 98.36% Udaje się sparsować najwyżej 7% zdań Można użyć triku: zastąpić rzadkie słowa tagami......ale wtedy potrzebny jest lepszy parser

Leksykon ilość kategorii Wersja Kategorii Kategorii (uogólnionych) nm+ns 13231 3821 no-mods 12662 3202 no-sets 9735 1546 normal 8055 1207 Uogólnione kategorie nie bierzemy pod uwagę atrybutów (liczby, przypadku itd.)

Najczęstsze uogólnione kategorie Oznaczenia: fraza o danej kategorii, [argument]. Kategoria Przykład 1. NO etap konkursu 2. S\S kropka na końcu zdania 3. NO NO [służbę] wojskową 4. NO/NO etap [konkursu] 5., przecinek 6. S S jeszcze raz to potwierdza 7. PM/NO Z [domu] wyniosłam zamiłowanie do pracy. 8. S S/NO Nie znali się za [życia]. 9. NO NO/NO zmiany w [rządzie] 10. S NO odbywa [służbę wojskową]

Różne problemy z leksykonem: modyfikatory np. ten sam przyimek może mieć wiele typów (PM/NO, S S/NO, NO NO/NO... ) który jest traktowany jak zwykły rzeczownik wiele kategorii dla zdań (S, SS, WE) inne szczególne przypadki być może potrzebna jest jakaś integracja ze Świgrą?

Plan CCG 1 CCG 2 3 4 5 6

Praca dostępna jest pod adresem http://students.mimuw.edu.pl/~pm262952/. Wyniki pracy: gramatyka (PL-CCG) semantyka i reprezentacja zależności algorytm konwersji leksykon i jego ewaluacja Możliwa kontynuacja: lepszy parser (statystyczny) szczególne przypadki w konwersji inne traktowanie modyfikatorów wersja bez multisetów integracja ze Świgrą?

Pytania?

Bibliografia CCG Mark Steedman and Jason Baldridge, Combinatory Categorial Grammar, draft (2011), to appear in: R. Borsley and K. Borjars (eds.), Non-Transformational Syntax, Blackwell, 181 224. Julia Hockenmaier, Data and Models for Statistical Parsing with Combinatory Categorial Grammar, PhD thesis, University of Edinburgh, 2003. Beryl Hoffman, The Computational Analysis of the Syntax and Interpretation of Free Word Order in Turkish, PhD thesis, University of Pennsylvania, 1995.