Gramatyka TAG dla języka polskiego

Podobne dokumenty
Metody automatycznego wykrywania błędów w bankach drzew

Leksykon gramatyki kategorialnej dla języka polskiego

Bank częściowo ujednoznacznionych struktur LFG

Składnia. Jan Daciuk, KISI, ETI, PG Przetwarzanie języka naturalnego 10. Metody opisu składni (248 / 272)

Gramatyka operatorowa

Maszynowe tłumaczenie Polskiego Języka Migowego

Uproszczony schemat działania kompilatora

Parsery LL(1) Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki

Matematyczne Podstawy Informatyki

Uproszczony schemat działania kompilatora

11 Probabilistic Context Free Grammars

Języki formalne i automaty Ćwiczenia 2

Metody Kompilacji Wykład 7 Analiza Syntaktyczna

Metody Kompilacji Wykład 3

JAO - Wprowadzenie do Gramatyk bezkontekstowych

Języki formalne i automaty Ćwiczenia 1

Generatory analizatorów

Gramatyki wykorzystywane w analizie języka naturalnego

Gramatyki rekursywne

Metody Kompilacji Wykład 8 Analiza Syntaktyczna cd. Włodzimierz Bielecki WI ZUT

2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego

10. Translacja sterowana składnią i YACC

Analiza leksykalna 1. Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki

Włączenie analizy leksykalnej do analizy składniowej jest nietrudne; po co więc jest wydzielona?

Analizator syntaktyczny

Wprowadzenie do analizy składniowej. Bartosz Bogacki.

Indukcja reguł gramatyki j. polskiego

Metody Kompilacji Wykład 1 Wstęp

Definiowanie języka przez wyrażenie regularne(wr)

Obliczenia inspirowane Naturą

GRAMATYKI BEZKONTEKSTOWE

Języki, automaty i obliczenia

Wstęp do Językoznawstwa

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0

Hierarchia Chomsky ego Maszyna Turinga

Gramatyki, wyprowadzenia, hierarchia Chomsky ego. Gramatyka

Programowanie obiektowe i C++ dla matematyków

Metody Kompilacji Wykład 13

Jerzy Nawrocki, Wprowadzenie do informatyki

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Model zaszumionego kanału

Wykład 10. Translacja sterowana składnią

Programowanie w Logice Gramatyki metamorficzne. Przemysław Kobylański na podstawie [CM2003] i [SS1994]

Zadanie analizy leksykalnej

Języki, automaty i obliczenia

Efektywny parsing języka naturalnego przy użyciu gramatyk probabilistycznych

Podstawy Informatyki. Metody dostępu do danych

3.4. Przekształcenia gramatyk bezkontekstowych

Drzewa czerwono-czarne.

Parsery wykorzystywane w analizie języka naturalnego

Podstawy generatora YACC. Bartosz Bogacki.

JĘZYKIFORMALNE IMETODYKOMPILACJI

Syntactic Pattern Recognition. Anna Kuchna Maciej arnowski

Automatyczne wspomaganie tworzenia słowników fleksyjnych jednostek wieloczłonowych

JĘZYKI FORMALNE I METODY KOMPILACJI

Sortowanie - wybrane algorytmy

Hierarchia Chomsky ego

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

dr hab. Maciej Witek, prof. US MODELE UMYSŁU rok akademicki 2016/2017, semestr letni

Algorytmy i Struktury Danych

Wizualizacja wyników analizy syntaktycznej

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD IX: Agent przetwarza język naturalny

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Zaawansowany kurs języka Python

Zastosowanie CP-grafów do generacji siatek

Komputerowa weryfikacja gramatyki Świdzińskiego

Klasyczne i kwantowe podejście do teorii automatów i języków formalnych p.1/33

JIP. Analiza składni, gramatyki

JAO - lematy o pompowaniu dla jezykow bezkontekstowy

Analiza metodą zstępującą. Bartosz Bogacki.

Analiza znaczeniowa sterowana składnią

Algorytmy stochastyczne, wykład 05 Systemy Liendenmayera, modelowanie roślin

Metodologie programowania

Ekstrakcja informacji o zdarzeniach z tekstów dziedzinowych

Plan wykładu. Kompilatory. Literatura. Translatory. Literatura Translatory. Paweł J. Matuszyk

Przegląd metod error recovery (dla parsingu top-down, przykłady)

Wprowadzenie do programowania języki i gramatyki formalne. dr hab. inż. Mikołaj Morzy

Tworzenie języków specyfikacji dla zagadnień numerycznych

MAGICIAN. czyli General Game Playing w praktyce. General Game Playing

Języki formalne i automaty Ćwiczenia 8

Gramatyki atrybutywne

Języki i gramatyki formalne

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Testowanie hipotez statystycznych

Sofiia Lahoda *, Marek Miłosz. Politechnika Lubelska, Instytut Informatyki, Nadbystrzycka 36B, Lublin, Polska

Definicja pliku kratowego

Analiza semantyczna. Gramatyka atrybutywna

Języki formalne i automaty Ćwiczenia 7

Rozpoznawanie obrazów dłoni za pomocą gramatyk klasy ETPL(k) w systemach wizyjnych analizy języka migowego.

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

Automat ze stosem. Języki formalne i automaty. Dr inż. Janusz Majewski Katedra Informatyki

Minimalne drzewa rozpinające

Algebrą nazywamy strukturę A = (A, {F i : i I }), gdzie A jest zbiorem zwanym uniwersum algebry, zaś F i : A F i

Podstawy programowania 2. Temat: Drzewa binarne. Przygotował: mgr inż. Tomasz Michno

0.1 Lewostronna rekurencja

Wstęp do programowania. Drzewa podstawowe techniki. Piotr Chrząstowski-Wachtel

Maszyna Turinga języki

ALGORYTMY I STRUKTURY DANYCH

Języki formalne i automaty Ćwiczenia 4

Porównywanie tagerów dopuszczajacych niejednoznaczności

Transkrypt:

Gramatyka TAG dla języka polskiego Katarzyna Krasnowska IPI PAN 25 lutego 2013 Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 1 / 31

Plan prezentacji 1 TAG 2 Ekstrakcja gramatyki TAG 3 pl-tag i TuLiPA-pl 4 TAG w wykrywaniu błędów Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 2 / 31

Tree Adjoining Grammar formalna definicja Gramatyka TAG (Joshi i Schabes, 1997) to 5-krotka Σ, NT, I, A, S : Σ skończony zbiór terminali NT skończony zbiór nieterminali I skończony zbiór drzew początkowych (ang. initial trees) A skończony zbiór drzew pomocniczych (ang. auxiliary trees); I A = S NT symbol początkowy Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 3 / 31

Tree Adjoining Grammar Gramatyka słabo kontekstowa Parsowalna wielomianowo (O(n 6 )) Słabo równoważna m.in. formalizmowi CCG (Combinatory Categorial Grammar) Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 4 / 31

Operacje na drzewach: podstawienie (substitution) S A A S A A miejsce podstawienia (substitution node/site) (nieterminalny liść) Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 5 / 31

Operacje na drzewach: podstawienie (substitution) Przykład: S NP S NP VP N NP VP V Marysia N V biegnie Marysia biegnie Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 6 / 31

Operacje na drzewach: dołączenie (adjunction) S B B B S B B B tzw. foot node (nieterminalny liść o etykiecie identycznej z korzeniem drzewa) Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 7 / 31

Operacje na drzewach: dołączenie (adjunction) Przykład: S VP S NP VP ADVP VP NP VP N V ADV N ADVP VP Marysia biegnie szybko Marysia ADV V szybko biegnie Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 8 / 31

Drzewo wyprowadzenia Dla każdego drzewa elementarnego zaznaczony jest adres Gorna węzła, w którym dokonano podstawienia/dołączenia Drzewo wyprowadzenia dla zdania Marysia szybko biegnie : biegnie Marysia (1) szybko (2) Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 9 / 31

LTAG Lexicalised Tree Adjoining Grammar Każde drzewo elementarne posiada co najmniej jeden liść terminal (element leksykalny, ang. anchor) Dopuszczalne są dodatkowe leksemy w liściach (co-anchors) element leksykalny oznaczany jest symbolem. Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 10 / 31

Plan prezentacji 1 TAG 2 Ekstrakcja gramatyki TAG 3 pl-tag i TuLiPA-pl 4 TAG w wykrywaniu błędów Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 11 / 31

Procedura ekstrakcji (Chen i Vijay-Shanker, 2000): Działanie procedury w węźle η (wynik drzewo elementarne α): Stwórz η kopię η korzeń drzewa α Dla każdego dziecka η nie będącego elementem głównym, zdecyduj, czy jest ono argumentem Dla każdego γ dziecka η, jeśli jest ono... Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 12 / 31

Procedura ekstrakcji...nieterminalnym elementem głównym uruchom procedurę rekurencyjnie dla γ i dołącz jej wynik jako dziecko η. γ γ η η......... γ............ γ... Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 13 / 31

Procedura ekstrakcji...terminalnym elementem głównym dołącz kopię γ jako dziecko η i oznacz jako element leksykalny. η η......... γ............ γ... Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 14 / 31

Procedura ekstrakcji...argumentem dołącz kopię γ jako dziecko η ; uruchom procedurę dla γ, tworząc nowe drzewo początkowe. γ γ η......... γ...... η...... γ... γ Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 15 / 31

Procedura ekstrakcji...nie jest argumentem uruchom procedurę dla γ, tworząc nowe drzewo początkowe, i przekształć je w drzewo pomocnicze. γ γ η η η......... γ............... γ η Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 16 / 31

Przykład drzewo ze Składnicy Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 17 / 31

Przykład zdanie fwe partykuła formaczas formaprzym formarzecz formarzecz nie obudził fps formarzecz Ogłuszający stukot kół formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31

Przykład argument zdanie fwe partykuła formaczas formaprzym formarzecz formarzecz nie obudził fps formarzecz Ogłuszający stukot kół formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31

Przykład zdanie fwe partykuła formaczas nie obudził fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31

Przykład element główny zdanie fwe partykuła formaczas nie obudził fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31

Przykład zdanie fwe partykuła formaczas nie obudził fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31

Przykład argument zdanie fwe partykuła formaczas nie obudził fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31

Przykład zdanie fwe partykuła formaczas obudził fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31

Przykład element główny zdanie fwe partykuła formaczas obudził fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31

Przykład zdanie fwe partykuła formaczas obudził fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31

Przykład terminal zdanie fwe partykuła formaczas obudził fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31

Przykład zdanie fwe partykuła formaczas obudzić fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31

Przykład argument zdanie fwe partykuła formaczas obudzić fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31

Przykład zdanie fwe partykuła formaczas obudzić Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31

Przykład fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego fps formarzecz formaprzys formaprzym mężczyzna smacznie śpiący Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31

Plan prezentacji 1 TAG 2 Ekstrakcja gramatyki TAG 3 pl-tag i TuLiPA-pl 4 TAG w wykrywaniu błędów Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 19 / 31

TuLiPA Tübingen Linguistic Parsing Architecture (Kallmeyer et al. (2008); https://sourcesup.cru.fr/tulipa/): Parser m.in. dla gramatyk TAG Korzysta z 3-warstwowego opisu Gramatyka składa się z tzw. rodzin drzew drzewa elementarne bez elementów leksykalnych Leksykon zawiera listę możliwych dopasowań leksemu do rodziny drzew każde takie dopasowanie odpowiada zleksykalizowanemu drzewu elementarnemu Morfoskładnia dla słów z leksykonu Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 20 / 31

Fragment gramatyki class ZDANIE_22c declare?n1?n2?n3?n4?n5?n6?v1?v2?v3?v4?v5 { <syn> { node?n1 [cat = ZDANIE, liczba =?V1, rodzaj =?V2, osoba =?V3, czas =?V4] { node?n2 [cat = FF, liczba =?V1, rodzaj =?V2, osoba =?V3, czas =?V4] { node?n3 [cat = FWE, liczba =?V1, rodzaj =?V2, osoba =?V3, czas =?V4] { node?n4 [cat = FORMACZAS, liczba =?V1, rodzaj =?V2, osoba =?V3, czas =?V4] { node?n5 (mark = anchor) [cat = verb, liczba =?V1, rodzaj =?V2, osoba =?V3, czas =?V4] } } } node?n6 (mark = subst, name = substnode1) [cat = FPT, liczba =?V1, przypadek =?V5, rodzaj =?V2] } } } Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 21 / 31

Fragment leksykonu *ENTRY: pozostać *CAT: verb *SEM: *ACC: 1 *FAM: ZDANIE_22c *FILTERS: [] *EX: {} *EQUATIONS: substnode1 -> przypadek = mian *COANCHORS: *ENTRY: być *CAT: verb *SEM: *ACC: 1 *FAM: ZDANIE_22c *FILTERS: [] *EX: {} *EQUATIONS: substnode1 -> przypadek = mian *COANCHORS: Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 22 / 31

TuLiPA-pl Nieco zmodyfikowana wersja parsera TuLiPA: Wymaga tylko dwóch pierwszych warstw gramatyki Plik z morfoskładnią jest opcjonalny W przypadku jego braku TuLiPA-pl korzysta z Morfeusza. Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 23 / 31

pl-tag Gramatyka TAG dla języka polskiego (http://zil.ipipan.waw.pl/pltag): Uzyskana z 7229 drzew ze Składnicy 2802 rodziny drzew 1825 początkowych 977 pomocniczych 11515 różnych słów w leksykonie 23570 drzew elementarnych Średnia liczba drzew leksykalizowanych przez słowo: 2,05 7953 słów (69%) leksykalizuje tylko jedno drzewo elementarne Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 24 / 31

pl-tag ewaluacja wynik zdania % rozbiór 2678 37% brak rozbioru 128 2% błąd parsera 640 9% za mało pamięci 3697 51% za mało czasu 44 1% Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 25 / 31

pl-tag ewaluacja Porównanie z rozbiorami ze Składnicy: Wybór najlepiej dopasowanego rozbioru TAG: najwięcej pokrywających się kategorii przypisanych frazom Spośród wszystkich fraz w Składnicy: 92% identycznie przypisanych kategorii 98,8% dla niepustych rozbiorów TAG Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 26 / 31

pl-tag przykład niedopasowania w rozbiorze Drzewo ze Składnicy: zdanie ff Powstrzymał jej pytania ruchem ręki Rozbiór uzyskany za pomocą gramatyki TAG: zdanie zdanie ff zdanie ruchem??? ręki Powstrzymał jej pytania Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 27 / 31

Podsumowanie Prawdopodobnie pierwszy taki eksperyment dla języka polskiego Duża (ale nie 100%) zgodność z bankiem drzew, z którego uzyskano gramatykę Problemy wydajnościowe Trudności np. ze swobodnym szykiem zdań Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 28 / 31

Plan prezentacji 1 TAG 2 Ekstrakcja gramatyki TAG 3 pl-tag i TuLiPA-pl 4 TAG w wykrywaniu błędów Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 29 / 31

TAG w wykrywaniu błędów (Kulick et al., 2011): Porównanie drzew wyprowadzenia TAG dla identycznych ciągów słów Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 30 / 31

Bibliografia Chen, J. i Vijay-Shanker, K. (2000). Automated extraction of Tags from the Penn Treebank. W: Proceedings of IWPT 2000. Joshi, A. i Schabes, Y. (1997). Tree-adjoining grammars. W: Handbook of Formal Lanaguages and Automata. Springer-Verlag, Berlin. Kallmeyer, L., Lichte, T., Maier, W., Parmentier, Y., Dellert, J. i Evang, K. (2008). TuLiPA: Towards a multi-formalism parsing environment for grammar engineering. W: Coling 2008: Proceedings of the workshop on Grammar Engineering Across Frameworks, str. 1 8, Manchester, England. Coling 2008 Organizing Committee. Kulick, S., Bies, A. i Mott, J. (2011). Using derivation trees for treebank error detection. W: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers - Volume 2, HLT 11, str. 693 698, Stroudsburg, PA, USA. Association for Computational Linguistics. Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 31 / 31