Gramatyka TAG dla języka polskiego Katarzyna Krasnowska IPI PAN 25 lutego 2013 Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 1 / 31
Plan prezentacji 1 TAG 2 Ekstrakcja gramatyki TAG 3 pl-tag i TuLiPA-pl 4 TAG w wykrywaniu błędów Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 2 / 31
Tree Adjoining Grammar formalna definicja Gramatyka TAG (Joshi i Schabes, 1997) to 5-krotka Σ, NT, I, A, S : Σ skończony zbiór terminali NT skończony zbiór nieterminali I skończony zbiór drzew początkowych (ang. initial trees) A skończony zbiór drzew pomocniczych (ang. auxiliary trees); I A = S NT symbol początkowy Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 3 / 31
Tree Adjoining Grammar Gramatyka słabo kontekstowa Parsowalna wielomianowo (O(n 6 )) Słabo równoważna m.in. formalizmowi CCG (Combinatory Categorial Grammar) Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 4 / 31
Operacje na drzewach: podstawienie (substitution) S A A S A A miejsce podstawienia (substitution node/site) (nieterminalny liść) Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 5 / 31
Operacje na drzewach: podstawienie (substitution) Przykład: S NP S NP VP N NP VP V Marysia N V biegnie Marysia biegnie Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 6 / 31
Operacje na drzewach: dołączenie (adjunction) S B B B S B B B tzw. foot node (nieterminalny liść o etykiecie identycznej z korzeniem drzewa) Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 7 / 31
Operacje na drzewach: dołączenie (adjunction) Przykład: S VP S NP VP ADVP VP NP VP N V ADV N ADVP VP Marysia biegnie szybko Marysia ADV V szybko biegnie Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 8 / 31
Drzewo wyprowadzenia Dla każdego drzewa elementarnego zaznaczony jest adres Gorna węzła, w którym dokonano podstawienia/dołączenia Drzewo wyprowadzenia dla zdania Marysia szybko biegnie : biegnie Marysia (1) szybko (2) Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 9 / 31
LTAG Lexicalised Tree Adjoining Grammar Każde drzewo elementarne posiada co najmniej jeden liść terminal (element leksykalny, ang. anchor) Dopuszczalne są dodatkowe leksemy w liściach (co-anchors) element leksykalny oznaczany jest symbolem. Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 10 / 31
Plan prezentacji 1 TAG 2 Ekstrakcja gramatyki TAG 3 pl-tag i TuLiPA-pl 4 TAG w wykrywaniu błędów Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 11 / 31
Procedura ekstrakcji (Chen i Vijay-Shanker, 2000): Działanie procedury w węźle η (wynik drzewo elementarne α): Stwórz η kopię η korzeń drzewa α Dla każdego dziecka η nie będącego elementem głównym, zdecyduj, czy jest ono argumentem Dla każdego γ dziecka η, jeśli jest ono... Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 12 / 31
Procedura ekstrakcji...nieterminalnym elementem głównym uruchom procedurę rekurencyjnie dla γ i dołącz jej wynik jako dziecko η. γ γ η η......... γ............ γ... Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 13 / 31
Procedura ekstrakcji...terminalnym elementem głównym dołącz kopię γ jako dziecko η i oznacz jako element leksykalny. η η......... γ............ γ... Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 14 / 31
Procedura ekstrakcji...argumentem dołącz kopię γ jako dziecko η ; uruchom procedurę dla γ, tworząc nowe drzewo początkowe. γ γ η......... γ...... η...... γ... γ Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 15 / 31
Procedura ekstrakcji...nie jest argumentem uruchom procedurę dla γ, tworząc nowe drzewo początkowe, i przekształć je w drzewo pomocnicze. γ γ η η η......... γ............... γ η Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 16 / 31
Przykład drzewo ze Składnicy Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 17 / 31
Przykład zdanie fwe partykuła formaczas formaprzym formarzecz formarzecz nie obudził fps formarzecz Ogłuszający stukot kół formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31
Przykład argument zdanie fwe partykuła formaczas formaprzym formarzecz formarzecz nie obudził fps formarzecz Ogłuszający stukot kół formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31
Przykład zdanie fwe partykuła formaczas nie obudził fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31
Przykład element główny zdanie fwe partykuła formaczas nie obudził fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31
Przykład zdanie fwe partykuła formaczas nie obudził fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31
Przykład argument zdanie fwe partykuła formaczas nie obudził fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31
Przykład zdanie fwe partykuła formaczas obudził fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31
Przykład element główny zdanie fwe partykuła formaczas obudził fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31
Przykład zdanie fwe partykuła formaczas obudził fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31
Przykład terminal zdanie fwe partykuła formaczas obudził fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31
Przykład zdanie fwe partykuła formaczas obudzić fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31
Przykład argument zdanie fwe partykuła formaczas obudzić fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31
Przykład zdanie fwe partykuła formaczas obudzić Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31
Przykład fps formarzecz formaprzys formaprzym mężczyzny smacznie śpiącego fps formarzecz formaprzys formaprzym mężczyzna smacznie śpiący Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 18 / 31
Plan prezentacji 1 TAG 2 Ekstrakcja gramatyki TAG 3 pl-tag i TuLiPA-pl 4 TAG w wykrywaniu błędów Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 19 / 31
TuLiPA Tübingen Linguistic Parsing Architecture (Kallmeyer et al. (2008); https://sourcesup.cru.fr/tulipa/): Parser m.in. dla gramatyk TAG Korzysta z 3-warstwowego opisu Gramatyka składa się z tzw. rodzin drzew drzewa elementarne bez elementów leksykalnych Leksykon zawiera listę możliwych dopasowań leksemu do rodziny drzew każde takie dopasowanie odpowiada zleksykalizowanemu drzewu elementarnemu Morfoskładnia dla słów z leksykonu Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 20 / 31
Fragment gramatyki class ZDANIE_22c declare?n1?n2?n3?n4?n5?n6?v1?v2?v3?v4?v5 { <syn> { node?n1 [cat = ZDANIE, liczba =?V1, rodzaj =?V2, osoba =?V3, czas =?V4] { node?n2 [cat = FF, liczba =?V1, rodzaj =?V2, osoba =?V3, czas =?V4] { node?n3 [cat = FWE, liczba =?V1, rodzaj =?V2, osoba =?V3, czas =?V4] { node?n4 [cat = FORMACZAS, liczba =?V1, rodzaj =?V2, osoba =?V3, czas =?V4] { node?n5 (mark = anchor) [cat = verb, liczba =?V1, rodzaj =?V2, osoba =?V3, czas =?V4] } } } node?n6 (mark = subst, name = substnode1) [cat = FPT, liczba =?V1, przypadek =?V5, rodzaj =?V2] } } } Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 21 / 31
Fragment leksykonu *ENTRY: pozostać *CAT: verb *SEM: *ACC: 1 *FAM: ZDANIE_22c *FILTERS: [] *EX: {} *EQUATIONS: substnode1 -> przypadek = mian *COANCHORS: *ENTRY: być *CAT: verb *SEM: *ACC: 1 *FAM: ZDANIE_22c *FILTERS: [] *EX: {} *EQUATIONS: substnode1 -> przypadek = mian *COANCHORS: Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 22 / 31
TuLiPA-pl Nieco zmodyfikowana wersja parsera TuLiPA: Wymaga tylko dwóch pierwszych warstw gramatyki Plik z morfoskładnią jest opcjonalny W przypadku jego braku TuLiPA-pl korzysta z Morfeusza. Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 23 / 31
pl-tag Gramatyka TAG dla języka polskiego (http://zil.ipipan.waw.pl/pltag): Uzyskana z 7229 drzew ze Składnicy 2802 rodziny drzew 1825 początkowych 977 pomocniczych 11515 różnych słów w leksykonie 23570 drzew elementarnych Średnia liczba drzew leksykalizowanych przez słowo: 2,05 7953 słów (69%) leksykalizuje tylko jedno drzewo elementarne Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 24 / 31
pl-tag ewaluacja wynik zdania % rozbiór 2678 37% brak rozbioru 128 2% błąd parsera 640 9% za mało pamięci 3697 51% za mało czasu 44 1% Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 25 / 31
pl-tag ewaluacja Porównanie z rozbiorami ze Składnicy: Wybór najlepiej dopasowanego rozbioru TAG: najwięcej pokrywających się kategorii przypisanych frazom Spośród wszystkich fraz w Składnicy: 92% identycznie przypisanych kategorii 98,8% dla niepustych rozbiorów TAG Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 26 / 31
pl-tag przykład niedopasowania w rozbiorze Drzewo ze Składnicy: zdanie ff Powstrzymał jej pytania ruchem ręki Rozbiór uzyskany za pomocą gramatyki TAG: zdanie zdanie ff zdanie ruchem??? ręki Powstrzymał jej pytania Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 27 / 31
Podsumowanie Prawdopodobnie pierwszy taki eksperyment dla języka polskiego Duża (ale nie 100%) zgodność z bankiem drzew, z którego uzyskano gramatykę Problemy wydajnościowe Trudności np. ze swobodnym szykiem zdań Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 28 / 31
Plan prezentacji 1 TAG 2 Ekstrakcja gramatyki TAG 3 pl-tag i TuLiPA-pl 4 TAG w wykrywaniu błędów Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 29 / 31
TAG w wykrywaniu błędów (Kulick et al., 2011): Porównanie drzew wyprowadzenia TAG dla identycznych ciągów słów Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 30 / 31
Bibliografia Chen, J. i Vijay-Shanker, K. (2000). Automated extraction of Tags from the Penn Treebank. W: Proceedings of IWPT 2000. Joshi, A. i Schabes, Y. (1997). Tree-adjoining grammars. W: Handbook of Formal Lanaguages and Automata. Springer-Verlag, Berlin. Kallmeyer, L., Lichte, T., Maier, W., Parmentier, Y., Dellert, J. i Evang, K. (2008). TuLiPA: Towards a multi-formalism parsing environment for grammar engineering. W: Coling 2008: Proceedings of the workshop on Grammar Engineering Across Frameworks, str. 1 8, Manchester, England. Coling 2008 Organizing Committee. Kulick, S., Bies, A. i Mott, J. (2011). Using derivation trees for treebank error detection. W: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers - Volume 2, HLT 11, str. 693 698, Stroudsburg, PA, USA. Association for Computational Linguistics. Katarzyna Krasnowska (IPI PAN) Gramatyka TAG dla języka polskiego 25 lutego 2013 31 / 31