Syntactico-semantic analysis of arguments as a method for establishing equivalents of Czech and Polish verbs expressing mental states Elżbieta Kaczmarska, Alexandr Rosen & Jirka Hana University of Warsaw Charles University in Prague Grammar and Corpora Warsaw, 25 June 2014 Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 1 / 49
Outline of the talk 1 Motivation 2 Manual analysis 3 Automatic extraction of equivalents 4 Preliminary summary 5 Stochastic modelling of lexical equivalence 6 Perspectives 7 References Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 2 / 49
Outline of the talk Motivation 1 Motivation 2 Manual analysis 3 Automatic extraction of equivalents 4 Preliminary summary 5 Stochastic modelling of lexical equivalence 6 Perspectives 7 References Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 3 / 49
Motivation Problems with understanding and translation of verbs Esp. with verbs expressing mental states Often more equivalents with significant meaning differences Incomplete / insufficient information in traditional dictionaries Missing information on valency Missing examples to guide the user in the choice of an appropriate equivalent [Oliva(1994)] 80 thousand entries [Siatkowski & Basaj(2002)] 53 thousand entries + 28 thousand expressions Example: toužit dictionaries suggest tęsknić to miss / marzyć to dream / pragnać to desire Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 4 / 49
Motivation The goals Explore the meaning of polysemous lexemes by contrasting them with their equivalents in a different language Translation mismatches are common among typologically distant languages, but exist in closely related language pairs Examine factors leading to the choice of a specific equivalent by exploring the lexemes context and syntactico-semantic properties of their arguments in the source language Compare various methods: manual, stochastic, automatic rule-based? Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 5 / 49
Motivation What determines the choice of the equivalent? toužil.. pragnał.. marzył.. tęsknił....po vlasti..ojczyzny..o ojczyźnie..za ojczyzna / do ojczyzny..po pivu..piwa..o piwie..za piwem..najít smysl..znaleźć....o tym, żeby....do tego / života za tym żeby....po tom, aby..żeby go lubili..o tym, żeby....do tego / ho měli rádi za tym, żeby..??? Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 6 / 49
Motivation Let s consult the corpus! Parallel corpus as a source of possible equivalent Concordances including a given verb can be analysed to yield: valency frame arguments of the frame comparisons of shades of meaning statistical analysis Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 7 / 49
Analysis Motivation Manual analysis of corpus concordances Word-2-word alignment, extraction of bilingual dictionary with frequencies Training and evaluation of a statistical model to decide about Polish equivalents using: linear Czech context Czech syntactic dependents Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 8 / 49
Motivation The data: InterCorp release 6 InterCorp a multilingual parallel corpus centered around Czech A part of the Czech National Corpus http://www.korpus.cz/intercorp/ Texts in 31 languages + Czech Total size 867/100 MW (foreign/czech) The core 139/62 MW: fiction with manually checked alignment Collections (texts with automatic alignment): Journalism 33/4 MW: Project Syndicate http://www.project-syndicate.org/ Presseurop http://www.presseurop.eu/ Law 430/20 MW: Acquis Communautaire http://langtech.jrc.ec.europa.eu/jrc-acquis.html Parliament proceedings 265/13 MW: Europarl http://www.statmt.org/europarl/ Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 9 / 49
Outline of the talk Manual analysis 1 Motivation 2 Manual analysis 3 Automatic extraction of equivalents 4 Preliminary summary 5 Stochastic modelling of lexical equivalence 6 Perspectives 7 References Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 10 / 49
Manual analysis Manual analysis Manual identification of: valency of Czech verb valency of the Polish equivalent object Ohum, Oabstr, OR, S, inf Determining Polish equivalents and their valency The results show how specific valency frame (e.g. of toužit) determines translation Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 11 / 49
Manual analysis toužit po OHUM equivalent number marzyć o Ohum 2 mieć ochotę + inf 1 pożadać Ohum 5 pożadany Ohum 1 pragnać X 1 pragnać + inf 1 pragnać Oabstr 1 pragnać Ohum 12 tęsknić X 1 tęsknić do + S 1 tęsknić do Oabstr 1 tęsknić do Ohum 5 tęsknić za Ohum 2 zapragnać Oabstr 1 zatęsknić za Ohum 1 żywić miłość do Ohum 1 TOTAL 37 Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 12 / 49
Manual analysis toužit po OHUM toužit po OHUM pragnać OHUM cs Jsi krásná, nepřestanu po tobě toužit a bát se tvé krásy... pl Jesteś piękna, nigdy nie przestanę cię pragnać i bać się twojej urody... toužit po OHUM tęsknić do S cs Miláčku, já netoužím po rodině. pl Kochanie, ja nie tęsknię do tego, by założyć rodzinę. toužit po OHUM marzyć o OHUM cs Vždycky jsem toužila po člověku, který by byl prostý a přímý. pl Zawsze marzyłam o człowieku, który był by prosty i bezpośredni. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 13 / 49
Manual analysis toužit po OABSTR chcieć inf 1 dażyć do Oabstr 2 dbajacego o to + S 1 dybać na Oabstr 1 imponować Oabstr 1 marzyć o Oabstr 20 marzyć o Ohum (změna struktury) 1 myśleć o Oabstr 1 pożadać Oabstr 5 pragnać + S 1 pragnać inf 4 pragnać Oabstr 29 pragnienie Oabstr 1 szukać Oabstr 1 tęsknić do Oabstr 11 tęsknić za Oabstr 7 tęskno za Oabstr 1 upragniony Oabstr 1 zamierzać inf 1 zapragnać inf 1 żadni Oabstr 1 OTHER (substantial structure change)) 2 TOTAL 94 Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 14 / 49
Manual analysis toužit po OABSTR 1/3 toužit po OABSTR pragnać OABSTR Ale zatím chce, abych život snášel a po smrti toužil. A tymczasem chce, bym życie znosił, a śmierci pragnał. toužit po OABSTR pragnać OABSTR Toužíte po odvetě. Pragnie pan odwetu. toužit po OABSTR tęsknić do OABSTR Já toužím po lásce. Ja tęsknię do miłości. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 15 / 49
Manual analysis toužit po OABSTR 2/3 toužit po OABSTR tęsknić ZA OABSTR Netoužím po tomhle slizkém bratrství Nie tęsknię za takim oślizłym braterstwem toužit po OABSTR marzyć O OABSTR byli jsme unaveni, promočeni a toužili jsme po odpočinku. byliśmy zmęczeni, przemoczeni i marzyliśmy o odpoczynku. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 16 / 49
Manual analysis toužit po OABSTR 3/3 toužit po OABSTR pożadać OABSTR Ale po té slasti Bernard netoužil. Ale Bernard takiej rozkoszy nie pożadał. toužit po OABSTR pragnienie OABSTR Sloužil jsem vždycky jen cizím a sloužil jsem jim špatně, protože jsem nepřestával toužit po práci pro sebe a nikdy jsem to nedokázal. Pracowałem zawsze dla innych i pracowałem źle, bo nie opuszczało mnie pragnienie pracy dla siebie, a nigdy nie udało mi się go zrealizować. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 17 / 49
toužit po OR Manual analysis chcieć + inf 1 marzyć + S 1 marzyć o OR 5 obiekt pożadania 1 pragnać + inf 1 pragnać OR 3 tęsknić za OR 2 TOTAL 14 Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 18 / 49
Manual analysis toužit po OR 1/2 toužit po OR tęsknić za OR cs Celý život jsem toužila po skutečném domově pl Całe życie tęskniłam za prawdziwym domem toužit po OR marzyć o OR cs Mladý muž touží po vlastním divadle. pl Młody mężczyzna marzył o własnym teatrze. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 19 / 49
toužit po OR 2/2 Manual analysis toužit po OR pragnać OR cs Mé patro, vyprahlé po noci zpola probdělé a zpola neklidně prosněné, toužilo po jejím vřelém a mrazivě vonném doušku. pl Moje podniebienie, wyschnięte po nocy na wpół przemarzonej i na wpół prześnionej, pragnęło jej goracego, orzeźwiajaco wonnego łyku. toužit po OR předmět touhy cs Po Belgii už nikdo netouží. pl Belgia nie jest już obiektem pożadania. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 20 / 49
Manual analysis toužit + INF być pragnieniem inf 1 chcieć inf 20 chętnie + S 1 dbać o Oabstr 1 marzyć o Oabstr 4 mieć marzenie inf 1 mieć ochotę inf 1 pragnać inf 44 pragnać + S 1 pragnać Oabstr 3 tęsknić za (+S) 1 zachciewać się Oabstr 1 OTHER (substantial structure change) 1 TOTAL 80 Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 21 / 49
toužit INF 1/2 Manual analysis toužit INF chcieć INF cs Toužil jsem vidět ho zblízka, anebo se aspoň zeptat, kdo to je a co znamená. pl Strasznie chciałem zobaczyć go z bliska albo przynajmniej się spytać, kto to jest i co to znaczy. toužit INF pragnać INF cs Dobře děláš, řekl náhle v obluzení, touže ji zlíbat a cítě strach. pl Dobrze robisz rzekł jak urzeczony, pragnac ucałować ja i czujac jednocześnie strach. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 22 / 49
Manual analysis toužit INF 2/2 toužit INF marzyć o OABST cs Netoužila o něm dlouze rozprávět. pl Nie marzyła o długiej rozmowie na ten temat. toužit INF mieć marzenie INF cs Soudruh hrozně toužil si s Helenou promluvit. pl Towarzysz miał jedno marzenie: rozmawiać z Helena. toužit INF tęsknić za S cs Nakonec toužíte poznat někoho obyčejnýho. pl W końcu tęskni się za tym, by poznać kogoś zwyczajnego. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 23 / 49
toužit po S Manual analysis pragnać inf 1 chcieć + S 1 marzyć się + Nom 1 pragnać + S 2 TOTAL 5 Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 24 / 49
toužit po S 1/2 Manual analysis toužit po S pragnać S cs Nesmírně toužila po tom, aby se s ní oženil pl Pragnęła bardzo, żeby się z nia ożenił toužit po S pragnać INF cs Řekl jsem jí, že toužím po tom, být s ní někde, kde nás nebude nikdo a nic rušit a budeme se moci soustředit jen na sebe pl Powiedziałem jej, że pragnałbym być z nia gdzie, gdzie prócz nas nie będzie nikogo gdzie nic nam nie będzie przeszkadzało i gdzie będziemy się mogli zajać wyłacznie sami soba Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 25 / 49
toužit po S 2/2 Manual analysis toužit po S chcieć S cs Obama netouží po tom, aby se problémy evropského dluhu rozšířily do Ameriky. pl Prezydent Obama nie chce przecież, żeby europejski problem długu państwowego przeniósł się do Ameryki. toužit po S marzyć się OABSTR cs I on toužil po tom, aby mu nejvyšší soudy stranily a aby mu ústavní soudci byli po vůli. pl Jemu również marzył się odgórnie sterowany wymiar sprawiedliwości na przykład pod postacia uległych mu sędziów Trybunału Konstytucyjnego. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 26 / 49
toužit S Manual analysis chcieć + S 1 chcieć + inf 1 marzyć + S 2 pragnać + S 11 pragnać + inf 2 życzyć sobie + S 1 TOTAL 18 Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 27 / 49
toužit S Manual analysis toužit S pragnać S cs Celý život toužil, aby milovaná žena byla s to tlouci kvůli němu hlavou o zed, křičet zoufalstvím anebo skákat radostí po pokoji. pl Przez całe życie pragnał, żeby ukochana kobieta gotowa była bić dla niego głowa w mur, wyć z rozpaczy i skakać z radości po mieszkaniu. toužit S marzyć S cs Touží, aby ji někdo odnaučil být anachronická! pl Marzy, by ktoś nauczył ja, jak nie być anachroniczna! toužit S chcieć INF cs Toužila, aby s ní sdílelo její samotu alespoň nějaké zvířátko pl Chciała dzielić z kimś swa samotność, choćby z jakimś zwierzatkiem. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 28 / 49
toužit (po) cs pl pl val Σ Oa Oh OR inf S Σ Oa Oh OR inf S X chcieć Oa 0 3 2 1 chcieć inf 23 1 1 20 1 9 1 6 2 chcieć S 2 2 0 dażyć do Oa 2 2 0 łaknać OR 0 2 2 marzyć o Oa 24 20 4 6 5 1 marzyć o Oh 3 1 2 0 marzyć o OR 5 5 1 1 marzyć S 3 1 2 0 mieć ochotę inf 2 1 1 1 1 pożadać Oa 5 5 3 3 pożadać Oh 5 5 2 2 pragnać Oa 33 29 1 3 26 25 1 pragnać Oh 12 12 2 2 pragnać OR 3 3 1 1 pragnać Inf 53 4 1 1 44 3 24 1 23 pragnać S 15 1 1 13 3 3 pragnać 1 1 4 4 pragnienie Oa+ing 0 3 3 (s)próbować inf 0 2 2 spragniony Oa 0 3 3 tęsknić do Oa 12 11 1 2 2 tęsknić do Oh 5 5 1 1 tęsknić za Oa 7 7 1 1 tęsknić za Oh 2 2 0 tęsknić za OR 2 2 0 złakniony Oa 0 2 2 OTHER 27 9 7 2 7 2 35 10 2 2 20 1 Σ 219 81 31 13 73 21 145 45 5 4 36 7 5
Outline of the talk Automatic extraction of equivalents 1 Motivation 2 Manual analysis 3 Automatic extraction of equivalents 4 Preliminary summary 5 Stochastic modelling of lexical equivalence 6 Perspectives 7 References Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 30 / 49
Automatic extraction of equivalents Automatic extraction of equivalents Tools: Word-to-word alignment: GIZA++ Texts: InterCorp release 6 Only fiction No distinction of Czech/Polish/foreign originals Only 1:1 alignment Czech texts: 11.9 MW Polish texts: 11.8 MW Pairs of extracted lemmas: 8.7 M Bilingual entries: 0.5 M Lemmas: 121 K Czech, 98 K Polish Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 31 / 49
Automatic extraction of equivalents 304 toužit pragnać 107 toužit chcieć 82 toužit tęsknić 70 toužit marzyć 40 toužit pożadać 24 toužit ochota 9 toužit zapragnać 8 toužit pragnienie 8 toužit tęsknota 8 toužit zależeć 7 toužit spragniony 6 toužit życzyć 5 toužit upragniony 4 toužit chęć 4 toužit szukać 4 toužit zatęsknić Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 32 / 49
Automatic extraction of equivalents Lists of extracted equivalents do not differentiate between alternative translations (except frequency) Used for other contrastive lexical research (diminutives, to appear) Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 33 / 49
Outline of the talk Preliminary summary 1 Motivation 2 Manual analysis 3 Automatic extraction of equivalents 4 Preliminary summary 5 Stochastic modelling of lexical equivalence 6 Perspectives 7 References Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 34 / 49
Preliminary summary Valency is most discriminating for: toužit + INF The most common equivalents are pragnać / chcieć + INF What decides in other cases: Context Semantic subtype of OABSTR (existing / non-existing) Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 35 / 49
Preliminary summary toužit po velké lásce / exotické cestě Śnić o wielkiej miłości / egzotycznej podróży Marzyć o wielkiej miłości / egzotycznej podróży Tęsknić za wielka miłościa / egzotyczna podróża (???) Tęsknić do wielkiej miłości / egzotycznej podróży (???) Pragnać wielkiej miłości / egzotycznej podróży (?) Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 36 / 49
Preliminary summary toužit po OABSTR tęsknić do OABSTR cs Toužila po světě, kde lidé mluví jinou řečí než on. pl Tęskniła do świata, w którym ludzie mówia innym językiem niż on.?pl pragnęła świata /??marzyła o świecie,... toužit po OABSTR pragnać OABSTR cs Tomáš toužil po světě, kde by vládla spravedlnost. pl Tomasz pragnał świata, w którym panowałaby sprawiedliwość.?pl... tęsknił do świata / marzył o świecie... Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 37 / 49
Preliminary summary toužit po OABSTR marzyć o OABSTR cs Toužili po hodnosti císařské, opakoval hrabě a apoštolskému misionáři táhly před očima nejpochmurnější obrazy. pl Marzyli o majestacie cesarskim powtórzył hrabia, a misjonarzowi apostolskiemu przesunęły się przed oczami najstraszniejsze obrazy.?pl tęsknili do majestatu / pragnęli majestatu... toužit po OABSTR tęsknić za OABSTR cs Dokud se Bohu líbí, abychom byli na svém místě, nesmíme reptat, a myslím, že není hříchem, toužíme-li v srdci svém po odpočinku a pokoji. pl Dopóki Bogu się podoba, abyśmy trwali na swym miejscu, nie wolno nam sarkać, i sadzę, że nie jest grzechem, jeśli w głębi serca tęsknimy za odpoczynkiem i spokojem.?pl pragniemy odpoczynku / marzymy o odpoczynku... Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 38 / 49
Stochastic modelling of lexical equivalence Outline of the talk 1 Motivation 2 Manual analysis 3 Automatic extraction of equivalents 4 Preliminary summary 5 Stochastic modelling of lexical equivalence 6 Perspectives 7 References Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 39 / 49
Stochastic modelling of lexical equivalence Stochastic modelling of lexical equivalence Hypothesis: choice of the equivalent is determined by context Method 1: linear context Method 2: syntactic dependents/arguments work in progress Standard evaluation possible (training/testing data) Caveat: no data are hand-corrected Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 40 / 49
Stochastic modelling of lexical equivalence Method 1: linear context Intercorp release 7, Czech-Polish fiction 10 mil. word-to-word pairings Lemmatization (both Czech and Polish) Word-to-word alignment Collection of Czech context Probabilistic feature classifier: Naive Bayes; alternatives give the same or worse result Only those Polish equivalents considered which cover at least 1% of the translation space of a Czech lexeme The context: Left and right: 4+4 positions (including punctuation) All words treated as equal, irrespective of distance Only words occurring more than 5 times considered No stopwords used for filtering Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 41 / 49
Evaluation Stochastic modelling of lexical equivalence 10-fold cross-validation 5 Czech predicates: (být) líto to be sorry about mrzet to regret toužit to desire trápit (se) to worry, to molest zdát (se) to dream, to seem Czech frequency Polish correct Kappa líto 684 6 52.2% 30.5% mrzet 392 12 43.6% 23.0% toužit 839 9 35.3% 10.1% trápit 433 15 20.1% 30.5% zdát 4663 10 35.8% 8.6% Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 42 / 49
Stochastic modelling of lexical equivalence Confusion matrix for líto a b c d e f < classified as 4 5 2 5 7 14 a = wspólczuć 9 18 2 3 15 15 b = żalować 2 2 3 2 9 12 c = szkoda 5 1 3 9 17 5 d = przepraszać 6 12 2 20 203 48 e = przykro 9 16 8 9 62 120 f = żal Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 43 / 49
Stochastic modelling of lexical equivalence Method 2: dependents/arguments Intercorp release 7, Czech-Polish fiction, 18 mil. Czech tokens Lemmatization (both Czech and Polish) Stochastic dependency parse of Czech: structure and functions Identification of effective governors word-to-word alignment Collection of Czech syntactic context for relevant predicates Probabilistic feature classifier Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 44 / 49
Outline of the talk Perspectives 1 Motivation 2 Manual analysis 3 Automatic extraction of equivalents 4 Preliminary summary 5 Stochastic modelling of lexical equivalence 6 Perspectives 7 References Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 45 / 49
Perspectives Perspectives Comparison of methods 1 and 2: what actually decides about the choice of equivalents? Generalizing from argument lexemes to semantic classes using a thesaurus Parsing of Polish instead of annotation projection? Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 46 / 49
Perspectives Dziękujemy za uwagę! Děkujeme za pozornost! Thank you for your attention! For technical assistance we are grateful to Tomáš Jelínek, David Mareček, Hana Skoumalová Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 47 / 49
Outline of the talk References 1 Motivation 2 Manual analysis 3 Automatic extraction of equivalents 4 Preliminary summary 5 Stochastic modelling of lexical equivalence 6 Perspectives 7 References Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 48 / 49
References Oliva, K. (1994). Polsko-český slovník. Academia, Praha. Siatkowski, J. & Basaj, M. (2002). Słownik czesko-polski. Wiedza Powszechna, Warszawa, 2 edition. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 49 / 49