Syntactico-semantic analysis of arguments as a method for establishing equivalents of Czech and Polish verbs expressing mental states

Podobne dokumenty
Czeskie czasowniki oznaczające stany psychiczne sposoby ustalania polskich ekwiwalentów na podstawie korpusu równoległego InterCorp

Między znaczeniem leksykalnym a walencją próba opracowania metody ekstrakcji ekwiwalentów na podstawie korpusu równoległego

Hard-Margin Support Vector Machines

Network Services for Spatial Data in European Geo-Portals and their Compliance with ISO and OGC Standards

Czego nie można wyrazić w języku polskim, czyli o leksykalnych w nim brakach

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Metody ustalania ekwiwalentów czasowników wyrażających stany emocjonalne w przekładzie czesko-polskim (MOŻLIWOŚCI ALGORYTMU

Elżbieta Kaczmarska. Instytut Slawistyki Zachodniej i Południowej. Uniwersytet Warszawski

The Electronic Corpus of the 17th and 18th c. Polish Texts (up to 1772). The final result

Między znaczeniem leksykalnym a walencją próba opracowania metody ekstrakcji ekwiwalentów na podstawie korpusu równoległego

Helena Boguta, klasa 8W, rok szkolny 2018/2019

European Crime Prevention Award (ECPA) Annex I - new version 2014

deep learning for NLP (5 lectures)

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Latent Dirichlet Allocation Models and their Evaluation IT for Practice 2016

Lekcja 1 Przedstawianie się

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

Klaps za karę. Wyniki badania dotyczącego postaw i stosowania kar fizycznych. Joanna Włodarczyk

Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science

Bardzo formalny, odbiorca posiada specjalny tytuł, który jest używany zamiast nazwiska

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

Władysław Miodunka. CZEŚĆ, JAK SIĘ MASZ? SPOTKAMY SIĘ W EUROPIE. Tom II Podręcznik do nauki języka polskiego dla cudzoziemców. Poziom podstawowy A2

Economic Survey 2018 Poland in the eyes of foreign investors

Economic Survey 2018 Poland in the eyes of foreign investors

Lesson 1. Book 1. Lesson 1

Elżbieta Kaczmarska Instytut Slawistyki Zachodniej i Południowej Wydział Polonistyki Uniwersytet Warszawski

Oxford PWN Polish English Dictionary (Wielki Slownik Polsko-angielski)

Inverse problems - Introduction - Probabilistic approach

Raport bieżący: 44/2018 Data: g. 21:03 Skrócona nazwa emitenta: SERINUS ENERGY plc

Country fact sheet. Noise in Europe overview of policy-related data. Poland

Unit of Social Gerontology, Institute of Labour and Social Studies ageing and its consequences for society

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to students

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Łukasz Reszka Wiceprezes Zarządu

Economical utilization of coal bed methane emitted during exploitation of coal seams energetic and environmental aspects

Władysław Miodunka. CZEŚĆ, JAK SIĘ MASZ? SPOTKAMY SIĘ W POLSCE. Tom I Podręcznik do nauki języka polskiego dla cudzoziemców. Poziom podstawowy A1

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

The Overview of Civilian Applications of Airborne SAR Systems

Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

Please fill in the questionnaire below. Each person who was involved in (parts of) the project can respond.

OpenPoland.net API Documentation

Previously on CSCI 4622

MoA-Net: Self-supervised Motion Segmentation. Pia Bideau, Rakesh R Menon, Erik Learned-Miller

Niedosłowności w dialogu czesko-polskim. dr Elżbieta Kaczmarska Uniwersytet Warszawski dr Alexandr Rosen Uniwersytet Karola w Pradze

Few-fermion thermometry

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

archivist: Managing Data Analysis Results

PRZESTRZEŃ PUBLICZNA W MIEŚCIE PRZYJAZNYM DLA PIESZYCH I ROWERZYSTÓW PUBLIC SPACE MAKING CITIES MORE PEDESTRIAN AND CYCLIST FRIENDLY

Has the heat wave frequency or intensity changed in Poland since 1950?


Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to teachers

Tychy, plan miasta: Skala 1: (Polish Edition)

EXAMPLES OF CABRI GEOMETRE II APPLICATION IN GEOMETRIC SCIENTIFIC RESEARCH

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)


TYLKO DO UŻYTKU WŁASNEGO! PERSONAL USE ONLY!

Convolution semigroups with linear Jacobi parameters

3. AT THE HOTEL W HOTELU. Adam is at the Garden Inn Hotel reception desk. He is checking-in.

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

ANKIETA ŚWIAT BAJEK MOJEGO DZIECKA

UMOWY WYPOŻYCZENIA KOMENTARZ


DODATKOWE ĆWICZENIA EGZAMINACYJNE

Dolny Slask 1: , mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition)

Auschwitz and Birkenau Concentration Camp Records, RG M

Domy inaczej pomyślane A different type of housing CEZARY SANKOWSKI

Życie za granicą Studia

Rozmowa kwalifikacyjna z pracodawcą po angielsku str. 4 Anna Piekarczyk. Od Wydawcy

CEE 111/211 Agenda Feb 17

Algorytm k-średnich. Źródło: LaroseD.T., Okrywanie wiedzy w danych.wprowadzenie do eksploracji danych, PWN, Warszawa 2005.

y = The Chain Rule Show all work. No calculator unless otherwise stated. If asked to Explain your answer, write in complete sentences.

TIMETABLE MÓJ ROZKŁAD JAZDY

The impact of the global gravity field models on the orbit determination of LAGEOS satellites

Effective Governance of Education at the Local Level

Knovel Math: Jakość produktu

, Wednesday

1. Ile czasu dziennie spędzasz z rodzicami?

Instrukcja obsługi User s manual

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2

Stargard Szczecinski i okolice (Polish Edition)

DO MONTAŻU POTRZEBNE SĄ DWIE OSOBY! INSTALLATION REQUIRES TWO PEOPLE!

Zarządzanie sieciami telekomunikacyjnymi

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

Zdecyduj: Czy to jest rzeczywiście prześladowanie? Czasem coś WYDAJE SIĘ złośliwe, ale wcale takie nie jest.

Council of the European Union Brussels, 7 April 2016 (OR. en, pl)

ROCZNIK PRZEK ADOZNAWCZY

Traceability. matrix

Forested areas in Cracow ( ) evaluation of changes based on satellite images 1 / 31 O

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO POZIOM ROZSZERZONY MAJ 2010 CZĘŚĆ I. Czas pracy: 120 minut. Liczba punktów do uzyskania: 23 WPISUJE ZDAJĄCY

Podstawa prawna: Art. 70 pkt 1 Ustawy o ofercie - nabycie lub zbycie znacznego pakietu akcji

Fig 5 Spectrograms of the original signal (top) extracted shaft-related GAD components (middle) and

General Certificate of Education Ordinary Level ADDITIONAL MATHEMATICS 4037/12

Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2

Demand Analysis L E C T U R E R : E W A K U S I D E Ł, PH. D.,

NR This publication comprises a selection of articles from Neophilologica vol. 23 translated into English.

What our clients think about us? A summary od survey results

Transkrypt:

Syntactico-semantic analysis of arguments as a method for establishing equivalents of Czech and Polish verbs expressing mental states Elżbieta Kaczmarska, Alexandr Rosen & Jirka Hana University of Warsaw Charles University in Prague Grammar and Corpora Warsaw, 25 June 2014 Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 1 / 49

Outline of the talk 1 Motivation 2 Manual analysis 3 Automatic extraction of equivalents 4 Preliminary summary 5 Stochastic modelling of lexical equivalence 6 Perspectives 7 References Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 2 / 49

Outline of the talk Motivation 1 Motivation 2 Manual analysis 3 Automatic extraction of equivalents 4 Preliminary summary 5 Stochastic modelling of lexical equivalence 6 Perspectives 7 References Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 3 / 49

Motivation Problems with understanding and translation of verbs Esp. with verbs expressing mental states Often more equivalents with significant meaning differences Incomplete / insufficient information in traditional dictionaries Missing information on valency Missing examples to guide the user in the choice of an appropriate equivalent [Oliva(1994)] 80 thousand entries [Siatkowski & Basaj(2002)] 53 thousand entries + 28 thousand expressions Example: toužit dictionaries suggest tęsknić to miss / marzyć to dream / pragnać to desire Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 4 / 49

Motivation The goals Explore the meaning of polysemous lexemes by contrasting them with their equivalents in a different language Translation mismatches are common among typologically distant languages, but exist in closely related language pairs Examine factors leading to the choice of a specific equivalent by exploring the lexemes context and syntactico-semantic properties of their arguments in the source language Compare various methods: manual, stochastic, automatic rule-based? Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 5 / 49

Motivation What determines the choice of the equivalent? toužil.. pragnał.. marzył.. tęsknił....po vlasti..ojczyzny..o ojczyźnie..za ojczyzna / do ojczyzny..po pivu..piwa..o piwie..za piwem..najít smysl..znaleźć....o tym, żeby....do tego / života za tym żeby....po tom, aby..żeby go lubili..o tym, żeby....do tego / ho měli rádi za tym, żeby..??? Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 6 / 49

Motivation Let s consult the corpus! Parallel corpus as a source of possible equivalent Concordances including a given verb can be analysed to yield: valency frame arguments of the frame comparisons of shades of meaning statistical analysis Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 7 / 49

Analysis Motivation Manual analysis of corpus concordances Word-2-word alignment, extraction of bilingual dictionary with frequencies Training and evaluation of a statistical model to decide about Polish equivalents using: linear Czech context Czech syntactic dependents Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 8 / 49

Motivation The data: InterCorp release 6 InterCorp a multilingual parallel corpus centered around Czech A part of the Czech National Corpus http://www.korpus.cz/intercorp/ Texts in 31 languages + Czech Total size 867/100 MW (foreign/czech) The core 139/62 MW: fiction with manually checked alignment Collections (texts with automatic alignment): Journalism 33/4 MW: Project Syndicate http://www.project-syndicate.org/ Presseurop http://www.presseurop.eu/ Law 430/20 MW: Acquis Communautaire http://langtech.jrc.ec.europa.eu/jrc-acquis.html Parliament proceedings 265/13 MW: Europarl http://www.statmt.org/europarl/ Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 9 / 49

Outline of the talk Manual analysis 1 Motivation 2 Manual analysis 3 Automatic extraction of equivalents 4 Preliminary summary 5 Stochastic modelling of lexical equivalence 6 Perspectives 7 References Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 10 / 49

Manual analysis Manual analysis Manual identification of: valency of Czech verb valency of the Polish equivalent object Ohum, Oabstr, OR, S, inf Determining Polish equivalents and their valency The results show how specific valency frame (e.g. of toužit) determines translation Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 11 / 49

Manual analysis toužit po OHUM equivalent number marzyć o Ohum 2 mieć ochotę + inf 1 pożadać Ohum 5 pożadany Ohum 1 pragnać X 1 pragnać + inf 1 pragnać Oabstr 1 pragnać Ohum 12 tęsknić X 1 tęsknić do + S 1 tęsknić do Oabstr 1 tęsknić do Ohum 5 tęsknić za Ohum 2 zapragnać Oabstr 1 zatęsknić za Ohum 1 żywić miłość do Ohum 1 TOTAL 37 Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 12 / 49

Manual analysis toužit po OHUM toužit po OHUM pragnać OHUM cs Jsi krásná, nepřestanu po tobě toužit a bát se tvé krásy... pl Jesteś piękna, nigdy nie przestanę cię pragnać i bać się twojej urody... toužit po OHUM tęsknić do S cs Miláčku, já netoužím po rodině. pl Kochanie, ja nie tęsknię do tego, by założyć rodzinę. toužit po OHUM marzyć o OHUM cs Vždycky jsem toužila po člověku, který by byl prostý a přímý. pl Zawsze marzyłam o człowieku, który był by prosty i bezpośredni. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 13 / 49

Manual analysis toužit po OABSTR chcieć inf 1 dażyć do Oabstr 2 dbajacego o to + S 1 dybać na Oabstr 1 imponować Oabstr 1 marzyć o Oabstr 20 marzyć o Ohum (změna struktury) 1 myśleć o Oabstr 1 pożadać Oabstr 5 pragnać + S 1 pragnać inf 4 pragnać Oabstr 29 pragnienie Oabstr 1 szukać Oabstr 1 tęsknić do Oabstr 11 tęsknić za Oabstr 7 tęskno za Oabstr 1 upragniony Oabstr 1 zamierzać inf 1 zapragnać inf 1 żadni Oabstr 1 OTHER (substantial structure change)) 2 TOTAL 94 Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 14 / 49

Manual analysis toužit po OABSTR 1/3 toužit po OABSTR pragnać OABSTR Ale zatím chce, abych život snášel a po smrti toužil. A tymczasem chce, bym życie znosił, a śmierci pragnał. toužit po OABSTR pragnać OABSTR Toužíte po odvetě. Pragnie pan odwetu. toužit po OABSTR tęsknić do OABSTR Já toužím po lásce. Ja tęsknię do miłości. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 15 / 49

Manual analysis toužit po OABSTR 2/3 toužit po OABSTR tęsknić ZA OABSTR Netoužím po tomhle slizkém bratrství Nie tęsknię za takim oślizłym braterstwem toužit po OABSTR marzyć O OABSTR byli jsme unaveni, promočeni a toužili jsme po odpočinku. byliśmy zmęczeni, przemoczeni i marzyliśmy o odpoczynku. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 16 / 49

Manual analysis toužit po OABSTR 3/3 toužit po OABSTR pożadać OABSTR Ale po té slasti Bernard netoužil. Ale Bernard takiej rozkoszy nie pożadał. toužit po OABSTR pragnienie OABSTR Sloužil jsem vždycky jen cizím a sloužil jsem jim špatně, protože jsem nepřestával toužit po práci pro sebe a nikdy jsem to nedokázal. Pracowałem zawsze dla innych i pracowałem źle, bo nie opuszczało mnie pragnienie pracy dla siebie, a nigdy nie udało mi się go zrealizować. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 17 / 49

toužit po OR Manual analysis chcieć + inf 1 marzyć + S 1 marzyć o OR 5 obiekt pożadania 1 pragnać + inf 1 pragnać OR 3 tęsknić za OR 2 TOTAL 14 Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 18 / 49

Manual analysis toužit po OR 1/2 toužit po OR tęsknić za OR cs Celý život jsem toužila po skutečném domově pl Całe życie tęskniłam za prawdziwym domem toužit po OR marzyć o OR cs Mladý muž touží po vlastním divadle. pl Młody mężczyzna marzył o własnym teatrze. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 19 / 49

toužit po OR 2/2 Manual analysis toužit po OR pragnać OR cs Mé patro, vyprahlé po noci zpola probdělé a zpola neklidně prosněné, toužilo po jejím vřelém a mrazivě vonném doušku. pl Moje podniebienie, wyschnięte po nocy na wpół przemarzonej i na wpół prześnionej, pragnęło jej goracego, orzeźwiajaco wonnego łyku. toužit po OR předmět touhy cs Po Belgii už nikdo netouží. pl Belgia nie jest już obiektem pożadania. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 20 / 49

Manual analysis toužit + INF być pragnieniem inf 1 chcieć inf 20 chętnie + S 1 dbać o Oabstr 1 marzyć o Oabstr 4 mieć marzenie inf 1 mieć ochotę inf 1 pragnać inf 44 pragnać + S 1 pragnać Oabstr 3 tęsknić za (+S) 1 zachciewać się Oabstr 1 OTHER (substantial structure change) 1 TOTAL 80 Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 21 / 49

toužit INF 1/2 Manual analysis toužit INF chcieć INF cs Toužil jsem vidět ho zblízka, anebo se aspoň zeptat, kdo to je a co znamená. pl Strasznie chciałem zobaczyć go z bliska albo przynajmniej się spytać, kto to jest i co to znaczy. toužit INF pragnać INF cs Dobře děláš, řekl náhle v obluzení, touže ji zlíbat a cítě strach. pl Dobrze robisz rzekł jak urzeczony, pragnac ucałować ja i czujac jednocześnie strach. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 22 / 49

Manual analysis toužit INF 2/2 toužit INF marzyć o OABST cs Netoužila o něm dlouze rozprávět. pl Nie marzyła o długiej rozmowie na ten temat. toužit INF mieć marzenie INF cs Soudruh hrozně toužil si s Helenou promluvit. pl Towarzysz miał jedno marzenie: rozmawiać z Helena. toužit INF tęsknić za S cs Nakonec toužíte poznat někoho obyčejnýho. pl W końcu tęskni się za tym, by poznać kogoś zwyczajnego. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 23 / 49

toužit po S Manual analysis pragnać inf 1 chcieć + S 1 marzyć się + Nom 1 pragnać + S 2 TOTAL 5 Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 24 / 49

toužit po S 1/2 Manual analysis toužit po S pragnać S cs Nesmírně toužila po tom, aby se s ní oženil pl Pragnęła bardzo, żeby się z nia ożenił toužit po S pragnać INF cs Řekl jsem jí, že toužím po tom, být s ní někde, kde nás nebude nikdo a nic rušit a budeme se moci soustředit jen na sebe pl Powiedziałem jej, że pragnałbym być z nia gdzie, gdzie prócz nas nie będzie nikogo gdzie nic nam nie będzie przeszkadzało i gdzie będziemy się mogli zajać wyłacznie sami soba Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 25 / 49

toužit po S 2/2 Manual analysis toužit po S chcieć S cs Obama netouží po tom, aby se problémy evropského dluhu rozšířily do Ameriky. pl Prezydent Obama nie chce przecież, żeby europejski problem długu państwowego przeniósł się do Ameryki. toužit po S marzyć się OABSTR cs I on toužil po tom, aby mu nejvyšší soudy stranily a aby mu ústavní soudci byli po vůli. pl Jemu również marzył się odgórnie sterowany wymiar sprawiedliwości na przykład pod postacia uległych mu sędziów Trybunału Konstytucyjnego. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 26 / 49

toužit S Manual analysis chcieć + S 1 chcieć + inf 1 marzyć + S 2 pragnać + S 11 pragnać + inf 2 życzyć sobie + S 1 TOTAL 18 Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 27 / 49

toužit S Manual analysis toužit S pragnać S cs Celý život toužil, aby milovaná žena byla s to tlouci kvůli němu hlavou o zed, křičet zoufalstvím anebo skákat radostí po pokoji. pl Przez całe życie pragnał, żeby ukochana kobieta gotowa była bić dla niego głowa w mur, wyć z rozpaczy i skakać z radości po mieszkaniu. toužit S marzyć S cs Touží, aby ji někdo odnaučil být anachronická! pl Marzy, by ktoś nauczył ja, jak nie być anachroniczna! toužit S chcieć INF cs Toužila, aby s ní sdílelo její samotu alespoň nějaké zvířátko pl Chciała dzielić z kimś swa samotność, choćby z jakimś zwierzatkiem. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 28 / 49

toužit (po) cs pl pl val Σ Oa Oh OR inf S Σ Oa Oh OR inf S X chcieć Oa 0 3 2 1 chcieć inf 23 1 1 20 1 9 1 6 2 chcieć S 2 2 0 dażyć do Oa 2 2 0 łaknać OR 0 2 2 marzyć o Oa 24 20 4 6 5 1 marzyć o Oh 3 1 2 0 marzyć o OR 5 5 1 1 marzyć S 3 1 2 0 mieć ochotę inf 2 1 1 1 1 pożadać Oa 5 5 3 3 pożadać Oh 5 5 2 2 pragnać Oa 33 29 1 3 26 25 1 pragnać Oh 12 12 2 2 pragnać OR 3 3 1 1 pragnać Inf 53 4 1 1 44 3 24 1 23 pragnać S 15 1 1 13 3 3 pragnać 1 1 4 4 pragnienie Oa+ing 0 3 3 (s)próbować inf 0 2 2 spragniony Oa 0 3 3 tęsknić do Oa 12 11 1 2 2 tęsknić do Oh 5 5 1 1 tęsknić za Oa 7 7 1 1 tęsknić za Oh 2 2 0 tęsknić za OR 2 2 0 złakniony Oa 0 2 2 OTHER 27 9 7 2 7 2 35 10 2 2 20 1 Σ 219 81 31 13 73 21 145 45 5 4 36 7 5

Outline of the talk Automatic extraction of equivalents 1 Motivation 2 Manual analysis 3 Automatic extraction of equivalents 4 Preliminary summary 5 Stochastic modelling of lexical equivalence 6 Perspectives 7 References Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 30 / 49

Automatic extraction of equivalents Automatic extraction of equivalents Tools: Word-to-word alignment: GIZA++ Texts: InterCorp release 6 Only fiction No distinction of Czech/Polish/foreign originals Only 1:1 alignment Czech texts: 11.9 MW Polish texts: 11.8 MW Pairs of extracted lemmas: 8.7 M Bilingual entries: 0.5 M Lemmas: 121 K Czech, 98 K Polish Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 31 / 49

Automatic extraction of equivalents 304 toužit pragnać 107 toužit chcieć 82 toužit tęsknić 70 toužit marzyć 40 toužit pożadać 24 toužit ochota 9 toužit zapragnać 8 toužit pragnienie 8 toužit tęsknota 8 toužit zależeć 7 toužit spragniony 6 toužit życzyć 5 toužit upragniony 4 toužit chęć 4 toužit szukać 4 toužit zatęsknić Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 32 / 49

Automatic extraction of equivalents Lists of extracted equivalents do not differentiate between alternative translations (except frequency) Used for other contrastive lexical research (diminutives, to appear) Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 33 / 49

Outline of the talk Preliminary summary 1 Motivation 2 Manual analysis 3 Automatic extraction of equivalents 4 Preliminary summary 5 Stochastic modelling of lexical equivalence 6 Perspectives 7 References Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 34 / 49

Preliminary summary Valency is most discriminating for: toužit + INF The most common equivalents are pragnać / chcieć + INF What decides in other cases: Context Semantic subtype of OABSTR (existing / non-existing) Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 35 / 49

Preliminary summary toužit po velké lásce / exotické cestě Śnić o wielkiej miłości / egzotycznej podróży Marzyć o wielkiej miłości / egzotycznej podróży Tęsknić za wielka miłościa / egzotyczna podróża (???) Tęsknić do wielkiej miłości / egzotycznej podróży (???) Pragnać wielkiej miłości / egzotycznej podróży (?) Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 36 / 49

Preliminary summary toužit po OABSTR tęsknić do OABSTR cs Toužila po světě, kde lidé mluví jinou řečí než on. pl Tęskniła do świata, w którym ludzie mówia innym językiem niż on.?pl pragnęła świata /??marzyła o świecie,... toužit po OABSTR pragnać OABSTR cs Tomáš toužil po světě, kde by vládla spravedlnost. pl Tomasz pragnał świata, w którym panowałaby sprawiedliwość.?pl... tęsknił do świata / marzył o świecie... Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 37 / 49

Preliminary summary toužit po OABSTR marzyć o OABSTR cs Toužili po hodnosti císařské, opakoval hrabě a apoštolskému misionáři táhly před očima nejpochmurnější obrazy. pl Marzyli o majestacie cesarskim powtórzył hrabia, a misjonarzowi apostolskiemu przesunęły się przed oczami najstraszniejsze obrazy.?pl tęsknili do majestatu / pragnęli majestatu... toužit po OABSTR tęsknić za OABSTR cs Dokud se Bohu líbí, abychom byli na svém místě, nesmíme reptat, a myslím, že není hříchem, toužíme-li v srdci svém po odpočinku a pokoji. pl Dopóki Bogu się podoba, abyśmy trwali na swym miejscu, nie wolno nam sarkać, i sadzę, że nie jest grzechem, jeśli w głębi serca tęsknimy za odpoczynkiem i spokojem.?pl pragniemy odpoczynku / marzymy o odpoczynku... Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 38 / 49

Stochastic modelling of lexical equivalence Outline of the talk 1 Motivation 2 Manual analysis 3 Automatic extraction of equivalents 4 Preliminary summary 5 Stochastic modelling of lexical equivalence 6 Perspectives 7 References Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 39 / 49

Stochastic modelling of lexical equivalence Stochastic modelling of lexical equivalence Hypothesis: choice of the equivalent is determined by context Method 1: linear context Method 2: syntactic dependents/arguments work in progress Standard evaluation possible (training/testing data) Caveat: no data are hand-corrected Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 40 / 49

Stochastic modelling of lexical equivalence Method 1: linear context Intercorp release 7, Czech-Polish fiction 10 mil. word-to-word pairings Lemmatization (both Czech and Polish) Word-to-word alignment Collection of Czech context Probabilistic feature classifier: Naive Bayes; alternatives give the same or worse result Only those Polish equivalents considered which cover at least 1% of the translation space of a Czech lexeme The context: Left and right: 4+4 positions (including punctuation) All words treated as equal, irrespective of distance Only words occurring more than 5 times considered No stopwords used for filtering Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 41 / 49

Evaluation Stochastic modelling of lexical equivalence 10-fold cross-validation 5 Czech predicates: (být) líto to be sorry about mrzet to regret toužit to desire trápit (se) to worry, to molest zdát (se) to dream, to seem Czech frequency Polish correct Kappa líto 684 6 52.2% 30.5% mrzet 392 12 43.6% 23.0% toužit 839 9 35.3% 10.1% trápit 433 15 20.1% 30.5% zdát 4663 10 35.8% 8.6% Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 42 / 49

Stochastic modelling of lexical equivalence Confusion matrix for líto a b c d e f < classified as 4 5 2 5 7 14 a = wspólczuć 9 18 2 3 15 15 b = żalować 2 2 3 2 9 12 c = szkoda 5 1 3 9 17 5 d = przepraszać 6 12 2 20 203 48 e = przykro 9 16 8 9 62 120 f = żal Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 43 / 49

Stochastic modelling of lexical equivalence Method 2: dependents/arguments Intercorp release 7, Czech-Polish fiction, 18 mil. Czech tokens Lemmatization (both Czech and Polish) Stochastic dependency parse of Czech: structure and functions Identification of effective governors word-to-word alignment Collection of Czech syntactic context for relevant predicates Probabilistic feature classifier Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 44 / 49

Outline of the talk Perspectives 1 Motivation 2 Manual analysis 3 Automatic extraction of equivalents 4 Preliminary summary 5 Stochastic modelling of lexical equivalence 6 Perspectives 7 References Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 45 / 49

Perspectives Perspectives Comparison of methods 1 and 2: what actually decides about the choice of equivalents? Generalizing from argument lexemes to semantic classes using a thesaurus Parsing of Polish instead of annotation projection? Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 46 / 49

Perspectives Dziękujemy za uwagę! Děkujeme za pozornost! Thank you for your attention! For technical assistance we are grateful to Tomáš Jelínek, David Mareček, Hana Skoumalová Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 47 / 49

Outline of the talk References 1 Motivation 2 Manual analysis 3 Automatic extraction of equivalents 4 Preliminary summary 5 Stochastic modelling of lexical equivalence 6 Perspectives 7 References Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 48 / 49

References Oliva, K. (1994). Polsko-český slovník. Academia, Praha. Siatkowski, J. & Basaj, M. (2002). Słownik czesko-polski. Wiedza Powszechna, Warszawa, 2 edition. Kaczmarska, Rosen & Hana (UW & UK) Czech and Polish verbal equivalents G&C 49 / 49