Niedosłowności w dialogu czesko-polskim dr Elżbieta Kaczmarska Uniwersytet Warszawski dr Alexandr Rosen Uniwersytet Karola w Pradze
Niedosłowność O dosłowny O 1. «nieprzenośny» O 2. «przytoczony w sposób dokładny» O 3. «ścisły, niedopuszczający wyjątków» O dosłownie O dosłowność Słownik języka polskiego http://sjp.pwn.pl/slownik/2453643/dos%c5%82owny
Niedosłowność w kontekście kontaktów międzyjęzykowych O 1) niemożność odkodowania znaczenia jednostki w języku wyjściowym O * dotyczy to również sytuacji, kiedy nie możemy nazwać danego pojęcia w języku docelowym O 2) niemożność wyrażenia dokładnie tego samego w języku docelowym (w zgrabny sposób) O * w konsekwencji trudno znaleźć ekwiwalent; każdy wybór wiąże się ze stratą czy uproszczeniem w tłumaczeniu
O czym powiemy (1) 1. Niedosłowność w kontakcie bliskich i odległych języków O brakujący ekwiwalent (w naszym badaniu leksykalny) 2. Jak czeskie czasowniki są przekładane na język polski w tradycyjnych słownikach: O brak ekwiwalentów O brak przykładów O brak wymogów walencyjnych 3. Poświadczenia w korpusach językowych: jednojęzykowych i równoległych możliwość zestawiania danych: O kolokacje O wizerunki kolokacyjne (Word Sketches) O ekstrakcja ekwiwalentów na podstawie wiązania w2w
O czym powiemy (2) 4. Ekstrakcja ekwiwalentów z korpusu równoległego O z danymi frekwencyjnymi 5. Porównanie kandydatów na ekwiwalenty na podstawie kontekstu w jednojęzykowych korpusach: O syntaktyczno-semantyczne cechy argumentów O adverbia 6. Możliwości udoskonalenia: automatyczna syntaktyczna analiza O klasyfikacja kontekstu w oparciu o kategorie syntaktyczne O ekstrakcja ekwiwalentów fraz wielowyrazowych 7. Podsumowanie: O korpusy i NLP pogłębiają wiedzę o strategiach, jak postępować z niedosłownościami w kontakcie z językami obcymi
Przykłady niedosłowności wśród języków blisko spokrewnionych O W języku czeskim nie wyrazimy dosłownie: O frajer O kilkanaście O W języku polskim nie wyrazimy dosłownie: O mít rád O hrotit
Niedosłowności w odleglejszych językach (1) es. querer pl. kochać/ chcieć / pragnąć O es. Javier, tú me quieres? O pl. Powiedz, Javier Czy ty mnie kochasz? O es. No quiero que tengas asco de mí. O pl. Nie chcę, żebyś czuł do mnie wstręt. O es. la tía Julia quiso que se lo presentara. O pl. ciotka Julia zapragnęła, by go jej przedstawić.
Niedosłowności w odleglejszych językach (2) O en. smoking makes her feel sophisticated O cs. když kouří, připadá si moderní O en. I wanted my mother to be more sophisticated. O cs. Chtěla jsem, aby máma byla elegantnější. O en. We enjoy watching their gloriously sophisticated competition for our favors. O cs. Zálibně pozorujeme, jak rafinovaně se ucházejí o naši přízeň.
Analiza na podstawie równoległego korpusu InterCorp część Czeskiego Korpusu Narodowego O http://www.korpus.cz/intercorp/ O Wyrównanie na poziomie zdania O Aktualnie online wersja 6: 31 języków + czeski O Liczba słów: 867/100 mil. słów (obce/czeskie), z tego beletrystyka: 139/62 mil. słów O Tagi morfologiczne i lematyzacja O Polskie teksty: 30 mil. słów z tego beletrystyka: 13 mil. słów O Rozróżnienie na oryginały: czeskie/polskie/obce
www.korpus.cz/intercorp
Park
NoSketch Engine
KonText
Automatyczna ekstrakcja ekwiwalentów z czesko-polskiego korpusu równoległego O Narzędzia: O word-to-word alignment: GIZA++ O tagging: Morfeusz+TakIPI, Hajič+morče O Teksty: O korpus InterCorp wersja 6, tylko beletrystyka O bez rozróżnienia na czeskie/polskie/obce oryginały O tylko zarównania 1:1 O czeskie teksty: 11,89 mil. słów O polskie teksty: 11,86 mil. słów O Wyniki: O wyekstraktowane pary lematów: 8 651 tys. O wyekstraktowane hasła dwujęzyczne: 528 tys.
úzkost (345) 113 niepokój 6 zdenerwować 2 katusza 1 lękać 67 lęk 4 ból 2 nieswojo 1 lękliwy 34 strach 4 niepokoić 2 obawa 1 męka 24 trwoga 4 rozpacz 2 pokusa 1 napięcie 9 przerażenie 3 lękowy 2 zatroskany 1 nerwowo 8 smutek 3 przygnębić 2 zmartwić 1 niespokojny 6 cierpieć 3 strapić 1 bać się 1 niezgłębiony 6 troska 2 bojaźń 1 drżeć 1 pognębić 6 udręka 2 denerwować 1 gniew 1 przerazić
Analiza toužit W słowniku tradycyjnym (Siatkowski, Basaj 2002): O tęsknić O pragnąć O marzyć
Ekwiwalenty toužit w InterCorpie (cs pl) 304 pragnąć 107 chcieć 82 tęsknić 70 marzyć 40 pożądać 24 ochota 9 zapragnąć 8 pragnienie 8 tęsknota 8 zależeć 7 spragniony 6 życzyć
Ekwiwalenty toužit w InterCorpie cs de (326; czeskie oryginały) 150 sehnen sich 32 wünschen 27 wollen 18 verlangen 11 begehren 10 Lust haben 8 träumen 6 streben 5 gern + Konditional 1 mögen 2 dürsten 2 gieren
Ekwiwalenty toužit w InterCorpie cs ru (103; czeskie oryginały) 63 мечтать 8 жаждать 8 хотеть 5 тосковать 3 желать 3 стремиться 2 грезить 2 тянеться 1 взыскать 1 возжелать 1 затосковать 1 томиться
Ekwiwalenty toužit w InterCorpie cs es (199; czeskie oryginały) 114 desear 25 ansiar 21 anhelar 20 tener ganas de 12 querer 2 sentir necesidad 1 sentir deseo 1 tratar de
Ekwiwalenty toužit w InterCorpie cs sr (10; czeskie oryginały) 6 čeznuti 2 želiti 1 težnja
Ekwiwalenty toužit w InterCorpie cs en (236; czeskie oryginały) 1 126 to long 29 to yearn 17 to want 15 to wish 13 to desire 7 a desire 3 to feel like 2 to be keen on 1 to dream 1 to hope 1 to hunger 1 to miss
Ekwiwalenty toužit w InterCorpie cs en (236; czeskie oryginały) 2 an intention 1 in quest for 1 to be an attraction for 1 to be anxious 1 to be eager 1 to be nostalgic 1 to have a needy for 1 to prefer 1 to try 1
Czym dysponujemy, poszukując trafnych ekwiwalentów? O słowniki tradycyjne dwujęzyczne O korpus (jednojęzyczny oraz równoległy) O słowniki jednojęzyczne (znaczenie)
126 29 17 15 13 7 to long have a strong wish or desire: she longed for a little more excitement we are longing to see the new baby to yearn have an intense feeling of longing for something, typically something that one has lost or been separated from: she yearned for a glimpse of him they yearned to go home to want have a desire to possess or do (something): I want an apple we want to go to the beach desire (someone) sexually: I've wanted you since the first moment I saw you. to wish feel or express a strong desire or hope for something that is not easily attainable, that cannot or probably will not happen: we wished for peace he wished that he had practiced the routines. to desire strongly wish for or want (something): he never achieved the status he so desired want (someone) sexually a desire a strong feeling of wanting to have something or wishing for something to happen: a desire to work in the dirt with your bare hands. strong sexual feeling or appetite 3 to feel like be inclined to have or do: I feel like celebrating. 2 1 to be keen on interested in or attracted by (someone or something): Bob makes it obvious he s keen on her. to dream indulge in daydreams or fantasies, typically about something greatly desired: she had dreamed of a trip to Italy 1 to hope want something to happen: he s hoping for an offer 1 to hunger have a strong desire or craving for: all actors hunger for such a role 1 to miss feel regret or sadness at no longer being able to enjoy the presence of: she misses all her old friends
Który ekwiwalent najtrafniejszy? (to samo pole znaczeniowe?) 304 pragnąć 107 chcieć 82 tęsknić 70 marzyć 40 pożądać 24 ochota 9 zapragnąć 8 pragnienie 8 tęsknota 8 zależeć 7 spragniony 6 życzyć
cs Jsi krásná, nepřestanu po tobě toužit a bát se tvé krásy pl Jesteś piękna, nigdy nie przestanę cię pragnąć i bać się twojej urody cs Vždycky jsem toužila po člověku, který by byl prostý a přímý. pl Zawsze marzyłam o człowieku, który był by prosty i bezpośredni. cs Celý život jsem toužila po skutečném domově. pl Całe życie tęskniłam za prawdziwym domem.
Analiza wymagań walencyjnych (Kaczmarska & Rosen 2013) O toužit po Oabstr (obiekt abstrakcyjny) O toužit po Ohum (obiekt ludzki) O toužit po / do OR (obiekt realny) O po + OR O do + OR O toužit + inf (bezokolicznik) O toužit + S (zdanie podrzędne) O toužit, aby O toužit po tom, aby
O toužit po Oabstr (obiekt abstrakcyjny) Netoužím po tomhle slizkém bratrství. O toužit po Ohum (obiekt ludzki) Jsi krásná, nepřestanu po tobě toužit a bát se tvé krásy, miluji tě až do smrti, ale ještě více tě nenávidím. O toužit po / do OR (obiekt realny) O po + OR Když jsem si to uvědomil, přepadlo mne málem zoufalství: cítil jsem se tu jako trosečník a toužil jsem najednou žíznivě po Praze, po své práci, po psacím stolku ve svém bytě, po knihách. O do + OR to tělo již toužilo do hrobu.
O toužit + inf (bezokolicznik) Každý z nás touží překročit erotické konvence, erotická tabu, a vstoupit v omámení do království Zakázaného. O toužit + S (zdanie podrzędne) O toužit, aby Všechno, co se kolem ní dělo, ji obtěžovalo a rušilo a ona toužila, aby se nedělo nic. O toužit po tom, aby Nesmírně toužila po tom, aby se s ní oženil, ale bála se, že kdyby k tomu došlo příliš záhy, cítil by se spoután a ztratila by ho pak tím jistěji.
1) Wnioski z badań (Kaczmarska, Rosen 2013) O tylko toužit + inf pragnąć, chcieć, pożądać 2) Konieczność dalszej analizy O konieczność zbadania kolokacji O możliwość dokładniejszego rozróżnienia semantycznego Oabstr
toužit po velké lásce / exotické cestě O Śnić o wielkiej miłości / egzotycznej podróży O Marzyć o wielkiej miłości / egzotycznej podróży O Tęsknić za wielką miłością / egzotyczną podróżą (?) O Tęsknić do wielkiej miłości / egzotycznej podróży (?) O Pragnąć wielkiej miłości / egzotycznej podróży Analiza kolokacji.
INFINITIV toužit inf-x pragnąć inf * marzyć inf * tęsknić inf post_inf 17 405 post_inf 6 800 mít 926 podziękować 805 stát 864 podkreślić 598 poznat 382 pogratulować 379 vidět 346 wyrazić 391 vrátit 333 zwrócić 319 hrát 333 przypomnieć 165 získat 332 powiedzieć 386 dostat 311 zauważyć 97 vyhrát 285 rozpocząć 73 žít 177 poruszyć 58 jít 176 powtórzyć 51 najít 152 skorzystać 70 udělat 143 powitać 43 spatřit 132 dodać 70 uspět 124 zaznaczyć 40 dělat 105 przyłączyć 33 napravit 101 wezwać 39 zůstat 99 zapytać 43 pracovat 96 poinformować 46 podívat 92 pochwalić 26
toužit po pragnąć marzyć o tęsknić za tęsknić do post_po 23 752 has_gen_obj 809 verb_o_noun 296 verb_za_noun 94 verb_do_noun 59 dítě 697 co 76 to 70 dom 6 spokój 3 láska 599 to 52 europa 14 to 5 dom 3 návrat 555 europa 34 powrót 10 junior 2 świat 3 úspěch 493 zachęcić 26 demokracja 5 mąż 2 słońce 2 vítězství 457 strona 16 wolność 4 żona 2 ciało 2 změna 455 coś 15 utopia 3 powrót 2 rzecz 2 život 361 powód 14 zemsta 3 ojciec 2 medaile 316 region 14 domek 3 coś 2 pomsta 287 śmierć 13 kariera 3 człowiek 2 klid 282 demokracja 12 miłość 3 czas 2 vztah 271 debata 12 nic 3 praca 2 moc 267 grupa 12 śmierć 3 postup 266 zmiana 12 rozmowa 3 kariéra 263 parlament 11 coś 3 titul 263 pokój 10 majestat 2 rodina 246 rozwój 10 posada 2 svoboda 218 okazja 9 teatr 2 výhra 189 wolność 8 ucieczka 2 bod 174 rezolucja 7 niepodległość 2 dobrodružství 171 prezydencja 6 hotel 2 odveta 156 współpraca 6 rewolucja 2 domov 155 kontynuacja 5 członkostwo 2
pragnąć has_gen_obj 809 co 76 to 52 europa 34 zachęcić 26 strona 16 coś 15 powód 14 region 14 śmierć 13 demokracja 12 debata 12 grupa 12 zmiana 12 parlament 11 pokój 10 rozwój 10 okazja 9 wolność 8 PELCRA - NKJP (kolokaty) badanie eksperymentalne pragnąć + Gen on 1072 człowiek 131 ty 95 kobieta 44 bóg 37 zmiana 36 miłość 35 nic 35 wolność 31 dziecko 31 śmierć 23 dobro 23 powrót 22 dodać 22 pokój 22 mężczyzna 22 sprawiedliwość 21 zdrowie 21 pragnąć + Gen on 1460 człowiek 163 ty 143 życie 110 coś 107 bóg 63 kobieta 60 dziecko 57 świat 50 nic 47 miłość 43 śmierć 42 zmiana 42 dobro 37 mężczyzna 35 ojciec 34 pokój 31 kontakt 30 powrót 29 toužit po post_po 23 752 dítě 697 láska 599 návrat 555 úspěch 493 vítězství 457 změna 455 život 361 medaile 316 pomsta 287 klid 282 vztah 271 moc 267 postup 266 kariéra 263 titul 263 rodina 246 svoboda 218 výhra 189 bod 174
toužit pragnąć tęsknić marzyć hodně 1099 bardzo 136 bardzo 34 jedynie 6 moc 1085 gorąco 40 ogromnie 3 często 5 tak 783 jedynie 19 niesamowicie 2 bardzo 5 už 778 jednocześnie 16 okropnie 2 próżno 4 tolik 773 rozpaczliwie 15 straszliwie 2 długo 4 vždycky 751 rzeczywiście 13 strasznie 2 dobrze 3 stále 543 szczerze 12 szczególnie 2 niejasno 2 dlouho 501 mocno 8 naturalnie 2 vždy 479 wyraźnie 8 nieustannie 2 také 468 dużo 7 stale 2 ani 444 obecnie 6 trudno 2 nikdy 433 ponownie 5 głośno 2 zoufale 401 oczywiście 5 pewno 2 velmi 399 wyłącznie 5 dużo 2 teď 394 dobrze 5 późno 2 marně 374 daleko 2 strašně 335 nijak 318 jen 301 opravdu 298 přesto 267 zase 252 prý 245 vůbec 235
Wnioski i O O O Podsumowanie: korpusy i NLP pogłębiają wiedzę o strategiach, jak postępować z niedosłownościami w kontakcie z językami obcymi. Korzystając z korpusów i metod automatycznych, opracować można różne metody konkretyzujące znaczenie, wyszukujące trafne ekwiwalenty, eliminujące (częściowo?) niedosłowności. Konfrontacja języków często niekompatybilne narzędzia: Word Sketches opracowany dla polskiej części InterCorpu, ale nie dla czeskiej części IC. Word Sketches operuje na czeskim korpusie jednojęzycznym (olbrzymi). Porównywalny dla języka polskiego jest NKJP, ale nie można nałożyć narzędzia Word Sketches. Inne w tych korpusach również funkcje statystyczne.
perspektywy O Przygotowanie narzędzia mogącego analizować różne języki (tu czeski i polski) umożliwi głębszą analizę argumentów, co stanowi kontynuację strategii wyszukiwania ekwiwalentów (wymogi walencyjne czysto gramatyczne, wymogi semantyczne). O Nieoczekiwane wyniki badań wpływają na rozszerzenie zarówno warsztatu, jak i metod analizy.