KORPUSY REFERENCYJNE, KORPUSY RÓWNOLEGŁE, EKWIWALENCJA FRAZEOLOGICZNA Piotr Pęzik Uniwersytet Łódzki pelcra.pl
POTRZEBY TŁUMACZY http://forum.mlingua.pl/archive/index.php/t-12612.html Witam, od pewnego czasu szukam jakiegokolwiek słownika internetowego dot. kolokacji w j. polskim, czy ktoś mógłby mi pomóc? Czy taki słownik w ogóle istnieje? Myślę,że byłby on bardzo przydatny przy tłumaczeniu na język polski :) niekiedy tłumaczy się teksty nie wiedząc wcale, że dana kolokacja nie istnieje (KarolinaS) Kolokator pojawił się już właśnie na podanej wcześnien stronie: Narodowy Korpus Języka Polskiego.Wspaniała rzecz! KOLOKATOR (http://nkjp.uni.lodz.pl/collocations.jsp) Cudowna strona, właśnie czegoś takiego szukałam! Dziękuję:D (Joanna Ch.) A nie wystarczyłby słownik frazeologizmów? (Adriano) Smutne, że tzw. tłumacze z tego forum nie widzą różnicy pomiędzy kolokacją a frazeologizmem (Janko Muzykant) Istnieją dwa poglądy na temat tego czym są kolokacje. Dla jednych są to wyłącznie połączenia wyrazowe, które nie są idiomami, inni natomiast dzielą je na DWIE grupy: na połączenia utrwalone semantycznie (frazemy) należące do frazeologii i połączenia doraźne (syntaktyczne, gramatyczne), zwane też produktami języka. Mam nadzieję, że nieścisłość została już wyjaśniona. Jo_asia
ROLA PAMIĘCI W UŻYCIU JĘZYKA The central fact to which any significant linguistic theory must address itself is this: a mature speaker can produce a new sentence of his language on the appropriate occasion, and other speakers can understand it immediately, though it is equally new to them. (Chomsky 1964:1) It is evident that rote recall is a factor of minute importance in ordinary use of language, that a minimum of the sentences that we utter is learnt by heart as such -- that most of them, on the contrary, are composed on the spur of the moment and that one of the fundamental errors of the old science of language was to deal with all human utterances, as long as they remain constant to the common usage, as if something merely reproduced from memory (Chomsky 1964:8), (Paul 1886). Sentences appear "for the first time in the history of the universe (Pinker 2007:9).
ROLA PAMIĘCI W UŻYCIU JĘZYKA Speakers do at least as much remembering as they do putting together. (Bolinger 1979) All the evidence points to an underlying rigidity of phraseology, despite a rich superficial variation (Sinclair 1991)
FRAZEM SYNTAGMA Użycie gramatyczne nie zawsze jest użyciem idiomatycznym Frazem i syntagma
FRAZEM SYNTAGMA Sen czterolatka: Potwór spadł z wysoka i zrobiła mu się krew.
ROZWÓJ KOMPETENCJI JĘZYKOWYCH
FUNKCJE FRAZEOLOGII Phrasemes( Referen,al( Textual( Communica,ve( ((,( Complex( preposi,ons,( Complex( conjunc,ons,( Linking(adverbials,( Textual(sentence( stems,(lexical' bundles(( Speech(act(&( aa,dunal(formulae,( Proverbs,( Commonplaces,( Slogans,(Idioma,c( sentences,( Quota,ons,(Jokes,' Internet'memes,' Prayers( (Burger 1998), (Granger & Paquot 2004)
DWIE ZAGADKI Bez uwzględnienia roli formuliczności trudno wytłumaczyć, w jaki sposób osiągamy: Native-like fluency : do kilku słów na sekundę w języku konwersacyjnym Native-like selection : selekcja nielicznych kombinacji idiomatycznych z licznego zbioru kombinacji gramatycznych (Pawley & Syder 1983)
FRAZEOLOGIA JAKO PAMIĘĆ PODRĘCZNA Locality Principle: People gather the most useful objects close around them to minimize the time and work of using them. (P. Denning) Użycie frazemu jako cache hit. Z punktu widzenia nadawcy jest to również użycie łatwiejsze, bo wymaga mniej wysiłku włożonego w kompozycyjne generowanie języka. Komunikat jest też bardziej odporny na zakłócenia. Odbiorca zaś wkłada mniej wysiłku w interpretację komunikatu, ponieważ frazemy mają zazwyczaj skonwencjonalizowane znaczenia i pojawiają się w typowych dla siebie kontekstach. Użycie syntagmy można opisać jako przypadek cache miss.
ROZMIARY PAMIĘCI PODRĘCZNEJ Tysiące idiomów czystych i figuratywnych zaświadczonych w słownikach Dziesiątki tysięcy kolokacji z wyrazem uwięzionym oraz kolokacji ograniczonych (restricted collocations, por. Mielczuk 1998) Setki tysięcy kolokacji otwartych i tzw. open-ended collocations (Cowie, Mackin, and McCaig 1993)
HASK pelcra.clarin-pl.eu/hask_pl pelcra.clarin-pl.eu/hask_en
PAMIĘĆ TŁUMACZA Tłumacz komponuje/generuje/produkuje tekst tłumaczenia Na poziomie fraz, a także tzw. łańcuchów kolokacyjnych tłumacz poszukuje i przywołuje z pamięci gotowe frazemy, których następnie używa jako translatów dla napotkanych w oryginale translandów (por. Bogusławski 1988, Chlebda 2011) W ten sposób zapewnia minimalny (?) poziom ekwiwalencji frazeologicznej pomiędzy oryginałem a tłumaczeniem
PAMIĘTANIE A PRZYPOMINANIE Tłumacz, jako rodzimy użytkownik języka docelowego pamięta miliony frazemów Tłumacz inaczej niż działający w innych kontekstach użycia użytkownicy języka docelowego musi również przypominać sobie niektóre z milionów frazemów jako potencjalne ekwiwalenty frazemów z oryginału
TOROWANIE FRAZEOLOGICZNE Test Familiady
PRZYPOMINANIE Tłumacz inaczej niż działający w innych kontekstach użycia użytkownicy języka docelowego musi również przypominać sobie niektóre z milionów frazemów W procesie tłumaczenia brakuje istotnej części językowego i niejęzykowego kontekstu użycia frazemów
ADJ + NOS http://pelcra.clarin-pl.eu/hask_pl/browser? eh=11893b6a18cd0838e62d6b4cdd0b27c3
FRAZEM SYNTAGMA Istnieje ryzyko odwzorowania frazemu z oryginału na syntagmę w tłumaczeniu Pojedyncze odwzorowania frazem-syntagma są niegroźne, czasem wręcz nieuniknione
NIEDOSTATECZNY POZIOM EKWIWALENCJI W oryginale występują liczne frazemy przetwarzane przez odbiorców tekstu w trybie cache-hit W tłumaczeniu występują gramatyczne ale nie idiomatyczne syntagmy W dużych ilościach syntagmy znacząco obniżają komunikatywność tłumaczenia, zwiększają wysiłek kognitywny potrzebny do zrozumienia tekstu Czytelnicy muszą operować w trybie cache-miss
ROLA KORPUSÓW Korpus referencyjny (KRef) może wspomagać proces przywoływania z pamięci tysięcy kontekstów użycia związków wyrazowych o bardzo różnym stopniu kompozycyjności i utrwalenia, od idiomów czystych po otwarte kolokacje KRef i ich pochodne pomagają weryfikować translaty (Chlebda 2011) słownikowe Korpusy równoległe i tzw. pamięci tłumaczeniowe. pomagają weryfikować translaty słownikowe i tekstowe. Nie tylko wspomagają, ale też zastępują pamięć tłumacza
FRAZEM FRAZEM https://www.youtube.com/watch? v=sbvmkwngufi&feature=youtu.be&t=190 just blew my mind powaliło mnie na kolana
BLOW ONE S MIND COCA Corpus 1 This is the painting that blew everyone 's mind. [CBS_Morning] 2 His expression at the finale indicates a lot more than the fact that you completely 3 as many numbers on a square of unit side as there are on the side, so -- and that blew his mind, say experts. [Cosmopolitan] blew his mind. [NPR_Science] 4 And a word blew into my mind, blew as a fire does, fierce and crackling hot : <Kara.> And an answering word formed in my mind 5 She 's @ @ @ @ @ @ @ @ @ @ what really blew my mind was when I walked out -- because we could n't stay there. [Flight of the Dragon Kyn] [Ind_Geraldo]
POWALIĆ KOGOŚ NA KOLANA 1 Górnicze Marklowice chcą powalić Europę na kolana. Trybuna Śląska 2 3 Zamiast więc błysnąć przed prezesem i O przyszłości gminnego zakładu zdecyduje to, czy powalić go na kolana powali na kolana, bo przecież miał taki zamiar, to sam oberwał w szczękę i robił wielkie oczy ze zdziwienia, że powalon został. i zaproponuje ceny poniżej kosztów świadczonej usługi. Blog Polonka54 Gazeta Poznańska 4 Agnieszka zapytana o to, czy trudno było powalić na kolana takiego kolosa jak Petertil, wesoło odpowiada A jak pan myśli Gazeta Wrocławska 5 Wątpię, by współczesnych czytelników jakakolwiek powalić na kolana. Gazeta Wyborcza NKJP
FRAZEM SYNTAGMA http://www.economist.com/node/14966227
FRAZEMY W ORYGINALE
FRAZEMY W ORYGINALE
PRZYKŁAD TŁUMACZENIA O: Why political orthodoxy must not silence scientific argument. T: Dlaczego ortodoksja polityczna nie może uciszyć kłótni naukowej.
POLITICAL ORTHODOXY 1 2 the intellectual foundation that would later enable him to challenge the slightly uneasy about it because he could be perceived as following a COCA political [Houston of both the left and the right. orthodoxy Chronicle] political orthodoxy rather than thinking for himself. [Too Soon to Tell] 3 Defining political orthodoxy as exclusively liberal has brought a pleasant bonus to the sort of [Too Soon to Tell] 4 hey were used to help motivate troops and maintain a high level of combat readiness and political orthodoxy. [Armed Forces & Society (Transaction Publishers)] 5 should be measured as a normative matter by a person 's adherence to a particular political orthodoxy. [Harvard Journal of Law & Public Policy]
ORTODOKSJA POLITYCZNA NKJP
NAUKOWE KŁÓTNIE - Co roku spotykamy się - my, właściciele ośrodków wczasowych, i władze samorządowe. Od kilku lat trwają badania, dyskusje i naukowe kłótnie na temat tego, jak zwalczyć sinice - dziwi się Joachim Gorus. (NKJP, Nowa Trybuna Opolska, 2006) 1 wystąpienie na 1.5 miliarda słów. Syntagma?
SPÓR/DEBATA NAUKOWA
FRAZEM?
DROGOWY GNIEW
GNIEW NA DRODZE
AGRESJA NA DRODZE Ekwiwalent tekstowy, czy słownikowy?
ROAD RAGE
KIEDY KORPUS NIE NADĄŻA Product placement Kryptoreklama (783 wystąpienia w NKJP) Audycja zawiera(ła) lokowanie produktu (0 wystąpień w NKJP)
KORPUSY RÓWNOLEGŁE Pełnią rolę pamięci tłumaczeniowych Faktyczne, a nie tylko możliwe translaty Powinny umożliwiać dużo bardziej zaawansowaną analizę lingwistyczną danych niż zwykłe pamięci tłumaczeniowe Możliwość definiowania przeszukiwanych zbiorów
NARZĘDZIA http://pelcra.clarin-pl.eu/ Wyszukiwarka PELCRA dla NKJP (nkjp.uni.lodz.pl) Wyszukiwarka SlopeQ dla NKJP: http://pelcra.clarin-pl.eu/nkjp Słowniki kombinatoryczne HASK PL i HASK EN Wyszukiwarka SlopeQ dla BNC: http://pelcra.clarin-pl.eu/slopeqbnc/ Wyszukiwarka Paralela http://paralela.clarin-pl.eu/
SLOPEQ DLA NKJP http://pelcra.clarin-pl.eu/nkjp Nowa wyszukiwarka dla danych NKJP (nkjp.uni.lodz.pl) Bogatsza składnia, lepsze wizualizacje, lepsze wyszukiwanie metadanych Fasety wyszukiwania Eksport danych, dostęp programistyczny
KONKORDANCJE
KWIC KeyWords In Context Liczba trafień podana w zdaniach Dokładna liczba wystąpień liczona na pobranej próbce Domyślny zestaw kolumn metadanych może być zmieniony Do 10 tys. konkordancji na stronie lub w formacie JSON, do 100 tys. w arkuszu Excela Pełne wyniki dostępne przez stronicowanie
EXCEL # Left Match Right Source Text Id Nkjp Id 1 2 3 Do pół litra wody wsypać po łyżeczce różnych aromatycznych przypraw, takich jak : " Jarzynka " albo " Vegeta " We, sól wróżeniu, pieprz według ziołowy dawnej, wiedzy druidów pomocne były : byli - ca pospolita, cykoria podróżnik, jałowiec Gdy mięso, jesion będzie, krwawnik rumiane, pospolity dorzucić, czosnek nie obrany, cebule poćwiartowane, tymianek tymianek. albo oregano, kilka suszonych grzybków, 2-3 ząbki czosnku drobno pokrojone i wszystko tymianek i pokruszony liść laurowy. Wegetariańskie okruchy Kod druidów i sekrety celtów Panorama Mazurska 5eGx9 4BMEg 4j9nz IJPPAN_k1235 39 IJPPAN_k1232 85 PWN_1202900 000728 4 kwaśne owoce, tymianek 5 6 Wsypać do garnka z większą ilością wody, dosypać pół szklanki kaszy, ryżu lub makaronu, przyprawić czosnkiem 50 dag łopatki i ziołami wołowej ( np. 50 ziołowy dag łopatki baraniej 50 dag łopatki wieprzowej 1 kg ziemniaków 25 dag cebuli czosnek pieprz sól tymianek tymianek, lipa, lukrecja, imbir herbata naturalna, albo majeranek, listek laurowy i angielskie ziele ). natka pietruszki 1 / 2 l białego wina mąka woda Trybuna Śląska Wegetariańskie okruchy Polityka 4pqon 5eGx9 6zRoA 7 Z przypraw - szałwia i tymianek. Dziennik Polski 6npgLq IJPPAN_PolPr_ TS01156 IJPPAN_k1235 39 IJPPAN_p0000 2620046 IPIPAN_130192 0020921 8 Majeranek, tymianek 9 Dodać tymianek czy bazylia poprawiają smak zarówno góralskiej kwaśnicy jak i włoskiego spaghetti., pietruszkę, liść laurowy i listki selera, po czym przykryć i gotować 1 / 2-1 godziny aż groszek będzie Trybuna Śląska Trybuna Śląska 6RMrE 8Ryey IJPPAN_PolPr_ TS00250 IJPPAN_PolPr_ TS00902
FASETY Pełne wyniki są agregowane po metadanych Podawane są wielkości całkowite każdej kategorii Istnieje możliwość filtrowania kolejnych wyników po fasetach Aktualnie wyświetlane fasety: kanał, typ funkcjonalny, auto kategorie wiki
KLASYFIKATOR WIKNN http://pelcra.clarin-pl.eu/tools/classifier/
AUTO KATEGORIE
AUTO KATEGORIE
AUTO KATEGORIE
WIZUALIZACJA FASET
OPCJE WYSZUKIWANIA Składnia DisMax dla metadanych Wielostopniowe sortowanie (głębokie) Podkorpus Grupowanie/próbkowanie
WIZUALIZACJA FASET Na wykresach podane są częstości znormalizowane (w tabeli również zwykłe) Możliwe jest pobranie wykresu w formacie wektorowym Możliwe kolejne fasety (słowa kluczowe, autorzy, itd.)
SKŁADNIA Zapytania o formy Zapytania o lematy Zapytania o części mowy
WARIANTYWNOŚĆ FRAZEMÓW JJ+EST EVER TO WALK THE EARTH
ADJ:SUP + SUBST + KIEDYKOLWIEK <LEMMA=CHODZIĆ> PO ZIEMI
ZAPYTANIA (ever to walk earth planet)=3 (kiedykolwiek po ziemi)=4 (kiedykolwiek <lemma=chodzić> po ziemi)=2 (kiedykolwiek <pos=verb.+> po ziemi)=4
JJ+EST EVER TO WALK THE EARTH
(KIEDYKOLWIEK PO ZIEMI)=4
OPEN-ENDED COLLOCATIONS (Cowie, Mackin, and McCaig 1993), walencja O: The SMOS spacecraft launched on Monday to study the Earth s water cycle has passed a key mission milestone. T: Wystrzelony w poniedziałek statek kosmiczny SMOS (ang. Soil Moisture and Ocean Salinity) mający na celu obserwację obiegu wody na Ziemi osiągnął już najważniejszy etap swej misji.
MIEĆ NA CELU <lemma=mieć> na celu mieć** na celu poprawka, zmiana, ustawa, projekt, działanie, nowelizacja, akcja, przedsięwzięcie, rozwiązanie, spisek, ćwiczenia, spotkanie działanie/czynność
HASK słowniki kombinatoryczne wygenerowane z BNC i NKJP Przykłady zapytań: kawa herbata straszny, przerażający (kolozaurus) zamożny, majętny (kolozaurus) francuski, rosyjski, niemiecki, grecki (kolozaurus)