dr Ewa Rudnicka

Podobne dokumenty
Dwujęzyczna Słowosieć

Dwujęzyczna Słowosieć możliwości wykorzystania w pracy tłumacza i w analizie porównawczej

Open Access w technologii językowej dla języka polskiego

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Słowosiec leksykalna siec semantyczna języka polskiego i jej zastosowania

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Program warsztatów CLARIN-PL

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji

WYMAGANIA EDUKACYJNE JĘZYK ANGIELSKI, KLASA 4. Ocena celująca (6): Ocena bardzo dobra (5): Otrzymuje uczeń, który:

Odpowiedzi do zadań zamieszczonych w arkuszu egzaminu ósmoklasisty z języka angielskiego 17 KWIETNIA 2019 opracowane przez ekspertów Nowej Ery

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowania

SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Angielski Biznes Ciekawie

All Saints Day. Chants of the Proper of the Mass for. Adapted to English words and Edited by. Bruce E. Ford

JĘZYK ANGIELSKI KL. IV. Wymagania edukacyjne obowiązujące ucznia

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Tychy, plan miasta: Skala 1: (Polish Edition)

DODATKOWE ĆWICZENIA EGZAMINACYJNE

KRYTERIA OCENIANIA. do podręcznika NEW ENGLISH ZONE 1, Rob Nolasco, David Newbold, wyd. Oxford University Press

SZCZEGÓŁOWY HARMONOGRAM SZKOLENIA Z JĘZYKA ANGIELSKIEGO

S owosiec leksykalna siec semantyczna jezyka polskiego i jej zastosowania

JĘZYK ANGIELSKI POZIOM ROZSZERZONY

JĘZYK ANGIELSKI POZIOM PODSTAWOWY

Rzutowanie Słowosieci na pojęcia ontologii SUMO i inne zasoby semantyczne

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

Konsorcjum Śląskich Uczelni Publicznych

TEORIA CZASU FUTURE SIMPLE, PRESENT SIMPLE I CONTINOUS ODNOSZĄCYCH SIĘ DO PRZYSZŁOŚCI ORAZ WYRAŻEŃ BE GOING TO ORAZ BE TO DO SOMETHING

Lesson 46 ZAIMKI. przymiotnik w funkcji dzierżawczej / zaimek dzierżawczy Liczba pojedyncza

Stargard Szczecinski i okolice (Polish Edition)

JĘZYK ANGIELSKI POZIOM ROZSZERZONY (A1)

Ogólnopolski Próbny Egzamin Ósmoklasisty z OPERONEM. Język angielski Kartoteka testu. Wymagania szczegółowe Uczeń: Poprawna odpowiedź 1.1.

Słowosieć jako narzędzie wspomagające pracę tłumacza

Ćwiczenia na egzamin - zaliczenie różnic programowych

Jak zasada Pareto może pomóc Ci w nauce języków obcych?

Test sprawdzający znajomość języka angielskiego

Zestawienie czasów angielskich

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO POZIOM ROZSZERZONY MAJ 2010 CZĘŚĆ I. Czas pracy: 120 minut. Liczba punktów do uzyskania: 23 WPISUJE ZDAJĄCY

SPRAWDZIAN ODBĘDZIE SIĘ O GODZINIE 16:00 FORMA SPRAWDZIANU:

Kryteria oceniania z języka angielskiego dla klasy 6

Find and underline the wrongly translated words in each English translation and then rewrite the Polish translation to match the English.

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

EGZAMIN MATURALNY 2013 JĘZYK ANGIELSKI

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

JĘZYK ANGIELSKI KARTA ROZWIĄZAŃ ZADAŃ 6., 7. i 8.

Zestawienie czasów angielskich

KLUCZ PUNKTOWANIA ZADAŃ

EGZAMIN MATURALNY 2012 JĘZYK ANGIELSKI

Angielski bezpłatne ćwiczenia - gramatyka i słownictwo. Ćwiczenie 4

EGZAMIN MATURALNY 2012 JĘZYK ANGIELSKI

Admission to the first and only in the swietokrzyskie province Bilingual High School and European high School for the school year 2019/2020

Błędów popełnianych przez Polaków w języku angielskim

Angielski bezpłatne ćwiczenia - gramatyka i słownictwo. Ćwiczenie 3

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI

MATERIAŁ DIAGNOSTYCZNY Z JĘZYKA ANGIELSKIEGO

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

JĘZYK ANGIELSKI KARTA ROZWIĄZAŃ ZADAŃ 6., 7. i 8.

Angielski bezpłatne ćwiczenia - gramatyka i słownictwo. Ćwiczenie 7

Życie za granicą Studia

Klasa 6: Ocenę dopuszczającą otrzymuje uczeń, który:

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

Please fill in the questionnaire below. Each person who was involved in (parts of) the project can respond.

MAREK MAZIARZ MACIEJ PIASECKI EWA RUDNICKA

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO

UZUPEŁNIA ZESPÓŁ NADZORUJĄCY BADANIE DIAGNOSTYCZNE W KLASIE TRZECIEJ GIMNAZJUM Z JĘZYKA ANGIELSKIEGO POZIOM PODSTAWOWY GRUDZIEŃ 2011

BULLETIN 2 II TRAINING CAMP POLISH OPEN MTBO CHAMPIONSHIPS MICHAŁOWO TRAINING CAMP WORLD MTB ORIENTEERING CHAMPIONSHIPS

Polska Szkoła Weekendowa, Arklow, Co. Wicklow KWESTIONRIUSZ OSOBOWY DZIECKA CHILD RECORD FORM

Wymagania edukacyjne Ocena dopuszczająca Ocena dostateczna Ocena dobra Ocena bardzo dobra Ocena celująca

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO POZIOM ROZSZERZONY MAJ 2010 CZĘŚĆ I. Czas pracy: 120 minut. Liczba punktów do uzyskania: 23 WPISUJE ZDAJĄCY

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Polskie korpusy równoległe i zasoby wielojęzyczne w projekcie CESAR

Sargent Opens Sonairte Farmers' Market

I Uczeń powinien znać i poprawnie stosować następujące konstrukcje gramatyczne: odmiana czasownika to be, czasy Simple Present, Present Continuous,

JĘZYK ANGIELSKI ĆWICZENIA ORAZ REPETYTORIUM GRAMATYCZNE

Emilka szuka swojej gwiazdy / Emily Climbs (Emily, #2)

EGZAMIN MATURALNY 2011 JĘZYK ANGIELSKI

Język angielski. Poziom rozszerzony Próbna Matura z OPERONEM i Gazetą Wyborczą CZĘŚĆ I KRYTERIA OCENIANIA ODPOWIEDZI POZIOM ROZSZERZONY CZĘŚĆ I

ALA MA KOTA PRESCHOOL URSYNÓW WARSAW POLAND

2 w 1 DWIE szkoły JEDNA całość NAJWYŻSZA JAKOŚĆ

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen

ISBN

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

KRYTERIA OCENIANIA. do podręcznika NEW ENGLISH ZONE 2, Rob Nolasco, David Newbold, wyd. Oxford University Press

CLARIN-PL w praktyce badawczej

Sprawdzian kompetencji językowych do klasy dwujęzycznej z językiem angielskim

KLASA III MODUŁ 1. Unit 1

Wymagania edukacyjne-język angielski Klasa VII-English Class-poziom A2plus

Transkrypt:

Tłumacz i dane językowe: poszukiwanie odpowiedników znaczeniowych w sieciach leksykalno-semantycznych dr Ewa Rudnicka ewa.rudnicka@pwr.edu.pl mgr inż. Tomasz Naskręt tomasz.naskret@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19

Plan CLARIN-PL Dwujęzyczna Słowosieć Strona Słowosieci i aplikacja WordNetLoom Przykłady zastosowania Dwujęzycznej Słowosieci w pracy tłumacza Ekwiwalencja

CLARIN-PL polski węzeł ogólnoeuropejskiej infrastruktury naukowej CLARIN ERIC (Common Language Resources and Technology Infrastructure) https://www.clarin.eu/ Wsparcie dla badaczy z nauk humanistycznych i społecznych Politechnika Wrocławska lider konsorcjum CLARIN-PL http://clarin-pl.eu Zasoby i narzędzia językowe http://clarin-pl.eu/pl/uslugi/ Leksykalne bazy danych (wordnety) Korpusy (elektroniczne zbiory tekstów) Tagery, parsery, (narzędzia przetwarzania tekstu) Ekstrakcja informacji z tekstu

Zasoby językowe Jedno-, dwu- i wielojęzyczne zasoby leksykalne i tekstowe: Dwujęzyczna Słowosieć polsko-angielski wordnet (PWr) http://plwordnet.pwr.edu.pl/wordnet/ HASK polsko-angielski słownik kolokacji (UŁ) http://pelcra.pl/hask_pl/ Paralela polsko-angielski korpus paralelny (UŁ) http://paralela.clarin-pl.eu/ Platforma Leksykalna (PWr) słowniki różnego typu http://lexp.clarin-pl.eu/ Korpusy paralelne: polsko-litewski, polsko-ukraiński, polsko-bułgarski, polsko-rosyjski (IS PAN) http://kontext.clarin-pl.eu/

WordNet

Princeton WordNet i English WordNet 2019 Princeton WordNet (Fellbaum 1998) Pierwszy na świecie zasób typu wordnet The mother of all wordnets https://wordnet.princeton.edu/ English WordNet 2019 (McCrae, Rademaker, Bond, Rudnicka, Fellbaum 2019) https://en-word.net/ Nowa inicjatywa (otwarta dla wszystkich) https://github.com/globalwordnet/english-wordnet

Dwujęzyczna Słowosieć (1) Wielka polsko-angielska sieć leksykalno-semantyczna: ok 255 000 polsko-angielskich haseł obecnie największy słownik polsko-angielski dostępny na całkowicie otwartej licencji Powstaje w wyniku powiązania Słowosieci: z WordNetem princetońskim (Princeton WordNet) i jego rozszerzeniem enwordnetem (Rudnicka et al. 2015) (ok 10 000 nowych angielskich haseł)

Podstawowe elementy Jednostki leksykalne lemat + część mowy + numer znaczenia Synsety zbiory synonimicznych jednostek leksykalnych Relacje jednostek leksykalno-semantyczno (często derywacyjne) Relacje synsetów semantyczne, np. hiponimia, meronimia Międzyjęzykowe relacje synsetów Międzyjęzykowe relacje jednostek (relacje ekwiwalencji)

Dwujęzyczna Słowosieć (2) Bogata sieć relacji międzyjęzykowych: Priorytetowa synonimia rozumiana jako (pełna) ekwiwalencja Najczęstsza hiponimia powodowana licznymi różnicami pomiędzy językami i wordnetami Synonimia częściowa i międzyrejestrowa w przypadku niepełnej ekwiwalencji Typ/egzemplarz dla nazw własnych Dodatkowe relacje doprecyzowujące znaczenie: Meronimia/holonimia Synonimia międzyparadygmatyczna (przymiotnik-rzeczownik) Specyficzne relacje czasownikowe

Przykład synsetu enwordnet

Typy powiązań Powiązania pomiędzy synsetami (zbiorami synonimów) Słowosieci i WordNetu princetońskiego i enwordnetu Tylko czasem powiązanie 1-1 ( hasło do hasła ): {kompilator (os) 2} I-syn {compiler (os) 1} Często powiązania: kilka kilka: {glosariusz 1, glosarium 1} I-syn {glossary 1, gloss 2} 1 kilka: {hasło 4} I-syn {lexical entry 1, dictionary entry 1} Kilka -1: {lemat 2, forma podstawowa 1} I-syn {lemma 1}

Proces konstrukcji Rzutowanie tj. powiązanie dwóch sieci na podstawie podobieństw w ich strukturze poprzez łączenie odpowiadających sobie fragmentów grafów Wszystkie powiązania tworzone ręcznie Przy wsparciu systemów automatycznych podpowiedzi Szczegółowe procedury rzutowania, dedykowane dla różnych części mowy Bogaty zestaw relacji międzyjęzykowych

Aktualności Zasób w trakcie ciągłego rozwoju Uzupełnienia rzutowania WordNetu princetońskiego: Rzeczowniki 83 694 (ok 92%) Przymiotniki 7 986 (ok 44%) Przysłówki 1 754 (ok 49%) Czasowniki 1 488 (ok 11%) Podążanie za rozbudową Słowosieci i powiązanie: Rzeczowniki 130 959 (99%) Przymiotniki 45 907 (99,5%) Przysłówki 10 732 (95%) Czasowniki 3 108 (10%)

Zastosowania Dwujęzycznej Słowosieci (1) nauka i dydaktyka języków obcych budowa narzędzi dydaktycznych do nauki języków obcych (np. CloudNet Word Cloud Generator www.cloud-net.pl, dr Monika Madej UŁ) budowa słowników dwu- i wielojęzycznych: (np. Ling.pl, Glosbe, Miłkowski, BabelNet, Kamusigold.org, PONS) wsparcie w przekładzie i tłumaczeniu maszynowym (Google Translate) językoznawcze badania porównawcze

Zastosowania Dwujęzycznej Słowosieci (2) inspiracja dla rozwoju wordnetów dla innych języków (np. DanNet, Portuguese WordNet, CROWN) Integracja z Open Multilingual WordNet (wielojęzyczna platforma skupiająca wordnety dostępne na otwartej licencji (ponad 100 języków) http://compling.hss.ntu.edu.sg/omw/ Półautomatyczne rzutowanie ontologii SUMO na Słowosieć Półautomatyczne rzutowanie różnych tezaurusów dziedzinowych na Słowosieć (projekt AZON) Dwujęzyczne ujednoznacznianie znaczeń (WSD)

Open Multilingual Wordnet

Praca tłumacza - sytuacje Sytuacja 1: Znane słowo w nieznanym kontekście Sytuacja 2: Znane słowo, nieznany odpowiednik Sytuacja 3: Nie jesteśmy pewni znaczenia w języku źródłowym i nie znamy jego odpowiednika w języku docelowym Sytuacja 4: nowe słowo w języku źródłowym

Przykład 1 (1): Znane słowo w nieznanym kontekście: After I finished studying for my courses one weekend, I called my mum. I told her that we were going to have a confirmation service during chapel, and I was not looking forward to attending. The topics chosen for chapel often seemed negative and left me feeling down. Encountering Angels: True Stories of How They Touch Our Lives Every Day, by Judith MacNutt (2016), Chosen Books* Jednostki leksykalne Princeton WordNet: chapel 1 (wytw) chapel 2 (czy)

Przykład 1 (2) Właściwy synset PWN: Glosa i przykład: {chapel service 1, chapel 2} (czy) 'a service conducted in a place of worship that has its own altar; he was late for chapel' Hiponimia do: {service 3, religious service 1, divine service 1} 'the act of public worship following prescribed rules 1} Synonimia międzyjęzykowa do {nabożeństwo

Przykład 2 (1) Nie jesteśmy pewni znaczenia w języku źródłowym i nie znamy jego odpowiednika w języku docelowym Kiedy przechodząc do kuchni pokonuje próg, balkonik, o który się opiera, wydaje cichy, ale wyraźny stukot. (Super Express, 2006; PWN_1302900002719)

Przykład 2 (2) {balkonik 1} (wytw) specjalne urządzenie na kółkach, przy pomocy którego osoby starsze, niepełnosprawne i mające problem z chodzeniem, mogą się łatwiej poruszać {balkonik 2} (msc) Nacechowanie (diminutywność) to {balkon 1} element architektoniczny, przestrzeń wystająca poza mury budynku, często ogrodzona balustradą {balkonik 3; balkonetka 1} (wytw) rodzaj biustonosza z miseczkami skrojonymi z trzech części, który podnosi i zaokrągla piersi

Sytuacja 2 (3) Kiedy przechodząc do kuchni pokonuje próg, balkonik, o który się opiera, wydaje cichy, ale wyraźny stukot. Właściwy synset Słowosieci {balkonik 1} (dziedzina: wytwór) specjalne urządzenie na kółkach, przy pomocy którego osoby starsze, niepełnosprawne i mające problem z chodzeniem, mogą się łatwiej poruszać Hiponimia do {chodzik 1} {podpora 1; podpórka 1; podparcie 2} Synonimia międzyjęzykowa do {walker 5; Zimmer frame 1; Zimmer 1} a light enclosing framework (trade name Zimmer) with rubber castors or wheels and handles

Przykład 3 (1) nieznane słowo (...) w zamyśleniu, z opuszczoną czarną głową przypominał psa myśliwskiego z obwisłymi faflami. Borelowski Jan Maria Gisges, p. 70

Przykład 3 (2) Synset Słowosieci: {fafle 1} (czc): hiponimia do {warga 1} (czc), meronimia części do {pies myśliwski 1} (zw), synonimia międzyjęzykowa do {flews 1} (czc) Synset Princeton WordNet: {flews 1} (czc) 'the fleshy hanging upper lip of a bloodhound or similar dog' hiponimia do {overlip 1} (czc)

Przykład 3 (3) 'His jowls hung in flaps like the flews of a hound, and he held the long gun behind him, run down back of his leg. Cold Mountain (przykład z wordnik.com) Its eyes are one of the Bloodhound's most well-known characteristics. They are deeply sunk in the orbits, and the lids have a lozenge or diamond shape. This is because the lower lids are dragged down and turned outward by the heavy flews. This can cause eye problems if the flews are too heavy, so a good breeder goes for moderation rather than exaggeration. Bloodhounds: Everything about Purchase, Care, Nutrition, Breeding, Behavior, and Training, Kim Campbell Thornton, Michele Earle-Bridges, p. 52

Przykład 4 (1) At Low Mass with a congregation present, or if the church is large, incense may be blessed beforehand by the celebrant. At Missa Cantata, or Low Mass with an opening hymn, the thurible may be taken in procession. Cooper, I. (2010). Ceremonies of The Young Rite, p. A-3

Przykład 4 (2) Właściwy synset w Princeton WordNet {low mass 1} a Mass recited without music Hypernymy to {Mass 4} (Roman Catholic Church and Protestant Churches) the celebration of the Eucharist Synonimia międzyjęzykowa do {cicha msza 1} msza, podczas której nie ma muzyki, diakona ani subdiakona, a na ołtarzu palą się dwie świece; inaczej nazywana mszą czytaną

Przykład 4 (3) {thurible 1; censer 1} a container for burning incense (especially one that is swung on a chain in a religious ritual) Hiponimia do {vessel 3} an object used as a container (especially for liquids) Synonimia to {kadzielnica 1; trybularz 1} naczynie kościelne, które służy do spalania kadzidła {celebrant 1; celebrater 1; celebrator 1} A person who is celebrating {celebrant 2} an officiating priest celebrating the Eucharist

Przykład 4 (4) Właściwy synset w Princeton WordNet {celebrant 2} an officiating priest celebrating the Eucharist Hiponimia do {priest 1} a clergyman in Christian churches who has the authority to perform or administer various religious rites Synonimia międzyjęzykowa do {celebrans 1; celebrant 1; oficjant 1} duchowny odprawiający nabożeństwo

Projekt NCN Ekwiwalencja międzyjęzykowa w leksykalnych bazach danych Prace realizowane w ramach projektu NCN Harmonia 7 Zespół dr Ewa Rudnicka (PWr) dr hab. Maciej Piasecki (PWr), prof. Tadeusz Piotrowski (UWr), prof. Francis Bond (NTU), dr hab Łukasz Grabowski (UO)

Motywacja dla rzutowania jednostek Możliwość ustalenia dokładniejszych powiązań: {złoton:3, Aun:1}PL synonimia międzyjęzykowa {goldn:3, Aun:1, atomic number 79n:1}EN złoton:3pl - goldn:3en Aun:1PL - Aun:1EN

Cel i założenia Budowa powiązania pomiędzy jednostkami leksykalnymi Podstawa: Relacje międzyjęzykowe między synsetami: Synonimia Synonimia częściowa Hiponimia Potrzebne: Cechy ekwiwalencji Typy relacji ekwiwalencji Procedura powiązania Efekt: Dokładniejsze powiązania

Cechy ekwiwalencji (1) Formalne Część mowy: zgodność wynikająca z rzutowania synsetów Liczba: Wyjątki: singularia i pluralia tantum Policzalność: Wyjątki: rzeczowniki policzalne vs niepoliczalne Rodzaj: dla rzeczowników ożywionych

Cechy ekwiwalencji (2) Semantyczno-pragmatyczne Znaczenie: definiowane na podstawie sieci relacji i glos Zakres leksykalizacji: Porównanie denotacji Rejestr i styl: na podstawie rejestrów Słowosieci, relacji i słowników Kolokacje: na podstawie słowników Kontekst zdaniowy na podstawie korpusów Kontekst sytuacyjny i wiedza o świecie

Cechy ekwiwalencji (3) Tłumaczeniowe: Częstość występowania w słownikach dwujęzycznych jako ekwiwalent Miejsce wśród ekwiwalentów słownikowych Kierunkowość tłumaczenia Przekładalność (prawdopodobieństwo przekładu) na podstawie danych z polsko-angielskiego korpusu równoległego Paralela (Pęzik et al 2016) Unikalność powiązania

Ekwiwalencja silna Tożsamość znaczenia Podobieństwo w leksykalizacji pojęć Zgodność rejestrów Współdzielony zbiór typowych kontekstów zdaniowych Pierwszy ekwiwalent w słownikach Dwukierunkowość (ale nie unikalność) tłumaczenia Preferowane częste poświadczenia w korpusie równoległym

Przykłady drzwi:1 I-syn door:1 grzmot:1 I-syn thunder:2 narzeczona:1 I-syn fiancee:1 centrala:2 I-syn headquarters:1 gruba ryba:1 I-partial-syn big fish:1 okulary:1 I-syn glasses:3 Dla wszystkich par: tożsamość znaczenia i rejestru, częste występowanie jako ekwiwalenty w słownikach, często jako pierwsze, wiele poświadczeń w korpusie równoległym

Ekwiwalencja regularna Duże podobieństwo znaczeń Niewielkie różnice w leksykalizacji pojęć Zgodność rejestrów Współdzielony zbiór typowych kontekstów zdaniowych Ekwiwalenty w słownikach Dwukierunkowość (ale nie unikalność) tłumaczenia Preferowane poświadczenia w korpusie równoległym

Przykłady zabytek:1 I-partial-syn monument:2 Luka leksykalna po stronie angielskiej narzeczona:1 I-syn bride-to-be:1 Dodatkowa specyfikacja znaczenia po stronie angielskiej; mało poświadczeń w korpusie centrala:2 I-syn central office:1 mało poświadczeń w korpusie

Ekwiwalencja słaba Polsko-angielskie pary jednostek leksykalnych z synsetów powiązanych: Synonimią międzyjęzykową Międzyjęzykową synonimią częściową Hiponimią międzyjęzykową Pary jednostek, które mogą być użyte jako swoje odpowiedniki tłumaczeniowe (także jako składowe ekwiwalentów opisowych, w ujęciu Svensena 2009)

Przykłady centrala:2 - main office:1, home office:2, home base:2 bardzo mało albo brak poświadczeń korpusowych {stachanowiec:1, przodownik pracy:1} I-hypo {toiler:1} model worker who greatly exceeds the quota ( modelowy pracownik pracujący znacznie powyżej normy ) luka kulturowa, brak bezpośredniego ekwiwalentu

Procedura rzutowania jednostek Weryfikacja cech: Formalnych, Semantyczno-pragmatycznych Tłumaczeniowych Podjęcie decyzji o typie powiązania ekwiwalencji: Silny Regularny Słaby Brak W trakcie całej procedury: Weryfikacja błędów, niezgodności, braku informacji (ozn. błąd)

Weryfikacja procedury Procedura zweryfikowana na losowej próbie par jednostek leksykalnych wydobytych z synsetów powiązanych: Synonimią międzyjęzykową Międzyjęzykową synonimią częściową Hiponimią międzyjęzykową Proporcjonalnie dla każdej relacji i typu powiązania (1-1, 1 do wielu, wiele do 1, wiele do wielu) Wydobyto 100 losowych zbiorów z 10 przykładami dla każdej z 12 klas

Wyniki Próbka pierwsza: zgodność całkowita: 75% zgodność typów ekwiwalencji 67% Próbka druga i trzecia: zgodność całkowita: 65% zgodność typów ekwiwalencji: 71%

Wyzwania lematy polisemiczne brak korpusów paralelnych oznaczonych sensami trudności w ocenie (oszacowaniu) liczby poświadczeń dla konkretnego znaczenia konieczna konsultacja leksykograficzna

Publikacje Rudnicka, E., Piasecki, M., Piotrowski, T. Grabowski, Ł., Bond, F. 2017. `Mapping wordnets from the perspective of inter-lingual equivalence. Cognitive Studies 17. Rudnicka, E., Bond, F., Grabowski, Ł., Piasecki, M., Piotrowski, T. 2017. `Towards Equivalence Links between Senses in plwordnet and Princeton WordNet. Lodz Papers in Pragmatics. Vol. 13, No 1. Rudnicka, E., Bond, F., Grabowski, Ł., Piasecki, M., Piotrowski, T. 2018. ` Lexical Perspective on Wordnet to Wordnet Mapping. Proceedings of IX Global WordNet Conference, Singapur. W druku: Rudnicka, E., Piasecki, M., Bond, F., Grabowski, Ł., Piotrowski, T. 2019. Sense equivalence in plwordnet to Princeton WordNet mapping. International Journal of Lexicography.

Prace realizowane w ramach projektu CLARIN (MNiSW) i NCN Harmonia 7 Ekwiwalencja międzyjęzykowa w leksykalnych bazach danych, Nr UMO-2015-/18/M/HS2/00100.