Tłumacz i dane językowe: poszukiwanie odpowiedników znaczeniowych w sieciach leksykalno-semantycznych dr Ewa Rudnicka ewa.rudnicka@pwr.edu.pl mgr inż. Tomasz Naskręt tomasz.naskret@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19
Plan CLARIN-PL Dwujęzyczna Słowosieć Strona Słowosieci i aplikacja WordNetLoom Przykłady zastosowania Dwujęzycznej Słowosieci w pracy tłumacza Ekwiwalencja
CLARIN-PL polski węzeł ogólnoeuropejskiej infrastruktury naukowej CLARIN ERIC (Common Language Resources and Technology Infrastructure) https://www.clarin.eu/ Wsparcie dla badaczy z nauk humanistycznych i społecznych Politechnika Wrocławska lider konsorcjum CLARIN-PL http://clarin-pl.eu Zasoby i narzędzia językowe http://clarin-pl.eu/pl/uslugi/ Leksykalne bazy danych (wordnety) Korpusy (elektroniczne zbiory tekstów) Tagery, parsery, (narzędzia przetwarzania tekstu) Ekstrakcja informacji z tekstu
Zasoby językowe Jedno-, dwu- i wielojęzyczne zasoby leksykalne i tekstowe: Dwujęzyczna Słowosieć polsko-angielski wordnet (PWr) http://plwordnet.pwr.edu.pl/wordnet/ HASK polsko-angielski słownik kolokacji (UŁ) http://pelcra.pl/hask_pl/ Paralela polsko-angielski korpus paralelny (UŁ) http://paralela.clarin-pl.eu/ Platforma Leksykalna (PWr) słowniki różnego typu http://lexp.clarin-pl.eu/ Korpusy paralelne: polsko-litewski, polsko-ukraiński, polsko-bułgarski, polsko-rosyjski (IS PAN) http://kontext.clarin-pl.eu/
WordNet
Princeton WordNet i English WordNet 2019 Princeton WordNet (Fellbaum 1998) Pierwszy na świecie zasób typu wordnet The mother of all wordnets https://wordnet.princeton.edu/ English WordNet 2019 (McCrae, Rademaker, Bond, Rudnicka, Fellbaum 2019) https://en-word.net/ Nowa inicjatywa (otwarta dla wszystkich) https://github.com/globalwordnet/english-wordnet
Dwujęzyczna Słowosieć (1) Wielka polsko-angielska sieć leksykalno-semantyczna: ok 255 000 polsko-angielskich haseł obecnie największy słownik polsko-angielski dostępny na całkowicie otwartej licencji Powstaje w wyniku powiązania Słowosieci: z WordNetem princetońskim (Princeton WordNet) i jego rozszerzeniem enwordnetem (Rudnicka et al. 2015) (ok 10 000 nowych angielskich haseł)
Podstawowe elementy Jednostki leksykalne lemat + część mowy + numer znaczenia Synsety zbiory synonimicznych jednostek leksykalnych Relacje jednostek leksykalno-semantyczno (często derywacyjne) Relacje synsetów semantyczne, np. hiponimia, meronimia Międzyjęzykowe relacje synsetów Międzyjęzykowe relacje jednostek (relacje ekwiwalencji)
Dwujęzyczna Słowosieć (2) Bogata sieć relacji międzyjęzykowych: Priorytetowa synonimia rozumiana jako (pełna) ekwiwalencja Najczęstsza hiponimia powodowana licznymi różnicami pomiędzy językami i wordnetami Synonimia częściowa i międzyrejestrowa w przypadku niepełnej ekwiwalencji Typ/egzemplarz dla nazw własnych Dodatkowe relacje doprecyzowujące znaczenie: Meronimia/holonimia Synonimia międzyparadygmatyczna (przymiotnik-rzeczownik) Specyficzne relacje czasownikowe
Przykład synsetu enwordnet
Typy powiązań Powiązania pomiędzy synsetami (zbiorami synonimów) Słowosieci i WordNetu princetońskiego i enwordnetu Tylko czasem powiązanie 1-1 ( hasło do hasła ): {kompilator (os) 2} I-syn {compiler (os) 1} Często powiązania: kilka kilka: {glosariusz 1, glosarium 1} I-syn {glossary 1, gloss 2} 1 kilka: {hasło 4} I-syn {lexical entry 1, dictionary entry 1} Kilka -1: {lemat 2, forma podstawowa 1} I-syn {lemma 1}
Proces konstrukcji Rzutowanie tj. powiązanie dwóch sieci na podstawie podobieństw w ich strukturze poprzez łączenie odpowiadających sobie fragmentów grafów Wszystkie powiązania tworzone ręcznie Przy wsparciu systemów automatycznych podpowiedzi Szczegółowe procedury rzutowania, dedykowane dla różnych części mowy Bogaty zestaw relacji międzyjęzykowych
Aktualności Zasób w trakcie ciągłego rozwoju Uzupełnienia rzutowania WordNetu princetońskiego: Rzeczowniki 83 694 (ok 92%) Przymiotniki 7 986 (ok 44%) Przysłówki 1 754 (ok 49%) Czasowniki 1 488 (ok 11%) Podążanie za rozbudową Słowosieci i powiązanie: Rzeczowniki 130 959 (99%) Przymiotniki 45 907 (99,5%) Przysłówki 10 732 (95%) Czasowniki 3 108 (10%)
Zastosowania Dwujęzycznej Słowosieci (1) nauka i dydaktyka języków obcych budowa narzędzi dydaktycznych do nauki języków obcych (np. CloudNet Word Cloud Generator www.cloud-net.pl, dr Monika Madej UŁ) budowa słowników dwu- i wielojęzycznych: (np. Ling.pl, Glosbe, Miłkowski, BabelNet, Kamusigold.org, PONS) wsparcie w przekładzie i tłumaczeniu maszynowym (Google Translate) językoznawcze badania porównawcze
Zastosowania Dwujęzycznej Słowosieci (2) inspiracja dla rozwoju wordnetów dla innych języków (np. DanNet, Portuguese WordNet, CROWN) Integracja z Open Multilingual WordNet (wielojęzyczna platforma skupiająca wordnety dostępne na otwartej licencji (ponad 100 języków) http://compling.hss.ntu.edu.sg/omw/ Półautomatyczne rzutowanie ontologii SUMO na Słowosieć Półautomatyczne rzutowanie różnych tezaurusów dziedzinowych na Słowosieć (projekt AZON) Dwujęzyczne ujednoznacznianie znaczeń (WSD)
Open Multilingual Wordnet
Praca tłumacza - sytuacje Sytuacja 1: Znane słowo w nieznanym kontekście Sytuacja 2: Znane słowo, nieznany odpowiednik Sytuacja 3: Nie jesteśmy pewni znaczenia w języku źródłowym i nie znamy jego odpowiednika w języku docelowym Sytuacja 4: nowe słowo w języku źródłowym
Przykład 1 (1): Znane słowo w nieznanym kontekście: After I finished studying for my courses one weekend, I called my mum. I told her that we were going to have a confirmation service during chapel, and I was not looking forward to attending. The topics chosen for chapel often seemed negative and left me feeling down. Encountering Angels: True Stories of How They Touch Our Lives Every Day, by Judith MacNutt (2016), Chosen Books* Jednostki leksykalne Princeton WordNet: chapel 1 (wytw) chapel 2 (czy)
Przykład 1 (2) Właściwy synset PWN: Glosa i przykład: {chapel service 1, chapel 2} (czy) 'a service conducted in a place of worship that has its own altar; he was late for chapel' Hiponimia do: {service 3, religious service 1, divine service 1} 'the act of public worship following prescribed rules 1} Synonimia międzyjęzykowa do {nabożeństwo
Przykład 2 (1) Nie jesteśmy pewni znaczenia w języku źródłowym i nie znamy jego odpowiednika w języku docelowym Kiedy przechodząc do kuchni pokonuje próg, balkonik, o który się opiera, wydaje cichy, ale wyraźny stukot. (Super Express, 2006; PWN_1302900002719)
Przykład 2 (2) {balkonik 1} (wytw) specjalne urządzenie na kółkach, przy pomocy którego osoby starsze, niepełnosprawne i mające problem z chodzeniem, mogą się łatwiej poruszać {balkonik 2} (msc) Nacechowanie (diminutywność) to {balkon 1} element architektoniczny, przestrzeń wystająca poza mury budynku, często ogrodzona balustradą {balkonik 3; balkonetka 1} (wytw) rodzaj biustonosza z miseczkami skrojonymi z trzech części, który podnosi i zaokrągla piersi
Sytuacja 2 (3) Kiedy przechodząc do kuchni pokonuje próg, balkonik, o który się opiera, wydaje cichy, ale wyraźny stukot. Właściwy synset Słowosieci {balkonik 1} (dziedzina: wytwór) specjalne urządzenie na kółkach, przy pomocy którego osoby starsze, niepełnosprawne i mające problem z chodzeniem, mogą się łatwiej poruszać Hiponimia do {chodzik 1} {podpora 1; podpórka 1; podparcie 2} Synonimia międzyjęzykowa do {walker 5; Zimmer frame 1; Zimmer 1} a light enclosing framework (trade name Zimmer) with rubber castors or wheels and handles
Przykład 3 (1) nieznane słowo (...) w zamyśleniu, z opuszczoną czarną głową przypominał psa myśliwskiego z obwisłymi faflami. Borelowski Jan Maria Gisges, p. 70
Przykład 3 (2) Synset Słowosieci: {fafle 1} (czc): hiponimia do {warga 1} (czc), meronimia części do {pies myśliwski 1} (zw), synonimia międzyjęzykowa do {flews 1} (czc) Synset Princeton WordNet: {flews 1} (czc) 'the fleshy hanging upper lip of a bloodhound or similar dog' hiponimia do {overlip 1} (czc)
Przykład 3 (3) 'His jowls hung in flaps like the flews of a hound, and he held the long gun behind him, run down back of his leg. Cold Mountain (przykład z wordnik.com) Its eyes are one of the Bloodhound's most well-known characteristics. They are deeply sunk in the orbits, and the lids have a lozenge or diamond shape. This is because the lower lids are dragged down and turned outward by the heavy flews. This can cause eye problems if the flews are too heavy, so a good breeder goes for moderation rather than exaggeration. Bloodhounds: Everything about Purchase, Care, Nutrition, Breeding, Behavior, and Training, Kim Campbell Thornton, Michele Earle-Bridges, p. 52
Przykład 4 (1) At Low Mass with a congregation present, or if the church is large, incense may be blessed beforehand by the celebrant. At Missa Cantata, or Low Mass with an opening hymn, the thurible may be taken in procession. Cooper, I. (2010). Ceremonies of The Young Rite, p. A-3
Przykład 4 (2) Właściwy synset w Princeton WordNet {low mass 1} a Mass recited without music Hypernymy to {Mass 4} (Roman Catholic Church and Protestant Churches) the celebration of the Eucharist Synonimia międzyjęzykowa do {cicha msza 1} msza, podczas której nie ma muzyki, diakona ani subdiakona, a na ołtarzu palą się dwie świece; inaczej nazywana mszą czytaną
Przykład 4 (3) {thurible 1; censer 1} a container for burning incense (especially one that is swung on a chain in a religious ritual) Hiponimia do {vessel 3} an object used as a container (especially for liquids) Synonimia to {kadzielnica 1; trybularz 1} naczynie kościelne, które służy do spalania kadzidła {celebrant 1; celebrater 1; celebrator 1} A person who is celebrating {celebrant 2} an officiating priest celebrating the Eucharist
Przykład 4 (4) Właściwy synset w Princeton WordNet {celebrant 2} an officiating priest celebrating the Eucharist Hiponimia do {priest 1} a clergyman in Christian churches who has the authority to perform or administer various religious rites Synonimia międzyjęzykowa do {celebrans 1; celebrant 1; oficjant 1} duchowny odprawiający nabożeństwo
Projekt NCN Ekwiwalencja międzyjęzykowa w leksykalnych bazach danych Prace realizowane w ramach projektu NCN Harmonia 7 Zespół dr Ewa Rudnicka (PWr) dr hab. Maciej Piasecki (PWr), prof. Tadeusz Piotrowski (UWr), prof. Francis Bond (NTU), dr hab Łukasz Grabowski (UO)
Motywacja dla rzutowania jednostek Możliwość ustalenia dokładniejszych powiązań: {złoton:3, Aun:1}PL synonimia międzyjęzykowa {goldn:3, Aun:1, atomic number 79n:1}EN złoton:3pl - goldn:3en Aun:1PL - Aun:1EN
Cel i założenia Budowa powiązania pomiędzy jednostkami leksykalnymi Podstawa: Relacje międzyjęzykowe między synsetami: Synonimia Synonimia częściowa Hiponimia Potrzebne: Cechy ekwiwalencji Typy relacji ekwiwalencji Procedura powiązania Efekt: Dokładniejsze powiązania
Cechy ekwiwalencji (1) Formalne Część mowy: zgodność wynikająca z rzutowania synsetów Liczba: Wyjątki: singularia i pluralia tantum Policzalność: Wyjątki: rzeczowniki policzalne vs niepoliczalne Rodzaj: dla rzeczowników ożywionych
Cechy ekwiwalencji (2) Semantyczno-pragmatyczne Znaczenie: definiowane na podstawie sieci relacji i glos Zakres leksykalizacji: Porównanie denotacji Rejestr i styl: na podstawie rejestrów Słowosieci, relacji i słowników Kolokacje: na podstawie słowników Kontekst zdaniowy na podstawie korpusów Kontekst sytuacyjny i wiedza o świecie
Cechy ekwiwalencji (3) Tłumaczeniowe: Częstość występowania w słownikach dwujęzycznych jako ekwiwalent Miejsce wśród ekwiwalentów słownikowych Kierunkowość tłumaczenia Przekładalność (prawdopodobieństwo przekładu) na podstawie danych z polsko-angielskiego korpusu równoległego Paralela (Pęzik et al 2016) Unikalność powiązania
Ekwiwalencja silna Tożsamość znaczenia Podobieństwo w leksykalizacji pojęć Zgodność rejestrów Współdzielony zbiór typowych kontekstów zdaniowych Pierwszy ekwiwalent w słownikach Dwukierunkowość (ale nie unikalność) tłumaczenia Preferowane częste poświadczenia w korpusie równoległym
Przykłady drzwi:1 I-syn door:1 grzmot:1 I-syn thunder:2 narzeczona:1 I-syn fiancee:1 centrala:2 I-syn headquarters:1 gruba ryba:1 I-partial-syn big fish:1 okulary:1 I-syn glasses:3 Dla wszystkich par: tożsamość znaczenia i rejestru, częste występowanie jako ekwiwalenty w słownikach, często jako pierwsze, wiele poświadczeń w korpusie równoległym
Ekwiwalencja regularna Duże podobieństwo znaczeń Niewielkie różnice w leksykalizacji pojęć Zgodność rejestrów Współdzielony zbiór typowych kontekstów zdaniowych Ekwiwalenty w słownikach Dwukierunkowość (ale nie unikalność) tłumaczenia Preferowane poświadczenia w korpusie równoległym
Przykłady zabytek:1 I-partial-syn monument:2 Luka leksykalna po stronie angielskiej narzeczona:1 I-syn bride-to-be:1 Dodatkowa specyfikacja znaczenia po stronie angielskiej; mało poświadczeń w korpusie centrala:2 I-syn central office:1 mało poświadczeń w korpusie
Ekwiwalencja słaba Polsko-angielskie pary jednostek leksykalnych z synsetów powiązanych: Synonimią międzyjęzykową Międzyjęzykową synonimią częściową Hiponimią międzyjęzykową Pary jednostek, które mogą być użyte jako swoje odpowiedniki tłumaczeniowe (także jako składowe ekwiwalentów opisowych, w ujęciu Svensena 2009)
Przykłady centrala:2 - main office:1, home office:2, home base:2 bardzo mało albo brak poświadczeń korpusowych {stachanowiec:1, przodownik pracy:1} I-hypo {toiler:1} model worker who greatly exceeds the quota ( modelowy pracownik pracujący znacznie powyżej normy ) luka kulturowa, brak bezpośredniego ekwiwalentu
Procedura rzutowania jednostek Weryfikacja cech: Formalnych, Semantyczno-pragmatycznych Tłumaczeniowych Podjęcie decyzji o typie powiązania ekwiwalencji: Silny Regularny Słaby Brak W trakcie całej procedury: Weryfikacja błędów, niezgodności, braku informacji (ozn. błąd)
Weryfikacja procedury Procedura zweryfikowana na losowej próbie par jednostek leksykalnych wydobytych z synsetów powiązanych: Synonimią międzyjęzykową Międzyjęzykową synonimią częściową Hiponimią międzyjęzykową Proporcjonalnie dla każdej relacji i typu powiązania (1-1, 1 do wielu, wiele do 1, wiele do wielu) Wydobyto 100 losowych zbiorów z 10 przykładami dla każdej z 12 klas
Wyniki Próbka pierwsza: zgodność całkowita: 75% zgodność typów ekwiwalencji 67% Próbka druga i trzecia: zgodność całkowita: 65% zgodność typów ekwiwalencji: 71%
Wyzwania lematy polisemiczne brak korpusów paralelnych oznaczonych sensami trudności w ocenie (oszacowaniu) liczby poświadczeń dla konkretnego znaczenia konieczna konsultacja leksykograficzna
Publikacje Rudnicka, E., Piasecki, M., Piotrowski, T. Grabowski, Ł., Bond, F. 2017. `Mapping wordnets from the perspective of inter-lingual equivalence. Cognitive Studies 17. Rudnicka, E., Bond, F., Grabowski, Ł., Piasecki, M., Piotrowski, T. 2017. `Towards Equivalence Links between Senses in plwordnet and Princeton WordNet. Lodz Papers in Pragmatics. Vol. 13, No 1. Rudnicka, E., Bond, F., Grabowski, Ł., Piasecki, M., Piotrowski, T. 2018. ` Lexical Perspective on Wordnet to Wordnet Mapping. Proceedings of IX Global WordNet Conference, Singapur. W druku: Rudnicka, E., Piasecki, M., Bond, F., Grabowski, Ł., Piotrowski, T. 2019. Sense equivalence in plwordnet to Princeton WordNet mapping. International Journal of Lexicography.
Prace realizowane w ramach projektu CLARIN (MNiSW) i NCN Harmonia 7 Ekwiwalencja międzyjęzykowa w leksykalnych bazach danych, Nr UMO-2015-/18/M/HS2/00100.