Dwujęzyczna Słowosieć

Podobne dokumenty
Dwujęzyczna Słowosieć możliwości wykorzystania w pracy tłumacza i w analizie porównawczej

Słowosiec leksykalna siec semantyczna języka polskiego i jej zastosowania

Open Access w technologii językowej dla języka polskiego

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowania

Program warsztatów CLARIN-PL

MAREK MAZIARZ MACIEJ PIASECKI EWA RUDNICKA

Rzutowanie Słowosieci na pojęcia ontologii SUMO i inne zasoby semantyczne

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

S owosiec leksykalna siec semantyczna jezyka polskiego i jej zastosowania

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Słowosieć jako narzędzie wspomagające pracę tłumacza

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Słowosieć - polskie zasoby leksykalne i możliwość ich wykorzystania

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Narzędzia do automatycznego wydobywania kolokacji

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania kolokacji

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen

Automatyczne rozpoznawanie polskich leksykalnych relacji derywacyjno-semantycznych

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Domy inaczej pomyślane A different type of housing CEZARY SANKOWSKI

An employer s statement on the posting of a worker to the territory of the Republic of Poland

IBM Skills Academy SZKOLENIA I CERTYFIKATY

POLITYKA PRYWATNOŚCI / PRIVACY POLICY

Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Admission to the first and only in the swietokrzyskie province Bilingual High School and European high School for the school year 2019/2020

Oxford PWN Polish English Dictionary (Wielki Slownik Polsko-angielski)

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

CPX Cisco Partner Excellence CSPP program partnerski

Surname. Other Names. For Examiner s Use Centre Number. Candidate Number. Candidate Signature

Rozwiązywanie dysambiguacji za pomocą lingwistycznej sieci symantycznych relacji leksykalnych na przykładzie systemu WordNet

Kraków, 14 marca 2013 r.

CLARINPL. wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych CLARIN-PL. Jan Wieczorek Maciej Piasecki

PLSH1 (JUN14PLSH101) General Certificate of Education Advanced Subsidiary Examination June Reading and Writing TOTAL

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

SNP SNP Business Partner Data Checker. Prezentacja produktu

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to students

SNP Business Partner Data Checker. Prezentacja produktu

HAPPY ANIMALS L01 HAPPY ANIMALS L03 HAPPY ANIMALS L05 HAPPY ANIMALS L07

HAPPY ANIMALS L02 HAPPY ANIMALS L04 HAPPY ANIMALS L06 HAPPY ANIMALS L08

Traceability. matrix

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Polski Krok Po Kroku: Tablice Gramatyczne (Polish Edition) By Anna Stelmach

- lecie niepodległości

TECHNOLOGIA BLUETOOTH: Wykaz telefonów przetestowanych i polecanych przez RENAULT. Szara linia: Gray line:

deep learning for NLP (5 lectures)

Konsorcjum Śląskich Uczelni Publicznych

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

European Crime Prevention Award (ECPA) Annex I - new version 2014

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

SEMANTYCZNE ZNACZNIKOWANIE ARTYKUŁÓW WIKIPEDII SYNSETAMI SŁOWNIKA WORDNETA 1

Automatyczne generowanie testów z modeli. Bogdan Bereza Automatyczne generowanie testów z modeli

Tychy, plan miasta: Skala 1: (Polish Edition)

Zastosowanie Wikipedii w przetwarzaniu języka naturalnego

IV Konkurs Translatorski dla uczniów szkół gimnazjalnych i ponadgimnazjalnych

Systemy agentowe. Uwagi organizacyjne i wprowadzenie. Jędrzej Potoniec

Course type* German I BA C 90/120 WS/SS 8/9. German I BA C 30 WS 2. English I BA C 60/90 WS/SS 5/6. English I BA C 30 WS 2. German I BA L 30 WS 4

Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1

Please fill in the questionnaire below. Each person who was involved in (parts of) the project can respond.

Ćwiczenia na egzamin - zaliczenie różnic programowych

Instrukcja obsługi. binding machine KRIS. instruction manual GDAŃSK ul. Krynicka 1 tel.: (058) fax: (058) ODDZIAŁ:

Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO

Klaps za karę. Wyniki badania dotyczącego postaw i stosowania kar fizycznych. Joanna Włodarczyk

Council of the European Union Brussels, 7 April 2016 (OR. en, pl)

Wpływ dyrektywy PSD II na korzystanie z instrumentów płatniczych. Warszawa, 15 stycznia 2015 r. Zbigniew Długosz

MS Visual Studio 2005 Team Suite - Performance Tool

Stargard Szczecinski i okolice (Polish Edition)

Sustainable mobility: strategic challenge for Polish cities on the example of city of Gdynia

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

UWAGA!!!! Nie odsyłać do Spółki ATTENTION!!!!! Do not send it to the Company

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

EXAMPLES OF CABRI GEOMETRE II APPLICATION IN GEOMETRIC SCIENTIFIC RESEARCH

EGZAMIN MATURALNY Z JĘZYKA ANGIELSKIEGO POZIOM ROZSZERZONY MAJ 2010 CZĘŚĆ I. Czas pracy: 120 minut. Liczba punktów do uzyskania: 23 WPISUJE ZDAJĄCY

Angielski bezpłatne ćwiczenia - gramatyka i słownictwo. Ćwiczenie 7

WordNet. Leksykograficzny słownik języka angielskiego obecnie w wersji 3.1

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

Dominika Janik-Hornik (Uniwersytet Ekonomiczny w Katowicach) Kornelia Kamińska (ESN Akademia Górniczo-Hutnicza) Dorota Rytwińska (FRSE)

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to teachers

NAUKA JĘZYKÓW OBCYCH. JĘZYKOZNAWSTWO

KOMUNIKACJA W ŚRODOWISKU EUROPEJSKIM

y = The Chain Rule Show all work. No calculator unless otherwise stated. If asked to Explain your answer, write in complete sentences.

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)


WYDZIAŁ BIOLOGII I OCHRONY ŚRODOWISKA

ARKUSZ PRÓBNEJ MATURY Z OPERONEM JĘZYK ANGIELSKI

CLARIN-PL w praktyce badawczej

photo graphic Jan Witkowski Project for exhibition compositions typography colors : : janwi@janwi.com

Arkusz zawiera informacje prawnie chronione do momentu rozpoczęcia egzaminu.

PLSH1 (JUN12PLSH101) General Certificate of Education Advanced Subsidiary Examination June Reading and Writing TOTAL

****/ZN/2012. if you are pregnant or breast-feeding.

Angielski Biznes Ciekawie

Wykaz linii kolejowych, które są wyposażone w urządzenia systemu ETCS

Transkrypt:

CLARIN-PL Dwujęzyczna Słowosieć Ewa Rudnicka Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 ewa.rudnicka@pwr.wroc.pl

Dwujęzyczna Słowosieć Warsztaty CLARIN-PL Poznań 2018 CLARIN-PL Wielka polsko-angielska sieć leksykalno-semantyczna Powstaje w wyniku: powiązania Słowosieci z WordNetem princetońskim i jego rozszerzeniem enwordnetem Obecnie największy słownik polsko-angielski dostępny na całkowicie otwartej licencji Stanowi bramę do wielojęzycznych zasobów europejskich i światowych (Platforma Leksykalna, Open Multilingual WordNet)

Graf Dwujęzycznej Słowosieci Warsztaty CLARIN- PL Warszawa 29-30 V 2017 CLARIN-PL {słownik 1} I-syn częściowa {dictionary 1}

Zastosowania Dwujęzycznej Słowosieci (1) Warsztaty CLARIN-PL Poznań 2018 CLARIN-PL nauka i dydaktyka języków obcych budowa narzędzi dydaktycznych do nauki języków obcych (np. Cloud Net, dr Monika Madej UŁ) budowa słowników dwu i wielojęzycznych: (np. Ling.pl, Glosbe, Miłkowski, BabelNet, Kamusigold.org, PONS) wsparcie w przekładzie i tłumaczeniu maszynowym (Google Translate) językoznawcze badania porównawcze

Zastosowania Dwujęzycznej Słowosieci (2) Warsztaty CLARIN-PL Poznań 2018 CLARIN-PL inspiracja dla rozwoju wordnetów dla innych języków (np. DanNet, Portuguese WordNet) Integracja z Open Multilingual WordNet (wielką wielojęzyczną platformą skupiającej wordnety dostępne na otwartej licencji (ponad 100 języków) Półautomatyczne rzutowanie ontologii SUMO na Słowosieć Półautomatyczne rzutowanie różnych tezaurusów dziedzinowych na Słowosieć (projekt AZON) Dwujęzyczne ujednoznacznianie znaczeń (WSD)

Zastosowania Dwujęzycznej Słowosieci ŁÓdź XII 2017 Rada Programowa CLARIN-PL CLARIN-PL Budowa słowników dwu i wielojęzycznych (np. Ling.pl, Glosbe, Miłkowski) Budowa narzędzi dydaktycznych do nauki języków obcych Wsparcie w nauce języków obcych Wsparcie w tłumaczeniach Tłumaczenie maszynowe (Google Translate) Badania porównawcze i inspiracja dla rozwoju wordnetów dla innych języków Integracja z Open Multilingual WordNet światową platformą połączonych zasobów językowych

Zastosowania Dwujęzycznej Słowosieci ŁÓdź XII 2017 Rada Programowa CLARIN-PL CLARIN-PL Budowa słowników dwu i wielojęzycznych (np. Ling.pl, Glosbe, Miłkowski) Budowa narzędzi dydaktycznych do nauki języków obcych Wsparcie w nauce języków obcych Wsparcie w tłumaczeniach Tłumaczenie maszynowe (Google Translate) Badania porównawcze i inspiracja dla rozwoju wordnetów dla innych języków Integracja z Open Multilingual WordNet światową platformą połączonych zasobów językowych

Typy powiązań Powiązania pomiędzy synsetami (zbiorami synonimów) Słowosieci i WordNetu princetońskiego oraz enwordnetu Tylko czasem powiązanie 1-1 ( hasło do hasła ): {kompilator (os) 2} I-syn {compiler (os) 1} Często powiązania: kilka kilka: {glosariusz 1, glosarium 1} I-syn {glossary 1, gloss 2} 1 kilka: {hasło 4} I-syn {lexical entry 1, dictionary entry 1} Kilka -1: {lemma 1, forma podstawowa} I-syn {lemat 1}

Proces konstrukcji Warsztaty CLARIN-PL Poznań 2018 CLARIN-PL Rzutowanie tj. powiązanie dwóch sieci na podstawie podobieństw w ich strukturze poprzez łączenie odpowiadających sobie fragmentów grafów Wszystkie powiązania tworzone ręcznie Przy wsparciu systemów automatycznych podpowiedzi Szczegółowe procedury rzutowania, dedykowane dla różnych części mowy Bogaty zestaw relacji międzyjęzykowych

. Relacje międzyjęzykowe (1) Inspirowane: relacjami międzyjęzykowymi z EuroWordNetu (ang. Equivalence Relations, Vossen 2002) wewnętrznymi relacjami Słowosieci (Maziarz et al. 2013) opracowano definicje, testy podstawieniowe i hierarchię wprowadzania (cf. Rudnicka et al. 2012)

Relacje międzyjęzykowe (2) Synonimia (rozumiana jako ekwiwalencja) Synonimia częściowa Synonimia międzyrejestrowa Hiponimia Hiperonimia Typ Egzemplarz Meronimia Holonimia Synonimia międzyparadygmatyczna Szczegółowe relacje czasownikowe

Synonimia Synonimia - oznacza dużą odpowiedniość znaczeń i struktur; traktowana jako podstawowa i priorytetowa relacja; może być tylko jedna dla jednego synsetu Synonimia częściowa - stosowana w przypadku częściowej odpowiedniości znaczeń i/lub struktur Synonimia międzyrejestrowa - dla odpowiedników znaczeniowych różniących się rejestrami stylistycznymi

Synonimia częściowa Przykład

Relacje międzyjęzykowe (2) Hiponimia i hiperonimia zdefiniowane są w ramach zawierania się denotacji zbiorów: hiponim odnosi się do obiektu, który zawiera się w zbiorze denotatów hiperonimu Meronimia międzyjęzykowa oznacza część większej całości Holonimia międzyjęzykowa oznacza całość składającą się z mniejszych części

Hiponimia i meronimia

Wnioski Wyraźny prymat synonimii i hiponimii nad pozostałymi relacjami międzyjęzykowymi Wyraźna, dwukrotna przewaga w liczności relacji hiponimii międzyjęzykowej nad synonimią międzyjęzykową Duża liczba synonimii międzyparadygmatycznej dla przymiotnika

Plany Warsztaty CLARIN-PL Poznań 2018 CLARIN-PL Kontynuacja uzupełniania rzutowania w kierunku ANG-PL oraz na bieżąco PL-ANG (wraz z rozbudową Słowosieci) Rozszerzenie rzutowania do poziomu jednostek leksykalnych (przy wykorzystaniu wyników pilotażowego projektu 'Ekwiwalencja w leksykalnych bazach danych' w ramach konkursu NCN Harmonia 7) Stworzenie siatki silnych i regularnych odpowiedników tłumaczeniowych Kontynuowanie budowy enwordnetu

Przykład 1 (1) 'grzebień znane słowo, nieznany odpowiednik Jednym z przyjaciół Frediego był kogut. Był to odważny, dumny ptak o imieniu Klemens. Miał on zawsze pierś dumnie wypiętą do przodu, dziób w górze i sterczący grzebień. Magiczna bajaderka: Antologia bajek p. 184 Jednostki Słowosieci: grzebień 1 (wytw) grzebień 2 (czc) grzebień 3 (czc) grzebień 4 (wytw) grzebień 5 (jedz) grzebień 6 (czc) grzebień 7 (wytw) grzebień 8 (czc)

Przykład 1 (2) Synsety Słowosieci: {grzebień 2} (czc) 'wyrostek na głowie niektórych ptaków i gadów (u gadów może to być szereg wyrostków nie tylko na głowie, ale też wzdłuż grzbietu i ogona) hiperonimia do {wyrostek 1} (czc), {grzebień 3} (czc) hiperonimia do {sierść 1} {grzebień 6} (czc) meronimia części do {mostek 3} {grzebień 8} (czc) hiperonimia do {element anatomiczny 1} meronimia części do {kość 1}

Przykład 1 (3) {grzebień 2} (czc) Synonimia międzyjęzykowa do {crest 5} 'a showy growth of e.g. feathers or skin on the head of a bird or other animal' hiperonimia do {process 5} (czc), hiponimia do {comb 2, cockscomb 4, coxcomb 3} (zw), {topknot 2} (zw), {tuft 2} (zw) Now the rooster is an entirely different sort of bird from the hen. It is very proud and has a red crest on the top of his head. The Benchley Roundup: A Selection by Nathaniel Benchley of His Favourites, Robert C. Benchley, Nathaniel Benchley, p. 95

Przykład 2 (1) Znane słowo (lub lemat) w nieznanym kontekście: We have services for all of them. Or maybe you don't believe in any God. In that case you go to the library during chapel. But we don't have any Buddhist. Eagle Station, Autor: Mark Berent Jednostki leksykalne Princeton WordNet: chapel 1 (wytw) chapel 2 (czy)

Przykład 2 (2) Właściwy synset PWN: Glosa i przykład: {chapel service 1, chapel 2} (czy) 'a service conducted in a place of worship that has its own altar; he was late for chapel' Hiperonimia do: {service 3, religious service 1, divine service 1} 'the act of public worship following prescribed rules Synonimia międzyjęzykowa do {nabożeństwo 1}

Przykład 3 (1) Nie znamy odpowiednika lub chcemy zweryfikować znany odpowiednik W stanach przewlekłych stosować można wcierki rozgrzewające, lub blistry http://starywww.up.wroc.pl/polish/struktura/wet/kkc/cwicze nia/ortopedia_kop.html Jaką formę bazową wyszukamy?

Przykład 3 (2) Warsztaty CLARIN- PL Poznań 2018 Synsety Słowosieci: {blister 1} (wytw) hiperonimia do {opakowanie 2} CLARIN-PL synonimia międzyjęzykowa do {blister pack 1, bubble pack 1} {blister 2} (il) hiperonimia do {zawartość 3} hiponimia międzyjęzykowa do {containerful 1} {blistr 1} (sbst): hiperonimia do {maść 1}; synonimia międzyjęzykowa do {blister 4} hiponimia do {liniment 1}

Przykład 3 (2) Harltons Liquid Blister is a counter irritant with penetrating action for use in the blistering of horses legs. http://www.allvetsupply.com/halibl12.html If a paint or blister has been used, the leg should not be bandaged as the chemicals under the bandages may severly irritate the horse s skin even more. https://books.google.pl/books? id=i_in_eyz0nmc&pg=pa223&lpg=pa223&dq=apply+blis ter+horses+legs&source=bl&ots=vlf-lndrwt&sig=4b8wf9p_iaaqqjzvp3gtj6bmx4&hl=en&sa=x&ei=38mqvdpa KoPMygPXvIHoAg&ved=0CF4Q6AEwCA#v=onepage&q= apply%20blister%20horses%20legs&f=false

Bond, F., Fellbaum, Ch., Hsieh, S., Huang, Ch., Pease, A. and P. Vossen (2014). A Multilingual Lexico-Semantic Database and Ontology. In Towards the Multilingual Semantic Web Paul Buitelaar and Philipp Cimiano (eds), Springer pp. 243 258. (Publisher's page: http://compling.hss.ntu.edu.sg/who/bond/pdf/2014-mswomw.pdf Fellbaum, Ch. (ed). (1998). WordNet: An Electronic Lexical Database. MIT Cambridge, Massachusets. Kędzia, P., Piasecki, M., Rudnicka, E., Przybycień, K. (2013). Automatic Prompt System in the Process of Mapping plwordnet on Princeton WordNet. Cognitive Studies 13: 123-141. Princeton WordNet http://wordnet.princeton.edu/wordnet/ Rudnicka, E., Maziarz, M., Piasecki, M., & Szpakowicz, S. (2012). 'A Strategy of Mapping Polish WordNet onto Princeton WordNet'. In Proceedings of COLING 2012. ACL. Rudnicka, E., Witkowski, W. & Kaliński, M. (2015). Towards the Methodology for Extending Princeton WordNet. Cognitive Studies 15. Słowosieć http://plwordnet.pwr.wroc.pl/wordnet/ Vossen, P. (ed). (2002). EuroWordNet. General Document. Amsterdam. Press:

Najnowsze publikacje Warsztaty CLARIN-PL Poznań 2018 CLARIN-PL Rudnicka, E., Piasecki, M., Piotrowski, T. Grabowski, Ł., Bond, F. 2017. `Mapping wordnets from the perspective of inter-lingual equivalence. Cognitive Studies 17. Rudnicka, E., Bond, F., Grabowski, Ł., Piasecki, M., Piotrowski, T. 2017. `Towards Equivalence Links between Senses in plwordnet and Princeton WordNet. Lodz Papers in Pragmatics. Vol. 13, No 1. Rudnicka, E., Bond, F., Grabowski, Ł., Piasecki, M., Piotrowski, T. 2018. ` Lexical Perspective on Wordnet to Wordnet Mapping. IX Global WordNet Conference, Singapur. W przygotowaniu: Rudnicka, E., Witkowski, W., Piasecki, M. 2018. `enwordnet - a mapping based extension of Princeton WordNet. Linguistic Issues in Language and Technology.

CLARIN-PL Dziękuję bardzo za uwagę