Polskie korpusy równoległe i zasoby wielojęzyczne w projekcie CESAR

Podobne dokumenty
Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Program warsztatów CLARIN-PL

Narzędzia do automatycznego wydobywania kolokacji

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Open Access w technologii językowej dla języka polskiego

Narzędzia do wydobywania słowników związków frazeologicznych i terminów

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Lokalizacja Oprogramowania

Włodzimierz Gruszczyński * Maciej Ogrodniczuk ** Marcin Woliński ** *IJP PAN **IPI PAN

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Korpusy anotowane jako grafowe bazy danych. Piotr Pęzik PELCRA, Uniwersytet Łódzki

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Oprogramowanie typu CAT

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Semantyczna analiza języka naturalnego

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Spis treści tomu pierwszego

FILOLOGIA ANGIELSKA PRAKTYCZNA NAUKA JĘZYKA ANGIELSKIEGO FORMAT EGZAMINÓW. STUDIA I STOPNIA - egzamin osiągnięć po roku 2

Narzędzia do automatycznej analizy odniesień w tekstach

Praktyczna nauka drugiego języka obcego II

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Lokalizacja Oprogramowania

Aplikacja serwerowa Platformy Prezentacyjnej Opis produktu

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

NaCoBeZu na co będę zwracać uwagę. Wymagania do cyklu lekcji dotyczących składni

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

ZAŁĄCZNIK Nr 2 do CZĘŚCI II SIWZ WYCIĄG ZE STANDARDÓW, ZASAD I WZORCÓW INTEGRACYJNYCH OBOWIĄZUJĄCYCH W PSE S.A.

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2017/2018 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

PRZEWODNIK PO PRZEDMIOCIE I. KARTA PRZEDMIOTU: Praktyczna Nauka Języka Angielskiego: leksyka ćwiczenia

Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) prezentacja znakowania morfosyntaktycznego i możliwości wyszukiwarki

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Sprzętowo wspomagane metody klasyfikacji danych

Zaawansowane narzędzie do analizy korpusu w oparciu o reguły

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

CLARIN-PL w praktyce badawczej

JĘZYK ANGIELSKI ĆWICZENIA ORAZ REPETYTORIUM GRAMATYCZNE

1. Opis merytoryczny

Wymagania edukacyjne na poszczególne stopnie szkolne z języka angielskiego w klasie VII

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Co wylicza Jasnopis? Bartosz Broda

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

jest dostępne na różne systemy operacyjne. Niniejsza instrukcja opisuje podstawowe operacje i opcje niezbędne do rozpoczęcia pracy w tym programie.

dlibra 3.0 Marcin Heliński

W tym rozdziale książka opisuje kilka podejść do poszukiwania kolokacji.

Automatyczne generowanie testów z modeli. Bogdan Bereza Automatyczne generowanie testów z modeli

Języki programowania zasady ich tworzenia

KARTA PRZEDMIOTU. Tłumaczenia tekstów zarówno z języka polskiego jak i angielskiego

ANALIZA WYNIKÓW EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

W obrębie polskiego języka narodowego należy wydzielić dwa systemy:

Eksploracja Zasobów Internetu

WK, FN-1, semestr letni 2010 Tworzenie list frekwencyjnych za pomocą korpusów i programu Poliqarp

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Leksykografia elektroniczna Praktyki, metody, narzędzia

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

frazy bezokolicznikowej we współczesnym zdaniu polskim

SPIS TREŚCI. Wstęp 2. Terminy 3 A 3 B 4 C 5 D 6 F 7 G 8 I 9 J 10 K 11 L 12 M 13 N 14 O 15 P 16 R 17 S 18 T 20 U 22 W 23 Ź 24.

PRAKTYCZNE WYKORZYSTANIE KATEGORYZACJI TREŚCI

Kryteria ocen z języka polskiego dla klasy V szkoły podstawowej

INŻYNIERIA RUCHU A KSZTAŁTOWANIE MOBILNOŚCI

Korpus Dyskursu Parlamentarnego

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Wstęp do Językoznawstwa

Wykład V. Rzut okiem na języki programowania. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Wykaz zmian w programie SysLoger

Marcin Miłkowski IFiS PAN

PRÓBNY EGZAMIN GIMNAZJALNY Z NOWĄ ERĄ 2016/2017 JĘZYK POLSKI

Efektywność wyszukiwania informacji w publicznie dostępnych katalogach bibliotek wykorzystujących polskie programy biblioteczne

Wykaz zmian w programie SysLoger

Narodowy Korpus Języka Polskiego

PRZEWODNIK PO PRZEDMIOCIE. I. KARTA PRZEDMIOTU: Praktyczna Nauka Języka Angielskiego: słownictwo CEL PRZEDMIOTU

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2015/2016 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

PLAN ZARZĄDZANIA KONFIGURACJĄ OPROGRAMOWANIA PROJEKT <NAZWA PROJEKTU> WERSJA <NUMER WERSJI DOKUMENTU>

Propozycja badań potrzeb i kompetencji informacyjnych grupy zawodowej tłumaczy t. Krystyna Dziewańska Agnieszka Korycińska-Huras

ADMINISTRACJA ELEKTRONICZNA. Autor: Jacek Janowski

Baza Wiedzy Politechniki Warszawskiej uregulowania prawne, organizacja. Jolanta Stępniak Biblioteka Główna Politechniki Warszawskiej

Wykorzystanie regionalnej biblioteki cyfrowej do tworzenia repozytorium instytucjonalnego

PRZEWODNIK PO PRZEDMIOCIE. I. KARTA PRZEDMIOTU: Praktyczna Nauka Języka Angielskiego: słownictwo Rok I, stopień I, studia stacjonarne

Wyzwania techniczne związane z prezentacją dziedzictwa kulturowego w Internecie

Transkrypt:

Polskie korpusy równoległe i zasoby wielojęzyczne w projekcie CESAR Piotr Pęzik Uniwersytet Łódzki.

META-NET META- NET CESAR IPI PAN & UŁ http://www.meta-net.eu 2

Polskie zasoby w repozytorium META-NET Anotowane korpusy równoległe i korpusy języka mówionego Słowniki morfologiczne, słowniki kolokacji, leksykony Taggery, narzędzia NER

Zasoby wielojęzyczne Korpusy równoległe Słowniki kolokacji wygenerowane z NKJP i BNC Celem projektu CESAR jest zwiększenie ich dostępności (nowe zasoby, swobodne licencje) oraz interoperacyjności (standardy anotacji)

Polskie korpusy równoległe Stosunkowo dużo potencjalnych źródeł danych, ale mocno rozproszone Bardzo różnorodny poziom i formaty anotacji (od czystego tekstu do bogatej anotacji, np. TEI) Niska reprezentatywność gatunkowa (głównie rejestr tekstów prawnych i urzędowych oraz pamięci tłumaczeniowe oprogramowania)

Korpusy równoległe W ramach projektu CESAR: zwiększamy pulę polskich korpusów równoległych poprzez pozyskiwanie nowych danych wzbogacamy anotację bibliograficzną i strukturalną istniejących korpusów uwalniamy korpusy na możliwie swobodnych licencjach

Pozyskiwanie danych

Formaty dystrybucji

XLiFF, TMX, TEI (P5) TEI Standard, bogaty zbiór wytycznych, dobra dokumentacja Dobra obsługa poziomów anotacji strukturalnej, lingwistycznej i bibliograficznej Możliwość anotacji niestandardowych przypadków ekwiwalencji tłumaczeniowej Interoperacyjność? XLiFF TMX Nowy standard branży lokalizacyjnej Lepsza niż w TMX możliwość anotacji formatowania dokumentu Możliwość wykorzystania korpusów jako pamięci tłumaczeniowych w systemach CAT Obsługiwany przez większość CAT-ów Stopniowo zastępowany przez XLiFF, choć nadal zdecydowanie popularniejszy

XLiFF

Nagłówek TEI P5

Nagłówek TEI P5

Tekst równoległy TEI P5

Dodatkowa anotacja segmentów tłumaczeniowych w TEI

TEI vs XLiFF XLiFF ma umożliwiać zachowanie formatowania dokumentów XLiFF jest bardziej interoperacyjny? TEI zdecydowanie bardziej nadaje się do tworzenia anotowanych korpusów Interoperacyjność TEI?

Pierwsza transza polskich korpusów równoległych Korpus Pary języków Poziom zrównoleglenia Format źródłowy Segmenty słów Licencja Academia PAN 1 Zdania (ręcznie) PDF 320K PL 386K EN CC- BY- NC CORDIS 1 (5) Zdania (automatycznie) HTML 3 800K PL 4 150K EN CC- BY RAPID 1 (21) Zdania (automatycznie) HTML 3 250K PL 3 540K EN CC- BY JRC Acquis Communaut aire 1 (21) Zdania (automatycznie) TEI 28 571K PL 32 447K EN CC- BY hmp://pelcra.pl/corpora hmp://bach.ipipan.waw.pl/metashare/

Słowniki kolokacji Słownik wybranych kolokacji angielskich na podstawie korpusu BNC Słownik wybranych kolokacji polskich na podstawie NKJP Na razie są to słowniki kolokacji dwuwyrazowych, zasoby porównywalne, a nie równoległe W ramach CESAR- a zostaną udostępnione w postaci źródłowej Wersja demo BNC: hmp://212.191.73.200/colosaurusweb/ Browser Zastosowania: leksykograficzne, językoznawcze, kulturoznawcze uzupełnienie leksykalnych baz danych o utrwalone relacje syntagmatyczne między wyrazami

Słownik kolokacji a słowosieci Przymiotniki frightening i alarming znajdujemy w tym samym zbiorze synonimów angielskiego Wordnetu Tworzą one jednak różne związki frazeologiczne: hmp://pnyurl.com/7eleweu Ich występowanie w tym samym zbiorze synonimów nie oznacza iż są całkowicie wymienne tekstowo

Spektrum frazeologiczne Phrasemes Referenpal Textual Communicapve, Complex preposipons, Complex conjuncpons, Linking adverbials, Textual sentence stems Speech act & arpdunal formulae, Proverbs, Commonplaces, Slogans, Idiomapc sentences, Quotapons (Burger 1998), (Granger & Paquot 2004)

Typy kolokacji leksykalnych I Lexical collocapons Token- Bound strong tea Free? buy coffee Type- bound grind coffee (Marpn 2004)

Typy kolokacji II Lexical collocapons Ill- formed collocapons By and large Defecpve collocapons beg the ques<on Cranberry collocapons put the kibosh on zbić z pantałyku (Moon 1998)

Badanie statusu frazeologizmu Cechy dystrybucyjne połączeń wyrazowych nie zawsze pozwalają wykryć jego status frazeologiczny W różnych opracowaniach liczba kryteriów jednostki frazeologicznej waha się od 5-7 do niemal 20 (Chlebda 1991, 2003) Ważnym kryterium frazeologicznych jest jednak odtwarzalność i dlatego identyfikacja wybranych kolokacji na podstawie dużych korpusów jest możliwa

Ekstrakcja słowników kolokacji dwuwyrazowych Zakłada dostępność anotowanego na poziomie części mowy korpusu referencyjnego, np. BNC, czy też NKJP Reguły relacyjno- pozycyjne określające konteksty typu: przymiotnik z rzeczownikiem w odległości 1 segmentu wyrazowego, rzeczownik z czasownikiem w odległości 4 segmentów wyrazowych, przysłówek z przymiotnikiem (1 segment) itd.

Na przykład dla każdego rzeczownika w korpusie BNC i NKJP rozpatrywane są konteksty: 1 2 3 4 5 AT0 AJ0 NN1 PRF NP0 The rapid growth of ACET

Ekstrakcja słowników kolokacji dwuwyrazowych Reguły mają charakter pseudo- zależnościowy, tzn.: wystąpienie rzeczownika w pobliżu czasownika nie musi oznaczać, że występuje między nimi zakładana zależność składniowa, co powoduje obniżenie precyzji (np.: koordynacja NKJP) trudno przewidzieć wszystkie konfiguracje pozycji dla danej kolokacji, co powoduje obniżenie zwrotu (recall), np. This type of religious experience is oyen trauma@c. Going to prison in unquesponably a trauma@c experience. Być może lepszą metodą byłoby użycie zależnościowej anotacji składniowej, choć jej dokładność mogłaby zaważyć na wynikach Używane są ujednoznacznione morfologicznie, słownikowe formy wyrazów Ekstrakcja z korpusów BNC i NKJP

Kryteria dystrybucyjne Dla współwystąpień wyrazów w zadanych kontekstach wyliczane są: Miary powiązania Miary równomierności występowania

Miary powiązania a ^ b a ^ ~b ~a ^ b ~a ^ ~b

Miary powiązania Experience #Collocate POS A TTEST MI3 G2 MI LOGLOG CHISQ 1 personal AJ% 306.0 12.99 18.47 384.2 1.95 16.16 661.08 2 past AJ% 225.0 12.36 18.13 419.93 2.50 19.58 873.55 3 practical AJ% 209.0 12.06 18.01 412.11 2.59 20.00 885.04 4 previous AJ% 221.0 11.17 17.58 289.9 2.01 15.65 506.90 5 first-hand AJ% 75.0 8.56 18.89 563.4 6.44 40.11 6396.3

Miary rozproszenia Experience # Collocate POS A JD R AWT* fawt* 1 personal AJ% 306.0 0.91 85.0 527921 102.9 2 past AJ% 225.0 0.91 81.0 666577 81.5 3 practical AJ% 209.0 0.88 75.0 846144 64.2 4 previous AJ% 221.0 0.89 71.0 967476 56.1 5 first-hand AJ% 75.0 0.86 46.0 1982715 27.4 *(P. Savicky, J. Hlavacova 2003)

collec<ve experience

contempla<ve experience

Podstawowe tabele słownika

Ewaluacja Trwają prace nad opracowaniem zbioru treningowego i testowego Nieostre kryteria związków frazeologicznych Zwrot (recall) trudny do ustalenia w dużych korpusach Precyzja dość wysoka Skuteczność jest różna dla różnych kombinacji kontekstów i zastosowanych miar, np. dla kolokacji czasownikowych ważna jest stosunkowo duża wartość T- test Potrzebne ustalenie optymalnych kombinacji wartości miar dla poszczególnych typów kolokacji

Identyfikacja kolokacji jako klasyfikacja współwystąpień # Feature Value Value Value Value rule AJ+N V+N AJ+N collocate_pos AJ% N% AJ% Instance features node_pos N% V% N% A 44 20 10 TTest 2.75 2.72 0.11 MI 10.79 4.79 7.2 JD 0.8 0.2 0.8 RANGE 10 20 76 N_C_Posipon 1-2 1 CLASS Collocapon Y N Y

Zrównoleglanie słowników kolokacji Powiązanie słowników? Na razie dla kilkunastu tysięcy kolokacji Korpusy referencyjne i równoległe źródłem przykładów

1304319 physically impossible 17 1298288 fizycznie niemożliwy 99 <trans- unit id="88"> <source>pogodzenie tych wszystkich obowiązków jest trudne, a czasem wręcz fizycznie niemożliwe, staram się jednak negocjować zobowiązania, dopasowywać terminy, i w miarę możliwości wysyłać młodszych kolegów.</source> <target>it s hard to reconcile all these dupes, and somepmes physically impossible, but I do my best to negopate commitments, to adjust deadlines, and if possible send my younger colleagues.</target> </trans- unit>

Założenie użycia wielowyrazowych odpowiedników leksykalnych o podobnej składni Zrównoleglane kolokacje o potwierdzonym statusie w korpusach tekstów natywnych Zastosowania leksykograficzne, modele tłumaczenia maszynowego

Interfejs WWW Wersja próbna przegądarki kolokacji angielskich z BNC hmp://212.191.73.200/colosaurusweb/browser. Dodatkowo: generator grafów kolokacyjnych: hmp://212.191.73.200/colosaurusweb/graphgenerator Poprzednia wersja kolokacji polskich z NKJP (nieujednoznacznione części mowy) hmp://212.191.73.200/ask Powstaje nowa wersja polskiego słownika

Harmonogram udostępniania zasobów I transza (listopad 2011): korpusy równoległe dostępne na licencjach CC- BY oraz CC- BY- NC II transza (czerwiec 2012) kolejne korpusy równoległe II transza (styczeń 2013) słownik kolokacji na podstawie BNC, słownik kolokacji na podstawie NKJP, korpusy równoległe

hmp://pelcra.pl/corpora hmp://nlp.ipipan.waw.pl/metashare/