Maszynowe tłumaczenie Polskiego Języka Migowego Projekt WiTKoM Dorota Grądalska VoicePIN.com Sp. z o.o; Akademia Górniczo-Hutnicza, Wydział Informatyki, Elektroniki i Telekomunikacji, Katedra Elektroniki dorota.gradalska@gmail.com Krzysztof Wróbel Akademia Górniczo-Hutnicza, Katedra Informatyki; Uniwersytet Jagielloński, Katedra Lingwistyki Komputerowej kwrobel@agh.edu.pl
Wirtualny Tłumacz Komunikacji Migowej (WiTKoM) Projekt realizowany przez konsorcjum naukowe Akademii Górniczo-Hutniczej oraz VoicePIN.com sp. z o.o. w latach 2013-2015 w ramach Programu Badań Stosowanych Narodowego Centrum Badań i Rozwoju. Głównym celem projektu jest zbadanie możliwości zastosowania algorytmów rozpoznawania obrazu, uczenia maszynowego i przetwarzania języka naturalnego w kontekście wypowiedzi w Polskim Języku Migowym (PJM).
Schematic workflow in WiTKoM project, author: mgr inż. Katarzyna Barczewska
Schematic workflow in WiTKoM project, author: mgr inż. Katarzyna Barczewska
Cechy Polskiego Języka Migowego (PJM) naturalny język osób Głuchych dostępny w poznaniu wzrokowym odrębny i niezależny od języka polskiego wyróżniający się gramatyką wizualno-przestrzenną zawiera elementy, które nie występują w językach fonicznych (mimika, klasyfikatory kształtu, wielkości, ruchu etc.) zróżnicowany regionalnie obcy dla słyszących
Szyk zdania w Polskim Języku Migowym - przykłady 1. Na stole obok siebie leżą dwie książki. PJM: [STÓŁ] [KSIĄŻKA] [KSIĄŻKA] 2. Kot pije mleko. PJM: [KOT] [PIĆ MLEKO + klasyfikator ruchu] 3. On lubi jabłka. PJM: [ON] [JABŁKO] [LUBIĆ] 4. Dziewczynka podniosła oczy do góry. PJM: [DZIEWCZYNKA] [PATRZEĆ + klasyfikator ruchu gałek ocznych] 5. Kiedy odbędzie się egzamin? PJM: [EGZAMIN] [KIEDY] + {mimika pytająca}
Cechy Polskiego Języka Migowego (PJM) naturalny język osób Głuchych dostępny w poznaniu wzrokowym odrębny i niezależny od języka polskiego wyróżniający się gramatyką wizualno-przestrzenną zawiera elementy, które nie występują w językach fonicznych (mimika, klasyfikatory kształtu, wielkości, ruchu etc.) zróżnicowany regionalnie obcy dla słyszących
Stan wiedzy o PJM język słabo poznany, Pozostawał w zasadzie poza obszarem zainteresowania polskiego językoznawstwa aż do połowy lat 90-tych XX w. Badania nad PJM prowadzi, powołana w 2010 r. na Wydziale Polonistyki Uniwersytetu Warszawskiego, Pracownia Lingwistyki Migowej. Obecnym kierownikiem Pracowni jest dr Paweł Rutkowski. nieustalony korpus leksykalny, jedynie cząstkowe opracowania gramatyki, niewielka liczba materiałów źródłowych.
Tłumaczenie maszynowe Słońce jest żółte. - A nap sárga. Słońce jest niebieskie. - A nap kék. Niebo jest niebieskie. - Az ég kék. Niebo jest żółte. - Az ég sárga. Trawa jest zielona. - A fű zöld. Kupiłem zieloną trawę. - Megvettem a zöld fű.
Tłumaczenie maszynowe Słońce jest żółte. - A nap sárga. Słońce jest niebieskie. - A nap kék. Niebo jest niebieskie. - Az ég kék. Niebo jest żółte. - Az ég sárga. Trawa jest zielona. - A fű zöld. Kupiłem zieloną trawę. - Megvettem a zöld fű. słońce - a nap niebo - az ég trawa - a fű żółte - sárga niebieskie - kék zielone - zöld
Korpus Przykłady: Daj mi twoją książkę. - [TWÓJ] [KSIĄŻKA] [DAĆ MI] [.] Ja nie lubię pisać. - [JA] [PISAĆ] [NIE LUBIĆ] [.] Ogólne Ilość zdań Medyczne Wszystkie 48 52 100 Średnia ilość słów w zdaniu 6,79 8,88 7,88 Ilość słów 326 462 780 Ilość unikalnych słów 108 203 270
Język polski - narzędzia tagger morfosyntaktyczny forma lemma znaczniki Daj dać impt:sg:sec:perf mi ja ppron12:sg:dat:m1:pri:nakc Twoją twój adj:sg:acc:f:pos książkę książka subst:sg:acc:f.. interp Waszczuk J. (2012). Harnessing the CRF complexity with domain-specific constraints. The case of morphosyntactic tagging of a highly inflected language. Mumbai: COLING
Język polski - narzędzia parser zależnościowy Wróblewska A., Woliński M. (2012). Preliminary experiments in Polish dependency parsing." Security and Intelligent Information Systems. Springer Berlin Heidelberg, pp. 279-292.
PJM - narzędzia brak
Reguły tłumaczenia operują na drzewie zależnościowym struktura własności definiują akcje: usuwania słów dodawania zależności łączenia wyrazów wielosegmentowych nie uwzględniają kolejności wyrazów w zdaniu Kay, M. (1984). "Functional unification grammar: A formalism for machine translation." Proceedings of the 10th International Conference on Computational Linguistics and 22nd annual meeting on Association for Computational Linguistics. Association for Computational Linguistics.
Przykład dodaj osobę ( ty ) gdy ujęta w czasowniku
Wyniki PER (%) Ogólne Medyczne Wszystkie Brak reguł 42,69 56,04 49,64 30 reguł 19,57 35,45 27,83 System tłumaczenia dla języka hiszpańskiego osiągnął PER 13,17 na 150 zdaniach z 153 regułami. Statystyczna metoda wytrenowana na 266 zdaniach osiągnęła PER 29,14. San-Segundo R. et al. (2008). "Speech to sign language translation system for Spanish." Speech Communication 50.11, pp. 1009-1020.
Dalsze prace dokończenie implementacji zdefiniowanych reguł próba statystycznego zamodelowania kolejności znaków w zdaniu na poziomie zależnościowym {pred, obj_th, obj, punct, subj} (subj, pred, objt_th, obj, punct) {adjunct, obj} (adjunct,obj)
Kontakt Projekt WiTKoM Kierownik projektu: dr inż. Jakub Gałka jgalka@agh.edu.pl Dorota Grądalska: dorota.gradalska@gmail.com Krzysztof Wróbel: kwrobel@agh.edu.pl Praca finansowana przez Narodowe Centrum Badań i Rozwoju w ramach Programu Badań Stosowanych, projekt nr PBS2/B3/21/2013, pt. Wirtualny Tłumacz Komunikacji Migowej.