Od rozpoznawania do tłumaczenia mowy polskiej



Podobne dokumenty
Statystyczne tłumaczenie mowy polskiej

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Program warsztatów CLARIN-PL

dr inż. Ewa Kuśmierek, Kierownik Projektu Warszawa, 25 czerwca 2014 r.

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Korpusy mowy i narzędzia do ich przetwarzania

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

NeuroVoice. Synteza i analiza mowy. Paweł Mrówka

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Tłumaczenie maszynowe. Zasady działania. Autorzy: Josef van Genabith (DFKI), Krzysztof Łoboda (Uniwersytet Jagielloński)

Lokalizacja Oprogramowania

Opisy efektów kształcenia dla modułu

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Portal e-learningowy zaprojektowany dla Studentów i Nauczycieli

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Oprogramowanie typu CAT

Transkrypcja fonetyczna i synteza mowy. Jolanta Bachan

TTIC 31190: Natural Language Processing

13. Statistical Alignment and Machine Translation

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Open Access w technologii językowej dla języka polskiego

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

System wspomagania harmonogramowania przedsięwzięć budowlanych

"Tell Me More Campus" w Politechnice Rzeszowskiej

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Inforex - zarządzanie korpusami i ich anotacja

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.) Pracownia Historii Języka Polskiego XVII i XVIII wieku IJP PAN

Rozpoznawanie mowy dla języków semickich. HMM - HTK, CMU SPHINX-4, Simon

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW

11 Probabilistic Context Free Grammars

TEST DIAGNOSTYCZNY. w ramach projektu TIK? tak! - na kompetencje cyfrowe najwyższy czas!

Compact Open Remote Nao

Model zaszumionego kanału

Systemy eksperckie. Plan wykładu Wprowadzenie do sztucznej inteligencji. Wnioski z prób automatycznego wnioskowania w rachunku predykatów

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

HCI Human Computer Interaction

PRZEWODNIK PO PRZEDMIOCIE. Wprowadzenie do przekładu tekstów ogólnych Angielski Język Biznesu

Tell Me More v.10: nowe oblicze nauczania języków obcych. Kwiecień 2012 r.

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Sposoby wyszukiwania multimedialnych zasobów w Internecie

Wyszukiwarka i usługi Google

Praktyczna nauka drugiego języka obcego II

Analiza danych tekstowych i języka naturalnego

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

PRZEWODNIK PO PRZEDMIOCIE RODZAJ ZAJĘĆ LICZBA GODZIN W SEMESTRZE WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM 30

Imagination Is More Important Than Knowledge

Algorytm SiRF dekoder i jego wykorzystanie w systemie ASG-EUPOS

System Korekty Tekstu Polskiego

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

Aldona Sopata Uniwersytet im. Adama Mickiewicza w Poznaniu NOWE TECHNOLOGIE W KSZTAŁCENIU TŁUMACZY NA WYDZIALE NEOFILOLOGII UAM W POZNANIU

Wstęp do Językoznawstwa

PRZEWODNIK PO PRZEDMIOCIE. Wprowadzenie do przekładu tekstów użytkowych Angielski Język Biznesu

Możliwości kierowania reklam na urządzenia mobilne w AdWords i AdMob. Wprowadzenie

HLT_12 Warszawa. Lingwistyka matematyczna w Katedrze Elektroniki AGH

Wstęp do programowania

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Algorytmy klasyfikacji

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

Skalowalna Platforma dla eksperymentów dużej skali typu Data Farming z wykorzystaniem środowisk organizacyjnie rozproszonych

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

SYNTEZA MOWY W E-LEARNINGU DLA OSÓB NIEPEŁNOSPRAWNYCH

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

Multimedialne Systemy Interaktywne

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

PRZEWODNIK PO PRZEDMIOCIE. Wprowadzenie do przekładu tekstów ogólnych Angielski Język Biznesu

System Korekty Tekstu Polskiego

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA ANGIELSKIEGO I ETAP EDUKACYJNY KLASY I-III

Sprawozdanie z laboratoriów HTK!

Od e-materiałów do e-tutorów

Propozycje tematów prac magisterskich 2013/14 Automatyka i Robotyka - studia stacjonarne Pracowania Układów Elektronicznych i Przetwarzania Sygnałów

Włodzimierz Wyraz Radcomp Integral Sp. z o.o.

Maciej Oleksy Zenon Matuszyk

Regulamin Przedmiotowy XIV Konkursu Języka Rosyjskiego dla uczniów gimnazjów województwa świętokrzyskiego w roku szkolnym 2015/2016

Kryteria wymagań na poszczególne oceny dla uczniów z upośledzeniem w stopniu lekkim z języka angielskiego. Gramatyka i słownictwo Osiągnięcia ucznia:

Analiza dialogu na potrzeby tworzenia systemów dialogowych. Jolanta Bachan

Kurs MATURA Z INFORMATYKI

Modelowanie interakcji helis transmembranowych

PL B1. AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA, Kraków, PL BUP 01/11. WIESŁAW WAJS, Kraków, PL

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA ANGIELSKIEGO I ETAP EDUKACYJNY- KLASY I-III

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO kl. I-III ROK SZKOLNY 2016/2017

Czy komputery potrafią mówić? Innowacyjne aplikacje wykorzystujące przetwarzanie dźwięku i mowy. Plan prezentacji.

Szybkie prototypowanie w projektowaniu mechatronicznym

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

KORBA Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

UNIWERSYTET ŚLĄSKI W KATOWICACH

Procesy ETL. 10maja2009. Paweł Szołtysek

Jestem turystą, znam język angielski i nie zawaham się go użyć

Architektura systemu e-schola

Sterowniki Programowalne (SP)

Przedmiotowy system oceniania z języka angielskiego Klasy IV-VI Szkoła Podstawowa w Młodzawach

Wprowadzenie do teorii systemów ekspertowych

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

JĘZYK ANGIELSKI NA CO ZWRACAMY UWAGĘ OCENIAJĄC : 1.UMIEJĘTNOŚĆ WYPOWIEDZI USTNEJ:

Transkrypt:

Od rozpoznawania do tłumaczenia mowy polskiej Krzysztof Marasek PJWSTK

Plan prezentacji Wprowadzenie Komponenty systemu tłumaczącego Aktualne działania

Dlaczego automatyczne tłumaczenie mowy? Czynniki techniczne Choć nadal dalekie od perfekcji, metody maszynowego tłumaczenia dokonały w ostatnich latach wyraźnego postępu NIST MT workshops (od 2002) IWSLT workshops (od 2002) TC-STAR workshop (2005-2006) ACL/NAACL Shared Tasks (2005-2006) Czynniki sukcesu to: Coraz silniejsze komputery (trening na klastrach PC, dużo RAM) Rozwój metod statystycznych i bazujących na danych (data driven) Odpowiednie zasoby lingwistyczne (korpusy bilingualne) Rozwój metod oceny jakości tłumaczenia (miary błędów) Stopniowe komplikowanie zadań Zaangażowanie wielkich firm: Google, Microsoft, IBM, itd.. Rozwój interfejsów głosowych Rozpoznawanie mowy działa coraz lepiej Mowę syntetyczną coraz trudniej odróżnić od naturalnej Czynniki ludzkie Lazzari, 06 Potrzeby komunikacyjne w kurczącym się geograficznie świecie, komercyjne zastosowania SST He, Deng, 11

Komponenty systemu tłumaczącego Rozpoznawanie mowy Tłumaczenie wykorzystujące modele statystyczne Intelligent Software Lab, 06 Synteza mowy

Jakość rozpoznawania mowy ASR da się używać! http://www.itl.nist.gov/iad/mig/publications/asrhistory/index.html ASR działa najlepiej dla ściśle określonego mówcy, im mniejszy słownik tym lepiej, angielski lepiej niż inne języki Stopa błędów rozpoznawania mowy spontanicznej jest co najmniej dwukrotnie większa niż dla czytania, stopa błędów jest wysoka dla konwersacji wielu mówców w trudnym akustycznie środowisku

Nasze aktualne wyniki ASR Projekt badawczy NCN N516 519439 System automatycznej transliteracji nagrań mowy polskiej nagrania posiedzeń i komisji Senatu RP Dekoder ACC CORR PP Julius + IRSTLM 44k 48 57 Słownik w weryfikacji SYNAT: Interdyscyplinarny system interaktywnej informacji naukowej i naukowo technicznej: transliteracja rzeczywistych nagrań wiadomości radiowych Dekoder ACC CORR PP Autorski System LSTM 65 67 246 Julius + SRILM mix 40k 61 65 Julius + IRSTLM 30K 44 52 289 Julius + IRSTLM 60K 48 58 276

Czym dysponujemy 1 Moduł wyszukiwania mowy w sygnale (VAD) MFCC, sieć LSTM, wyjście w formacie TextGrid (Praat) Wysoka skuteczność, także w szumie, obecności muzyki 0,1 czasu rzeczywistego Normalizator tekstu Rozwijanie liczebników i skrótów Uzgadnianie form gramatycznych liczebników i skrótów Kombinacja LM dla słów, form podstawowych i POS, synchroniczny dekoder Viterbiego (ISMIS 2012) Koneksjonistyczny model języka Sieć neuronowa modeluje zależności pomiędzy słowami W eksperymentach perplexity mniejsze o ok. 20% niż najlepszy model n-gramowy (ISMIS 2011)

Czym dysponujemy 2 Własny dekoder LSTM autorska implementacja sieci LSTM w modelowaniu akustycznym, koneksjonistyczny model języka Zoptymalizowany, bardzo szybki - < czas rzeczywisty na laptopie Konwersja tekst ortograficzny zapis fonetyczny System regułowy Warianty wymowy Spikes rzadka reprezentacja sygnału Kodowanie mowy w sposób zbliżony do działania słuchu Zasoby językowe Nagrania i stenogramy senackie część ręcznie poprawiona, ok. 300 h nagrań mowy, 5 mln słów (domenowy korpus transliteracji) Teksty prawnicze z Wolters-Kluwer (ok. 1 mld słów) Korpus nagrań radiowych 77 h nagrań mowy, transliteracja nagrań (727 tys. słów) Zbieranie korpusów równoległych (Euronews)

Tłumaczenie mowy PL-EN EU-Bridge (www.eu-bridge.eu), FP 7, tłumaczenie mowy: napisy, parlament, aplikacje mobilne, wykłady IWSLT 2012, pierwszy benchmark PL->EN, wykłady TED, crowd sourcing (tłumaczone przez wolontariuszy), truecase dekoder Moses, training Giza++ BLEU jako miara jakości (porównanie tekstu MT z ręcznym tłumaczeniem) Zbiór treningowy: ok. 130 tys. zdań, development: 767, test: 1564 (2 dodatkowe zbiory do oceny przez organizatorów) Narzędzia: Politechnika Wrocławska, Stanford, własny tagger BLEU Słowosłowo Forma podstawowa PL Faktor1: word:stem:tag Faktor2: word:stem:tag test 15,37 14,41 11,06 8,02 devel 20,36 18,74 13,22 9,47

U-STAR PL<->EN U-STAR consortium (NICT): 23 języki, rozproszona struktura serwerowa, standardy przyjęte przez ITU aplikacja VoiceTra4U na IPhone, IPad Równoczesna rozmowa do 5 osób równocześnie domena: rozmówki turystyczne PJWSTK: PL<->EN, na podstawie BTEC (110 tys. zdań, własne tłumaczenie, 2009), BLEU=71*** ASR Julius, CentOS, Tomcat

Inne CLARIN www.clarin.eu Synteza mowy polskiej własny system syntezy korpusowej (Festival) Systemy dialogowe (Primespeech) Patologia mowy, jakość fonacji Zasoby mowy ELRA

Dziękuje za uwagę! kmarasek@pjwstk.edu.pl

Synteza mowy regułowa formantowa artykulacyjna konkatenacyjna difonowa korpusowa

Automatyczne tłumaczenie statystyczne Input : SMT system otrzymuje zdanie do przetłumaczenia Output : SMT system generuje zdanie które jest tłumaczeniem zdania wejściowego Language Model (model języka) jest modelem określającym prawdopodobieństwo dowolnej sekwencji słów w danym języku Translation Model (model tłumaczenia) określa prawdopodobieństwa par tłumaczeń Decoding Algorithm (dekodowanie) to algorytm przeszukiwania grafu wyznaczający optymalne przejście przez graf słów

Jak to działa? coraz popularniejsze, coraz bardziej akceptowalne wyniki Coraz rzadziej systemy regułowe, interlingua, modelowanie Phrase based translation zamiast analizy składni, pasowania zdań Każda fraza jest tłumaczona na frazę i wynik może mieć zmienioną kolejność Model matematyczny argmax e p(e f) = argmax e p(f e) p(e) model języka e i model tłumaczenia p(f e) Podczas dekodowania sekwencja słów F jest dzielona na sekwencje I fraz f 1 I o jednakowym prawdopodobieństwie, każda z fraz f i z f 1 I jest tłumaczona na frazę e i i mogą one zostać poprzestawiane. Tłumaczenie jest modelowane jako rozkład φ(f i e i ), przestawianie fraz jako d(start i,end i-1 ) = α start i -end i-1-1 z odpowiednią wartością α, wprowadza się też czynnik ω>1 aby chętniej generować krótsze zdania Zatem najlepsze tłumaczenie to e best = argmax e p(e f) = argmax e p(f e) p_lm(e) ω length(e) gdzie p(f e) jest przedstawianie jako: p(f 1I e 1I ) = Φ i=1 I φ(f i e i ) d(start i,end i-1 ) www.statmt.org/moses, 06

Tłumaczenie fraz, czyli phrase alignment Dopasowanie na podstawie bilingualnego korpusu modelowanie Dwukierunkowe dopasowanie słów pozwala wyznaczyć te najbardziej odpowiednie słowa Na tej podstawie próbuje się tłumaczyć frazy, np. szukamy takich fraz które są dopasowane do siebie z wykorzystaniem tylko słów z ich wnętrza (Och, 2003) www.statmt.org/moses, 06

Proces dekodowania

Dekodowanie czyli tłumaczenie System wyszukuje możliwe tłumaczenia fraz Uwzględnia koszt związany z tłumaczeniem, przestawianiem fraz i modelem języka minimalizuje koszt, czyli maksymalizuje prawdopodobieństwo Metoda wyszukiwania jest zbliżona do używanej w rozpoznawaniu mowy Można generować listę najlepszych tłumaczeń www.statmt.org/moses, 06

Sprzężenie rozpoznawania i tłumaczenia Wykorzystanie krat słów jako wejścia do tłumaczania z użyciem FST Noisy Channel Model I e ˆ ˆ argmax Pr(A)Pr( f J,e I A) Pr(x e I ) f J,I,e I e e ˆ ˆ I ˆ argmax Pr(e f I J I )Pr(x,e x) I )Pr(x e I ) e I ) f J I,e,I,e II I eˆ Iˆ arg max max ~ e J, a A f J J p( f j, e ~ j f j 1 j m, e ~ j 1 j m, a) t t p( x j j 1 f j ) Best English sentence Length of source length Translation Target Aligned model LM target French word audio Lexical context Acoustic context Using an alignment model, A Instead of modeling the alignment, search for the best alignment Wykorzystanie interlingua i modeli sematycznych Wykorzystanie prozodii do wspomagania parsingu zdań Matusov, 05

Przykłady zastosowań PDA szkolenie

Przygotowanie korpusu BTEC dla języka polskiego Współpraca z ATR Spoken Language Translation Research Laboratories, Kyoto, dr Eiichiro Sumita Ok. 120 000 zdań z rozmów japońskich turystów mówiących po angielsku ( angielskie rozmówki ) Cel: Przygotowanie systemu automatycznego tłumaczenia z mowy na mowę pomiędzy polskim i angielskim dla ograniczonej domeny (rozmówki turystyczne) Przygotowanie równoległego korpusu polsko-angielskiego (dopasowanie na poziomie zdań i fraz) Nasza praca: Przetłumaczenie zdań z angielskiego na polski Sformatowanie plików zgodnie z formatem BTEC Anotacja morfo-syntaktyczna polskiego korpusu Aktualny stan zaawansowana: Przetłumaczono ok. 80% tekstów