Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka polskiego na potrzeby systemu rozpoznawania mowy Bartosz Ziółko, Magdalena Igras Katedra Elektroniki Zespół Przetwarzania Sygnałów Wykonano w ramach projektu: Lingwistyczny warsztat do analizy i rozpoznawania mowy NCN nr DEC-2011/03/D/ST6/00914
Plan prezentacji O pracach Zespołu Przetwarzania Sygnałów System rozpoznawania mowy Modelowane cechy prozodyczne Pauzy Iloczasy fonemów Kontury intonacyjne Cechy energetyczne Sylaby Modelowanie akcentów i końców zdań Ironia prozodycznie Przykłady zastosowania wyników badań
Prace Zespołu Przetwarzania Sygnałów System rozpoznawania mowy => Interfejsy głosowe System rozpoznawania mówcy Przetwarzanie języka naturalnego => Systemy dialogowe Silnik audio dla gier dsp.agh.edu.pl RAYAV
System automatycznego rozpoznawania mowy polskiej Nowa wersja Sarmaty (XI 2013) osiągnęła średnią skuteczność 97,7% w testach na przeszło 5 000 nagranych wypowiedziach. W 99,6% przypadków prawidłowa hipoteza była w pierwszej trójce listy najsilniejszych hipotez.
Przepływ danych w systemie AGH Nagranie VAD Dla każdej paczki: Mowa
Przepływ danych w systemie AGH parametryzacja: Możliwości: Segmentacja i partycjonowanie Dekompozycja Falkowa (18 cech) + DCT MFCC 13 Filtrów + Energia, Pochodna + Druga pochodna + DCT + FeatureWarping => 39 cech Modelowanie cech przy użyciu 20-sto elementowych GMM Segmentacja równomierna 20ms, z przesunięciem co 10ms Wyniki
Transkrypcje - ortfon Zamiana zapisu ortograficznego na transkrypcję fonetyczną 37 klas fonemów podstawowych ( w wersji 2.0: 85 klas fonetycznych) bezpieczeństwo jest bardzo ważne b e s p j e 0 e 3 s t f o j e z t b a r 6 o v a Z n e minister środowiska powiedział ważne rzeczy m i 3 i s t e r 5 r o d o v i s k a p o v j e X a w v a Z n e Z wnoszę o przerwę w obradach v n o S e o p S e r v e v o b r a d a x 7
Niedoskonałości systemu System automatycznego rozpoznawania mowy tworzy bezpośrednie transkrypcje zawartości akustycznej nagrania Bez interpunkcji Bez wielkich liter Łącznie z nieciągłościami i sygnałami akustycznymi niebędącymi mową Takie transkrypcje są mało czytelne dla użytkownika i mniej przydatne dla systemów przetwarzania języka naturalnego Tracone są informacje paralingwistyczne i nielingwistyczne
Wyzwanie: przetwarzanie mowy spontanicznej Mowa czytana Mowa spontaniczna Regularna prozodia Brak nieciągłości Poprawność składniowa Ukryta interpunkcja Nieciągłości Częste błędy
Rodzaje cech w systemach rozpoznawania mowy Cechy akustyczne Wysokopoziomowe: Pauzy Intonacja Długość głosek Energia sygnału Cechy językowe n-gramy Zawartość semantyczna Szyk zdania Reguły gramatyczne Niskopoziomowe: MFCC falkowe
Cecha 1: pauzy Typy pauz akustycznych w nagraniach mowy Pauzy ciche (s_p) Pauzy oddechowe (b_p) Pauzy wypełnione (f_p) yyy, mmm, hmm, yh
Źródła pauz w mowie regularne naturalne pauzy związane z czynnością respiracyjną (b_p) nieregularne intencjonalne pauzy, używane celowo jako środek wyrazu, zwłaszcze przez profesjonalnych mówców (s_p) nieregularne nieintencjonalne nieciągłości, efekt wahania, niepewności lub krótkiego namysłu (f_p lub s_p)
Analizowany zbiór nagrań monologi: 30 min monologów spontanicznych (prezentacje, przemówienia) 30 min tłumaczeń w czasie rzeczywistym 60 min wywiadów radiowych 15 min mowy czytanej Niedoświadczeni i profesjonalni mówcy (łącznie 30 mówców)
Statystyki fraz Nagrania Ilość słów/min Ilość kropek /min Średnia długość zdania [s] Ilość słów w zdaniu Ilość przecinkó w /min Średnia długość frazy [s] Ilość słów we frazie Prezentacje 11,9 (24,3) 6,2 (2,4) 10,9 (3,7) 19,6 (5,8) 19,4 (6,0) 3,3 (0,8) 4,4 (1,0) Tłumaczenia 117,2 (20,1) 6,6 (2,0) 10,0 (3,2) 19,1 (4,7) 14,6 (3,3) 4,3 (1,0) 4,6 (0,8) Wywiady radiowe 129,7 (29,1) 9,9 (3,3) 6,7 (2,3) 13,9 (3,3) 16,1 (4,2) 2,5 (0,8) 5,4 (0,8) Średnia 117,6 (23,8) 7,1 (2,8) 9,7 (3,5) 18,2 (5,3) 16,8 (5,1) 3,5 (1,1) 4,7 (0,9)
Pauzy oddechowe Oddechy w sygnale mowy
Pauzy oddechowe Średnia fizjologiczna częstość oddechu zmienia się wraz z wiekiem: 40-50 oddechów/minutę u noworodków i niemowląt, 18-25 u dzieci, 12-20 u osób dorosłych. Stany patologiczne: > 35 oddechów/min < 8 oddechów/min. Podczas produkcji mowy: 10,8(3,4) / min
Długość odeechu [ms] Dystrybucja długości oddechów u poszczególnych mówców Mówcy
Automatyczna detekcja oddechów 1. Normalizacja amplitudy względem średniej energii sygnału 2. Sygnał jest analizowany w obrębie ramek o długości 20 ms z zakładką 10 ms 3. Wskazane zostają regiony sygnału spełniające kryterium czasu, energii i F0: lokalna energii sygnału na poziomie 0.05-0.4 max. amplitudy sygnału przez czas dłuższy niż 150 ms. brak F0. 4. Dla wskazanych fragmentów sygnału wyznaczane są wartości energii w poszczególnych pasmach częstotliwościowych transformacji falkowej. 5. Podobieństwo do wzorców liczone jest algorytmem DTW. energia F0
Wypełnione pauzy Nagrania #f_p(yyy)/min #f_p(mmm)/min Prezentacje 6,5(5,5) 0,6(0,9) Tłumaczenia 5,8(3,5) 0,9(1,0) Radiowe 7,4(3,6) 1,27(1,14) Średnia 6,4(4,3) 0,9(1,0) Proporcje częstości użycia wypełnionych pauz sygnalizujących interpunkcję
Automatyczna detekcja wypełnionych pauz formanty F0
Cecha 2: Długość głoski 700 600 500 Dystrybucja lognormalna długości realizacji przykładowych fonemów: 400 350 300 400 300 200 100 /a/ 0 0 50 100 150 200 250 300 250 200 150 100 50 /r/ 0 0 50 100 150 200 250 200 150 100 50 /sz/ 0 0 50 100 150 200 250 300 350 f f x 1 ( 2 ( x) e 2 2 2 ) ln x 1 ( ) 2 2 ( x) e 2 x 2 2
Mean durations of phonemes and their standard deviations [ms] Długość głosek 220 Średnie długości i ich odchylenia standardowe 200 180 160 140 120 100 80 60 40 20 sp l j r ni g d n l_ w y t f i mb N u k h p e odziz a rzdzzidrzc ciszs sicza_e_ Phonemes
Względna energia Mapa polskich fonemów Względna długość
F0 [Hz] Cecha 4: częstotliwość podstawowa (F0) Algorytmy: oparte na ZCR, autokorelacji, spectrum; RAPT, YAAPT Modelowanie regresją liniową lub wielomianami 130 125 Max F0 tg α= df0/dt 120 115 Mean F0 Min F0 110 105 100 α 95 0 2 4 6 8 10 12 14 16 dt czas [ramki] df0
F0 [Hz] Modelowanie F0 czas [ramki]
Algorytm segmentacji na sylaby Na podstawie wartości progowej oraz wartości średniej, w sygnale znajdujemy fragmenty odpowiadające wyrazom lub połączonym ciągom wyrazów. Detekcja słów w sygnale mowy
Algorytm segmentacji na sylaby (Mermelstein 1975) Rekurencyjne wywoływanie algorytmu Convex Hull. Warunek zatrzymania algorytmu: Długość segmentu < minimalna długość sylaby (80 ms) Wartość d < wartość progowa
Algorytm segmentacji na sylaby Procent Delecji / usunięcia/ (d) Procent Insercji /wstawienia/ (i) Accuracy ( h - i) / (h + d) Ins = 2.4% Del = 4.7% Acc = 93.0%
Końce zdań Cechy prozodyczne Cechy funkcjonalne pauzy iloczas energia koniec zdania F0
Korelacje pomiędzy pauzami a interpunkcją (mowa spontaniczna) kropki Różne typy pauz determinujące: przecinki
Korelacje pomiędzy pauzami a interpunkcją 60,0 50,0 40,0 30,0 czytana spontaniczna 20,0 10,0,0 n_p. s_p. f_p. b_p. n_p, s_p, f_p, b_p, kropki przecinki
No of occurences Zmiana długości głosek na końcach zdań 8000 7000 700 600 500 88.5% Mean:1.54 6000 5000 4000 3000 2000 400 300 200 100 0 0 0.5 1 1.5 2 2.5 3 3.5 Duration ratio 1000 0 0 0.5 1 1.5 2 2.5 3 3.5 Duration ratio
Prawdopodobieństwo wystąpienia Końca zdania Zmiana długości głosek na końcach zdań 0.7 y vs. x fit 1 0.6 0.5 f Model Gaussowski: x 1 ( 2 ( x) e 2 2 2 ) 0.4 0.3 f ( d n ) 0.747e x 2.68 ( ) 0.92 2 0.2 0.1 0 0.5 1 1.5 2 2.5 3 Względna długość Jakość dopasowania RMSE: 0.0327
Zmiana długości głosek na końcach zdań
Modelowane prawdopodobieństwo wystąpienia końca zdania JPA28 0.6 0.5 0.4 0.3 0.2 0.1 0 nmj e j s7enaobe j Ze3ek t u regova r t opse zna0 y8 t yxe3a l bo f tsyd3 i mj as t ok t u regob l i SSepo zna3ev ymagamj e5 i en7y t u r y
Ilość wystapień Zmiany energii głosek na końcach zdań 500 86,5% 12000 10000 400 300 200 86.5% mean: 0.6 Średnia: 0,6 8000 6000 4000 100 0 0 0.5 1 1.5 2 2.5 3 3.5 Współczynnik energii 2000 0 0 0.5 1 1.5 2 2.5 3 3.5 Współczynnik energii
Prawdopodobieństwo wystąpienia Końca zdania Zmiany energii głosek na końcach zdań Względna energia
Ilość wystapień Zmiany mocy głosek na końcach zdań 250 99,6% occurrenc es Ilość wystąpień No of 12000 10000 8000 6000 4000 2000 200 150 100 50 99.6% mean: 0.36 Średnia: 0,36 0 0 0.5 1 1.5 2 2.5 3 3.5 Współczynnik mocy 0 0 0.5 1 1.5 2 2.5 3 3.5 Współczynnik mocy
Prawdopodobieństwo wystąpienia Końca zdania Zmiany mocy głosek na końcach zdań 0.14 0.12 y vs. x fit 1 0.1 0.08 0.06 0.04 0.02 0 0 0.5 1 1.5 2 2.5 Względnia moc
Akcenty Cechy prozodyczne Cechy funkcjonalne iloczas energia akcent F0
Ilość wystąpień Accents phonemes duration 3 x 104 2.5 2 1.5 1 0.5 0 0 0.5 1 1.5 2 2.5 3 Względna długość
Ilość wystąpień Accents phonemes energy 15000 10000 5000 0 0 0.5 1 1.5 2 2.5 3 Względna energia
Ilość wystąpień Accents phonemes power 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 0 0.5 1 1.5 2 2.5 3 Względna moc
Zmiana F0 w miejscach samogłosek akcentowanych Samogłoska Średnia F0 wszystkich samogłosek [Hz] Średnia F0 Akcentowanych samogłosek [Hz] Zmiana dla akcentowanych [Hz] 'a' 164 170 + 6 'a_' 155 168 +13 'e' 163 173 +10 'e_' 164 171 + 7 'o' 160 162 +2 'u' 170 180 +10 'i' 156 159 +3 'y' 172 180 +8
Podsumowanie ꜛ iloczas Końce zdań ꜛ iloczas akcenty ꜜ energia, moc ꜜ F0 ꜛ energia, moc ꜛ F0 duration 2 1,5 1 average sentence ends duration 1,2 1,15 1,1 1,05 1 average accents F0 0,5 0 energy F0 0,95 0,9 energy power power
Względna energia Rozkład cech głosek akcentowanych i końcowych Względna długość
Ironia zamaskowana kpina, drwina zawarta w pozornej aprobacie; lekki sarkazm, ujęty w wypowiedź, której zamierzony sens jest odwrotnością dosłownego znaczenia słów w powiązaniu z kontekstem środek wyrazu, emocja złożona, postawa emocjonalna? ton ironiczny jest dodatkową informacją niesioną przez sygnał mowy reprezentującą postawę emocjonalną wobec wypowiadanej treści
Rozpoznanie Percepcja ironii Testy percepcyjne nagrań oryginalnych Emocja prezentowana w nagraniu złość zdziw ironia neutr. smutek radość strach złość 75,0 2,7 2,8 1,4 0 1,4 2,7 zdziwienie 0 58,1 15,3 6,9 0 2,7 9,5 ironia 1,4 23,0 66,7 2,8 0 20 6,8 neutralny 0 1,4 2,8 56,9 10,3 5,5 1,4 smutek 2,8 0 1,4 6,9 78,2 0 12,2 radość 1,4 5,4 4,2 2,8 0 32,9 0 strach 2,8 2,7 0 1,4 2,6 0 35,1 nierozpoznane 16,7 6,8 6,9 20,8 9,0 35,6 32,4
Rozpoznanie Percepcja ironii Testy percepcyjne nagrań bez treści Emocja prezentowana w nagraniu złość zdziw ironia neutr. smutek radość strach złość 30 10 10 5 20 0 0 zdziwienie 0 80 10 0 0 0 0 ironia 20 10 40 15 10 20 10 neutralny 20 0 10 35 30 20 0 smutek 0 0 10 20 30 0 0 radość 10 0 0 10 0 30 0 strach 10 0 10 5 0 10 70 nierozpoznane 10 0 10 10 10 20 20
Cechy prozodyczne ironii Kadencja F0, szczególnie w końcowej części frazy Większe odchylenie standardowe F0 Wzrasta iloczas wypowiedzi Silniejsze akcentowanie Zmiana stosunku iloczasu sąsiadujących sylab w akcentowanym wyrazie
Znaczenie prac badawczych nad środkami prozodycznymi w technologii mowy Źródło informacji dla modelowania języka System rozpoznawania mowy Synteza mowy Interfejsy głosowe, systemy dialogowe Cechy biometryczne Związek z emocjami Aspekt medyczny Aspekt szkoleniowy System rozpoznawania mówcy Detekcja emocji w mowie System detekcji oddechu w sygnale mowy Systemy wspomagające szkolenie mówców
Dziękujemy za uwagę {bziolko,migras}@agh.edu.pl