Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka polskiego na potrzeby systemu rozpoznawania mowy

Podobne dokumenty
Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Korpusy mowy i narzędzia do ich przetwarzania

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

HLT_12 Warszawa. Lingwistyka matematyczna w Katedrze Elektroniki AGH

NeuroVoice. Synteza i analiza mowy. Paweł Mrówka

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Rodzaje pauz akustycznych i ich korelacje z interpunkcją w transkrypcjach mówionego języka polskiego

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert

Omówienie różnych metod rozpoznawania mowy

Opisy efektów kształcenia dla modułu

Cele kształcenia wymagania ogólne

Komputerowe przetwarzanie sygnału mowy

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

dr inż. Ewa Kuśmierek, Kierownik Projektu Warszawa, 25 czerwca 2014 r.

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Krzysztof Ślot Biometria Łódź, ul. Wólczańska 211/215, bud. B9 tel

STATYSTYKA MATEMATYCZNA

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

dr inż. Jacek Naruniec

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

Lokalizacja Oprogramowania

Wymagana edukacyjne z j.niemieckiego mniejszości narodowej w klase I SP

KLASA IV (ocenę wyższą otrzymuje uczeń, który spełnia wszystkie wymagania ocen niższych pozytywnych)

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

WYMAGANIA edukacyjne z języka polskiego na poszczególne oceny: 1) opanował wiadomości i umiejętności zapisane w podstawie programowej dla klasy VII

KLASA VII. (Ocenę wyższą otrzymuje uczeń, który spełnia wszystkie wymagania ocen niższych pozytywnych).

Program warsztatów CLARIN-PL

Czy komputery potrafią mówić? Innowacyjne aplikacje wykorzystujące przetwarzanie dźwięku i mowy. Plan prezentacji.

Rozpoznawanie mówcy i emocji

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

WYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE OCENY dla uczniów klasy III Gimnazjum nr 47 sportowego w Krakowie opracowany: przez zespół polonistów gimnazjum

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

Bateria Testów Fonologicznych IBE

Język polski wymagania edukacyjne klasa IV

KRYTERIA OCEN Z JĘZYKA POLSKIEGO DLA UCZNIÓW KLASY V

Wymagania edukacyjne z języka polskiego w roku szkolnym 2012/2013 Kryteria ocen w klasie V

Ocenę wyższą otrzymuje uczeń, który spełnia wszystkie wymagania pozytywnych ocen niższych.

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

JĘZYK POLSKI WYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE OCENY ORAZ SPOSOBY SPRAWDZANIA OSIĄGNIĘĆ UCZNIA KLASA V

REGULAMIN SZKOLNEGO KONKURSU ORTOGRAFICZNEGO MISTRZ ORTOGRAFII DLA UCZNIÓW KLAS IV-VI

Propozycje tematów prac magisterskich 2013/14 Automatyka i Robotyka - studia stacjonarne Pracowania Układów Elektronicznych i Przetwarzania Sygnałów

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO KLASA V. Uczniów obowiązują wiadomości i umiejętności nabyte w klasie IV.

Kryteria oceniania z języka polskiego KLASA V

Plan terapii logopedycznej. Cele terapii logopedycznej

Rozwój mowy dziecka OKRES ZDANIA - OD 2 DO 3 ROKU ŻYCIA.

WYMAGANIA EDUKACYJNE JĘZYK NIEMIECKI. OSIĄGNIĘCIA UCZNIA NA STOPIEŃ: dopuszczający dostateczny dobry bardzo dobry celujący

Wymagania edukacyjne na poszczególne oceny śródroczne z języka polskiego dla klasy V

Wymagania edukacyjne dla ucznia klasy siódmej SP z orzeczeniem PPP

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO DLA UCZNIÓW KLASY VI NA POSZCZEGÓLNE OCENY I OKRES OCENA CELUJĄCA

JĘZYK POLSKI WYMAGANIA EDUKACYJNE KLASA V

Wymagania edukacyjne i kryteria oceniania dla klasy V ( do Programu nauczania języka polskiego Teraz polski )

KRYTERIA OCEN Z JĘZYKA POLSKIEGO W KLASIE V

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA POLSKIEGO KL. 8 WYMAGANIA

System Korekty Tekstu Polskiego

W y m a g a n i a EDUKACJA POLONISTYCZNA KLASA I SP

KRYTERIA OCENIANIA OSIĄGNIĘĆ UCZNIÓW Z JĘZYKA POLSKIEGO W KLASIE V. Kryteria ocen

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

VI KSZTAŁCENIE LITERACKIE I KULTUROWE

RAPORT SPRAWDZIAN 2013 SZKOŁA PODSTAWOWA IM. KSIĘDZA TEODORA KORCZA W ZESPOLE SZKOLNO-PRZEDSZKOLNYM W TOPOLI MAŁEJ

KLASA IV - JĘZYK POLSKI WYMAGANIA NA POSZCZEGÓLNE OCENY. Prezentowane poniżej kryteria ogólne dotyczą oceniania na koniec etapu edukacyjnego.

KLUCZ PUNKTOWANIA ZADAŃ

Kryteria oceniania z języka polskiego dla klasy III gimnazjum

Usprawnianie percepcji słuchowej. Jolanta Hysz Konsultant ds. informatyki i edukacji początkowej WODN w Skierniewicach

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Efekt Lombarda. Czym jest efekt Lombarda?

WYMAGANIA PROGRAMOWE DLA KLASY IV SZKOŁY PODSTAWOWEJ Z PRZEDMIOTU JĘZYK POLSKI NA ROK SZKOLNY 2014/2015

WYMAGANIA EDUKACYJNE - JĘZYK POLSKI KRYTERIA OCENIANIA OSIĄGNIĘĆ UCZNIA. Wymagania na poszczególne stopnie szkolne

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

STANDARDY WYMAGAŃ PROGRAMOWYCH Z JĘZYKA POLSKIEGO KLASA IV

KRYTERIA OCENY ROCZNEJ Z JĘZYKA POLSKIEGO W KLASIE V

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

Kontekstowe wskaźniki efektywności nauczania - warsztaty

Czytać, myśleć, uczestniczyć. Program nauczania ogólnego języka polskiego w klasach IV VI szkoły podstawowej.

TEORIA WYTWARZANIA DŹWIĘKÓW

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Ogólnopolski Sprawdzian Szóstoklasisty 2018 z OPERONEM. Kartoteka testu. Wymagania szczegółowe

Dopuszczający Dostateczny Dobry Bardzo dobry Celujący W zakresie czytania ze zrozumieniem uczeń

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO W KLASIE III GIMNAZJUM

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

KRYTERIA OCENY ROCZNEJ Z JĘZYKA POLSKIEGO W KLASIE IV

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Wykorzystanie metody symultaniczno- sekwencyjnej w terapii logopedycznej. Opracowały: Dębska Martyna, Łągiewka Dorota

Cyfrowe przetwarzanie i kompresja danych

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

KRYTERIA OCEN Z JĘZYKA POLSKIEGO W KLASIE IV

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO DLA KLASY II GIMNAZJUM

Wymagania edukacyjne z języka angielskiego dla uczniów gimnazjum klasy I - III

JĘZYK POLSKI WYMAGANIA EDUKACYJNE I KRYTERIA NA POSZCZEGÓLNE OCENY - KLASA IV

Metodyka i system dopasowania protez słuchu w oparciu o badanie percepcji sygnału mowy w szumie

KRYTERIA WYMAGAŃ NA POSZCZEGÓLNE OCENY SZKOLNE. Przedmiot: język polski. Klasa: 5 OCENA CELUJĄCA

Transkrypt:

Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka polskiego na potrzeby systemu rozpoznawania mowy Bartosz Ziółko, Magdalena Igras Katedra Elektroniki Zespół Przetwarzania Sygnałów Wykonano w ramach projektu: Lingwistyczny warsztat do analizy i rozpoznawania mowy NCN nr DEC-2011/03/D/ST6/00914

Plan prezentacji O pracach Zespołu Przetwarzania Sygnałów System rozpoznawania mowy Modelowane cechy prozodyczne Pauzy Iloczasy fonemów Kontury intonacyjne Cechy energetyczne Sylaby Modelowanie akcentów i końców zdań Ironia prozodycznie Przykłady zastosowania wyników badań

Prace Zespołu Przetwarzania Sygnałów System rozpoznawania mowy => Interfejsy głosowe System rozpoznawania mówcy Przetwarzanie języka naturalnego => Systemy dialogowe Silnik audio dla gier dsp.agh.edu.pl RAYAV

System automatycznego rozpoznawania mowy polskiej Nowa wersja Sarmaty (XI 2013) osiągnęła średnią skuteczność 97,7% w testach na przeszło 5 000 nagranych wypowiedziach. W 99,6% przypadków prawidłowa hipoteza była w pierwszej trójce listy najsilniejszych hipotez.

Przepływ danych w systemie AGH Nagranie VAD Dla każdej paczki: Mowa

Przepływ danych w systemie AGH parametryzacja: Możliwości: Segmentacja i partycjonowanie Dekompozycja Falkowa (18 cech) + DCT MFCC 13 Filtrów + Energia, Pochodna + Druga pochodna + DCT + FeatureWarping => 39 cech Modelowanie cech przy użyciu 20-sto elementowych GMM Segmentacja równomierna 20ms, z przesunięciem co 10ms Wyniki

Transkrypcje - ortfon Zamiana zapisu ortograficznego na transkrypcję fonetyczną 37 klas fonemów podstawowych ( w wersji 2.0: 85 klas fonetycznych) bezpieczeństwo jest bardzo ważne b e s p j e 0 e 3 s t f o j e z t b a r 6 o v a Z n e minister środowiska powiedział ważne rzeczy m i 3 i s t e r 5 r o d o v i s k a p o v j e X a w v a Z n e Z wnoszę o przerwę w obradach v n o S e o p S e r v e v o b r a d a x 7

Niedoskonałości systemu System automatycznego rozpoznawania mowy tworzy bezpośrednie transkrypcje zawartości akustycznej nagrania Bez interpunkcji Bez wielkich liter Łącznie z nieciągłościami i sygnałami akustycznymi niebędącymi mową Takie transkrypcje są mało czytelne dla użytkownika i mniej przydatne dla systemów przetwarzania języka naturalnego Tracone są informacje paralingwistyczne i nielingwistyczne

Wyzwanie: przetwarzanie mowy spontanicznej Mowa czytana Mowa spontaniczna Regularna prozodia Brak nieciągłości Poprawność składniowa Ukryta interpunkcja Nieciągłości Częste błędy

Rodzaje cech w systemach rozpoznawania mowy Cechy akustyczne Wysokopoziomowe: Pauzy Intonacja Długość głosek Energia sygnału Cechy językowe n-gramy Zawartość semantyczna Szyk zdania Reguły gramatyczne Niskopoziomowe: MFCC falkowe

Cecha 1: pauzy Typy pauz akustycznych w nagraniach mowy Pauzy ciche (s_p) Pauzy oddechowe (b_p) Pauzy wypełnione (f_p) yyy, mmm, hmm, yh

Źródła pauz w mowie regularne naturalne pauzy związane z czynnością respiracyjną (b_p) nieregularne intencjonalne pauzy, używane celowo jako środek wyrazu, zwłaszcze przez profesjonalnych mówców (s_p) nieregularne nieintencjonalne nieciągłości, efekt wahania, niepewności lub krótkiego namysłu (f_p lub s_p)

Analizowany zbiór nagrań monologi: 30 min monologów spontanicznych (prezentacje, przemówienia) 30 min tłumaczeń w czasie rzeczywistym 60 min wywiadów radiowych 15 min mowy czytanej Niedoświadczeni i profesjonalni mówcy (łącznie 30 mówców)

Statystyki fraz Nagrania Ilość słów/min Ilość kropek /min Średnia długość zdania [s] Ilość słów w zdaniu Ilość przecinkó w /min Średnia długość frazy [s] Ilość słów we frazie Prezentacje 11,9 (24,3) 6,2 (2,4) 10,9 (3,7) 19,6 (5,8) 19,4 (6,0) 3,3 (0,8) 4,4 (1,0) Tłumaczenia 117,2 (20,1) 6,6 (2,0) 10,0 (3,2) 19,1 (4,7) 14,6 (3,3) 4,3 (1,0) 4,6 (0,8) Wywiady radiowe 129,7 (29,1) 9,9 (3,3) 6,7 (2,3) 13,9 (3,3) 16,1 (4,2) 2,5 (0,8) 5,4 (0,8) Średnia 117,6 (23,8) 7,1 (2,8) 9,7 (3,5) 18,2 (5,3) 16,8 (5,1) 3,5 (1,1) 4,7 (0,9)

Pauzy oddechowe Oddechy w sygnale mowy

Pauzy oddechowe Średnia fizjologiczna częstość oddechu zmienia się wraz z wiekiem: 40-50 oddechów/minutę u noworodków i niemowląt, 18-25 u dzieci, 12-20 u osób dorosłych. Stany patologiczne: > 35 oddechów/min < 8 oddechów/min. Podczas produkcji mowy: 10,8(3,4) / min

Długość odeechu [ms] Dystrybucja długości oddechów u poszczególnych mówców Mówcy

Automatyczna detekcja oddechów 1. Normalizacja amplitudy względem średniej energii sygnału 2. Sygnał jest analizowany w obrębie ramek o długości 20 ms z zakładką 10 ms 3. Wskazane zostają regiony sygnału spełniające kryterium czasu, energii i F0: lokalna energii sygnału na poziomie 0.05-0.4 max. amplitudy sygnału przez czas dłuższy niż 150 ms. brak F0. 4. Dla wskazanych fragmentów sygnału wyznaczane są wartości energii w poszczególnych pasmach częstotliwościowych transformacji falkowej. 5. Podobieństwo do wzorców liczone jest algorytmem DTW. energia F0

Wypełnione pauzy Nagrania #f_p(yyy)/min #f_p(mmm)/min Prezentacje 6,5(5,5) 0,6(0,9) Tłumaczenia 5,8(3,5) 0,9(1,0) Radiowe 7,4(3,6) 1,27(1,14) Średnia 6,4(4,3) 0,9(1,0) Proporcje częstości użycia wypełnionych pauz sygnalizujących interpunkcję

Automatyczna detekcja wypełnionych pauz formanty F0

Cecha 2: Długość głoski 700 600 500 Dystrybucja lognormalna długości realizacji przykładowych fonemów: 400 350 300 400 300 200 100 /a/ 0 0 50 100 150 200 250 300 250 200 150 100 50 /r/ 0 0 50 100 150 200 250 200 150 100 50 /sz/ 0 0 50 100 150 200 250 300 350 f f x 1 ( 2 ( x) e 2 2 2 ) ln x 1 ( ) 2 2 ( x) e 2 x 2 2

Mean durations of phonemes and their standard deviations [ms] Długość głosek 220 Średnie długości i ich odchylenia standardowe 200 180 160 140 120 100 80 60 40 20 sp l j r ni g d n l_ w y t f i mb N u k h p e odziz a rzdzzidrzc ciszs sicza_e_ Phonemes

Względna energia Mapa polskich fonemów Względna długość

F0 [Hz] Cecha 4: częstotliwość podstawowa (F0) Algorytmy: oparte na ZCR, autokorelacji, spectrum; RAPT, YAAPT Modelowanie regresją liniową lub wielomianami 130 125 Max F0 tg α= df0/dt 120 115 Mean F0 Min F0 110 105 100 α 95 0 2 4 6 8 10 12 14 16 dt czas [ramki] df0

F0 [Hz] Modelowanie F0 czas [ramki]

Algorytm segmentacji na sylaby Na podstawie wartości progowej oraz wartości średniej, w sygnale znajdujemy fragmenty odpowiadające wyrazom lub połączonym ciągom wyrazów. Detekcja słów w sygnale mowy

Algorytm segmentacji na sylaby (Mermelstein 1975) Rekurencyjne wywoływanie algorytmu Convex Hull. Warunek zatrzymania algorytmu: Długość segmentu < minimalna długość sylaby (80 ms) Wartość d < wartość progowa

Algorytm segmentacji na sylaby Procent Delecji / usunięcia/ (d) Procent Insercji /wstawienia/ (i) Accuracy ( h - i) / (h + d) Ins = 2.4% Del = 4.7% Acc = 93.0%

Końce zdań Cechy prozodyczne Cechy funkcjonalne pauzy iloczas energia koniec zdania F0

Korelacje pomiędzy pauzami a interpunkcją (mowa spontaniczna) kropki Różne typy pauz determinujące: przecinki

Korelacje pomiędzy pauzami a interpunkcją 60,0 50,0 40,0 30,0 czytana spontaniczna 20,0 10,0,0 n_p. s_p. f_p. b_p. n_p, s_p, f_p, b_p, kropki przecinki

No of occurences Zmiana długości głosek na końcach zdań 8000 7000 700 600 500 88.5% Mean:1.54 6000 5000 4000 3000 2000 400 300 200 100 0 0 0.5 1 1.5 2 2.5 3 3.5 Duration ratio 1000 0 0 0.5 1 1.5 2 2.5 3 3.5 Duration ratio

Prawdopodobieństwo wystąpienia Końca zdania Zmiana długości głosek na końcach zdań 0.7 y vs. x fit 1 0.6 0.5 f Model Gaussowski: x 1 ( 2 ( x) e 2 2 2 ) 0.4 0.3 f ( d n ) 0.747e x 2.68 ( ) 0.92 2 0.2 0.1 0 0.5 1 1.5 2 2.5 3 Względna długość Jakość dopasowania RMSE: 0.0327

Zmiana długości głosek na końcach zdań

Modelowane prawdopodobieństwo wystąpienia końca zdania JPA28 0.6 0.5 0.4 0.3 0.2 0.1 0 nmj e j s7enaobe j Ze3ek t u regova r t opse zna0 y8 t yxe3a l bo f tsyd3 i mj as t ok t u regob l i SSepo zna3ev ymagamj e5 i en7y t u r y

Ilość wystapień Zmiany energii głosek na końcach zdań 500 86,5% 12000 10000 400 300 200 86.5% mean: 0.6 Średnia: 0,6 8000 6000 4000 100 0 0 0.5 1 1.5 2 2.5 3 3.5 Współczynnik energii 2000 0 0 0.5 1 1.5 2 2.5 3 3.5 Współczynnik energii

Prawdopodobieństwo wystąpienia Końca zdania Zmiany energii głosek na końcach zdań Względna energia

Ilość wystapień Zmiany mocy głosek na końcach zdań 250 99,6% occurrenc es Ilość wystąpień No of 12000 10000 8000 6000 4000 2000 200 150 100 50 99.6% mean: 0.36 Średnia: 0,36 0 0 0.5 1 1.5 2 2.5 3 3.5 Współczynnik mocy 0 0 0.5 1 1.5 2 2.5 3 3.5 Współczynnik mocy

Prawdopodobieństwo wystąpienia Końca zdania Zmiany mocy głosek na końcach zdań 0.14 0.12 y vs. x fit 1 0.1 0.08 0.06 0.04 0.02 0 0 0.5 1 1.5 2 2.5 Względnia moc

Akcenty Cechy prozodyczne Cechy funkcjonalne iloczas energia akcent F0

Ilość wystąpień Accents phonemes duration 3 x 104 2.5 2 1.5 1 0.5 0 0 0.5 1 1.5 2 2.5 3 Względna długość

Ilość wystąpień Accents phonemes energy 15000 10000 5000 0 0 0.5 1 1.5 2 2.5 3 Względna energia

Ilość wystąpień Accents phonemes power 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 0 0.5 1 1.5 2 2.5 3 Względna moc

Zmiana F0 w miejscach samogłosek akcentowanych Samogłoska Średnia F0 wszystkich samogłosek [Hz] Średnia F0 Akcentowanych samogłosek [Hz] Zmiana dla akcentowanych [Hz] 'a' 164 170 + 6 'a_' 155 168 +13 'e' 163 173 +10 'e_' 164 171 + 7 'o' 160 162 +2 'u' 170 180 +10 'i' 156 159 +3 'y' 172 180 +8

Podsumowanie ꜛ iloczas Końce zdań ꜛ iloczas akcenty ꜜ energia, moc ꜜ F0 ꜛ energia, moc ꜛ F0 duration 2 1,5 1 average sentence ends duration 1,2 1,15 1,1 1,05 1 average accents F0 0,5 0 energy F0 0,95 0,9 energy power power

Względna energia Rozkład cech głosek akcentowanych i końcowych Względna długość

Ironia zamaskowana kpina, drwina zawarta w pozornej aprobacie; lekki sarkazm, ujęty w wypowiedź, której zamierzony sens jest odwrotnością dosłownego znaczenia słów w powiązaniu z kontekstem środek wyrazu, emocja złożona, postawa emocjonalna? ton ironiczny jest dodatkową informacją niesioną przez sygnał mowy reprezentującą postawę emocjonalną wobec wypowiadanej treści

Rozpoznanie Percepcja ironii Testy percepcyjne nagrań oryginalnych Emocja prezentowana w nagraniu złość zdziw ironia neutr. smutek radość strach złość 75,0 2,7 2,8 1,4 0 1,4 2,7 zdziwienie 0 58,1 15,3 6,9 0 2,7 9,5 ironia 1,4 23,0 66,7 2,8 0 20 6,8 neutralny 0 1,4 2,8 56,9 10,3 5,5 1,4 smutek 2,8 0 1,4 6,9 78,2 0 12,2 radość 1,4 5,4 4,2 2,8 0 32,9 0 strach 2,8 2,7 0 1,4 2,6 0 35,1 nierozpoznane 16,7 6,8 6,9 20,8 9,0 35,6 32,4

Rozpoznanie Percepcja ironii Testy percepcyjne nagrań bez treści Emocja prezentowana w nagraniu złość zdziw ironia neutr. smutek radość strach złość 30 10 10 5 20 0 0 zdziwienie 0 80 10 0 0 0 0 ironia 20 10 40 15 10 20 10 neutralny 20 0 10 35 30 20 0 smutek 0 0 10 20 30 0 0 radość 10 0 0 10 0 30 0 strach 10 0 10 5 0 10 70 nierozpoznane 10 0 10 10 10 20 20

Cechy prozodyczne ironii Kadencja F0, szczególnie w końcowej części frazy Większe odchylenie standardowe F0 Wzrasta iloczas wypowiedzi Silniejsze akcentowanie Zmiana stosunku iloczasu sąsiadujących sylab w akcentowanym wyrazie

Znaczenie prac badawczych nad środkami prozodycznymi w technologii mowy Źródło informacji dla modelowania języka System rozpoznawania mowy Synteza mowy Interfejsy głosowe, systemy dialogowe Cechy biometryczne Związek z emocjami Aspekt medyczny Aspekt szkoleniowy System rozpoznawania mówcy Detekcja emocji w mowie System detekcji oddechu w sygnale mowy Systemy wspomagające szkolenie mówców

Dziękujemy za uwagę {bziolko,migras}@agh.edu.pl