Pavel Cenek, Aleš Horák

Podobne dokumenty
IB047. Pavel Rychlý. 21. února

1 Soustava lineárních rovnic

Anna Kratochvílová Anna Kratochvílová (FJFI ČVUT) PDR ve zpracování obrazu / 17

Internet a zdroje. (Zdroje na Internetu) Mgr. Petr Jakubec. Katedra fyzikální chemie Univerzita Palackého v Olomouci Tř. 17.

Numerické metody 8. května FJFI ČVUT v Praze

Definice Řekneme, že PDA M = (Q,Σ,Γ,δ,q 0,Z 0,F) je. 1. pro všechna q Q a Z Γ platí: kdykoliv δ(q,ε,z), pak δ(q,a,z) = pro všechna a Σ;

Aproximace funkcí 1,00 0,841 1,10 0,864 1,20 0,885. Body proložíme lomenou čarou.

IEL Přechodové jevy, vedení

Matematika 2, vzorová písemka 1

kontaktní modely (Winklerův, Pasternakův)

Úvodní informace. 18. února 2019

Linea rnı (ne)za vislost

(1) Derivace. Kristýna Kuncová. Matematika B2 17/18. Kristýna Kuncová (1) Derivace 1 / 35

Kapitola 4: Soustavy diferenciálních rovnic 1. řádu

TGH01 - Algoritmizace

Powyższe reguły to tylko jedna z wersji gry. Istnieje wiele innych wariantów, można też ustalać własne zasady. Miłej zabawy!

Inverzní Z-transformace

Automatové modely. Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Matematika III Stechiometrie stručný

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Výzvy, které před matematiku staví

Rovnice proudění Slapový model

Elementární funkce. Edita Pelantová. únor FJFI, ČVUT v Praze. katedra matematiky, FJFI, ČVUT v Praze

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Mocninné řady 1 / 18

Stavový popis Stabilita spojitých systémů (K611MSAP) Katedra aplikované matematiky Fakulta dopravní ČVUT. čtvrtek 20. dubna 2006

DFT. verze:

Obsah: Organizace předmětu IB030. Situace na FI MU

PA152,Implementace databázových systémů 2 / 25

Formálne jazyky Automaty. Formálne jazyky. 1 Automaty. IB110 Podzim

Martin Pergel. 26. února Martin Pergel

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

Numerické metody minimalizace

Reprezentace dat. BI-PA1 Programování a Algoritmizace I. Ladislav Vagner

5. a 12. prosince 2018

Vybrané kapitoly z matematiky

BRNO UNIVERSITY OF TECHNOLOGY FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA MASTER S THESIS AUTHOR

TGH01 - Algoritmizace

Představení projektu

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

Kristýna Kuncová. Matematika B3

Zadání: Vypočítejte hlavní momenty setrvačnosti a vykreslete elipsu setrvačnosti na zadaných

ggplot2 Efektní vizualizace dat v prostředí jazyka R Martin Golasowski 8. prosince 2016

Necht je funkce f spojitá v intervalu a, b a má derivaci v (a, b). Pak existuje bod ξ (a, b) tak, že f(b) f(a) b a. Geometricky

Cauchyova úloha pro obyčejnou diferenciální rovnici

Petr Křemen FEL ČVUT. Petr Křemen (FEL ČVUT) Vysvětlování modelovacích chyb 133 / 156

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Úvod 1 / 32

Logika V. RNDr. Kateřina Trlifajová PhD. Katedra teoretické informatiky Fakulta informačních technologíı BI-MLO, ZS 2011/12

Kombinatorika a grafy I

Biosignál II. Lékařská fakulta Masarykovy univerzity Brno

cepstrum Jan Černocký FIT VUT Brno

MATEMATIKA 3. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.

Register and win!

Platforma pro analýzu, agregaci a vizualizaci otevřených dat souv

vystavit agenta realitě místo přepisování reality do pevných pravidel

Obsah. Zobrazení na osmistěn. 1 Zobrazení sféry po částech - obecné vlastnosti 2 Zobrazení na pravidelný konvexní mnohostěn

NÁVOD K POUŽITÍ KEZELÉSI KÉZIKÖNYV INSTRUKCJA OBSŁUGI NÁVOD NA POUŽÍVANIE. Česky. Magyar. Polski. Slovensky

Kristýna Kuncová. Matematika B2 18/19

Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.

Transkrypcja fonetyczna i synteza mowy. Jolanta Bachan

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Uvod Symbolick e modelov an ı Neuronov e s ıtˇ e Shrnut ı Modelov an ı myˇslen ı Radek Pel anek

K SAMOSTATNÉ MODULOVÉ SCHODY MONTÁŽI. asta

Gramatické formalismy pro ZPJ

Lineární algebra - iterační metody

LBF/ZUB22 Programové vybavení ordinace zubního lékaře. Mgr. Markéta Trnečková, Ph.D. Palacký University, Olomouc

Přehled aplikací matematického programovaní a

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Obsah: Rozhodovací stromy. Úvod do umělé inteligence 11/12 2 / 41. akce

ZÁVĚREČNÁ KONFERENCE Poslanecká sněmovna PČR Praha MEZINÁRODNÍ DOTAZNÍKOVÉ ŠETŘENÍ ANKIETY MIEDZYNARODOWE

Vlastnosti. Příprava. Czech - 2 -

Co nám prozradí derivace? 21. listopadu 2018

Expresivní deskripční logiky

Teorie plasticity. Varianty teorie plasticity. Pružnoplastická matice tuhosti materiálu

Geometrická nelinearita: úvod

Stochastické modelování v ekonomii a financích Konzistence odhadu LWS. konzistence OLS odhadu. Předpoklady pro konzistenci LWS

Martin Dlask (KSI FJFI) 3. března 2016

(13) Fourierovy řady

Metoda hlavních komponent a faktorová analýza

Edita Pelantová, katedra matematiky / 16

Návod k použití BUBNOVÁ SUŠIČKA

Statistika (KMI/PSTAT)

Fakulta biomedic ınsk eho inˇzen yrstv ı Teoretick a elektrotechnika Prof. Ing. Jan Uhl ıˇr, CSc. L eto 2019

Návod k obsluze 2 Ďäçăßĺň ńţóçň 10 Instrukcja obsugi 18 Kullanma Kýlavuzu 26

TVL LED NÁVOD K POUŽITÍ NÁVOD NA POUŽITIE

DXDB 215 NÁVOD K POUŽITÍ NÁVOD NA POUŽITIE INSTRUKCJA OBSŁUGI USER MANUAL

Univerzita Karlova v Praze Matematicko-fyzikální fakulta

Kristýna Kuncová. Matematika B2

uživatelská příručka představte si možnosti

Diferenciální rovnice základní pojmy. Rovnice se

Univerzita Palackého v Olomouci

Petr Krajča. Katedra informatiky Univerzita Palackého v Olomouci. Petr Krajča (UP) KMI/YDATA: Přednáška I. 5. říjen, / 37

ULS4805FE. Návod k použití Návod na použitie Instrukcja obsługi Instruction Manual Használatı utasítás. Licensed by Hyundai Corporation, Korea

Robustní architektura vícevrstvých

CA CZ, s.r.o. May 21, Radek Mařík Testování řídicích struktur May 21, / 45

FAVORIT I CS MYČKA NÁDOBÍ NÁVOD K POUŽITÍ 2 PL ZMYWARKA INSTRUKCJA OBSŁUGI 23 SK UMÝVAČKA NÁVOD NA POUŽÍVANIE 46

DVD P ehrávaã UÏivatelská p íruãka

Biofyzikální ústav Lékařské fakulty Masarykovy univerzity Brno

Transkrypt:

Syntéza a rozpoznávání řeči Pavel Cenek, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Obsah: Rozpoznávání řeči Související technologie Úvod do počítačové lingvistiky 3/11 1 / 21

Text to Speech, TTS Konverze textu do mluvené podoby V ideálním případě by měla syntetizovaná řeč znít tak, jako kdyby daný text přečetl člověk Probíhá obvykle ve 4 fázích Normalizace textu Fonetický přepis Prozodický přepis Akustické modelování První 3 fáze = NLP modul, čtvrtá fáze = DSP modul Úvod do počítačové lingvistiky 3/11 2 / 21

Normalizace textu Normalizace textu Rozčlenění textu na věty Rozvinutí zkratek, měrných jednotek, čísel apod. číslo telefonní číslo 130895 datum... Úvod do počítačové lingvistiky 3/11 3 / 21

Fonetický přepis Fonetický přepis Převede předzpracovaný text do fonetické podoby (tj. do tvaru, který popisuje výslovnost daného textu) Mezinárodní fonetická abeceda (IPA) v češtině cca 40 fonémů Fonetický přepis češtiny musí zohlednit např. Spodoba znělosti (včela/fčela, dub/dup) Krajové zvyky (např. shoda/zhoda nebo schoda) Problémy přináší přepis cizích vlastních jmen a cizích slov obecně (např. faux pas nebo francouzská vlastní jména) Dvě základní metody Fonetický přepis založený na pravidlech (např. pro češtinu funguje dobře) Fonetický přepis pomocí výslovnostních lexikonů Obě metody lze kombinovat Úvod do počítačové lingvistiky 3/11 4 / 21

Prozodický přepis Prozodický přepis tzv. suprasegmentální rysy popisuje řečový proud spolu s přepisem do fonémů obohacení textu o informace (viz SSML dále) o lokálních fyzikálních charakteristikách výsledné zvukové vlny: délka fonému tempo řeči, pauzy intonace věty vzor pro hladinu základní frekvence (pitch) tón v některých (tzv. tónových) jazycích určuje význam lexikální přízvuk v přízvukových jazycích ovlivňuje délku, hlasitost a tón slov kvalitní výpočet prozodie = přirozenost syntetizované řeči např. u tonálních jazyků silně ovlivní i porozumění Emoce člověk je při projevu používá výzkum syntézi s emocemi je o dost složitější Úvod do počítačové lingvistiky 3/11 5 / 21

SSML Speech Synthesis Markup Language (SSML) Doporučení W3C (jako HTML, XML,...) standardní způsob pro doplnění fonetiky a prozodie do textu Pokrývá první 3 fáze syntézy řeči (normalizace, fonetický přepis, prozodie) <say-as> explicitní určení typu dat (např. Type="Acronym", viz Normalizace) <phoneme> fonetický přepis textu <voice> změna hlasu (atributy věk, muž/žena,...) <emphasis> přidání/odebrání důrazu <break> vložení/zrušení pauzy <prosody> ovlivnění prozodie (výška hlasu, kontura, rychlost, hlasitost atd.) Úvod do počítačové lingvistiky 3/11 6 / 21

SSML Speech Synthesis Markup Language (SSML) příklad <?xml version="1.0" encoding="utf-8"?> <vxml version="2.0" xmlns="http://www.w3.org/2001/vxml"> <form> <block> <prompt> <voice gender="male"><emphasis>hello</emphasis> Jane.</voice> <voice gender="female"><emphasis>hello</emphasis> Mike, how <emphasis>are</emphasis> you?</voice> <voice gender="male">i am fine. And how are <emphasis>you</emphasis> Jane?</voice> <voice gender="female">not bad.</voice> <voice gender="male">ok, Goodbye.</voice> <voice gender="female"><emphasis>goodbye</emphasis> Mike.</voice> </prompt> </block> </form> </vxml> Úvod do počítačové lingvistiky 3/11 7 / 21

Akustické modelování Akustické modelování Generování výsledného akustického signálu z předzpracovaného textu (řeší DSP modul) Dva základní přístupy syntéza řeči v časové oblasti syntéza řeči ve frekvenční oblasti v posledních letech i modelování pomocí hlubokých neuronových sítí (WaveNet) prozatím příliš výpočetně náročné pro aplikace v reálném čase Úvod do počítačové lingvistiky 3/11 8 / 21

Akustické modelování v časové oblasti = konkatenativní syntéza Výsledná řeč se skládá z vybraných, dopředu namluvených segmentů řeči (difónů, trifónů, slabik apod.) Relativně jednoduché na implementaci Nutnost vytvoření rozsáhlé databáze segmentů (koartikulace, např. á zní jinak v táta a máma): difóny t á t a trifóny t á t a kombinace heterogenní segmenty (někdy difóny, trifóny i celá slova) Dochází k deformaci segmentů jejich spojováním a aplikací prozodických pravidel tajemství komerčních aplikací Úvod do počítačové lingvistiky 3/11 9 / 21

Akustické modelování Semiautomatická tvorba difónové databáze Úvod do počítačové lingvistiky 3/11 10 / 21

Akustické modelování ve frekvenční oblasti 2 hlavní přístupy: Modelování hlasového ústrojí generovaný zvuk závisí na parametrech tohoto hlasového ústrojí. velká flexibilita (nový hlas lze vytvořit pouhou změnou parametrů) velmi náročné výpočty (řeší se fyzikální rovnice modelující situaci ve vokálním traktu, diferenciální rovnice, větš. degradují na válce/koule, ale stejně moc náročné) v praxi se téměř nepoužívá Formantová syntéza modelování (jen) hlavních akustických rysů řečového signálu model zdroj/filtr zdroj generuje základní tón pro znělé části řeči a šum pro neznělé části řeči a filtry modifikují zvukové spektrum a napodobují tak hlavní funkce lidského vokálního traktu zdroj i filtr jsou řízeny množinou fonetických pravidel syntéza založená na pravidlech lze počítat v reálném čase mnohem menší data než u konkatenativní syntézy vhodné i pro embedded devices espeak open source projekt espeak.sourceforge.net Úvod do počítačové lingvistiky 3/11 11 / 21

TTS systémy TTS systémy ve světě nejčastější použití telefonní systémy c Nuance (http://www.nuance.com/) c Loquendo nyní Nuance c Acapela group (http://www.acapela-group.com/) založena v roce 2004 třemi společnostmi, jedna z nich autor MBROLA c IBM (http://www.research.ibm.com/tts/) c AT&T (http://www.research.att.com/) Festival (http://www.cstr.ed.ac.uk/projects/festival/) MBROLA (http://tcts.fpms.ac.be/synthesis/mbrola.html) FreeTTS (http://freetts.sourceforge.net/) Úvod do počítačové lingvistiky 3/11 12 / 21

TTS systémy České TTS systémy EPOS TTS (http://sourceforge.net/projects/epos) Česká akademie věd + Karlova univerzita Demosthenes, Popokatepetl LSD FI ERIS TTS (http://www.speechtech.cz/), heterogenní segmenty DEMO SpeechTech, s.r.o. + katedra kybernetiky FAV ZČU c verze je nejlepší český Český hlas pro MBROLA Mikuláš Piňos, NLP lab FI DEMO Úvod do počítačové lingvistiky 3/11 13 / 21

Rozpoznávání řeči Rozpoznávání řeči Automatic Speech Recognition, ASR Konverze řeči na text Výstupem je většinou množina hypotéz spolu s pravděpodobností správnosti dané hypotézy. K výběru správné hypotézy se běžně využívají jazykové modely Lze zhruba rozdělit na Rozpoznávání izolovaných slov slyšitelná pauza mezi slovy Rozpoznávání kontinuální řeči plynulá řeč (řeč školeného mluvčího nebo čtený text) Rozpoznávání spontánní řeči přeřeky, pauzy, začátky vět (false-starts) Úvod do počítačové lingvistiky 3/11 14 / 21

Rozpoznávání řeči Rozpoznávání řeči pokrač. Diktovací stroje (např. Dragon Naturally Speaking) Schopné rozpoznat cokoliv N-gramové statistické jazykové modely Závislé na mluvčím (je potřeba je natrénovat) Rozpoznávače založené na gramatikách Rozpoznají jen fráze popsané (regulární) gramatikou (gramatika = jazykový model) S Jedu do MESTO MESTO Prahy Brna Nezávislé na mluvčím telefonní aplikace Speech Recognition Grammar Specification (SRGS) standard W3 konzorcia, à la BNF existují 2 notace XML a šipková pro čtení dá se do ní dát i význam vstupu Úvod do počítačové lingvistiky 3/11 15 / 21

Rozpoznávání řeči Rozpoznávání řeči pokrač. Probíhá obvykle ve 3 fázích: 1. Vstup signálu Amplituda akustického vlnění je snímána v pravidelných intervalech a uložena ve formě celého čísla (digitalizace a vzorkování signálu) 2. Vytvoření akustických charakteristik signálu (akustické vektory) Snižuje variabilitu a odstraňuje redundanci (řeč 300 000 redundantní) Počítají se rozdělením na segmenty 10 40 ms, ze kterých se odečítají charakteristiky, jako je počet průchodů nulou nebo prvních 12 koeficientů FFT (cca 40 čísel, není přesně dané které, ale výběr velice ovlivní výsledek) 3. Porovnávání vektorů parametrů K získané sekvenci vektorů parametrů se hledá co nejpodobnější sekvence známých, předem naučených, vektorů reprezentující např. fonémy, trifóny, slabiky, celá slova apod. Úvod do počítačové lingvistiky 3/11 16 / 21

Rozpoznávání řeči Porovnávání vektorů parametrů Porovnávání vektorů parametrů Algoritmus borcení časové osy (dynamic time warping, DTW) odstraňuje časové nerovnoměrnosti v akustickém signálu Skryté Markovovy modely (Hidden Markov Models, HMM) Pravděpodobnostní konečné automaty V každém okamžiku je hlasové ústrojí v určitém stavu a může s určitou pravděpodobností přejít do jednoho z následujících stavů Jako doplněk se mohou využít neuronové sítě Je nejprve potřeba natrénovat za pomocí dat z řečového korpusu Úvod do počítačové lingvistiky 3/11 17 / 21

Rozpoznávání řeči ASR systémy ASR systémy ve světě c Nuance (http://www.nuance.com/) c Loquendo (http://www.loquendo.com/) nyní Nuance c LumenVox (http://www.lumenvox.com/) c IBM ViaVoice nyní Nuance Dragon Naturally Speaking http://www.nuance.com/dragon/ Sphinx (http://cmusphinx.sourceforge.net/) Úvod do počítačové lingvistiky 3/11 18 / 21

Rozpoznávání řeči ASR systémy České ASR systémy Laboratoř počítačového zpracování řeči na Fakultě mechatroniky Technické univerzity v Liberci (http://www.ite.tul.cz/speechlab/) ERIS ASR (http://www.speechtech.cz/) SpeechTech, s.r.o. + katedra kybernetiky FAV ZČU Speech@FIT VUT Brno (http://speech.fit.vutbr.cz/) keyword spotting jestli se vyskytlo dané slovo v běžné řeči Úvod do počítačové lingvistiky 3/11 19 / 21

Rozpoznávání řeči ASR systémy Mozilla Common Voice voice.mozilla.org iniciativa Mozilly pro vytvoření komunitního ASR můžete sami přispět k dostupnosti rozpoznávání řeči pro váš jazyk uživatelé: vybírají věty (je potřeba > 5,000 vět/jazyk) kontrolují věty nahrávají věty (za všechny jazyky je nyní nahráno 2,000 hodin) kontrolují nahrávky vět www.mozilla.cz/zpravicky/stav-cestiny-v-projektu-common-voice/ Úvod do počítačové lingvistiky 3/11 20 / 21

Související technologie Související technologie Dialogové systémy Počítačové systémy komunikující s uživatelem pomocí přirozeného jazyka Využívají ASR a TTS jako své komponenty Rozpoznávání mluvčího identifikace mluvčího určení, který z registrovaných mluvčích pronesl danou větu verifikace mluvčího akceptování nebo odmítnutí identity mluvčího Identifikace mluveného jazyka fonémicko-fonetický rozpoznávač pro každý rozpoznávaný jazyk sledují se fonémy specifické pro každý jazyk daná promluva je zpracována všemi rozpoznávači a jako jazyk dané promluvy je zvolen jazyk, jehož rozpoznávač dosáhl nejvyššího skóre Úvod do počítačové lingvistiky 3/11 21 / 21