Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Podobne dokumenty
Transkrypcja fonetyczna i synteza mowy. Jolanta Bachan

TEORIA WYTWARZANIA DŹWIĘKÓW

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

Przygotowanie bazy difonów języka polskiego dla realizacji syntezy mowy w systemie MBROLA

Korpusy mowy i narzędzia do ich przetwarzania

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

Czy komputery potrafią mówić? Innowacyjne aplikacje wykorzystujące przetwarzanie dźwięku i mowy. Plan prezentacji.

Segmentacja akustycznej bazy językowej na potrzeby realizacji korpusowej syntezy mowy w systemie Festival

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Semantyczne kodowanie mowy przy bardzo małych prędkościach transmisji.

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

Algorytmy automatyzacji tworzenia baz jednostek akustycznych w syntezie mowy polskiej

Komputerowe przetwarzanie sygnału mowy

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

Algorytmy automatyzacji tworzenia baz jednostek akustycznych w syntezie mowy polskiej

Transpozer czasowy mowy

Usprawnianie percepcji słuchowej. Jolanta Hysz Konsultant ds. informatyki i edukacji początkowej WODN w Skierniewicach

Głos. Proces generacji dźwięku płuca, fałdy głosowe, kanał głosowy rezonatory i artykulatory. Ton krtaniowy Częstotliwości formantowe dla mowy

NeuroVoice. Synteza i analiza mowy. Paweł Mrówka

Zastosowanie MRROC++ do budowy układu sterowania robotem zdolnym do werbalnej komunikacji z człowiekiem

HARMONOGRAM ORAZ INSTRUKCJE DWICZEO

Profilaktyka logopedyczna w przedszkolu. Jolanta Hysz konsultant ds. informatyki i edukacji początkowej WODN w Skierniewicach

Optymalizacja funkcji kosztu w korpusowej syntezie mowy polskiej

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

Program Logopedia. - opis szczegółowy. Szereg ciszący.

Mowa w protetyce słuchu

Optymalizacja funkcji kosztu w korpusowej syntezie mowy polskiej

Omówienie różnych metod rozpoznawania mowy

Rozwój mowy dziecka OKRES ZDANIA - OD 2 DO 3 ROKU ŻYCIA.

Recenzja rozprawy doktorskiej mgr Michała Lenarczyka

Polsko-Japońska Wyższa Szkoła Technik Komputerowych

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert

kształcenie świadomości fonologicznej u dzieci 6-letnich; podnoszenie sprawności artykulacyjnej;

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

PRACA DYPLOMOWA Inżynierska

Dźwięk dźwiękowi nierówny, czyli o tym jak brzmi XXI wiek


I. Wstęp II. Niemiecka wymowa ortofoniczna III. Narządy mowy i ich czynności IV. Spółgłoski wprowadzenie ogólne V. Spółgłoski niemieckie

PROGRAM TERAPII LOGOPEDYCZNEJ W PUBLICZNEJ SZKOLE PODSTAWOWEJ

Przetwarzanie sygnału mowy

Opracowała : mgr Elżbieta Książkiewicz-Mroczka

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy


OPIS MODUŁU (PRZEDMIOTU), PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A OPIS MODUŁU (PRZEDMIOTU) studia pierwszego stopnia

System diagnostyki słuchu

dr inż. Artur Janicki pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW

Opis akustyczny samogłosek Wprowadzenie

METODY KODOWANIA SYGNAŁU MOWY DO ZASTOSOWAŃ W TELEKOMUNIKACJI

Efekt Lombarda. Czym jest efekt Lombarda?

WYMAGANIA EDUKACYJNE DLA KLASY II ROK SZKOLNY 2015/2016

Technologie Mowy Bartosz Ziółko


ROLA SŁUCHU FONEMATYCZNEGO

FONETYKA. Co to jest fonetyka? Język polski Klasa III Gim

Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka polskiego na potrzeby systemu rozpoznawania mowy

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Spis treści. 1. Cyfrowy zapis i synteza dźwięku Schemat blokowy i zadania karty dźwiękowej UTK. Karty dźwiękowe. 1

Wymagania edukacyjne z języka polskiego w roku szkolnym 2012/2013 Kryteria ocen w klasie V


ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

SYNTEZA MOWY W E-LEARNINGU DLA OSÓB NIEPEŁNOSPRAWNYCH

Przesył mowy przez internet

Zaawansowane algorytmy DSP

dr inż. Jacek Naruniec

Opisy efektów kształcenia dla modułu

KOMPRESJA STRATNA SYGNAŁU MOWY. Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP

58. Otwarte Seminarium z Akustyki, OSA '11, Gdańsk-Jurata, September 2011

Wymagania edukacyjne z języka polskiego dla klasy 4. Ocena celująca:

System dialogowy języka mówionego przegląd problemów

Gramatyka opisowa języka polskiego Kod przedmiotu

KLASA VII. (Ocenę wyższą otrzymuje uczeń, który spełnia wszystkie wymagania ocen niższych pozytywnych).

Państwowa Komisja Badania Wypadków Lotniczych Samolot ultralekki Zenair CH-601HD Zodiac, OK-LUA47; r., Łęgowo k/wągrowca ALBUM ILUSTRACJI

DZIENNIK URZĘDOWY WOJEWÓDZTWA ŁÓDZKIEGO

ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 4. Wybrane telekomunikacyjne zastosowania algorytmów adaptacyjnych

Nauka o słyszeniu Wykład IV Głośność dźwięku

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Praca dyplomowa inżynierska

Rozpoznawanie mowy za pomocą HTK

PROPOZYCJE TEMATÓW PROJEKTOWYCH PROJEKTOWANIE OPROGRAMOWANIA SYSTEMÓW


VI KSZTAŁCENIE LITERACKIE I KULTUROWE

BIOMETRIA WYKŁAD 6 CECHY BIOMETRYCZNE: GŁOS

SŁOWNIK LOGOPEDYCZNY

Diagnostyka i protetyka słuchu i wzroku IMPLANTY. Implanty ślimakowe i inne


8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

Kognitywistyka UAM, rok II

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej

WYMAGANIA EDUKACYJNE Z JĘZYKA NIEMIECKIEGO KRYTERIA NA POSZCZEGÓLNE OCENY :


Transkrypt:

Synteza mowy opracowanie: mgr inż. Kuba Łopatka

Synteza mowy (ang. TTS - Text-To-Speech ) zamiana tekstu w formie pisanej na sygnał akustyczny, którego brzmienie naśladuje brzmienie ludzkiej mowy. Podstawowe cechy (cele) syntezy to: zrozumiałość treści wypowiedzi, naturalność brzmienia.

tekst (lub tekst z opisem) synteza wysokiego poziomu synteza niskiego poziomu Analiza tekstu (NLP) przetworzony tekst Analiza fonetyczna ciąg głosek + parametry Synteza sygnału mowy akustyczny sygnał mowy

Pierwszy etap przetwarzania analiza tekstu. W analizie wykorzystywane są metody z dziedziny przetwarzania języka naturalnego (ang. Natural Language Processing NLP ). Zadania wchodzące w skład analizy tekstu wejściowego: normalizacja tekstu, analiza morfologiczna, analiza syntaktyczna, analiza prozodyczna.

Zamiana wypowiedzi dostępnej w formie tekstowej na ciąg fonemów. uwzględnienie zjawisk fonetycznych obowiązujących w języku (np. utrata dźwięczności, wygłos) wyjątki fonetyczne (np. marznąć) i słowa obce słownik Należy przyjąć standard opisu głosek (np. alfabet SAMPA, IPA, AS).

Zosia dała Stefanowi 5,50 zł. normalizacja: zosia dała stefanowi pięć złotych pięćdziesiąt groszy analiza morfologiczna: zo sia da ła ste fa no wi pięć zło tych pięć dzie siąt gro szy analiza prozodyczna: analiza fonetyczna: zośadałastefanowipjęʒźłotyhpjeńʒéśǫdgrošy

Wyróżnia się 3 podstawowe metody: Synteza mowy formantowa artykulacyjna konkatenacyjna

Pierwsze syntetyzery mechaniczne (von Kempelen 1791) Pattern Playback 1950 maszyna czytająca spektrogram Pierwszy syntetyzer formantowy 1964 r. Później synteza artykulacyjna i konkatenacyjna

Istotą dwóch pierwszych podejść do syntezy mowy jest zamodelowanie pobudzenia (tonu krtaniowego) i funkcji przenoszenia (transmitancji) traktu głosowego, która je moduluje.

Synteza formantowa modelowanie traktu głosowego jako połączenie rezonatorów filtrów elektrycznych (LC) lub cyfrowych. Łączna charakterystyka częstotliwościowa układu filtrów ma być zbliżona do charakterystyki aparatu mowy człowieka. Podejście to ma w założeniu odwzorować formantowy charakter sygnału mowy.

Formant - skupisko energii w widmie sygnału mowy. Rozmieszczenie i relacje między formantami (zwłaszcza pierwszymi oznaczanymi F1 i F2) mają kluczowe znaczenie dla zrozumiałości mowy.

Synteza artykulacyjna rozwinięcie metody formantowej próbkowanie (lub teoretyczne obliczanie) charakterystyki traktu głosowego i odwzorowanie jej za pomocą modelu matematycznego najczęściej kodowania predykcyjnego (LPC Linear Predictive Coding).

Synteza konkatenacyjna łączenie (konkatenacja) wypowiedzi z nagranych fragmentów głosu lektora (segmentów) zawierających słowa, sylaby lub złączenia głosek. Jest to obecnie najczęściej spotykana metoda syntezy, dająca wysoką zrozumiałość i naturalność brzmienia. Dla poprawnego działania konkatenacyjnego systemu TTS konieczne jest zebranie bazy segmentów obejmujących cały system fonetyczny języka.

Segmenty możliwe do wykorzystania w syntetyzerze konkatenacyjnym: fonem (głoska), difon, trifon, sekwencja fonemów, półsylaba sylaba, wyraz, zdanie. dłuższe segmenty = lepsza jakość = obszerniejsza baza

Brzmienie głoski jest bardzo mocno zależne od głosek poprzednich i następnych. Difony zawierają przejście między dwoma głoskami wraz ze stanami ustalonymi obu głosek. Składanie wypowiedzi z difonów: Zosia dała Stefanowi 5,50 zł. #-z,z-o,o-ś,ś-a,a-d,d-a,a-ł,ł-a,a-s,s-t,t-e,e-f,f-a,a-n,no,o-w,w-i,i-p,p-j,j-ę,ę-dź,dź-z,z-ł,ł-o,o-t,t-y,y-h,hp,p-j,j-e,e-ń,ń-dź,dź-e,e-ś,ś-ą,ą-d,d-g,g-r,r-o,osz,sz-y,y-#

difon połączenie dwóch głosek trifon połączenie 3 głosek liczba difonów w j. polskim 37 2 =1369 liczba trifonów 37 3 =50653

Metody konkatenacji difonów: przemiksowanie (cross-fade), PSOLA (Pitch-Synchronous OverLap and Add) połączenie zgodnie z okresem podstawowym zapewnia ciągłość tonu, MBROLA (Multi-Band Resynthesis OverLap and Add) stosowanie dodatkowego przetwarzania segmentów w celu uzyskania lepszego brzmienia.

Nagranie difonów konieczny materiał językowy zawierający wszystkie połączenia głosek. Możliwe wykorzystanie logatomów jednostek pozbawionych znaczenia. Należy zwrócić uwagę na równomierną barwę głosu i wysokość tonu.

Po połączeniu difonów możliwe jest niedopasowanie: a) fazy (różne fazy) b) tonu podstawowego (różna wysokość) c) obwiedni widmowej (różne brzmienia głosek) a) b) c)

Wybór segmentów mikrofonem fonem sylaba difon trifon wyraz Nagranie wysokość dźwięku barwa głosu wymowa Wyodrębnienie jednostek mowy z nagrania granice segmentu faza początkowa próbka przejścia Łączenie segmentów przemiksowanie PSOLA MBROLA

Prozodia melodia, śpiewność języka akcent intonacja iloczas Odwzorowanie prozodii jest konieczne dla naturalnego brzmienia syntetyzowanego sygnału. Bez jej kształtowania synteza brzmi jak głos robota.

Możliwe jest kształtowanie prozodii wypowiedzi przez zastosowanie odpowiednich algorytmów przetwarzania sygnału: zmiany częstotliwości podstawowej f 0 (pitch shifting) zmiany czasu trwania (time stretching) przetwarzanie dynamiki Akcent Zmiana f 0 - podwyższenie lub obniżenie tonu Zmiana amplitudy - zwiększona intensywność Zmiana czasu trwania - wydłużenie samogłoski Intonacja Zmiana f 0 - np. obniżenie tonu na końcu zdań oznajmujących i podniesienie na końcu zdań pytających Iloczas Zmiana czasu trwania przyspieszenie lub zwolnienie tempa wypowiedzi, wydłużenie akcentowanych samogłosek

Synteza korpusowa wariant syntezy konkatenacyjnej. W bazie przechowywane są segmenty o różnej długości (np. temat i końcówka słowa). Do konkatenacji wypowiedzi wybierane są możliwie najdłuższe segmenty. Dzięki temu możliwe jest uzyskanie bardzo wysokiej jakości dla często występujących w języku słów.

stuprocentowa zrozumiałość płynna mowa bez zająknięć i słyszalnych niedopasowań, poprawna normalizacja tekstu zamiana skrótów, cyfr itp. na odpowiednie słowa, poprawność fonetyczna, także z uwzględnieniem wyjątków, zróżnicowanie wypowiedzi pod względem prozodycznym, poprawny akcent, intonacja, miły dla ucha głos lektora.

urządzenia dla osób niewidomych: mówiące telefony, palmtopy itp., mówiące avatary na stronach internetowych, czasem prowadzące dialog z użytkownikiem, urządzenia i programy edukacyjne, udźwiękowienie stron WWW, aplikacji, filmów z napisami itp. Syntetyzery anglojęzyczne: NeoSpeech, TextAloud, espeak, Linguatec, Real Speak, Loquendo Syntetyzery polskie: IVONA, długo, długo nic DANT, Spiker, SYNTALK