XI International PhD Workshop OWD 2009, October 2009

XI International PhD Workshop OWD 2009, 17 20 October 2009 SYSTEM KORPUSOWEJ SYNTEZY MOWY DLA JĘZYKA POLSKIEGO POLISH UNIT SELECTION SPEECH SYNTHESIS SYSTEM Krzysztof Szklanny, Polsko-Japońska WyŜsza Szkoła Technik Komputerowych (26.10.2005, prof. Krzysztof Marasek, Polsko-Japońska WyŜsza Szkoła Technik Komputerowych) Abstract The main aim of this study is to describe the process of creating Polish Unit Selection Speech Synthesis System. The Unit Selection Speech Synthesis makes it possible to generate intelligible and naturally sounding speech. The naturalness is achieved by the careful joining together suitable acoustic units, covering the whole of the utterance. The main prerequisite for a unit selection system is a speech database covering the acoustic units found in the language for a given domain. A well constructed speech corpora was constructed in such a way that its phonetic representation serves as the basis for the design of cost the cost function. This cost function is often decomposed into two costs: a target cost (how closely candidate units in the inventory match the specification of the target phone sequence) and join cost (how well neighboring units can be joined). In the following article, the method of creating the text corpora will be presented then the process of recording will be described. To automate the segmentation process the HTK toolkit was used based on the 3-state HMM models with 39 coefficients. The implementation of the new Polish voice was prepared in metasystem Festival. To obtain higher quality of synthetic speech the optimization of the cost function was conducted by using the genetic algorithm. The results of MOS test shows that quality of generated speech has significantly increased. The full TTS was prepared and can be downloaded from http://syntezamowy.pjwstk.edu.pl/korpus.html Streszczenie Celem pracy było stworzenie w pełni funkcjonalnego, systemu korpusowej syntezy mowy polskiej. W pracy przygotowano korpus tekstowy nagrano go, oraz przeprowadzono jego segmentację. Przygotowaną bazę akustyczną wraz z odpowiednio zmodyfikowanymi modułami lingwistycznymi zaimplementowano w metasystemie Festival 1.WaŜną częścią pracy była optymalizacja funkcji kosztu za pomocą algorytmu ewolucyjnego, co pozwoliło na uzyskanie lepszej jakości syntetycznej mowy. 1. Wiadomości wstępne Synteza korpusowa (ang. unit selection) jest najbardziej efektywną i popularną metodą syntezy konkatenacyjnej, poniewaŝ pozwala na uzyskanie mowy o jakości bliskiej naturalnej. Sercem systemu jest odpowiednio przygotowany korpus. Zawiera on posegmentowane wypowiedzi, a pośrednio segmenty akustyczne o róŝnej rozciągłości (np. fonemy, difony, trifony, sylaby, wyrazy, całe zdania). KaŜda jednostka występuje wielokrotnie. Segmentacji bazy dokonuje się w automatyczny sposób stosując modele statystyczne lub rozwiązania heurystyczne takie jak sieci neuronowe. Chcąc wygenerować zadaną wypowiedź dobierane są takie jednostki, które minimalizują wartość funkcji kosztu. Funkcja ta składa się z dwóch części: kosztu doboru jednostki oraz kosztu konkatenacji. Koszt doboru jednostki jest funkcją, która optymalizuje fragmenty łączonej mowy poprzez wybieranie najbardziej pasujących pod względem lingwistycznym. Funkcja kosztu konkatenacji wyznacza jakość połączenia na podstawie czasu trwania jednostek akustycznych tworzących łączone fragmenty, ich intonacji, konturu widma oraz energii. Na ogół modyfikacje prozodyczne sygnału nie są konieczne, co przekłada się na duŝą naturalność brzmienia generowanej mowy. Optymalizacja funkcji kosztu oraz ustalenie wag poszczególnych składowych jest zadaniem trudnym i bardzo waŝnym, poniewaŝ parametry funkcji kosztu mają wpływ na jakość generowanej mowy. 1 http://www.cstr.ed.ac.uk/projects/festival/ 235

Proces tworzenia systemu korpusowej syntezy mowy dla języka polskiego jest bardzo skomplikowany. Obejmował etap przygotowania korpusu, realizacje nagrań, segmentację bazy językowej. Następnie przygotowano nowy głos w środowisku Festival przy wykorzystaniu bazy akustycznej. Etap ten zawierał tworzenie nowych modułów jak i dostosowywanie juŝ istniejących. Następnie zoptymalizowano funkcję kosztu wykorzystując do tego algorytm ewolucyjny. Efekt badań został potwierdzony percepcyjnym testem jakości syntetycznej mowy typu MOS (ang. mean opinion score). 2. Przygotowanie korpusu Pierwszym etapem tworzenia systemu korpusowej syntezy mowy była realizacja korpusu. Proces obejmował selekcję tekstów, transkrypcję fonetyczną oraz wielokrotne balansowanie bazy w celu stworzenia optymalnego oraz reprezentatywnego zbioru języka polskiego. Do stworzenia korpusu wykorzystano teksty przemówień parlamentarnych. Rozmiar początkowego korpusu wynosił 300 MB i zawierał 5778460 zdań. Usunięto wszystkie meta dane, skróty, akronimy oraz liczby zostały rozwinięte. Następnie przygotowano transkrypcję fonetyczną przy uŝyciu alfabetu SAMPA. Porównano ze sobą dwa algorytmy transkrypcji fonetycznej: system regułowy przygotowany dla systemu Festival [1] oraz metodę automatyczną opartą na drzewach decyzyjnych C.50 [2]. W wyniku porównania obydwu metod okazało się, Ŝe lepszym i znacznie efektywniejszym rozwiązaniem jest zastosowanie metody drzew decyzyjnych, dzięki któremu uzyskuje się znacznie większą dokładność w transkrypcji fonetycznej. Proces balansowania korpusu został przygotowany za pomocą algorytmu zachłannego. Korpus sejmowy został podzielony na 12 podkorpusów po 20 MB kaŝdy a następnie zastosowano program CorpusCrt.[3]. Podział ten wynikał z maksymalnego rozmiaru korpusu jaki moŝe być zaakceptowany przez program. KaŜdy podkorpus zawierał około 189000 fonemów. Okazało się, Ŝe dla kaŝdego z tych podkorpusów częstotliwości występowania fonemów są bardzo zbliŝone do siebie. Rysunek 1 ilustruje procentowy udział poszczególnych fonemów dla dwóch dowolnie wybranych podkorpusów sejmowych. Rys.1. Porównanie rozkładu częstotliwości występowania poszczególnych fonemów w dwóch losowych podkorpusach sejmowych. Fig.1. Comparison of phonetic distribution between two random sub-corpora of parliamentary statements. Do wyboru najbardziej reprezentatywnych zdań oraz zbalansowanych wybrano następujące kryteria: Minimalna długość fonetyczna zdania to 30 znaków 2 ; Maksymalna długość fonetyczna zdania to 80 znaków; Korpus powinien zawierać 2500 zdań. W korpusie kaŝdy fonem powinien wystąpić co najmniej 40 razy; KaŜdy difon powinien wystąpić co najmniej 4 razy; KaŜdy trifon powinien wystąpić co najmniej 3 razy, to wymaganie jest dostępne tylko dla najczęściej występujących trifonów. ZałoŜenia te zostały określone na podstawie [4,5]. W ten sposób uzyskano 12 róŝnych korpusów po 2500 zdań kaŝdy. Po dwóch etapach balansowania zwiększyła się globalna liczba difonów (z 148479 do 150814) zmniejszyła się ilość difonów występujących mniej niŝ 4 razy (z 175 do 68) oraz uzyskano większą ilość róŝnych difonów (z 1096 do 1196). Uzyskano większą liczbę trifonów (z 145979 do 148314) oraz zwiększyła się ilość róŝnych trifonów (z 11524 do 13882). Finalny korpus zawiera zdania pytające wykrzyknikowe oraz został wzbogacony o rzadko występujące słowa. Rozkład częstotliwości występowania poszczególnych fonemów przedstawia Rysunek 2. Ostatnim krokiem korekty korpusu była manualna weryfikacja korpusu, pozwalająca na usunięcie lub zmianę zdań bezsensownych lub bardzo trudnych do wymówienia. Rys.2. Częstotliwość występowania poszczególnych fonemów w finalnej wersji korpusu. Fig.2. Phonetic distribution in final corpus 2 Bez znaków interpunkcyjnych 236

3. Nagrania Następnym etapem była realizacja nagrań. Korpus został zarejestrowany przez półprofesjonalnego mówcę. Speaker był zaznajomiony z transkrypcją fonetyczną języka polskiego. Podczas nagrań tekst ortograficzny oraz jego transkrypcja była wyświetlana mówcy oraz osobie nadzorującej nagrania. Nagrania miały miejsce w komorze bezechowej w Polsko-Japońskiej WyŜszej Szkole Technik Komputerowych. UŜyto dynamicznego mikrofony Rode NT1000. Baza akustyczna została zarejestrowana z częstotliwością próbkowania 48 khz oraz 16 bitową rozdzielczością w formacie RAW. Dodatkowo uŝyty został pop-filter zainstalowany pomiędzy mówcą a mikrofonem. Dzięki temu uzyskano mniejszą moc strugi powietrza uderzającą w membranę mikrofonu podczas artykulacji głosek zwartych takich jak p, b, d, t, k, g.[6]. Materiał został zarejestrowany za pomocą 24 bitowego interfejsu dźwiękowego M-Audio o maksymalnej częstotliwości próbkowania 96 khz. Sesja nagraniowa trwała około miesiąca i odbywała się w trudnych warunkach, podczas roku akademickiego. Przed kaŝdą sesją odsłuchiwano poprzednie nagrania w celu uzyskania podobnej intonacji oraz sposobu mówienia. DuŜą uwagę przyłoŝono do eliminacji wszelkiego rodzaju zakłóceń, szumów, stuków oraz innych zniekształceń harmonicznych. Podczas rejestracji sygnału stwierdzono obecność stałych składowych częstotliwościowych ok. 400-500 Hz. Częstotliwości te były przenoszone poprzez przewody wentylacyjne laboratoriów uczelni. Podjęto próbę wyeliminowania istniejących zniekształceń, poniewaŝ wiadomo, Ŝe im mniejsza jest manipulacja sygnałem dźwiękowym (np. automatyczna redukcja szumów, poprawa dynamiki sygnału itp.) tym lepsza jakość generowanej mowy.[7] 4. Automatyczna segmentacja korpusu DuŜa baza akustyczna wymusza przynajmniej częściową automatyzację procesu segmentacji. Polega ona przede wszystkim na wstępnym dopasowaniu granic sygnału i transkrypcji fonetycznej (alignment), przy pomocy narzędzi opartych o mechanizmy rozpoznawania mowy. Wykorzystano do tego toolkit HTK (Hidden Markov Model Toolkit) 3 oparty na ukrytych modelach Markova (HMM). KaŜdy z modeli został sparametryzowany w przestrzeni 39 współczynników, mianowicie 12 współczynników MFCC opisujących charakterystykę cepstrum w skali melowej oraz jednemu współczynnikowi energii (E) wraz pochodnymi pierwszego i drugiego stopnia.[8,9]. Przygotowano 5 zestawów róŝnych modeli Wszystkie dostarczone komplety reprezentujące fonemy zawierały 38 modeli HMM. Dodatkowy model HMM, wykorzystywany przez program Aligner, reprezentował ciszę. KaŜdy z modeli składał się z trzech stanów, reprezentujących nagłos, śródgłos oraz wygłos danego fonemu [10]. Tab.1. Porównanie poziomu rozpoznawalności róŝnych modeli HMM. Comparison between different structures of HMMs. Modele HMM (fonemy) ramka 5ms, pobierana co 1ms (fonemy) ramka 15ms, pobierana co 5ms (fonemy) ramka 25ms, pobierana co 10ms (fonemy) ramka 25ms, pobierana co 10ms, dodatkowa estymacja na bazie akustycznej (difony) ramka 25ms, pobierana co 10ms Rozpoznane słowa (%) Rozpoznane zdania (%) 38,14 33,06 71,47 55,65 93,27 89,52 92,95 89,52 71,79 53,23 W pierwszym z zestawów wykorzystano okno analizy o szerokości 5ms, pobierane z przesunięciem czasowym co 1ms. W drugim, ramka miała rozmiar 15ms i była pobierana co 5ms, natomiast w trzecim odpowiednio ramkę 25ms z przesunięciem 10ms. KaŜdy z 3 wymienionych zestawów został wytrenowany na podstawie 585 fonetycznie dobranych nagrań wypowiedzi 40 mówców, zawierających pojedyncze wyrazy i zdania [11]. Aby podnieść poziom dokładności rozpoznawania, do kaŝdego stanu wstępnie wytrenowanych modeli HMM dodano mikstury Gaussowskie, po czym ponownie estymowano parametry modeli. Ten proces we wszystkich przypadkach powtórzono 3 razy. Na zakończenie przeprowadzono ostateczną estymację parametrów wszystkich modeli HMM na podstawie zarejestrowanych nagrań 40 mówców. Czwarty zestaw ukrytych modeli Markowa reprezentujący fonemy powstał w wyniku dodatkowej estymacji trzeciego zestawu na posegmentowanej bazie akustycznej za pomocą trzeciego zestawu modeli. Ostatni zestaw HMM wykorzystujący difony wytrenowany i estymowany został na podstawie bazy danych Speecon [13], która zawiera zarejestrowane wypowiedzi 600 mówców. W przypadku modeli difonów trening w całości odbywał się na podstawie nieposegmentowanych nagrań. Poziom rozpoznawalności dla modeli fonemów z ramką 25 ms pobieraną co 10 ms był niŝszy o 0,34% od najlepszego zestawu modeli. Jednak dzięki adaptacji do konkretnego mówcy i warunków 3 http://htk.eng.cam.ac.uk/ 237

Rys.3. Porównanie róŝnych rodzajów modeli HMM: z ramką 15 ms, z ramką 25 ms oraz z ramką 25 ms oszacowaną na korpusie. Fig.3. Comparison between different HMM models: 15 ms frame period, 25 ms frame period model and 25ms period estimated on corpus. nagrań, pozwolił na uzyskanie mniejszej ilość błędów w segmentacji. [11]. Rozpoznawalności danego zestawu modeli HMM nie określa poprawności wyznaczanych przez niego granic jednostek akustycznych. Na rysunku 3 przedstawiono kolejne wersje segmentacji to zaczynając od góry: model o ramce 15ms i kroku 5ms, model o ramce 25ms i kroku 10ms oraz ten sam zestaw modeli o ramce 25, pobieranej, co 10ms, dodatkowo estymowany na bazie akustycznej. Ostatnim etapem segmentacji była weryfikacja manualna oraz automatyzacja procesu rozpoznawania. Korekta polegała na zidentyfikowaniu, wyszukaniu oraz poprawieniu wszelkich cyklicznie powtarzających się błędów. Ze względu na rozmiar bazy akustycznej, postanowiono znacznie zautomatyzować proces wyszukiwania błędów. W tym celu wykorzystano skrypty, których działanie polegało na obliczeniu czasu trwania kaŝdego fonemu w nagraniach, wyliczeniu globalnych średnich i odchylenia standardowego dla róŝnych fonemów oraz wyszukaniu i wypisaniu wystąpień, których czas trwania znacząco odbiegał od wyliczonych wcześniej średnich (2x odchylenie standardowe) [11]. Metoda ta okazała się w miarę skuteczna w wyszukiwaniu istotnych błędów w segmentacji jak i błędnej transkrypcji fonetycznej. W wyniku działania skryptów otrzymano listę ok. 4500 wykrytych fonemów o nienaturalnym czasie trwania.[15] 5. Funkcja kosztu i jej optymalizacja Po przygotowaniu bazy akustycznej wykonano szereg czynności w środowisku Festival pozwalających na uruchomienie w nim prototypowego głosu. Zmodyfikowano moduły lingwistyczne języka polskiego [14]. Przygotowano struktury zdaniowe opisujące lingwistyczne zaleŝności w nagranym korpusie. W kolejnym etapie wyekstrahowano z sygnału kontur F0 następnie przygotowano sygnał z opisem F0 oraz sparametryzowano bazę akustyczną (LPC i MFCC). W ten sposób powstała pierwsza wersja systemu bez zoptymalizowanej funkcji kosztu. Jak wspomniano proces optymalizacji jest istotny i ma wpływ na jakość syntetycznej mowy dlatego poświecono temu etapowi duŝo czasu. W meta systemie Festival funkcja kosztu została zdefiniowana w następujący sposób: Wynik funkcji kosztu jest wyliczany na podstawie średniej waŝonej funkcji kosztu doboru jednostki oraz kosztu konkatenacji. Koszt konkatenacji definiuje następujące parametry: koszt F0, koszt energii sygnału, koszt nieciągłości spektralnej Koszt doboru jednostki składa się z następujących składowych: koszt akcentu, koszt lewego i prawego kontekstu, koszt niewłaściwego doboru melodii, koszt pozycji w sylabie, koszt pozycji w słowie, koszt pozycji we frazie, koszt Part-Of-Speech Funkcja kosztu jest wagowo znormalizowaną sumą wymienionych komponentów. W celu optymalizacji funkcji kosztu zastosowano algorytm ewolucyjny ze strategią µ+ λ. Algorytm ewolucyjny jest rodzajem algorytmu przeszukującego przestrzeń alternatywnych rozwiązań problemu w celu określenia najlepszych rozwiązań. Ma swoje zastosowanie przy poszukiwaniu rozwiązania problemu, którego nie da się rozwiązać w linowy sposób. W pierwszej iteracji algorytm generuje populację losową w postaci siedmiu osobników, z których kaŝdy ma 11 cech, co oznacza, Ŝe optymalizowanych będzie 11 parametrów funkcji kosztu. Następnie dokonuje się syntezy 7 realizacji kaŝdego zdania w syntezatorze z parametrami wyznaczonymi przez algorytm ewolucyjny. Te zdania poddane zostają subiektywnej ocenie ekspertów. Zdanie, które 238

zostało ocenione jako najlepsze pod względem jakości syntezy jest osobnikiem preferowanym do wygenerowania kolejnej populacji. Iteracja powtarzana jest 17 razy. WaŜnym elementem optymalizacji funkcji kosztu było przygotowanie odpowiedniego korpusu testowego. Przygotowany został 100 zdaniowy korpus testowy o maksymalnej długości zdania 60 fonemów. Ze 100 zdań wybranych zostało 19. Zdania były łączone po dwa w celu otrzymania większej ilości trudnych elementów akustycznych. Szczególnie uwzględniono grupy spółgłoskowe. PoniŜej znajdują się przykładowe zdania wykorzystane w finalnym korpusie: W TadŜykistanie padał bez przerwy rzęsisty deszcz i zamienił boisko w dŝungli w grzęzawisko. Szwagier i bratowa siedli mu na plecach i potęŝną dłonią przydusili łeb męŝczyzny do ziemi. Fala powietrza z dzwonka nad drzwiami wejściowymi, wdziera się do środka i strąca kwiatek z okna. W teście wzięło udział 20 ekspertów językowych. Wśród nich znalazło się 3 ekspertów z dziedziny syntezy mowy, 3 fonetyków. Pozostałe osoby zajmują się lingwistyką na co dzień i są osłuchane z mową. Taki wybór osób do testów umoŝliwił uzyskanie miarodajnych wyników. Test był umie szczony na stronie internetowej (synteza.pjwstk.edu.pl) i dwa razy dziennie aktualizowany przez okres dwóch tygodni. Uczestnicy testu byli proszeni o wybór jednego najlepiej brzmiącego zdania spośród siedmiu pochodzących ze specjalnie przygotowanego korpusu testowego. Nagranie moŝna było odsłuchać od dowolnego fragmentu dzięki zamieszczeniu plików dźwiękowych jako embedded objects. Pliki dźwiękowe były zapisane w formacie Microsoft Wave. Dzięki temu jakiekolwiek zniekształcenia wynikające z kompresji zostały wyeliminowane. Kryterium wyboru najlepiej brzmiącego zdania czyli osobnika w przeszukiwanej populacji, było znalezienie syntetycznego zdania z najmniejszą ilością błędów prozodycznych, intonacyjnych, łączeniowych. Przygotowano 20 iteracji algorytmu ewolucyjnego (17 iteracji + 3 podsumowujące). Sesje 1-17 były sesjami podstawowymi to znaczy, Ŝe kaŝda iteracja słuŝyła wybraniu najlepszego potomka po to by w kolejnej uzyskać pokolenie jeszcze bardziej przystosowane czyli posiadające bardziej zoptymalizowane cechy funkcji kosztu. Sesje 18-20 były sesjami podsumowującymi. W sesji 18 wybrano najlepszego kandydata spośród sesji 1-7. W sesji 19 wybrano najlepszego kandydata spośród sesji 8-14. W sesji 20 wybrano najlepszego kandydata spośród sesji 15, 16, 17, 18, oraz spośród dwóch kandydatów z sesji 19. W sesji 17 został wytypowany osobnik 4 (pierwotnie populacja 3). Potwierdzeniem wyboru tego kandydata jest sesja 20, w której znaleźli się najlepsi wygrani osobnicy z poszczególnych grup sesyjnych. W niej ponownie zwycięŝył osobnik 4 z pierwotnej populacji 3. Z przeprowadzonych badań wynika, Ŝe dla przygotowanego głosu najistotniejszymi parametrami są : Pozycja w sylabie, nieciągłość melodii, prawy kontekst, nieciągłość energii, koszt akcentu, zły dobór f0 dla kosztu doboru jednostki, Tabela 2 przedstawia wagi poszczególnych składowych funkcji kosztu. Tab.2. Wagi najlepszych osobników z kaŝdej sesji. Kolejne kolumny oznaczają parametry funkcji kosztu konkatenacji a następnie kosztu doboru jednostki (rozdział 5). Dwa ciemniejsze wiersze wskazują parametry najlepszego osobnika. Weights of the best individuals from each population. The columns mean parameters of the cost function: join cost and then target cost (chapter 5). Two darker lines are pointing the best individual's parameters. 97 98,6 20,4 91 52,4 96,5 84,4 91,7 42,1 31,6 9,1 100 21,2 87,6 0 92,1 79,9 96,7 36,3 32,8 0 0 98,4 81,5 24,8 77,8 3,8 97,9 77,1 100 46,6 29,4 0 100 70 25,3 61,4 100 100 60,1 74,4 54,6 26,8 33,8 100 77,1 24,3 58 13,5 100 100 59,8 44,3 24,3 30 96,4 75 33,8 59,3 0 99,2 93,5 46,5 55,3 23,5 25 100 68 24,7 45,5 14,8 97,3 91,8 44,7 59,4 19,6 34,2 100 65,7 29,6 42,9 29,7 100 83,3 48,8 56 20,9 26,4 100 61,4 30,3 97,8 58,4 100 67,2 60,7 30,1 22,6 22,2 100 56,2 36,1 100 18,2 100 63,9 53,6 16 18,6 41,3 100 55,9 53,3 50,9 0 91,6 83,9 49,1 24,5 21 52,5 100 76,4 57,9 100 38,9 100 72,9 1,1 51,4 3,4 70,4 97,4 76,9 56,3 0 0 76,6 94,5 0 59,7 0 86,5 92,4 95,1 46 88,8 100 95 100 0 100 0 82,1 90,1 100 40,5 100 0 83 100 0 0 8 82,2 96,4 100 33 0 0 80 93,2 10,4 0 6,3 83,8 54,7 25 47,4 5,9 74,5 96,1 31,5 88,6 59,4 75,6 12,6 98,4 81,5 24,8 77,8 3,8 97,9 77,1 100 46,6 29,4 0 100 61,4 30,3 97,8 58,4 100 67,2 60,7 30,1 22,6 22,2 100 76,4 57,9 100 38,9 100 72,9 1,1 51,4 3,4 70,4 6. MOS W celu zweryfikowania zoptymalizowanej funkcji kosztu przygotowano test mający na celu sprawdzenie czy zastosowana strategia optymalizacji funkcji kosztu poprawiła jakość syntezy. W teście wzięło udział 28 studentów studiów magisterskich, znających zagadnienia dotyczące syntezy mowy, fonetyki języka polskiego, transkrypcji fonetycznej oraz posiadających wiedzę związaną przetwarzaniem języka naturalnego. Test został zrealizowany w tych samych warunkach odsłuchowych przy zapewnieniu ekspertom identycznego sprzętu odsłuchującego w postaci słuchawek Philips HP1900.Test został podzielony na 5 części. W kaŝdej z nich zostało przygotowanych 5 zdań do odsłuchu. Pierwszą część testu stanowiły pliki z nagrane w ramach korpusu. Druga część testu polegała na resyntezie promptów z korpusu. Trzecia część testu polegała na syntezie z domyślną funkcją kosztu w Festivalu, czwarta z najgorszymi ustawieniami wytypowanymi na etapie estymacji funkcji kosztu za pomocą algorytmu ewolucyjnego. 239

Piąta część testu zawierała parametry wytypowane jako najlepszą funkcję kosztu. Pierwsza część testu otrzymała średnią ocenę 4,6, w skali od 1 do 5, co wskazuje, iŝ mówcy ocenili głos lektora dość wysoko. Resynteza zdań wiąŝe się z utratą jakości. Eksperci ocenili średnio jakość syntezy na poziomie 3,793 co jest rezultatem dobrym. Z porównania trzech funkcji kosztu wynika, Ŝe proces estymacji parametrów przyniósł oczekiwany efekt. Eksperci ocenili domyślną funkcję kosztu jako 2,185, najgorszą funkcje kosztu uzyskana podczas estymacji parametrów na 1,97. Zoptymalizowaną funkcję kosztu za pomocą algorytmu ewolucyjnego oceniono na 2,7111. 7. Wnioski Autor uwaŝa, Ŝe opracowana technologia, zawierająca przygotowanie korpusu, jego segmentację odpowiednie przygotowanie modułów lingwistycznych oraz opracowanie funkcji kosztu w Festivalu daje satysfakcjonujący efekt. Na podstawie róŝnicy w ocenie pomiędzy resyntezą a uzyskaną funkcją kosztu oraz plikami nagranymi w korpusie i ich resyntezą, autor uwaŝa, Ŝe jakość mowy znacznie wzrosłaby gdyby baza akustyczna została zarejestrowana przez profesjonalnego lektora oraz gdyby lektor mówił wolniejszym tempem. Dzięki temu moŝna byłoby uzyskać mniejsze fluktuacje F0 oraz dokładniejszą jakość segmentacji bazy. Kolejnym etapem badań, będzie stworzenie nowego głosu korpusowego, który zostanie zarejestrowany przez profesjonalnego mówcę. System syntezy mowy jest dostępny pod następującym adresem: http://syntezamowy.pjwstk.edu.pl/korpus.html 8. Podziękowania Chciałbym bardzo serdecznie podziękować mojemu Promotorowi prof. Krzysztofowi Maraskowi za pomoc w realizacji niniejszej pracy. Praca jest częściowo finansowana z grantu MNiSW N51600431/0641, autor: Mgr. inŝ Krzysztof Szklanny, kszklanny@pjwstk.edu.pl, Koszykowa 86, 02-008 Warsaw, tel.(0-22)58-44-562, fax (0-22)58-44- 501 9. Literatura 1. Black Alan, Taylor Paul: Festival Speech Synthesis System: system documentation. Technical Report HCRC/TR 83, University of Edinburgh, Human Communication Research Centre, 1998 2. Marasek Krzysztof: Synteza mowy: przegląd technologii i zastosowań ze szczególnym uwzględnieniem języka polskiego, 2003 3. Bailador Alberto: CorpusCrt. Technical report, Polytechnic University of Catalonia (UPC). 1998 4. Bozkurt Baris, Dutoit Thierry, Ozturk Ozlem: Text Design For TTS Speech Corpus Building Using A Modified Greedy Selection, Proc. Eurospeech, Geneva 2003, pp 277-280. 5. Clark Robert, Richmond Korin, King Simon: Multisyn: Open-domain unit selection for the Festival speech synthesis system. Speech Communication, 49(4):317-330, 2007 6. Kominek John, Black Alan: CMU ARCTIC databases for speech synthesis, CMU-LTI-03-177 Ver. 0.95 Language Technologies Institute School of Computer Science Carnegie Mellon University 5000 Forbes Ave., Pittsburgh, PA 15213 www.lti.cs.cmu.edu 2003 7. Van Santen Jan, Buchsbaum Adam: Methods for Optimal Text Selection In Proc.5th Euro Conf on Speech Communication and Technology (EUROSPEECH-97), pages553 6, Rhodes, Greece. 8. Young S. Evermann G. Kershaw D. Moore G. Odell J. Ollason D. Valtchev V. Woodland P. (2001) The HTK Book (for HTK Version 3.1) 1995-1999 Microsoft Corporation. 2001-2002 Cambridge University Engineering Department. First published December 1995 Revised for HTK Version 3.1 December 2001 9. Black Alan, Lenzo Kevin: Buliding Synthetic Voices (1996-2006) 10. Zhang Jason, Toth Artur, Collins-Thompson Kevyn, Black Alan: Prominence prediction for supersentential prosodic modeling based on a new database. In Fifth ISCA ITRW on Speech Synthesis (SSW5), Pittsburgh, PA, USA 2004 11. Oliver Dominika, Szklanny Krzysztof: Creation and analysis of a Polish speech database for use in unit selection synthesis, LREC Genoa, Italy 2006 12. Marasek Krzysztof, Gubrynowicz Ryszard: Multilevel Annotation in SpeeCon Polish Speech Database InIMTCI, pages58 67 2004 13. Oliver Dominika: Polish Text to Speech Synthesis, praca magisterska University of Edinburgh Department of Linguistics 1998 14. Szklanny Krzysztof, Wojtówski Michał: Automatic segmentation quality improvement for realization of unit selection In Proceedings of Human System Interactions p.251-256 Digital Object Identifier 10.1109/HSI.2008.4581443, Krakow 2008, Poland Adres słuŝbowy Autora: Mgr inŝ. Krzysztof Szklanny Polsko-Japońska WyŜsza Szkoła Technik Komputerowych ul. Koszykowa 86 02-008 Warszawa tel. (022) 58 44 562 fax (022) 58 44 501 email: kszklanny@pjwstk.edu.pl 240