Algorytmy automatyzacji tworzenia baz jednostek akustycznych w syntezie mowy polskiej
|
|
- Sławomir Niemiec
- 7 lat temu
- Przeglądów:
Transkrypt
1 Streszczenie rozprawy doktorskiej Algorytmy automatyzacji tworzenia baz jednostek akustycznych w syntezie mowy polskiej mgr inż. Janusz Rafałko Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych Promotor: dr hab. inż. Władysław Homenda, prof. PW
2 1. Wstęp W ciągu ostatnich lat nastąpił szybki wzrost zainteresowania metodami i algorytmami obróbki sygnałów mowny. Poziom rozwoju techniki obliczeniowej na obecnym etapie pozwala na obróbkę sygnałów mowny w czasie rzeczywistym, co doprowadziło do szerokiego rozpowszechnienia się systemów używających technologii mowy. Wyprowadzenie informacji z komputera poprzez mowę to jedna z części interfejsu mowy, bez którego ustna rozmowa z komputerem nie może się odbyć. Faktycznie, dzięki syntezatorom mowy otrzymujemy jeszcze jeden kanał przekazywania danych od komputera do człowieka, analogiczny do tego, który mamy dzięki monitorowi albo drukarce. Z punktu widzenia użytkownika najbardziej rozsądną decyzją w przypadku problemu syntezy mowy jest włączanie funkcji mowy w skład systemu operacyjnego. Komputery byłyby w stanie udźwiękowić nawigację menu, komentować głosem wiadomości ekranowe, dyktować dane itd. Wyżej wymienione funkcje są bardzo potrzebne dla osób niewidzących, lub mających problemy ze wzrokiem. Należy zaznaczyć, że użytkownik powinien mieć także wystarczające możliwości regulacji głosu komputera (indywidualności dźwięku, tembru, tempa, głośności). Pomimo szybkiego rozwoju badań w dziedzinie syntezy mowy, do niedawna podstawowym kryterium jakości pozostawał stopień czytelności syntetyzowanej mowy. Niedostateczna uwaga, poświęcana naturalności syntetyzowanej mowy, stawiała barierę dla szerokiego zastosowania systemów syntezy mowy w interfejsach systemów komputerowych. Jedną z podstawowych decyzji związanych z podwyższeniem naturalności syntetyzowanej mowy jest opracowanie metod i środków analizy personalnych właściwości głosu człowieka, jego dykcji i wyrazistości mowy i późniejszą realizację tych charakterystyk w systemach syntezy mowy. Pojawia się tu nie tylko problem podwyższenia naturalności syntetyzowanej mowy, ale także problem odtworzenia dowolnego tekstu ze sposobem czytania konkretnego człowieka i jego głosem. W tym przypadku chodzi o to, aby na podstawie próbki konkretnego głosu, np. nagrania, stworzyć syntezator mówiący głosem właśnie tego człowieka. W technologii mowy celem jest stworzenie systemu syntezy mowy, z jak najlepszym przybliżeniem uzyskanego dźwięku do głosu i sposobu mówienia konkretnego człowieka. Pojawia się przy tym zadanie maksymalnie pełnego zachowania personalnych akustycznych właściwości głosu, fonetycznych właściwości wymowy i akcentu, a także prozodycznej indywidualności mowy (melodyka, rytmika, dynamika). Aby osiągnąć to zadanie, należy stworzyć cały system syntezy mowy. W ramach tego zadania powstała ta praca, która 2
3 przedstawia algorytmy pozwalające otrzymać bazy głosów konkretnych głosów (bazy jednostek akustycznych), w sposób automatyczny, wykorzystywane właśnie w syntezie mowy polskiej. Jedną z metod syntezy mowy na podstawie tekstu TTS (ang. Text to Speach), która umożliwia odtworzenie personalnych charakterystyk mowy człowieka jest metoda konkatenacyjna posługująca się małymi naturalnymi jednostkami akustycznymi, z których jest syntezowana ludzka mowa. Mogą to być np. alofony, difony, czy sylaby mowy naturalnej. Taki system syntezuje mowę sklejając jednostki akustyczne w oparciu o odpowiednie reguły fonetyczne. Indywidualne cechy głosu człowieka nie są jednak zawarte w tych regułach, a w samych naturalnych jednostkach akustycznych oraz w indywidualnych prozodycznych charakterystykach głosu, takich jak intonacja. Aby więc zsyntetyzować głos konkretnego człowieka, należy dla takiego głosu stworzyć odpowiednią bazę jednostek akustycznych. Teza pracy Możliwe jest opracowanie odpowiednich algorytmów i zaimplementowanie systemu umożliwiającego tworzenie baz jednostek akustycznych przeznaczonych do syntezy konkatenacyjnej w sposób automatyczny, tak aby bazy te były pod względem jakości syntezowanej z nich mowy porównywalne z bazami tworzonymi w sposób ręczny. Teza została sformułowana i zweryfikowana w oparciu o następujące punkty: Znane systemy syntezy mowy korzystają z baz przygotowywanych ręcznie. Zagadnienie automatyzacji tworzenia gotowych baz jednostek akustycznych dla syntezy mowy zgodnie z moją wiedzą jest zagadnieniem oryginalnym. Nie znam prac na ten temat. Potwierdzają to autorytety, przed którymi prezentowałem tezy pracy. Opracowałem i zaimplementowałem odpowiednie algorytmy tworzenia baz w sposób automatyczny. Przygotowałem wzorcową bazę ręcznie i na jej podstawie za pomocą opracowanych algorytmów automatycznie zostały stworzone bazy prototypowe. Stworzone prototypowe bazy zostały poddane ocenie. Cel pracy Celem tej pracy jest opracowanie zasobów i algorytmów systemu komputerowego pozwalającego na zautomatyzowanie procesu segmentacji i wycinania jednostek akustycznych z naturalnego sygnału mowy i tworzenia na ich podstawie baz jednostek akustycznych mowy polskiej poszczególnych mówców. 3
4 Potrzeba opracowania takiego systemu wynika z kilku czynników. Tworzenie takich baz w sposób ręczny, jest bardzo czasochłonne. Utworzenie jednej bazy zabiera kilka miesięcy pracy i wymaga specjalistycznej wiedzy. System automatyzacji znacznie przyśpiesza tę pracę. System taki tworzy bazy na podstawie próbki nagrań naturalnego, indywidualnego głosu lektora, co pozwala na wykorzystanie takiego głosu w syntezie przez ludzi, którzy nie posiadają specjalistycznej wiedzy. Możliwe jest tworzenie bazy dla syntezy mowy głosu dowolnej osoby, dla której dostępne są nagrania mowy. Zadanie to sformułowane jest przy założeniu, że system syntezy mowy opiera się o metodę konkatenacyjną, natomiast system oznaczania granic alofonów, segmentacji i ich wycinania zbudowany jest w oparciu o algorytm nieliniowej transformaty czasowej DTW (ang. Dynamic Time Warping). Postawiony problem badawczy zawiera następujące zagadnienia: Czy możliwe jest opracowanie algorytmu, który w sposób automatyczny dokona segmentacji naturalnej mowy polskiej na podstawowe jednostki akustyczne alofony, tak aby uzyskane alofony były dobrej jakości do wykorzystania w syntezie mowy? Jakie czynniki wpływają na dokładność segmentacji? Jakie algorytmy zastosować do poprawy jakości uzyskanej bazy alofonowej? Istota opracowanej pracy polegała na stworzeniu kompleksu metod, algorytmów i środków w celu rozwiązania konkretnych zadań w kolejnych etapach, które w efekcie odpowiedzą na tak postawione pytania. Tak określony problem badawczy został rozwiązany poprzez: Opracowanie metodyki, na bazie której przygotowane zostały korpusy tekstowe bazy alofonowej. Na bazie korpusów tekstowych uzyskane zostały korpusy mowy tzn. nagranie tekstów i wyrazów przez kilku spikerów w odpowiednich warunkach studyjnych, oraz odpowiednia wstępna obróbka tych nagrań. Opracowanie i utworzenie bazy jednostek akustycznych w sposób ręczny, aby mieć materiał do dalszej pracy, badań i jako baza wzorcowa. 4
5 Analizę połączeń międzyalofonowych w mowie polskiej w odniesieniu do grup alofonowych i ich wpływ na sposób wyznaczania granic alofonów. Opracowanie algorytmów syntezy mowy polskiej na podstawie tekstu, niezbędnych w systemie wycinania jednostek akustycznych, tj. algorytmów przekształcenia litera-fonem oraz fonem-alofon. Opracowanie metod i algorytmów automatycznej segmentacji i oznaczania korpusów mowy na alofony w oparciu o algorytm DTW. Utworzenie automatycznego systemu segmentacji naturalnej mowy polskiej i tworzenia baz alofonowych. Ogólny schemat blokowy opracowywanego systemu automatyzacji tworzenia baz alofonowych przedstawiony jest na rys. 1. Wzorcowa baza alofonowa Zapis ortograficzny Synteza TTS Nagrane słowo Oznaczanie granic alofonów Wycinanie alofonów m. in.: Rysunek 1. Ogólny schemat blokowy systemu automatyzacji tworzenia baz alofonowych. Zagadnieniami związanymi z syntezą mowy zajmują się różne ośrodki badawcze w Polsce, Pracownia Systemów Informacyjnych na Wydziale Matematyki i Informatyki Uniwersytetu im. Adama Mickiewicza w Poznaniu [22] zajmuje się aspektami automatycznego przetwarzania języka naturalnego oraz tłumaczenia automatycznego. Zakład Fonetyki Instytutu Językoznawstwa Uniwersytetu im. Adama Mickiewicza w Poznaniu [24] zajmuje się badaniami nad wykorzystaniem difonów oraz trifonów w konkatenacyjnej metodzie syntezy mowy. Nowa baza alofonowa 5
6 Katedra Systemów Multimedialnych na Wydziale Elektroniki, Telekomunikacji i Informatyki Politechniki Gdańskiej [11] opracowano syntezator mowy oparty o difony w konkatenacyjnej metodzie syntezy mowy. Zespół Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk [23] zajmuje się aspektami automatycznego przetwarzania języka naturalnego, co w pewnym zakresie jest zbliżone z tematem pracy. Struktura streszczenia: Rozdział 2 opisuje konkatenacyjną syntezę mowy, którą w części wykorzystałem w swoim systemie. Rozdział 3 opisuje bazę jednostek akustycznych, w moim systemie bazę alofonową. W rozdziale 4 przedstawiam technologię automatycznej segmentacji i tworzenia baz jednostek akustycznych opracowaną w ramach niniejszej rozprawy. W rozdziale 5 zaprezentowane są wyniki eksperymentów i oceny powstałych baz jednostek akustycznych. 2. Konkatenacyjna synteza mowy Proces mówienia i związany z nim proces słyszenia są procesami bardzo skomplikowanymi [3]. Mówienie jest skomplikowane zawsze, nawet gdy wymawiamy wyrazy, czy dźwięki nie mające sensu np. at. Mowa ustna ma dwoistą naturę: semantyczną i akustyczną. Z jednej strony, jest ona rezultatem intelektualnej działalności mówiącego, używającego języka do kontaktów z innymi członkami danej językowej społeczności, z innej strony jest to fala dźwiękowa, nadawana od mówiącego do słuchającego. Właściwością mowy jest jej ogromna różnorodność. Różne podejścia do syntezy mowy na podstawie tekstu są dosyć szczegółowo opisane w [4], [20]. Ogólna struktura syntezera mowy na podstawie tekstu przedstawiona jest na rysunku 2. W bloku analizy i obróbki tekstu dokonuje się konwersji prozodycznych i fonetycznych, w wyniku których generowany jest ciąg elementów fonetycznych z zaznaczonymi parametrami prozodycznymi: częstotliwością tonu podstawowego F 0, amplitudą A i czasem trwania dźwięków T. Otrzymany ciąg podawany jest na wejście bloku obróbki sygnału, który na jego podstawie generuje sygnał mowy, o zadanych charakterystykach fonetycznych i prozodycznych. W opracowanym przeze mnie systemie wycinania jednostek akustycznych, niezbędne było wykorzystanie syntezatora mowy, jednak nie w jego pełnej strukturze. Niezbędna okazała się obróbka fonetyczna sygnału, oraz blok obróbki sygnału, gdzie między innymi zmienia się częstotliwość tonu podstawowego. 6
7 Tekst Syntezator mowy na podstawie tekstu TTS Analiza i obróbka tekstu Obróbka prozodyczna Obróbka fonetyczna Obróbka sygnałów Obróbka akustyczna i generacja sygnału mowy Mowa Model prozodyczny: reguły i dane Model fonetyczny: reguły i dane Model akustyczny: modele matematyczne, algorytmy, reguły i dane Rysunek 2. Ogólny struktura syntezera mowy. Właściwości różnych metod syntezy mowy na podstawie tekstu, pozwalają stwierdzić, że najbardziej odpowiednimi metodami do przekazania indywidualnych charakterystyk mowy są metody kompilacyjne i korpusowe. Z tych dwóch lepszą metodą wydaje się kompilacyjna metoda syntezy, która w porównaniu z korpusową ma takie zalety jak: Znacznie mniejsza objętość niezbędnego korpusu mowy. Znacznie mniejsza objętość uzyskanej bazy segmentów mowy naturalnej. Podstawową cechą konkatenacyjnego podejścia jest wykorzystanie w syntezie mowy elementarnych kawałków mowy naturalnej [17]. W ten sposób, wyklucza się konieczność modelowania złożonych procesów akustyki syntetyzowanej mowy. W syntezatorze, skompilowany z segmentów naturalnej mowy sygnał podlega dodatkowej modyfikacji, w procesie której zmieniają się parametry prozodyczne sygnału. W pracy [19] przedstawione są podstawowe założenia konkatenacyjnego systemu TTS dla języka polskiego opartego o alofony w kontekście syntezy wielojęzykowej. Naturalnymi elementami, z których syntetyzowana jest mowa mogą być wspomniane alofony, mogą to być także difony, multifony jak i sylaby. Ciąg elementów fonetycznych podawany jest na blok obróbki sygnału, który wybiera z bazy danych segmentów naturalnej mowy odpowiednie realizacje dźwiękowe elementów i łączy je w ciągły sygnał mowy. Utworzony sygnał jest podawany na blok obróbki akustycznej. Blok ten wykonuje odpowiednie modyfikacje parametrów prozodycznych sygnału mowy, czyli częstotliwości tonu podstawowego, amplitudy, oraz czasu trwania poszczególnych segmentów fali dźwiękowej zgodnie z wejściowymi oznaczeniami prozodycznymi parametrów. 7
8 3. Baza jednostek akustycznych W procesie syntezy mowy metodą kompilacyjną na otrzymanie indywidualnych charakterystyk mowy bardzo duży wpływ ma typ bazowych jednostek mowy. Zależy od tego formowanie korpusów tekstowych i głosowych, segmentacja i oznaczanie sygnału oraz stopień odwzorowania indywidualnych charakterystyk mowy w spersonalizowanej bazie danych. Za podstawę klasyfikacji bazowych jednostek mowy służą takie pojęcia jak głoska, fonem i alofon. Głoską nazywamy najmniejszy, niepodzielny artykulacyjnie i słuchowo element mowy ludzkiej, czyli pojedynczy, rzeczywisty tj. wymówiony i słyszalny dźwięk języka. Jest ona praktyczną realizacją fonemu, czyli najmniejszego elementu płaszczyzny fonologicznej systemu językowego. Porównując, fonem to twór abstrakcyjny w odróżnieniu od głoski, która jest dźwiękiem rzeczywistym, poznawalnym doświadczalnie. Fonem jest więc niewielką zmysłowo-realizacyjną jednostką mowy [13], przy czym każdy fonem jednoznacznie charakteryzuje się sposobem i miejscem powstawania. W trakcie mówienia akustyczno-artykulacyjne charakterystyki fonemów zmieniają się, co prowadzi do powstawania wariantów fonemów zwanych alofonami. Niniejsza praca dotyczy właśnie systemu opartego o alofony, ale sama koncepcja systemu może dotyczyć również innych jednostek akustycznych. Rozróżnia się dwa podstawowe typy alofonów: kombinacyjny i pozycyjny. Alofony kombinacyjne pojawiają się na skutek zjawisk koartykulacji i asymilacji, prowadzących do zmiany charakterystyk akustycznych pod wpływem poprzedzających i następujących fonemów. Na rys. 3 oraz rys. 4 przedstawiono przykłady dwóch różnych alofonów fonemu a. Na pierwszy, a0011 ma wpływ poprzedzający go wargowy fonem b oraz występujący zanim twardy fonem r. Drugi, a0023 poprzedzony jest natomiast fonemem rz należącym do grupy twardych przednich, a po nim występuje ni fonem miękki. Rysunek 3. Przykład alofonu kombinacyjnego a
9 Rysunek 4. Przykład alofonu kombinacyjnego a0023. Alofony pozycyjne występują na skutek zjawisk redukcji, prowadzących do zmiany czasu trwania i uproszczenia charakterystyk akustycznych fonemów w zależności od położenia w stosunku do akcentu. Przykładowe alofony pozycyjne pokazane są na rys. 5, oraz rys. 6. Oba ze względu na kombinację fonemów poprzedzających i następujących należą do tej samej grupy, czyli poprzedzone są fonemami twardymi i po nich też występują fonemy twarde, natomiast pierwszy, w słowie bogaty jest fonemem akcentowanym, drugi w słowie kalafior występuje przed sylabą akcentowaną. Rysunek 5. Przykład alofonu pozycyjnego a0031. Rysunek 6. Przykład alofonu pozycyjnego a1031. Zalety wyboru alofonów w charakterze jednostek bazowych [9], [15], polegają na tym, że po pierwsze, jednostki mowy zachowują efekty współoddziaływania dźwięków, po drugie, ilość jednostek bazowych jest stosunkowo nieduża i wynosi w różnych systemach od 400 do Trudnością takiego podejścia jest potrzeba precyzyjnego oznaczenia alofonów przy segmentacji naturalnego sygnału mowy. 9
10 W przypadku mojej pracy jednostkami akustycznymi wykorzystywanymi w syntezie mowy są właśnie alofony. Do przygotowania wzorcowej bazy alofonów przeprowadzone zostały nagrania w studio nagraniowym. Został nagrany korpus tekstowy, czyli pojedyncze wyrazy oraz teksty tematyczne. Następnie powycinane z nich alofony. Ponieważ nagrań było bardzo dużo i zważywszy na potrzebę bardzo dobrej jakości alofonów, nagrania były powtarzane dla tych wyrazów, dla których wycięte alofony nie były zadowalającej jakości. Obecnie przygotowane są trzy bazy alofonowe, dwie głosów męskich: moja Janusz, profesjonalny lektor radiowy Tomasz, oraz jedna baza głosu kobiecego Bożena. Wzorcowa baza alofonów przygotowywana była przeze mnie ręcznie, tzn. każdy alofon zastał ręcznie oznaczany, wycięty i zapisany pod odpowiednią nazwą. Podstawową trudnością przy tej operacji jest znalezienie dokładnej, a raczej odpowiedniej, granicy alofonu. Gdy słuchamy jakiejś wypowiedzi, wydaje się, że wyraźnie słyszymy poszczególne głoski, natomiast w wielu przypadkach granice pomiędzy alofonami są płynne trudne do określenia w precyzyjny sposób. W większości przypadków wyznaczenie dokładnej granicy nie jest zabiegiem trudnym [15], gdyż wyraźnie widać gdzie zaczyna a gdzie kończy się dany alofon. Na rys. 7 pokazano przykład, w którym dokładnie widoczna jest granica miedzy alofonem głoski b i a. Jednak są przypadki, w których dokładne wyznaczenie granicy jest dosyć trudne. Związane jest to ze zjawiskami koartykulacji i asymilacji, czyli wpływem pewnych głosek lewego kontekstu na samogłoskę następną. Głoski te powodują, że granica między nimi a samogłoskami jest niewyrazista, rozmyta i trudno jest określić gdzie dokładnie kończy się jeden alofon a zaczyna drugi. Ilustruje to rysunek 8. Granica Rysunek 7. Granica alofonu. Problem ten dotyczy przede wszystkim głosek sonornych, czyli m, n, r, l, ł, j oraz samogłosek. Ich wpływ na głoskę następną, powoduje, że granica pomiędzy jedną a drugą głoska zaciera się. Powstaje przejściowy obszar koartykulacji, w którym słyszymy jednocześnie obie głoski. 10
11 Koniec fonemu Ł14 Obszar koartykulacji Początek fonemu A0081 Rysunek 8. Rozmyta granica pomiędzy alofonami Ł14 i A Technologia automatycznej segmentacji i tworzenia baz jednostek akustycznych Segmentację sygnału mowy na elementy fonetyczne stosuje się w różnych dziedzinach związanych z przetwarzaniem mowy takich jak synteza mowy, w fonetyczno ukierunkowanych systemach rozpoznawania mowy, czy w systemach identyfikacji i weryfikacji spikera. W kontekście syntezy mowy, gdy znana jest kolejność fonemów, zadanie segmentacji sygnału upraszcza się, w wyniku czego dokładność segmentacji może się istotnie polepszyć. Jeśli w syntezie mowy elementy kompilacji zawierają tylko charakterystyki fonetyczno akustyczne, zadanie segmentacji polega właśnie na wycięciu segmentów bazowych z potoku mowy i umieszczeniu ich w bazie danych. W przypadku systemów używających w DB elementów kompilacji zawierających zarówno charakterystyki fonetyczno akustyczne jak i prozodyczne (w takich systemach, zazwyczaj DB zawiera kilka fonetycznie jednakowych segmentów z różnymi charakterystykami prozodycznymi), zadanie polega na segmentacji potoku mowy na bazowe jednostki mowy i dodatkowo obliczeniu dla każdej jednostki parametrów prozodycznych: czasu trwania, energii i częstotliwości tonu podstawowego [10], [14]. W wielu systemach proces segmentacji i oznaczania DB mowy realizuje się ręcznie, eksperymentalnie, z wykorzystaniem półautomatycznych środków przeglądu oscylogramów, spektrogramów i sonogramów sygnału. Ręczna metoda segmentacji i oznaczania wymaga dużo czasu i wysiłków, ale zapewnia dokładne oznaczanie korpusu mowy. Żądanie dokładności oznaczenia zależy od typu bazowych jednostek mowy. I tak, przy wykorzystaniu w charakterze jednostek bazowych difonow albo sylab dopuszcza się pewien błąd oznaczenia, który potem kompensuje się w procesie syntezy mowy, podczas gdy przy wykorzystaniu alofonów, żądania co do dokładności oznaczania istotnie rosną. działań: W przypadku automatycznej segmentacji i oznaczania występuje następująca kolejność 11
12 Parametryczne przedstawienie sygnału mowy. Nauka i regulacja modelu. Segmentacja i oznaczanie. Korekcja rezultatów segmentacji. W zależności od metody segmentacji stosuje się, w szczególności, następujące typy parametrycznego przedstawienia sygnału mowy: współczynniki cepstralne i mel-cepstalne [7], energia sygnału [8], czy współczynniki LPC [6]. Podstawowe podejścia, używane dla automatycznej segmentacji i oznaczania sygnału to: sieci neuronowe, ukryte modele Markowa i metody programowania dynamicznego. Ogólny schemat technologii tworzenia baz jednostek akustycznych przedstawiony jest na rysunku 9. Do podstawowych etapów realizacji tej technologii należą: Wybór i przygotowanie korpusów tekstowych i akustycznych. Ręczna segmentacja sygnału mowy na alofony. Wybór metod i środków automatycznego tworzenia bazy jednostek akustycznych dla syntezy mowy konkretnego spikera. Lista alofonów Wzorcowy korpus tekstowy Nagranie słów korpusu tekstowego w studio nagraniowym Korpus akustyczny Ręczna segmentacja sygnału mowy na alofony Wzorcowa baza alofonowa Korpus tekstowy Synteza TTS Nagranie słów korpusu tekstowego Naturalny sygnał mowy Syntezowany oznaczony sygnał mowy Automatyczna segmentacja i oznaczanie sygnału mowy Automatyczne tworzenie bazy jednostek akustycznych Baza alofonowa Rysunek 9. Schemat technologii tworzenia baz jednostek akustycznych. 12
13 W przygotowanym korpusie tekstowym jest około 1800 wyrazów. Korpus akustyczny, wykorzystywany w tym systemie jest utworzony na podstawie nagrań profesjonalnego spikera i liczy około 1650 wyrazów. Baza alofonów utworzona na jego podstawie liczy ich około 1800 jest to wzorcowa baza alofonów. Aby utworzyć nową bazę alofonową, głosu należącego do jakiegokolwiek innego mówcy, możemy posłużyć się tym samym wzorcowym korpusem tekstowym i na jego podstawie stworzyć nagranie. Jednak taka sytuacja nie zawsze jest osiągalna. Możemy dysponować jedynie wcześniej nagranym sygnałem mowy danego mówcy i nie mieć dostępu do niego samego. Oznacza to konieczność przygotowania korpusów tekstowego i akustycznego na podstawie nagrania, którym się dysponuje. Nie gwarantuje to jednak znalezienia wszystkich alofonów, które są potrzebne w bazie alofonowej. Korpus akustyczny są to nagrane słowa, czyli naturalny sygnał mowy, z którego otrzymywane będą alofony tworzące nową bazę. Natomiast korpus tekstowy, czyli ortograficzny zapis nagranych słów, jest jeszcze dodatkowo wykorzystywany w procesie syntezy TTS. Na wyjściu bloku syntezy otrzymujemy syntezowany oznaczony sygnał mowy. Oznaczony to znaczy, że w sygnale w dziedzinie czasu mamy zaznaczone granice alofonów. Pokazane jest to na rys. 10. Widzimy tutaj zsyntetyzowane słowo standardowych. Słowo to złożone jest z alofonów, których nazwy podane są u góry wykresów. Dodatkowo sygnał syntezowany z przodu i z tyłu ma dodaną ciszę. Wiąże się to z tym, że nagrane słowa korpusu akustycznego nie mają dokładnie zaznaczonych granic początku i końca, tylko granice te są wyznaczone właśnie w obszarach ciszy. Sygnał ten zestawiany jest z naturalnym sygnałem mowy. W tym wypadku z naturalnym słowem standardowych z korpusu akustycznego. Rysunek 10. Syntezowany oznaczony sygnał mowy słowa standardowych. 13
14 Synteza TTS Jednym z elementów systemu automatyzacji wycinania alofonów jest konkatenacyjna synteza TTS. Nie stawia się jej jednak tak dużych wymagań jak w przypadku systemów realizujących syntezę mowy. Ograniczona jest tylko do konkatenacji alofonów na podstawie tekstu w celu uzyskania sygnału wzorcowego. Z bazy wzorcowej wybierane są odpowiednie segmenty mowy naturalnej, w tym przypadku alofony i łączone są one w ciągły sygnał mowy. Przy tym, w syntetyzowanym sygnale zaznaczone są już granice segmentów mowny, czyli alofonów. Powstaje w ten sposób syntezowane słowo, które następnie będzie zestawiane ze słowem naturalnym w procesie programowania dynamicznego wykorzystywanego przez algorytm DTW i na podstawie tego zestawienia w słowie naturalnym oznaczane będą granice alofonów. Schemat blokowy syntezatora zastosowanego w moim systemie przedstawiono na rysunku 11. Aby zrealizować konkatenację alofonów na podstawie tekstu, trzeba dokonać kilku przekształceń tego tekstu. W przypadku mojego systemu tekstem tym jest ortograficzny wyraz, który jest nazwą pliku WAV będącego nagranym słowem, np. dziewczyna.wav. Należy zatem tekst ortograficzny przekształcić na tekst fonemny, a potem na alofonowy. W tekście fonemnym musi być także zaznaczony akcent wyrazowy. Jest to niezbędne, ponieważ w przypadku samogłosek mamy także alofony pozycyjne, które zależą właśnie od akcentu. Otrzymanie tekstu alofonowego oznacza, że mamy nazwy konkretnych alofonów występujących w danym wyrazie i po znalezieniu ich granic oraz wycięciu, możemy je zapisać pod odpowiednimi nazwami alofonów. Tekst ortograficzny Baza leksykalna reguł fonetycznych Przekształcenie Litera Fonem dziewc zyna Baza reguł akcentowych Tekst ortograficzny Baza reguł alofonowych Przekształcenie Fonem Alofon Tekst ortograficzny Ðefčy+na dź03,e1102,f31,cz14, y0021,n33,a2050 Wzorcowa baza alofonów Konkatenacja alofonów Słowo zsyntezowane (plik WAV) Rysunek 11. Schemat syntezy konkatenacyjnej TTS 14
15 W przypadku mojego systemu pierwszym etapem przekształcania tekstu jest zamiana zapisu ortograficznego na zapis fonetyczny. Oznacza to zamianę tekstu pisanego na taki, jaki wymawiamy. Przekształcenie to odbywa się przy użyciu bazy leksykalnej, czyli odpowiednich reguł fonetycznych [1], [21]. Kolejnym etapem jest przekształcenie zapisu fonetycznego na alofonowy. Dla spółgłosek mamy podział na alofony kombinacyjne, natomiast dla samogłosek mamy zarówno alofony kombinacyjne jak i pozycyjne. Wszystkie algorytmy niezbędne do takiej syntezy TTS zostały oczywiście przeze mnie opracowane i zaimplementowane w systemie. Dynamic Time Warping Automatyczna segmentacja sygnału mowy w moim systemie oparta jest na algorytmie DTW. Dynamiczna transformata czasowa [1], jest algorytmem wykorzystywanym do mierzenia podobieństwa między dwoma sekwencjami sygnałów czasowych o różnej długości. Był intensywnie wykorzystywany do rozpoznawania mowy [12]. Proces optymalizacji korzysta z programowania dynamicznego, o czym świadczy także nazwa algorytmu Dynamic Time Warping. W moim przypadku algorytm DTW nie jest wykorzystywany do rozpoznawania mowy, lecz do znajdowania granic jednostek akustycznych alofonów. Algorytm automatycznej segmentacji sygnału mowy oparty jest na algorytmie DTW, jednak w przeciwieństwie do klasycznego DTW, nie opieram się w nim na sygnale w dziedzinie czasu, a na dziedzinie częstotliwości. Sygnał mowy wzorcowy (syntezowany) i naturalny dzielony jest na ramki, które mogą na siebie zachodzić (ang. overlapping) i w każdej ramce liczona jest szybka transformata Fouriera (FFT). Przed obliczeniem FFT, aby uniknąć rozmycia widma stosuje się okna widmowe [5]. Pierwszym etapem w metodzie DTW jest obliczenie macierzy odległości lokalnych. Elementy macierzy odległości lokalnych liczone są właśnie dla wektorów cech widmowych w ramkach: K cn, m S n, E m S n, k E m, k (1) gdzie: S(n) wektor widmowych cech sygnału syntetyzowanego w n-tej ramce, E(m) wektor widmowych cech sygnału naturalnego w m-tej ramce, K długość wektora cech widmowych. k1 15
16 Ramka sygnału syntezowanego zestawiana jest z ramką sygnału naturalnego i na podstawie widma sygnału w ramce obliczana jest odległość między tymi wektorami. We wzorze 1 podana jest odległość liczona wg metryki miejskiej (Manhattan). W systemie zaimplementowane są też inne metryki. Macierz odległości lokalnych dla słowa gałązka przedstawione są na rys. 12, który przedstawia sygnały mowy, do których zastosowano ramki o długości 256 próbek, z oknem Hamminga i nakładaniem ramek 200 próbek. Zastosowana metryka to metryka miejska. Kolor niebieski oznacza małe wartości odległości pomiędzy ramkami sygnałów, czyli sygnały podobne pod względem widmowym, natomiast kolor czerwony oznacza dużą odległość, czyli częstotliwościowo różne sygnały. Rysunek 12. Macierz odległości lokalnych, metryka miejska. Kolejnym elementem jest obliczenie macierzy odległości globalnych i ścieżki zgodności. Graficznie przedstawiona jest na rys. 13. Widzimy tam również zaznaczone granice alofonów w naturalnym sygnale mowy wyznaczone na podstawie ścieżki zgodności i granic alofonów w sygnale syntezowanym. Właśnie to stanowi istotę modyfikacji algorytmu DTW. Nie dopasowujemy sygnału do wzorcowego, tylko za pomocą ścieżki dopasowania wyznaczamy granice alofonów. 16
17 Rysunek 13. Macierz odległości globalnych. Wyznaczenie tonu krtaniowego W systemie zestawiane są ze sobą dwa sygnały mowy, syntezowany i naturalny. Sygnał syntezowany tworzony jest na podstawie bazy wzorcowej. Jest to głos lektora uzyskany w studio nagraniowym. Natomiast nowa baza alofonowa tworzona jest na podstawie innego korpusu nagrań sygnału mowy, należącej do innego spikera. Z założenia więc, głosy te nie należą do tego samego spikera. Jedną z cech odróżniającą głosy różnych ludzi jest częstotliwość tonu podstawowego F 0 (ton krtaniowy). Typowe częstotliwości tonu krtaniowego to około 75 Hz do 180 Hz dla głosów męskich, dla głosów kobiecych to od około 165 Hz do 255 Hz i dla dzieci to 250 Hz 300 Hz. Ponieważ odległości pomiędzy sygnałami liczone są w dziedzinie częstotliwości, ma to więc wpływ na wyniki obliczeń. Rozwiązaniem dopasowującym ton krtaniowy obu sygnałów jest więc zmiana częstotliwości tonu podstawowego jednego z sygnałów mowy. Ponieważ tworzona jest baza alofonów nowego głosu, muszą być zachowane wszystkie jego specyficzne cechy, co oznacza, że nie możemy ingerować i zmieniać jego parametrów. Modyfikacja musi więc dotyczyć głosu syntezowanego. Ton krtaniowy możemy wyznaczyć tylko we fragmentach dźwięcznych sygnału mowy i tylko takie fragmenty mogą być poddane modyfikacji. Prostą i skuteczną metodą wyznaczenia VUV (Voiced/Unvoiced) jest metoda progowa. Oparta jest ona na dwóch współczynnikach, głośności i ZCR. Sygnał wejściowy dzielony jest na ramki, następnie dla każdej ramki wyliczane są wartości tych współczynników. Statystycznie wyznaczono, że wartości 0,02 i 50 odpowiednio dla głośności i ZCR, są poziomem poniżej którego ramka uznawana jest jako bezdźwięczna, a powyżej jako dźwięczna. Współczynnik głośności jest to pierwiastek średniej energii sygnału 17
18 audio w ramce, natomiast Zero Crossing Rate określa ile razy sygnał zmienił znak, czyli ile razy wartość sygnału zmieniła się z ujemnej na dodatnią. Korzystając z metody progowej możemy wyznaczyć fragmenty dźwięczne i bezdźwięczne w sygnale naturalnym, czyli nagrane słowo podlegające segmentacji. Natomiast w sygnale syntezowanym wiemy, które fonemy są dźwięczne, a które bezdźwięczne. Dźwięczne fonemy to: a, ą, e, ę, o, u, y, i, b, B, d, D, Ď, Đ, đ, g, G, j, l, L, ł, m, M, n, ń, r, R, w, W, z, Z, ź, ż. Rys. 14 przedstawia zaznaczone kolorem czerwonym fragmenty dźwięczne wyznaczone dla obu sygnałów naturalnego i syntezowanego słowa przemieszczania. Na górnym wykresie przedstawiona jest także częstotliwość tonu podstawowego wyznaczona dla fragmentów oznaczonych jako dźwięczne. F 0 sygnału syntezowanego F 0 sygnału naturalnego Fragmenty dźwięczne Rysunek 14. Wyznaczone fragmenty dźwięczne w sygnale mowy. W celu wyznaczenia częstotliwości tonu podstawowego sygnałów dźwiękowych stosuje się różne metody [16]. W tej pracy wyznaczenie częstotliwości tonu podstawowego zostało osiągnięte za pomocą metody cepstralnej. Operacja cepstrum oparta jest o transformację Fouriera. Analizowany sygnał zostaje poddany transformacie Fouriera, a następnie przekształcany jest do skali logarytmicznej. Wynik poddaje się drugiej transformacji Fouriera, wracając w ten sposób w dziedzinę czasu i otrzymując w ten sposób sygnał cepstrum. Do wyznaczenia tonu podstawowego potrzebne jest natomiast cepstrum rzeczywiste. F 0 wyznacza się na podstawie maksima lokalnego rzeczywistego sygnału cepstrum w przedziale od 50 Hz do 400 Hz, gdyż w takim zakresie należy spodziewać się częstotliwości tonu krtaniowego. 18
19 Modyfikacja F 0 algorytm TD-PSOLA Zmianę częstotliwości tonu podstawowego uzyskano za pomocą algorytmu TD PSOLA (Time Domain Pitch Synchronous OverLap Add) [2], [18]. Kolejne kroki tego algorytmu to: 1. Podział sygnału mowy na segmenty synchronicznie z estymowaną częstotliwością podstawową, czyli wyznaczenie granic okresów (pitch). 2. Określenie dźwięczności bezdźwięczności fragmentów zawartych między granicami okresów (pitch synchronous). 3. Przeskalowanie czasowe w sygnale wyjściowym granic okresów (time domain). 4. Rekonstrukcja sygnału poprzez złożenie segmentów z zastosowaniem okna Hanninga oraz zakładek (overlap add ). Sygnał syntezowany modyfikujemy w taki sposób, aby jego częstotliwość tonu podstawowego dostosować do częstotliwości F 0 sygnału naturalnego, czyli aby te częstotliwości były takie same, lub zbliżone. W zastosowanym przeze mnie algorytmie zmianom podlega częstotliwość alofonów sygnału syntezowanego wtedy, gdy różni się od częstotliwości sygnału naturalnego o więcej niż 10 %. Dopiero wtedy sygnały te są zestawiane ze sobą w algorytmie DTW. Rys. 16 przedstawia wyznaczoną za pomocą metody cepstralnej częstotliwość tonu podstawowego dla fragmentów dźwięcznych słowa przemieszczania. Częstotliwość sygnału naturalnego została wyliczona dla fragmentów dźwięcznych sygnału, wyznaczonych metodą progową. Zaznaczona jest na rysunku niebieskimi iksami. Częstotliwość ta została aproksymowana wielomianem 5 stopnia (niebieska ciągła linia). Częstotliwość sygnału syntezowanego wyznaczona jest dla alofonów dźwięcznych, które podzielono na ramki i tak uzyskaną częstotliwość uśredniono dla całego alofonu. Alofony te będą podlegały modyfikacji w algorytmie TD-PSOLA, dlatego należało uśrednić F 0 dla całego modyfikowanego fragmentu (alofonu). Ponieważ czasy trwania obu sygnałów różnią się, aproksymowaną częstotliwość tonu podstawowego sygnału naturalnego dopasowałem czasowo do sygnału syntezowanego. W ten sposób można określić jaka powinna być częstotliwość alofonu w sygnale syntezowanym i jeśli zbyt dużo różni się od faktycznie wyznaczonej dla alofonu (więcej niż 10 %), uzyskać ją w algorytmie TD-PSOLA. 19
20 x F 0 sygnału naturalnego wyznaczona dla fragmentów dźwięcznych. o F 0 sygnału syntezowanego wyznaczona dla dźwięcznych alofonów. Aproksymowana F 0 sygnału naturalnego. F 0 docelowa sygnału syntezowanego Rysunek 15. Częstotliwość tonu podstawowego. Zmiana częstotliwości tonu podstawowego słowa syntezowanego pociąga za sobą zmianę macierzy odległości lokalnych, oraz macierzy odległości globalnych, a co za tym idzie także ścieżki dopasowania. Ścieżka dopasowania ma z kolei bezpośredni wpływ na segmentację sygnału naturalnego. Oznacza to, że po zmianie F 0, zmienią się granice wycinanych alofonów. Bez zmiany F 0 Zmienione F 0 Rysunek 16. Macierze kosztu globalnego przed i po zmianie F0. Rys. 16 przedstawia macierze kosztu globalnego przed i po zmianie F 0, wraz z zaznaczoną ścieżką dopasowania. Widoczne są różnice zarówno w samej macierzy kosztu globalnego, jak i w ścieżce dopasowania. Różnice te pociągają za sobą zmianę położenia granic alofonów w słowie naturalnym i inne ich wycięcie. Schemat blokowy systemu Na rys. 17 przedstawiono schemat blokowy algorytmu segmentacji dotyczący jednego słowa. Natomiast w systemie jest wywoływany w pętli dla całego korpusu akustycznego, czyli wszystkich słów z nagrania. 20
21 Słowo syntezowane oznaczone Słowo naturalne Zmiana F 0 TD-PSOLA Wyznaczenie F 0 Podział na ramki Podział na ramki Okienkowanie Okienkowanie FFT FFT Obliczenie macierzy odległości lokalnych Granice alofonów w słowie syntezowanym. Obliczenie macierzy odległości globalnych Wyznaczenie ścieżki zgodności Klasyczne DTW Wyznaczenie granic alofonów w słowie naturalnym Wycięcie alofonów Zbiór alofonów Rysunek 17. Schemat blokowy algorytmu segmentacji. W wyniku pracy automatycznego systemu segmentacji korpusu mowy generowane są segmenty fonetyczne alofony. Rys. 18 i 19 przedstawia alofony uzyskane właśnie w wyniku automatycznej segmentacji, wraz z odpowiadającymi im alofonami wzorcowymi. Są to dwa pierwsze alofony wycięte z wyrazu gałązka. Po przekształceniu na zapis alofonowy otrzymujemy: gałązka g03, a1032, ł34, ą0081, s31, k13, a2030. Górne wykresy na rysunkach przedstawiają alofony wzorcowe, natomiast dolne, alofony wycięte w sposób automatyczny. Zachowana jest skala czasu. Rysunek 18. Alofon a1032 wycięty w procesie automatycznej segmentacji z wyrazu gałązka. 21
22 Rysunek 19. Alofon g03 wycięty w procesie automatycznej segmentacji z wyrazu gałązka. Algorytmy kontroli jakości W wyniku pracy systemu otrzymujemy wiele takich samych alofonów. Dzieje się tak, ponieważ korpus mowy jest nadmiarowy, zawiera całe wyrazy, zdania i teksty, w których dany alofon występuje wielokrotnie. Natomiast do bazy potrzebujemy tylko po jednym egzemplarzu każdego z alofonów. W celu stworzenia bazy jednostek akustycznych konieczne jest szczegółowe przeanalizowanie otrzymanych elementów po to, aby: Usunąć segmenty fonetyczne, w których przekroczono dopuszczony błąd podczas czytania spikera lub przy automatycznej segmentacji i pozostawić tylko najlepsze z nich operacja odrzucenie. Przy wielokrotnej realizacji jednakowych alofonów, wybrać najlepszy operacja selekcja. Przeprowadzić ocenę jakości każdego z pozostawionych elementów i zaznaczyć odchylenia od normy, oraz przeprowadzić skorygowanie parametrów segmentów z zauważonymi odchyleniami operacja korekta. Operacja odrzucenie polega na zestawieniu akustycznych charakterystyk syntetyzowanych i naturalnych segmentów mowy otrzymanych w procesie segmentacji. Jeśli różnice między nimi będą wyższe od pewnej progowej wielkości, to oznacza, że taki segment nie będzie w stanie zapewnić nawet minimalnej niezbędnej jakości syntetyzowanej mowy i powinien być odrzucony. Operacja selekcja wybiera lepszy alofon z zestawu takich samych stosując odpowiednie kryterium. W charakterze takiego kryterium stosuję odległość między wartościami parametrów prozodycznych każdego z egzemplarzy i wartościami średnimi parametrów prozodycznych w otrzymanych realizacjach alofonu. 22
23 Operację korekta realizuje się dla segmentów otrzymanych zgodnie ze wskazanymi wyżej kryteriami. Celem tej operacji jest znalezienie możliwych nieznacznych niedokładności segmentacji. Znalezione segmenty z niedokładnie określonymi granicami podlegają korekcji za pomocą odpowiednich procedur polegających na usunięciu niedokładnych i wstawieniu brakujących granicznych okresów tonu podstawowego. Segmenty, które przeszły operacje odrzucenie, selekcja i korekta, umieszcza się w końcowej bazie alofonowej. W ten sposób powstaje baza jednostek akustycznych, alofonów głosu konkretnego spikera. 5. Ocena jakości automatycznie tworzonych baz jednostek alofonowych W przypadku mowy syntezowanej najważniejsze są oceny wyrazistości, zrozumiałości i naturalności, do czego najlepiej zastosować metody subiektywne. W przypadku tej pracy tworzone są bazy jednostek akustycznych, z których będzie syntezowana mowa, dlatego też badania polegały na porównaniu mowy otrzymanej z baz automatycznych pochodzących z systemu i baz testowych otrzymanych ręcznie. Do najczęściej stosowanych subiektywnych metod badania mowy należą: ACR (ang. Absolute Category Rating) metoda bezwzględnej oceny jakości mowy. DCR (ang. Degradation Category Rating) metoda określająca stopień degradacji jakości mowy. CCR (ang. Comparision Category Rating) metoda porównawcza oceny jakości mowy. Metoda badania wyrazistości logatomowej. Metody ACR i DCR opisane są i zalecane przez International Telecommunication Union (ITU) do oceny jakości transmisji sygnału mowy w analogowych i cyfrowych kanałach telekomunikacyjnych oraz systemach kodowania mowy. Metoda logatomowa opisana jest natomiast w Polskiej Normie PN-90/T Badania zostały przeprowadzone dla dwóch baz uzyskanych automatycznie. Bazy głosu profesjonalnego lektora radiowego Lektor, oraz głosu autora tej pracy Janusz. W badaniach wzięło udział 73 osoby. W metodzie ACR wyznaczana jest bezwzględna jakość prezentowanych próbek głosu bez zastosowania sygnału odniesienia. Następnie obliczany jest parametr MOS (ang. Mean Opinion Score) uśredniona opinia słuchaczy, która charakteryzuje jakość dźwięku. 23
24 W badaniu sygnału syntezowanego przeprowadzono testy odsłuchowe. Wykorzystywane są listy testowe złożone z prostych, nie związanych z sobą wyrazów. Uczestnicy odsłuchują nagrana mowę, po czym oceniają ją w skali od 1 do 5. W tym wypadku zostały użyte dwie skale ocen zalecane przez ITU: skala jakości odsłuchu, skala wysiłku słuchowego. Ocenę baz uzyskanych automatycznie przeprowadzono w porównaniu do baz wzorcowych uzyskanych ręcznie. Oznacza to, że oceniając syntezowany głos lektora słuchacze oceniali próbki zarówno utworzone na podstawie bazy automatycznej, jak i próbki utworzone na podstawie bazy wzorcowej. Kolejność ułożenia próbek była przypadkowa. Na podstawie wyników otrzymano parametry MOS dla poszczególnych baz. Wyniki zostały przedstawione w tabeli 1. Bazy Lektor wzorcowa Lektor automatyczna Janusz wzorcowa Ocena bezwzględna jakość mowy Janusz automatyczna MOS 3,96 3,85 3,72 3,69 Odchylenie standardowe 0,68 0,58 0,53 0,46 min wartość 2,71 2,78 2,48 2,39 max wartość 4,86 4,87 4,57 4,35 Wysiłek słuchowy MOS 3,96 3,9 3,81 3,81 Odchylenie standardowe 0,65 0,59 0,54 0,53 min wartość 2,81 2,83 2,43 2,22 max wartość 4,76 4,87 4,62 4,65 Table 1. Wyniki testów w badaniu metodą ACR. Jak wynika z tabeli, w każdym przypadku ocena ta była trochę poniżej 4, czyli jakość syntezowanej mowy została oceniona jako dobra, pozwalająca na rozumienie mowy bez trudności z lekkim natężeniem uwagi. Odchylenie standardowe wyliczone z próbki jest na poziomie trochę powyżej 0,5 co oznacza, że nie było dużych różnic w opiniach słuchaczy. Bazy wzorcowe wypadły w tej ocenie nieznacznie lepiej, co jest zrozumiałe. Jednak różnica w ocenie bazy wzorcowej i automatycznej jest bardzo mała. Baza Janusz uzyskała ocenę trochę niższą niż baza Lektor, natomiast różnice pomiędzy bazą wzorcową i automatyczną w tym wypadku są mniejsze niż w przypadku głosu lektora. Jest to o tyle ważne, że baza Janusz powstała na podstawie głosu innego spikera, a mimo to praktycznie nie odbiega od bazy wzorcowej. 24
25 Kolejną metodą jest metoda DCR. Stosuje się ją do badania tzw. stopnia degradacji mowy. Pomiar polega na porównaniu wzorcowego (naturalnego) sygnału z badanym, określając jego degradację także w pięciopunktowej skali (od niezauważalnej do bardzo wyraźnej ). Na podstawie otrzymanych wyników wyznaczony został współczynnik DMOS (ang. Degradation Mean Opinion Score) czyli stopień degradacyjnej, uśrednionej opinii słuchaczy. Wyniki przedstawiono w tabeli 2. W przypadku tego współczynnika możemy zauważyć, że wyższą ocenę uzyskała baza Janusz, zarówno wzorcowa jak i automatyczna. Wartość DMOS jest w granicach 3,9 co oznacza że różnica pomiędzy głosem naturalnym i syntezowanym jest odczuwalna ale słabo odczuwalna. Ocena baz automatycznych wypada nieznacznie gorzej niż wzorcowych, lecz różnice te są bardzo małe. Bazy Lektor wzorcowa Lektor automatyczna Janusz wzorcowa Janusz automatyczna DMOS 3,73 3,63 3,91 3,87 Odchylenie standardowe 0,53 0,56 0,45 0,44 min wartość 2,33 2,6 2,37 2,84 max wartość 4,5 4,5 4,68 4,68 Table 2. Wyniki testów w badaniu metodą DCR. W tej metodzie, podobnie jak w poprzedniej prezentowane są dwie próbki, gdzie jedna jest wzorcową naturalną. Tym razem kolejność próbek jest przypadkowa. Na podstawie wyników wyznaczany jest parametr CMOS (ang. Comparision Mean Opinion Score). porównawcza, uśredniona opinia słuchaczy. Próbki dźwięków mają charakter przypadkowy, oznacza to, że dźwięk badany może mieć lepszą ocenę od wzorcowego. Porównywana próbka może być lepszej lub gorszej jakości, więc ocena może być albo dodatnia, albo ujemna. Wyniki zaprezentowano w tabeli 3. Bazy Lektor Lektor Janusz Janusz wzorcowa automatyczna wzorcowa automatyczna CMOS -0,47-0,83-0,87-0,75 Odchylenie standardowe 0,28 0,65 0,43 0,5 min wartość -0,94-2,2-1,67-1,75 max wartość 0,11 0,35 0,17 0,5 Table 3. Wyniki testów w badaniu metodą CCR. 25
26 W przypadku tego współczynnika wzorcowa baza głosu lektora została oceniona bardzo wysoko. CMOS wynoszący -0,47 oznacza tylko minimalnie gorszą jakość od mowy naturalnej. Baza automatyczna Lektor wypadła tym razem trochę gorzej od wzorcowej chociaż i w tym wypadku jakość bazy jest akceptowalna. Bazy Janusz zarówno wzorcowa jak i automatyczna otrzymały bardzo podobne oceny, zbliżone też do oceny bazy automatycznej głosu lektora. Otrzymane oceny oznaczają akceptowalną jakość baz, tylko nieznacznie gorszą od jakości mowy naturalnej. Metoda badania wyrazistości logatomowej polega na określeniu procentu prawidłowo odebranych logatomów przez słuchaczy, w stosunku do całkowitej liczby prezentowanych logatomów. Rozpoznanie logatomu jest wyłącznie wynikiem usłyszenia wszystkich wchodzących w jego skład fonemów, a nie skojarzenia ze znanym wyrazem lub analizy kontekstu. Wyniki średniej wyrazistości logatomowej dla całego badania przedstawiono w tabeli 4. Analizując je można zauważyć, że dla obu głosów wyrazistość logatomowa jest lepsza dla baz automatycznych. Dla głosu lektora średnia różnica wynosi około 5 %, natomiast dla baz Janusz wynosi prawie 20 %. W każdym przypadku, dla wszystkich rodzajów logatomów ich rozpoznawalność jest lepsza gdy są tworzone z wykorzystaniem baz automatycznych. Bazy Wyrazistość logatomowa Odchylenie standardowe Lektor wzorcowa Lektor automatyczna Janusz wzorcowa Janusz automatyczna 52,86 % 57,63 % 44,93 % 61,83 % 0,1 0,11 0,15 0,12 Table 4. Wyniki testów w badaniu metodą logatomową. 6. Podsumowanie W pracy przedstawiono zagadnienie automatyzacji procesu segmentacji i tworzenia baz jednostek akustycznych alofonowych, w syntezie mowy polskiej. Wymaga ono zaprojektowania systemu, który będzie to realizował. W tym celu przeprowadziłem badania i opracowałem odpowiednie algorytmy, które następnie zaimplementowałem w opracowywanym systemie. Przeprowadzone badania pokazały, że jakość baz tworzonych automatycznie z wykorzystaniem przedstawionych algorytmów jest porównywalna z bazami wzorcowymi tworzonymi w sposób ręczny. Oznacza to, że mogą być one wykorzystane w konkatenacyjnych syntezatorach mowy. Przedstawiony system opracowany był do tworzenia baz przeznaczonych dla syntezatora posługującego się alofonami jako jednostkami bazowymi. Może on być jednak 26
27 przystosowany po pewnych modyfikacjach do innych rodzajów jednostek bazowych jak np. difony, sylaby, co pozwoli na tworzenie baz dla innych syntezatorów mowy. Za moje oryginalne osiągnięcia w niniejszej pracy uważam: Opracowanie niezbędnych algorytmów przetwarzania tekstu tj. zamiany tekstu ortograficznego na fonetyczny i zapisu fonetycznego na alofonowy, niezbędnych do zaimplementowania części systemu syntezy mowy TTS wykorzystywanej w moim systemie. Opracowanie algorytmów automatyzacji procesu segmentacji i wycinania bazowych jednostek akustycznych alofonów, opartych o zmodyfikowany algorytm DTW. Opracowanie algorytmów kontroli jakości wyciętych jednostek akustycznych i tworzenia baz jednostek alofonowych. Zaprojektowanie i zaimplementowanie systemu automatyzacji procesu segmentacji i wycinania bazowych jednostek akustycznych. Bibliografia: [1] R. Bellman, R. Kalaba, On adaptive control processes", Automatic Control, IRE Transactions on, 1959, vol. 4, no. 2, pp [2] F. Charpentier, M.G. Stella, Diphone Synthesis Using an Overlap-Add Technique for Speech Waveform Concatenation, Proceedings of IEEE International Conference of Acoustics, Speech and Signal Processing ICASSP-86, Tokyo Japan 1986, pp [3] M. Dłuska, Fonetyka polska, PAN, Warszawa-Kraków 1981, pp. 3 25, [4] T. Dutoit, An Introduction to text-to-speech synthesis, Kluwer Academic Publishers [5] F.J. Harris, On the Use of Windows for Harmonic Analysis with the Discrete Fourier Transform, Proceedings of the IEEE, vol. 66, no. 1, pp , [6] F. Itakura, Line Spectrum Representation of Linear Predictive Coefficients of Speech Signals, The Journal of the Acoustical Society of America, Volume 57, Issue 2, 1975, pp [7] J. Kominek, A.W. Black, A Family-of-Models Approach to HMM-based Segmentation for Unit Selection Speech Synthesis, Speech Communication and Technology, Proceedings of the 9-th European conference InterSpeech 2004, Jeju Island, Korea 2004, V. 3, pp [8] E. Lewis, M. Tatham, Automatic Segmentation of Recorded Speech into Syllables for Speech Synthesis, Speech Communication and Technology, Proceedings of the 7-th European conference EUROSPEECH 2001, Aalborg, Denmark 2001, V. 3. pp [9] B. Lobanow, L. Cyrulnik, B. Piórkowska, J. Rafałko, E. Szpilewski, Фонетикоакустическая база даных для многоязычного синтеза речи по тексту на славянских языках, Computational Linguistics and Intellectual Technologies, International Conference Dialogue 2006 Proceedings, Bekasovo, Russia 2006, pp
28 [10] B. Lobanow, B. Piórkowska, J. Rafałko, L. Cyrulnik, Реализация межъязыковых различий интонации завиершённости и незавиершённости в синтезаторе русской и полской речи по тексту, Computational Linguistics and Intellectual Technologies, International Conference Dialogue 2005 Proceedings, Zvenigorod, Russia 2005, pp [11] K. Łopatka, A. Czyżewski: Text-to-speech synthesizer employing automatic prosodic modification, Zeszyty naukowe WE PG, Nr 28, pp [12] C. S. Myers, Rabiner L. R. A comparative study of several dynamic time-warping algorithms for connected word recognition, The Bell System Technical Journal, September 1981, Vol. 60, 7, pp [13] D. Ostaszewska, J. Tambor, Fonetyka i fonologia współczesnego języka polskiego, wyd. II PWN, Warszawa [14] B. Piórkowska, W. Lesiński, J. Rafałko, E. Szpilewski, Sentence Intonation for Polish Language, Speech Analysis, Synthesis and Recognition, Aplications of Phonetics, Kraków, Poland [15] B. Piórkowska, K. Popowski, J. Rafałko, E. Szpilewski, Polish Language Speech Synthesis Basis on Text Information, New Trends in Audio and Video, vol. I, Politechnika Białostocka, Rozprawy Naukowe Nr 134, 2006, pp [16] L.R. Rabiner, M.J. Cheng, A.E. Rosenberg, C.A. McGonegal, A Comparative Performance Study of Several Pitch Detection Algorithms, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 24, no. 5, pp , [17] J. van Santen, R. Sproat, J. Olive, J. Hirshberg, Progress in speech synthesis, Springer Verlag, New York 1997, Chapter 4, Concatenative Synthesis and Automated Segmentation, pp [18] X. Sun, "Voice Quality Conversion in TD-PSOLA Speech Synthesis", Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, Istanbul, Turkey 2000, pp [19] E. Szpilewski, B. Piórkowska, J. Rafałko, B. Lobanov, V. Kiselov, L. Tsirulnik, Polish TTS in Multi-Voice Slavonic Languages Speech Synthesis System, SPECOM 2004 Proceedings, 9th International Conference Speech and Computer, Saint-Petersburg, Russia 2004, pp [20] T. Taylor, Text-to-Speech Synthesis, Cambridge University Press [21] B. Wierzchowska, Fonetyka i fonologia języka polskiego, Zakład Narodowy im. Ossolińskich, Wrocław [22] Strona Pracowni Systemów Informacyjnych publikacje. [23] Strona IPI PAN, tematyka badawcza Zespołu Inżynierii Lingwistycznej. [24] Strona Zakładu Fonetyki Instytutu Językoznawstwa Uniwersytetu im. Adama Mickiewicza w Poznaniu. 28
Algorytmy automatyzacji tworzenia baz jednostek akustycznych w syntezie mowy polskiej
Streszczenie rozprawy doktorskiej Algorytmy automatyzacji tworzenia baz jednostek akustycznych w syntezie mowy polskiej mgr inż. Janusz Rafałko Uniwersytet w Białymstoku Wydział Matematyki i Informatyki
Synteza mowy. opracowanie: mgr inż. Kuba Łopatka
Synteza mowy opracowanie: mgr inż. Kuba Łopatka Synteza mowy (ang. TTS - Text-To-Speech ) zamiana tekstu w formie pisanej na sygnał akustyczny, którego brzmienie naśladuje brzmienie ludzkiej mowy. Podstawowe
Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści
Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, 2011 Spis treści Przedmowa 11 Rozdział 1. WPROWADZENIE 13 1.1. Czym jest automatyczne rozpoznawanie mowy 13 1.2. Poziomy
Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan
Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan Synteza mowy System przetwarzania tekstu pisanego na mowę Text-to-Speech (TTS) TTS powinien być w stanie przeczytać
Korpusy mowy i narzędzia do ich przetwarzania
Korpusy mowy i narzędzia do ich przetwarzania Danijel Korzinek, Krzysztof Marasek Polsko-Japońska Akademia Technik Komputerowych Katedra Multimediów kmarasek@pjwstk.edu.pl danijel@pjwstk.edu.pl 2015-05-18
AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I
AKUSTYKA MOWY Podstawy rozpoznawania mowy część I PLAN WYKŁADU Część I Podstawowe pojęcia z dziedziny rozpoznawania mowy Algorytmy, parametry i podejścia do rozpoznawania mowy Przykłady istniejących bibliotek
4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...
Spis treści 1 Wstęp 11 1.1 Do kogo adresowana jest ta książka... 12 1.2 Historia badań nad mową i językiem... 12 1.3 Obecne główne trendy badań... 16 1.4 Opis zawartości rozdziałów... 18 2 Wyzwania i możliwe
Pomiary w technice studyjnej. TESTY PESQ i PEAQ
Pomiary w technice studyjnej TESTY PESQ i PEAQ Wprowadzenie Problem: ocena jakości sygnału dźwiękowego. Metody obiektywne - np. pomiar SNR czy THD+N - nie dają pełnych informacji o jakości sygnału. Ważne
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski
Akustyka mowy wprowadzenie Opracował: dr inż. Piotr Suchomski Kontakt Katedra Systemów Multimedialnych Wydział ETI dr inż. Piotr M. Suchomski, pok. EA 730 e-mail: pietka@sound.eti.pg.gda.pl tel. 23-01
ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW
ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW Maciej Piasecki, Szymon Zyśko Wydziałowy Zakład Informatyki Politechnika Wrocławska Wybrzeże Stanisława Wyspiańskiego
KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:
KATEDRA SYSTEMÓW MULTIMEDIALNYCH Inteligentne systemy decyzyjne Ćwiczenie nr 12: Rozpoznawanie mowy z wykorzystaniem ukrytych modeli Markowa i pakietu HTK Opracowanie: mgr inż. Kuba Łopatka 1. Wprowadzenie
OPIS MODUŁU (PRZEDMIOTU)
Załącznik Nr 1.11 pieczątka jednostki organizacyjnej OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS MODUŁU (PRZEDMIOTU)
Podstawy Przetwarzania Sygnałów
Adam Szulc 188250 grupa: pon TN 17:05 Podstawy Przetwarzania Sygnałów Sprawozdanie 6: Filtracja sygnałów. Filtry FIT o skończonej odpowiedzi impulsowej. 1. Cel ćwiczenia. 1) Przeprowadzenie filtracji trzech
TEORIA WYTWARZANIA DŹWIĘKÓW
1 TEORIA WYTWARZANIA DŹWIĘKÓW MOWY, FORMANTY, MODELOWANIE WYTWARZANIA DŹWIĘKÓW MOWY. mgr inż. Kuba Łopatka PLAN WYKŁADU 1. Teoria wytwarzania dźwięków mowy Ogólna teoria wytwarzania dźwięków mowy Ton krtaniowy
Kompresja dźwięku w standardzie MPEG-1
mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 7, strona 1. Kompresja dźwięku w standardzie MPEG-1 Ogólne założenia kompresji stratnej Zjawisko maskowania psychoakustycznego Schemat blokowy
Technologia mowy i języka Speech and Language Technology, Vol. 3
Fonetyczna struktura materiału testowego stosowanego w subiektywnych pomiarach jakości mowy Phonetic structure of test material used in subjective measurements of speech quality Stefan Brachmański, Piotr
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski
Automatyczne rozpoznawanie mowy Autor: mgr inż. Piotr Bratoszewski Rys historyczny 1930-1950 pierwsze systemy Automatycznego rozpoznawania mowy (ang. Automatic Speech Recognition ASR), metody holistyczne;
Wykład z Technologii Informacyjnych. Piotr Mika
Wykład z Technologii Informacyjnych Piotr Mika Uniwersalna forma graficznego zapisu algorytmów Schemat blokowy zbiór bloków, powiązanych ze sobą liniami zorientowanymi. Jest to rodzaj grafu, którego węzły
Transkrypcja fonetyczna i synteza mowy. Jolanta Bachan
Transkrypcja fonetyczna i synteza mowy Jolanta Bachan IPA Międzynarodowy alfabet fonetyczny, MAF (ang. International Phonetic Alphabet, IPA) alfabet fonetyczny, system transkrypcji fonetycznej przyjęty
w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H
W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania
Rozpoznawanie mowy za pomocą HTK
Kinga Frydrych Wydział Inżynierii Mechanicznej i Robotyki Inżynieria Akustyczna, rok III, 2013/2014 Sprawozdanie z ćwiczeń laboratoryjnych z Technologii mowy Rozpoznawanie mowy za pomocą HTK 1. Opis gramatyki
CYFROWE PRZTWARZANIE SYGNAŁÓW (Zastosowanie transformacji Fouriera)
I. Wprowadzenie do ćwiczenia CYFROWE PRZTWARZANIE SYGNAŁÓW (Zastosowanie transformacji Fouriera) Ogólnie termin przetwarzanie sygnałów odnosi się do nauki analizowania zmiennych w czasie procesów fizycznych.
Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert
Analiza sygnału mowy pod kątem rozpoznania mówcy chorego Anna Kosiek, Dominik Fert Wstęp: Analiza sygnału akustycznego była wykorzystywana w medycynie jeszcze przed wykorzystaniem jej w technice. Sygnał
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających
RZECZPOSPOLITA POLSKA (12) OPIS PATENTOWY (19) PL (11) 210969 (13) B1 (21) Numer zgłoszenia: 383047 (51) Int.Cl. G01R 23/16 (2006.01) G01R 23/20 (2006.01) Urząd Patentowy Rzeczypospolitej Polskiej (22)
Omówienie różnych metod rozpoznawania mowy
Omówienie różnych metod rozpoznawania mowy Na podstawie artykułu: Comparative study of automatic speech recognition techniques Beniamin Sawicki Wydział Inżynierii Mechanicznej i Robotyki Inżynieria Akustyczna
Transformacja współrzędnych geodezyjnych mapy w programie GEOPLAN
Transformacja współrzędnych geodezyjnych mapy w programie GEOPLAN Program GEOPLAN umożliwia zmianę układu współrzędnych geodezyjnych mapy. Można tego dokonać przy udziale oprogramowania przeliczającego
PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM
PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM Akustyka mowy opracowanie: M. Kaniewska, A. Kupryjanow, K. Łopatka PLAN WYKŁADU Zasada przetwarzania sygnału w czasie rzeczywistym Algorytmy zmiany czasu trwania
Lokalizacja Oprogramowania
mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji
Opisy efektów kształcenia dla modułu
Karta modułu - Technologia mowy 1 / 5 Nazwa modułu: Technologia mowy Rocznik: 2012/2013 Kod: RIA-1-504-s Punkty ECTS: 7 Wydział: Inżynierii Mechanicznej i Robotyki Poziom studiów: Studia I stopnia Specjalność:
Hybrydowa analiza transformat w rozpoznawaniu wysokości dźwięków w polifonicznych nagraniach instrumentów muzycznych
Wydział Fizyki Technicznej, Informatyki i Matematyki Stosowanej Politechnika Łódzka Streszczenie rozprawy doktorskiej Hybrydowa analiza transformat w rozpoznawaniu wysokości dźwięków w polifonicznych nagraniach
Układy i Systemy Elektromedyczne
UiSE - laboratorium Układy i Systemy Elektromedyczne Laboratorium 1 Stetoskop elektroniczny parametry sygnałów rejestrowanych. Opracował: dr inż. Jakub Żmigrodzki Zakład Inżynierii Biomedycznej, Instytut
Przygotowanie bazy difonów języka polskiego dla realizacji syntezy mowy w systemie MBROLA
Przygotowanie bazy difonów języka polskiego dla realizacji syntezy mowy w systemie MBROLA 1 Przygotowanie bazy difonów języka polskiego dla realizacji syntezy mowy w systemie MBROLA MBROLA.Creating the
Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy
Systemy i Sieci Telekomunikacyjne laboratorium Modulacja amplitudy 1. Cel ćwiczenia: Celem części podstawowej ćwiczenia jest zbudowanie w środowisku GnuRadio kompletnego, funkcjonalnego odbiornika AM.
Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy
Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy Wykorzystane materiały: Zadanie W dalszej części prezentacji będzie omawiane zagadnienie rozpoznawania twarzy Problem ten można jednak uogólnić
Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski
Podstawy automatycznego rozpoznawania mowy Autor: mgr inż. Piotr Bratoszewski Rys historyczny 1930-1950 pierwsze systemy Automatycznego rozpoznawania mowy (ang. Automatic Speech Recognition ASR), metody
Rozpoznawanie mowy dla języków semickich. HMM - HTK, CMU SPHINX-4, Simon
Rozpoznawanie mowy dla języków semickich HMM - HTK, CMU SPHINX-4, Simon Charakterystyka języków semickich Przykłady: arabski, hebrajski, amharski, tigrinia, maltański (280 mln użytkowników). Budowa spółgłoskowo
Przekształcenia widmowe Transformata Fouriera. Adam Wojciechowski
Przekształcenia widmowe Transformata Fouriera Adam Wojciechowski Przekształcenia widmowe Odmiana przekształceń kontekstowych, w których kontekstem jest w zasadzie cały obraz. Za pomocą transformaty Fouriera
przetworzonego sygnału
Synteza falek ortogonalnych na podstawie oceny przetworzonego sygnału Instytut Informatyki Politechnika Łódzka 28 lutego 2012 Plan prezentacji 1 Sformułowanie problemu 2 3 4 Historia przekształcenia falkowego
Komputerowe przetwarzanie sygnału mowy
Komputerowe przetwarzanie sygnału mowy Prof dr hab inż Bożena Kostek Katedra Systemów Multimedialnych Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska Komputerowe przetwarzanie sygnału
Transpozer czasowy mowy
Transpozer czasowy mowy Politechnika Gdańska ul. Narutowicza 11/12 80-233 Gdańsk www.pg.gda.pl 1. Wprowadzenie Transpozer czasowy mowy został opracowany w celu wspierania rozumienia mowy przez osoby z
Politechnika Łódzka. Instytut Systemów Inżynierii Elektrycznej
Politechnika Łódzka Instytut Systemów Inżynierii Elektrycznej Laboratorium komputerowych systemów pomiarowych Ćwiczenie 3 Analiza częstotliwościowa sygnałów dyskretnych 1. Opis stanowiska Ćwiczenie jest
OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA. CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS PRZEDMIOTU
Załącznik Nr 1.11 pieczątka jednostki organizacyjnej OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS PRZEDMIOTU Nazwa
Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik
Wykład VI Wydział Matematyki Stosowanej Politechniki Śląskiej Gliwice, 2014 c Copyright 2014 Janusz Słupik Kompresja dźwięku Kompresja dźwięku bezstratna podczas odtwarzania otrzymujemy wierne odwzorowanie
OPIS MODUŁU (PRZEDMIOTU), PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A OPIS MODUŁU (PRZEDMIOTU) studia pierwszego stopnia
Załącznik Nr 1.11 pieczątka jednostki organizacyjnej OPIS MODUŁU (PRZEDMIOTU), PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A OPIS MODUŁU (PRZEDMIOTU) Nazwa modułu (przedmiotu)
dr inż. Artur Janicki pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW
dr inż. Artur Janicki email: A.Janicki@tele.pw.edu.pl, pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW Kodowanie źródła podstawowe informacje Sygnał mowy informacje ogólne, jak
8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)
8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT) Ćwiczenie polega na wykonaniu analizy widmowej zadanych sygnałów metodą FFT, a następnie określeniu amplitud i częstotliwości głównych składowych
Transformata Fouriera
Transformata Fouriera Program wykładu 1. Wprowadzenie teoretyczne 2. Algorytm FFT 3. Zastosowanie analizy Fouriera 4. Przykłady programów Wprowadzenie teoretyczne Zespolona transformata Fouriera Jeżeli
Ćwiczenie 6. Transformacje skali szarości obrazów
Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L Ćwiczenie 6. Transformacje skali szarości obrazów 1. Obraz cyfrowy Obraz w postaci cyfrowej
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego
Inteligencja obliczeniowa
Ćwiczenie nr 3 Zbiory rozmyte logika rozmyta Sterowniki wielowejściowe i wielowyjściowe, relacje rozmyte, sposoby zapisu reguł, aproksymacja funkcji przy użyciu reguł rozmytych, charakterystyki przejściowe
Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.
Katedra Mechaniki i Podstaw Konstrukcji Maszyn POLITECHNIKA OPOLSKA Komputerowe wspomaganie eksperymentu Zjawisko aliasingu.. Przecieki widma - okna czasowe. dr inż. Roland PAWLICZEK Zjawisko aliasingu
Rozdział 1 PROGRAMOWANIE LINIOWE
Wprowadzenie do badań operacyjnych z komputerem Opisy programów, ćwiczenia komputerowe i zadania. T. Trzaskalik (red.) Rozdział 1 PROGRAMOWANIE LINIOWE 1.2 Ćwiczenia komputerowe Ćwiczenie 1.1 Wykorzystując
Sposoby opisu i modelowania zakłóceń kanałowych
INSTYTUT TELEKOMUNIKACJI ZAKŁAD RADIOKOMUNIKACJI Instrukcja laboratoryjna z przedmiotu Podstawy Telekomunikacji Sposoby opisu i modelowania zakłóceń kanałowych Warszawa 2010r. 1. Cel ćwiczeń: Celem ćwiczeń
WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI
WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI Stefan WÓJTOWICZ, Katarzyna BIERNAT ZAKŁAD METROLOGII I BADAŃ NIENISZCZĄCYCH INSTYTUT ELEKTROTECHNIKI ul. Pożaryskiego 8, 04-703 Warszawa tel. (0)
Programowanie komputerów
Programowanie komputerów Wykład 1-2. Podstawowe pojęcia Plan wykładu Omówienie programu wykładów, laboratoriów oraz egzaminu Etapy rozwiązywania problemów dr Helena Dudycz Katedra Technologii Informacyjnych
Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech
Slajd 1 Analiza i synteza mowy - wprowadzenie Spektrogram wyrażenia: computer speech Slide 1 Slajd 2 Analiza i synteza mowy - wprowadzenie Slide 2 Slajd 3 Analiza i synteza mowy - wprowadzenie Slide 3
PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM
Mostefa Mohamed-Seghir Akademia Morska w Gdyni PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM W artykule przedstawiono propozycję zastosowania programowania dynamicznego do rozwiązywania
Cyfrowe Przetwarzanie Obrazów i Sygnałów
Cyfrowe Przetwarzanie Obrazów i Sygnałów Laboratorium EX Lokalne transformacje obrazów Joanna Ratajczak, Wrocław, 28 Cel i zakres ćwiczenia Celem ćwiczenia jest zapoznanie się z własnościami lokalnych
III. Przebieg ćwiczenia. 1. Generowanie i wizualizacja przebiegów oraz wyznaczanie ich podstawowych parametrów
POLITECHNIKA RZESZOWSKA KATEDRA METROLOGII I SYSTEMÓW DIAGNOSTYCZNYCH LABORATORIUM GRAFICZNE ŚRODOWISKA PROGRAMOWANIA S.P. WPROWADZENIE DO UŻYTKOWANIA ŚRODOWISKA VEE (1) I. Cel ćwiczenia Celem ćwiczenia
FONETYKA. Co to jest fonetyka? Język polski Klasa III Gim
FONETYKA Język polski Klasa III Gim Co to jest fonetyka? Fonetyka Fonetyka (z gr. phonetikos) to dział nauki o języku badający i opisujący cechy dźwięków mowy, czyli głosek. Zajmuje się ona procesami powstawania
Programowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej.
Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej. Dział Zagadnienia Wymagania podstawowe Wymagania ponadpodstawowe Arkusz kalkulacyjny (Microsoft Excel i OpenOffice) Uruchomienie
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
3. Macierze i Układy Równań Liniowych
3. Macierze i Układy Równań Liniowych Rozważamy równanie macierzowe z końcówki ostatniego wykładu ( ) 3 1 X = 4 1 ( ) 2 5 Podstawiając X = ( ) x y i wymnażając, otrzymujemy układ 2 równań liniowych 3x
Technologie informacyjne - wykład 12 -
Zakład Fizyki Budowli i Komputerowych Metod Projektowania Instytut Budownictwa Wydział Budownictwa Lądowego i Wodnego Politechnika Wrocławska Technologie informacyjne - wykład 12 - Prowadzący: Dmochowski
Kwantowanie sygnałów analogowych na przykładzie sygnału mowy
Kwantowanie sygnałów analogowych na przykładzie sygnału mowy Treść wykładu: Sygnał mowy i jego właściwości Kwantowanie skalarne: kwantyzator równomierny, nierównomierny, adaptacyjny Zastosowanie w koderze
Interpolacja, aproksymacja całkowanie. Interpolacja Krzywa przechodzi przez punkty kontrolne
Interpolacja, aproksymacja całkowanie Interpolacja Krzywa przechodzi przez punkty kontrolne Aproksymacja Punkty kontrolne jedynie sterują kształtem krzywej INTERPOLACJA Zagadnienie interpolacji można sformułować
OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI
Autoreferat do rozprawy doktorskiej OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Michał Mazur Gliwice 2016 1 2 Montaż samochodów na linii w
58. Otwarte Seminarium z Akustyki, OSA '11, Gdańsk-Jurata, September 2011
109 ROZPOZNAWANIE MÓWCY W SYSTEMACH Z KODOWANIEM MOWY STEFAN BRACHMAŃSKI Politechnika Wrocławska, Instytut Telekomunikacji, Teleinformatyki i Akustyki Wybrzeże Wyspiańskiego 27, 50-370 Wrocław Stefan.brachmanski@pwr.wroc.pl
Rys Wykres kosztów skrócenia pojedynczej czynności. k 2. Δk 2. k 1 pp. Δk 1 T M T B T A
Ostatnim elementem przykładu jest określenie związku pomiędzy czasem trwania robót na planowanym obiekcie a kosztem jego wykonania. Związek ten określa wzrost kosztów wykonania realizacji całego przedsięwzięcia
5. Rozwiązywanie układów równań liniowych
5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a
Sposoby prezentacji problemów w statystyce
S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki
Widmo akustyczne radia DAB i FM, porównanie okien czasowych Leszek Gorzelnik
Widmo akustycznych sygnałów dla radia DAB i FM Pomiary widma z wykorzystaniem szybkiej transformacji Fouriera FFT sygnału mierzonego w dziedzinie czasu wykonywane są w skończonym czasie. Inaczej mówiąc
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 6 Model matematyczny elementu naprawialnego Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia:
PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09
RZECZPOSPOLITA POLSKA (12) OPIS PATENTOWY (19) PL (11) 201536 (13) B1 (21) Numer zgłoszenia: 358531 (51) Int.Cl. G10L 21/02 (2006.01) H03G 3/00 (2006.01) Urząd Patentowy Rzeczypospolitej Polskiej (22)
ALGORYTM PROJEKTOWANIA ROZMYTYCH SYSTEMÓW EKSPERCKICH TYPU MAMDANI ZADEH OCENIAJĄCYCH EFEKTYWNOŚĆ WYKONANIA ZADANIA BOJOWEGO
Szybkobieżne Pojazdy Gąsienicowe (2) Nr 2, 24 Mirosław ADAMSKI Norbert GRZESIK ALGORYTM PROJEKTOWANIA CH SYSTEMÓW EKSPERCKICH TYPU MAMDANI ZADEH OCENIAJĄCYCH EFEKTYWNOŚĆ WYKONANIA ZADANIA BOJOWEGO. WSTĘP
Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej
Politechnika Białostocka Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej Instrukcja do pracowni specjalistycznej Temat ćwiczenia: Badanie własności koderów PCM zastosowanych do sygnałów
Ćwiczenia nr 7. TEMATYKA: Krzywe Bézier a
TEMATYKA: Krzywe Bézier a Ćwiczenia nr 7 DEFINICJE: Interpolacja: przybliżanie funkcji za pomocą innej funkcji, zwykle wielomianu, tak aby były sobie równe w zadanych punktach. Poniżej przykład interpolacji
Sztuczna Inteligencja Tematy projektów Sieci Neuronowe
PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia
Automatyczna klasyfikacja zespołów QRS
Przetwarzanie sygnałów w systemach diagnostycznych Informatyka Stosowana V Automatyczna klasyfikacja zespołów QRS Anna Mleko Tomasz Kotliński AGH EAIiE 9 . Opis zadania Tematem projektu było zaprojektowanie
Jeśli X jest przestrzenią o nieskończonej liczbie elementów:
Logika rozmyta 2 Zbiór rozmyty może być formalnie zapisany na dwa sposoby w zależności od tego z jakim typem przestrzeni elementów mamy do czynienia: Jeśli X jest przestrzenią o skończonej liczbie elementów
IMPLEMENTATION OF THE SPECTRUM ANALYZER ON MICROCONTROLLER WITH ARM7 CORE IMPLEMENTACJA ANALIZATORA WIDMA NA MIKROKONTROLERZE Z RDZENIEM ARM7
Łukasz Deńca V rok Koło Techniki Cyfrowej dr inż. Wojciech Mysiński opiekun naukowy IMPLEMENTATION OF THE SPECTRUM ANALYZER ON MICROCONTROLLER WITH ARM7 CORE IMPLEMENTACJA ANALIZATORA WIDMA NA MIKROKONTROLERZE
KARTA PRZEDMIOTU. 11. ZAŁOŻENIA I CELE PRZEDMIOTU: 1. Dostarczenie studentom dogłębnej wiedzy na temat angielskiego systemu fonologicznego.
KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Gramatyka opisowa 2. KIERUNEK: filologia, specjalność filologia angielska 3. POZIOM STUDIÓW: studia pierwszego stopnia 4. ROK/ SEMESTR STUDIÓW: rok I, semestr 2 5.
Przekształcenia sygnałów losowych w układach
INSTYTUT TELEKOMUNIKACJI ZAKŁAD RADIOKOMUNIKACJI Instrukcja laboratoryjna z przedmiotu Sygnały i kodowanie Przekształcenia sygnałów losowych w układach Warszawa 010r. 1. Cel ćwiczenia: Ocena wpływu charakterystyk
Algorytmy detekcji częstotliwości podstawowej
Algorytmy detekcji częstotliwości podstawowej Plan Definicja częstotliwości podstawowej Wybór ramki sygnału do analizy Błędy oktawowe i dokładnej estymacji Metody detekcji częstotliwości podstawowej czasowe
Metody statystyczne kontroli jakości i niezawodności Lekcja II: Karty kontrolne.
Metody statystyczne kontroli jakości i niezawodności Lekcja II: Karty kontrolne. Wydział Matematyki Politechniki Wrocławskiej Karty kontroli jakości: przypomnienie Załóżmy, że chcemy mierzyć pewną charakterystykę.
Implementacja filtru Canny ego
ANALIZA I PRZETWARZANIE OBRAZÓW Implementacja filtru Canny ego Autor: Katarzyna Piotrowicz Kraków,2015-06-11 Spis treści 1. Wstęp... 1 2. Implementacja... 2 3. Przykłady... 3 Porównanie wykrytych krawędzi
Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j
Kompresja transformacyjna. Opis standardu JPEG. Algorytm JPEG powstał w wyniku prac prowadzonych przez grupę ekspertów (ang. Joint Photographic Expert Group). Prace te zakończyły się w 1991 roku, kiedy
Algorytm. Krótka historia algorytmów
Algorytm znaczenie cybernetyczne Jest to dokładny przepis wykonania w określonym porządku skończonej liczby operacji, pozwalający na rozwiązanie zbliżonych do siebie klas problemów. znaczenie matematyczne
Metodyka i system dopasowania protez słuchu w oparciu o badanie percepcji sygnału mowy w szumie
Metodyka i system dopasowania protez w oparciu o badanie percepcji sygnału mowy w szumie opracowanie dr inż. Piotr Suchomski Koncepcja metody korekcji ubytku Dopasowanie szerokiej dynamiki odbieranego
EKSTRAKCJA CECH TWARZY ZA POMOCĄ TRANSFORMATY FALKOWEJ
Janusz Bobulski Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska ul. Dąbrowskiego 73 42-200 Częstochowa januszb@icis.pcz.pl EKSTRAKCJA CECH TWARZY ZA POMOCĄ TRANSFORMATY FALKOWEJ
SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD
Dr inż. Jacek WARCHULSKI Dr inż. Marcin WARCHULSKI Mgr inż. Witold BUŻANTOWICZ Wojskowa Akademia Techniczna SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD Streszczenie: W referacie przedstawiono możliwości
Sprawozdanie z laboratoriów HTK!
Inżynieria akustyczna - Technologia mowy 2013 Błażej Chwiećko Sprawozdanie z laboratoriów HTK! 1. Przeznaczenie tworzonego systemu! Celem było stworzenie systemu służącego do sterowania samochodem. Zaimplementowane
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Zastosowanie kompresji w kryptografii Piotr Piotrowski
Zastosowanie kompresji w kryptografii Piotr Piotrowski 1 Plan prezentacji I. Wstęp II. Kryteria oceny algorytmów III. Główne klasy algorytmów IV. Przykłady algorytmów selektywnego szyfrowania V. Podsumowanie
1.Klasyfikacja głosek języka polskiego. 2.Układ narządów artykulacyjnych przy wymowie wybranych głosek.
ZAPRASZAM ZAPRASZAM 1.Klasyfikacja głosek języka polskiego. 2.Układ narządów artykulacyjnych przy wymowie wybranych głosek. 1. Głoski języka polskiego możemy podzielić na dwie podstawowe grupy: - Samogłoski