Algorytmy automatyzacji tworzenia baz jednostek akustycznych w syntezie mowy polskiej
|
|
- Jakub Czyż
- 7 lat temu
- Przeglądów:
Transkrypt
1 Streszczenie rozprawy doktorskiej Algorytmy automatyzacji tworzenia baz jednostek akustycznych w syntezie mowy polskiej mgr inż. Janusz Rafałko Uniwersytet w Białymstoku Wydział Matematyki i Informatyki Promotor: dr hab. inż. Władysław Homenda, prof. PW
2 1. Wstęp W ciągu ostatnich lat nastąpił szybki wzrost zainteresowania metodami i algorytmami obróbki sygnałów mowny. Poziom rozwoju techniki obliczeniowej na obecnym etapie pozwala na obróbkę sygnałów mowny w czasie rzeczywistym, co doprowadziło do szerokiego rozpowszechnienia się systemów używających technologii mowy. Wyprowadzenie informacji z komputera poprzez mowę to jedna z części interfejsu mowy, bez którego ustna rozmowa z komputerem nie może się odbyć. Faktycznie, dzięki syntezatorom mowy otrzymujemy jeszcze jeden kanał przekazywania danych od komputera do człowieka, analogiczny do tego, który mamy dzięki monitorowi albo drukarce. Z punktu widzenia użytkownika najbardziej rozsądną decyzją w przypadku problemu syntezy mowy jest włączanie funkcji mowy w skład systemu operacyjnego. Komputery byłyby w stanie udźwiękawiać nawigację menu, komentować głosem wiadomości ekranowe, dyktować dane itd. Wyżej wymienione funkcje są bardzo potrzebne dla osób niewidzących, lub mających problemy ze wzrokiem. Należy zaznaczyć, że użytkownik powinien mieć także wystarczające możliwości regulacji głosu komputera (indywidualności dźwięku, tembru, tempa, głośności). Pomimo szybkiego rozwoju badań w dziedzinie syntezy mowy, do niedawna podstawowym kryterium jakości pozostawał stopień czytelności syntetyzowanej mowy. Niedostateczna uwaga, poświęcana naturalności syntetyzowanej mowy, stawiała barierę dla szerokiego zastosowania systemów syntezy mowy w interfejsach systemów komputerowych. Jedną z podstawowych decyzji związanych z podwyższeniem naturalności syntetyzowanej mowy jest opracowanie metod i środków analizy personalnych właściwości głosu człowieka, jego dykcji i wyrazistości mowy i późniejszą realizację tych charakterystyk w systemach syntezy mowy. Pojawia się tu nie tylko problem podwyższenia naturalności syntetyzowanej mowy, ale także problem odtworzenia dowolnego tekstu ze sposobem czytania konkretnego człowieka i jego głosem. W tym przypadku chodzi o to, aby na podstawie próbki konkretnego głosu, np. nagrania, stworzyć syntezator mówiący głosem właśnie tego człowieka. W technologii mowy celem jest stworzenie systemu syntezy mowy, z jak najlepszym przybliżeniem uzyskanego dźwięku do głosu i sposobu mówienia konkretnego człowieka. Pojawia się przy tym zadanie maksymalnie pełnego zachowania personalnych akustycznych właściwości głosu, fonetycznych właściwości wymowy i akcentu, a także prozodycznej indywidualności mowy (melodyka, rytmika, dynamika). Aby osiągnąć to zadanie, należy stworzyć cały system syntezy mowy. W ramach tego zadania powstała ta praca, która przedstawia algorytmy pozwalające otrzymać bazy głosów konkretnych spikerów (bazy 2
3 jednostek akustycznych), w sposób automatyczny, wykorzystywane właśnie w syntezie mowy polskiej. Jedną z metod syntezy mowy na podstawie tekstu TTS (ang. Text to Speach), która umożliwia odtworzenie personalnych charakterystyk mowy człowieka jest metoda konkatenacyjna posługująca się małymi naturalnymi jednostkami akustycznymi, z których jest syntezowana ludzka mowa. Mogą to być np. alofony, difony, czy sylaby mowy naturalnej. Taki system syntezuje mowę sklejając jednostki akustyczne w oparciu o odpowiednie reguły fonetyczne. Indywidualne cechy głosu człowieka nie są jednak zawarte w tych regułach, a w samych naturalnych jednostkach akustycznych oraz w indywidualnych prozodycznych charakterystykach głosu, takich jak intonacja. Aby więc zsyntetyzować głos konkretnego człowieka, należy dla takiego głosu stworzyć odpowiednią bazę jednostek akustycznych. Teza pracy Możliwe jest opracowanie odpowiednich algorytmów i zaimplementowanie systemu umożliwiającego tworzenie baz jednostek akustycznych przeznaczonych do syntezy konkatenacyjnej w sposób automatyczny, tak aby bazy te były pod względem jakości syntezowanej z nich mowy porównywalne z bazami tworzonymi w sposób ręczny. Teza została sformułowana i zweryfikowana w oparciu o następujące punkty: Znane systemy syntezy mowy korzystają z baz przygotowywanych ręcznie. Zagadnienie automatyzacji tworzenia gotowych baz jednostek akustycznych dla syntezy mowy zgodnie z moją wiedzą jest zagadnieniem oryginalnym. Nie znam prac na ten temat. Potwierdzają to autorytety, przed którymi prezentowałem tezy pracy. Opracowałem i zaimplementowałem odpowiednie algorytmy tworzenia baz w sposób automatyczny. Przygotowałem wzorcową bazę ręcznie i na jej podstawie za pomocą opracowanych algorytmów automatycznie zostały stworzone bazy prototypowe. Stworzone prototypowe bazy zostały poddane ocenie. Cel pracy Celem tej pracy jest opracowanie zasobów i algorytmów systemu komputerowego pozwalającego na zautomatyzowanie procesu segmentacji i wycinania jednostek akustycznych z naturalnego sygnału mowy i tworzenia na ich podstawie baz jednostek akustycznych mowy polskiej poszczególnych spikerów. 3
4 Potrzeba opracowania takiego systemu wynika z kilku czynników. Tworzenie takich baz w sposób ręczny, jest bardzo czasochłonne. Utworzenie jednej bazy zabiera kilka miesięcy pracy i wymaga specjalistycznej wiedzy. System automatyzacji znacznie przyśpiesza tę pracę. System taki tworzy bazy na podstawie próbki nagrań naturalnego, indywidualnego głosu lektora, co pozwala na wykorzystanie takiego głosu w syntezie przez ludzi, którzy nie posiadają specjalistycznej wiedzy. Możliwe jest tworzenie bazy dla syntezy mowy głosu dowolnej osoby, dla której dostępne są nagrania mowy. Zadanie to sformułowane jest przy założeniu, że system syntezy mowy opiera się o metodę konkatenacyjną, natomiast system oznaczania granic alofonów, segmentacji i ich wycinania zbudowany jest w oparciu o algorytm nieliniowej transformaty czasowej DTW (ang. Dynamic Time Warping). Postawiony problem badawczy zawiera następujące zagadnienia: Czy możliwe jest opracowanie algorytmu, który w sposób automatyczny dokona segmentacji naturalnej mowy polskiej na podstawowe jednostki akustyczne alofony, tak aby uzyskane alofony były dobrej jakości do wykorzystania w syntezie mowy? Jakie czynniki wpływają na dokładność segmentacji? Jakie algorytmy zastosować do poprawy jakości uzyskanej bazy alofonowej? Istota opracowywanej pracy polega na stworzeniu kompleksu metod, algorytmów i środków w celu rozwiązania konkretnych zadań w kolejnych etapach, które w efekcie odpowiedzą na tak postawione pytania. Tak określony problem badawczy został rozwiązany poprzez: Opracowanie metodyki, na bazie której przygotowane zostały korpusy tekstowe bazy alofonowej. Na bazie korpusów tekstowych uzyskane zostały korpusy mowy tzn. nagranie tekstów i wyrazów przez kilku spikerów w odpowiednich warunkach studyjnych, oraz odpowiednia wstępna obróbka tych nagrań. Opracowanie i utworzenie bazy jednostek akustycznych w sposób ręczny, aby mieć materiał do dalszej pracy, badań i jako baza wzorcowa. 4
5 Analizę połączeń międzyalofonowych w mowie polskiej w odniesieniu do grup alofonowych i ich wpływ na sposób wyznaczania granic alofonów. Opracowanie algorytmów syntezy mowy polskiej na podstawie tekstu, niezbędnych w systemie wycinania jednostek akustycznych, tj. algorytmów przekształcenia litera-fonem oraz fonem-alofon. Opracowanie metod i algorytmów automatycznej segmentacji i oznaczania korpusów mowy na alofony w oparciu o algorytm DTW. Utworzenie automatycznego systemu segmentacji naturalnej mowy polskiej i tworzenia baz alofonowych. Ogólny schemat blokowy opracowywanego systemu automatyzacji tworzenia baz alofonowych przedstawiony jest na rys. 1. Wzorcowa baza alofonowa Zapis ortograficzny Synteza TTS Nagrane słowo Oznaczanie granic alofonów Wycinanie alofonów m. in.: Rysunek 1. Ogólny schemat blokowy systemu automatyzacji tworzenia baz alofonowych. Zagadnieniami związanymi z syntezą mowy zajmują się różne ośrodki badawcze w Polsce, Pracownia Systemów Informacyjnych na Wydziale Matematyki i Informatyki Uniwersytetu im. Adama Mickiewicza w Poznaniu [22] zajmuje się aspektami automatycznego przetwarzania języka naturalnego oraz tłumaczenia automatycznego. Zakład Fonetyki Instytutu Językoznawstwa Uniwersytetu im. Adama Mickiewicza w Poznaniu [24] zajmuje się badaniami nad wykorzystaniem difonów oraz trifonów w konkatenacyjnej metodzie syntezy mowy. Nowa baza alofonowa 5
6 Katedra Systemów Multimedialnych na Wydziale Elektroniki, Telekomunikacji i Informatyki Politechniki Gdańskiej [11] opracowano syntezator mowy oparty o difony w konkatenacyjnej metodzie syntezy mowy. Zespół Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki Polskiej Akademii Nauk [23] zajmuje się aspektami automatycznego przetwarzania języka naturalnego, co w pewnym zakresie jest zbliżone z tematem pracy. Struktura autoreferatu: Rozdział 2 opisuje konkatenacyjną syntezę mowy, którą w części wykorzystałem w swoim systemie. Rozdział 3 opisuje bazę jednostek akustycznych, w moim systemie bazę alofonową. W rozdziale 4 przedstawiam technologię automatycznej segmentacji i tworzenia baz jednostek akustycznych opracowaną w ramach niniejszej rozprawy. W podsumowaniu natomiast wspominam o zagadnieniu, które pozostało jeszcze do zrealizowania. 2. Konkatenacyjna synteza mowy Proces mówienia i związany z nim proces słyszenia są procesami bardzo skomplikowanymi [3]. Mówienie jest skomplikowane zawsze, nawet gdy wymawiamy wyrazy, czy dźwięki nie mające sensu np. at. Mowa ustna ma dwoistą naturę: semantyczną i akustyczną. Z jednej strony, jest ona rezultatem intelektualnej działalności mówiącego, używającego języka do kontaktów z innymi członkami danej językowej społeczności, z innej strony jest to fala dźwiękowa, nadawana od mówiącego do słuchającego. Właściwością mowy jest jej ogromna różnorodność. Różne podejścia do syntezy mowy na podstawie tekstu są dosyć szczegółowo opisane w [4], [20]. Ogólna struktura syntezera mowy na podstawie tekstu przedstawiona jest na rysunku 2. W bloku analizy i obróbki tekstu dokonuje się konwersji prozodycznych i fonetycznych, w wyniku których generowany jest ciąg elementów fonetycznych z zaznaczonymi parametrami prozodycznymi: częstotliwością tonu podstawowego F 0, amplitudą A i czasem trwania dźwięków T. Otrzymany ciąg podawany jest na wejście bloku obróbki sygnału, który na jego podstawie generuje sygnał mowy, o zadanych charakterystykach fonetycznych i prozodycznych. 6
7 Tekst Syntezator mowy na podstawie tekstu TTS Analiza i obróbka tekstu Obróbka prozodyczna Obróbka fonetyczna Obróbka sygnałów Obróbka akustyczna i generacja sygnału mowy Mowa Model prozodyczny: reguły i dane Model fonetyczny: reguły i dane Model akustyczny: modele matematyczne, algorytmy, reguły i dane Rysunek 2. Ogólny struktura syntezera mowy. W opracowanym przeze mnie systemie wycinania jednostek akustycznych, niezbędne było wykorzystanie syntezatora mowy, jednak nie w jego pełnej strukturze. Niezbędna okazała się obróbka fonetyczna sygnału, oraz blok obróbki sygnału, gdzie między innymi zmienia się częstotliwość tonu podstawowego. Właściwości różnych metod syntezy mowy na podstawie tekstu, pozwalają stwierdzić, że najbardziej odpowiednimi metodami do przekazania indywidualnych charakterystyk mowy są metody kompilacyjne i kadłubowe. Z tych dwóch lepszą metodą wydaje się kompilacyjna metoda syntezy, która w porównaniu z kadłubową ma takie zalety jak: Znacznie mniejsza objętość niezbędnego korpusu mowy. Znacznie mniejsza objętość uzyskanej bazy segmentów mowy naturalnej. Podstawową cechą konkatenacyjnego podejścia jest wykorzystanie w syntezie mowy elementarnych kawałków mowy naturalnej [17]. W ten sposób, wyklucza się konieczność modelowania złożonych procesów akustyki syntetyzowanej mowy. W syntezatorze, skompilowany z segmentów naturalnej mowy sygnał podlega dodatkowej modyfikacji, w procesie której zmieniają się parametry prozodyczne sygnału. W pracy [19] przedstawione są podstawowe założenia konkatenacyjnego systemu TTS dla języka polskiego opartego o alofony w kontekście syntezy wielojęzykowej. Naturalnymi elementami, z których syntetyzowana jest mowa mogą być wspomniane alofony, mogą to być także difony, multifony jak i sylaby. Ciąg elementów fonetycznych podawany jest na blok obróbki sygnału, który wybiera z bazy danych segmentów naturalnej mowy odpowiednie realizacje dźwiękowe elementów i łączy je w ciągły sygnał mowy. Utworzony sygnał jest podawany na blok obróbki akustycznej. Blok ten wykonuje odpowiednie modyfikacje parametrów prozodycznych sygnału mowy, czyli częstotliwości tonu podstawowego, amplitudy, 7
8 oraz czasu trwania poszczególnych segmentów fali dźwiękowej zgodnie z wejściowymi oznaczeniami prozodycznymi parametrów. 3. Baza jednostek akustycznych W procesie syntezy mowy metodą kompilacyjną na otrzymanie indywidualnych charakterystyk mowy bardzo duży wpływ ma typ bazowych jednostek mowy. Zależy od tego formowanie korpusów tekstowych i głosowych, segmentacja i oznaczanie sygnału oraz stopień odwzorowania indywidualnych charakterystyk mowy w spersonalizowanej bazie danych. Za podstawę klasyfikacji bazowych jednostek mowy służą takie pojęcia jak głoska, fonem i alofon. Głoską nazywamy najmniejszy, niepodzielny artykulacyjnie i słuchowo element mowy ludzkiej, czyli pojedynczy, rzeczywisty tj. wymówiony i słyszalny dźwięk języka. Jest ona praktyczną realizacją fonemu, czyli najmniejszego elementu płaszczyzny fonologicznej systemu językowego. Porównując, fonem to twór abstrakcyjny w odróżnieniu od głoski, która jest dźwiękiem rzeczywistym, poznawalnym doświadczalnie. Fonem jest więc niewielką zmysłowo-realizacyjną jednostką mowy [13], przy czym każdy fonem jednoznacznie charakteryzuje się sposobem i miejscem powstawania. W trakcie mówienia akustyczno-artykulacyjne charakterystyki fonemów zmieniają się, co prowadzi do powstawania wariantów fonemów zwanych alofonami. Niniejsza praca dotyczy właśnie systemu opartego o alofony, ale sama koncepcja systemu może dotyczyć również innych jednostek akustycznych. Rozróżnia się dwa podstawowe typy alofonów: kombinacyjny i pozycyjny. Alofony kombinacyjne pojawiają się na skutek zjawisk koartykulacji i asymilacji, prowadzących do zmiany charakterystyk akustycznych pod wpływem poprzedzających i następujących fonemów. Na rys. 3 oraz rys. 4 przedstawiono przykłady dwóch różnych alofonów fonemu a. Na pierwszy, a0011 ma wpływ poprzedzający go wargowy fonem b oraz występujący zanim twardy fonem r. Drugi, a0023 poprzedzony jest natomiast fonemem rz należącym do grupy twardych przednich, a po nim występuje ni fonem miękki. Rysunek 3. Przykład alofonu kombinacyjnego a
9 Rysunek 4. Przykład alofonu kombinacyjnego a0023. Alofony pozycyjne występują na skutek zjawisk redukcji, prowadzących do zmiany czasu trwania i uproszczenia charakterystyk akustycznych fonemów w zależności od położenia w stosunku do akcentu. Przykładowe alofony pozycyjne pokazane są na rys. 5, oraz rys. 6. Oba ze względu na kombinację fonemów poprzedzających i następujących należą do tej samej grupy, czyli poprzedzone są fonemami twardymi i po nich też występują fonemy twarde, natomiast pierwszy, w słowie bogaty jest fonemem akcentowanym, drugi w słowie kalafior występuje przed sylabą akcentowaną. Zalety wyboru alofonów w charakterze jednostek bazowych [9], [15], polegają na tym, że po pierwsze, jednostki mowy zachowują efekty współoddziaływania dźwięków, po drugie, ilość jednostek bazowych jest stosunkowo nieduża i wynosi w różnych systemach od 400 do Trudnością takiego podejścia jest potrzeba precyzyjnego oznaczenia alofonów przy segmentacji naturalnego sygnału mowy. Rysunek 5. Przykład alofonu pozycyjnego a0031. Rysunek 6. Przykład alofonu pozycyjnego a
10 W przypadku mojej pracy jednostkami akustycznymi wykorzystywanymi w syntezie mowy są właśnie alofony. Do przygotowania wzorcowej bazy alofonów przeprowadzone zostały nagrania w studio nagraniowym. Został nagrany korpus tekstowy, czyli pojedyncze wyrazy oraz teksty tematyczne. Następnie powycinane z nich alofony. Ponieważ nagrań było bardzo dużo i zważywszy na potrzebę bardzo dobrej jakości alofonów, nagrania były powtarzane dla tych wyrazów, dla których wycięte alofony nie były zadowalającej jakości. Obecnie przygotowane są trzy bazy alofonowe, dwie głosów męskich: moja Janusz, profesjonalny lektor radiowy Tomasz, oraz jedna baza głosu kobiecego Bożena. Wzorcowa baza alofonów przygotowywana była przeze mnie ręcznie, tzn. każdy alofon zastał ręcznie oznaczany, wycięty i zapisany pod odpowiednią nazwą. Podstawową trudnością przy tej operacji jest znalezienie dokładnej, a raczej odpowiedniej, granicy alofonu. Gdy słuchamy jakiejś wypowiedzi, wydaje się, że wyraźnie słyszymy poszczególne głoski, natomiast w wielu przypadkach granice pomiędzy alofonami są płynne trudne do określenia w precyzyjny sposób. W większości przypadków wyznaczenie dokładnej granicy nie jest zabiegiem trudnym [15], gdyż wyraźnie widać gdzie zaczyna a gdzie kończy się dany alofon. Na rys. 7 pokazano przykład, w którym dokładnie widoczna jest granica miedzy alofonem głoski b i a. Jednak są przypadki, w których dokładne wyznaczenie granicy jest dosyć trudne. Związane jest to ze zjawiskami koartykulacji i asymilacji, czyli wpływem pewnych głosek lewego kontekstu na samogłoskę następną. Głoski te powodują, że granica między nimi a samogłoskami jest niewyrazista, rozmyta i trudno jest określić gdzie dokładnie kończy się jeden alofon a zaczyna drugi. Ilustruje to rysunek 8. Granica Rysunek 7. Granica alofonu. 10
11 Koniec fonemu Ł14 Obszar koartykulacji Początek fonemu A0081 Rysunek 8. Rozmyta granica pomiędzy alofonami Ł14 i A0081. Problem ten dotyczy przede wszystkim głosek sonornych, czyli m, n, r, l, ł, j oraz samogłosek. Ich wpływ na głoskę następną, powoduje, że granica pomiędzy jedną a drugą głoska zaciera się. Powstaje przejściowy obszar koartykulacji, w którym słyszymy jednocześnie obie głoski. 4. Technologia automatycznej segmentacji i tworzenia baz jednostek akustycznych Segmentację sygnału mowy na elementy fonetyczne stosuje się w różnych dziedzinach związanych z przetwarzaniem mowy takich jak synteza mowy, w fonetyczno ukierunkowanych systemach rozpoznawania mowy, czy w systemach identyfikacji i weryfikacji spikera. W kontekście syntezy mowy, gdy znana jest kolejność fonemów, zadanie segmentacji sygnału upraszcza się, w wyniku czego dokładność segmentacji może się istotnie polepszyć. Jeśli w syntezie mowy elementy kompilacji zawierają tylko charakterystyki fonetyczno akustyczne, zadanie segmentacji polega właśnie na wycięciu segmentów bazowych z potoku mowy i umieszczeniu ich w bazie danych. W przypadku systemów używających w DB elementów kompilacji zawierających zarówno charakterystyki fonetyczno akustyczne jak i prozodyczne (w takich systemach, zazwyczaj DB zawiera kilka fonetycznie jednakowych segmentów z różnymi charakterystykami prozodycznymi), zadanie polega na segmentacji potoku mowy na bazowe jednostki mowy i dodatkowo obliczeniu dla każdej jednostki parametrów prozodycznych: czasu trwania, energii i częstotliwości tonu podstawowego [10], [14]. W wielu systemach proces segmentacji i oznaczania DB mowy realizuje się ręcznie, eksperymentalnie, z wykorzystaniem półautomatycznych środków przeglądu oscylogramów, spektrogramów i sonogramów sygnału. Ręczna metoda segmentacji i oznaczania wymaga dużo czasu i wysiłków, ale zapewnia dokładne oznaczanie korpusu mowy. Żądanie dokładności oznaczenia zależy od typu bazowych jednostek mowy. I tak, przy wykorzystaniu w charakterze jednostek bazowych difonow albo sylab dopuszcza się pewien błąd oznaczenia, który potem kompensuje 11
12 się w procesie syntezy mowy, podczas gdy przy wykorzystaniu alofonów, żądania co do dokładności oznaczania istotnie rosną. W przypadku automatycznej segmentacji i oznaczania występuje następująca kolejność działań: Parametryczne przedstawienie sygnału mowy. Nauka i regulacja modelu. Segmentacja i oznaczanie. Korekcja rezultatów segmentacji. W zależności od metody segmentacji stosuje się, w szczególności, następujące typy parametrycznego przedstawienia sygnału mowy: współczynniki cepstralne i mel-cepstalne [7], energia sygnału [8], czy współczynniki LPC [6]. Podstawowe podejścia, używane dla automatycznej segmentacji i oznaczania sygnału to: sieci neuronowe, ukryte modele Markowa i metody programowania dynamicznego. Ogólny schemat technologii tworzenia baz jednostek akustycznych przedstawiony jest na rysunku 9. Do podstawowych etapów realizacji tej technologii należą: Wybór i przygotowanie korpusów tekstowych i akustycznych. Ręczna segmentacja sygnału mowy na alofony. Wybór metod i środków automatycznego tworzenia bazy jednostek akustycznych dla syntezy mowy konkretnego spikera. W przygotowanym korpusie tekstowym jest około 1800 wyrazów. Korpus akustyczny, wykorzystywany w tym systemie jest utworzony na podstawie nagrań profesjonalnego spikera i liczy około 1650 wyrazów. Baza alofonów utworzona na jego podstawie liczy ich około 1800 jest to wzorcowa baza alofonów. 12
13 Lista alofonów Wzorcowy korpus tekstowy Nagranie słów korpusu tekstowego w studio nagraniowym Korpus akustyczny Ręczna segmentacja sygnału mowy na alofony Wzorcowa baza alofonowa Korpus tekstowy Synteza TTS Nagranie słów korpusu tekstowego Naturalny sygnał mowy Syntezowany oznaczony sygnał mowy Automatyczna segmentacja i oznaczanie sygnału mowy Automatyczne tworzenie bazy jednostek akustycznych Baza alofonowa Rysunek 9. Schemat technologii tworzenia baz jednostek akustycznych. Aby utworzyć nową bazę alofonową, głosu należącego do jakiegokolwiek innego mówcy, możemy posłużyć się tym samym wzorcowym korpusem tekstowym i na jego podstawie stworzyć nagranie. Jednak taka sytuacja nie zawsze jest osiągalna. Możemy dysponować jedynie wcześniej nagranym sygnałem mowy danego mówcy i nie mieć dostępu do niego samego. Oznacza to konieczność przygotowania korpusów tekstowego i akustycznego na podstawie nagrania, którym się dysponuje. Nie gwarantuje to jednak znalezienia wszystkich alofonów, które są potrzebne w bazie alofonowej. Korpus akustyczny są to nagrane słowa, czyli naturalny sygnał mowy, z którego otrzymywane będą alofony tworzące nową bazę. Natomiast korpus tekstowy, czyli ortograficzny zapis nagranych słów, jest jeszcze dodatkowo wykorzystywany w procesie syntezy TTS. Na wyjściu bloku syntezy otrzymujemy syntezowany oznaczony sygnał mowy. Oznaczony to znaczy, że w sygnale w dziedzinie czasu mamy zaznaczone granice alofonów. Pokazane jest to na rys. 10. Widzimy tutaj zsyntetyzowane słowo standardowych. Słowo to złożone jest z alofonów, których nazwy podane są u góry wykresów. Dodatkowo sygnał syntezowany z przodu i z tyłu ma dodaną ciszę. Wiąże się to z tym, że nagrane słowa korpusu akustycznego nie mają dokładnie zaznaczonych granic początku i końca, tylko granice te są wyznaczone właśnie w obszarach 13
14 ciszy. Sygnał ten zestawiany jest z naturalnym sygnałem mowy. W tym wypadku z naturalnym słowem standardowych z korpusu akustycznego. Synteza TTS 14 Rysunek 10. Syntezowany oznaczony sygnał mowy słowa standardowych. Jednym z elementów systemu automatyzacji wycinania alofonów jest konkatenacyjna synteza TTS. Nie stawia się jej jednak tak dużych wymagań jak w przypadku systemów realizujących syntezę mowy. Ograniczona jest tylko do konkatenacji alofonów na podstawie tekstu w celu uzyskania sygnału wzorcowego. Z bazy wzorcowej wybierane są odpowiednie segmenty mowy naturalnej, w tym przypadku alofony i łączone są one w ciągły sygnał mowy. Przy tym, w syntetyzowanym sygnale zaznaczone są już granice segmentów mowny, czyli alofonów. Powstaje w ten sposób syntezowane słowo, które następnie będzie zestawiane ze słowem naturalnym w procesie programowania dynamicznego wykorzystywanego przez algorytm DTW i na podstawie tego zestawienia w słowie naturalnym oznaczane będą granice alofonów. Schemat blokowy syntezera zastosowanego w moim systemie przedstawiono na rysunku 11. Aby zrealizować konkatenację alofonów na podstawie tekstu, trzeba dokonać kilku przekształceń tego tekstu. W przypadku mojego systemu tekstem tym jest ortograficzny wyraz, który jest nazwą pliku WAV będącego nagranym słowem, np. dziewczyna.wav. W syntezie pomijamy oczywiście rozszerzenie wav. Należy zatem tekst ortograficzny przekształcić na tekst fonemny, a potem na alofonowy. W tekście fonemnym musi być także zaznaczony akcent wyrazowy. Jest to niezbędne, ponieważ w przypadku samogłosek mamy także alofony pozycyjne, które zależą właśnie od akcentu. Otrzymanie tekstu alofonowego oznacza, że mamy nazwy konkretnych alofonów występujących w danym wyrazie i po znalezieniu ich granic oraz wycięciu, możemy je zapisać pod odpowiednimi nazwami alofonów.
15 Baza leksykalna reguł fonetycznych Tekst ortograficzny Przekształcenie Litera Fonem dziewc zyna Baza reguł akcentowych Tekst ortograficzny Baza reguł alofonowych Przekształcenie Fonem Alofon Tekst ortograficzny Ðefčy+na dź03,e1102,f31,cz14, y0021,n33,a2050 Wzorcowa baza alofonów Konkatenacja alofonów Słowo zsyntezowane (plik WAV) Rysunek 11. Schemat syntezy konkatenacyjnej TTS W przypadku mojego systemu pierwszym etapem przekształcania tekstu jest zamiana zapisu ortograficznego na zapis fonetyczny. Oznacza to zamianę tekstu pisanego na taki, jaki wymawiamy. Przekształcenie to odbywa się przy użyciu bazy leksykalnej, czyli odpowiednich reguł fonetycznych [1], [21]. Kolejnym etapem jest przekształcenie zapisu fonetycznego na alofonowy. Dla spółgłosek mamy podział na alofony kombinacyjne, natomiast dla samogłosek mamy zarówno alofony kombinacyjne jak i pozycyjne. Wszystkie algorytmy niezbędne do takiej syntezy TTS zostały oczywiście przeze mnie opracowane i zaimplementowane w systemie. Dynamic Time Warping Automatyczna segmentacja sygnału mowy w moim systemie oparta jest na algorytmie DTW. Dynamiczna transformata czasowa [1], jest algorytmem wykorzystywanym do mierzenia podobieństwa między dwoma sekwencjami sygnałów czasowych o różnej długości. Był intensywnie wykorzystywany do rozpoznawania mowy [12]. Proces optymalizacji korzysta z programowania dynamicznego, o czym świadczy także nazwa algorytmu Dynamic Time Warping. W moim przypadku algorytm DTW nie jest wykorzystywany do rozpoznawania mowy, lecz do znajdowania granic jednostek akustycznych alofonów. 15
16 Algorytm automatycznej segmentacji sygnału mowy oparty jest na algorytmie DTW, jednak w przeciwieństwie do klasycznego DTW, nie opieram się w nim na sygnale w dziedzinie czasu, a na dziedzinie częstotliwości. Sygnał mowy wzorcowy (syntezowany) i naturalny dzielony jest na ramki, które mogą na siebie zachodzić (ang. overlapping) i w każdej ramce liczona jest szybka transformata Fouriera (FFT). Przed obliczeniem FFT, aby uniknąć rozmycia widma stosuje się okna widmowe [5]. Pierwszym etapem w metodzie DTW jest obliczenie macierzy odległości lokalnych. Elementy macierzy odległości lokalnych liczone są właśnie dla wektorów cech widmowych w ramkach: K cn, m S n, E m S n, k E m, k (1) k1 gdzie: S(n) wektor widmowych cech sygnału syntetyzowanego w n-tej ramce, E(m) wektor widmowych cech sygnału naturalnego w m-tej ramce, K długość wektora cech widmowych. Ramka sygnału syntezowanego zestawiana jest z ramką sygnału naturalnego i na podstawie widma sygnału w ramce obliczana jest odległość między tymi wektorami. We wzorze 1 podana jest odległość liczona wg metryki miejskiej (Manhattan). W systemie zaimplementowane są też inne metryki. Rysunek 12. Macierz odległości lokalnych, metryka miejska. Macierz odległości lokalnych dla słowa gałązka przedstawione są na rys. 12, który przedstawia sygnały mowy, do których zastosowano ramki o długości 256 próbek, z oknem 16
17 Hamminga i nakładaniem ramek 200 próbek. Zastosowana metryka to metryka miejska. Kolor niebieski oznacza małe wartości odległości pomiędzy ramkami sygnałów, czyli sygnały podobne pod względem widmowym, natomiast kolor czerwony oznacza dużą odległość, czyli częstotliwościowo różne sygnały. Kolejnym elementem jest obliczenie macierzy odległości globalnych i ścieżki zgodności. Graficznie przedstawiona jest na rys. 13. Widzimy tam również zaznaczone granice alofonów w naturalnym sygnale mowy wyznaczone na podstawie ścieżki zgodności i granic alofonów w sygnale syntezowanym. Właśnie to stanowi istotę modyfikacji algorytmu DTW. Nie dopasowujemy sygnału do wzorcowego, tylko za pomocą ścieżki dopasowania wyznaczamy granice alofonów. Rysunek 13. Macierz odległości globalnych. Wyznaczenie tonu krtaniowego W systemie zestawiane są ze sobą dwa sygnały mowy, syntezowany i naturalny. Sygnał syntezowany tworzony jest na podstawie bazy wzorcowej. Jest to głos lektora uzyskany w studio nagraniowym. Natomiast nowa baza alofonowa tworzona jest na podstawie innego korpusu nagrań sygnału mowy, należącej do innego spikera. Z założenia więc, głosy te nie należą do tego samego spikera. Jedną z cech odróżniającą głosy różnych ludzi jest częstotliwość tonu podstawowego F 0 (ton krtaniowy). Typowe częstotliwości tonu krtaniowego to około 75 Hz do 180 Hz dla głosów męskich, dla głosów kobiecych to od około 165 Hz do 255 Hz i dla dzieci to 250 Hz 300 Hz. Ponieważ odległości pomiędzy sygnałami liczone są w dziedzinie częstotliwości, ma to więc wpływ na wyniki obliczeń. Rozwiązaniem dopasowującym ton krtaniowy obu sygnałów jest więc zmiana częstotliwości tonu podstawowego jednego 17
18 z sygnałów mowy. Ponieważ tworzymy bazę alofonów nowego głosu, musimy zachować wszystkie jego specyficzne cechy, co oznacza, że nie możemy ingerować i zmieniać jego parametrów. Modyfikacja musi więc dotyczyć głosu syntezowanego. Ton krtaniowy możemy wyznaczyć tylko we fragmentach dźwięcznych sygnału mowy i tylko takie fragmenty mogą być poddane modyfikacji. Prostą i skuteczną metodą wyznaczenia VUV (Voiced/Unvoiced) jest metoda progowa. Oparta jest ona na dwóch współczynnikach, głośności i ZCR. Sygnał wejściowy dzielony jest na ramki, następnie dla każdej ramki wyliczane są wartości tych współczynników. Statystycznie wyznaczono, że wartości 0,02 i 50 odpowiednio dla głośności i ZCR, są poziomem poniżej którego ramka uznawana jest jako bezdźwięczna, a powyżej jako dźwięczna. Współczynnik głośności jest to pierwiastek średniej energii sygnału audio w ramce, natomiast Zero Crossing Rate określa ile razy sygnał zmienił znak, czyli ile razy wartość sygnału zmieniła się z ujemnej na dodatnią. Korzystając z metody progowej możemy wyznaczyć fragmenty dźwięczne i bezdźwięczne w sygnale naturalnym, czyli nagrane słowo podlegające segmentacji. Natomiast w sygnale syntezowanym wiemy, które fonemy są dźwięczne, a które bezdźwięczne. Dźwięczne fonemy to: a, ą, e, ę, o, u, y, i, b, B, d, D, Ď, Đ, đ, g, G, j, l, L, ł, m, M, n, ń, r, R, w, W, z, Z, ź, ż. Rys. 14 przedstawia zaznaczone kolorem czerwonym fragmenty dźwięczne wyznaczone dla obu sygnałów naturalnego i syntezowanego słowa przemieszczania. Na górnym wykresie przedstawiona jest także częstotliwość tonu podstawowego wyznaczona dla fragmentów oznaczonych jako dźwięczne. F 0 sygnału syntezowanego F 0 sygnału naturalnego Fragmenty dźwięczne Rysunek 14. Wyznaczone fragmenty dźwięczne w sygnale mowy. 18
19 W celu wyznaczenia częstotliwości tonu podstawowego sygnałów dźwiękowych stosuje się różne metody [16]. W swojej pracy wyznaczenie częstotliwości tonu podstawowego oparłem na metodzie związanej z cepstrum. Operacja cepstrum oparta jest o transformację Fouriera. Analizowany sygnał zostaje poddany transformacie Fouriera, a następnie przekształcany jest do skali logarytmicznej. Wynik poddaje się drugiej transformacji Fouriera, wracając w ten sposób w dziedzinę czasu i otrzymując w ten sposób sygnał cepstrum. Do wyznaczenia tonu podstawowego potrzebne jest natomiast cepstrum rzeczywiste. F 0 wyznacza się na podstawie maksima lokalnego rzeczywistego sygnału cepstrum w przedziale od 50 Hz do 400 Hz, gdyż w takim zakresie należy spodziewać się częstotliwości tonu krtaniowego. Modyfikacja F 0 algorytm TD-PSOLA Zmianę częstotliwości tonu podstawowego uzyskuję za pomocą algorytmu TD PSOLA (Time Domain Pitch Synchronous OverLap Add) [2], [18]. Kolejne kroki tego algorytmu to: 1. Podział sygnału mowy na segmenty synchronicznie z estymowaną częstotliwością podstawową, czyli wyznaczenie granic okresów (pitch). 2. Określenie dźwięczności bezdźwięczności fragmentów zawartych między granicami okresów (pitch synchronous). 3. Przeskalowanie czasowe w sygnale wyjściowym granic okresów (time domain). 4. Rekonstrukcja sygnału poprzez złożenie segmentów z zastosowaniem okna Hanninga oraz zakładek (overlap add ). Sygnał syntezowany modyfikujemy w taki sposób, aby jego częstotliwość tonu podstawowego dostosować do częstotliwości F 0 sygnału naturalnego, czyli aby te częstotliwości były takie same, lub zbliżone. W zastosowanym przeze mnie algorytmie zmieniam częstotliwość alofonów sygnału syntezowanego wtedy, gdy różni się od częstotliwości sygnału naturalnego o więcej niż 10 %. Dopiero wtedy sygnały te są zestawiane ze sobą w algorytmie DTW. Rys. 16 przedstawia wyznaczoną za pomocą metody cepstralnej częstotliwość tonu podstawowego dla fragmentów dźwięcznych słowa przemieszczania. Częstotliwość sygnału naturalnego została wyliczona dla fragmentów dźwięcznych sygnału, wyznaczonych metodą progową. Zaznaczona jest na rysunku niebieskimi iksami. Częstotliwość ta została aproksymowana wielomianem 5 stopnia (niebieska ciągła linia). Częstotliwość sygnału syntezowanego wyznaczona jest dla alofonów dźwięcznych, które podzielono na ramki i tak uzyskaną częstotliwość uśredniono dla całego alofonu. Alofony te będą podlegały modyfikacji w algorytmie TD-PSOLA, dlatego należało uśrednić F 0 dla całego modyfikowanego fragmentu (alofonu). Ponieważ czasy trwania obu sygnałów różnią się, aproksymowaną częstotliwość tonu podstawowego sygnału naturalnego dopasowałem czasowo do sygnału syntezowanego. 19
20 W ten sposób można określić jaka powinna być częstotliwość alofonu w sygnale syntezowanym i jeśli zbyt dużo różni się od faktycznie wyznaczonej dla alofonu (więcej niż 10 %), to ją uzyskać w algorytmie TD-PSOLA. x F 0 sygnału naturalnego wyznaczona dla fragmentów dźwięcznych. o F 0 sygnału syntezowanego wyznaczona dla dźwięcznych alofonów. Aproksymowana F 0 sygnału naturalnego. F 0 docelowa sygnału syntezowanego Rysunek 15. Częstotliwość tonu podstawowego. Zmiana częstotliwości tonu podstawowego słowa syntezowanego pociąga za sobą zmianę macierzy odległości lokalnych, oraz macierzy odległości globalnych, a co za tym idzie także ścieżki dopasowania. Ścieżka dopasowania ma z kolei bezpośredni wpływ na segmentację sygnału naturalnego. Oznacza to, że po zmianie F 0, zmienią się granice wycinanych alofonów. Bez zmiany F 0 Zmienione F 0 Rysunek 16. Macierze kosztu globalnego przed i po zmianie F0. Rys. 16 przedstawia macierze kosztu globalnego przed i po zmianie F 0, wraz z zaznaczoną ścieżką dopasowania. Widoczne są różnice zarówno w samej macierzy kosztu globalnego, jak i w ścieżce dopasowania. Różnice te pociągają za sobą zmianę położenia granic alofonów w słowie naturalnym i inne ich wycięcie. 20
21 Schemat blokowy systemu Na rys. 17 przedstawiono schemat blokowy algorytmu segmentacji dotyczący jednego słowa. Natomiast w systemie jest wywoływany w pętli dla całego korpusu akustycznego, czyli wszystkich słów z nagrania. Słowo syntezowane oznaczone Słowo naturalne Zmiana F 0 TD-PSOLA Wyznaczenie F 0 Podział na ramki Podział na ramki Okienkowanie Okienkowanie FFT FFT Obliczenie macierzy odległości lokalnych Granice alofonów w słowie syntezowanym. Obliczenie macierzy odległości globalnych Wyznaczenie ścieżki zgodności Klasyczne DTW Wyznaczenie granic alofonów w słowie naturalnym Wycięcie alofonów Zbiór alofonów Rysunek 17. Schemat blokowy algorytmu segmentacji. W wyniku pracy automatycznego systemu segmentacji korpusu mowy generowane są segmenty fonetyczne alofony. Rys. 18 i 19 przedstawia alofony uzyskane właśnie w wyniku automatycznej segmentacji, wraz z odpowiadającymi im alofonami wzorcowymi. Są to dwa pierwsze alofony wycięte z wyrazu gałązka. Po przekształceniu na zapis alofonowy otrzymujemy: gałązka g03, a1032, ł34, ą0081, s31, k13, a2030. Górne wykresy na rysunkach przedstawiają alofony wzorcowe, natomiast dolne, alofony wycięte w sposób automatyczny. Zachowana jest skala czasu. 21
22 Rysunek 18. Alofon a1032 wycięty w procesie automatycznej segmentacji z wyrazu gałązka. Rysunek 19. Alofon g03 wycięty w procesie automatycznej segmentacji z wyrazu gałązka. Algorytmy kontroli jakości W wyniku pracy systemu otrzymujemy wiele takich samych alofonów. Dzieje się tak, ponieważ korpus mowy jest nadmiarowy, zawiera całe wyrazy, zdania i teksty, w których dany alofon występuje wielokrotnie. Natomiast do bazy potrzebujemy tylko po jednym egzemplarzu każdego z alofonów. W celu stworzenia bazy jednostek akustycznych konieczne jest szczegółowe przeanalizowanie otrzymanych elementów po to, aby: Usunąć segmenty fonetyczne, w których przekroczono dopuszczony błąd podczas czytania spikera lub przy automatycznej segmentacji i pozostawić tylko najlepsze z nich operacja odrzucenie. Przy wielokrotnej realizacji jednakowych alofonów, wybrać najlepszy operacja selekcja. Przeprowadzić ocenę jakości każdego z pozostawionych elementów i zaznaczyć odchylenia od normy, oraz przeprowadzić skorygowanie parametrów segmentów z zauważonymi odchyleniami operacja korekta. Operacja odrzucenie polega na zestawieniu akustycznych charakterystyk syntetyzowanych i naturalnych segmentów mowy otrzymanych w procesie segmentacji. Jeśli różnice między nimi będą wyższe od pewnej progowej wielkości, to oznacza, że taki segment 22
23 nie będzie w stanie zapewnić nawet minimalnej niezbędnej jakości syntetyzowanej mowy i powinien być odrzucony. Operacja selekcja wybiera lepszy alofon z zestawu takich samych stosując odpowiednie kryterium. W charakterze takiego kryterium stosuję odległość między wartościami parametrów prozodycznych każdego z egzemplarzy i wartościami średnimi parametrów prozodycznych w otrzymanych realizacjach alofonu. Operację korekta realizuje się dla segmentów otrzymanych zgodnie ze wskazanymi wyżej kryteriami. Celem tej operacji jest znalezienie możliwych nieznacznych niedokładności segmentacji. Znalezione segmenty z niedokładnie określonymi granicami podlegają korekcji za pomocą odpowiednich procedur polegających na usunięciu niedokładnych i wstawieniu brakujących granicznych okresów tonu podstawowego. Segmenty, które przeszły operacje odrzucenie, selekcja i korekta, umieszcza się w końcowej bazie alofonowej. W ten sposób powstaje baza jednostek akustycznych, alofonów głosu konkretnego spikera. 5. Podsumowanie W pracy przedstawiono zagadnienie automatyzacji procesu segmentacji i tworzenia baz jednostek akustycznych alofonowych, w syntezie mowy polskiej. Wymaga ono zaprojektowania systemu, który będzie to realizował. W tym celu przeprowadziłem badania i opracowałem odpowiednie algorytmy, które następnie zaimplementowałem w opracowywanym systemie. Za moje oryginalne osiągnięcia w niniejszej pracy uważam: Opracowanie niezbędnych algorytmów przetwarzania tekstu tj. zamiany tekstu ortograficznego na fonetyczny i zapisu fonetycznego na alofonowy, niezbędnych do zaimplementowania części systemu syntezy mowy TTS wykorzystywanej w moim systemie. Opracowanie algorytmów automatyzacji procesu segmentacji i wycinania bazowych jednostek akustycznych alofonów, opartych o zmodyfikowany algorytm DTW. Opracowanie algorytmów kontroli jakości wyciętych jednostek akustycznych i tworzenia baz jednostek alofonowych. Zaprojektowanie i zaimplementowanie systemu automatyzacji procesu segmentacji i wycinania bazowych jednostek akustycznych. 23
24 Bibliografia: [1] R. Bellman, R. Kalaba, On adaptive control processes", Automatic Control, IRE Transactions on, 1959, vol. 4, no. 2, pp [2] F. Charpentier, M.G. Stella, Diphone Synthesis Using an Overlap-Add Technique for Speech Waveform Concatenation, Proceedings of IEEE International Conference of Acoustics, Speech and Signal Processing ICASSP-86, Tokyo Japan 1986, pp [3] M. Dłuska, Fonetyka polska, PAN, Warszawa-Kraków 1981, pp. 3 25, [4] T. Dutoit, An Introduction to text-to-speech synthesis, Kluwer Academic Publishers [5] F.J. Harris, On the Use of Windows for Harmonic Analysis with the Discrete Fourier Transform, Proceedings of the IEEE, vol. 66, no. 1, pp , [6] F. Itakura, Line Spectrum Representation of Linear Predictive Coefficients of Speech Signals, The Journal of the Acoustical Society of America, Volume 57, Issue 2, 1975, pp [7] J. Kominek, A.W. Black, A Family-of-Models Approach to HMM-based Segmentation for Unit Selection Speech Synthesis, Speech Communication and Technology, Proceedings of the 9-th European conference InterSpeech 2004, Jeju Island, Korea 2004, V. 3, pp [8] E. Lewis, M. Tatham, Automatic Segmentation of Recorded Speech into Syllables for Speech Synthesis, Speech Communication and Technology, Proceedings of the 7-th European conference EUROSPEECH 2001, Aalborg, Denmark 2001, V. 3. pp [9] B. Lobanow, L. Cyrulnik, B. Piórkowska, J. Rafałko, E. Szpilewski, Фонетикоакустическая база даных для многоязычного синтеза речи по тексту на славянских языках, Computational Linguistics and Intellectual Technologies, International Conference Dialogue 2006 Proceedings, Bekasovo, Russia 2006, pp [10] B. Lobanow, B. Piórkowska, J. Rafałko, L. Cyrulnik, Реализация межъязыковых различий интонации завиершённости и незавиершённости в синтезаторе русской и полской речи по тексту, Computational Linguistics and Intellectual Technologies, International Conference Dialogue 2005 Proceedings, Zvenigorod, Russia 2005, pp [11] K. Łopatka, A. Czyżewski: Text-to-speech synthesizer employing automatic prosodic modification, Zeszyty naukowe WE PG, Nr 28, pp [12] C. S. Myers, Rabiner L. R. A comparative study of several dynamic time-warping algorithms for connected word recognition, The Bell System Technical Journal, September 1981, Vol. 60, 7, pp [13] D. Ostaszewska, J. Tambor, Fonetyka i fonologia współczesnego języka polskiego, wyd. II PWN, Warszawa [14] B. Piórkowska, W. Lesiński, J. Rafałko, E. Szpilewski, Sentence Intonation for Polish Language, Speech Analysis, Synthesis and Recognition, Aplications of Phonetics, Kraków, Poland [15] B. Piórkowska, K. Popowski, J. Rafałko, E. Szpilewski, Polish Language Speech Synthesis Basis on Text Information, New Trends in Audio and Video, vol. I, Politechnika Białostocka, Rozprawy Naukowe Nr 134, 2006, pp
25 [16] L.R. Rabiner, M.J. Cheng, A.E. Rosenberg, C.A. McGonegal, A Comparative Performance Study of Several Pitch Detection Algorithms, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 24, no. 5, pp , [17] J. van Santen, R. Sproat, J. Olive, J. Hirshberg, Progress in speech synthesis, Springer Verlag, New York 1997, Chapter 4, Concatenative Synthesis and Automated Segmentation, pp [18] X. Sun, "Voice Quality Conversion in TD-PSOLA Speech Synthesis", Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, Istanbul, Turkey 2000, pp [19] E. Szpilewski, B. Piórkowska, J. Rafałko, B. Lobanov, V. Kiselov, L. Tsirulnik, Polish TTS in Multi-Voice Slavonic Languages Speech Synthesis System, SPECOM 2004 Proceedings, 9th International Conference Speech and Computer, Saint-Petersburg, Russia 2004, pp [20] T. Taylor, Text-to-Speech Synthesis, Cambridge University Press [21] B. Wierzchowska, Fonetyka i fonologia języka polskiego, Zakład Narodowy im. Ossolińskich, Wrocław [22] Strona Pracowni Systemów Informacyjnych publikacje. [23] Strona IPI PAN, tematyka badawcza Zespołu Inżynierii Lingwistycznej. [24] Strona Zakładu Fonetyki Instytutu Językoznawstwa Uniwersytetu im. Adama Mickiewicza w Poznaniu. 25
Algorytmy automatyzacji tworzenia baz jednostek akustycznych w syntezie mowy polskiej
Streszczenie rozprawy doktorskiej Algorytmy automatyzacji tworzenia baz jednostek akustycznych w syntezie mowy polskiej mgr inż. Janusz Rafałko Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych
Synteza mowy. opracowanie: mgr inż. Kuba Łopatka
Synteza mowy opracowanie: mgr inż. Kuba Łopatka Synteza mowy (ang. TTS - Text-To-Speech ) zamiana tekstu w formie pisanej na sygnał akustyczny, którego brzmienie naśladuje brzmienie ludzkiej mowy. Podstawowe
Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści
Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, 2011 Spis treści Przedmowa 11 Rozdział 1. WPROWADZENIE 13 1.1. Czym jest automatyczne rozpoznawanie mowy 13 1.2. Poziomy
Korpusy mowy i narzędzia do ich przetwarzania
Korpusy mowy i narzędzia do ich przetwarzania Danijel Korzinek, Krzysztof Marasek Polsko-Japońska Akademia Technik Komputerowych Katedra Multimediów kmarasek@pjwstk.edu.pl danijel@pjwstk.edu.pl 2015-05-18
AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I
AKUSTYKA MOWY Podstawy rozpoznawania mowy część I PLAN WYKŁADU Część I Podstawowe pojęcia z dziedziny rozpoznawania mowy Algorytmy, parametry i podejścia do rozpoznawania mowy Przykłady istniejących bibliotek
ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW
ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW Maciej Piasecki, Szymon Zyśko Wydziałowy Zakład Informatyki Politechnika Wrocławska Wybrzeże Stanisława Wyspiańskiego
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan
Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan Synteza mowy System przetwarzania tekstu pisanego na mowę Text-to-Speech (TTS) TTS powinien być w stanie przeczytać
4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...
Spis treści 1 Wstęp 11 1.1 Do kogo adresowana jest ta książka... 12 1.2 Historia badań nad mową i językiem... 12 1.3 Obecne główne trendy badań... 16 1.4 Opis zawartości rozdziałów... 18 2 Wyzwania i możliwe
OPIS MODUŁU (PRZEDMIOTU)
Załącznik Nr 1.11 pieczątka jednostki organizacyjnej OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS MODUŁU (PRZEDMIOTU)
Podstawy Przetwarzania Sygnałów
Adam Szulc 188250 grupa: pon TN 17:05 Podstawy Przetwarzania Sygnałów Sprawozdanie 6: Filtracja sygnałów. Filtry FIT o skończonej odpowiedzi impulsowej. 1. Cel ćwiczenia. 1) Przeprowadzenie filtracji trzech
TEORIA WYTWARZANIA DŹWIĘKÓW
1 TEORIA WYTWARZANIA DŹWIĘKÓW MOWY, FORMANTY, MODELOWANIE WYTWARZANIA DŹWIĘKÓW MOWY. mgr inż. Kuba Łopatka PLAN WYKŁADU 1. Teoria wytwarzania dźwięków mowy Ogólna teoria wytwarzania dźwięków mowy Ton krtaniowy
Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski
Automatyczne rozpoznawanie mowy Autor: mgr inż. Piotr Bratoszewski Rys historyczny 1930-1950 pierwsze systemy Automatycznego rozpoznawania mowy (ang. Automatic Speech Recognition ASR), metody holistyczne;
w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:
KATEDRA SYSTEMÓW MULTIMEDIALNYCH Inteligentne systemy decyzyjne Ćwiczenie nr 12: Rozpoznawanie mowy z wykorzystaniem ukrytych modeli Markowa i pakietu HTK Opracowanie: mgr inż. Kuba Łopatka 1. Wprowadzenie
Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski
Akustyka mowy wprowadzenie Opracował: dr inż. Piotr Suchomski Kontakt Katedra Systemów Multimedialnych Wydział ETI dr inż. Piotr M. Suchomski, pok. EA 730 e-mail: pietka@sound.eti.pg.gda.pl tel. 23-01
Transkrypcja fonetyczna i synteza mowy. Jolanta Bachan
Transkrypcja fonetyczna i synteza mowy Jolanta Bachan IPA Międzynarodowy alfabet fonetyczny, MAF (ang. International Phonetic Alphabet, IPA) alfabet fonetyczny, system transkrypcji fonetycznej przyjęty
Wykład z Technologii Informacyjnych. Piotr Mika
Wykład z Technologii Informacyjnych Piotr Mika Uniwersalna forma graficznego zapisu algorytmów Schemat blokowy zbiór bloków, powiązanych ze sobą liniami zorientowanymi. Jest to rodzaj grafu, którego węzły
PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM
PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM Akustyka mowy opracowanie: M. Kaniewska, A. Kupryjanow, K. Łopatka PLAN WYKŁADU Zasada przetwarzania sygnału w czasie rzeczywistym Algorytmy zmiany czasu trwania
Przygotowanie bazy difonów języka polskiego dla realizacji syntezy mowy w systemie MBROLA
Przygotowanie bazy difonów języka polskiego dla realizacji syntezy mowy w systemie MBROLA 1 Przygotowanie bazy difonów języka polskiego dla realizacji syntezy mowy w systemie MBROLA MBROLA.Creating the
Transformacja współrzędnych geodezyjnych mapy w programie GEOPLAN
Transformacja współrzędnych geodezyjnych mapy w programie GEOPLAN Program GEOPLAN umożliwia zmianę układu współrzędnych geodezyjnych mapy. Można tego dokonać przy udziale oprogramowania przeliczającego
Omówienie różnych metod rozpoznawania mowy
Omówienie różnych metod rozpoznawania mowy Na podstawie artykułu: Comparative study of automatic speech recognition techniques Beniamin Sawicki Wydział Inżynierii Mechanicznej i Robotyki Inżynieria Akustyczna
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
CYFROWE PRZTWARZANIE SYGNAŁÓW (Zastosowanie transformacji Fouriera)
I. Wprowadzenie do ćwiczenia CYFROWE PRZTWARZANIE SYGNAŁÓW (Zastosowanie transformacji Fouriera) Ogólnie termin przetwarzanie sygnałów odnosi się do nauki analizowania zmiennych w czasie procesów fizycznych.
Kompresja dźwięku w standardzie MPEG-1
mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 7, strona 1. Kompresja dźwięku w standardzie MPEG-1 Ogólne założenia kompresji stratnej Zjawisko maskowania psychoakustycznego Schemat blokowy
Lokalizacja Oprogramowania
mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji
Hybrydowa analiza transformat w rozpoznawaniu wysokości dźwięków w polifonicznych nagraniach instrumentów muzycznych
Wydział Fizyki Technicznej, Informatyki i Matematyki Stosowanej Politechnika Łódzka Streszczenie rozprawy doktorskiej Hybrydowa analiza transformat w rozpoznawaniu wysokości dźwięków w polifonicznych nagraniach
Opisy efektów kształcenia dla modułu
Karta modułu - Technologia mowy 1 / 5 Nazwa modułu: Technologia mowy Rocznik: 2012/2013 Kod: RIA-1-504-s Punkty ECTS: 7 Wydział: Inżynierii Mechanicznej i Robotyki Poziom studiów: Studia I stopnia Specjalność:
Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski
Podstawy automatycznego rozpoznawania mowy Autor: mgr inż. Piotr Bratoszewski Rys historyczny 1930-1950 pierwsze systemy Automatycznego rozpoznawania mowy (ang. Automatic Speech Recognition ASR), metody
Rozpoznawanie mowy za pomocą HTK
Kinga Frydrych Wydział Inżynierii Mechanicznej i Robotyki Inżynieria Akustyczna, rok III, 2013/2014 Sprawozdanie z ćwiczeń laboratoryjnych z Technologii mowy Rozpoznawanie mowy za pomocą HTK 1. Opis gramatyki
Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert
Analiza sygnału mowy pod kątem rozpoznania mówcy chorego Anna Kosiek, Dominik Fert Wstęp: Analiza sygnału akustycznego była wykorzystywana w medycynie jeszcze przed wykorzystaniem jej w technice. Sygnał
Rozpoznawanie mowy dla języków semickich. HMM - HTK, CMU SPHINX-4, Simon
Rozpoznawanie mowy dla języków semickich HMM - HTK, CMU SPHINX-4, Simon Charakterystyka języków semickich Przykłady: arabski, hebrajski, amharski, tigrinia, maltański (280 mln użytkowników). Budowa spółgłoskowo
Transpozer czasowy mowy
Transpozer czasowy mowy Politechnika Gdańska ul. Narutowicza 11/12 80-233 Gdańsk www.pg.gda.pl 1. Wprowadzenie Transpozer czasowy mowy został opracowany w celu wspierania rozumienia mowy przez osoby z
Komputerowe przetwarzanie sygnału mowy
Komputerowe przetwarzanie sygnału mowy Prof dr hab inż Bożena Kostek Katedra Systemów Multimedialnych Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska Komputerowe przetwarzanie sygnału
Przekształcenia widmowe Transformata Fouriera. Adam Wojciechowski
Przekształcenia widmowe Transformata Fouriera Adam Wojciechowski Przekształcenia widmowe Odmiana przekształceń kontekstowych, w których kontekstem jest w zasadzie cały obraz. Za pomocą transformaty Fouriera
OPIS MODUŁU (PRZEDMIOTU), PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A OPIS MODUŁU (PRZEDMIOTU) studia pierwszego stopnia
Załącznik Nr 1.11 pieczątka jednostki organizacyjnej OPIS MODUŁU (PRZEDMIOTU), PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A OPIS MODUŁU (PRZEDMIOTU) Nazwa modułu (przedmiotu)
Układy i Systemy Elektromedyczne
UiSE - laboratorium Układy i Systemy Elektromedyczne Laboratorium 1 Stetoskop elektroniczny parametry sygnałów rejestrowanych. Opracował: dr inż. Jakub Żmigrodzki Zakład Inżynierii Biomedycznej, Instytut
OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI
Autoreferat do rozprawy doktorskiej OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Michał Mazur Gliwice 2016 1 2 Montaż samochodów na linii w
FONETYKA. Co to jest fonetyka? Język polski Klasa III Gim
FONETYKA Język polski Klasa III Gim Co to jest fonetyka? Fonetyka Fonetyka (z gr. phonetikos) to dział nauki o języku badający i opisujący cechy dźwięków mowy, czyli głosek. Zajmuje się ona procesami powstawania
P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H
W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania
Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej.
Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej. Dział Zagadnienia Wymagania podstawowe Wymagania ponadpodstawowe Arkusz kalkulacyjny (Microsoft Excel i OpenOffice) Uruchomienie
OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA. CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS PRZEDMIOTU
Załącznik Nr 1.11 pieczątka jednostki organizacyjnej OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS PRZEDMIOTU Nazwa
Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik
Wykład VI Wydział Matematyki Stosowanej Politechniki Śląskiej Gliwice, 2014 c Copyright 2014 Janusz Słupik Kompresja dźwięku Kompresja dźwięku bezstratna podczas odtwarzania otrzymujemy wierne odwzorowanie
Programowanie komputerów
Programowanie komputerów Wykład 1-2. Podstawowe pojęcia Plan wykładu Omówienie programu wykładów, laboratoriów oraz egzaminu Etapy rozwiązywania problemów dr Helena Dudycz Katedra Technologii Informacyjnych
Transformata Fouriera
Transformata Fouriera Program wykładu 1. Wprowadzenie teoretyczne 2. Algorytm FFT 3. Zastosowanie analizy Fouriera 4. Przykłady programów Wprowadzenie teoretyczne Zespolona transformata Fouriera Jeżeli
8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)
8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT) Ćwiczenie polega na wykonaniu analizy widmowej zadanych sygnałów metodą FFT, a następnie określeniu amplitud i częstotliwości głównych składowych
Politechnika Łódzka. Instytut Systemów Inżynierii Elektrycznej
Politechnika Łódzka Instytut Systemów Inżynierii Elektrycznej Laboratorium komputerowych systemów pomiarowych Ćwiczenie 3 Analiza częstotliwościowa sygnałów dyskretnych 1. Opis stanowiska Ćwiczenie jest
3. Macierze i Układy Równań Liniowych
3. Macierze i Układy Równań Liniowych Rozważamy równanie macierzowe z końcówki ostatniego wykładu ( ) 3 1 X = 4 1 ( ) 2 5 Podstawiając X = ( ) x y i wymnażając, otrzymujemy układ 2 równań liniowych 3x
Ćwiczenia nr 7. TEMATYKA: Krzywe Bézier a
TEMATYKA: Krzywe Bézier a Ćwiczenia nr 7 DEFINICJE: Interpolacja: przybliżanie funkcji za pomocą innej funkcji, zwykle wielomianu, tak aby były sobie równe w zadanych punktach. Poniżej przykład interpolacji
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego
WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI
WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI Stefan WÓJTOWICZ, Katarzyna BIERNAT ZAKŁAD METROLOGII I BADAŃ NIENISZCZĄCYCH INSTYTUT ELEKTROTECHNIKI ul. Pożaryskiego 8, 04-703 Warszawa tel. (0)
Programowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
Algorytm. Krótka historia algorytmów
Algorytm znaczenie cybernetyczne Jest to dokładny przepis wykonania w określonym porządku skończonej liczby operacji, pozwalający na rozwiązanie zbliżonych do siebie klas problemów. znaczenie matematyczne
5. Rozwiązywanie układów równań liniowych
5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a
EKSTRAKCJA CECH TWARZY ZA POMOCĄ TRANSFORMATY FALKOWEJ
Janusz Bobulski Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska ul. Dąbrowskiego 73 42-200 Częstochowa januszb@icis.pcz.pl EKSTRAKCJA CECH TWARZY ZA POMOCĄ TRANSFORMATY FALKOWEJ
PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających
RZECZPOSPOLITA POLSKA (12) OPIS PATENTOWY (19) PL (11) 210969 (13) B1 (21) Numer zgłoszenia: 383047 (51) Int.Cl. G01R 23/16 (2006.01) G01R 23/20 (2006.01) Urząd Patentowy Rzeczypospolitej Polskiej (22)
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
KARTA PRZEDMIOTU. 11. ZAŁOŻENIA I CELE PRZEDMIOTU: 1. Dostarczenie studentom dogłębnej wiedzy na temat angielskiego systemu fonologicznego.
KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Gramatyka opisowa 2. KIERUNEK: filologia, specjalność filologia angielska 3. POZIOM STUDIÓW: studia pierwszego stopnia 4. ROK/ SEMESTR STUDIÓW: rok I, semestr 2 5.
Ćwiczenie 6. Transformacje skali szarości obrazów
Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L Ćwiczenie 6. Transformacje skali szarości obrazów 1. Obraz cyfrowy Obraz w postaci cyfrowej
Inteligencja obliczeniowa
Ćwiczenie nr 3 Zbiory rozmyte logika rozmyta Sterowniki wielowejściowe i wielowyjściowe, relacje rozmyte, sposoby zapisu reguł, aproksymacja funkcji przy użyciu reguł rozmytych, charakterystyki przejściowe
Sztuczna Inteligencja Tematy projektów Sieci Neuronowe
PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia
przetworzonego sygnału
Synteza falek ortogonalnych na podstawie oceny przetworzonego sygnału Instytut Informatyki Politechnika Łódzka 28 lutego 2012 Plan prezentacji 1 Sformułowanie problemu 2 3 4 Historia przekształcenia falkowego
Rozdział 1 PROGRAMOWANIE LINIOWE
Wprowadzenie do badań operacyjnych z komputerem Opisy programów, ćwiczenia komputerowe i zadania. T. Trzaskalik (red.) Rozdział 1 PROGRAMOWANIE LINIOWE 1.2 Ćwiczenia komputerowe Ćwiczenie 1.1 Wykorzystując
SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD
Dr inż. Jacek WARCHULSKI Dr inż. Marcin WARCHULSKI Mgr inż. Witold BUŻANTOWICZ Wojskowa Akademia Techniczna SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD Streszczenie: W referacie przedstawiono możliwości
Algorytmy detekcji częstotliwości podstawowej
Algorytmy detekcji częstotliwości podstawowej Plan Definicja częstotliwości podstawowej Wybór ramki sygnału do analizy Błędy oktawowe i dokładnej estymacji Metody detekcji częstotliwości podstawowej czasowe
Widmo akustyczne radia DAB i FM, porównanie okien czasowych Leszek Gorzelnik
Widmo akustycznych sygnałów dla radia DAB i FM Pomiary widma z wykorzystaniem szybkiej transformacji Fouriera FFT sygnału mierzonego w dziedzinie czasu wykonywane są w skończonym czasie. Inaczej mówiąc
Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech
Slajd 1 Analiza i synteza mowy - wprowadzenie Spektrogram wyrażenia: computer speech Slide 1 Slajd 2 Analiza i synteza mowy - wprowadzenie Slide 2 Slajd 3 Analiza i synteza mowy - wprowadzenie Slide 3
1.Klasyfikacja głosek języka polskiego. 2.Układ narządów artykulacyjnych przy wymowie wybranych głosek.
ZAPRASZAM ZAPRASZAM 1.Klasyfikacja głosek języka polskiego. 2.Układ narządów artykulacyjnych przy wymowie wybranych głosek. 1. Głoski języka polskiego możemy podzielić na dwie podstawowe grupy: - Samogłoski
METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH
METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH Jednym z zastosowań metod numerycznych jest wyznaczenie pierwiastka lub pierwiastków równania nieliniowego. W tym celu stosuje się szereg metod obliczeniowych np:
Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.
Katedra Mechaniki i Podstaw Konstrukcji Maszyn POLITECHNIKA OPOLSKA Komputerowe wspomaganie eksperymentu Zjawisko aliasingu.. Przecieki widma - okna czasowe. dr inż. Roland PAWLICZEK Zjawisko aliasingu
Cyfrowe Przetwarzanie Obrazów i Sygnałów
Cyfrowe Przetwarzanie Obrazów i Sygnałów Laboratorium EX Lokalne transformacje obrazów Joanna Ratajczak, Wrocław, 28 Cel i zakres ćwiczenia Celem ćwiczenia jest zapoznanie się z własnościami lokalnych
ELEMENTY AUTOMATYKI PRACA W PROGRAMIE SIMULINK 2013
SIMULINK część pakietu numerycznego MATLAB (firmy MathWorks) służąca do przeprowadzania symulacji komputerowych. Atutem programu jest interfejs graficzny (budowanie układów na bazie logicznie połączonych
Układy VLSI Bramki 1.0
Spis treści: 1. Wstęp... 2 2. Opis edytora schematów... 2 2.1 Dodawanie bramek do schematu:... 3 2.2 Łączenie bramek... 3 2.3 Usuwanie bramek... 3 2.4 Usuwanie pojedynczych połączeń... 4 2.5 Dodawanie
Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI
1 Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI 1. Obliczenia w arkuszu kalkulacyjnym Rozwiązywanie problemów z wykorzystaniem aplikacji komputerowych obliczenia w arkuszu kalkulacyjnym wykonuje
Interpolacja, aproksymacja całkowanie. Interpolacja Krzywa przechodzi przez punkty kontrolne
Interpolacja, aproksymacja całkowanie Interpolacja Krzywa przechodzi przez punkty kontrolne Aproksymacja Punkty kontrolne jedynie sterują kształtem krzywej INTERPOLACJA Zagadnienie interpolacji można sformułować
W tym celu korzystam z programu do grafiki wektorowej Inkscape 0.46.
1. Wprowadzenie Priorytetem projektu jest zbadanie zależności pomiędzy wartościami średnich szybkości przemieszczeń terenu, a głębokością eksploatacji węgla kamiennego. Podstawowe dane potrzebne do wykonania
1. Synteza automatów Moore a i Mealy realizujących zadane przekształcenie 2. Transformacja automatu Moore a w automat Mealy i odwrotnie
Opracował: dr hab. inż. Jan Magott KATEDRA INFORMATYKI TECHNICZNEJ Ćwiczenia laboratoryjne z Logiki Układów Cyfrowych ćwiczenie 207 Temat: Automaty Moore'a i Mealy 1. Cel ćwiczenia Celem ćwiczenia jest
Przekształcanie wykresów.
Sławomir Jemielity Przekształcanie wykresów. Pokażemy tu, jak zmiana we wzorze funkcji wpływa na wygląd jej wykresu. A. Mamy wykres funkcji f(). Jak będzie wyglądał wykres f ( ) + a, a stała? ( ) f ( )
Przedstawiona do recenzji rozprawa doktorska Pana mgra inż. Adama Dudka pt. :
Wrocław, dnia 30 maja 2018 r. Dr hab. inż. Ireneusz Jóźwiak, prof. PWr. Wydział Informatyki i Zarządzania Politechnika Wrocławska Wybrzeże Wyspiańskiego 27 50-370 Wrocław Recenzja rozprawy doktorskiej
Technologie informacyjne - wykład 12 -
Zakład Fizyki Budowli i Komputerowych Metod Projektowania Instytut Budownictwa Wydział Budownictwa Lądowego i Wodnego Politechnika Wrocławska Technologie informacyjne - wykład 12 - Prowadzący: Dmochowski
Metody statystyczne kontroli jakości i niezawodności Lekcja II: Karty kontrolne.
Metody statystyczne kontroli jakości i niezawodności Lekcja II: Karty kontrolne. Wydział Matematyki Politechniki Wrocławskiej Karty kontroli jakości: przypomnienie Załóżmy, że chcemy mierzyć pewną charakterystykę.
IMPLEMENTATION OF THE SPECTRUM ANALYZER ON MICROCONTROLLER WITH ARM7 CORE IMPLEMENTACJA ANALIZATORA WIDMA NA MIKROKONTROLERZE Z RDZENIEM ARM7
Łukasz Deńca V rok Koło Techniki Cyfrowej dr inż. Wojciech Mysiński opiekun naukowy IMPLEMENTATION OF THE SPECTRUM ANALYZER ON MICROCONTROLLER WITH ARM7 CORE IMPLEMENTACJA ANALIZATORA WIDMA NA MIKROKONTROLERZE
Metody numeryczne I Równania nieliniowe
Metody numeryczne I Równania nieliniowe Janusz Szwabiński szwabin@ift.uni.wroc.pl Metody numeryczne I (C) 2004 Janusz Szwabiński p.1/66 Równania nieliniowe 1. Równania nieliniowe z pojedynczym pierwiastkiem
PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM
Mostefa Mohamed-Seghir Akademia Morska w Gdyni PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM W artykule przedstawiono propozycję zastosowania programowania dynamicznego do rozwiązywania
Bazy danych. Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Wykład 3: Model związków encji.
Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Bazy danych Wykład 3: Model związków encji. dr inż. Magdalena Krakowiak makrakowiak@wi.zut.edu.pl Co to jest model związków encji? Model związków
PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09
RZECZPOSPOLITA POLSKA (12) OPIS PATENTOWY (19) PL (11) 201536 (13) B1 (21) Numer zgłoszenia: 358531 (51) Int.Cl. G10L 21/02 (2006.01) H03G 3/00 (2006.01) Urząd Patentowy Rzeczypospolitej Polskiej (22)
Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy
Systemy i Sieci Telekomunikacyjne laboratorium Modulacja amplitudy 1. Cel ćwiczenia: Celem części podstawowej ćwiczenia jest zbudowanie w środowisku GnuRadio kompletnego, funkcjonalnego odbiornika AM.
Dźwięk dźwiękowi nierówny, czyli o tym jak brzmi XXI wiek
IX Studenckie Spotkania Analityczne 13-14.03.2008 Dźwięk dźwiękowi nierówny, czyli o tym jak brzmi XXI wiek Justyna Słomka Plan 1. Co to jest dźwięk? 2. Pojęcie syntezy dźwięku 3. Cel syntezowania dźwięków
składa się z m + 1 uporządkowanych niemalejąco liczb nieujemnych. Pomiędzy p, n i m zachodzi następująca zależność:
TEMATYKA: Krzywe typu Splajn (Krzywe B sklejane) Ćwiczenia nr 8 Krzywe Bezier a mają istotne ograniczenie. Aby uzyskać kształt zawierający wiele punktów przegięcia niezbędna jest krzywa wysokiego stopnia.
CHARAKTERYSTYKI CZĘSTOTLIWOŚCIOWE
CHARAKTERYSTYKI CZĘSTOTLIWOŚCIOWE Do opisu członów i układów automatyki stosuje się, oprócz transmitancji operatorowej (), tzw. transmitancję widmową. Transmitancję widmową () wyznaczyć można na podstawie
Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat
Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Program, to lista poleceń zapisana w jednym języku programowania zgodnie z obowiązującymi w nim zasadami. Celem programu jest przetwarzanie
Zastosowanie Informatyki w Medycynie
Zastosowanie Informatyki w Medycynie Dokumentacja projektu wykrywanie bicia serca z sygnału EKG. (wykrywanie załamka R) Prowadzący: prof. dr hab. inż. Marek Kurzyoski Grupa: Jakub Snelewski 163802, Jacek
Język opisu sprzętu VHDL
Język opisu sprzętu VHDL dr inż. Adam Klimowicz Seminarium dydaktyczne Katedra Mediów Cyfrowych i Grafiki Komputerowej Informacje ogólne Język opisu sprzętu VHDL Przedmiot obieralny dla studentów studiów
Segmentacja akustycznej bazy językowej na potrzeby realizacji korpusowej syntezy mowy w systemie Festival
Katedra Multimediów Michał Wójtowski Nr albumu s1773 Segmentacja akustycznej bazy językowej na potrzeby realizacji korpusowej syntezy mowy w systemie Festival Praca magisterska napisana pod kierunkiem
Automatyczna klasyfikacja zespołów QRS
Przetwarzanie sygnałów w systemach diagnostycznych Informatyka Stosowana V Automatyczna klasyfikacja zespołów QRS Anna Mleko Tomasz Kotliński AGH EAIiE 9 . Opis zadania Tematem projektu było zaprojektowanie
ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU
ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU i klasyfikacja sygnału audio dr inż. Jacek Naruniec Sygnał mowy mózg (układ sterujący) głośnia (źródło dźwięku) rezonator akustyczny (filtr) sygnał mowy 2 Sygnał mowy
Opis akustyczny samogłosek Wprowadzenie
Opis akustyczny samogłosek Wprowadzenie 1. Badania akustyczne w fonetyce Współczesna fonetyka czyli dziedzina zajmująca się badaniem dźwięków mowy w dużym stopniu oparta jest na badaniach akustycznych.
KAMERA AKUSTYCZNA NOISE INSPECTOR DLA SZYBKIEJ LOKALIZACJI ŹRÓDEŁ HAŁASU
KAMERA AKUSTYCZNA NOISE INSPECTOR DLA SZYBKIEJ LOKALIZACJI ŹRÓDEŁ HAŁASU Hałas staje się widoczny Zastosowanie innowacyjnych rozwiązań w systemie Noise Inspector pozwala na konwersję emisji dźwięku do