Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Podobne dokumenty
4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Komputerowe przetwarzanie sygnału mowy

Spis treści 3 SPIS TREŚCI

Omówienie różnych metod rozpoznawania mowy

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Algorytmy detekcji częstotliwości podstawowej

Przetwarzanie sygnałów biomedycznych

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

CYFROWE PRZETWARZANIE SYGNAŁÓW

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert

Sylabus do programu kształcenia obowiązującego od roku akademickiego 2014/15

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Rozdział 1 PODSTAWOWE POJĘCIA I DEFINICJE

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Kompresja dźwięku w standardzie MPEG-1

dr inż. Jacek Naruniec

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

KARTA MODUŁU / KARTA PRZEDMIOTU

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Egzamin / zaliczenie na ocenę*

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Politechnika Wrocławska

SYMULACJA KOMPUTEROWA SYSTEMÓW

Opis efektów kształcenia dla modułu zajęć

Przekształcenia sygnałów losowych w układach

STATYSTYKA MATEMATYCZNA

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Sposoby opisu i modelowania zakłóceń kanałowych

Analiza danych. TEMATYKA PRZEDMIOTU

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Spis treści. Przedmowa 11

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Teoria sygnałów Signal Theory. Elektrotechnika I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Biometryczna Identyfikacja Tożsamości

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

Przygotowała: prof. Bożena Kostek

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Realizowany w roku akademickim 2016/2017

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Promotor: dr Marek Pawełczyk. Marcin Picz

Statystyka i Analiza Danych

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

RACHUNEK PRAWDOPODOBIE STWA

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

PRZEWODNIK PO PRZEDMIOCIE

AUTOMATYKA INFORMATYKA

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

3. Przetwarzanie analogowo-cyfrowe i cyfrowo-analogowe... 43

WPROWADZENIE DO SZTUCZNEJ INTELIGENCJI

Analiza sygnałów biologicznych

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Wstęp do rachunku prawdopodobieństwa. Cz. 2 / William Feller. wyd. 4, dodr. 3. Warszawa, Spis treści

PRZEWODNIK PO PRZEDMIOCIE

STATYSTYKA MATEMATYCZNA

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

WYMAGANIA DOTYCZĄCE ZALICZENIA ZAJĘĆ

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Pattern Classification

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

KOMPUTEROWE TECHNIKI ANALIZY INFORMACJI ZAWARTEJ W SYGNAŁACH AKUSTYCZNYCH MASZYN ELEKTRYCZNYCH DLA CELÓW DIAGNOSTYKI STANÓW PRZEDAWARYJNYCH

Rozpoznawanie obrazów

STATYSTYKA MATEMATYCZNA

Elementy statystyki wielowymiarowej

Statystyczna analiza danych

PL B1. Sposób i układ do modyfikacji widma sygnału ultraszerokopasmowego radia impulsowego. POLITECHNIKA GDAŃSKA, Gdańsk, PL

WYDZIAŁ ELEKTRONIKI MIKROSYSTEMÓW I FOTONIKI

Transport II stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) Studia stacjonarne (stacjonarne / niestacjonarne)

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Zarządzanie i inżynieria jakości / Adam Hamrol. Warszawa, Spis treści

Statystyka w zarządzaniu : pełny wykład / Amir D. Aczel. wyd. 1, dodr. 5. Warszawa; Spis treści

TEORIA WYTWARZANIA DŹWIĘKÓW

Układy stochastyczne

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Analiza szeregów czasowych: 2. Splot. Widmo mocy.

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

Kartkówka 1 Opracowanie: Próbkowanie częstotliwość próbkowania nie mniejsza niż podwojona szerokość przed spróbkowaniem.

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

KARTA MODUŁU KSZTAŁCENIA

Transkrypt:

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, 2011 Spis treści Przedmowa 11 Rozdział 1. WPROWADZENIE 13 1.1. Czym jest automatyczne rozpoznawanie mowy 13 1.2. Poziomy rozpoznawania 15 1.3. Warianty automatycznego rozpoznawania mowy 16 1.4. Organizacja ksiąŝki 21 Rozdział 2. MOWA I SYGNAŁ MOWY 23 2.1. Generowanie sygnału mowy 23 2.2. Sygnał mowy i jego losowy charakter 29 2.3. Budowa i właściwości organu słuchu człowieka 31 2.3.1. Poziom głośności dźwięku, krzywe jednakowej głośności 32 2.3.2. Poziom głośności a głośność 34 2.3.3. Wysokość dźwięku, skala melowa 36 2.3.4. Pasma krytyczne, skala barkowa 37 2.3.5. Maskowanie częstotliwościowe i czasowe 40 2.3.6. Podsumowanie 41 2.4. Jednostki fonetyczne 41 2.4.1. Fonemy mowy polskiej 42 2.4.2. Podział fonemów 44 2.4.3. Inne jednostki fonetyczne 50 2.4.4. Podsumowanie 53 2.5. Nauka rozumienia mowy przez człowieka i mówienia 55 2.6. Uczenie systemu ARM i automatyczne rozpoznawanie 57 Rozdział 3. PARAMETRYZACJA SYGNAŁU MOWY 61 3.1. Rejestracja sygnału 62 3.1.1. Warunki akustyczne rejestracji 63 3.1.2. Warunki techniczne rejestracji 64 3.1.3. Wybór częstotliwości próbkowania 65 3.2. Wstępne przetwarzanie 66 3.2.1. Usuwanie wartości średniej 67 3.2.2. Skalowanie 69 3.2.3. Preemfaza 71 3.3. Prosty algorytm detekcji aktywności mówcy 72 3.4. Podział sygnału na ramki i okienkowanie 74 3.5. Cele parametryzacji sygnału mowy 77

3.6. Melowe współczynniki cepstralne (MFCC) 78 3.7. Melowe współczynniki cepstralne - moŝliwe warianty 83 3.7.1. Parametry estymacji widma 83 3.7.2. Parametry filtrów melowych 85 3.7.3. Szerokości filtrów motywowane skalą ERB 87 3.7.4. Operacja nieliniowa na wartościach widma 90 3.7.5. Spłaszczanie widma i maskowanie czasowe 90 3.7.6. Wpływ okresowości pobudzenia na widmo sygnału mowy 92 3.8. Inne metody parametryzacji 93 3.8.1. Cepstrum z widma liniowego 94 3.8.2. Współczynniki prognozy liniowej 94 3.8.3. Współczynniki odbicia i logarytm stosunku współczynników odbicia 97 3.8.4. Współczynniki cepstralne określone ze współczynników prognozy 98 3.8.5. Współczynniki prognozy liniowej z psychoakustyczną modyfikacją widma 99 3.8.6. Trasformacja falkowa 101 3.9. Wskaźniki głośności 103 3.10. Parametry dynamiczne 104 3.11. Wektor obserwacji 105 3.12. Podsumowanie 105 Rozdział 4. UCZENIE ROZPOZNAWANIA I ROZPOZNAWANIE JEDNOSTEK FONETYCZNYCH 107 4.1. Czynniki wpływające na sygnał mowy 109 4.1.1. RóŜnice międzyosobnicze 110 4.1.2. RóŜnice wewnątrzosobnicze 111 4.1.3. RóŜnice regionalne 111 4.1.4. Kontekst fonetyczny 112 4.1.5. Warunki środowiskowe 112 4.2. Zaplanowanie i realizacja nagrań 112 4.3. Segmentacja i etykietyzacja sygnału mowy 116 4.4. Losowy charakter współczynników parametryzacji 118 4.5. Rozkłady prawdopodobieństwa i histogramy 121 4.6. Kwantyzacja wektora obserwacji 126 4.7. Aproksymacja histogramów, estymatory rozkładów prawdopodobieństwa 127 4.8. Metodyka rozpoznawania wypowiedzi na poziomie ramek 132 4.9. Porównywanie skuteczności metod parametryzacji 134 4.9.1. Skuteczność kompletnych systemów ARM 135 4.9.2. Zdolności klasyfikacyjne modeli fonemów 137 4.9.3. Rozpoznawanie pojedynczych ramek 138 4.10. Podział fonemów na trifony 144 4.11. Podsumowanie 146 Rozdział 5. USTALANIE CIĄGU JEDNOSTEK FONETYCZNYCH 147

5.1. Dopasowywanie czasowe 148 5.1.1. Nieliniowe dopasowanie czasowe 150 5.1.2. Ograniczenia w metodzie dopasowania czasowego 154 5.1.3. Podsumowanie 157 5.2. Dyskretne procesy Markowa 157 5.3. Ukryte modele Markowa 162 5.4. Zagadnienia do rozwiązania związane z HMM 165 5.5. Rozwiązanie problemu oceny 166 5.6. Rozwiązanie problemu detekcji 168 5.6.1. Algorytm Viterbiego 170 5.7. Klasyczne rozwiązanie problemu estymacji 171 5.7.1. Algorytm Baum-Walcha 172 5.7.2. Właściwości algorytmu Baum-Walcha 174 5.7.3. Modyfikacja algorytmu Baum-Walcha dla licznego zbioru uczącego 175 5.8. Nieergodyczne ukryte modele Markowa 176 5.9. Ukryte modele Markowa z ciągłymi rozkładami prawdopodobieństwa 181 5.10. Czasy trwania stanów w modelach Markowa 182 5.10.1. Dyskretna postać czasów trwania stanów 185 5.10.2. Ciągła postać czasów trwania stanów 186 5.10.3. ZaleŜne od czasu modelowanie przejść 188 5.11. Uwagi dotyczące implementacji 191 5.11.1. Skalowanie wartości prawdopodobieństw częściowych 191 5.11.2. Warunki początkowe 194 5.11.3. Uczenie z ograniczeniami 194 5.11.4. Szeregi Markowa a detekcja aktywności mówcy 195 5.12. Wybór modelu IIMM 197 5.13. Inne podejścia do problemu uczenia 198 5.14. Przykładowe wyniki 2. etapu rozpoznania 199 5.15. Podsumowanie 200 Rozdział 6. KOŃCOWY ETAP ROZPOZNAWANIA 203 6.1. Rozpoznawanie bazujące na dopasowaniu modelu 204 6.2. Rozpoznawanie bazujące na sylabach 205 6.2.1. Definicja pseudosylaby 206 6.2.2. Ogólny schemat postępowania 207 6.2.3. Odległość pomiędzy fonemami 208 6.2.4. Odległości pomiędzy pseudosylabami 209 6.3. Rozpoznawanie komend 212 6.3.1. Obliczanie odległości i rozpoznanie 213 6.3.2. Uczenie algorytmu końcowego rozpoznawania komend 215 6.4. Rozpoznawanie numerów 216 6.4.1. Definicja dwu-cyfr 218 6.4.2. Algorytm rozpoznawania numerów 219 6.4.3. Uczenie algorytmu końcowego rozpoznawania numerów 220 6.5. Podsumowanie 220

Rozdział 7. ALGORYTMY WSPOMAGAJĄCE ROZPOZNAWANIE 223 7.1. Rozpoznawanie w warunkach występowania szumu 224 7.2. Odszumianie sygnału mowy 225 7.2.1. Estymacja widmowej gęstości mocy szumu 227 7.2.2. Realizacja odszumiania 230 7.2.3. Modyfikacje opisanego algorytmu 233 7.2.4. Implementacja algorytmu w systemie rozpoznawania komend 234 7.2.5. Modyfikacja sygnału lub modelu związana z obecnością szumu 235 7.3. Detekcja aktywności mówcy 235 7.3.1. Statystyczny VAD bazujący na pojedynczej ramce 236 7.3.2. Statystyczny VAD bazujący na uśrednieniu widm ramek 238 7.3.3. Statystyczny VAD bazujący na SNR 240 7.4. Automatyczna segmentacja sygnału mowy 243 7.4.1. Metoda filtracji parametrycznej 244 7.4.2. Detekcja zmian sygnału bazująca na prognozie liniowej 246 7.4.3. Metody segmentacji wykorzystujące rozpoznawanie 250 7.4.4. Podział wypowiedzi na sylaby 250 7.4.5. Podsumowanie 251 7.5. Estymacja tempa wypowiedzi 251 7.6. Estymacja i wykorzystanie częstotliwości tonu krtaniowego 253 7.6.1. Algorytm cepstralny estymacji 255 7.6.2. Algorytm bazujący na błędzie prognozy 256 7.6.3. Algorytm korelacyjny z funkcjami grzebieniowymi 257 7.6.4. Algorytm korelacyjny estymacji 258 7.6.5. Histogramy częstotliwości tonu krtaniowego 262 7.7. Podsumowanie 263 Rozdział 8. KOMPENSACJA CECH OSOBNICZYCH I WPŁYWÓW ŚRODOWISKOWYCH 265 8.1. Kompensacja wpływu zmian środowiskowych i zmienności osobniczych na jakość rozpoznawania 266 8.1.1. Wpływ zniekształceń i zakłóceń na współczynniki cepstralne 267 8.1.2. Klasy metod kompensacji cech osobniczych i wpływów środowiskowych 270 8.2. Odporna parametryzacja 272 8.2.1. Parametryzacja bazująca na estymatorze minimalnej wariancji 273 8.2.2. Parametryzacja z optymalnymi filtrami modelującymi słuch 277 8.3. Grupowanie mówców 281 8.3.1. Częstotliwość tonu krtaniowego jako wskaźnik wielkości kanału głosowego 283 8.3.2. Grupowanie bazujące na parametrach kanału głosowego 284 8.3.3. Grupowanie na bazie szybkości mówienia 286 8.3.4. Grupowanie na bazie współczynników parametryzacji 288 8.4. Normalizacja wektora obserwacji 291

8.4.1. Usuwanie wartości średniej cepstrum 291 8.4.2. Usuwanie wolnych i szybkich zmian z sekwencji widm 294 8.4.3. Standaryzacja cepstrum 296 8.4.4. Nieliniowa normalizacja cepstrum 297 8.4.5. Korygowanie rozkładów prawdopodobieństwa 298 8.4.6. Normalizacja opierająca się na aproksymacji funkcji zniekształceń 301 8.4.7. Normalizacja a długość kanału głosowego 303 8.4.8. Metoda banków transformacji widma 306 8.5. Adaptacja parametrów modelu statystycznego 309 8.5.1. Metoda regresji liniowej i maksymalizacji prawdopodobieństwa 310 8.5.2. Adaptacja w przestrzeni wektorów własnych 313 8.6. Podsumowanie 316 Dodatek A. Wykaz waŝniejszych oznaczeń i skrótów 319 A.1. Oznaczenia 319 A.2. Skróty 322 Dodatek B. PROBABILISTYCZNY MODEL SYGNAŁU, WEKTOROWA ZMIENNA LOSOWA 325 B.1. Losowy charakter sygnału mowy, konstrukcja modelu probabilistycznego 325 B.2. Statystyki procesu 327 B.3. Stacjonarność procesu 330 B.4. Statystyki i parametry procesu stacjonarnego 331 B.5. Ergodyczność procesu 333 B.6. Procesy normalne 333 B.7. Statystyki wzajemne 334 B.8. Lokalna stacjonarność 335 B.9. Wektorowa zmienna losowa 336 Dodatek C. ELEMENTY TEORII ESTYMACJI 339 C.1. Definicje błędów estymacji 340 C.2. Klasy estymatorów 342 C.3. Estymatory statystyk procesu 345 C.4. Estymatory widmowej gęstości mocy procesu 348 C.5. Spektrogram 353 Dodatek D. ELEMENTY TEORII DETEKCJI 355 D.1. Detekcja składowej o stałej wartości 356 D.2. Miary jakości detekcji 358 D.3. Twierdzenie Neymana-Pearsona 360 D.4. Detekcja Bayesa 361 D.5. Ryzyko Bayesa 363 D.6. Podsumowanie 364

Bibliografia 365 Skorowidz 379 oprac. BPK