Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, 2011 Spis treści Przedmowa 11 Rozdział 1. WPROWADZENIE 13 1.1. Czym jest automatyczne rozpoznawanie mowy 13 1.2. Poziomy rozpoznawania 15 1.3. Warianty automatycznego rozpoznawania mowy 16 1.4. Organizacja ksiąŝki 21 Rozdział 2. MOWA I SYGNAŁ MOWY 23 2.1. Generowanie sygnału mowy 23 2.2. Sygnał mowy i jego losowy charakter 29 2.3. Budowa i właściwości organu słuchu człowieka 31 2.3.1. Poziom głośności dźwięku, krzywe jednakowej głośności 32 2.3.2. Poziom głośności a głośność 34 2.3.3. Wysokość dźwięku, skala melowa 36 2.3.4. Pasma krytyczne, skala barkowa 37 2.3.5. Maskowanie częstotliwościowe i czasowe 40 2.3.6. Podsumowanie 41 2.4. Jednostki fonetyczne 41 2.4.1. Fonemy mowy polskiej 42 2.4.2. Podział fonemów 44 2.4.3. Inne jednostki fonetyczne 50 2.4.4. Podsumowanie 53 2.5. Nauka rozumienia mowy przez człowieka i mówienia 55 2.6. Uczenie systemu ARM i automatyczne rozpoznawanie 57 Rozdział 3. PARAMETRYZACJA SYGNAŁU MOWY 61 3.1. Rejestracja sygnału 62 3.1.1. Warunki akustyczne rejestracji 63 3.1.2. Warunki techniczne rejestracji 64 3.1.3. Wybór częstotliwości próbkowania 65 3.2. Wstępne przetwarzanie 66 3.2.1. Usuwanie wartości średniej 67 3.2.2. Skalowanie 69 3.2.3. Preemfaza 71 3.3. Prosty algorytm detekcji aktywności mówcy 72 3.4. Podział sygnału na ramki i okienkowanie 74 3.5. Cele parametryzacji sygnału mowy 77
3.6. Melowe współczynniki cepstralne (MFCC) 78 3.7. Melowe współczynniki cepstralne - moŝliwe warianty 83 3.7.1. Parametry estymacji widma 83 3.7.2. Parametry filtrów melowych 85 3.7.3. Szerokości filtrów motywowane skalą ERB 87 3.7.4. Operacja nieliniowa na wartościach widma 90 3.7.5. Spłaszczanie widma i maskowanie czasowe 90 3.7.6. Wpływ okresowości pobudzenia na widmo sygnału mowy 92 3.8. Inne metody parametryzacji 93 3.8.1. Cepstrum z widma liniowego 94 3.8.2. Współczynniki prognozy liniowej 94 3.8.3. Współczynniki odbicia i logarytm stosunku współczynników odbicia 97 3.8.4. Współczynniki cepstralne określone ze współczynników prognozy 98 3.8.5. Współczynniki prognozy liniowej z psychoakustyczną modyfikacją widma 99 3.8.6. Trasformacja falkowa 101 3.9. Wskaźniki głośności 103 3.10. Parametry dynamiczne 104 3.11. Wektor obserwacji 105 3.12. Podsumowanie 105 Rozdział 4. UCZENIE ROZPOZNAWANIA I ROZPOZNAWANIE JEDNOSTEK FONETYCZNYCH 107 4.1. Czynniki wpływające na sygnał mowy 109 4.1.1. RóŜnice międzyosobnicze 110 4.1.2. RóŜnice wewnątrzosobnicze 111 4.1.3. RóŜnice regionalne 111 4.1.4. Kontekst fonetyczny 112 4.1.5. Warunki środowiskowe 112 4.2. Zaplanowanie i realizacja nagrań 112 4.3. Segmentacja i etykietyzacja sygnału mowy 116 4.4. Losowy charakter współczynników parametryzacji 118 4.5. Rozkłady prawdopodobieństwa i histogramy 121 4.6. Kwantyzacja wektora obserwacji 126 4.7. Aproksymacja histogramów, estymatory rozkładów prawdopodobieństwa 127 4.8. Metodyka rozpoznawania wypowiedzi na poziomie ramek 132 4.9. Porównywanie skuteczności metod parametryzacji 134 4.9.1. Skuteczność kompletnych systemów ARM 135 4.9.2. Zdolności klasyfikacyjne modeli fonemów 137 4.9.3. Rozpoznawanie pojedynczych ramek 138 4.10. Podział fonemów na trifony 144 4.11. Podsumowanie 146 Rozdział 5. USTALANIE CIĄGU JEDNOSTEK FONETYCZNYCH 147
5.1. Dopasowywanie czasowe 148 5.1.1. Nieliniowe dopasowanie czasowe 150 5.1.2. Ograniczenia w metodzie dopasowania czasowego 154 5.1.3. Podsumowanie 157 5.2. Dyskretne procesy Markowa 157 5.3. Ukryte modele Markowa 162 5.4. Zagadnienia do rozwiązania związane z HMM 165 5.5. Rozwiązanie problemu oceny 166 5.6. Rozwiązanie problemu detekcji 168 5.6.1. Algorytm Viterbiego 170 5.7. Klasyczne rozwiązanie problemu estymacji 171 5.7.1. Algorytm Baum-Walcha 172 5.7.2. Właściwości algorytmu Baum-Walcha 174 5.7.3. Modyfikacja algorytmu Baum-Walcha dla licznego zbioru uczącego 175 5.8. Nieergodyczne ukryte modele Markowa 176 5.9. Ukryte modele Markowa z ciągłymi rozkładami prawdopodobieństwa 181 5.10. Czasy trwania stanów w modelach Markowa 182 5.10.1. Dyskretna postać czasów trwania stanów 185 5.10.2. Ciągła postać czasów trwania stanów 186 5.10.3. ZaleŜne od czasu modelowanie przejść 188 5.11. Uwagi dotyczące implementacji 191 5.11.1. Skalowanie wartości prawdopodobieństw częściowych 191 5.11.2. Warunki początkowe 194 5.11.3. Uczenie z ograniczeniami 194 5.11.4. Szeregi Markowa a detekcja aktywności mówcy 195 5.12. Wybór modelu IIMM 197 5.13. Inne podejścia do problemu uczenia 198 5.14. Przykładowe wyniki 2. etapu rozpoznania 199 5.15. Podsumowanie 200 Rozdział 6. KOŃCOWY ETAP ROZPOZNAWANIA 203 6.1. Rozpoznawanie bazujące na dopasowaniu modelu 204 6.2. Rozpoznawanie bazujące na sylabach 205 6.2.1. Definicja pseudosylaby 206 6.2.2. Ogólny schemat postępowania 207 6.2.3. Odległość pomiędzy fonemami 208 6.2.4. Odległości pomiędzy pseudosylabami 209 6.3. Rozpoznawanie komend 212 6.3.1. Obliczanie odległości i rozpoznanie 213 6.3.2. Uczenie algorytmu końcowego rozpoznawania komend 215 6.4. Rozpoznawanie numerów 216 6.4.1. Definicja dwu-cyfr 218 6.4.2. Algorytm rozpoznawania numerów 219 6.4.3. Uczenie algorytmu końcowego rozpoznawania numerów 220 6.5. Podsumowanie 220
Rozdział 7. ALGORYTMY WSPOMAGAJĄCE ROZPOZNAWANIE 223 7.1. Rozpoznawanie w warunkach występowania szumu 224 7.2. Odszumianie sygnału mowy 225 7.2.1. Estymacja widmowej gęstości mocy szumu 227 7.2.2. Realizacja odszumiania 230 7.2.3. Modyfikacje opisanego algorytmu 233 7.2.4. Implementacja algorytmu w systemie rozpoznawania komend 234 7.2.5. Modyfikacja sygnału lub modelu związana z obecnością szumu 235 7.3. Detekcja aktywności mówcy 235 7.3.1. Statystyczny VAD bazujący na pojedynczej ramce 236 7.3.2. Statystyczny VAD bazujący na uśrednieniu widm ramek 238 7.3.3. Statystyczny VAD bazujący na SNR 240 7.4. Automatyczna segmentacja sygnału mowy 243 7.4.1. Metoda filtracji parametrycznej 244 7.4.2. Detekcja zmian sygnału bazująca na prognozie liniowej 246 7.4.3. Metody segmentacji wykorzystujące rozpoznawanie 250 7.4.4. Podział wypowiedzi na sylaby 250 7.4.5. Podsumowanie 251 7.5. Estymacja tempa wypowiedzi 251 7.6. Estymacja i wykorzystanie częstotliwości tonu krtaniowego 253 7.6.1. Algorytm cepstralny estymacji 255 7.6.2. Algorytm bazujący na błędzie prognozy 256 7.6.3. Algorytm korelacyjny z funkcjami grzebieniowymi 257 7.6.4. Algorytm korelacyjny estymacji 258 7.6.5. Histogramy częstotliwości tonu krtaniowego 262 7.7. Podsumowanie 263 Rozdział 8. KOMPENSACJA CECH OSOBNICZYCH I WPŁYWÓW ŚRODOWISKOWYCH 265 8.1. Kompensacja wpływu zmian środowiskowych i zmienności osobniczych na jakość rozpoznawania 266 8.1.1. Wpływ zniekształceń i zakłóceń na współczynniki cepstralne 267 8.1.2. Klasy metod kompensacji cech osobniczych i wpływów środowiskowych 270 8.2. Odporna parametryzacja 272 8.2.1. Parametryzacja bazująca na estymatorze minimalnej wariancji 273 8.2.2. Parametryzacja z optymalnymi filtrami modelującymi słuch 277 8.3. Grupowanie mówców 281 8.3.1. Częstotliwość tonu krtaniowego jako wskaźnik wielkości kanału głosowego 283 8.3.2. Grupowanie bazujące na parametrach kanału głosowego 284 8.3.3. Grupowanie na bazie szybkości mówienia 286 8.3.4. Grupowanie na bazie współczynników parametryzacji 288 8.4. Normalizacja wektora obserwacji 291
8.4.1. Usuwanie wartości średniej cepstrum 291 8.4.2. Usuwanie wolnych i szybkich zmian z sekwencji widm 294 8.4.3. Standaryzacja cepstrum 296 8.4.4. Nieliniowa normalizacja cepstrum 297 8.4.5. Korygowanie rozkładów prawdopodobieństwa 298 8.4.6. Normalizacja opierająca się na aproksymacji funkcji zniekształceń 301 8.4.7. Normalizacja a długość kanału głosowego 303 8.4.8. Metoda banków transformacji widma 306 8.5. Adaptacja parametrów modelu statystycznego 309 8.5.1. Metoda regresji liniowej i maksymalizacji prawdopodobieństwa 310 8.5.2. Adaptacja w przestrzeni wektorów własnych 313 8.6. Podsumowanie 316 Dodatek A. Wykaz waŝniejszych oznaczeń i skrótów 319 A.1. Oznaczenia 319 A.2. Skróty 322 Dodatek B. PROBABILISTYCZNY MODEL SYGNAŁU, WEKTOROWA ZMIENNA LOSOWA 325 B.1. Losowy charakter sygnału mowy, konstrukcja modelu probabilistycznego 325 B.2. Statystyki procesu 327 B.3. Stacjonarność procesu 330 B.4. Statystyki i parametry procesu stacjonarnego 331 B.5. Ergodyczność procesu 333 B.6. Procesy normalne 333 B.7. Statystyki wzajemne 334 B.8. Lokalna stacjonarność 335 B.9. Wektorowa zmienna losowa 336 Dodatek C. ELEMENTY TEORII ESTYMACJI 339 C.1. Definicje błędów estymacji 340 C.2. Klasy estymatorów 342 C.3. Estymatory statystyk procesu 345 C.4. Estymatory widmowej gęstości mocy procesu 348 C.5. Spektrogram 353 Dodatek D. ELEMENTY TEORII DETEKCJI 355 D.1. Detekcja składowej o stałej wartości 356 D.2. Miary jakości detekcji 358 D.3. Twierdzenie Neymana-Pearsona 360 D.4. Detekcja Bayesa 361 D.5. Ryzyko Bayesa 363 D.6. Podsumowanie 364
Bibliografia 365 Skorowidz 379 oprac. BPK