Czym jest HTK HMMs ASR

HTK 138

Czym jest HTK Zbiór programów implementujących Niejawne Łańcuchy Markowa - Hidden Markov Models (HMMs) ASR, synteza mowa, rozpoznawanie liter, badania nad sekwencjami DNA Analiza mowy, wyćwiczenie HMM, testowanie i analiza rezultatów HTK dopasowuje hipotezę każdego rozpoznania do jednego z elementów słownika przygotowanego przez użytkownika Porównanie transkrypcji fonetycznych słów 139

Schemat HTK 140

Sekwencja symboli 141

Rozpoznanie pojedynczego słowa 142

Łańcuch Markowa 143

Ćwiczenie 144

Rozpoznawanie 145

Reprezentowanie mikstur 146

Reestymacja Najpierw robi się zgrubne przybliżenie wartości parametrów HMM Następnie dokładniejsze parametry można znaleźć stosując reestymację Baum-Welcha Według kryterium maksymalnego podobieństwa (maximum likelihood) 147

Algorytm Viterbiego dla rozpoznawania izolowanych słów 148

Sieć rozpoznawania dla mowy ciągłej 149

Tokeny wykrywające granice słów 150

Używanie HTK System można wykonać korzystając z tutoriala HTK Book, jednakże niektóre kroki będą inne, a niektóre można pominąć Step 7-8 Fixing the Silence Models Step 9-10 Making Triphones from Monophones Różnice i niedopatrzenia Przygotuj plik config1 i codetr.scp (config jak w tutorialu ale z SOURCEFORMAT = WAV) Utwórz katalogi hmm0, hmm1,... 151

Rzeczy o których należy pamiętać Dokumentuj używane komendy i inne czynności Dbaj o porządek w swoich plikach Nagrywaj mowę w dobrej jakości (głośno, poprawnie wymowa, jak najmniej zakłóceń i szumu, bez przesterowania) Nagrania muszą idealnie pasować do transkrypcji Niczego nie kasuj Aby otrzymać ocenę wyślij sprawozdanie, nagrania, transkrypcję i cały system 152

Modelowanie mowy Bartosz Ziółko 153

HMM 154

Probability density function 158

Maximum A Posteriori (MAP) Estimation Maximising the posterior pdf 159

Maximum-Likelihood (ML) Estimation Maximising the likelihood function 160

Common problems with using statistics 161

Klasyfikowanie i dekodowanie w ASR poza HMM Klasyfikator k-nn Artificial Neural Networks (ANN), Sztuczne sieci neuronowe Support Vector Machine (SVM), Maszyna wektorów nośnych Dynamic Bayesian Networks (DBN), Dynamiczne sieci Bayesa Graphical Model Toolkit (GMTK) Maximum Entropy Direct Model Conditional Random Fields (CRF) 163

Wartość cechy 2 (x[2]) Modyfikacja AGH klasyfikatora k-nn 1 0.8 c 1 c 2 0.6 0.4 0.2 0-0.2-0.4 x -0.6 J. Gałka -0.8 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 Wartość cechy 1 (x[1]) 164

Artificial Neural Networks (ANN, NN) 165

Modelowanie czasu i kontekstu w ANN 166

Hosom, Cole, Fanty, CSLU at Oregon Institute of Science and Technology 167

EVALUATION AND INTEGRATION OF NEURAL- NETWORK TRAINING TECHNIQUES FOR CONTINUOUS DIGIT RECOGNITION J.-P. Hosom, R. A. Cole, and P. Cosi Features: 13 th -order MFCC with delta values (as in the baseline system, referred to as MFCC13D), 13 th -order MFCC with no delta values (MFCC13), 9 th -order MFCC with and without delta values (MFCC9D and MFCC9), 13 th -order and 9 th -order PLP with and without delta values (PLP13D, PLP13, PLP9D, PLP9), a combination of 13 th -order PLP and 13 th -order MFCC (PM13), a combination of 9 th -order PLP and 9 th -order MFCC (PM9). All PLP features were computed using RASTA pre-processing, and all MFCC features were computed using CMS pre-processing. Grammars: allowing optional silence between digits (SIL), allowing an optional garbage word as well as optional silence between digits (GAR). 170

Metodologia empirycznego oceniania Wyniki testów niczego nie dowodzą, mogą jedynie wskazywać itp. Konieczne jest rozdzielenie danych treningowych i testowych, aczkolwiek można crossować Prawo wielkich liczb, ale Niektóre systemy statystyczne mogą się przećwiczyć Oceniamy na raz wyłącznie jedną zmienną, reszta systemu musi być całkowicie stabilna Należy podać jak najwięcej szczegółów dotyczących danych testowych, a w miarę możliwości używać ogólnodostępnych testów Wyniki naukowe powinny być falsyfikowalne otwarcie na krytykę 171

Support Vector Machine (SVM) 172

Ganapathiraju, Hamaker, Picone: Applications of Support Vector Machines to Speech Recognition SVM nie może modelować wprost struktur czasowych Stosuje się rozwiązania hybrydowe SVM/HMM SVM zapewnia miarę i dyskryminant umożliwiający porównywanie klasyfikatorów Brak jasnych relacji między dystansem klastrów i prawdopodobieństw a posteriori Projektowanie klasyfikatora: jeden przeciwko wszystkim lub jeden na jeden Model segmentowy ze stałą liczbą regionów 174

Ganapathiraju, Hamaker, Picone: Applications of Support Vector Machines to Speech Recognition 175

Ganapathiraju, Hamaker, Picone: Applications of Support Vector Machines to Speech Recognition 176

Nieliniowe klasyfikacje SVM http://www.youtube.com/watch?v=3licbr ZPrZA 177

Rezultaty stosowania SVM z różnymi ustawieniami w rozpoznawaniu mowy 178

Sieć Bayesowska Skierowany acykliczny graf reprezentujący zbiór zmiennych losowych i zależności warunkowych między nimi. 183

Sieć Bayesowska 184

Dynamiczne sieci Bayesowskie Wyrażenie s ozna cza wystąpienia stanów koncepcyjnych z dyskretnymi wartościami opisującymi fizyczny system o wartościach ciągłych ze stanami x i obserwacjami y 186

HMM a DBN HMM jest podklasą DBN DBN reprezentuje wprost właściwości rozkładu na czynniki Rozkład na czynniki określony przez DBN narzuca warunki które model musi spełnić DBNy przekazują informację strukturalną o ukrytym problemie 188

Edinburgh articulatory DBN model manner, place, voicing, rounding, front-back, static 189

Graphical Model Toolkit extension of DBN Dopuszcza krawędzie ukierunkowane przeciwnie do upływu czasu Płaszczyzny sieci mogą obejmować wiele ramek czasowych Łamie założenia Markowa Mechanizm do przełączania dziedziczenia Dziedziczenie zmiennej może być wielokrotne a także ulokowane w przyszłości Dopuszcza różne wieloramkowe struktury pojawiające się zarówno na początku jak i na końcu sieci Bilmes, Bartels: Graphical Model Architecture for Speech Recognition 190

GMTK 191

Maximum Entropy Markov Model Kuo, Gao: Maximum Entropy Direct Models for Speech Recognition 192

Conditional Random Fields DBNy modelują dystrybucję prawdopodobieństw wielu zmiennych p(y,x) CRFy modelują dystrybucję prawdopodobieństw warunkowych p(y x) 193

Deep Neural Networks Zwykle więcej warstw Wysokopoziomowe cechy są definiowane w oparciu o niskopoziomowe 194

Dynamic Time Warping 195

Podsumowanie W ASR stosuje się rozwiązania konkurencyjne do HMM (knn, ANN, SVM, DBN, MEDM, GMTK, CRF, DNN). We wspomnianych metodach są problemy z modelowaniem czasu i kontekstu koartykulacyjnego, dlatego często stosuje się hybrydy z HMM. Metodologia testowania i oceny ASR Przeszukiwanie grafów szerokie i dogłębne 199