Czym jest HTK HMMs ASR

Podobne dokumenty
KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Rozpoznawanie mowy za pomocą HTK

KLASYFIKACJA. Słownik języka polskiego

Opisy efektów kształcenia dla modułu

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Elementy modelowania matematycznego

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

MATLAB Neural Network Toolbox przegląd

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Elementy inteligencji obliczeniowej

Poradnik HTK. Adrian Sekuła

Agnieszka Nowak Brzezińska Wykład III

Technologie Mowy Bartosz Ziółko

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

Omówienie różnych metod rozpoznawania mowy

Agnieszka Nowak Brzezińska Wykład III

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Sprawozdanie z laboratoriów HTK!

Maszyny wektorów podpierajacych w regresji rangowej

PRAKTYCZNE ASPEKTY WYKORZYSTYWANIA SYSTEMÓW ROZPOZNAWANIA MOWY OPARTYCH NA HMM

Metody klasyfikacji danych - część 1 p.1/24

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Prof. Stanisław Jankowski

Metody probabilistyczne klasyfikatory bayesowskie

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Spam or Not Spam That is the question

Widzenie komputerowe (computer vision)

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Rozpoznawanie obrazów

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce

Sieci Bayesa mgr Tomasz Xięski, Instytut Informatyki, Uniwersytet Śląski Sosnowiec, 2011

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Elementy modelowania matematycznego

Rozpoznawanie mowy dla języków semickich. HMM - HTK, CMU SPHINX-4, Simon

Rozpoznawanie mówcy i emocji

WPROWADZENIE DO SZTUCZNEJ INTELIGENCJI

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun

Deep Learning na przykładzie Deep Belief Networks

Systemy agentowe. Uwagi organizacyjne i wprowadzenie. Jędrzej Potoniec

Eksploracja danych mikromacierzowych sieci Bayesa. Inżynieria Danych, 30 listopada 2009, Tomasz Kułaga

Pattern Classification

STATYSTYKA MATEMATYCZNA

Uczenie sieci neuronowych i bayesowskich

dr inż. Jacek Naruniec

data mining machine learning data science

Podstawy Sztucznej Inteligencji (PSZT)

PRACA DYPLOMOWA Inżynierska

Sieć przesyłająca żetony CP (counter propagation)

MODELOWANIE STANÓW CZYNNOŚCIOWYCH W JĘZYKU SIECI BAYESOWSKICH

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Metody systemowe i decyzyjne w informatyce

Analiza możliwości szacowania parametrów mieszanin rozkładów prawdopodobieństwa za pomocą sztucznych sieci neuronowych 4

Wrocław University of Technology. Uczenie głębokie. Maciej Zięba

Analiza danych. TEMATYKA PRZEDMIOTU

Spacery losowe generowanie realizacji procesu losowego

Sprawozdanie z laboratoriów HTK

Klasyfikacja Support Vector Machines

Technologie Mowy Bartosz Ziółko

Klasyfikacja metodą Bayesa

Prawdopodobieństwo czerwonych = = 0.33

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Algorytmy sztucznej inteligencji

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Tematy projektów Edycja 2019

Algorytmy stochastyczne, wykład 08 Sieci bayesowskie

Podstawowe modele probabilistyczne

SPOTKANIE 3: Regresja: Regresja liniowa

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Mail: Pokój 214, II piętro

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

Optymalizacja optymalizacji

Statystyczna analiza danych

Wstęp do przetwarzania języka naturalnego. Wykład 13 Podsumowanie i spojrzenie w przyszłość

2. Empiryczna wersja klasyfikatora bayesowskiego

KLASYFIKACJA TEKSTUR ZA POMOCĄ SVM MASZYNY WEKTORÓW WSPIERAJĄCYCH

Badania w sieciach złożonych

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Adrian Horzyk

NEURAL NETWORK ) FANN jest biblioteką implementującą SSN, którą moŝna wykorzystać. w C, C++, PHP, Pythonie, Delphi a nawet w środowisku. Mathematica.

Bioinformatyka wykład 10

MODELOWANIE STOCHASTYCZNE CZĘŚĆ II - ŁAŃCUCHY MARKOWA. Biomatematyka Dr Wioleta Drobik-Czwarno

Laboratorium 11. Regresja SVM.

Własności estymatorów regresji porządkowej z karą LASSO

Transkrypt:

HTK 138

Czym jest HTK Zbiór programów implementujących Niejawne Łańcuchy Markowa - Hidden Markov Models (HMMs) ASR, synteza mowa, rozpoznawanie liter, badania nad sekwencjami DNA Analiza mowy, wyćwiczenie HMM, testowanie i analiza rezultatów HTK dopasowuje hipotezę każdego rozpoznania do jednego z elementów słownika przygotowanego przez użytkownika Porównanie transkrypcji fonetycznych słów 139

Schemat HTK 140

Sekwencja symboli 141

Rozpoznanie pojedynczego słowa 142

Łańcuch Markowa 143

Ćwiczenie 144

Rozpoznawanie 145

Reprezentowanie mikstur 146

Reestymacja Najpierw robi się zgrubne przybliżenie wartości parametrów HMM Następnie dokładniejsze parametry można znaleźć stosując reestymację Baum-Welcha Według kryterium maksymalnego podobieństwa (maximum likelihood) 147

Algorytm Viterbiego dla rozpoznawania izolowanych słów 148

Sieć rozpoznawania dla mowy ciągłej 149

Tokeny wykrywające granice słów 150

Używanie HTK System można wykonać korzystając z tutoriala HTK Book, jednakże niektóre kroki będą inne, a niektóre można pominąć Step 7-8 Fixing the Silence Models Step 9-10 Making Triphones from Monophones Różnice i niedopatrzenia Przygotuj plik config1 i codetr.scp (config jak w tutorialu ale z SOURCEFORMAT = WAV) Utwórz katalogi hmm0, hmm1,... 151

Rzeczy o których należy pamiętać Dokumentuj używane komendy i inne czynności Dbaj o porządek w swoich plikach Nagrywaj mowę w dobrej jakości (głośno, poprawnie wymowa, jak najmniej zakłóceń i szumu, bez przesterowania) Nagrania muszą idealnie pasować do transkrypcji Niczego nie kasuj Aby otrzymać ocenę wyślij sprawozdanie, nagrania, transkrypcję i cały system 152

Modelowanie mowy Bartosz Ziółko 153

HMM 154

155

156

157

Probability density function 158

Maximum A Posteriori (MAP) Estimation Maximising the posterior pdf 159

Maximum-Likelihood (ML) Estimation Maximising the likelihood function 160

Common problems with using statistics 161

162

Klasyfikowanie i dekodowanie w ASR poza HMM Klasyfikator k-nn Artificial Neural Networks (ANN), Sztuczne sieci neuronowe Support Vector Machine (SVM), Maszyna wektorów nośnych Dynamic Bayesian Networks (DBN), Dynamiczne sieci Bayesa Graphical Model Toolkit (GMTK) Maximum Entropy Direct Model Conditional Random Fields (CRF) 163

Wartość cechy 2 (x[2]) Modyfikacja AGH klasyfikatora k-nn 1 0.8 c 1 c 2 0.6 0.4 0.2 0-0.2-0.4 x -0.6 J. Gałka -0.8 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 Wartość cechy 1 (x[1]) 164

Artificial Neural Networks (ANN, NN) 165

Modelowanie czasu i kontekstu w ANN 166

Hosom, Cole, Fanty, CSLU at Oregon Institute of Science and Technology 167

168

169

EVALUATION AND INTEGRATION OF NEURAL- NETWORK TRAINING TECHNIQUES FOR CONTINUOUS DIGIT RECOGNITION J.-P. Hosom, R. A. Cole, and P. Cosi Features: 13 th -order MFCC with delta values (as in the baseline system, referred to as MFCC13D), 13 th -order MFCC with no delta values (MFCC13), 9 th -order MFCC with and without delta values (MFCC9D and MFCC9), 13 th -order and 9 th -order PLP with and without delta values (PLP13D, PLP13, PLP9D, PLP9), a combination of 13 th -order PLP and 13 th -order MFCC (PM13), a combination of 9 th -order PLP and 9 th -order MFCC (PM9). All PLP features were computed using RASTA pre-processing, and all MFCC features were computed using CMS pre-processing. Grammars: allowing optional silence between digits (SIL), allowing an optional garbage word as well as optional silence between digits (GAR). 170

Metodologia empirycznego oceniania Wyniki testów niczego nie dowodzą, mogą jedynie wskazywać itp. Konieczne jest rozdzielenie danych treningowych i testowych, aczkolwiek można crossować Prawo wielkich liczb, ale Niektóre systemy statystyczne mogą się przećwiczyć Oceniamy na raz wyłącznie jedną zmienną, reszta systemu musi być całkowicie stabilna Należy podać jak najwięcej szczegółów dotyczących danych testowych, a w miarę możliwości używać ogólnodostępnych testów Wyniki naukowe powinny być falsyfikowalne otwarcie na krytykę 171

Support Vector Machine (SVM) 172

173

Ganapathiraju, Hamaker, Picone: Applications of Support Vector Machines to Speech Recognition SVM nie może modelować wprost struktur czasowych Stosuje się rozwiązania hybrydowe SVM/HMM SVM zapewnia miarę i dyskryminant umożliwiający porównywanie klasyfikatorów Brak jasnych relacji między dystansem klastrów i prawdopodobieństw a posteriori Projektowanie klasyfikatora: jeden przeciwko wszystkim lub jeden na jeden Model segmentowy ze stałą liczbą regionów 174

Ganapathiraju, Hamaker, Picone: Applications of Support Vector Machines to Speech Recognition 175

Ganapathiraju, Hamaker, Picone: Applications of Support Vector Machines to Speech Recognition 176

Nieliniowe klasyfikacje SVM http://www.youtube.com/watch?v=3licbr ZPrZA 177

Rezultaty stosowania SVM z różnymi ustawieniami w rozpoznawaniu mowy 178

Sieć Bayesowska Skierowany acykliczny graf reprezentujący zbiór zmiennych losowych i zależności warunkowych między nimi. 183

Sieć Bayesowska 184

185

Dynamiczne sieci Bayesowskie Wyrażenie s ozna cza wystąpienia stanów koncepcyjnych z dyskretnymi wartościami opisującymi fizyczny system o wartościach ciągłych ze stanami x i obserwacjami y 186

187

HMM a DBN HMM jest podklasą DBN DBN reprezentuje wprost właściwości rozkładu na czynniki Rozkład na czynniki określony przez DBN narzuca warunki które model musi spełnić DBNy przekazują informację strukturalną o ukrytym problemie 188

Edinburgh articulatory DBN model manner, place, voicing, rounding, front-back, static 189

Graphical Model Toolkit extension of DBN Dopuszcza krawędzie ukierunkowane przeciwnie do upływu czasu Płaszczyzny sieci mogą obejmować wiele ramek czasowych Łamie założenia Markowa Mechanizm do przełączania dziedziczenia Dziedziczenie zmiennej może być wielokrotne a także ulokowane w przyszłości Dopuszcza różne wieloramkowe struktury pojawiające się zarówno na początku jak i na końcu sieci Bilmes, Bartels: Graphical Model Architecture for Speech Recognition 190

GMTK 191

Maximum Entropy Markov Model Kuo, Gao: Maximum Entropy Direct Models for Speech Recognition 192

Conditional Random Fields DBNy modelują dystrybucję prawdopodobieństw wielu zmiennych p(y,x) CRFy modelują dystrybucję prawdopodobieństw warunkowych p(y x) 193

Deep Neural Networks Zwykle więcej warstw Wysokopoziomowe cechy są definiowane w oparciu o niskopoziomowe 194

Dynamic Time Warping 195

196

197

198

Podsumowanie W ASR stosuje się rozwiązania konkurencyjne do HMM (knn, ANN, SVM, DBN, MEDM, GMTK, CRF, DNN). We wspomnianych metodach są problemy z modelowaniem czasu i kontekstu koartykulacyjnego, dlatego często stosuje się hybrydy z HMM. Metodologia testowania i oceny ASR Przeszukiwanie grafów szerokie i dogłębne 199