Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Wielkość: px

Rozpocząć pokaz od strony:

Download "Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski"

Michalina Grzybowska
6 lat temu
Przeglądów:

1 Automatyczne rozpoznawanie mowy Autor: mgr inż. Piotr Bratoszewski

2 Rys historyczny pierwsze systemy Automatycznego rozpoznawania mowy (ang. Automatic Speech Recognition ASR), metody holistyczne; ad-hoc ; izolowane słowa; małe słowniki; Bell Laboratories pierwsze systemy ASR oparte na zależnościach fonetycznych; małe słowniki;

3 Rys historyczny systemy oparte o rozpoznawanie wzorca (ang. pattern recognition); wykorzystanie parametrów kodowania predykcyjnego (LPC); sekwencje izolowanych lub połączonych słów; małe i średnie słowniki wprowadzenie statystycznego modelowania zależności dynamicznych i statycznych w mowie ciągłej; zastosowanie ukrytych modeli Markowa (ang. Hidden Markov Models - HMM)

4 Rys historyczny 2000-teraz kombinacje modeli HMM oraz zależności akustyczno fonetycznych w celu znajdowania i korekcji nieregularności językowych, deep learning, systemy pracujące w chmurze; zwiększanie odporności systemu na pracę w środowisku szumowym; rozpoznawanie wielomodalne

5 Istotne terminy Słownik ilość wyrazów które system jest w stanie rozpoznać: Mały słownik: wyrazów Średni słownik: wyrazów Duży słownik: ponad 1000 wyrazów (w tej chwili 50 tys. słów) System zależny/niezależny od mówcy Rozpoznawanie mowy ciągłej/izolowanej Składnia (ang. syntax) mowa naturalna/wydawanie poleceń/rozpoznawanie cyfr

6 Schemat systemu ASR Modele akustyczne Model językowy Sygnał mowy Ekstrakcja parametrów MFCC LPC Parametry Y Dekodowanie Wynik Set alarm 7 p.m. W inne

7 Parametry widmowe Podstawowymi parametrami mowy są parametry widmowe uzyskiwane poprzez analizę transformaty Fouriera sygnału mowy Analiza rozkładu formantów pozwala na rozpoznawanie samogłosek Formanty

melowe Log DCT Wektor parametrów Sygnał mowy (fragmenty) Widmo sygnału Prążki

8 Metody parametryzacji mowy Cepstralne (np. MFCC) Metody efektywne i łatwe w implementacji Transformata Fouriera Filtry melowe Log DCT Wektor parametrów Sygnał mowy (fragmenty) Widmo sygnału Prążki widma (tyle ile pasm filtru mel) Logarytmy energii poszczególnych pasm Amplitudy otrzymanego widma to MFCC

9 Metody parametryzacji mowy Filtry w skali melowej

10 Metody parametryzacji mowy Predykcyjne (LPC, PLP) Skuteczność porównywalna do MFCC w warunkach optymalnych Większa skuteczność w przypadku rozbieżności danych testowych z treningowymi Wysokość tonu Generator tonu krtaniowego Generator szumu pseudolosowego Przełącznik - pobudzenie dźwięczne / bezdźwięczne u[n] X G Parametry traktu głosowego Filtr cyfrowy zmienny w czasie H(z) s[n]

11 Model akustyczny Wymawiane słowa dzieli się na sekwencję podstawowych jednostek mowy fonemy Model akustyczny reprezentuje zależności pomiędzy sygnałem akustycznym a fonemami BROWSER BROWSER CALCULATOR CALCULATOR COMPUTER COMPUTER b r aw z ax b r aw z ax r k ae l k y uh l ey t ax k ae l k y uh l ey t ax r k ax m p y uw t ax k ax m p y uw t ax r

12 Model akustyczny W celu zamodelowania najkrócej trwających fonemów (głoski wybuchowe ang. plosive phonemes: -p; -t; -k) należy dobrać odpowiednie okno analizy typowo o długości 10 ms Przy tworzeniu modelu akustycznego korzysta się najczęściej z parametrów mel-cepstralnych (MFCC) lub parametrów LPC Typowo stosuje się modele trifonowe Istostne osobny model ciszy

13 Ukryte Modele Markowa a 22 a 33 a 44 a 12 a 23 a 34 a 45 S 1 S 2 S 3 S 4 S 5 b 2 (y 1 ) b 2 (y 2 ) b 3 (y 3 ) b 4 (y 4 ) b 4 (y 5 ) Wektor parametrów Y= y 1 y 2 y 3 y 4 y 5 (Obserwacje) Model Bakisa, (ang. left-right HMM)

14 Ukryte Modele Markowa Modelowanie procesu na podstawie skończonej liczby stanów S Opisywane są przez: N, liczba stanów M, liczba obserwacji Prawdopodobieństwo przejścia pomiędzy stanami A={a ij } Prawdopodobieństwo wygenerowania danej obserwacji w stanie j: B={b j (Y)} Rozkład początkowy prawdopodobieństwa π={π i }

odpowiadających im wyrazów W= w 1, w K zgodnie z: Ŵ = arg max[p(w Y)] W

15 Dekodowanie Zadaniem dekodera jest rozpoznanie wymawianego słowa Posiadając na wejściu wektory Y=y 1,, y T dekoder ma za zadanie rozpoznać sekwencję odpowiadających im wyrazów W= w 1, w K zgodnie z: Ŵ = arg max[p(w Y)] W Korzystając z twierdzenia Beyesa: Ŵ = arg max[p(y W) p(w)] W Model akustyczny Model językowy

16 Dekodowanie W fazie dekodowania (odkrywania ukrytej sekwencji stanów modelu HMM) często stosuje się algorytm Viterbiego

17 Model językowy K p(w)= p(w k w k-1,,w k-n+1 ) k=1 Model N-gramowy biorący pod uwagę N wyrazów wstecz Bigram: P(ala ma małego kota)=p(ala <start>) P(ma ala) P(małego ma) P(kota małego) P(<end> kota) Unigram: P(ala ma małego kota)=p(ala) P(ma) P(małego) P(kota)

18 Skuteczność rozpoznawania Do oceny skuteczności systemu ASR stosowana jest miara wyrazowej stopy błędu (ang. Word Error Rate WER) WER = D+S+I H+D+S 100% H liczba poprawnie rozpoznanych słów D liczba nie rozpoznanych słów (ang. deletions) S liczba błędnie rozpoznanych słów (ang. substitutions) I liczba wstawionych słów (ang. insertions)

19 Skuteczność rozpoznawania Wynik rzeczywistego rozpoznawania "'*'/SPEAKER03_C1_AUD1_13.rec TUESDAY WEDNESDAY THURSDAY FRIDAY SATURDAY SUNDAY MOUSE MOVE MUSIC MUTE "'*'/SPEAKER03_C1_AUD1_13.rec" TUESDAY WEDNESDAY THURSDAY FRIDAY SATURDAY SUNDAY MY AS MOVE MUSIC MUTE

20 Dynamic Time Warping Algorytm DTW dynamiczne marszczenie czasu Dwa przebiegi czasowe: Tworzenie macierzy kosztów Obliczanie ścieżki o najmniejszym koszcie

21 Poprawa rozpoznawania w szumie Stosowanie filtracji widmowej (ang. Spectral Subtraction) Stosowanie filtracji adaptacyjnej Stosowanie filtracji przestrzennej Beamforming Stosowanie różnych modeli akustycznych

22 Bimodalne rozpoznawanie mowy Dołączenie do wektora parametrów akustycznego parametrów wizyjnych Fonemy = wizemy Widowiskowe podejście czytanie z ruchu warg Teoretycznie wzrost skuteczności w warunkach szumowych Wiele problemów do rozwiązania (detekcja ust, framerate, cechy osobnicze)

23 Przykładowe systemy ASR Apple Siri Google Now

24 Przykładowe systemy ASR Intel RealSense

25 Przykładowe otwarte systemy ASR HTK Toolkit

26 Bibliografia HTK Book: speech.ee.ntu.edu.tw/homework/dsp_hw2-1/htkbook.pdf Rabiner L., A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition Benesty, Springer Handbook of Speech Processing

Podobne dokumenty

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Podstawy automatycznego rozpoznawania mowy Autor: mgr inż. Piotr Bratoszewski Rys historyczny 1930-1950 pierwsze systemy Automatycznego rozpoznawania mowy (ang. Automatic Speech Recognition ASR), metody