Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

HTML
DOWNLOAD

Wielkość: px

Rozpocząć pokaz od strony:

Download "Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski"

Franciszek Janiszewski
8 lat temu
Przeglądów:

1 Podstawy automatycznego rozpoznawania mowy Autor: mgr inż. Piotr Bratoszewski

2 Rys historyczny pierwsze systemy Automatycznego rozpoznawania mowy (ang. Automatic Speech Recognition ASR), metody holistyczne; ad-hoc ; izolowane słowa; małe słowniki; Bell Laboratories pierwsze systemy ASR oparte na zależnościach fonetycznych; małe słowniki;

3 Rys historyczny systemy oparte o rozpoznawanie wzorca (ang. pattern recognition); wykorzystanie parametrów kodowania predykcyjnego (LPC); sekwencje izolowanych lub połączonych słów; małe i średnie słowniki wprowadzenie statystycznego modelowania zależności dynamicznych i statycznych w mowie ciągłej; zastosowanie ukrytych modeli Markowa (ang. Hidden Markov Models - HMM)

4 Rys historyczny 2000-teraz kombinacje modeli HMM oraz zależności akustyczno fonetycznych w celu znajdowania i korekcji nieregularności językowych, deep learning, systemy pracujące w chmurze; zwiększanie odporności systemu na pracę w środowisku szumowym; rozpoznawanie wielomodalne

5 Istotne terminy Słownik ilość wyrazów które system jest w stanie rozpoznać: Mały słownik: wyrazów Średni słownik: wyrazów Duży słownik: ponad 1000 wyrazów (w tej chwili 50 tys. słów) System zależny/niezależny od mówcy Rozpoznawanie mowy ciągłej/izolowanej Składnia (ang. syntax) mowa naturalna/wydawanie poleceń/rozpoznawanie cyfr WER słowna stopa błędu (ang. Word Error Rate)

6 Schemat systemu ASR Modele akustyczne Model językowy Sygnał mowy Ekstrakcja parametrów MFCC LPC Parametry Y Dekodowanie Wynik Set alarm 7 p.m. W inne

7 Parametry widmowe Podstawowymi parametrami mowy są parametry widmowe uzyskiwane poprzez analizę transformaty Fouriera sygnału mowy Analiza rozkładu formantów pozwala na rozpoznawanie samogłosek Formanty

8 Metody parametryzacji mowy Cepstralne (np. MFCC) Metody efektywne i łatwe w implementacji Transformata Fouriera Filtry melowe Log DCT Wektor parametrów Sygnał mowy (fragmenty) Widmo sygnału Prążki widma (tyle ile pasm filtru mel) Logarytmy energii poszczególnych pasm Amplitudy otrzymanego widma to MFCC

9 Metody parametryzacji mowy Filtry w skali melowej

10 Metody parametryzacji mowy Predykcyjne (LPC, PLP) Skuteczność porównywalna do MFCC w warunkach optymalnych Większa skuteczność w przypadku rozbieżności danych testowych z treningowymi Wysokość tonu Generator tonu krtaniowego Generator szumu pseudolosowego Przełącznik - pobudzenie dźwięczne / bezdźwięczne u[n] X G Parametry traktu głosowego Filtr cyfrowy zmienny w czasie H(z) s[n]

11 Model akustyczny Wymawiane słowa dzieli się na sekwencję podstawowych jednostek mowy fonemy Model akustyczny reprezentuje zależności pomiędzy sygnałem akustycznym a fonemami BROWSER BROWSER CALCULATOR CALCULATOR COMPUTER COMPUTER b r aw z ax b r aw z ax r k ae l k y uh l ey t ax k ae l k y uh l ey t ax r k ax m p y uw t ax k ax m p y uw t ax r

12 Model akustyczny W celu zamodelowania najkrócej trwających fonemów (głoski wybuchowe ang. plosive phonemes: -p; -t; -k) należy dobrać odpowiednie okno analizy typowo o długości 10 ms Przy tworzeniu modelu akustycznego korzysta się najczęściej z parametrów mel-cepstralnych (MFCC) lub parametrów LPC Typowo stosuje się modele trifonowe Istotne osobny model ciszy OPEN: ow p ax n sp OPEN: sil ow+p ow-p+ax p-ax+n ax-n sp

13 Rozpoznawanie mowy Każde wypowiadane słowo jest reprezentowane przez obserwacje O: O = o 1, o 2,, ot Problem rozpoznawania mowy może być rozumiany jako obliczenie arg max{p(w i O)} i gdzie w i jest i-tym słowem ze słownika. Korzystając z Twierdzenia Bayesa: P w i O = P O w i P(w i ) P(O) Model językowy Model akustyczny Bezpośrednia estymacja łączonego prawdopodobieństwa warunkowego P o 1, o 2 w i z wymawianych słów jest niepraktyczne. Jednakże skorzystanie z modelu parametrycznego, jakim jest np. Model Markowa, problem estymacji P O w i sprowadza się do znacznie prostszego problemu jakim jest estymacja parametrów modelu Markowa.

14 Ukryte Modele Markowa a 22 a 33 a 44 Model M a 12 a 23 a 34 a 45 S 1 S 2 S 3 S 4 S 5 b 2 (o 1 ) b 2 (o 2 ) b 3 (o 3 ) b 4 (o 4 ) b 4 (o 5 ) (Obserwacje) O= o 1 o 2 o 3 o 4 o 5 Bakis Model (left-right HMM)

15 Ukryte Modele Markowa Prawdopodobieństwo, że obserwacje O zostały wygenerowane przez model M dzięki poruszaniu się przez stany X obliczane jest za pomocą: P O, X M = a 12 b 2 (o 1 ) a 22 b 2 (o 2 ) a 23 b 3 o 3 Znana jest tylko sekwencja obserwacji O natomiast sekwencja stanów X jest ukryta. Skoro X jest nieznane aby obliczyć wymagane prawdopodobieństwo należy zsumować wszystkie możliwe stany X: P O M = a x 0 x(1) b x t (o t ) a x t x t+1, X gdzie T to ilość cykli zegara w maszynie stanów. W praktyce, obliczana jest jako estymacja najbardziej prawdopodobnych sekwencji stanów: P O M = max X T t=1 T a x 0 x(1) b x(t) o t t=1 a x t x(t+1)

16 Ukryte Modele Markowa Modelowanie procesu na podstawie skończonej liczby stanów S Opisywane są przez: N, liczba stanów M, liczba obserwacji Prawdopodobieństwo przejścia pomiędzy stanami A={a ij } Prawdopodobieństwo wygenerowania danej obserwacji w stanie j: B={b j ())} Rozkład początkowy prawdopodobieństwa π={π i }

17 Dekodowanie W fazie dekodowania (odkrywania ukrytej sekwencji stanów modelu HMM) często stosuje się algorytm Viterbiego W fazie uczenia modelu (ustawiania parametrów) stosuje się algorytm Bauma-Welcha

18 Model językowy K p(w)= p(w k w k-1,,w k-n+1 ) k=1 Model N-gramowy biorący pod uwagę N wyrazów wstecz Bigram: P(ala ma małego kota)=p(ala <start>) P(ma ala) P(małego ma) P(kota małego) P(<end> kota) Unigram: P(ala ma małego kota)=p(ala) P(ma) P(małego) P(kota)

19 Skuteczność rozpoznawania Do oceny skuteczności systemu ASR stosowana jest miara wyrazowej stopy błędu (ang. Word Error Rate WER) WER = D+S+I H+D+S 100% H liczba poprawnie rozpoznanych słów D liczba nie rozpoznanych słów (ang. deletions) S liczba błędnie rozpoznanych słów (ang. substitutions) I liczba wstawionych słów (ang. insertions)

20 Skuteczność rozpoznawania Wynik rzeczywistego rozpoznawania "'*'/SPEAKER03_C1_AUD1_13.rec TUESDAY WEDNESDAY THURSDAY FRIDAY SATURDAY SUNDAY MOUSE MOVE MUSIC MUTE "'*'/SPEAKER03_C1_AUD1_13.rec" TUESDAY WEDNESDAY THURSDAY FRIDAY SATURDAY SUNDAY MY AS MOVE MUSIC MUTE

21 Dynamic Time Warping Algorytm DTW dynamiczne marszczenie czasu Dwa przebiegi czasowe: Tworzenie macierzy kosztów Obliczanie ścieżki o najmniejszym koszcie

22 Poprawa rozpoznawania w szumie Stosowanie filtracji widmowej (ang. Spectral Subtraction) Stosowanie filtracji adaptacyjnej Stosowanie filtracji przestrzennej Beamforming Stosowanie różnych modeli akustycznych

23 Bimodalne rozpoznawanie mowy Dołączenie do wektora parametrów akustycznego parametrów wizyjnych Fonemy = wizemy Widowiskowe podejście czytanie z ruchu warg Teoretycznie wzrost skuteczności w warunkach szumowych Wiele problemów do rozwiązania (detekcja ust, framerate, cechy osobnicze)

24 Przykładowe systemy ASR Apple Siri Google Now

25 Przykładowe systemy ASR Intel RealSense

26 Przykładowe otwarte systemy ASR HTK Toolkit

27 Bibliografia HTK Book: speech.ee.ntu.edu.tw/homework/dsp_hw2-1/htkbook.pdf Rabiner L., A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition Benesty, Springer Handbook of Speech Processing

Podobne dokumenty

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Automatyczne rozpoznawanie mowy Autor: mgr inż. Piotr Bratoszewski Rys historyczny 1930-1950 pierwsze systemy Automatycznego rozpoznawania mowy (ang. Automatic Speech Recognition ASR), metody holistyczne;