Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Podobne dokumenty
Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Omówienie różnych metod rozpoznawania mowy

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

dr inż. Jacek Naruniec

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Komputerowe przetwarzanie sygnału mowy

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

Czym jest HTK HMMs ASR

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

Technologie Mowy Bartosz Ziółko

Opisy efektów kształcenia dla modułu

PRACA DYPLOMOWA Inżynierska

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

Statystyczna analiza danych

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

PRAKTYCZNE ASPEKTY WYKORZYSTYWANIA SYSTEMÓW ROZPOZNAWANIA MOWY OPARTYCH NA HMM

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

TEORIA WYTWARZANIA DŹWIĘKÓW

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

WPROWADZENIE DO SZTUCZNEJ INTELIGENCJI

Semantyczne kodowanie mowy przy bardzo małych prędkościach transmisji.

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Automatyczna tablica okulistyczna w oparciu o mel-cepstralną analizę sygnału mowy

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

Przetwarzanie sygnałów biomedycznych

Zastosowanie współczynników HFCC jako cech sygnału mowy w automatycznej detekcji wad wymowy

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Rozpoznawanie mowy za pomocą HTK

TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA

Metody systemowe i decyzyjne w informatyce

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Praca dyplomowa magisterska

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

KLASYFIKACJA ZDAŃ W SYGNALE

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

Algorytmy detekcji częstotliwości podstawowej

Praca dyplomowa inżynierska

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

Analiza sygnału mowy sterowana danymi dla rozpoznawania komend głosowych

Inteligentne metody rozpoznawania dźwięku

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Realizowany w roku akademickim 2016/2017

Rozpoznawanie obrazów

Politechnika Wrocławska

Technologia dynamicznego podpisu biometrycznego

Elementy modelowania matematycznego

Biometryczna Identyfikacja Tożsamości

Zastosowanie algorytmu DTW jako narzędzia w identyfikacji mówcy

Metody systemowe i decyzyjne w informatyce

Rozpoznawanie obrazów

Inwersja mowy za pomocą nieliniowej transfomacji czasowej Inversion of speech by non-linear transformation of temporary

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Biometryczna Identyfikacja Tożsamości

Krzysztof Ślot Biometria Łódź, ul. Wólczańska 211/215, bud. B9 tel

Prof. Stanisław Jankowski

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Ćwiczenie 11. Podstawy akwizycji i cyfrowego przetwarzania sygnałów. Program ćwiczenia:

Metody analizy zapisu EEG. Piotr Walerjan

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

58. Otwarte Seminarium z Akustyki, OSA '11, Gdańsk-Jurata, September 2011

Metodyka i system dopasowania protez słuchu w oparciu o badanie percepcji sygnału mowy w szumie

Technika audio część 2

Rozpoznawanie obrazów

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

W11 Kody nadmiarowe, zastosowania w transmisji danych

HAŁASU Z UWZGLĘDNIENIEM ZJAWISK O CHARAKTERZE NIELINIOWYM

Adam Korzeniewski - p. 732 dr inż. Grzegorz Szwoch - p. 732 dr inż.

Kompresja dźwięku w standardzie MPEG-1

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Układy stochastyczne

I. Gramatyka. Poniżej prezentowana jest realizowana gramatyka:

Sprawozdanie z laboratoriów HTK!

PRACA DYPLOMOWA Inżynierska

KARTA MODUŁU / KARTA PRZEDMIOTU

Widzenie komputerowe (computer vision)

Podstawowe modele probabilistyczne

Zastosowanie automatycznego rozpoznawania mówców w kryminalistyce

CYFROWE PRZETWARZANIE SYGNAŁÓW

Ewaluacja mowy syntetycznej za pomocą systemu rozpoznawania mowy

ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 4. Wybrane telekomunikacyjne zastosowania algorytmów adaptacyjnych

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

BIOMETRIA WYKŁAD 6 CECHY BIOMETRYCZNE: GŁOS

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Twierdzenie o splocie

Programowanie dynamiczne i algorytmy zachłanne

Audiowizualne rozpoznawanie mowy. Autor: Piotr Bratoszewski

ALGORYTM RANDOM FOREST

SPOTKANIE 11: Reinforcement learning

Generowanie liczb o zadanym rozkładzie. ln(1 F (y) λ

Metody systemowe i decyzyjne w informatyce

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Automatyczna klasyfikacja instrumentów szarpanych w multimedialnych bazach danych

BADANIA MOŻLIWOŚCI ROZPOZNAWANIA MOWY W AUTONOMICZNYCH SYSTEMACH STEROWANIA

Transkrypt:

Podstawy automatycznego rozpoznawania mowy Autor: mgr inż. Piotr Bratoszewski

Rys historyczny 1930-1950 pierwsze systemy Automatycznego rozpoznawania mowy (ang. Automatic Speech Recognition ASR), metody holistyczne; ad-hoc ; izolowane słowa; małe słowniki; Bell Laboratories 1950-1960 pierwsze systemy ASR oparte na zależnościach fonetycznych; małe słowniki;

Rys historyczny 1960-1980 systemy oparte o rozpoznawanie wzorca (ang. pattern recognition); wykorzystanie parametrów kodowania predykcyjnego (LPC); sekwencje izolowanych lub połączonych słów; małe i średnie słowniki 1980-2000 wprowadzenie statystycznego modelowania zależności dynamicznych i statycznych w mowie ciągłej; zastosowanie ukrytych modeli Markowa (ang. Hidden Markov Models - HMM)

Rys historyczny 2000-teraz kombinacje modeli HMM oraz zależności akustyczno fonetycznych w celu znajdowania i korekcji nieregularności językowych, deep learning, systemy pracujące w chmurze; zwiększanie odporności systemu na pracę w środowisku szumowym; rozpoznawanie wielomodalne

Istotne terminy Słownik ilość wyrazów które system jest w stanie rozpoznać: Mały słownik: 2 100 wyrazów Średni słownik: 100 1000 wyrazów Duży słownik: ponad 1000 wyrazów (w tej chwili 50 tys. słów) System zależny/niezależny od mówcy Rozpoznawanie mowy ciągłej/izolowanej Składnia (ang. syntax) mowa naturalna/wydawanie poleceń/rozpoznawanie cyfr WER słowna stopa błędu (ang. Word Error Rate)

Schemat systemu ASR Modele akustyczne Model językowy Sygnał mowy Ekstrakcja parametrów MFCC LPC Parametry Y Dekodowanie Wynik Set alarm 7 p.m. W inne

Parametry widmowe Podstawowymi parametrami mowy są parametry widmowe uzyskiwane poprzez analizę transformaty Fouriera sygnału mowy Analiza rozkładu formantów pozwala na rozpoznawanie samogłosek Formanty

Metody parametryzacji mowy Cepstralne (np. MFCC) Metody efektywne i łatwe w implementacji Transformata Fouriera Filtry melowe Log DCT Wektor parametrów Sygnał mowy (fragmenty) Widmo sygnału Prążki widma (tyle ile pasm filtru mel) Logarytmy energii poszczególnych pasm Amplitudy otrzymanego widma to MFCC 2016-06-13

Metody parametryzacji mowy Filtry w skali melowej

Metody parametryzacji mowy Predykcyjne (LPC, PLP) Skuteczność porównywalna do MFCC w warunkach optymalnych Większa skuteczność w przypadku rozbieżności danych testowych z treningowymi Wysokość tonu Generator tonu krtaniowego Generator szumu pseudolosowego Przełącznik - pobudzenie dźwięczne / bezdźwięczne u[n] X G Parametry traktu głosowego Filtr cyfrowy zmienny w czasie H(z) s[n] 2016-06-13

Model akustyczny Wymawiane słowa dzieli się na sekwencję podstawowych jednostek mowy fonemy Model akustyczny reprezentuje zależności pomiędzy sygnałem akustycznym a fonemami BROWSER BROWSER CALCULATOR CALCULATOR COMPUTER COMPUTER b r aw z ax b r aw z ax r k ae l k y uh l ey t ax k ae l k y uh l ey t ax r k ax m p y uw t ax k ax m p y uw t ax r

Model akustyczny W celu zamodelowania najkrócej trwających fonemów (głoski wybuchowe ang. plosive phonemes: -p; -t; -k) należy dobrać odpowiednie okno analizy typowo o długości 10 ms Przy tworzeniu modelu akustycznego korzysta się najczęściej z parametrów mel-cepstralnych (MFCC) lub parametrów LPC Typowo stosuje się modele trifonowe Istotne osobny model ciszy OPEN: ow p ax n sp OPEN: sil ow+p ow-p+ax p-ax+n ax-n sp

Rozpoznawanie mowy Każde wypowiadane słowo jest reprezentowane przez obserwacje O: O = o 1, o 2,, ot Problem rozpoznawania mowy może być rozumiany jako obliczenie arg max{p(w i O)} i gdzie w i jest i-tym słowem ze słownika. Korzystając z Twierdzenia Bayesa: P w i O = P O w i P(w i ) P(O) Model językowy Model akustyczny Bezpośrednia estymacja łączonego prawdopodobieństwa warunkowego P o 1, o 2 w i z wymawianych słów jest niepraktyczne. Jednakże skorzystanie z modelu parametrycznego, jakim jest np. Model Markowa, problem estymacji P O w i sprowadza się do znacznie prostszego problemu jakim jest estymacja parametrów modelu Markowa.

Ukryte Modele Markowa a 22 a 33 a 44 Model M a 12 a 23 a 34 a 45 S 1 S 2 S 3 S 4 S 5 b 2 (o 1 ) b 2 (o 2 ) b 3 (o 3 ) b 4 (o 4 ) b 4 (o 5 ) (Obserwacje) O= o 1 o 2 o 3 o 4 o 5 Bakis Model (left-right HMM)

Ukryte Modele Markowa Prawdopodobieństwo, że obserwacje O zostały wygenerowane przez model M dzięki poruszaniu się przez stany X obliczane jest za pomocą: P O, X M = a 12 b 2 (o 1 ) a 22 b 2 (o 2 ) a 23 b 3 o 3 Znana jest tylko sekwencja obserwacji O natomiast sekwencja stanów X jest ukryta. Skoro X jest nieznane aby obliczyć wymagane prawdopodobieństwo należy zsumować wszystkie możliwe stany X: P O M = a x 0 x(1) b x t (o t ) a x t x t+1, X gdzie T to ilość cykli zegara w maszynie stanów. W praktyce, obliczana jest jako estymacja najbardziej prawdopodobnych sekwencji stanów: P O M = max X T t=1 T a x 0 x(1) b x(t) o t t=1 a x t x(t+1)

Ukryte Modele Markowa Modelowanie procesu na podstawie skończonej liczby stanów S Opisywane są przez: N, liczba stanów M, liczba obserwacji Prawdopodobieństwo przejścia pomiędzy stanami A={a ij } Prawdopodobieństwo wygenerowania danej obserwacji w stanie j: B={b j ())} Rozkład początkowy prawdopodobieństwa π={π i }

Dekodowanie W fazie dekodowania (odkrywania ukrytej sekwencji stanów modelu HMM) często stosuje się algorytm Viterbiego W fazie uczenia modelu (ustawiania parametrów) stosuje się algorytm Bauma-Welcha

Model językowy K p(w)= p(w k w k-1,,w k-n+1 ) k=1 Model N-gramowy biorący pod uwagę N wyrazów wstecz Bigram: P(ala ma małego kota)=p(ala <start>) P(ma ala) P(małego ma) P(kota małego) P(<end> kota) Unigram: P(ala ma małego kota)=p(ala) P(ma) P(małego) P(kota)

Skuteczność rozpoznawania Do oceny skuteczności systemu ASR stosowana jest miara wyrazowej stopy błędu (ang. Word Error Rate WER) WER = D+S+I H+D+S 100% H liczba poprawnie rozpoznanych słów D liczba nie rozpoznanych słów (ang. deletions) S liczba błędnie rozpoznanych słów (ang. substitutions) I liczba wstawionych słów (ang. insertions)

Skuteczność rozpoznawania Wynik rzeczywistego rozpoznawania "'*'/SPEAKER03_C1_AUD1_13.rec 999999 5889999 TUESDAY 7889999 14239999 WEDNESDAY 16239999 22729999 THURSDAY 24729999 31399999 FRIDAY 33399999 41129999 SATURDAY 43129999 49709999 SUNDAY 51709999 57859999 MOUSE 59859999 64749999 MOVE 66749999 71429999 MUSIC 73429999 78809999 MUTE "'*'/SPEAKER03_C1_AUD1_13.rec" 600000 7600000 TUESDAY 7600000 16000000 WEDNESDAY 16000000 24700000 THURSDAY 24700000 33400000 FRIDAY 33400000 43200000 SATURDAY 43200000 51900000 SUNDAY 51900000 55200000 MY 55200000 60200000 AS 60200000 67200000 MOVE 67200000 74000000 MUSIC 74000000 80500000 MUTE

Dynamic Time Warping Algorytm DTW dynamiczne marszczenie czasu Dwa przebiegi czasowe: Tworzenie macierzy kosztów Obliczanie ścieżki o najmniejszym koszcie

Poprawa rozpoznawania w szumie Stosowanie filtracji widmowej (ang. Spectral Subtraction) Stosowanie filtracji adaptacyjnej Stosowanie filtracji przestrzennej Beamforming Stosowanie różnych modeli akustycznych

Bimodalne rozpoznawanie mowy Dołączenie do wektora parametrów akustycznego parametrów wizyjnych Fonemy = wizemy Widowiskowe podejście czytanie z ruchu warg Teoretycznie wzrost skuteczności w warunkach szumowych Wiele problemów do rozwiązania (detekcja ust, framerate, cechy osobnicze)

Przykładowe systemy ASR Apple Siri Google Now

Przykładowe systemy ASR Intel RealSense

Przykładowe otwarte systemy ASR HTK Toolkit

Bibliografia HTK Book: speech.ee.ntu.edu.tw/homework/dsp_hw2-1/htkbook.pdf Rabiner L., A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition Benesty, Springer Handbook of Speech Processing