Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Podobne dokumenty
Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Omówienie różnych metod rozpoznawania mowy

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

dr inż. Jacek Naruniec

Komputerowe przetwarzanie sygnału mowy

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

Technologie Mowy Bartosz Ziółko

Opisy efektów kształcenia dla modułu

TEORIA WYTWARZANIA DŹWIĘKÓW

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

Czym jest HTK HMMs ASR

PRACA DYPLOMOWA Inżynierska

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

Semantyczne kodowanie mowy przy bardzo małych prędkościach transmisji.

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

Zastosowanie współczynników HFCC jako cech sygnału mowy w automatycznej detekcji wad wymowy

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

Rozpoznawanie mowy za pomocą HTK

PRAKTYCZNE ASPEKTY WYKORZYSTYWANIA SYSTEMÓW ROZPOZNAWANIA MOWY OPARTYCH NA HMM

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Przetwarzanie sygnałów biomedycznych

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Automatyczna tablica okulistyczna w oparciu o mel-cepstralną analizę sygnału mowy

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

WPROWADZENIE DO SZTUCZNEJ INTELIGENCJI

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Statystyczna analiza danych

Praca dyplomowa inżynierska

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

Analiza sygnału mowy sterowana danymi dla rozpoznawania komend głosowych

Zastosowanie algorytmu DTW jako narzędzia w identyfikacji mówcy

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

Inteligentne metody rozpoznawania dźwięku

Krzysztof Ślot Biometria Łódź, ul. Wólczańska 211/215, bud. B9 tel

KLASYFIKACJA ZDAŃ W SYGNALE

Biometryczna Identyfikacja Tożsamości

Technologia dynamicznego podpisu biometrycznego

Politechnika Wrocławska

58. Otwarte Seminarium z Akustyki, OSA '11, Gdańsk-Jurata, September 2011

Biometryczna Identyfikacja Tożsamości

Adam Korzeniewski - p. 732 dr inż. Grzegorz Szwoch - p. 732 dr inż.

Sprawozdanie z laboratoriów HTK!

Metody systemowe i decyzyjne w informatyce

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Realizowany w roku akademickim 2016/2017

PRACA DYPLOMOWA Inżynierska

Technika audio część 2

Inwersja mowy za pomocą nieliniowej transfomacji czasowej Inversion of speech by non-linear transformation of temporary

Ćwiczenie 11. Podstawy akwizycji i cyfrowego przetwarzania sygnałów. Program ćwiczenia:

Algorytmy detekcji częstotliwości podstawowej

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

Elementy modelowania matematycznego

Audiowizualne rozpoznawanie mowy. Autor: Piotr Bratoszewski

Praca dyplomowa magisterska

ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 4. Wybrane telekomunikacyjne zastosowania algorytmów adaptacyjnych

Praca dyplomowa magisterska

Kompresja Kodowanie arytmetyczne. Dariusz Sobczuk

Biometryczna Identyfikacja Tożsamości

Widzenie komputerowe (computer vision)

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Korpusy mowy i narzędzia do ich przetwarzania

Prof. Stanisław Jankowski

HAŁASU Z UWZGLĘDNIENIEM ZJAWISK O CHARAKTERZE NIELINIOWYM

Magisterska praca dyplomowa

Rozpoznawanie obrazów

Zastosowanie automatycznego rozpoznawania mówców w kryminalistyce

Kompresja dźwięku w standardzie MPEG-1

Akwizycja i przetwarzanie sygnałów cyfrowych

ANALIZA SZYBKIEJ IDENTYFIKACJI MÓW- CY IMPLEMENTOWANYCH W ŚRODOWI- SKU MATLAB ORAZ CODE COMPOSER STUDIO

HARMONOGRAM ORAZ INSTRUKCJE DWICZEO

METODY KODOWANIA SYGNAŁU MOWY DO ZASTOSOWAŃ W TELEKOMUNIKACJI

Metodyka i system dopasowania protez słuchu w oparciu o badanie percepcji sygnału mowy w szumie

Przetwarzanie sygnałów w telekomunikacji

W11 Kody nadmiarowe, zastosowania w transmisji danych

Segmentacja akustycznej bazy językowej na potrzeby realizacji korpusowej syntezy mowy w systemie Festival

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Transformata Fouriera

BIOMETRIA WYKŁAD 6 CECHY BIOMETRYCZNE: GŁOS

Egzamin / zaliczenie na ocenę*

ZAAWANSOWANE ZAGADNIENIA ELEKTRONIKI

KARTA MODUŁU / KARTA PRZEDMIOTU

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

PRACA DYPLOMOWA INŻYNIERSKA

Rozpoznawanie obrazów

Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka polskiego na potrzeby systemu rozpoznawania mowy

Praca dyplomowa inżynierska

Automatyczna klasyfikacja instrumentów szarpanych w multimedialnych bazach danych

Ewaluacja mowy syntetycznej za pomocą systemu rozpoznawania mowy

1. Pojęcia związane z dynamiką fazy dynamiczne sygnału

TEORIA OBWODÓW I SYGNAŁÓW LABORATORIUM

Metody analizy zapisu EEG. Piotr Walerjan

ALGORYTM RANDOM FOREST

Układy stochastyczne

Transkrypt:

Automatyczne rozpoznawanie mowy Autor: mgr inż. Piotr Bratoszewski

Rys historyczny 1930-1950 pierwsze systemy Automatycznego rozpoznawania mowy (ang. Automatic Speech Recognition ASR), metody holistyczne; ad-hoc ; izolowane słowa; małe słowniki; Bell Laboratories 1950-1960 pierwsze systemy ASR oparte na zależnościach fonetycznych; małe słowniki;

Rys historyczny 1960-1980 systemy oparte o rozpoznawanie wzorca (ang. pattern recognition); wykorzystanie parametrów kodowania predykcyjnego (LPC); sekwencje izolowanych lub połączonych słów; małe i średnie słowniki 1980-2000 wprowadzenie statystycznego modelowania zależności dynamicznych i statycznych w mowie ciągłej; zastosowanie ukrytych modeli Markowa (ang. Hidden Markov Models - HMM)

Rys historyczny 2000-teraz kombinacje modeli HMM oraz zależności akustyczno fonetycznych w celu znajdowania i korekcji nieregularności językowych, deep learning, systemy pracujące w chmurze; zwiększanie odporności systemu na pracę w środowisku szumowym; rozpoznawanie wielomodalne

Istotne terminy Słownik ilość wyrazów które system jest w stanie rozpoznać: Mały słownik: 2 100 wyrazów Średni słownik: 100 1000 wyrazów Duży słownik: ponad 1000 wyrazów (w tej chwili 50 tys. słów) System zależny/niezależny od mówcy Rozpoznawanie mowy ciągłej/izolowanej Składnia (ang. syntax) mowa naturalna/wydawanie poleceń/rozpoznawanie cyfr

Schemat systemu ASR Modele akustyczne Model językowy Sygnał mowy Ekstrakcja parametrów MFCC LPC Parametry Y Dekodowanie Wynik Set alarm 7 p.m. W inne

Parametry widmowe Podstawowymi parametrami mowy są parametry widmowe uzyskiwane poprzez analizę transformaty Fouriera sygnału mowy Analiza rozkładu formantów pozwala na rozpoznawanie samogłosek Formanty

Metody parametryzacji mowy Cepstralne (np. MFCC) Metody efektywne i łatwe w implementacji Transformata Fouriera Filtry melowe Log DCT Wektor parametrów Sygnał mowy (fragmenty) Widmo sygnału Prążki widma (tyle ile pasm filtru mel) Logarytmy energii poszczególnych pasm Amplitudy otrzymanego widma to MFCC 2016-01-19

Metody parametryzacji mowy Filtry w skali melowej

Metody parametryzacji mowy Predykcyjne (LPC, PLP) Skuteczność porównywalna do MFCC w warunkach optymalnych Większa skuteczność w przypadku rozbieżności danych testowych z treningowymi Wysokość tonu Generator tonu krtaniowego Generator szumu pseudolosowego Przełącznik - pobudzenie dźwięczne / bezdźwięczne u[n] X G Parametry traktu głosowego Filtr cyfrowy zmienny w czasie H(z) s[n] 2016-01-19

Model akustyczny Wymawiane słowa dzieli się na sekwencję podstawowych jednostek mowy fonemy Model akustyczny reprezentuje zależności pomiędzy sygnałem akustycznym a fonemami BROWSER BROWSER CALCULATOR CALCULATOR COMPUTER COMPUTER b r aw z ax b r aw z ax r k ae l k y uh l ey t ax k ae l k y uh l ey t ax r k ax m p y uw t ax k ax m p y uw t ax r

Model akustyczny W celu zamodelowania najkrócej trwających fonemów (głoski wybuchowe ang. plosive phonemes: -p; -t; -k) należy dobrać odpowiednie okno analizy typowo o długości 10 ms Przy tworzeniu modelu akustycznego korzysta się najczęściej z parametrów mel-cepstralnych (MFCC) lub parametrów LPC Typowo stosuje się modele trifonowe Istostne osobny model ciszy

Ukryte Modele Markowa a 22 a 33 a 44 a 12 a 23 a 34 a 45 S 1 S 2 S 3 S 4 S 5 b 2 (y 1 ) b 2 (y 2 ) b 3 (y 3 ) b 4 (y 4 ) b 4 (y 5 ) Wektor parametrów Y= y 1 y 2 y 3 y 4 y 5 (Obserwacje) Model Bakisa, (ang. left-right HMM)

Ukryte Modele Markowa Modelowanie procesu na podstawie skończonej liczby stanów S Opisywane są przez: N, liczba stanów M, liczba obserwacji Prawdopodobieństwo przejścia pomiędzy stanami A={a ij } Prawdopodobieństwo wygenerowania danej obserwacji w stanie j: B={b j (Y)} Rozkład początkowy prawdopodobieństwa π={π i }

Dekodowanie Zadaniem dekodera jest rozpoznanie wymawianego słowa Posiadając na wejściu wektory Y=y 1,, y T dekoder ma za zadanie rozpoznać sekwencję odpowiadających im wyrazów W= w 1, w K zgodnie z: Ŵ = arg max[p(w Y)] W Korzystając z twierdzenia Beyesa: Ŵ = arg max[p(y W) p(w)] W Model akustyczny Model językowy

Dekodowanie W fazie dekodowania (odkrywania ukrytej sekwencji stanów modelu HMM) często stosuje się algorytm Viterbiego

Model językowy K p(w)= p(w k w k-1,,w k-n+1 ) k=1 Model N-gramowy biorący pod uwagę N wyrazów wstecz Bigram: P(ala ma małego kota)=p(ala <start>) P(ma ala) P(małego ma) P(kota małego) P(<end> kota) Unigram: P(ala ma małego kota)=p(ala) P(ma) P(małego) P(kota)

Skuteczność rozpoznawania Do oceny skuteczności systemu ASR stosowana jest miara wyrazowej stopy błędu (ang. Word Error Rate WER) WER = D+S+I H+D+S 100% H liczba poprawnie rozpoznanych słów D liczba nie rozpoznanych słów (ang. deletions) S liczba błędnie rozpoznanych słów (ang. substitutions) I liczba wstawionych słów (ang. insertions)

Skuteczność rozpoznawania Wynik rzeczywistego rozpoznawania "'*'/SPEAKER03_C1_AUD1_13.rec 999999 5889999 TUESDAY 7889999 14239999 WEDNESDAY 16239999 22729999 THURSDAY 24729999 31399999 FRIDAY 33399999 41129999 SATURDAY 43129999 49709999 SUNDAY 51709999 57859999 MOUSE 59859999 64749999 MOVE 66749999 71429999 MUSIC 73429999 78809999 MUTE "'*'/SPEAKER03_C1_AUD1_13.rec" 600000 7600000 TUESDAY 7600000 16000000 WEDNESDAY 16000000 24700000 THURSDAY 24700000 33400000 FRIDAY 33400000 43200000 SATURDAY 43200000 51900000 SUNDAY 51900000 55200000 MY 55200000 60200000 AS 60200000 67200000 MOVE 67200000 74000000 MUSIC 74000000 80500000 MUTE

Dynamic Time Warping Algorytm DTW dynamiczne marszczenie czasu Dwa przebiegi czasowe: Tworzenie macierzy kosztów Obliczanie ścieżki o najmniejszym koszcie

Poprawa rozpoznawania w szumie Stosowanie filtracji widmowej (ang. Spectral Subtraction) Stosowanie filtracji adaptacyjnej Stosowanie filtracji przestrzennej Beamforming Stosowanie różnych modeli akustycznych

Bimodalne rozpoznawanie mowy Dołączenie do wektora parametrów akustycznego parametrów wizyjnych Fonemy = wizemy Widowiskowe podejście czytanie z ruchu warg Teoretycznie wzrost skuteczności w warunkach szumowych Wiele problemów do rozwiązania (detekcja ust, framerate, cechy osobnicze)

Przykładowe systemy ASR Apple Siri Google Now

Przykładowe systemy ASR Intel RealSense

Przykładowe otwarte systemy ASR HTK Toolkit

Bibliografia HTK Book: speech.ee.ntu.edu.tw/homework/dsp_hw2-1/htkbook.pdf Rabiner L., A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition Benesty, Springer Handbook of Speech Processing