AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Podobne dokumenty
Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

Omówienie różnych metod rozpoznawania mowy

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Komputerowe przetwarzanie sygnału mowy

dr inż. Jacek Naruniec

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

Biometryczna Identyfikacja Tożsamości

Czym jest HTK HMMs ASR

Biometryczna Identyfikacja Tożsamości

Opisy efektów kształcenia dla modułu

TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA

Biometryczna Identyfikacja Tożsamości

PRAKTYCZNE ASPEKTY WYKORZYSTYWANIA SYSTEMÓW ROZPOZNAWANIA MOWY OPARTYCH NA HMM

Technologie Mowy Bartosz Ziółko

Rozpoznawanie mówcy i emocji

Automatyczna tablica okulistyczna w oparciu o mel-cepstralną analizę sygnału mowy

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

ANALIZA SZYBKIEJ IDENTYFIKACJI MÓW- CY IMPLEMENTOWANYCH W ŚRODOWI- SKU MATLAB ORAZ CODE COMPOSER STUDIO

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

Zastosowanie algorytmu DTW jako narzędzia w identyfikacji mówcy

Zastosowanie współczynników HFCC jako cech sygnału mowy w automatycznej detekcji wad wymowy

Diagnostyka silnika synchronicznego oparta na analizie sygnałów akustycznych z zastosowaniem MFCC i klasyfikatora rozmytego

Praca dyplomowa inżynierska

Seminarium DSP AGH. Przegląd technik zwiększających wydajność obliczeniową algorytmów weryfikacji mówcy opartych o modelowanie GMM-UBM oraz HMM

Transpozer czasowy mowy

PRACA DYPLOMOWA Inżynierska

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

KOMPUTEROWE TECHNIKI ANALIZY INFORMACJI ZAWARTEJ W SYGNAŁACH AKUSTYCZNYCH MASZYN ELEKTRYCZNYCH DLA CELÓW DIAGNOSTYKI STANÓW PRZEDAWARYJNYCH

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

Lokalizacja Oprogramowania

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Krzysztof Ślot Biometria Łódź, ul. Wólczańska 211/215, bud. B9 tel

BADANIA MOŻLIWOŚCI ROZPOZNAWANIA MOWY W AUTONOMICZNYCH SYSTEMACH STEROWANIA

58. Otwarte Seminarium z Akustyki, OSA '11, Gdańsk-Jurata, September 2011

Inwersja mowy za pomocą nieliniowej transfomacji czasowej Inversion of speech by non-linear transformation of temporary

Sprawozdanie z laboratoriów HTK!

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Przesył mowy przez internet

Politechnika Wrocławska

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Realizowany w roku akademickim 2016/2017

Korpusy mowy i narzędzia do ich przetwarzania

Algorytmy detekcji częstotliwości podstawowej

Zagadnienia egzaminacyjne ELEKTRONIKA I TELEKOMUNIKACJA studia rozpoczynające się przed r.

Analiza sygnału mowy sterowana danymi dla rozpoznawania komend głosowych

BIOMETRIA WYKŁAD 6 CECHY BIOMETRYCZNE: GŁOS

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Modelowanie języka naturalnego (polskiego) dla potrzeb budowy systemu rozpoznawania mowy klasy LVCSR

Semantyczne kodowanie mowy przy bardzo małych prędkościach transmisji.

AUTOMATYKA INFORMATYKA

Analiza sygnałów biologicznych

KLASYFIKACJA ZDAŃ W SYGNALE

Inteligentne metody rozpoznawania dźwięku

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

Imagination Is More Important Than Knowledge

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Rozpoznawanie mowy dla języków semickich. HMM - HTK, CMU SPHINX-4, Simon

Rozpoznawanie mowy za pomocą HTK

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

Program warsztatów CLARIN-PL

STEROWANIE GŁOSEM URZĄDZENIAMI MECHATRONICZNYMI KONCEPCJA STANOWISKA DYDAKTYCZNEGO

Analiza danych. TEMATYKA PRZEDMIOTU

Cyfrowe przetwarzanie i kompresja danych

PRACA DYPLOMOWA INŻYNIERSKA

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Analiza danych tekstowych i języka naturalnego

Klasyfikacja mówców oparta na modelowaniu GMM-UBM dla mowy o różnej jakości

Projekt badawczy. Zastosowania technologii dynamicznego podpisu biometrycznego

Technologia dynamicznego podpisu biometrycznego

Magisterska praca dyplomowa

Widzenie komputerowe (computer vision)

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Zastosowanie automatycznego rozpoznawania mówców w kryminalistyce

Selekcja cech osobniczych sygnału mowy z wykorzystaniem algorytmów genetycznych

WPROWADZENIE DO SZTUCZNEJ INTELIGENCJI

Grafika Komputerowa Wykład 2. Przetwarzanie obrazów. mgr inż. Michał Chwesiuk 1/38

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

KLASYFIKACJA. Słownik języka polskiego

PRACA DYPLOMOWA Inżynierska

Praca dyplomowa inżynierska

dr inż. Ewa Kuśmierek, Kierownik Projektu Warszawa, 25 czerwca 2014 r.

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

LABORATORIUM AKUSTYKI MUZYCZNEJ. Ćw. nr 12. Analiza falkowa dźwięków instrumentów muzycznych. 1. PODSTAWY TEORETYCZNE ANALIZY FALKOWEJ.

Pattern Classification

SPOTKANIE 2: Wprowadzenie cz. I

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Aplikacja testowej wersji tezaurusa w systemie komputerowym ALEPH w Bibliotece CIOP-PIB

9. Dyskretna transformata Fouriera algorytm FFT

Modelowanie i optymalizacja generatora cech dla systemu rozpoznawania mówcy

Transkrypt:

AKUSTYKA MOWY Podstawy rozpoznawania mowy część I

PLAN WYKŁADU Część I Podstawowe pojęcia z dziedziny rozpoznawania mowy Algorytmy, parametry i podejścia do rozpoznawania mowy Przykłady istniejących bibliotek i systemów

PODSTAWOWE POJĘCIA

PODSTAWOWE POJĘCIA ASR Automatic Speech Recognition inaczej Speech-To-Text zamiana informacji w formie mowy ludzkiej na tekst Speaker Recognition rozpoznawanie mówcy (niezależne od treści lub na hasło) Voice Recognition rozpoznawanie komend głosowych konkretnego mówcy (trening) Speech Recognition rozpoznawanie treści wypowiedzi niezależnie od mówcy LVCSR Large Vocabulary Continuous Speech Recognition rozpoznawanie mowy ciągłej (np. dyktowanie tekstu)

MIARY DOKŁADNOŚCI WER Word Error Rate SER Sentence Error Rate WER = (S + D + I)/N S liczba pomylonych słów D liczba pominiętych słów I liczba wstawionych słów N liczba wszystkich słów

PARAMETRY I ALGORYTMY

OGÓLNY SCHEMAT SYSTEMU ASR sygnał mowy dane uczące model akustyczny model leksykalny i gramatyczny ekstrakcja cech klasyfikacja korekta tekst

PARAMETRY MEL-CEPSTRALNE Parametry mel-cepstralne (ang. MFCC Mel- Frequency Cepstral Coefficients) to parametry szeroko stosowane w akustyce mowy oraz w kompresji sygnałów fonicznych. Powstają z cepstrum sygnału przedstawionego w skali melowej (mel-cepstrum). 8

PARAMETRY MEL-CEPSTRALNE Sygnał dzielony na okna wg zadanego algorytmu (fonemy, głoski, wg energii itd.) Jeden filtr melowy jeden prążek jeden współczynnik jeden parametr mel-cepstralny Transformata kosinusowa logarytmów współczynników uzyskanych z filtracji sygnału, tak jakby były nowym sygnałem Sygnał mowy (fragmenty) Filtry melowe Widmo sygnału Prążki widma (tyle ile pasm filtru mel) DCT Logarytmy energii poszczególnych pasm Amplitudy otrzymanego widma (cepstrum) to MFCC Transformata Fouriera Log Wektor parametrów

PARAMETRY MEL-CEPSTRALNE Skalę melową uzyskuje się poprzez filtrację sygnału bankiem filtrów o charakterystyce trójkątnej. wg Beranka: Fmel(fkHz)=1127 ln(1+fkhz/0.7) K- ty współczynnik mel-cepstralny odpowiada zawartości k- tego pasma. Zazwyczaj liczba pasm wynosi od 12 do 20. 10

PARAMETRY MEL-CEPSTRALNE Wektor parametrów mel-cepstralnych to wektor współczynników cepstrum w odpowiednich pasmach melowych MFCC Mają za zadanie odzwierciedlać naturalną odpowiedź układu słuchowego na... pobudzenie dźwiękami mowy MFCC Parametry mel-cepstralne cechuje mała... wrażliwość na szum MFCC Są często wykorzystywane przy rozpoznawaniu mowy MFCC MFCC 1 2 3 k K 11

DYNAMIC TIME WARPING DTW (zwana też liniową transformacją czasową) to metoda transformacji osi czasu służąca lepszemu dopasowaniu czasowemu dwóch sekwencji czasowych Stosowane w celu lepszego dopasowania wypowiedzi do wzorca

DYNAMIC TIME WARPING podobieństwo dwóch sekwencji i ścieżka dopasowania

MODEL GRAMATYCZNY Finite State Grammar gramatyka skończonych stanów Gramatyka bezkontekstowa (Context-Free Grammar)

INNE PODEJŚCIA Segmentacja na fonemy + statystyczna klasyfikacja Rozpoznawanie samogłosek na podstawie formantów, momentów widmowych

SEGMENTACJA NA FONEMY fonetyczna funkcja mowy

ROZPOZNAWANIE MÓWCY Identyfikacja osoby Potwierdzenie tożsamości (speaker verification) zależne / niezależne od treści mówca świadomy / nieświadomy

WERYFIKACJA MÓWCY Mówca przedstawia swoją tożsamość Cechy sygnału porównywane są z wzorcem w bazie Wzorzec jest rejestrowany na podstawie potwierdzonej tożsamości

ROZPOZNAWANIE MÓWCY CECHY SYGNAŁU Cechy sygnału wykorzystywane w procesie rozpoznawania mówcy Mel-Frequency Cepstral Coefficients (MFCC) Cepstral features Linear Predictive Coding features (LPC) Filterbank features Autocorrelation features

ROZPOZNAWANIE MÓWCY - KLASYFIKATORY Metody dopasowania wzorców (pattern matching) Dynamic Time Warping (DTW) Vector Quantization (VQ) Hidden Markov Models (HMM) Artificial Neural Networks (ANN) (k-)nearest Neighbour ((k-)nn)...

UKRYTE MODELE MARKOWA HMM (Hidden Markov Model) modeluje proces na podstawie skończonej liczby stanów obserwacja o (wektor parametrów sygnału mowy) może należeć do jednego ze stanów określony jest rozkład prawdopodobieństwa wartości parametrów w każdym ze stanów oraz prawdopodobieństwa przejść pomiędzy stanami

UKRYTE MODELE MARKOWA Prawdopodobieństwo tego, że dana sekwencja obserwacji pasuje do danego modelu określone jest wzorem:

UKRYTE MODELE MARKOWA Do celów rozpoznawania mowy konieczne jest wytrenowanie osobnego modelu dla każdego słowa i głosowanie na podstawie prawdopodobieństw a posteriori

ISTNIEJĄCE OPROGRAMOWANIE

DRAGON NATURALLY SPEAKING http://www.nuance.com/naturallyspeaking/products/sdk/sdk_client.asp Wiodące oprogramowanie i SDK służące do rozpoznawania mowy ciągłej (LVCSR): możliwość transkrypcji mowy ciągłej w komputerze do 160 słów na minutę rozpoznawanie niezależne od barwy głosu mówcy, akcentu, tempa wypowiedzi języki: angielski, francuski, włoski, niemiecki, hiszpański, holenderski skuteczność do 99% możliwość tworzenia profili użytkowników i personalizacji rozpoznawania możliwość dodawania nowego słownictwa do bazy cena ok. 25 000$ dostępne SDK umożliwiające wykorzystanie silnika w aplikacji Windowsowej

DRAGON NATURALLYSPEAKING 10 SDK

LOQUENDO ASR oprogramowanie firmy Loquendo, przejętej przez Nuance do rozpoznawania mowy ciągłej (LVCSR) połączenie sieci neuronowych i modeli Markowa rozpoznawanie niezależne od mówcy; możliwa adaptacja do charakterystyki mowy danego użytkownika narzędzia treningu fonetycznego i adaptacji modelu akustycznego słownik ponad 10 000 wyrazów algorytm odszumiania zwiększający odporność na zakłócenia wsparcie rozpoznawania statystycznymi modelami językowymi Wsparcie dla ponad 20 języków, w tym polskiego Dostępne API w C/C++/C#/.NET/Java

SPHINX TOOLKIT Wiodąca biblioteka oferująca funkcje przydatne przy budowie aplikacji i systemów rozpoznawania mowy. Dostępne następujące pakiety: Pocketsphinx lekka wersja biblioteki na urządzenia mobilne - C Sphinxbase biblioteka wspierająca i wymagana przez PocketSphinx Sphinx4 silnik rozpoznawania z możliwością adaptacji i rozszerzania słownictwa Jave CMUclmtk narzędzia do tworzenia i zarządzania modelami językowymi - Java Speech Grammar Format (JSGF) Sphinxtrain narzędzie do trenowania modeli akustycznych Biblioteka typu open source

SPHINX TOOLKIT Vocabulary Sphinx4 WER Digits 0-9.549% 100 Word 1.192% 1,000 Word 2.88% 5,000 Word 6.97% 64,000 Word 18.756% *If you have noisy audio input multiply expected error rate x 2

HTK SPEECH RECOGNITION TOOLKIT HTK Hidden Markov Toolkit narzędzie popularne wśród badaczy pracujących nad rozpoznawaniem mowy interfejs command-line owy dostępne źródła w języku C dostępne API w C++ (ATK Real-time API) Projekt nierozwijany od 2007 roku narzędzia do przygotowania danych, treningu, adaptacji, testowania

HTK SPEECH RECOGNITION TOOLKIT Architektura

DZIĘKUJĘ ZA UWAGĘ!