Audiowizualne rozpoznawanie mowy. Autor: Piotr Bratoszewski

Podobne dokumenty
Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Algorytmy rozpoznawania mowy oparte o kształt i/lub ruch ust - przegląd literatury naukowej z lat

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

Projekt badawczy. Zastosowania technologii dynamicznego podpisu biometrycznego

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Rozpoznawanie mówcy i emocji

Propozycje tematów prac magisterskich 2013/14 Automatyka i Robotyka - studia stacjonarne Pracowania Układów Elektronicznych i Przetwarzania Sygnałów

10. Redukcja wymiaru - metoda PCA

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Detekcja punktów zainteresowania

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

dr inż. Ewa Kuśmierek, Kierownik Projektu Warszawa, 25 czerwca 2014 r.

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

PRAKTYCZNE ASPEKTY WYKORZYSTYWANIA SYSTEMÓW ROZPOZNAWANIA MOWY OPARTYCH NA HMM

PRACA DYPLOMOWA INŻYNIERSKA

Omówienie różnych metod rozpoznawania mowy

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

System biometryczny bazujący na rozpoznawaniu ust

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

KAMERA AKUSTYCZNA NOISE INSPECTOR DLA SZYBKIEJ LOKALIZACJI ŹRÓDEŁ HAŁASU

Krzysztof Ślot Biometria Łódź, ul. Wólczańska 211/215, bud. B9 tel

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Technologia dynamicznego podpisu biometrycznego

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

Ewaluacja mowy syntetycznej za pomocą systemu rozpoznawania mowy

KLASYFIKACJA. Słownik języka polskiego

Prof. Stanisław Jankowski

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

MATLAB Neural Network Toolbox przegląd

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 8 AiR III

Pattern Classification

Automatyczne generowanie testów z modeli. Bogdan Bereza Automatyczne generowanie testów z modeli

Dokumentacja Końcowa

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Transpozer czasowy mowy

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Compatible cameras for NVR-5000 series Main Stream Sub stream Support Firmware ver. 0,2-1Mbit yes yes yes n/d

Rozpoznawanie mowy dla języków semickich. HMM - HTK, CMU SPHINX-4, Simon

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Przegląd oprogramowania do monitoringu IP firmy Geovision. Maciej Mantaj Konsorcjum FEN Sp. z o.o.

Czym jest HTK HMMs ASR

dr hab. inż. P. Samczyński, prof. PW; pok. 453, tel. 5588, EIK

RAPORT Z PIERWSZEGO ETAPU REALIZACJI PROJEKTU POLONIUM

Szkolenia SAS Cennik i kalendarz 2017

Komitety sieci konwolucyjnych w zagadnieniu klasyfikacji przy jednoczesnym zaszumieniu danych wejściowych oraz etykiet klas. Stanisław Kaźmierczak

2 Ocena celu badań i sformułowanej tezy naukowej

Widzenie komputerowe (computer vision)

TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA

Instrukcja konfiguracji dekodera strumienia IP H.264 na sygnał: Video (BNC), VGA, YPbPr, HDMI typ. IN-IP-5904, IN-IP-5904-MP

Profil dyplomowania: Systemy Multimedialne Specjalnośd: Inżynieria Dźwięku i Obrazu

Metody klasyfikacji danych zaszumionych. Stanisław Kaźmierczak

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Testowanie systemów wbudowanych i krytycznych dla bezpieczeństwa Bogdan Bereza Wersja (33)

Multimedialne Systemy Interaktywne

Ekonometryczne modele nieliniowe

Microsoft Test Manager

dr inż. Jacek Naruniec

CYFROWE PRZETWARZANIE SYGNAŁÓW

AUTOMATYCZNE ROZPOZNAWANIE PUNKTÓW KONTROLNYCH GŁOWY SŁUŻĄCYCH DO 3D MODELOWANIA JEJ ANATOMII I DYNAMIKI

NPVO & Faces Detection w badaniach rynku. Warszawa 2015

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Rozpoznawanie twarzy za pomocą sieci neuronowych

Badania w sieciach złożonych

Opisy efektów kształcenia dla modułu

Rzeczywistość rozszerzona: czujniki do akwizycji obrazów RGB-D. Autor: Olga Głogowska AiR II

Opis efektów kształcenia dla modułu zajęć

Selekcja cech osobniczych sygnału mowy z wykorzystaniem algorytmów genetycznych

Szczegółowy opis przedmiotu zamówienia

System wizyjny OMRON Xpectia FZx

Jazda autonomiczna Delphi zgodna z zasadami sztucznej inteligencji

Instrukcje do aplikacji Kamera Micro WLAN HD. Nr zamówienia

MS Visual Studio 2005 Team Suite - Performance Tool

Dwufazowy system monitorowania obiektów. Karina Murawko, Michał Wiśniewski

Forested areas in Cracow ( ) evaluation of changes based on satellite images 1 / 31 O

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

Instrukcja obsługi. Rejestrator cyfrowy HD-SDI FLEX-4112HD-SDI

Rozpoznawanie obiektów na podstawie zredukowanego zbioru cech. Piotr Porwik Uniwersytet Śląski w Katowicach

Profesjonalne systemy do nagrywania i strumieniowania Epiphan Systems

Praca dyplomowa. Program do monitorowania i diagnostyki działania sieci CAN. Temat pracy: Temat Gdańsk Autor: Łukasz Olejarz

TRANSFORMACJE I JAKOŚĆ DANYCH

deep learning for NLP (5 lectures)

ANALIZA SZYBKIEJ IDENTYFIKACJI MÓW- CY IMPLEMENTOWANYCH W ŚRODOWI- SKU MATLAB ORAZ CODE COMPOSER STUDIO

Diagnostyka silnika synchronicznego oparta na analizie sygnałów akustycznych z zastosowaniem MFCC i klasyfikatora rozmytego

PROGRAMY DO MODELOWANIA AKUSTYKI POMIESZCZEŃ

2012 Bentley Systems, Incorporated. Bentley Pointools V8i Przegląd

Temat projektu/pracy dyplomowej inż. (jęz. pol.) 1

Automatyzacja teleskopu Celestron CGE Pro w OA UJ

Camspot 4.4 Camspot 4.5

Zaawansowane algorytmy DSP

Wykrywanie sygnałów DTMF za pomocą mikrokontrolera ATmega 328 z wykorzystaniem algorytmu Goertzela

Instrukcja obsługi. Rejestrator cyfrowy IP FLEX-22IP FLEX-88IP FLEX-169IP FLEX-2016IP FLEX-3625IP

Transkrypt:

Audiowizualne rozpoznawanie mowy Autor: Piotr Bratoszewski

Wprowadzenie Największym obecnie wyzwaniem w systemach automatycznego rozpoznawania mowy jest stworzenie rozwiązania pozwalającego na skuteczne rozpoznawanie mowy w trudnych warunkach akustycznych

Wprowadzenie Stosowane typy szumów w badaniu systemów ASR Babble noise gwar Factory noise szum fabryki Street noise szum ulicy Mowa czysta

Wprowadzenie W celu poprawy skuteczności rozpoznawania mowy w warunkach szumowych podjęto badania nad dodawaniem dodatkowej modalności do systemów ASR modalności wizyjnej

Systemy AVSR AVSR Audio-Visual Speech Recognition Pionierskie prace dotyczące AVSR zostały zapoczątkowane przez Petajana w latach 1984 [1]. Jedne z najnowszych badań dotyczą zastosowania sensora Kinect (kamera RGB, kamera głębi, macierz 4 mikrofonów) do zagadnienia AVSR. Prace prowadzone przez Galatasa et. al [2]. 1. Petajan E., Automatic lipreading to enhance speech recognition, in Proc. IEEE Conf. Computer Vision and Pattern Recognition, 1985, pp.40 47. 2. G. Galatas, G. Potamianos and F. Makedon, "Audio-visual speech recognition incorporating facial depth information captured by the Kinect," (EUSIPCO), 2012, pp. 2714-2717.

Systemy AVSR Badania oparte o sensor Kinect (Fuzja parametrów)

Systemy AVSR Badania oparte o sensor Kinect

Systemy AVSR Badania oparte o sensor Kinect

Systemy AVSR KSM AVSR studies: - AAM models [3] - Spatial filtration [4] - Spatial Audio Filtration and Visual Voice Activity Detection for Improving Automatic Speech Recognition [5] 3. P. Dalka, P. Bratoszewski and A. Czyzewski, "Visual lip contour detection for the purpose of speech recognition, Signals and Electronic Systems (ICSES), 2014 International Conference on, Poznan, 2014, pp. 1-4. doi: 10.1109/ICSES.2014.6948716 4. K. Lopatka, J. Kotus, P. Bratoszewski, P. Spaleniak, M. Szykulski and A. Czyzewski, "Enhanced voice user interface employing spatial filtration of signals from acoustic vector sensor," 2015 8th International Conference on Human System Interaction (HSI), Warsaw, 2015, pp. 82-87. doi: 10.1109/HSI.2015.7170647 5. P. Bratoszewski, Kotus J., Szwoch G., Łopatka K., Przybylski Ł., Szykulski M., Spaleniak P., Czyżewski A., Spatial Audio Filtration and Visual Voice Activity Detection for Improving Automatic Speech Recognition Multimedia Tools And Applications, in review, 2015.

Tworzenie systemu AVSR Kroki które należy wykonać: Korpus Rejestracja Etykietyzacja Analiza Przetwarzanie sygnałów Ekstrakcja parametrów Data mining Stworzenie narzędzi do operacji na danych Eksperymenty Analiza wyników

NOISE SIGNALS MULTICHANNEL AMPLIFIER LAPTOP 30 cm TELEPROMPTER PXI PLATFORM A/V SYNCHRONIZATION Rejestracja korpusu 1 2 5 7 3 6 8 30 cm 4 50 cm 70 cm 100 cm 150 cm

Rejestracja korpusu

Rejestracja korpusu

Rejestracja korpusu Corpus Modality Year 2015 No. of speakers 35 Microphones Video resolution Video framerate Cameras Noise SNR Material Labels 8 (3 line arrays) 1920x1080 100 fps stereo Acoustic (babble, factory, street) Varying, calculated per word 168 commands (eg. MESSAGE, SAVE AS, SCROLL DOWN, ) Per each word Modality Corpus access: http://www.modality-corpus.org

Rejestracja korpusu W sumie udostępnionych 35 mówców 37 godzin oznakowanego materiału audio-wizualnego 33 mężczyzn, 9 kobiet Równy podział na mówców natywnych/nienatywnych 3,75 TB danych

Inne korpusy Database Year Spk. Resolution Framerate Language material Additional Features TULIPS1 1995 12 100x75 30 fps digits 1-4 no DAVID 1996 123 640x480 30 fps XM2VTS 1999 295 720x576 25 fps BANCA 2003 52 720x576 25 fps GRID 2005 34 720x576 25 fps digits, alphabet, nonsense utterances 3 sentences (digits and words) digits, name, date of birth and address 1000 command-like sentences varying background head rotations, glasses, hats controlled, degraded and adverse conditions, impostor recordings VIDTIMIT 2008 43 512x384 25 fps 10 TIMIT sentences office noise and zoom WAPUSK20 2010 20 640x480 48 fps 100 GRID sentences stereoscopic camera, office noise UNMC-VIER 2011 123 708x640 max 29 fps 12 XM2VTS sentences KSM 2015 Max 42 1920x1080 100 fps 168 commands (isolated, sentences) no varying speech pace, expressions, illumination, head poses and quality stereo camera, varying noise, word SNR, supplied with labels

ҧ Modele AAM Active Appearance Model (AAM) is a general utility for statistical parametrization of objects based on Principal Component Analysis (PCA) Lip detection and tracking is achieved using AAM algorithm AAM for each speaker was created consisting of 25 facial points AAM besides of lip detection is also used for the purpose of parametrization: lip region texture g may be approximated as the sum of mean texture g and the linear combination of the eigenvectors of the texture Φ g revealing the highest variation g = g ҧ + Φ g b g where b g denotes a vector of coefficients.

Lip tracking results: Modele AAM

Parametry wizyjne

Fuzja parametrów Fuzja na poziomie parametrów (ang. feature fusion) Integracja parametrów przed klasyfikacją Możliwe podejścia: konkatenacja parametrów, łączenie ważone, hierarchiczny wybór parametrów, zastosowanie analizy głównych składowych (PCA, LDA) Fuzja na poziomie decyzji (ang. decision fusion) Integracja decyzji po klasyfikacji Niezależne podejmowanie decyzji o wymawianym słowie/fonemie dla strumieni audio/video Możliwe podejścia: łączenie ważone, zastosowanie logiki rozmytej do podjęcia ostatecznej decyzji

System AVSR Synchroniczne strumienie A/V Trenowanie modeli MFCC Parametry wizyjne Konkatenacja Hidden Markov Model Toolkit Modele HMM

System AVSR Synchroniczne strumienie A/V Rozpoznawanie mowy MFCC Parametry wizyjne Konkatenacja Hidden Markov Model Toolkit Modele HMM Próbki testowe Dekodowanie Ostateczna decyzja

Potrzebne narzędzia do stworzenia systemu AVSR Aplikacja pozwalająca na synchroniczne pobieranie strumieni A/V Aplikacja telepromptera wyświetlająca z odpowiednią szybkością zdania dla mówców Aplikacja umożliwiająca etykietyzację nagrań Transkryptor Narzędzia pozwalające na konkatenację i wybór parametrów Skrypty do trenowania i testowania modeli HMM Narzędzia do analizy wyników I inne

PXI Recording App Program do synchronicznej rejestracji strumieni A/V (po prawej: podgląd z kamer wizyjnych oraz kamery termowizyjnej) (na dole: bloczki wykorzystane do stworzenia oprogramowania) Narzędzia

Narzędzia Transkryptor program do etykietyzacji nagrań

Narzędzia Snr_calculator Program do obliczania SNR w zarejestrowanych nagraniach z dokładnością co do słowa

Możliwe podejścia Speaker dependence Modalities Fusion Vocabulary SNR Single speaker Native-only All speakers Leave-oneout Audio only Video only A + V Concatenation PCA Numerals Commands Sentences Clean Noisy (three types) Distant Close Możliwości ponad 200 kombinacji do trenowania/testowania różnych podejść do systemu AVSR (4*3*3*4*4)

Wyniki Skuteczność opracowanego systemu AVSR z użyciem miary WER: Noise Acoustic Features Visual Features WER [%] none MFCC (39) none 21 babble MFCC (39) none 51 babble MFCC (39) AAM-Shape (10) 46 Porównanie z state-of-the-art systemem ASR stworzonym przez firmy Nuance i Intel Conditions MODALITY RS-Unconstr. RS-Constr. RS-Unconstr. RS-Constr. clean 21 41,8 21,9 33,9 17,8 noisy 51 61,5 49,2 54,5 41,3 avsr 46 - - - - dictionary - EN-US EN-GB RS Intel RealSense

Analiza wyników Wyniki pokazują jak bardzo szum typu babble pogarsza skuteczność rozpoznawania mowy (WER wzrasta z 21% do 51%) Mowa zakłócona szumem babble jest jednym z najtrudniejszych przypadków sygnałów wejściowych dla systemów ASR, powoduje błędy wstawienia (Insertions) oraz błędnie rozpoznane słowa (Substituions)

Analiza wyników Poprzez dodanie cech wizyjnych do wektora cech akustycznych osiąga się wzrost skuteczności rozpoznawania (WER maleje) W porównaniu systemu stworzonego w KSM do systemu ASR state-of-the-art. Widoczne jest analogiczne zachowanie gdy mowa zakłócona jest szumem typu babble. Dodanie cech wizyjnych do systemu RS powinno skutkować również poprawą rozpoznawania w szumie.

Problemy związane z AVSR Problem synchronizacji strumieni A/V. Popularne urządzenia multimedialne (kamery internetowe) nie gwarantują synchronizacji strumieni wejściowych (brak stałego framerate u kamery, gubienie klatek) Kwestia parametryzacji sygnału wizyjnego tak aby uniewrażliwić parametry od cech osobniczych mówcy (rozmiar/kształt ust, grymas) oraz uniewrażliwić od ruchów głowy i pozycji przed kamerą Praca z małą latencją parametryzacja obrazu musi działać w czasie rzeczywistym aby możliwe było szybkie podejmowanie decyzji o rozpoznawanych słowach i wyświetlanie tej informacji mówcy/wywoływanie odpowiedniej akcji w komputerze

Inne podejście do AVSR Wykorzystanie akustycznej filtracji przestrzennej Modalność wizyjna pozwala na znalezienie i śledzenie mówcy (kierunku z którego mówi), w celu nastawienia parametrów filtracji przestrzennej Modalność wizyjna pozwala na śledzenie ruchu warg oraz ocenę katywności głosowej mówcy (Wizyjny VAD) Znając informację o aktywności ust możliwe jest zerowanie sygnału wejściowego do systemu w chwilach czasu gdy mówca nie mówi (zerowanie szumu)

Inne podejście do AVSR Noise Acoustic vector sensor Speaker localization φ Camera Speaker

Inne podejście do AVSR Visual VAD Active Inactive

Detekcja ruchu warg Detekcja ruchu warg potencjalnie związene z artykulacją mowy Wykorzystanie modelu AAM do nałożenia siatki punktów charakterystycznych na usta mówcy Decyzja: usta aktywne/nieaktywne/ruch całą głową Goals: high accuracy, low delay

Algorytm wizyjnego Vadu Usta otwarte: d = (y2 y1) / h h = wysokość twarzy Detekcja aktywności ust: Wartość średnia i odchylenie standardowe zmiennej d ponad ustalonymi progami Detekcja stabilności twarzy (brak ruchu głowy) wariancje położenia punktów x3, y3, x4, y4 poniżej ustalonymi progami Usta aktywne i twarz stabilna: decyzja -> aktywność głosowa

Wynik przetwarzania Visual VAD Active Inactive

Inne podejście do AVSR - testy Scenariusz rzeczywistego wykorzystania systemu Akustyka pomieszczenia biurowego Prawdziwi mówcy Testowanie w szumie babble Szum generowany z 4 głośników

WER [%] Inne podejście do AVSR - Wyniki 100 90 80 70 60 50 40 30 20 10 T1 T2 T3 T4 T5 Próby testowe T T Warunki testu T1: Brak szumu, brak przetwarzania sygnałów T2: Zaszumienie, brak przetwarzania sygnałów T3: Zaszumienie, filtracja przestrzenna sygnału T4: Zaszumienie, filtracja przestrzenna sygnału oraz wizyjny VAD T5: Zaszumienie, wizyjny VAD

Inne podejście do AVSR Analiza wyników Wprowadzenie zaszumienia powoduje bardzo duży wzrost WER (15 -> 80 %) Wprowadzenie filtracji przestrzennej powoduje poprawę skuteczności, WER (80->60%) Wprowadzenie dodatkowo wizyjnego VADu obok filtracji przestrzennej powoduje ograniczenie błędów wstawienia (Insertions) i poprawę skuteczności rozpoznawania na średni WER równy ~42%