Rozpoznawanie mowy dla języków semickich. HMM - HTK, CMU SPHINX-4, Simon

Rozpoznawanie mowy dla języków semickich HMM - HTK, CMU SPHINX-4, Simon

Charakterystyka języków semickich Przykłady: arabski, hebrajski, amharski, tigrinia, maltański (280 mln użytkowników). Budowa spółgłoskowo rdzeniowa. Spółgłoskowe pisma alfabetyczne pisane od prawej do lewej. Duża liczba spółgłosek gardłowych.

Lokalizacja geograficzna

Budowa języka Słowa formowane wokół spółgłosek, które przenoszą znaczenie. Fleksyjna funkcja samogłosek. Pomijanie samogłosek w zapisie.

Cechy specyficzne Rozróżnienie na samogłoski długie i krótkie. Samogłoski realizowane w zapisie przez spółgłoski. Wiele wariantów tego samego fonemu.

Podstawowa struktura języka Język arabski Język hebrajski 36 fonemów: 28 spółgłosek, 6 samogłosek, 2 dyftongi /a, e, i, a:, e:, i:/ oraz /aj, aw/ 22 spółgłosek 5 podstawowych samogłosek + zanikające odmiany /a, e, o, u, i/

Alfabet hebrajski

Rodzaje samogłosek hebrajskich

Alfabet arabski

Problemy 1. Diakrytyzacja teksty nie są w pełni diakrytyzowane wiele podobnych form zanikające różnice między samogłoskami 2. Wiele dialektów hebrajski jako język diaspory (naleciałości) Starohebrajski a ivrit hadash MSA (Model Standard Arabic) Qur an based 3. Skomplikowana fonologia zmienna długość samogłosek (HMM temporal variation)

Arabic Automatic Speech Recognition

Analizowane systemy rozpoznawania mowy HMM + HTK for Arabic Language CMU SPHINX 4 Simon Testing Simon blog: http://spirit.blau.in/simon/

Zadanie

Przegląd badań i projektów I Iqbal, et. al. [2008] Bazuje na pryncypiach recytacji Koranu System wykazuje 90 % trafności na plikach mowy ciągłej zawierającej ponad 1000 samogłosek Razak, et.al. [2008] Bazuje na recytacji Koranu Wykorzystuje algorytm MFCC Rozpoznanie i rozróżnienie arabskiej wymowy i akcentowania poprzez wyodrębnienie samogłosek

Przegląd badań i projektów II Tolba, et. al. [2005] Segmentacja spółgłosek/samogłosek przy użyciu transformacji falkowej Projekt nowego algorytmu nie wykorzystującego informacji lingwistycznej Transformacja falkowa i analiza transjentów pomiędzy samogłoskami i spółgłoskami na konkretnych poziomach dekompozycji pakietowej Trafność: 88,3 %

Przegląd badań i projektów III - 1 Alotaibi, Hussain [2010] Wyodrębnienie samogłosek (MSA) 1. HMM 2. Analiza formantowa System parameters: fs = 10 khz, 16 bit, framing/window Hamming 25 ms, lap 10 ms MFCC Coefficients: 22 length of cepstral filtering, 26 filter bank chanels, 12 MFCC coefficients. 0.95 preemphasis

Przegląd badań i projektów III - 2 Alotaibi, Hussain [2010] Baza danych: nagrania wymowy 10 mężczyzn, wiek 23-25 lat (Arabia Saudyjska, Egipt) 5 różnych prób dla 8 samogłosek x 10 = 4000 próbek 60% trening, 40% testy SRS 91,6 % Fatha kasrah 99%, short fatha 77,5 % 5 samogłosek osiągnęło poziom 90%

Podobieństwo między długimi i krótkimi samogłoskami

CMU Sphinx Satori, Hiyassat, Chenfour [2007] Bazuje na HMM Informacja lingwistyczna: Budowa sylab: CV, CVV, CVC, CVVC, CVCC, CVVCC (zawsze rozpoczyna się od C, nigdy od dwóch C) Parametry systemu (optymalizacja): 5 state left-to-right architecture (speech unit) 16 Gaussians (state model) Best results at: filler insertion probability 0.1, word insertion probability = 0.123, language weight = 6

CMU Sphinx Baza nagrań: 60 Marokańczyków (25 F, 35 M), 10 przykładów, 5 powtórzeń = 3000 próbek fs = 16 khz, 16 bit, trening: 3000 próbek Test: M/F x N prób

CMU Sphinx Arabic Automatic Speech Recognition http://www.ccse.kfupm.edu.sa/~elshafei/aasr. htm - Sphinx, dokumentacja + próbki

Simon Ralf s Arabic Speech Model, Ralf s Hebrew Speech Model for Simon http://spirit.blau.in/simon/ - słowniki http://simon-listens.blogspot.com/ - software

Prezentacja w oparciu o poniższe artykuły: Comaparative Analysis of Arabic Vowels using Formants and an Automatic Speech Recognition System Yousef Ajami Alotaibi, Amir Hussain (International Journal of Signal Processing, King Saud University, Stirling University) Investigation Arabic Speech Recognition Using CMU Sphinx System Hassan Satori, Hussein Hiyassat, Mostafa Harti, Noureddine Chenfour (Dar Mehraz Fes, Maroko)

Oraz źródła: http://cmusphinx.sourceforge.net/ http://www.ccse.kfupm.edu.sa/~elshafei/aasr.htm http://spirit.blau.in/simon http://simon-listens.blogspot.com/ http://www.ccse.kfupm.edu.sa/~elshafei/aasr.htm