Rozpoznawanie mowy dla języków semickich. HMM - HTK, CMU SPHINX-4, Simon

Podobne dokumenty
Omówienie różnych metod rozpoznawania mowy

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

PRAKTYCZNE ASPEKTY WYKORZYSTYWANIA SYSTEMÓW ROZPOZNAWANIA MOWY OPARTYCH NA HMM

Korpusy mowy i narzędzia do ich przetwarzania

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

Rozpoznawanie mowy za pomocą HTK

O sylabie oraz sposobach jej naprawy w egipskim arabskim

Algorytmy rozpoznawania mowy oparte o kształt i/lub ruch ust - przegląd literatury naukowej z lat

Transkrypcja fonetyczna i synteza mowy. Jolanta Bachan

PRZEWODNIK PO PRZEDMIOCIE. PNJA Fonetyka praktyczna (j.a. amerykański) Angielski Język Biznesu

KARTA PRZEDMIOTU. 11. ZAŁOŻENIA I CELE PRZEDMIOTU: 1. Dostarczenie studentom dogłębnej wiedzy na temat angielskiego systemu fonologicznego.

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

PRZEWODNIK PO PRZEDMIOCIE. PNJA Fonetyka praktyczna (j.a. brytyjski) Angielski Język Biznesu

Opisy efektów kształcenia dla modułu

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Zastosowanie algorytmu DTW jako narzędzia w identyfikacji mówcy

Sprawozdanie z laboratoriów HTK!

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

OPIS PRZEDMIOTU, PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA. CZEŚĆ A * (opis przedmiotu i programu nauczania) OPIS PRZEDMIOTU

Przygotowanie bazy difonów języka polskiego dla realizacji syntezy mowy w systemie MBROLA

Transpozer czasowy mowy

KARTA PRZEDMIOTU. WYMAGANIA WSTĘPNE: znajomość języka angielskiego na poziomie B1 (na początku semestru 2) i B1+ (na początku semestru 3)

OPIS MODUŁU (PRZEDMIOTU), PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A OPIS MODUŁU (PRZEDMIOTU) studia pierwszego stopnia

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

OPIS MODUŁU (PRZEDMIOTU)

Niko 2 Przedmiotowy System Oceniania

PRACA DYPLOMOWA Inżynierska

PRACA DYPLOMOWA Inżynierska

Komputerowe przetwarzanie sygnału mowy

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Scenariusz nr 1. Autor scenariusza: Krystyna Jakubowska. Blok tematyczny: Historia książki

Modelowanie języka naturalnego (polskiego) dla potrzeb budowy systemu rozpoznawania mowy klasy LVCSR

PRZEWODNIK PO PRZEDMIOCIE. PNJA Fonetyka praktyczna (j.a. amerykański) Angielski Język Biznesu

KLASYFIKACJA ZDAŃ W SYGNALE

Czym jest HTK HMMs ASR

Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka polskiego na potrzeby systemu rozpoznawania mowy

Zastosowanie współczynników HFCC jako cech sygnału mowy w automatycznej detekcji wad wymowy

4. EKSPLOATACJA UKŁADU NAPĘD ZWROTNICOWY ROZJAZD. DEFINICJA SIŁ W UKŁADZIE Siła nastawcza Siła trzymania

dr inż. Jacek Naruniec

HLT_12 Warszawa. Lingwistyka matematyczna w Katedrze Elektroniki AGH


Poradnik HTK. Adrian Sekuła

Inwersja mowy za pomocą nieliniowej transfomacji czasowej Inversion of speech by non-linear transformation of temporary

JĘZYKOZNAWSTWO TYPOLOGICZNE I PORÓWNAWCZE UAM 2017/2018. prof. dr hab. Nicole Nau

Praca dyplomowa - magisterska

ZASTOSOWANIE ROZPOZNAWANIA MÓWCY W AUTOMATYCZNEJ TRANSLACJI MOWY TYPU SPEECH-TO-SPEECH 1

Efekt Lombarda. Czym jest efekt Lombarda?

HTK czego NIE robić. Bartłomiej Chojnacki. - uważać przy przepisywaniu komend, czasem małe L wygląda identycznie jak duże I

KLASYFIKACJA. Słownik języka polskiego

ANALIZA SZYBKIEJ IDENTYFIKACJI MÓW- CY IMPLEMENTOWANYCH W ŚRODOWI- SKU MATLAB ORAZ CODE COMPOSER STUDIO

ROZPORZĄDZENIE MINISTRA SPRAW WEWNĘTRZNYCH I ADMINISTRACJI 1) z dnia 30 maja 2005 r.

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE. PNJA Fonetyka praktyczna j. angielskiego brytyjskiego Angielski Język Biznesu

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 2

Wady i ograniczenia systemów rozpoznawania mowy

Ćwiczenie 6 Projektowanie filtrów cyfrowych o skończonej i nieskończonej odpowiedzi impulsowej

Samogłoski proste (monoftongi) języka łatgalskiego cechy widmowe

Technologie Mowy Bartosz Ziółko

3. Pismo etiopskie. Ciekawostki

Gramatyka opisowa języka polskiego Kod przedmiotu

Sprawozdanie z laboratoriów HTK

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

dr inż. Artur Janicki pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW

dr hab. inż. Artur Janicki pok. 407 Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW

Rozpoznawanie mówcy i emocji

System Korekty Tekstu Polskiego

Test wydajności współczynników percepcyjnych w kontekscie rozpoznawania emocji

O-MaSE Organization-based Multiagent System Engineering. MiASI2, TWO2,

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

OCENA MOśLIWOŚCI WYKORZYSTANIA HODOWLI ŚWIŃ RASY ZŁOTNICKIEJ

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

KRYTERIA OCENY ROCZNEJ Z JĘZYKA POLSKIEGO W KLASIE IV

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Nauka o języku i komunikacji. 2. KIERUNEK: Nauczanie języka angielskiego na poziomie wczesnoszkolnym

Transformata Fouriera. Sylwia Kołoda Magdalena Pacek Krzysztof Kolago

Beyond Upper-intermediate (B2) rozkład materiału 120h lekcyjnych

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 1

2. Opis zajęć dydaktycznych i pracy studenta

Diagnostyka silnika synchronicznego oparta na analizie sygnałów akustycznych z zastosowaniem MFCC i klasyfikatora rozmytego

Karta przedmiotu. Politechnika Krakowska im. Tadeusza Kościuszki. 1 Informacje o przedmiocie. 2 Rodzaj zajęć, liczba godzin w planie studiów

Instrukcja dopasowania SoundRecover2 u dorosłych

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

IMPROVED SPEECH RECOGNITION PROCESS BASED ON PHONETICS AND PHONOLOGY OF POLISH LANGUAGE

KRYTERIA OCEN Z JĘZYKA POLSKIEGO W KLASIE V

2. Opis zajęć dydaktycznych i pracy studenta

Rozpoznawanie obiektów na podstawie zredukowanego zbioru cech. Piotr Porwik Uniwersytet Śląski w Katowicach

Inteligentne metody rozpoznawania dźwięku

Dydaktyka wczesnego nauczania języka niemieckiego - opis przedmiotu

Xpress Sp. z o.o. jako wieloletni Premium Partner firmy Xerox ma w swojej ofercie rozwiązanie

Autor: Krzysztof Dąbek 30 marca / 24

System Korekty Tekstu Polskiego

II. Kontrola i ocena pracy ucznia.

SYLABUS MODUŁU KSZTAŁCENIA

Wykrywanie twarzy ludzkich na kolorowych obrazach ze złożonym tłem

Hybrydowa analiza transformat w rozpoznawaniu wysokości dźwięków w polifonicznych nagraniach instrumentów muzycznych

PRZEWODNIK DYDAKTYCZNY I PROGRAM NAUCZANIA PRZEDMIOTU FAKULTATYWNEGO NA KIERUNKU LEKARSKIM ROK AKADEMICKI 2016/2017

Transkrypt:

Rozpoznawanie mowy dla języków semickich HMM - HTK, CMU SPHINX-4, Simon

Charakterystyka języków semickich Przykłady: arabski, hebrajski, amharski, tigrinia, maltański (280 mln użytkowników). Budowa spółgłoskowo rdzeniowa. Spółgłoskowe pisma alfabetyczne pisane od prawej do lewej. Duża liczba spółgłosek gardłowych.

Lokalizacja geograficzna

Budowa języka Słowa formowane wokół spółgłosek, które przenoszą znaczenie. Fleksyjna funkcja samogłosek. Pomijanie samogłosek w zapisie.

Cechy specyficzne Rozróżnienie na samogłoski długie i krótkie. Samogłoski realizowane w zapisie przez spółgłoski. Wiele wariantów tego samego fonemu.

Podstawowa struktura języka Język arabski Język hebrajski 36 fonemów: 28 spółgłosek, 6 samogłosek, 2 dyftongi /a, e, i, a:, e:, i:/ oraz /aj, aw/ 22 spółgłosek 5 podstawowych samogłosek + zanikające odmiany /a, e, o, u, i/

Alfabet hebrajski

Rodzaje samogłosek hebrajskich

Alfabet arabski

Problemy 1. Diakrytyzacja teksty nie są w pełni diakrytyzowane wiele podobnych form zanikające różnice między samogłoskami 2. Wiele dialektów hebrajski jako język diaspory (naleciałości) Starohebrajski a ivrit hadash MSA (Model Standard Arabic) Qur an based 3. Skomplikowana fonologia zmienna długość samogłosek (HMM temporal variation)

Arabic Automatic Speech Recognition

Analizowane systemy rozpoznawania mowy HMM + HTK for Arabic Language CMU SPHINX 4 Simon Testing Simon blog: http://spirit.blau.in/simon/

Zadanie

Przegląd badań i projektów I Iqbal, et. al. [2008] Bazuje na pryncypiach recytacji Koranu System wykazuje 90 % trafności na plikach mowy ciągłej zawierającej ponad 1000 samogłosek Razak, et.al. [2008] Bazuje na recytacji Koranu Wykorzystuje algorytm MFCC Rozpoznanie i rozróżnienie arabskiej wymowy i akcentowania poprzez wyodrębnienie samogłosek

Przegląd badań i projektów II Tolba, et. al. [2005] Segmentacja spółgłosek/samogłosek przy użyciu transformacji falkowej Projekt nowego algorytmu nie wykorzystującego informacji lingwistycznej Transformacja falkowa i analiza transjentów pomiędzy samogłoskami i spółgłoskami na konkretnych poziomach dekompozycji pakietowej Trafność: 88,3 %

Przegląd badań i projektów III - 1 Alotaibi, Hussain [2010] Wyodrębnienie samogłosek (MSA) 1. HMM 2. Analiza formantowa System parameters: fs = 10 khz, 16 bit, framing/window Hamming 25 ms, lap 10 ms MFCC Coefficients: 22 length of cepstral filtering, 26 filter bank chanels, 12 MFCC coefficients. 0.95 preemphasis

Przegląd badań i projektów III - 2 Alotaibi, Hussain [2010] Baza danych: nagrania wymowy 10 mężczyzn, wiek 23-25 lat (Arabia Saudyjska, Egipt) 5 różnych prób dla 8 samogłosek x 10 = 4000 próbek 60% trening, 40% testy SRS 91,6 % Fatha kasrah 99%, short fatha 77,5 % 5 samogłosek osiągnęło poziom 90%

Podobieństwo między długimi i krótkimi samogłoskami

CMU Sphinx Satori, Hiyassat, Chenfour [2007] Bazuje na HMM Informacja lingwistyczna: Budowa sylab: CV, CVV, CVC, CVVC, CVCC, CVVCC (zawsze rozpoczyna się od C, nigdy od dwóch C) Parametry systemu (optymalizacja): 5 state left-to-right architecture (speech unit) 16 Gaussians (state model) Best results at: filler insertion probability 0.1, word insertion probability = 0.123, language weight = 6

CMU Sphinx Baza nagrań: 60 Marokańczyków (25 F, 35 M), 10 przykładów, 5 powtórzeń = 3000 próbek fs = 16 khz, 16 bit, trening: 3000 próbek Test: M/F x N prób

CMU Sphinx Arabic Automatic Speech Recognition http://www.ccse.kfupm.edu.sa/~elshafei/aasr. htm - Sphinx, dokumentacja + próbki

Simon

Simon Ralf s Arabic Speech Model, Ralf s Hebrew Speech Model for Simon http://spirit.blau.in/simon/ - słowniki http://simon-listens.blogspot.com/ - software

Prezentacja w oparciu o poniższe artykuły: Comaparative Analysis of Arabic Vowels using Formants and an Automatic Speech Recognition System Yousef Ajami Alotaibi, Amir Hussain (International Journal of Signal Processing, King Saud University, Stirling University) Investigation Arabic Speech Recognition Using CMU Sphinx System Hassan Satori, Hussein Hiyassat, Mostafa Harti, Noureddine Chenfour (Dar Mehraz Fes, Maroko)

Oraz źródła: http://cmusphinx.sourceforge.net/ http://www.ccse.kfupm.edu.sa/~elshafei/aasr.htm http://spirit.blau.in/simon http://simon-listens.blogspot.com/ http://www.ccse.kfupm.edu.sa/~elshafei/aasr.htm