Rozpoznawanie mowy za pomocą HTK

Podobne dokumenty
Sprawozdanie z laboratoriów HTK!

Sprawozdanie z laboratoriów HTK

SPRAWOZDANIE Z LABORATORIÓW HTK SYLWIA BAŁAZY AKADEMIA GÓRNICZO-HUTNICZA IM. S. STASZICA W KRAKOWIE

Poradnik HTK. Adrian Sekuła

I. Gramatyka. Poniżej prezentowana jest realizowana gramatyka:

Sprawozdanie z laboratoriów HTK

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

HTK czego NIE robić. Bartłomiej Chojnacki. - uważać przy przepisywaniu komend, czasem małe L wygląda identycznie jak duże I

Przewodnik użytkownika produktu Apogee Mic

Systemy multimedialne. Instrukcja 5 Edytor audio Audacity

a) Tworzymy podcast w programie Audacity

Audacity jest darmowym edytorem audio

Opisy efektów kształcenia dla modułu

EDUKACJA POLONISTYCZNA

Kamera. Nr produktu

Ćwiczenie II. Edytor dźwięku Audacity

Olympus DYKTAFON WS-853+KUPON PREMIUM -50% na AB FOTOKSIĄŻKĘ

Olympus DYKTAFON VN-741PC + TP8 PRZYSTAWKA TELEFONICZNA+KUPON PREMIUM -50% na AB FOTOKSIĄŻKĘ

SCENARIUSZ LEKCJI. Fale akustyczne oraz obróbka dźwięku (Fizyka poziom rozszerzony, Informatyka poziom rozszerzony)

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Prezentacja multimedialna MS PowerPoint 2010 (podstawy)

Instrukcja dla ucznia

- autorzy programu - wyjście z programu

CYFROWY DYKTAFON 8GB AUVISIO

1 Tranzystor MOS. 1.1 Stanowisko laboratoryjne. 1 TRANZYSTOR MOS

WYŚWIETLACZE TEKSTOWE I GRAFICZNO-TEKSTOWE cennik produktów FX WYŚWIETLACZE GRAFICZNO-TEKSTOWE. obowiązuje od

Rozpoznawanie mowy dla języków semickich. HMM - HTK, CMU SPHINX-4, Simon

B. Kalibracja UNIJIG'a w programie Speaker Workshop. Po uruchomieniu program wygląda następująco:

PRZEDMIOTOWY SYSTEM OCENIANIA Z JEZYKA ANGIELSKIEGO KLASY IV-VI SZKOŁY PODSTAWOWEJ

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Regulamin uczestnictwa w kursach językowych dostępnych na platformie Lubelskiego Uniwersytetu Inspiracji

Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy

Instrukcja obsługi kamery ukrytej w okularach model V14

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów

Formaty plików. graficznych, dźwiękowych, wideo

Czym jest HTK HMMs ASR

Mikrofon stereofoniczny STM10

Jak usunąć wokal z nagrania?

Korpusy mowy i narzędzia do ich przetwarzania

Co to jest dźwięk. Dźwięk to wyrażenie słuchowe wywołane przez falę akustyczną. Ludzki narząd wyłapuje dźwięki z częstotliwością 16 do 20 Hz

Badanie w wersji komputerowej wskazówki dla uczniów Badanie próbne [PL]

NAZWA PRODUKTU: Kamera SPORTOWA MD80 DV HD 720x480 + uchwyty T09 Główne funkcje

AUDIOMETRYCZNE BADANIE SŁUCHU ORAZ CECH WYPOWIADANYCH GŁOSEK

Omówienie różnych metod rozpoznawania mowy

OPRACOWANIE WYNIKÓW DZIELNICOWEGO EGZAMINU ÓSMOKLASISTY Z JĘZYKA ANGIELSKIEGO MAJ 2018

EDUKACJA POLONISTYCZNA

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO KLASY IV-VI SZKOŁA PODSTAWOWA W CHORZEWIE. Spis treści

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Specjalistyczny sprzęt komputerowy

PRZEWODNIK PO PRZEDMIOCIE

Panel Konta - instrukcja

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2018 ZASADY OCENIANIA

U-DRIVE DUAL. Instrukcja obsługi. Osobista czarna skrzynka kierowcy z kamerą cofania MT4056

Skrócona instrukcja obsługi rejestratorów marki

Testowy dokument raz dwa trzy

System diagnostyki słuchu

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO, FRANCUSKIEGO I NIEMIECKIEGO

INSTRUKCJA OBSŁUGI KOLUMNY SYGNALIZACYJNEJ KS-Ad

ROZDZIAŁ 1. PRZEGLĄD BRAMOFONU SAFE...

Usprawnianie percepcji słuchowej. Jolanta Hysz Konsultant ds. informatyki i edukacji początkowej WODN w Skierniewicach

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Scenariusz zajęć logopedycznych

Układy i Systemy Elektromedyczne

Zasoby internetowe do darmowej nauki języka angielskiego. Alicja Wojgienica

Obszar wsparcia: A. Rozwój funkcji słuchowych. Scenariusz zajęć











Układy i Systemy Elektromedyczne

Skrócona instrukcja obsługi. Instrukcję obsługi można pobrać ze strony Zoom ( ZOOM CORPORATION

Lokalizacja Oprogramowania

Przygotowanie prezentacji

Rozdział ten zawiera informacje na temat zarządzania Modułem VoIP oraz jego konfiguracji.

Spis treści. 1. Cyfrowy zapis i synteza dźwięku Schemat blokowy i zadania karty dźwiękowej UTK. Karty dźwiękowe. 1

KRYTERIA OCENY BIEŻĄCEJ DLA UCZNIÓW KLASY II

Układy i Systemy Elektromedyczne

Wykonaj następujące polecenia:

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH I-III

Projekt pn. Bajkowe przedszkole jest współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego

PRACA DYPLOMOWA Inżynierska

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2018 CZĘŚĆ PRAKTYCZNA. Arkusz zawiera informacje prawnie chronione do momentu rozpoczęcia egzaminu

Minimalna wspierana wersja systemu Android to zalecana 4.0. Ta dokumentacja została wykonana na telefonie HUAWEI ASCEND P7 z Android 4.

INSTRUKCJA UŻYTKOWNIKA. Mini DVR MD-80

3 Programy do tworzenia

Instrukcja obsługi TCC Rejestrator samochodowy. Dane techniczne oraz treść poniższej instrukcji mogą ulec zmianie bez uprzedzenia.

Laboratorium Komputerowe Systemy Pomiarowe

Konsola operatora TKombajn

Konwersje napis <-> liczba Struktury, unie Scanf / printf Wskaźniki

LABORATORIUM PRZEMYSŁOWYCH SYSTEMÓW STEROWANIA

Transkrypt:

Kinga Frydrych Wydział Inżynierii Mechanicznej i Robotyki Inżynieria Akustyczna, rok III, 2013/2014 Sprawozdanie z ćwiczeń laboratoryjnych z Technologii mowy Rozpoznawanie mowy za pomocą HTK 1. Opis gramatyki Prezentowany system rozpoznawania mowy powstał przy użyciu HTK Speech Recognition Toolkit. Jego zadanie polega na rozpoznawaniu treści zamawiania odzieży. Użytkownik ma możliwość wyboru rodzaju ubrania, jego koloru oraz rozmiaru. Gramatyka wygląda następująco: $prosba = poprosze chcialbym_kupic chcialabym_kupic ; $ubranie = spodnie sukienke spodnice bluzke koszule krawat garnitur ; $kolor = bialym ZOLtym czerwonym niebieskim zielonym czarnym ; $rozmiar = iks_es es em el iks_el ; (SENT-START ( $prosba $ubranie w_kolorze $kolor rozmiar $rozmiar ) SENT-END) Na sześć słów, które system ma rozpoznać, dwa z nich ( w_kolorze, rozmiar ) występują w każdej wypowiedzi (oprócz wypowiedzi z krawatem, gdzie nie podaje się rozmiaru), zatem już na wstępie rozpoznanie wynosi ok. 30%. Gramatykę skompilowano oraz utworzono słownik z zapisem fonetycznym użytych słów (w załączniku). 2. Nagrania treningowe Kolejnym krokiem było nagranie wypowiedzi treningowych w oparciu o plik gram. Rejestracji dokonano przy użyciu mikrofonu wbudowanego w laptop Packard Bell Easy Note TK PEW92 (Realtek High Definiton Audio), w programie Audacity. Zdania znalazły się w monofonicznym pliku TMprobka.wav (w załączniku), trwającym około trzech minut, częstotliwość próbkowania: 16 khz, 16 bit. Nagranie powstało w warunkach domowych, w umeblowanym pokoju. Rejestrowany był głos kobiecy.

3. Anotacja Korzystając z powstałego na AGH programu Anotator (Audio Descriptor) dokonano ręcznie anotacji na poziomie słów. Następnie automatycznie podzielono nagranie na fonemy. 4. Modele HMM Utworzono prototypowy model HMM, po czym dokonano dziesięciu jego reestymacji. 5. Testowanie systemu Nagrano dziesięć wypowiedzi testowych, przy użyciu tego samego sprzętu, co nagrania treningowe. Przepuszczono je przez utworzony system rozpoznawania mowy. Uzyskano pliki recoutn.mlf (gdzie n oznacza numer reestymacji), które zawierają słowa, jakie HTK udało się rozpoznać dla każdego pliku testowego. Następnie sprawdzono (dla wszystkich reestymacji), jakie jest procentowe rozpoznanie zdań oraz słów w nagraniach:

Rys. 1. Wyniki rozpoznania zdań i słów Najlepsze rozpoznanie to 50% (zawiera wcześniej wymienione 30%). 6. Analiza błędów rozpoznania i wnioski W każdym nagraniu, dla każdej reestymacji prawidłowo rozpoznane są stałe elementy ( w_kolorze, rozmiar ). Na podstawie uzyskanych wcześniej plików recout.mlf (w załączniku) zaobserwowano następujące rozpoznania dla poszczególnych słów: Tabela 1. Słowa oraz ich rozpoznanie [%] Słowo spodnie sukienke spodnice bluzke garnitur krawat koszule poprosze chcialbym_kupic chciałabym_kupic Rozp. 0 0 0 0 10 60 40 97,5 0 10 iks_es es em el iks_el ZOLtym bialym czarnym zielonym czerwonym niebieskim 10 45 0 50 0 50 0 0 10 70 0

Uwagi: System dla każdej reestymacji zamiast słowa spodnie wypisuje w rozpoznaniu słowo koszule Zamiast słowa koszule niekiedy pojawia się słowo spodnie Zdaniem autorki sprawozdania, duża ilość błędów wynika z niepoprawności automatycznej anotacji na poziomie fonemów. W celu sprawdzenia, czy faktycznie tak jest, zrealizowano w MATLAB-ie program, który na podstawie pliku z anotacją na fonemy (fonet.mlf w załączniku) oraz plików audio odtwarza dźwięki, które są zawarte w danych przedziałach czasowych. Gdyby podział na fonemy był zrobiony poprawnie, rezultatem działania programu powinno być odtworzenie ciągu liter (np. aaaaaaaa ), natomiast w przypadku prezentowanego systemu rozpoznawania mowy nie zawsze jest to czysta sekwencja danej litery. Szczególnie dobrze widać to w przypadku fonemu e, gdzie pojawia się nie tylko ta głoska, ale też fragmenty słów, a nawet całe wyrazy próbka ta została dodana do listy załączników pod nazwą blad.wav. 7. Sprawdzenie działania systemu rozpoznawania mowy dla innego głosu W tym celu nagrano kolejne dziesięć wypowiedzi (przy pomocy takiego samego sprzętu, jak wcześniej). Tym razem rejestrowany był głos dziecięcy.

Rys. 2. Wyniki rozpoznania zdań i słów dla głosu innej osoby Rozpoznanie zdań wypowiadanych głosem innym niż nagrania treningowe, jest lepsze niż w przypadku tego samego głosu dochodzi nawet do 63,8% dla drugiej reestymacji. Do powyższego raportu załączono: nagranie treningowe TMprobka.wav, nagrania testowe 1-10.wav, pliki tekstowe gram.txt oraz dict.txt, pliki z rozpoznaniami recout.mlf, plik dźwiękowy blad.wav oraz pozostałe pliki powstałe podczas realizowania automatycznego systemu rozpoznawania mowy.