Sprawozdanie z laboratoriów HTK



Podobne dokumenty
Sprawozdanie z laboratoriów HTK!

Sprawozdanie z laboratoriów HTK

Rozpoznawanie mowy za pomocą HTK

I. Gramatyka. Poniżej prezentowana jest realizowana gramatyka:

SPRAWOZDANIE Z LABORATORIÓW HTK SYLWIA BAŁAZY AKADEMIA GÓRNICZO-HUTNICZA IM. S. STASZICA W KRAKOWIE

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Opisy efektów kształcenia dla modułu

Kamera. Nr produktu

Laboratorium - Użycie narzędzia Przywracanie systemu w Windows Vista

Ćwiczenie 9. Programowanie ogrzewania w systemie LCN

Ćwiczenie SIB-C4. Integracja automatyki pomieszczeń domowych z wykorzystaniem standardu firmowego InOne by Legrand

Sterowanie w domu. Sprzęt

ATMT-502 PILOT ZDALNEGO STEROWANIA

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO DLA UCZNIÓW KLASY VI NA POSZCZEGÓLNE OCENY I OKRES OCENA CELUJĄCA

NAZWA PRODUKTU: Mini metalowa kamera Full HD 1920x1080 detekcja ruchu S153 Cechy produktu

Testowy dokument raz dwa trzy

Ćwiczenie ABIS-C2. Integracja automatyki pomieszczeo domowych

ZEGAR Z KAMERĄ INSTRUKCJA UŻYTKOWANIA

Ćwiczenia Skopiować do swojego folderu plik cwiczenia-kl.ii.xls, a następnie zmienić jego nazwę na imię i nazwisko ucznia

Laboratorium - Użycie narzędzia Przywracanie systemu w systemie Windows 7

SYSTEM OCENIANIA Z JĘZYKÓW OBCYCH.

SYSTEM OCENIANIA Z JĘZYKA ROSYJSKIEGO

HTK czego NIE robić. Bartłomiej Chojnacki. - uważać przy przepisywaniu komend, czasem małe L wygląda identycznie jak duże I

INSTRUKCJA OBSŁUGI PROGRAMU INSTAR 1.0

ControlHome wprowadzimy Twój Dom w przyszłość

KATALOG PRODUKTOWY. Bądź z domem zawsze w kontakcie

B. Kalibracja UNIJIG'a w programie Speaker Workshop. Po uruchomieniu program wygląda następująco:

Poradnik HTK. Adrian Sekuła

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

II. Kontrola i ocena pracy ucznia.

Tolkmicko, ul. Świętojańska

ZASADY WEWNĄTRZSZKOLNEGO OCENIANIA Z JĘZYKA WŁOSKIEGO W VII KLASIE SZKOŁY PODSTAWOWEJ

Gdańsk Chełm, ul. Anny Jagiellonki

Lekcja 1: Origin GUI GUI to Graficzny interfejs użytkownika (ang. GraphicalUserInterface) często nazywany też środowiskiem graficznym

LABORATORIUM ENERGOOSZCZĘDNEGO BUDYNKU

Laboratorium Elektrycznych Systemów Inteligentnych

Laboratorium Inżynierii akustycznej

PRZYGOTOWANIE DO SYNCHRONIZACJI Z BOOKING.COM

Przedmiotowy system oceniania z języka angielskiego

Aiptek Pocket DV II Camcorder Nr zam Instrukcja obsługi.

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

3 rodzaje wykresów Forex oraz jak je czytać

Słubica-Wieś. Dom (Wolnostojący) na sprzedaż za PLN. Dodatkowe informacje: Opis nieruchomości: Kontakt do doradcy: Bożena Śpitalniak

ROZDZIAŁ 1: Instrukcja obsługi oprogramowania VMS

- autorzy programu - wyjście z programu

Gdynia Grabówek, ul. Hugo Kołłątaja

Cyfrowy system konferencyjny DIS DCS 6000 Część 2 - oprogramowanie. Marcin Gontarek

Otwórz i zamknij kilka dokumentów tekstowych, następnie sprawdź zawartość menu Plik.

Instrukcja korzystania z kalkulatora czasu pogłosu Rigips

III. ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Fundusze Europejskie bez barier. Usprawnienia dla osób z niepełnosprawnością

Porównywalne między latami wyniki egzaminacyjne (PWE)

Mikrokamera ukryta w zegarku budziku T5000. Instrukcja obsługi

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 3

Wymagania edukacyjne na śródroczne i roczne oceny z z języka włoskiego

U-DRIVE DVR. Instrukcja obsługi. Car DVR Device MT4036

INSTRUKCJA UŻYTKOWNIKA

POZIOMY WYMAGAŃ EDUKACYJNYCH DLA KLASY DRUGIEJ ZAJĘCIA Z KOMPUTEREM OCENA ŚRÓDROCZNA

RF-graph 1.2 POMOC PROGRAMU

Podstawy Informatyki. Algorytmy i ich poprawność

Uwaga: Jeżeli po zamknięciu okna roboczego alarm się utrzymuje

Instrukcja obsługi Rejestrator jazdy HD 50213

POLITYKA PRYWATNOŚCI

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA HISZPAŃSKIEGO

1. Tworzenie integracji

Efekt Lombarda. Czym jest efekt Lombarda?

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA HISZPAŃSKIEGO

CYFROWY DYKTAFON 8GB AUVISIO

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA HISZPANSKIEGO Kl. III gimnazjalna

Spis treści Szybki start... 4 Podstawowe informacje opis okien... 6 Tworzenie, zapisywanie oraz otwieranie pliku... 23

Inteligentny Dom. Dom taki jak chcesz

Projekt badawczy. Zastosowania technologii dynamicznego podpisu biometrycznego

Gdańsk Wrzeszcz Górny, ul. Jaśkowa Dolina

KRYTERIA OCEN Z JĘZYKA POLSKIEGO W KLASIE V

Wymagania edukacyjne język włoski

Opowiadanie zapamiętanej historii: Historia portfela"

Łódź Bałuty, ul. Obrońców Westerplatte

MODUŁ GŁOSOWY INT-VG. 1. Właściwości. 2. Dane techniczne

Kontrola i ocena pracy ucznia.

Załącznik 1. Załącznik 2.

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA NIEMIECKIEGO DLA KLAS VII-VIII

Opis efektów kształcenia wraz z charakterystyką poziomów znajomości języka obcego nowożytnego według ESOKJ.

Instrukcja obsługi Systemu Sterowania Crestron UG Wydział Matematyki, Fizyki i Informatyki

Gdynia Redłowo, ul. Powstania Wielkopolskiego

Bramki logiczne Instrukcja do ćwiczeń laboratoryjnych

Fundusze Europejskie bez barier. Usprawnienia dla osób z niepełnosprawnością

Wysłuchanie opinii publicznej przez Ministra Zdrowia

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH I III

Egzamin Maturalny od 2015 roku

Inteligentna automatyka budynkowa

Expo Composer Garncarska Szczecin tel.: info@doittechnology.pl. Dokumentacja użytkownika

X Potwierdzenie stanu cywilnego przez referat ewidencji ludności Urzędu Miasta Rybnika

WYMAGANIA EDUKACYJNE Z JĘZYKA NIEMIECKIEGO DLA KLASY 4 SŁUCHANIE ZE ZROZUMIENIEM: Ocena celująca Uczeń: posiada wiedzę i umiejętności, znacznie

SCENARIUSZ LEKCJI. Wielomiany komputerowe wykresy funkcji wielomianowych

INSTRUKCJA POSTĘPOWANIA MIESZKAŃCÓW NA WYPADEK WYSTĄPIENIA AWARII PRZEMYSŁOWEJ

CZYTANIE CICHE ZE ZROZUMIENIEM

Rewolucja w zarządzaniu domem. Nowa aplikacja FIBARO Home Center to najwyższy poziom wygody i efektywności w zarządzaniu inteligentnym domem.

Jak sprawnie filtrować i sprawdzać poprawność danych w Excelu? 1

INSTRUKCJA OBSŁUGI TMT-502 PILOT ZDALNEGO STEROWANIA

Transkrypt:

Inżynieria Akustyczna Technologia Mowy 2013 Jakub Antoniuk Sprawozdanie z laboratoriów HTK 1.Opis gramatyki System był projektowany w celu obsługi inteligentnych instalacji w domach. Istnieją systemy pozwalające kontrolować w prosty sposób światło, rolety, zestawy kina domowego itp. za pomocą jednego pilota. Gramatyka została zaprojektowana tak, aby użytkownik najpierw mówił, w którym pomieszczeniu chce wykonać daną akcję, a następnie, z czym związana jest dana akcja i samą akcje. Na końcu dodano możliwość odłożenia akcji w czasie, czyli można wykona akcję teraz lub za dany odstęp czasu. Plik opisujący gramatykę: $pokoj = salonie Lazience kuchni sypialni przedpokoju; $okno = otworz zamknij uchyl; $roleta = podnies opusc; $SwiatLo = zapal zgas; $media = radio telewizor komputer; $ile = dziesiec dwadziescia trzydziesci jedna dwie trzy piec szesc dwanascie; $czego = minut godzin; ( SENT-START ( w_pokoju <$pokoj> ( okno $okno rolete $roleta SwiatLo $SwiatLo wlacz $media wylacz $media)) (teraz za $ile $czego) SENT-END ) Światło Zapal Zgaś Okno Otwórz Zamknij Uchyl Teraz W pokoju Salonie Łazience Kuchni Sypialni Przedpokoju Roletę Włącz Wyłącz Podnieś Opuść Radio Komputer Telewizor Za Jedną Dwie Trzy Pięć Sześć Dziesięć Dwadzieścia Trzydzieści Minutę Minuty Minut Godzinę Godziny Godzin

Dla ułatwienia odmiany wartości czasu (tzn. godzin, godzinę, godziny oraz minut, minutę, minuty) zostały oznaczone, jako jedno słowo (minut lub godzin) z trzema możliwymi transkrypcjami fonetycznymi, ponieważ dla systemu ważna jest ilość, czyli poprzedzające słowo. Ta operacja ma eliminować błędy w rozpoznaniu (np. program rozpoznał godziny, podczas gdy powiedziano godzinę), które nie wpłyną negatywnie na ogólny wynik treści zdania. 2.Opis nagrań Zarówno nagrania treningowe i testowe wykonano w zamkniętym, umeblowanym pomieszczeniu mieszkalnym przy użyciu następujących urządzeń: Mikrofon: Rejestrator: Behringer XM8500 Line6 POD X3 Live Nagranie treningowe zawierało ponad 3 minuty całych zdań w ten sposób, aby każde słowo było wypowiedziane co najmniej trzykrotnie. Zbiór testowy składał się z 10 nagrań pojedynczych zdań wypowiedzianych przez tego samego lektora, w tych samych warunkach, co nagrania treningowe. 3.Wyniki Reestymacja Lektor treningowy Inny Lektor Corr Acc Corr Acc 1 28,57% 25,71% 37,14% 32,86% 2 30,00% 30,00% 25,71% 25,71% 3 37,14% 34,29% 31,43% 31,43% 4 37,14% 34,29% 34,29% 34,29% 5 37,14% 34,29% 31,43% 31,43% 6 42,86% 40,00% 34,29% 34,29% 7 47,14% 47,14% 31,43% 31,43% 8 44,29% 44,29% 31,43% 31,43% 9 40,00% 40,00% 28,57% 28,57% 10 41,43% 41,43% 30,00% 30,00% Tab. 1 Wyniki rozpoznania nagrań testowych. W tabeli zamieszczono wyniki rozpoznania nagrań testowych lektora, który wykonywał nagranie treningowe oraz innego lektora, również płci męskiej. W każdym przypadku rozpoznawalność zdań wyniosła 0%. Najwyższa rozpoznawalność wyniosła 47.14% i wystąpiła u lektora treningowego przy siódmej reestymacji. Najwyższa rozpoznawalność drugiego lektora wyniosła 37.14% i wystąpiła przy pierwszej reestymacji.

Poprawnośc słów [%] Poprawnośc słów [%] 50 45 40 35 30 25 20 15 Inny Lektor Lektor treningowy 10 5 0 1 2 3 4 5 6 7 8 9 10 Numer Reestymacji Wykres 1. Poprawność rozpoznania (Corr) w zależności od krotności reestymacji. Na wykresie 1. można zaobserwować, że poprawność słów w nagraniu lektora treningowego, poza pierwszą reestymacją jest, o co najmniej 5% wyższa niż u drugiego lektora. 50 45 40 35 30 25 20 15 Inny Lektor Lektor treningowy 10 5 0 1 2 3 4 5 6 7 8 9 10 Numer Reestymacji Wykres 2. Poprawność rozpoznania (Acc) w zależności od krotności reestymacji. 4.Analiza wyników i wnioski Zerowa rozpoznawalność zdań może wynikać z dość skomplikowanej gramatyki. W zaproponowanym systemie występuje 35 różnych słów, a poszczególne zdania w nagraniu testowym są stosunkowo długie (5 do 9 słów).

Analizując rozpoznane zdania można zauważyć, że program bardzo często błędnie rozpoznaje żądany czas wykonania akcji. Powodem tego zapewne jest niefortunnie zbudowana gramatyka, w której ważne jest rozpoznanie słowa za, ponieważ po nim wypowiadany jest żądany odstęp czasu. Zamiast tego program w większości przypadków rozpoznaje słowo teraz, które jest zakończeniem zdania.

Wyrażamy zgodę na dołączenie naszych nagrań do korpusu mowy AGH. Nagrania mogą być odtwarzane, ale wyłącznie bez podawani tożsamości mówców (np. w celu prezentacji, jakości, rodzaju nagrań itd.).