I. Gramatyka. Poniżej prezentowana jest realizowana gramatyka:

Podobne dokumenty
Sprawozdanie z laboratoriów HTK!

SPRAWOZDANIE Z LABORATORIÓW HTK SYLWIA BAŁAZY AKADEMIA GÓRNICZO-HUTNICZA IM. S. STASZICA W KRAKOWIE

Rozpoznawanie mowy za pomocą HTK

Sprawozdanie z laboratoriów HTK

Sprawozdanie z laboratoriów HTK

PONIEDZIAŁEK WTOREK

Boisko piłkarskie: stycznia

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

Bloki Wyborcze - Telewizja Wrocław

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Centrum Popularyzacji Kosmosu PLANETARIUM TORUŃ

Karta pracy 8. Przed imprezą

Oferta Centrum Popularyzacji Kosmosu Planetarium Toruń

Program warsztatów CLARIN-PL

Poradnik HTK. Adrian Sekuła

Wiem, co trzeba. Grudzień. Materiały dla klasy I. Imię i nazwisko:... Klasa:...

SOBOTA 28 maja 2011 GRUPA 5 PU GRUPA 6 PU GRUPA 7 PU GRUPA 8 PU przerwa "kawowa" przerwa "obiadowa"

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA HISZPAŃSKIEGO

Boisko piłkarskie: 5 11 maja

Raport kontrolny czasu pracy

Boisko piłkarskie: 26 maja 1 czerwca

Symulacja akustyczna nagłośnienia sali wykładowej Polskiego Komitetu Normalizacyjnego

Harmonogram dyżurów aptek ogólnodostępnych w Kartuzach w styczniu 2012 r. w porze nocnej, dni wolne od pracy, niedziele i święta od

Repertuar od do

Zadania z konkursów matematycznych

Cennik korzystania z obiektu

PLAN FERII ZIMOWYCH r r. Zajęcia odbywają się w godzinach 09:00-13:00

Repertuar od do

Repertuar od do

PRZEDMIOTOWE ZASADY OCENIANIA NA LEKCJACH JĘZYKA NIEMIECKIEGO Rok szkolny 2018 / 2019

Kryteria oceniania z języka angielskiego, obejmujące zakres umiejętności ucznia na poszczególne oceny:

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2018 ZASADY OCENIANIA

Małe Olimpiady Przedmiotowe. Test z matematyki

REGULAMIN KORZYSTANIA Z KINA WARSZAWA W MIEJSKIM OŚRODKU KULTURY IM. OSKARA KOLBERGA W PRZEWORSKU

Terminy odbioru odpadów komunalnych z nieruchomości niezamieszkałych w 2017 roku. MICKIEWICZA 1/od 1 do 3, 4, 5, 7

Cennik korzystania z obiektu

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH I-III SZKOŁY PODSTAWOWEJ

Poziom dostępności: AAA

Załącznik nr 1 CENNIK

PRZEDMIOTOWE ZASADY OCENIANIA

Przedmiotowy System Oceniania z języka angielskiego w klasach I - III

System Korekty Tekstu Polskiego

PODYPLOMOWE STUDIUM DLA NAUCZYCIELI W ZAKRESIE ICT, JĘZYKÓW OBCYCH ORAZ DRUGIEGO PRZEDMIOTU - kierunek MATEMATYKA. Plan zajęć

EGZAMIN MATURALNY Z INFORMATYKI 11 MAJA 2018 POZIOM PODSTAWOWY. Godzina rozpoczęcia: 14:00 CZĘŚĆ I WYBRANE: Czas pracy: 75 minut

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2019 ZASADY OCENIANIA

1. POSTANOWIENIA OGÓLNE

Systemy multimedialne. Instrukcja 5 Edytor audio Audacity

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Wiadomości wstępne dotyczące języka migowego.


POKONAĆ 10 KM BEZ ZATRZYMANIA. Marsz szybki 5 minut + Ćwiczenia w truchcie i rozciągające 5 minut

Katolickie Liceum Ogólnokształcące im. Romualda Traugutta w Chojnicach ANALIZA WYNIKÓW MATURALNYCH

Olympus DYKTAFON WS-853+KUPON PREMIUM -50% na AB FOTOKSIĄŻKĘ

Podstawy Przetwarzania Sygnałów

SpeakUp click, czyli jak bezstresowo dogadać się z lampką?

KLASA5 PAKIET3 KARTY PRACY MATEMATYKA

g r u 18 XII 11 I Miesiąc Dzień Dzień tygodnia Anestezjologia i i pielęgniarstwo w stanie zagrożenia życia(1) mgr A Chojnowska OIOM

W jakim stopniu uczniowie opanowali umiejętność Wykorzystywania wiedzy w praktyce? Analiza zadań otwartych z arkusza Sprawdzian 2012

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

Ćwiczenie II. Edytor dźwięku Audacity

HARMONOGRAM Gmina Skrzyszów. planowanych godzin pracy animatora PIOTRA ZAJĄCA w ramach projektu Moje Boisko ORLIK 2012.

PRZEDMIOTOWE ZASADY OCENIANIA W KLASACH I- III

INSTYTUT MEDYCZNY PIELĘGNIARSTWO I STOPNIA SEMESTR V zimowy 2014/2015 zblokowane zajęcia praktyczne z pielęgniarstw klinicznych styczeń

WYMAGANIA EDUKACYJNE JĘZYK ANGIELSKI. Uczeń nieobecny na teście pisze go w terminie uzgodnionym z nauczycielem. Termin ten nie może jednak przekroczy.

D Z I E N N I K T R E N I N G O W Y

START W BEZPIECZNE WAKACJE Z PAŁACEM MŁODZIEŻY

Ekonometria, lista zadań nr 6 Zadanie 5 H X 1, X 2, X 3

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLAS I-III SZKOŁY PODSTAWOWEJ

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLAS IV-VIII

Scenariusz dyskusji fokusowej z rodzicami

Cennik korzystania z obiektu

Rozkład zajęć klas od

Język angielski Wymagania edukacyjne dla klas I

POKONAĆ 5 KM W CZASIE OKOŁO 30 MINUT. Wolny bieg 6 km + Szybszy bieg 1 km (tętno ) + na koniec ćwiczenia rozciągające 10 minut

ZADANIA MATEMATYCZNE DLA UCZNIÓW KLAS VI zestaw drugi.

CZAS [min] PONIEDZIAŁEK PRAKTYCZNA/D 180 A : WTOREK PISEMNY A I. 10:00

Metoda ustalania wskaźników w rozliczeniach z tytułu wzajemnego honorowania biletów. mgr inż. Szymon Klemba Warszawa, r.

PRZEWODNIK PO PRZEDMIOCIE. PNJA Fonetyka praktyczna (j.a. amerykański) Angielski Język Biznesu

Uwagi: Wprowadzenie *21* _ # Sprawdzenie stanu *#21# Anulowanie # 2 1 # Wprowadzenie *67* _ # Sprawdzenie stanu *#67# Anulowanie #67#

Poniedziałek Hygieja

Usługa. Cena brutto Za 1 h. 9) Wynajem wykładziny - z montażem i demontażem/jednorazowo pod imprezę Za imprezę 900,00 zł

Język angielski Wymagania edukacyjne dla klasy II SZKOŁY PODSTAWOWEJ

ARTystyczne FERIE W KONIŃSKIM DOMU KULTURY

pieczęć szkoły (data)

Kryteria ocen z języka polskiego dla klasy V szkoły podstawowej

Cennik opłat za korzystanie z urządzeń i obiektów Centrum Rekreacyjno-Sportowego w Zielonej Górze

KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLASY VI

PODSUMOWANIE WYNIKÓW

Compact Open Remote Nao

Kryteria ocen z języka hiszpańskiego

Witamy na stronie internetowej poświęconej nauce języka holenderskiego

TRENING BIEGOWY. Przykładowy pierwszy tydzień treningowy mógłby wyglądać następująco:

Uwaga! Upadek! Opis zadania konkursowego

Efekt Lombarda. Czym jest efekt Lombarda?

Ogólne wymagania na poszczególne oceny z języka niemieckiego

Kryteria oceniania z języka angielskiego w klasie 2 według sprawności językowych GRAMATYKA I SŁOWNICTWO

Opis wymagań na poszczególne oceny z języka angielskiego:

Czerwiec 2017 Grupa treningowa: junior młodszy

ZIMOWY OKRES PRZYGOTOWAWCZY

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLAS I-III

Transkrypt:

I. Gramatyka Celem projektu było opracowanie systemu rozpoznawania mowy korzystając z HTK. Stworzona gramatyka symulowała wizytę w kinie, tym samym więc zawierała informacje na temat rodzaju biletu wraz z ich ilością, tytuł filmu, dzień tygodnia, w którym odbywa się seans oraz przybliżoną porę dnia. System tego typu mógłby okazać się przydatny we wszelkich obiektach, gdzie występuje konieczność zakupu biletu wstępu: teatry, sale koncertowe, kino czy nawet muzea. Poniżej prezentowana jest realizowana gramatyka: $ilosc = dwa trzy cztery; $rodzajjeden = ulgowy normalny; $rodzajwiele = ulgowe normalne; $film = mis rejs pianista kiler amator rewers pasja komornik roza przesluchanie przypadek katedra dzien_swira sami_swoi; $dzien = poniedzialek wtorek SrodE czwartek piatek sobote niedziele; $pora = rano wieczor; ( SENT-START ( poprosze ((jeden bilet $rodzajjeden) ($ilosc bilety $rodzajwiele)) na film $film na $dzien $pora ) SEND-END ) Zasadniczą wadą systemu jest fakt, że wymusza on na użytkowniku konkretną składnię wypowiadanego zdania. Każde ze zdań składa się z dziesięciu słów, z czego słów dowolnych jest pięć, co stanowi dokładnie 50% całości zdania. Aby rozpocząć pracę z systemem należało przygotować plik zawierający transkrypcje fonetyczne wszystkich wyrazów, które wykorzystuje podana gramatyka. Zawartość tego pliku prezentowana jest poniżej.

poprosze jeden dwa trzy cztery bilet bilety ulgowy ulgowe normalny normalne na film mis rejs pianista kiler amator rewers pasja komornik roza przesluchanie przypadek katedra dzien_swira sami_swoi poniedzialek wtorek SrodE czwartek piatek sobote niedziele rano wieczor SENT-START SEND-END p o p r o sz e sil j e d e n sil d w a sil t sz y sil cz t e r y sil b i l e t sil b i l e t y sil u l g o w y sil u l g o w e sil n o r m a l n y sil n o r m a l n e sil n a sil f i l m sil m i si sil r e j s sil p j a ni i s t a sil k i l e r sil a m a t o r sil r e w e r s sil p a s j a sil k o m o r ni i k sil r u rz a sil p sz e s l_ u h a ni e sil p sz y p a d e k sil k a t e d r a sil dzi e ni si f i r a sil s a m i s f o j i sil p o ni e dzi a l_ e k sil f t o r e k sil si r o d e sil cz f a r t e k sil p j o n t e k sil s o b o t e sil n i e dzi e l e sil r a n o sil w j e cz u r sil [] sil [] sil II. Nagrania: sprzęt oraz warunki Podczas nagrywania plików treningowych użyto następujących urządzeń i oprogramowania: mikrofon: Shure Beta 58a procesor wokalny: TC-Helicon VoiceLive 2 oprogramowanie: Audacity

Nagranie wykonane zostało dla częstotliwości próbkowania wynoszącej 16kHz przy rozdzielczości równej 16 bitów. Plik dźwiękowy zawierał nagrania 42 zdań ułożonych w taki sposób, aby każde ze słów gramatyki wypowiedziane zostało podczas treningu przynajmniej trzy razy. Tym sposobem uzyskano plik trwający 03:07 minuty, z czego wynika, że na każde zdanie przypadało około 4,5 sekundy nagrania. Widać więc, że tempo wypowiadanych zdań było dosyć szybkie, bardzo zbliżone do prędkości wypowiedzi w warunkach naturalnych. Kolejnym krokiem było anotowanie poszczególnych wypowiedzianych słów w nagraniu treningowym. Do tego posłużono się programem AudioDescription. Następnie każde ze słów podzielone zostało na poszczególne fonemy. Nagrania dziesięciu zdań mających testować skuteczność stworzonego systemu rozpoznawania mowy nagrano dokładnie tym samym sprzętem, w tych samych warunkach zachowując bardzo podobne tempo wypowiedzi. Jedyną drobną różnicą między tymi nagraniami jest mniejsza głośność nagrań zdań testowych. Pomieszczenie, w którym nagrywano pliki dźwiękowe było bardzo ciche, tak więc nagranie pozbawione jest większych zakłóceń pochodzących z zewnątrz. Szumy nie zostały całkowicie wyeliminowane, jednak w przypadku trzyminutowego nagrania treningowego odległość rzeczywistego sygnału od szumu jest bardzo duża. Trochę gorsza czystość nagrania została uzyskana dla nagrań testowych, gdyż mowa jest znacznie cichsza, jednak zrozumiałość wypowiedzi i tak jest zadowalająca. III. Otrzymane wyniki Poniżej prezentowane są wyniki zestawione w tabeli zawierającej procentowe rozpoznanie dla wszystkich słów, zmiennych słów oraz ilość zdań rozpoznanych w całości. Numer reestymacji Ilość rozpoznanych w całości zdań (na 10) Rozpoznanie wszystkich słów [%] Rozpoznanie zmiennych słów [%] 1 1 67.33 50 2 5 91.09 84 3 8 97.03 96 4 8 97.03 96 5 9 98.02 98 6 9 98.02 98 7 8 97.03 96 8 8 97.03 96 9 8 97.03 96 10 8 97.03 96

Na podstawie prezentowanych powyżej wyników można stwierdzić, że skuteczność zaprojektowanego systemu, choć nie jest idealna, jest bardzo zadowalająca. Już w przypadku piątej i szóstej reestymacji uzyskujemy rozpoznanie na poziomie 98%, co oznacza, że na 10 wypowiedzianych zdań (a więc 100 wypowiedzianych wyrazów) zaledwie jedno słowo zostało błędnie zidentyfikowane przez system. Wśród używanych wyrazów można zauważyć takie, które najrzadziej (lub w ogóle) są rozpoznawane przez program. Wśród nich znajdują się: Przesłuchanie 0% rozpoznania Jedyne słowo, które nigdy nie zostało rozpoznane. Nagranie zawierające ten tytuł filmu zdaje się nie odbiegać jakością ani sposobem wymowy słowa od innych. Co dziwniejsze system identyfikował to słowo zawsze jako Komornik. Zastanawiający jest fakt, iż słowa nie zdają się być do siebie zbliżone. Błędem mogącym wpływać na taki stan rzeczy może być błędna transkrypcja fonetyczna, którą prawdopodobnie (po znastanowieniu, znając skutki obecnego stanu rzeczy) powinno się zmienić z: p sz e s l_ u h a ni e na p sz e s u h a ni i e. Dzień Świra - 60% rozpoznania Wyraz (właściwie dwa wyrazy, jednak w systemie zaimplementowane były one jako zawsze występujące obok siebie) mylony był najczęściej ze słowem Kiler. Powód takiego błędu jest nieznany. Transkrypcja fonetyczna zdaje się być poprawna, a oba wyrazy nie mają ze sobą wiele wspólnego (przede wszystkim znacznie różnią się długością), ciężko więc stwierdzić, w jaki sposób można by próbować eliminować tę pomyłkę. Dni tygodnia rozpoznawalność przedstawiona w tabeli poniżej Dzień tygodnia Rozpoznawalność [%] poniedziałek 100 wtorek 80 środa 80 czwartek 100 piątek 95 sobota 80 niedziela 85 IV. Wnioski Skuteczność stworzonego systemu rozpoznawania mowy można określić jako bardzo dobrą. Oprogramowanie tego typu byłoby znakomitym dodatkiem do samoobsługowych automatów do kupowania biletów, które już teraz znajdują się w większości nowych kin. Tym sposobem można by ułatwić komunikację maszyn np. z osobami niewidomymi lub niedowidzącymi, mającymi problemy z korzystaniem z graficznych interfejsów, w które zaopatrzone są maszyny tego typu.

Oczywiście takie rozwiązanie wymagałoby rozbudowania bazy plików treningowych, gdyż w tym przypadku całość testu wykonywana była dla jednej osoby, natomiast w warunkach naturalnych system musiałby wykazywać się bardzo wysoką skutecznością niezależnie od mówcy. Aby zwiększyć skuteczność tego konkretnego systemu, można by rozważyć zrealizowanie nagrań w lepszych warunkach, jednak biorąc pod uwagę względy praktyczne i faktyczne zastosowanie nie miało by to większego sensu, gdyż w warunkach rzeczywistych nie jest możliwe uzyskanie sterylnego nagrania audio, ze względu na poziom szumów tła. Największą napotkaną trudnością był najprawdopodobniej fakt, że pliki treningowe zawierały nagrania mowy ciągłej, w związku z czym już na etapie anotacji ciężko było momentami wyizolować koniec jednego słowa i początek następnego. To, wraz z możliwym niedokładnym oznaczeniem czasów trwania konkretnych fonemów (w pliku transkrypcja_fonetyczna.mlf) mogło wpłynąć na spadek skuteczności przy identyfikacji słów. Jednym z rozwiązań wprowadzonych aby zwiększyć skuteczność rozpoznań była próba zwiększenia liczby reestymacji, jednak rozwiązanie to nie okazało się skuteczne, gdyż dla większej ich ilości procentowe rozpoznanie nadal utrzymywało się na poziomie około 97-98%. Wyrażamy zgodę na dołączenie moich nagrań do korpusu mowy AGH. Nagrania mogą być odtwarzane ale wyłącznie bez podawani tożsamości mówców (np. w celu prezentacji jakości, rodzaju nagrań itd.).