ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW



Podobne dokumenty
P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających

Podstawy Przetwarzania Sygnałów

Kompresja dźwięku w standardzie MPEG-1

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Transpozer czasowy mowy

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

DYSKRETNA TRANSFORMACJA FOURIERA

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)

Analiza obrazów - sprawozdanie nr 2

IMPLEMENTATION OF THE SPECTRUM ANALYZER ON MICROCONTROLLER WITH ARM7 CORE IMPLEMENTACJA ANALIZATORA WIDMA NA MIKROKONTROLERZE Z RDZENIEM ARM7

PL B1. Układ do lokalizacji elektroakustycznych przetworników pomiarowych w przestrzeni pomieszczenia, zwłaszcza mikrofonów

Widmo akustyczne radia DAB i FM, porównanie okien czasowych Leszek Gorzelnik

Laboratorium EAM. Instrukcja obsługi programu Dopp Meter ver. 1.0

System wspomagania harmonogramowania przedsięwzięć budowlanych

dr inż. Jacek Naruniec

7. Szybka transformata Fouriera fft

Algorytmy detekcji częstotliwości podstawowej

Systemy multimedialne. Instrukcja 5 Edytor audio Audacity

Parametryzacja przetworników analogowocyfrowych

Symulacja sygnału czujnika z wyjściem częstotliwościowym w stanach dynamicznych

Ćwiczenie 3. Właściwości przekształcenia Fouriera

Transformacje i funkcje statystyczne

PL B1. Sposób i układ do modyfikacji widma sygnału ultraszerokopasmowego radia impulsowego. POLITECHNIKA GDAŃSKA, Gdańsk, PL

BADANIA MOŻLIWOŚCI ROZPOZNAWANIA MOWY W AUTONOMICZNYCH SYSTEMACH STEROWANIA

Transformata Fouriera

EDYTORY AUDIO JAKO NARZĘDZIE DYDAKTYCZNE CZĘŚĆ 1. MOŻLIWOŚCI

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

Akustyka muzyczna ANALIZA DŹWIĘKÓW MUZYCZNYCH

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

Analiza sygnału mowy sterowana danymi dla rozpoznawania komend głosowych

Zaawansowane algorytmy DSP

l a b o r a t o r i u m a k u s t y k i

Transformata Fouriera. Sylwia Kołoda Magdalena Pacek Krzysztof Kolago

Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej

Technika audio część 2

Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy

4. Schemat układu pomiarowego do badania przetwornika

Cyfrowe przetwarzanie sygnałów Jacek Rezmer -1-

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Układy i Systemy Elektromedyczne

Metodyka i system dopasowania protez słuchu w oparciu o badanie percepcji sygnału mowy w szumie

Dokumentacja instalatora środowiska obsługi kart mikroprocesorowych w wersji Spis treści

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Realizowany w roku akademickim 2016/2017

Program warsztatów CLARIN-PL

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

AUDIOMETRYCZNE BADANIE SŁUCHU ORAZ CECH WYPOWIADANYCH GŁOSEK

!!!!!!!!!!! PORTFOLIO: Analiza zachowań użytkowników serwisów internetowych. Autorzy: Marek Zachara

Analiza właściwości filtrów dolnoprzepustowych

Cyfrowy wzmacniacz AED dla przetworników tensometrycznych.

PROLOG WSTĘP DO INFORMATYKI. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

Przekształcenie Fouriera i splot

Dokumentacja instalatora środowiska obsługi kart mikroprocesorowych w wersji Spis treści

CYFROWE PRZETWARZANIE SYGNAŁU PRZETWORNIKA OBROTOWO-IMPULSOWEGO

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

PL B1. POLITECHNIKA GDAŃSKA, Gdańsk, PL BUP 19/09. ANDRZEJ CZYŻEWSKI, Gdynia, PL GRZEGORZ SZWOCH, Gdańsk, PL

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 6. Transformata cosinusowa. Krótkookresowa transformata Fouriera.

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Analiza szeregów czasowych: 2. Splot. Widmo mocy.

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Teoria przetwarzania A/C i C/A.

Rozpoznawanie mowy za pomocą HTK

PL B1. Sposób wyznaczania błędów napięciowego i kątowego indukcyjnych przekładników napięciowych dla przebiegów odkształconych

FFT i dyskretny splot. Aplikacje w DSP

OKREŚLENIE WPŁYWU WYŁĄCZANIA CYLINDRÓW SILNIKA ZI NA ZMIANY SYGNAŁU WIBROAKUSTYCZNEGO SILNIKA

Pattern Classification

Metody analizy zapisu EEG. Piotr Walerjan

Analiza szeregów czasowych: 2. Splot. Widmo mocy.

Ćwiczenie 11. Podstawy akwizycji i cyfrowego przetwarzania sygnałów. Program ćwiczenia:

Demodulator FM. o~ ~ I I I I I~ V

Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa

KOMPUTEROWE TECHNIKI ANALIZY INFORMACJI ZAWARTEJ W SYGNAŁACH AKUSTYCZNYCH MASZYN ELEKTRYCZNYCH DLA CELÓW DIAGNOSTYKI STANÓW PRZEDAWARYJNYCH

Promotor: dr Marek Pawełczyk. Marcin Picz

Zmiany fazy/okresu oscylacji Chandlera i rocznej we współrzędnych bieguna ziemskiego.

(L, S) I. Zagadnienia. II. Zadania

Strategia "dziel i zwyciężaj"

Zastosowanie Informatyki w Medycynie

Efektywność algorytmów

Analizy Ilościowe EEG QEEG

Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy prosty i skuteczny.

ANALIZA WPŁYWU WYBRANYCH PARAMETRÓW SYGNAŁU WYMUSZAJĄCEGO NA CZAS ODPOWIEDZI OBIEKTU

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

PRZETWARZANIE SYGNAŁÓW

Badanie widma fali akustycznej

Hybrydowa analiza transformat w rozpoznawaniu wysokości dźwięków w polifonicznych nagraniach instrumentów muzycznych

EKSTRAKCJA CECH TWARZY ZA POMOCĄ TRANSFORMATY FALKOWEJ

Analiza właściwości filtra selektywnego

Przybliżone algorytmy analizy ekspresji genów.

SYMULACJA KOMPUTEROWA SYSTEMÓW

Ćwicz. 4 Elementy wykonawcze EWA/PP

przedmiot kierunkowy (podstawowy / kierunkowy / inny HES) obieralny (obowiązkowy / nieobowiązkowy) polski semestr VI

Układy i Systemy Elektromedyczne

LABORATORIUM AKUSTYKI MUZYCZNEJ. Ćw. nr 12. Analiza falkowa dźwięków instrumentów muzycznych. 1. PODSTAWY TEORETYCZNE ANALIZY FALKOWEJ.

Transkrypt:

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW Maciej Piasecki, Szymon Zyśko Wydziałowy Zakład Informatyki Politechnika Wrocławska Wybrzeże Stanisława Wyspiańskiego 27 50-370 Wrocław STRESZCZENIE W artykule przedstawiono algorytm segmentacji sygnału mowy na odcinki odpowiadające poszczególnym słowom. Prezentowany algorytm został zastosowany w systemie rozpoznawania izolowanych słów. Działanie algorytmu opiera się na analizie dynamiki widma energetycznego sygnału mowy. W pracy przedstawiono ponadto krótką analizę algorytmu z dołu do góry, który stał się podstawą wyjściową do konstrukcji prezentowanego rozwiązania. Artykuł zawiera również wyniki badań empirycznych nad przydatnością algorytmu testowanego w założonych typowych warunkach pracy. WPROWADZENIE Segmentacja jest to procedura podziału sygnału na określone mniejsze odcinki znaczeniowe, lub jednostki o stałej długości. [1] W systemach automatycznego rozpoznawania mowy a w szczególności systemach rozpoznawania izolowanych słów po wstępnym przetworzeniu sygnału następuje zazwyczaj szczególny przypadek procesu segmentacji czyli określenie granic poszczególnych wyrazów. Precyzyjne ich określenie jest warunkiem koniecznym do przeprowadzenia prawidłowego procesu rozpoznawania. Dokładne określenie początku i końca słowa utrudnione jest jednak przez szumy otoczenia, głoski niskoenergetyczne na początku i końcu słowa, szum spowodowany otwarciem ust na początku wypowiedzi i wydechem na końcu, a także gwałtownymi przerwami (ang. stop-gap) spowodowane artykulacja głosek zwartych. [2] Specyfika języka polskiego z dużą ilością głosek niskoenergetycznych, niejednokrotnie występujących na początku i końcu słowa, powoduje, że metody oparte na progowej analizie energii sygnału nie zawsze dają wiarygodne rezultaty. Dotyczy to zwłaszcza sytuacji gdy algorytm nie działa w dobrych warunkach akustycznych. Prezentowany algorytm został opracowany na potrzeby systemu rozpoznawania izolowanych słów umożliwiającego wydawanie prostych komend w systemie Windows NT 4.0 PL za pomocą mowy w języku polskim (np. zamknięcie okna, uruchomienie programu, kopiowanie, wstawianie, wycinanie). W implementowanym systemie z racji małego słownika rozpoznawanymi jednostkami leksykalnymi będą całe słowa dlatego też szczególnie istotne jest precyzyjne określenie ich granic. W rozpoznawaniu granic słowa biorą udział trzy moduły implementowanego systemu:

moduł pozyskiwania parametrów środowiska, moduł przetwarzania wstępnego, moduł segmentacji (rys 1). Szczególnie istotny jest tutaj moduł pozyskiwania parametrów środowiska, który oprócz procesu kalibracji mikrofonu w celu uzyskania maksymalnie silnego sygnału, nie przekraczającego jednak zakresu próbkowania, dokonuje analizy 5 sekundowego fragmentu ciszy, w celu obliczenia średniego widma ciszy, a następnie oblicza maksymalną energie widma ciszy wykorzystywaną do oszacowania parametrów biorących udział w algorytmie segmentacji. Istnienie tego modułu jest konieczne gdyż program z założenia ma działać u przeciętnego użytkownika komputerów PC, nie można więc założyć że występują dobre warunki akustyczne działania programu. ARM Moduł próbkowania Moduł rozpoznawania Przetworzenie wstępne Moduł pozyskania parametrów środowiska Segmentacja Moduł słownika Ekstrakcja parametrów Moduł adaptacji do mówcy Rozpoznawanie przybliżone (NN) Moduł realizujący komendy Rozpoznawanie dokładne (DP) Rys 1. Schemat działania systemu rozpoznawania izolowanych słów ALGORYTM Z DOŁU DO GÓRY Schemat działania algorytmu z dołu do góry zaproponowanego przez Staroniewicza [2], a oparty na modelu Lamela i Rabinera [3] przedstawia rys 2. Sygnał wejściowy jest dzielony na okna a następnie każda ramka jest ważona oknem Hamminga. Po przetworzeniu liczona jest energia sygnału w ramce wg poniższego wzoru: N E( l) = 10log x l ( n n= 0 2 10 ) gdzie: l jes numerem ramki

Normalizacja poziomu energii polega na obliczeniu różnicy pomiędzy wartością energi w ramce a mnimalną wartością energi sygnału. Następnym etapem jest sygnał Podział na ramki ramki Obliczenie energia energii Normalizacja poziomu energii energia Wyznaczanie granic słów Detekcja impulsów Rys 2. Schemat działania algorytmu z dołu do góry wyznaczenie impulsów energetycznych, w tym celu zostały zdefiniowane trzy progi energetyczne: K 1, K 2, K 3. Jeśli energia wzrośnie powyżej progu K 1 a następnie nie spadając poniżej jego wartości wzrośnie powyżej progu K 2, oznaczany jest początek impulsu. Następnie gdy energia opadnie poniżej progu K 3 oznaczany jest koniec impulsu. Przyjmuje się, że jeden impuls odpowiada jednemu słowu. ZMODYFIKOWANY ALGORYTM Z DOŁU DO GÓRY Algorytm z dołu do góry nie sprawdził się jednak w praktycznym zastosowaniu w omawianym we wstępie systemie. Przyczyną błędnej segmentacji były głoski niskoenergetyczne występujące na początku słów a także gwałtowne przerwy energetyczne spowodowane wymową głosek zwartych. Usunięcie tych właśnie niedogodności przyświecało podczas dokonywania modyfikacji. Schemat działania zmodyfikowanego algorytmu z dołu do góry przedstawia rys 3. sygnał Podział na ramki ramki FFT widmo Normalizacja widma widmo Wyznaczanie granic słów Detekcja impulsów energia Obliczenie energii Rys 3. Schemat działania zmodyfikowanego algorytmu z dołu do góry Podobnie jak w oryginalnym algorytmie sygnał wejściowy dzielony jest na ramki, następnie dla każdej z ramek obliczane jest widmo krótkoterminowe za pomocą szybkiej transformaty Fouriera [1], z wykorzystaniem funkcji Hamminga jako funkcji okna. Następnie dokonywana jest normalizacja poprzez odjęcie od obliczonego widma nagranego wcześniej i uśrednionego widma sygnału ciszy. Kolejnym krokiem jest obliczenie energii widma zgodnie z poniższym wzorem: F gdzie: ln 2ω F h wartość częstotliwości dla filtru górnoprzepustowego Ew( l) = 10log10 X l ( f ) F l wartość częstotliwości dla filtru dolnoprzepustowego Fh N f = 2ω ω częstotliwość próbkowania N rozmiar okna transformaty Fouriera X(f) FFT[x(n)] Szybka Transformata Fouriera l numer ramki W celu wyznaczenia impulsów energetycznych używa się czterech parametrów K1, K2,

K3, K4 oraz parametru L. Początek impulsu oznaczany jest gdy energia widma wzrośnie powyżej progu K1, oraz nie spadając poniżej jego wartości wzrośnie powyżej parametru K2. Koniec impulsu oznaczany jest gdy energia spadnie poniżej progu K3 i E w >K1 E w >K2 E w <K3 t>l Cisza Dźwięk Mowa Przerwa energet. Koniec E w <K1 E w >K4 t<l Rys 4. Graf przejść, metody detekcji impulsów energetycznych w zmodyfikowanym algorytmie z góry do dołu w czasie L od momentu spadku nie wzrośnie powyżej progu K4 (rys 4). BADANIA Badania przeprowadzono na komputerze PC z kartą dźwiękową SB64 lub SB32. Materiał badawczy procesu segmentacji stanowił zestaw 40 izolowanych słów wypowiadanych z częstotliwością 0.5 słowa na sekundę przez 6 mówców. Stanowiło to łączny materiał 240 słów. Tylko jeden z mówców miał wcześniejsze doświadczenia z systemami automatycznego rozpoznawania mowy. Próbki nie były nagrywane w specjalnie stworzonych warunkach akustycznych, leczy w warunkach reprezentatywnych dla większości domowych użytkowników komputerów PC. Dane były próbkowane z częstotliwością 11025 Hz, ramka miała wielkość 1024 próbki (0.092 s.) a krok ustalono na 350 próbek (0.032 s.). Wartości parametrów K1, K2, K3, K4 ustalono na podstawie analizy sygnału ciszy w następujący sposób: K1 = 0.95*maxE w, K2 = 1.10*maxE w, K3 = 1.00*maxE w, K4 = 1.05*maxE w. Wartość współczynników dobrano w sposób eksperymentalny. Parametr L został ustalony na 0.15 s. a wartości filtrów F h = 50 Hz, F l = 5000 Hz. Poniższa tabela zawiera dane na temat skuteczności prezentowanej metody dla poszczególnych mówców. Tabela 1. Skuteczność segmentacji dla poszczególnych mówców Mówca 1 2 3 4 5 6 Ilość poprawnie wyselek- 40 40 40 38 40 40 cjonowanych słów (100%) (100%) (100%) (95%) (100%) (100%) Ilość dodatkowo wyselek- 1 0 0 0 0 1 cjonowanych słów (2.5%) (0.0%) (0.0%) (0.0%) (0.0%) (2.5%) W wyniku przeprowadzonych badań stwierdzono, iż przedstawiony algorytm segmentacji ma średnią skuteczność rozpoznawania wynosi 99.1%. Ilość dodatkowo wyselekcjonowanych impulsów nie będących słowami wypowiedzianymi przez mówce stanowiła 0.83%. PODSUMOWANIE Zmodyfikowany algorytm z góry do dołu wykazał się dużą skutecznością w przypadku rozpoznawania granic izolowanych słów. Zastosowanie widma sygnału zamiast amplitudy spowodowało lepsze rozpoznawanie głosek niskoenergetycznych znajdują-

cych się na początku i na końcu słowa. Zastosowanie parametru L odpowiadającego za długość sygnału ciszy oraz parametru określającego wartość ponownej aktywacji impulsu K4, pozwoliło na wyeliminowanie błędów procesu segmentacji związanymi z wewnątrzwyrazowymi przerwami energetycznymi. Wadą opisanego algorytmu jest większa złożoność obliczeniowa w stosunku do algorytmu wyjściowego związana z obliczeniem widma sygnału za pomocą szybkiej transformaty Fouriera. Rozwiązanie tego typu jest jednak do przyjęcia w kontekście realizowanego systemu, gdyż widmo energetyczne stanowi materiał bazowy dla dalszego procesu rozpoznawania opartego o analizę częstotliwościową. Problem może stanowić również fakt, iż prezentowany algorytm zakłada pewną wiedzę na temat środowiska akustycznego, w którym działa. Wiedza ta konieczna jest do normalizacji widma sygnały a w realizowanym systemie pobierana jest z modułu pozyskiwania parametrów środowiska, ponadto pozwala na oszacowanie wartości parametrów K1 do K4. Rozwiązanie tego typu dodatkowo pozwala na zmniejszenie wpływu szumów otoczenia przy założeniu, że nie podlegają one zmianom pomiędzy procesem pozyskiwania parametrów środowiska a procesem segmentacji. W dalszych badaniach należało by sprawdzić przydatność algorytmu w systemach rozpoznawania mowy ciągłej. Można mieć nadzieje iż przyniesie on zadawalające rezultaty w przypadku zastosowania mniejszego rozmiaru okna oraz zmniejszeniu wartości parametru L. Dodatkowe wzbogacenie algorytmu o wykorzystywanie informacji semantycznej i syntaktycznej, tak jak w algorytmie z góry do dołu [2], dodatkowo może wzmóc jego skuteczność. BIBLIOGRAFIA [1] Basztura Cz., Rozmawiać z komputerem, Wydawnictwo Prac Naukowych FORMAT, Wrocław 1992 [2] Staroniewicz Piotr, Majewski Wojciech, Określanie granic wyrazów przy głosowym wybieraniu numeru telefonicznego, XLI Otwarte Seminarium z Akustyki, Wrocław 1994 [3] Lamel L. F, Rabiner L. R., Rosenberg A. E., Wilpon J. G., An Improved Endpoint Detector for Isolated Word Recognition, IEEE Trans. Acousticcs, Speech and Signal Proccessing, Vol. ASSP-29, No. 4, August 1981