Tomasz ZIELIŃSKI ), Paweł GAJDA ), Marcin STACHURA ) Robert WIELGAT 2), Daniel KRÓL 2), Tomasz WOŹNIAK 3), Stanisław GRABIAS 3) ) AKADEMIA GÓRNICZO-HUTNICZA, KATEDRA METROLOGII 2) PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA W TARNOWIE, INSTYTUT POLITECHNICZNY 3) UNIWERSYTET IM. M. CURIE-SKŁODOWSKIEJ W LUBLINIE, ZAKŁAD LOGOPEDII I JĘZYKOZNAWSTWA STOSOWANEGO { tzielin@uci.agh.edu.pl, rwielgat@poczta.onet.pl, twozniak@vp.pl} Zastosowanie współczynników HFCC jako cech sygnału mowy w automatycznej detekcji wad wymowy Streszczenie W artykule opisano wyniki badań, dotyczące automatycznego rozpoznawania mowy zaburzonej. Badania przeprowadzono dla kilku polskich fonemów sprawiających największe problemy dzieciom z wadami wymowy. Zbadano trzy rodzaje współczynników cepstralnych: standardowe (CC), mel-cepstralne MFCC oraz współczynniki HFCC jako cechy sygnału mowy. Jako klasyfikatorów użyto klasycznego algorytmu nieliniowej transformacji czasowej (ang. Dynamic Time Warping) oraz średniego wektora cech. Zastosowanie cech HFCC wpłynęło na znaczącą poprawę wyników rozpoznawania. Przebadano szeroki zakres wartości parametrów w procesie obliczania HFCC w celu znalezienia ich optymalnych wartości dla różnych zadań rozpoznawania. Abstract This paper describes research results on isolated phoneme recognition of speech-impaired children. A several Polish phonemes most confusing for speech impaired children were investigated and three types of cepstral coefficients: standard (CC), mel-frequency (MFCC) as well as human factor (HFCC) were used for tracking of speech content in frequency domain. Classical dynamic time warping (DTW) algorithm with adjusted parameters values was exploited as a main classifier in the reported research. The superior HFCC performance during conducted recognition experiments has been observed. Słowa kluczowe: diagnoza i terapia zaburzeń wymowy, automatyczne rozpoznawanie mowy, ekstrakcja cech, współczynniki cepstralne i mel-cepstralne Keywords: diagnosis and therapy of pathological pronunciation, automatic speech recognition, feature extraction, cepstral and mel-cepstral coefficients Title: Application of HFCC Coefficients as Features in Automatic Detection of Pathological Pronunciation. Wprowadzenie Rozróżnienie między wymową patologiczną a normatywną nie jest dostatecznie ostre []. Dlatego zagadnie- # Wykonano w ramach projektu nr: KBN H0F 046 28 nie rozpoznawania mowy i formalnego rozróżnienia realizacji patologicznych i normatywnych przy użyciu metod analizy akustycznej jest bardzo istotną kwestią badawczą. Wyniki takich badań mogą dostarczyć więcej danych na temat wymowy poprawnej i pozwolić na określenie cech patologii. Na przykład badania porównawcze przy użyciu metod akustycznych wykazały, że polskie głoski frykatywne sz, ż są retrofleksami a nie przedniojęzykowo-dziąsłowymi jak się powszechnie uważa [2]. W przypadku wymowy patologicznej głosek (zaburzenia paradygmatyczne) przyjmuje się językoznawczą klasyfikację zaburzeń mowy [3]. Zaburzenia paradygmatyczne dzielą się na: () elizje (brak realizacji fonemu), (2) substytucje (realizacja danego fonemu jest zastępowana przez realizację innego fonemu), (3) deformacje. W prezentowanym artykule przedstawiono wyniki badań dotyczące głównie kwestii automatycznej detekcji substytucji. Systemy automatycznego rozpoznawania mowy prawidłowo wykrywające rodzaj podstawionej głoski w mowie patologicznej mogą znacząco zwiększyć efektywność diagnozy oraz terapii logopedycznej u dzieci z wadami wymowy. Jedną z metod automatycznego rozpoznawania mowy zmierzającej do poprawnego diagnozowania substytucji jest rozpoznawanie głosek wypowiadanych przez dzieci w słowach pochodzących z odpowiednio opracowanych kwestionariuszy logopedycznych. Zadanie rozpoznawania w przedstawionej powyżej sytuacji można zatem uprościć zakładając, że dziecko stara się wypowiadać te słowa, które się od niego wymaga. Wówczas zadanie rozpoznawania polega na wykryciu substytucji w znanym słowie, a co za tym idzie w znanym kontekście fonetycznym. Słownik substytuowanych głosek można również z góry przewidzieć z dużym prawdopodobieństwem opierając się na opracowaniach logopedycznych [3]. Zadanie rozpoznawania upraszcza się jeszcze bardziej na etapie terapii logopedycznej. Wówczas znając rodzaj zaburzenia u dziecka można znacząco zawęzić słownik substytucji nawet do 2-3 głosek zwiększając tym samym szansę na poprawne ich rozpoznanie. Niemniej jednak mimo przyjęcia uproszczeń wynikających ze specyfiki zagadnienia przedstawione powyżej zadania rozpoznawania mowy wciąż pozostają problemami trudnymi do rozwiązania.
Kluczowym zagadnieniem w zadaniu rozpoznawania substytuowanych głosek jest dobór odpowiednich cech sygnału mowy maksymalizujących możliwość prawidłowej detekcji głoski w słowie. Obecnie do najpowszechniej stosowanych cech sygnału mowy można zaliczyć współczynniki cepstralne CC (Cepstral Coefficients) oraz mel-cepstralne MFCC (Mel-Frequency Cepstral Coefficients) [4], [5], [6]. Jednak skuteczność rozpoznawania za pomocą wspomnianych cech znacząco obniża się wraz ze zwiększaniem się poziomu szumów otoczenia. Jako próba rozwiązania problemu zostały w ostatnich latach zaproponowane współczynniki HFCC (Human-Factor Cepstral Coefficients) [7], [8]. Oczywiście zagadnienie rozpoznawania sygnału mowy w obecności silnych zakłóceń jest od wielu lat intensywnie badane w świecie i istnieje wiele alternatywnych rozwiązań [9], np. ostatnio opisane w [0]. Współczynniki HFCC zostały zastosowane w przeprowadzonych badaniach z powodu ich prostoty obliczeniowej oraz już raportowanej w literaturze skuteczności walki z szumem w przypadku rozpoznawania całych słów [8]. Podobnie jak cechy MFCC są one również oparte na fizjologii mechanizmu słyszenia u człowieka, jednak zawierają pewne modyfikacje zwiększające rozpoznawalność wypowiedzi w warunkach silnego szumu otoczenia. Szerokości filtrów we współczynnikach HFCC są określone znaną zależnością pomiędzy częstotliwością, a fizjologiczną szerokością pasma krytycznego dla tej częstotliwości. Jednak w przeciwieństwie do współczynników MFCC szerokości pasm filtrów nie są zdeterminowane rozmieszczeniem środków filtrów w dziedzinie częstotliwości. Zmieniając szerokość pasma filtrów można znacząco wpływać na poprawę skuteczności rozpoznawania wypowiedzi dla niskiego SNR. Jak dotąd współczynniki HFCC zostały jedynie przebadane w ograniczonym zakresie dla izolowanych słów (cyfr) języka angielskiego [8]. W niniejszym artykule są przedstawione wyniki prac dotyczących rozpoznawania za pomocą cech HFCC wybranych głosek języka polskiego, które zostały wycięte z izolowanych wypowiedzi języka polskiego, dostępnych w popularnej bazie CORPORA []. Do pomiaru odległości pomiędzy sekwencjami wektorów cech (czyli macierzy cech) głosek rozpoznawanych i wzorców użyto prostej lecz efektywnej metody nieliniowej transformacji czasowej (ang. DTW Dynamic Time Warping) [2], [3], [4], [5] oraz prostej miary średniego wektora cech dla całej głoski. W badaniach skorzystano z gotowych kodów programów napisanych w języku Matlab (współczynniki: CC [5], MFCC [6], HFCC [7]), które odpowiednio zmodyfikowano. W pracy zawarto wyniki obszernych badań eksperymentalnych oraz ich dyskusję. Wyciągnięte wnioski dotyczą doboru sposobu oraz optymalnych wartości parametrów metod ekstrakcji cech, w szczególności wykorzystywanych w procesie obliczania współczynników HFCC. 2. Badane rodzaje cech sygnału mowy W badaniach jako cech sygnału mowy wykorzystano trzy rodzaje współczynników cepstralnych: standardowe cepstralne (CC), mel-cepstralne (MFCC) oraz humancepstralne (HFCC), uwarunkowane fizjologicznie. Poniżej skrótowo opisano sposób ich wyznczania. 2.. Współczynniki CC Standardowe współczynniki cepstralne c(n) wyznacza się dla fragmentu sygnału mowy x(n), wyciętego z wykorzystaniem okna czasowego w(n), najczęściej Hamminga, za pomocą sekwencji dwóch transformacji Fouriera (n = 0,, 2,..., q): N N c( n) = ln w( m) x( m) e e N k= 0 444 m= 0 42444443 C( k) j2 π km / N ± j2πkn Są one równe współczynnikom transformaty Fouriera logarytmu naturalnego modułu widma sygnału. Te o niskich indeksach charakteryzują obwiednię modułu widma sygnału mowy, czyli w dużej mierze treść wypowiedzi. Alternatywnie można je wyznaczać metodą liniowej predykcji. W badaniach wykorzystano tę drugą metodę. Jej algorytm, szczegółowo opisany w [5], jest przedstawiony w tabeli. Tab.. Algorytm wyznaczania współczynników CC ----------------------------------------------------------------------- ) Preemfaza, podział sygnału na poprzesuwane względem siebie, nakładające się fragmenty, tzw. ramki, oraz ich okienkowanie za pomocą okna Hamminga (dalej kolejne kroki identyczne dla każdej ramki). 2) Wyznaczenie funkcji autokorelacji sygnału w ramce: r ( k N ) = x ( n ) x ( n + k ) N p n= p a następnie zbudowanie odpowiedniego wektora r i macierzy R z próbek funkcji autokorelacji: r(0) r() L r( p ) r() r() r(0) L r( p 2) r(2) R =, r = M M O M M r( p ) r( p 2) L r(0) r( p) oraz wyznaczenie wektora współczynników filtra predykcji a na podstawie równania a = R r. 3) Wyznaczenie wektora c współczynników cepstralnych na podstawie a (gdzie p rząd filtra predykcji liniowej, q liczba współczynników cepstralnych): c = a, k k m k m m= k k m c = a + c a, 2 k p k k m k m m= k m c = c a, p + k q oraz jego wersji ważonej za pomocą wag w k cw = c w, k q k k k q πk wk = + sin, k q 2 q -----------------------------------------------------------------------
2.2. MFCC Współczynniki mel-cepstralne MFCC, które są wzorowane na przetwarzaniu sygnału akustycznego w ślimaku narządu słuchu człowieka, były podczas badań obliczane według algorytmu przedstawionego w tabeli 2, częściowo opisanego w [5] oraz dostępnego w postaci biblioteki języka Matlab [6]. Tab. 2. Algorytm wyznaczania współczynników MFCC ----------------------------------------------------------------------- ) Preemfaza (filtr cyfrowy o transmitancji H(z)= 0.9375 z ), podział sygnału na poprzesuwane względem siebie, nakładające się fragmenty, tzw. ramki, oraz ich okienkowanie za pomocą okna Hamminga (dalej kolejne kroki identyczne dla każdej ramki). 2) Wykonanie algorytmu szybkiej transformaty Fouriera (FFT) na zokienkowanym sygnale w poszczególnych ramkach. Wyliczenie widma mocy sygnału w każdej z nich. 3) Podział widma mocy za pomocą okna Hamminga na zachodzące na siebie podpasma częstotliwościowe z środkami pasm równomiernie rozłożonymi w skali melowej (patrz rys. ). Przejście ze skali częstotliwościowej na skalę melową jest dane wzorem: ( f / 0) f mel = 2595 + Hz 4) Obliczenie współczynników widma mocy w podpasmach melowych. 5) Wykonanie transformacji DCT na wektorze współczynników widma mocy (n = 0, 2,..., q-): X ( n) = c( n) c( 0) =, K π (2k + ) K K ln( S k )cos k = 0 2 n 2 c( n) = dla n q K gdzie: S k widmo mocy w k-tym podpaśmie; K liczba podpasm częstotliwościowych; q liczba wyznaczanych współczynników MFCC. 6) Obliczenie aproksymat pierwszej i drugiej pochodnej współczynników MFCC względem czasu, czyli tzw. współczynników delta oraz delta-delta. Sposób aproksymaty tych pochodnych zależał od wartości współczynnika DeltaSize. ----------------------------------------------------------------------- Amplituda 0.8 0.6 0.4 0.2 0 Podzial widma mocy na pasma w skali melowej 200 0 0 0 0 0 0 f(mel) Rys.. Podział widma mocy na pasma częstotliwościowe z częstotliwościami środkowymi równomiernie rozłożonymi w skali melowej Jak widać z powyższego algorytmu współczynniki MFCC są wynikiem transformacji kosinusowej, wykonanej na logarytmie widma mocy, zakumulowanego w zadanych przedziałach częstotliwościowych, związanych ze skalą melową. 2.3. HFCC Algorytm wyznaczania współczynników HFCC [7], [8] jest bardzo zbliżony do algorytmu wyznaczania współczynników MFCC. Jedyną ale za to bardzo ważną różnicą jest inna szerokość filtrów, która w tym przypadku nie zależy sztywno od położenia ich częstotliwości środkowych. W metodzie HFCC częstotliwości środkowe f c kolejnych filtrów są położone identycznie jak poprzednio i równo oddalone od siebie w skali melowej, ale szerokość filtrów jest dowolna i równa pasmu ERB (Equivalent Rectangular Bandwidth): 2 c ERB = 6.23 f + 93.39 f + 28.52 Hz przeskalowanemu za pomocą arbitralnie dobieranego współczynnika mnożącego ERBScaleFactor. (f c jest wyrażone w khz). Kiedy przyjmuje on wartości większe od jedności, szerokości filtrów są szersze i obserwuje się lepsze uśrednianie szumu, co z kolei prowadzi do większej odporności metody rozpoznawania, bazującej na HFCC, na zakłócenia. W [8], [7] można znaleźć: szczegółowy opis metody, równania do wyznaczania granic przeskalowanych podpasm oraz implementację metody w języku Matlab. 3. Miary odległości, klasyfikatory W wyniku analizy otrzymuje się dla każdej głoski zbiór wektorów cech, jeden dla każdej ramki danych, które następnie składa się w macierz. Macierz ta opisuje dynamikę zmian parametrów sygnału w mowy w funkcji czasu. Operacja rozpoznawania wypowiedzianej głoski polega na porównaniu otrzymanej macierzy z macierzami wzorców głosek, tzn. znalezieniu w bazie wzorców tej macierzy, która jest najbliższa wyznaczonej macierzy głoski względem przyjętego kryterium (np. najmniejszej odległości, największej liczbie wzorców tego samego typu w zbiorze K najbliższych sąsiadów). W przeprowadzonych eksperymentach wykorzystano i przebadano dwie metody rozpoznawania i klasyfikacji macierzy cech CC, MFCC i HFCC, pochodzących od różnych głosek. Pierwszą z nich była klasyfikacja za pomocą klasycznej metody nieliniowej transformacji czasowej DTW (Dynamic Time Warping) [2][3][4], nieznacznie zmodyfikowana na potrzeby przeprowadzanego eksperymentu (poprzez dobór odpowiednich wartości parametrów). Natomiast druga metoda polegała na uśrednieniu wszystkich wektorów cech głoski, otrzymanych dla kolejnych fragmentów sygnału, i porównywaniu ze sobą wektorów wartości średnich a nie macierzy. W dalszych badaniach jest planowane zastosowanie jako klasyfikatora ukrytych modeli Markowa (Hidden Markov Models). Nieliniowa normalizacja czasowa DTW jest standardową metodą obliczania odległości między przetworzonymi wypowiedziami. Jest ona w sposób przystępny opisana i zaimplementowana w języku Matlab w [5]. Cechuję ją c
prostota obliczeniowa oraz dobre właściwości użytkowe, chociaż gorsze od metody HMM. W skrócie jej idea polega na obliczeniu macierzy odległości lokalnych d(m, n), w naszym przypadku euklidesowych, pomiędzy każdym m-tym wektorem cech (CC, MFCC lub HFCC), należącym do rozpoznawanej głoski, w ogólności słowa (s), a każdym n-tym wektorem cech wzorca (w). Następnie metodą programowania dynamicznego jest znajdowana najkrótsza ścieżka w tej macierzy, łącząca lewy, dolny punkt startowy z prawym, górnym punktem końcowym. Najkrótsza to znaczy mająca najmniejszą zakumulowana wartość odległości poszczególnych wektorów cech rozpoznawanego słowa i wzorca wzdłuż drogi przejścia. Wartość ta jest miarą odległości pomiędzy wypowiedziami. Przykładowy kształt macierzy odległości jest przedstawiony na rysunku 2 dla słowa dwa traktowanego równocześnie jako wzorzec. wektorów cech reprezentujących rozpoznawane fonemy oraz wzorce fonemów na trzy równe części: początek, środek i koniec. W każdej z części był obliczany średni wektor cech. Jako miara odległości między odpowiadającymi sobie uśrednionymi wektorami cech była przyjmowana odległość euklidesowa. Rys. 3. Ilustracja poszukiwania w algorytmie DTW najkrótszej (optymalnej) ścieżki przejścia w macierzy odległości lokalnych pomiędzy wektorami cech rozpoznawanej głoski oraz wzorca, ograniczonej przez dwie linie równoległe. 4. Wyniki eksperymentów 4.. Metodologia Rys. 2. Przykładowy kształt macierzy odległości euklidesowych d (n s, n w ) wektorów cepstralnych słowa dwa traktowanego jednocześnie jako rozpoznawane słowo (s) i wzorzec (w) [5] Zakumulowana odległość g(i, j) w każdym punkcie poszukiwanej ścieżki była obliczana zgodnie z poniższym wzorem rekurencyjnym: g( i 2, j ) + d( i, j) g( i, j) = min g( i, j ) + d( i, j) g( i, j 2) + d( i, j) W celu normalizacji otrzymanego wyniku zakumulowana funkcja kosztu przejścia była dzielona przez stałą D: D = + 2 2 N w N S gdzie: N W liczba wektorów cech wzorca, N S liczba wektorów cech rozpoznawanej głoski, w ogólności słowa. Poszukiwana ścieżka była ograniczana przez dwie linie równoległe, wzajemnie przesunięte o stałą Q: Q = round( w max( N S, NW )) gdzie w jest współczynnikiem szerokości równym 0,2 (patrz rys. 3). Niezależnie od zastosowania metody DTW przebadano również możliwość użycia średniego wektora cech. Uśrednione wektory cech były obliczane dzieląc ciągi Badania przeprowadzano w oparciu o fonemy wyekstrahowane z wypowiedzi należących do bazy nagrań dla języka polskiego CORPORA [] (częstotliwość próbkowania równa 6 khz, rozdzielczość 6 bitów). Przebadano następujące grupy polskich głosek: {s, ś, sz}, {c, ć, cz}, { z, ź, ż }, { dz, dź, dż }, {l, r}. Wycięto 6 realizacji tej samej głoski, wypowiadanej w w tym samym słowie przez 6 różnych osób. Wszystkie realizacje uporządkowano w ww. przedstawione grupy. Następnie wybierano jedną z głosek całej grupy i ją rozpoznawano, traktując głoski pozostałe jako wzorce. Głoskę tę zaszumiano, dodając do niej szum gaussowski w taki sposób, aby otrzymać zadaną wartość współczynnika stosunku sygnału do szumu: coef = y( n) = x( n) + coef * s( n) N n= 2 SNR /0 x ( n) N eng ( + 0 ) N SNR /0 2 0 s ( n) n= gdzie: x(n) sygnał o długości N próbek reprezentujący fonem, s(n) biały szum gaussowski, y(n) zaszumiony fonem, coef współczynnik skalujący, zapewniający wymagany stosunek sygnału do szumu (SNR), eng średnia energia przypadająca na próbkę naturalnego szumu otoczenia w nagraniach z bazy CORPORA. Podczas testów każda głoska była zaszumiana razy różnymi realizacjami szumu (jednak tymi sami podczas
testowania różnych metod) i rozpoznawana. Do rozpoznawania wykorzystywano macierze cech CC, MFCC oraz HFCC lub jeden wektor uśrednionych cech. W przypadku macierzy wykorzystywano algorytm DTW do wyznaczenia odległości pomiędzy nimi (najkrótsza, zakumulowana droga przejścia w diagramie wszystkich możliwych przejść), natomiast w przypadku wektorów odległość euklidesową. Dysponując miarami odległości pomiędzy rozpoznawaną głoską a wzorcami stosowano różne kryteria wyboru rozwiązania, np. najmniejszą odległość lub największą liczbę wzorców w zbiorze K-najbliższych sąsiadów. W tabeli 3 podano wartości parametrów różnych metod, dla których dokonywano ekstrakcji cech. Dodatkowo stosowano następujące opcje: E dodanie do wektora cech logarytmu energii bloku próbek sygnału (jednej ramki danych), D dodanie do wektora cech współczynników delta, M usunięcie wartości średniej każdego współczynnika cepstralnego po czasie. Tab. 3. Wartości parametrów ekstrakcji cech Parametr Cechy Cepstrum MFCC HFCC Preemfaza 0.9375z - 0.95z - 0.95z - Długość ramki danych 25 ms 25 ms 25 ms Przesunięcie ramki 20 ms 20 ms 20 ms Okno Hamming Hamming Hamming Liczba filtrów - Liczba wsp. cepstralnych 2 3 3 DeltaSize - 4, 4, 0 ERBScaleFactor -- -- 6 W badaniach zaobserwowano, że dodanie współczynników delta do wektora cech poprawiło skuteczność rozpoznawania w każdej grupie badanych fonemów. Tab. 4. Optymalne kombinacje opcji rozpoznawania fonemów z różnych grup. Grupa fonemów Optymalna kombinacja parametrów { c, ć, cz } HEMD { dz, dź, dż } HD { s, ś, sz } HED { z, ź, ż } HD { l, r } H 4.2. Optymalne wartości cech HFCC Na skuteczność rozpoznawania głosek za pomocą współczynników HFCC wpływa wiele parametrów, co obrazuje rys. 4. Pokazane na nim wykresy przedstawiają zależność skuteczności rozpoznawania od wartości współczynnika SNR sygnału dla grupy głosek {s, ś, sz}. Na rysunku: H oznacza wersję podstawową metody, pozostałe zaś litery jej dodatkowe opcje, omówione w poprzednim podrozdziale. W rezultacie badań okazało się, że każda grupa fonemów charakteryzuje się innymi optymalnymi zestawami opcji testowanego algorytmu. Są one zestawione w tabeli 4. Rys. 5. Spektrogramy głosek {s, ś, sz}, kolejno od góry, dla mówcy AFK z bazy Corpora (256-punktowe FFT, okno Hanna). Skutecznosc rozpoznawania w grupie glosek s, si, sz za pomoca HFCC H HE HM HD HME HED HMD HEMD Rys. 4. Porównanie wyników rozpoznawania grupy głosek {s, ś, sz} dla różnych opcji metody HFCC. Rys. 6. Spektrogramy głosek {z, ź, ż}, kolejno od góry, dla mówcy AFK z bazy Corpora (256-punktowe FFT, okno Hanna).
Niezerowe wartości współczynników delta reprezentują zmiany widma w czasie: im moduły tych wartości są większe tym zmiany widma są gwałtowniejsze. Ponadto zauważono, że dla głosek bezdźwięcznych {c, ć, cz} i {s, ś, sz} skuteczność rozpoznawania poprawia dodanie logarytmu enegrii wyliczanej w poszczególnych ramkach sygnału. Natomiast dla dźwięcznych odpowiedników tych głosek dodanie logarytmu energii pogarsza wyniki. Wpływ dodania logarytmu energii na skuteczność rozpoznawania można wyjaśnić na podstawie analizy spektrogramów głosek. Na rys. 5 zostały przedstawione spektrogramy głosek {s, ś, sz} dla jednego mówcy. Wynika z niego, że rozkłady czasowe energii dla poszczególnych głosek różnią się między sobą, dzięki czemu głoski te można pomiędzy sobą rozpoznawać na podstawie tej właściwości. Warto również zauważyć, że na wartość energii w ramce sygnału mają głównie wpływ składowe widma o wyższych częstotliwościach. Na rys. 6 zostały przedstawione spektrogramy głosek {z, ź, ż}, różniące się od głosek {s, ś, sz} jedynie cechą dźwięczności. Cecha dźwięczności powoduje obecność w ich spektrogramach tonu krtaniowego o dużej energii (widocznego jako poziomy ciemny pasek u dołu skali częstotliwościowej spektrogramu), której poziom jest w przybliżeniu jednakowy dla każdej z głosek. Efektem obecności tonu krtaniowego jest osłabienie siły dyskryminacyjnej energii z zakresu wyższych częstotliwości w fonemach {z, ź, ż}. Podobne zależności można dostrzec po analizie spektrogramów dla grup głosek {c, ć, cz} oraz {dz, dź, dż}. Zestawy optymalnych parametrów z Tab. 4 zostały przyjęte jako podstawa do dalszych eksperymentów rozpoznawania w każdej grupie fonemowej. W toku dalszych prac wykonano serię badań zmierzających do dobrania optymalnych wartości parametrów ERBScaleFactor oraz DeltaSize. Wyniki rozpoznawania w oparciu o optymalne parametry rozpoznawania zostały pokazane na rys. 7. postawionego zadania rozpoznawania. Znaczenie parametru ERBScaleFactor zostało omówione w rozdziale 2.3. Parametr DeltaSize mówi o liczbie współczynników filtru opisanego równaniem różnicowym: y ( n) = DeltaSize k = 0 k( x( n + k) x( n k)), Filtry te stosuje się do każdego elementu wektora cech obliczając w ten sposób współczynnik delta. Zestaw współczynników delta dla danego wektora cech stanowi dodatkowe cechy w oparciu o które można rozpoznawać sygnał. Współczynniki delta można obliczać na podstawie każdego rodzaju cech. Dla badanych głosek nie posiadających stacjonarnego charakteru jak { c, ć, cz } oraz {dz, dź, dż} optymalne parametry HFCC wynoszą: ERBScaleFactor = i DeltaSize = 0. Powyższe grupy fonemów różnią się głównie cechą dźwięczności. Dla fonemów, których widmo jest quasi-stacjonarne jak {s, ś, sz} oraz {z, ź, ż}, optymalne wartości parametru ERBScaleFactor is > oraz DeltaSize =. Te grupy fonemów podobnie jak poprzednie różnią się głównie cechą dźwięczności. W przypadku grupy głosek {s, ś, sz} zostały otrzymane różne wartości optymalnych parametrów w zależności od wartości szumu otoczenia. 20 0 Skutecznosc rozpoznawania dla HFCC w grupie glosek s, si, sz srednia skutecznosc rozpoznawania skutecznosc rozpoznawania dla gloski 's' skutecznosc rozpoznawania dla gloski 'si' skutecznosc rozpoznawania dla gloski 'sz 0 Skutecznosc rozpoznawania metoda HFCC dla roznych grup glosek Rys. 8. Porównanie skuteczności rozpoznawania w obrębie grupy głosek {s, ś, sz} metodą HFCC dla optymalnych parametrów rozpoznawania (HED, ERB- ScaleFactor = 5, DeltaSize = ). c, ci, cz; HEMD; ERB=; DS=0 dz, dzi, drz; HD; ERB=; DS=0 s, sz, si; HED; ERB=5; DS=; LN s, sz, si; HED; ERB=2; DS=4; HN z, zi, rz, HD; ERB=3; DS= l, r; H; ERB=4 Rys. 7. Skuteczność rozpoznawania w funkcji stosunku sygnału do szumu dla różnych głosek dla różnych wartości współczynnika ERBScaleFactor oraz DeltaSize. (ERB ERBScaleFactor, DS DeltaSize, LN mały poziom szumu, HN duży poziom szumu) Z rys. 7 wynika, że oprócz optymalnych kombinacji rodzajów cech istnieją również optymalne parametry cech HFCC, które powinno się przyjmować w zależności od Skutecznosc rozpoznawania dla HFCC w grupie glosek c, ci, cz srednia skutecznosc rozpoznawania skutecznosc rozpoznawania gloski 'c' skutecznosc rozpoznawania gloski 'ci' skutecznosc rozpoznawania gloski 'cz' 20 Rys. 9. Porównanie skuteczności rozpoznawania w obrębie grupy głosek {c, ć, cz} metodą HFCC dla optymalnych parametrów rozpoznawania (HEMD, ERB- ScaleFactor =, DeltaSize = 0).
20 Skutecznosc rozpoznawania dla HFCC w grupie glosek z, zi, rz srednia skutecznosc rozpoznawania skutecznosc rozoznawania gloski z skutecznosc rozpoznawania gloski zi skutecznosc rozpoznawania gloski rz 0 Rys. 0. Porównanie skuteczności rozpoznawania w obrębie grupy głosek {z, ź, ż} metodą HFCC dla optymalnych parametrów rozpoznawania (HD, ERBScaleFactor = 3, DeltaSize = ). wynika, że najlepiej rozpoznawane są w swoich grupach głoski s oraz c. Natomiast pozostałe głoski są rozpoznawane gorzej. Wyjaśnienie tego faktu można przeprowadzić w oparciu o spektrogramy. Widać z nich, że struktura widmowa głoski s znacząco się różni od struktury widmowej głosek ś oraz sz. Natomiast głoski ś oraz sz mają z reguły bardzo do siebie podobne widma. Podobne zależności występują dla głosek {c, ci, cz}(rys.4). Głoski {z, ź, ż} oraz {s, ś, sz} różnią się między sobą cechą dźwięczności. Poza tym ustawienie artykulatorów jest prawie identyczne. Jak widać dodanie cechy dźwięczności zmieniło hierarchię skuteczności rozpoznawania (rys. 0). Teraz najlepiej rozpoznawaną głoską jest głoska ż. Podobne zależność wystąpiła w grupie {dz, dź, dż} (rys. ). Dość interesująca, ale trudna do wyjaśnienia zależność skuteczności rozpoznawania od SNR sygnału wystąpiła dla grupy głosek {l, r} (rys. 2). Skutecznosc rozpoznawania w grupie glosek dz, dzi, drz dla HFCC 95 85 75 65 srednia skutecznosc rozpoznawania skutecznosc rozpoznawania dla gloski dz skutecznosc rozpoznawania dla gloski dzi skutecznosc rozpoznawania dla gloski drz 55 Rys.. Porównanie skuteczności rozpoznawania w obrębie grupy głosek { dz, dź, dż } metodą HFCC dla optymalnych parametrów rozpoznawania (HD, ERBScale- Factor = 3, DeltaSize = ). Skutecznosc rozpoznawania dla HFCC w grupie glosek l, r Rys. 4. Spektrogramy realizacji głosek {c, ć, cz}. kolejno od góry dla różnych mówców (256-punktowa okno von Hann FFT) srednia skutecznosc rozpoznawania skutecznosc rozpoznawania dla gloski r skutecznosc rozpoznawania dla gloski l Rys. 2. Porównanie skuteczności rozpoznawania w obrębie grupy głosek { r, l } metodą HFCC dla optymalnych parametrów rozpoznawania (H, ERBScale- Factor = 4). Z rysunków 8, 9. Przedstawiających najlepsze wyniki rozpoznawania dla grup głosek {s, ś, sz} oraz {c, ć, cz} 4.3. Porównanie cech CC, MFCC i HFCC Obecnie zostanie przedstawione porównanie skuteczności rozpoznawania na podstawie współczynników CC, MFCC oraz HFCC w obrębie różnych grup głosek. Do celów porównawczych zostały przeprowadzone eksperymenty rozpoznawania przy ustawionych optymalnych parametrach dla każdej z badanych metod ekstrakcji cech. Badania wykazały, że w porównaniu ze standardowymi stosowanymi obecnie parametrami cepstralnymi (CC oraz MFCC) parametry HFCC okazały się dla większości badanych głosek zdecydowanie lepszymi cechami sygnału mowy. Pogorszenie wyników rozpoznawania wystąpiło jedynie w pewnych warunkach dla grup głosek bezdźwięcznych. Dla grupy głosek {c, ć, cz} pogorszenie wystąpiło dla dużych wartości SNR (4 db db) oraz dla głosek {s, ś, sz} dla małych wartości SNR (0 db 8 db). W drugim z przypadków nie stanowi to jednak znaczącej utraty jakości
metody w rozważanych zastosowaniach, ponieważ diagnozy i terapii logopedycznej nie przeprowadza się w warunkach silnego szumu otoczenia oraz niskiej skuteczności rozpoznawania technicznego narzędzia diagnostyczno- terapeutycznego. Porownanie skutecznosci rozpoznawania w grupie glosek c, ci, cz dla HFCC, CC i MFCC 75 65 55 Porownanie skutecznosci rozpoznawania w grupie glosek z, zi, rz dla HFCC, CC i MFCC HFCC, HD, ERB=3, DS= cepstral coefficients (CC) MFCC Rys. 8. Porównanie skuteczności rozpoznawania dla głosek {z, ź, ż} dla cech CC, MFCC i HFCC. 45 HFCC; HEMD; ERB=; DS=0 CC, DS=0 MFCC, DS=0 Rys. 5. Porównanie skuteczności rozpoznawania dla głosek {c, ć, cz} dla cech CC, MFCC i HFCC. Dla grup głosek dźwięcznych {dz, dź, dż}, {z, ź, ż} oraz {l, r} parametry HFCC wykazują zdecydowaną przewagę w porównaniu z innymi parametrami cepstralnymi. Poprawa skuteczności rozpoznawania waha się dla wspomnianych grup głosek w granicach od ok. 0 % do ok. %. Porownanie skutecznosci rozpoznawania w grupie glosek s, si, sz dla HFCC, CC i MFCC 95 Porownanie skutecznosci rozpoznawania w grupie l, r dla HFCC, CC i MFCC 95 85 75 65 HFCC; HED, ERB=5, DS= 85 75 65 HFCC, H, ERB=4 wspolczynniki cepstralne (CC) MFCC, LogEnergy Wspolczynniki cepstralne (CC) MFCC, ED 55 55 Rys. 6. Porównanie skuteczności rozpoznawania dla głosek {s, ś, sz} dla cech CC, MFCC i HFCC. Rys. 9. Porównanie skuteczności rozpoznawania dla głosek {l, r} dla cech CC, MFCC i HFCC. Porownanie skutecznosci rozpoznawania w grupie glosek dz, dzi, drz dla HFCC, CC i MFCC HFCC, HD; ERB=; DS=0 wspolczynniki cepstralne MFCC, 0-th CC Rys. 7. Porównanie skuteczności rozpoznawania dla głosek {dz, dź, dż} dla cech CC, MFCC i HFCC. Wyjaśnienia uzyskanych rezultatów należałoby upatrywać w najbardziej istotnej właściwości parametrów HFCC, czyli w uniezależnieniu szerokości pasm filtrów od liczby współczynników HFCC. 4.4. Uśrednione wektory cech Ostatnim badanym aspektem rozpoznawania fonemów, był wybór metody klasyfikacji. Ze względu na niewielką liczbę zmian w widmie badanych sygnałów jakimi są głoski wydaje się intuicyjnie uzasadnione stosowanie metod klasyfikacji prostszych niż standardowe metody jakimi są DTW oraz HMM. W związku z powyższym przeprowadzono badania dotyczące rozpoznawania w oparciu o niewielką liczbę uśrednionych wektorów cech. Jednak wyniki badań nie przyniosły oczekiwanej poprawy rezultatów (Rys. 20). Wyniki rozpoznawania dla każdego przypadku grup głosek były gorsze niż te otrzymywane za pomocą metody DTW.
65 55 45 35 skutecznosci rozpoznawania dla metody DTW oraz wektorow srednich dla glosek c, ci, cz DTW 3 wektory srednie poczatkowy wektor sredni srodkowy wektor sredni koncowy wektor sredni Rys. 20. Porównanie skuteczności rozpoznawania dla klasyfikacji metodą DTW oraz klasyfikacji na podstawie uśrednionych wektorów cech. Za pomocą rozpoznawania na podstawie uśrednionych wektorów cech wykryto natomiast pewne zależności czasowe dotyczące rozpoznawania głosek. Okazało się np. że dla grupy głosek {c, ć, cz} najbardziej istotne z punktu widzenia rozpoznawania informacje były zawarte pośrodku głoski, co potwierdza najwyższa dla uśrednionych wektorów cech skuteczność rozpoznawania przy zastosowaniu środkowego wektora cech (rys. 20). 5. Wnioski końcowe Badania wykazały większą skuteczność rozpoznawania za pomocą cech HFCC w porównaniu z cechami MFCC oraz CC. Wyższa skuteczność rozpoznawania HFCC dla zadania rozpoznawania izolowanych słów języka angielskiego w oparciu o metodę HMM była już sygnalizowana w pracy [8]. W obecnej pracy potwierdzono tą zależność dla metody DTW dla wybranych grup fonemów języka polskiego, będących fragmentami ciągłych wypowiedzi. Pozytywne wyniki badań zostaną wykorzystane w trakcie tworzenia logopedycznego programu diagnostyczno-terapeutycznego. Przewiduje się kontynuację badań w następujących kierunkach: Opracowanie metody automatycznego wykrywaniem głosek w wyrazie Zastosowanie metody niejawnych modeli Markowa do klasyfikacji głosek Przeprowadzenie badań z wykorzystaniem innych fizjologicznych (ang. auditory based) cech sygnału mowy. [4] L. R. Rabiner, B. H. Juang, Fundamentals of Speech Recognition, Prentice Hall 993. [5] T. F. Quatieri, Discrete-Time Speech Signal Processing. Principles and Practice. Prentice Hall 2002. [6] Joseph W. Picone. Signal modeling techniques in speech recognition. Proceedings of the IEEE, Vol. 8, No. 9, pp. 25-247, 993. [7] M. D. Skowronski, J. G. Harris: Increased MFCC Filter Bandwidth for Noise-Robust Phoneme Recognition, IEEE Int. Conf. on Acoustics, Speech and Signal Processing, Florida 2002. [8] M. D. Skowronski, John G. Harris, Exploiting independent filter band-width of human factor cepstral coefficients in automatic speech recognition, J. Acoust. Soc. Am., 6 (3), pp. 774-7, Sept. 2004. [9] D. Dimitrios, P. Vassilis, P. Maragos: Robust Features for Automatic Speech Recognition Systems, in K. Daoudi State of the Art in Speech and Audio Processing, Technical Raport INRIA, 2004, http://www-rocq.inria.fr/ imedia/muscle/ WP5/Docs/WP5_SoA_Task3_sept04.pdf [0] D. Dimitriadis, P. Maragos, A. Potamianos Auditory Teager Energy Cepstrum Coefficients for Robust Speech Recognition, Inerspeech 2005, Lisbona, Sept. 2005. [] CORPORA Polish Speech Database, CD-ROM. [2] H. Sakoe, S. Chiba, Dynamic Programming Algorithm Optimization for Spoken Word Recognition, IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-26, pp. 43-49, Feb. 978. [3] L. R. Rabiner, A. Rosenberg, S. Levinson, Considerations in Dynamic Time Warping Algorithms for Discrete Word Recognition, IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP- 26, pp. 575-582, Dec. 978. [4] M. H. Kuhn, H. H. Tomaschewski, Improvements in Isolated Word Recognition, IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-3, NO., pp. 57-67, Feb.983. [5] T. Zieliński: Cyfrowe Przetwarzanie Sygnałów. Od Teorii do Zastosowań, WKŁ 2005. [6] VoiceBox: Speech Processing Toolbox for Matlab, http: //www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.ht ml. [7] HFCC Toolbox for Matlab, http://www.cnel.ufl.edu/ ~markskow/. Artykuł recenzowany 6. Literatura [] P. Łobacz, Wymowa patologiczna a norma fonetyczna, [w:] Zaburzenia mowy, S. Grabias red., Lublin, Wydawnictwo UMCS 200, pp.89-25. [2] M. Żygis, Dlaczego polskie sybilanty sz i ż są retrorefleksami?, Logopedia 33, pp. 9-32, Lublin 2004. [3] J. T. Kania, Podstawy językoznawczej klasyfikacji zaburzeń mowy, [w:] Szkice logopedyczne, Lublin, Polskie Towarzystwo Logopedyczne 200, pp. -