POLITECHNIKA GDAŃSKA Wydział Elektoniki, Telekomunikacji i Infomatyki Romuald Mazuek Pzestzenno-czasowe ozkłady pola akustycznego zespołów źódeł szeokopasmowych i ich wpływ na zniekształcenia sygnałów mowy Rozpawa doktoska Pomoto: d hab. inż. Henyk Lasota Wydział Elektoniki, Telekomunikacji i Infomatyki Politechnika Gdańska Gdańsk, 4
Ewie, Annie i Jakubowi
Spis teści Spis oznaczeń... 5 Wykaz akonimów... 8. WPROWADZENIE..... Istota poblemu..... Tezy i cele ozpawy....3. Stuktua pacy... 4. POLE AKUSTYCZNE ZESPOŁÓW ŹRÓDEŁ SZEROKOPASMOWYCH... 6.. Nagłośnienie jako system komunikacyjny... 6.. Modele układów akustycznych... 7... Model optyczny ozkładu natężenia dźwięku... 8... Model liniowy układu szeokopasmowego... 9..3. Systemy wieloźódłowe - zespoły źódeł dysketnych.....4. Liniowy szyk źódeł dysketnych... 4..5. Nieegulany układ źódeł dysketnych... 6.3. Podsumowanie... 3 3. BADANIE POLA AKUSTYCZNEGO... 3 3.. Metoda koelacyjna pomiau odpowiedzi impulsowej... 3 3... Ciągi maksymalnej długości... 3 3... Pomia koelacyjny odpowiedzi impulsowej za pomocą sekwencji MLS... 33 3.. Pomiay koelacyjne odpowiedzi impulsowych zeczywistych wieloźódłowych systemów szeokopasmowych... 36 3.3. Aplikacja do badania zniekształceń w układach wieloźódłowych... 4 3.4. Kodek LPC... 46 3.5. Podsumowanie... 47 4. WPŁYW INTERFERENCJI SZEROKOPASMOWEJ NA PARAMETRY SYGNAŁU MOWY... 48 4.. Model wytwazania sygnału mowy fomanty... 48 4... Geneowanie sygnału mowy... 48 4... Poces powstawania sygnału mowy... 5 4.. Paametyzacja sygnału mowy... 53 4... Paametyzacja w dziedzinie czasu... 54 4... Paametyzacja w dziedzinie częstotliwości... 54 4..3. Podejście peceptualne... 55 4.3. Liniowa pedykcja... 57 3
4.3.. Wyznaczanie współczynników pedykcji metodą autokoelacji... 6 4.4. Analiza cepstalna współczynniki MFCC... 63 4.4.. Wyznaczanie współczynników cepstalnych na podstawie LPC... 64 4.4.. Współczynniki mel-cepstalne MFCC... 65 4.5. Podsumowanie... 67 5. METODY BADANIA JAKOŚCI I ZROZUMIAŁOŚCI SYGNAŁU MOWY... 68 5.. Miay odległości pomiędzy wektoami paametów... 68 5... Własności mia odległości... 69 5... Stosowane miay odległości... 69 5..3. Miay zniekształceń opate na stosunku sygnału do szumu... 7 5.. Metody badania jakości i zozumiałości pzekazu głosowego... 7 5.3. Metody subiektywnej oceny jakości pzekazu głosowego... 75 5.4. Metody obiektywnej oceny jakości pzekazu głosowego... 79 5.4.. Jakości sygnału mowy tansmitowanej w systemach w telekomunikacyjnych... 8 5.4.. Zozumiałości mowy tansmitowanej w pomieszczeniach pogłosowych... 8 5.5. Miay zniekształceń sygnału mowy opate na liniowej pedykcji... 84 5.6. Wybó metodyki i zastosowanych mia... 85 6. WYNIKI BADAŃ SYMULACYJNO-POMIAROWYCH PARAMETRÓW SYGNAŁU MOWY... 87 6.. Zobazowanie ozkładu zmian wskaźników odległości w polu akustycznym układów wieloźódłowych... 87 6... Układ typu szyk źódeł w jednej linii... 88 6... Układ źódeł typu ciąg komunikacyjny... 96 6..3. Układ źódeł typu sala audytoyjna... 98 6.. Badanie subiektywne degadacji jakości pzekazu w systemach wieloźódłowych... 7. PODSUMOWANIE... 4 Bibliogafia... 7 DODATEK A... DODATEK B... 6 DODATEK B... 8 DODATEK B3... 3 4
Spis oznaczeń a wekto współczynników pedykcji a ( ξ ) funkcja apetuowa dla pobudzenia ównomienego {a,, a p } współczynniki pedykcji LPC a IN a OUT A A N wekto współczynników pedykcji sygnału oyginalnego wekto współczynników pedykcji sygnału zniekształconego względna śednica apetuy poziom N-tego fomantu A (z) filt odwotny do filta sygnału mowy (filt inwesyjny, filt wybielający ) c c m (i) współczynniki cepstalne sygnału oyginalnego c d m (i) współczynniki cepstalne sygnału zniekształconego d ozstaw źódeł d ( a, b) ogólna miaa odległości między wektoami, miaa odległości LLR, symetyczna miaa odległości LLR, miaa odległości IS d LPCCD ( i) odległość cepstalna LPC CD D ( ϑ,ω) znomalizowana funkcja ozkładu kątowo-częstotliwościowego ϑ ( ω ) D funkcja pzenoszenia dla ustalonego kieunku ( ϑ) D chaakteystyka kieunkowa dla ustalonej częstotliwości ω δ [n] delta Koneckea σ σ waiancja błędu pedykcji sygnału wzocowego waiancja błędu pedykcji sygnału zakłóconego e [n] błąd pedykcji {e[n]} E E(z) f sygnał esztkowy minimalny błąd śedniokwadatowy z-tansfomata sygnału esztkowego, częstotliwość f mel częstotliwość w skali melowej F F F F mod ton podstawowy (ton ktaniowy) częstotliwość piewszego fomantu częstotliwość dugiego fomantu częstotliwość modulująca 5
G paamet wzmocnienia w kodeku LPC G (X ) wielomian okesowego ciągu bitów G(z) tansmitancja filtu esztkowego γ (m) okno czasowe obsewacji h x, t odpowiedź impulsowa w punkcie odsłuchu ( ) h(, t) funkcja odpowiedzi impulsowej o symetii sfeycznej h N (x,t) całkowita odpowiedź impulsowa w systemie N-źódłowym h i ( i,t) odpowiedź impulsowa dla i-tego źódła h g (t) odpowiedź impulsowa głośnika h Ng (x,t) h (,, t) H( x,ω) całkowita odpowiedź impulsowa w systemie N-głośnikowym ϑ odpowiedź impulsowa w stefie dalekiej pola ( ϑ,ω) uogólniona funkcja pzenoszenia układu apetua pomieniująca obsewato H uogólniona funkcja pzenoszenia jako funkcja kąta i pulsacji H Ng ( x, ω) funkcja pzenoszenia w systemie N-głośnikowym H (z) tansmitancja filtu odwotnego I ( x ) K L L F M ( x ) MFCC n natężenie dźwięku liczba fomantów, jaka jest bana pod uwagę w modelu watość stosunku sygnału do szumu nume pążka odpowiadający częstotliwości modulującej punkt obsewacji n-ty współczynnik mel-cepstalny MTF ( F mod ) wskaźnik funkcji pzeniesienia modulacji w funkcji częstotliwości modulującej MTF j wskaźnik funkcji pzeniesienia modulacji dla j-tego podpasma oktawowego N liczba źódeł p ząd pedykcji LPC p ( L, STR, s) pawdopodobieństwo pawidłowego ozpoznania F i k odległość punktu odsłuchu od źódła wekto współczynników autokoelacji ganica stefy dalekiej odległość i-tego głośnika od punktu odsłuchu k-ty współczynnik autokoelacji 6
R [] [] maciez autokoelacji funkcja koelacji skośnej sygnałów x[n] oaz y[n] funkcja autokoelacji sygnału pomiaowego s (t) sygnał pobudzający S S(z) nachylenie wykesu zozumiałości z-tansfomata sygnału oyginalnego STFT ( n, k) kótkoczasowa dysketna tansfomata Fouiea S i t uśedniona watość estymaty widma gęstości mocy pzy użyciu i-tego filtu czas bieżący t i czas pzelotu od i-tego źódła do punktu obsewacji T okes twania sygnału {w i } funkcja okna obejmującego N póbek sygnału Wj,m W W i W n,l ω waga j-tego podpasma w m-tym segmencie śednia wyazistość logatomowa wskaźnik wyazistości w i-tym pasmie elementanym liczba logatomów ozpoznanych popawnie pzez n-tego słuchacza pulsacja, dla któej funkcja pzenoszenia w kieunku ϑ ma piewsze zeo ϑ kieunek, w któym chaakteystyka kieunkowa ma piewsze zeo x[n] { x ) [ n]} póbka sygnału wzocowego sygnał estymowany x '[ n] sygnał pzefiltowany nieekusywnym filtem FIR (peemfaza) X KN zawatość komóki ejestu y( x,t) sygnał w punkcie odsłuchu 7
Wykaz akonimów ACR AI AR ARM AWGN CCR CD CIS CMOS CORPORA DCR DMOS DFT DRT DSO IP IS ISP FFT FHT FIR fwsnrseg LAR LFS LFSR LLR LPC LPC CD LPS LR LTI melcd MFCC (Absolute Categoy Rating) - metoda bezwzględnej oceny jakości mowy (Aticulation Index) wskaźnik wyazistości mowy (AutoRegesive) model autoegesyjny Automatyczne Rozpoznawanie Mowy (Additive White Gaussian Noise) - biały szum Gaussowski (Compaision Categoy Rating) - metoda poównawcza oceny jakości mowy (Cepstum Distance) odległość cepstalna (Common Intelligibility Scale) wspólna skala zozumiałości (Compaison Mean Opinion Scoe) - poównawcza uśedniona opinia słuchaczy baza efeencyjne ( kopus ) mowy polskiej (Degadation Categoy Rating) - metoda oceny stopnia degadacji jakości mowy (Degadation Mean Opinion Scoe) degadacyjna uśedniona opinia słuchaczy (Disceet Fouie Tansfom) dysketna tansfomata Fouiea (Diagnostic Rhyme Test) - diagnostyczny test ymowy Dźwiękowe Systemy Ostzegawcze (Intenet Potocol) potokół tansmisji danych w Intenecie (Itakua-Saito) miaa odległości Itakua-Saito (Invese Sine Paametes) - paamety odwotnej funkcji sinus (Fast Fouie Tansfom) szybki algoytm tansfomaty Fouiea (Fast Hadamad Tansfom) szybki algoytm tansfomaty Hadamada (Finite Impulse Response) filt o skończonej odpowiedzi impulsowej (Fequency Weighted SNR) ważony częstotliwościowo stosunek do szumu (Log Aea Ratio Paametes) - współczynniki logaytmicznego stosunku pzekojów tuby akustycznej (Line Spectal Fequencies) - metoda częstotliwości widma liniowego (Linea Feedback Shift Registe) - liniowy ejest pzesuwny ze spzężeniem zwotnym (Log-Likelihood Ratio) logaytmiczny wskaźnik wiaygodności (Linea Pedictive Coding) liniowe kodowanie pedykcyjne (LPC Cepstum Distance) odległość cepstalna pzy kodowaniu LPC (Line Spectum Pai) - metoda pa widma liniowego (Likelihood Ratio) wskaźnik wiaygodności (Linea Time Invaiant) układ liniowy niezmienny w czasie (MFCC Distance) odległość dla współczynników mel-cepstalnych (Mel-Fequency Cepstal Coefficients) współczynniki mel-cepstalne 8
MLS MOS MRT MTF PAMS PAS PEAQ PESQ PIR PLP PRN PSD PSQM PSQM+ PSTN RASTA RASTI SFM SII SRT STFT STI STIPA SNR SNRseg SPL SQ WAV VoIP %Alcons (Maximum Length Sequence) ciąg maksymalnej długości (Mean Opinion Scoe) - uśedniona opinia słuchaczy (Modified Rhyme Test) zmodyfikowany diagnostyczny test ymowy (Modulation Tansfe Function) funkcja pzeniesienia modulacji (Peceptual Analysis Measuement System) system pomiau z analizą peceptualną (Public Addess Systems) - systemy dźwiękowe instalowane w miejscach publicznych (Peceptual Evaluation of Audio Quality) badanie jakości dźwiękowych sygnałów szeokopasmowych (Peceptual Evaluation of Speech Quality) badanie jakości sygnałów mowy (Peiodic Impulse Response) okesowa odpowiedź impulsowa (Peceptual Linea Pediction) - pedykcja liniowa uwzględniająca podejście peceptualne (PseudoRandom Noise) - pseudolosowy pzebieg szumowy (Powe Spectal Density) gęstość widmowa mocy (Psycho-Acoustic Speech Quality Measue) metoda psycho-akustycznego pomiau jakości mowy (Psycho-Acoustic Speech Quality Measue Plus) metoda psycho-akustycznego pomiau jakości mowy w otoczeniu sieciowym (Public Switched Telephone Netwok) - publiczna komutowana sieć telefoniczna (RelAtive SpecTaA) - metoda paametyzacji wykozystująca widmo względne (RApid Speech Tansmission Index) szybki wskaźnik zozumiałości mowy (Spectal Flatness Measue) miaa płaskości widma (Speech Inteligibility Index) - wskaźnik zozumiałości mowy (Speech Reception Theshold) póg pecepcji mowy (Shot-Time Fouie Tansfom) kótkoczasowa tansfomata Fouiea (Speech Tansmission Index) wskaźnik tansmisji mowy (Speech Tansmission Index fo Public Addess Systems) - wskaźnik tansmisji mowy w systemach publicznych (Signal to Noise Ratio) stosunek sygnału do szumu (Time-Domain Segmental SNR) segmentowy stosunek sygnału do szumu (Sound Pessue Level) poziom ciśnienia akustycznego (Speech Quality) jakość sygnału mowy (Wave Fom Audio Fomat) - fomat plików dźwiękowych (Voice ove Intenet Potocol) potokół pzesyłania sygnału mowy za pomocą łączy intenetowych IP (Aticulation Loss of Consonants) - współczynnik utaty spółgłosek 9
. WPROWADZENIE Podstawowym fizycznym mechanizmem fomowania pola akustycznego w pzestzeni jest zachodząca w każdym jej punkcie liniowa supepozycja chwilowych watości ciśnienia. Gdy pole akustyczne jest keowane pzez źódła pobudzane niemal identycznym sygnałem, o niewielkich óżnicach wynikających z indywidualnych cech źódeł, dominującym zjawiskiem jest intefeencja, któej wpływ na sygnały szeokopasmowe nie jest dobze poznany [] [] [3]. Uzasadnieniem stosowania układów wielogłośnikowych jest tzw. kieunkowość, któą powinny chaakteyzować się układy złożone z wielu źódeł, co w założeniu wielu pojektantów powinno oganiczać wypomieniowywanie enegii do obszau, w któym nie ma odbioców [4] [5]. W paktyce założenie o kieunkowości tego typu apetu nie jest zawsze pawdziwe. W obszaze bliższym źódłu, noszącym nazwę stefy bliskiej, ozkłady pola mają chaakte na tyle złożony, że nie można tam okeślić funkcji ozkładu o podobnie jednoznacznych właściwościach, jak chaakteystyka kieunkowa. Stosowanie wieloźódłowych układów akustycznych, szczególnie ozłożonych wzdłuż linii, uzasadnia się ównież względami estetycznymi, gdyż wkomponowują się one w achitektuę pomieszczenia, np. popzez umieszczanie ich na kolumnach podpoowych... Istota poblemu W akustycznych systemach wieloźódłowych pobudzanych wspólnym szeokopasmowym sygnałem dźwiękowym występuje zjawisko intefeencji powodujące znaczne zniekształcenia liniowe. Badanie układów akustycznych złożonych z zespołu wielu źódeł szeokopasmowych, taktowanych w kategoiach systemów liniowych LTI (ang. Linea Time Invaiant) i zastosowanie metody odpowiedzi impulsowych, pozwala okeślić chaakte zniekształceń powstających w polu tego typu układów [6]. Zjawisko to (intefeencja szeokopasmowa) będące ekstapolacją intefeencji sygnałów hamonicznych na sygnały szeokopasmowe jest szczególnie silne w obszaach nagłaśnianych pzez większą liczbę źódeł znajdujących się w poównywalnych odległościach. Efektem są zniekształcenia liniowe powodujące znaczne, w stosunku do oyginału, óżnice postaci czasowej i widmowej sygnałów docieających do poszczególnych miejsc w polu odsłuchu i, w konsekwencji, pogoszenie zozumiałości pzekazu. Zjawiska tego nie można pomijać pzy pojektowaniu oaz badaniu jakości systemów nagłaśniających. Chociaż zagadnienie fomowania się pola akustycznego [7] w nagłaśnianej pzestzeni jest analogiczne do fomowania pola wieloelementowych anten w adiowych lub hydoakustycznych (ultadźwiękowych) systemach komunikacji bezpzewodowej, to z punktu widzenia dostępnych nazędzi analizy jest jakościowo inne. Anteny pomieniują bowiem sygnały wąskopasmowe, któe można taktować jako czysto hamoniczne, natomiast sygnał mowy jest z natuy szeokopasmowy, jego pzebieg czasowy jest złożony, a widmo częstotliwościowe pokywa w paktyce około dwie
i pół dekady (od 5 Hz do 5 khz). Do anten szeokopasmowych nie można więc stosować klasycznego opisu w odzaju chaakteystyk kieunkowych, któe to z definicji dotyczą pola hamonicznego [4]. Dodatkowo, w analizowanym poblemie konfiguacja geometyczna elementów pomieniujących nie jest egulana, a punkt obsewacji (słuchacz) znajduje się w obszaze pomiędzy tymi elementami. Są to kolejne powody, dla któych nie jest możliwe opeowanie funkcjami typu chaakteystyki kieunkowe te, bowiem, dotyczą typowych konfiguacji i obowiązują w obszaze dostatecznie odległym od anteny, w stosunku do względnego ozmiau jej apetuy (tzw. stefa daleka). Typowe systemy publicznego pzekazu słownego PAS (ang. Public Addess Systems) oaz dźwiękowe systemy ostzegawcze DSO [8] wykozystują zwielokotnione źódła w postaci większej liczby głośników ozmieszczonych w możliwie ównomieny sposób w obszaze odsłuchu, najczęściej na powiezchniach oganiczających nagłaśniane pomieszczenie (ściany, sufit) lub na elementach konstukcyjnych (filay, pilasty). Uwaga pojektantów systemów nagłośnieniowych zogniskowana jest na tzw. akustyce pomieszczenia, w któym ealizowany jest pzekaz słowny. Zjawiska pogłosowe związane z geometią sali audytoyjnej, wynikające z wielokotnych odbić fali dźwiękowej uznawane są za dominujące [9] []. Tymczasem zjawisko intefeencji towazyszące geneowaniu pola dźwiękowego pzez źódła pobudzane identycznym sygnałem powoduje znaczne zniekształcenia liniowe. Zozumiałość pzekazu słownego może ulec pogoszeniu, zależnemu w silnym stopniu od liczby źódeł dźwięku oaz od ich ozmieszczenia względem miejsca odsłuchu. Stosowane powszechnie ustandayzowane metody pomiaów i oceny zozumiałości mowy w pomieszczeniach np. STI, RASTI, stosunkowo dobze odzwieciedlają wpływ zjawisk pogłosowych na zozumiałość [] [] [], są one jednak, jak to pokazano w niniejszej pacy, nieważliwe na wpływ zjawiska supepozycji sygnałów dochodzących do słuchacza z wielu źódeł, a któe to zjawisko wpływa istotnie na jakość odbieanych sygnałów dźwiękowych. Wpływ ten uwidacznia się szczególnie w waunkach wysokiego poziom szumu tła. Właściwe opisanie odzaju i chaakteu tego zjawiska, okeślenie miezalnej cechy zniekształceń oaz wykazanie ich wpływu na jakość pola akustycznego umożliwi oszacowanie stopnia degadacji i zniekształcenia tansmitowanego w polu sygnału akustycznego, a w szczególności pzekazu mowy. Pojektowanie systemów nagłośnienia PAS i DSO wymaga opacowania nowego, kompleksowego podejścia do poblemu. Własności odsłuchowe, zwyczajowo okeślane w sposób ogólny, pzez podanie paametów zbioczych odnoszących się do całego pomieszczenia, należałoby dodatkowo chaakteyzować paametami lokalnymi, uwzględniającymi zniekształcenia specyficzne dla konketnej konfiguacji głośników i wybanej lokalizacji słuchacza. Obiektywna
ocena wpływu zniekształceń liniowych na pogoszenie zozumiałości mowy powinna uwzględniać paamety pzekazu mowy na poziomie fonemów... Tezy i cele ozpawy Badanie wpływu ozmieszczenia i liczby źódeł dźwięku na zozumiałość sygnałów mowy jest kluczowe dla pojektowania systemów nagłośnienia. Efekt intefeencji szeokopasmowej oaz jej wpływ na zozumiałość pzekazywanych komunikatów słownych są ważnym elementem uzupełniającym kompleksowy opis zjawisk akustycznych związanych z nagłaśnianiem waz z takimi czynnikami jak wpływ pomieszczenia (pogłos, tłumienie) czy jakość pzetwoników. Analiza zagadnienia pzedstawiona w pacy może w konsekwencji dalszych badań dopowadzić do opacowania zaleceń uzupełniających już istniejące. Celem głównym pacy jest potwiedzenie pawdziwości postawionych tez, któe bzmią następująco:. Supepozycja sygnałów pochodzących ze współbieżnych źódeł ozmieszczonych w óżnych odległościach od punktu odsłuchu wywołuje efekt zniekształcenia paametów czasowo-częstotliwościowych sygnałów szeokopasmowych. Wskazane jest zastosowanie obiektywnej, powtazalnej miay degadującego wpływu szeokopasmowej intefeencji liniowej na zozumiałość sygnałów mowy. Aby wykazać słuszność powyższych tez, postawiono następujące cele pomocnicze: Sfomułowanie poblemu szeokopasmowych układów akustycznych w kategoiach systemów liniowych LTI (ang. Linea Time Invaiant). Pzepowadzenie analizy czasowo-częstotliwościowej układów akustycznych pzy wykozystaniu metody odpowiedzi impulsowej. Identyfikacja zniekształceń powstających na skutek ozmieszczenia źódeł akustycznych w pzestzeni odsłuchowej. Pzegląd stosowanych metod paametyzacji i badania jakości sygnałów mowy oaz dobó wskaźników adekwatnych dla pomiau zniekształceń wpowadzanych pzez intefeencję szeokopasmową. Skonstuowanie modelu symulującego tansmisję sygnałów szeokopasmowych w złożonych układach pzestzennych ozkładów źódeł oaz weyfikującego watości obiektywnych paametów sygnałów w opaciu o analizę pedykcyjną i mel-cepstalną. Pzepowadzenie badań pola akustycznego typowych układów pzestzennego ozkładu źódeł akustycznych z wykozystaniem mia odległości wskaźników wiaygodności: LLR (Log-Likelihood Ratio), IS (Itakua-Saito), CD (Cepstum Distance), melcd (MFCC Distance).
Wykazanie koelacji pomiędzy pzestzennym ozkładem źódeł a zniekształceniami paametów sygnału mowy. Dokonanie oceny zniekształceń oaz ich wpływu na watości wskaźników odległości, mających cechę testowania istotność wpływu intefeencji szeokopasmowej na degadację paametów sygnału mowy. Dla weyfikacji koncepcji pzepowadzono testy pomiaowe pola akustycznego zeczywistych układów źódeł akustycznych. Dla ealizacji tak postawionych celów niezbędne było pzyjęcie następujących założeń: Układy akustyczne, złożone z zespołów źódeł szeokopasmowych, mogą być analizowane w kategoiach systemów liniowych LTI. Wykozystanie do analizy metody odpowiedzi impulsowej pozwala okeślić chaakte zniekształceń powstających w polu układów tego typu. Wpływ pzestzennego ozkładu źódeł na jakość tansmitowanego sygnału należy ozważać uwzględniając pzede wszystkim zniekształcenia paametów fomantowych pzekazu głosowego. Badania potwiedzające zasadność postawionych tez pzepowadzono pzy założeniu baku wpływu innych czynników powodujących zniekształcenia sygnału, takich jak: nieównomieność chaakteystyk częstotliwościowych pzetwoników elektoakustycznych, kieunkowość pojedynczego źódła akustycznego, odbicia i ewebeacje w pomieszczeniach nagłaśnianych, zniekształcenia nieliniowe sygnału powstające w uządzeniach akustycznych (np. wzmacniaczach akustycznych, głośnikach), absopcja akustyczna szczególnie istotna dla dużych częstotliwości. Tadycyjnie uwzględniany wpływ tych czynników na badanie jakości pzekazu mowy w nagłaśnianych pomieszczeniach jest szeoko opisany w liteatuze tematu. Powyższe elementy pominięto jako nie mające bezpośedniego związku z badanym poblemem, a pozwoli to na wyekstahowanie czystego wpływu intefeencji szeokopasmowej na badane sygnały akustyczne. Niemniej, kompleksowe zbadanie zeczywistych pzestzeni odsłuchowych będzie wymagało uwzględnienia także tych pominiętych elementów. 3
.3. Stuktua pacy Pezentacja wyników zaplanowanych celów waz z opisem szeszego kontekstu analizowanego zagadnienia wymaga odpowiedniej stuktuy pacy, któa jest w dalszej części skonstuowana następująco. W dugim ozdziale pacy pzeanalizowano system złożony z zespołu źódeł szeokopasmowych w kategoiach systemu komunikacyjnego. Omówiono zagadnienie supepozycji sygnałów dochodzących do słuchacza z wielu źódeł, czyli poblem intefeencji szeokopasmowej, powadzący do istotnej modyfikacji odbieanych sygnałów. Zniekształcenia wpowadzane pzez system nagłaśniający zbadano pzyjmując model systemowo-liniowy, w któym właściwości tansmisyjne systemów komunikacji są okeślane funkcjami odpowiedzi impulsowych i chaakteystykami częstotliwościowymi (funkcjami pzenoszenia). Pzestudiowano mechanizm fomowania się pola akustycznego dla pzypadków: liniowego szyku źódeł, któy w obszaach pola odpowiednio oddalonych od apetuy umożliwia wyznaczenie egulanych funkcji pzenoszenia i chaakteystyk kieunkowych oaz dla dowolnego pzestzennego ozmieszczenia elementów pomieniujących. W ozdziale tzecim pzedstawiono zastosowaną w niniejszej pacy metodologię badania pola akustycznego. Omówiono wykozystanie metody odpowiedzi impulsowej, pozwalającej na kompleksowy opis chaakteu zniekształceń powstających w obszaze odsłuchu. Opisano sposób uzyskania odpowiedzi impulsowych, z wykozystaniem metody koelacyjnej z zastosowaniem sygnałów MLS. Zapezentowano ównież napisaną pzez autoa aplikację do wyznaczania wskaźników jakości pola akustycznego. Omówiono pomiay pzepowadzone dla zeczywistych układów akustycznych. Rozdział czwaty zawiea podstawową wiedzę z zakesu badania jakości oaz zozumiałości mowy. Omówiono cel i pzebieg pocesu paametyzacji sygnałów akustycznych, zaówno w dziedzinie czasu jak i częstotliwości. Zapezentowano i schaakteyzowano podstawowe paamety czasowe i częstotliwościowe opisujące sygnał mowy. Omówiono ównież podejście peceptualne, uwzględniające w pocesie badania jakości pzekazu mowy mechanizm słyszenia ludzkiego ucha. Opisano zastosowanie analizy pedykcyjnej LPC i cepstalnej do konstuowania wskaźników pozwalających na ocenę jakości pola akustycznego. W ozdziale piątym pzedstawiono pzekojowo najważniejsze stosowane obecnie metody badania jakości i zozumiałości sygnałów mowy. Opisano metody wyznaczania mia odległości między wektoami obiektywnych paametów sygnałów głosowych, jako wskaźników jakości pola akustycznego w układach wieloźódłowych, ze szczególnym uwzględnieniem mia opatych na pedykcji liniowej. Omówiono ównież zasadność wybou metodyki i zastosowanych mia. 4
W ozdziale szóstym zapezentowano pzykładowe wyniki otzymane w takcie badań symulacyjno-pomiaowych jakości pola akustycznego oaz zozumiałości pzekazu głosowego w systemach wieloźódłowych. Wyniki tych badań wskazują na występowanie niepożądanych efektów filtacji, do któych dochodzi w każdym punkcie pzestzeni odsłuchu. Zapezentowane zostały wykesy map zmienności wskaźników jakości pola akustycznego, dla badanych układów teoetycznych i zeczywistych. W ostatnim siódmym ozdziale podsumowano wyniki badań potwiedzających, zdaniem autoa, tezy postawione we Wpowadzeniu. 5
. POLE AKUSTYCZNE ZESPOŁÓW ŹRÓDEŁ SZEROKOPASMOWYCH Intefeencja jako zjawisko fizyczne jest klasycznie odnoszona do pola fal monochomatycznych. W pzypadku dysketnych źódeł sygnału wąskopasmowego ozmieszczonych egulanie, ozkład amplitud, będący efektem supepozycji fal elementanych, na pzemian konstuktywnej i destuktywnej, twozy chaakteystyczny wzó intefeencyjny. Zjawisko intefeencji w badziej ogólnym kontekście, odnosi się także do sygnałów szeokopasmowych, w tym ównież do sygnałów emitowanych w wielogłośnikowych systemach akustycznych. W pzypadku źódeł monochomatycznych, pobudzanych sygnałem wąskopasmowym, paktyczne jest stosowanie pojęcia chaakteystyki kieunkowej. Obliczenia i pomiay wiązki kieunkowej anteny akustycznej są dokonywane dla wybanej częstotliwości emitowanej fali, w obszaze odpowiednio oddalonym od apetuy, zwanej stefą daleką. W obszaze bliższym źódłu, noszącym nazwę stefy bliskiej, ozkłady pola mają chaakte na tyle złożony, że nie można tam okeślić funkcji ozkładu o podobnie jednoznacznych własnościach, jak chaakteystyka kieunkowa. Ze względu na natualną pzemienność fali, pzesunięcie czasowe między poszczególnymi falami o identycznym pzebiegu i nieznacznie óżniących się amplitudach, docieającymi do punktu obsewacji, powadzi do efektów o badzo złożonym chaakteze. Pzebieg czasowy ulega zniekształceniu, podobnie jak jego widmo częstotliwościowe, w zależności od położenia słuchacza względem układu źódeł. Każdy punkt odsłuchu staje się wówczas osobną ealizacją kanału komunikacyjnego... Nagłośnienie jako system komunikacyjny Wieloźódłowe system nagłaśniające są szczególnego odzaju szeokopasmowymi, wielokanałowymi, liniowymi systemami komunikacyjnymi, w któych wielodożna tansmisja powadzi do specyficznych zniekształceń intefeencyjnych sygnału mowy, mogących w wielu obszaach odsłuchu znacząco utudnić zozumienie pzekazu. Na system komunikacyjny składają się cztey klasyczne elementy: nadawca, odbioca, kanał oaz potokół. Nadajnik i odbionik są technicznymi intefejsami między, odpowiednio, nadawcą a kanałem oaz kanałem a odbiocą. W badaniu własności tansmisyjnych systemu, ozsądnie jest taktować te intefejsy jako integalną część kanału. Potokół to umówiona foma kodowania infomacji, wspólna dla nadawcy i odbiocy. Pzekaz słowny, także ten natualny, bez stosowania śodków technicznych, jest ealizacją komunikacji, w któej sygnał mowy, zawieający komunikat zakodowany w szczególny sposób pzez nadawcę (mówcę), dociea do odbiocy (słuchacza) popzez tudny kanał (pzestzeń 6
audytoium, do któej dźwięk emitowany jest bezpośednio pzez mówcę, pzez pojedynczy głośnik bądź pzez wiele głośników). Odbioca dokonuje analizy sygnału i dekoduje komunikat w opaciu o potokół, któego funkcję, w tym pzypadku, pełni znany obu stonom język pzekazu. Poblemy z bezbłędnym odbioem komunikatu są w ównym stopniu ezultatem wpływu czynników obiektywnych, któe można uchwycić badając zniekształcające właściwości kanału tansmisyjnego oaz wpływ zakłóceń, co tudnych do jednoznacznego schaakteyzowania czynników subiektywnych, wynikających ze złożoności pocesów geneacji i odbiou sygnałów mowy. Chodzi tu o dykcję mówcy i słuch słuchacza. Nie bez znaczenia dla możliwości bezbłędnego pzekazywania komunikatów w niespzyjających waunkach, jest zdolność mówcy do jasnego fomułowania myśli oaz wspólny kontekst kultuowy obu podmiotów komunikacji. Pzekaz słowny jest edundantny, zawiea wiele nadmiaowej infomacji umożliwiającej identyfikację komunikatu, także w niespzyjających okolicznościach. Słuchacz, w istocie, analizuje i koyguje odbieany pzekaz na kilku poziomach, identyfikując poszczególne elementy: fonem (głoski), słowo (sylaba), zdanie, komunikat. Piewotny poces ozumienia mowy dokonuje się na poziomie fonemów. Analizując mowę na poziomie słów, słuchacz dokonuje koekty ex post niepawidłowo odebanych głosek, gdyż tylko nieliczne kombinacje fonemów twozą pawidłowe słowa taka koekcja jest wyłączona w pzypadku zastąpienia słów sylabami pozbawionych znaczenia (logatomami). Podobnie na poziomie zdań może zostać skoygowane niepawidłowe słowo, jako że nie każde zestawienie słów twozy pawidłowe zdanie. Z kolei na poziomie komunikatu okazuje się, że nie każdy układ zdań twozy sensowny pzekaz, co umożliwia dalszą koekcję. Tak więc na poziomie słów, zdań i komunikatu efekty pogoszenia zozumiałości są mniej wyaźne. Słuchacz ozumiejący kontekst może pawidłowo zekonstuować pzekaz nawet wówczas, gdy występują badzo poważne zniekształcenia, bądź wysoki jest poziom zakłóceń... Modele układów akustycznych W celu badania zjawisk zachodzących w polu akustycznym pzyjęto dwa uposzczone modele zeczywistych wieloelementowych układów nagłośnieniowych. Piewszy z nich to egulany liniowy szyk źódeł, odpowiadający układowi kolumny głośnikowej, a dugi to nieegulany układ źódeł ozłożonych na płaszczyźnie, odpowiadający układowi głośników umieszczonych w suficie. Do analizy pola akustycznego takich układów zastosować można óżne modele opisu zachodzących tam zjawisk. W paktyce pojektowej, dla oceny poziomu dźwięku w poszczególnych punktach nagłaśnianego pomieszczenia, stosowany jest zapożyczony z optyki model zakładający, że natężenie (powiezchniowa gęstość stumienia mocy) indywidualnej fali pomieniowanej pzez Analizowany tu układ kolumny głośnikowej złożony z kliku identycznych źódeł nie jest tożsamy z zestawem głośnikowym, w któym poszczególne głośniki wysoko- śednio- i niskotonowe są sepaowane częstotliwościowo popzez zwotnicę. 7
źódło punktowe maleje z kwadatem odległości od źódła, a lokalne natężenie dźwięku można obliczać jako wynik supepozycji natężeń pochodzących z indywidualnych źódeł (głośników). Model ten pomija jednak zjawisko intefeencji. Lepszym podejściem do analizy wieloźódłowego pola akustycznego jest badanie sygnałów w opaciu metodę pzestzenno-czasowych odpowiedzi impulsowych. W tym ujęciu w każdym punkcie nagłaśnianej pzestzeni mogą zostać wyznaczone odpowiedzi impulsowe, pozwalające na kompleksową oceną paametów systemu.... Model optyczny ozkładu natężenia dźwięku Dla zweyfikowania poblemów związanych z fomowaniem pola pzez systemy nagłaśniające, pzedstawiono obliczenia wykonane dla hipotetycznego audytoium o wymiaach 5 m x m, z doskonale pochłaniającymi powiezchniami oganiczającymi, bez wyposażenia (ys..). Założenie baku odbić na ganicach oznacza, że badany model jest, z punktu widzenia zjawisk falowych, fagmentem tójwymiaowej pzestzeni swobodnej. Pozwala to m.in. abstahować od poblemów pogłosu. Audytoium jest nagłośnione na cztey sposoby - jednym, dwoma, czteema i dwunastoma (3 x 4) głośnikami umieszczonymi na wysokości 4 m powyżej płaszczyzny odsłuchu. Moc poszczególnych źódeł dobano tak, by łączna moc wypomieniowana do obszau odsłuchu była dla wszystkich konfiguacji jednakowa. Zgodnie I x okazał się najbadziej ównomieny dla z oczekiwaniami, względny ozkład natężeń ( ) największej liczby źódeł ozmieszczonych nad płaszczyzną odsłuchu. I A źódła dźwięku I x Rysunek.. Rozkład natężenia dźwięku ( ) I A w modelowym audytoium nagłośnionym nieskoelowanymi falami geneowanymi pzez: A) pojedyncze źódło, B) dwa źódła, C) cztey źódła, D) źódeł. 8
Model optyczny jest pomocny pzy szacowaniu poziomu dźwięku w nagłaśnianej pzestzeni i pozwala pognozować stosunek poziomu pożądanego sygnału do poziomu zakłóceń. Leżące u jego podstaw założenie o dodawaniu natężeń jest słuszne, pzez analogię do optyki światła niespójnego, jedynie w sytuacji, gdy szeokopasmowe sygnały pomieniowane pzez poszczególne źódła są nieskoelowane, co oznacza, że każdy głośnik pomieniuje indywidualny sygnał quasi-szumowy, nie mający związku z pozostałymi. Model ten nie umożliwia pawidłowej oceny jakości pzekazu, a ozwiązania pzyjmowane na jego podstawie mogą okazać się węcz niekozystne dla właściwości systemu nagłośnieniowego.... Model liniowy układu szeokopasmowego Rysunek. pzedstawia jednowymiaową apetuę pomieniującą w dwóch wesjach ciągłej i dysketnej. W piewszym pzypadku jest to linia pomieniująca o długości, a w dugim zespół N = 5 źódeł punktowych ozstawionych co d = a/n. Dla uniknięcia zawiłości fomalnych nie mających istotnego znaczenia dla pezentowanych dalej ozważań pzyjęto, że punkt obsewacji M ( ) x znajduje się w obszaze leżącym na zewnątz pasa pzyosiowego ( x > a / ) [3]. X ξ a / M (x,z ) d -d ϑ Z -a / a ( ξ ) Rysunek. Geometia układów pomieniujących: apetua ciągła a = m i apetua dysketna x, x = ( x, z) = (, ϑ) [4]. N = 5, d =, m; punkt obsewacji M ( ) Pzy pobudzeniu ównomienym opisanym funkcją apetuową a( ξ ) = ect ( ξ a) impulsowa ( x, t) h w ganicach czasowych t (, ), odpowiedź ma w punkcie M postać opadającej funkcji quasi-hipebolicznej okeślonej t m t M i dalszego kańca apetuy ξ = a / :, związanych z odległością punktu obsewacji do bliższego h π ( x,t) =, dla t ( t,t ) t t z m M (.) gdzie: x = ( x, z); t z = z c, t m = m c, t M = M c m x a + z, M = x + a + = z. oaz: ( ) ( ) 9
Tansfomata Fouiea odpowiedzi impulsowej jest funkcją położenia punktu obsewacji oaz częstotliwości. Oblicza się ją wg wzou (.): H v = dt = ( x, ω) F{ h( x, t) } h( x, t) exp( jω t) (.) Funkcję H ( x,ω ) należy intepetować jako uogólnioną funkcję pzenoszenia układu apetua pomieniująca obsewato, chaakteyzującą jakość tansmisji sygnałów szeokopasmowych w polu akustycznym. W pzypadku ogólnym obliczenie analityczne tej funkcji nie jest możliwe i konieczne jest zastosowanie numeycznych algoytmów dysketnej tansfomaty Fouiea DFT (ang. Disceet Fouie Tansfom). W stefie dalekiej pola odpowiedź impulsowa h,,! pzyjmuje postać funkcji bamkowej o stałej wysokości: gdzie: h (, ϑ, t) a δ π = c π sin ϑ x = (, ϑ), ta = a c, t = ( t t ) ect t a t * δ sin ϑ ( t t ) dla ϑ =, dla ϑ, (.3) c. Jej tansfomata Fouiea " #$,% jest funkcją ównocześnie kąta i częstotliwości (czynnik exp( jωt ) pomija się dla uposzczenia): co można zapisać też jako: ω a sin sinϑ a ( ) = c a ω a H ϑ, ω = Sa sinϑ (.4) π ω a π ϑ c sin c a H ( ϑ, ω) = D( ϑ, ω) (.5) π W zależności od potzeby, bezwymiaową, znomalizowaną funkcję ozkładu kątowo-częstotliwościowego D ( ϑ,ω ) można analizować jako funkcję pzenoszenia D ( ω ) ustalonego kieunku ϑ = const, lub jako chaakteystykę kieunkową D ( ϑ), pzy ustalonej częstotliwościω = const. Obie funkcje, choć matematycznie niemal identyczne, mają odmienne paamety chaakteystyczne, istotne z paktycznego punktu widzenia. Mianowicie, w funkcji D ( ω ) ω ϑ ϑ, dla
występuje paamet ω, mający sens częstotliwości odpowiadającej fali o długości λ, ównej długości zutu apetuy & na kieunek obsewacji ϑ (ys..3 b): gdzie: Sa() zgodnie z (.4), ϑ ( ω) Sa( πω ) D = (.6) ω π c ω =, czyli λ = a sinϑ. Jest to częstotliwość, dla któej a sinϑ funkcja pzenoszenia w badanym kieunku ϑ ma piewsze zeo. W pzypadku apetuy o śednicy m, piewsze zeo funkcji pzenoszenia wypada, odpowiednio, w kieunku ϑ = - dla częstotliwości f = 43 khz, w ϑ = dla 8,6 khz oaz w ϑ = 6 - dla,7 khz. Można to intepetować jako dolnopasmowe własności filtujące układu pomieniującego im większe jest odchylenie punktu obsewacji od kieunku głównego apetuy, tym węższe jest pasmo pzenoszenia układu akustycznego. a b.9.9.8.8.7.7.6.6 (ϑ) D ω.5 (ω) D ϑ.5.4.4.3.3.... -9-45 45 9 ϑ [stopnie] 5 5 f [khz] Rysunek.3 a) Chaakteystyki kieunkowe ω ( ϑ ) pzenoszenia ( ω ) ϑ D dla,5 khz (- -) i dla 5 khz ( ) oaz b) funkcje D dla ϑ= ( ), (- -) i 6 ( ) w stefie dalekiej pola apetuy ciągłej a = m [4]. Jak wiadomo, względna śednica apetuy dla ustalonej częstotliwości, kieunek ϑ acsin ( A ) ma piewsze zeo (ys..3a): ω = A = a λ, występująca w funkcji D ( ϑ), okeśla, ( ϑ) Sa( π Asinϑ), w któym chaakteystyka kieunkowa D = (.7) Dla f =,5 khz jest A =, co oznacza ϑ = 9. Dla f = 5 khz - A = i ϑ = 5,7...3. Systemy wieloźódłowe - zespoły źódeł dysketnych Ze względu na geometię poblemu i związaną z nią specyfikę efektów intefeencyjnych, systemy wieloźódłowe stosowane w technice nagłośnieniowej można podzielić na dwie kategoie ω
układy głośników zwate i ozposzone. Do piewszej gupy należą zespoły głośnikowe złożone z kilku identycznych pzetwoników umieszczonych blisko siebie, z eguły we wspólnej obudowie. Duga gupa, to systemy nagłośnienia sal audytoyjnych, kongesowych i obiektów sakalnych, z licznymi źódłami ozmieszczonymi na ścianach, w suficie bądź na elementach konstukcyjnych, w któych odległość słuchacza od poszczególnych źódeł jest pzypadkowa (nawet gdy same źódła są ozmieszczone w sposób egulany). W pzyjętym do analizy poblemu modelu systemowo liniowym sygnał dźwiękowy s (t) niosący pzekaz słowny, jest dostaczany do N głośników umieszczonych w punktach x = ( ξ, η, ζ ) x = x, y, z, dociea fala i i i i. Do słuchacza znajdującego się w punkcie obsewacji ( ) dźwiękowa będąca supepozycją fal pochodzących z indywidualnych głośników (ys..4). Dla uposzczenia pominięto kieunkowość głośników, pzyjmując, że mają one własność źódeł punktowych. Dodatkowo założono, że wszystkie kanały akustyczne, włączając głośniki, mają taką samą płaską chaakteystykę w całym pzenoszonym paśmie częstotliwości. Do analizy sygnałów w polu apetu wykozystano efektywną metodę pzestzenno-czasowych odpowiedzi impulsowych [5] [6]. Pzy tym podejściu w każdym punkcie nagłaśnianej pzestzeni, N-głośnikowy system jest schaakteyzowany pzy pomocy funkcji odpowiedzi impulsowej ( x, t), któa niesie w sobie pełną infomację o własnościach tansmisyjnych systemu h Ng złożonego z kaskady dwóch elementów: głośników jako zespołu źódeł geneujących falę dźwiękową oaz pzestzeni pzenoszącej falę jako kanału komunikacyjnego, zaówno w stanach pzejściowych (tansienty), jak i w stanach ustalonych. Funkcja pzenoszenia systemu ( x, ω), będąc tansfomatą Fouiea odpowiedzi impulsowej, chaakteyzuje jego własności bezpośednio w stanach ustalonych. Własności tansmisyjne swobodnej pzestzeni tójwymiaowej opisać można funkcją odpowiedzi impulsowej h(, t) o symetii sfeycznej. Chaakteyzuje ona układ: źódło w punkcie x = ( ξ, η, ζ ) x = x, y, z, znajdującego się w odległości od źódła, i i i i w sposób następujący: punkt odsłuchu ( ) H Ng h(, t) = δ ( t / c) (.8) gdzie: c [m/s] pędkość popagacji fali, = m odległość jednostkowa od źódła, oaz [m] - odległość punktu odsłuchu od źódła wynosząca: [( x ξ ) + ( y η ) + ( ζ ) ] = z (.9)
s (t) s y( x gi( x i, t), t) x ( x, y, z) system pomiaowy x ( ξ, η, ζ ) i i i i s( t) S( ω) h H gi gi ( x ( x i i, t), ω) sgi( xi, t) S ( x, ω) gi i hn ( x, t) H ( x, ω) N y( x, t) Y( x, ω) Rysunek.4 Schemat wyidealizowanego systemu nagłośnienia wieloźódłowego (a) i jego model systemowo-liniowy (b) [6]. Jeśli pominąć tłumienie, sama pzestzeń jest częstotliwościowo wszechpzepustowa. O filtującym wpływie samego kanału akustycznego decyduje dopieo ozmieszczenie źódeł w pzestzeni, w stosunku do miejsca odsłuchu. W systemie N-źódłowym całkowita odpowiedź impulsowa ( x, t) zmiezona w punkcie odsłuchu, ma postać: h N N hn(x,t) = h(, i i t) i= (.) gdzie i - odległość i-tego głośnika od punktu odsłuchu ówna: i [( x ξ ) + ( y η ) + ( z ζ ) ] = (.) i i i W systemie nagłośnieniowym, dodatkowym czynnikiem filtującym są odpowiedzi czasowo-częstotliwościowe głośników. Właściwości tansmisyjne i-tego głośnika opisane są jego funkcją odpowiedzi impulsowej h gi (t). Głośnik pobudzony sygnałem mowy s (t) staje się źódłem fali, któej pzebieg s gi ( t) jest całką splotową w dziedzinie czasu (oznaczoną symbolem ) sygnału z odpowiedzią głośnika: fomę: s gi ( t) = s(t) h (t) (.) Odpowiedź impulsowa łańcucha komunikacyjnego złożonego z N óżnych głośników ma więc gi h N [ hgi(t) h(, i i ] Ng(x,t) = t) i= (.3) 3
Jeśli założyć, że głośniki są jednakowe, o odpowiedziach hgi ( t) = hg ( t), odpowiedź systemu można zapisać w postaci: h Ng N (x,t) = hg(t) h(,t) i i = hg(t) hn(x,t) i= (.4) Z postaci wzou (.8) wynika, że system z jednym źódłem wpowadza jedynie opóźnienie czasowe, jest częstotliwościowo wszechpzepustowy i nie modyfikuje pzebiegu sygnału w polu. Natomiast wzó (.) opisuje efekty intefeencyjne zależne od geometii źódeł i położenia punktu odsłuchu względem nich. Odpowiadają one za zniekształcenia liniowe sygnału pojawiające się niezależnie od ewentualnych zniekształceń wynikających z nieidealności tou fonicznego i pzetwoników elektoakustycznych...4. Liniowy szyk źódeł dysketnych Szczególnym pzypadkiem układu wieloźódłowego jest szyk liniowy, w któym źódła są ozłożone ównomienie wzdłuż linii postej, a odległości między nimi są niewielkie w stosunku do oddalenia punktu odsłuchu (ys..) [4]. Pzy pobudzeniu ównomienym opisanym funkcją apetuową N ( ) = δ ( ξ ξ ) i= N a ξ (.5) gdzie ξ id, odpowiedź impulsowa w punkcie obsewacji M ( x ), ma postać szeegu N impulsów i = Diaca o hipebolicznie malejącej wielkości i o osnących odstępach czasowych, związanych z odległością punktu obsewacji do kolejnych punktów źódłowych. Odstępy te są w ogólności niejednakowe (ys..5 - góny wiesz): i h N N ( x, t) = N i= δ ( t ti ) i (.6) i i c i = x i + t =, ξ z. gdzie: ( ) Tansfomata Fouiea odpowiadająca tego odzaju funkcji pzenoszenia wyaża się w postaci postej sumy, możliwej do bezpośedniego obliczenia (ys..5 dolny wiesz): H N ( x, ω) = N N i= i exp( jωti ) (.7) 4
Na ysunku.5 można zaobsewować ewolucję własności częstotliwościowych układu pomieniującego w miaę oddalania punktu obsewacji od apetuy. W pobliżu apetuy funkcja pzenoszenia jest nieegulana (ys..5a), w większej odległości staje się egulana i okesowa (jak w stefie dalekiej - ys..5c). Rysunek.5 Odpowiedzi impulsowe h N (,, t) ( ω) ϑ oaz odpowiadające im funkcje pzenoszenia H ϑ w punktach o współzędnych ϑ =6, =.5m (a), m (b) i m (c). Ganica stefy dalekiej F wynosi.5 m dla f =.75 khz (a), m dla f = 3 khz (b) i m f = 5 khz (c) [4]. a b.9.9.8.8.7.7.6.6 (ϑ) D ω.5.4 (ω) D ϑ.5.4.3.3.... -9-45 45 9 ϑ [stopnie] 5 5 f [khz] Rysunek.6 a) Chaakteystyki kieunkowe ω ( ϑ ) pzenoszenia ( ω ) D dla,5 khz (- -) i dla 5 khz ( ) oaz b) funkcje D dla ϑ= ( ), (- -) i 6 ( ) w stefie dalekiej apetuy dysketnej N = 5, ϑ d =,m [4]. W stefie dalekiej, odległości poszczególnych źódeł punktowych do punktu M można uznać, z punktu widzenia czasu popagacji fali, za osnące jednostajnie ( i id sinϑ ), pzyjmując ównocześnie, że związana z tym zmiana wielkości fali jest pomijalna ( i ). Odpowiedź impulsowa pzyjmuje wówczas postać: 5
h N N id sinϑ ϑ δ t (.8) c (,, t) = N i= Jeśli obliczyć tansfomatę Fouiea tej funkcji, pominąć czynnik exp( jωt ) i znomalizować, to otzymuje się kątowo-częstotliwościową funkcję pzenoszenia oaz jej pzekoje (ys..6) dla ustalonej częstotliwości i dla ustalonego kieunku, w postaci: d sinϑ sin Nω c D( ϑ, ω) = (.9) d sinϑ N sin ω c ( NπD sinϑ) ( πd sinϑ) sin D ω ( ϑ) = (.) N sin π sin N ω ω D ϑ ( ω) = (.) π N sin ω ω Rysunki.3 i.6 ilustują podobieństwa i óżnice pól apetu ciągłych i dysketnych. Wato zauważyć, że umowna ganica F = aa = a λ, od któej ozpoczyna się stefa daleka źódła, ośnie waz z częstotliwością pomieniowanej fali. Punkt odbiou może znaleźć się zaówno w stefie bliskiej, jak i dalekiej dla óżnych częstotliwości z pasma sygnału (ys..5)...5. Nieegulany układ źódeł dysketnych Rozposzone układy źódeł są m.in. wykozystywane w systemach ozgłoszeniowych, takich jak dźwiękowe systemy ostzegawcze. Rozmieszczenie źódeł w takich systemach jest często dość pzypadkowe i nieegulane względem punktu odsłuchu (ys..7). W ogólnym pzypadku, dla wieloelementowych układów pomieniujących nie można wyznaczyć analitycznych funkcji opisujących ozkład pola akustycznego i nie jest możliwe opeowanie funkcjami typu chaakteystyki kieunkowe. Punkt odsłuchu znajduje się zwykle w obszaze pomiędzy elementami pomieniującymi i nie istnieje stefa, któej można by pzypisać np. własności stefy dalekiej pola. W całym zakesie częstotliwości sytuacja odpowiada tzw. stefie bliskiej, w któym to obszaze funkcje pzenoszenia są złożone i mocno zóżnicowane w poszczególnych punktach. 6
matyca źódeł 3 x 4 elem. 6 m i dy = 4m N d x = 4m punkt odsłuchu h z = 3 m m Rysunek.7 Geometia nieegulanego układu źódeł: głośniki w suficie, odsłuch w płaszczyźnie 3 m poniżej [7]. Rys..8 pzedstawia odpowiedzi impulsowe ( x, t) i odpowiadające im funkcje pzenoszenia ( x, ω), obliczone dla kolejnych konfiguacji modelu z ys.. - z jednym, H Ng dwoma, czteema i głośnikami, w punkcie odsłuchu. Rysunek.9 pzedstawia moduł funkcji pzenoszenia obliczony dla kolejnych punktów leżących wzdłuż jednej linii płaszczyzny odsłuchu, w stałej odległości od ściany fontowej dla czteech konfiguacji. W każdym pzypadku założono, że głośniki są źódłami punktowymi o płaskiej chaakteystyce częstotliwościowej w zakesie od 5 Hz do 5 khz (zobazowanej na ys..8a waz z odpowiedzią impulsową modelowego głośnika). Na ysunku. pzedstawiono pzykładowe odpowiedzi impulsowe oaz funkcje pzenoszenia wyznaczone w dwóch nieodległych od siebie punktach audytoium z -głośnikowym systemem nagłaśniającym. Badzo nieegulane pzebiegi funkcji pzenoszenia obliczonych tu jako widma DFT odpowiedzi impulsowych, wskazują na silny efekt filtacji o tudnym do śledzenia chaakteze, któemu podlegają tansmitowane sygnały, powodujący zniekształcenie dźwięku w każdym punkcie pzestzeni odsłuchu. Dodatkowo, badzo duże zóżnicowanie kształtu funkcji pzenoszenia, mające miejsce nawet w nieodległych punktach, powoduje, że sygnał docieający do lewego i pawego ucha słuchacza jest znacząco inny, co może zabuzyć pzestzenną pecepcję źódeł dźwięku. h Ng 7
Rysunek.8 Odpowiedź impulsowa i funkcja pzenoszenia symulowanego systemu nagłośnienia w pzykładowym punkcie odsłuchu jak na ys..: a) źódło, b) źódła, c) 4 źódła, d) źódeł; logaytmiczna skala częstotliwości [8]. Dla całego pasma sygnału nadawanego, system pomieniujący powinien posiadać płaską funkcję pzenoszenia. Oznaczałoby to bak filtacji i, w konsekwencji, bak zniekształceń liniowych tansmitowanego sygnału. Otzymane wyniki obliczeniowe wykazują jednak na degadujący wpływ zjawiska intefeencji szeokopasmowej na właściwości tansmisyjne. Wato zauważyć, że kanał akustyczny nie modyfikuje własności systemu z jednym głośnikiem. Natomiast w sytuacji N głośników, odpowiedź impulsowa składa się z N impulsów, któe powodują, że funkcja pzenoszenia jest badzo nieównomiena i w każdym punkcie znacząco inna niż w punkcie sąsiednim. Docieający do słuchacza sygnał y( x, t) jest splotem sygnału pobudzającego z odpowiedzią systemu: x,t) = s( t) h ( x, t) (.) y( Ng 8
Rysunek.9. Moduł funkcji pzenoszenia symulowanego systemu nagłośnienia w punktach odsłuchu wzdłuż linii x = 8.7 m: a) źódło, b) źódła, c) 4 źódła, d) źódeł; liniowa skala częstotliwości [6]. Rysunek.. Odpowiedź impulsowa i funkcja pzenoszenia w sąsiednich punktach systemu z ys..7, odległych o.m [7]. 9
.3. Podsumowanie Podstawą pomieniowania kieunkowego jest intefeencja fal w polu akustycznym. Gdy nie ma waunków do jej powstawania nie ma sposobu, by fale pomieniować kieunkowo. Idealne intefeencje mogą zachodzić tylko dla fal okesowych - óżniących się od siebie tyko fazą. Im badziej złożone (np. szeokopasmowe) sygnały, tym badziej złożony mechanizm intefeencji i mniej wyaźne ich efekty. W skajnym wypadku sygnałów nieskoelowanych - o chaakteze idealnego, białego (o nieskończonym paśmie) szumu, intefeencje są doskonale pzypadkowe i nie może być efektów kieunkowych. Jak pokazano powyżej oaz w [4] dla sygnału szeokopasmowego nie da się zdefiniować chaakteystyki kieunkowej, gdyż jej kształt zależy silnie od częstotliwości. Można natomiast okeślić w sposób jednoznaczny, dla wybanego kieunku, pasmo pzenoszenia układu akustycznego. Pzy zastosowaniu kyteium Rayleigha pasmo to wynosi od zea do ω /, gdzie ω odpowiada częstotliwości, dla któej funkcja pzenoszenia w badanym kieunku ϑ ma piewsze zeo. Wyznaczając odpowiedzi impulsowych takich układów można okeślić natomiast ich tzw. uogólnione funkcje pzenoszenia, któych odpowiednie pzekoje mają w stefie dalekiej sens: bądź chaakteystyki kieunkowej, dla ustalonej długości fali, bądź częstotliwościowej funkcji pzenoszenia, dla ustalonego kieunku pomieniowania. 3
3. BADANIE POLA AKUSTYCZNEGO Analiza wpływu zjawiska intefeencji szeokopasmowej na zabuzenia pocesu pzenoszenia sygnałów dźwiękowych wymaga pzyjęcia odpowiedniej metodyki badania pola akustycznego. Wykozystanie metody odpowiedzi impulsowej pozwala na kompleksowy opis chaakteu zniekształceń powstających w obszaze odsłuchu. Do uzyskania odpowiedzi impulsowych wykozystano metodę koelacyjną z zastosowaniem sygnałów MLS, zalecaną pzez standady ISO dla akustyki pomieszczeń [9] []. Pomiay odpowiedzi impulsowych pzepowadzono dla systemu nagłośnienia w sali audytoyjnej. 3.. Metoda koelacyjna pomiau odpowiedzi impulsowej W koelacyjnej metodzie pomiau odpowiedzi impulsowych wykozystuje się specjalne własności szeokopasmowych sygnałów o wąskiej, zbliżonej do impulsu Diaca, funkcji autokoelacji. Gęstość widmowa mocy takiego sygnału testującego jest stała w całym paśmie częstotliwości. Jeśli na wejście systemu podany zostanie odpowiedni sygnał testujący (np. ciąg MLS), funkcja koelacji skośnej pzebiegu wyjściowego oaz wyjściowego będzie dobą apoksymacją odpowiedzi impulsowej systemu. W pzypadku systemu dysketnego, odpowiedź y[n] na pobudzenie x[n] ma postać: *[]=, -[.]h[.] (3.) 3 gdzie L jest maksymalną liczbą póbek sygnału x i h (kótszy sygnał uzupełniany jest zeami do długości L): Podstawiając (3.) do (3.) otzymujemy: []= 7+, -[.]*[. ] 3 []= 7+, -[.],h[.]-[. 9] 3 :3 =,h[9], -[.]-[. 9] 7+ :3 3 = 7+,h[9] [ 9] :3 =h[] [] (3.) (3.3) 3
Jeśli funkcja autokoelacji [n] sygnału pomiaowego apoksymuje ozkład delty Koneckea, funkcja koelacji [n] apoksymuje odpowiedź impulsową systemu: [n] h[n] (3.4) Sygnałami o wąskiej funkcji autokoelacji oaz stałej gęstości widmowej mocy są: biały szum Gaussowski (AWGN ang. Additive White Gaussian Noise), pseudolosowe pzebiegi szumowe (PRN ang. Pseudoandom Noise) oaz sygnał szeokopasmowy z modulacją częstotliwości, tzw. chip. W pzypadku sygnału AWGN pecyzja pomiau oganiczona jest szumami ośodka oaz szumami własnymi systemu pomiaowego. Z tego względu w pzypadku metody koelacyjnej badziej odpowiednie są, łatwe do ekonstukcji w każdym miejscu poceduy pomiaowej, sygnały geneowane cyfowo: cyfowy sygnał chip oaz bipolane pzebiegi binane. Te ostatnie geneowane są na bazie pseudolosowych sekwencji MLS, znanych jako sekwencje maksymalnej długości [] []. 3... Ciągi maksymalnej długości MLS (ang. Maximum Length Sequence) jest to okesowy ciąg binany geneowany pzez N-stopniowy liniowy ejest pzesuwny ze spzężeniem zwotnym LFSR (ang. Linea Feedback Shift Registe) - pacujący w konfiguacji Galois a lub Fibonacci ego (ys. 3.). Każdy stan takiego ejestu stanowi liniową kombinację stanu popzedniego oaz bitu pobieanego z zadanego wcześniej stanu początkowego. Opeacje liniowe są ealizowane jako funkcje logiczne XOR. Rysunek 3. Rejest pzesuwny w konfiguacji Fibonacciego. Okesowy ciąg bitów powstaje na wyjściu takiego ejestu, któego postać wielomianowa wygląda następująco: gdzie: N N N G( X ) = X + a X + a X + K + a X + (3.5) N a K N - wagi poszczególnych odczepów ejestów, pzyjmują watości lub, X KN - zawatość komóki ejestu, pzyjmuje watości ze zbiou {,}. Długość okesu sekwencji zależy od watości współczynników N a N, natomiast nie jest zależny od stanu początkowego. Jedyny waunek, któy powinien być spełniony to wypełnienie ejestu 3
tak, by nie były to same zea. Wypełnienie to decyduje jedynie o fazie początkowej ciągu. Maksymalna długość ciągu geneowanego pzez ejest o długości N wynosi: L = N (3.6) Sekwencja, któej długość wyznacza powyższe ównanie (3.6) jest nazywana ciągiem maksymalnej długości (MLS). Dla danej długości N ejestu LFSR istnieje co najmniej jedna kombinacja spzężeń zwotnych ejestu, pozwalająca geneować ciągi MLS. W pzypadku niepawidłowego dobou odczepów ejestu, geneowane będą ciągi o kótszym okesie, niekoniecznie posiadające właściwości pseudolosowe. Takie wielomiany opisujące odczepy z ejestu, aby ejest geneował ciągi MLS nazywane są piewotnymi. Oznacza to, że nie można dopowadzić ich do postszej postaci. 3... Pomia koelacyjny odpowiedzi impulsowej za pomocą sekwencji MLS Główna własnością, wykozystywaną w technikach pomiaowych, jest postać funkcji autokoelacji R xx [n] ciągów MLS, niemal idealnie odwzoowująca pojedynczy impuls: gdzie δ [n] - delta Koneckea. Obecność składowej stałej R xx [ n] = δ [ n] (3.7) L + powodowana jest óżną liczbą i w geneowanym ciągu. L + N Ponieważ ( ) jest liczbą niepazystą, stąd liczba wystąpień i óżni się o jeden. Z tego też powodu im dłuższe ciągi są wykozystywane, tym mniejsza jest watość składowej stałej. Podstawiając (3.7) do (3.3), otzymujemy: L L L R xy[ n] = h[ n] h[ k] = h[ n] h[ k] + h[ k] (3.8) L + ) k = L k = L( L + Dugi i tzeci składnik powyższego ównania pzedstawia śednią składową stałą odpowiedzi impulsowej. Jak wiadomo systemy elektoakustyczne nie pzenoszą tej składowej, dlatego może być zaniedbana. Po uposzeniu otzymujemy zatem: k = R xx [ n] = h[ n] (3.9) Z ównania (3.9) wynika, że pzekazując na wejście sygnał MLS, funkcja koelacji skośnej sygnału wejściowego i wyjściowego daje w pzybliżeniu odpowiedz impulsową systemu. Ponieważ sygnał nadawany jak i obliczenia są okesowe, otzymana odpowiedz impulsowa jest okesowa (ys 3.), okeślana jako PIR (ang. Peiodic Impulse Response) [3]. 33
Rysunek 3. Pzykładowy fagment okesowej odpowiedzi impulsowej (PIR) MLS zędu 7 o długości 37 póbek, powtózona 4 azy. Ciągi MLS zazwyczaj geneowane są ekusywnie z wykozystaniem ejestu pzesuwnego. Metoda ta, jak już wcześniej wspomniano, wykozystywana jest ównież w niniejszej pacy. W wyniku działania takiego ejestu otzymuje się ciągi watości binanych złożonych z i. Na potzeby badań pzypoządkowano watość +, natomiast watość - tak, by uzyskane watości ozkładały się symetycznie względem. Poniższy ysunek (ys. 3.3) pzestawia pzykładowy fagment sygnału MLS. Nume póbki watość póbki watość póbki Nume póbki Rysunek 3.3 Pzykładowy fagment bipolanego ciągu MLS. 34
watość póbki Rysunek 3.4 Funkcja autokoelacji ciągu MLS zędu 7. Watość R xx [m] dla pzebiegów losowych lub pseudolosowych powinna być bliska z wyjątkiem R xx[], dla któego osiąga watość N, czyli watość maksymalna. Funkcja autokoelacji pzybiea wiec postać funkcji delty Koneckea, co można zaobsewować na ys. 3.4. Ideę koelacyjnego pomiau odpowiedzi impulsowych metodą MLS pzedstawiono na ys. 3.5. Dysketny sygnał pomiaowy x[n], któym jest wzmocniona peiodyczna sekwencja MLS, po konwesji cyfowo-analogowej, podawany jest na wejście elektoakustycznego pzetwonika nadawczego. Sekwencja MLS powinna być powtózona co najmniej dwukotnie. W paktyce stosuje się większą liczbę powtózeń sekwencji MLS, w wyniku czego otzymany zostaje ciąg estymat odpowiedzi impulsowej []. x[n] Rysunek 3.5 Schemat układu do pomiau odpowiedzi impulsowych metodą koelacyjną MLS []. Sygnał y(t) z pzetwonika odbioczego, poddawany jest konwesji analogowo-cyfowej i waz z oyginalną sekwencją pomiaową x[n], pzetwazany jest pzez algoytm szybkiej tansfomaty Hadamada (FHT), któy ealizuje cykliczny algoytm obliczania funkcji koelacji skośnej. Wynikowy ciąg liczb epezentuje dysketną odpowiedź impulsową systemu liniowego, złożonego z pzetwonika nadawczego (np. głośnika), medium popagacyjnego (pomieszczenie) oaz pzetwonika odbioczego (mikofon akustyczny). 35
Długość sekwencji oaz częstotliwość póbkowania konwetea cyfowo-analogowego deteminują czas twania sygnału MLS. Zaletą długiego czasu twania sekwencji MLS jest większa ozdzielczość funkcji koelacji skośnej, wadą natomiast jest większy koszt pzetwazania sygnału. Jak wykazano w [4] istnieje podobieństwo pemutacyjne między maciezą sekwencji MLS a maciezą Hadamada. Funkcja koelacji wzajemnej może być obliczana z wykozystaniem szybkiej tansfomaty Walsha-Hadamada, opatej na algoytmie motylkowym, dzięki czemu złożoność obliczeniowa opeacji ozplotu sekwencji pomiaowej x[n] oaz odpowiedzi impulsowej h[n] zostaje istotnie zedukowana. 3.. Pomiay koelacyjne odpowiedzi impulsowych zeczywistych wieloźódłowych systemów szeokopasmowych W celu weyfikacji teoetycznych założeń dotyczących istotności wpływu intefeencji szeokopasmowej, pzepowadzono pomiay pala akustycznego dla zeczywistych układów stosowanych do pzekazu sygnałów mowy. Aby wyekstahować efekt pzeliczalnej supepozycji sygnałów źódłowych, zastosowano technikę sumowania odpowiedzi impulsowych, wyznaczonych osobno dla każdego ze źódeł. Technika ta pozwala uniezależnić wyniki pomiaów od zakłóceń wywołanych sygnałami pochodzącymi z odbić. Badano dwa systemy nagłośnienia. Piewszy z nich to system zainstalowany w sali audytoyjnej, składający się z głośników podwieszonych w suficie, dugi to szyk źódeł złożony z sześciu głośników ozmieszczonych wzdłuż jednej linii. W obu pzypadkach wszystkie źódła wchodzące w skład każdego z systemów były niemal identyczne tzn. posiadały badzo zbliżone częstotliwościowe funkcje pzenoszenia. Na ysunkach 3.6 i 3.7 pokazano funkcje pzenoszenia oaz odpowiedzi impulsowe sześciu źódeł składowych szyku głośników, pomiezonych w osi głównej w odległości m. Pomiay odpowiedzi impulsowych systemu nagłośnienia wykonano z użyciem komputea osobistego. Okesowy sygnał MLS zędu 7, geneowany w kacie dźwiękowej z częstotliwością 44, khz, podawano, w miejsce sygnału z mikofonu mówcy, do wzmacniaczy zasilających zespół głośników. Dźwięk tansmitowany pzez pomieszczenie był ejestowany mikofonem pomiaowym w wybanych punktach odsłuchu, wzmacniany, pzetwazany w pzetwoniku analogowo cyfowym na ciąg cyfowy i podawany do koelatoa. Funkcja koskoelacji ciągu wejściowego i sygnału odbieanego była obliczana z zastosowaniem tzw. szybkiego algoytmu pzekształcenia Hadamada FHT (ang. Fast Hadamad Tansfom) []. Ciąg czasowy na wyjściu koelatoa odpowiada odpowiedzi impulsowej systemu składającego się z tou elektoakustycznego nadawczego i odbioczego (wzmacniacz i głośniki plus mikofon i system pomiaowy z ys. 3.5) oaz N-kotnego kanału akustycznego (pzestzeń między 36
kolejnymi głośnikami i punktem pomiau). Pzetansfomowanie odpowiedzi w dziedzinę częstotliwości pzy pomocy pzekształcenia Fouiea daje funkcję pzenoszenia systemu. a e b f c g czas [ms] Rysunek 3.6 Odpowiedzi impulsowe sześciu zeczywistych źódeł (głośników), pomiezone w osi głównej. [db] a [db] e b f c g częstotliwość [Hz] Rysunek 3.7 Częstotliwościowe funkcje pzenoszenia sześciu zeczywistych źódeł (głośników) pomiezone w osi głównej. Badania systemu nagłośnieniowego sali audytoyjnej pzepowadzono dla 3 punktów pomiaowych, ozmieszczonych ównomienie wśód zędów siedzeń słuchaczy, w obszaze jednej połówki sali (z uwagi na symetię pomieszczenia). Na ysunku 3.8 pzedstawiono pzebiegi czasowe całej (ys. 3.8a) oaz początkowego fagmentu (ys. 3.8b) odpowiedzi impulsowej dla wybanego punktu pomiaowego. Odpowiadające im widma FFT pokazano na ys. 3.9. 37
Według pomiaów wykonanych dalmiezem laseowym, óżnica odległości najbliższego źódła i najdalszego źódła od punktu odsłuchu wyniosła 5.9 m, co pzy założeniu pędkości popagacji fali c=34 m/s odpowiada pzesunięciu czasowemu t=5.3 ms (ys. 3.8b). Początkowy fagment odpowiedzi impulsowej został więc wybany tak aby zawieał udziały od wszystkich źódeł systemu. a) b) czas [s] czas [ms] Rysunek 3.8 Pzebieg czasowy odpowiedzi impulsowej w dugim punkcie pomiaowym P. Na gónym wykesie (a) całkowita odpowiedź, na dolnym (b) początkowy fagment z wyaźnymi impulsami pochodzącymi od najbliższych źódeł. 38
a) b) częstotliwość [Hz] Rysunek 3.9 Widmo częstotliwościowe FFT odpowiedzi impulsowej zmiezonej w dugim punkcie pomiaowym P ; a) całej odpowiedzi; b) początkowego fagmentu zawieającego bezpośednie impulsy od wszystkich źódeł (ok. ms). Bezpośednie badania impulsów pochodzących wyłącznie od źódeł jest możliwe jedynie w waunkach pola swobodnego (np. komoa bezechowa). Waunki takie można stosunkowo łatwo uzyskać dla pomiaów apetu o niewielkich ozmiaach, np. badany pzez autoa szyk źódeł ozłożonych w jednej linii (kolumna głośnikowa). Rzeczywisty pomia systemów nagłośnienia w pomieszczeniach, nawet dla kótkiego pzedziału czasu (np. ok. 3 ms jak na ys. 3.8b), jest zawsze supepozycją impulsów bezpośednich oaz wczesnych odbić od powiezchni oganiczających pomieszczenie, głównie od podłogi. Piewsze odbicie od podłogi może dochodzi do punktu pomiaowego umieszczonego na wysokości.5 m już po ok. 4.5 ms. W celu zbadania wpływu pochodzącego wyłącznie z bezpośedniego oddziaływania źódeł, auto zastosował syntezę komputeową odpowiedzi impulsowych. Wykonano pomia odpowiedzi impulsowych osobno dla każdego źódła (ys. 3.) oaz pomiezono pecyzyjnie dalmiezem laseowym odległości wszystkich źódeł od poszczególnych punktów pomiaowych. Na podstawie tych danych zsyntetyzowano całkowite odpowiedzi impulsowe, złożone wyłącznie z udziałów pochodzących od źódeł, uniezależniając się w ten sposób od wpływu wszelkich odbić. Założono jednocześnie, że źódła posiadają dookólne chaakteystyki kieunkowe w całym badanym widmie. W tabeli 3. znajduje się zestawienie odległości punktów pomiaowych od poszczególnych źódeł. Na ysunku 3. zapezentowano pzykładową zsyntetyzowaną odpowiedź impulsową dla wybanego punktu pomiaowego. częstotliwość [Hz] 39
a) Odpowiedź impulsowa.45.9.36.8.7.7 3.7 3.63 4.8 4.53 [ms] [db] b) Funkcja pzenoszenia pojedynczego źódła [Hz] Rysunek 3. Odpowiedź impulsowa oaz funkcja pzenoszenia pojedynczego źódła zeczywistego na podstawie pomiaów w audytoium metodą koelacyjną. Tabela 3. Odległości punktów pomiaowych od poszczególnych źódeł. N ź. P [m] P [m] P3 [m] P4 [m] P5 [m] P6 [m] P7 [m] P8 [m] P9 [m] P[m] P[m] P[m] P3[m],585 4,36 8,86 9,349 5,638 3,87 4,639 7,775,4,55 6, 5,89 3,7 4,6 3,746 8,9 8,53 4,,868 4,77 7,63,46 9,44 4,447 4,988 3,68 3 6, 4,84 7,883 8,36 3,75 3,78 5,969 8,7,77 8,777 3,57 5,99 5,367 4 4,479 3,69 6,536 6,949 5,39 4,78,76 5,54 8,9 8,43 6,3 4,9,43 5 5,37,743 5,64 6,83 3,88 3,85 3,76 5,83 8,566 7,7 4,594 3,58 3,6 6 7,38 4,78 5,659 6,9 3,45 4,434 4,878 6,3 9,568 6,56 3,77 3,78 5,7 7 7,993 5,38 4,65 4,773 7,44 7,45 3,844,636 4,5 6,48 8,6 4,6 5,99 8 8,364 4,794 3,35 3,55 5,835 6,89 4,9,945 5,37 4,835 6,75 3,664 5,437 9 9, 5,63 3,549 3,744 5,48 7,6 5,43 4,755 7,6 4,37 6,7 4,46 6,99,9 7,93 5,95 4,856 9,45,357 6,683 3,793,84 6,3,38 6,858 8,7,6 7,397 3,739 3,484 8,45 9,64 6,437 3,795 3,84 4,387 9,63 5,94 7,7,558 7,655 3,749 3,558 7,675 9,388 7,478 5, 6,33 3,47 8,54 5,96 8,64 4
a) Syntetyczna odpowiedź impulsowa źódeł 4.5 9 3.6 8..7 7. 3.7 36.3 [ms] [db] b) Funkcja pzenoszenia syntetycznego układu źódeł Rysunek 3. Zsyntetyzowana odpowiedź impulsową oaz funkcja pzenoszenia odpowiadająca paametom punktu pomiaowego P (tabela 3.). [Hz] Rysunek 3. pzedstawia pzykładowe wyniki pomiaów pzepowadzonych w audytoium w odniesieniu do pojedynczego głośnika (pomia wykonany z odległości m) oaz całości systemu. W piewszym pzypadku można uznać, że zaejestowano czystą odpowiedź impulsową głośnika, pzed dotaciem do punktu pomiaowego sygnałów z pozostałych głośników oaz sygnałów pogłosowych (odbić od powiezchni oganiczających i od wyposażenia - pulpitów, siedzeń). W dugim pzypadku mieliśmy do czynienia z pełną odpowiedzią systemu (sygnały z głośników). Rysunek 3. Odpowiedź impulsowa oaz chaakteystyka częstotliwościowa (moduł funkcji pzenoszenia) w skali logaytmicznej: a) jednego z głośników systemu nagłośnienia sali audytoyjnej oaz b) całego systemu. 4
3.3. Aplikacja do badania zniekształceń w układach wieloźódłowych Auto zastosował analizę pedykcyjną LPC zędu, któa umożliwia ekstakcję do 5 fomantów sygnałów głosowych [5], któych częstotliwość póbkowania wynosi 8 khz. Dla oceny zniekształceń, wyznaczano obwiednię widma sygnału testowanego (tzw. pseudowidmo LPC) dla óżnych fonemów mowy polskiej, po poddaniu ich splotowi z odpowiedziami impulsowymi systemu nagłośnienia, zaówno obliczonymi dla konfiguacji modelowych, jak i pomiezonymi w zeczywistym audytoium. Rysunek 3.3 Widok panelu głównego aplikacji z wczytanym pzykładowym układem źódeł oaz testowanym sygnałem mowy (głoska a ). W celu pzepowadzenia wielopaametowych analiz została utwozona aplikacja (ys. 3.3 i 3.4) symulująca wieloźódłowe układy akustyczne któa umożliwia: Wczytywanie pliku z sygnałem dźwiękowym w fomacie WAV (np. głoski). Wczytywanie zeczywistych odpowiedzi impulsowych pochodzących z pomiaów metodą koelacyjną MLS. Wpowadzenie dowolnego układu źódeł popzez wpowadzenie wektoów ich położenia oaz następujących paametów: o ozmia badanego obszau (domyślnie m x 5m), o liczba źódeł wzdłuż osi X i Y (domyślnie x 5), o o o o początkowy ozstaw źódeł wzdłuż osi X i Y (domyślnie m, m), kok ozsuwania/pzybliżania źódeł wzdłuż osi X i Y (domyślnie m, m), śodek apetuy (x, y) (domyślnie 5m, 38m), początkowe położenia punktu odsłuchu (x, y, z) (domyślnie 5m, m, m), 4
o kok pzesuwania punktu odsłuchu wzdłuż osi X i Y (domyślnie.m, m). Wyznaczanie teoetycznych odpowiedzi impulsowych: o na podstawie zależności geometycznych położenia punktu odsłuchu i źódeł wyznaczana jest teoetyczna odpowiedź impulsowa (impulsy o wysokości względnej /R), o po wczytaniu zeczywistej odpowiedzi impulsowej wykonywany jest splot z wyliczoną odpowiedzią teoetyczną. Dla punktu odsłuchu wyznaczany jest sygnał zniekształcony popzez splot sygnału oyginalnego, wczytanego z pliku zewnętznego, z wyznaczoną odpowiedzią impulsową. o Zmiana położenia punktu odsłuchu (z zadanym kokiem) wzdłuż osi X oaz Y (wyświetlane są współzędne punktu odsłuchu oaz kąty odchylenia od osi X oaz Y). Zmiana ozstawu źódeł wzdłuż osi X oaz Y (z zadanym kokiem). o Dla każdego punktu odsłuchu wyświetlany jest pzebieg czasowy odpowiedzi impulsowej z możliwością wyłączania/włączania wczytanej zeczywistą odpowiedzi impulsowej (po wyłączeniu obliczenia dokonywane są dla odpowiedzi teoetycznej). Dla każdego punktu odsłuchu wyznaczane są współczynniki LPC (domyślnie dla zędu pedykcji p=, możliwość zmiany zędu pedykcji) według następującej poceduy. o Współczynniki LPC wyliczane są dla fagmentów sygnałów (oyginalnego oaz zniekształconego) o długości l=4 póbek (domyślnie dla sygnałów póbkowanych z częstotliwością 8 khz). o Możliwość zmiany długości fagmentu sygnału, dla któego wyznaczane są współczynniki LPC. o Początek analizowanej amki sygnału domyślnie ustawiony na połowę czasu twania całego sygnału (możliwość zmiany położenia początkowego amki). W każdym punkcie odsłuchu oaz dla wybanego fagmentu sygnału możliwe jest wyświetlenie pzebiegów czasowych sygnału oyginalnego i zniekształconego (z zaznaczonym położeniem analizowanego fagmentu). Dla każdego punktu odsłuchu wyświetlane jest pseudowidmo LPC dla sygnału oyginalnego i zniekształconego (widma są skalowane względem oyginalnego w opaciu o stosunek enegii sygnału oyginalnego i zniekształconego). Dla każdego punktu odsłuchu możliwe jest wyświetlenie widma FFT oaz pseudowidma LPC na wspólnym wykesie (pseudowidma LPC są skalowane względem widma FFT w opaciu o watość waiancji błędu pedykcji oaz długości amki analizowanego sygnału). 43
Dla każdego punktu odsłuchu możliwe jest odsłuchanie: o sygnału oyginalnego, o sygnału zniekształconego, o sygnału oyginalnego po pzejściu pzez kode LPC; schemat z ys. 3.7, o sygnału zniekształconego po pzejściu pzez dekode LPC; schemat z ys. 3.8. Dla każdego punktu odsłuchu możliwe jest wyekspotowanie do pliku odpowiedzi impulsowej oaz pzebiegów widma FFT oaz pseudowidma LPC. o Dla każdego punktu odsłuchu wyznaczany jest dugi punkt odsłuchu, któy znajduje się w odległości. m od piewszego wzdłuż osi X, będący odpowiednikiem dugiego ucha słuchacza. Istnieje możliwość wyświetlenia wszystkich opisanych powyżej chaakteystyk dla obu punktów jedocześnie, co pozwala zobazować ozbieżności w sygnale dochodzącym do obu uszu ównocześnie. Dla wszystkich wykesów pzebiegów odpowiedzi impulsowych oaz pseudowidm LPC aplikacja umożliwia skalowanie na osiach zędnych i odciętych oaz pzesuwanie pzebiegów wzdłuż osi odciętych. Aplikacja wylicza, zapisuje w pliku oaz pezentuje miay odległości LLR (Log- Likelihood Ratio), IS (Itakua-Saito), CD (Cepstum Distance), melcd (MFCC Distance) dla każdego punktu pomiaowego. Miay odległości pezentowane są w fomie liczbowej dla poszczególnych punktów oaz w postaci map zmienności dla całego badanego obszau (pzykładowe mapy zamieszczono w ozdziale 6 oaz Dodatkach) Rysunek 3.4 Widok panelu aplikacji z włączonym podglądem pzebiegów sygnałów oyginalnego i zniekształconego oaz wczytaną zeczywistą odpowiedzią impulsową. 44
Analizując zeczywiste układy źódeł należy mieć na uwadze ich wpływ na zniekształcenia chaakteystyk częstotliwościowych pzenoszonych sygnałów. Zniekształcenia te, są niezależne od ozkładu pzestzennego źódeł, będącego pzedmiotem niniejszych badań, a wynikają jedynie z jakości poszczególnych głośników. Na ysunkach 3.5 i 3.6 pzedstawiono zmianę chaakteystyki częstotliwościowej pzykładowego fonemu po wyemitowaniu pzez zeczywiste źódło. Głośnik stanowiący w istocie filt gónopzepustowy wpływa istotnie na zmianę poziomu piewszego fomantu. [db] FFT LPC - - -3-4 -5-6 -7-8 -9-5 5 5 3 35 4 Rysunek 3.5 Chaakteystyki częstotliwościowe dla głoski e wyemitowanej pzez źódło idealne. [db] - - -3-4 -5-6 -7-8 widmo FFT odp. imp. źódła -9 pseudowidmo LPC widmo FFT sygnału - 5 5 5 3 35 4 Rysunek 3.6 Chaakteystyki częstotliwościowe dla głoski e (tej samej co na ys.3.5), wyemitowanej pzez źódło zeczywiste. [Hz] [Hz] 45
3.4. Kodek LPC Do aplikacji symulującej wieloźódłowe układy akustyczne wpowadzono ównież możliwość badania wpływu ozkładu źódeł na jakości pzekazu pzy zastosowaniu uposzczonego kodeka standadu LPC. Założono, że: zmiany współczynników LPC wpłyną istotnie na poziom zniekształcenia sygnału syntezowanego w dekodeze, zniekształcenia wywołane intefeencją można pzyównać do błędów w tansmisji współczynników LPC, co w efekcie pzełoży się na zmianę chaakteystyki taktu głosowego. Zaimplementowany w symulatoze kodek z powodzeniem może zostać wykozystany w subiektywnych testach jakości pzekazu mowy, na pzykład jako uzupełnienie aplikacji do testów intenetowych opisanych w 6. [6]. Działanie uposzczonego kodea i dekodea LPC, któego schemat pokazano na ysunkach 3.7 i 3.8 opato na następujących założeniach: sygnał wejściowy póbkowany jest z częstotliwością f p = 8 Hz, sygnał analizowany jest w oknie czasowym 3 ms (4 póbek), wymnażanym z oknem Hamminga o długości 4 póbek, pzesuwanym co póbek, dla każdego okna wyznaczane są paamety, pzesyłane do dekodea: współczynniki filta taktu głosowego, wzmocnienie oaz sygnał pobudzający, jako pobudzenie filta syntezy wykozystano tzw. sygnał esztkowy, wyznaczony za pomocą filta odwotnego do filta taktu głosowego (tzw. filt esztkowy); sygnał ten ma mniejszą dynamikę niż sygnał oyginalny, na wejściu kodea znajduje się filt peemfazy, służący do kompensacji tłumienia wyższych częstotliwości, gdyż w zeczywistym takcie głosowym, wielokotności tonu podstawowego są tłumione z nachyleniem ok. db/oktawę pzez ezonatoy układu oddechowego, zastosowano filt deemfazy, któy jest filtem odwotnym do filta peemfazy. 46
Rysunek 3.7 Schemat kodea LPC. Rysunek 3.8 Schemat dekodea LPC. 3.5. Podsumowanie Badania metodą odpowiedzi impulsowych pola akustycznego ufomowanego w układach wieloźódłowych wykazały, iż funkcja pzenoszenia takich systemów jest istotnie óżna w óżnych punktach miezonego audytoium. W wyniki pzepowadzonych pomiaów uzyskano bazę zeczywistych odpowiedzi impulsowych odpowiadających punktom odsłuchu ozłożonym w całym obszaze pola. Dane te zostały wykozystane do badań symulacyjnych óżnoodnych układów akustycznych opisanych w ozdziale 6 niniejszej pacy. 47
4. WPŁYW INTERFERENCJI SZEROKOPASMOWEJ NA PARAMETRY SYGNAŁU MOWY Podstawową ideą związaną z badaniami jakości mowy jest założenie, iż sygnał mowy można opisać za pomocą zestawu cech umożliwiających ich poównanie. W wyniku paametyzacji otzymujemy wskaźniki, bądź wektoy wskaźników, któe w obiektywny sposób opisują cechy sygnałów mowy. W wielu pzypadkach możliwe jest bezpośednie poównanie tych wektoów, dla sygnałów oyginalnych oaz zniekształconych, a wielkość óżnicy pomiędzy watościami paametów okeśla stopień zniekształcenia. Dla obiektów należących do klasy sygnałów akustycznych wyóżnia się dwa podstawowe kategoie paametów: czasowe i widmowe (częstotliwościowe). Dla każdej z tych kategoii zdefiniowanych zostało wiele paametów opisujących cechy sygnałów akustycznych [7]. W kontekście badań nad jakością i zozumiałością pzekazu głosowego szczególnie pzydatne okazują się chaakteystyczne paamety widmowe fomanty, wyznaczane w opaciu o pedykcję liniową. 4.. Model wytwazania sygnału mowy fomanty Poces powstawania sygnału mowy można pzedstawić za pomocą modelu składającego się ze źódła (sygnał pobudzający) oaz filtu fomującego chaakteystykę amplitudowoczęstotliwościową sygnału pobudzającego, w wyniku czego powstają chaakteystyczne dla danej głoski lokalne maksima (fomanty), decydujące o jej ozpoznawalności. 4... Geneowanie sygnału mowy Mowa powstaje w pocesie atykulacji czyli wspólnej pacy wszystkich naządów mowy, w wyniku któej wytwozone zostają dźwięki emitowane następnie w postaci sygnału mowy. Do podstawowych naządów mowy zaliczane są m.in.: tchawica, ktań, więzadła głosowe oaz elementy taktu głosowego: jama gadłowa, jama ustna, jama nosowa, język i usta (ys. 4.). Rysunek 4. Budowa naządu głosowego w pzekoju. 48
Jednym z podstawowych oganów uczestniczących w wytwazaniu dźwięków mowy jest ktań, będąca końcowym fagmentem tchawicy. Ktań, któa jest odcinkiem dogi oddechowej, składa się z sześciu chząstek połączonych z kością gnykową, tchawicą i między sobą więzadłami. Cześć jednego z więzadeł, łącząca chząstkę taczowatą z pieścieniową, twozy tzw. więzadła głosowe, któe oganiczają szpaę głośni. Mięśnie wewnętzne ktani ozszezają i zwężają tą szpaę (ys. 4.) utudniając pzepływ wydychanego powietza, co wpawia więzadła głosowe w dgania. Czynność głosowa jest więc wynikiem dgania więzadeł głosowych zwanych inaczej fałdami głosowymi. Wysokość głosu zależy od długości fałdów głosowych, ich napięcia, częstości dgań i ciśnienia wydechowego powietza. Bawa głosu uzależniona jest od budowy gadła, jamy nosowej i częściowo zatok pzynosowych. Rysunek 4. Pzekój popzeczny głośni: (a) stan milczenia, (b) stan mówienia, (c) stan szeptania. Człowiek może sam świadomie egulować uchy ktani w celu wygeneowania sygnału mowy. Ruchy te dodatkowo wiążą się bezpośednio z uchami żuchwy, języka i podniebienia miękkiego. Właściwa paca mięśni ktani oaz języka, żuchwy itd. są niezbędnymi czynnikami waunkującymi zozumiałość mowy. Każde ciało dgające posiada własną częstotliwość ezonansową dgań, tzw. ton własny. Ton ktaniowy wzmacniany jest ezonansowo w wnękach powietznych ktani, kanału nosowego i jamy ustnej. Głos bez tego ezonansu jest matowy i głuchy. Ton podstawowy (ktaniowy) jest badzo ważnym paametem chaakteyzującym pzebieg sygnału akustycznego mowy. Częstotliwość tonu ktaniowego można wyznaczyć popzez zastosowanie odpowiedniej filtacji dolnopzepustowej. Ton podstawowy nazywany fomantem zeowym F występuje tylko dla głosek dźwięcznych i jest chaakteystyczny dla każdego mówcy oaz odzaju głosu (tabela 4.). 49
Tablica 4. Zakesy częstotliwości dla tonu podstawowego (ktaniowego). Rodzaj głosu Częstotliwość F bas 8-3 Hz bayton -4 Hz teno -48 Hz alt 6-64 Hz mezzosopan -8 Hz sopan 4-96 Hz Atykulacja głosek bezdźwięcznych wymaga pobudzenia szumowego, któe jest efektem szumu tubulencyjnego powstającego w wyniku pzepływu laminanego stumienia wydychanego powietza pzez wąską szczelinę w jamie ustnej (ys. 4.3). Atykulacja spółgłosek zwatych jest efektem fali udaowej powstającej w wyniku nagłego otwozeniu dogi pzepływu powietza Stumień powietza zawiowania powietza szczelina Rysunek 4.3 Model wytwazania pobudzenia szumowego. 4... Poces powstawania sygnału mowy Poces powstawanie sygnału mowy można pzedstawić za pomocą modelu źódło-filt, wykozystywanego w kodowaniu, syntezie oaz ozpoznawaniu mowy. Model ten składa się z dwóch elementów źódła i filtu. Źódło modeluje sygnał pobudzający: dźwięczny lub bezdźwięczny (szumowy) w zależności od odzaju wypowiadanej głoski. Chaakteystyka amplitudowo-częstotliwościowa taktu głosowego (jama ustna, nosowa, język i usta) fomuje sygnał pobudzający, w wyniku czego powstają chaakteystyczne dla danej głoski lokalne maksima (fomanty) decydujące o ozpoznawalności głoski (ys. 4.5). Zmiana ułożenia poszczególnych elementów taktu głosowego zmienia paamety filtu, co pzekłada się na zmianę poziomów oaz położenie fomantów, będących chaakteystycznymi skupiskami enegii wokół częstotliwości ezonansowych taktu. Wyznaczając chaakteystykę częstotliwościową filta taktu głosowego zgodnie z zależnościami wpowadzonymi w ozdziale 4.3 można okeślić lokalizacje fomantów. Schemat obazujący model wytwazania mowy został pokazany na ys. 4.4. 5
Rysunek 4.4 Model wytwazania sygnału mowy typu źódło-filt. Rozłożenie fomantów na osi częstotliwości oaz ich względne poziomy są decydujące dla pawidłowego ozpoznawania głosek (ys. 4.7). Z uwagi na te własności są często wykozystywane w pocesach automatycznego ozpoznawaniu mowy (ARM). Ludzki słuch jest badzo czuły na zmiany fomantów, w związku z czym nawet niewielkie odchylenia częstotliwości fomatowych mogą powodować dużą zmianę jakościową w odbioze i zozumiałości głosek. W skajnych pzypadkach zniekształceń liniowych powodujących zmiany poziomów i położenia fomantów może dochodzić do pzesunięcia fomantów do obszaów chaakteystycznych dla innych głosek. Rysunek 4.5 Obwiednia widma częstotliwościowego samogłoski y z zaznaczonymi fomantami i tonem podstawowym. 5
Tabela 4. Pzykładowe watości paametów fomantowych [8]. Fonem Częstotliwości [Hz] F F F3 F4 Poziomy względne [db] i 75 35 4-5 -5-7 e 38 6 3 36 6 a 78 5 7 35-7 -5-5 y 4 55 4 33 - - -3 o 4 73 3 3-3 -3-35 u 7 65 35-3 -4-5 w 6 7 9 4-9 - - sz - 3 9 36 - -9-8 h 5 7 5 4 - - -7 z - 75 95 43 - -6 - W pzypadku samogłosek najistotniejsze w pocesie ich ozpoznawania są dwa piewsze fomanty: F i F (tabela 4.). Wykes pzedstawiający mapę obszaów względnego położenia dwóch piewszych fomantów, zwany tójkątem samogłosek, pzedstawiono na ys. 4.6. Zakesy częstotliwości, w któych zazwyczaj powstaje piewszy bądź dugi fomant dla óżnych głosek mogą się pokywać się (np. F=8Hz może występować dla głosek i, y oaz u ). W pzypadku zniekształceń powodujących pzesunięcia częstotliwości fomantowych może więc dojść do sytuacji zmiany bzmienia jednej głoski w dugą. Rysunek 4.6 Mapa ozłożenia fomantów F i F dla samogłosek [9]. 5
a e i o u y częstotliwość [Hz] Rysunek 4.7 Pzykładowe położenie fomantów dla samogłosek, mowa męska. Jak widać dla każdego fonemu, stan taktu głosowy mówcy daje się opisać zbioem paametów, któe znajdują odzwieciedlenie w występowaniu fomantów, czyli chaakteystycznych maksimów widma chwilowego sygnału. Położenie oaz poziom fomantów występujących w fonemach wpływa na możliwości ich ozóżnienia pzez słuchacza. Oczywiście paamety fomantowe nie opisują w pełni sygnału mowy, a są jedynie jego szczególną cechą pozwalającą na zobazowanie niekozystnych zjawisk zachodzących w złożonych układach akustycznych. Jak to wykazano w niniejszej pacy zniekształcenia sygnału wpowadzane pzez kanał tansmisyjny złożony z wielu szeokopasmowych źódeł badzo silnie wpływają na zmianę poziomów i położenie poszczególnych fomantów. Efekt ten pozwala więc na skuteczne wykozystanie zmian paametów fomantowych do opisu zjawisk zachodzących w polu takich układów. 4.. Paametyzacja sygnału mowy Poces paametyzacji dowolnego obiektu polega na wyekstahowaniu z niego wektoa cech, któy w fomalny sposób opisuje ten obiekt. Ekstakcja taka powinna chaakteyzować się powtazalnością być deteministyczna i posiadać fomalizm matematyczny. Dzięki temu zamiast abstakcyjnego opisu opatego na subiektywnych ważeniach obsewatoa obiektu, uzyskuje on opis pozwalający na obiektywne poównywanie jego cech w kategoiach liczbowych. Jest to szczególnie ważne w sytuacji poównywaniu cech obiektu z wykozystaniem obliczeń komputeowych. Dzięki uściślonemu w wyniku paametyzacji fomalnemu opisowi obiektów możliwe jest dokonanie klasyfikacji tych obiektów oaz obiektywne oszacowanie óżnic pomiędzy nimi. 53
4... Paametyzacja w dziedzinie czasu Podstawowym opisem sygnałów akustycznych jest ich pezentacja w dziedzinie czasu. Odpowiada ona zmianom poziomu ciśnienia akustycznego w czasie, któą opisać można za pomocą funkcji zeczywistej x(t). Bioąc pod uwagę model wytwazania sygnału mowy, można ją pzedstawić jako splot źódłowego pobudzenia x(t) i odpowiedzi impulsowej taktu głosowego h(t). W pzypadku głosek dźwięcznych (wszystkie samogłoski oaz np. z, g, w ) pobudzeniem jest ton ktaniowy powstający w wyniku dgań stun głosowych, nazywany też fomantem zeowym F. Dla głosek bezdźwięcznych pobudzenie ma chaakte szumowy. Może to być szum tubulencyjny powstający w wyniku swobodnego wydmuchiwania stumienia powietza (np. głoski s, f, sz ) lub fala udaowa powstająca po nagłym otwozeniu dogi pzepływu powietza (np. głoski t, p, c ). Piewotny opis sygnału jako pzebiegu czasowego może zostać poddany pzekształceniom matematycznym, w celu uzyskania zestawu paametów. Na potzeby pzetwazania cyfowego sygnał mowy poddawany jest zazwyczaj pocesowi póbkowania (czyli dysketyzacji w dziedzinie czasu) oaz kwantyzacji watości sygnału. Taka epezentacja sygnału wymaga spełnienia twiedzenia Nyquista [5]. Dla sygnału mowy zobazowanego zaówno w ciągłej jak i dysketnej skali czasu można wyznaczyć szeeg paametów mających intepetację fizyczną ważną z punktu widzenia dalszej analizy stopnia zniekształcenia tego sygnału. Obliczenia wykonywane są dla odcinków czasowych okeślonych w pocesie segmentacji sygnału. Do podstawowych paametów czasowych należą: watość śednia sygnału, watość minimalna i maksymalna sygnału, obwiednia amplitudy sygnału, funkcja gęstość pzejść pzez zeo, watość skuteczna sygnału, enegia sygnału, moc śednia sygnału, śodek ciężkości sygnału. 4... Paametyzacja w dziedzinie częstotliwości Z biologicznego punktu widzenia, zaówno poces nadawania sygnału mowy (atykulacja), jak i jego odbió, któe związane są z pocesami mózgowymi, polegają na modyfikowaniu oaz analizie widma sygnału. W pocesie atykulacji następuje chaakteystyczne fomowanie obwiedni widma, natomiast poces słyszenia opiea się na ozdzielaniu składowych częstotliwościowych w sieci neuonowej mózgu. Opis sygnału za pomocą paametów częstotliwościowych daje jednocześnie lepsze ezultaty, niż opis czasowy, w zakesie badań nad odzajem i stopniem zniekształceń. Analiza widmowa pozwala na wyodębnienie składników amplitudowych i fazowych, któe wpływają na fomowanie się pola ciśnienia akustycznego. Daje także możliwość ozóżnienia źódła ktaniowego od elementów modulujących widmo w pocesie atykulacji mowy. 54
Analizy spektalnej dokonuje się na ogół popzez pzekształcenie sygnału z dziedziny czasu na dziedzinę częstotliwości w opaciu o tansfomatę Fouiea. Dla sygnałów cyfowych wykozystywana jest dysketna tansfomata Fouiea DFT. Do podstawowych paametów widmowych należą: widmo amplitudowe sygnału (moduł DFT), funkcja widmowej gęstości mocy PSD (ang. Powe Spectal Density), momenty widmowe (unomowane, centalne) m-tego zędu, gdzie moment unomowany zeowego zędu ma sens mocy sygnału, a moment unomowany piewszego zędu ma sens śodka ciężkości widma (ang. Spectal Centoid), płaskość widmowa SFM (ang. Spectal Flatness Measue) stosunek śedniej geometycznej i aytmetycznej współczynników widma miaa hamoniczności sygnału. Podstawową poceduą wyjściową do ekstakcji cech obiektów akustycznych, takich jak sygnał mowy, jest wyznaczenie kótkoczasowego widma sygnału STFT (ang. Shot-Time Fouie Tansfom). Pozwala ono na pzedstawienie zmienności sygnału mowy w czasie. Analiza taka stanowi kompomis pomiędzy ozdzielczością uzyskiwaną w dziedzinie czasu oaz w dziedzinie częstotliwości. Szeokie okno w dziedzinie czasu daje dużą ozdzielczość w dziedzinie częstotliwości ale kosztem małej ozdzielczości na osi czasu. Analogicznie wąskie okno czasowe daje niską ozdzielczość widmową. Nie jest możliwe uzyskanie wysokiej ozdzielczości jednocześnie na obu osiach. W zastosowaniach pzetwazania cyfowego wykozystuje się kótkoczasową tansfomatę dysketną o postaci: gdzie: STFT( n, k) N = m= γ (m) - okno czasowe obsewacji π j k m N γ ( m) x( n m) e, k =,,,..., N (4.) i wyznacza się ją pzy pomocy algoytmu FFT szybkiej tansfomacji Fouiea [5]. 4..3. Podejście peceptualne W celu lepszego odwzoowania własności mechanizmu słyszenia ucha ludzkiego, chaakteyzującego się nieliniową pecepcją wysokości częstotliwości odbieanego dźwięku, wykozystuje się model peceptualny. Pawo Webbea-Fechnea głosi, że Reakcja układu biologicznego jest popocjonalna do logaytmu pobudzającego go bodźca. W ogólności można stwiedzić, że subiektywne ważenie człowieka nie zależy w posty sposób od obiektywnie miezalnego pobudzenia. Oznacza to, że ludzkie ucho nie odpowiada liniowo na zwiększającą się częstotliwość. Aby dokonać analizy dźwięków w sposób uwzględniający to zjawisko, konieczne 55
jest zastosowanie pzekształcenia skali częstotliwości z wykozystaniem tzw. peceptualnych skali częstotliwości. Najpowszechniejszą peceptualną skalą częstotliwości jest wykozystywana w muzyce skala oktawowa. Odpowiada ona tzw. stojowi ównomienie tempeowanemu. W badaniach na ludzkim słuchem, zozumiałością oaz w innych zastosowaniach technicznych, takich jak kodowanie sygnału mowy, najpowszechniej wykozystywane są skale bakowa i melowa. Skala bakowa wyznaczana jest w opaciu o szeokości pasm kytycznych, czyli takich zakesów częstotliwości, po pzekoczeniu któych odczuwana jest wyaźna zmiana głośności dźwięków. Wyóżnia się 4 pasma kytyczne. Skala melowa wyznaczana jest w opaciu o tony poste. Odpowiada ona subiektywnemu ważeniu wysokości dźwięku. W wyniku badań ustalono, że ważenie wysokości dźwięku zależy ównież od głośności dźwięku, stąd w definicji skali pzyjęto poziom natężenia 4dB SPL (względem µpa). Jako punkt odniesienia pzyjmuje się częstotliwość khz, dla któego kzywa znajduje się 4 db ponad pogiem słyszenia człowieka i oznacza się go jako meli. Do wyznaczenia skali melowej (ys. 4.8) na podstawie skali częstotliwości stosuje się zależność: f = + Hz f mel 595log (4.) 7 Znajomość skali peceptualnych pozwala na wyznaczenie paametów sygnałów dźwiękowych z uwzględnieniem natualnej odpowiedzi układu słuchowego na pobudzenie dźwiękami mowy. Można np. wyznaczyć enegię w pasmach melowych lub enegię w pasmach kytycznych. Najważniejsze z punktu widzenia metod badania zozumiałości, ozpoznawania i kompesji mowy jest zastosowanie skali peceptualnych do wyznaczenia współczynników mel-cepstalnych MFCC (ang. Mel-Fequency Cepstal Coefficients), co zostało szezej opisane w dalszej części niniejszego ozdziału. 56
35 3 5 skala melowa 5 5 3 4 5 6 7 8 9 skala Hetz'owa Rysunek 4.8 Skala melowa wg. Beanka ( mel = Hz). Analiza spektalna sygnału zawiea dużą ilość infomacji, któe są tudne do bezpośedniego zintepetowania. Aby ozpoznać infomacje istotne z punktu widzenia zmian zozumiałości mowy konieczne jest wyselekcjonowanie takich cech widma sygnału, któe deteminują sposób jego pecepcji pzez odbiocę. Podstawowymi paametami widma sygnału mowy związanymi z mechanizmem jego geneowania są: ton ktaniowy F (ton podstawowy) oaz fomanty. Paamety fomantowe chaakteyzowane są popzez częstotliwość fomantu F N oaz poziom fomantu A N, któy może być miezony jako bezwzględny lub względny, unomowany do najsilniejszego fomantu i wyażany w db. Paamety fomantów można wyznaczyć na podstawie obwiedni widmowej sygnału (ang. spectal envelope). Do najważniejszych metod wyznaczania widma wygładzonego należą paamety cepstalne oaz liniowe kodowanie pedykcyjne. 4.3. Liniowa pedykcja Poces geneowania mowy może być efektywnie modelowany za pomocą liniowej pedykcji. W niniejszej ozpawie wykozystano analizę sygnałów mowy opatą na liniowej pedykcji do badań nad zniekształceniami sygnałów mowy w wieloźódłowych układach akustycznych. Poniżej opisano sposób wyznaczanie współczynników pedykcji oaz zastosowanie techniki LPC do modelowania chaakteystyki taktu głosowego. Kótkoczasowa (ang. shot-time) koelacja obsewowana dla fagmentu sygnału mowy jest funkcją kształtu taktu głosowego. Sygnał mowy nie jest stacjonany, paamety taktu głosowego zmieniają się w czasie. Długość fagmentu mowy, dla któego wyznaczane są paamety taktu jest 57
oganiczona. Pzyjmuje się zazwyczaj, że w kótkim okesie -3 ms nie następują istotne zmiany tych paametów. Dla fagmentu sygnału mowy złożonego z N póbek {x[], x[],, x[n]} watość bieżącej póbki może zostać w pzybliżeniu apoksymowana liniową kombinacją watości p-popzedzających ją póbek: ) x[ n] = p k= a x[ n k] k (4.3) gdzie: p jest zędem pedykcji, {a,, a p } są to współczynniki pedykcji, zwane dalej współczynnikami LPC. Pzy kodowaniu sygnału spóbkowanego z częstotliwością 8 khz typowo pzyjmuje się ząd pedykcji p= dla głosek dźwięcznych i p=4 dla głosek bezdźwięcznych (szumowych). Błąd pedykcji e n pomiędzy zeczywistą watością póbki a jej apoksymowaną watością wynosi: ) e[ n] = x[ n] x[ n] = x[ n] p k= a x[ n k] k (4.4) Sygnał esztkowy (ang. esidual signal) {e[n]} jest wyznaczany popzez odjęcie sygnału estymowanego { x ) [ n]} od sygnału oyginalnego { x [ n]}. Kótkoczasowa koelacja pomiędzy póbkami sygnału esztkowego jest niska, a obwiednia jego widma mocy jest w pzybliżeniu płaska. Tansfomata z dla ównana (4.4) wygląda następująco: E ( z) = A( z) S( z) (4.5) gdzie: S(z) oaz E(z) są to z-tansfomaty odpowiednio sygnału oyginalnego i sygnału esztkowego, natomiast: p A k ( z ) = + a z k (4.6) k= Filt A(z) z ównania (4.6) jest okeślany często mianem filtu wybielającego, któy eliminuje koelację sygnału, a więc spłaszcza jego widmo. Ponieważ E(z) ma w pzybliżeniu płaskie widmo, kótkoczasowa obwiednia widma mocy sygnału mowy jest modelowana autoegesywnie (AR) filtem biegunowym: 58
H ( z) = (4.7) A( z) Filt A(z) jest filtem odwotny do filtu sygnału mowy H(z), jest to tzw. filt inwesyjny. W analizie pedykcyjnej kótkookesowa obwiednia widma mocy sygnału mowy jest otzymywana popzez wyznaczenie H(z) na okęgu jednostkowym. Współczynniki pedykcji są wyznaczane z sygnału mowy pzy założeniu minimalizacji błędu śednio-kwadatowego: E = n= e[ n] (4.8) Liniowe kodowanie pedykcyjne LPC (ang. Linea Pedictive Coding) jest techniką kodowania sygnału mowy wykozystującą pedykcję liniową, tzn. polega ona na pzedstawieniu sygnału mowy jako odpowiedzi filtu biegunowego AR (ang. AutoRegesive) na pobudzenie tonem ktaniowym. Kodowanie LPC odzwieciedla ezonansową chaakteystykę taktu głosowego (ys. 4.9-4.). Na podstawie znajomości paametów filtu oaz pobudzenia można następnie odtwozyć sygnał piewotny. [db] F Fomanty FFT LPC - - F -3-4 F3-5 -6 F4-7 -8-9 - 5 5 5 3 35 4 [Hz] Rysunek 4.9 Widmo tansmitancji filtu taktu głosowego dla głoski e z wyaźnymi fomantami. 59
Na ysunkach 4. i 4. pzedstawiono pzykładowe kształty modułów filtu taktu głosowego pzy zastosowaniu modelowania pedykcyjnego. Jak widać na ys. 4. otzymana w wyniku analizy LPC chaakteystyka silnie zależy od dobou zędu pedykcji. 8 6 a FFT LPC.4. FFT LPC s 4.8 8.6 6.4 4. 5 5 5 3 35 4 f [Hz] 5 5 5 3 35 4 f [Hz] Rysunek 4. Pzykłady widma tansmitancji filtu taktu głosowego dla dwóch głosek, dźwięcznej a i bezdźwięcznej s nałożone na ich widmo FFT. 5 5 4.5 4 FFT LPC 4.5 4 FFT LPC4 3.5 3.5 3 3.5.5.5.5.5.5 5 5 5 3 35 4 f [Hz] 5 5 5 3 35 4 f [Hz] Rysunek 4. Pzykład widma tansmitancji filtu taktu głosowego dla głoski e nałożone na jej widmo FFT dla óżnych zędów pedykcji i 4. 4.3.. Wyznaczanie współczynników pedykcji metodą autokoelacji Do wyznaczenia watości współczynników pedykcji można zastosować kilka altenatywnych metod takich jak: metoda autokoelacyjna lub metoda kowaiancyjna [5]. Poniżej opisano metodę autokoelacyjną wykozystywaną w pacy do obliczania współczynników pedykcji. Pzy wyznaczaniu współczynników pedykcji metodą autokoelacji, sumowanie watości póbek sygnału powinno odbywać się w całym jego zakesie, tzn. w pzedziale czasu [ ],. Jednak w pzypadku analizy kótkoczasowej zdeteminowanej pzez oganiczony czas stacjonaności sygnału mowy, opeacja sumowania dokonuje się tylko dla fagmentu sygnału podlegającego analizie w danym momencie (w wyodębnionej amce sygnału). Pzyjmuje się jednocześnie watości zeowe dla wszystkich póbek sygnału spoza tego okna. 6
6 Do wyodębnienia fagmentu sygnału mowy wykozystywane są zazwyczaj opadające okna kosinusowe takie jak okno Hamminga lub Hanninga. Rzadziej stosowane jest okno postokątne. Tak spepaowany sygnał poddawany jest następnie analizie pedykcyjnej. W pzypadku metody autokoelacyjnej zachowane jest kyteium minimalizacji błędu pedykcji w postaci następującego ównania: p i a i p k k k i = =, (4.9) gdzie: k jest k-tym współczynnikiem autokoelacji dla analizowanego fagmentu mowy i wyznaczany jest zgodnie z następującym ównaniem: = = N k n k n n k k n x w n x w N ] [ ] [ (4.) gdzie: {w i } jest funkcją okna obejmującego N póbek sygnału. Na podstawie (4.) można wyznaczyć układ p ównań znanych jako ównania Yule-Walke a, dzięki ozwiązaniu któego otzymujemy p współczynników pedykcji. Ten układ ównań można zapisać w postaci maciezowej w fomie następującego ównania: Ra=- (4.) gdzie: = 3 3 R p p p p p p L M O M M M L L L (4.) = p p a a a a a M (4.3)
= M (4.4) p p Maciez R z ównia (4.) posiada stuktuę Toeplitz a i jest nazywana często maciezą autokoelacji. Aby ułatwić wyznaczenie wektoa {a i } współczynników pedykcji, ozwiązania ównań (4.) dokonuje się w opaciu o szybkie algoytmy, jak na pzykład algoytm Levinsona-Dubina [3] [5] [3] bądź algoytm Shu a [3]. Posiadanie pzez maciez R stuktuy Toeplitza gwaantuje stabilność filtu syntezy H(z) uzyskanego metodą autokoelacji, gdyż wszystkie jego bieguny będą się znajdowały zawsze wewnątz okęgu jednostkowego. Jednocześnie w celu wzmocnienia słabych fomantów w wyższych częstotliwościach, opeację modelowania pedykcyjnego dokonuje się zwykle na sygnale pzefiltowanym nieekusywnym filtem FIR (peemfaza), tansfomującym sygnał oyginalny do postaci: x '[ n] = x[ n].9375x[ n ] (4.5) W celu zdekodowania sygnału konieczne jest zastosowanie filtacji odwotnej (deemfazy) pzy zastosowaniu filtu ekusywnego IIR, tansfomującym zdekodowany sygnał do postaci: x [ n] = x'[ n] +.9375x[ n ] (4.6) Na podkeślenie zasługuje fakt, iż w wielu pzypadkach zamiast bezpośedniego stosowania współczynników pedykcji wygodniej jest wykozystywać inne paamety, któe można wyznaczyć na podstawie współczynników filtu pedykcyjnego. Do najczęściej stosowanych należą bieguny funkcji tansmitancji H(z) oaz współczynniki odbicia (PARCOR). Na podstawie współczynników odbicia można wyznaczyć kolejne współczynniki takie jak: paamety odwotnej funkcji sinus ISP (ang. Invese Sine Paametes) czy też współczynniki logaytmicznego stosunku pzekojów tuby akustycznej LAR (ang. Log Aea Ratio Paametes). Altenatywną metodą epezentacji współczynników pedykcji jest ównież metoda częstotliwości widma liniowego LSF (ang. Line Spectal Fequencies) znana ównież pod nazwą LPS (ang. Line Spectum Pai). Współczynniki LSF są zeami dwóch wielomianów P(z) oaz Q(z) utwozonych na podstawie filtu inwesyjnego A(z). Wszystkie zespolone zea tych wielomianów znajdują się na okęgu jednostkowym, więc do ich opisu wystaczy tylko jeden paamet (częstotliwość lub kąt). Jej zaletą jest duża wydajność obliczeniowa. 6
4.4. Analiza cepstalna współczynniki MFCC Metoda wyznaczania współczynników MFCC jest obok pedykcji liniowej podstawową fomą paametyzacji sygnału mowy i polega na wyznaczeniu współczynników cepstalnych z uwzględnieniem podejścia peceptualnego. Polega ona na użyciu skali melowej do pzekształcenia częstotliwości sygnału. Analiza cepstalna opiea się na fakcie występowania okesowości w widmie sygnału. Cepstum jest to tansfomata Fouiea z logaytmu widma i odpowiada ona dziedzinie czasu. Pzy założeniu, że pobudzenie sygnału mowy (ton ktaniowy) jest w pzybliżeniu ciągiem impulsów pzesuniętych względem siebie o czas T, wówczas jego tansfomata Fouiea jest ównież sumą impulsów o pulsacji ω = π / T. W widmie pojawiają się więc wyaźne pążki, a ich kształt jest zależny od widma okna czasowego, za pomocą któego wycinany jest fagment sygnału. Można więc wyznaczyć odwotną tansfomatę Fouiea z modułu widma aby wyznaczyć okes powtazania się pążków widma, a co za tym idzie okes tonu pobudzającego. Chcąc usunąć modulację amplitudową widma pobudzenia należy pzed obliczeniem tansfomaty odwotnej dokonać opeacji logaytmowania. c( n) N = F N k = N = ln m= w( m) x( m) e j πkm / N ± j πkn jω jω jω ( ln H ( e ) P( e )) = F ln H ( e ) e = jω ( ) + F ( ln P( e )) (4.7) gdzie: H(.) widmo tansmitancji taktu głosowego, P(.) widmo pobudzenia, w(m) okno czasowe (np. Hamminga). W efekcie otzymujemy dwie składowe w dziedzinie czasu odpowiadające wolnej zmienności obwiedni widma (watości cepstum w pobliżu indeksu zeowego) oaz pążki odpowiadające okesowi pobudzenia. Niskie współczynniki cepstalne niosą więc infomację o chaakteystyce taktu głosowego (wekto złożony z piewszych kilkunastu współczynników) natomiast wysokie współczynniki cepstalne pozwalają na ekstakcję tonu ktaniowego. 63
Rysunek 4. Wykes cepstum z wyaźnym pążkiem tonu ktaniowego. 4.4.. Wyznaczanie współczynników cepstalnych na podstawie LPC Na podstawie znajomości współczynników liniowego kodowania pedykcyjnego możliwe jest ekuencyjne wyznaczenie współczynników cepstalnych [3]. Możliwe jest ównież wyznaczenie ich w sposób bezpośedni [33]. Współczynniki cepstalne LPC oznaczone jako c m można wyznaczyć z zależności: ln [ ] ( z ) = m= H c z m m (4.8) gdzie: H(z) - tansmitancja filtu odwotnego, opisana zależnością (4.7), w któej: M A z = a z ( ) k (4.9) k= gdzie a =, M=K+, K liczba fomantów, jaka jest bana pod uwagę w modelu. Różniczkując (4.9) otzymujemy zależność ekuencyjną pozwalającą wyznaczyć kolejne współczynniki cepstalne c m : m = cm am kckam k, dla m >, (4.) m k = gdzie: a =, a k = dla k >M. Ważone współczynniki cepstalne za pomocą wag w m mają postać: 64
cw m = c w, m M (4.) m m gdzie: w m m M π = + sin, m M M (4.) W metodach badawczych pzyjmuje się zazwyczaj M=. Współczynniki cepstalne są często wykozystywane w pocesie ozpoznawania mowy. Jedną z mia wykozystującą współczynniki cepstalne jest odległość cepstalna LPC CD (ang. LPC cepstum distance), któa jest definiowana jako [34]: gdzie: i nume amki, d LPCCD M c d ( i) = [ c i) c ( i) ] m= m m ( (4.3) c ( i), c - współczynniki cepstalne odpowiednio oyginalnego i zniekształconego sygnału. c m d m 4.4.. Współczynniki mel-cepstalne MFCC Ludzkie ucho dokonuje ozóżnienia częstotliwości dźwięków w opaciu o nieliniową skalę widma sygnału. Skala ta jest w pzybliżeniu liniowa tylko do częstotliwości ok. khz. Powyżej tej częstotliwości występuje nieliniowość, któą można pzybliżyć odwzoowaniem logaytmicznym. Aby uwzględnić to zjawisko wykozystywane są óżne skale peceptualne. Najbadziej populane są skala bakowa i melowa (ys. 4.8). Wyznaczenie współczynników sygnału mowy uwzględniających subiektywny odbió częstotliwości ludzkiego naządu słuchu, wymaga pzekształcenia skali częstotliwości. Pzekształcenie to dokonywane jest najczęściej z użyciem banku filtów o częstotliwościach śodkowych ozmieszczonych ównomienie na nieliniowej skali peceptualnej, co odpowiada nieliniowemu ozmieszczeniu na skali częstotliwości. Do wyznaczania banku filtów tójkątnych wykozystuje się zależność (4.), dzięki któej tójkątne funkcje wagowe stają się niesymetyczne. Funkcje te o podstawie zędu lub 3 melów są nakładane na tansfomowany sygnał z pzesunięciem lub 5 melów. Wyznaczenie współczynników cepstalnych z uwzględnieniem podejścia peceptualnego polega więc na użyciu skali melowej do pzekształcenia częstotliwości sygnału [35]. Algoytm wyznaczania współczynników mel-cepstalnych MFCC obejmuje: 65
Poddanie oyginalnego sygnału mowy opeacji peemfazy zgodnie z (4.5). Wymnożenie sygnału oknem Hamminga. Obliczenie szybkiej tansfomaty Fouiea FFT dla poszczególnych segmentów sygnału mowy oaz wyznaczenie modułu estymaty widmowej gęstości mocy sygnału. Wykonanie filtacji melowej za pomocą zestawu śodkowopzepustowych filtów tójkątnych o częstotliwościach wyznaczonych zgodnie z (4.). Zlogaytmowanie uśednionych watości estymaty widma gęstości mocy oaz wyznaczenie ich tansfomat odwotnych IFFT. Ponieważ widmo jest zeczywiste i symetyczne, odwotna tansfomata Fouiea edukuje się do dysketnej tansfomaty kosinusowej obliczanej zgonie ze wzoem: MFCC n = N n log( Si ) cos π N i= N ( i.5) (4.4) gdzie: MFCC n n-ty wspóczynnik mel-cepstalny, S i - uśedniona watość estymaty widma gęstości mocy pzy użyciu i-tego filtu, N liczba filtów melowych, N=. Zamiast skali melowej można wykozystać ównież skalę bakową..6 Pzebieg czasowy Amplituda.4. -..5..5..5.3.35.4.45 t[s] Widmo w skali melowej Indeks pasma 5 5 Indeks MFCC 8 6 4.5..5..5.3.35.4.45 t[s] Wpółczynniki MFCC.5..5..5.3.35.4.45 t[s] Rysunek 4.3 Pzebieg czasowy słowa (logatomu) wsze (góa), widmo w skali melowej (śodek), współczynniki MFCC w kolejnych amkach (dół). 66
4.5. Podsumowanie Poces oceny jakości sygnału mowy (podobnie jak i poces ozpoznawania mowy) jest związany z własnościami peceptualnymi słuchu ludzkiego. Metoda wyznaczania współczynników MFCC jest, obok pedykcji liniowej, podstawową fomą paametyzacji sygnału mowy, wykozystywaną głównie w systemach ozpoznawania mowy. Wato zauważyć, iż istnieją ównież techniki wykozystujące współczynniki pedykcji liniowej uwzględniające podejście peceptualne jak choćby PLP (ang. Peceptual Linea Pediction) czy też będąca jej ozwinięciem technika RASTA (ang. RelAtive SpecTaA) [36] [37]. Jakość pola akustycznego można opisać popzez zmiany watości paametów pzestzennoczasowych sygnału mowy w funkcji ilości oaz ozmieszczenia źódeł dźwięku. Polem akustycznym o dobej jakości jest wówczas takie, w któym nie następują zmiany jego paametów bądź są one stosunkowo niewielkie. Badania pzepowadzone na chaakteystycznych cechach sygnałów mowy pozwalają ocenić wpływ tych óżnic na jakość sygnałów mowy tansmitowanych w systemie nagłośnienia. Rozłożenie fomantów na osi częstotliwości oaz ich względne poziomy są decydujące dla pawidłowego ozpoznawania głosek. Ludzki słuch jest badzo czuły na zmiany fomantów, w związku z czym nawet niewielkie odchylenia częstotliwości fomatowych mogą powodować dużą zmianę jakościową w odbioze i zozumiałości głosek. Jednocześnie fomanty szczególnie silnie ulegają zniekształceniom w obszaze występowania intefeencji szeokopasmowej. Do ekstakcji paametów fomantowych wykozystano analizę pedykcyjną, a zastosowanie odpowiednich mia odległości pomiędzy wektoami watości współczynników LPC daje możliwość ilościowej oceny zniekształceń występujących w polu akustycznym układów wieloźódłowych. 67
5. METODY BADANIA JAKOŚCI I ZROZUMIAŁOŚCI SYGNAŁU MOWY Na jakość i zozumiałość sygnału mowy wpływ ma wiele czynników takich jak: zakłócenia szumowe, błędy w atykulacji, odbicia i ewebeacje w pomieszczeniach, jakość uządzeń tou fonicznego, a także ozmieszczenie pzestzenne źódeł dźwięku. W bezpośednich pomiaach nie zawsze można odsepaować wpływ poszczególnych czynników. Rodzaj zniekształceń jakim poddawany jest sygnał piewotny deteminuje sposób w jaki badane będą zmiany tego sygnału oaz wpływ tych zmian na jakość i zozumiałość pzekazu. Techniki badania oaz wybó odpowiednich paametów zależą więc od tego w jaki sposób powstają zniekształcenia i co jest ich główną pzyczyną. Inny chaakte będą miały zmiany sygnału w wyniku kodowania sygnału, inne w wyniku błędów tansmisji w kanale telefonicznym, a jeszcze inne w pakietowej tansmisji głosu. Istnieją dwie główne kategoie metod pomiau jakości sygnału mowy pzekazywanego pzez łańcuch komunikacyjny. Piewsza, to metody subiektywne, w któych gupa słuchaczy testuje zozumiałość ilościowo (miaą zniekształceń jest pocent błędnie odczytanych logatomów, wyazów czy zdań) bądź jakościowo, wyażając ogólną opinię o jakości pzekazu w szkolnej skali ocen; wyniki zostają uśednione, a metoda jest nazywana MOS (ang. Mean Opinion Scoe). Duga kategoia, to metody obiektywne, w któych ocena dokonywana jest na podstawie pomiaów paametów systemu niezależnych od słuchacza. Z uwagi na dużą czasochłonność, kosztowność oaz bak pełnej powtazalności odsłuchowych testów subiektywnych, któe odnoszą się bezpośednio do istoty komunikacji, ciągle doskonalone są metody obiektywne, któych wyniki pomiaowe są powtazalne dzięki wyeliminowaniu czynnika ludzkiego. Chodzi tu o analizę samego sygnału i stopnia jego zniekształcenia po pzejściu pzez system komunikacji. Jednakże wyzwaniem pozostaje opacowanie takiej metody analizy paametów odbieanego sygnału mowy, któa pozwoliłaby zdefiniować obiektywne miay zniekształceń mowy, pozostające w dobej koelacji z subiektywnymi ocenami zozumiałości. Aby dokonać pawidłowej oceny jakości pzekazu sygnału należy zastosować metodę pomiau adekwatną do odzaju badanych sygnałów oaz dostosowaną do chaakteu zniekształceń. Metoda badania implikuje wybó niezbędnych paametów opisujących paamety sygnału i kanału komunikacyjnego, a także zastosowane wskaźniki oaz miay óżnic pomiędzy watościami wskaźników. 5.. Miay odległości pomiędzy wektoami paametów Poównywanie wektoów zawieających paamety sygnałów dźwiękowych mowy oyginalnej (czystej, bez zniekształceń) i zniekształconej wymaga zastosowania odpowiednich mia odległości. Paametyzację sygnałów oyginalnego oaz zniekształconego można uzyskać w wyniku takich analiz jak np.: kodowanie z liniową pedykcją, analiza cepstalna, metoda częstotliwości widma 68
liniowego LFS bądź pecepcyjna analiza pedykcyjna PLP (ang. Peceptual Linea Pedictive). Okeślenie odległości d(a, b) pomiędzy otzymanymi wektoami paametów a i b, pozwala oszacować podobieństwo, a co za tym idzie ównież i stopień zniekształcenia, poównywanych fagmentów dźwięku. 5... Własności mia odległości Doba miaa odległości wykozystywana do weyfikacji podobieństwa kótkich fagmentów dźwięków powinna posiadać następujące własności matematyczne: powinna być symetyczna, tzn.: d ( a, b) = d( a, b) (5.) gdzie: a, b wektoy paametów wyekstahowanych z sygnałów odpowiednio oyginalnego i zniekształconego, powinna być nieujemna, tzn.: d ( a, b) (5.) powinna spełniać ównanie tójkąta, tzn.: d ( a, b) < d( a, c) + d( b, c) (5.3) powinna uwzględniać peceptualne zóżnicowanie odbiou składowych częstotliwościowych w widmie mocy sygnału, tzn. jeżeli enegia sygnału s(f ) zgomadzona w paśmie wokół częstotliwości f jest pecepcyjnie istotniejsza od enegii s(f ) zgomadzonej w paśmie wokół częstotliwości f, wówczas: d a, a + s( f )] > d[ a, a + s( )] (5.4) [ f 5... Stosowane miay odległości Obiektywne miay odległości opeujące na paametach sygnałów dźwiękowych są wynikiem obliczenia odległości pomiędzy dwoma wektoami złożonymi z obiektywnych paametów sygnału takich jak np. współczynniki LPC. Obliczenia te wykonuje się zazwyczaj w opaciu o dobze znane miay takie jak miaa Euklidesowa czy Mehalanobisa. Odległość Euklidesowa pomiędzy dwoma wektoami współczynników jest definiowana następująco: P ( a[ i] b[ i] ) d( a, b) = (5.5) i= gdzie: i={,, P} indeks paametów sygnału. 69
Jest to najbadziej typowy sposób badania odległości pomiędzy wektoami. Nie uwzględnia on jednak właściwości peceptualnych naządu słuch i z tego powodu nie najlepiej odwzoowuje zmiany związane z paametyzacją mowy. Inne często stosowane miay odległości to: Miaa Czybyszewa: d C ( a, b) = max a[ i] b[ i] i=,.., P (5.6) Miaa Minkowskiego: d M P ( a, b) = a[ i] b[ i] (5.7) i= Uogólnieniem mia standadowych jest odległość Mehalanobisa, któą można zapisać w postaci: d( a, b) P ] = i= a[ i] b[ i σ i (5.8) gdzie: σ i jest odchyleniem standadowym dla i-tego współczynnika. Miaa odległości Log-Spectal: d P q q log S a, b) = log( a[ i]) log( b[ i]) i= ( (5.9) gdzie: q=,,, oaz a, b >. Miaa odległości Itakua-Saito (IS): d IS P a[ i] b[ i] ( a, b) = log (5.) i= b[ i] a[ i] Miaa IS jest niesymetyczna ale jest często stosowana z uwagi na dużo lepsze, niż w pzypadku metyk Euklidesowych, odwzoowywanie własności psychoakustycznych, związanych z nieliniową pecepcją zmian częstotliwości pzez słuch ludzki. Poblem baku symetii miay IS można ozwiązać np. popzez symetyzację do tzw. metyki Cos-h w postaci: d Cosh d IS ( a, b) + d IS ( a, b) ( a, b) = (5.) 7
Metyki IS oaz Cos-h, piewotnie zdefiniowane do oceny zmian współczynników LPC, mogą być z powodzeniem stosowane do innych paametów związanych z częstotliwościową epezentacją sygnału (np. MFCC). 5..3. Miay zniekształceń opate na stosunku sygnału do szumu Stosunek sygnału do szumu SNR (ang. Signal to Noise Ratio) jest jedną z najbadziej klasycznych mia zakłóceń sygnału. Jako miaa intuzyjna wykozystuje do okeślenia stopnia zniekształcenia watości sygnału oyginalnego i zniekształconego. Stosunek Sygnału do szumu może być obliczany zaówno w dziedzinie czasu jak i dziedzinie częstotliwości. Jego postać czasową można zdefiniować następująco: SNR n= = log (5.) N ( x[ n] y[ n] ) n= N x [ n] gdzie: -[] to póbki sygnału wzocowego (niezakłóconego), y[n] to póbki sygnału zakłóconego, = całkowita liczba póbek w badanym fagmencie sygnału. Pomia stosunku sygnału do szumu, w pzypadku zakłóceń o innym chaakteze niż tylko addytywne zakłócenia szumowe, może nie dawać dostatecznie dokładnych wyników. Dlatego powstało kilka odmian klasycznego SNR, któe są dużo badziej skoelowane z jakością mowy miezoną w sposób subiektywny. Klasyczny SNR uśednia stosunek sygnału do szumu w amach całkowitego czasu twania sygnału, podczas gdy sygnał mowy jest sygnałem niestacjonanym. Enegia sygnału mowy fluktuuje w czasie, dlatego stosunek sygnału do szumu ównież powinien zmieniać się w czasie. Segmentowy stosunek sygnału do szumu SNR seg (ang. time-domain segmental SNR), jest obliczany jako śedni SNR ze stosunku sygnału do szumu liczony w kolejnych fagmentach, na jakie podzielony jest cały pzebieg badanego sygnał mowy: n= log Lm+ L m= n= Lm Lm+ L x [ n] M Lm SNR seg = (5.3) M ( x[ n] y[ n] ) gdzie L jest liczbą póbek w jednym fagmencie sygnału, M jest liczbą fagmentów w całym analizowanym pzebiegu sygnału (N=ML). Czas twania segmentu wynosi zwykle od do 3 ms. 7
Kolejną odmianą stosunku sygnału do szumu jest ważony częstotliwościowo SNR. Ważenie fwsnr CDE (ang. fequency weighted SNR) następuje w podpasmach częstotliwości popocjonalnych do pasma kytycznego. Xj,m fwsnr CDE = Wj,m log R P M, Q3 MXj,m Yj,m O P Q3 Wj,m S3 (5.4) gdzie Wj,m jest wagą j-tego podpasma w m-tym segmencie, K jest liczbą podpasm, Xj,m jest widmem amplitudowym w j-tym podpaśmie m-tego segmentu, natomiast Yj,m jest widmem segmentu sygnału zakłóconego w tym samym podpaśmie. Wykozystywane są dwa sposoby wagowania: stałe wagi związane z własnościami psychoakustycznymi lub zmienne wagi związane z mechanizmem geneowania mowy. Jako zbió wag Wj,m można wykozystać wagi okeślone w standadzie ANSI S3.5-969 [38]. 5.. Metody badania jakości i zozumiałości pzekazu głosowego Miaą zadowolenia odbiocy z pzekazu głosowego jest jego jakość, a właściwie subiektywne odczucie tej jakości pzez każdego ze słuchaczy. Jednak zóżnicowanie cech atykulacyjnych osób geneujących pzekaz głosowy oaz pecepcji słuchowej odbioców powodują, że ważenie jakości są mocno zóżnicowane u poszczególnych osób. Ważenie to można oszacować popzez wyciągnięcie śedniej watość z wielu subiektywnych ocen jakości dźwięku MOS zapisanych w okeślonej skali np. od do 5. Miaa MOS jest obecnie taktowana jako efeencyjna miaa odniesienia zaówno dla metod obiektywnych jak i metod subiektywnych pomiau jakości sygnału mowy (tabela 5.). Badania opate na subiektywnym ważeniu jakości u słuchaczy wymaga pzepowadzenia wielu poównywalnych, pzepowadzonych w badzo sfomalizowany sposób odsłuchów, co jest badzo tudne oganizacyjnie, wymaga dużych nakładów czasu i wiąże się z wysokimi kosztami związanymi z zaangażowaniem wykwalifikowanej gupy lektoów i słuchaczy oaz powtazania testów dla każdego waiantu badanego systemu. Bioąc to pod uwagę opacowano szeeg metod automatycznego szacowania jakości pzekazu, któe skoelowane są z wynikami ocen subiektywnych. Takie badania, nazywane często pomiaami obiektywnymi, opieają się głównie na poównywaniu paametów odpowiednio dobanego sygnału oyginalnego o wysokiej jakości i sygnału zniekształconego, któy dociea do słuchacza. Następnie na podstawie obliczeń wyznacza się wskaźniki odpowiadające skali MOS. 7
Rysunek 5. Klasyfikacja metod badania jakości mowy [39]. Opócz obiektywnych poównawczych metod badawczych wykozystujących sygnał wzocowy, tzw. metody intuzyjne (ang. intusive), istnieją inne, tudniejsze do zaimplementowania, tzw. metody nieintuzyjne (ang. nonintusive), któe nie wymagają znajomości sygnału wzocowego. Metody obiektywne posługują się modelem pecepcji aby ocenić jakość pzekazu postzeganą pzez odbiocę. Jeszcze inną gupę stanowią metody paametyczne wykozystujące do oceny jakości jedynie paamety systemu komunikacyjnego, niezależne od odzaju sygnału. Spośód wielu metod badania jakości w pełni akceptowalne są jedynie metody subiektywne, któe wymagają jednak spełnienia wielu tudnych wymogów takich jak: odpowiednio duża liczba słuchaczy, wielokotność powtózeń odsłuchu, odpowiednie odstępy w czasie pomiędzy poszczególnymi testami, odpowiednie waunki w pomieszczeniu odsłuchowym, zmęczenie słuchaczy i czynniki indywidualne wpływające na wyniki, konieczność pzepowadzania analizy statystycznej dla uzyskania poównywalności ocen itp. Badania subiektywne są więc dogie i czasochłonne. W paktycznych zastosowaniach, dużo wydajniejsze są metody obiektywne dające szybkie i powtazalne wyniki. Aby uzyskać dużą koelację z wynikami pomiaów subiektywnych, co stanowi jeden z głównych waunków akceptowalności metod obiektywnych, konieczna jest ich odpowiednia kalibacja. 73
Tabela 5. Współczynniki koelacji metod obiektywnych z MOS [39]. Typ sieci GSM PSTN VoIP Współczynnik koelacji Watość śednia Najgoszy pzypadek Watość śednia Najgoszy pzypadek Watość śednia Najgoszy pzypadek PSQM PSQM+ PAMS PESQ,94,935,954,96,843,859,895,95,88,897,936,94,657,65,85,9,674,76,96,98,6,469,758,8 Do testów jakości wykozystywany jest mateiał słowny, któy składa się na dwa podstawowe odzaje badań: zozumiałości zdań i zozumiałości słów. Różnica między ozpoznawaniem całego zdania, a identyfikacją pojedynczych słów jest zwykle związana z kontekstem. Codzienne wypowiedzi zawieają wiele infomacji kontekstowych, co pomaga słuchaczowi ozpoznać niezozumiałe słowa w pzedstawionym zdaniu. Nie można jednoznacznie stwiedzić czy kontekst wypowiedzi zwiększa, czy zmniejsza stosowalność i zetelność badań. Z jednej stony, badania mają odzwieciedlać natualny poces komunikacji, któego częścią jest kontekst. Z dugiej zaś wywołuje to efekt pamięciowy, któy jest niepożądany w tego typu badaniach. Testy zdaniowe można więc podzielić na takie, któe wzoowane są na codziennych wypowiedziach oaz te z użyciem semantycznie niepzewidywalnych ciągów wyazów twozących nie zawsze logiczną wypowiedź. Wspólna skala zozumiałości CIS (ang. Common Intelligibility Scale) Aby poównać wyniki pomiaów zozumiałości pzepowadzonych óżnymi metodami konieczne jest pzeliczenie ich na wspólną skalę. W zaleceniu IEC 6849 [4] [8] zamieszczono wykes (ys. 5.) zawieający gaficzne poównanie pomiędzy wynikami pomiaów óżnymi metodami oceny zozumiałości. Zalecenie to, dotyczące dźwiękowych systemów ostzegawczych DSO, wymaga aby zozumiałość okeślona względem wspólnej skali zozumiałości CIS wynosiła minimum.7. Dzięki wspólnej skali można okeślić minimalną watość zastosowanego wskaźnika odpowiadającą temu kyteium. 74
Rysunek 5. Wspólna skala zozumiałości CIS na podstawie PN-EN 6849 [8]. 5.3. Metody subiektywnej oceny jakości pzekazu głosowego Metody subiektywne oceny jakości pzekazu głosowego są stosowane jako podstawowy mechanizm kalibacji innych metod badania jakości pzekazu mowy. Opieają się one na bezpośednim odsłuchu pzekazu pzez gupę słuchaczy. W ten sposób oceniane są cechy sygnału mowy, któe pozwalają na oszacowanie jego jakości. Subiektywne pomiay jakości mowy pzepowadza się na epezentatywnej i pzeszkolonej gupie osób w okeślonych, kontolowanych i powtazalnych waunkach. Osoba oceniająca jakość mowy pzydziela jej ocenę według pzyjętej skali punktowej, np.: doskonała (5), doba (4), zadowalająca (3), słaba (), zła (), któa odpowiada pięciostopniowej skali MOS. Do najczęściej stosowanych subiektywnych metod badania należą: metoda bezwzględnej oceny jakości mowy ACR (ang. Absolute Categoy Rating), metoda oceny stopnia degadacji jakości mowy DCR (ang. Degadation Categoy Rating), metoda poównawcza oceny jakości mowy CCR (ang. Compaision Categoy Rating), metody badania wyazistości (logatomowej, DRT/MTR, AI, %Alcons). Każda metoda posiada miaę odniesienia pozwalającą na poównanie i uśednienie wyników MOS uzyskanych óżnymi sposobami. 75
Pomiay jakości mowy, szczególnie w systemach telekomunikacyjnych, zostały objęte nomami, któe w większości dotyczą metod subiektywnych. Waunki pzepowadzania badań wyazistości mowy dla potzeb telefonii okeśla Polska Noma PN-9/T-5 [4]. Badania odsłuchowe w skali MOS opisano w zaleceniu ITU-T P.8 [4]. Nomę ta została ozszezona na kodeki cyfowe zalecenie ITU-T P.83 [43]. Metodę poównawczą okeślania jakości mowy definiuje zalecenie ITU-T P.8: Modulated Noise Refeence Unit [44]. Do subiektywnego pomiau jakości mowy odnoszą się też nomy ETSI ETR 5 [45] i ETSI EG 377- [46]. Metoda bezwzględnej oceny jakości mowy (ACR) Umożliwia stosunkowo szybki i tani jak na waunki metod subiektywnych bezpośedni pomia jakości w pięciostopniowej skali. Metoda ACR, jest opisana w zaleceniach ITU-T P.8 [4]. W tej metodzie wykozystywane są listy testowe złożone z postych, kótkich, nie związanych z sobą semantycznie zdań. Słuchacze oceniają jakości odsłuchu, wysiłek słuchowego oaz pefeowaną głośność. Metoda ACR polega na wyznaczeniu bezwzględnej jakości pzekazu głosowego bez zastosowania sygnału odniesienia. Aby wyniki można było uznać za wiaygodne, niezbędna jest wykonanie pomiau dla licznej ekipy słuchaczy (większej od ). Wadą metody jest mało pecyzyjne okeślenie tego co tak napawdę mają oceniać słuchający oaz bak natualnej zdolności słuchaczy do powtazalnej oceny takiej cechy, jak jakość mowy. Dodatkową wadą metody ACR z uwagi na niewielką skalę, jest jej nieczułość na niewielkie zmiany jakości. Metoda okeślająca stopień degadacji jakości mowy (DCR) Pomia polega na poównaniu wzocowego sygnału mowy o wysokiej jakości z sygnałem pzesłanym pzez badany kanał telekomunikacyjny. Metoda DCR opisana została zaleceniach ITU-T P.8 [4]. Dzięki poównaniu z sygnałem wzocowym metoda ta umożliwia badanie nawet niewielkich zmian jakości mowy. Zadaniem słuchaczy jest okeślenie stopnia zniekształcenia sygnału mowy w stosunku do sygnału odniesienia w 5-cio stopniowej skali, zmiana: niezauważalna (5), niesłyszalna, ale odczuwalna (4), słabo odczuwalna (3), odczuwalna (), wyaźnie odczuwalna (). W efekcie wyznaczany jest tzw. współczynnik degadacyjnej, uśednionej opinii słuchaczy DMOS (ang. Degadation Mean Opinion Scoe). Metoda poównawcza oceny jakości mowy (CCR) Testy pzepowadzane są w takich samych waunkach jak w metodach ACR i DCR jednak słuchaczom nie jest znana kolejność odtwazania sygnału wzocowego i testowanego. Dzięki takiej poceduze możliwe jest uzyskanie wyniku testów ównież w sytuacji gdy sygnał poddawany testowi będzie miał odczuwalną pzez słuchacza jakość lepszą niż sygnał wzocowy. W badaniu tym wyznaczany jest wskaźnik poównawczej, uśednionej opinii słuchaczy CMOS (ang. Compaision Mean Opinion Scoe) 76
Badanie wyazistości logatomowej Metoda badania wyazistości logatomowej polega na obliczeniu pocentowego stosunku pawidłowo odebanych logatomów do całkowitej liczby nadanych logatomów pzez gupę słuchaczy [4]. Logatomy to kótkie jedno-, dwu- lub tzysylabowe wyazy, któe w danym języku nie mają jakiegokolwiek znaczenia. Popawne ozpoznanie logatomu nie jest zatem wynikiem skojazenia ze znanym wyazem ani nie wynika z analizy kontekstowej. Aby dobze ozpoznać logatom należy popawnie usłyszeć wszystkie składające się na niego fonemy. Badania mogą być pzepowadzane zaówno w waunkach laboatoyjnych jak i w waunkach natualnych. Śednią wyazistość logatomową można obliczyć kozystając ze wzou: N L W = W n, l [%] N L (5.5) n= l = gdzie: W n,l oznacza liczbę popawnie ozpoznanych logatomów pzez n-tego słuchacza z l-tej listy, N liczba słuchaczy, L - całkowita liczba odczytanych logatomów (zwykle ok. logatomów w jednej liście; w badaniu odczytywane są minimum dwie listy). Rozzut wyników pomiaów wyazistości logatomowej dla całego zbiou słuchaczy można wyznaczyć jako odchylenie śedniokwadatowe zgodnie ze wzoem: / = N L s ( W n, l W ) N L n= l = (5.6) Jeżeli óżnica pomiędzy wynikiem dla konketnego pomiau a watością śednią wyazistości jest większa niż tzykotność ozzutu, tj. W n, l > 3 W s - wówczas pomia ten należy wykluczyć [47]. Metoda ta jest wyjątkowo czasochłonna, wymaga ównież od słuchaczy pzejścia odpowiedniego teningu. Ze względu na fakt, iż duża zozumiałość mowy nie musi być ównoznaczna z jej wysoką jakością, testy wyazistości nie są wystaczające do całkowitej oceny jakości mowy. Uposzczone testy DRT/MRT (ang. Diagnostic/Modified Rhyme Test) óżnią się od metod oceny wyazistości liczebnością zbiou testowego, bakiem zównoważenia fonematycznego i stuktualnego mateiału testowego oaz możliwością wielokotnego powtazania tej samej testowej jednostki dźwiękowej (co jest wykluczone w metodach badających wyazistość). Metody DRT/MRT można jednak stosunkowo łatwo zautomatyzować [48]. Zbió jednostek testowych jest najczęściej oganiczony i nieliczny (np. 6 jednostek), natomiast dla danego pomiau jednostki są pezentowane słuchaczom wielokotnie w losowej kolejności. 77
Metoda wskaźnika wyazistości AI Wskaźnik wyazistości AI (ang. Aticulation Index) jest miaą wyazistości dla okeślonego pasma częstotliwości w widmie sygnału. Opiea on się na założeniu, że każdy obsza częstotliwości dźwięku ma pocentowo inny udział w pocesie ozumienia mowy. Wskaźnik AI wyznaczany jest jako watość śednia wyazistości okeślonych dla poszczególnych pasm częstotliwości zgodnie ze wzoem: AI = N N W i i= (5.7) gdzie: W i jest wskaźnikiem wyazistości w i-tym pasmie elementanym, N liczba analizowanych pasm częstotliwościowych. Jeżeli znana jest zależność wskaźnika wyazistości W i od poziomów słyszalności fomantów we wszystkich elementanych pasmach, to można obliczyć całkowity wskaźnik wyazistości dla danego układu tansmisji mowy. Sposób pzepowadzania pomiaów AI opisany został w standadzie ANSI S3.5-969 [38]. Uaktualnieniem metody AI jest wskaźnik SII (ang. Speech Inteligibility Index) opisany w standadzie ANSI (S3.5-997) [49]. Metoda SII uwzględnia niektóe czynnik (np. pogłos), któe nie były uwzględniane w AI. Metoda %Alcons Wskaźnik utaty wyazistości spółgłoskowej %Al cons (ang. Aticulation Loss of Consonants) jest miaą dobze opisaną w liteatuze [5] ale nie posiadającą własnego standadu. Polega ona na wyznaczeniu pocentowej watości stosunku liczby błędnie ozpoznanych pzez słuchacza spółgłosek do liczby wszystkich spółgłosek pzesłanych pzez danych układ. Za tansmisję o doskonałej jakości uważa taką, w któej Alcons %. Natomiast maksymalna dopuszczalna watość nie może pzekaczać 5%. Metoda ta choć jest posta i dość powszechnie stosowana (szczególnie pzez konsultantów akustycznych) powadzi do błędnych wyników w waunkach pogłosowych lub pzy obcinaniu szczytów sygnałów []. Pomia zozumiałości mowy na tle szumu Do subiektywnych badań zozumiałości na tle szumów wykozystywanych jest wiele óżnych testów óżniących się między sobą zawatością mateiału testowego (zdania lub słowa) oaz paametami poziomu natężenia i odzaju szumu zakłócającego. W badaniach wyznaczany jest póg pecepcji mowy SRT (ang. Speech Reception Theshold), któy okeśla minimalny stosunek sygnału do szumu umożliwiający zozumiałość na poziomie 5%. Do poównania óżnych testów stosuje się funkcje zozumiałości opisane wzoem: 78
p L STR s = (5.8) + e (,, ) 4s( SRT L) gdzie: p pawdopodobieństwo pawidłowego ozpoznawane pzy stosunku sygnału do szumu ównym L, s - nachylenie wykesu zozumiałości. W testach wykozystywane mogą być testy zdaniowe jak np. zdania typu Plomp a [5], polski test zdaniowy [5], polski test typu Matix [53]) jak ównież listy logatomowe [4] lub cyfowe (polski test typletów cyfowych [54]). Testy zadaniowe z uwagi na pzenoszenie infomacji kontekstowych pomagających słuchaczowi ich ozpoznanie zazwyczaj mają badziej pochylone zbocza funkcji psychometycznych czyli są mniej ważliwe na zmiany poziomu szumu. Testy wyazowe i logatomowe posiadają zazwyczaj niższą watość SRT ale jednocześnie odsepaowują badanie od efektu kontekstowego i pozwalają zetelniej ocenić degadację sygnału związaną wyłącznie z paametami tansmisyjnymi kanału. 5.4. Metody obiektywnej oceny jakości pzekazu głosowego Podstawową zaletą obiektywnych metod badania jakości pzekazu mowy jest to, że są szybsze, postsze i tańsze w stosunku do metod subiektywnych. Opieają się ona na wyznaczeniu odległości, czyli pewnej miay, pomiędzy watościami wybanych paametów (jednego lub kilku) sygnału wzocowego oaz sygnału badanego (np. zniekształconego w wyniku błędnej tansmisji). Koncepcję metody poównawczej oceny jakości mowy (ys. 5.3) zapoponował Kajalainen w 985. [55]. Rysunek 5.3 Ogólna koncepcja metody poównawczej szacowania jakości mowy [55]. Wzocowy sygnał odniesienia jest wykozystywany w metodach intuzyjnych natomiast w testach nieintuzyjnych analizowane są jedynie paamety kanału tansmisyjnego, w tym zakłócenia, szumy, nieciągłości. Po wyznaczeniu miay odległości sygnału oyginalnego i zdegadowanego, na podstawie kzywej odniesienia następuje pzeskalowanie jej watości do subiektywnej miay odniesienia 79
(np. MOS). Na ysunku 5.4 pzedstawiono uposzczony schemat blokowy obiektywnej oceny jakości opatej na analizie paametów sygnału mowy. x[i] y[i] Rysunek 5.4 Uposzczony schemat obiektywnej oceny jakości mowy; x[i] wzocowy sygnał odniesienia; y[i] sygnał zniekształcony. 5.4.. Jakości sygnału mowy tansmitowanej w systemach w telekomunikacyjnych Do badania jakości sygnału mowy tansmitowanej w systemach w telekomunikacyjnych opacowano wiele odpowiednich testów obiektywnych. Do najczęściej stosowanych należą: PSQM (ang. Psycho-Acoustic Speech Quality Measue) - opisany w zaleceniu ITU-T P.86 [56], PESQ (ang. Peceptual Evaluation of Speech Quality) - popawiona metoda PSQM - opisany została w zaleceniu ITU-T P.86 [57], PEAQ (ang. Peceptual Evaluation of Audio Quality) noma BS.387 [58] opacowana dla sygnałów akustycznych w pełnym paśmie częstotliwości odbieanym pzez człowieka. Miay PSQM, PESQ, PEAQ należą do gupy metod intuzyjnych, uwzględniają ównież niektóe aspekty psychoakustyczne, np. maskowanie zakłóceń. Metoda PSQM Metoda PSQM pzeznaczona jest do badania systemów tansmisji telefonicznej w oganiczonym paśmie od 3 do 34 Hz zgodnie z zaleceniem ITU-T P.86 [56]. Wyniki testów pzepowadzanych tą metodą posiadają najwyższą koelację z wynikami testów subiektywnych, sięgającą nawet 98%. Mimo tego, że metoda ta jest stosunkowo posta nie uzyskała akceptacji do badań jakości mowy tansmitowanej w sieci komputeowych VoIP (ang. Voice ove Intenet Potocol) gdyż nie uwzględnia ona wpływu utaty oaz zmiennego opóźnienia pakietów danych. 8
Testy jakości mowy w opaciu metodę PSQM polegają na podobnie jak wszystkie testy obiektywne na poównywaniu wzocowego sygnału wejściowego x[i] z wyjściowym sygnałem y[i] zniekształconym w wyniku tansmisji pzez badany układ. Pzed pzystąpieniem do poównywania wewnętznych epezentacji sygnałów poddawane są one pzekształceniom odpowiadającym psychofizycznemu odbioowi mowy pzez ludzkie ucho. Pecepcja mowy jest zóżnicowana w zależności od częstotliwości i względnego poziomu głośności. Tansfomacja sygnałów z wykozystaniem modelu pecepcyjnego z postaci fizycznej na postać psychofizyczną odbywa się w tzech etapach: pzekształcenie czasowo-częstotliwościowe popzez wyznaczenie kótkookesowej, N- punktowej dysketnej tansfomaty Fouiea DFT dla fagmentu N-póbek sygnału amkowanego oknem Hanninga (najczęściej N=56 dla fs=8khz), pzeskalowanie częstotliwości - za pomocą filtów bakowych, w któych szeokości pasma oaz częstotliwość śodkowa filtu zwiększają się waz z częstotliwością. Na sygnał nakładany jest dodatkowo maskujący szum Hotha, pzeskalowanie poziomu natężenia - w celu uwzględnienia subiektywnego odczucia głośności wykonywane jest pzeskalowanie poziomu natężenia ze skali decybelowej na fonową (gdyż subiektywne odczucie głośności nie zależy liniowo od poziomu natężenia sygnału wyażonego w decybelach) a następnie wyaża się tą głośność w skali sonowej (gdyż subiektywne ważenie zwiększenia głośności zmienia się nieliniowo waz ze zmianą głośności). W wyniku poównania wewnętznej epezentacji tak pzekształconych sygnałów (wzocowego i zdegadowanego) wyznaczane są odległości pomiędzy ich paametami oaz obliczany jest wskaźnik PSQM, któy jest bezpośednio powiązany z jakością badanego sygnału mowy. Wskaźnik ten pzyjmujący watości w skali od (jakość doskonała) do 6.5 (badzo niska) może zostać następnie pzekształcony do subiektywnej miay MOS. Metoda PESQ Metoda PESQ jest ozwinięciem testu PSQM ale wykozystuje odmienny model pecepcyjny oaz inny sposób pzetwazania sygnałów. Metoda ta opisana została w zalecenie ITUT P.86 [57]. W stosunku do metody PSQM dodano w niej algoytm wyównywania czasowego sygnałów oaz wyównywania mocy pomiędzy dwoma Sygnałami, dzięki czemu zaadaptowano ją do pomiaów jakości pzekazu mowy w sieciach VoIP. Pozostała cześć badania pzebiega podobnie jak w metodzie PSQM. Dla sygnałów wzocowego i testowanego wyznaczane są ich epezentacje wewnętzne, a następnie obliczane są między nim óżnice odpowiadające bezpośednio jakości mowy. Wskaźnik wynikowy PESQ zawiea jest w skali oceny od -,5 do 4,5, któy jest następnie kalibowany według skoelowanej skali MOS od do 5 zgodnie z ITU-T P.8 [4]. 8
Podstawową zaletą tej metody jest uwzględnienie większości czynników degadujących jakość mowy. Metoda testów PESQ wykozystywana jest głównie pzy badaniach i pojektowaniu kodeków cyfowych dla sieci IP gdyż wykazuje się największą spośód stosowanych w takich sieciach metod koelacją z wynikami testów subiektywnych, zędu 9-95%. Metoda PEAQ Stosowana dla szeokopasmowego sygnału audio zgodnie z zaleceniem BS.387 [58]. W metodzie PEAQ poównuje się oyginalny sygnał efeencyjny do sygnału po zakodowaniu oaz do sygnału odkodowanego. Pocedua pzekształcenia sygnałów w modelu pecepcyjny jest analogiczna do tej opisanej dla metody PSQM. Po pzeskalowaniu sygnałów i wyznaczeni FFT, uwzględnia wpływ ucha zewnętznego i śodkowego oaz zjawiska maskowania następuje wyodębnienie cech wewnętznych sygnałów i obliczenie wskaźnika jakości na podstawi óżnicy pomiędzy watościami cech sygnału. 5.4.. Zozumiałości mowy tansmitowanej w pomieszczeniach pogłosowych Sygnał mowy tansmitowany w układzie złożonym z systemu nagłośnieniowego ozmieszczonego w pomieszczeniu pogłosowym poddawany jest dużym zniekształceniom. Dążenie do zapewnienia dostatecznego poziomu natężenia dźwięku w miejscu odsłuchu powodować może znaczne pogoszenie zozumiałości pzekazu z uwagi na silne wielokotne odbicia (ewebeacje) geneujące silny pogłos. Do pomiau zozumiałości mowy w takich waunkach wykozystywane są wskaźniki paametyzujące zjawiska pogłosowe takie jak: kzywa pogłosowa, czas wczesnego zaniku, współczynnik dźwięku bezpośedniego do pogłosowego, wyazistość, pzejzystość, odstęp echa, wskaźnik pogłosu i inne oaz paamety pzestzenne takie jak: skuteczność odbić bocznych czy eakcja pomieszczenia. Dugą gupą metod oceny zozumiałości w waunkach pogłosowych są metody opate na funkcji pzeniesienia modulacji MTF (ang. Modulation Tansfe Function) takie jak STI, RASTI, STIPA. Metody te opieają się na założeniu, iż w wyniku zniekształceń pogłosowych następuje zmniejszenie głębokości modulacji tansmitowanego pzez układ szumu testującego. Badania zmian modulacji dokonuje się w poszczególnych pasmach oktawowych dla częstotliwości modulujących wynikających z podzielenia pzedziału,63 -,5 Hz na pasma tecjowe, odpowiadające obwiedni sygnału mowy natualnej. Modulacji poddawany jest szum posiadający śednią widmową gęstość mocy mowy natualnej, pzy czym współczynnik modulacji sygnału nadawanego wynosi m= %. 8
Metoda oceny zozumiałości STI (ang. Speech Tansmission Index), wpowadzona w 97. [] opiea się na pomiaach wykonywanych w 7 pasmach oktawowych, któych częstotliwości śodkowe z zakesu 5-8 Hz są modulowane cztenastoma óżnymi częstotliwościami modulującymi z pzedziału,63 -,5 Hz. Metoda ta jest czasochłonna i kosztowna obliczeniowo, wymaga bowiem wykonania 98 pomiaów w każdym punkcie badanego obszau. Metoda obliczania wskaźnika opisana została w IEC 668-6 []. Wyliczone watości wskaźnika zozumiałości pezentowane są w watościach skali CIS zgodnie z zaleceniem IEC 6849 [4] dla systemów ostzegawczych. Wskaźnik tansmisji mowy STI obliczany jest zgodnie z zależnością [59] [6]: STI = w L j= w j MTF j (5.9) gdzie: MTFj - wskaźnik funkcji pzeniesienia modulacji dla j-tego podpasma oktawowego, w j - współczynnik wagowy dla j-tego podpasma oktawowego. Możliwe jest ównież wyznaczenie MTF z odpowiedzi impulsowej układu akustycznego [6], w opaciu o następującą zależność: kg H ( i) H ( LF i) i= kd MTF ( Fmod ) = kg (5.) H ( i) i= kd gdzie: L F nume pążka odpowiadający częstotliwości modulującej F mod. W celu zedukowania czasochłonności pocesu pomiaowego STI opacowano jego uposzoną wesję RASTI (ang. RApid Speech Tansmission Index), któa wykozystuje tylko 9 pomiaów w dwóch pasmach oktawowych o częstotliwościach śodkowych 5 Hz i Hz z częstotliwościami modulującymi z zakesu -8 Hz (dla pasma f ś =5 Hz) oaz,7 -, Hz (dla pasma f ś = Hz). Ponieważ metoda RASTI daje tylko pzybliżony wynik a pełna metoda STI jest badzo czasochłonna opacowano ównież metodę pośednią STIPA (ang. Speech Tansmission Index fo Public Addess Systems) wykozystującą 7 pasm oktawowych z częstotliwościami modulującymi. Pomiay STI dają dobe ezultaty jedynie w odniesieniu do układów liniowych w któych nie są stosowane takie uządzenia jak wokodey, pocesoy efektów czy układy pzesuwające lub powielające częstotliwość. 83
5.5. Miay zniekształceń sygnału mowy opate na liniowej pedykcji Dla każdego fonemu, stan taktu głosowy mówcy daje się opisać zbioem paametów, któe znajdują odzwieciedlenie w widmie tansmitancji filtu taktu głosowego w postaci występujących w nim chaakteystycznych maksimów tzw. fomantów. Położenie oaz poziom fomantów występujących w fonemach wpływa na możliwości ich ozóżnienia pzez słuchacza. Skutkiem intefeencji szeokopasmowej są zmian paametów sygnału mowy, któe wygodnie jest intepetować właśnie jako zmiany paametów filtu taktu głosowego. Podejście takie umożliwia wyznaczenie obiektywnych wskaźników odległości pomiędzy wektoami współczynników filtu dla sygnału oyginalnego i zmienionego, któe to wskaźniki można taktować jako mieniki stopnia zniekształcenia sygnału względem jego piewotnej postaci. Pzyjęta pzez autoa metoda pomiau stopnia zniekształceń sygnałów mowy opiea się na obliczeniu dla sygnałów: oyginalnego i zniekształconego watości odległości pomiędzy zbioami paametów pedykcji liniowej (LPC) oaz w celach poównawczych współczynników cepstalnych i mel-cepstalnyh (MFCC. Do obliczeń wykozystano znane metyki badania odległości. Jedną z metyk jest miaa LLR (ang. Log-Likelihood Ratio). Pomia odległości LR (ang. Likelihood Ratio), któy został wpowadzony pzez F. Itakua [6] [63] [64], wykozystuje do ilościowego opisu zniekształceń w widmie sygnału mowy współczynniki LPC paametyzujące obwiednię widma zaówno sygnału wejściowego jak i wyjściowego (zniekształconego). Zniekształcenia te standadowo związane są z pocesem kodowanie mowy w systemach telekomunikacyjnych ale dzięki ich uniwesalnym właściwościom możliwe jest ich zastosowanie do oceny defomacji sygnału innych typów, w tym ównież zniekształceń wpowadzanych pzez intefeencję szeokopasmową, co zostało pzez autoa ozpawy pokazane w [8] [7] [6]. Odległość LR jest zdefiniowana jako stosunek enegii sygnałów esztkowych pzed i po dokonaniu opeacji kodowania LPC. Wynikowe współczynniki pedykcji a IN ={a, a,, a p } są wyznaczane tak aby minimalizować enegię sygnału esztkowego (4.4). Każda zmiana wektoa współczynników powoduje więc zawsze zwiększenie poziomu enegii sygnału esztkowego. Estymacja sygnału w opaciu o watości elementów wektoa a IN, któe w wyniku zniekształceń sygnału pzyjmują nowe watości a OUT ={a, a,, a p } powadzi do syntezy sygnału będącego zdefomowaną wesją sygnału oyginalnego. Zdekodowanie sygnału w opaciu o błędne współczynniki pedykcji spowoduje więc zawsze wzost błędu pedykcji, a co za tym idzie wzost enegii sygnału esztkowego. Wynika więc z tego, że watości współczynnika LR >=. W wyniku zlogaytmowania współczynnika LR otzymuje się miaę odległości LLR, któą można zdefiniować jako: 84
, =logt U V U V W (5.) gdzie a jest wektoem współczynników LPC sygnału niezakłóconego, a - wektoem współczynników LPC sygnału zakłóconego, R natomiast to maciez autokoelacji sygnału niezakłóconego. Miaa odległości zdefiniowana w (5.) nie jest symetyczna, nie spełnia więc waunków metyki (5.). Poblem ten może zostać ozwiązany popzez zastosowanie symetycznej tansfomacji w postaci:, =, +, (5.) Kolejną miaą opatą na metodzie liniowej pedykcji jest miaa zniekształceń Itakua-Saito (IS). Zgodnie z (5.), pzyjmując jako wekto cech sygnału enegię sygnału esztkowego związaną z błędem pedykcji otzymujemy zależność:, =Z [ U [ \Z V V U \+logt[ W (5.3) [ gdzie σ i σ to waiancje błędu pedykcji odpowiadająca wzmocnienia tou dla sygnału odpowiednio: wzocowego i zakłóconego. Jak już wspomniano wcześniej odległość IS nie jest symetyczna, a jej symetyczną ealizacją jest metyka Cos-h zgodnie z (5.). Bieze ona pod uwagę ogólny poziom obwiedni widma sygnału, któa nie odzwieciedla w pełni psychoakustycznych właściwości słuchu. 5.6. Wybó metodyki i zastosowanych mia Aby dokonać pawidłowej oceny jakości pzekazu sygnału należy zastosować metodę pomiau adekwatną do odzaju badanych sygnałów oaz dostosowaną do chaakteu zniekształceń. Metoda badania implikuje wybó niezbędnych paametów opisujących paamety sygnału i kanału komunikacyjnego, a także zastosowane wskaźniki oaz miay óżnic pomiędzy watościami wskaźników. Inny chaakte mają zakłócenia w tansmisji sygnału mowy w sieciach telekomunikacyjnych a inny zniekształcenia w pomieszczeniach pogłosowych. W wyniku pzepowadzonego pzeglądu podstawowych metod badania jakości pzekazu mowy nie dokonano wybou żadnej ze stosowanych metod jako dobze odzwieciedlającej chaakte zniekształceń powstających w polu zespołów źódeł szeokopasmowych. Stosowane powszechnie obiektywne metody pomiaów i oceny zozumiałości mowy w pomieszczeniach np. STI, RASTI, jak to pokazano w niniejszej pacy, są nieważliwe na wpływ zjawiska supepozycji sygnałów dochodzących do słuchacza z wielu źódeł. 85
W związku z powyższym zdecydowano się na wybanie metody badania odnoszącej się bezpośednio do zauważalnych zmian obiektywnych paametów związanych z mechanizmem geneowania głosu powstających w skutek intefeencji szeokopasmowej. Pzyjęta metoda pomiau stopnia zniekształceń sygnałów mowy opiea się na obliczeniu dla sygnałów: oyginalnego i zniekształconego watości odległości pomiędzy zbioami paametów pedykcji liniowej (LPC) oaz w celach poównawczych współczynników cepstalnych i mel-cepstalnyh (MFCC). Do obliczeń wykozystano matematyczne metyki stosowane do wyznaczania odległości pomiędzy wektoami. Z pzepowadzonych testów wynika, iż najbadziej efektywne wyniki daje wskaźnik IS, któego watość jest definiowana w opaciu o stosunek enegii sygnałów esztkowych pzed i po dokonaniu opeacji kodowania LPC, w któym to wynikowe współczynniki pedykcji są wyznaczane tak aby minimalizować enegię sygnału esztkowego. Każde zniekształcenie sygnału, a co za tym idzie zmiana wektoa współczynników, powoduje zawsze zwiększenie poziomu enegii sygnału esztkowego. Estymacja sygnału w opaciu o nowe watości elementów wektoa, powadzi do syntezy sygnału będącego zdefomowaną wesją sygnału oyginalnego co deteminuje wzost błędu pedykcji i enegii sygnału esztkowego. Implikuje to także wzost watości wskaźnika odległości dzięki czemu jest on dobym mienikiem istotności zmian w analizowanych sygnałach mowy. 86
6. WYNIKI BADAŃ SYMULACYJNO-POMIAROWYCH PARAMETRÓW SYGNAŁU MOWY Poniżej pzedstawiono wybane wyniki badań symulacyjnych i pomiaowych dla tzech typowych układów wieloźódłowych odpowiadających zeczywistym ealizacjom systemów nagłaśniających, tj. układ szyku źódeł ozłożonych w jednej linii, układ ciągu komunikacyjnego oaz układ matycowy (sala audytoyjna). W obszaach odsłuchowych każdego z tych układów wyznaczone zostały następujące wskaźniki odległości: LLR (Log-Likelihood Ratio), IS (Itakua- Saito), CD (Cepstum Distance), melcd (MFCC Distance). Jako potwiedzenie istotnego wpływu intefeencji szeokopasmowej na jakość i zozumiałość pzekazu głosowego pzedstawiono wyniki pzepowadzonego testu komputeowego ozpoznawalności polskich typletów cyfowych, tansmitowanych w systemie wieloźódłowym. 6.. Zobazowanie ozkładu zmian wskaźników odległości w polu akustycznym układów wieloźódłowych Watości wskaźników LLR, IS, CD i melcd (zobazowanych na wykesach zapezentowanych w dalszej części ozdziału) obliczone zostały piewotnie w opaciu o symulacje komputeowe idealnych (teoetycznych) odpowiedzi impulsowych, wyznaczonych na podstawie zależności geometycznych. Te same wskaźniki wyznaczono następnie pzy uwzględnieniu zeczywistych odpowiedzi impulsowych, pomiezonych metodą koelacyjną opisaną w ozdz. 3.. Chaakteystyki tak pomiezonych zeczywistych źódeł (głośników) pzedstawione są na ysunkach 3.6 i 3.7. Obliczenia teoetyczne wykonane zostały pzy zastosowaniu aplikacji opisanej w ozdz. 3.3. Do badań pzyjęto upaszczające założenie o dookólnych chaakteystykach kieunkowych dla całego badanego widma, zaówno teoetycznych jak i zeczywistych źódeł. Dla źódeł teoetycznych założono, że posiadają one płaską funkcję pzenoszenia dla całego zakesu częstotliwości emitowanego sygnału. Źódła zeczywiste posiadają natomiast funkcje pzenoszenia pokazane na ys. 3.7. We wszystkich obliczeniach pzyjęto ównież założenie oaz baku odbić i pochłaniania dźwięku (pole swobodne, bez pzeszkód pomiędzy źódłem a punktem odsłuchu). Dla wszystkich pezentowanych w dalszej części ozdziału wykesów pezentujących mapy zmienności wskaźników odległości, zastosowano wspólną skalę koloów. Kolo niebieski odpowiada najniższym watościom wskaźników i wskazuje obszay, w któych bak jest zniekształceń lub są one niewielkie. Koloy od żółtego do czewonego wskazują na obszay o znacznym stopniu zniekształcenia względem sygnału oyginalnego. W dalszej części ozdziału zapezentowano jedynie wybane pzykłady map zmienności, dla wybanych układów i fonemów, któe szczególnie dobze pezentują chaakteystykę zmian watości obliczonych wskaźników. Wyniki analizy tych samych układów, ale dla innych 87
ozkładów pzestzennych źódeł oaz punktów odsłuchu, zostały pzedstawione szezej w Dodatkach B-B3. 6... Układ typu szyk źódeł w jednej linii Poniżej pzedstawiono zmienność wskaźników wyznaczonych dla sygnałów głosowych tansmitowanych pzez układ źódeł, okeślany w dalszej części jako typ szyku źódeł w jednej linii (5 źódeł ozłożonych ównomienie co d=.m wzdłuż linii). Płaszczyzna odsłuchu (5m x m), na któej badane są watości wskaźników, znajduje się w płaszczyźnie osi apetuy. Poównanie map zmienności dwóch wskaźników, IS oaz melcd (ys. 6.b i 6.d oaz 6. i B.), wskazuje na spoą óżnicę w dynamice ich zmian. Jednocześnie względne zmienności watości wskaźników IS oaz melcd w całym badanym obszaze są niemal identyczne. Taka zgodność daje dużą dozę pewności co do pawidłowości ich zastosowania oaz daje możliwość ich zamiennego stosowania. Dwa pozostałe wskaźniki używane pzez autoa, tj. LLR oaz CD, ównież wykazują niemal identyczny ozkład zmienności na badanej płaszczyźnie w stosunku do ozkładu zmian wskaźnika IS (ys.6.a i 6.c). Z uwagi na zalety wskaźnika IS, któy jest wygodniejszy do stosowania od pozostałych gdyż lepiej uwidacznia zóżnicowanie zmian watości w całym zakesie ich zmienności, został pzez autoa pzyjęty jako podstawowy mienik jakości, odwzoowujący stopnień zniekształcenia sygnału głosowego. a LLR.5 b IS.5 5 5.5.5 odległość od wzdłuż osi Y [4pkt/m] 5 5.5 5 5 5 3 35 4 c CD 4 3 5 5.5 5 5 5 3 35 4 d melcd 8 6 4 5 5 5 5 5 3 35 4 5 5 5 3 35 4 Rysunek 6. Poównanie map zmienności wskaźników odległości: a) LLR; b) IS; c) CD; d) melcd w funkcji położenia punktu odsłuchu, dla pzykładowego układu typu szyk źódeł w jednej linii, dla głoski e. odległość od wzdłuż osi X [4pkt/m] Na ysunku 6. pzedstawione zostały mapy zmienności wskaźnika IS dla sześciu samogłosek: a, e, i, o, u, y, tansmitowanych pzez układ źódeł typu szyk w jednej linii. W obszaze odsłuchu dla każdej z głosek zauważalna jest duża zmienność watości wskaźników. 88
Obszay, w któych występują stosunkowo małe zniekształcenia są ozdzielone obszaami, w któych zauważalny jest duży stopień zniekształcenia sygnału mowy. Obliczenia wykonane dla tego samego układu jak na ys. 6., ale wyznaczone z uwzględnieniem odpowiedzi impulsowych zeczywistych źódeł (głośników), pokazano na ysunku 6.3. a IS.5 o IS.5 3.5.5 3.5.5 odległość od wzdłuż osi Y [8pkt/m] 4 3 4 5 6 7 8 e.5 3 4 3 4 5 6 7 8.5 i.5.5 4 3 4 5 6 7 8 u.5 3 4 3 4 5 6 7 8.5 y.5.5 3.5.5 3.5.5 4 4 3 4 5 6 7 8 3 4 5 6 7 8 odległość od wzdłuż osi X [8pkt/m] Rysunek 6. Mapy zmienności wskaźnika IS dla sześciu samogłosek, dla liniowego układu 5 źódeł typu szyk źódeł w jednej linii, ozstaw źódeł. m (źódła idealne). 89
a IS.5 o IS.5 3.5.5 3.5.5 odległość od wzdłuż osi Y [8pkt/m] 4 3 4 5 6 7 8 e.5.5 3 4 3 4 5 6 7 8.5 i.5 4 3 4 5 6 7 8 u.5.5 3 4 3 4 5 6 7 8.5 y.5 3.5.5 3.5.5 4 4 3 4 5 6 7 8 3 4 5 6 7 8 odległość od wzdłuż osi X [8pkt/m] Rysunek 6.3 Mapy zmienności wskaźnika IS dla sześciu samogłosek, dla liniowego układu 5 źódeł typu szyk źódeł w jednej linii, ozstaw źódeł. m. Badane fonemy, układy źódeł oaz położenia płaszczyzny odsłuchu są identyczne jak na ys. 6. ale obliczenia wykonano dla odpowiedzi impulsowych zeczywistych źódeł (głośników). Na ysunku 6.4 pokazano w jaki sposób zmienia się watość wskaźnika IS dla głoski o w funkcji zmiany ozstawu źódeł w zakesie od d=.m do d=.45m. Waz ze wzostem ozstawu źódeł zaobsewować można wyównanie watości wskaźników pzy jednoczesnym zmniejszeniu poziomu zniekształceń w całym badanym obszaze. Podobny efekt uzyskano ównież dla innych głosek (ys. B.). 9
. m.3 m IS IS 3 3 4 3 4 5 6 7 8.5 m 4 3 4 5 6 7 8.35 m odległość od wzdłuż osi Y [8pkt/m] 3 4 3 4 5 6 7 8. m 3 3 4 3 4 5 6 7 8.4 m 3 4 3 4 5 6 7 8 4 3 4 5 6 7 8.5 m.45 m 3 3 4 4 3 4 5 6 7 8 3 4 5 6 7 8 odległość od wzdłuż osi X [8pkt/m] Rysunek 6.4 Mapy zmienności wskaźnika IS dla głoski o dla liniowego układu 5 źódeł typu szyk źódeł w jednej linii dla ośmiu ozstawów źódeł w zakesie od. m do.45 m (źódła idealne). Na ysunku 6.5 zapezentowano zmiany chaakteystyk częstotliwościowych (FFT i LPC) oaz zmiany watości współczynników pedykcji dla samogłoski o, w pzykładowo wybanych punktach odsłuchu, o stosunkowo dużych watościach współczynnika IS (dla układu typu szyk w jednej linii). Dużej watość współczynnika IS odpowiadają istotne zmiany chaakteystyk częstotliwościowych tansmitowanego sygnału. W poniższym pzykładzie (ys. 6.5) wyaźnie widoczna jest filtacja w okolicach częstotliwości piewszego fomantu. Podobne filtujące odziaływanie układów wieloźódłowych zaobsewowano ównież w pzypadku analizy widm innych głosek (ys. A.4). 9
6 5 widmo FFT sygnału oyginalnego widmo FFT sygnału zniekształconego pseudowidmo LPC sygnału oyginalnego pseudowidmo LPC sygnału zniekształconego funkcja pzenoszenia systemu Poziomy względne widm 4 3 4 6 8 4 6 8 częstotliwość [Hz] a o a C Watość wsp. pedykcji Nume współczynnika pedykcji Rysunek 6.5 Zniekształcenia widma FFT oaz pseudowidma LPC sygnału (głoska o ), dla układu typu szyk źódeł w jednej linii (5 źódeł, ozstaw.m - źódła idealne), w punkcie odsłuchu x=.85m, y=.95m, kąt = 4 st. Watość wskaźnika IS =.8. Poniżej wykesów zamieszczono watości współczynników pedykcji sygnału oyginalnego a i zniekształconego a C. Na uwagę zasługuje fakt silnej zmienności chaakteystyk fomatowych w miaę zmiany położenia punktu pomiau. Pzesuwając go wzdłuż pewnej linii można wyznaczyć chaakteystyki zmian pseudowidma LPC, w postaci zobazowań dwu- lub tójwymiaowych (pzykłady zapezentowano w dodatku A na ys. A.-3). Sytuacja taka odpowiada uchowi słuchacza w obszaze odsłuchu, co jest szczególnie chaakteystyczne dla układów akustycznych typu ciąg komunikacyjny, opisanych w dalszej części ozdziału. W pzypadku takim słuchacz może odczuwać znaczne zmiany bzmienia docieających do niego sygnałów głosowych spowodowane silnymi zmianami położenia i poziomów fomantów. Zmiany chaakteystyk fomatowych mogą następować badzo szybko, pzy nawet nieznaczny pzesunięciu punktu odsłuchu. Na ysunku 6.6 pzedstawiono pseudowidmo LPC dla dwóch 9
sąsiednich punktów w obszaze odsłuchu, odpowiadających odległości międzyusznej (. m). Jak widać następuje tu silne odchylenie częstotliwości piewszego fomatu F od położenia piewotnego, oaz zóżnicowanie pomiędzy lewym a pawym uchem. 5 Poziomy fomatów 4 3 5 5 częstotliwość [Hz] Rysunek 6.6 Pseudowidma LPC sygnału (głoska e ) dla układu typu kolumnowego (5 źódeł w jednej linii, ozstaw. m - źódła idealne), w dwóch sąsiednich punktach odsłuchu odległych od siebie o. m (odległość międzyuszna). Zielony wykes odpowiada sygnałowi oyginalnemu, wykes czewony lewe ucho; wykes niebieski pawe ucho. Na ysunku 6.7 pokazano zmiany współczynnika koelacji Peasona R P, liczonego dla pseudowidm LPC, dla takiego samego układu źódeł jak pzy wyznaczaniu wskaźników odległości zapezentowanych na ys. 6. i 6.3 (układu szyku źódeł w jednej linii). W celach poównawczych względem wskaźnika IS watości współczynnika koelacji zostały podane w odwóconej skali (zeu odpowiada maksymalna watość współczynnika, jedynce odpowiada watość minimalna). Niemal we wszystkich punktach pomiaowych watość współczynnika koelacji była stosunkowo wysoka (powyżej.5 w skali standadowej). Poównanie ozkładu zmian watości wskaźników odległości oaz współczynnika koelacji potwiedza, iż dzięki zastosowaniu wskaźników odległości otzymano znacznie pecyzyjniejszy obaz zmian chaakteystyk sygnału w badanym obszaze. 93
a o -R P -R P.8.8 3.6.4. 3.6.4. odległość od wzdłuż osi Y [8pkt/m] 4 3 4 5 6 7 8 e.8.6.4 3 4 3 4 5 6 7 8. i.8.6.4 3. 4 3 4 5 6 7 8 u.8.6.4 3 4 3 4 5 6 7 8. y.8.6.4 3. 4 4 3 4 5 6 7 8 3 4 5 6 7 8 odległość od wzdłuż osi X [8pkt/m] Rysunek 6.7 Mapy zmienności współczynnika koelacji Peasona, w skali odwóconej (-R P ) gdzie oznacza bak koelacji, dla sześciu samogłosek, dla liniowego układu 5 źódeł typu szyk w jednej linii, ozstaw źódeł. m (źódła idealne). Badane fonemy, układ źódeł oaz położenie płaszczyzny odsłuchu są identyczne jak na ys. 6. i 6.3. W układzie typu szyk w jednej linii występuje duża zmienność watości współczynnika IS w całym analizowanym obszaze, dla każdej badanej głoski. Obszay o dużej watości wskaźnika IS (powyżej ) układają się w chaakteystyczne pążki, któe zmieniają się waz ze zmianą kąta odchylenia punktu odsłuchu od osi głównej apetuy. Zmiany te wykazują związek z chaakteystykami kieunkowymi dla danego układu źódeł, wyznaczonymi dla częstotliwości fomantowych poszczególnych głosek. Na ysunku 6.8 pokazano zależność położenia obszaów o wysokich watościach współczynnika IS względem chaakteystyk kieunkowych dla pzykładowego układu źódeł. Chaakteystyki kieunkowe wyznaczone zostały dla częstotliwości odpowiadających piewszej (ys. 6.8a), dugiej (ys. 6.8b) i tzeciej (ys. 6.8c) częstotliwości fomantowej dla głoski e. Na wykesach czewone linie wyznaczają kieunki ze chaakteystyk kieunkowych. Zgodnie z oczekiwaniami wzdłuż tych linii skupione są obszay o dużych poziomach zniekształceń, gdyż w natualny sposób występuje tam filtacja poszczególnych fomantów. 94
odległość od wzdłuż osi Y [8pkt/m] a) ) 5 5 5 3 35 4 3 4 5 6 7 8 odległość od wzdłuż osi X [8pkt/m] odległość od wzdłuż osi Y [8pkt/m] b) 5 5 5 3 35 4 3 4 5 6 7 8 odległość od wzdłuż osi X [8pkt/m] odległość od wzdłuż osi Y [8pkt/m] c) 5 5 5 3 35 4 3 4 5 6 7 8 odległość od wzdłuż osi X [8pkt/m] Rysunek 6.8 Wykesy chaakteystyk kieunkowych, wyznaczonych dla częstotliwości odpowiadających częstotliwościom fomantowym: a) piewszego fomantu F=53, b) dugiego fomantu F=574Hz, c) tzeciego fomantu F3=7Hz, nałożone na mapę watości wskaźników IS, dla układu 5 źódeł ozłożonych wzdłuż linii co.m (źódła idealne), dla głoski e. Czewone linie wyznaczają kieunki ze chaakteystyk kieunkowych. 95
6... Układ źódeł typu ciąg komunikacyjny Rysunki 6.9 i 6. obazują zmienność watości współczynnika IS dla głoski u, dla układu źódeł okeślanych w dalszej części jako układ typu ciąg komunikacyjny (7 źódeł ozmieszczonych ównomienie wzdłuż linii). Płaszczyzna odsłuchu o ozmiaach (.5m x m), na któej wyznaczono watości IS, znajduje się poniżej płaszczyzny źódeł o.5 m. Watości wskaźników wyznaczano z ozdzielczością 8 punktów odsłuchu na m, w obu kieunkach X i Y. Dla układu typu ciąg komunikacyjny wyaźnie widoczny jest efekt polepszenia jakości akustycznej w obszaach bliskich względem pojedynczego źódła. Gdy punkt odsłuchu znajduje się blisko któegoś ze źódeł, wówczas zakłócający wpływ pozostałych źódeł jest niewielki (nieistotny), co pzekłada się na badzo małe watości wskaźników (bliskie zeu). Obszay w pobliżu źódeł mają kolo ciemnoniebieski, oznaczający bak zniekształceń. Jest to szczególnie dobze widoczne dla dużych odległości między źódłami (dla d > 3m). Stosunkowo silne zniekształcenia powstają natomiast w węzłach pomiędzy źódłami. Gdy odległości od punktu odsłuchu do kilku źódeł są poównywalne następuje efekt ozmazania watości wskaźnika IS. Występuje duża częstotliwość pzestzenna zmian watości wskaźnika, któa zmniejsza się waz ze wzostem ozstawu źódeł. Na zapezentowanej sekwencji map zmienności (ysunki od 6.9a do 6.9h) zostało pokazane jaki wpływ na ozkład watości wskaźnika IS mają zmiany ozstawu źódeł w zakesie od w zakesie od m do 4.5m. odległość od wzdłuż osi Y [8pkt/m] 5 5 5 5 5 5 5 5 a 3 4 5 6 7 8 b 3 4 5 6 7 8 c 3 4 5 6 7 8 d 3 4 5 6 7 8 IS.5.5.5.5 5.5 5 5 5 5 5 5 5 odległość od wzdłuż osi X [8pkt/m] e 3 4 5 6 7 8 f 3 4 5 6 7 8 g 3 4 5 6 7 8 h 3 4 5 6 7 8 IS.5.5.5 Rysunek 6.9 Mapy zmienności wskaźnika IS dla głoski u, dla układ typu ciąg komunikacyjny źódła idealne. Płaszczyzna odsłuchu znajduje się.5 m poniżej płaszczyzny źódeł. Zmiana ozstawu źódeł w zakesie od m (a) do 4.5 m (h) z kokiem.5 m. 96
Obszay, w któych zachodzą silne zjawiska intefeencyjne, powodujące silne zakłócenia sygnału, odwzoowane są wysokimi poziomami wskaźników IS. Są to obszay zaznaczone w koloystyce pomaańczowo-czewonej, szczególnie dobze widoczne w obszaach znajdujących się w śodku pomiędzy źódłami. W Dodatku B pzedstawione są mapy zmienności IS dla pozostałych samogłosek polskich, dla tego samego układu źódeł typu ciąg komunikacyjny, w óżnych konfiguacjach ozstawu źódeł i położenia płaszczyzny odsłuchu. Na ysunku 6. pokazano mapę zmienności wskaźnika IS dla głoski u, dla układu źódeł identycznego jak na ys. 6.9, ale obliczenia wykonano w opaciu o pomiay zeczywistych odpowiedzi impulsowych zestawu głośników (ch-ki z ys. 3.6 i 3.7). odległość od wzdłuż osi Y [8pkt/m] 5 5 5 5 5 5 5 5 a 3 4 5 6 7 8 b 3 4 5 6 7 8 c 3 4 5 6 7 8 d 3 4 5 6 7 8 IS.5.5.5.5 5.5 5 5 5 5 5 5 5 odległość od wzdłuż osi X [8pkt/m] e 3 4 5 6 7 8 f 3 4 5 6 7 8 g 3 4 5 6 7 8 h 3 4 5 6 7 8 IS.5.5.5 Rysunek 6. Mapy zmienności wskaźnika IS dla głoski u, płaszczyzna odsłuchu znajduje się.5 m poniżej płaszczyzny źódeł, układ źódeł typu ciąg komunikacyjny. Badany fonem, układy źódeł oaz położenie płaszczyzny odsłuchu są identyczne jak na ys. 6.9, ale obliczenia wykonano dla odpowiedzi impulsowych zeczywistych źódeł (głośników), któych chaakteystyki pokazane są na ys. 3.6 i ys. 3.7. 97
odległość od wzdłuż osi Y [8pkt/m] 5 5 5 5 5 5 5 5 a 4 6 8 4 6 b 4 6 8 4 6 c 4 6 8 4 6 d 4 6 8 4 6 IS.5.5.5.5 5.5 5 5 5 5 5 5 5 odległość od wzdłuż osi X [8pkt/m] e 4 6 8 4 6 f 4 6 8 4 6 g 4 6 8 4 6 h 4 6 8 4 6 IS.5.5.5 Rysunek 6. Mapy zmienności współczynnika koelacji Peasona, w skali odwóconej (-R P ) gdzie oznacza bak koelacji, dla głoski u, płaszczyzna odsłuchu znajduje się.5 m poniżej płaszczyzny źódeł, układ źódeł typu ciąg komunikacyjny (źódła idealne). Badany fonem, układy źódeł oaz położenie płaszczyzny odsłuchu są identyczne jak na ys. 6.9 i 6.. Rysunek 6. pokazuje zmiany współczynnika koelacji Peasona liczonego dla pseudowidm LPC, dla takiego samego układu źódeł jak pzy wyznaczaniu wskaźników odległości dla układu ciągu komunikacyjnego zobazowanych na ys. 6.9 i 6.. Również w tym pzypadku, podobnie jak dla szyku źódeł, aby ułatwić bezpośednie poównanie względem wskaźnika IS, watości współczynnika koelacji zostały podane w odwóconej skali (zeu odpowiada maksymalna watość współczynnika, jedynce odpowiada watość minimalna). Także dla tego układu uzyskano w niemal wszystkich punktach pomiaowych watość współczynnika koelacji powyżej.5 (w skali standadowej). Wynik ten potwiedza wcześniejszy wniosek, iż dzięki zastosowaniu wskaźników odległości otzymano badziej pecyzyjny obaz zmian chaakteystyk sygnału w badanym obszaze. 6..3. Układ źódeł typu sala audytoyjna Rysunek 6. obazuje zmienność watości współczynnika IS dla głoski e, dla układu matycowego źódeł, okeślanych w dalszej części jako układ typu sala audytoyjna. Obsza o wymiaach podłogi 6m x m nagłaśniany jest pzez źódeł ozmieszczonych w jednej płaszczyźnie (np. w suficie). Płaszczyzna odsłuchu, na któej wyznaczono watości IS, znajduje się 98
poniżej płaszczyzny źódeł w zakesie od.m do m. Watości wskaźników wyznaczano z ozdzielczością 4 punktów odsłuchu na m w obu kieunkach X i Y. Mapy zmienności wskaźnika CD (Cepstum Distance) dla identycznego układu zapezentowane zostały w Dodatku B3. a IS b IS.8.8 3.6 3.6 odległość od wzdłuż osi Y [4pkt/m] 4 5 6 3 3 4 5 6 7 8 c.4..8.6 4 5 6 3 3 4 5 6 7 8 d.4..8.6 4.4 4.4 5. 5. 6 6 3 4 5 6 7 8 3 4 5 6 7 8 odległość od wzdłuż osi X [4pkt/m] Rysunek 6. Mapy zmienności wskaźnika odległości IS (Itakua-Saito) w funkcji położenia punktu odsłuchu. Obsza o wymiaach podłogi 6m x m nagłaśniany jest pzez źódeł ozmieszczonych w jednej płaszczyźnie (np. w suficie). Płaszczyzna odsłuchu znajduje się poniżej płaszczyzny źódeł o: a). m; b).m; c) m; d) m. W celach poównawczych watości wskaźnika IS dla wszystkich pzypadków zostały oganiczone do jednakowego zakesu [, ]. W tabelach 6. i 6. zestawiono poównanie watości wskaźników STI oaz IS dla zeczywistych odpowiedzi impulsowych, pomiezonych w sali audytoyjnej z nagłośnieniem podwieszonym w suficie ( źódeł). Badania metodą koelacyjną pzepowadzono dla 3 punktów pomiaowych, ozmieszczonych w nagłaśnianym obszaze typu sala audytoyjna (ozdział 3.). Watości zamieszczone w tabeli 6. obliczono dla całkowitych pzebiegów miezonych odpowiedzi impulsowych, uwzględniających pełny pogłos. W tabeli 6. zestawiono watości wskaźników obliczone tylko dla początkowych fagmentów odpowiedzi impulsowych (ok. ms) pomiezonych zgodnie z metodologią opisaną w ozdziale 3., odpowiadających czasom dojścia do punktu odsłuchu impulsów bezpośednio od źódeł. Poównanie obu zestawień potwiedza bak czułości wskaźnika STI na zniekształcenia tansmitowanego pzekazu, wynikające z intefeencji szeokopasmowej, w układach wieloźódłowych. 99
Tabela 6. Poównanie watości wskaźnika STI z watościami wskaźnika IS, dla 6 samogłosek polskich, w punktach pomiaowych audytoium z nagłośnieniem umieszczonym w suficie ( źódeł), wyznaczonych dla pełnych odpowiedzi impulsowych (ok. s). Wskaźnik IS pomia STI o e i o u y IR.8.448.694.895.374.834.698 IR.7778.7375.65.648.66.343.4 IR3.766.4.5579.4.7986..599 IR4.7498.393.676.3.68.747.488 IR5.753.348 3.599.343.8655.633.45 IR6.7539.537 3.8.593.94.988.45 IR7.766.965.8895.3393.8 4.485.66 IR8.764.433.4973.549.887.373.77 IR9.795.536 5.6838.337.47.94.7674 IR.787.336.8455.665..33.4 IR.78.77.7838.47.99.656.543 IR.736.3.47.898.3 3.8.6945 Tabela 6. Poównanie watości wskaźnika STI z watościami wskaźnika IS, dla 6 samogłosek polskich, w punktach pomiaowych audytoium z nagłośnieniem umieszczonym w suficie ( źódeł), wyznaczonych dla początkowych fagmentów odpowiedzi impulsowych (ok. ms), odpowiadających czasom dojścia do punktu odsłuchu impulsów bezpośednich od źódeł. Wskaźnik IS pomia STI o e i o u y IRpocz.995.67.94.36.359.34.54 IRpocz.997.77.684.36.57.4.9 IR3pocz.9965.334.486.9.976.4357.436 IR4pocz.9948.97.4553..64.38.97 IR5pocz.9957.334.36.459.793.69.784 IR6pocz.997.44.37.337.4599.389.956 IR7pocz.996.349.4534.38.66.96.5784 IR8pocz.9954.564.967.5767.975.3.799 IR9pocz.9956.95.37.885.484.664.34 IRpocz.9938.3.637.39.33.3.45 IRpocz.996.9464.774.99.954.3698.98 IRpocz.997.454.99.4779.6538.37.3698
Jak pokazano, zalecane pzez nomy obliczenia indeksów zozumiałości STI, bazujące na pomiaach tzw. funkcji pzenoszenia modulacji MTF, zapojektowane są głównie dla oceny wpływu na jakość pzekazu zjawisk pogłosowych. Nie zawsze w pełni odzwieciedlają one wszystkie aspekty zmniejszenia zozumiałości, gdyż wiązek funkcji MTF ze zozumiałością jest w istocie pośedni [6] [65] []. STI, któe dobze chaakteyzuje waunki pogłosowe, nie uwzględnia niemal w ogóle zjawisk związanych z intefeencją szeokopasmową. Rysunek 6.3 Pzykład zmian pseudowidma LPC sygnałów głosek a oaz i po pzejściu pzez modelowany system w wybanym punkcie odsłuchu dla: a) źódło, b) źódła, c) 4 źódła, d) źódeł; logaytmiczna skala częstotliwości. Wyniki obliczeń symulacyjnych wskazują, że wzost liczby współbieżnie działających źódeł sygnału, powoduje powstawanie silnych zniekształceń fomantów (ys. 6.3). Pzy wzoście liczby źódeł, od pojedynczego, popzez i 4 źódła aż do układu -tu źódeł, następuje wyaźna defomacja popocji między poszczególnymi fomantami. 6.. Badanie subiektywne degadacji jakości pzekazu w systemach wieloźódłowych W [6] opisano badania pzepowadzone na Wydziale ETI PG, pod kieownictwem da hab. inż. Henyka Lasoty, dotyczące wpływu intefeencji szeokopasmowej na zozumiałość pzekazu głosowego. Pzepowadzono test ozpoznawalności polskich typletów cyfowych w systemie
wieloźódłowym. Badania pzepowadzono w fomie komputeowego testu intenetowego, w któym udział wzięło 5 słuchaczy w wieku od 8 do 6 lat. Wyniki pzepowadzonych testów ilustuje ys. 6.4, pzedstawiający kzywe zozumiałości dla mowy na tle szumu (linia niebieska) oaz dla mowy z wpowadzonymi zniekształceniami występującymi w układach wieloźódłowych (linia czewona). Wyaźnie zauważalne jest pzesunięcie kzywej zozumiałości dla mowy zniekształconej w kieunku niższego poziomu szumu. Oznacza to, iż ten sam pocent popawnych odpowiedzi uzyskiwano we wszystkich badaniach dla niższego poziomu szumu. Aby uzyskać 5% zozumiałość poziom szum musiał być o ok..7 db niższy w pzypadku mowy bez zniekształceń. Rysunek 6.4 Kzywe zozumiałości: niebieska linia - mowa na tle szumu; czewona - mowa dodatkowo zniekształcona [6]. Na podstawie wyznaczonych kzywych zozumiałości okeślono póg pecepcji mowy (SRT) oaz wyznaczono nachylenie s wykesów zozumiałości, niezbędne do apoksymacji funkcji zozumiałości p zgodnie z zależnością (5.8). Nachylenie zbocza funkcji s, wyznaczane jest w punkcie SRT w jednostce [%/db]. Obie watości zostały wyznaczone pzy założeniu jednoodnego nachylenia zbocza funkcji w punkcie 5% zozumiałości mowy, za pomocą popocji matematycznej. Dla pzedstawionych powyżej kzywych, oba paamety pzedstawiają się następująco (tabela 6.3):
Tabela 6.3 Paamety funkcji zozumiałości mowy [6]. Metoda badania SNR [db] s [%/db] Wyłącznie szumy -,8 7, Szumy i zniekształcenia -, 6,7 Rysunek 6.5 Apoksymowane funkcje zozumiałości: niebieska linia - mowa na tle szumu, czewona - mowa dodatkowo zniekształcona [6]. Obie kzywe zozumiałości mowy (ys. 5.5) chaakteyzują się podobną watością nachylenia zboczy funkcji co świadczy o dobej poównywalności wyników. Opisane badania potwiedzają niekozystny wpływy intefeencji szeokopasmowej na zozumiałość mowy. Efekt ten jest szczególnie silnie zauważalny w waunkach występowania wysokiego poziomu szumu otoczenia. Wykozystywana w opisywanych badaniach aplikacja służąca do oceny stopnia zniekształcenia sygnału mowy, zealizowana w fomie komputeowego testu intenetowego, może zdaniem autoa zostać ozszezona o mechanizmy zawate w aplikacji opisanej w ozdziale 3.3. Pozwoliłoby to na bieżące weyfikowanie (a nawet kalibowanie) systemu na podstawie wyznaczonych paametów oaz dałoby możliwość testowania jakości sygnału po pzejściu pzez kodek LPC. 3
7. PODSUMOWANIE Celem głównym niniejszej pacy była weyfikacja tez, iż supepozycja sygnałów pochodzących ze współbieżnych źódeł ozmieszczonych w óżnych odległościach od punktu odsłuchu wywołuje efekt zniekształcenia paametów czasowo-częstotliwościowych sygnałów szeokopasmowych oaz, że wskazane jest zastosowanie obiektywnej, powtazalnej miay degadującego wpływu szeokopasmowej intefeencji liniowej na zozumiałość sygnałów mowy. Wymagało to pzepowadzenie analizy czasowo-częstotliwościowej układów akustycznych pzy wykozystaniu metody odpowiedzi impulsowych oaz opisanie chaakteu zniekształceń powstających na skutek pzestzennego ozkładu źódeł akustycznych. Pzepowadzono ównież szeeg badań symulacyjno-pomiaowych obazujących wpływ intefeencji szeokopasmowej na paamety sygnałów mowy, w wyniku czego zapoponowano zastosowanie obiektywnych wskaźników mia stopnia ich zniekształcenia. W amach samodzielnie pzepowadzonych badań, ealizując postawione cele, auto zealizował następujące zadania.. Wykazał, że stosowanie opisu pola akustycznego zespołów źódeł szeokopasmowych w kategoiach systemów LTI, pozwala na identyfikację i analizę niekozystnych zjawisk wynikających z intefeencji szeokopasmowej, któych to efekty nie są widoczne pzy zastosowaniu powszechnie pzyjmowanego modelu natężeniowego (optycznego).. Pzepowadził pomiay zeczywistego wieloźódłowego systemu szeokopasmowego w sali audytoyjnej. Na podstawie pomiaów odpowiedzi impulsowych zeczywistych źódeł dźwięku (głośników) oaz pecyzyjnych pomiaów położenia względem punktu odsłuchu (dalmiez laseowy) zasymulował zeczywiste odpowiedzi impulsowe, uniezależnione od zakłóceń pochodzących od odbić. W celach testowych pominięto kieunkowość poszczególnych źódeł. 3. Skonstuował model symulacyjny zespołów źódeł szeokopasmowych wykozystujący metodę odpowiedzi impulsowych do wyznaczenia wskaźników zmian paametów pedykcyjnych i cepstalnych sygnałów głosowych. Wszystkie badania pzepowadził używając pogamów zapojektowanych i zaimplementowanych pzez siebie w śodowisku Matlab. Opacował oyginalne nazędzie obliczeniowe do analizy własności wieloźódłowych systemów akustycznych, w opaciu matematyczne modele mia odległości pomiędzy wektoami paametów. 4. Zapoponował efektywną metodę oceny stopnia zniekształceń pola akustycznego popzez badanie zmienności wskaźników odległości pomiędzy wektoami obiektywnych paametów sygnałów mowy, takich jak współczynniki pedykcyjne LPC czy współczynniki MFCC. Wybał cztey miay wskaźników odległości LLR (Log-Likelihood 4
Ratio), IS (Itakua-Saito), CD (Cepstum Distance), melcd (MFCC Distance), któe służą do oceny stopnia zmian jakości pola akustycznego w obszaach badanych układów wieloźódłowych. Metoda ta umożliwia: wykonanie licznych ekspeymentów laboatoyjnych, gomadzenie danych z modelu fizycznego, bieżącą wizualizację wyników z dużą ozdzielczością pzestzenną (.m), optymalizację pocedu pojektowych. Do zalet i kozyści, wynikających z takiej metody laboatoyjnej zaliczyć należy: kształtowanie intuicji pojektowej, minimalizację kosztów oganizacyjnych testów ekspeymentalnych. 5. Wykazał dużo większą zmienność pzestzenną wybanych wskaźników oceny jakości pola niż wynika to z bezpośedniego obliczenia współczynników koelacji Peasona pomiędzy sygnałami: oyginalnym i zniekształconym, co potwiedza dużą czułość takiej metody oaz daje szeokie możliwości zastosowania do pecyzyjnych badań jakości pola (np. subtelnych zmian sygnału związanych z odległością międzyuszną). 6. Zgomadził znaczna bazę zbioów odpowiedzi impulsowych, zaówno modelowych układów akustycznych jak i zeczywistych systemów wieloźódłowych, na podstawie któych wyekstahował odpowiedzi uniezależnione od odbić. Pomiay zealizował metodą koelacyjną, z wykozystaniem sekwencji MLS. 7. Pzepowadził szeeg testów symulacyjnych i ekspeymentalnych, w tym: testy modelu ównomienego szyku liniowego ze zmiennym ozstawem źódeł, testy modelu układu ciągu komunikacyjnym ze zmiennym ozstawem źódeł i wysokości nad płaszczyzną odsłuchu, testy wybanych modeli układów z nieównomienym ozkładem źódeł. W opaciu o wyniki badań ekspeymentalnych i symulacyjnych udowodniono postawione tezy. Pokazano, iż w układach akustycznych złożonych z wielu współbieżnie pomieniujących źódeł szeokopasmowych, w wyniku supepozycji fal, występuje zjawisko intefeencji szeokopasmowej, pzekładającej się na zniekształcenia funkcji pzenoszenia układu. Zniekształcenia te są inne w każdym puncie nagłaśnianego obszau. Wykazano występowanie zutowania zniekształceń powstałych w polu takich układów na zmiany chaakteystycznych paametów sygnałów głosowych, co szczególnie uwidacznia się w zmianach położenia i poziomów fomantów. Efekt modyfikacji własności tansmitowanej mowy można poównać do zniekształcenia funkcji pzenoszenia filtu taktu głosowego (np. wynikającego z chooby naządu głosowego). Wykazano możliwość zastosowania, do oceny degadującego wpływu szeokopasmowej intefeencji liniowej na zozumiałość sygnałów mowy, 5
mia opatych na zmianach obiektywnych paametów związanych z mechanizmem geneowania głosu, a szczególnie paametów pedykcji liniowej (LPC). Wyniki pzepowadzonych badań są kluczowe dla zapojektowania uzupełnienia standadów opisujących pomiay zozumiałości pzekazu słownego w systemach dźwiękowych instalowanych w miejscach publicznych (PAS) oaz standadów badania poziomu zniekształceń w dźwiękowych systemach ostzegawczych (DSO). 6
Bibliogafia [] P. M. Mose, Vibation and Sound, New Yok, Toonto, Londyn: McGaw-Hill Book Company, Inc., 948. [] I. Małecki, Teoia fal i układów akustycznych, Waszawa: PWN, 964. [3] A. D. Piece, Acoustics, An Intoductionto Its Phisical Pinciples and Applications, New Yok: Acoustical Society of Ameica, 989. [4] B. D. Steinbeg, Pinciples of Apetue and Aay System Design, New Yok, London, Sydney, Toonto: John Wiley and Sons, 976. [5] R. Makaewicz, Dzwięki i fale, Poznań: Wydawnictwo naukowe UAM, 4. [6] H. Lasota, R. Salamon and B. Delannoy, "Acoustic diffaction analysis by the impulse esponse method.," J.Acoust.Soc.Am, vol. 76, pp. 8-9, 984. [7] W. Rdzanek, Teoia pola akustycznego, Rzeszów: Wydawnictwa WSP, 98. [8] PN-EN 6849:. Dźwiękowe systemy ostzegawcze.. [9] A. C. Gade, Pat C Achitectual Acoustics, Acoustics in Halls Speech and Music, w Handbook of Acoustics, New Yok, Spinge, 7, pp. 3-35. [] S. R. Quackenbush, T. P. Banwell III i M. A. Clements, Objective Measues of Speech Quality, New Jesey: Pentice-Hall Inc., 988. [] IEC 668-6 Sound system equipment - Pat 6: Objective ating of speech intelligibility by speech tansmission index, 3-5. [] T. Houtgast and H. Steeneken, "Evaluation of Speech Tansmission Channels by using Atificial Signals," Acustica, vol. 5, p. 355 367, 97. [3] H. Lasota, Kieunkowość dla pobudzeń impulsowych, w Mat. IV Sympozjum Hydoakustyki, s. 55-6, Jastzębia Góa, 987. [4] H. Lasota, R. Mazuek i M. Mile, Pole akustyczne źódeł szeokopasmowych i ich zespołów, w Mat. XLIX OSA, s. 589 594, Waszawa,. [5] P. R. Stepanishen, "Tansient adiation fom pistons in an infinite baffle," J.Acoust.Soc.Am, vol. 49, pp. 69-638, 97. [6] H. Lasota i R. Mazuek, Modelowanie i pomiay nagłośnienia audytoium, Pomiay Automatyka Kontola, n 3, st. 48-5, 8. 7
[7] H. Lasota i R. Mazuek, Intefeencja szeokopasmowa w wieloźódłowych systemach akustycznych, Zeszyty naukowe wydziału elektoniki, telekomunikacji i infomatyki Politechniki Gdańskiej 8, st. 495-5. [8] H. Lasota i R. Mazuek, Boadband intefeence in speech einfocement systems, Poceedings of the st Intenational Confeence on Infomation Technology Gdańsk, 9- May 8, st. 39-33. [9] ISO 338, Acoustics - Measuement of the evebeation time of ooms with efeence to othe acoustical paamete, 997. [] A. Dobucki, Pzetwoniki elektoakustyczne, Waszawa: Wydawnictwa Naukowo-Techniczne, 7. [] R. Mazuek i H. Lasota, Application of maximum length sequences to impulse esponse measuement of hydoacoustic communications systems, Hydoacoustics, tom, p. 3 3, 7. [] D. Riffe i J. Vandekooy, Tansfe-Function Measuement with Maximum-Length Sequences, Jounal of the Audio Engineeing Society, tom 37, n 6, pp. 49-444, 989. [3] R. Mazuek i H. Lasota, Application of Maximum-Length Sequences To Impulse Response Measuement Of Hydoacoustic Communications Systems, Hydoacoustics, pp. 3-3, 7. [4] M. Cohn i A. Lempel, On Fast M-Sequence Tansfoms, IEEE Tansactions on Infomation Theoy, tom 3, n, pp. 35-37, 977. [5] T. P. Zieliński, Cyfowe pzetwazania sygnałów. Od teoii do zastosowań, Waszawa: Wydawnictwa Komunikacji i Łączności, 5. [6] J. Lach, Wpływ ozmieszczenia i liczby źódeł dźwięku, na jakość pzekazu słownego, Paca magisteska Politechnika Gdańska WETI, Gdańsk,. [7] B. Kostek, Peception-Based Data Pocessing in Acoustics, Application to Musuc Infomation Retieval and Psychophysiology of Heaing, Waszawa: Spinge, 5. [8] Podstawowe wiadomości na temat sygnału mowy i taktu głosowego, [Online]. Available: http://sound.eti.pg.gda.pl. [9] The National Cente fo Voice & Speech, [Online]. Available: www.ncvs.og. [3] J. D. Makel and A. H. Gay, Linea pediction of speech, New Yok: Spinge-Velag, 976. [3] A. Czyżewski, Dzwięk cyfowy. Wybane zagadnienia teoetyczne, technologia, zastosowania, Waszawa: Akademicka Oficyna Wydawnicza EXIT, 998. 8
[3] J. Schu, "Ube Potenzeihm, die in Inne des Einheitskeises beschank sind," J. fue die Reine and Angewandte Mathematiek, vol. 47, pp. 5-3, 97. [33] M. R. Schoede, "Diect (nonecusive) Relation Between Cepstun and Pediction Coefficients," IEEE Tansaction on acoustisc, speech, and signal pocessing, Vols. ASSP-9, no., pp. 97-3, 98. [34] S. Wu and L. C. W. Pols, "A distance measue fo objective qality evaluation of speech communication channels uing also dynamic spectal featues," Institute of Phonetic Sciences, Univesity of Amstedam, vol. Poceedings, no., pp. 7-4, 996. [35] S. B. Davis i P. Memelstein, Compaison of Paametic epesentations fo Monosyllabic Wod Recognition in Continuously Spoken Sentences, IEEE Tansactions Acoustics, Speech and Signal Pocessing, tom 8, n 4, pp. 375-366, 98. [36] H. Hemansky, Peceptual Linea Pedictive (PLP) Analysis of Speech, Jounal Acoustical Society of Ameica, tom 87, n 4, p. 738 75, 989. [37] H. Hemansky i N. Mogan, RASTA Pocessing of Speech, IEEE Tansactions on Speech and Audio Pocessing, tom, n 4, pp. 578-589, 994. [38] ANSI S3.5-969, (R986),Calculation of the Aticulation Index,Meth, 969. [39] P. Godlewski, M. J. Tzaskowska i B. Mucha, Metody obiektywnej oceny jakości usługi głosowej QoS w sieciach łączności elektonicznej oaz uządzenia do takiej oceny i do badania dostępności "usług" popzez numey alamowe - etap, Instytut Łączności, Waszawa, 6. [4] IEC 6849 (Ed.. 998-) Sound systems fo emegency puposes. [4] PN-9/T-5; Analogowe łańcuchy telefoniczne - Wymagania i metody pomiau wyazistości logatomowej, 993. [4] ITU-T Recommendation P.8: Method fo subjective detemination of tansmission quality, 996. [43] ITU-T P.83: Subjective Pefomance Assessment of Telephone-Band and Digital Codecs, 996. [44] ITU-T P.8: Modulated Noise Refeence Unit (MNRU), 996. [45] ETSI ETR 5; Speech communication quality fom mouth to ea fo 3, khz handset telephony, 996. [46] ETSI EG 377-: Speech Pocessing, Tansmission and Quality Aspects (STQ); Specification and measuement of speech tansmission quality, 999. [47] S. Bachmański, Subiektywne metody oceny jakości tansmisji mowy w cyfowych kanałach 9
telekomunikacyjnych.instytut Telekomunikacji i Akustyki, Wocław. [48] K. Baściuk, S. Bachmański, W. Majewski i W. Myslecki, Ocena jakości tansmisji mowy w kanałach telekomunikacyjnych, Akustyka w Technice, Medycynie i Kultuze, Ganty KBN 996-999, pp. 4-54, 999. [49] ANSI/ASA S3.5-997 (R), Ameican National Standad Methods fo Calculation of the Speech Intelligibility Index, 997. [5] V. M. A. Peutz, Aticulation loss of consonants as a citeion fo speech tansmission in a oom., J. Audio Eng. Soc. 9, p. 95 99, 97. [5] R. Plomp i A. M. Mimpen, Impoving the eliability of testing the speech eception theshold fo sentences., Audiology, tom 8, n 5, 979. [5] E. Ozimek, D. Kutzne, A. Sęk i A. Wiche, Polish sentence tests fo measuing the intelligibility of speech in intefeing noise, Intenational Jounal of Audiology, tom 48, pp. 433-443, 9. [53] K. Wagene, Repot on an optimized inventoy of Speech-based auditoy sceening & impaiment tests fo six languages, D--9, 9. [54] E. Ozimek, D. Kutzne, A. Sęk i A. Wiche, Development and evaluation of Polish digit tiplet test fo auditoy sceening, Speech Communication, tom 5, p. 37 36, 9. [55] M. Kajalainen, Anew Auditoy Model fo the Evaluation of Sound Quality of Audio Systems, IEEE ICASSP, pp. 68-6, 985. [56] ITU-T P.86: Objective Quality Measuement of Telephone-Band Speech Codecs, 998. [57] ITU-T Recommendation P.86: Peceptual evaluation of speech quality (PESQ), an objective method fo end-to-end speech quality assessment of naowband telephone netwoks and speech codecs. [58] ITU-R Recommendation BS 387: Method fo Objective Measuements of Peceived Audio Quality (PEAQ), 998. [59] S. Bachmański i J. Zuk, Związek miedzy wyazistością logatomową a wskaźnikiem STI w analogowych kanałach telekomunikacyjnych dla języka polskiego, Instytut telekomunikacji i Akustyki, Politechnika Wocławska. [6] T. Houtgast and H. Steeneken, "The Modulation Tansfe Function in Rooms Acoustics as a Pedicto of Speech Intelligibility," Acoustica, vol. 8, no., pp. 66-73, 973. [6] P. Puchnicki, Metody pomiau paametów akustycznych pomieszcze, w IV Sympozjum Nowości w Technice Audio, Wocław, 997.
[6] F. Itakua, Minimum pediction esidual pinciple applied to speech ecognition, IEEE Tansactions on Acoustics, Speech and Signal Pocessing, tom 3, n, pp. 67-7, 975. [63] F. Itakua, Line spectum epesentation of linea, J. Acoust. Soc. Am., tom 57, n 537(A), 975. [64] W. A. Akshya K. Swain, Estimation of LPC Paametes of Speech Signals in Noisy Envionment, TENCON 4. 4 IEEE Region Confeence (Volume:A ), pp. 39-4, 4. [65] PN-EN 668-6, Uządzenia systemów elektoakustycznych. Cz.6: Obiektywna ocena zozumiałości mowy za pomocą wskaźnika tansmisji mowy, 5. [66] ITU-T Recommendation P.563, Single-ended method fo objective speech quality assessment in naow-band telephony applications, 4. [67] R. Sinclai, "The Design of Distibuted Sound Systems fom Unifomity of Coveage and Othe Sound-Field Con-sideation," Jounal of the AES, vol. 3(), p. 87 88, 98. [68] J. Adamczyk, H. Lasota, R. Mazuek i M. Mile, Badanie dźwiękowego systemu ostzegawczego w sali kinowej pod kątem zgodności z nomą, w Mateiały konfeencyjne OSA 3, Szczyk, 3. [69] J. S. Badley, H. Sato and M. Picad, "On the impotance of ealy eflections fo speech in ooms," Jounal of the ASA, vol. 3(6), p. 333 344, 3.
DODATEK A Poniżej pzedstawiono zmienność pzebiegu pseudowidma LPC, dla zędu pedykcji N=, wzdłuż wybanego kieunku pola, w zobazowaniu dwu- (ys. A.) i tójwymiaowym (ys. A.), oaz jego pzekoje dla sześciu wybanych punktów odsłuchu (ys. A.3 i A.4). Wyaźnie widoczne są zniekształcenia kształtu pseudowidma LPC, silnie zmieniające się waz ze zmianą położenia punktu odsłuchu. Rysunek A. Zobazowanie 3D zmienności pseudowidma LPC dla zędu pedykcji N=, dla głoski e, dla układu 5 źódeł ozłożonych w linii co.m. Punkt odsłuchu pzesuwany wzdłuż linii ównoległej do osi głównej apetuy x=4.4m (znajdującej się poza pasem pzyosiowym).
6 Częstotliwość [Hz] 4 6 8 4 5 4 3 5 5 5 3 35 4 odległość od wzdłuż osi X [5pkt/m] [db] Częstotliwość [Hz] 4 6 8 - - -3-4 4 5 5 5 3 35 4 odległość od wzdłuż osi X [5pkt/m] Rysunek A. Zmienność pzebiegu pseudowidma LPC dla zędu pedykcji N=, dla głoski e, dla układu 5 źódeł ozłożonych w linii co.m. Punkt odsłuchu pzesuwany wzdłuż linii ównoległej do osi głównej apetuy x=4.4m (znajdującej się poza pasem pzyosiowym), a) w skali liniowej; b) w skali decybelowej. -5-6 3
8 widmo LPC - sygnał wejściowy i zniekształcony 8 widmo LPC - sygnał wejściowy i zniekształcony 7 7 6 6 5 5 4 4 3 3 5 5 5 3 35 4 5 5 5 3 35 4 8 widmo LPC - sygnał wejściowy i zniekształcony 8 widmo LPC - sygnał wejściowy i zniekształcony 7 7 6 6 5 5 4 4 3 3 5 5 5 3 35 4 5 5 5 3 35 4 8 widmo LPC - sygnał wejściowy i zniekształcony 8 widmo LPC - sygnał wejściowy i zniekształcony 7 7 6 6 5 5 4 4 3 3 5 5 5 3 35 4 5 5 5 3 35 4 Rysunek A.3 Pzykłady zmian w kształcie pseudowidma LPC dla zędu pedykcji N=, dla głoski e, dla układu 5 źódeł ozłożonych w linii co.m, w wybanych punktach odsłuchu (x,y), α kąt odchylenia od osi głównej apetuy, a) x=4.9m, y=8.m, α = 7 st. (IS = 7.4); b) x=4.9m, y=5.m, α = 7 st. (IS =.89); c) x=3.9m, y=3.4m, α = st. (IS =.55); d) x=3.4m, y=.m, α = st. (IS =.5); e) x=4.m, y=.8m, α = 4 st. (IS = 3.9); f) x=4.4m, y=.m, α = 6 st. (IS = 6.38); Linią zieloną oznaczono pseudowidmo sygnału oyginalnego, linią czewoną sygnału zniekształconego, skala liniowo-liniowa. 4
Poziomy względne widm 7 6 5 4 3 widmo FFT sygnału oyginalnego widmo FFT sygnału zniekształconego pseudowidmo LPC sygnału oyginalnego pseudowidmo LPC sygnału zniekształconego funkcja pzenoszenia systemu 4 6 8 4 6 8 częstotliwość [Hz] [Hz] a o a C Watość wsp. pedykcji Nume współczynnika pedykcji Rysunek A.4 Zniekształcenia widma FFT oaz pseudowidma LPC sygnału (głoska e ) dla układu typu szyk źódeł w jednej linii (5 źódeł w jednej linii, ozstaw. m - źódła idealne), w punkcie odsłuchu x=.55 m, y=.6 m, kąt = 5 st. Watość wskaźnika IS = 3.6. Poniżej wykesów zamieszczono watości współczynników pedykcji sygnału oyginalnego a i zniekształconego a C. 5
Poniżej zapezentowano, wyznaczone z wykozystaniem aplikacji symulacyjnej, mapy zmienności wskaźników odległości (IS, CD, melcd) w funkcji położenia punktu odsłuchu dla tzech typów ozkładów źódeł: układ szyku źódeł w jednej linii (Dodatek B), układ ciągu komunikacyjnego (Dodatek B), układ matycowy - sala audytoyjna (Dodatek B3). Symulacje pzepowadzono dla sześciu samogłosek polskich w óżnych układach i ozstawach źódeł oaz w óżnych płaszczyznach odsłuchu. DODATEK B Układ akustyczny typu szyk źódeł w jednej linii. Poniższe mapy zmienności wskaźników odnoszą się do obszau o wymiaach 5m x m. Płaszczyzna odsłuchu znajduje się poniżej płaszczyzny źódeł. Zmiana ozstawu źódeł w zakesie od.m do.45m. a melcd o melcd 8 6 8 6 4 4 3 3 odległość od wzdłuż osi Y [8pkt/m] 4 3 4 5 6 7 8 e 8 6 4 3 4 3 4 5 6 7 8 i 8 6 4 3 4 3 4 5 6 7 8 u 8 6 4 3 4 3 4 5 6 7 8 y 8 6 4 3 4 3 4 5 6 7 8 odległość od wzdłuż osi X [8pkt/m] 4 3 4 5 6 7 8 Rysunek B. Mapy zmienności wskaźnika melcd dla sześciu samogłosek, dla liniowego układu 5 źódeł typu szyk źódeł w jednej linii, ozstaw źódeł. m (źódła idealne). 6
. m IS.3 m IS 3 3 4 3 4 5 6 7 8.5 m 4 3 4 5 6 7 8.35 m odległość od wzdłuż osi Y [8pkt/m] 3 4 3 4 5 6 7 8. m 3 3 4 3 4 5 6 7 8.4 m 3 4 3 4 5 6 7 8 4 3 4 5 6 7 8.5 m.45 m 3 3 4 4 3 4 5 6 7 8 3 4 5 6 7 8 odległość od wzdłuż osi X [8pkt/m] Rysunek B. Mapy zmienności wskaźnika IS dla głoski e, dla liniowego układu 5 źódeł typu szyk źódeł w jednej linii, dla ośmiu ozstawów źódeł w zakesie od. m do.45 m (źódła idealne). 7
DODATEK B Układ akustyczny typu ciąg komunikacyjny. Poniższe mapy zmienności wskaźników odnoszą się do obszau o wymiaach 3m x m. Płaszczyzna odsłuchu znajduje się poniżej płaszczyzny źódeł. Zmiana ozstawu źódeł m - 4.5m. odległość od wzdłuż osi Y [8pkt/m] 5 5 5 5 5 5 5 5 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 a b c d IS.5.5.5.5 5.5 5 5 5 5 5 5 5 odległość od wzdłuż osi X [8pkt/m] e 3 4 5 6 7 8 f 3 4 5 6 7 8 g 3 4 5 6 7 8 h 3 4 5 6 7 8 IS.5.5.5 Rysunek B. Mapy zmienności wskaźnika IS dla głoski a, dla układu typu ciąg komunikacyjny (źódła idealne). Płaszczyzna odsłuchu znajduje się m poniżej płaszczyzny źódeł. Zmiana ozstawu źódeł od m (a) do 4.5 m (h). 8
odległość od wzdłuż osi Y [8pkt/m] 5 5 5 5 5 5 5 5 a 3 4 5 6 7 8 b 3 4 5 6 7 8 c 3 4 5 6 7 8 d 3 4 5 6 7 8 IS.5.5.5.5 3 4 5 6 7 8 Rysunek B. Mapy zmienności wskaźnika IS dla głoski a, dla ciąg komunikacyjny o ozmiaach 3x m (źódła idealne). Płaszczyzna odsłuchu znajduje się m poniżej płaszczyzny źódeł. Zmiana ozstawu źódeł w zakesie od m (a) do 4.5 m (h). 5 5 5 5 5 5 5 5 odległość od wzdłuż osi X [8pkt/m] e f 3 4 5 6 7 8 g 3 4 5 6 7 8 h 3 4 5 6 7 8 IS.5.5.5.5 odległość od wzdłuż osi Y [8pkt/m] 5 5 5 5 5 5 5 5 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 a b c d IS.5.5.5.5 5.5 5 5 5 5 5 5 5 odległość od wzdłuż osi X [8pkt/m] e 3 4 5 6 7 8 f 3 4 5 6 7 8 g 3 4 5 6 7 8 h 3 4 5 6 7 8 IS.5.5.5 Rysunek B.3 Mapy zmienności wskaźnika IS dla głoski a, dla obszau symulującego ciąg komunikacyjny o ozmiaach 3x m (źódła idealne). Płaszczyzna odsłuchu znajduje się.5m poniżej płaszczyzny źódeł. Zmiana ozstawu źódeł w zakesie od m (a) do 4.5 m (h). 9
odległość od wzdłuż osi Y [8pkt/m] 5 5 5 5 5 5 5 5 a 3 4 5 6 7 8 b 3 4 5 6 7 8 c 3 4 5 6 7 8 d 3 4 5 6 7 8 IS.5.5.5.5 3 4 5 6 7 8 Rysunek B.4 Mapy zmienności wskaźnika IS dla głoski e, dla układ typu ciąg komunikacyjny źódła idealne. Płaszczyzna odsłuchu znajduje się.5m poniżej płaszczyzny źódeł. Zmiana ozstawu źódeł w zakesie od m (a) do 4.5 m (h). 5 5 5 5 5 5 5 5 odległość od wzdłuż osi X [8pkt/m] e f 3 4 5 6 7 8 g 3 4 5 6 7 8 h 3 4 5 6 7 8 IS.5.5.5.5 odległość od wzdłuż osi Y [8pkt/m] 5 5 5 5 5 5 5 5 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 a b c d IS.5.5.5.5 5.5 5 5 5 5 5 5 5 odległość od wzdłuż osi X [8pkt/m] e 3 4 5 6 7 8 f 3 4 5 6 7 8 g 3 4 5 6 7 8 h 3 4 5 6 7 8 IS.5.5.5 Rysunek B.5 Mapy zmienności wskaźnika IS dla głoski i, dla układ typu ciąg komunikacyjny źódła idealne. Płaszczyzna odsłuchu znajduje się.5m poniżej płaszczyzny źódeł. Zmiana ozstawu źódeł w zakesie od m (a) do 4.5 m (h).
odległość od wzdłuż osi Y [8pkt/m] Rysunek B.6 Mapy zmienności wskaźnika IS dla głoski o, dla układ typu ciąg komunikacyjny źódła idealne. Płaszczyzna odsłuchu znajduje się.5m poniżej płaszczyzny źódeł. Zmiana ozstawu źódeł w zakesie od m (a) do 4.5 m (h). odległość od wzdłuż osi Y [8pkt/m] 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 a b c d a b c d.5.5.5.5.5.5 3 4 5 6 7 8 Rysunek B.7 Mapy zmienności wskaźnika IS dla głoski u, dla układ typu ciąg komunikacyjny źódła idealne. Płaszczyzna odsłuchu znajduje się.5m poniżej płaszczyzny źódeł. Zmiana ozstawu źódeł w zakesie od m (a) do 4.5 m (h). 5 5 5 5 5 5 5 5 odległość od wzdłuż osi X [8pkt/m] IS IS.5.5 5 5 5 5 5 5 5 5 odległość od wzdłuż osi X [8pkt/m] 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 e f g h e f g h IS.5.5.5.5 IS.5.5.5.5
odległość od wzdłuż osi Y [8pkt/m] 5 5 5 5 5 5 5 5 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 a b c d IS.5.5.5.5 3 4 5 6 7 8 odległość od wzdłuż osi X [8pkt/m] Rysunek B.8 Mapy zmienności wskaźnika IS dla głoski y, dla układ typu ciąg komunikacyjny źódła idealne. Płaszczyzna odsłuchu znajduje się.5m poniżej płaszczyzny źódeł. Zmiana ozstawu źódeł w zakesie od m (a) do 4.5 m (h). 5 5 5 5 5 5 5 5 3 4 5 6 7 8 3 4 5 6 7 8 3 4 5 6 7 8 e f g h IS.5.5.5.5
DODATEK B3 Układ akustyczny typu sala audytoyjna Poniższe mapy zmienności wskaźników odnoszą się do obszau o wymiaach podłogi 6m x m, nagłaśnianego pzez źódeł ozmieszczonych w jednej płaszczyźnie (np. w suficie). Źódła ozmieszczone są ównomienie co 4m wzdłuż obu osi. Śodek apetuy pomieniującej znajduje się nad śodkiem płaszczyzny odsłuchu. Płaszczyzna odsłuchu znajduje się poniżej płaszczyzny źódeł. a 6 b 6 5 5 4 4 odległość od wzdłuż osi Y [4pkt/m] 3 4 5 6 3 4 5 6 3 4 5 6 7 8 c 3 4 5 6 7 8 3 6 5 4 3 3 4 5 6 7 8 Rysunek B3. Mapy zmienności wskaźnika odległości CD (Cepstum Distance) w funkcji położenia punktu odsłuchu. Obsza o wymiaach podłogi 6m x m nagłaśniany jest pzez źódeł ozmieszczonych w jednej płaszczyźnie (np. w suficie). Źódła ozmieszczone są ównomienie co 4 m wzdłuż obu osi. Śodek apetuy pomieniującej znajduje się nad śodkiem płaszczyzny odsłuchu. Płaszczyzna odsłuchu znajduje się poniżej płaszczyzny źódeł o: a). m; b). m; c) m; d) m. W celach poównawczych watości wskaźnika CD dla wszystkich pzypadków zostały oganiczone do jednakowego zakesu [, 6]. 3 4 5 6 3 4 5 6 odległość od wzdłuż osi X [4pkt/m] d 3 4 5 6 7 8 3 6 5 4 3 3