Badanie jakości sygnałów audio

Badanie jakości sygnałów audio Przemysław Dymarski, Inst. Telekomunikacji PW Wykorzystano prace dypl. A.Kołodziejczyk, G. Kraciuk, M.Toczko, A.Sadowska

Ocena jakości audio i wideo Metody subiektywne Metody obiektywne Testy odsłuchowe, badania porównawcze Poziom mediów Poziom pakietów / bitów Parametryczne (np. E- model) Hybrydowe Z pełnym odniesieniem (full reference, intrusive) Z częściowym odniesieniem (reduced reference) Bez odniesienia (no reference, nonintrusive)

Ocena jakości audio i wideo Wybrane normy ITU-T i ITU-R Metody Mowa P.800 P.810 P.830 Audio Wideo P.564 G.107 (Emodel) Multimedia BS1116 BS1284 BT500 P.910 J.140 P.911 J.148 obiektywne poziom mediów P.861 P.862 (PESQ) P.863 (POLQA) P.563 (3SQM) BS1387 (PEAQ) J.144 BT1683 J.246, J.247 J.341, J.342 poziom pakietów/bitów P.1201, P.1202 (P.NAMS* P.NBAMS*) G.113 G.1070 G.OMVS* subiektywne parametryczne hybrydowe P.CQO* J.343 J.bitvqm* * nazwa robocza

Sygnały akustyczne: SNR jako najprostszy obiektywny wskaźnik jakości

Maskowanie szumu 3. Uwzględnienie maskowania widmo sygnału widmo szumu

Analiza psychoakustyczna Cel: wyznaczenie krzywej maskowania Bezwzględny próg słyszenia Ton maskujący 1 khz f [khz] f [khz] Kilka tonów maskujących f [khz]

Maskowanie w dziedzinie częstotliwości Sygnał maskujący: pojedynczy ton Egan JP, Hake HW. (1950). On the masking pattern of a simple auditory stimulus. J. Acoust. Soc. Am. 22, 622-630.

Pasma krytyczne Poziom maskowania w dziedzinie częstotliwości nie zmienia się w obrębie pasma krytycznego. Poniżej podano orientacyjne szerokości pasm krytycznych (barków)

Skala barków

Maskowanie w dziedzinie czasu

Long mode (sygnały quasi-stacjonarne, np skrzypce) pre-echo

Short mode (sygnały niestacjonarne, np perkusja)

Metody obiektywne dla mowy i audio - poziom mediów

Metody intruzyjne badania jakości mowy Sygnał wzorcowy Analiza percepcyjna System testowy Pomiar różnicy Ocena jakości Sygnał zdegradowany Analiza percepcyjna P.861 PSQM (Perceptual Speech Quality Measure) P.862 PESQ (Perceptual Evaluation of Speech Quality) P.863 POLQA (Perceptual Objective Listening Quality Analysis)

Wskaźniki jakości szerokopasmowego sygnału audio: SDG, ODG Subjective Difference Grade (SDG) SDG=MOS (sygnał testowany) MOS (sygnał oryginalny) (wartości od -4 do 1) Objective Difference Grade (ODG) Obliczony na podstawie porównania (w dziedzinie częstotliwości, z uwzględnieniem maskowania) sygnału testowanego z oryginalnym

Obliczanie ODG dla szerokopasmowego sygnału audio: PEAQ (BS1387)

Metody obiektywne dla szerokopasmowego sygnału audio: PEAQ (BS1387) Algorytm PEAQ (Perceptual Evaluation of Audio Quality) można podzielić na następujące bloki : obwodowy model ucha oparty na transformacie DFT, przetwarzanie wzorów pobudzenia, obliczenie cech sygnału MOV (Model Output Variable), wprowadzenie parametrów MOV do sztucznej sieci neuronowej oraz obliczenie końcowego wyniku testu ODG (Objective Difference Grade). Przetwarzanie wstępne: obliczenie DFT ( użyte zostaje okno Hanna ) skalowanie sygnału do poziomu odtwarzania uwzględnienie wpływu ucha zewnętrznego i środkowego (użycie filtrów) transformacja do skali barkowej ( pasma krytyczne ) i uwzględnienie zjawiska maskowania

Obliczenie Model Output Variables: PEAQ Wartościami wejściowymi do obliczenia wartości MOV są uzyskane z wcześniejszych etapów : Wzory pobudzenia dla sygnału referencyjnego i testowego Wzory głośności dla obu sygnałów Wzory modulacji głośności dla obu sygnałów Sygnał błędu (obliczony jako różnica widma sygnału testowego i referencyjnego)

PEAQ - Model Output Variables o o o o o o o o o o BandwidthRef b pasmo sygnału referencyjnego BandwidthTest b pasmo sygnału testowanego. Total NMR b ( Noise-to-mask ratio) - stosunek szumu do progu maskowania. WinModDiff1 b ( Windowed Modulation Difference) liczona jest chwilowa wartość modulacji, która następnie jest uśredniana ADB b (Average block distortion) średnie zniekształcenie sygnału EHS b ( Harmonic Structure of the error) bierze pod uwagę, w którym momencie badany sygnał jest bardziej podatny na zakłócenia AvgModDiff1 b i AvgModDiff2 b - średnie różnice modulacji RmsNoiseLoud b średnia kwadratowa głośności szumów MFPD b ( Maximum filtered probability of detection) opisuje prawdopodobieństwo wykrycia różnic pomiędzy sygnałem referencyjnym a testowym RelDistFrames b (Relative Disturbed Frames) Ramkę uznaje się za przeszkadzającą w odbiorze jeśli wartość NMR przekroczy 1,5 db

PEAQ: obliczenie ODG Wartości MOV, których jest 11, są wprowadzane do sztucznej sieci neuronowej z różną wagą i obliczany jest wynik końcowy ODG, w skali od -4 do 0, który powinien być zbliżony do subiektywnej oceny słuchacza. Skala ocen (ODG) generowanych przez algorytm PEAQ: 0 pogorszenie jakości niesłyszalne -1 wyczuwalne, ale nie przeszkadzające -2 nieznacznie przeszkadzające -3 przeszkadzające -4 bardzo przeszkadzające

Porównanie SDG i ODG

Testy z wykorzystaniem PEAQ Istnieją dwie wersje algorytmu PEAQ. Różnica między nimi polega na zastosowaniu innych modeli psychoakustycznych : PEAQ Basic mniejsza dokładność, krótki czas testu PEAQ Advanced większa dokładność, dłuższy czas testu

Testy z wykorzystaniem PEAQ Istnieją dwie wersje algorytmu PEAQ. Różnica między nimi polega głównie na zastosowaniu innych modeli psychoakustycznych : PEAQ Basic mniejsza dokładność, krótki czas testu (tylko tę wersję testowano) PEAQ Advanced większa dokładność, dłuższy czas testu

Testy z wykorzystaniem PEAQ: Porównanie kodeków MP3,Ogg i Wavpack

Testy z wykorzystaniem PEAQ: ograniczenie pasma mowy Filtr dolnoprzepustowy Wygenerowane wyniki są zgodne z oceną jakości po odsłuchu

Testy z wykorzystaniem PEAQ: zerowanie ciszy międzywyrazowej Zamiana ciszy międzywyrazowej próbkami o wartości zerowej Zamiana ciszy zerami powoduje spadek ODG podczas gdy w rzeczywistości nie ma to wpływu na ocenę sygnału

Testy z wykorzystaniem PEAQ: skrócenie przerw między wyrazami wycięcie bardzo małych fragmentów ciszy powoduje znaczny spadek ODG problemy z synchronizacją częściową

Testy z wykorzystaniem PEAQ: przepróbkowanie sygnału Nawet dla minimalnych różnic w czasie trwania sygnałów, uzyskane oceny jakości dźwięku są bardzo niskie

Testy z wykorzystaniem PEAQ: wnioski Dla większości analizowanych sygnałów wartości ODG są zgodne z wrażeniami słuchowymi Badana implementacja PEAQ generuje oceny niezgodne z oceną subiektywną przy odsłuchu sygnałów w następujących sytuacjach: zmianach w obrębie bardzo cichych fragmentów skróceniu ciszy międzywyrazowej o niezauważalną dla słuchacza wartość przepróbkowaniu sygnału

Wykorzystanie maskowania w kodowaniu sygnałów fonicznych audio Transformata lub zestaw filtrów kwantyzacja Transformata odwrotna lub zestaw filtrów audio Obwiednia widma lub analiza psychoakustyczna Rozdział bitów Informacja dodatkowa

Sterowanie zakresami pracy kwantyzatorów 1 kwantyzator w całym pasmie 2 podpasma z osobnymi kwantyzatorami

Sterowanie rozdziałem bitów Po b bitów dla każdego kwantyzatora b1 > b2 (b1+b2=2b)

Przykład: MPEG1 Audio layer 3 Pętla Powtórzeń Sygnał Audio (PCM) Filtry Subpasmowe 32 pasma MDCT 576 Współ. Zewnętrzna Pętla Kontroli Zniekształceń Wewnętrzna Pętla Sterowania Prędkością Kodowanie Huffmana Formatowanie strumienia Zakodowany Sygnał Audio Przełączanie Okna Informacje Dodatkowe FFT Model Psychoakustyczny

Maskowanie i kwantyzacja

Maskowanie w dziedzinie czasu

Badanie jakości mowy: PESQ i POLQA Warunki pomiaru z wykorzystaniem algorytmu PESQ: Zalecany czas trwania nagrania to 8-12 s, dopuszczalny 3,2 30 s, w żadnym wypadku nie powinien przekroczyć czasu trwania miliona próbek. Zawartość sygnału mowy w nagraniu powinna mieścić się w granicach 40%- 80% (reszta to cisza międzywyrazowa i fragmenty ciszy na początku i na końcu nagrania), aktywny sygnał mowy winien trwać co najmniej 3,2 s. W testach powinno się uwzględniać wpływ mówcy, wskazane jest użycie nagrań mowy pochodzącej od 2 kobiet i 2 mężczyzn. Cisza poprzedzająca sygnał mowy i występująca na końcu nagrania powinna trwać od 0,5 s do 2 s. Czas trwania odcinków ciszy początkowej i końcowej nie powinien, dla obu porównywanych nagrań, różnić się o więcej niż 25%.

Symulacja działania Voice Activity Detector oryginał Sygnał oryginalny Sygnał z ciszą (MOS-LQO=2,1) Ocena DMOS = 4,5 POLQA MOS-LQO = 3,6 Prawie nie zauważalne pogorszenie

Zakłócenia impulsowe w sygnale, MOS-LQO = 1,8 Zgodna z wynikami subiektywnymi w sygn. resztkowym, MOS-LQO = 2,7 Ocena sub. MOS = 3,4 POLQA MOS-LQO = 3,5

4 frazy, 4 mówców Wpływ frazy i mówcy

Badanie wpływu utraty pakietów (krótkie frazy) PLR=1%

Badanie jakości sygnału mowy w usłudze VoIP Emulator sieci Recordpad Sound Recorder VAC VAC NADAWCA Fraza testowa PESQ: pomiar MOS, MOS-LQO ODBIORCA Fraza odebrana

Wyniki badań MOS w funkcji PLR

Wyniki badań MOS w funkcji jitter a

Wnioski z testowania PESQ Obiektywne metody pomiaru jakości nie powinny być stosowane bezkrytycznie. Przestrzeganie wskazówek zawartych w Zaleceniu P.862.3 nie zawsze wystarcza do uzyskania wiarygodnych wyników metodą PESQ. Przy wstawianiu ciszy (VAD) i zakłóceniach impulsowych wyniki uzyskane metodą PESQ mogą znacznie odbiegać od wyników badań subiektywnych. System synchronizacji zastosowany w algorytmie PESQ nie zawsze działa poprawnie. Badając wpływ parametrów sieci na jakość mowy w VoIP należy uśredniać znacznie więcej niż zalecane 4 wyniki, zwłaszcza gdy wykorzystuje się kilkusekundowe frazy.