Badanie jakości sygnałów audio

Podobne dokumenty
Pomiary w technice studyjnej. TESTY PESQ i PEAQ

METODY OCENY JAKOŚCI DŹWIĘKU

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Kompresja dźwięku w standardzie MPEG-1

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Przygotowała: prof. Bożena Kostek

JAKOŚĆ USŁUG TELEKOMUNIKACYJNYCH. Sławomir Kula Przemysław Dymarski Marcin Golański

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Analogowa (para miedziana, radio, walkie-talkie, CB) Cyfrowa (ISDN, GSM, VoIP, DRB, DVB, Tetra, )

Technika audio część 2

ROZPRAWA DOKTORSKA POLITECHNIKA WARSZAWSKA. Wydział Elektroniki i Technik Informacyjnych. mgr inż. Grzegorz Brzuchalski

Metodyka i system dopasowania protez słuchu w oparciu o badanie percepcji sygnału mowy w szumie

Ze względu na dużą rozpiętość mierzonych wartości ciśnienia (zakres ciśnień akustycznych obejmuje blisko siedem rzędów wartości: od 2x10 5 Pa do

Percepcja dźwięku. Narząd słuchu

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej

Zaawansowane algorytmy DSP

Metody oceny jakości dźwięku

Podstawy Przetwarzania Sygnałów

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Neurobiologia na lekcjach informatyki? Percepcja barw i dźwięków oraz metody ich przetwarzania Dr Grzegorz Osiński Zakład Dydaktyki Fizyki IF UMK

NADESŁANE ARTYKUŁY METODY OCENY JAKOŚCI DŹWIĘKU W TELEFONII VOICE OVER IP

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Obiektywne metody pomiaru jakości obrazu

Wybrane algorytmu kompresji dźwięku

Raport z realizacji zadania badawczego: A.5 Tytuł raportu: Analiza i ocena metod subiektywnych i obiektywnych badania jakości sygnałów audio i wideo

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

Krzysztof Marasek, dr hab. Polsko-Japońska Wyższa Szkoła Technik Komputerowych ul. Koszykowa Warszawa. Warszawa, 4 sierpień 2010 r.

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Algorytmy detekcji częstotliwości podstawowej

Opracował: Dominik Tyniw, PG pod kier. Prof.. A. Czyżewskiego

Promotor: dr Marek Pawełczyk. Marcin Picz

System diagnostyki słuchu

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

Jakość transmisji multimedialnej. Opracowanie: Marcin Szykulski

Transformata Fouriera

Komputerowe modelowanie ludzkiego słuchu w kompresji dźwięku

PRACA DYPLOMOWA Inżynierska

ZAKŁAD SYSTEMÓW ELEKTRONICZNYCH I TELEKOMUNIKACYJNYCH Laboratorium Podstaw Telekomunikacji WPŁYW SZUMÓW NA TRANSMISJĘ CYFROWĄ

OCENA JAKOŚCI KODEKÓW AUDIO W USŁUDZE VOIP

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)

ROZPORZĄDZENIE KRAJOWEJ RADY RADIOFONII I TELEWIZJI. z dnia 30 czerwca 2011 r.

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

DZ.U. NR 150, POZ. 895

dr inż. Piotr Odya Wprowadzenie

Przesył mowy przez internet

Program wykładu. informatyka + 2

Kwantyzacja wektorowa. Kodowanie różnicowe.

Widmo akustyczne radia DAB i FM, porównanie okien czasowych Leszek Gorzelnik

Wytwarzanie znaku wodnego w czasie rzeczywistym

f = 2 śr MODULACJE

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

3. Przetwarzanie analogowo-cyfrowe i cyfrowo-analogowe... 43

Raport z badania dostępności i jakości usług głosowych w sieciach poszczególnych operatorów komórkowych na trasach kolejowych:

dr hab. inż. Artur Janicki pok. 407 Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW

Akustyka muzyczna ANALIZA DŹWIĘKÓW MUZYCZNYCH

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy

POMIARY AUDIOMETRYCZNE

Systemy multimedialne. Instrukcja 5 Edytor audio Audacity

Sieci neuronowe - projekt

jako analizatory częstotliwości

METODY KODOWANIA SYGNAŁU MOWY DO ZASTOSOWAŃ W TELEKOMUNIKACJI

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.

PROGRAMOWANIE APLIKACJI MULTIMEDIALNYCH

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 6. Transformata cosinusowa. Krótkookresowa transformata Fouriera.

dr inż. Artur Janicki pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW

KOMPRESJA STRATNA SYGNAŁU MOWY. Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP

Ponieważ zakres zmian ciśnień fal akustycznych odbieranych przez ucho ludzkie mieści się w przedziale od 2*10-5 Pa do 10 2 Pa,

Audio i video. R. Robert Gajewski omklnx.il.pw.edu.pl/~rgajewski

Jakości usług telekomunikacyjnych

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

Poznawcze znaczenie dźwięku

OCENA SŁUCHOWA JAKOŚCI DŹWIĘKU

MODULACJA. Definicje podstawowe, cel i przyczyny stosowania modulacji, rodzaje modulacji. dr inż. Janusz Dudczyk

Konfiguracja kodeka 3ivx 4.5.1

AKADEMIA MORSKA KATEDRA NAWIGACJI TECHNICZEJ

Kompresja danych DKDA (7)

Dźwięk podstawowe wiadomości technik informatyk

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

WPŁYW PRÓBKOWANIA I KWANTYZACJI NA JAKOŚĆ DŹWIĘKU

MODULACJE IMPULSOWE. TSIM W10: Modulacje impulsowe 1/22

Wybrane metody kompresji obrazów

Demodulator FM. o~ ~ I I I I I~ V

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

Filtry cyfrowe procesory sygnałowe

Przekształcenia sygnałów losowych w układach

Zastosowanie kompresji w kryptografii Piotr Piotrowski

Analizy Ilościowe EEG QEEG

O sygnałach cyfrowych

Systemy plezjochroniczne (PDH) synchroniczne (SDH), Transmisja w sieci elektroenergetycznej (PLC Power Line Communication)

Laboratorium nr 4: Porównanie filtrów FIR i IIR. skończonej odpowiedzi impulsowej (FIR) zawsze stabilne, mogą mieć liniową charakterystykę fazową

Zajęcia z Audiometrii Obiektywnej (AO) obejmują:

Jakość usługi głosowej w sieciach telekomunikacyjnych

Psychoakustyka. Dźwięk zapisany w formie nieskompresowanej na przykład na CD zawiera więcej informacji niż jest w stanie przetworzyć ludzki mózg.

Zagadnienia egzaminacyjne ELEKTRONIKA I TELEKOMUNIKACJA studia rozpoczynające się przed r.

Transkrypt:

Badanie jakości sygnałów audio Przemysław Dymarski, Inst. Telekomunikacji PW Wykorzystano prace dypl. A.Kołodziejczyk, G. Kraciuk, M.Toczko, A.Sadowska

Ocena jakości audio i wideo Metody subiektywne Metody obiektywne Testy odsłuchowe, badania porównawcze Poziom mediów Poziom pakietów / bitów Parametryczne (np. E- model) Hybrydowe Z pełnym odniesieniem (full reference, intrusive) Z częściowym odniesieniem (reduced reference) Bez odniesienia (no reference, nonintrusive)

Ocena jakości audio i wideo Wybrane normy ITU-T i ITU-R Metody Mowa P.800 P.810 P.830 Audio Wideo P.564 G.107 (Emodel) Multimedia BS1116 BS1284 BT500 P.910 J.140 P.911 J.148 obiektywne poziom mediów P.861 P.862 (PESQ) P.863 (POLQA) P.563 (3SQM) BS1387 (PEAQ) J.144 BT1683 J.246, J.247 J.341, J.342 poziom pakietów/bitów P.1201, P.1202 (P.NAMS* P.NBAMS*) G.113 G.1070 G.OMVS* subiektywne parametryczne hybrydowe P.CQO* J.343 J.bitvqm* * nazwa robocza

Sygnały akustyczne: SNR jako najprostszy obiektywny wskaźnik jakości

Sygnały akustyczne: SNR jako najprostszy obiektywny wskaźnik jakości

Maskowanie szumu 3. Uwzględnienie maskowania widmo sygnału widmo szumu

Analiza psychoakustyczna Cel: wyznaczenie krzywej maskowania Bezwzględny próg słyszenia Ton maskujący 1 khz f [khz] f [khz] Kilka tonów maskujących f [khz]

Maskowanie w dziedzinie częstotliwości Sygnał maskujący: pojedynczy ton Egan JP, Hake HW. (1950). On the masking pattern of a simple auditory stimulus. J. Acoust. Soc. Am. 22, 622-630.

Pasma krytyczne Poziom maskowania w dziedzinie częstotliwości nie zmienia się w obrębie pasma krytycznego. Poniżej podano orientacyjne szerokości pasm krytycznych (barków)

Skala barków

Maskowanie w dziedzinie czasu

Long mode (sygnały quasi-stacjonarne, np skrzypce) pre-echo

Short mode (sygnały niestacjonarne, np perkusja)

Metody obiektywne dla mowy i audio - poziom mediów

Metody intruzyjne badania jakości mowy Sygnał wzorcowy Analiza percepcyjna System testowy Pomiar różnicy Ocena jakości Sygnał zdegradowany Analiza percepcyjna P.861 PSQM (Perceptual Speech Quality Measure) P.862 PESQ (Perceptual Evaluation of Speech Quality) P.863 POLQA (Perceptual Objective Listening Quality Analysis)

Wskaźniki jakości szerokopasmowego sygnału audio: SDG, ODG Subjective Difference Grade (SDG) SDG=MOS (sygnał testowany) MOS (sygnał oryginalny) (wartości od -4 do 1) Objective Difference Grade (ODG) Obliczony na podstawie porównania (w dziedzinie częstotliwości, z uwzględnieniem maskowania) sygnału testowanego z oryginalnym

Obliczanie ODG dla szerokopasmowego sygnału audio: PEAQ (BS1387)

Metody obiektywne dla szerokopasmowego sygnału audio: PEAQ (BS1387) Algorytm PEAQ (Perceptual Evaluation of Audio Quality) można podzielić na następujące bloki : obwodowy model ucha oparty na transformacie DFT, przetwarzanie wzorów pobudzenia, obliczenie cech sygnału MOV (Model Output Variable), wprowadzenie parametrów MOV do sztucznej sieci neuronowej oraz obliczenie końcowego wyniku testu ODG (Objective Difference Grade). Przetwarzanie wstępne: obliczenie DFT ( użyte zostaje okno Hanna ) skalowanie sygnału do poziomu odtwarzania uwzględnienie wpływu ucha zewnętrznego i środkowego (użycie filtrów) transformacja do skali barkowej ( pasma krytyczne ) i uwzględnienie zjawiska maskowania

Obliczenie Model Output Variables: PEAQ Wartościami wejściowymi do obliczenia wartości MOV są uzyskane z wcześniejszych etapów : Wzory pobudzenia dla sygnału referencyjnego i testowego Wzory głośności dla obu sygnałów Wzory modulacji głośności dla obu sygnałów Sygnał błędu (obliczony jako różnica widma sygnału testowego i referencyjnego)

PEAQ - Model Output Variables o o o o o o o o o o BandwidthRef b pasmo sygnału referencyjnego BandwidthTest b pasmo sygnału testowanego. Total NMR b ( Noise-to-mask ratio) - stosunek szumu do progu maskowania. WinModDiff1 b ( Windowed Modulation Difference) liczona jest chwilowa wartość modulacji, która następnie jest uśredniana ADB b (Average block distortion) średnie zniekształcenie sygnału EHS b ( Harmonic Structure of the error) bierze pod uwagę, w którym momencie badany sygnał jest bardziej podatny na zakłócenia AvgModDiff1 b i AvgModDiff2 b - średnie różnice modulacji RmsNoiseLoud b średnia kwadratowa głośności szumów MFPD b ( Maximum filtered probability of detection) opisuje prawdopodobieństwo wykrycia różnic pomiędzy sygnałem referencyjnym a testowym RelDistFrames b (Relative Disturbed Frames) Ramkę uznaje się za przeszkadzającą w odbiorze jeśli wartość NMR przekroczy 1,5 db

PEAQ: obliczenie ODG Wartości MOV, których jest 11, są wprowadzane do sztucznej sieci neuronowej z różną wagą i obliczany jest wynik końcowy ODG, w skali od -4 do 0, który powinien być zbliżony do subiektywnej oceny słuchacza. Skala ocen (ODG) generowanych przez algorytm PEAQ: 0 pogorszenie jakości niesłyszalne -1 wyczuwalne, ale nie przeszkadzające -2 nieznacznie przeszkadzające -3 przeszkadzające -4 bardzo przeszkadzające

Porównanie SDG i ODG

Testy z wykorzystaniem PEAQ Istnieją dwie wersje algorytmu PEAQ. Różnica między nimi polega na zastosowaniu innych modeli psychoakustycznych : PEAQ Basic mniejsza dokładność, krótki czas testu PEAQ Advanced większa dokładność, dłuższy czas testu

Testy z wykorzystaniem PEAQ Istnieją dwie wersje algorytmu PEAQ. Różnica między nimi polega głównie na zastosowaniu innych modeli psychoakustycznych : PEAQ Basic mniejsza dokładność, krótki czas testu (tylko tę wersję testowano) PEAQ Advanced większa dokładność, dłuższy czas testu

Testy z wykorzystaniem PEAQ: Porównanie kodeków MP3,Ogg i Wavpack

Testy z wykorzystaniem PEAQ: ograniczenie pasma mowy Filtr dolnoprzepustowy Wygenerowane wyniki są zgodne z oceną jakości po odsłuchu

Testy z wykorzystaniem PEAQ: zerowanie ciszy międzywyrazowej Zamiana ciszy międzywyrazowej próbkami o wartości zerowej Zamiana ciszy zerami powoduje spadek ODG podczas gdy w rzeczywistości nie ma to wpływu na ocenę sygnału

Testy z wykorzystaniem PEAQ: skrócenie przerw między wyrazami wycięcie bardzo małych fragmentów ciszy powoduje znaczny spadek ODG problemy z synchronizacją częściową

Testy z wykorzystaniem PEAQ: przepróbkowanie sygnału Nawet dla minimalnych różnic w czasie trwania sygnałów, uzyskane oceny jakości dźwięku są bardzo niskie

Testy z wykorzystaniem PEAQ: wnioski Dla większości analizowanych sygnałów wartości ODG są zgodne z wrażeniami słuchowymi Badana implementacja PEAQ generuje oceny niezgodne z oceną subiektywną przy odsłuchu sygnałów w następujących sytuacjach: zmianach w obrębie bardzo cichych fragmentów skróceniu ciszy międzywyrazowej o niezauważalną dla słuchacza wartość przepróbkowaniu sygnału

Wykorzystanie maskowania w kodowaniu sygnałów fonicznych audio Transformata lub zestaw filtrów kwantyzacja Transformata odwrotna lub zestaw filtrów audio Obwiednia widma lub analiza psychoakustyczna Rozdział bitów Informacja dodatkowa

Sterowanie zakresami pracy kwantyzatorów 1 kwantyzator w całym pasmie 2 podpasma z osobnymi kwantyzatorami

Sterowanie rozdziałem bitów Po b bitów dla każdego kwantyzatora b1 > b2 (b1+b2=2b)

Przykład: MPEG1 Audio layer 3 Pętla Powtórzeń Sygnał Audio (PCM) Filtry Subpasmowe 32 pasma MDCT 576 Współ. Zewnętrzna Pętla Kontroli Zniekształceń Wewnętrzna Pętla Sterowania Prędkością Kodowanie Huffmana Formatowanie strumienia Zakodowany Sygnał Audio Przełączanie Okna Informacje Dodatkowe FFT Model Psychoakustyczny

Maskowanie i kwantyzacja

Maskowanie w dziedzinie czasu

Badanie jakości mowy: PESQ i POLQA Warunki pomiaru z wykorzystaniem algorytmu PESQ: Zalecany czas trwania nagrania to 8-12 s, dopuszczalny 3,2 30 s, w żadnym wypadku nie powinien przekroczyć czasu trwania miliona próbek. Zawartość sygnału mowy w nagraniu powinna mieścić się w granicach 40%- 80% (reszta to cisza międzywyrazowa i fragmenty ciszy na początku i na końcu nagrania), aktywny sygnał mowy winien trwać co najmniej 3,2 s. W testach powinno się uwzględniać wpływ mówcy, wskazane jest użycie nagrań mowy pochodzącej od 2 kobiet i 2 mężczyzn. Cisza poprzedzająca sygnał mowy i występująca na końcu nagrania powinna trwać od 0,5 s do 2 s. Czas trwania odcinków ciszy początkowej i końcowej nie powinien, dla obu porównywanych nagrań, różnić się o więcej niż 25%.

Symulacja działania Voice Activity Detector oryginał Sygnał oryginalny Sygnał z ciszą (MOS-LQO=2,1) Ocena DMOS = 4,5 POLQA MOS-LQO = 3,6 Prawie nie zauważalne pogorszenie

Zakłócenia impulsowe w sygnale, MOS-LQO = 1,8 Zgodna z wynikami subiektywnymi w sygn. resztkowym, MOS-LQO = 2,7 Ocena sub. MOS = 3,4 POLQA MOS-LQO = 3,5

4 frazy, 4 mówców Wpływ frazy i mówcy

Badanie wpływu utraty pakietów (krótkie frazy) PLR=1%

Badanie jakości sygnału mowy w usłudze VoIP Emulator sieci Recordpad Sound Recorder VAC VAC NADAWCA Fraza testowa PESQ: pomiar MOS, MOS-LQO ODBIORCA Fraza odebrana

Wyniki badań MOS w funkcji PLR

Wyniki badań MOS w funkcji jitter a

Wnioski z testowania PESQ Obiektywne metody pomiaru jakości nie powinny być stosowane bezkrytycznie. Przestrzeganie wskazówek zawartych w Zaleceniu P.862.3 nie zawsze wystarcza do uzyskania wiarygodnych wyników metodą PESQ. Przy wstawianiu ciszy (VAD) i zakłóceniach impulsowych wyniki uzyskane metodą PESQ mogą znacznie odbiegać od wyników badań subiektywnych. System synchronizacji zastosowany w algorytmie PESQ nie zawsze działa poprawnie. Badając wpływ parametrów sieci na jakość mowy w VoIP należy uśredniać znacznie więcej niż zalecane 4 wyniki, zwłaszcza gdy wykorzystuje się kilkusekundowe frazy.