Raport z realizacji zadania badawczego: A.5 Tytuł raportu: Analiza i ocena metod subiektywnych i obiektywnych badania jakości sygnałów audio i wideo



Podobne dokumenty
Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Obiektywne metody pomiaru jakości obrazu

Kompresja dźwięku w standardzie MPEG-1

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Jakości usług telekomunikacyjnych

Filtracja obrazu operacje kontekstowe

METODY OCENY JAKOŚCI DŹWIĘKU

Przygotowała: prof. Bożena Kostek

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

Badanie jakości sygnałów audio

Przesył mowy przez internet

Nauka o słyszeniu Wykład IV Głośność dźwięku

Technika audio część 2

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Parametryzacja obrazu na potrzeby algorytmów decyzyjnych

Analiza obrazów - sprawozdanie nr 2

Nauka o słyszeniu. Wykład III +IV Wysokość+ Głośność dźwięku

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Transformata Fouriera

Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy prosty i skuteczny.

PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH

Przekształcenia widmowe Transformata Fouriera. Adam Wojciechowski

Przetwarzanie obrazów wykład 4

DZ.U. NR 150, POZ. 895

PL B1. POLITECHNIKA GDAŃSKA, Gdańsk, PL BUP 19/09. ANDRZEJ CZYŻEWSKI, Gdynia, PL GRZEGORZ SZWOCH, Gdańsk, PL

Sposoby opisu i modelowania zakłóceń kanałowych

ROZPORZĄDZENIE KRAJOWEJ RADY RADIOFONII I TELEWIZJI. z dnia 30 czerwca 2011 r.

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

Przekształcenia sygnałów losowych w układach

Metodyka i system dopasowania protez słuchu w oparciu o badanie percepcji sygnału mowy w szumie

Przetworniki A/C. Ryszard J. Barczyński, Materiały dydaktyczne do użytku wewnętrznego

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

Ponieważ zakres zmian ciśnień fal akustycznych odbieranych przez ucho ludzkie mieści się w przedziale od 2*10-5 Pa do 10 2 Pa,

Filtracja obrazu operacje kontekstowe

Grafika Komputerowa Wykład 2. Przetwarzanie obrazów. mgr inż. Michał Chwesiuk 1/38

Cyfrowe przetwarzanie i kompresja danych

Akwizycja obrazów. Zagadnienia wstępne

Aproksymacja funkcji a regresja symboliczna

BIBLIOTEKA PROGRAMU R - BIOPS. Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Jakość transmisji multimedialnej. Opracowanie: Marcin Szykulski

Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Mapa akustyczna Torunia

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.

ZAKŁAD SYSTEMÓW ELEKTRONICZNYCH I TELEKOMUNIKACYJNYCH Laboratorium Podstaw Telekomunikacji WPŁYW SZUMÓW NA TRANSMISJĘ CYFROWĄ

ĆWICZENIE 15 BADANIE WZMACNIACZY MOCY MAŁEJ CZĘSTOTLIWOŚCI

Podstawy Przetwarzania Sygnałów

Podsumowanie wyników ankiety

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Psychofizyka. Klasyfikacja eksperymentów psychofizycznych

Modyfikacja algorytmów retransmisji protokołu TCP.

Redukcja kosztów połączeń telekomunikacyjnych przy wykorzystaniu central ISDN PABX

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

USŁUGI DODATKOWE W SIECIACH BEZPRZEWODOWYCH VoIP oraz multimedia w sieciach WiFi problemy

Klasyfikacja metod przetwarzania analogowo cyfrowego (A/C, A/D)

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

PRZEWODNIK PO PRZEDMIOCIE

Zygmunt Wróbel i Robert Koprowski. Praktyka przetwarzania obrazów w programie Matlab

Analiza składowych głównych. Wprowadzenie

Politechnika Warszawska

Ćwiczenie 6. Transformacje skali szarości obrazów

Wprowadzenie do analizy korelacji i regresji

Zakres wymaganych wiadomości do testów z przedmiotu Metrologia. Wprowadzenie do obsługi multimetrów analogowych i cyfrowych

Analogowa (para miedziana, radio, walkie-talkie, CB) Cyfrowa (ISDN, GSM, VoIP, DRB, DVB, Tetra, )

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

WYDZIAŁ FIZYKI I INFORMATYKI STOSOWANEJ

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Politechnika Warszawska

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Przetwarzanie obrazów wykład 6. Adam Wojciechowski

Przetwarzanie sygnałów w telekomunikacji

CZWÓRNIKI KLASYFIKACJA CZWÓRNIKÓW.

Demodulator FM. o~ ~ I I I I I~ V

Egzamin / zaliczenie na ocenę*

Kompresja sekwencji obrazów - algorytm MPEG-2

Diagnostyka obrazowa

Analiza szeregów czasowych: 2. Splot. Widmo mocy.

Dźwięk podstawowe wiadomości technik informatyk

Ze względu na dużą rozpiętość mierzonych wartości ciśnienia (zakres ciśnień akustycznych obejmuje blisko siedem rzędów wartości: od 2x10 5 Pa do

Odbiorniki superheterodynowe

NADESŁANE ARTYKUŁY METODY OCENY JAKOŚCI DŹWIĘKU W TELEFONII VOICE OVER IP

Ile wynosi całkowite natężenie prądu i całkowita oporność przy połączeniu równoległym?

Diagnostyka obrazowa

Percepcja dźwięku. Narząd słuchu

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Zmienne zależne i niezależne

Zagadnienia egzaminacyjne ELEKTRONIKA I TELEKOMUNIKACJA studia rozpoczynające się przed r.

Metody badawcze Marta Więckowska

Układy stochastyczne

WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI

Symulacje akustyczne

POMIARY WYBRANYCH PARAMETRÓW TORU FONICZNEGO W PROCESORACH AUDIO

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Transkrypt:

Numer Projektu Badawczego Zamawianego: -MNiSW-02-II/2007 Tytuł projektu: Numer dokumentu: Usługi i sieci teleinformatyczne następnej generacji aspekty techniczne, aplikacyjne i rynkowe -MNiSW-02-II/2007/WUT/A.5 Tytuł raportu: Analiza i ocena metod subiektywnych i obiektywnych badania jakości Przewidywany termin dostarczenia raportu: 30/06/08 Rzeczywisty termin dostarczenia raportu: 25/06/08 Kierownik zadania: Wykonawcy: Sławomir Kula Przemysław Dymarski, Artur Janicki, Sławomir Kula Abstrakt: W pracy dokonano analizy i oceny wybranych metod badania jakości, oraz przeprowadzono analizę przydatności tych metod w realizacji projektu. Słowa kluczowe: metody subiektywne, metody obiektywne, audio, wideo, PESQ, PEAQ, PEVQ

Streszczenie W raporcie przedstawiono metody i badania jakości sygnałów audio (głównie mowy telefonicznej) i wideo. Podstawowe znaczenie mają tu metody subiektywne, bazujące na uśrednionej reakcji grupy słuchaczy (sygnał audio) lub obserwatorów. Opisano je w p.2.1, a w p.1.2 podano oparte na nich normy. Metody te wymagają przeprowadzania długotrwałych badań z udziałem grupy słuchaczy/obserwatorów, dlatego coraz częściej używa się mniej dokładnych, lecz łatwych w użyciu metod obiektywnych (p.2.3 i 3). Oparte są one na pomiarze sygnału audio i wideo (metody intruzyjne po stronie nadawczej i odbiorczej, nieintruzyjne wyłącznie po stronie odbiorczej) i niejako zastępują słuchacza/obserwatora, wykorzystując model percepcji (słuchowej i wzrokowej). Muszą być jednak kalibrowane z wykorzystaniem metod obiektywnych. Z kolei metody parametryczne (p.2.2) opierają się na pomiarze wybranych, charakterystycznych, fizycznych parametrów połączenia telekomunikacyjnego i na tej podstawie określeniu jakości sygnału, bez udziału odbiorców i bez pomiarów dźwięku i obrazu. Te ostatnie są najwygodniejsze w stosowaniu, lecz najmniej dokładne. Celem zadania realizowanego w projekcie jest dostarczenie narzędzi dla operatora, pozwalających mierzyć stopień zadowolenia (QoE) usługobiorcy z aplikacji, którą ma być VoIP Wideostreaming (aplikacja Wideo na żądanie ) Gra interaktywna Wymaga to testowania koniec - koniec pojedynczego połączenia, w związku z tym zakłada się, aby zapewniony był dostęp do obu terminali nadawczego i odbiorczego. W przypadku wideostreamingu wystarczy znajomość wysyłanej sekwencji wideo. Pomiar jakości przeprowadzany byłby po stronie odbiorczej, na podstawie porównania nadawanej i odebranej sekwencji wideo. Podstawowym narzędziem byłyby tu metody obiektywne, po odpowiedniej kalibracji z wykorzystaniem metod subiektywnych. W przypadku aplikacji interaktywnych (VoIP, gra) po obu stronach połączenia powinien być umieszczony agent, symulujący interlokutora (lub gracza). Automat mógłby reagować, natychmiast odpowiadając na przekaz głosowy lub wiadomość o zmianie stanu gry, umożliwiając tym pomiar opóźnienia i innych parametrów wpływających na jakość usługi. W odniesieniu do gry interaktywnej należałoby, w pierwszym etapie, przeprowadzić badania metodami subiektywnymi. Wyników tych badań można będzie użyć do kalibracji odpowiedniej metody obiektywnej (należałoby taką metodę opracować). W dalszej fazie projektu można by podjąć próbę skonstruowania, dla wymienionych na wstępie aplikacji, agentów pomiarowych działających na poziomie pakietów, bez symulacji rozmówcy czy gracza. Agenci, zainstalowani po obu stronach połączenia telekomunikacyjnego, wymienialiby się oznakowanymi pakietami, mierząc parametry połączenia (przepływność, opóźnienie pakietów, jitter opóźnienia, stopa utraty pakietów). Odpowiedni algorytm dokonywałby oszacowania QoE na podstawie wyników przeprowadzonej sesji pomiarowej. 2

Spis treści STRESZCZENIE...2 1 WPROWADZENIE...5 1.1 METODY BADANIA JAKOŚCI...5 1.2 STAN NORMALIZACJI...5 2 SUBIEKTYWNE I OBIEKTYWNE METODY BADANIA JAKOŚCI MOWY I SYGNAŁÓW AKUSTYCZNYCH...7 2.1 SUBIEKTYWNE METODY BADANIA JAKOŚCI MOWY...7 2.1.1 Kategoryzacja...7 2.1.2 Testy konwersacyjne...8 2.1.3 Testy odsłuchowe...8 2.1.3.1 Metoda ACR... 9 2.1.3.2 Metoda DCR... 9 2.1.3.3 Metoda DRT/MRT... 9 2.1.4 Badanie wyrazistości...10 2.2 PARAMETRYCZNE METODY BADANIA JAKOŚCI...10 2.2.1 E-model...10 2.3 OBIEKTYWNE METODY BADANIA JAKOŚCI...13 2.3.1 Metoda PSQM...13 2.3.2 Metoda MNB...16 2.3.3 Metoda 3SQM...18 2.4 OFERTY WYSPECJALIZOWANYCH FIRM...19 2.5 WNIOSKI...19 3 OBIEKTYWNE METODY OCENY JAKOŚCI SYGNAŁU WIDEO...20 3.1 RODZAJE ZNIEKSZTAŁCEŃ I ZAKŁÓCEŃ OBRAZU RUCHOMEGO...20 3.2 MODELE PERCEPCJI OBRAZU...20 3.3 BADANIA PERCEPCJI OBRAZU W RAMACH VQEG...24 3.3.1 Yonsei University (Korea)...25 3

3.3.2 CPqD IES (Brazylia)...25 3.3.3 NASA...26 3.3.4 NTIA/ITS...29 3.4 OFERTY WYSPECJALIZOWANYCH FIRM...30 3.5 WNIOSKI...32 4 PODSUMOWANIE...33 4.1 SUBIEKTYWNE A OBIEKTYWNE METODY BADANIA JAKOŚCI...33 4.2 WNIOSKI ZWIĄZANE Z REALIZACJĄ PROJEKTU...33 LITERATURA...35 LISTA SKRÓTÓW...38 LISTA OZNACZEŃ...39 4

1 Wprowadzenie 1.1 Metody badania jakości We współczesnych systemach i sieciach telekomunikacyjnych i teleinformatycznych stosowanych jest wiele rozwiązań, w których sygnał mowy, sygnały akustyczne i sygnały wideo podlegają różnego rodzaju przekształceniom i przetworzeniom w celu jego sprawnego i efektywnego przesyłania, gromadzenia, rozpoznawania i syntetyzowania. Stosowanych jest wiele różnych typów koderów, sieci dostępowe i transmisyjne opierają się na nowych rozwiązaniach, a integracja sieci telekomunikacyjnych i informatycznych stała się faktem, również w kontekście realizacji połączeń telefonicznych (VoIP Voice over IP). Specyfika stosowanych rozwiązań oraz różnorodność systemów i sieci wykorzystywanych do tworzenia połączeń telefonicznych powoduje, że sygnały podlegają wielokrotnemu przetwarzaniu, przekodowywaniu i przeładowywaniu zanim dotrą do odbiorcy. Wszystko to może w rezultacie wpływać na ich jakość. Wpływ ten jest z reguły negatywny, a co gorsze czasami trudny lub niemożliwy do przewidzenia. Jakość mowy SQ (Speech Quality) jest jednym z elementów ogólnej oceny QOS (Quality Of Service) jakości usługi telekomunikacyjnej związanej z tworzeniem połączeń telefonicznych. Ocena jakości mowy SQ nie obejmuje na przykład skuteczności nawiązywania połączeń, częstości ich zrywania, czy skuteczności rozpoznawania mowy, które to parametry razem z SQ wpływają na ogólną ocenę QOS jakości usługi. Przesyłanie sygnału wizyjnego wykorzystuje się w usługach typu Wideo na żądanie, Wideostreaming, Wideokonferencja. Miarą zadowolenia klienta z tych usług jest w głównej mierze jakość odbieranego obrazu i skojarzonego z nim dźwięku. Jakość tę mierzy się metodami subiektywnymi, najczęściej w skali MOS (mean opinion score) od 1 do 5. Wymaga to przeprowadzania sformalizowanych odsłuchów dźwięku i pokazów ruchomego obrazu, co jest trudne od strony organizacyjnej, długotrwałe i kosztowne. W tej sytuacji dąży się do zastąpienia metod subiektywnych oceny jakości metodami obiektywnymi, polegającymi na obliczeniu parametru MOS na bazie automatycznego porównania sygnału oryginalnego (starannie dobranego, o dobrej jakości) i sygnału docierającego do klienta. Tego typu metody obiektywne, wymagające znajomości oryginału, są nazywane intruzyjnymi (ang. intrusive). Trudniejsze do opracowania i z reguły mniej dokładne, są metody nieintruzyjne (ang. nonintrusive), nie wymagające znajomości oryginału. Inną grupę metod oceny jakości stanowią metody parametryczne, pozwalające na oszacowanie jakości usługi na podstawie parametrów połączenia telefonicznego. Należy do nich E-model (zalecenie G.107 dla telefonii) i algorytm P.VTQ (dla VoIP). W kolejnych podrozdziałach raportu skoncentrowano się na prezentacji wybranych subiektywnych i obiektywnych metod oceny jakości mowy, sygnału audio i sygnału wideo dla potrzeb badania różnego rodzaju połączeń, którymi są przesyłane te sygnały oraz urządzeń, systemów i sieci realizujących takie połączenia. W podsumowaniu sformułowano wnioski dla realizacji projektu. 1.2 Stan normalizacji Większość norm odnosi się do subiektywnej oceny jakości mowy, sygnałów akustycznych i wizyjnych. Warunki przeprowadzania badań wyrazistości mowy dla potrzeb telefonii określa Pol- 5

ska Norma PN-90/T-05100 [PN-90]. Badania odsłuchowe w skali MOS opisano w zaleceniu ITU-T P.800 [P.800]. Rozszerzono tę normę na cyfrowe łącza i kodeki zalecenie ITU-T P.830. Metodę porównawczą określania jakości mowy definiuje zalecenie ITU-T P.810: Modulated Noise Reference Unit [MNRU]. Do subiektywnego pomiaru jakości mowy odnoszą się też normy ETSI: ETSI ETR 250 [ETR250] i ETSI EG 201 377-1 [EG201]. Metodykę subiektywnych pomiarów jakości sekwencji wideo opisuje zalecenie ITU-R BT.500-7 [BT500]. Dla potrzeb multimediów opracowano zalecenia [P.910] i [P.911] to ostatnie łącznie traktuje dźwięk i obraz. Dla sygnału mowy w paśmie telefonicznym opracowano odpowiednie testy obiektywne: Algorytm PSQM opisany w zaleceniu ITU-T P.861 [PSQM] Algorytm PESQ [PESQ] opisany w zaleceniu ITU-T P.862 jest to ulepszona wersja PSQM. Oba algorytmy są intruzyjne, uwzględniają niektóre zjawiska psychoakustyczne, np. maskowanie zakłóceń użytecznym sygnałem audio. Algorytm 3SQM zalecenie P.563 [3SQM]. Jest to metoda nieintruzyjna, tym niemniej zapewniająca dużą korelację wyników MOS z wynikami otrzymanymi dokładniejszą metodą PESQ. Dla sygnałów akustycznych o pełnym paśmie częstotliwości odbieranym przez człowieka opracowano metodę PEAQ norma BS.1387 [PEAQ]. Jest to metoda intruzyjna. Inną grupę metod oceny jakości stanowią metody parametryczne, pozwalające na oszacowanie jakości usługi na podstawie parametrów połączenia telefonicznego. Należy do nich E-model (zalecenie G.107) [G.107] i algorytm P.VTQ (Derivation of voice transmission quality from nonintrusive IP protocol analysis w opracowaniu). E-model został zmodyfikowany w zaleceniach ETSI [ETS101], [ETS102]. Mniej zaawansowane są prace nad obiektywnymi algorytmami oceny jakości ruchomego obrazu. Normy ANSI [ANSI801] nie uwzględniają maskowania i innych cech percepcji obrazu przez człowieka. Dopiero zalecenie J.144 [J.144] opracowane dla telewizji kablowej ma cechy użytecznej metody intruzyjnej. Odnosi się ono do sygnałów o jakości telewizyjnej, zakłada obserwację obrazu na dużym ekranie, w związku z tym nie może być wykorzystane do badania jakości strumieni wideo przesyłanych np. w systemie UMTS i obserwacji obrazu na małym terminalu (telefonie komórkowym). 6

2 Subiektywne i obiektywne metody badania jakości mowy i sygnałów akustycznych W tej części raportu omówiono metody subiektywne, obiektywne i parametryczne badania jakości mowy. Należy podkreślić, że metody subiektywne, angażujące grupę słuchaczy, są podstawowym narzędziem służącym do kalibracji pozostałych metod metod oceny jakości. Są one jednocześnie najbardziej kłopotliwe w stosowaniu, gdyż wymagają zorganizowania sformalizowanych odsłuchów. Metody obiektywne posługują się modelem percepcji w celu oceny postrzeganej przez odbiorcę jakości. Metody parametryczne (często uważane za szczególnego rodzaju metody obiektywne) posługują się parametrami połączenia telekomunikacyjnego dla oceny spodziewanej jakości przekazu. 2.1 Subiektywne metody badania jakości mowy Subiektywne metody badania jakości mowy sprowadzają się do bezpośredniego wykorzystania w eksperymencie osób, których zadaniem jest - na podstawie wrażeń słuchowych. określenie cech mowy pozwalających bezpośrednio lub pośrednio oszacować jej jakość. Na rysunku 2-1 pokazano schematycznie strukturę, w jakiej przeprowadza się testy subiektywne. Rysunek 2-1: Struktura, w której przeprowadza się testy subiektywne 2.1.1 Kategoryzacja Osoby biorące udział w ocenie jakości mowy mają za zadanie ocenić mowę w ramach przyjętej kategorii. W testach subiektywnych używanych jest kilka typów kategorii. I tak da się wyróżnić następujące kategorie: bezwzględna porównawcza degradacyjna. W każdym przypadku osoba oceniająca jakość mowy przypisuje jej ocenę według przyjętej skali punktowej. W tabeli 2-1 przedstawiono skale punktowe dla wyżej wymienionych kategorii. 7

Tabela 2-1: Skala punktacji dla poszczególnych typów kategoryzacji Punktacja Kategoryzacja Bezwzględna Porównawcza Degradacyjna Jakość Porównanie jakości Pogorszenie jakości 5 Doskonała - Niesłyszalne 4 Dobra - Nie przeszkadzające 3 Zadowalająca Dużo lepsza Lekko przeszkadzające 2 Słaba Lepsza Przeszkadzające 1 Zła Nieznacznie lepsza Bardzo przeszkadzające 0 - Jednakowa - -1 - Nieznacznie gorsza - -2 - Gorsza - -3 - Dużo gorsza - 2.1.2 Testy konwersacyjne W tym teście, dwóch jego uczestników (osoby przypadkowe, nie związane z personelem technicznym laboratorium, ani pomiarami jakości mowy) znajduje się w odrębnych kabinach o ściśle określonych gabarytach, umieszczonych w laboratorium badawczym Pomiędzy kabinami jest łączność telefoniczna. Parametry połączenia telefonicznego są modelowane. Zadaniem osób prowadzących rozmowę jest ocena jej jakości w skali 5-punktowej oraz udzielenie binarnej odpowiedzi na pytanie: czy występowały trudności w trakcie rozmowy? Dodatkowo mierzony jest poziom odbieranych sygnałów oraz czas trwania rozmowy. Na podstawie oceny rozmówców określa się wartość MOS. 2.1.3 Testy odsłuchowe Testy odsłuchowe nie uwzględniają wszystkich czynników występujących w trakcie korzystania z łączności telefonicznej. Niemniej są one wygodne na przykład w fazie opracowywania nowego systemu lub kodera mowy. Sygnał mowy jest wcześniej rejestrowany w pamięci komputera, a w czasie testu odczytywany i przesyłany przez badany system. Lektorzy biorący udział w przygotowaniu nagrań muszą spełniać odpowiednie wymagania. W teście odsłuchowym mowa podlega ocenia według skali bezwzględnej przez grupę słuchaczy. Do najważniejszych subiektywnych metod oceny jakości transmisji mowy obecnie zalicza się te metody, które dają ocenę MOS w pięciostopniowej skali jakości bezpośrednio. Są to następujące metody: 8

ACR Absolute Category Rating, DCR Degradation Category Rating Ocenę jakości można uzyskać też pośrednio, poprzez pomiary wyrazistości i zrozumiałości: metoda DRT Diagnostic Rhyme Test, metoda MRT Modified Rhyme Test. Integralną częścią metody niezależnie od sposobu dojścia do oceny MOS winna być miara odniesienia pozwalająca na porównanie i uśrednienie wyników MOS uzyskanych różnymi sposobami, w różnych ośrodkach i dla różnych języków. 2.1.3.1 Metoda ACR Metoda ACR, polegająca na bezpośrednim określeniu jakości mowy w pięciostopniowej skali ocen jest obecnie najczęściej stosowana, gdyż pozwala na stosunkowo szybki i tani (jak na metody subiektywne) pomiar. Umożliwia to przeprowadzenie badań dla wielu obiektów z różnymi wartościami parametrów wpływających na jakość transmisji lub kodowania. Dodatkowo metoda ACR, jest unormowana w zaleceniach ITU-T P.800 [P.800]. Wadą metody jest brak precyzji w zdefiniowaniu zadania dla grupy odsłuchowej i naturalna niezdolność słuchaczy do stabilnej i powtarzalnej oceny w skali punktowej takiej cechy, jak jakość transmisji mowy. Jest tu więc konieczne wykonanie pomiaru dla licznej ekipy słuchaczy (większej od 12), kilku głosów po stronie nadawczej, staranne przeszkolenie i trenowanie słuchaczy. W tej metodzie wykorzystywane są listy testowe złożone z prostych, krótkich, nie związanych z sobą semantycznie zdań. Lista podzielona jest na grupy złożone z pięciu zdań. Zdania nie powinny być zbyt krótkie, jak również zbyt długie; powinny trwać 2-3 s. Słuchacze, po wysłuchaniu grupy zdań podają swoja opinię w pięciostopniowej skali jakości odsłuchu, wysiłku słuchowego lub preferowanej głośności. Ocena 5 odpowiada bardzo dobrej jakości, natomiast 1 niedostatecznej. Ocena średnia (MOS) obliczana jest dla każdego badanego warunku transmisji mowy oraz dla każdej skali ocen, jako wynik uśrednienia po słuchaczach i mówcach. 2.1.3.2 Metoda DCR Metoda DCR, także unormowana zaleceniami ITU-T P.800 [P.800], jest alternatywnym rozwiązaniem dla metody ACR. Pomiar polega na porównaniu wzorcowego sygnału mowy o wysokiej jakości z sygnałem przesłanym przez badany kanał telekomunikacyjny. Sygnał wzorcowy prezentowany jest zawsze jako pierwszy. Słuchacze określają stopień pogorszenia jakości sygnału badanego w stosunku do sygnału wzorcowego w pięciostopniowej skali ocen. Pomiar wykonywany jest dla licznej ekipy słuchaczy i kilku mówców (podobnie jak w metodzie ACR). Ocena średnia (DMOS) obliczana jest dla każdego badanego warunku transmisji mowy oraz dla każdej skali ocen, jako wynik uśrednienia po słuchaczach i mówcach. 2.1.3.3 Metoda DRT/MRT W metodach opartych o testy DRT/MRT materiałem testowym jest zbiór słów jednosylabowych różniących się najczęściej między sobą początkową lub końcową głoską. Miarą oceny jakości mowy jest podobnie jak w metodach wyrazistościowych stosunek poprawnie odebranych jednostek do liczby jednostek nadanych. Zbiór jednostek testowych jest najczęściej ograniczony i nieliczny (np. 6 jednostek), natomiast dla danego pomiaru jednostki są prezentowane słuchaczom 9

wielokrotnie w losowej kolejności. Głoski różnicujące zbiór testowy dobierane są z tej samej grupy artykulacyjnej (typowy jest tu zbiór głosek zwartych: p, d, t, d, k, g). Testy DRT/MRT różnią się od metod wyrazistościowych liczebnością zbioru testowego, brakiem zrównoważenia fonematycznego i strukturalnego materiału testowego oraz możliwością (wykluczoną w metodach wyrazistościowych) wielokrotnego powtarzania tej samej jednostki. Metody DRT/MRT można stosunkowo łatwo zautomatyzować [Basc99]. 2.1.4 Badanie wyrazistości Jedną z częściej używanych w Polsce subiektywnych metod oceny jakości mowy jest badanie wyrazistości. Metoda ta nie daje pełnej informacji o jakości a jedynie uwzględnia aspekt rozumienia wypowiadanych jednostek akustycznych takich jak: logatomy, sylaby, wyrazy czy zdania. Najczęściej badania te dotyczą wyrazistości logatomowej. Logatomy to nic nie znaczące w danym języku wyrazy (jedno-, dwu- lub trzysylabowe). Rozpoznanie logatomu jest zatem wyłącznie wynikiem usłyszenia wszystkich wchodzących w jego skład fonemów, a nie skojarzenia ze znanym wyrazem lub analizy kontekstowej. Pomijając kwestie proceduralne można powiedzieć, że badanie wyrazistości logatomowej polega na określeniu procentowym stosunku poprawnie rozpoznanych przez N słuchaczy logatomów z L do całkowitej liczby logatomów odczytanych. W N L 1 W n, l n= 1 l= 1 = ( NL) Rów. 2-1 W podanym wzorze W n,l oznacza liczbę poprawnie rozpoznanych logatomów przez n-tego słuchacza z l-tej listy w stosunku do liczby logatomów odczytanych z tej listy. Szczegółowy opis metody podaje polska norma [PN-90]. 2.2 Parametryczne metody badania jakości 2.2.1 E-model O jakości mowy transmitowanej decyduje wiele czynników wprowadzanych w procesie transmisji. Do niedawna istotne były jedynie tłumienie i zniekształcenie widma częstotliwościowego w kanale transmisyjnym. Ocenie wpływu na jakość mowy, przede wszystkim takich czynników służą modele: Transmission Rating (amerykański), Information Index (francuski), czy japoński o nazwie OPINE) Obecnie, gdy pojawiły się nowe systemy telefoniczne i systemy transmisyjne takie jak np. analogowa lub cyfrowa telefonia komórkowa oraz możliwości zarządzania jakością konieczne staje się udostępnienie operatorowi i projektantowi sieci telefonicznej nowych metod oceny jakości mowy w łańcuchu telefonicznym. Europejski Instytut Standardów Telekomunikacyjnych ETSI opracował model o nazwie E-model służący temu celowi [G.107]. E-model został zmodyfikowany w zaleceniach ETSI [ETS101], [ETS102]. E-model należy do metod parametrycznych, w których tworzony jest matematyczny model uwzględniający wszystkie elementy wchodzące w skład testowanej sieci lub systemu. Na jego podstawie obliczany jest parametr łączny. Dla szeregu wartości tego parametru określana jest metodą subiektywną jakość mowy. Otrzymana w ten sposób krzywa odwzorowania jest wykorzystywana do określenia, w następnych testach, jakości mowy wyłącznie na podstawie parametru łącznego. 10

W E-modelu wyznacza się parametr R będący łączną miarą jakości mowy. Może on być obliczony z następującej zależności: R = R I I I A Rów. 2-2 o s d e + gdzie: R o reprezentuje podstawowy stosunek mocy sygnału do mocy szumu, zależny zarówno od poziomu sygnału jak i szumów, I s reprezentuje zniekształcenia pojawiające się równocześnie z sygnałem mowy takie jak szumy kwantyzacji PCM, czy sygnały wybierania tonowego, I d reprezentuje zniekształcenia wynikające z opóźnień wnoszonych w procesie przetwarzania i transmisji, I e reprezentuje transmisyjne zniekształcenia wnoszone przez urządzenia takie jak niskoprzepływnościowe kodery, systemy DSI itp., A jest składnikiem korekcyjnym zależnym od specyfiki dostępu do łącza. Nowymi elementami wprowadzonymi do E-modelu są parametry I e oraz A. Parametr I e jest bezpośrednio zależny od zniekształceń wnoszonych przez kodery łańcucha. Może on być wyrażony jako suma parametrów K poszczególnych N koderów wchodzących w jego skład: N I e = n = K 1 n Rów. 2-3 W tabeli 2-2 podano wstępnie ustalone wartości parametru K dla najpopularniejszych typów koderów, zaś w tabeli 2-3 wartości składnika korekcyjnego A w zależności od typu systemu. Tabela 2-2: Wartość parametru K dla różnych typów koderów Typ kodera Przepływność [kbit/s] K PCM 64 0 ADPCM (G.726-7) 40 2 32 7 24 25 16 50 LD-CELP (G.728) 16 20 ACELP (G.729) 8 15 VSELP (IS 54 USA) 8 20 11

GSM (RPE RTP) 13 20 GSM (ETS 300 581) 6,5 25 Tabela 2-3: Wartości parametru A przyjmowane w E-modelu dla różnych systemów łączności System łączności A Tradycyjna telefonia przewodowa 0 DECT 5 GSM 10 Telefonia satelitarna 20 Współczynnik R może być obliczony na podstawie danych o systemach i sieciach. A zatem bez dokonywania pomiarów można określić jakość sygnału mowy, ponieważ związek pomiędzy parametrem R a subiektywną miarą jakość MOS jest określony (rys. 2-2) Rysunek 2-2: Zależność MOS od parametru R W wielu ośrodkach n-b kontynuowane są prace mające na celu lepsze dopasowanie E-modelu do nowych sposobów świadczenia usług telefonicznych, przede wszystkim VoIP [Ding],[Carvalho]. Prowadzone są również badania mające na celu powiązanie parametru R z innymi miarami subiektywnymi. W pracy [Trz00] pokazany jest związek pomiędzy parametrem R a wyrazistością logatomową. Niestety model nie został dokładnie przebadany z punktu widzenia zastosowań do sieci pakietowych i sieci o zmiennym opóźnieniu. 12

2.3 Obiektywne metody badania jakości Cechą charakterystyczną obiektywnych metod oceny jakości mowy jest wyznaczanie odległości - według przyjętej miary - pomiędzy wybranym lub wybranymi parametrami sygnału mowy oryginalnej i sygnału przetworzonego (przesłanego), a następnie na podstawie krzywej odwzorowania, określenie oceny w mierze subiektywnej. Na rysunku 2-3 pokazano ogólny schemat metody obiektywnej badania jakości mowy na podstawie analizy parametrów sygnału. Rysunek 2-3: Schemat blokowy obiektywnej metody oceny jakości mowy opartej na analizie parametrów sygnałów Uwzględniony na rys.2-3 sygnał odniesienia występuje jedynie w metodach intruzyjnych. W przypadku metod nieintruzyjnych jakość oceniana jest w oparciu o charakterystyczne zniekształcenia pojawiające się w transmisji, np. szumy i nieciągłości przebiegu czasowego (skutek przerw w transmisji). 2.3.1 Metoda PSQM W pierwszej połowie lat dziewięćdziesiątych ITU prowadziło intensywne prace zmierzające do opracowania obiektywnej metody badania jakości mowy kodowanej. Ich efektem było opracowanie kilku metod (PAMS, PARCEWAL, PSQM, PAQM, z których w wyniku weryfikacji stwierdzono, że metodą dającą najlepsze wyniki dla koderów telefonicznych wąskopasmowych, tzn. najlepiej estymującą wyniki badań subiektywnych, niezależnie od języka, mówcy i kodera jest metoda nazywana PSQM (Perceptual Speech Quality Measure). Opisuje ją zalecenie P.861 [PSQM]. W przypadku koderów szerokopasmowych zdecydowano się na model PEAQ (zalecenie ITU-R, BS.1387 [PEAQ]). Istota metody PSQM sprowadza się do określenia odległości pomiędzy rzeczywistym sygnałem mowy, a sygnałem otrzymanym w wyniku jej przetworzenia (głównie kodowania). Przy czym, zanim porównanie zostanie dokonane obydwa sygnały podlegają transformacji z postaci fizycznej na postać psychofizyczną odzwierciedlającą przetwarzanie akustycznego sygnału mowy przez ucho człowieka. Jak wcześniej wspomniano percepcja sygnału mowy jest zróżnicowana w zależności od jego częstotliwości i mocy. Inaczej odbierane są różnice między poziomami głośności. Na operację transformacji sygnału z postaci fizycznej na postać psychofizyczną składa się: odwzorowanie czasowo-częstotliwościowe; przeskalowanie częstotliwości; 13

przeskalowanie poziomu natężenia. Pierwsza z operacji jest realizowana za pomocą ramkowania sygnału oknem Hanninga o czasie trwania 32 ms (N=256 próbek w przypadku częstotliwości próbkowania 8 khz albo N=512 próbek przy częstotliwości próbkowania 16 khz), a następnie obliczenia N-punktowej krótkookresowej dyskretnej transformaty Fouriera, i na jej podstawie obliczeniu krótkookresowej mocy sygnału. Druga z operacji ma na celu zrealizowanie filtracji za pomocą tzw. filtrów barkowych. Różnica częstotliwości środkowych i szerokości pasm dwóch sąsiednich filtrów barkowych zwiększa się z częstotliwością, co wraz z maskowaniem przez szum odzwierciedla właściwości percepcyjne ucha. Do sygnału dodawany jest szum Hoth a modelujący zakłócanie sygnału szumami otoczenia docierającymi do słuchawki telefonu. Przeskalowanie poziomu natężenia w decybelach na poziom głośności wyrażany w fonach, a następnie jego wyrażenie w skali sonowej ma na celu uwzględnienie faktu, że subiektywne odczucie głośności nie zależy liniowo od poziomu natężenia sygnału (przejście ze skali decybelowej na fonową), oraz że subiektywne wrażenie zwiększenia głośności zmienia się nieliniowo wraz ze zmianą głośności (przejście ze skali fonowej na sonową). Maskowanie jest uwzględniane w modelu w prosty sposób. Efekt maskowania jest brany pod uwagę tylko wówczas, gdy dwie składowe pojawiają się w tym samym czasie i mają identyczne częstotliwości. Opisane pokrótce przekształcenie z wykorzystaniem modelu percepcyjnego obejmuje zarówno sygnał oryginalny jak i sygnał przetworzony, którego jakość ma być określona. Uproszczony algorytm metody PSQM przedstawiono na rys.2-4. Reprezentacje wewnętrzne obu sygnałów są porównywane, a obliczona odległość między nimi (tzw. wskaźnik PSQM) jest bezpośrednio związana z jakością testowanej mowy. Ostatnim krokiem w metodzie PSQM jest odwzorowanie skali obiektywnej na subiektywną. Nie jest to konieczne, jeżeli metoda jest stosowana np. do porównywania różnych typów koderów. Metoda PSQM choć stosunkowo prosta realizacyjnie napotyka na szereg trudności. Dotyczą one przede wszystkim obliczenia widma w skali barkowej. Próbki widma obliczone za pomocą dyskretnej transformaty Fouriera nie trafiają w próbki widma barkowego, co zmusza do stosowania interpolacji do określania ich wartości. Rysunek 2-4: Uproszczony schemat algorytmu badania jakości mowy metodą PSQM 14

W ciągu ostatnich dwudziestu lat wiele ośrodków na całym świecie próbowało rozwiązać problem oceny jakości transmisji mowy w systemach telekomunikacyjnych widzianych od zewnątrz, to znaczy z punktu widzenia użytkowników, traktując badany system telekomunikacyjny jako czarną skrzynkę, w której może teoretycznie znajdować się wszystko (pomiary klasy koniec - koniec). Metoda PSQM ma symulować subiektywną percepcję mowy w warunkach rzeczywistych. W procesie przekształcania sygnału mowy na jego psychofizyczną reprezentację, która jest odpowiednikiem sygnału jaki dociera do mózgu, korzysta się z wielu charakterystyk i stałych odzwierciedlających sposób percepcji dźwięku przez człowieka. Transformacja dokonywana jest zarówno na sygnale wejściowym jak i wyjściowym z badanego kanału telekomunikacyjnego. Zasadnicza nielinearność modelu słuchowego zawiera w sobie to, że konieczne jest oddzielne przetwarzanie każdego sygnału, który ucho w danym momencie słyszy. Operacja przetwarzania zaczyna się od obliczenia widma mocy. Segment mowy jest ważony przez okno Hanninga, a następnie dyskretna transformacja Fouriera przekształca okienkowany segment mowy w dziedzinę częstotliwości. Składowe: rzeczywista i urojona widma krótkoterminowego są podnoszone do kwadratu i dodawane, w wyniku czego uzyskuje się krótkoterminowe widmo mocy. System słuchowy człowieka jest znany ze słabszej dyskryminacji w zakresie wysokich częstotliwości niż w zakresie częstotliwości niskich. To, wraz ze zjawiskiem maskowania przez szum, doprowadziło do zamodelowania analizy dokonywanej przez ucho ludzkie za pomocą filtrów barkowych. Model ten wymaga przetwarzania sygnałów przez grupę takich filtrów, z odległościami częstotliwości środkowych i szerokościami pasm rosnącymi wraz z częstotliwością. Filtry te mogą być traktowane jako krzywe przestrajania nerwów słuchowych. Ich rozstawienie odpowiada półtoramilimetrowym odcinkom wzdłuż membrany podstawowej. Ciągłe widmo uzyskane w wyniku tej operacji zostało nazwane rozkładem pobudzeń, gdyż odpowiada ono rozkładowi bodźców w nerwach słuchowych. Modyfikacje widmowe przedstawione dotychczas wynikały z charakterystyki częstotliwościowej ucha (transformacja skali hercowej na barkową) i nieliniowego efektu wygładzania wprowadzanego filtracją w pasmach krytycznych przez ślimak błędnika ucha. Teraz należy uwzględnić fakt, że ucho nie jest jednakowo czułe na bodźce o różnych częstotliwościach. W celu uwzględnienia przetwarzania dźwięku reprezentowanego przez krzywe jednakowego poziomu głośności, należy przeprowadzić zamianę poziomów natężenia wyrażonych w decybelach na poziomy głośności wyrażone w fonach [Kula01]. Widmo, jakie otrzymuje się w wyniku dotychczasowych operacji, jest skorygowane pod względem głośności. Ostatnim krokiem jest uwzględnienie faktu, że wzrost głośności w fonach potrzebny do podwojenia subiektywnego odczucia głośności nie jest stały, lecz zmienia się z poziomem głośności. Należy więc przejść ze skali fonowej na skalę sonową [Kula01]. Zarówno oryginalny sygnał mowy, jak i jego przetransmitowany odpowiednik są osobno przetwarzane w identyczny sposób, prowadząc do uzyskania tzw. widm barkowych - odpowiednio sygnału oryginalnego i przetransmitowanego. Miarą jakości jest wówczas odpowiednio zdefiniowana odległość między tymi widmami zwana wskaźnikiem PSQM. Wartość PSQM można przetransformować na wartość MOS, która odpowiada subiektywnej ocenie, przy czym zależność mię- 15

dzy MOS a PSQM może być różna dla różnych języków. Stosując metodę PSQM należy więc uwzględnić specyfikę danego języka. Wadą metody PSQM jest brak korelacji otrzymywanych wyników z subiektywnymi ocenami w przypadku telefonii internetowej. Przyczyną występowania takich rozbieżności są zaburzenia w dziedzinie czasu (bulk delays) występujące podczas transmisji sygnału mowy w sieciach pakietowych przeznaczonych pierwotnie do transmisji danych. Rozwiązaniem okazał się mariaż modułu synchronizacji czasowej zaczerpniętego z metody PAMS ze standardem PSQM. Nowo opracowaną metodę pomiaru znacznie udoskonalono i nazwano PESQ (Perceptual Evaluation of Speech Quality). W 2001 ITU-T zaaprobowało PESQ jako nowy standard P.862 [PESQ], który zastąpił wcześniej stosowaną metodę PSQM. Idea pomiaru PESQ opiera się podobnie jak w przypadku PSQM, na tzw. reprezentacji wewnętrznej będącej teoretyczną postacią sygnału mowy w umyśle człowieka. Sygnałem wzorcowym (oryginalnym) jest nagrany sygnał mowy naturalnej - najlepiej po jednym zdaniu dla głosu męskiego i żeńskiego. Tak przygotowany sygnał oryginalny przesyłany jest badanym kanałem telekomunikacyjnym tworząc na wyjściu systemu sygnał zdegradowany. Oba sygnały stanowią dalej podstawę oceny. W pierwszym etapie oceniane jest opóźnienie między próbkami i ewentualnie wprowadzana jest odpowiednia korekcja. Następnie oba sygnały zostają poddane szeregowi transformacji modelujących poszczególne etapy przetwarzania dźwięku w ludzkim układzie słuchowym, włączając w to przede wszystkim: specyficzną analizę w częstotliwości i nieliniowość przetwarzania intensywności dźwięku. Ewentualne przesunięcia próbek w czasie są uwzględniane w dalszych etapach obróbki sygnału. Na końcu zaimplementowano tak zwany model kognitywny, którego zadaniem jest wydanie ostatecznej oceny na podstawie porównania reprezentacji wewnętrznych obu sygnałów. 2.3.2 Metoda MNB Metoda PSQM, choć zalecana do badania jakości mowy kodowanej nie daje najlepszych rezultatów, gdy mowa jest transmitowana. Dlatego wciąż trwają prace mające na celu opracowanie właściwej w takich przypadkach metody badania jakości mowy. Jedną z propozycji jest metoda MNB (Measuring Normalizing Blocks). Jej przydatność tak jak wielu innych metod wymaga jeszcze badań, szczególnie w kontekście zastosowania do badania sieci pakietowych i sieci o zmiennym opóźnieniu. Opracowując metodę MNB uwzględniono fakt, że człowiek różnie odbiera zniekształcenia częstotliwościowe i czasowe sygnału mowy w różnych ich zakresach. W zastosowaniach, gdzie estymowana ma być jakość mowy, konieczne jest więc określenie tych przedziałów na skali czasu i częstotliwości, w których zniekształcenia są najbardziej odczuwalne i w nich badać różnice pomiędzy sygnałem odniesienia a sygnałem testowanym. Wymaga to jednak przeprowadzania analizy w wielu różnych skalach. Zauważono ponadto, że przejście ze skali o większej liczbie przedziałów na skalę o mniejszej liczbie przedziałów dobrze odzwierciedla właściwości słuchu z punktu widzenia adaptacji i zachowania w przypadku zniekształcania widma częstotliwościowego. Z tych powodów algorytm w metodzie MNB ma strukturę hierarchiczną. Schemat blokowy algorytmu metody MNB przedstawiono na rys.2-5. Sygnały: testowany t(t) i odniesienia r(t) podlegają najpierw wstępnej procedurze normalizacyjnej, której celem jest ich zsynchronizowanie (eliminacja wpływu opóźnienia), unormowanie mocy sygnałów i eliminacja składowych stałych. Kolejną operacją jest wyznaczenie widm sygnałów. W tym celu sygnały są najpierw ramkowane za pomocą okna Hamminga (128 próbek dla czę- 16

stotliwości 8 khz) z przesunięciem 50%. Po wyznaczeniu widma dyskretnego R(t,f) i T(t,f) metodą FFT (Fast Fourier Transform), dla każdej ramki obliczana jest jej energia. Energia ta zarówno dla ramki sygnału testowanego jak i sygnału odniesienia musi przekraczać określony próg. Jeżeli tak nie jest, albo jeżeli ramka zawiera choćby jedną składową częstotliwościową o zerowej amplitudzie to nie jest ona dalej analizowana. W bloku normalizacji częstotliwościowej FMNB obliczane są cztery miary m 1,m 2,m 3,m 4 pokrywające całe pasmo zajmowane przez sygnał telefoniczny, które nieco upraszczając można uznać za znormalizowane względem częstotliwości 1 khz wartości różnicy energii sygnału odniesienia i sygnału testowanego, w czterech podpasmach częstotliwości. Do bloków normalizacji czasowej TMNB w odpowiednich podpasmach częstotliwości (w skali barkowej) przekazywane są odpowiednie wartości próbek widma sygnału odniesienia obliczone w bloku przetwarzania wstępnego oraz skorygowane o wartość błędu próbki sygnału badanego. W blokach normalizacji czasowej obliczane są uśrednione po czasie wartości widma częstotliwościowego w zadanym paśmie częstotliwości (skala barkowa) i oznaczane symbolem m n oraz wartości próbek widma sygnału testowanego skorygowane o wartość odpowiedniej próbki sygnału błędu. Spośród 18 miar m n tylko 7 jest liniowo niezależnych (n=5-11). Wraz z miarami m 1 -m 4 i miarą błędu m 12 tworzą one zespół 12 współczynników, na podstawie których obliczana jest wartość odległości AD (Auditory Distance) z zależności: 12 AD = m w i= 1 i i Rów. 2-4 gdzie: w i oznacza wagę dla i-tej miary. Odległość AD ma zawsze wartość dodatnią, tym mniejszą im mniejsza jest różnica pomiędzy sygnałem badanym a sygnałem odniesienia. Wagi są tak dobierane, aby uzyskać maksymalną korelację pomiędzy odległością AD a miarą subiektywną. 17

Rysunek 2-5: Schemat algorytmu MNB ( B bark) 2.3.3 Metoda 3SQM Jest to metoda nieintruzyjna, nie wymagająca znajomości sygnału oryginalnego. Jakość mowy jest oceniana na podstawie analizy typowych zniekształceń i zakłóceń: widm odbiegających od typowych widm mowy, obecności szumu, nieciągłości sygnału w czasie. Badania wykazują, że odbiorca koncentruje się na najbardziej dokuczliwym zniekształceniu i głównie to zniekształcenie wpływa na jego ocenę. Uwzględniono to w schemacie działań algorytmu (Rys.2.6). Badania przeprowadzone m.in. przez firmę Opticom [Opt] wykazują dużą korelację wyników (MOS) metody 3SQM i metody PESQ. 18

Rysunek 2-6: Przetwarzanie mowy w 3SQM 2.4 Oferty wyspecjalizowanych firm Ze względu na niezły stan normalizacji, firmy najczęściej oferują oprogramowanie działające wg znormalizowanych, obiektywnych algorytmów badania jakości: dla mowy o jakości telefonicznej - ITU-T P.861 [PSQM], ITU-T P.862 [PESQ] i P.563 [3SQM] dla szerokopasmowego sygnału audio BS.1387 [PEAQ] Przykładem może być niemiecka firma Opticom [Opt] oferująca zintegrowane oprogramowanie, obejmujące normy PSQM (w trzech edycjach tej normy: PSQM, PSQM+, PSQM/IP), PESQ oraz PEAQ. Do pakietu dołączono oprogramowanie analizatora echa. Firma oferuje także hardware w postaci stacjonarnych lub przenośnych analizatorów jakości. Całość jest obecna na rynku pod nazwą firmową OPERA. Firma oferuje też tester do sprawdzania jakości połączeń telefonii komórkowej oparty na algorytmie 3SQM. Podobne produkty są oferowane na rynku przez wiele firm, np. GL Communications lansuje system kontroli jakości połączeń głosowych w różnych sieciach produkt nosi nazwę VQuad. 2.5 Wnioski Dla oceny jakości aplikacji działających w sieci DiffServ, niezbędna jest ocena jakości mowy i sygnałów fonicznych. Ze względu na dostępność sprawdzonych rozwiązań (norm) można się tu oprzeć na algorytmach PESQ i PEAQ (obiektywne, intruzyjne). Nie rozwiązuje to jednak problemu synchronizacji dźwięku z obrazem. Oparcie się na badaniach obiektywnych (odsłuchy) może być potrzebne dla rozwiązania problemu jakości streamingu wideo. Należy jednak podkreślić, że tego typu badania są czasochłonne (zorganizowanie sesji z udziałem grupy odbiorców przekazu) i powinny być stosowane tylko w celu kalibracji metod obiektywnych. 19

3 Obiektywne metody oceny jakości sygnału wideo Jak wspomniano w punkcie Stan normalizacji, dla oceny jakości sekwencji wideo opracowano szereg metod subiektywnych. Metodyka jest tu zbliżona do stosowanej w odniesieniu do sygnałów audio (określanie MOS w skali 1-5, czasem 1-10 lub 1-100). Normy określają tylko warunki przeprowadzenia formalnych badań jakości z udziałem grupy odbiorców przekazu. Z tego względu w niniejszym rozdziale omówione zostaną metody obiektywne badania jakości. 3.1 Rodzaje zniekształceń i zakłóceń obrazu ruchomego W wyniku kompresji i rekonstrukcji, a także wskutek utraty transmitowanych pakietów, obraz ruchomy ulega zniekształceniu i nakładają się na niego zakłócenia. Te niekorzystne zjawiska zależą od rodzaju kodeka, przepływności binarnej (stopnia kompresji), samego obrazu, stopy utraconych pakietów. Najczęściej występują następujące zniekształcenia i zakłócenia: efekty blokowe, wynikające z zastosowania kompresji w blokach, np. 8x8 pikseli obserwator zauważa granice bloków przytrzymanie obrazu, wskutek podstawienia ostatniej poprawnie zdekodowanej ramki za szereg niepoprawnie zdekodowanych ramek (występuje przy dużych zakłóceniach w kanale transmisyjnym) chwilowy zanik obrazu lub jego części, często połączony z pojawieniem się na ekranie kolorowej tekstury występuje przy b. dużych zakłóceniach nieciągłość ruchu, związana z nazbyt wielką kompresją obrazu zniekształcenia konturów (nieostrość, załamania, poruszanie się, a także wystąpienie fałszywych konturów ) wynik kompresji błędy w odtworzeniu kolorów (zmiana odcieni, nasycenie) błędy kwantyzacji (szum typu sól i pieprz lub śnieżenie ) Wymienione czynniki charakteryzują się różną dokuczliwością dla odbiorcy. Ich wpływ na percepcję obrazu można stwierdzić przeprowadzając subiektywne badania jakości. Ich metodyka nie odbiega od odpowiednich badań dla mowy: stosuje się skalę MOS (najczęściej od 1 do 5, choć proponuje się również skale 1-10 i 0-100). Odpowiednie normy określają warunki przeprowadzania testów (była o tym mowa w podrozdziale Stan normalizacji ). Metody subiektywne służą do kalibracji algorytmów obiektywnych, obliczających MOS na podstawie porównania odebranej i nadanej sekwencji wideo (metody intruzyjne), na podstawie badania jakości połączenia (metody parametryczne) i na podstawie badania odebranej sekwencji (met. nieintruzyjne). Należy podkreślić, że stopień zaawansowania badań nad metodami obiektywnej oceny jakości sygnału wideo jest mniejszy od stopnia zaawansowania badań nad sygnałem audio. 3.2 Modele percepcji obrazu W normach ANSI proponuje się szereg wskaźników jakości sygnału wideo. Do badań używa się starannie wybranych sekwencji obrazów, naturalnych lub wygenerowanych sztucznie [AN- 20

SI801]. Najprostszym do obliczenia wskaźnikiem jest PSNR (peak signal to noise ratio). Jest to stosunek maksymalnej mocy zniekształcenia (w 8-bitowym zapisie 255 2 ) do błędu średniokwadratowego (MSE): 1 2 MSE = ( d( p, m, n) o( p, m, n)) Rów. 3-1 P M N p m n gdzie indeksy m,n odnoszą sie do współrzędnych piksela, a p do kolejnych ramek sekwencji wideo. Korelacja tego wskaźnika z wrażeniami percepcyjnymi odbiorcy jest słaba (np. niewielka zmiana jasności lub kontrastu wpływa na obniżenie SNR, podczas gdy percepcyjnie jest ona nieistotna). Lepsze wyniki daje badanie krawędzi: dokonuje się ekstrakcji krawędzi w obrazie naturalnym i odtworzonym (np. z wykorzystaniem filtrów Sobela [Umb98]), a następnie porównuje się otrzymane krawędzie. Odejmując kolejne ramki od siebie, otrzymuje się oszacowanie ruchu. Przeprowadzając takie oszacowanie osobno dla sekwencji oryginalnej i odtworzonej można zbadać zakłócenia ruchu (niepłynność ruchu, zatrzymanie obrazu, itd.). Dokładność odtworzenia dużych plam i szczegółów można badać porównując obrazy przetransformowane lub ich części (z wykorzystaniem dwuwymiarowej transformaty DFT). Wadą wymienionych metod jest brak odniesienia do systemu percepcji obrazów przez człowieka. Cechy zmysłu wzroku mają wielkie znaczenie w procesie oceny jakości obrazu. Istotne znaczenie ma czułość wzroku, maskowanie obiektów tłem, wrażliwość na barwy (np. oko jest bardziej czułe na barwę zieloną, niż na czerwoną i niebieską), bezwładność (w dziedzinie czasu), rozdzielczość przestrzenna (kątowa). Zmysł wzroku szczególnie jest uwrażliwiony na kontrast, uwypuklając granice pomiędzy polami o niewiele różniącej się luminancji. Z drugiej strony, niejednorodne tło jest w stanie całkowicie zamaskować obiekt (staje się on niezauważalny). Percepcja kolorów zależy od tła, a także od czasu (uprzednio nadany obraz wpływa na odbiór kolejnego). Uprzednio oglądany obiekt utrzymuje się w pozornym polu widzenia (niekiedy jako negatyw tzw. powidok.) Niektóre kolory, po ich zmieszaniu, wywołują wrażenie innej barwy (np. czerwony+żółty = pomarańczowy), inne nie mają takiej właściwości nazywamy je przeciwstawnymi (opponent colors [Win99]). Podstawowe pary kolorów przeciwstawnych to czarny-biały (B-W), czerwony-zielony (R-G) i niebieski-żółty (B-Y). Konstrukcja algorytmu szacowania jakości obrazu ruchomego musi opierać się na modelu percepcji (HVS human visual system). W modelu należy uwzględnić zjawiska przestrzenne i zachodzące w czasie. Modelując zjawiska czasowe, uwzględnia się dwa rodzaje bezwładności oka: krótko- i długookresową. Wymaga to przepuszczenia sekwencji wideo przez dwa filtry dolnoprzepustowy i pasmowy (patrz rys.3-1). 21

Rysunek 3-1:. Filtry modelujące bezwładność oka (wg [Win99]) Najważniejszym problemem w modelowaniu HVS jest uwzględnienie wrażliwości na kontrast, oraz spadku tej wrażliwości w obecności niejednorodnego tła (maskowanie). Maksymalna wrażliwość na kontrast (minimalny próg detekcji) występuje w procesie obserwowania obiektów o rozmiarach ok. ¼ stopnia kątowego ( częstotliwość przestrzenna 4 cykle na stopień). Dla mniejszych częstotliwości przestrzennych wrażliwość na kontrast (CSF contrast sensitivity function, zdefiniowana jako odwrotność progu detekcji) powoli spada, a dla większych częstotliwości spada b. szybko (patrz rys.3-2). Rysunek 3-2: Wrażliwość na kontrast w funkcji częstotliwości przestrzennej (wg [Kut99]) W obecności kontrastowego tła CSF spada, tym bardziej, im bardziej kontrastowość tła przekracza kontrastowość obserwowanego obiektu. Modelowanie zjawiska maskowania polega na znalezieniu zależności CSF od tła. Na rysunku 3-3 pokazano wpływ kontrastu maskującego tła (C M ) na próg 22

detekcji zadanego obiektu. Przyjęto, że w obecności niekontrastowego (jednolitego) tła próg detekcji wynosi k=1. Jeśli kontrastowość tła osiąga wielkość porównywalną z wielkością kontrastu obiektu względem tła (C S ), wówczas próg detekcji obiektu podnosi się (wrażliwość oka maleje zaznaczają się maskujące właściwości tła). Rysunek 3-3: Maskowanie: próg detekcji obiektu w funkcji kontrastowości tła (wg [Kut99]) Na zjawisko maskowania ma wpływ rozmiar obiektu wymaga to odfiltrowania obrazu z wykorzystaniem filtrów przestrzennych (pierwszy filtr przepuszcza duże pola, a ostatni drobne szczegóły obrazu). Filtry te uwzględniają również orientację obiektów w płaszczyźnie obrazu osobne filtry reagują np. na pionowe i poziome pasy. Jest to potrzebne, gdyż np. tło złożone z poziomych pasów dobrze zamaskuje obiekt o orientacji poziomej, a w ogóle nie zamaskuje obiektu o orientacji pionowej. Na rysunku 3-4 podano wyidealizowane charakterystyki częstotliwościowe zastawu takich filtrów: uwzględniono 4 orientacje przestrzenne i 4-poziomową gradację wielkości obiektów (filtr dolnopasmowy, reagujący na duże plamy, ma charakterystykę izotropową nie uwzględnia orientacji obiektów). Rysunek 3-4: Zestaw filtrów przestrzennych zaczerniono ch-kę jednego z nich (wg [Win99]) 23

Po wykonaniu tak pomyślanej filtracji percepcyjnej można wyliczyć próg maskowania. Wyliczając percepcyjną odległość sygnału oryginalnego i odebranego (tzn. przewidując wynik badań subiektywnych, czyli MOS) uwzględnia się zakłócenia przekraczające próg maskowania. Schemat obliczeń MOS pokazano na rys.3-5. Rysunek 3-5: Obliczenie MOS z uwzględnieniem modelu percepcji obrazu 3.3 Badania percepcji obrazu w ramach VQEG W końcu lat 90-tych zawiązała się grupa badawcza (VQEG Video Quality Experts Group), stawiająca sobie za cel opracowanie i przedstawienie ITU-T do normalizacji, algorytmu obiektywnej oceny jakości sygnału wideo (VQM Video Quality Metric). Rozpisano konkurs, w którym wzięły udział zainteresowane ośrodki badawcze. VQEG przeprowadziła badania porównawcze jakości testowych sygnałów wideo porównując wyniki otrzymane metodami subiektywnymi i obiektywnymi. Wyniki obiektywne otrzymano wykorzystując metody i oprogramowanie dostarczone przez ośrodki badawcze biorące udział w konkursie (w skrócie nazwijmy je proponentami). Wyniki subiektywne otrzymano, prezentując (dwukrotnie) pary sekwencji wideo kilkudziesięciu osobom (nie informując tych osób, która z prezentowanych sekwencji jest oryginałem). Osoby te zaznaczały swoją ocenę jakości na ciągłej skali, dla obydwu porównywanych sekwencji. Następnie obliczano różnicę ocen (raw difference) między sekwencją oryginalną (SRC - source) i przetworzoną. Przetworzenie (HRC Hypothetical Reference Circuit) polegało na zapisie sekwencji wideo w różnych formatach, kodowaniu w systemie MPEG-2 z różną rozdzielczością, itp. Różnica ocen była następnie normalizowana do zakresu <0,1> i uśredniana dla grupy osób biorących udział w teście (przy czym wyniki zdecydowanie odbiegające od pozostałych były odrzucane). W końcu ocena subiektywna była porównywana z obiektywną, z wykorzystaniem szeregu narzędzi statystycznych (korelacja Pearsona itd.). Wyniki badań porównawczych VQEG zamieściła w dwóch raportach [VQEG1],[VQEG2]. W pierwszej edycji konkursu wzięło udział 10 ośrodków badawczych: CPqD, Tektronix/Sarnoff, NHK, KDD, EPFL, Tapestries, NASA, KPN/Swisscom, NTIA, IFN. Propozycja IFN nie została wzięta pod uwagę, gdyż uwzględniała jedynie zniekształcenia wtrącane w wyniku kodowania algorytmem MPEG-2. IFN nie przeprowadził testów w obecności innych rodzajów zakłóceń i zniekształceń. Pierwsza edycja konkursu nie przyniosła rozstrzygnięcia wszystkie proponowane metody charakteryzowały się podobną zgodnością z metodą subiektywną [VQEG1]. Jedynie algorytm Tapestries, w statystycznie istotnej mierze, odbiegał nieco od pozostałych, dając wyniki mniej skorelowane z wynikami otrzymanymi metodami subiektywnymi. Co więcej, prosta metoda PSNR nie odbiegała w statystycznie istotnej mierze, od pozostałych. 24

W związku z powyższym postanowiono ogłosić następny konkurs, a jednocześnie ulepszyć metody porównywania ocen obiektywnych i subiektywnych. W konkursie udział wzięły następujące ośrodki badawcze: NASA, British Telecom, Yonsei, CPqD, Chiba, NTIA. W wyniku wszechstronnych badań porównawczych, ostatecznie wyselekcjonowano 4 algorytmy: NASA, Yonsei, CPqD, NTIA. Metodami analizy statystycznej nie udało się udowodnić przewagi którejś z tych 4 metod [VQEG2]. W kolejnych punktach opisano pokrótce te cztery wyselekcjonowane algorytmy. 3.3.1 Yonsei University (Korea) Prace nad obiektywną techniką oceny jakości sygnału wideo prowadzone były na Uniwersytecie Yonsei (Seul, Korea) na Wydziale Inżynierii Elektrycznej i Elektronicznej. Twórcy algorytmu bazują na zjawisku różnej wrażliwości ludzkiego oka w zależności od parametrów przestrzennoczasowych sygnału wideo. Aby te parametry wyznaczyć, również tutaj wykorzystywana jest transformata falkowa [Lee03]. Jest ona obliczana dla każdej ramki sygnału źródłowego i przetworzonego. Następnie wyliczana jest różnica współczynników falkowych w poszczególnych podpasmach oraz sumowana, tak że dla każdej ramki powstaje wektor różnicy. W efekcie powstaje sekwencja wektorów różnicy, na podstawie których wyliczany jest także średni wektor różnicy, którego każdy składnik reprezentuje zniekształcenie w danym podpasmie. Aby była możliwa analiza parametrów czasowych, wyliczana jest trójwymiarowa transformata falkowa. Także i w tym wypadku wynikiem analizy jest pojedynczy wektor różnicy. Wynik analizy jakości obliczany jest poprzez sumowanie odpowiednio ważonych elementów wektora różnicy. Wagi wyznaczane są z zastosowaniem zaproponowanej procedury optymalizacji. Nowsze prace naukowców z Yonsei ([Lee04]) dotyczą analizy konturów obiektów w sekwencji filmowej. Autorzy wskazują na fakt, że oko ludzkie jest najbardziej wrażliwe na zniekształcenia obrazu w pobliżu konturów obiektów. Nawet jeśli obraz jest mało zaszumiony, ale ma zamazane kontury, zazwyczaj otrzymuje niskie oceny w badaniach subiektywnych. Dlatego też autorzy proponują metodę, której etapem wstępnym jest detekcja konturów, następnie zaś następuje wyliczanie błędu średniokwadratowego dla obszarów bezpośrednio sąsiadujących z konturami, a na jego podstawie PSNR (szczytowego współczynnika sygnał szum). Ich zdaniem, metoda ta jest skuteczna i porównywalna z innymi metodami obiektywnej oceny jakości sygnału wideo. Uniwersytet w Yonsei był jednym z proponentów w drugiej fazie prac grupy VQEG (rok 2002). Według autorów, ich model analizował sygnał wideo, biorąc pod uwagę percepcję degradacji jakości przez oko ludzkie. Korelacja wyników oceny jakości z zastosowaniem zaproponowanego modelu oraz ocen subiektywnych była wysoka współczynnik korelacji Pearsona na poziomie między 0,8 a 0,9. Brak natomiast informacji na temat szczegółów zaproponowanego rozwiązania. 3.3.2 CPqD IES (Brazylia) Model obiektywnej oceny jakości obrazu zwany CPqD-IES opracowało Centro de Pesquisa e Desenvolvimento z Brasil w Brazylii w 1998 r.. IES oznacza Image Evaluation based on Segmentation ocena obrazu w oparciu o segmentację. Wersja 2.0 modelu została przedłożona grupie VQEG do ewaluacji [VQEG1]. 25