Konstrukcja obiektywnej metryki oraz budowa prototypu systemu monitorowania postrzeganej jakości sekwencji wizyjnych QoE Lucjan Janowski, Mikołaj Leszczuk, Zdzisław Papir i Piotr Romaniak, email: {janowski,leszczuk,papir,romaniak}@kt.agh.edu.pl Akademia Górniczo-Hutnicza Słowa kluczowe: QoE, QoS, jakość Abstrakt Artykuł stanowi raport z konstrukcji obiektywnej metryki Quality of Video Content dla sekwencji wizyjnych, z konstrukcji metryki subiektywnej Quality of Experience, oraz z budowy prototypu systemu monitorowania QoE. 1. Wprowadzenie i ogólna koncepcja prototypu Znaczenie rozwiązań strumieniowania na żywo, funkcjonujących w oparciu o sieci bezprzewodowe, zostało pozytywnie zweryfikowane w ostatnich latach przez powstanie licznych aplikacji, takich jak mobilna telewizja IP czy systemy monitoringu wizyjnego w obszarach miejskich. W odróżnieniu od tradycyjnych zastosowań, takich jak przeglądanie stron WWW, aplikacje multimedialne czasu rzeczywistego wymagają mechanizmów transmisji treści o niskim poziomie negatywnego wpływu na odczuwaną przez użytkowników jakość obrazu przekazu [1]. Aby sprostać temu wymaganiu, zwiększać zadowolenie użytkowników, a w konsekwencji zwiększać zyski dostawców usług, musi zostać stworzony i wdrożony system oceny/weryfikacji artefaktów wideo. Rozwiązanie to powinno być zaprojektowane na potrzeby bezprzewodowej infrastruktury przesyłowej w celu pseudo-subiektywnej kontroli jakości sekwencji wizyjnych przesyłanych w scenariuszu na żywo [1]. Termin pseudo-subiektywna oznacza kontrolę z użyciem metryk obiektywnych, zweryfikowanych na podstawie ocen subiektywnych. Z uwagi na ograniczenia tradycyjnych rozwiązań opartych na pojęciu jakości usługi (ang. Quality of Service, QoS), konieczne jest wprowadzanie rozwiązań takich jak opisanych w pracy [2], czyli biorących pod uwagę multimedialne cechy transmisji, system wizyjny człowieka (ang. Human Visual System, HVS) oraz poziom jakości postrzeganej przez użytkownika (ang. Quality of Experience, QoE). Jednakże, większość z obecnie dostępnych systemów oceny QoE, zostało zaprojektowanych albo pod kątem jednego specyficznego typu treści wizyjnej/aplikacji albo pod kątem jednego specyficznego scenariusza usługi bezprzewodowej. W ostatnich latach, szczególnego znaczenia nabrały tzw. modele bez referencji (ang. No Reference, NR), które do oceny jakości QoE nie potrzebują dostępu do sekwencji referencyjnych (przed skalowaniem). Należy jednak zwrócić uwagę, że rozwój nowych modeli QoE pracujących w scenariuszu bez referencji jest wciąż dużym wyzwaniem badawczym z uwagi na ograniczenia obecnych metryk, które muszą charakteryzować się aplikacyjnością w środowisku poza-laboratoryjnym, zróżnicowaniem oceny z uwagi na treść i profil użytkownika, odpornością na wielorakość pojawiających się zniekształceń, a także koniecznością spełniania wymagania niskiej złożoności obliczeniowej. Artykuł ten uwidacznia potrzebę oceny artefaktów obrazowych dla aplikacji strumieniowania na żywo w środowisku bezprzewodowym oraz opisuje zaimplementowane modele oceny w scenariuszu NR. Zaproponowane rozwiązania zostały zweryfikowane z użyciem wyników eksperymentów psychofizycznych. Otrzymane rezultaty pokazują przydatność zaproponowanych mechanizmów do oceny jakości aplikacji strumieniowania w środowisku bezprzewodowym oraz potwierdzają dużą korelację z odczuciami użytkowników. Ideą prezentowaną w tym artykule jest stworzenie technik i narzędzi, które mogą być wdrożone przez dostawców usług w celu ustawicznego monitorowania ogólnej jakości usług strumieniowania sekwencji wizyjnych. Wyniki badań (technologia i narzędzia) jest przewidziana do zastosowania (głównie) w usługach bezprzewodowych. 1
Najbardziej innowacyjną i charakterystyczną funkcjonalnością systemu jest wprowadzenie metryk NR pozwalających na ocenę i monitorowanie QoE. Należy przy tym zauważyć, że zaproponowana wiarygodna ocena odczuwalnej jakości sekwencji wizyjnych, kontrola jakości oparta na numerycznych estymacjach QoE oraz obliczanie dokładności rekonstrukcji sygnału wizyjnego w kontekście konkretnych parametrów i warunków odtwarzania transmisji, odgrywają fundamentalną rolę w procesach zapewniania QoE dla usług opartych na strumieniowaniu sekwencji wizyjnych. Jak wspominano, rozwiązanie estymacji jakości, umożliwiające ocenę sekwencji wizyjnych w sytuacji kiedy brak jest dostępnej referencji, jest wciąż wyzwaniem. W odróżnieniu od wszystkich metod opartych na referencji (rozwiązania z pełną referencją, ang. Full-Reference, FR; oraz rozwiązania ze zredukowana referencją, ang. Reduced-Reference, RR), które ograniczone są niedoskonałością jakości źródłowych sekwencji wizyjnych, podejście NR ocenia jakość bezwzględną, widzianą z punktu widzenia użytkownika. Rozwiązanie NR nie wymaga dodatkowego, idealnego kanału do przesyłania danych służących potem jako referencja. Dodatkowo, rozwiązania NR pozwalają na śledzenie sesji przesyłanych na żywo, co pozwala na dostarczanie rezultatów estymacji w czasie rzeczywistym. W przypadku rzeczywistych aplikacji jesteśmy zainteresowani bezwzględną jakością w całym zakresie łańcucha dostarczania mediów (ang. end-to-end). Innymi słowy: od początku (wpływ ostrości, szumu, ekspozycji), przez stadia przejściowe (wpływ skalowania przepływności strumienia) do końca (wpływ prezentacji i aplikacji). Metody oceny jakości typu NR są więc naturalną odpowiedzią na potrzeby rzeczywistych scenariuszy strumieniowania sekwencji wizyjnych. Szczególnie istotna jest ocena wpływu skalowalności przepływności strumienia. Zdobywające coraz większą popularność usługi strumieniowania sekwencji wizyjnych borykają się wciąż z problemem ograniczonej przepustowości łączy dostępowych. O ile w przypadku połączeń przewodowych, z reguły dostępne są już przepustowości rzędu megabitów, o tyle dla łączy bezprzewodowych, wyższe szybkości bitowe nie są już tak powszechne. Użytkownicy łączy bezprzewodowych, nie mogą oczekiwać stabilnego połączenia o wysokiej przepustowości. Wobec powyższego, rozwiązaniem umożliwiającym uruchamianie usług strumieniowania sekwencji wizyjnych dla takich łączy dostępowych jest transkodowanie w locie strumieni wizyjnych. Efektem transkodowania jest skalowanie przepływności (i zarazem jakości) pozwalające dostosować przesyłany strumień do aktualnych parametrów łącza dostępowego. Skalowanie jakości dla sekwencji wizyjnych odbywa się zazwyczaj w (często nierozłącznych) domenach kompresji, przestrzeni i czasu. Skalowanie w domenie kompresji sprowadza się zazwyczaj do operowania współczynnikiem kwantyzacji kodeka. Skalowanie w domenie przestrzeni oznacza zmniejszanie efektywnej rozdzielczości obrazu skutkujące zwiększaniem jego granularności (przy próbie przywrócenia oryginalnych rozmiarów wyświetlanych treści). Skalowanie w domenie czasu sprowadza się do odrzucania klatek, czyli zmniejszaniem liczby przesyłanych klatek na sekundę (ang. Frames Per Second, FPS). Wspomniane powyżej metody skalowania nieuchronnie prowadzą do obniżania jakości postrzeganej przez użytkownika końcowego usługi QoE. Dlatego też, proces skalowania powinien być monitorowany pod kątem poziomu QoE. Daje nam to możliwość nie tylko kontroli ale także maksymalizacji poziomu QoE, w czasie rzeczywistym, w zależności od panujących warunków transmisyjnych. W sytuacji niemożności osiągnięcia zadowalającego poziomu QoE, operator może intencjonalnie przerwać świadczenie usługi, co być może pozwoli zaoszczędzone w ten sposób zasoby sieciowe przeznaczyć dla innych użytkowników. Niestety, określanie poziomu QoE w żadnym wypadku nie może sprowadzać się do prostej maksymalizacji parametrów ilościowych zadawanych w każdej z trzech domen. Percepcja użytkownika, oparta na systemie wizyjnym człowieka HVS jest bowiem silnie nieliniowa i zależna od wielu zmiennych (na przykład treści wizyjnej). Wobec tego, podejmuje się próby tworzenia modeli służących automatycznemu określaniu poziomu QoE przy pomocy analizy treści wizyjnej odbieranej przez użytkownika [3]. Szczególnie trudne są próby określania wpływu skalowania w domenie kompresji na jakość postrzeganą QoE. Sam współczynnik kompresji nie jest wystarczającym wskaźnikiem jakości postrzeganej. Konieczne jest określenie (w modelu NR) wpływu tej manipulacji na efekty wywołane w obrazie. Najważniejszymi efektami towarzyszącymi stratnej kompresji są artefakt blokowy i migotanie bloków. Do określenia jakości QoE niezbędne jest dokładne, ilościowe oszacowanie nasilenia tych efektów. Podane w pozycjach literatury [3], [4] i [5] liczne modele zazwyczaj nie osiągają wystarczającej korelacji z rzeczywistymi ocenami użytkowników. Znacznie łatwiejsze jest modelowanie wpływu skalowania w domenie czasu, gdyż tutaj przynajmniej wartość współczynnika FPS jest jawnie dostępna. Próby modelowania wpływu skalowania w tej domenie na jakość postrzeganą podjęto m.in. w pracy [6]. Podobnie, relatywnie mniej skomplikowanym jest określenie wpływu spadku efektywnej rozdzielczości (czyli wzrostu granularności) obrazu ruchomego na efekty wizualne. Efekty te były badane w pracach [3] i [7] (choć dla pierwszej z prac w innych zastosowaniach). 2
Metodologia prezentowanych w artykule badań, w części dotyczącej oceny skalowanych sekwencji wizyjnych, opiera się na testach subiektywnego odbioru jakości dla niezależnego wpływu trzech wspomnianych powyżej metod skalowania. Dodatkowo, przeprowadzone zostały badania nad stworzeniem metryk oceny każdego z parametrów jakości, a także przedstawione zostały wyniki analizy statystycznej otrzymanych wyników. Pierwszą wartością dodaną prezentowanych badań jest zapewnienie identycznego środowiska eksperymentu psychofizycznego dla wszystkich badanych artefaktów i wszystkich trzech domen skalowania jakości, wraz z zastosowaniem 11-stopniowej skali jakości. Daje to możliwość porównania uzyskanych wyników dla wszystkich rozważanych metod skalowania, a także (wciąż udoskonalaną) budowę zintegrowanego modelu, uwzględniającego jednoczesne kombinacje metod. Drugim nowatorskim elementem jest miara oceny spadku jakości spowodowanej dużą wartości QP miara ta charakteryzuje się bardzo wysoką korelacją z ocenami subiektywnymi. Kolejną wartością dodaną jest szczegółowa analiza statystyczna otrzymanych wyników pod kątem korelacji z MOS (ang. Mean Opinion Score) i wiarygodności statystycznej. Jest to element często pomijany w pracach poświęconych modelowaniu QoE. Co więcej, różne sekwencje wizyjne użyte w testach subiektywnych były rozważane jako dodatkowa zmienna niezależna; pozwoliło to w niektórych przypadkach na statystyczną analizę wpływu danej sekwencji na dokładność otrzymanej miary. Reasumując, na prezentowaną przez nas ideę składa się stworzenie i implementacja metryk QoE, które oparte są na preferencjach użytkownika, ocenach subiektywnych, charakterystykach obserwatora a także na sprzężeniu zwrotnym powstałym przez iteracyjne weryfikacje metryk, modyfikujące ich parametry na podstawie wspomnianych ocen subiektywnych. Konstrukcja dalszych sekcji artykułu jest następująca. Sekcja 2 traktuje o pomiarze jakości i artefaktów (opartym na parametrach wizyjnych Podsekcja 2.1 i sieciowych Podsekcja 2.2). Sekcja 3 przedstawia weryfikacyjne środowisko eksperymentu psychofizycznego. Sekcja 4 prezentuje statystyczną analizę wyników w zakresie pomiaru artefaktów oraz skalowania w domenie kompresji, przestrzeni i czasu oraz informacje na temat implementacji prototypu, zaś Sekcja 5 zawiera wnioski i plany dalszych badań. 2. Miary jakości Sekcja ta zawiera szczegółowy opis zaproponowanego podejścia do percepcyjnej oceny jakości sekwencji wideo w oparciu o analizę artefaktów obrazu. Przedstawione metryki adresują najważniejsze artefakty typowe dla materiału źródłowego (przed kompresją i transmisją) jak i zniekształcenia wprowadzane przez stratną kompresję [1], [8]. W pierwszym przypadku najważniejszymi artefaktami są zaszumienie, rozmycie oraz problemy z ekspozycją (typowe dla amatorskich sekwencji wizyjnych), natomiast kompresja wprowadza dobrze znany artefakt blokowy oraz migotanie bloków (opisane w dalszej części). 2.1. Miary jakości oparte na parametrach QoV Podsekcja ta zawiera opis sześciu metryk służących do oceny artefaktów wideo w scenariuszu bez referencji. Cztery pierwsze metryki odnoszą się do oceny jakości materiału źródłowego, natomiast kolejne dwie do oceny artefaktów spowodowanych stratną kompresją wewnątrz-klatkową (artefakt blokowy) oraz między-klatkową (migotanie bloków obrazu). Na potrzebę budowy prototypu przeprowadzono testy subiektywne opisane w sekcji 4 oraz zbudowano model pozwalający odwzorować wartości mierzone przez metryki na jakość postrzeganą QoE. Użycie 11-sto stopniowej stali ocen w trakcie testów subiektywnych pozwoliło rozważać oceny testerów jako zmienną interwałową i pozwoliło na aproksymację z wykorzystaniem funkcji ciągłej. Wybraną funkcją jest asymetryczna funkcja logitowa (ALF) [9], dana równaniem (1). Zaletami tej funkcji jest asymetria oraz nasycanie dla skrajnych wartości, co pozwala w odpowiedni sposób modelować odpowiedzi testerów. 2.1.1. Ekspozycja ( ) ( ) (1) Problemy z niewłaściwym doborem ekspozycji (spowodowane np. dynamiczną zmianą jasności sceny) lub niemożnością uzyskania odpowiedniej jasności obrazu (dwa skrajne przypadki to zdjęcia robione pod słońce i zdjęcia nocne) objawiają się zniekształceniami histogramu obrazu. Prześwietlenie / niedoświetlenie powodują akumulację i przesunięcie histogramu w jasną / ciemną. Autorzy nie odnaleźli żadnych prób implementacji metryki do pomiaru ekspozycji (scenariusz bez referencji) w światowej literaturze, dlatego prezentowane podejście jest czysto autorskie. Do pomiaru ekspozycji wykorzystywany jest wspomniany fakt przesunięcia histogramu. Dla każdego z bloków obrazu (w naszym przypadku pikseli każdy) liczona jest średnia jasność na następnie wybierane są po trzy bloki mające najmniejszą i największą wartość. Na podstawie wybranych bloków obliczana jest średnia jasność dla danej ramki sekwencji wizyjnej. Operacja powtarzana jest co ramkę a wartość średnia z wszystkich ramek 3
wyznacza wartość metryki dla badanej sekwencji wizyjnej. Należy zwrócić uwagę na fakt, że obliczana w ten sposób jasność dla danej ramki znacznie różni się od jasności obliczanej wprost, która łatwo może prowadzić do błędnych wniosków. Przykładem może być zdjęcie prezentujące czarny obiekt. Średnia jasność liczona wprost wskaże na silne niedoświetlenie (większość obrazu czarna). Dla tego samego zdjęcia, zaproponowana metoda nie wykaże żadnych problemów z ekspozycją, pod warunkiem, że znajdzie się przynajmniej jeden jasny obiekt niewielkich rozmiarów (średnia z kilku najjaśniejszych i najciemniejszych bloków obrazu nadal pozostanie bliska środkowi przedziału jasności). W przypadku, gdy obraz został faktycznie mocno niedoświetlony, nie wystąpi ani jeden obszar zbliżony do maksymalnej jasności. Uzyskane wyniki potwierdzają, że przyjęte założenie są poprawne dla sekwencji wizyjnych prezentujących naturalne treści. W przypadku sekwencji wygenerowanych sztucznie (komputerowo) badanie zniekształceń tego typu jest niecelowe. Wyniki korelacji uzyskane dla metryki niedoświetlenie przedstawia wykres z rys. 1a, natomiast dla prześwietlenie wykres z rys. 1b. a) b) Rys. 1. Wyniki korelacji uzyskane dla metryk ekspozycji: a) Niedoświetlenie ; b) Prześwietlenie 2.1.2. Rozmycie Najpopularniejszym sposobem określania stopnia rozmycia obrazu jest uwzględnienie faktu, że rozmycie wpływa na zmniejszenie ostrości krawędzi znajdujących się na obrazie. Aktualne wyniki badań korzystających z tego faktu znajdują się w [10]. Zaproponowana metryka oceny rozmycia obrazu bazuje na pomiarze szerokości tylko i wyłącznie najostrzejszych krawędzi wykrytych w obrazie. Należy założyć, że każdy, nawet najbardziej jednorodny obraz, posiada przynajmniej kilka ostrych krawędzi. Dzięki takiemu podejściu wyeliminowany zostaje niekorzystny efekt zależności miary od treści prezentowanej w sekwencji wizyjnej. Pierwszym krokiem w pomiarze jest detekcja ostrych krawędzi obrazu z użyciem filtru sobel. W następnym kroku dokonywany jest pomiar ich średniej szerokości wyrażonej w ilości pikseli znajdujących się na lewo oraz prawo od środka krawędzi, które spełniają następujące kryteria: 1) jasność pikseli na prawo rośnie/maleje monotonicznie dla podnoszącej się/opadającej krawędzi, 2) analogicznie dla pikseli na lewo, oraz 3) nachylenie krawędzi (czyli różnica pomiędzy wartościami jasności kolejnych pikseli) nie spada poniżej określonego poziomu. Poziom ten określany jest dynamicznie, na podstawie odchylenia standardowego jasności sąsiadujących pikseli. Wyniki korelacji uzyskane dla metryki przedstawia wykres z rys. 2a. 2.1.1. Szum Pierwotna koncepcja pomiaru zaszumienia obrazu została opisana przez Lee w [11] i opiera się na stwierdzeniu, że najbardziej efektywną metodą oceny stopnia zaszumienia obrazu jest identyfikacja jednorodnych obszarów a następnie policzenie dla nich prostych statystyk, ograniczających się do średnich oraz odchyleń standardowych jasności pojedynczych pikseli. Bardziej aktualne badania korzystające z tej koncepcji zaprezentował Dosselmann w [10]. W proponowanym podejściu zastosowano udoskonaloną metodę wykrywania jednorodnych obszarów, która zapewnia wybór porównywalnej liczby obszarów dla obrazów prezentujących zróżnicowane pod względem ilości detali treści. Jest to zaletą w porównaniu z dotychczasowymi rozwiązaniami zakładającymi stałe kryterium klasyfikacji obszarów (w skrajnych przypadkach cały obraz zakwalifikowany jako obszar jednorodny lub zupełny brak obszarów spełniających kryterium dla obrazów prezentujących duża ilość detali). W prezentowanym podejściu swoje odbicie znajduje także zjawisko maskowania przestrzennego przez 4
odpowiednie ważenie miary dla pojedynczej ramki ze względu na ilość detali obrazu. Wyniki korelacji uzyskane dla metryki przedstawia wykres z rys. 2b. a) b) Rys. 2. Wyniki korelacji uzyskane dla metryk rozmycia i szumu: a) Rozmycie ; b) Szum 2.1.2. Artefakt blokowy Metryka do pomiaru artefaktu blokowego bazuje na założeniu, że każdy pojedynczy artefakt blokowy posiada przynajmniej jeden widoczny róg, wyrównany do granic bloków kodowych. Dotychczasowe osiągnięcia w dziedzinie implementacji metryk do pomiaru artefaktu blokowego zaprezentowane zostały w [10]. W zaproponowanym przez autorów podejściu miara obliczana jest lokalnie, dla każdego bloku kodowego obrazu. Absolutna różnica w jasności pikseli liczona jest oddzielnie dla 1) par pikseli znajdujących się w obszarze jednego bloku, oraz 2) par pikseli z sąsiadujących bloków. Stosunek tych wielkości stanowi miarę artefaktu blokowego. Wyniki korelacji uzyskane dla metryki przedstawia wykres z rys. 3a. 2.1.3. Migotanie bloków Pomiar migotania bloków obrazu (ang. flickering) zainspirowany został pracą przedstawioną przez Pandela w [12]. Zgodnie z pracą, migotanie jest najważniejszym typem zniekształcenia występującego dla sekwencji wideo z kodowaniem między-ramkowych. Zjawisko to jest widoczne dla sekwencji wizyjnych zakodowanych z użyciem np. kodeków H.264 (w badaniach użyto implementacji x264). Szczególnie podatnymi na ten efekt są sekwencje wideo zawierające powolną zmianę perspektywy (przemieszczająca się kamera, przybliżenie, oddalenie lub obrót). W schematach kodowania między-ramkowego wartości poszczególnych bloków nie są aktualizowane (kodowane) dopóki różnica pomiędzy odpowiadającym blokiem z kolejnych ramek nie przekracza dopuszczalnej wartości. Im większa kompresja tym większa jest ta wartość. Sugeruje to, że bloki obrazu mogą pozostawać w jednym z dwóch stanów: 1) brak aktualizacji lub 2) aktualizacja. Częste przejścia pomiędzy tymi stanami oznaczać będą mocny efekt migotania. Dwustanowy model z histerezą do pomiaru migotania zaprezentował Pandel w [12]. Miara obliczana jest lokalnie dla każdego bloku obrazu, jako liczba przejść pomiędzy stanami normalizowana względem czasu (większa ilość przejść oznacza większy poziom migotania). Naszą wartość dodaną do pracy Pandela stanowią trzy elementy. Po pierwsze, definicja progu przełączania pomiędzy stanami. W [12] zastosowano inny sposób obliczania tego poziomu a jego wartość nie została podana. W naszych badania obliczamy ten próg dynamicznie, jako sumę różnic w jasności pikseli dla każdego z bloków obrazu, każdy rozmiaru pikseli. Z przebadanego zakresu od 0,3 do 1,4 (gdzie 1 oznacza maksymalny poziom jasności) wybrano 0,9, jako wartość dającą najlepsze wyniki. Kolejnym dodanym elementem jest zaproponowanie metody uśredniania wartości miary dla całej ramki wideo (ang. spatial pooling), zakładającej uśrednianie bloków posiadających największą wartość miary. Pozwala to uwzględnić fakt, że człowiek oglądający sekwencję wizyjną wyrabia sobie opinię o jakości na podstawie kilku najgorszych punktów obrazu, bez uśredniania całości. Przebadanym zakresem ilości bloków używanych do obliczania miary dla całej ramki był przedział od 0,5% do 10% całkowitej liczby. Najlepszy wyniki osiągnięto dla wartości 2%. Ostatnim i najważniejszym elementem dodanym jest fakt takiego wyboru opisanych powyżej parametrów (próg przełączania oraz % bloków) aby uzyskać maksymalną korelację powstałej miary z odczuciami użytkowników, obliczoną na podstawie porównania z wynikami testów subiektywnych. Wyniki korelacji uzyskane dla metryki przedstawia wykres z rys. 3b. 5
a) b) Rys. 3. Wyniki korelacji uzyskane dla metryk kompresji: a) Artefakt blokowy ; b) Migotanie bloków 2.2. Pomiar charakterystyk sekwencji wizyjnych Jak pokazane zostało w [13] oraz [14], uwzględnienie podstawowych charakterystyk w trakcie oceniania jakości sekwencji wizyjnych wpływa na poprawę wyników (zwiększenie korelacji metryki z opinią użytkowników). Ze względu na powyższe, zastosowano metodę pomiaru lokalnej ilości detali obrazu (ang. spatial activity) oraz ilości ruchu obserwowanego w sekwencji wizyjnej (ang. temporal activity), opisane w [15]. Są to bardzo proste i skuteczne metody obliczania charakterystyk (ich złożenie określa poziom trudności dla dekodera podczas kompresji sekwencji), jednocześnie najbardziej pożądane ze względu na niską złożoność obliczeniową. Rys. 4. Środowisko eksperymentu psychofizycznego 6
3. Weryfikacja miar przez subiektywne eksperymenty psychofizyczne W celu prawidłowego zamodelowania parametrów jakości obrazu na oceny testerów, stworzono stosowne środowisko do przeprowadzenia eksperymentu psychofizycznego. a) b) c) d) e) f) g) h) i) j) k) l) m) Rys. 5. Trzynaście Sekwencji Testowych VQEG: a) Barcelona ; b) Harp ; c) Canoa Valsesia ; d) Fries ; e) Rugby ; f) Mobile & Calendar ; g) Baloon-pops ; h) New York 2 ; i) Betes pas betes ; j) Autumn leaves ; k) Football ; l) Sailbot ; m) Susie 7
Eksperymenty wykonano w Akademii Górniczo-Hutniczej w Krakowie. Wzięło w nich udział ponad 100 studentów. Zapewniono bardzo zbliżone warunki (monitory LCD i oświetlenie) dla wszystkich stanowisk testowych (patrz rys. 4), a same eksperymenty, gdzie tylko było to możliwe, podążały za metodologiami VQEG (Video Quality Experts Group) [16]. W eksperymencie użytych zostało trzynaście Sekwencji Testowych VQEG [16], [17] i [18]: Barcelona (#2, rys. 5a), Harp (#3, rys. 5b), Canoa Valsesia (#5, rys. 5c), Fries (#7, rys. 5d), Rugby (#9, rys. 5e), Mobile & Calendar (#10, rys. 5f), Baloon-pops (#13, rys. 5g), New York 2 (#14, rys. 5h), Betes pas betes (#16, rys. 5i), Autumn leaves (#18, rys. 5j), Football (#19, rys. 5k), Sailboat (#20, rys. 5l) i Susie (#21, rys. 5m). Sekwencje te odzwierciedlają szerokie spektrum dwóch różnych charakterystyk treści (ruch i ilość detali obrazu). Sekwencje wideo zostały zakodowane przy użyciu kodeka H.264 (implementacja X264) main-profile (Level 40). Zgodnie z zaleceniami VQEG, tak dobrano QP aby otrzymać średnie przepływności strumieni rzędu 5000 kbit/s (współczynnik kompresji, ang. Compression Ratio, ), 1000 kbit/s ( ), 500 kbit/s ( ), 300 kbit/s ( ), 200 kbit/s ( ) oraz 100 kbit/s ( ). Początkowy współczynnik liczby klatek na sekundę wynosił 30. Dodatkowo zbadano FPS o wartościach 15, 10, 7.5, 6 i 5. Efektywna rozdzielczością początkowa była rozdzielczość SD/D-1 NTSC (720 486). Dodatkowo zbadano rozdzielczości 525 HHR (352 480), SIF (352 240), QCIF (176 144) oraz SQCIF (128 96). Sama metodologia ACR została opisana w Zaleceniu ITU-T P.910 [20]. Metodologia ta reprezentuje podejście typu Single-Stimulus (SS), co oznacza, że wszystkie sekwencje wizyjne zawarte w zbiorze testowym prezentowane są jedna po drugiej bez możliwości porównania z referencja. Sekwencje referencyjne są zawarte w zbiorze testowym i poddawane ocenie na takich samych zasadach jak pozostałe. Takie podejście jest nazywane ACR-HR (ang. ACR with Hidden Reference). Użyta została jedenastostopniowa, numeryczna skala jakości [20]. 4. Analiza statystyczna wyników ewaluacji implementacja prototypu Sekcja ta zawiera opis metodologii budowania modeli, które stanowią części składowe prototypu służącego do oceny jakości postrzeganej usług strumieniowania sekwencji wizyjnych. Prototyp obejmuje następujące części składowe: 1) 4 pojedyncze metryki do oceny jakości materiału źródłowego, 2) metrykę skalowania w domenie czasu, 3) w domenie przestrzeni oraz 4) zintegrowana metryk do oceny kompresji H.264 (skalowanie w domenie kompresji). Opis pojedynczych metryk jakości oraz pomiaru charakterystyk sekwencji wizyjnych znajduje się w sekcji 2, natomiast w przypadku skalowania w domenie czasu i przestrzeni wartość uwzględnia w modelu jest jednoznaczna i jawna (określenie ilości klatek na sekundę lub rozdzielczości nie wymaga tworzenia metryki). Implementacja prototypu wykonana została w środowisku MATLAB, przy użyciu standardowych bibliotek do przetwarzania obrazów i sekwencji wizyjnych. Obecnie istnieje możliwość analizy sekwencji wizyjnych zapisanych w plikach na dysku lokalnym. Parametry przekazywane podczas wywołania skryptu uruchomiającego prototyp pozwalają na wybór dowolnych pojedynczych metryk, zintegrowanych metryk oraz charakterystyk, które zostaną policzone dla analizowanej sekwencji wizyjnej. Dodatkowo, istnieje możliwość automatyzacji, polegająca na analizie wielu sekwencji oraz zapisywaniu wyników na bieżąco do bazy danych. 4.1. Metodologia budowania modeli Oceny uzyskane dla jedenastostopniowej skali są znacznie lepszym przybliżeniem rozkładu normalnego niż wyniki otrzymane dla pięciostopniowej skali. Wynika to z faktu dodania odpowiedzi skrajnych, które nie powinny być często wybierane (odpowiedzi 10 i 0). Dzięki temu rzadziej otrzymujemy rozkład skośny wyraźnie różny od rozkładu Gaussa. Dlatego w celu modelowania otrzymanych wyników zakładaliśmy Gaussowski rozkład otrzymanych wyników, pozwoliło to użyć modelu GLZ o Gaussowskim rozkładzie błędu. Dodatkowo wszystkie sekwencje zostały podzielone na sekwencje testowe i uczące. Wszystkie modele, wraz z zaprezentowanymi współczynnikami zostały otrzymane dla zbiorów uczących. Dopiero po ostatecznym zaakceptowaniu danego modelu był on konfrontowany ze zbiorem testowym. Pozwoliło to sprawdzić czy otrzymany model posiada możliwość przewidywania subiektywnej jakości oraz uogólnienia otrzymanego wyniku na inne sekwencje. 8
4.2. Skalowanie w domenie czasu Metryka skalowania w domenie czasu wydaje się być bardzo prosta, gdyż informacja o liczbie klatek wyświetlanych w każdej sekundzie jest znana. Jednak tak skonstruowana metryka nie jest wstanie poprawnie modelować jakości postrzeganej przez użytkownika. Powodem jest brak możliwości uwzględnienia treści danej sekwencji. Dlatego nasz model uwzględnia także inny czynnik jakim jest ilość detali obrazu. Dodatkowo analiza statystyczna wykazała, ze logarytm naturalny liczby klatek na sekundę jest lepszym predykatorem niż wartość liczby klatek na sekundę. Dla całego zbioru analizowanych filmów otrzymano niższy współczynnik niż ten otrzymany dla sekwencji testowych. Jednak współczynnik jest bardzo dobrym wynikiem i swiadczy o dokładnosci otrzymanego modelu. 4.3. Skalowanie w domenie przestrzeni Podobnie jak w przypadku skalowania w domenie czasu, skalowanie w domenie przestrzeni jest łatwy do wykrycia ponieważ dokładnie wiemy jaka jest rozdzielczość prezentowanego filmu. Podobnie jak w przypadku skalowania w domenie czasu informacja o rozdzielczości obrazu okazuje się być niewystarczająca ponieważ treść przedstawionej sekwencji wpływa na zmianę jakości. W przypadku zmiany rozdzielczości w modelu uwzględniliśmy zarówno ilość detali (SA) oraz dynamikę danej sekwencji (TA). Dodatkowo uwzględniając logarytm rozdzielczości otrzymaliśmy lepsze wyniki niż dla wartości rozdzielczości. W tym przypadku oba współczynniki otrzymane dla sekwencji testowych oraz wszystkich sekwencji są równe. 4.4. Skalowanie w domenie kompresji Stworzenie modelu jakości dla skalowania w domenie kompresji było znacznie trudniejszym zadaniem. Pierwszym i najważniejszym powodem jest wielkowymiarowość problematyki kompresji. Każdy system kompresujący posiada bardzo wiele różnych parametrów definiujących sposób kodowania. Dlatego nie istnieje oczywisty parametr wpływający w sposób najistotniejszy na postrzeganą jakość. Nadal dla sekwencji testowych uzyskano wysoki współczynnik. 4.5. Straty pakietów Straty pakietów wpływają w sposób istotny na jakość postrzegana przez użytkowników. Jest oczywistym, że dla większych strat otrzymujemy gorsza jakość, jednak nie jest prawda, ze dany poziom strat wskazuje konkretna jakość sekwencji. Dokładna analiza wskazuje, ze istotne jest miejsce strat. Przez miejsce rozumiemy zarówno miejsce w strukturze GOP jak i samej klatki. W celu uwzględnienia tych zależności będzie konieczne zbudowanie modelu opartego na dodatkowej informacji. W dalszych badaniach będziemy chcieli oprzeć się na dwóch możliwych scenariuszach. Pierwszym jest analiza obrazu podobna do tej wykorzystanej przy budowie modelu metryki skalowania w dziedzinie czasu, przestrzeni i kompresji. Drugim rozwiązanie jest znacznie dokładniejsza inspekcja pakietów i wykrywanie, która część obrazu i/lub GOP została utracona. Prace nad takim analizatorem są prowadzone w ramach aktywności AGH na forum JEG (ang. Joint Effort Group). 5. Wnioski podsumowujące i plany dalszej pracy W raporcie przedstawiono system oceny QoE, który umożliwia dokonywanie pomiaru artefaktów występujących w sekwencjach wizyjnych. Przedstawione powyżej metryki oceny jakości sekwencji wizyjnych, zostały zweryfikowane przez eksperymenty psychofizyczne. Analiza statystyczna otrzymanych wyników pokazuje, że możliwe było uzyskanie stosunkowo wysokich (jak na miary NR) współczynników korelacji. Otrzymane rezultaty wydają się potwierdzać poprawności kierunku prowadzonych badan. Obserwacje poczynione w trakcie badań, pokazują zarazem, że bardzo istotny wpływ na skuteczność miar jakości, ma treść sekwencji wizyjnych. Wobec powyższego, w najbliższym czasie planuje się przeprowadzić serie eksperymentów psychofizycznych, gdzie jeszcze większy nacisk zostanie położony na różnorodność (w sensie ruchu i ilości detali obrazu) prezentowanych sekwencji wizyjnych. Pozwoli to na weryfikacje zaprezentowanych miar, mającą na celu sprawdzenie ich korelacji z odpowiedziami subiektywnymi, dla praktycznie każdego rodzaju prezentowanych treści. Dodatkowo prace podjęte wraz z międzynarodowym zespołem pracującym w ramach JEG pozwalają mieć nadzieje, ze w najbliższej przyszłości uda się stworzyć metrykę opartą o dogłębną analizę straconych pakietów. Dodatkowo, kontynuowane będą (rozpoczęte już) prace zmierzające do przeniesienia aktualnie stworzonych, prototypowych miar opracowanych w środowisku MATLAB, do szybkich, zoptymalizowanych bibliotek języka C/C++. 9
Obecnie trwają prace programistyczne mające na celu użycie biblioteki Open CV w celu implementacji opracowanych metryk w języku C/C++. Wstępne wyniki, uzyskane dla pomiaru charakterystyk sekwencji oraz dla metryk artefaktu blokowego i migotania bloków, potwierdzają znaczny wzrost szybkości obliczeń. Ważnym zagadnieniem będzie również kwestia optymalizacji samego sposobu liczenia metryk (np. co druga klatka obrazu lub co drugi blok obrazu brany pod uwagę) w celu spełnienia wymogu czasu rzeczywistego. Ostatnim krokiem prac, zaplanowanym na ostatni rok projektu, jest wprowadzenie algorytmów, które prócz oceny jakości, dokonują jej optymalizacji. Optymalizacja dokonywana jest przez eliminacje przyczyn utraty jakości lub przez kompensacje niekorzystnego wpływu (tam, gdzie eliminacja nie jest możliwa). 6. Podziękowania Badania prowadzące do tych wyników otrzymały finansowanie z Ministerstwa Nauki i Szkolnictwa Wyższego w ramach Projektu Badawczego Zamawianego PBZ-MNiSzW-02/II/2007 (miary jakości, weryfikacja miar przez subiektywne eksperymenty psychofizyczne, analiza statystyczna wyników ewaluacji, implementacja prototypu w środowisku MATLAB) oraz z Siódmego Programu Ramowego (FP7/2007-2013) w ramach umowy o dotację n 218086 INDECT (implementacja prototypu w środowisku C/C++). Bibliografia [1] Romaniak P.: Towards realization of a framework for integrated video quality of experience assessment. W: INFOCOM Student Workshop 2009, Rio de Janeiro, Brazylia, Kwiecień 2009. [2] Derbel H., Agoulmine N, Salauen M.: Anema: Autonomic network management architecture to support selfconfiguration and self-optimization in IP networks. Comput. Netw., 53(3):418 430, 2009. [3] Janowski L., Leszczuk M., Papir Z., Romaniak P.: Ocena jakości sekwencji wizyjnych dla aplikacji strumieniowania na żywo w środowisku mobilnym. Przegląd Telekomunikacyjny + Wiadomości Telekomunikacyjne, 82(8-9):800 804, 2009. Warszawa. [4] Leontaris A., Reibman A. R.: Comparison of blocking and blurring metrics for video compression. W: Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, nr 2, s. 585 588, Marzec 2005. [5] Tourancheau S., Le Callet P., Barba D.: Impact of the resolution on the difference of perceptual video quality between CRT and LCD. W: ICIP (3), s. 441 444. IEEE, 2007. [6] Ries M., Nemethova O., Rupp M.: Performance evaluation of mobile video quality estimators. W: Proceedings of the 15 th European Signal Processing Conference, Poznań, Wrzesień 2007. [7] Knoche H., McCarthy J. D., Sasse M. A.: Can small be beautiful?: Assessing image resolution requirements for mobile TV. WL MULTIMEDIA 05: Proceedings of the 13 th annual ACM International Conference on Multimedia, s. 829 838, Nowy Jork, USA, 2005. ACM. [8] Romaniak P., Mu M., Mauthe A., D Antonio S., Leszczuk M.: A framework for integrated video quality assessment. 18 th ITC Specialist Seminar on Quality of Experience, Maj 2008. [9] Fukumoto K.: Taking bounded variables seriously: Extended beta binomial, asymmetric logit, and time series. Research Workshop in Applied Statistics, 2004. [10] Dosselmann R., Dong Yang X.: A Prototype No-Reference Video Quality System. Fourth Canadian Conference on Computer and Robot Vision, CRV 07, 2007:411 417, Maj 2007. [11] Lee J. S., Hoppel K.: Noise Modeling and Estimation of Remotely-sensed Images. W: Proc. International Geoscience and Remote Sensing, Vancouver, Kanada, 2:1005 1008, 1989. [12] Pandel J.: Measuring of flickering artifacts in predictive coded video sequences. W: WIAMIS 08: Proceedings of the 2008 Ninth International Workshop on Image Analysis for Multimedia Interactive Services, s. 231 234, Waszyngton, USA, 2008. IEEE Computer Society. [13] Wang Z., Shang X.: Spatial pooling strategies for perceptual image quality assessment. W: IEEE International Conference on Image Processing, Atlanta, GA, USA, 8-11 Października 2006. [14] Wang Z., Li Q.: Video quality assessment using a statistical model of human visual speed perception. Journal of the Optical Society of America A, 24(12):B61 B69, Grudzień 2007. [15] Fenimore Ch., Libert J., Wolf S.: Perceptual effects of noise in digital video compression. W: 14 th SMPTE Technical Conference, s. 28 31, Pasadena, CA, USA, Wrzesień 1998. [16] VQEG: The Video Quality Experts Group. http://www.vqeg.org/. [17] VQEG: Index VQEG Test Sequences, 2008. http://media.xiph.org/vqeg/testseqences/thumbnails/. [18] Webster A.: Objective perceptual assessment of video quality: Full Reference television. International Telecommunication Union, ITU-T, Telecommunication Standardization, Place des Nations CH-1211 Genewa 20 Szwajcaria, E-mail: tsbmail@itu.int, Web: http://www.itu.int/itu-t/, http://www.itu.int/itu- T/studygroups/com09/docs/tutorial_opavc.pdf, 2004. [19] VQEG: Draft Final Report from the Video Quality Experts Group on the Validation of Objective Models of Multimedia Quality Assessment, Phase I, 2008. [20] ITU-T: Subjective Video Quality Assessment Methods for Multimedia Applications. ITU-T, 1999. 10