KATEDRA SYSTEMÓW MULTIMEDIALNYCH LABORATORIUM PERCEPCJI DŹWIĘKU I OBRAZU. 1. Korelacje wzrokowo-słuchowe

KATEDRA SYSTEMÓW MULTIMEDIALNYCH LABORATORIUM PERCEPCJI DŹWIĘKU I OBRAZU Ćwiczenie: Badanie korelacji wzrokowo-słuchowych Opracowanie: dr inż. Bartosz Kunka mgr inż. Karolina Marciniuk 1. Korelacje wzrokowo-słuchowe W ramach niniejszego ćwiczenia laboratoryjnego zbadane zostanie zjawisko wpływu ściągającego obrazu na percepcję dźwięku. Innymi słowy celem ćwiczenia jest zbadanie wpływu kierunku patrzenia na lokalizację pozornego źródła dźwięku w panoramie stereofonicznej. Eksperymenty, w których bada się korelacje wzrokowo-słuchowe zazwyczaj składają się z dwóch etapów. W pierwszym etapie badanym prezentowany jest jedynie bodziec słuchowy, zwany również próbką dźwiękową (ang. unimodal stimulus, auditory-only trial). W drugim zaś etapie następuje prezentacja bodźca wzrokowosłuchowego, nazywanego próbką wizyjno-foniczną (ang. bimodal stimulus, visual-auditory trial). Jednocześnie zakłada się, że próbka dźwiękowa wykorzystana w pierwszym i drugim etapie badania jest dokładnie taka sama. W obu etapach zadaniem badanych jest wskazanie położenia pozornego źródła dźwięku, związanego z prezentowanym bodźcem w panoramie stereofonicznej. Zauważono, że badani inaczej percypują położenie pozornego źródła dźwięku w przypadku, gdy prezentowana jest im tylko próbka dźwiękowa i inaczej, gdy próbce dźwiękowej towarzyszy obraz z nią związany. Zjawisko przesunięcia pozornego źródła dźwięku w kierunku bodźca wzrokowego nazywane jest powszechnie wpływem ściągającym obrazu na percepcję dźwięku. W literaturze anglojęzycznej wpływ ściągający jest określany jako efekt zbliżenia obrazu (ang. image proximity effect) [2, 3, 4, 5] lub efekt brzuchomówstwa (ang. ventriloquism effect) [6, 7, 8, 9, 10]. 1

Odpowiednią ilustracją zjawiska wpływu ściągającego obrazu na percepcję dźwięku może być eksperyment przeprowadzony przez Witkina w 1952 roku [11]. Badani biorący udział w eksperymencie wskazywali położenie pozornego źródła dźwięku (w tym przypadku głosu spikera telewizyjnego) w przestrzeni. Eksperyment składał się z dwóch etapów w pierwszym badani widzieli twarz spikera i słyszeli jego głos, zaś w drugim słyszeli tylko jego głos. Wyniki eksperymentu wskazały, że w pierwszym przypadku badani lokalizowali głos spikera jako dochodzący ze środka. Natomiast w przypadku, gdy mieli zamknięte oczy, słyszeli jego głos jako dochodzący z lewej lub prawej strony. Wpływ ściągający obrazu na percepcję dźwięku występuje również w przypadku bodźców wzrokowo-słuchowych podczas oglądania innego rodzaju treści wizyjno-fonicznych, np. filmów. Odnosząc się do badań korelacji wzrokowo-słuchowych, które były prowadzone na przestrzeni lat w różnych ośrodkach naukowo-badawczych warto wspomnieć również o wstępnych wynikach projektu badawczego DIEM z 2010 roku [12]. Naukowcy postanowili zbadać aktywność wzrokową widzów podczas oglądania filmów za pomocą systemu śledzenia wzroku. Ich badania koncentrowały się wokół wyjaśnienia procesu percepcji obrazu przez człowieka oraz tego, jakie czynniki w procesie widzenia odgrywają istotną rolę. W badaniach nad percepcją obrazu naukowcy wykorzystali system śledzenia wzroku (ang. gaze tracking system). 2. Funkcja HRTF Jedna z części niniejszego ćwiczenia laboratoryjnego polega na przeprowadzeniu eksperymentu z wykorzystaniem próbek testowych, w których ścieżka dźwiękowa została przetworzona przez funkcję przenoszenia głowy (ang. Head Related Transfer Function HRTF). HRTF jest stosunkiem widma sygnału docierającego do ucha do widma sygnału docierającego do punktu przestrzeni zajmowanego przez środek głowy (czyli gdy nie ma w tym miejscu obserwatora). Para tych funkcji uwzględnia wszystkie statyczne parametry lokalizacji: ITD, ILD i charakterystyki częstotliwościowe małżowin. HRTF dotyczy filtracji przestrzennej, a zatem możliwe jest umiejscowienie/zlokalizowanie pozornego 2

źródła dźwięku na każdej z trzech płaszczyzn: lewo-prawo, góra-dół, przód-tył. Warto zaznaczyć, że funkcja HRTF odgrywa rolę tylko dla dźwięków szerokopasmowych. Rys. 1. Lokalizacja pozornego źródła dźwięku w przestrzeni w kontekście HRTF 3. Opis ćwiczenia laboratoryjnego Badanie składa się z dwóch etapów. W pierwszej kolejności badaniu podlega percepcja dźwięku, w warunkach gdy osobie badanej prezentowana jest tylko ścieżka dźwiękowa próbki testowej. Po odsłuchaniu próbki osoba badana wypełnia ankietę (ocena subiektywna), w której zaznacza lokalizację źródła w panoramie stereofonicznej, czyli w płaszczyźnie horyzontalnej w zakresie (-30 o, +30 o ), a także w przypadku eksperymentu z wykorzystaniem HRTF w płaszczyźnie wertykalnej w zakresie (-20 o, +20 o ). W drugim etapie badaniu poddane zostają próbki z materiałem wizyjno-fonicznym. Również tutaj osoba badana zaznacza kierunek, z którego przybywa percypowany dźwięk. Warto w tym miejscu zaznaczyć, że zakładamy, iż szerokość ekranu pokrywa się z szerokością bazy stereofonicznej i zawiera się w przedziale (-30 o, +30 o ), natomiast wysokość ekranu zawiera się w przedziale (-20 o, +20 o ). 3

Opis próbek nazwa pliku 1_01_audio 1_02_audio opis próbki ścieżka dźwiękowa, test podstawowy, ton prosty 1 khz ścieżka dźwiękowa, przejeżdżająca ciężarówka ( Sleepy Hollow ) opis bodźca wzrokowego (obszar zainteresowania) 1_03_audio ścieżka dźwiękowa, fortepian 1_04_audio 1_05_audio ścieżka dźwiękowa, głos bohatera ( Piranha 3D ) ścieżka dźwiękowa, głos bohatera ( Avatar ) 1_06_ audio-wideo test podstawowy, ton prosty 1 khz biały dysk w lewej części kadru 1_07_audio-wideo głos bohatera ( Avatar ) twarz bohatera w prawej części kadru 1_08_ audio-wideo test podstawowy, ton prosty 1 khz biały dysk w prawej części kadru 1_09_ audio-wideo głos bohatera ( Piranha 3D ) postać bohatera w lewej części kadru 1_10_ audio-wideo 1_11_ audio-wideo fortepian przejeżdżająca ciężarówka ( Sleepy Hollow ) fortepian i pianista w środkowej części kadru pojazd wyłaniający się z mgły (środek, lewa część kadru) 2_01_audio próbki z HRTF (kąt azymutu, kąt elewacji) odgłos wróbla (wysokoczęstotliwościowy) (0 o, 0 o ) 2_02_audio pukanie do drzwi (+25 o, -15 o ) 2_03_audio głos kobiety (-25 o, +15 o ) 2_04_audio pukanie do drzwi (0 o, 0 o ) 2_05_audio odgłos wróbla (+25 o, -15 o ) 2_06_audio głos kobiety (0 o, 0 o ) 2_07_audio pukanie do drzwi (-25 o, +15 o ) 2_08_audio głos kobiety (+25 o, -15 o ) 2_09_audio odgłos wróbla (-25 o, +15 o ) 2_10_audio-wideo dźwięk: głos kobiety (+25 o, -15 o ) zdjęcie kobiety w prawej, środkowej części kadru 4

2_11_audio-wideo dźwięk: pukanie do drzwi (0 o, 0 o ) zdjęcie pukanie do drzwi w lewej, górnej części kadru 2_12_audio-wideo dźwięk: odgłos wróbla (-25 o, +15 o ) zdjęcie w lewej, środkowej części kadru 2_13_audio-wideo dźwięk: głos kobiety (-25 o, +15 o ) zdjęcie w środkowej, górnej części kadru 2_14_audio-wideo dźwięk: odgłos wróbla (+25 o, -15 o ) zdjęcie w środkowej, dolnej części kadru 2_15_audio-wideo dźwięk: pukanie do drzwi (-25 o, +15 o ) zdjęcie w lewej, środkowej części kadru 2_16_audio-wideo dźwięk: głos kobiety (0 o, 0 o ) zdjęcie w lewej, górnej części kadru 2_17_audio-wideo dźwięk: odgłos wróbla (0 o, 0 o ) zdjęcie w lewej, górnej części kadru 2_18_audio-wideo dźwięk: głos kobiety (-25 o, +15 o ) zdjęcie w lewej, środkowej części kadru 2_19_audio-wideo dźwięk: pukanie do drzwi (-25 o, +15 o ) zdjęcie w środkowej, górnej części kadru 2_20_audio-wideo dźwięk: głos kobiety (0 o, 0 o ) zdjęcie w prawej, dolnej części kadru 2_21_audio-wideo dźwięk: odgłos wróbla (-25 o, +15 o ) zdjęcie w środkowej, górnej części kadru 2_22_audio-wideo dźwięk: pukanie do drzwi (+25 o, -15 o ) zdjęcie w prawej, środkowej części kadru 2_23_audio-wideo dźwięk: odgłos wróbla (0 o, 0 o ) zdjęcie w prawej, dolnej części kadru 2_24_audio-wideo dźwięk: głos kobiety (+25 o, -15 o ) zdjęcie w środkowej, dolnej części kadru 2_25_audio-wideo dźwięk: pukanie do drzwi (0 o, 0 o ) zdjęcie w prawej, dolnej części kadru 2_26_audio-wideo dźwięk: odgłos wróbla (+25 o, -15 o ) zdjęcie w prawej, środkowej części kadru Analiza wyników uzyskanych podczas laboratorium będzie polegała na porównaniu ocen subiektywnych, wskazujących na położenie pozornego źródła dźwięku, w następujących parach próbek: cz. 1 badania: 1. 1_01_audio 1_06_ audio-wideo 2. 1_01_audio 1_08_ audio-wideo 3. 1_02_audio 1_11_ audio-wideo 4. 1_03_audio 1_10_ audio-wideo 5. 1_04_audio 1_09_ audio-wideo 6. 1_05_audio 1_07_ audio-wideo 5

cz. 2 badania (z HRTF), przykład: Źródło Lolalizacja w pliku dźwiękowym Opis boźca wzrokowego Położenie źródła pozornego Wartość przesunięcia (0 o, 0 o ) wróbel (-25 o, +15 o ) - należy przyporządkować odpowiadające sobie pary próbek fonicznych i wizyjno-fonicznych, analogicznie do powyższego zestawienia. W niniejszym ćwiczeniu wyznaczona zostanie wielkość zaobserwowanego przesunięcia pozornego źródła dźwięku w oparciu o dane subiektywne pozyskane z wypełnionej podczas laboratorium ankiety. Wpływ ściągający wyznacza się na podstawie porównania wartości kątowych odzwierciedlających położenie pozornego źródła dźwięku w pierwszym etapie badania (podczas odtwarzania samej ścieżki dźwiękowej) i w drugim etapie badania (podczas projekcji materiału wizyjno-fonicznego). 4. Zadania 4.1. Wysłuchać kolejno próbek 1_01_audio-1_05_audio i zaznaczyć na formularzu położenie źródła dźwięku w panoramie. Następnie odtworzyć próbki filmowe 1_06_ audio-wideo-1_11_audio-wideo oraz także zaznaczyć odbierane źródło pozorne dźwięku. (Uwaga, zaznaczamy skąd dobiega dźwięk, nie położenie obiektu na ekranie.) 4.2. Wysłuchaj nagrania Virtual Barber Shop będącego przykładem rejestracji z wykorzystaniem tzw. sztucznej głowy. Nagranie to stanowi odpowiednią symulację potencjalnych możliwości funkcji HRTF. Opisz swoje spostrzeżenia, które dźwięki najlepiej symulowały przestrzeń planu dźwiękowego. 4.3. Podobnie jak w zadaniu 4.1 odsłuchaj próbki dźwiękowe 2_01_audio-2_09_audio, zaznacz ich rozmieszczenie w płaszczyźnie wertykalnej i horyzontalnej. W drugiej kolejności po zakończeniu projekcji próbek audio-wideo cz. 1, wysłuchać próbek. Po odsłuchaniu każdej próbki należy wskazać lokalizację źródła dźwięku w formularzu ankiety dostępnej w załączniku niniejszej instrukcji. Obejrzeć, 6

a następnie i wypełnić formularz pliki 2_10_audio-wideo-2_26_audio-wideo (na bieżąco po odsłuchaniu każdej próbki). 4.4. Wejść na stronę serwisu YouTube w celu obejrzenia fragmentu jednej z części filmu pt. Zawód Lektor. Zanotować spostrzeżenia/wnioski dotyczące odbioru treści wizyjno-fonicznej, w której głównymi bohaterami są lektorzy o rozpoznawalnych głosach. Uwaga! 5. Opracowanie Film "Zawód Lektor" cz. 1 Polecenie 4.4 jest związane z innym aspektem korelacji wzrokowo-słuchowych niż aspekt badany w zadaniach 4.1 i 4.3 (gdzie obserwowano wpływ kierunku patrzenia na lokalizację pozornego źródła dźwięku). Do tego faktu należy się odnieść w opracowaniu zadania 5.3. 5.1. Dokonać porównania wyników testów subiektywnych (odpowiadających sobie próbek w części I i części II formularza). Wyznaczyć wielkość wpływu ściągającego (wraz z kierunkiem) dla poszczególnych próbek i poszczególnych osób. 5.2. Ustosunkować się do zaobserwowanego wpływu ściągającego w płaszczyźnie horyzontalnej i wertykalnej oraz odnieść się do wpływu charakteru próbki (mowa, impuls, wąskie pasmo górnych częstotliwości, szerokie pasmo) na obserwowane przesunięcie pozornego źródła dźwięku (na podstawie cz. 2 ćwiczenia HRTF). 5.3. Wyniki poszczególnych studentów w grupie laboratoryjnej należy przeanalizować indywidualnie. W interpretacji wyników należy wskazać, dla których próbek i w jakich warunkach zaobserwowano taki sam lub podobny wpływ ściągający obrazu na percepcję dźwięku. 5.4. Ustosunkować się do obserwacji z zadania 4.2 i 4.4. 5.5. Sprawozdanie (format PDF) należy umieścić w serwisie sprawozdań KSM w katalogu Percepcja dźwięku i obrazu => ćw. 7 w terminie 7 dni od daty wykonania ćwiczenia. Po przekroczeniu tego terminu końcowa ocena za sprawozdanie zostanie obniżona o 1 stopień. 6. Bibliografia Należy zastosować następujący format nazwy pliku: Nazwisko.pdf [1] B. Kunka, B. Kostek, M. Kulesza, P. Szczuko, A. Czyzewski, Gaze-tracking based audio-visual correlation analysis employing quality of experience methodology, Intelligent Decision Technologies (IDT), Special Issue on Human-Computer Interaction in Knowledge based Environments. [2] B. Kostek, Rough-neuro approach to testing the influence of visual cues on surround sound perception, rozdział w książce pt.: Rough-Neuro Computing: A Way To Computing With Words (S. K. Pal, L. Polkowski, A. Skowron eds.), Springer Verlag, Series on Artificial Intelligence, 555-572, 2004. [3] B. Kostek, Perception-based data processing in acoustics. Applications to music information retrieval and psychophysiology of hearing, wyd. Springer Verlag, Series on Cognitive Technologies, 389-400, Berlin, Heidelberg, New York 2005. 7

[4] P. Odya, A. Czyzewski, B. Kostek, Determination of influence of visual cues on perception of spatial sound, 110th Audio Eng. Soc. Convention, Preprint No. 5311, Amsterdam, 2001. [5] P. Odya, B. Kostek, A. Czyzewski, Discovering the influence of visual stimulation the perception of surround sound using genetic algorithms, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New York, 2001. [6] R. I. Bermant, R. B. Welch, The effect of degree of visual auditory stimulus separation and eye position upon the spatial interaction of vision and audition, Perceptual & Motor Skill, 43, 487-493, 1976. [7] P. Bertelson, The cognitive architecture behind auditory visual interaction in scene analysis and speech identification Current Psychology of Cognition, 13, 69-75, 1994. [8] P. Bertelson, Starting from the ventriloquist: The perception of multimodal event, w: M. Sabourin, F. I. M. Craik, M. Robert (red.), Advances in psychological science: vol. 1. Biological and cognitive aspects, Hove, U.K.: Psychology Press., 419-439, 1998. [9] P. Bertelson, G. Aschersleben, Automatic visual bias of perceived auditory location, Psychonomic Bulletin & Review, 5, 482-489, 1998. [10] P. Bertelson, M. Radeau, Ventriloquism, sensory interaction, and response bias: Remarks on the paper by Choe, Welch, Gilford, and Juola, Perception & Psychophysics, 19, 531-535, 1976. [11] H. A. Witkin, S. Wapner, T. Leventhal, Sound localization with conflicting visual and auditory coues, Journal of Experimental Psychology, vol. 43, 58-67, 1952. \ [12] http://thediemproject.wordpress.com/ 8

Formularz badania subiektywnego Badanie korelacji wzrokowo-słuchowych 1. Badanie pozornego źródła dźwięku, cz. 1 - audio Lp. Próbka testowa Położenie pozornego źródła dźwięku 1. 1_01_audio 2. 1_02_audio 3. 1_03_audio 4. 1_04_audio 5. 1_05_audio cz. 2 audio+video Lp. Próbka testowa Położenie pozornego źródła dźwięku 1. 1_06_audio-video 2. 1_07_ audio-video 3. 1_08_ audio-video 4. 1_09_ audio-video 5. 1_10_ audio-video 6. 1_11_ audio-video 9

2. HTRF cz. 1 - audio 2_01_audio 2_02_audio 2_03_audio 2_04_audio 2_05_audio 2_06_audio 2_07_audio 2_08_audio 2_09_audio 10

cz. 2 audio+video 2_10_audio-wideo 2_11_audio-wideo 2_12_audio-wideo 2_13_audio-wideo 2_14_audio-wideo 2_15_audio-wideo 2_16_audio-wideo 2_17_audio-wideo 11

2_18_audio-wideo 2_19_audio-wideo 2_20_audio-wideo 2_21_audio-wideo 2_22_audio-wideo 2_23_audio-wideo 2_24_audio-wideo 2_25_audio-wideo 12

2_26_audio-wideo 2_27_audio-wideo 2_28_audio-wideo Oko dominujące:. Ucho dominujące: 13