Magisterska praca dyplomowa

Transkrypt

1 AKADEMIA GÓRNICZO-HUTNICZA im. Stanisława Staszica w Krakowie WYDZIAŁ INŻYNIERII MECHANICZNEJ I ROBOTYKI Magisterska praca dyplomowa Mateusz Kucharski Tomasz Stankiewicz imię i nazwisko Inżynieria akustyczna kierunek studiów Dopasowanie toru transmisji dźwięku do warunków odsłuchowych Temat pracy dyplomowej dr inż. Jacek Wierzbicki... promotor pracy ocena, data, podpis promotora Kraków, rok 2012/2013

2 Kraków, Imię i nazwisko: Mateusz Kucharski, Tomasz Stankiewicz Nr albumu: -- Kierunek Inżynieria akustyczna studiów: Specjalność: Inżynieria dźwięku w mediach i kulturze OŚWIADCZENIE Świadomi odpowiedzialności karnej za poświadczanie nieprawdy oświadczamy, że niniejszą magisterską pracę dyplomową wykonaliśmy osobiście i samodzielnie oraz nie korzystaliśmy ze źródeł innych niż wymienione w pracy. Jednocześnie oświadczamy, że dokumentacja praca nie narusza praw autorskich w rozumieniu ustawy z dnia 4 lutego 1994 roku o prawie autorskim i prawach pokrewnych (Dz. U. z 2006 r. Nr 90 poz. 631 z późniejszymi zmianami) oraz dóbr osobistych chronionych prawem cywilnym. Nie zawiera ona również danych i informacji, które uzyskaliśmy w sposób niedozwolony. Wersja dokumentacji dołączona przez nas na nośniku elektronicznym jest w pełni zgodna z wydrukiem przedstawionym do recenzji. Zaświadczamy także, że niniejsza magisterska praca dyplomowa nie była wcześniej podstawą żadnej innej urzędowej procedury związanej z nadawaniem dyplomów wyższej uczelni lub tytułów zawodowych... podpis dyplomanta.. podpis dyplomanta 2

3 Kraków, Imię i nazwisko: Mateusz Kucharski Adres korespondencyjny: -Temat magisterskiej pracy dyplomowej: Dopasowanie toru transmisji dźwięku do warunków odsłuchowych Rok ukończenia: 2013 Nr albumu: -Kierunek studiów: Inżynieria akustyczna Specjalność: Inżynieria dźwięku w mediach i kulturze OŚWIADCZENIE Niniejszym oświadczam, że zachowując moje prawa autorskie, udzielam Akademii Górniczo-Hutniczej im. S. Staszica w Krakowie nieograniczonej w czasie nieodpłatnej licencji niewyłącznej do korzystania z przedstawionej dokumentacji magisterskiej pracy dyplomowej, w zakresie publicznego udostępniania i rozpowszechniania w wersji drukowanej i elektronicznej. Kraków, data i podpis dyplomanta Na podstawie Ustawy z dnia 27 lipca 2005 r. Prawo o szkolnictwie wyższym (Dz.U nr 164 poz. 1365) Art oraz Ustawy z dnia 4 lutego 1994 r. o prawie autorskim i prawach pokrewnych (Dz.U. z 2000 r. Nr 80, poz. 904, z późn. zm.) Art. 15a. "Uczelni w rozumieniu przepisów o szkolnictwie wyższym przysługuje pierwszeństwo w opublikowaniu pracy dyplomowej studenta. Jeżeli uczelnia nie opublikowała pracy dyplomowej w ciągu 6 miesięcy od jej obrony, student, który ją przygotował, może ją opublikować, chyba że praca dyplomowa jest częścią utworu zbiorowego." 3

4 Kraków, Imię i nazwisko: Tomasz Stankiewicz Adres korespondencyjny: -Temat magisterskiej pracy dyplomowej: Dopasowanie toru transmisji dźwięku do warunków odsłuchowych Rok ukończenia: 2013 Nr albumu: -Kierunek studiów: Inżynieria akustyczna Specjalność: Inżynieria dźwięku w mediach i kulturze OŚWIADCZENIE Niniejszym oświadczam, że zachowując moje prawa autorskie, udzielam Akademii Górniczo-Hutniczej im. S. Staszica w Krakowie nieograniczonej w czasie nieodpłatnej licencji niewyłącznej do korzystania z przedstawionej dokumentacji magisterskiej pracy dyplomowej, w zakresie publicznego udostępniania i rozpowszechniania w wersji drukowanej i elektronicznej. Kraków, data i podpis dyplomanta Na podstawie Ustawy z dnia 27 lipca 2005 r. Prawo o szkolnictwie wyższym (Dz.U nr 164 poz. 1365) Art oraz Ustawy z dnia 4 lutego 1994 r. o prawie autorskim i prawach pokrewnych (Dz.U. z 2000 r. Nr 80, poz. 904, z późn. zm.) Art. 15a. "Uczelni w rozumieniu przepisów o szkolnictwie wyższym przysługuje pierwszeństwo w opublikowaniu pracy dyplomowej studenta. Jeżeli uczelnia nie opublikowała pracy dyplomowej w ciągu 6 miesięcy od jej obrony, student, który ją przygotował, może ją opublikować, chyba że praca dyplomowa jest częścią utworu zbiorowego." 4

5 Kraków, dnia AKADEMIA GÓRNICZO-HUTNICZA WYDZIAŁ INŻYNIERII MECHANICZNEJ I ROBOTYKI TEMATYKA MAGISTERSKIEJ PRACY DYPLOMOWEJ dla studenta II roku studiów stacjonarnych Mateusz Kucharski, Tomasz Stankiewicz imię i nazwisko studenta TEMAT MAGISTERSKIEJ PRACY DYPLOMOWEJ: Dopasowanie toru transmisji dźwięku do warunków odsłuchowych Promotor pracy: dr inż. Jacek Wierzbicki Recenzent pracy: dr hab. inż. Piotr Kleczkowski Podpis dziekana: PROGRAM PRACY I PRAKTYKI DYPLOMOWEJ 1. Omówienie tematu pracy i sposobu realizacji z promotorem. 2. Zebranie i opracowanie literatury dotyczącej tematu pracy. 3. Zebranie i opracowanie wyników badań. 4. Analiza wyników badań, ich omówienie i zatwierdzenie przez promotora. 5. Opracowanie redakcyjne. Kraków, data podpis dyplomanta TERMIN ODDANIA DO DZIEKANATU: 2013 r. podpis promotora 5

6 Akademia Górniczo-Hutnicza im. Stanisława Staszica Kraków, Wydział Inżynierii Mechanicznej i Robotyki Kierunek: Inżynieria Akustyczna Specjalność: Inżynieria Dźwięku w Mediach i Kulturze Mateusz Kucharski Tomasz Stankiewicz Magisterska praca dyplomowa Dopasowanie toru transmisji dźwięku do warunków odsłuchowych Opiekun: dr inż. Jacek Wierzbicki STRESZCZENIE Temat pracy obejmuje zagadnienie związane z dopasowaniem toru transmisji dźwięku, ze szczególnym uwzględnieniem transmisji dźwięku przestrzennego. W ramach pracy dokonano nagrań kwartetu instrumentalnego, sekwencji szumów oraz dźwięków ambientowych, za pomocą różnych technik mikrofonowych. Zaprojektowano i wykonano badania odsłuchowe, pozwalające na ocenę nagrań pod względem odwzorowania przestrzenności, w zależności od użytej techniki mikrofonowej, kodeka i systemu odsłuchowego. Praca zawiera przegląd zagadnień związanych z przetwarzaniem i transmisją dźwięku przestrzennego, opis mechanizmów słyszenia przestrzennego, charakterystykę kodeków używanych do kompresji dźwięku, sposobów transmisji radiowej oraz opis systemów odsłuchowych dźwięku przestrzennego. Dalsza część pracy zawiera opis wykonania nagrań za pomocą technik stereofonicznych XY i ORTF, techniki binauralnej i techniki ambisonicznej. Opisano również proces przeprowadzenia badań odsłuchowych. W części weryfikacyjnej opisano metodykę badań i opracowano wyniki uzyskane w badaniach. Ich analizę przeprowadzono osobno pod kątem użytych kodeków i użytej techniki mikrofonowej wraz z systemem odsłuchowym. W podsumowaniu zebrano wnioski zebrane w czasie przeprowadzania pracy i zaproponowano optymalną konfigurację toru audio dla transmisji dźwięku przestrzennego. 6

7 AGH University of Science and Technology Kraków, Faculty of Mechanical Engineering and Robotics Field of Study: Acoustical Engineering Specialisations: Sound Engineering in Media and Culture Mateusz Kucharski Tomasz Stankiewicz Master Diploma Thesis Optimization of audio processing for best performance in different listening conditions Supervisor: Jacek Wierzbicki Ph.D SUMMARY This paper addresses the problem of the optimization of sound processing with the focus on the transmission of a spatial sound. The performed research involved recording an instrumental quartet, a sequence of directional noises and ambient sounds with the use of different microphone techniques. The listening test was designed to assess the influence of microphone technique, lossy encoding and a way of reproduction on the spatial image of the sound recordings. The paper contains a collection of subjects connected to the processing and transmission of spatial sound: the description of spatial hearing, lossy sound encoders, the standards of radio transmission and systems used to reproduce spatial sound. The subsequent chapters contain the description of the process of recording sound examples with the use of stereophonic (XY, ORTF), binaural and ambisonic techniques and also how listening tests have been run. The analysis of the test results is described in the verification section of the paper and is divided into two parts. The first part was designed to optimize the recording and reproducing technique, while the goal of the second one was to assess the performance of encoding algorithms and their influence on the spatiality of sound. The last chapter contains the recapitulation and conclusions as well as the proposal for an optimal audio path transmitting spatial sound. 7

8 Pragniemy serdecznie podziękować tym, którzy przyczynili się do powstania niniejszej pracy, a w szczególności: inż. Mateuszowi Romanowskiemu za nieocenioną pomoc w tworzeniu nagrań i wypożyczenie sprzętu kwartetowi instrumentalnemu w składzie: Barbara Kuźniar v., Natalia Orkisz c., Elżbieta Dworak f., Mateusz Romanowski g. za wykonanie fugi Contrapunctus I Die Kunst der Fuge J. S. Bacha dr. inż. Pawłowi Małeckiemu za pomoc w przeprowadzeniu nagrań i testów Uczestnikom testów: Damianowi Wdowiakowi, Mateuszowi Romanowskiemu, Joannie Link, Andrzejowi Łyskowi, Weronice Kucharskiej, Gabrieli Ciule, Agnieszce Domagale, Dominice Cendzie, Izabeli Słodkiej, Paulinie Knap, Wojciechowi Wasiakowi, Paulinie Bielesz i Arkadiuszowi Śnieżkowi 8

9 Spis treści 1 Wstęp (rozdział wspólny) Cel pracy Zakres pracy Dźwięk przestrzenny (M. Kucharski) Słyszenie przestrzenne Czym jest dźwięk przestrzenny Wady i zalety stosowania dźwięku przestrzennego Techniki nagrywania dźwięku przestrzennego Technika AB Technika XY Technika Blumleina Technika ORTF Technika MS Technika Double MS Techniki binauralne Techniki ambisoniczne Systemy dźwięku przestrzennego Systemy stereofoniczne Kwadrofonia Dźwięk przestrzenny matrycowy Dźwięk przestrzenny dyskretny i systemy wielogłośnikowe Sposoby transmisji dźwięku przestrzennego (T. Stankiewicz) Przykładowe media transmisji dźwięku przestrzennego Stratne kodeki i modelowanie psychoakustyczne Rozpoznawanie częstotliwości Maskowanie w dziedzinie częstotliwości i czasu Barkowa skala częstotliwości Modele psychoakustyczne standardu MPEG Porównanie użytych w testach kodeków Sposoby transmisji radiowej i ich ograniczenia AM FM Transmisje cyfrowe

10 4 Część badawcza Opis procedury nagrywania (M. Kucharski) Nagranie kwartetu instrumentalnego Nagrania dźwięków otoczenia Nagrania sekwencji szumów Opis przeprowadzania testów (T. Stankiewicz) Kodowanie nagrań Lokalizacja szumów Lokalizacja instrumentów Ocena jakości nagrań Wyniki badania Przedstawienie wyników Lokalizacja szumów (T. Stankiewicz) Lokalizacja instrumentów (M. Kucharski) Ocena jakości nagrań (T. Stankiewicz)...92) 5.2 Analiza wyników kodeki (T. Stankiewicz) Lokalizacja w systemie pięciokanałowym Lokalizacja w systemach dwukanałowych Ocena jakości nagrań Podsumowanie Analiza wyników techniki mikrofonowe (M. Kucharski) Analiza wyników badania lokalizacji instrumentów Analiza ocen jakości nagrań Analiza wyników lokalizacji sekwencji szumów Podsumowanie i wnioski Procedura badawcza (rozdział wspólny) Kodeki (T. Stankiewicz) Techniki rejestracji i odtwarzania (M. Kucharski) Bibliografia

11 1 Wstęp Temat niniejszej pracy - Dopasowanie toru transmisji dźwięku do warunków odsłuchowych może zostać zinterpretowany i rozwinięty na bardzo wiele sposobów. Sam tor transmisji to - w wypadku odtwarzania dźwięku z nośników wszystkie urządzenia, które za ten proces odpowiadają: odtwarzacz, wzmacniacz, zestawy głośnikowe i pomieszczenie odsłuchowe oraz wszystkie elementy, decydujące o jakości tego, co dociera do uszu słuchacza. Jednakże autorzy, biorąc pod uwagę ilość badań, testów i prac dotyczących tego zagadnienia oraz panujące trendy, postanowili się skupić na nieco innych elementach odpowiadających za dostarczenie dźwięku od jego źródła, po emisję w postaci akustycznej. Z uwagi na interesujące perspektywy i szybki rozwój technologii związanych z dźwiękiem przestrzennym, autorzy zdecydowali się na wykonanie badań pozwalających na dobór optymalnych technik jego rejestracji oraz cyfrowego przesyłania i archiwizacji. Obecnie niełatwo spotkać odtwarzacz monofoniczny. Nie licząc tanich radiobudzików czy niskiej klasy radioodbiorników każde urządzenie obsługuje dźwięk co najmniej dwukanałowy. W tym standardzie może być on odtwarzany zarówno przez systemy stereo, jak i na słuchawkach choć wrażenia przestrzenne w tych dwóch sytuacjach są zupełnie inne. Producenci urządzeń RTV popularyzują bardziej rozbudowane, wielokanałowe systemy często dedykowane do użycia wspólnie z odtwarzaczami filmów jako kino domowe. Najbardziej podstawowa wersja to 5.1 (pięć głośników satelitarnych i jeden niskotonowy), choć sprzedaje się również bardziej rozbudowane zestawy jak 7.1, a nawet 22.2., który oprócz lokalizacji w płaszczyźnie poziomej, pozwala na rozróżnienie kierunków w pionie. Jednocześnie zmienia się, zwłaszcza wśród osób młodych, sposób słuchania muzyki. Często zamiast płyt CD, dźwięk cyfrowy jest odtwarzany z różnego rodzaju urządzeń, gdzie zapisywany jest z użyciem stratnej kompresji. Bardzo szybko popularność zyskują usługi strumieniowania muzyki (Spotify, Grooveshark, Deezer), które w zamian za abonament oferują dostęp do ogromnej ilości utworów. Pliki nie są w tym wypadku zapisywane na lokalnych nośnikach, ale w trakcie odtwarzania przesyłane przez internet. W takiej sytuacji bardzo istotna jest możliwość utrzymania wysokiej 11

12 jakości dźwięku przy silnej redukcji ilości danych potrzebnych do jego transmisji. Najpopularniejszym standardem wykorzystywanym do stratnej kompresji jest MP3, mimo tego, że śmiało można go już nazwać przestarzałym. Najnowsze algorytmy, jak Opus czy nieco starsze AAC+ i Ogg Vorbis pozwalają na znacznie efektywniejsze wykorzystanie nośników i przesyłu danych. Porównując jakość dźwięku oferowaną przez różne kodeki, zazwyczaj sprawdza się ogólne wrażenie i brzmienie. Autorzy pracy postanowili skupić się jednak na nieco innym aspekcie - odbiorze przestrzennym i wpływie algorytmów stratnej kompresji oraz technik rejestracji dźwięku na późniejsze możliwości lokalizacji jego źródeł przez słuchaczy. 1.1 Cel pracy Badania, których wyniki posłużyły do wykonania tej pracy, miały na celu sprawdzenie, który z nowoczesnych kodeków, jaka wielomikrofonowa technika rejestracji oraz system odsłuchowy sprawdzi się najlepiej pod względem jakości dostarczonych odbiorcom wrażeń przestrzennych oraz wiernego odtworzenia sceny akustycznej (co niekoniecznie musi być tożsame). Podczas badań ze słuchaczami porównano kodeki: Opus, Ogg Vorbis oraz AAC+ (HEAAC) w systemach dwukanałowych oraz 5.1. Nagrania rejestrowano systemami XY, ORTF, binauralnie oraz przy wykorzystaniu mikrofonu ambisonicznego Soundfield. Odtwarzano je na systemach głośnikowych (stereo, 5.0) oraz przez słuchawki. Oprócz analiz wyników testów odsłuchowych, porównano również widma oraz inne parametry sygnałów. 1.2 Zakres pracy W niniejszej pracy dokonano przeglądu technik rejestracji, stratnego kodowania oraz odtwarzania dźwięku przestrzennego. Przedstawiono metody jego nagrywania, takie jak XY, AB, ORTF, binauralna, ambisoniczna i inne. Omówiono też popularne nowoczesne kodeki: Ogg Vorbis, AAC i Opus oraz matrycowe systemy kodowania dźwięku wielokanałowego. Rozpatrywano odsłuch głośnikowy stereo, głośnikowy wielokanałowy oraz słuchawkowy. Część badawcza polegała na przeprowadzeniu testów odsłuchowych, mających na celu 12

13 porównanie kilku spośród przedstawionych technik. Sprawdzono, jak sposoby rejestracji, kodowania i odtwarzania dźwięku przestrzennego wpływają na precyzję lokalizacji źródeł dźwięku oraz subiektywne wrażenia słuchaczy. Testy odsłuchowe opierały się na wykonanych we własnym zakresie nagraniach szumów, muzyki oraz dźwięków ulicznych. Wyniki przeanalizowano pod kątem wyboru optymalnego toru rejestracji oraz cyfrowej transmisji dźwięku przestrzennego. 13

14 2 Dźwięk przestrzenny 2.1 Słyszenie przestrzenne W celu zrozumienia idei dźwięku przestrzennego, należy dowiedzieć się, w jaki sposób ludzki organizm potrafi lokalizować dźwięki w przestrzeni, oraz w jaki sposób można oszukać mózg człowieka, aby wydawało się, że dźwięk dochodzi z konkretnego kierunku. Lokalizację punktowego źródła dźwięku można opisać poprzez współrzędne sferyczne, czyli kąty φ i θ przedstawione na rys. 2.1 oraz odległość r między słuchającym (w środku układu współrzędnych) a źródłem dźwięku P, w przypadku nieruchomego źródła dźwięku lub zastępując odległość prędkością źródła dźwięku dla źródła ruchomego (dokładność lokalizacji źródła zależy od szybkości jego poruszania się i wynosi ok. 5 dla szybkości 15 /s, zaś dla 90 /s wynosi już tylko 21 oraz od położenia źródła względem głowy słuchacza z przodu głowy rozdzielczość lokalizacji wynosi 1, a dla tyłu głowy 15 ) [1]. Rys. 2.1 Współrzędne sferyczne w kartezjańskim układzie współrzędnych Do lokalizacji kątowej wykorzystywana jest różnica w czasie dotarcia fali dźwiękowej do uszu słuchacza, różnica amplitud składowych wysokoczęstotliwościowych (wpływ na to ma cień akustyczny głowy) oraz różnice w widmie dźwięku odbitego od różnych części ciała słuchacza (np. ramiona lub małżowina uszna). W przypadku odsłuchu materiału muzycznego największą rolę spełnia lokalizacja lateralna, tzn. na osi lewo prawo. Do określenia lokalizacji źródła dźwięku w tej płaszczyźnie, układ słuchowy analizuje dwie główne informacje: 1. Międzyuszną różnicę czasu (ITD Interaural Time Difference) 14

15 ITD określa różnicę w czasie dotarcia do obu uszu dźwięku bezpośredniego. W przypadku, gdy źródło dźwięku P nie znajduje się naprzeciwko słuchacza, a przykładowo - jak przedstawiono na rys. 2.2 znajduje się na lewo od osi OY, czas dotarcia dźwięku do lewego ucha jest krótszy, niż czas potrzebny na dotarcie dźwięku bezpośredniego do ucha prawego. Rys. 2.2 Lokalizacja dźwięku w płaszczyźnie horyzontalnej Na tej podstawie dźwięk lokalizowany jest na lewo od słuchacza, a lokalizacja stopnia odchylenia od osi OY zależy wprost od wartości ITD, która przyjmuje wartości od 0 µs dla źródła znajdującego się na osi OY do ok. ±690 µs (wartość ta zależy od szerokości głowy) dla źródła położonego skrajnie z lewej lub prawej strony słuchacza. Ten współczynnik odgrywa większą rolę dla lokalizacji niższych częstotliwości (do ok Hz), co spowodowane jest rozmiarami głowy słuchacza. Dla częstotliwości ok. 800 Hz, szerokość głowy jest w przybliżeniu równa połowie długości fali dźwiękowej (dla ok Hz jest już równa długości fali). Fale o długościach większych (czyli niższych częstotliwościach) niż odległość międzyuszna, pozwalają na wyraźniejsze zaobserwowanie różnicy faz docierającej do obu uszu fali akustycznej, a w rezultacie na lokalizację kierunku pochodzenia dźwięku. 2. Międzyuszną różnicę natężenia (ILD Interaural Level Difference) Dla wyższych częstotliwości ludzki układ słuchowy wykorzystuje różnicę w poziomie natężenia dźwięku dochodzącego do obu uszu. Dla źródła dźwięku umieszczonego na osi OY (rys. 2.1) poziom natężenia dla każdego ucha jest identyczny, jednak przy stopniowym oddalaniu się od osi słyszenia, np. na lewo od osi OY, poziom ciśnienia 15

16 dźwięku dochodzącego do prawego ucha będzie malał z uwagi na tłumienie dźwięku przez głowę słuchacza. Głowa stanowi w tym wypadku naturalną barierę akustyczną dla padającej fali dźwiękowej tworząc tzw. cień akustyczny. Dla niższych częstotliwości fala akustyczna ugina się wokół głowy obserwatora (zjawisko dyfrakcji fali dźwiękowej), praktycznie likwidując tłumienie dźwięku przez głowę, co skutecznie uniemożliwia lokalizację niższych częstotliwości. Dlatego właśnie ILD jest używana przez układ słuchowy człowieka do lokalizacji fal dźwiękowych o wyższych częstotliwościach. Rys. 2.3 Opóźnienie sygnału z prawego głośnika przesuwa pozorne źródło dźwięku na lewo Rys. 2.4 Obniżenie poziomu lewego kanału względem prawego powoduje przesunięcie pozornego źródła dźwięku na prawo Na podstawie powyższych właściwości ludzkiego słuchu można symulować przestrzenność nagrania poprzez opóźnianie lub ściszaniei sygnału w jednym z I W ten sposób działa metoda panoramowania dźwięku, np. w technice pan-pot stereo 16

17 kanałów. Dla nieruchomego słuchacza i źródła dźwięku powyższe wartości ITD i ILD w żaden sposób nie pomagają w lokalizacji dźwięku na osi przód tył. Jednak zmieniają się one podczas przemieszczania się głowy słuchacza. Takie mniej lub bardziej świadome ruchy głowy i związane z nim zmiany powyższych współczynników zwiększają dokładność lokalizacji źródła dźwięku przez układ słuchowy człowieka, właśnie na osi przód tył. Możliwość lokalizacji na tej osi daje również specyficzny filtr lokalizacyjny składający się m. in. z zewnętrznego kanału słuchowego oraz małżowiny usznej. W zależności od położenia źródła, fala wpadająca do ucha odbija się w inny sposób od małżowiny, interferując sama ze sobą, co w efekcie daje inne widmo odebranego dźwięku dla innego położenia źródła względem głowy słuchającego. Mózg analizuje widmo odebranego dźwięku i dla znanych sygnałów dźwiękowych potrafi go zlokalizować. Odległość od źródła dźwięku jest oceniana poprzez różnice w poziomie amplitudy dochodzącego do słuchacza dźwięku, jej spadek dla wyższych częstotliwości powietrze w większym stopniu tłumi wysokie częstotliwości (duże znaczenie ma w obu przypadkach znajomość typowej głośności oraz widma częstotliwościowego poszczególnych źródeł dźwięku mózg porównuje odbieraną amplitudę dźwięku lub skład widma do typowych znanych przez niego dźwięków) oraz stosunek amplitudy dźwięku bezpośredniego do dźwięku odbitego w zamkniętych pomieszczeniach [1]. 2.2 Czym jest dźwięk przestrzenny Definicji dźwięku przestrzennego jest wiele i trudno jednoznacznie go określić. Według niektórych źródeł jest to dźwięk reprodukowany za pomocą więcej niż dwóch głośników [2]. Jest to jednak bardzo krzywdząca definicja dla różnych dwukanałowych technik odtwarzania i reprodukcji dźwięku (technika binauralna, ambiofonia) pozwalających często na odbiór bardziej rzeczywistych doznań przestrzennych, niż przy użyciu kilku głośników. Dlatego w niniejszej pracy dźwięk przestrzenny jest utożsamiany z dźwiękiem wielokanałowym (tzn. przesyłanym za pomocą więcej niż jednego kanału), pozwalającym na stworzenie wrażenia przestrzennego rozmieszczenia źródeł dźwięku, ze szczególnym naciskiem na reprodukcję realnej przestrzeni dźwiękowej zarejestrowanej w trakcie tworzenia nagrania. Dźwięk przestrzenny 17

18 rozwinął się i w dalszym ciągu rozwija głównie dzięki przemysłowi filmowemu. Spowodowała to chęć powiązania tego, co się dzieje na ekranie z tym, co widz słyszy. W przemyśle muzycznym w dalszym ciągu chęć odbioru realistycznych wrażeń, zarówno brzmieniowych jak i przestrzennych, jest domeną audiofilów. Przeciętny odbiorca słucha muzyki raczej przy okazji wykonywania innych czynności, np. w czasie jazdy samochodem, robienia zakupów w supermarkecie czy w kawiarni. Słuchacz dużo mniej uwagi przykłada wtedy do realizmu brzmienia. Zresztą same warunki panujące w trakcie słuchania uniemożliwiają komfortowy odbiór nagrania. Obejrzenie filmu wymaga zupełnie innego podejścia od odbiorcy i raczej angażuje go całkowicie, przez co widz wymaga zdecydowanie więcej od otrzymywanego produktu. W szczególności, gdy wybiera się w tym celu do specjalnie wyposażonego pomieszczenia - kina. Ostatnio kładziony jest większy nacisk na dźwięk przestrzenny również w grach komputerowych w tym wypadku nie tylko pozwala to lepiej wczuć się w klimat gry, ale również pomaga w rozgrywce, gdy np. słyszymy, z której strony dochodzą kroki zbliżającego się przeciwnika. Dlatego wydaje się, że w dalszym ciągu rozwój dźwięku przestrzennego będzie związany głównie z aspektem wizualnym. Oprócz technik stereofonicznych, ambisonicznych i binauralnych wykorzystanych w niniejszej pracy i szerzej opisanych w kolejnych rozdziałach, istnieje wiele różnych metod reprodukcji dźwięku przestrzennego. Wrażenie przestrzenności nagrania można osiągnąć poprzez użycie większej liczby odpowiednio rozstawionych głośników lub stosując właściwości psychoakustyczne ludzkiego układu słuchowego. Pierwsza metoda jest użyta we wszystkich systemach wielokanałowych w zestawach kina domowego czy w salach kinowych. Jest stosowana również w metodzie Wave Field Synthesis, gdzie głównym celem jest stworzenie wirtualnego środowiska akustycznego. Technika ta wykorzystuje wiele głośników (nawet kilkaset czy kilka tysięcy, przez co jest bardzo kosztowna), aby wyprodukować sztuczne czoła fali wirtualnego źródła akustycznego. 18

19 Rys. 2.5 Rysunek przedstawiający zasadę działania Wave field synthesis źródło: Główne założenia tej metody opierają się na zasadzie Huygensa, zgodnie z którą czoło fali zbudowane jest z wielu elementarnych fal reprodukowanych przez głośniki. Im więcej głośników, tym reprodukcja fali jest dokładniejsza, a mniejszy jest efekt aliasingu. W metodzie tej lokalizacja źródła nie zależy od położenia słuchacza, w odróżnieniu od innych metod reprodukcji dźwięku przestrzennego. Metody stosujące właściwości psychoakustyczne, to między innymi technika binauralna czy ambiofonia. Ambiofonia jest metodą obróbki cyfrowej i odsłuchu dźwięku stereofonicznego w taki sposób, aby zminimalizować wpływ przesłuchów i pozwolić na lokalizację pozornego źródła dźwięku poza linią łączącą parę głośników (do ok. 150 w płaszczyźnie horyzontalnej). Do reprodukcji dźwięku dookólnego używa się drugiej pary głośników umieszczonych z tyłu słuchacza. Można użyć tej metody również do odsłuchu nagrań binauralnych. Istnieje również kilka innych metod jak np. holofonia, których sposób działania nie jest dokładnie znany przez ograniczenia patentowe i brak chęci twórcy, aby opublikować materiały naukowe nt. tej techniki [3]. 19

20 2.3 Wady i zalety stosowania dźwięku przestrzennego Na wady i zalety stosowania dźwięku przestrzennego można spojrzeć na dwa sposoby. Gdy do dźwięku niosącego informację jedynie o częstotliwościach i ich natężeniu w jednym punkcie dodamy informację przestrzenną, a więc kolejne kanały, powstaje nowy wymiar nagrania. Można tę sytuację porównać z dodaniem informacji o kolorze do czarno-białego obrazu. Z jednej strony stwarza to kolejne możliwości wyrazu i dostarczania wrażeń odbiorcom, z drugiej wypływają z tego nowe wymogi, które trzeba spełnić przy rejestracji i kolejne dotyczące warunków odsłuchu. Pomimo tego, że w większości mamy obecnie do czynienia z odsłuchem stereofonicznym, zazwyczaj ustawienie głośników oraz punktu odsłuchu jest dalekie od sytuacji zgodnej z normą. Przypomnieć warto, że wymogi European Broadcasting Union [4] jasno określają, że słuchacz i głośniki (na tej samej wysokości) powinny w przybliżeniu tworzyć trójkąt równoboczny. Rys. 2.6 Wymogi European Broadcasting Union dotyczące odsłuchu stereofonicznego źródło: [4] Aby więc odwzorować przestrzeń akustyczną w sposób, w jaki to zostało zamierzone, należy dysponować odpowiednim pomieszczeniem, a także być świadomym tego, jak sprzęt powinien być ustawiony. W przypadku systemu 5.1 wymagania są jeszcze większe (głośniki ustawione na okręgu o promieniu 2 do 4 m). Oczywiście w 20

21 większości sytuacji, jeśli rozmieszczenie to nie będzie zgodne z normą, słuchacze będą mieli wrażenia przestrzenne nie będą jednak one wiernie odtwarzały sytuacji rejestracji lub zamysłu autora miksu przestrzennego. Należy sobie zadać pytanie w jakiej sytuacji warto ponieść dodatkowe koszty (niekoniecznie finansowe) i korzystać z dźwięku przestrzennego, a kiedy będzie to jedynie kłopotem? Bez wątpienia prawidłowe odtworzenie obrazu akustycznego jest istotne w wypadku filmów dźwięk i to, co widzimy na ekranie, musi być spójne w innym wypadku będzie drażniące. Jednakże połączenie informacji wzrokowej i słuchowej, to nie tylko film i gry komputerowe. Dźwięk przestrzenny będzie odgrywał ogromną rolę w mało jeszcze popularnych rozwiązaniach poszerzonej rzeczywistości. Z kolei w sytuacjach, gdy dźwięk jest jedynie tłem jak choćby w sklepach i restauracjach nie ma znaczenia dokładne odwzorowanie przestrzeni akustycznej. Nawet jeśli się to uda, prawdopodobnie nie zostanie nawet przez obecnych dostrzeżone. Większość odbiorców przyzwyczaiła się już, że tych samych nagrań słuchają na słuchawkach i na systemach stereo z głośnikami stojącymi w pomieszczeniu. Jednakże wrażenia i lokalizacja źródeł dźwięku w obu wypadkach ogromnie się różnią. Jeśli miałaby zostać zachowana spójność, powinno się tworzyć dedykowane dla jednego lub drugiego sposobu odsłuchu wersje nagrań bądź też korzystać z odpowiedniego ich przetwarzania, mającego symulować na słuchawkach np. odsłuch w danym pomieszczeniu. Dźwięk przestrzenny, korzystający nie tylko z międzyusznej różnicy poziomów (ILD), ale także różnicy czasu (fazy, ITD), będzie problematyczny przy monofonizacji, rozumianej jako sumowanie kanałów lewego i prawego. Nie ma takiego kłopotu w przypadku rejestracji nagrań przestrzennych systemami koincydentnymi II, a także gdy podczas procesu miksowania dźwięku nie stosuje się efektów wprowadzających różnicę faz między kanałami. Sposób rejestracji, przetwarzania oraz odtwarzania dźwięku należy więc - w miarę możliwości dobrać do konkretnej sytuacji. II Systemy wykorzystujące jedynie ILD. Mikrofony znajdują się w tym samym miejscu, są tylko inaczej skierowane. 21

22 2.4 Techniki nagrywania dźwięku przestrzennego Jednym z pierwszych ogniw w torze transmisji dźwięku przestrzennego, oprócz samego źródła dźwięku, jest jego rejestracja. Sposób nagrywania ma najbardziej kluczowe znaczenie dla odbioru przestrzenności nagrania, zaraz obok warunków odsłuchu danego materiału (użytego systemu dźwiękowego). Sposoby rejestracji dźwięku są nazywane technikami mikrofonowania. Wybór właściwej techniki powinien zależeć od tego, na jakich aspektach rejestrowanego dźwięku chcemy się skupić. Nie istnieje jedna dobra metoda, za to jest wiele sposobów, w jaki można takich nagrań dokonać niewłaściwie. Większość podanych technik została opracowana poprzez metodę prób i błędów, jako techniki najlepiej oddające wrażenia przestrzenności, zachowujące proporcje i unikające problemów fazowych. Poniżej omówiono kilka najpopularniejszych technik zarówno stereofonicznych jak i przestrzennych (z większą docelową liczbą kanałów odsłuchowych), z których część została użyta do stworzenia nagrań do badań odsłuchowych. Przedstawione poniżej techniki służą do wiernego odtworzenia położenia źródeł dźwięku na scenie dźwiękowej w momencie ich rejestracji. Istnieją również techniki monofonicznego nagrywania źródeł dźwięku lub nagrywania poprzez bezpośrednie podłączenie danego instrumentu do wejścia liniowego (typowy sposób przy nagrywaniu gitary basowej), które nie zostaną przedstawione w niniejszym rozdziale. Tak nagrane instrumenty są później panoramowane, np. w technice pan-pot stereoiii, co w żaden sposób nie oddaje wrażeń przestrzennych realnego nagrania, szczególnie w wypadku gdy każdy z instrumentów nagrywany był osobno Technika AB Technika mikrofonowania AB jest techniką stereofoniczną i wykorzystuje dwa identyczne mikrofony o charakterystyce dookólnej rozstawione w pewnej (najczęściej cm) odległości od siebie. III Opisanej szerzej w podrozdziale o systemach dźwiękowych 22

23 Rys. 2.7 Ustawienie mikrofonów w technice AB (źródło: Wrażenie przestrzenności w tej technice osiągane jest przede wszystkim dzięki różnicy w czasie dotarcia fali dźwiękowej wyemitowanej przez źródło dźwięku do poszczególnych kapsuł mikrofonowych. Przy odległości 50 cm różnica ta może wynosić między 1-2 ms w zależności od umiejscowienia źródła względem pary mikrofonów. Oddalenie mikrofonów od siebie powoduje powiększenie tej różnicy czasowej, a co za tym idzie wrażenia przestrzenności nagrania [5]. Przy nagrywaniu należy wziąć pod uwagę możliwość downmiksu całego materiału do mono (np. w przypadku odtwarzania nagrania przez stare radio lub przy słabym zasięgu), a technika AB ze względu na niekoincydentne umieszczenie kapsuł mikrofonowych względem siebie może powodować problemy fazowe przy miksie mono. Rys. 2.8 Przykładowy wykres transmitancji filtru grzebieniowego Część składowych częstotliwości dochodząca w przeciwnych fazach do obu mikrofonów, da w rezultacie filtr grzebieniowy podobny do przedstawionego na rys 2.8. Dlatego w środowisku realizatorów dźwięku stosuje się zasadę 3:1, co oznacza, że odległość między mikrofonami rejestrującymi powinna wynosić co najmniej trzykrotność odległości między mikrofonem, a źródłem dźwięku rejestrowanym przez 23

24 mikrofony. Przy takiej odległości różnica poziomów ciśnienia dźwięku wyemitowanego przez źródło między dwoma mikrofonami będzie wynosić ok. 9dB, co wpłynie na obniżenie wahań amplitudy funkcji transmitancji filtru grzebieniowego do poziomu poniżej 1dB [6] wartości praktycznie niezauważalnej dla ludzkiego ucha Technika XY Technika stereofoniczna XY jest nazywana techniką koincydentną ze względu na bliskie ułożenie względem siebie kapsuł mikrofonowych. Wykorzystuje ona parę identycznych mikrofonów o charakterystyce kardioidalnej, ustawionych względem siebie pod kątem między 90 a 130. Prawy mikrofon odpowiada za rejestrację lewego kanału, a lewy mikrofon prawego kanału. Rys 2.9. Ustawienie mikrofonów w technice XY (źródło: Jest też nazywana techniką natężeniową, ponieważ wrażenie przestrzenne jest w tej technice kreowane jedynie poprzez różnicę w poziomach ciśnienia dźwięku docierającego do mikrofonów. Technika ta zapewnia też całkowity (teoretycznie z uwagi na skończone wymiary kapsuł mikrofonowych) brak problemów fazowych w przypadku miksu do mono właśnie dzięki koincydentnemu ułożenie\u kapsuł. Z uwagi na brak różnicy czasowej między kanałami stereo, wrażenie przestrzenne w nagraniach zarejestrowanych tą techniką jest często słabsze od identycznego nagrania dokonanego techniką AB. Jednak zaleta w postaci braku problemów fazowych w razie odtwarzania monofonicznego (co ma istotne znaczenie dla odtwarzania danego materiału w radiu) oraz popularność tej techniki spowodowała, że w niniejszej pracy do rejestracji 24

25 materiału dźwiękowego i porównania w testach odsłuchowych użyto między innymi techniki XY Technika Blumleina Technika ta jest podobna do techniki XY ze względu na wzajemne ułożenie mikrofonów - również jest techniką koincydencyjną. Używane mikrofony powinny posiadać charakterystykę ósemkową (najczęściej mikrofony wstęgowe) oraz być ułożone względem siebie dokładnie pod kątem 90 ze zgodnie skierowaną polaryzacją. Rys Ustawienie mikrofonów w technice Blumleina (źródło: Została opracowana przez Alana Blumleina w latach 30. ubiegłego wieku i była bardzo popularną techniką mikrofonowania na początku rozwoju stereofonii. Dzięki charakterystyce ósemkowej użytych mikrofonów technika ta pozwala na dokładniejszą rejestrację dźwięków odbitych pomieszczenia, w którym zostało dokonane nagranie, co zwiększa wrażenie przestrzenności nagrania Technika ORTF W literaturze angielskiej jest nazwana techniką near-coincident pair, co wynika z określonej małej odległości między kapsułami mikrofonów. Technika ta łączy cechy technik koincydencyjnych oraz techniki AB, ponieważ rejestracja przestrzeni dźwiękowej odbywa się w tej technice zarówno poprzez różnicę w czasie dotarcia fali dźwiękowej od mikrofonów jak i w różnicy natężenia dźwięku zarejestrowanego przez każdy z mikrofonów (jak w technice np. XY). Polega na zastosowaniu pary 25

26 mikrofonów o charakterystyce kardioidalnej rozstawionych pod kątem 110 i oddalonych od siebie o ok. 17 cm, co odpowiada rozstawowi uszu człowieka i zapewnia taką samą wartość ITDIV. Może sugerować to lepsze wrażenie przestrzenności przy odsłuchu słuchawkowym. Spowodowane to jest brakiem przesłuchów, a w efekcie zachowaniem zarejestrowanych wartości ITD, podczas gdy odsłuch głośnikowy wprowadza zachwianie tej wartości spowodowane obecnością przesłuchów (prawe ucho również odbiera dźwięk z lewego kanału, a lewe ucho również z prawego kanału). Rys Ustawienie mikrofonów w technice ORTF (źródło: Technika ta została opracowana w 1960 r. przez pracowników Radio France, któremu zawdzięcza swoją nazwę - ORTF (Office de Radiodiffusion Télévision Française). Ta technika również została użyta w niniejszej pracy do sporządzenia nagrań,z uwagi na dobre odwzorowanie przestrzenności rejestrowanej sceny dźwiękowej Technika MS Technika MS (od angielskiego Mid-Side) prezentuje inne podejście do rejestracji dźwięku przestrzennego od technik przedstawionych powyżej. Składa się z dwóch mikrofonów: pierwszego kardioidalnego (choć w oryginalnym patencie Alana Blumleina zostało opisane użycie przetwornika wszechkierunkowego) rejestrującego sygnał M i drugiego o charakterystyce ósemkowej ustawionego poprzecznie, koincydentnie z pierwszym i skierowanego przodem w lewą stronę (sygnał S). Na IV Interaural Time Difference 26

27 rynku dostępne są też mikrofony stereofoniczne MS posiadające obie kapsuły zamknięte w jednej obudowie. W efekcie uzyskujemy kanały stereofoniczne poprzez proste przekształcenia: L = M+S R = M-S gdzie L i R są odpowiednio lewym i prawym kanałem, a M i S to sygnał odpowiednio z mikrofonu kardioidalnego (lub dookólnego) i ósemkowego. Powyższy efekt można uzyskać korzystając z prostego dekodera wtyczki VST V lub samodzielnie przekierowując sygnał z mikrofonu ósemkowego (S) na dwa kanały, w jednym z nich odwracając fazę sygnału oraz odpowiednio panoramując i sumując je z sygnałem M (rys. 2.12). Dzięki temu możemy dowolnie zmniejszać lub zwiększać wrażenie przestrzenności nagrania manipulując stosunkiem poziomu sygnału M i S. Tak nagrany i zdekodowany sygnał jest całkowicie kompatybilny z systemami monofonicznymi, ponieważ L+R = M+S+M-S=2M. W systemie monofonicznym odtworzony zostanie więc tylko sygnał M z mikrofonu kardioidalnego (lub dookólnego). Rys Schemat ustawienia mikrofonów i dekodowania dźwięku w technice MS (źródło: V Virtual Studio Technology standard wtyczek do programów DAW wprowadzony przez firmę Steinberg 27

28 2.4.6 Technika Double MS W przeciwieństwie do powyżej zaprezentowanych sposobów rejestracji dźwięku, ta technika nie jest techniką stereofoniczną, gdyż pozwala na rejestrację przestrzeni dźwiękowej w trzech kanałach, które mogą zostać przekształcone do tzw. poziomego (ang. horizontal) B-formatu [7], wg zasadyvi: W = Mfront + Mrear X = Mfront - Mrear Y=S co czyni ją podobną do technik ambisonicznych przedstawionych w podrozdziałach poniżej. Z tego powodu istnieje też wiele metod dekodowania sygnału zarejestrowanego tą metodą. Stosując kombinacje sygnałów W, X i Y można otrzymać dowolną charakterystykę wirtualnego mikrofonu. Jednak najpopularniejszy sposób dekodowania do systemu 5.1 można otrzymać w następujący sposóbvii [7]: L = Mfront + S R = Mfront S C = Mfront Ls = Mrear + S RS = Mrear S Sygnał nagrany techniką Double MS można zdekodować również za pomocą dostępnych wtyczek VST lub z użyciem dostępnych dekoderów sprzętowych (np. Hardware Matrix Schoeps MDMS U). VI Komponenty W, X, Y są opisane w podpunkcie technik ambisonicznych VII Wyjaśnienie oznaczeń znajduje się w podrozdziale

29 Rys Schemat ustawienia mikrofonów w technice Double MS jako dwie pary MS źródło: [8] Sama technika polega na użyciu dwóch par mikrofonów MS jednak w przypadku sygnału S nie ma potrzeby korzystania z dwóch identycznych przetworników ustawionych w tym samym miejscu. Ostatecznie więc używa się dwóch mikrofonów kardioidalnych skierowanych od siebie: Mfront i Mrear oraz jednego mikrofonu o charakterystyce ósemkowej rejestrującego sygnał S Techniki binauralne Technika binauralna jest wciąż mało popularną, specyficzną techniką nagraniową bardzo dobrze odwzorowującą wrażenia przestrzenne (również w osi góra dół w odróżnieniu od poprzednich technik). Polega na użyciu pary małych mikrofonów umieszczonych w sztucznej głowie (ang. dummy head) lub mikrofonów dousznych zakładanych przez nagrywającego w podobny sposób jak słuchawki tzw. pchełki. Takie właśnie mikrofony douszne firmy Soundman zostały użyte do sporządzenia nagrań testowych w niniejszej pracy. 29

30 Rys Sztuczna głowa z wbudowanymi mikrofonami binauralnymi służąca do sporządzania nagrań binauralnych; źródło: [9] Od kształtu sztucznej głowy lub głowy nagrywającego zależy funkcja HRTF VIII czyli funkcja transmitancji filtru, na który składają się części ciała słuchacza, opisująca sposób filtracji dźwięku docierającego do uszu słuchającego. Jest funkcją czterech zmiennych. Zależy od częstotliwości dźwięku i od położenia źródła dźwięku względem ucha słuchacza. Możliwa jest również synteza dźwięku binauralnego poprzez filtrację nagranego dźwięku filtrem HRTF. Dokładna wartość tej funkcji jest cechą osobniczą i zależy od kształtów i rozmiarów głowy, uszu, a nawet ramion słuchacza. Wszystkie te części ciała mają wpływ na sposób odbicia dźwięku przed dotarciem do błony bębenkowej. Dlatego też używa się sztucznej głowy, która posiada uśrednione wymiary głowy i małżowiny usznej. Pozwala na odbiór zbliżonych wrażeń przestrzennych przez większość ludzi. Wrażenie realności przestrzenności nagrania binauralnego będzie największe dla osoby, która sama dokonywała tego nagrania, gdyż dźwięk odsłuchiwany przez nią w słuchawkach będzie widmowo idealnie odpowiadał takiemu samemu naturalnemu dźwiękowi docierającemu do uszu słuchającego. Mózg ludzki uczy się lokalizacji między innymi właśnie na podstawie zawartości widmowej dochodzącego do uszu dźwięku IX. Odpowiednie wrażenia przestrzenne możliwe są wyłącznie przy odsłuchu słuchawkowym, ponieważ odsłuch głośnikowy powoduje powstawanie naturalnych przesłuchów międzykanałowych, co wpływa na barwę VIII Head Related Transfer Function IX Patrz - podrozdział o słyszeniu przestrzennym 30

31 dźwięku przefiltrowanego przy nagraniu przez funkcję HRTF docierającego do uszu słuchacza (ponownie zresztą filtrowanego przy takim odsłuchu funkcją HRTF głowy słuchającego) i w efekcie zaburza możliwości lokalizacyjne. Efekt stereofoniczny może być podobny jak przy technice ORTF (podobne rozmieszczenie mikrofonów). Sugerowany odsłuch słuchawkowy jest dosyć poważnym ograniczeniem, jednak prostota wykonania samego nagrania wraz z bardzo dobrymi wrażeniami przestrzennymi przy zapisie jedynie dwóch kanałów, przyczyniła się do wybrania niniejszej techniki do wykonania nagrań do testów odsłuchowych Techniki ambisoniczne Ambisonia jest techniką nagrywania, przetwarzania i reprodukcji pełnego pola dźwiękowego (ang. sound field) opracowaną przez Michaela Gerzona i innych w latach 60/70 XX w. W podstawowej jej wersji, czyli Ambisonii pierwszego rzędu, informacja dźwiękowa jest kodowana do czterech kanałów: W, X, Y i Z tzw. B-formatu. W rzeczywistości są to harmoniczne sferyczne kolejnych rzędów. Kanał W jest komponentem zerowego rzędu i odpowiada sygnałowi z mikrofonu wszechkierunkowego. X, Y i Z to komponenty pierwszego rzędu i odpowiadają sygnałowi z przetworników o charakterystyce ósemkowej skierowane odpowiednio w przód, lewo i w górę. Rys Komponenty sferyczne w teorii ambisonicznej (źródło: Obecność komponentu Z sprawia, że możliwa jest reprodukcja w pełni trójwymiarowej przestrzeni dźwiękowej. Wymaga ona jednak głośników umieszczonych powyżej i poniżej głowy słuchacza [10]. Zastosowanie wyższych harmonicznych sferycznych 31

32 zwiększa rozdzielczość lokalizacji dźwięku, jednak wymaga zwiększenia liczby stosowanych komponentów, a co za tym idzie - kanałów. Obecnie w praktycznym zastosowaniu znajduje się jedynie Ambisonia pierwszego rzędu. Cały pomysł opiera się na przetworzeniu sygnałów pochodzących bezpośrednio z czterech przetworników umieszczonych koincydentnie (tzw. A-format) do B-formatu, czyli wcześniej opisanych kanałów WXYZ. Stosując liniową kombinację tych komponentów, można otrzymać dowolną charakterystykę wirtualnego mikrofonu skierowanego w dowolnie wybranym kierunku. Daje to wielkie możliwości postprodukcyjne już zarejestrowanego wcześniej dźwięku, a także możliwość zdekodowania sygnału do dowolnej ilości kanałów oraz dowolnego systemu dźwięku przestrzennego [10]. Warto wspomnieć o możliwości matrycowego zakodowania dźwięku ambifonicznego w dwóch kanałach z pominięciem komponentu Z, tzw. formacie UHJ lub inaczej C-formacie. Jest to przydatne, gdy zależy nam na oszczędności przepustowości sieci przy transmisji dźwięku przez internet lub gdy transmitujemy dźwięk za pomocą mediów takich jak analogowe radio czy telewizja. Tracimy jednak wtedy informację o lokalizacji góra dół oraz rozdzielczość lokalizacji dźwięku z uwagi na to, że format UHJ jest formatem matrycowym, podobnie jak matrycowa kwadrofonia, czy większość systemów Dolby. Do rejestracji sygnału czystego A-formatu używa się mikrofonu ambisonicznego Soundfield, również opracowanego i opatentowanego w latach 70. przez Michaela Gerzona [11]. Rys Kapsuły mikrofonu Soundfield (źródło: 32

33 Mikrofon Soundfield składa się z czterech przetworników umieszczonych na planie czworościanu foremnego. Aby możliwe było przekształcenie do B-formatu, wszystkie kapsuły powinny znajdować się dokładnie w tym samym miejscu z uwagi na przesunięcia fazowe. Aby zniwelować tę niedokładność, przy konwersji z A-formatu do B-formatu, dokonuje się matematycznej korekcji, która w największym stopniu wpływa na lokalizację wysokich częstotliwości. Przy rejestracji za pomocą mikrofonu typu Soundfield należy znać dokładne ustawienie przodu mikrofonu, aby po rejestracji móc precyzyjnie ustawić skierowanie wirtualnego mikrofonu. Technika ta w dalszym ciągu jest mało popularna pomimo jej niewątpliwych zalet, głównie z uwagi na brak wsparcia tej technologii przez wielkie koncerny, wysoką cenę mikrofonu czy konieczność użycia dodatkowych dekoderów, które są dostępne w wersji zarówno hardware jak i software (wtyczki VST). Obecnie takie oprogramowanie jest łatwo dostępne i co najważniejsze zupełnie darmowe. Jednym z nich jest Visual Virtual Microphone v 3.3.0, użyty w niniejszej pracy do zdekodowania nagranego sygnału do systemu 5.1. Równo traktuje każdy z kierunków, więc nadaje się nie tylko do rejestracji muzyki, ale również np. transmisji sportowych. 2.5 Systemy dźwięku przestrzennego Ostatnim ogniwem w łańcuchu transmisji dźwięku jest system odsłuchowy. Zgodnie z zasadą najsłabszego ogniwa, gdy transmitowany dźwięk jest najwyższej jakości, prawidłowo zarejestrowany i zmiksowany, przy odpowiednio dobranych kodekach, a odsłuch materiału odbywa się na starym radiu w kuchni, głośnikach od laptopa, czy w źle przystosowanym pomieszczeniu, tracimy cały efekt przestrzenny i większość przesyłanej treści. Ważne jest więc, aby odsłuch miał miejsce w przystosowanym do tego pomieszczeniu na prawidłowo dobranym i skonfigurowanym systemie audio. Niestety w ogromnej większości przypadków, podmiot transmitujący sygnał audio nie ma wpływu na sposób odsłuchu przesyłanego materiału i tym samym na końcowy jego odbiór. Jedynie w miejscach typu kina czy sale koncertowe, gdzie znajduje się gotowy i prawidłowo ustawiony system dźwięku przestrzennego (w kinach najczęściej system firmy Dolby), można dokładnie przewidzieć sposób odbioru materiału dźwiękowego przez słuchaczy. Przełożyło się to na najszybszy i największy rozwój dźwięku 33

34 przestrzennego właśnie w kinematografii, omijając na razie domowe salony, gdzie w dalszym ciągu systemy dźwięku przestrzennego (choćby 5.1) są mało popularne, a na pewno już w minimalnej ilości przypadków są prawidłowo ustawione i skalibrowane. Jest to w większości przypadków spowodowane wysoką ceną zestawu kina domowego oraz niewystarczającymi warunkami mieszkaniowymi (zbyt małe pomieszczenia). Niemniej jednak, trudno oczekiwać rozwoju dźwięku przestrzennego w sytuacji, gdy docelowy odbiorca nie będzie w stanie odsłuchać dźwięku zarejestrowanego czy zrealizowanego w technice surround. Na system audio składa się liczba używanych kanałów, minimalna liczba głośników używanych do reprodukcji dźwięku, ich ustawienie w przestrzeni oraz sposób dekodowania sygnału i przesyłania go na poszczególne głośniki. Ważnym aspektem jest również umieszczenie samego słuchacza, które ma dla systemów dźwiękowych krytyczne znaczenie, jeśli chodzi o odbiór wrażeń przestrzennych. W niniejszym rozdziale przedstawiono wybrane najważniejsze systemy audio dla dźwięku wielokanałowego i przestrzennego, zarówno pod względem użytkowym jak i historycznym Systemy stereofoniczne Stereofonia jest najstarszym i obecnie wciąż najbardziej rozpowszechnionym systemem dźwiękowym. Para głośników stereo znajduje się obecnie w każdym laptopie. Każdy odtwarzacz mp3 czy telefon posiada stereofoniczne wyjście słuchawkowe. Od techniki stereofonicznej rozpoczęła się chęć odwzorowania i umieszczenia w przestrzeni źródeł dźwięku. Technika stereofoniczna została opatentowana przez Alana Blumleina w latach 30. ubiegłego wieku [12], ale już w 1881 roku został zaprezentowany Teatrofon - rodzaj telefonu przesyłającego na żywo do słuchaczy dźwięk dwukanałowy z Opery Paryskiej. Wtedy właśnie została dokonana pierwsza na świecie transmisja dźwięku stereofonicznego [13]. Urządzenie składało się z dwóch słuchawek, dzięki którym odbiorca mógł słyszeć osobno jednym uchem sygnał z pierwszego mikrofonu i osobno z drugiego mikrofonu - drugim uchem, co oznacza, iż odsłuch był wyłącznie binauralny. Urządzenie stało się na pewien czas popularne we Francji i Anglii, jednak rozwój stereofonii rozpoczął się znacznie później wraz z badaniami prowadzonymi przez wspomnianego wyżej Alana Blumleina. Pierwsze nagranie stereofoniczne zostało dokonane w marcu 1932 roku. Nagrywaną 34

35 orkiestrę prowadził Leopold Stokowski - brytyjski dyrygent polskiego pochodzenia, który później miał znaczny udział w tworzeniu muzyki do pierwszego stereofonicznego filmu - Fantazja (otrzymał za to honorowego Oscara [14]), opartego na stereofonicznym systemie kinowym Fantasound. System ten był przełomem w dobie filmów monofonicznych i dał podwaliny do rozwoju systemu przestrzennego. Dla filmu dźwięk przestrzenny jest szczególnie ważny. Widz, oglądając przejeżdżający na ekranie samochód, chciał również słyszeć przemieszczający się dźwięk. Odtworzenie filmu Fantazja w monofonicznych kinach wymagało zainstalowania odpowiednio rozmieszczonego systemu głośnikowego oraz innych urządzeń sterujących przepływem kanałów do odpowiednich głośników i poszerzających dynamikę sygnału - tzw. Togad (wczesna wersja ekspanderax). Było to bardzo kosztownym zabiegiem, co znacznie obniżyło zyski z filmu, a w efekcie spowodowało, że nie zdołano rozwijać prac nad systemem Fantasound, a tym samym wstrzymano na jakiś czas rozwój dźwięku wielokanałowego w kinematografii. Niemniej jednak system Fantasound był przełomem w reprodukcji dźwięku oraz podejściu do kwestii udźwiękowienia filmu. Sama kwestia, iż jedna trzecia całego budżetu filmu została przeznaczona na jego udźwiękowienie, co nigdy wcześniej nie miało miejsca, mówi wiele o podejściu Disneya do nowatorskich rozwiązań audio [15]. Do połowy lat 70., gdy w użycie wszedł system Dolby Stereo (opisany poniżej), w przemyśle filmowym wydawano filmy ze ścieżką stereofoniczną (sporadycznie) jak i monofoniczną. W przemyśle nagraniowym do dziś stereofonia jest praktycznie jedyną techniką stosowaną w wydawnictwach fonograficznych. Jest to spowodowane ograniczeniami pojemności płyt audio CD i małą popularnością innych systemów audio u przeciętnego słuchacza. System stereo jest metodą reprodukcji dźwięku za pomocą dwóch lub większej ilości kanałów (w przypadku downmixuxi), przy użyciu co najmniej dwóch głośników lub pary słuchawek (odsłuch binauralny), i tworzenia w ten sposób wrażenia przestrzenności odtwarzanego materiału. Najczęstszą konfiguracją jest 2-2-2, czyli dwa kanały źródłowe przesyłane są dwoma kanałami do dwóch głośników. Sama liczba X Ekspander - urządzenie służące do zwiększenia dynamiki dźwięku poprzez tłumienie sygnału jeśli ten spadnie poniżej zadanego poziomu. XI Downmix proces miksowania dźwięku wielokanałowego do mniejszej ilości kanałów niż oryginalna ścieżka audio 35

36 głośników większa od dwóch nie zwiększa wrażenia przestrzenności, a jedynie może zwiększyć obszar odsłuchu, tak zwany sweet spot. Wrażenie przestrzenności kreowane jest poprzez różnicę zawartości materiału audio w poszczególnych kanałach. Dźwięk stereo można rozróżniać ze względu na specyfikę odtwarzanego materiału: true stereo - grany na żywo dźwięk zarejestrowany jest stereofoniczną techniką mikrofonową odwzorowującą realne ustawienie muzyków czy źródeł dźwięku w czasie rejestracji materiału; zawiera naturalny pogłos pomieszczenia. pan-pot stereo materiał zarejestrowany techniką monofoniczną, a następnie rozmieszczony w przestrzeni audioxii poprzez użycie programu do edycji dźwięku DAWXIII za pomocą pokrętła panoramy (tzw. panoramowanie) oraz dodanie sztucznych stereofonicznych efektów (np. pogłosowych). Obecnie najczęściej stosowana metoda w nagraniach komercyjnych. Dokładne działanie pokrętła panoramy określa tzw. Pan Law, czyli zasada opisującą zmianę poziomu sygnału w jednym kanale względem drugiego, gdy panoramujemy sygnał z lewej lub prawej strony. Zasada ta wynika ze sposobu sumowania się sygnałów o skali decybelowej. Dla sumy dwóch źródeł o takiej samej amplitudzie ciśnienia p i tej samej fazie, poziom ciśnienia wzrasta o 6,02dB SPL w stosunku do sytuacji, gdy dźwięk odtwarzany jest tylko przez jedno źródło o takim samym natężeniu. Przestawia to poniższe równanie: 2 10log( (2 p) p p )=20log(2 )=20log(2)+ 20log( ) 2 p0 p0 p0 p 6,02+20log( )=(6,02+ L)[dB] p0 (2.1) gdzie: p ciśnienie akustyczne pojedynczego źródła p0 ciśnienie atmosferyczne odniesienia, ok. 20 μpa L poziom ciśnienia dźwięku pojedynczego źródła Dla źródeł niekoherentnych SPL wzrasta już tylko o ok. 3dB. Różnica w poziomie ciśnienia powstającego przy odtwarzaniu dźwięku przez głośniki przy skrajnym XII Jako przestrzeń czy scenę audio rozumiemy subiektywne odczucie słuchającego pozwalające na zlokalizowanie w przestrzeni źródeł dźwięku w nagraniu XIII Digital Audio Workstation 36

37 panoramowaniu, a przy braku panoramowania, spowodowała wprowadzenie tłumienia dla sygnałów ustawionych pośrodku sceny audio oraz brak jakiegokolwiek tłumienia dla sygnałów ustawionych skrajnie w panoramie, gdy sygnał jest odtwarzany tylko przez jeden głośnik. Gdy przewiduje się odtwarzanie danego materiału stereofonicznego w mono (np. odtwarzanie przez radio z jednym głośnikiem), tłumienie dla sygnału pośrodku sceny akustycznej powinno być ustawione na 6dB (po 3dB na kanał) ze względu na zależność (2.1). Dla materiałów odtwarzanych tylko i wyłącznie w stereo optymalne tłumienie wynosi 3dB (2 1,5dB). Wartość 4,5dB jest wartością kompromisową pomiędzy dwoma poprzednimi ustawieniami [16]. Pan law określa też funkcję zmiany wzmocnienia poszczególnych kanałów wraz ze zmianą położenia pokrętła panoramy. Funkcja jest logarytmiczna, gdy chcemy mieć jednakową moc sumy kanałów dla dowolnego ustawienia pokrętła panoramy (najczęściej używana ze względu na jednakowo odbieraną głośność sygnału, niezależnie od ustawienia panoramy), lub liniowa gdy chcemy zachować równe wzmocnienie sumy kanałów. Rys Wykres pan-pot law jednego z programów DAW Powyższe metody true i pan-pot stereo można połączyć, miksując materiał true stereo z panoramowanym sygnałem monofonicznym. 37

38 System stereo można podzielić ze względu na urządzenia używane do odsłuchu materiału: odsłuch binauralny - gdy odsłuch odbywa się za pomocą słuchawek. Mamy wtedy całkowitą separację pomiędzy prawym a lewym kanałem odsłuch głośnikowy - gdy dźwięk odsłuchiwany jest za pomocą zestawów głośnikowych. Występuje wtedy zjawisko przesłuchu międzykanałowego (ang. crosstalk), co powoduje słyszenie każdego z kanałów w obojgu uszach. Sposób odsłuchu materiału stereofonicznego powinien znacznie wpłynąć na percepcję przestrzeni w nagraniu z powodu obecności lub braku przesłuchów międzykanałowych, czyli w efekcie różnicy w natężeniu dźwięku dochodzącego do obojga uszu (w przypadku odsłuchu głośnikowego różnica ta będzie mniejsza) oraz w różnicy czasu dotarcia dźwięku z danego kanału do uszu. Oba te aspekty wpływają na postrzeganie kierunku emitowanego dźwięku przez źródło. Odwzorowanie przestrzeni i właściwy dobór sposobu odsłuchu może zależeć od sposobu rejestracji, a także ewentualnego sposobu miksowania danego materiału, czyli od typu odtwarzanego materiału (true albo pan-pot stereo). Prawidłowe ustawienie głośników do systemu stereo oparte jest na zasadzie trójkąta równobocznego (przedstawione na rys. poniżej). Szczególnie ważne jest, aby głowa słuchacza znajdowała się w równej odległości od obu głośników. W przeciwnym razie nastąpi przesunięcie sceny dźwiękowej w stronę bliższego z nich. Zbyt wąskie ustawienie głośników może prowadzić do zwężenia bazy stereo - dźwięk wydaje się być podobny do sygnału monofonicznego. Natomiast zbyt szerokie ustawienie głośników skutkuje rozerwaniem bazy stereo i powstaniem wyraźnego wrażenia przerwy pośrodku przestrzeni audio. Należy również zadbać o to, aby tuż przed głośnikami nie znajdowały się płaskie powierzchnie powodujące wczesne odbicia fal dźwiękowych (a w konsekwencji zmianę barwy odbieranego dźwięku). Dlatego wskazane jest umieszczenie głośników na statywach - na wysokości głowy słuchacza. 38

39 Rys Prawidłowe ustawienie głośników w systemie stereo na trójkącie równobocznym Wynika z tego, że głośniki stereofoniczne zainstalowane w laptopach czy w przenośnych radiach, nie są w stanie odpowiednio zrekonstruować sceny dźwiękowej. Dobry odsłuch stereofoniczny możemy więc uzyskać odpowiednio ustawiając zestawy głośnikowe oraz prawidłowo umieszczając samego słuchacza. W wypadku jednak, gdy osoba słuchająca porusza głową lub zmienia miejsce odsłuchiwania wrażenie przestrzenności jest wyraźnie zaburzone. Kwestię niestabilności sceny dźwiękowej można rozwiązywać wprowadzając trzeci centralny kanał, tworząc trójkanałowy system stereo. System taki składa się z minimum trzech głośników dokłada się do standardowego zestawu stereo trzeci, centralny głośnik. Potrzeba stabilności bazy stereo była silna szczególnie przy większym audytorium, gdzie rozstaw głośników jest szeroki (np. w kinie). Taki właśnie system stereo został zastosowany we wspomnianym wcześniej obrazie Fantazja [17], czyli rozwinął się praktycznie jednocześnie ze stereo dwukanałowym. Nigdy jednak nie zdobył popularności w zastosowaniach domowych, a w kinie zastąpiony został przez dźwięk przestrzenny. Stereofonia często jest mylona z dźwiękiem monofonicznym emitowanym z dwóch (11-2) lub kilku głośników oraz z duofonią. Duofonia jest nie tyle systemem audio, co techniką przetwarzania sygnału monofonicznego w celu osiągnięcia złudzenia przestrzenności. Osiąga się to poprzez dzielenie sygnału mono na dwa kanały, opóźnianie ich względem siebie o kilkanaście - kilkadziesiąt milisekund, użycie sztucznego pogłosu i filtrowanie poszczególnych kanałów. [18] Technika ta jest nazywana w literaturze anglojęzycznej fake stereo (fałszywe stereo) ze względu na obecność w obu głośnikach identycznego materiału dźwiękowego pochodzącego z 39

40 jednego monofonicznego kanału, przetworzonego jedynie przez procesory DSP. Używano tej techniki głównie w latach ubiegłego wieku w celu unowocześnienia nagranych i wydanych już materiałów monofonicznych w dobie rozwoju stereofonii. Różne studia nagraniowe stosowały inne nazwy dla tej samej techniki Kwadrofonia System stereofoniczny dobrze sprawował się w odwzorowaniu relacji lewo - prawo w przestrzeni przed słuchaczem, natomiast zupełnie nie był w stanie odtworzyć dźwięków znajdujących się w tylnej części sceny dźwiękowej. Naturalnym rozwiązaniem wydawało się dołożenie głośników za słuchaczem. Już w 1965 roku Peter Scheiber zastosował rozwiązanie wykorzystujące 4 głośniki grające dwukanałowy materiał stereofoniczny - jeden centralny (odtwarzający sumę kanału lewego i prawego), dwa po bokach (odtwarzające odpowiednio tylko lewy lub tylko prawy kanał) i jeden z tyłu słuchacza (różnicę pomiędzy lewym, a prawym kanałem). Podobne rozwiązanie opisał Michael Gerzon w artykule z 1970 r. [19] Zastosowany pomysł odejmowania sygnałów dla kanału tylnego skutkował różnymi wrażeniami przestrzennymi w zależności od sposobu produkcji stereofonicznego materiału dźwiękowego. W przypadku dźwięków nagranych pojedynczymi mikrofonami i rozmieszczonych w panoramie (pan-pot stereo), różnica fazy między kanałem prawym a lewym da na wyjściu dźwięki tym głośniejsze, im bardziej były rozsunięte w panoramie. Dla skrajnie rozpanoramowanych instrumentów, tylny głośnik będzie odtwarzał je dokładnie tak samo głośno jak kanał lewy czy prawy, a w przypadku sygnału umieszczonego dokładnie pośrodku bazy stereo, sygnał zostanie całkowicie wytłumiony. W przypadku sygnału zarejestrowanego stereofoniczną techniką mikrofonową, np. techniką Blumleina, dźwięki znajdujące się dokładnie przed i za mikrofonem będą wyemitowane przez przedni głośnik z dokładnie takim samym natężeniem. Sygnały zarejestrowane na przekątnej, z przodu i z tyłu, będą odtworzone odpowiednio w lewym i prawym kanale, zaś dźwięki znajdujące się po prawej i lewej stronie pary mikrofonów, zostaną odtworzone przez głośnik tylny - jako sygnały zarejestrowane w przeciwnej fazie przez oba mikrofony. To rozwiązanie w sposób oczywisty powoduje zafałszowanie realnej przestrzeni dźwiękowej. Jest więc tylko metodą uprzestrzennienia stereofonii. Drugi pomysł 40

41 Scheibera z 1967 r. opierał się na umieszczeniu pary głośników z przodu słuchacza (jak w typowym układnie stereo) oraz dodaniu drugiej pary, z tyłu słuchacza. Rys Ustawienie głośników w systemie kwadrofonicznym. Żółtym kolorem zaznaczono pole odsłuchu (tzw. sweet spot) (źródło: Wielką różnicą (oprócz ustawienia głośników), w porównaniu do poprzedniego pomysłu, było zakodowanie 4 kanałów audio na dwóch kanałach przesyłowych (4-2-4), dekodowanych i odtwarzanych potem na czterech głośnikach, co pozwoliło na użycie dotychczas istniejących mediów, nadających w stereo, do transmisji dźwięku kwadrofonicznego. Taki system został nazwany matrycowym. W oparciu o ten pomysł, w 1969 r. japońska firma Sansui opracowała system matrycowy QS (Quadrophonic Sound) różniący się nieznacznie parametrami kodowania. Tab. 2.1 Matryca kodowania QS, gdzie ±j oznacza przesunięcie sygnału w fazie o 90 Matryca kodowania QS Lewy przód (Lf) Prawy przód (Rf) Lewy tył (Lb) Prawy tył (Rb) Lewy kanał stereo 0,92 0,38 +j0,92 +j0,38 Prawy kanał stereo 0,38 0,92 -j0,38 -j0,92 Takie ustawienie powodowało duże przesłuchy między sąsiednimi kanałami (np. dźwięk odtwarzany w przednim lewym głośniku pojawiał się również w przednim prawym oraz tylnym lewym cichszy o kilka decybeli). Utrudniało to lokalizację pozornego źródła dźwięku, co było szczególnie dokuczliwe na osi prawa - lewa. Niewiele później CBS Columbia razem z Sony wprowadzili system matrycowy SQ, który różnił się podejściem do kodowania od QS głównie poprzez całkowitą izolację na 41

42 osi prawa lewa. Tab. 2.2 Matryca kodowania SQ, gdzie ±j oznacza przesunięcie sygnału w fazie o 90 Matryca kodowania SQ Lewy przód (Lf) Prawy przód (Rf) Lewy tył (Lb) Prawy tył (Rb) Lewy kanał stereo 1 0 0,7 -j0,7 Prawy kanał stereo 0 1 -j0,7 0,7 Równocześnie pojawił się też trzeci, dyskretny system kwadrofonii radiowej (4-4-4), w którym (wykorzystując pomysł radiowej transmisji stereofonicznej) w paśmie częstotliwości od 20Hz do 15kHz przesyłano sumę kanału lewego przedniego (Lf) i tylnego (Lb) jako lewy kanał stereofoniczny, a sumę prawego przedniego (Rf) i tylnego (Rb) jako prawy kanał stereofoniczny. Na wyższych częstotliwościach zakodowano sygnały różnicowe, odpowiednio dla lewego - w lewym i dla prawego- w prawym kanale stereofonicznym. Kanały były dekodowane w następujący sposób: (Lf+Lb)+(Lf-Lb)=2 Lf (Lf+Lb)-(Lf-Lb)=2 Lb (Rf+Rb)+(Rf-Rb)=2 Rf (Rf+Rb)-(Rf-Rb)=2 Rb Tak zakodowany sygnał mógł więc przenieść cztery osobne kanały za pośrednictwem radia stereofonicznego. Potrzebował jednak prawie dwukrotnie szerszego pasma niż zwykły sygnał stereofoniczny, co było problematyczne dla transmisji radiowej. Cechował się jednak brakiem jakichkolwiek przesłuchów z uwagi na przesyłanie każdego z kanałów osobno, przez co był reklamowany przez twórców jako jedyny prawdziwy system kwadrofoniczny [20]. Technologia kwadrofoniczna oprócz wykorzystania w studiach nagrań, transmisjach radiowych czy w filmie, była stosowana przez zespoły muzyczne do tworzenia efektów specjalnych w trakcie koncertów. Muzycy grupy Pink Floyd korzystali ze specjalnego urządzenia Azimuth Co-ordinator, za pomocą którego operowali na żywo umieszczeniem pozornego źródła dźwięku w sali koncertowej - było to pierwsze urządzenie służące do panoramowania dźwięku kwadrofonicznego [21]. W wyniku istnienia wielu konkurencyjnych 42

43 rozwiązań, z których każde potrzebowało osobnego dekodera i technologii przesyłu, wywiązała się walka marketingowa, która ostatecznie uniemożliwiła ustalenie jednego standardu dla dźwięku kwadrofonicznego. Doprowadziło to do zniechęcenia konsumentów do nowej technologii i ostatecznego upadku kwadrofonii. Jednak to rozwiązanie i pomysły odnośnie sposobu kodowania matrycowego i użycia większej ilości głośników, dało początek prawdziwemu rozwojowi dźwięku przestrzennego szczególnie w kinematografii Dźwięk przestrzenny matrycowy W niniejszym podrozdziale zostaną przedstawione rozwiązania wprowadzane przez firmę Dolby z uwagi na największą popularność w zastosowaniach kina domowego oraz w samej kinematografii. Konkurencyjne firmy stosują podobne rozwiązania, toteż ich opis w tym miejscu wydaje się bezcelowy. Systemy Dolby są w większości systemami matrycowymi (kodują na ścieżce stereo większą liczbę kanałów), dzięki czemu pozwalają na oszczędność przepustowości nośników, czy strumieni audio co jest istotne w przypadku transmisji dźwięku [22]. Dolby Stereo System Dolby Stereo został wprowadzony w latach 70. do użytku kinowego. Jego idea opierała się na pomyśle znanym z matrycowej kwadrofonii, czyli zakodowaniu na ścieżce stereo dźwięku dookólnego, który mógł zostać następnie rozkodowany do czterech kanałów. Jedną z kilku istotnych różnic było rozmieszczenie głośników. Do standardowych, rozłożonych stereofonicznie, dodano jeden monofoniczny kanał surround oraz głośnik centralny, co pomogło umieścić głos lektora precyzyjnie pośrodku ekranu. Sam sposób kodowania jest bazowany na systemie kwadrofonicznym SQ. Tab. 2.3 Matryca kodowania Dolby Stereo, gdzie ±j oznacza przesunięcie sygnału w fazie o 90 43

44 Matryca Dolby Stereo Lewy kanał (L) Prawy kanał (R) Centralny (C) Lewy (Lt) Prawy (Rt) 2 2 Surround (S) +j j 2 Głośnik centralny (C) miał doprowadzony sygnał sumaryczny Lt+Rt, kanał lewy (L) i prawy (R), odpowiadał dokładnie kanałom Lt i Rt, a kanał surround (S) był dekodowany jako sygnał różnicowy Lt-Rt. Dużą zaletą tego systemu była kompatybilność wsteczna - ścieżka Dolby Stereo mogła zostać odtworzona w kinach wyposażonych w dekodery i system Dolby Surround, oraz posiadających jedynie stereofoniczne systemy głośnikowe. Również i w tym przypadku, podobnie jak w systemach kwadrofonii matrycowej, pojawił się problem wysokich przesłuchów międzykanałowych (choć zachowano całkowitą separację na osi prawo - lewo, oraz przód - tył) rzędu 3dB. W systemie Dolby Stereo zastosowano jednak kilka rozwiązań pozwalających w dużym stopniu zlikwidować występujące przesłuchy. Jednym z nich było zastosowanie układu logicznego, który wykrywał kanał posiadający najwyższy poziom sygnału i tłumił ten sygnał w dwóch sąsiednich kanałach. Dodatkowo kanał surround miał możliwość regulacji opóźnienia sygnału aż do 100 ms (wartość ustawiana była w zależności od rozmiarów pomieszczenia odsłuchowego), która zapewniała wcześniejsze dotarcie sygnału audio do uszu słuchacza z głośników L oraz R, co zgodnie z efektem precedensu pozwalało na lokalizację źródła dźwięku z kierunku z którego dźwięk dotarł wcześniej, a ostatecznie w efekcie wrażenie większej separacji kanałów przednich od kanału surround. System szybko odniósł sukces (szczególnie po wydaniu Gwiezdnych Wojen z systemem Dolby Stereo) i właściciele kin zaczęli przystosowywać swoje sale do odtwarzania dźwięku Dolby Stereo. Dolby Surround Pro Logic Sukces systemu Dolby Stereo skłonił firmę do wprowadzenia konsumenckiej wersji systemu dla zastosowań domowych - Dolby Surround. System ten pozwalał posiadaczom filmów wydanych na nośnikach VHS na odsłuch dźwięku przestrzennego we własnym domu. Oryginalny system Dolby Surround składa się z trzech głośników 44

45 pary stereo oraz tylnego monofonicznego kanału surround. Ze względu na chęć obcięcia kosztów produkcji dekoderów do zastosowań domowych, oprócz głośnika centralnego, zrezygnowano z układu logicznego sterującego poziomem przesłuchów pozostawiając jednak linię opóźniającą. Rys Schemat działania dekodera Dolby Surround (źródło: Dla kanału surround zastosowano również filtr dolnoprzepustowy z częstotliwością odcięcia 7kHz oraz zmodyfikowany system redukcji szumów Dolby B. Tworzenie sceny dźwiękowej i pozornych źródeł dźwięku odbywa się identycznie jak w stereofonii za pomocą dwóch przednich głośników. Powyższy schemat działania dekodera jest podobny w dalszych modyfikacjach systemu [23]. Rozwinięciem systemu Dolby Surround jest Dolby Surround Pro Logic, który potrafi dekodować sygnał do czterech kanałów dodając w wyniku głośnik centralny, przez co system działa na podobnej zasadzie co Dolby Stereo. Posiada on również układ logiczny znany z Dolby Stereo. Następne rozwinięcie systemu, czyli Dolby Pro Logic II wprowadzony w 2000 r. pozwalał na zdekodowanie dźwięku do systemu 5.1. Tab. 2.4 Matryca kodowania Dolby Pro Logic II, gdzie ±j oznacza przesunięcie sygnału w fazie o 90 Matryca Dolby Pro Logic II Lewy (Lt) Prawy (Rt) Lewy kanał (Lf) Prawy kanał (Rf) Centralny (C) Lewy tył (Lb) Prawy tył (Rb) j 5 6 j j 6 5 +j 19 5

46 Dolby Pro Logic IIx oraz Dolby Pro Logic IIz wprowadzone później, pozwalają na zdekodowanie dźwięku do systemu odpowiednio 7.1 i Dźwięk przestrzenny dyskretny i systemy wielogłośnikowe Dyskretne systemy dźwięku przestrzennego opierają się na zasadzie zapisu lub transmisji wszystkich kanałów osobno. Takie rozwiązanie niewątpliwie ma swoje zalety, szczególnie jeśli chodzi o jakość dźwięku, brak przesłuchów oraz brak konieczności stosowania jakichkolwiek dekoderów. Z drugiej strony jednak, przy zapisie dźwięku dyskretnego, system będzie zawsze potrzebował więcej przestrzeni dyskowej niż analogiczny system matrycowy. Formatem dźwięku przestrzennego jest np. Dolby Digital. Obecnie system 5.1 jest najpopularniejszym systemem w zastosowaniach kina domowego. Za pomocą tego ustawienia można odtworzyć dźwięk w systemie zarówno dyskretnym Dolby Digital, jak i dźwięk matrycowy, np. Dolby Pro Logic II. W stosunku do konfiguracji kwadrofonicznej, przez dodanie centralnego głośnika, zdecydowanie poprawiona jest stabilność obrazu audio. Głośniki odtwarzające kanał lewy i prawy, również w przeciwieństwie do kwadrofonii, są ustawione jak para głośników stereofonicznych czyli na trójkącie równobocznym. Kanały tylne (czyli surroundowe) ustawione są z tyłu słuchacza po bokach. Całe ustawienie systemu 5.1 opisane jest w normie ITU-R BS 775. Kolejnym nowatorstwem w stosunku do poprzednich systemów wielogłośnikowych jest użycie kanału efektowego, tzw. kanału LFE. Kanał LFEXIV mający swoje pierwotne zastosowanie w kinie, służy do odtwarzania niskoczęstotliwościowych efektów dźwiękowych i najczęściej odtwarzany jest przez subwoofer, czyli głośnik niskotonowy z wbudowanym wzmacniaczem (dla głośnika aktywnego) i filtrem dolnoprzepustowym (20 Hz 200 Hz dla zastosowań konsumenckich oraz ok. 20 Hz 80 Hz dla zastosowań kinowych). Może również służyć do przenoszenia niskich częstotliwości z pozostałych kanałów w przypadku, gdy głośniki dookólne, ze względu na swoje ograniczenia fizyczne, nie są w stanie odtworzyć najniższych częstotliwości. Kanał LFE nie ma wpływu na odbiór wrażeń przestrzennych z uwagi na niemożność lokalizacji tak niskich częstotliwości przez ludzkie ucho (fala o częstotliwości 50 Hz ma długość ok. 6,7 m). Z tego względu też, XIV Low Frequency Enhancement 46

47 umieszczenie subwoofera względem słuchacza nie ma wpływu na odczuwane wrażenia przestrzenne. Techniki dyskretne praktycznie w całości opierają się na zapisie cyfrowym dźwięku, dlatego główne różnice między systemami dyskretnymi Dolby czy innymi polegają na liczbie kanałów, za pomocą których dokonuje się reprodukcji dźwięku oraz na użytych kodekach pozwalających zmniejszyć ilość informacji potrzebną do zakodowania sygnału audio. Najczęściej są to kodeki stratne, pozwalające na większą oszczędność danych, jednak zawsze przy spadku jakości dźwięku. Kolejne modyfikacje systemu 5.1 polegają na dodawaniu kolejnych głośników pozwalających na dokładniejsze odwzorowanie przestrzeni. W systemie 9.1 dodane są głośniki powyżej głowy słuchacza, umożliwiające percepcję dźwięku również w płaszczyźnie pionowej. Ostatnio najnowszym rozwijanym systemem jest 22.2, pozwalający na odtworzenie 22 niezależnych kanałów (również poniżej i powyżej wysokości położenia ludzkiego ucha) z użyciem dwóch niezależnych kanałów efektowych LFE. System ten powiązany jest z UHDTV czyli standardem wyświetlania obrazu o ultra wysokiej rozdzielczości 8K ( pikseli w formacie 16:9). Wprowadzenie tej technologii planowane jest na rok Sposoby transmisji dźwięku przestrzennego 3.1 Przykładowe media transmisji dźwięku przestrzennego Istnieje wiele popularnych mediów w większości internetowych pozwalających na transmisję dźwięku przestrzennego. Najczęściej jest to zwykła stereofonia, choć istnieją wyjątki. Najpopularniejsza witryna pozwalająca na przesyłanie filmów wraz z dźwiękiem, czyli YouTube nie udostępnia możliwości wgrania filmu zawierającego więcej niż dwa kanały audio (nie ma jednak przeszkód, aby przesłać film zawierający w dwóch kanałach zakodowaną większą ilość kanałów np. Dolby Pro Logic). Nie jest to jednak ograniczenie wprowadzone przez YouTube, tylko przez używaną przez nich technologię Flash ograniczoną w swojej specyfikacji jedynie do dwóch kanałów. Jednak stosowany ostatnio standard, zdobywający coraz więcej zwolenników, czyli HTML5, wprowadza obsługę dowolnej ilości kanałów [24] także popularnego w kinie domowym systemu 5.1. Obecnie również wszystkie produkty firmy Apple całkowicie przestały wspierać technologię Flash. Pozwala to mieć nadzieję na szybkie 47

48 pojawienie się możliwości transmisji dowolnego formatu dźwięku przestrzennego na stronach typu YouTube czy Vimeo. Popularne ostatnio serwisy, takie jak Spotify czy Deezer, pozwalają na odtworzenie utworów praktycznie wszystkich popularnych wykonawców, a dzięki aplikacjom mobilnym na system Android i dostępności mobilnego internetu, pozwalają na dostęp do utworów praktycznie w dowolnym miejscu, gdzie jest dostęp do sieci komórkowej. Jednak również i te strony korzystają z odtwarzaczy stworzonych w technologii Flash, co implikuje podobne problemy jak w przypadku serwisu YouTube. Duże możliwości w kierunku transmisji dźwięku przestrzennego mają radia internetowe. Istnieją już radia nadające program w dyskretnym systemie sześciokanałowym 5.1 [25]. Dźwięk najczęściej jest wtedy zakodowany za pomocą kodeków AAC+ przetestowanych w niniejszej pracy. Pozwalają one na zachowanie przyzwoitej jakości dźwięku nawet przy przepustowości 32kbit/s/kanał. Także Polskie Radio nadaje sporadycznie audycje w 5.1 zakodowane w technologii Dolby Pro Logic, czyli sześć kanałów przesyłane za pomocą dwóch kanałów [26]. Słuchanie takich audycji wymaga jednak oczywiście posiadania zestawu 5.1, a w przypadku dźwięku matrycowego Dolby również dekodera Dolby, co może być dość kosztowne. Również w krakowskim Studenckim Radiu17 rozważane jest zastosowanie technologii binauralnej do transmisji niektórych audycji. Pozwoli to na odbiór realistycznych wrażeń przestrzennych przy użyciu jedynie słuchawek. Do niedawna poważnym ograniczeniem były standardy analogowego przesyłu informacji w dwóch kanałach i mała popularność dźwięku przestrzennego. Jednak wraz z rozwojem cyfrowych mediów i wzrostem popularności technik przestrzennych, wydaje się, że ilość mediów pozwalających na transmisje dźwięku przestrzennego będzie stale rosła. 3.2 Stratne kodeki i modelowanie psychoakustyczne W przypadku transmisji internetowych w czasie rzeczywistym, z powodu ograniczeń przepustowości łącz, nie jest przyjęte stosowanie formatów bezstratnych. W najlepszym wypadku pozwalają one na redukcję ilości przesyłanych danych o ok. połowę. Możliwy do uzyskania stopień kompresji zależy od zawartości sygnału. Przykładowo im jest on bardziej szumowy, a zawiera mniej składowych tonalnych, o 48

49 wysokiej autokorelacji, tym trudniej uzyskać wysoką kompresję. Z tego powodu bardzo trudno również byłoby otrzymać strumień bezstratny o stałej przepływności bitowej. Z wymienionych powyżej przyczyn do przesyłania dźwięku przez internet stosuje się już od lat przeważnie kodeki stratne. Ich zasada działania opiera się na korzystaniu z niedoskonałości ludzkiego słuchu możliwości, jakie daje m. in. maskowanie w dziedzinie częstotliwości i czasu. Koduje się też z różną precyzją poszczególne pasma, a także ogranicza zakres częstotliwości. Dokładniej algorytmy te zostaną przedstawione w dalszej części pracy. O ile w przypadku sygnałów mowy, możemy uzyskać bardzo skuteczną kompresję modelując źródło dźwięku, czyli trakt głosowy, nie ma to sensu dla muzyki czy jakichkolwiek innych dźwięków. Nie będziemy się więc skupiać tutaj na algorytmach kompresji mowy, używanych np. w technologiach VoIP lub nowoczesnych systemach telefonii komórkowej. Niemożliwe byłoby opracowanie skutecznego sposobu ograniczenia ilości danych potrzebnych do zapisania dźwięku bez znajomości sposobu działania ludzkiego słuchu. Dzięki wytworzeniu odpowiedniego modelu tego zmysłu, jesteśmy w stanie określić, w jaki sposób można zmienić sygnał, żeby nie było to zauważalne dla odbiorcy - lub też było dla niego mało uciążliwe Rozpoznawanie częstotliwości Ucho ludzkie jest organem bardzo złożonym, jednak dla potrzeb tej pracy jego działanie zostanie przedstawione bardzo ogólnie. Najistotniejszym podzespołem z punktu widzenia kodowania dźwięku jest ślimak, znajdujący się w uchu wewnętrznym. To on jest elementem dokonującym analizy częstotliwościowej odbieranego dźwięku oraz miejscem, gdzie drgania mechaniczne są zamieniane na impulsy nerwowe. Zrozumienie sposobu funkcjonowania tego organu jest kluczowe dla modelowania działania słuchu. W ślimaku znajduje się błona podstawna przylegająca do organu Cortiego. Błona wzdłuż ślimaka zmienia swoje naprężenie oraz szerokość, co związane jest ze zmianą częstotliwości rezonansowej. Dlatego też w zależności od częstotliwości, którą błona zostanie pobudzona, różne jej punkty będą miały większą lub mniejszą amplitudę drgań. Pod wpływem częstotliwości najwyższych błona drgać będzie tak, że 49

50 maksymalne wychylenia będą występować w pobliżu okienka owalnego tam, gdzie jest ona najwęższa i najbardziej napięta. Natomiast częstotliwości niskie będą powodować większe pobudzenie na drugim końcu. Aparat Cortiego przylegający do błony na całej jej długości pełni funkcję receptora w nim odbywa się zamiana pobudzenia mechanicznego na impulsy nerwowe. Błona podstawna w danym miejscu zachowuje się jak filtr pasmowoprzepustowy o częstotliwości środkowej zmieniającej się wzdłuż ślimaka. Działanie narządu słuchu i ucha wewnętrznego jest ogromnie skomplikowane, a to jedynie skrótowy opis pozwalający zrozumieć podstawową jego zasadę działania. rys. 3.1 Uproszczony rysunek przedstawiający błonę podstawną. źródło: W wypadku wzroku, węchu, smaku czy innych zmysłów, aby bodziec mógł zostać zauważony, jego wartość musi przekroczyć pewien próg. Identycznie jest w wypadku słuchu. By dźwięk mógł być usłyszany, musi przekroczyć pewien poziom ciśnienia akustycznego wartość ta zmienia się wraz z częstotliwością. Warto podkreślić, że przytaczane tutaj liczby to tylko przyjęta norma progi słyszenia, czy zakres słyszalnych częstotliwości jest inny dla każdego człowieka i zmienia się z wiekiem. 50

51 Ucho wykazuje największą czułość dla częstotliwości 2-4 khz. Przyjęło się, że za 0 db uznaje się SPLI 20 μpa jest to próg słyszenia dla częstotliwości 2 khz.[27]. SPL=10 log p2 p 20 (3.1) gdzie: p chwilowe ciśnienie akustyczne p0 ciśnienie odniesienia: Pa Wraz z częstotliwością zmienia się poziom ciśnienia akustycznego konieczny do percepcji dźwięku, a także subiektywne odczucie głośności dla poziomów nawet znacznie powyżej progu słyszenia. Ilustracją tej zależności są tzw. krzywe izofoniczne przedstawione na rysunku 3.2. Rys. 3.2 Krzywe równomiernego poziomu głośności (izofony) źródło: Jeśli przyjmiemy, że błona podstawna działa jak zespół mechanicznych filtrów I SPL poziom ciśnienia akustycznego, ang. sound pressure level 51

52 pasmowoprzepustowych, rozpatrując dany jej punkt dojdziemy do wniosku, że będzie on reagował nie tylko na pobudzenie o częstotliwości odpowiadającej częstotliwości środkowej filtru, ale także na dźwięki nieco niższe i wyższe. Z kolei, kiedy błona podstawna zostanie pobudzona jakimś tonem, drgać będzie nie tylko jeden jej punkt, ale też obszar z nim sąsiadujący. Żaden filtr nie ma nieskończenie stromej charakterystyki. Koncepcja ta nosi nazwę modelu filtrów słuchowych i ściśle wiąże się z pojęciem pasm krytycznych i efektem maskowania częstotliwościowego Maskowanie w dziedzinie częstotliwości i czasu Kiedy obok tonu, pojawi się równocześnie inny dźwięk o częstotliwości niewiele większej lub mniejszej, nie spowoduje on istotnie większego wychylenia błony podstawnej w miejscu odpowiadającym jego częstotliwości i nie zostanie zarejestrowany przez zmysł słuchu. Taki efekt nosi nazwę maskowania częstotliwościowego. Okazuje się, że nie występuje on jedynie, gdy sygnał maskujący i maskowany docierają do ucha równocześnie, ale również, kiedy dźwięk głośniejszy kończy się przed pojawieniem się maskowanego (nawet do 200 ms). Błona podstawna po pobudzeniu w danym miejscu, drga jeszcze przez ułamki sekund mechanizm zjawiska jest więc podobny jak w przypadku maskowania równoczesnego. Zaobserwowano również, że dźwięk maskujący może pojawić się nawet po maskowanym (pre-maskowanie), choć w znacznie mniejszym odstępie czasu (kilkanaście milisekund), niż w sytuacji odwrotnej. [28] Efekt ten wyjaśnia się tym, że dźwięki głośniejsze są przez układ nerwowy przetwarzane nieco szybciej, niż cichsze. 52

53 Rys 3.3 Maskowanie równoczesne w częstotliwości Rys. 3.4 Maskowanie nierównoczesne w funkcji czasu. Z koncepcją filtrów słuchowych i maskowaniem silnie wiąże się pojęcie pasm krytycznych. Załóżmy istnienie dwóch sygnałów. Jeden to ton prosty, a drugi to wąskopasmowy (środkiem pasma jest częstotliwość tonu) szum o stałej widmowej gęstości energii. Założenie to jest istotne, bo w takiej sytuacji, poszerzając pasmo szumu, zwiększamy również jego energię. Powyżej pewnej różnicy głośności, ton będzie przez szum maskowany. Okazuje się jednak, że jeśli stopniowo będziemy zwiększać pasmo szumu (tym samym też jego energię), próg maskowania tonu będzie 53

54 rósł, ale tylko do pewnego momentu. próg sygnału SPL [db] szerokość pasma szumu [Hz] Rys. 3.5 Próg słyszenia sygału tonalnego o częstotliwości 2 khz w funkcji szerokości pasma maskujacego szumu o cz. środkowej 2 khz [29] Pojęcie pasma krytycznego (nazywanego też wstęgą krytyczną) jest jednym z kluczowych w psychoakustyce. Nie jest związane bezpośrednio z rozdzielczością częstotliwościową słuchu, która jest znacznie większa od szerokości pasm krytycznych, a raczej ze zjawiskiem maskowania. Jego zrozumienie jest konieczne do prawidłowego zaprojektowania algorytmu stratnej kompresji dźwięku. Okazuje się, że przy rozpatrywaniu maskowania dla obojga uszu, sytuacja jest nieco bardziej skomplikowana, a sygnały do nich docierające wpływają na siebie wzajemnie, zmieniając próg maskowania. Jest to zjawisko, którego nie można pominąć, analizując stratne kodowanie dźwięku wielokanałowego. W warunkach naturalnych bodziec i masker docierają do obojga uszu w innej fazie i innych proporcjach. Mózg, mając dodatkowe informacje, jest w stanie lepiej poradzić sobie z odfiltrowaniem zakłóceń. Interesujące jest zwłaszcza wykorzystanie tego efektu przy odtwarzaniu na słuchawkach. Przykładowo, gdyby do jednego ucha przez słuchawki podawać szum wraz z zamaskowanym przez niego tonem (np. 3 db poniżej progu maskowania), to po doprowadzeniu do drugiego ucha identycznego (całkowicie skorelowanego) szumu, ton w drugim uchu stanie się słyszalny. W ten sposób próg maskowania można obniżyć nawet o 9 db. Tę wartość nazywa się różnicą poziomu maskowania (MLD, ang. 54

55 masking level difference) lub dwuuszną różnicą poziomu maskowania (BMLD, ang. binaural masking level difference). Tab. 3.1 Tabela przedstawiająca dwuuszne różnice poziomu maskowania. [27] + - faza zgodna, - - faza przeciwna, 0 - brak sygnału ucho lewe ucho prawe wartość dwuusznej różnicy poziomu maskowania [db] faza tonu faza szumu faza tonu faza szumu nieskorelowany od -3 do Powyższa tabela pokazuje, w jaki sposób pojawienie się odpowiednich sygnałów w drugim uchu wpływa na zmianę progu maskowania tonu. Zjawisko to wykorzystuje się np. w kabinach pilotów, gdzie panuje duży hałas. Aby poprawić zrozumiałość mowy w słuchawkach, wystarczy, aby lewa i prawa były ze sobą w przeciwnych fazach. Jak można wyczytać z tabeli, w takiej sytuacji próg maskowania powinien zmniejszyć się aż o 15 db. Badania wykazują, że zjawisko dwuusznego odmaskowania zachodzi w pasmach o szerokości zbliżonej do szerokości pasm krytycznych.[27] Barkowa skala częstotliwości Tak jak i głośność, częstotliwość jest przez zmysł słuchu postrzegana w skali logarytmicznej zgodnie z prawem Webera-FechneraII. W podobny sposób odbieramy wszystkie bodźce, również te wzrokowe, temperaturowe czy węchowe. Barkowa skala częstotliwości została tak stworzona, aby dobrze odwzorować tę zależność, łącząc to z charakterystyką pasm krytycznych. Jej wykorzystanie znacznie ułatwia analizy II Zgodnie z prawem Webera-Fechnera, opisujące związek między fizyczną wielkością bodźca, a odczuwaniem jego zmiany. Oryginalnie brzmiało: Jeśli porównywane są wielkości bodźców, na naszą percepcję oddziałuje nie arytmetyczna różnica pomiędzy nimi, lecz stosunek porównywanych wielkości". 55

56 sygnałów pod względem percepcji. Przekształcenie ze skali Hz na skalę Bark opisane jest wzorem: b=13arctan(0,00076 f )+ 3,5 arctan 2 ( ) f 7500 (3.2) gdzie: b częstotliwosć w skali Bark f częstotliwość w hercach Rys. 3.6 Barkowa skala częstotliwości W Modele psychoakustyczne standardu MPEG-1 standardzie MPEG-1 zawarto dwa algorytmy uwzględniające zjawisko maskowania. Pierwszy z nich, używany w formatach MP1 oraz MP2 jest dokładniejszy, ale wymaga większej ilości obliczeń. Drugi z nich, zajmujący nieco mniej mocy procesora, używany jest w kompresji w wersji MP3. Formaty MP1 oraz MP2 są obecnie używane wyjątkowo rzadko, dlatego dokładniej przedstawiony zostanie algorytm drugi. W tej konwencji do określenia progu maskowania i wybrania niesłyszalnych składowych widma, modeluje się sumaryczne wychylenia błony podstawnej. Pobudzenie w danym miejscu jest obliczane jako superpozycja pobudzeń pochodząca 56

57 od wszystkich składowych częstotliwości - im bardziej różniących się od tej dla danego punktu charakterystycznej, tym mniej wpływających na jego drgania. B( Δ b)=15,81+7,5( Δ b+ 0,474) 17,5 (1+( Δ b+0,474)2) (3.3) gdzie: B [db] - względny rozkład pobudzenia błony podstawnej pochodzącego od pojedynczego tonu Δb odległość w częstotliwości w skali Bark (rozumiana jako odległość punktów na błonie podstawnej) Tab. 3.2 Granice pasm krytycznych dla całkowitych wartości k. Warto tu przypomnieć, że pasmo krytyczne jest tylko przedziałem częstotliwości i może być dla dowolnych, ciągłych wartości k. nr pasma f [Hz] nr pasma f [Hz] nr pasma f [Hz] nr pasma f [Hz]

58 Rys. 3.7: Rozkład pobudzenia błony podstawnej w reakcji na ton Funkcja B określana jest mianem funkcji rozszerzającej opisuje działanie pobudzenia na odbiór dźwięków w sąsiednich pasmach krytycznych. W skali Barkowej wychylenie błony podstawnej oraz krzywe maskowania pochodzące od tonu, można opisać funkcjami [28] S 1 (k )=31 S 2 ( k )=22+min ( ) 0,23,10 0,2 E db ( k ) f khz gdzie: S1(k) tgα1 S2(k) tgα2 fkhz częstotliwość w khz EdB poziom pobudzenia 58 (3.4)

59 Rys. 3.8 Przedstawienie efektu maskowania częstotliwościowego T(k) próg maskowania Różnicę pomiędzy progiem maskowania a poziomem pobudzenia opisuje zależność: O( k )=α (k )(14,5+k )+(1 α (k )) β (k ) (3.5) gdzie: α(k) indeks tonalności β(k) indeks maskowania w k-tym paśmie krytycznym (często przyjmuje się wartość 5,5) α (k )=min ( SFM ( k )/SFM max, 1 ), SFM MAX = 60 db β (k )=2+2,05 arctg (0,25 f khz )+0,75 arctg ( ) f 2kHz 2,56 (3.6) gdzie: SFM miara płaskości widmowej (ang. spectral flatness measure) ( ) 1/ N k ( ) Nk 2 k X (l) SFM (k )=10 log l =1 Nk 2 1 X ( l) N k l=1 k (3.7)

60 gdzie: Xk(l) l-ty prążek transformaty Fouriera iloczynu sygnału i funkcji okna, leżący w k-tym paśmie krytycznym Nk ilość prążków w k-tym paśmie krytycznym Podane powyżej zależności i liczby nie opisują oczywiście w sposób idealny zachowania ludzkiego słuchu, a są jedynie przybliżeniem stosowanym podczas kompresji MP3. I chociaż podczas przeprowadzanych później testów nie sprawdzano tego algorytmu jest on swego rodzaju standardem i punktem wyjścia dla tworzonych obecnie kodeków. Podano tutaj zarys kryteriów, którymi kieruje się on w czasie kompresji sygnału i które pozwalają na usunięcie jego niesłyszalnych składowych. W zależności od danych dostarczonych przez analizę sygnału pod względem psychoakustycznym, sygnał jest z różnymi parametrami (jak choćby długość i kształt okna) dekorelowany za pomocą MDCTIII IVoraz kwantowany Porównanie użytych w testach kodeków W ramach badań zdecydowano się przetestować trzy standardy stratnej kompresji danych: Ogg Vorbis, AAC+ (HE-AAC) stworzone przez Fraunhofer IIS oraz Opus. Dwa pierwsze to formaty o ugruntowanej już wśród użytkowników pozycji, stosowane do strumieniowania dźwięku przez wiele stacji radiowych, wykorzystywane również do jego zapisywania w skompresowanych filmach. Ogg Vorbis Ogg Vorbis to kodek służący do stratnej kompresji dźwięku, wydany na licencji BSD (biblioteki), narzędzia są objęte licencją GNU GPL. Jest to więc standard nieopatentowany, całkowicie darmowy zarówno w przypadku użycia prywatnego jak i komercyjnego. Obsługuje do 255 kanałów w rozdzielczości 16 bitów oraz częstotliwości próbkowania od 8 do 48 khz.[30] III MDCT zmodyfikowana dyskretna transformacja kosinusowa. Jest to wersja DCT analizująca fragmenty sygnału w oknach zachodzących na siebie (zakładkowanie). Pozwala to na zmniejszenie niepożądanych efektów występujących na brzegach kompresowanych ramek sygnału. IV DCT dyskretna transformacja kosinusowa. Jest jedną z najpopularniejszych transformacji służących dekorelacji danych, stosowaną często w stratnej ich kompresji (np. JPG) 60

61 Choć pracowano nad nim już od 1993 roku, prace przyspieszyły pięć lat później, kiedy Towarzystwo Fraunhofera ogłosiło plany wprowadzenia opłat licencyjnych za używanie formatu MP3. Do projektu zainicjowanego przez Chrisa Montgomerry'ego, twórcę fundacji Xiph.org, przyłączyło się wielu programistów. Pierwszą stabilną wersję wydano 19 lipca Vorbis jest algorytmem zaprojektowanym do kodowania ze zmienną przepływnością bitową, a stałym parametrem ma być jakość dźwięku, zdefiniowana jako q (w zakresie od -1 do 10, z krokiem co 0,1). Tab. 3.3 Nominalne wartości przepływności bitowych w zależności od parametru q dla kodeka Ogg Vorbis q nominalna przepływność bitowa dla 2 kanałów (rzeczywista zależy od parametrów sygnału) -q-1 45 kbps -q0 64 kbps -q1 80 kbps -q2 96 kbps -q3 112 kbps -q4 128 kbps -q5 160 kbps -q6 192 kbps -q7 224 kbps -q8 256 kbps -q9 320 kbps -q kbps Dekodowanie tego formatu wymaga nieco więcej zasobów niż MP3 może to w urządzeniach mobilnych ograniczać nieco maksymalny czas pracy bez ładowania. Podobnie jednak jak algorytm MP3 wykorzystuje MDCT, modelowanie maskowania i zmienne długości ramek. Stosuje się jednak kwantyzację wektorową oraz dwa poziomy analizy widmowej najpierw tworzy się zgrubnie opisujący ramkę w dziedzinie częstotliwości floor, a następnie residue o wyższej rozdzielczości.[31]. 61

62 Do kompresji kanałów sparowanych (np. w wypadku stereofonii) zgodnie ze specyfikacją - enkoder może używać algorytmu square polar mapping [32] (określa się fazę stereo - kierunek, z którego ma pochodzić dźwięk), który pozwala na wysoką kompresję przy silnej korelacji kanałów. Para kanałów może być po tej analizie skompresowana stratnie bądź bezstratnie wtedy po zdekodowaniu wynik będzie identyczny z kanałami traktowanymi oddzielnie. Dla niższych przepływności bitowych zapisuje się jedynie różnicę poziomów między kanałami, tracąc informację o fazie. Dokładna specyfikacja kodeka Ogg Vorbis znajduje się w Vorbis I Specification [33]. AAC+ (HE-AAC ang. high efficiency advanced audio coding) AAC (advaned audio coding) to standard opisujący zespół algorytmów służących do stratnej kompresji dźwięku. Był projektowany jako następca MP3 dużo bardziej od niego złożony i oferujący lepszą jakość dźwięku przy wyższym stopniu kompresji. Został opublikowany w 1997 roku. Zgodnie ze specyfikacją, dźwięk może być przetwarzany przy użyciu wielu różnych algorytmów, o czym decyduje założony stopień kompresji, a także ilość obliczeń potrzebna do zakodowania bądź zdekodowania sygnału. Częścią standardu jest HE-AAC, nazywane również AAC+. Jest to zespół algorytmów używanych w celu zachowania wysokiej jakości dźwięku przy niższych przepływnościach bitowych. Dźwięk pozbawiony nieprzyjemnych dla słuchaczy zniekształceń można uzyskać nawet w wypadku 32 kb/s dla dwóch kanałów [34]. AAC, tak jak MP3, zmniejszenie ilości danych uzyskuje dzięki zastosowaniu transformacji MDCT, a następnie odpowiedniej kwantyzacji uzyskanych w ten sposób współczynników. Oprócz tej operacji wykonuje się jednak szereg przekształceń. Współczynniki są analizowane algorytmem predykcyjnym zarówno w dziedzinie czasu jak i w częstotliwości. Dzięki temu zamiast ich wartości bezwzględnej, można się posłużyć błędem predykcji. Sposób kwantyzacji (w miarę możliwości) dobierany jest tak, aby powstały w jej skutek szum był skupiony w częstotliwości wokół silnych dźwięków, które go zamaskują (TNS ang. temporal noise shaping). W przypadku szumów i transjentów, dla których algorytmy predykcyjne są znacznie mniej skuteczne, używane jest narzędzie PNS (ang. perceptual noise substitution) służące do parametrycznego kodowania szumu (zapisuje się jego obwiednię w częstotliwości). 62

63 Podczas późniejszej kwantyzacji wektorowejv współczynników MDCT używa się ustalonych książek kodowych. Ostatnim etapem jest kompresja bezstratna - jak w przypadku Ogg Vorbis - kodowanie entropijnevi. Ta część algorytmu nie ma już oczywiście wpływu na dźwięk. AAC+ definiowane jest dla przepływności od 128 kbps (na dwa kanały stereo) i niższych. W jego skład wchodzą kolejne narzędzia, służące parametrycznemu zapisowi dźwięku. Aby nie pozbywać się z sygnału wysokich częstotliwości, jak to się czyni dla silniejszej kompresji np. w przypadku MP3, stworzono narzędzie SBR (replikacyjne poszerzanie widma, ang. spectral band replication). Korzystając z tego, że często górna część widma jest skorelowana z częstotliwościami niższymi (z racji pojawiania się np. harmonicznych grających instrumentów), można ograniczyć ilość danych poprzez odtwarzanie tonów wysokich na podstawie dolnej części widma i zapisanych parametrów wzajemnie je wiążących. W AAC+ parametrycznie opisuje się również stereofonię [34]. Koduje się tu (tak jak w wypadku tradycyjnej metody MS) jeden sumaryczny kanał, zapisując dodatkowo zbiór parametrów (o zawartości zależnej od częstotliwości) pozwalających na odtworzenie stereofonii. Reprezentowane są: międzyuszna różnica poziomu, międzyuszna różnica fazy, sumaryczna różnica fazy oraz zgodność statystycznych parametrów pomiędzy kanałami (IC ang. interchannel coherence). Ta ostatnia właściwość związana jest z wzajemną korelacją kanałów, która im jest mniejsza, tym w odbiorze szersze wydaje się źródło dźwięku. Podczas dekodowania, na sygnale sumarycznym dokonuje się operacji skalowania i przesunięcia w fazie, natomiast statystyczne różnice międzykanałowe uzyskuje się poprzez dodanie w odpowiedniej proporcji splotu sygnału z szumem białym. Opus Opus to jeden z najnowocześniejszych standardów kompresji, który powstał z V kwantyzacja wektorowa -sposób kwantyzacji, gdzie nie poddaje się jej pojedynczych liczb, a co najmniej kilka wartości naraz. Kodowane są więc wektory danych. VI kodowanie entropijne- sposób bezstratnej kompresji danych, który przypisuje ciągi znaków o różnej długości symbolom, zależnie od prawdopodobieństwa ich wystąpienia. Im częściej dany symbol się pojawia, tym krótszy ciąg jest mu przypisywany. Typowym przykładem jest algorytm kodowania Huffmana. 63

64 połączenia dwóch algorytmów. Ma możliwość kodowania do 255 kanałów o częstotliwości próbkowania od 8 do 48 khz, zaś strumień wynikowy może mieć od 6 do 510 kbps (stereo). Założeniem było stworzenie standardu, który będzie efektywnym rozwiązaniem w kompresji mowy, przy bardzo niskich prędkościach bitowych, ale równie dobrze będzie się sprawdzał w przypadku kodowania wysokiej jakości dźwięku, również wielokanałowego. Z tego powodu zdecydowano się na połączenie i udoskonalenie dwóch istniejących już algorytmów. Pierwszy z nich to SILK, stworzony przez firmę Skype Technologies do kompresji sygnału mowy. Choć powstał jako standard zamknięty i płatny, obecnie jest dostępny na otwartej licencji. SILK to kodek oparty o LPC (predykcja liniowa ang. linear predictive coding). Metody predykcyjne, w połączeniu z modelowaniem traktu głosowego, są najskuteczniejszym narzędziem w wypadku kompresji mowy. Druga warstwa kodeka Opus oparta jest na CELT algorytmie stworzonym przez Xiph.org, tak jak AAC, MP3 i Vorbis, wykorzystującym transformację MDCT. Twórcom udało się jednak osiągnąć dużo niższą, niż w przypadku konkurentów latencjęvii przetwarzania, co ma znaczenie w wypadku aplikacji internetowych. Pierwsze wydanie pojawiło się w sierpniu Aktualna stabilna i użyta przez autorów tej pracy w testach wersja to 1.0.3, a obecną wersją beta, gdzie w enkoderze usprawniono m. in. mechanizmy odpowiedzialne za kodowanie dźwięku wielokanałowego to 1.1. VII latencja opóźnienie sygnału wynikające z czasu potrzebnego na jego przetworzenie 64

65 Rys. 3.9 Porównanie jakości dźwięku oferowanej przez najpopularniejsze istniejące kodeki. Ilustrację należy traktować bardzo zgrubnie pochodzi ze strony twórców kodeka Opus. źródło: Oprócz bardzo skutecznej kompresji dźwięku, standard ten ma wiele właściwości ułatwiających jego zastosowanie w strumieniowaniu danych przez internet. Przepływność bitowa może być zmieniana w dowolnym momencie, z krokiem co 0,1 kbps. Algorytm sam w zależności od zawartości sygnału (mowa lub inne dźwięki) i założonej liczby bitów na sekundę decyduje, czy użyć warstwy SILK czy CELT. W niektórych sytuacjach włączany jest tryb hybrydowy w takim przypadku częstotliwości do 8 khz są kodowane za pomocą SILK, a te powyżej przy użyciu CELT [35]. Kolejnym atutem jest możliwość zmiany złożoności obliczeniowej (oczywiście im mniejsza, tym niższa jakość dźwięku przy danym stopniu kompresji) oraz dodawania do strumienia danych pozwalających na korekcję błędów transmisji. 65

66 Rys Ilustracja pokazująca, jakich trybów może używać enkoder Opus. źródło: Opus definiuje również kilka trybów związanych z zakresem przenoszonych częstotliwości. Tab. 3.4 Częstotliwości próbkowania i tryby pracy kodeka Opus skrót górna efektywna zalecana granica częstotliwość przepływność bitowa pasma próbkowania rodzaj sygnału NB (narrowband 4 khz 8 khz 8-12 kbps mowa MB (medium-band) 6 khz 12 khz kbps mowa WB (wideband) 8 khz 16 khz kbps mowa SWB 12 khz 24 khz kbps mowa, (super-wideband) FB (fullband) muzyka monofonicznie 20 khz 48 khzviii kbps i więcej muzyka stereofonicznie Dokładna specyfikacja i opis Opusa znajduje się w Internet Engineering Task Force (IETF) Request for Comments: 6716 [35]. 3.3 Sposoby transmisji radiowej i ich ograniczenia Choć aktualnie tradycyjna radiofonia coraz częściej jest wypierana przez radia internetowe bądź innego rodzaju transmisje cyfrowe, w dalszym ciągu pozostaje w VIIIPasmo sygnału w czasie kodowania jest ograniczane do 20 khz, jednak domyślą częstotliwością próbkowania, do której dekodowane są pliki Opus fullband jest 48 khz. 66

67 codziennym użyciu głównie ze względu na rozpowszechnienie odbiorników AM Pierwszym stosowanym do transmisji radiowej sposobem modulacji była modulacja amplitudy. W tej sytuacji mamy do czynienia z falą nośną wysokiej częstotliwości, która jest wymnażana z transmitowanym sygnałem dźwiękowym. Przebieg sygnału po modulacji AM,w przypadku, gdy sygnał modulujący i nośny są sinusoidalne, można opisać wzorem: s AM (t)=ac (1+m sin ω m t) sin ω c t (3.8) gdzie: Ac amplituda niezmodulowanej fali nośnej m głębokość modulacji ωc częstość sygnału modulowanego ωm częstość sygnału modulującego Rys Ilustracja modulacji AM: a) przebieg modulujący sinusoidalny o fm=200 Hz i amplitudzie Um=0,5 b) przebieg modulowany sinusoidalny o fc=2 khz i amplitudzie Uc=1 c) sygnał zmodulowany d) widmo sygnału zmodulowanego 67

68 Zakres przenoszonych częstotliwości akustycznych przy modulacji AM jest ograniczony szerokością wstęgi, co jest związane z zajmowanym pasmem częstotliwości. Szerokość wstęgi jest definiowana jako różnica między częstotliwościami bocznymi. Przykładowo: jeśli fala nośna ma częstotliwość 200 khz i jest modulowana częstotliwością akustyczną 4 khz, zajmuje pasmo 8 khz, pomiędzy 196 khz a 204 khz. Taka zależność dość znacznie ogranicza niestety możliwości transmisji wysokiej jakości dźwięku o pełnym paśmie FM Obecnie w dalszym ciągu wiodącym sposobem transmisji radiowej jest modulacja częstotliwościowa FM (ang. frequency modulation) w paśmie UKF (od 30 MHz do 300 MHz). Dźwięk w ten sposób przesyłany ma znacznie wyższą jakość, niż w przypadku modulacji amplitudowej. W modulacji FM chwilowa wartość częstotliwości zmienia się liniowo z wartością sygnału modulującego. Sygnał zmodulowany częstotliwościowo możemy opisać wzorem: t s FM (t)= Ac sin[2 π f c t+ 2 π k f sm ( τ ) d τ ] (3.9) 0 gdzie: sfm sygnał zmodulowany Ac amplituda fali nośnej fc częstotliwość fali nośnej kf czułość modulatora sm sygnał modulujący W przypadku, gdy sygnał modulujący jest sinusoidalny s m (t)= Am cos( 2 π f m t) gdzie: Am amplituda sygnału modulującego fm częstotliwość sygnału modulującego Sygnał wyjściowy ma postać: 68 (3.10)

69 s FM (t )= Ac sin [2 π f c t+ 2 β sin 2 π f m t ] (3.11) gdzie: Ac amplituda fali nośnej fc częstotliwość fali nośnej fm częstotliwość sygnału modulującego β indeks modulacji Z kolei indeks modulacji definiujemy jako β= Δf fm (3.12) gdzie: Δ f =k f Am fm częstotliwość sygnału modulującego kf czułość modulatora W przybliżeniu szerokość pasma zajmowaną przez sygnał modulowany przebiegiem sinusoidalnym, możemy określić w oparciu o regułę Carsona IX ( β1 ) BT 2 Δ f +2f m =2 Δ f 1+ (3.13) Na poniższym rysunku przedstawiono przebiegi czasowe oraz widma sygnału o częstotliwości nośnej 2 khz. Am, Ac = 1 IX Reguła Carsona służy do określania pasma zajmowanego przez sygnał zmodulowany częstotliwościowo. W 1922 określił ją John Renshaw Carson. 69

70 Rys 3.12 Przykłady sygnałów zmodulowanych częstotliwościowo oraz ich widna. Rozkład amplitud prążków bocznych zależy od indeksu modulacji β. Nie jest to jednak zależność liniowa amplitudy zmieniają się zgodnie z wartościami funkcji Bessela, gdzie nr prążka odpowiada rzędowi funkcji. W wypadku radiofonii FM szerokość pasma dla przypadku monofonicznej transmisji wynosi 180 khz. Przy tworzeniu standardu stereofonicznej transmisji FM jednym z najważniejszych założeń była jej kompatybilność z odbiornikami monofonicznymi. Z tego względu nie transmituje się po prostu osobno lewego i prawego kanału, a ich sumę i różnicę (MS). 70

71 Sygnał monofoniczny jest odtwarzany z sumy lewego i prawego. Natomiast przy reprodukcji stereofonicznej dźwięk kanału lewego jest uzyskiwany poprzez sumowanie, a prawego poprzez odejmowanie odpowiednich sygnałów, zgodnie z regułą: l =L+ P+ L P p=l+ P ( L P ) (3.14) Rys Przedstawienie pasma zajmowanego przez sygnały w wypadku stereofonicznej transmisji FM W 1969 powstał projekt związany z kwadrofoniczną transmisją FM zachowujący kompatybilność z odbiornikami monofonicznymi oraz stereofonicznymi. Nie stał się jednak nigdy tak popularny, jak standard stereofoniczny Transmisje cyfrowe Rozwój systemów bezprzewodowego przesyłania dźwięku nie zatrzymał się jednak na systemach analogowych. Pomimo szybkiego rozwoju radiofonii internetowej, opracowano standard DAB (ang. digital audio broadcasting; rozwinięty później w DAB+) służący do cyfrowej transmisji radiowej z nadajników naziemnych. Pierwsza stacja zaczęła nadawanie w DAB w 1995 roku. Standard ten nie oferował niestety zbyt wielu korzyści w stosunku do tradycyjnego sygnału FM. Używano kompresji MP2 przy 128 lub 160 kbps, a pasmo ograniczone było do 14 khz. Pomimo większej, niż w wypadku transmisji analogowej odporności na zakłócenia, jakość dźwięku była zauważalnie niższa. Z tego powodu zdecydowano się opracować normę pozwalającą na przesyłanie dźwięku o lepszych parametrach. 71

72 Rys Planowany harmonogram budowy cyfrowej sieci nadawczej DAB+ w Polsce. źródło: DAB+ wykorzystuje kompresję AAC+ oraz MPEG Surround, może być transmitowany na częstotliwościach nawet do 3 GHz. Bazując na DAB, jest wyposażony w te same sposoby korekcji błędów, które uwzględniają m. in. odbiór w pojazdach przemieszczających się z szybkością do 390 km/h [36]. Autorzy pracy chcieliby jednak zwrócić uwagę na to, że przy coraz łatwiejszym i tańszym mobilnym dostępie do internetu, prawdopodobne jest, że przed ewentualnym rozpowszechnieniem standardu DAB+, funkcję radioodbiorników przejmą smartfony lub wyspecjalizowane urządzenia korzystające ze strumieniowania dźwięku przez internet. W takim przypadku słuchacz będzie miał dostęp do znacznie większej liczby stacji radiowych, nawet z odległych krajów, podczas gdy w sieci DAB+ osiągalni będą tylko nadawcy posiadający na danym terenie przydzielony kanał. 4 Część badawcza 4.1 Opis procedury nagrywania Do celów niniejszej pracy dokonano rejestracji trzech różnych rodzajów sygnałów: 1. kwartetu instrumentalnego 2. dźwięków otoczenia - ambientu 3. sekwencji szumów 72

73 Każdy z powyższych sygnałów został następnie użyty w badaniach odsłuchowych w celu identyfikacji wpływu sposobu rejestracji dźwięku, sposobu jego odtwarzania i użytych kodeków na odbiór wrażeń przestrzennych. Do sporządzenia wszystkich nagrań użyto następujących mikrofonów: pary mikrofonów kardioidalnych Røde M3 w konfiguracji XY pary mikrofonów kardioidalnych Røde M3 w konfiguracji ORTF mikrofonów binauralnych dousznych Soundman OKM II Classic/Studio Solo mikrofonu ambisonicznego Soundfield ST350 Nagrań dokonano symultanicznie wszystkimi mikrofonami umiejscowionymi blisko siebie w celu zapewnienia identycznych warunków akustycznych dla każdej użytej techniki mikrofonowej. W przypadku każdego nagrania jedna i ta sama osoba dokonywała nagrań mikrofonami binauralnymi, aby uniknąć różnic w HRTF i co za tym idzie, odmiennych wrażeń przestrzennych u osób odsłuchujących nagrań. Zmierzona odległość międzyuszna osoby rejestrującej sygnał za pomocą mikrofonów binauralnych wynosi ok. 17 cm. 73

74 Rys. 4.1 Schemat połączeń mikrofonów z interfejsem audio Tascam US do nagrań testowych Każde z nagrań wykonano tym samym zestawem mikrofonów podłączonych jak na rys. 4.1 (wyjątkiem jest rejestracja sekwencji szumów, gdzie użyto tylko mikrofonu ambisonicznego oraz mikrofonów binauralnych). Pary mikrofonów Røde M3 w konfiguracjach XY i ORTF podpięto do czterech wejść symetrycznych interfejsu audio Tascam US Sam interfejs audio został podpięty do laptopa z zainstalowanym oprogramowaniem Samplitude poprzez interfejs USB 2.0. Mikrofon ambisoniczny Soundfield ST350 został podłączony specjalnym przewodem mogącym przesłać cztery sygnały A-formatu do dekodera - wzmacniacza firmy Soundfield, a następnie wyjście z dekodera (w B-formacie) zostało podpięte do czterech kolejnych wejść XLR i oznaczone w DAW odpowiednio jako W, X, Y i Z. Sygnał z mikrofonów binauralnych został przesłany do sprzedawanego razem z mikrofonami przedwzmacniacza, a 74

75 następnie do pary wejść TRS. Niestety sygnał wyjściowy z przedwzmacniacza jest niesymetryczny, co mogło mieć wpływ na poziom szumów w nagraniach z użyciem mikrofonów binauralnych. Z tego też powodu skorzystano z możliwie najkrótszego przewodu Nagranie kwartetu instrumentalnego Nagrań kwartetu instrumentalnego dokonano wieczorem 26 lipca 2013 r. w trzynastowiecznym kapitularzu oo. Dominikanów przy bazylice Św. Trójcy w Krakowie na ul. Stolarskiej 12. Pomieszczenie przy małym zapełnieniu charakteryzuje się dość długim czasem pogłosu (ponad 1 sekundy). Nagrywanym utworem instrumentalnym był fragment kompozycji Jana Sebastiana Bacha Die Kunst der Fuge Contrapunctus 1. Jak każda fuga, ta charakteryzuje się powtarzaniem tematu muzycznego we wszystkich głosach (temat jest grany przez wszystkie instrumenty) i wprowadzaniem tematu do kolejnych głosów stopniowo (instrumenty włączają się po kolei). Pozwoli to na podobny odbiór estetyczny każdego z instrumentów i powinno ułatwić skupienie się słuchaczy jedynie na lokalizacji instrumentów w nagraniu. Rys. 4.2 Ustawienie instrumentów w przykładowej konfiguracji GSFW gitara, skrzypce, flet, wiolonczela. Punkt M oznacza miejsce umieszczenia wszystkich mikrofonów. Na kwartet składały się skrzypce, flet poprzeczny, wiolonczela oraz gitara akustyczna. Nietypowy dobór instrumentów wynikał z chęci ułatwienia późniejszego rozpoznania instrumentów na nagraniach przez osoby (niekoniecznie wykształcone muzycznie) biorące udział w późniejszych badaniach odsłuchowych. Zależało nam na jak 75

76 największym zróżnicowaniu barwowym składu instrumentalnego, jednak bez użycia niekonwencjonalnych instrumentów, tak aby każda badana osoba mogła bez problemu zidentyfikować każdy z nich. Celem badania odsłuchowego było zlokalizowanie umieszczenia przestrzennego każdego z instrumentów w nagraniu, a nie rozpoznawanie instrumentów jako takich, więc taki zabieg był konieczny dla ułatwienia wykonania zadania osobom niewykształconym muzycznie. Instrumenty (a dokładniej krzesła przeznaczone dla muzyków) znajdowały się na łuku w odległości ok. 2,5 m od mikrofonów jak na rys Rys 4.3. Nagranie kwartetu instrumentalnego w kapitularzu oo. Dominikanów wraz z widocznym ustawieniem mikrofonów (osoba w żółtej koszulce dokonuje nagrań za pomocą mikrofonów binauralnych) i muzyków - SFWG Przebieg nagrań wyglądał następująco: rejestracja została włączona aż do końca sesji nagraniowej (aby później wyodrębnić ok. piętnastosekundowe fragmenty zawierające grające wszystkie instrumenty) oraz dokonano regulacji wzmocnienia interfejsu audio i przedwzmacniaczy w taki sposób, aby uzyskać możliwie wysoki i jednakowy poziom nagrania dla każdej konfiguracji mikrofonowej w momencie próbnego wykonania fugi 76

77 przez instrumentalistów. Następnie przystąpiono do właściwego wykonania wybranego fragmentu fugi przy początkowym ustawieniu instrumentów SFGW (czyli od lewej: skrzypce, flet, gitara, wiolonczela). Następnie muzycy zamienili się miejscami do ustawienia SFWG (widocznego na zdjęciu powyżej) i ponownie wykonali ten sam fragment fugi. Taką czynność powtórzono kilkukrotnie, aby uzyskać jak największą ilość kombinacji nagrań do późniejszych testów odsłuchowych. Po skończeniu nagrań zostały wyodrębnione piętnastosekundowe fragmenty z każdego wykonania fugi i każdej konfiguracji mikrofonowej, tak aby we fragmencie obecne były grające wszystkie instrumenty Nagrania dźwięków otoczenia Nagrań dźwięku otoczenia (tzw. ambientu) dokonano na Małym Rynku w Krakowie 1 sierpnia 2013 r. ok. godz. 16. Największą trudność przy nagraniu sprawiło dostarczenie i podłączenie sprzętu rejestrującego. Do zasilenia laptopa, interfejsu audio i wzmacniaczy użyto przenośnego akumulatora z przetwornicą o napięciu wyjściowym 230V, pozwalającego zasilać przez kilka godzin wyżej wymieniony sprzęt rejestrujący. Rys. 4.4 Przygotowanie sprzętu do rejestracji dźwięków otoczenia na Małym Rynku w Krakowie. W odróżnieniu od nagrań wykonywanych w pomieszczeniach, w tym wypadku dość uciążliwym faktem była obecność mocnego wiatru w trakcie rejestracji nagrań, dlatego więc zastosowano osłonę przeciwwietrzną dla mikrofonu ambisonicznego (widoczną 77

78 na zdjęciu powyżej). W pozostałych mikrofonach osłony te były dużo słabsze, co skutkowało obecnością niskich częstotliwości w momentach mocniejszego podmuchu. Z tego powodu, w czasie wyboru fragmentów do badań odsłuchowych, należało wybierać momenty, gdy wiatr był zdecydowanie słabszy i nie został zarejestrowany przez żaden z mikrofonów. Całkowity czas rejestracji ambientu wyniósł około godziny i zawierał odgłosy, takie jak rozmowy, hejnał z wieży kościoła Mariackiego, bieganie, odgłos jadącego rowerka dziecięcego i inne odgłosy typowe dla miejsca publicznego. Później, w celach odsłuchowych, wybrano dziewiętnastosekundowy fragment nagrania, na podstawie którego oceniano realizm przestrzenny nagrania. Niestety już po zakończeniu nagrań stwierdzono obecność zauważalnych szumów w jednym kanale nagrania wykonanego za pomocą mikrofonów ORTF. Było to spowodowane prawdopodobnie uszkodzonym przewodem łączącym jeden z mikrofonów z interfejsem audio. Z tego powodu nagrania z Małego Rynku sporządzone techniką ORTF nie zostały włączone do badań odsłuchowych Nagrania sekwencji szumów Nagrań tych dokonano w laboratorium auralizacji AGH dnia 12 sierpnia 2013 r. posiadającym między innymi 16 kolumn głośnikowych Genelec 6010A osiem ustawionych na poziomie głowy słuchacza ustawionych na ośmiokącie foremnym, cztery umieszczone powyżej głowy słuchacza oraz cztery umieszczone poniżej głowy słuchacza. W tym przypadku celem rejestracji było stworzenie nagrań do zbadania możliwości lokalizacji dźwięków w płaszczyźnie horyzontalnej, więc użyto jedynie ośmiu głośników umieszczonych na poziomie głowy słuchacza. 78

79 Rys. 4.5 Laboratorium auralizacji AGH z widocznymi 16 kolumnami głośnikowymi Genelec 6010A używanymi do generowania szumów oraz 5 kolumnami głośnikowymi Genelec 8030A używanymi później do przeprowadzenia badań odsłuchowych. Na sygnał przeznaczony do rejestracji wybrano szum biały z uwagi na jego płaskie widmo częstotliwościowe. W innym przypadku zdolności lokalizacyjne zależałyby również od częstotliwości wybranego sygnału, która ma istotny wpływ na sposób lokalizacji dźwięku przez ludzki aparat słuchowy. Za pomocą programu Samplitude zainstalowanego na obecnym w pracowni komputerze, wygenerowano pseudolosowy szum biały o długości trwania ok. 2 s. Następnie stworzono 8 monofonicznych ścieżek audio i sygnał z nich wysłano kolejno na kanały od 1 do 8 interfejsu audio, w którym numer kanału odpowiadał numerowi głośnika na rys Wygenerowany sygnał szumowy umieszczono na każdej ścieżce w taki sposób aby szum został odtworzony po kolei przez wszystkie 8 głośników. Po włączeniu rejestracji uruchomiono wygenerowaną właśnie sekwencję i w ten sposób zarejestrowano sygnał szumowy emitowany przez każdy z ośmiu głośników. 79

80 Rys. 4.6 Ustawienie kolumn głośnikowych Genelec 6010A do rejestracji sekwencji szumów względem mikrofonów oznaczonych jako M Do rejestracji sekwencji szumów, w przeciwieństwie do poprzednich nagrań, został użyty jedynie mikrofon ambisoniczny oraz mikrofony binauralne. Jedynie te techniki mikrofonowe pozwalają na prawidłową rejestrację informacji o kierunku nagranego sygnału audio. W przypadku prawidłowego ustawienia mikrofonów w technice ORTF, kąt rejestracji pola dźwiękowego wynosi ok 96 (czyli w tym wypadku objąłby kolumny głośnikowe nr 1, 2 i 8), a dla techniki XY ok. 196 (czyli kolumny głośnikowe nr 1, 2, 3, 7 i 8). Dodatkowo docelowy sposób odtwarzania tak zarejestrowanego materiału, czyli za pomocą systemu stereofonicznego, uniemożliwiłby prawidłowe zlokalizowanie sygnałów wydobywających się z głośników znajdujących się za lub z boku słuchacza. Na późniejszym etapie, po rejestracji, zmontowano nagrania sekwencji szumów, tak aby zmienić kolejność odtwarzania szumów przez głośniki, dzięki czemu otrzymano kilka kombinacji różnych sekwencji szumów do odtworzenia podczas badań odsłuchowych. W jednej sekwencji zawarte zostało osiem sygnałów szumowych, każdy emitowany przez inny głośnik. Każda zaś sekwencja zawierała inną kolejność odtwarzanych sygnałów szumowych. 80

81 4.2 Opis przeprowadzania testów Przeprowadzone w ramach badań testy odsłuchowe składały się z trzech części. Każda z nich służyła ocenie nieco innych parametrów wybranych technik rejestracji oraz kodeków. Nagrania były emitowane zarówno w systemie 5.0, stereo jak i przez słuchawki. Do testów użyto zestawu pięciu głośników Genelec 8030A rozstawionych zgodnie z normą EBU [37] oraz słuchawek Beyerdynamic DT770. Rys. 4.7 Zalecenia European Broadcasting Union dotyczące ustawienia systemu 5.0 [37] Do stworzenia nagrań pięciokanałowych posłużono się mikrofonem ambisonicznym Soundfield ST350, którego wyjściowymi plikami są cztery ścieżki w standardzie Bformat (W, X, Y, Z). Aby uzyskać z nich pięć kanałów (L, R, C, Ls, Rs), posłużono się programem Visual Virtual Microphone v3.3.0 służącym do edycji nagrań z mikrofonów ambisonicznych. Z jego pomocą z nagrań A lub B-formatu można uzyskać sygnał z pozornego mikrofonu o charakterystyce dookólnej, ósemkowej, kardioidalnej lub pośrednich, o dowolnym ukierunkowaniu. Użyto tutaj przygotowanego przez twórców programu zestawu ustawień służącego do tworzenia plików do odtwarzania na zestawach 5.1.I I 5.1 to system sześciokanałowy, gdzie 1 oznacza subwoofer, który odtwarza niskie częśtotliwości z sumy pozostałych kanałów. Z uwagi na zadowalający poziom odtwarzania basów przez używany zestaw głośników Genelec, nie był on potrzebny, używano więc systemu

82 Rys. 4.8 Fragment okna programu Visual Virtual Microhpone Pierwsza część badania polegała na słuchaniu białego szumu, nagranego w tym samym pomieszczeniu binauralnie (słuchawki) oraz mikrofonem Soundfield (5.0). Testowanemu odtwarzano sekwencje szumów, pozornie dochodzących z różnych kierunków, a jego zadaniem było jak najdokładniejsze ich umiejscowienie. Kolejna część polegała na określaniu położenia muzyków grających równocześnie na różnych instrumentach, zaś część ostatnia służyła subiektywnej ocenie brzmienia poszczególnych nagrań. Testy odsłuchowe przeprowadzane były w laboratorium auralizacji AGH w dniach 2023 sierpnia W sumie przebadano 13 osób, a po pierwszych siedmiu odwrócono kolejność prezentowania nagrań, aby skompensować wpływ uczenia się badanych w trakcie testu. 82

83 Rys 4.9 Badany w trakcie testu w laboratorium auralizacji AGH Kodowanie nagrań Badaniu zostało poddanych wiele konfiguracji kodeków oraz technik rejestracji. Sprawdzono algorytmy: AAC (HE-AAC), Ogg Vorbis oraz Opus. Autorzy nie zdecydowali się na testowanie wciąż popularnego formatu MP3 z uwagi na to, że powstał ponad 20 lat temu i nie może konkurować z najnowszymi osiągnięciami (jak choćby Opus) w dziedzinie stratnego kodowania dźwięku. Z dwóch powodów z nagraniami skompresowanymi stratnie, porównano też pliki oryginalne, przefiltrowane dolnoprzepustowo, z pasmem ograniczonym do 15 khz. Dźwięk o takich parametrach zbliżony jest do dźwięku transmitowanego przez radio w standardzie UKF, ponadto niektóre algorytmy stratnej kompresji (jak np. MP3 128 kbps, Ogg Vorbis 64 kbps) zawężają pasmo do podobnego zakresu. W wypadku nagrań pięciokanałowych użyto również nagrań w plikach WAVE niepoddanych żadnej obróbce, na co nie zdecydowano się w wypadku nagrań dwukanałowych. Decyzja ta wynikała z konieczności ograniczenia czasu testu, który i tak przez słuchaczy był oceniany jako długi i męczący. Dźwięk pięciokanałowy został zakodowany z przepływnością bitową 32 kbit/s na kanał, natomiast dwukanałowy 64 kbit/s oraz 128 kbit/s na oba kanały. Za każdym 83

84 razem wybierano domyślne opcje łączenia kanałów w pary oraz zmiennej przepływności bitowej tak, aby każdy z enkoderów mógł pracować w optymalny wg jego twórców sposób. Użyto kodeków w wersjach: Ogg Vorbis v2.67 (libvorbis 1.3.3), HE-AAC (AAC+ - Fraunhofer IIS v 1.07) oraz Opus (libopus 1.0.2) Lokalizacja szumów Zadanie lokalizacji szumów podzielone było na dwie części. W trakcie pierwszej z nich odtwarzano na słuchawkach nagrania binauralne. Badany słuchał siedmiu sekwencji szumów. Każda z nich składała się z ośmiu dźwięków, które w trakcie ich nagrywania dochodziły z ośmiu różnych kierunków. Za każdym razem kolejność była losowa. Zadaniem słuchacza było określanie pozornego (postrzeganego przez niego) kierunku, z którego szum dochodził. rys Fragment ankiety ilustracja ułatwiająca zapis odpowiedzi dotyczących postrzeganego położenia źródła dźwięku. Podczas drugiej części słuchacze odpowiadali na dokładnie to samo pytanie, z tą różnicą, ze dźwięki były odtwarzane za pomocą systemu pięciokanałowego. 84

85 Tab. 4.1 Sposoby odtwarzania, rejestracji oraz kodeki używane podczas testu lokalizacji szumów sposób rejestracji mikrofony binauralne sposób odtwarzania słuchawki kodek AAC+ 64 kbps AAC+ 128 kbps Ogg Vorbis 64 kbps Ogg Vorbis 128 kbps Opus 64 kbps Opus 128 kbps WAV LPF 15 khz ambisonicznie 5.0 Ogg Vorbis 32 kbps/kan. (soundfield) AAC+ 32 kbps/kan. Opus 32 kbps/kan. WAV Lokalizacja instrumentów Tab. 4.2 Sposoby odtwarzania, rejestracji oraz kodeki używane podczas testu lokalizacji instrumentów sposób rejestracji sposób odtwarzania kodek mikrofony binauralne słuchawki AAC+ 64 kbps XY system stereo AAC+ 128 kbps ORTF Ogg Vorbis 64 kbps Ogg Vorbis 128 kbps Opus 64 kbps Opus 128 kbps WAV LPF 15 khz ambisonicznie 5.0 Ogg Vorbis 32 kbps/kan. (soundfield) AAC+ 32 kbps/kan. Opus 32 kbps/kan. WAV Słuchaczom prezentowane były piętnastosekundowe nagrania czterech, grających wspólnie instrumentów. Zadaniem testowanego było na podstawie przestrzennego 85

86 nagrania określenie ich ustawienia od lewej do prawej. Przykładowo: jeśli wiolonczela była słyszalna skrajnie z lewej, na prawo od niej flet, skrajnie z prawej gitara, a tuż na lewo od niej skrzypce, należało napisać WFSG. Tę czynność każdy wykonywał w sumie 47 razy (5 razy dla systemu pięciokanałowego, 21 dla stereo i 21 w słuchawkach). W ramach wstępnego treningu - dla osłuchania, na początku prezentowano pięć losowych nagrań. W trakcie testu każdy plik odtworzyć można było maksymalnie dwa razy przed udzieleniem odpowiedzi Ocena jakości nagrań Ostatnim etapem testu było przedstawienie słuchaczom trwających po 19 sekund nagrań dźwięków ulicznych zawierających słyszalne w tle rozmowy, chodzących ludzi, Hejnał Mariacki, przejeżdżający rower itp. Były tu więc zawarte zarówno dźwięki szumowe jak i harmoniczne te o precyzyjnym kierunku pochodzenia oraz te, które dobiegały zewsząd, pokrywające pełen zakres słyszalnych częstotliwości. Tab. 4.3 Sposoby odtwarzania, rejestracji oraz kodeki używane podczas testu oceny jakości nagrań sposób rejestracji sposób odtwarzania kodek mikrofony binauralne słuchawki AAC+ 64 kbps XY system stereo AAC+ 128 kbps Ogg Vorbis 64 kbps Ogg Vorbis 128 kbps Opus 64 kbps Opus 128 kbps WAV LPF 15 khz ambisonicznie 5.0 Ogg Vorbis 32 kbps/kan. (soundfield) AAC+ 32 kbps/kan. Opus 32 kbps/kan. WAV Każdemu z słuchaczy prezentowano nagranie w różnych wersjach w sumie 33 razy: 5 razy w systemie pięciokanałowym oraz po 14 razy na słuchawkach oraz systemie stereo. 86

87 Tab. 4.4 Parametry dźwięku oceniane przez słuchaczy w trzeciej części testu oraz ich skala nazwa parametru skrót opis Naturalność brzmienia Ntr Jak brzmi reprodukowany dźwięk w porównaniu do prawdziwych, naturalnych dźwięków. 1-4 Kreowanie przestrzeni Ob Wrażenie przebywania w tym samym środowisku akustycznym, w którym zostało wykonane nagranie. 1-4 Lokalizacja Lok Możliwość precyzyjnego zlokalizowania konkretnych źródeł dźwięku w przestrzeni (np. biegnącego dziecka, rozmawiających osób albo granej melodii). 1-4 Ciągłość przestrzeni CP Wrażenie ciągłości przestrzeni akustycznej. Np. czy ruchome źródło dźwięku jest płynnie odwzorowane, czy może znajdują się skoki w panoramie. 1-4 Szczegółowość Szc Opisuje możliwość słyszenia niuansów akustycznych (cichszych dźwięków) lub stopień zlewania się kilku dźwięków w niemożliwy do odseparowania szum. 1-4 Przestrzenność Prz Ogólne wrażenie przestrzenności nagrania. Czy dźwięk odbierany jest ze wszystkich stron? 1-4 Kategorie choć pokrewne, zostały tak dobrane, aby słuchacze nie mieli wątpliwości co do ich znaczenia. Posłużono się skalą o parzystej liczbie stopni, aby nie kusić możliwością wystawienia oceny środkowej. Skala sześciostopniowa z kolei byłaby dla badanych zbyt kłopotliwa i mogłaby prowadzić do zaburzenia wyników, stąd też zdecydowano się na wartościowanie parametrów w skali 1 do 4, oczywiście bez ocen ułamkowych. Autorzy zdają sobie sprawę z tego, że rozwiązaniem dającym bardziej miarodajne wyniki, byłoby tu zastosowanie kryterium Condorceta II do nagrań prezentowanych w parach, jednakże test dla jednego słuchacza wg przedstawionego powyżej schematu trwał ponad półtorej godziny. Gdyby nagrania prezentować parami we wszystkich kombinacjach, test byłby po prostu zbyt męczący. Prowadziłby do znużenia i irytacji słuchającego. Autorzy wiedzą z własnego doświadczenia, że taka sytuacja mogłaby mieć na jakość wyników wpływ co najmniej niepozytywny. II Kryterium Condorceta kryterium, według którego najwyższą ocenę uzyskuje próbka, która preferowana jest przez większość, gdy nagrania prezentowane są parami (oczywiście we wszystkich możliwych kombinacjach) 87

88 5 Wyniki badania W tym rozdziale przedstawione zostały wyniki wszystkich trzech części testów słuchowych oraz ich analizy. Zostanie również podjęta próba ich wyjaśnienia w kontekście widm sygnałów, algorytmów kodowania Ogg Vorbis, HE-AAC i Opus oraz zjawisk psychoakustycznych. 5.1 Przedstawienie wyników Lokalizacja szumów Dla każdej z prezentowanych sekwencji szumów obliczano wartość błędu popełnionego przez słuchającego jako sumę odległości kątowych pomiędzy kierunkiem wskazywanym przez niego, a tym, z którego dany szum był emitowany w trakcie nagrywania. Możliwych było osiem kierunków, co 45 stopni, dlatego błąd podano w liczbach określających wielokrotność tego kąta. Przykładowo: Wynik 3 oznaczał, że suma pomyłek kątowych to

89 Tab. 5.1 Zestawienie wyników testu lokalizacji szumów nr pliku system rejestracji odtwarzania Soundfield mikrofony binauralne 9 słuchawki kodek AAC+ 32 kbps OGG 32 kbps Opus 32 kbps WAV LPF 15 khz WAV OGG64 AAC128 OPUS128 WAV LPF 15 khz AAC64 OPUS64 OGG nr ankiety błąd średni błąd 7,15 5,92 6,31 6,38 6,46 4,92 4,23 5,00 4,69 5,31 2,46 3,85 odchylenie standardowe 2,73 3,71 3,17 3,38 3,69 3,66 3,94 3,58 3,77 3,59 1,85 3,16 W powyższej tabeli przedstawiono wyniki testu lokalizacji szumów. Nawet bez wstępnych analiz widać, że wyniki są dużo gorsze dla systemu pięciokanałowego, gdzie pojawiały się bardzo duże problemy z lokalizacją dźwięków usytuowanych z tyłu. 89

90 5.1.2 Lokalizacja instrumentów Dla każdego z fragmentów muzycznych błąd lokalizacji obliczono, korzystając ze zmodyfikowanej metryki Damerau-Levenshteina. Jest to rodzaj metryki edycyjnej służącej do porównywania ciągów znaków. Jej wartość zależy od liczby operacji zamiany bądź podstawienia dzielących porównywane obiekty. Z racji specyfiki zadania postawionego przed słuchaczami oraz formy, w jakiej udzielali oni odpowiedzi, było to rozwiązanie niewątpliwie bardziej słuszne, niż binarne uznawanie odpowiedzi za poprawne lub niepoprawne. Tab. 5.2 Wyniki testu lokalizacji instrumentów nr słuchacza system nr rejestracji pl. odtwarzania kodek średni odch. błąd std. błąd ,92 1,04 OGG 32 kbps / kan Soundfield 3 Opus 32 kbps / kan WAV LPF 15 khz ,69 1,18 1,69 1,18 1,85 0,99 5 WAV ,92 1,04 6 AAC+ 128 kbps ,85 0,80 7 AAC+ 64 kbps ,31 1,03 mikrofony OGG 128 kbps 9 binauralne OGG 64 kbps stereo 10 Opus 128 kbps ,23 0, ,31 1, ,23 0,73 11 Opus 64 kbps ,85 0,55 12 WAV LPF 15 khz ,62 0,65 13 AAC+ 128 kbps ,23 1,17 14 OGG 64 kbps ,00 0,58 Opus 128 kbps ,15 1,07 AAC+ 64 kbps ,31 1,38 17 OGG 128 kbps ,46 0,88 18 Opus 64 kbps ,46 0,78 19 WAV LPF 15 khz ,77 1,24 1 AAC+ 32 kbps/kan ORTF stereo 90

91 nr słuchacza system nr rejestracji pl. odtwarzania kodek średni odch. błąd std. błąd 20 WAV LPF 15 khz ,15 1,07 21 Opus 64 kbps ,77 1,17 22 AAC+ 64 kbps ,15 1,34 23 XY stereo AAC+ 128 kbps ,15 1,07 24 OGG 64 kbps ,77 1,09 25 OGG 128 kbps ,38 1,26 26 Opus 128 kbps ,38 0,51 27 AAC+ 128 kbps ,62 0,77 28 OGG 64 kbps ,38 0,51 mikrofony OGG 128 kbps 30 binauralne Opus 128 kbps słuchawki 31 WAV LPF 15 khz ,77 0, ,54 0, ,92 0,76 32 Opus 64 kbps ,46 0,52 33 AAC+ 64 kbps ,08 1,04 34 AAC+ 64 kbps ,54 0,52 35 AAC+ 128 kbps ,62 1,19 WAV LPF 15 khz ,92 1,12 OGG 128 kbps ,00 0,71 38 Opus 128 kbps ,77 0,83 39 Opus 64 kbps ,00 0,82 40 OGG 64 kbps ,46 0,52 41 Opus 128 kbps ,69 0,95 42 AAC+ 128 kbps ,54 1,33 OGG 128 kbps ,54 0,88 AAC+ 64 kbps ,85 1,21 45 WAV LPF 15 khz ,31 0,63 46 OGG 64 kbps ,92 1,19 47 Opus 64 kbps ,85 0, ORTF słuchawki XY słuchawki 91

92 5.1.3 Ocena jakości nagrań Z uwagi na ilość danych z tej części testu, nie zostaną tu zamieszczone wszystkie wyniki. W tabeli 5.3 zestawiono natomiast średnie ocen dla każdej próbki i każdego parametru. Tab. 5.3 Oceny subiektywne fragmentów dźwiękowych parametr system rejestracji odtwarzania kodek Opus 32 kbps / kan. WAV LPF 15 khz AAC+ 32 kbps / kan. soundfield 5.0 WAV czysty OGG 32 kbps / kan. WAV LPF 15 khz AAC+ 128 kbps Opus 128 kbps mikrofony Opus 64 kbps binauralne stereo AAC+ 64 kbps OGG 128 kbps OGG 64 kbps AAC+ 128 kbps OGG 64 kbps Opus 128 kbps WAV LPF 15 khz XY stereo OGG 128 kbps Opus 64 kbps AAC+ 64 kbps OGG 128 kbps AAC+ 64 kbps WAV LPF 15 khz mikrofony OGG 64 kbps binauralne słuchawki Opus 64 kbps Opus 128 kbps AAC+ 128 kbps AAC+ 64 kbps Opus 64 kbps AAC+ 128 kbps WAV LPF 15 khz XY słuchawki OGG 128 kbps Opus 128 kbps OGG 64 kbps Ntr naturalność Ob kreowanie przestrzeni Lok lokalizacja Cp ciągłość przestrzeni Szc szczegółowość Prz przestrzenność Ntr Ob Lok Cp Szc Prz 2,85 2,62 3,00 2,77 2,46 2,77 2,62 2,69 2,62 2,62 2,92 2,46 2,31 2,08 2,54 2,54 2,54 2,62 2,23 2,92 2,69 2,85 2,54 2,92 3,23 3,23 2,31 2,54 2,38 2,23 2,46 2,46 2,15 3,23 3,15 3,15 3,15 2,85 2,85 2,54 2,54 2,62 2,54 2,77 2,77 2,31 2,23 2,31 2,15 2,46 2,38 1,92 3,00 2,46 3,23 2,92 3,23 3,31 3,54 2,46 2,46 2,23 2,08 2,31 2,23 2,08 3,00 3,15 2,92 3,08 3,00 3,00 3,00 2,54 2,69 2,38 2,92 2,77 2,31 2,08 2,31 2,31 2,46 2,46 2,23 3,15 2,54 3,08 3,00 3,46 3,23 3,31 2,46 2,77 2,62 2,15 2,08 2,15 1,85 3,08 3,08 3,08 3,15 2,69 3,31 3,00 2,62 3,00 2,69 2,85 2,54 2,46 2,46 2,69 2,08 2,38 2,15 2,15 3,15 2,92 3,08 3,38 3,38 3,46 3,23 2,54 2,69 2,92 2,46 2,46 2,62 2,38 3,46 3,38 3,08 3,08 2,62 2,92 2,92 2,92 2,85 2,54 2,77 2,62 2,62 2,38 2,85 2,31 2,69 2,46 2,15 2,85 2,69 3,23 3,08 3,46 3,23 3,23 2,77 2,62 2,62 2,54 2,46 2,62 2,08 3,23 3,15 3,23 3,38 2,92 3,00 3,08 2,77 2,77 2,69 3,00 2,85 2,31 2,15 2,15 2,15 2,31 2,31 1,92 3,00 2,92 3,08 3,00 3,46 3,23 3,62 2,46 2,62 2,46 2,08 2,15 2,31 1,92 92 średnia 3,14 3,09 3,08 3,10 2,76 2,97 2,86 2,68 2,76 2,58 2,87 2,67 2,38 2,23 2,47 2,26 2,47 2,40 2,10 3,01 2,71 3,09 2,99 3,32 3,28 3,36 2,50 2,62 2,54 2,26 2,32 2,40 2,08

93 5.2 Analiza wyników kodeki Tab. 5.4 Zestawienie wyników testów ze względu na zastosowane kodeki (wyniki standardowe). system odtwarzania kodek WAV WAV LPF 15 khz Opus 32 kbps/kan. 5.0 OGG 32 kbps/kan. AAC+ 32 kbps/kan. Ogg Vorbis 64 kbps AAC 64 kbps OPUS 64 kbps dwukanałowy Ogg Vorbis 128 kbps AAC 128 kbps Opus 128 kbps WAV LPF 15 khz lokalizacja lokalizacja ocena jakości szumów instrumentów nagrań -0,94-0,88-0,82-0,53-1,46 0,23-0,06 2,09 1,04 0,75 0,17 0,40-1,38-1,14-0,66-0,66-1,38 0,55 0,35 1,31 0,27 0,47 1,11 1,15 1,37 1,04 1,69-0,21 0,73-1,11-1,24 0,86 0,15 0,95 0,42-0,03 suma -0,94-0,98 0,21-1,40-2,11-0,33-0,96 4,27 1,46 2,18 1,70 1,52 W powyższej tabeli przedstawiono zbiorczo średnie wyniki standardowe testów z podziałem na użyte kodeki. Na zielono i czerwono zaznaczono odpowiednio najlepsze oraz najgorsze wyniki w danej kategorii. Osobno porównano dwukanałowy oraz pięciokanałowy system odtwarzania. Pierwszym zasługującym na komentarz i zaskakującym wynikiem jest rezultat sumaryczny Opusa dla 64 kbps. Nagrania zakodowane przy użyciu tego algorytmu pozwalały na najskuteczniejszą lokalizację zarówno szumów w nagraniach binauralnych, jak i instrumentów rejestrowanych dwukanałowo. Próba wyjaśnienia tego rezultatu zostanie podjęta w kolejnych podpunktach tego rozdziału. Interesujące jest również, że w systemie pięciokanałowym trudniejsza była zarówno lokalizacja szumów, jak i instrumentów. Wydaje się to mieć w pierwszym przypadku związek z brakiem głośników z tyłu głowy w systemie 5.0, w drugim zaś z dodatkowym w tym przypadku nagranym pogłosem, rozmywającym obraz akustyczny (takie były sugestie słuchaczy). 93

94 Wyniki testów z podziałem na kodeki dla odsłuchu pięciokanałowego WAV 2,00 lok. szumów lok. instrumentów ocena jak. nagrań WAV LPF 15 khz 0,00-2,00 Opus 32 kbps/kan. AAC+ 32 kbps/kan. Rys. 5.1 Wykres przedstawiający wyniki testu kodeków dla odsłuchu pięciokanałowego Wyniki testów z podziałem na kodeki dla odsłuchu dwukanałowego Ogg Vorbis 64 kbps 3 AAC 64 kbps lok. szumów lok. instrumentów ocena jak. nagrań OPUS 64 kbps -2 Ogg Vorbis 128 kbps WAV LPF 15 khz Opus 128 kbps Rys 5.2 Wykres przedstawiający wyniki testu kodeków dla odsłuchu dwukanałowego 94

95 Rys. 5.3 Wykres pudełkowyi przedstawiający ilości błędów popełnianych przez słuchaczy w trakcie testu lokalizacji szumów w systemie pięciokanałowym Rys. 5.4 Wykres pudełkowy przedstawiający ilości błędów popełnianych przez słuchaczy w trakcie testu lokalizacji szumów w systemie dwukanałowym I Wykres pudełkowy sposób prezentacji danych statystycznych. Granice pudełka są wyznaczane przez granice pierwszego i trzeciego kwartyla, zaś wąsy wyznaczane są przez półtorakrotną wartość rozstępu ćwiartkowego. Kropkami oznacza się pojedyncze wartości poza tym zakresem 95

96 Opus 64 kbps Opus 128 kbps Ogg Vorbis 64 kbps Ogg Vorbis 128 kbps AAC+ 64 kbps AAC+ 128 kbps WAV WAV LPF 15 khz Opus 32 kbps / kan. OGG 32 kbps / kan. AAC+ 32 kbps / kan dwukanałowo pięciokanałowo Rys. 5.5 Wykres przedstawiający średni błąd popełniany przy lokalizacji szumów w zależności od użytego kodeka WAV WAV LPF 15 khz Opus 32 kbps / kan. OGG 32 kbps / kan. AAC+ 32 kbps/kan. WAV LPF 15 khz Opus 64 kbps Opus 128 kbps OGG 64 kbps OGG 128 kbps AAC+ 64 kbps AAC+ 128 kbps 0 0,5 1 dwukanałowo 1,5 2 2,5 pięciokanałowo Rys. 5.6 Wykres przedstawiający średni błąd popełniany w teście lokalizacji instrumentów w zależności od użytego kodeka. 96

97 Pierwsze dwie części testu, choć nieco odmienne w formie, miały za zadanie obiektywnie sprawdzić, jak sposoby nagrywania i kodowania wpływają na możliwości określenia lokalizacji źródeł dźwięku w przestrzeni. Jak już wspomniano, zaskakująco dobry wynik w obu testach uzyskał Opus i to nie dla 128 kbps, a dla 64 kbps. Widoczne jest również bez dodatkowych analiz, że znacznie trudniejsza jest precyzyjna lokalizacja w systemie pięcio- niż dwukanałowym o tym będzie jednak traktował jeden z kolejnych podrozdziałów Lokalizacja w systemie pięciokanałowym Wyniki testów sprawdzających lokalizację, przeprowadzanych na systemie 5.0 nie pokazują aż takich różnic pomiędzy kodekami, jak w wypadku systemów dwukanałowych. W teście szumów najlepszy rezultat uzyskał Ogg Vorbis dla 32 kbps na kanał (średni błąd 5,92), wyniki 6,31 oraz 6,38 przypadły odpowiednio Opusowi 32kbps/kan. oraz nagraniu poddanemu jedynie filtracji dolnoprzepustowej. Jedynym wybijającym się (negatywnie) przykładem jest tu AAC+, dla którego średni popełniany błąd osiągnął wartość najwyższą (7,15). Podczas słuchania nagrań binauralnych pozorne położenie źródła dźwięku jest określane na podstawie różnicy poziomów, różnicy faz, ale kluczową rolę ma tu wpływ kształtu głowy i małżowiny na widmo dźwięku dochodzącego z różnych kierunków (HRTF). Dlatego w przypadku użycia słuchawek, bardzo istotnym jest dokładne odwzorowanie dźwięku, ze szczególnym uwzględnieniem różnic między kanałami. Natomiast w przypadku systemów wielokanałowych, zupełnie inne właściwości sygnału będą wpływać na zniekształcenia w lokalizacji. Tutaj istotne jest przede wszystkim zachowanie całego pasma częstotliwości oraz separacja kanałów. Chociaż różnice w wynikach pomiędzy kodekami w tej sytuacji są niewielkie, okazuje się, że poszczególne algorytmy w bardzo odmienny sposób przetwarzają sygnał. O ile jeśli chodzi o skuteczność lokalizacji, różnice pomiędzy Opusem, Ogg Vorbis i dźwiękiem nieskompresowanym są do pominięcia, istotnie (w przypadku szumów) wybija się negatywnie AAC+. Przyczyny takiej sytuacji można dociekać na podstawie poniższych wykresów (od 5.7 do 5.15). Przedstawiono na nich sumaryczne widma szumów wykorzystywanych w pierwszej części badania. Sygnały oryginalne przygotowane do odsłuchu w systemie 5.1 porównano tu z wersjami poddanymi stratnej kompresji. 97

98 Rys.5.7 Porównanie widm sygnału oryginalnego (czerwony) i zakodowanego kodekiem Opus 32 kbps/kan. Od częstotliwości ok 15,5 khz szum zostaje podbity, a jego widmo spłaszczone. Rys.5.8 Porównanie widm sygnału oryginalnego (czerwony) i zakodowanego kodekiem Opus 32 kbps/kan. Kanał środkowy jest filtrowany dolnoprzepustowo od 12 khz, natomiast kanał Lfe ograniczony jest do 4 khz. 98

99 Rys. 5.9 Porównanie widm sygnału oryginalnego (czerwony) i zakodowanego kodekiem Opus 32 kbps/kan. W przypadku kanałów tylnych (lewego i prawego), sytuacja jest analogiczna jak dla przednich. Rys Porównanie widm sygnału oryginalnego (czerwony) i zakodowanego kodekiem Ogg Vorbis 32 kbps/kan. Pasmo jest tu ograniczone od dołu do 16 khz. Podbite zostały natomiast częstotliwości wysokie, w granicy 5 do 16 khz. 99

100 Rys Porównanie widm sygnału oryginalnego (czerwony) i zakodowanego kodekiem Ogg Vorbis 32 kbps/kan. Tak jak w przypadku Opusa, pasmo kanału środkowego jest ograniczone, choć z tą różnicą, że nie do 12, a do 16 khz. Natomiast kanał subwoofera zawiera częstotliwości jedynie do 250 Hz. Rys Porównanie widm sygnału oryginalnego (czerwony) i zakodowanego kodekiem Ogg Vorbis 32 kbps/kan. W przypadku kanałów tylnych (lewego i prawego), sytuacja jest analogiczna jak dla przednich. 100

101 Rys Porównanie widm sygnału oryginalnego (czerwony) i zakodowanego kodekiem AAC+ 32 kbps/kan. Widać tu działanie filtru półkowego, który ograniczył energię w paśmie częstotliwości od 9,5 khz w górę. Rys Porównanie widm sygnału oryginalnego (czerwony) i zakodowanego kodekiem AAC+ 32 kbps/kan. Środkowy kanał jest w przypadku AAC+ traktowany tak jak lewy i prawy. Dla Lfe ograniczono natomiast pasmo do 125 Hz. 101

102 Rys Porównanie widm sygnału oryginalnego (czerwony) i zakodowanego kodekiem AAC+ 32 kbps/kan. W przypadku kanałów tylnych (lewego i prawego), sytuacja jest analogiczna jak dla przednich. Dzięki porównaniu powyższych wykresów można domniemywać, że najgorszy wynik AAC+ związany jest z obniżeniem poziomu dźwięków o częstotliwościach powyżej 9,5 khz. Z kolei najbardziej zadziwiającym rozwiązaniem jest zastosowanie filtru dolnoprzepustowego dla Lfe, ograniczającego pasmo tylko do 150 Hz. W przypadku zestawów z głośnikami satelitarnymi o niewielkich rozmiarach można zakładać, że subwoofer odtwarzać będzie pasmo znacznie szersze. Emisja częstotliwości z przedziału od 150 Hz do początku pasma przenoszenia głośników satelitarnych może być w takim przypadku bardzo utrudniona. Podobnie sytuacja rysuje się w przypadku Ogg Vorbis, choć tam pasmo kanału Lfe ograniczono nieco mniej, bo do 250 Hz. Każdy z użytych kodeków traktuje sygnały w standardzie 5.1 nieco inaczej, jednak każdy z algorytmów brał pod uwagę, że kanał nr 4 jest przeznaczony dla niskich częstotliwości. Najbardziej przemyślany wydaje się tu być schemat działania zastosowany w Opusie, co znajduje odzwierciedlenie w wynikach testów. Jego twórcy nie założyli też tak znaczącego ograniczenia pasma w kanale niskich częstotliwości, jak w przypadku AAC+ oraz Ogg Vorbis. 102

103 5.2.2 Lokalizacja w systemach dwukanałowych W testach lokalizacji zarówno szumów jak i instrumentów w nagraniach dwukanałowych, zdecydowanie wybił się jeden z kodeków. Opus (i to dla 64 kbps) w obu przypadkach uzyskał najwyższy wynik. Po nim plasuje się Opus 128 kbps oraz dźwięk poddany filtracji dolnoprzepustowej. Gorsze rezultaty uzyskały natomiast AAC+ oraz Ogg Vorbis dla 64 kbps. Tab. 5.5 Wyniki standardowe testów lokalizacji w odsłuchu dwukanałowym (im wyższe, tym lepsza lokalizacja). lokalizacja lokalizacja szumów instrumentów kodek Ogg Vorbis 64 kbps AAC 64 kbps OPUS 64 kbps Ogg Vorbis 128 kbps AAC 128 kbps Opus 128 kbps WAV LPF 15 khz 0,23-0,06 2,09 1,04 0,75 0,17 0,40 0,55 0,35 1,31 0,27 0,47 1,11 1,15 suma 0,78 0,29 3,41 1,31 1,22 1,28 1,55 WAV LPF 15 khz Opus 128 kbps AAC 128 kbps Ogg Vorbis 128 kbps OPUS 64 kbps AAC 64 kbps Ogg Vorbis 64 kbps -0,50 0,00 0,50 lok. szumów 1,00 1,50 2,00 2,50 lok. instrumentów Rys Wykres przedstawiający rezultaty kodeków w dwukanałowych testach lokalizacji Poniżej zostaną przedstawione wykresy pomagające porównać widma sygnałów zakodowanych z ich pierwowzorami. Widma zostały poddane wygładzeniu, aby ich 103

104 wykresy były bardziej czytelne. Rys.5.17 Porównanie widm szumu z kierunku A (zgodnie z oznaczeniem na ankiecie), nagranego binauralnie. Czerwony (widmo oryginalne), niebieski (widmo sygnału zapisanego w formacie Opus 64 kbps). Jak widać, powyżej 15,5 khz szum zastąpiony został szumem białym. Rys Porównanie widm szumu z kierunku A, nagranego binauralnie. Czerwony (widmo 104

105 oryginalne), niebieski (widmo sygnału zapisanego w formacie Ogg Vorbis 64 kbps). Składowe powyżej 15,5 khz zostały usunięte. Rys Porównanie widm szumu z kierunku A, nagranego binauralnie. Czerwony (widmo oryginalne), niebieski (widmo sygnału zapisanego w formacie AAC+ 64 kbps). Podobnie jak w przypadku dźwięku pięciokanałowego, energia w wyższych pasmach częstotliwości jest nieco ograniczona w stosunku do oryginału. Można też zauważyć dołek w okoliacch 11 khz oraz 16 khz. Rys Porównanie widm szumu z kierunku A (zgodnie z oznaczeniem na ankiecie), nagranego 105

106 binauralnie. Czerwony (widmo oryginalne), niebieski (widmo sygnału zapisanego w formacie Opus 128 kbps). Rys Porównanie widm szumu z kierunku A (zgodnie z oznaczeniem na ankiecie), nagranego binauralnie. Czerwony (widmo oryginalne), niebieski (widmo sygnału zapisanego w formacie Ogg Vorbis 128 kbps). Pasmo sygnału skompresowanego jest ograniczone do 19 khz. 106

107 Rys Porównanie widm szumu z kierunku A (zgodnie z oznaczeniem na ankiecie), nagranego binauralnie. Czerwony (widmo oryginalne), niebieski (widmo sygnału zapisanego w formacie AAC+ 128 kbps). Można zauważyć podobne wycięcie w okolicy 11 oraz 16 khz jak w przypadku 64 kbps. Najbardziej zgodnym odwzorowaniem przedstawionych tu sygnałów w częstotliwości, dla obu testowanych (przy porównaniu tych samych przepływności bitowych) cechował się Opus. Sygnały zakodowane przy użyciu AAC+ nie miały pasma ograniczonego poniżej 20 khz, natomiast pojawiały się tam spore zniekształcenia w niektórych zakresach częstotliwości. Ogg Vorbis w przypadku 64 kbps ograniczał pasmo sygnału do 15,5 khz, podbijając nieco wysokie częstotliwości. Dla 128 kbps sygnał nie zawierał składowych powyżej 19 khz. Aby sprawdzić, na ile algorytmy kompresji zachowują różnice między lewym i prawym kanałem, wykonano proste porównanie, obliczając średni moduł ich różnicy. Wyniki zebrane w poniższej tabeli obliczono zgodnie ze wzorem: n 1 Roz LP = slewy (i) s prawy (i) n i=1 Roz LP wzgl = Roz LP Roz LP WAV (5.1) gdzie: RozLP średni moduł różnicy międzykanałowej n liczba próbek i nr danej próbki slewy kanał lewy sprawy kanał prawy RozLP wzgl różnica międzykanałowa względem sygnału oryginalnego (w tabeli 5.6) RozLP WAV różnica międzykanałowa sygnału oryginalnego Tab. 5.6 Zestawienie średnich różnic pomiędzy kanałami lewym i prawym w zależności od nagrania i kodeka. Liczby są różnicami względnymi w stosunku do wartości tego parametru dla sygnału nieskompresowanego. Kolorami zielonym i czerwonym oznaczono największe i najmniejsze wartości w danej kategorii. 107

108 rodzaj dźwięków (sposób rejestracji) kodek Opus 64 kbps Ogg Vorbis 64 kbps AAC+ 64 kbps Opus 128 kbps Ogg Vorbis 128 kbps AAC+ 128 kbps nagr. szumy instrumentó (binauralnie) w (XY) 0,9798 0,7432 0,9573 1,0006 0,9543 0,9752 dźwięki uliczne (XY) 0,9980 0,9891 0,9971 1,0003 1,0046 0,9935 1,0004 0,9322 0,9957 1,0007 0,9918 0,9968 średnia średnia (wyn. stand.) 0,9927 0,8882 0,9834 1,0005 0,9836 0,9885 0,47-2,02 0,25 0,66 0,26 0,37 Różnice międzykanałowe względny średni moduł różnicy miedzykanałowej w zależności od użytego kodeka 1,1 1,0 1,0 0,9 0,9 0,8 Ogg Vorbis 64 kbps Opus 128 kbps AAC+ 128 kbps Opus 64 kbps AAC+ 64 kbps Ogg Vorbis 128 kbps Rys Wykres ilustrujący średnie wartości z tabeli 5.6 Zarówno wykresy widm, jak i porównanie różnic międzykanałowycyh wydają się potwierdzać, że w sposób najbardziej wierny sygnały były odtwarzane przez Opus 128 kbps, a najbardziej zniekształcał je Ogg Vorbis 64 kbps. Z powyższego wykresu nie można natomiast wysnuć wniosku, żeby Opus 64 kbps w jakiś sposób zwiększał separację kanałów, co można by podejrzewać na podstawie wyniku testów lokalizacji Ocena jakości nagrań 108

109 Opus 32 kbps WAV LPF 15 khz 3,00 Naturalność Kreowanie przestrzeni 2,00 Lokalizacja Ciągłość przestrzeni Szczegółowość AAC+ 32 kbps OGG 32 kbps WAV Rys.5.24 Wykres zbiorczo przedstawiający oceny nagrań w systemie pięciokanałowym O ile wyniki AAC+ i Opusa są dość zbliżone, wyraźnie różni się od nich OGG Vorbis, który otrzymał znacznie niższe noty. W czasie badania niektórzy z słuchaczy komentowali, że dźwięki nim zakodowanie ewidentnie negatywnie odbiegają od reszty. Ocena średnia kodeków dla systemu pięciokanałowego 3,30 3,10 2,90 2,70 2,50 2,30 2,10 WAV LPF 15 khz Opus 32 kbps AAC+ 32 kbps Rys Średnie ocen dla nagrań w systemie pięciokanałowym 109 WAV OGG Vorbis 32 kbps

110 WAV LPF 15 khz OGG 64 kbps 2,60 OGG 128 kbps 2,10 AAC+ 64 kbps Opus 128 kbps Opus 64 kbps AAC+ 128 kbps Naturalność Lokalizacja Szczegółowość średnia Kreowanie przestrzeni Ciągłość przestrzeni Przestrzenność Rys.5.26 Wykres zbiorczo przedstawiający wyniki ocen nagrań w systemie dwukanałowym Ocena średnia kodeków w systemach dwukanałowych 3,00 2,90 2,80 2,70 2,60 2,50 2,40 2,30 2,20 2,10 OGG 64 kbps AAC+ 64 kbps Opus 64 kbps WAV LPF 15 khz OGG 128 kbps AAC+ 128 kbps Opus 128 kbps Rys Średnia ocena kodeków w systemach dwukanałowych 110

111 Naturalność brzmienia w systemach dwukanałowych Opus 128 kbps Opus 64 kbps AAC+ 128 kbps AAC+ 64 kbps OGG 128 kbps OGG 64 kbps WAV LPF 15 khz 2,10 2,20 2,30 2,40 2,50 2,60 2,70 2,80 2,90 3,00 2,80 2,90 3,00 Ocena średnia Rys. 5.1 Oceny naturalności brzmienia kodeków w systemach dwukanałowych. Kreowanie przestrzeni w systemach dwukanałowych Opus 128 kbps Opus 64 kbps AAC+ 128 kbps AAC+ 64 kbps OGG 128 kbps OGG 64 kbps WAV LPF 15 khz 2,10 2,20 2,30 2,40 2,50 2,60 2,70 Ocena średnia Rys. 5.2 Oceny parametru kreowanie przestrzeni brzmienia kodeków w systemach dwukanałowych. 111

112 Lokalizacja w systemach dwukanałowych Opus 128 kbps Opus 64 kbps AAC+ 128 kbps AAC+ 64 kbps OGG 128 kbps OGG 64 kbps WAV LPF 15 khz 2,10 2,20 2,30 2,40 2,50 2,60 2,70 2,80 2,90 3,00 Ocena średnia Rys. 5.3 Oceny parametru lokalizacja brzmienia kodeków w systemach dwukanałowych. Ciągłość przestrzeni w systemach dwukanałowych Opus 128 kbps Opus 64 kbps AAC+ 128 kbps AAC+ 64 kbps OGG 128 kbps OGG 64 kbps WAV LPF 15 khz 2,10 2,20 2,30 2,40 2,50 2,60 2,70 2,80 2,90 3,00 Ocena średnia Rys. 5.4 Oceny parametru ciągłość przestrzeni brzmienia kodeków w systemach dwukanałowych. 112

113 Szczegółowość w systemach dwukanałowych Opus 128 kbps Opus 64 kbps AAC+ 128 kbps AAC+ 64 kbps OGG 128 kbps OGG 64 kbps WAV LPF 15 khz 2,10 2,20 2,30 2,40 2,50 2,60 2,70 2,80 2,90 3,00 Ocena średnia Rys. 5.5 Oceny parametru szczegółowość brzmienia kodeków w systemach dwukanałowych. Przestrzenność w systemach dwukanałowych Opus 128 kbps Opus 64 kbps AAC+ 128 kbps AAC+ 64 kbps OGG 128 kbps OGG 64 kbps WAV LPF 15 khz 2,10 2,20 2,30 2,40 2,50 2,60 2,70 2,80 2,90 3,00 Ocena średnia Rys. 5.6 Oceny parametru przestrzenność brzmienia kodeków w systemach dwukanałowych. Zarówno w systemach dwukanałowych, jak i w wersji pięciokanałowej, najlepsze 113

114 wyniki wydaje się osiągać Opus. Przeważnie góruje on i w przypadku 64 kbps i 128 kbps. O ile Opus 64 kbps nie osiągnął najwyższych ocen w kategorii naturalności brzmienia, dostał najwyższe noty za parametr lokalizacja. Przypomnijmy jego definicję z ankiety: Możliwość precyzyjnego zlokalizowania konkretnych źródeł dźwięku w przestrzeni (np. biegnącego dziecka, rozmawiających osób albo granej melodii). Wynik ten jest spójny z rezultatem Opusa 64 kbps w testach lokalizacji. Sposób przetwarzania sygnału przez ten algorytm wydaje się ułatwiać późniejsze umiejscowienie źródeł dźwięku przez słuchających. Niższe wyniki osiągał Ogg Vorbis, zaś pośrednie z reguły AAC Podsumowanie Przeprowadzone badania miały za zadanie w prosty sposób sprawdzić, który z nowoczesnych i obecnie popularnych bądź mających spore szanse wejść do powszechnego użytku algorytmów stratnej kompresji dźwięku, w najmniejszy sposób degraduje zawarte w nim informacje przestrzenne. W rezultacie, choć autorzy zdają sobie sprawę z niedoskonałości i niepełności przeprowadzonych testów, można z dużą dozą pewności określić, które rozwiązanie sprawdzi się najlepiej, a które najgorzej, gdy jako kryterium przyjmiemy wierne oddanie zarejestrowanego lub wytworzonego obrazu akustycznego. W rozwiązaniach praktycznych, przy niskich przepływnościach bitowych (64 kbps, 32 kbps/kan. dla 5.1) użycie Ogg Vorbis z pewnością nie będzie rozwiązaniem optymalnym, a Opus lub AAC+ sprawdzą się znacznie lepiej. Ten pierwszy jest tu zdecydowanym liderem, jeśli chodzi o większość przeprowadzonych badań. W przypadku 128 kbps w systemach dwukanałowych sytuacja jest już bardziej wyrównana i wybór stosowanego standardu kompresji nie będzie miał dla słuchaczy aż takiego znaczenia. Wyniki wydają się być zgodne z rezultatem badań przeprowadzonych przez twórców kodeka Opus [38]. Były to testy porównawcze plików 64 kbps dokładne ich rezultaty, a także stosowane do badań nagrania są dostępne pod adresem:

115 Rys. 5.7 Wyniki testów porównawczych kodeków przeprowadzanych przez fundacje Xiph.org w 2011 roku. Źródło: Na zielono zaznaczono zwycięzcę wg kryterium Condorceta. Na czerwono wyniki najgorsze, kolor żółty przypisany jest wynikom pośrednim. 5.3 Analiza wyników techniki mikrofonowe W niniejszym rozdziale zostaną przestawione wyniki badań odsłuchowych z uwzględnieniem użytych w nagraniach technik mikrofonowych (ORTF, XY, mikrofony binauralne, mikrofon ambisoniczny) z uwzględnieniem systemów odsłuchowych (systemu 5.0, systemu stereofonicznego i odsłuchu słuchawkowego) Analiza wyników badania lokalizacji instrumentów Lokalizację instrumentów oceniano na podstawie metryki edycyjnej określając błąd lokalizacji instrumentów od 0 (w przypadku idealnej lokalizacji) do 4 (gdy wszystkie 4 instrumenty były błędnie określone). Rys. 5.8 Wykres pudełkowy przedstawiający rozkład błędów przy lokalizacji instrumentów w zależności od użytej techniki mikrofonowej i systemu odsłuchowego 115

116 Analizując powyższy wykres, można zauważyć bardzo dobre wyniki lokalizacyjne dla układów ORTF i mikrofonów binauralnych, szczególnie przy odsłuchu słuchawkowym. Dodatkowo jedynie przy systemie odsłuchu słuchawkowego nagrań binauralnych, nie zanotowano ani raz przypadku błędnego rozmieszczenia wszystkich czterech instrumentów. Pozostałe techniki mają przeciętne wyniki, osiągając równie często błąd rzędu 1 i 2. Rys. 5.9 Wykres przedstawiający średni błąd lokalizacji (im mniej, tym lepszy wynik) instrumentów w zależności od użytej techniki mikrofonowej i systemu odsłuchowego. Na wykresie powyżej przedstawiono średnie błędy popełnianie przez słuchaczy przy lokalizacji instrumentów. Tutaj jeszcze wyraźniej widać wyjątkowo dobry wynik mikrofonów binauralnych i ORTF przy odsłuchu słuchawkowym. Niewiele gorsze rezultaty osiągnęła technika binauralna przy odsłuchu stereo za pomocą głośników, pomimo jej przeznaczenia jedynie do odsłuchu słuchawkowego. Jej wynik był lepszy niż techniki ORTF czy XY. Słaby wynik osiągnęła konfiguracja XY zarówno przy odsłuchu głośnikowym jak i słuchawkowym. Może to sugerować, że użycie jedynie międzykanałowej różnicy natężeniowej, tak popularnej w dzisiejszych czasach w 116

117 technice miksowania i panoramowania muzyki, może być niewystarczające do właściwej lokalizacji dźwięku. Szczególne problemy w tej technice powinny dotyczyć lokalizacji umiejscowienia wiolonczeli z uwagi na brak możliwości lokalizacji niższych częstotliwości przy użyciu jedynie ILDII. Zaskakuje najsłabszy wynik konfiguracji Soundfield->5.0 ponad dwukrotnie słabszy od techniki ORTF i binauralnej odsłuchiwanej na słuchawkach. Należy zwrócić uwagę, że mikrofon ambisoniczny, podobnie jak technika XY, opiera się na koincydentnym ustawieniu kapsuł mikrofonowych, czyli w efekcie użyciem jedynie zjawiska międzyusznej różnicy natężenia dźwięku, co zdecydowanie utrudnia lokalizację dźwięków o niskich częstotliwościach. Jednym z lokalizowanych instrumentów była nisko grająca wiolonczela, więc dla techniki XY oraz techniki ambisonicznej powinien być to zawsze instrument bardzo trudny do dokładnego zlokalizowania. Mogło przełożyć się to bezpośrednio na słabszy wynik tych konfiguracji w tej części badania odsłuchowego w stosunku do technik ORTF i techniki binauralnej, które uwzględniały również różnice czasowe dotarcia dźwięku do przetworników (a w efekcie do uszu słuchacza ITD III) pozwalając na lokalizację niższych częstotliwości. Także odsłuch słuchawkowy pozwalał odwzorować dokładnie zarejestrowane różnice czasowe ITD, które przy odsłuchu głośnikowym były zafałszowane przez obecność przesłuchów. Aby zweryfikować stopnień błędu lokalizacji niskich częstotliwości, wyliczono za pomocą skryptu napisanego w języku Python, błąd lokalizacji dla wiolonczeli w następujący sposób: idealnemu umiejscowieniu wiolonczeli jest przypisana wartość 0, przy błędnym określeniu położenia o jedną pozycję (np. FGWS i FGSW) przypisywana jest wartość 1, itd. Maksymalny błąd określenia lokalizacji wynosi więc 3. Jednak należy pamiętać również o tym, że błąd lokalizacji innych instrumentów może wpłynąć negatywnie na lokalizację wiolonczeli pomimo właściwego rozpoznania jej położenia. II Interaural Level Difference III Interaural Time Difference 117

118 Tab. 5.7 Średni błąd przy lokalizacji wiolonczeli w zależności od systemu odsłuchowego i techniki mikrofonowej Po zestawieniu wyników w tabeli 5.7 można zauważyć rzeczywiście najgorszy wynik lokalizacji wiolonczeli dla techniki XY i techniki ambisonicznej. Inną rzeczą wartą zauważenia są praktycznie identyczne przeciętne wyniki lokalizacji dla każdej techniki mikrofonowej przy odsłuchu głośnikowym stereo. W przypadku ORTF i techniki binauralnej potwierdza to negatywny wpływ przesłuchów na odwzorowanie ITD pomocnego przy lokalizacji niższych częstotliwości. W przypadku XY, gdzie zarejestrowane ITD jest minimalne, widać odwrotną zależność, tzn. dużo gorszy wynik odnotowano dla odsłuchu słuchawkowego. Ma to miejsce jednak jedynie przy lokalizacji wiolonczeli. Kolejnym aspektem, utrudniającym lokalizację przy użyciu techniki ambisonicznej, jest rejestracja ambientu pomieszczenia o dość długim czasie pogłosu, bo w takim było dokonywane nagranie. Zarejestrowane dźwięki odbite od ścian pomieszczenia (i reprodukowane w systemie 5.0 przez tylne głośniki) mogły znacząco utrudnić lokalizację instrumentów. Dłuższy czas pogłosu zmniejsza czytelność dźwięków, co ma wpływ na ich lokalizację. W przypadku technik stereofonicznych - XY i ORTF, amplituda dźwięków odbitych przy właściwym ustawieniu mikrofonów jest dużo niższa od poziomu dźwięków bezpośrednich z uwagi na kardioidalną charakterystykę kierunkową użytych mikrofonów. W przypadku techniki ambisonicznej poziom ambientu i dźwięków bezpośrednich jest bardziej wyrównany, ponieważ ta technika po reprodukcji do dźwięku pięciokanałowego jest równoważna z użyciem pięciu mikrofonów kardioidalnych ustawionych na zewnątrz i 118

119 o kątach zgodnych z kątami ustawienia głośników w systemie 5.1. Spowodowało to rejestrację zarówno dźwięków bezpośrednich kwartetu instrumentalnego i dźwięków odbitych pomieszczenia w równym stopniu. Oczywiście w większym stopniu odpowiada to sytuacji, w której znajdowałby się słuchacz siedzący w miejscu położenia mikrofonu. Techniki stereofoniczne ORTF i XY zmniejszają realizm reprodukcji nagrania poprzez zmniejszony poziom rejestracji ambientu pomieszczenia, ale jednocześnie w ten sposób zwiększają czytelność nagrania. Dla porównania obliczono również błąd lokalizacji gitary klasycznej charakteryzującej się transjentowym dźwiękiem o zdecydowanie wyższych składowych częstotliwościowych. Tab. 5.8 Średni błąd przy lokalizacji gitary w zależności od systemu odsłuchowego i techniki mikrofonowej Tak jak można się było spodziewać, gitara charakteryzująca się wyższym dźwiękiem niż wiolonczela, osiągnęła lepsze wyniki lokalizacyjne w praktycznie każdym przypadku (minimalnie gorszy wynik jedynie dla konfiguracji XY -> stereo). Szczególnie dużą różnicę widać dla techniki XY z odsłuchem słuchawkowym i techniki ambisonicznej, co potwierdza wpływ ILD na lokalizację wyższych częstotliwości. Jednak i w tym przypadku technika ORTF i technika binauralna osiągnęły dużo lepsze wyniki Analiza ocen jakości nagrań Badania jakości nagrań polegały na subiektywnej ich ocenie w kilku kategoriach przez słuchających w skali od 1 4, gdzie 1 oznaczało najgorszą, a 4 najlepszą ocenę. 119

120 Niestety wskutek uszkodzenia jednego z kabli mikrofonowych i w efekcie rejestracji na jednym ze śladów wysokiego poziomu szumów, pominięto w teście odsłuchowym technikę ORTF. Aby móc ogólnie zorientować się w ogólnym rozkładzie wyników osiąganych przez poszczególne nagrania, posłużono się wykresem pudełkowym przedstawionym na rys Pokazuje on rozkład ocen ze wszystkich kategorii dla danej konfiguracji techniki mikrofonowej i systemu odsłuchowego. Rys Wykres pudełkowy pokazujący rozkład ocen w skali 1-4 ze wszystkich kategorii w zależności od użytej techniki mikrofonowej i systemu odsłuchowego Wykres ten pokazuje dość równomierny rozkład ocen dla każdego z systemów. Uwagę przykuwa dobry wynik techniki ambisonicznej, która osiągnęła słabe wyniki w badaniu lokalizacji instrumentów oraz równie dobry wynik techniki binauralnej z użyciem odsłuchu słuchawkowego. Tab. 5.9 Zestawienie średnich wyników w każdej kategorii w zależności od użytej techniki mikrofonowej i systemu odsłuchowego Naturalność Kreowanie Ciągłość Lokalizacja Szczegółowość Przestrzenność przestrzeni przestrzeni Soundfield 5.0 2,74 3,11 3,03 3,02 3,12 3,18 binaural stereo 2,67 2,66 2,76 2,86 2,79 2,88 2,91 3,10 3,11 3,23 3,11 3,19 XY stereo 2,41 2,25 2,31 2,34 2,49 2,19 XY słuchawki 2,36 2,26 2,30 2,58 2,53 2,29 binaural słuchawki 120

121 Powyższa tabela zawiera uśrednione wyniki w każdej z kategorii. Tradycyjnie już technika XY uzyskała najsłabsze wyniki w każdej z kategorii. Technika binauralna przy odsłuchu słuchawkowym za każdym razem uzyskiwała lepszy wynik niż technika XY, lecz słabszy od tych samych nagrań binauralnych przy odsłuchu słuchawkowym i nagrań dokonanych za pomocą techniki ambisonicznej. Poniżej przedstawiono zestawienia ocen dla poszczególnych kategorii. Rys Wykres średnich ocen dla kategorii naturalność brzmienia w zależności od użytej techniki mikrofonowej i systemu odsłuchowego 121

122 Rys Wykres średnich ocen dla kategorii kreowanie przestrzeni w zależności od użytej techniki mikrofonowej i systemu odsłuchowego Rys Wykres średnich ocen dla kategorii lokalizacja w zależności od użytej techniki mikrofonowej i systemu odsłuchowego 122

123 Rys Wykres średnich ocen dla kategorii ciągłość przestrzeni w zależności od użytej techniki mikrofonowej i systemu odsłuchowego Rys Wykres średnich ocen dla kategorii szczegółowość w zależności od użytej techniki mikrofonowej i systemu odsłuchowego 123

124 Rys Wykres średnich ocen dla kategorii przestrzenność w zależności od użytej techniki mikrofonowej i systemu odsłuchowego Wykresy dla każdej z kategorii pokazują bardzo podobne zależności ocen między poszczególnymi konfiguracjami (techniki mikrofonowej z systemem odsłuchowym), co najprawdopodobniej spowodowane było sugerowaniem się słuchaczy wrażeniami przestrzennymi nagrania. Te wrażenia wpłynęły również na oceny kategorii niezwiązanych bezpośrednio z przestrzennością, jak kategoria naturalność brzmienia czy szczegółowość. W przyszłości wykonując podobne badania, można by uniknąć tych sugestii poprzez ocenę tylko jednej kategorii po odsłuchaniu jednego nagrania. Wymagałoby to jednak dużo więcej czasu na przeprowadzenie takich badań, znaczne zmniejszenie komfortu osoby badanej, znużenie, a w efekcie spadek wiarygodności ocen. Dość zaskakująca jest bardzo wysoka ocena naturalności brzmienia techniki binauralnej z odsłuchem głośnikowym, niewiele gorsza od techniki ambisonicznej i dużo lepsza od technik XY. Aby spróbować wyjaśnić to zjawisko, wyliczono widmo częstotliwościowe nagrania sporządzonego za pomocą techniki binauralnej i techniki XY lewego i prawego kanału. 124

125 Rys Widma nagrań ambientowych techniki binauralnej i XY dla kanału lewego Rys Widma nagrań ambientowych techniki binauralnej i XY dla kanału prawego 125

126 Oś częstotliwości została przedstawiona w skali logarytmicznej, tak aby łatwiej można było zaobserwować różnice dla niższych częstotliwości. Dla kanału lewego techniki XY można zaobserwować dużo wyższy poziom najniższych częstotliwości wynikłych prawdopodobnie z obecności dość silnego wiatru wiejącego z lewej strony. Przy rejestracji techniką binauralną nie widać takiego wzmocnienia dla częstotliwości poniżej 100 Hz i ich poziom jest podobny jak w kanale prawym. Ta cecha mogła wpłynąć negatywnie na ocenę naturalności brzmienia dla techniki XY. Można to jednak rozwiązać w prosty sposób, stosując lepsze osłony przeciwwiatrowe dla mikrofonów. Obecność silnych niskich częstotliwości mogła wpłynąć też negatywnie na detale nagrania takie jak ciche rozmowy, co wpłynęło negatywnie na ocenę techniki XY w kategorii szczegółowości brzmienia. Inną widoczną różnicą, wynikającą prawdopodobnie z wpływu funkcji HRTF, jest widoczne podbicie ok. 150 Hz oraz od 300 Hz do 1000 Hz w technice binauralnej w stosunku do XY. Są to częstotliwości odpowiadające częstotliwości podstawowej najistotniejszych zarejestrowanych dźwięków mowa, dźwięk trąbki i szum fontanny. Podbicie tych częstotliwości mogło w istotny sposób wpłynąć na szczegółowość nagrania, co potwierdzają wyniki badania odsłuchowego. Porównano także widma techniki binauralnej i techniki ambisonicznej jako dwóch osiągających najlepsze wyniki w tej części badań. Wykresy sporządzono dla lewego kanału w technice binauralnej i kanału pierwszego odpowiadającego za kanał L dla techniki ambisonicznej. 126

127 Rys Widma częstotliwościowe nagrań ambientowych techniki binauralnej i XY dla kanału lewego Wykres pokazuje wpływ obecności bardzo dobrego filtru przeciwwietrznego na całkowity brak niskich częstotliwości w zakresie poniżej 100 Hz. Dzięki zastosowaniu filtru całkowicie odseparowano mikrofon Soundfield od wpływu wiatru na widmo sygnału. Dodatkowo widać jeszcze wyraźniejsze niż w technice binauralnej wzmocnienie częstotliwości z zakresu od 150 Hz do 1500 Hz. Mogło to wpłynąć na pogorszenie odbioru naturalności brzmienia takiego nagrania. W tej kategorii nagranie binauralne odsłuchiwane na słuchawkach zostało wyraźnie lepiej ocenione. W kategoriach oceniających wrażenia przestrzenne wyraźna przewaga techniki binauralnej i ambisonicznej wydaje się oczywista. Nawet w kategorii lokalizacji technika ambisoniczna osiągnęła dobre rezultaty, co może dziwić zważywszy na wyniki tej techniki w lokalizacji instrumentów Analiza wyników lokalizacji sekwencji szumów Ostatnią częścią badania odsłuchowego było zbadanie możliwości lokalizacji sygnału szumowego. Do tego celu użyto szumu białego charakteryzującego się płaskim widmem amplitudowym. Dzięki temu można było zminimalizować wpływ brzmienia 127

128 źródła dźwięku na lokalizację przy użyciu danej techniki mikrofonowej czy systemu odsłuchowego. Jako że sygnały szumowe generowane były dookoła słuchacza także z tyłu głowy, nie było sensu testować technik typu XY czy ORTF rejestrujących jedynie ograniczony kąt planu dźwiękowego z uwagi na użycie mikrofonów kardioidalnych. Z tego samego powodu nie ma sensu testowanie nagrań przy użyciu głośników w systemie stereofonicznym, ponieważ nie będą one w stanie odtworzyć lokalizacji dźwięków znajdujących się z tyłu głowy słuchacza. W tej sytuacji pozostały jedynie do analizy dwie konfiguracje: rejestracja mikrofonem ambisonicznym i odtwarzanie w systemie 5.0 oraz rejestracja za pomocą techniki binauralnej odsłuchiwana wyłącznie na słuchawkach, czyli dwie konfiguracje, które osiągnęły najlepsze wyniki w poprzedniej części badania odsłuchowego. Poniżej znajduje się wykres pudełkowy pokazujący rozkład sumy błędów określenia lokalizacji sekwencji szumów. Rys Wykres pudełkowy przedstawiający rozkład błędów przy lokalizacji sekwencji szumów w zależności od użytej techniki mikrofonowej i systemu odsłuchowego Kolejny raz technika binauralna osiąga najlepsze wyniki z najczęstszym błędem sumarycznym wynoszącym 4, podczas gdy najpopularniejszy wynik dla techniki ambisonicznej wynosi 6. Aby zbadać dokładniej sposób lokalizacji poszczególnych kierunków zbadano błąd lokalizacji dla poszczególnych kierunków za pomocą skryptu napisanego w języku Python. Wyniki przedstawiające ilość błędów w zależności od sekwencji i od lokalizacji przedstawia poniższa tabela. 128

129 Tab Tabela przedstawiająca ilość błędnych lokalizacji dla danego kierunku (A, B, C, D, E, F, G lub H jak w ankiecie) w zależności od sekwencji, użytej techniki mikrofonowej i systemu odsłuchowego nr pliku Mic->system sekwencja A B C D E F G H 1 ACDFGBEH BGDAFHCE Soundfield -> 5.0 EGACFHBD EFBADCGH EFHGBADC FGHDACBE AGFEHBCD DHGBFECA binaural -> słuchawki ABDGHCFE DEGAHCFB BCAEHGDF ACFGEDBH Tab Tabela przedstawiająca średnią ilość błędów dla danego kierunku wypadających na jedną sekwencję Średnia ilość błędów na sekwencję dla danego kierunku Mic->system A B C D E F G H Soundfield -> 5.0 0,0923 0,0923 0,8154 0,8615 0,7231 0,5385 0,5846 0,5385 binaural -> słuchawki 0,2418 0,5934 0,4945 0,2967 0,2527 0,2637 0,1538 0,3297 Przy analizie powyższych tabeli może zastanawiać bardzo duży rozrzut między lokalizacją na kierunku B i kierunku H przy technice ambisonicznej, a także między kierunkiem G i C w technice binauralnej, pomimo spodziewanej symetrii wyników. 129

130 Rys Graficzne przedstawienie błędów lokalizacji z danego kierunku dla techniki ambisonicznej Rys Graficzne przedstawienie błędów lokalizacji z danego kierunku dla techniki binauralnej 130

131 W obu przypadkach widoczny jest wyraźny brak symetrii wyników ilości błędów. Technika ambisoniczna osiągnęła świetne rezultaty dla kierunku A i B i bardzo słabe dla reszty kierunków, zaś w przypadku techniki binauralnej, błędy były rozłożone bardziej równomiernie. Aby dokładniej zlokalizować przyczynę takiego ich rozkładu, dla każdego kierunku wyliczono histogramy kierunków, które były typowane zamiast prawidłowej odpowiedzi. Dzięki temu można zaobserwować, który kierunek, z jakim był najczęściej mylony. Trzeba wziąć pod uwagę, że ilość badanych nagrań była większa w przypadku techniki binauralnej, co przekłada się również na ilość błędnych odpowiedzi. Rys Histogram błędnych wyznaczeń kierunków dla kierunku A 131

132 Rys Histogram błędnych wyznaczeń kierunków dla kierunku B Rys Histogram błędnych wyznaczeń kierunków dla kierunku C Rys Histogram błędnych wyznaczeń kierunków dla kierunku D 132

133 Rys Histogram błędnych wyznaczeń kierunków dla kierunku E Rys Histogram błędnych wyznaczeń kierunków dla kierunku F 133

134 Rys Histogram błędnych wyznaczeń kierunków dla kierunku G Rys Histogram błędnych wyznaczeń kierunków dla kierunku H Powyższe histogramy dają nam dużo informacji na temat błędów popełnianych przy lokalizacji sekwencji szumów. Pierwszą ważną informacją jest przesunięcie obrazu dźwiękowego lekko w prawo, zgodnie z kierunkiem ruchu wskazówek zegara dla techniki ambisonicznej. Jest ono jednak minimalne dla kierunków A i B czyli samego przedniego głośnika i następnego na prawo od niego. Zjawiska te są dość niespodziewane. Przede wszystkim oczekiwano symetrycznych wyników względem osi tworzonej przez głośniki A i E. Przy odsłuchu 134

135 5.0 słuchacze mieli możliwość ruchów głową i obracania się w trakcie słuchania, co skwapliwie wykorzystywali. Wyklucza to złe umiejscowienie osoby badanej w polu odsłuchowym jako przyczynę niesymetryczności błędów, skoro sama osoba mogła korygować to ustawienie. Takie ruchy głową powinny również znacząco poprawić lokalizację na osi przód tył, co miało miejsce w przypadku kierunku przedniego A, ale już w zdecydowanie mniejszym dla kierunku tylnego E. Prawdopodobnie gorszy wynik lokalizacji dla kierunku E wynikał z braku centralnego tylnego głośnika w systemie 5.0. Ogólnie pomimo braku symetrii, da się zauważyć lepszy stopnień lokalizacji dla przednich kierunków w systemie 5.0, co może być spowodowane nałożeniem się umiejscowienia głośników w systemie 5.0 i w ustawieniu głośników podczas rejestracji sekwencji szumów. Sugeruje to konieczność użycia większej liczbie głośników w celu prawidłowej lokalizacji kierunków z tyłu głowy słuchacza. System 6.1 przewiduje użycie dodatkowo jednego centralnego tylnego głośnika, pozwalając jednocześnie na rozsunięcie głośników surroundowych prawego i lewego, co może dać lepszą lokalizację dźwięków dochodzących z tyłu i z boków. Rys Wykres wartości skutecznych amplitudy poszczególnych kanałów dla kierunku B i H 135

Pokazać jeszcze