16th International Symposium on Sound Engineering and Tonmeistering

Transkrypt

1 Warszawa, 8-10 October 2015 AKUSTYCZNA BAZA SYGNAŁÓW MUZYCZNYCH KODOWANYCH WYBRANYMI TECHNIKAMI Stefan BRACHMAŃSKI Politechnika Wrocławska, Wyspiańskiego 27, Wrocław Rosnące zapotrzebowanie na transmisję wysokiej jakości sygnałów mowy, muzyki i video wymaga opracowywania nowych technik kodowania tych sygnałów. Celem kodowania jest zoptymalizowanie wykorzystania środków przekazu, tzn. uzyskanie prawie niezauważalnego pogorszenia jakości przesyłanych sygnałów dla jak najmniejszej szybkości bitowej. W artykule przedstawiono utworzoną bazę sygnałów muzycznych poddanych wybranym technikom kodowania ( AAC, mp2, mp3, ac3, ogg i wma) z różną szybkością bitową (od 32 kb/s do 320 kb/s). Zrealizowana baza może być wykorzystana nie tylko do analizy wpływu techniki kodowania i szybkości bitowej na jakość sygnału muzycznego, ale również m.in. do oceny jakości systemów transmisji sygnałów fonicznych i nagłośnieniowych, weryfikacji nowych obiektywnych metod oceny jakości. 1. WPROWADZENIE Badania dotyczące pozyskiwania różnych informacji z sygnałów muzycznych, a także na ich podstawie wymagają utworzenia akustycznej bazy takich sygnałów. Aby wyniki uzyskane przez różnych badaczy w różnych ośrodkach mogły być wzajemnie porównywane należy opracować uniwersalną akustyczną bazę sygnałów muzycznych. Baza powinna zawierać zarówno pliki źródłowe jak i poddane różnym technikom kodowania. W różnych ośrodkach tworzone są powszechnie dostępne bazy sygnałów muzycznych, np bazy dźwięków instrumentów muzycznych Master Samples na McGill University (za [2]), a także Musical Instrument Samples na University of Iowa [1] (za [2]). Niemniej jednak wciąż istnieje zapotrzebowanie na akustyczne bazy sygnałów muzycznych zawierające utwory instrumentalne oraz wokalne reprezentujące różne style muzyczne. W latach w Japonii w RealWorld Computing Partnership (RWCP) opracowano bazę sygnałów muzycznych o nazwie RWC Music Database (Real World Computing Music Database), która udostępniana jest bezpłatnie na cele naukowo-badawcze [2], [3]. Baza RWC Music Database spliki stereo w standardzie płyty CD czyli 16bit/44,1kHz, składa się z sześciu części: 1. Popular Music Database zawierająca 100 utworów, przy czym 20 z nich zawiera tekst w języku angielskim (amerykańskie przeboje lat 1980) i pozostałe (80) w języku japońskim (przeboje lat 1990); odnośnie do podziału na głosy, to 50 piosenek śpiewanych było 15 wokalistów, 14 piosenek - przez 13 wokalistek, a 6 utworów - przez 6 grup wokalnych. 2. Royalty-Free Music Database zawiera 15 utworów 10 bardzo znanych standardów popularnych piosenek angielskich i 5 barzdo znanych japońskich piosenek dla dzieci 3. Classical Music Database - 50 utworów, w tym 4 symfonie, 2 koncerty, 4 muzyka orkiestrowa, 10 muzyka kameralna, 24 wykonania solowe, 6 wykonania wokalne. Utwory zostały 1

2 wybrane tak, aby reprezentowały różne style, różną epokę, różną instrumentację, rożnych kompozytorów, różny nastrój. 4. Jazz Music Database zawiera 50 utworów; zmienność instrumentacji - 35 utworów (5 utworów 7 instrumentacji), zmienność stylów - 9 utworów, jazz fussion (jazz-rock) - 6 utworów W ramach zmienności instrumentacji uzyskano różne wersje tego samego utworu w różnych układach; pięć standardów jazzowych (modern-jazz) wykonano w siedmiu instrumentacjach, a mianowicie 1) fortepian solo, 2) solo, 3) duet (wibrafon + pianino, flet + fortepian lub pianino + bas), 4) trio fortepianowe, 5) trio fortepianowe + trąbka lub saksofon tenorowy, 6) oktet (trio fortepianowe + gitara + saksofon altowy + saksofon barytonowy + dwa saksofony tenorowy), 7) trio fortepianowe + wibrafon lub flet. W grupie zmienności stylów uwzględniono 2 utwory wokalne, 2 big band, 2 modal jazz, 2 funky jazz, 1 free jazz. Z kolei w grupie fusion jazz zawarte są utwory łączące muzykę jazzową z innymi popularnymi stylami, a więc reprezentujące jazz-pop, jazz-rock i latn jazz 5. Music Genre Database (100 utworów) składa się ze 100utworów muzycznych; po 3 dla każdego gatunku muzyki i 1 wykonany a capella. Ta baza została podzielona na 10 głównych kategorii (pop, rock, dance, jazz, muzyka latynoamerykańska, muzyka klasyczna, marsze, muzyka świat, muzyka wokalna i tradycyjnej muzyka japońska) i 33 podkategorie (muzyka popularna, ballady, rock, heavy metal, rap/hip-hop, house, techno, funky, soul/r & B, big band, modern jazz, fusion, bossa nova, samba, reggae, tango, muzyka barokowa, muzyka klasyczna, muzyka romantyczna, muzyka współczesna, orkiestra dęta, blues, folk, country, gospel, muzyka afrykańska, muzyka indyjska, flamenco, chanson, canzone, japońska muzyka popularna Enka, japońska muzyka ludowa Min'you i starożytna japońska muzyka dworska Gagaku). Autorzy bazy zastrzegają, iż ten podział nie jest obligatoryjny lecz został ustalony z uwagi na wygodne podczas nagrywania poszczególnych utworów muzycznych. [2] 6. Musical Instrument Sound Database zawiera sekwencje muzyczne grane w sumie przez 150 instrumentów - 50 rodzajów instrumentów muzycznych w 3 różnych wariantach (3 producenci instrumentów muzycznych, 3 muzycy; różne style; dla każdego stylu gry, muzyk grał poszczególne dźwięki w odstępach co pół tonu w całym zakresie tonów, które mogą być generowane przez ten instrumentu; trzy poziomy dynamiki (forte, mezzosopran, fortepian), obejmujących cały zakres dynamiki instrumentu). Główne założenia w procesie tworzenia powszechnych, akustycznych baz sygnałów muzycznych można sformułować następująco: - baza powinna być ogólnodostępna, bezpłatna na cele naukowo-badawcze i dydaktyczne, a więc pozwalać na korzystanie bez ograniczeń w publikacjach naukowych, prezentacjach oraz w dydaktyce, - baza powinna zachęcać do stosowania metod wnioskowania statystycznego i technik uczenia, jak jest to np. w przypadku rozpoznawania mowy i mówców, - czas trwania powinien umożliwić ekstrakcję podstawowych parametrów sygnału muzycznego, - czas trwania sygnału muzycznego powinien spełniać warunki ustawy o prawie autorskim, - sygnał muzyczny powinien być reprezentatywną próbką, a więc baza powinna zawierać fragmenty utworów o różnym stylu, różnej instrumentacji, różnej technice kodowania itp. 2

3 2. WYBRANE TECHNIKI KODOWANIA SYGNAŁÓW MUZYCZNYCH Tworząc akustyczną bazę sygnałów muzycznych wybrano 6 różnych technik kodowania. W kolejnych podrozdziałach przedstawiono bardzo skrótowo (encyklopedycznie) wybrane popularne współcześnie formaty plików dźwiękowych KODOWANIE MPEG AUDIO Standard MP3 (MPEG-1 Audio Layer 3), jeden z najpopularniejszych formatów plików dźwiękowych, został opracowany w Instytucie Fraunhofera przy współpracy z firmą Thomson w 1991 roku i zaaprobowany przez ISO jako międzynarodowy standard ((ISO ) [4]. Został on zrealizowany, w oparciu o algorytm zmodyfikowanej transformaty cosinusowej, w trzech wersjach rozwojowych nazywanych Layer 1, Layer 2 (mp2), Layer 3 (mp3), których podstawowe parametry podano w tabeli 1. Tab. 1. Podstawowe parametry kompresji MPEG audio dla sygnału stereofonicznego jakości CD Kodowanie Stopień kompresji Wymagana przepustowość sygnału PCM CD Quality Layer I Layer II 1 : 1 1 : 4 1 : 8 1,4 Mbit/s 384 kbit/s 192 kbit/s Layer III (MP3) 1 : kbit/s Wszystkie standardy MPEG audio używają takiego samego schematu kodowania polegającego na ograniczaniu wielkości strumienia audio poprzez usunięcie z niego tej części sygnału, która jest nieistotna z punktu widzenia słuchacza. W tym celu wykorzystuje się niedoskonałości ludzkiego ucha, a w szczególności tzw. efekt maskowania, czyli zjawisko zagłuszania słabego sygnału przez silny sygnał występujący w jego sąsiedztwie. Oznacza to, że można usunąć słabsze dźwięki występujące w okolicach dźwięków silnych i ucho tego nie zauważy. a jednocześnie pozostały sygnał użyteczny zawiera mniej informacji. Oprócz maskowania w standardzie MP3 wykorzystywany jest również inny efekt związany z percepcją dźwięków. Mianowicie, ze względu na małą szybkość transmisji bodźców nerwowych do mózgu, człowiek nie rozróżnia słabych dźwięków występujących na krótko przed oraz po wystąpieniu silnego sygnału. Standard MP3 wykorzystuje to zjawisko rozszerzając zakres maskowania, i tak: przed sygnałem maskującym maskowanie występuje w bardzo krótkim czasie od 2 do 5 ms (niektóre źródła podają 20 ms), a po sygnale w znacznie dłuższym czasie, bowiem od 50 ms do 200 ms KODOWANIE AAC Standard AAC (Advanced Audio Coding) jest formatem kompresji stratnej wykorzystującym rozwiązania zawarte w standardach MPEG-2 oraz MPEG-4 [9]. Kodek AAC pozwala na kodowanie z częstotliwością próbkowania do 96 khz, umożliwiając jednoczesną obsługę do 48 kanałów o pełnym pasmie przenoszenia w jednym strumieniu danych. Kodek ten oferuje cztery podstawowe profile kodowania, a mianowicie: LC (Low Complexity), MAIN (Main Profile), SRS (Sample-Rate Scalable) lub AAC-SSR (Advanced Audio Coding - Scalable Sample Rate) oraz LTP (Long Term Prediction). Kodowanie LC jest najprostszym i jednocześnie najpopularniejszym profilem, odtwarzanym przez wszystkie dekodery formatu AAC. Profil MAIN to nieco wyższy standard kodowania, który jest rozszerzeniem profilu LC. W profilach SRS lub AAC-SSR pasmo częstotliwości dzielone jest na cztery podpasma. W każdym z tych podpasm sygnał jest kompresowany oddzielnie. Efektem tego jest nieco 3

4 niższa jakość dźwięku niż w przypadku innych profili, ale za to stopień kompresji jest większy. Ostatni profil LTP jest rozszerzeniem profilu MAIN pozwalającym na uzyskanie lepszej jakości przetwarzanego dźwięku. Na bazie formatu AAC został opracowany również format HE-AAC (High Efficiency AAC (AAC+)) wykorzystujący technikę poszerzania pasma częstotliwości sygnału SBR (Spectral Band Replication), która sprawdza się szczególnie przy niskich szybkościach transmisji danych. Technika SBR polega na tym, że w koderze sygnał foniczny pozbawiony jest składowych wysokoczęstotliwościowych, a w dekoderze dokonuje się parametrycznej resyntezy górnej części widma sygnału metodą powtórzenia niskoczęstotliwościowych składowych, z odpowiednią korekcją energii na podstawie przesłanych parametrów obwiedni widmowej KODOWANIE OGG Kodowanie Ogg Vorbis jest formatem stratnej kompresji dźwięku opracowanym przez fundację Xpih.org. Format ogg złożony jest w dwóch rozwiązań, a mianowicie kodeka Vorbis i kontenera Ogg. Kodek Vorbis korzysta ze zmiennych wielkości strumieniowych, natomiast kontener Ogg przechowuje multipleksowe strumienie dźwięku oraz obrazu i napisów. Format ten występuję w postaci różnych rozszerzeń i tak pliki dźwiękowe mają rozszerzenie.ogg (dźwięk tylko w formacie Vorbis) bądź.oga, aplikacje -.ogx, pliki video -.ogv. Format Ogg wykorzystuje w zasadzie te same algorytmy co mp3. Pozwala obsłużyć 255 kanałów oraz 16-bitowy dźwięk w zakresie szybkości próbkowania 6-48 kpróbek/s. Dla sygnału stereofonicznego (2 kanały) próbkowanego z szybkością 44100próbek/s możliwa jest kompresja z szybkością z przedziału od 32kb/s do 499,9kb/c. Zaletą tego kodowania jest fakt, że nie został on opatentowany, a więc może być wykorzystywany zarówno do celów prywatnych, jak i komercyjnych bezpłatnie KODOWANIE AC3 Kodowanie AC3 (Audio Compression 3) znane również pod nazwami Dolby AC-3, Dolby Digatal AC3 czy też A/52 (nazwa przyjęta przez ATSC Advanced Television Systems Committe) [10] jest formatem kompresji stratnej wykorzystującym zmodyfikowaną dyskretną transformatę cosinusową (MDCT) do przeniesienia sygnału z dziedziny czasu do dziedziny częstotliwości. Współczynniki MDCT grupowane są w niejednorodne podpasma odpowiadające pasmom krytycznym słuchu człowieka. W każdym podpaśmie współczynniki MDCT przekształcane są na postać zmiennoprzecinkową z jedną lub wieloma mantysami na wykładnik Następnie model psychoakustyczmy wyznacza parametry percepcyjne potrzebne do kwantyzacji mantysy. Format AC3 pozwala na wielokanałowe zapisanie sygnału dźwiękowego próbkowanego z szybkością próbek/s i rozdzielczością 16 bitów lub 24 bitów. Zastosowana kompresja pozwala na zmniejszenie szybkości bitowej do 384 kb/s lub 448 kb/s dla zapisu wielokanałowego (5.1) albo do 192 kb/s dla dźwięku stereofonicznego (2.0) KODOWANIE WMA Standard WMA (Windows Media Audio) [12] jest formatem kompresji dźwięku opracowanym przez firmę Microsoft. Format ten, podobnie jak MP3, opiera się na algorytmie zmodyfikowanej transformaty cosinusowej oraz na modelu psychoakustycznym wykorzystującym niedoskonałości ucha ludzkiego. Kodowanie sygnału fonicznego może być realizowane ze stałą przepływnością strumienia bitowego CBR (Constant Bit Rate) bądź ze zmienną VBR (Variable Bit Rate). Dodatkowo w nowszych ge- 4

5 neracjach WMA wprowadzono możliwość kodowania ze średnią gęstością strumienia bitowego ABR (Average Bit Rate). Kodek WMA posiada opcję zapisu dźwięku próbkowanego z szybkością bitową próbek/s i rozdzielczością 24-bitów (w wersji WMA PRO), a także możliwość zapisu dźwięku wielokanałowego (7.1). W wersji WMA Lossless możliwy jest bezstratny zapis muzyki, wykorzystuje się VBR, a maksymalna liczba kanałów to sześć (5.1). Ostatnią wersją jest WMA Voice, który został opracowany do transmisji sygnału mowy. Nominalna szybkość próbkowania to próbek/s, przepływność CBR (do 20 kb/s), sygnał monofoniczny. 3. REALIZACJA AKUSTYCZNEJ BAZY SYGNAŁÓW MUZYCZNYCH Materiałem źródłowym była baza sygnałów muzycznych utworzona dla celów oceny jakości transmisji sygnałów audio, a także badań wpływy parametrów utworu muzycznego na wrażenia słuchacza. Składa się ze 160 fragmentów muzycznych reprezentujących różne gatunki muzyki. Wykorzystując sekwencje muzyczne opracowano listy testowe zgodnie z zaleceniem ITU [4], [6], [7]. Każda lista testowa składa się z 20 fragmentów muzycznych, których czas trwania nie przekracza 26s. Sekwencje muzyczne przedzielone są 8-10s okresami ciszy (rys.1). Parametry sygnałów muzycznych w bazie źródłowej są następujące: szybkość próbkowania próbek/s, rozdzielczość - 16 bitów, 2 kanały (stereo), format zapisu PCM. Rys. 1. Przykładowy przebieg czasowy listy 1 L Na potrzeby prezentowanej bazy sygnałów muzycznych poddanych wybranym technikom kodowania, oprócz list testowych wyselekcjonowano spośród wszystkich nagrań źródłowych 20 fragmentów muzycznych, reprezentujących różne style muzyki. Wyselekcjonowane sekwencje poddane zostały kodowaniu z różnymi przepływnościami. W tym celu wykorzystano program GermaniX Transcoder [10], który na cele niekomercyjny udostępniany jest na licencji Freeware. Konwersja plików wav na wybrane techniki kodowania została wykonana w ramach pacy dyplomowej inżynierskiej Bartosza Janusa [8]. W utworzonej bazie przyjęto następujące oznaczenia plików Mxxyyyzz Lxxyyyzz gdzie M oznacza plik muzyczny, natomiast L listę testową złożoną z 20 sekwencji muzycznych, xx liczba określająca rodzaj techniki kodowania, yyy - szybkość bitową, zz numer sekwencji audio. Tworząc bazę ograniczono się do 6 technik kodowania, a mianowicie mp3 (xx=01), mp2 (xx=02) ogg (xx=03), aac (xx=04), ac3 (xx=05) i wma (xx=06). Szybkość bitowa zawarta była w przedziale od 5

6 8 kb/s do 384 kb/s. przy czym, ze względu na możliwości konfiguracyjne użytego oprogramowania oraz ograniczenia wynikające ze standardów kodowania nie było możliwe stworzenie sekwencji audio dla wszystkich szybkości bitowych dla każdego kodeka. W tabeli poniżej przedstawiono zestawienie szybkości bitowych dla poszczególnych technik kodowania; oznaczenie + oznacza, że w danej technice kodowania określona szybkość bitowa została zastosowana, natomiast symbol - oznacza brak sygnału o tej wartości szybkości bitowej. Tab.1. Konfiguracja wartości szybkości bitowych [kb/s] (yyy) dla poszczególnych technik kodowania (xx) yyy xx Dla formatu AAC przy przepływności od 32 kb/s do 80 kb/s zastosowano kodowanie HE-AAC. W efekcie wykonanych konwersji utworzona została akustyczna baza sygnałów muzycznych poddanych wybranym technikom kodowania o złożonej strukturze katalogów zawierających wiele plików. Pierwszym poziomem jest podział na katalog zawierający pojedyncze sekwencje muzyczne (Folder Sekwencje muzyczne) oraz muzyczne listy testowe (Folder Listy muzyczne). W każdym z tych dwóch folderów utworzono foldery o nazwie będącej akronimem zastosowanej techniki kodowania. Każdy z folderów reprezentujących określoną technikę kodowania zawiera foldery odpowiadające szybkości bitowej zastosowanej podczas kodowania (rys. 2). Przykładowo ścieżka Listy muzyczne/mp3/064 oznacza, iż wybrana zostanie muzyczna lista testowa kodowana w formacie mp3 z szybkością bitową wynoszącą 64 kb/s. Rys. 2. Drzewo katalogów akustycznej bazy sygnałów muzycznych z wybranym przykładowo kodowaniem mp3; po prawej stronie foldery plików kodowanych z różną szybkością bitową. Celem zilustrowania różnic w charakterystykach sekwencji muzycznych z bazy poniżej przedstawiono na rysunkach 3 20 przykładowo wybraną sekwencję muzyczną kodowaną różnymi technikami. Na rysunkach przedstawiony został jeden kanał, natomiast rzeczywisty sygnał był sygnałem ste- 6

7 reofonicznym. Z kolei na rysunkach 21 i 22 przedstawiono przykładowe przebieg czasowy i gęstość widmową mocy wybranej listy testowej. Wszystkie prezentowane wykresy zostały otrzymane za pomocą skryptu napisanego w środowisku MATLAB [8]. Rys. 3. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie MP2, 64kb/s). Rys. 4. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie MP2, 96kb/s). Rys. 5. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie MP2, 192kb/s). 7

8 Rys. 6. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie MP3, 64kb/s). Rys. 7. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie MP3, 96kb/s). Rys. 8. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie MP3, 192kb/s). 8

9 Rys. 9. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie AAC, 64kb/s). Rys. 10. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie AAC, 96kb/s). Rys. 11. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie ACC, 192kb/s). 9

10 Rys. 12. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie OGG, 64kb/s). Rys. 13. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie OGG, 96kb/s). Rys. 14. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie OGG, 192kb/s). 10

11 Rys. 15. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie AC3, 64kb/s). Rys. 16. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie AC3, 96kb/s). Rys. 17. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie AC3, 192kb/s). 11

12 Rys. 18. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie WMA, 64kb/s). Rys. 19. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie WMA, 96kb/s). Rys. 20. Przebieg czasowy i gęstość widmowa mocy sygnału M (kodowanie WMA, 192kb/s). 12

13 Rys. 21. Przebieg czasowy i gęstość widmowa mocy listy testowej L (kodowanie MP3, 64kb/s). Rys. 22. Przebieg czasowy i gęstość widmowa mocy listy testowej L (kodowanie MP3, 192kb/s). 4. PODSUMOWANIE Jak pokazały doświadczenia z bazą RWC Music Database jest ona stosowana w wielu ośrodkach w różnych dziedzinach jak np. analiza struktury muzycznej, analiza i identyfikacja instrumentów muzycznych, itp. [2]. Autorzy bazy RWC Music Database mają nadzieję, że będzie ona stosowana na całym świecie, a twórcy inny akustycznych baz sygnałów muzycznych pójdą w ich ślady, co przyczyni się do przyśpieszenia postępu w dziedzinie badań nad pozyskiwaniem informacji z sygnału muzycznego. Docelowa baza zostanie uzupełniona o różne metadane [2]. Prezentowana akustyczna baza sygnałów muzycznych jest pierwszym etapem w procesie tworzenia ujednoliconej, powszechnej bazy sygnałów muzycznych na potrzeby badań związanych z przetwarzaniem i oceną jakości sygnałów muzycznych. Docelowo przewidziane jest stworzenie akustycznej bazy sygnałów muzycznych z podziałem na styl muzyki m.in. muzyka poważna, kameralna, operowa, soul, jazz, rock, pop, blues, reggae itp. Baza będzie zawierać oprócz oryginalnych sygnałów muzycznych, również możliwie jak najszerszą grupę technik kodowania. Baza sygnałów muzycznych oryginalnych będzie zawierać sygnały próbkowane nie tylko z szybkością próbek/s, ale również próbek/s czy próbek/s. 13

14 LITERATURA [1] FRITTS L, University of Iowa musical instrument samples, [2] GOTO M., Development of the RWC Music Database, ICA 2004, [3] GOTO M., HASHIGUCHI H., NISHIMURA T., OKA R., RWC music database: Popular, classical, and jazz music databases, Proc. of ISMIR 2002, , [4] ISO/IEC, Information Technology - Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Part 3: Audio; Standard ISO/IEC , [5] ITU-R Recommendation BS.562-3, Subjective assessment of sound quality, 1990 [6] ITU-R Recommendation BS.1116, Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems, [7] ITU-R Recommendation BS.1284, General methods for the subjective assessment of sound quality, [8] JANUS B., Akustyczna baza sygnałów muzycznych poddanych wybranym technikom kodowania, Projekt inżynierski, Politechnika Wroclawska, Wroclaw [9] Li Z.N., Drew M.S., Fundamentals of multimedia, Pearsons Education Inc., 2004 [10] RFC 4184 RTP payload format for AC-3 audio, (LINK B., HAGER T., FLAKS J Proposed standard (dostęp ) [11] (dostęp ). [12] ACOUSTIC DATABASE OF MUSICAL SIGNALS ENCODED WITH CHOSEN TECHNIQUES The rising interest in high quality transmission of speech signal, music and video demands designing of new encoding techniques. The aim of the coding is the optimalisation of transmission, i.e. obtaining almost inperceptible quality worsening of transmitted signals for the lowest bitrate. In the paper the music signals database is presented where chosen coding techniques were applied (AAC, mp2, mp3, ac3, ogg and wma) with various bitrates (from 32 kb/s to 320 kb/s). The realized database can be used not only for the analysis of influence of the coding techniques and bitrates for the quality of music signal but also for the validation of quality of phonic signal transmission systems and amplifying or the verification of new objective quality evaluation techniques. 14