Formaty plików audio

Transkrypt

1 Formaty plików audio Spis treści 1.Formaty plików audio Wav... 2 Aac... 2 AIFF... 2 Ogg... 2 Asf... 2 Mp Mp Mp MP3PRO... 3 Mp Wma... 3 Midi... 3 Ac Różnica miedzy dźwiękiem analogowym a cyfrowym Prędkość bitowa bitrate... 5

2 1.Formaty plików audio. Wav - Jest to format plików dźwiękowych stworzony przez firmę Microsoft i IBM. Wave bazuje na formacie RIFF, poszerzając go o informacje o strumieniu audio, takie jak częstotliwość próbkowania czy ilość kanałów. Mimo że pliki Wave mogą być zapisane przy użyciu dowolnych kodeków audio, zazwyczaj stosuje się nieskompresowany format PCM, który powoduje, że pliki zajmują dużo miejsca (około 172 kb na sekundę dla jakości CD). Wykorzystywany jest w edycji dźwięku oraz w przenośnych urządzeniach audio takich jak odtwarzacze i cyfrowe dyktafony. Aac - Jest to algorytm stratnej kompresji danych dźwiękowych, którego specyfikacja została opublikowana w roku Format AAC zaprojektowany został jako następca MP3, oferujący lepszą jakość dźwięku przy podobnym rozmiarze danych. AIFF - to format plików dźwiękowych oparty na IFF (Electronic Arts Interchange File Format) współstworzony przez firmę Apple. Dane audio zapisane są jako nieskompresowany PCM w Big endian. Format jest wykorzystywany głównie przez Apple na komputerach Macintosh oraz przez firmę SGI. Ogg - to format kontenera strumieni danych, popularyzowany przez fundację Xiph.org, stworzony by wspierać inicjatywy związane z rozwojem wolnego oprogramowania do kodowania i dekodowania multimediów. Asf - kontener multimedialny stworzony przez firmę Microsoft na potrzeby platformy Windows Media. Najczęściej format ASF wykorzystywany jest do przechowywania strumieni danych zakodowanych za pomocą Windows Media Audio (WMA) i/lub Windows Media Video (WMV). Mp1 - (ang. MPEG-1 Audio Layer-1) to format stratnej kompresji dźwięku. Mp2 -(ang. MPEG-1 Audio Layer-2) to format stratnej kompresji dźwięku.używany jest w rozgłośniach radiowych ponieważ, w porównaniu z MP3 oferuje znacznie lepszą jakość dźwięku, równocześnie wymagając mniej przestrzeni dyskowej niż wave PCM. Pliki w tym formacie mają rozszerzenie.mp2 Mp3 - (ang. MPEG-1/2 Audio Layer-3) to format stratnej kompresji dźwięku opierający się na zmodyfikowanej dyskretnej transformacie cosinusowej i używający modelu psychoakustycznego. Format został stworzony we Fraunhofer-Institut für Integrierte Schaltungen. Przy tworzeniu jego pierwszej implementacji wykorzystywany był m.in. utwór Suzanne Vegi Tom's Diner w celu dostosowania kompresji do brzmienia ludzkiego głosu. Pliki w tym formacie posiadają rozszerzenie.mp3. Rozszerzenie formatu mp3 stworzone przez twórców tego formatu pozwalające na zapis formatu 5.1. Zapisywane są dwa kanały tak

3 jak we zwykłej mp3, a informacja potrzebna do wygenerowania dodatkowych kanałów jest zapisana w Tagach mp3. Dzięki temu rozwiązaniu mp3 można odtwarzać jako zwykłe stereo na odtwarzaczach sprzętowych. Zapisanie dodatkowych kanałów zajmuje mało miejsca (ponieważ zapisywana jest informacja jak z dwóch kanałów wygenerować inne). Najprawdopodobniej to rozwiązanie zostanie skopiowanie do innych kompresorów dźwięku. MP3PRO - algorytm kompresji audio (również kodek), który rozszerza format MP3 o techniki replikacji pasma częstotliwościowego (SBR) opracowany z myślą o zachowaniu jak najlepszej jakości dźwięku przy niskich przepływnościach. Zapewnia on około dwukrotnie efektywniejszą kompresję dźwięku, w porównaniu ze zwykłym MP3, a jednocześnie pozwala na zachowanie wyższej jakości słyszalnej. Mp4 - wprowadzony pod koniec 1998 jest oznaczeniem grupy standardów kodowania audio i wideo wraz z pokrewnymi technologiami, opracowanej przez grupę ISO/IEC MPEG. Główne zastosowania MPEG-4 to media strumieniowe w sieci Web, dystrybucja CD, wideokonferencje i telewizja. Wma (Windows Media Audio) format kompresji dźwięku stworzony przez Microsoft Corporation. W zamierzeniach producenta ma konkurować z formatem MP3. Powodem stworzenia WMA mogły być konflikty patentowe z Fraunhofer Institute - twórcą formatu MP3, dotyczące dołączania kodeka MP3 do systemu Windows. Według Microsoftu WMA zapewnia jakość dźwięku znacznie lepszą niż MP3, a początkowo firma z Redmond twierdziła nawet, że WMA dorównuje jakości płyty CD przy bitrate równym 64 kb/s. Midi - skrót od Musical Instrument Digital Interface jest systemem (interfejs, oprogramowanie i zestaw komend) służącym do przekazywania informacji pomiędzy elektronicznymi instrumentami muzycznymi. MIDI umożliwia komputerom, syntezatorom, kartom dźwiękowym i podobnym urządzeniom kontrolować się nawzajem oraz wymieniać informacje między sobą. Pozwoliło także na tworzenie łatwych w obsłudze i programowaniu sekwencerów i syntezatorów perkusyjnych. Ac3 - A/52 - standard stratnego kodeka dźwięku używany na większości płyt DVD- Video. Powszechnie znany jako Dolby Digital Audio Compression-3, Dolby Digital lub AC3 (nazwy handlowe używane przez twórcę kodeka, firmę Dolby), nazwa A/52 została przyjęta przez ATSC. Dźwięk jest kodowany z oryginalnego zapisu PCM o częstotliwości próbkowania 48 khz i próbkowaniu bit (czyli o jakości wyższej niż CD-Audio). Taki zapis, zajmujący ponad 5 Mb/s, jest kompresowany do 384 kbps lub 448 kbps dla dźwięku 5.1 (poniżej kompresja jest zbyt znaczna, wartości wyższe są dosyć rzadko stosowane, głównie na DVD - do 640 kbps) albo 192 kbps dla dźwięku 2.0, niestety, z pewną stratą jakości, szczególnie wyczuwalną przy słuchaniu płyt z muzyką zapisaną w tym formacie (taką prędkość strumienia stosuje się najczęściej do dźwięku Dolby Digital nadawanego w telewizjach).

4 2. Różnica miedzy dźwiękiem analogowym a cyfrowym. Różnicę pomiędzy dźwiękiem analogowym a cyfrowym można obrazowo porównać do różnicy pomiędzy pejzażem a jego zdjęciem podczas gdy w miarę patrzenia przez coraz lepsze lornetki widzimy coraz więcej szczegółów patrzenie przez coraz lepsze lupy na zdjęcie od pewnego momentu niczego już nie przynosi. Analogowa fala dźwiękowa (np. to co słyszymy), żeby zostać zapisana w postaci cyfrowej musi zostać określona punktami. Falę taką opisuje się na osi, gdzie X reprezentuje czas, a Y reprezentuje ciśnienie powietrza (napięcie prądu w analogowym urządzeniu). Dokładność rozmieszczenia tych punktów podobnie jak w grafice, uzależniona jest od rozdzielczości. Za rozdzielczość osi Y odpowiada właśnie próbkowanie wyrażane w bitach: 8, 16, 24, 32, co znaczy, że liczba możliwych położeń punktów w pionie jest równa 28, 216, 224, 232. Przez długi czas standardem było 16 bitów i dalej jest dla płyt CD. W produkcji muzyki wartość okazała się nie wystarczająca i przez długi czas podyktowana była raczej koniecznością. Jednakże rozwój technologii cyfrowych zwłaszcza pojemności pamięci oraz prędkości transferu pozwolił na upowszechnienie się 24 bitów. Różnica pomiędzy punktami a jest... kolosalna. Ta nowa dokładność ma niebagatelne znaczenie dla dynamiki utworu, szczególnie w czasie filtrowania, dlatego wiele procesorów efektów, programów nawet jeżeli standartowo obsługuje na wejściu/wyjściu 16, 24 bity, to oferuje 32 bit processing. Rozdzielczość czasowa osi X wyrażana jest naturalnie w Hertzach, czy raczej kilohertzach: 32, 44.1, 48, 88.2, 92, 192 khz. Z podobnych względów jak w przypadku bitów, w produkcji standard 92 khz wyparł już 44.1 khz. Różnicę pomiędzy nimi najlepiej zobrazuje rys. 1.

5 Oto porównanie tej samej fali (ok 1/3 ms) próbkowanej raz z częstotliwością 92 khz (góra), a następnie 44.1 (dół). Różnica nie do ukrycia. Jest to biały szum wygenerowany przez komputer a następnie konwertowany do 44.1 khz. I nie można wcale powiedzieć, że 1/3 ms człowiek i tak nie rozróżni lub że rysunek jest kwestią nieregularnego charakteru przebiegu fali białego szumu. Znów wystarczy policzyć, że przy próbkowaniu 44.1 khz do opisu częstotliwości dźwięku powyżej 10kHz używane są tylko 4 i mniej punkty, a przecież jest to w zasadzie połowa zakresu częstotliwości słyszanych przez człowieka (do 20kHz), która ma znaczenie dla brzmienia barwy dźwięku ze względu na składowe harmoniczne, które licznie znajdują się w tym zakresie. SYNCHRONIZACJA jest równie ważna jak punktualnie chodzący zegarek. Bo choć wydawałoby się, że bity zaklęte w strumień zer i jedynek są już nie do ruszenia praktyka pokazuje, że bity jak najbardziej ruszają się, że chociaż (a właściwie dlatego) mają przykazane z jaką częstotliwością płynąć w strumieniu danych to płyną ze zmiennym tempem. 3.Prędkość bitowa bitrate Przepływność (szybkość transmisji, szybkość przesyłu, ang. bitrate) - w telekomunikacji i informatyce częstość (mierzona w bitach na jednostkę czasu) z jaką informacja przepływa przez pewien (fizyczny lub metaforyczny) punkt. Przepływność mierzy się w bitach na sekundę (b/s) lub bajtach na sekundę (B/s, 8 b/s = 1 B/s) i ich krotnościach (kb/s, Mb/s, Gb/s, kb/s, MB/s itd.). W praktyce spotykane są zarówno prefiksy dziesiętne (k = 1000, M = ) jak i binarne (k = 1024, M = ).Po kilku zmianach bitrate'u można zaobserwować, że im wyższy bitrate, tym lepsza jakość, ale trzeba mieć lepsze łącze, aby nadawać strumień audio. Także więcej trzeba czekać przy podłączaniu klienta, i jest większe prawdopodobieństwo, że bufor zostanie opróżniony i nastąpi przerwanie odtwarzania dźwięku. gdzie: W - oznacza szerokość pasma (podawaną w Hz) S/N - oznacza stosunek mocy sygnału do mocy szumów (obie wartości podawane w skali liniowej, nie logarytmicznej)