Program wykładu. informatyka + 2

Podobne dokumenty
Psychoakustyka. Dźwięk zapisany w formie nieskompresowanej na przykład na CD zawiera więcej informacji niż jest w stanie przetworzyć ludzki mózg.

Kompresja dźwięku w standardzie MPEG-1

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Metody kodowania i przechowywania sygnałów dźwiękowych. Andrzej Majkowski Politechnika Warszawska amajk@ee.pw.edu.pl

Dźwięk podstawowe wiadomości technik informatyk

Wszechnica Popołudniowa: Multimedia, grafika i technologie internetowe Metody kodowania i przechowywania sygnałów dźwiękowych

Wszechnica Popołudniowa: Multimedia, grafika i technologie internetowe Metody kodowania i przechowywania sygnałów dźwiękowych

Przygotowali: Bartosz Szatan IIa Paweł Tokarczyk IIa

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

DŹWIĘK. Dźwięk analogowy - fala sinusoidalna. Dźwięk cyfrowy 1-bitowy 2 możliwe stany fala jest mocno zniekształcona

Neurobiologia na lekcjach informatyki? Percepcja barw i dźwięków oraz metody ich przetwarzania Dr Grzegorz Osiński Zakład Dydaktyki Fizyki IF UMK

Percepcja dźwięku. Narząd słuchu

Transformata Fouriera

Autorzy: Tomasz Sokół Patryk Pawlos Klasa: IIa

Technika audio część 2

dr inż. Piotr Odya Parametry dźwięku zakres słyszanych przez człowieka częstotliwości: 20 Hz - 20 khz; 10 oktaw zakres dynamiki słuchu: 130 db

Wykład III: Kompresja danych. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Formaty plików audio

Przygotowała: prof. Bożena Kostek

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

Co to jest dźwięk. Dźwięk to wyrażenie słuchowe wywołane przez falę akustyczną. Ludzki narząd wyłapuje dźwięki z częstotliwością 16 do 20 Hz

Wymiana i Składowanie Danych Multimedialnych Mateusz Moderhak, EA 106, Pon. 11:15-12:00, śr.

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH

Podstawy transmisji multimedialnych podstawy kodowania dźwięku i obrazu Autor Wojciech Gumiński

Mapa akustyczna Torunia

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Formaty - podziały. format pliku. format kompresji. format zapisu (nośnika) kontener dla danych WAV, AVI, BMP

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Wprowadzenie do cyfrowej obróbki dźwięku

Konwersja dźwięku analogowego do postaci cyfrowej

Kompresja sekwencji obrazów - algorytm MPEG-2

Cechy karty dzwiękowej

Wybrane metody kompresji obrazów

Podstawy Akustyki. Drgania normalne a fale stojące Składanie fal harmonicznych: Fale akustyczne w powietrzu Efekt Dopplera

O sygnałach cyfrowych

Założenia i obszar zastosowań. JPEG - algorytm kodowania obrazu. Geneza algorytmu KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG

Formaty plików. graficznych, dźwiękowych, wideo

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 4, strona 1. GOLOMBA I RICE'A

Dźwięk. Cechy dźwięku, natura światła

Ze względu na dużą rozpiętość mierzonych wartości ciśnienia (zakres ciśnień akustycznych obejmuje blisko siedem rzędów wartości: od 2x10 5 Pa do

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

Przetwarzanie i transmisja danych multimedialnych. Wykład 10 Kompresja obrazów ruchomych MPEG. Przemysław Sękalski.

Kwantyzacja wektorowa. Kodowanie różnicowe.

Audio i video. R. Robert Gajewski omklnx.il.pw.edu.pl/~rgajewski

Kodowanie Huffmana. Platforma programistyczna.net; materiały do laboratorium 2014/15 Marcin Wilczewski

Drgania i fale sprężyste. 1/24

Reprezentacje danych multimedialnych - dźwięk. 1. Podstawowe fakty 2. Próbkowanie 3. Kwantyzacja 4. Formaty plików

Joint Photographic Experts Group

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

Kompresja danych DKDA (7)

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 1, strona 1.

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów

Komputerowe modelowanie ludzkiego słuchu w kompresji dźwięku

Spis treści. 1. Cyfrowy zapis i synteza dźwięku Schemat blokowy i zadania karty dźwiękowej UTK. Karty dźwiękowe. 1

Kompresja video (MPEG)

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Nauka o słyszeniu. Wykład III +IV Wysokość+ Głośność dźwięku

Wielokanałowe systemy kodowania dźwięku

Temat: Algorytm kompresji plików metodą Huffmana

Kompresja sekwencji obrazów

Nowoczesne metody emisji ucyfrowionego sygnału telewizyjnego

Fal podłużna. Polaryzacja fali podłużnej

Def. Kod jednoznacznie definiowalny Def. Kod przedrostkowy Def. Kod optymalny. Przykłady kodów. Kody optymalne

Drania i fale. Przykład drgań. Drgająca linijka, ciało zawieszone na sprężynie, wahadło matematyczne.

Zastowowanie transformacji Fouriera w cyfrowym przetwarzaniu sygnałów

Nauka o słyszeniu Wykład IV Głośność dźwięku

Fale akustyczne. Jako lokalne zaburzenie gęstości lub ciśnienia w ośrodkach posiadających gęstość i sprężystość. ciśnienie atmosferyczne

Wybrane algorytmu kompresji dźwięku

KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG

Kompresja JPG obrazu sonarowego z uwzględnieniem założonego poziomu błędu

Formaty kompresji audio

Kodowanie i kompresja Streszczenie Studia dzienne Wykład 9,

Fale dźwiękowe. Jak człowiek ocenia natężenie bodźców słuchowych? dr inż. Romuald Kędzierski

dr inż. Piotr Odya Wprowadzenie

Cyfrowe przetwarzanie i kompresja danych. dr inż.. Wojciech Zając

Wykład FIZYKA I. 11. Fale mechaniczne. Dr hab. inż. Władysław Artur Woźniak

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

Teoria przetwarzania A/C i C/A.

Ruch falowy. Parametry: Długość Częstotliwość Prędkość. Częstotliwość i częstość kołowa MICHAŁ MARZANTOWICZ

Technika audio część 1

Nauka o słyszeniu. Wykład I Dźwięk. Anna Preis,

Ćwiczenie II. Edytor dźwięku Audacity

Podstawy Akustyki. Drgania normalne a fale stojące Składanie fal harmonicznych: Fale akustyczne w powietrzu Efekt Dopplera.

Kompresja Kodowanie arytmetyczne. Dariusz Sobczuk

Fale dźwiękowe - ich właściwości i klasyfikacja ze względu na ich częstotliwość. dr inż. Romuald Kędzierski

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Systemy multimedialne. Instrukcja 5 Edytor audio Audacity

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 6. Transformata cosinusowa. Krótkookresowa transformata Fouriera.

Kompresja obrazów w statycznych - algorytm JPEG

Opracował: Dominik Tyniw, PG pod kier. Prof.. A. Czyżewskiego

Nauka o słyszeniu Wykład IV Wysokość dźwięku

1. Po upływie jakiego czasu ciało drgające ruchem harmonicznym o okresie T = 8 s przebędzie drogę równą: a) całej amplitudzie b) czterem amplitudom?

SCENARIUSZ ZAJĘĆ. Metody kształcenia (wg W. Okonia): dyskusja, eksperyment pokazowy, wykład

Ponieważ zakres zmian ciśnień fal akustycznych odbieranych przez ucho ludzkie mieści się w przedziale od 2*10-5 Pa do 10 2 Pa,

PROGRAMOWANIE APLIKACJI MULTIMEDIALNYCH

ZAKŁAD SYSTEMÓW ELEKTRONICZNYCH I TELEKOMUNIKACYJNYCH Laboratorium Podstaw Telekomunikacji WPŁYW SZUMÓW NA TRANSMISJĘ CYFROWĄ

Radio przenośne Sangean PR-D5, FM, AM, RDS, białe

Transkrypt:

Program wykładu 1. Jak słyszymy podstawy fizyczne i psychofizyczne, efekty maskowania 2. Sposoby zapisu sygnałów dźwiękowych 3. Sposoby kodowania sygnałów dźwiękowych ze szczególnym uwzględnieniem MP3 4. Obiektywna i subiektywna ocena jakości sygnału dźwiękowego informatyka + 2

Dźwięk fala akustyczna Fala dźwiękowa rozchodzi się jako podłużna fala akustyczna w danym ośrodku sprężystym: gazie, płynie. W ciałach stałych, takich jak metale, występuje również fala poprzeczna. Dźwięk, jako drgania cząsteczek, charakteryzuje się tym, iż cząsteczka pobudzona przekazuje energię cząstce sąsiedniej, a sama drga wokół własnej osi. Skutkiem tego są lokalne zmiany ciśnienia ośrodka rozchodzące się falowo. informatyka + 3

Jak odbieramy dźwięki? Ton jest elementarnym rodzajem dźwięku, dla którego fala dźwiękowa ma postać sinusoidy. Wrażenie wysokości dźwięku nie jest liniowo zależne od częstotliwości tonu. Występują różnice między lewym i prawym uchem. 1 0.5 0-0.5-1 0 100 200 300 400 500 600 700 800 900 1000 1 0.5 0-0.5-1 0 100 200 300 400 500 600 700 800 900 1000 informatyka + 4

Jak odbieramy dźwięki? Interwały muzyczne to odległości między dźwiękami na skali muzycznej. Określone są stosunkiem częstotliwości sygnałów. Oktawa interwał określający dźwięki, których stosunek częstotliwości = 2 : 1. informatyka + 5

Interpretacja interwałów, barwa dźwięku Człowiek jest w stanie interpretować poprawnie interwały muzyczne dla tonów o częstotliwości max ok. 5kHz Powyżej 2,5kHz występują znaczne błędy. Powyżej 5kHz brak wrażenia melodii chociaż spostrzegane są różnice częstotliwości. Barwa cecha wrażenia słuchowego pozwalająca rozróżnić dwa dźwięki o takiej samej głośności i wysokości. Barwa instrumentu. Transjenty, narastanie dźwięku ( nabrzmiewanie i wybrzmiewanie ) Fortepian a skrzypce. informatyka + 6

Analiza dźwięku Bardzo często w celu analizy sygnału dźwiękowego korzysta się z jego częstotliwościowej reprezentacji. Mówimy wtedy o tzw. widmie sygnału dźwiękowego. informatyka + 7

Dźwięk W powietrzu w temperaturze otoczenia 20 o C prędkość dźwięku wynosi ok. 345 m/s. Zakres częstotliwości od 20 Hz do 20 khz jest zakresem częstotliwości słyszalnych (fonicznych, audio). Fala o częstotliwości 20 Hz ma długość 17,25 m. Fala o częstotliwości 20 khz ma długość 1,72 cm. Dźwięki o częstotliwości mniejszej od 20 Hz są nazywane infradźwiękami, zaś o częstotliwości większej od 20 khz ultradźwiękami. informatyka + 8

Zakres słyszalności informatyka + 9

Zakres słyszalności Wrażenia głośności zależą od czasu trwania dźwięku. Efekt czasowego sumowania głośności dla krótkich czasów trwania. Powyżej 200ms nie występuje. Dla czasów od ok. 1s do ok. 3 min dla dźwięków o niskim poziomie lub wysokiej częstotliwości głośność maleje ze wzrostem czasu trwania adaptacja głośności. Efekt sumowania głośności : powiększenie szerokości pasma częstotliwościowego szumu białego powoduje wzrost głośności. Głośność szumu (i dźwięków złożonych) jest wyższa niż tonów (sinusoidalnych) o takim samy ciśnieniu akustycznym. informatyka + 10

Ocena jakości dźwięku Ucho instrument bardzo trudny do zamodelowania, czyli opisania przez wzory matematyczne. Odbiór wrażeń muzycznych proces indywidualny. Ocena jakości bardzo subiektywna. informatyka + 11

Formaty zapisu i przechowywania plików multimedialnych Kontenery multimedialne umożliwiają przechowywanie różnego rodzaju danych: dźwięku, obrazów, filmu, napisów, informacji o rozdziałach itp. w wielu formatach. Przykładami kontenerów multimedialnych są: AVI (standardowy kontener systemu Windows) Advanced Systems Format (standardowy kontener dla multimediów pakietu Windows Media WMA oraz WMV) OGG jest bezpłatnym otwartym kontenerem dla multimediów strumieniowych wysokiej jakości MPEG-4 Part 14 (standardowy kontener AV dla MPEG-4) informatyka + 12

Kodowanie PCM Metoda PCM polega na reprezentacji wartości chwilowej sygnału (próbkowaniu) w określonych (najczęściej równych) odstępach czasu, czyli z określoną częstością (tzw. częstotliwość próbkowania). informatyka + 13

Kodowanie PCM kwantyzacja Wartość chwilowa sygnału jest przedstawiana za pomocą słowa kodowego, którego wartości odpowiadają wybranym przedziałom kwantyzacji sygnału wejściowego. informatyka + 14

Inne metody cyfrowego kodowania dźwięku Mp3 Standard MPEG-1 "Layer3 Ogg Vorbis Mp4 (MPEG-4 Part14)? AAC Usprawnienia względem starszych algorytmów kompresji dźwięku próbkowanie 8-96 khz (MP3 16-48 khz) do 48 kanałów (MP3 2 kanały w standardzie MPEG-1 i 5.1 w standardzie MPEG-2) skuteczniejszy i wydajniejszy lepsze przenoszenie częstotliwości ponad 16 khz lepszy tryb kompresji sygnału stereofonicznego joint-stereo informatyka + 15

Psychoakustyka Ludzki mózg pełni rolę filtru, który uwypukla informacje ważniejsze i odrzuca informacje nadmiarowe. Dźwięk zapisany w formie nieskompresowanej, na przykład na CD, zawiera więcej informacji niż jest w stanie przetworzyć ludzki mózg. Słuch ludzki odbiera częstotliwości leżące w zakresie 20Hz 20 khz. Częstotliwości położone w środku pasma słyszymy lepiej niż skrajne. (Większość dorosłych ludzi nie jest w stanie usłyszeć prawie nic o częstotliwości powyżej 16 khz.) Gdy dźwięk składa się z kilku tonów o zbliżonej częstotliwości lub, gdy jeden z tonów jest znacznie głośniejszy niż inne, niektóre tony mogą w ogóle nie zostać wychwycone przez ludzki mózg. informatyka + 16

Maskowanie dźwięków Maskowanie polega na przysłanianiu sygnałów słabszych sąsiadujących z sygnałami znacznie głośniejszymi, które je zagłuszają Sygnałowi, który będzie lepiej słyszalny dla człowieka, można przypisać większą ilość bitów w procesie kompresji, a sygnał, który jest trudny do wychwycenia, może być kompresowany z użyciem mniejszej liczby bitów lub pominięty Rozróżniamy 2 rodzaje maskowania: maskowanie równoczesne maskowanie czasowe informatyka + 17

Maskowanie równoczesne Efekt maskowania równoczesnego polega na tym, że człowiek nie jest w stanie odróżnić dwóch dźwięków o zbliżonej częstotliwości, jeśli jeden z nich jest znacznie głośniejszy od drugiego (przypadek A). Możliwe jest to dopiero wtedy, gdy sygnały mają zupełnie różne częstotliwości (przypadek B). informatyka + 18

Maskowanie czasowe Maskowanie czasowe polega na eliminacji składowych o mniejszym natężeniu, które mają zbliżoną częstotliwość do dźwięku o większym natężeniu i występują razem w pewnym przedziale czasu. informatyka + 19

Maskowanie Zobrazowanie efektu maskowania. Czarna linia określa próg słyszalności. Słabe dźwięki kolor zielony mogą zostać podczas kompresji usunięte. Pozostanie tylko dźwięk słyszalny kolor czerwony. informatyka + 20

Trochę historii Standard MPEG-1 Layer3(MP3) został opracowany w niemieckim instytucie Fraunhofer, gdzie około 30 inżynierów pracowało nad rozwojem oraz implementacją "w czasie rzeczywistym" algorytmów przetwarzania sygnałów dla potrzeb komunikacji audiowizualnej. Prace rozpoczęto w roku 1987. Głównym celem było opracowanie zaawansowanego algorytmu kodowania sygnałów audio dla przyszłych stacji nadawczych. W roku 1991 prace nad algorytmem kodowania Layer3 zostały ukończone. Opracowany algorytm stał się najbardziej optymalnym sposobem kodowania sygnałów audio w rodzinie określanej przez międzynarodowe normy ISO-MPEG. informatyka + 21

MP3 System kompresji Stopień kompresji Wymagana przepustowość MPEG-1 Layer 1 1 : 4 390 kbit/s MPEG-1 Layer 2 1 : 8 260 kbit/s MPEG-1 Layer 3 1 : 12 130 kbit/s Używając algorytmu MPEG-1 Layer 3 (znanego powszechnie w Internecie jako MP3, ze względu na rozszerzenie) do kodowania plików audio, jakość "prawie CD" tj. stereo, 44KHz, 16 bitów, można uzyskać przy 112 128kbps ( stopień kompresji 11:1 13:1). informatyka + 22

Idea kompresji MP3 Kompresja MP3 oparta jest na matematycznym modelu psychoakustycznym ludzkiego ucha. Idea kompresji MP3 polega na wyeliminowaniu z sygnału tych danych, które są dla człowieka niesłyszalne lub, które słyszymy bardzo słabo. Kompresja MP3 jest połączeniem metody kompresji stratnej z kompresją bezstratną. Etap 1 koder eliminuje z sygnału składowe słabo słyszalne i niesłyszalne dla człowieka (kompresja stratna). Etap 2 uzyskane dane poddawane są dodatkowej kompresji w celu eliminacji nadmiarowości (kompresja bezstratna). informatyka + 23

Transformata kosinusowa (DCT) Dyskretna transformacja kosinusowa przekształca dane do postaci umożliwiającej zastosowanie efektywnych metod kompresji. W wyniku działania transformaty na sygnale wejściowym powstają odpowiadające mu współczynniki transformaty. Transformata kosinusowa jest odwracalna, to znaczy, że dysponując tylko współczynnikami transformaty można odtworzyć odpowiadający im sygnał bez żadnych strat. informatyka + 24

Kwantyzacja Kwantyzacja polega na przeskalowaniu współczynników DCT poprzez podzielnie ich przez właściwy współczynnik znajdujący się w tabeli kwantyzacji, a następnie zaokrągleniu wyniku do najbliższej liczby całkowitej. Proces kwantyzacji można opisać równaniem: k ( x ) = round( F( Q( x ) x ) ) gdzie: F(x) współczynniki transformacji, Q(x) tablica kwantyzacji, round(x) funkcja zaokrąglająca x do najbliższej liczby całkowitej. informatyka + 26

Kodowanie Huffmana Dane uzyskane w procesie kodowania percepcyjnego poddawane są drugiemu etapowi kompresji bezstratnej kodowaniu Huffmana. Kodowanie Huffmana to system przypisywania skończonemu zbiorowi symboli, o z góry znanych częstościach występowania, kodów o zmiennej liczbie bitów. Później symbole te są zastępowane odpowiednimi bitami na wyjściu. Symbole te to najczęściej po prostu bajty, choć nie ma żadnych przeszkód żeby było nimi coś innego. informatyka + 27

Kodowanie Huffmana Dla każdego znaku utwórz drzewa złożone tylko z korzenia i ułóż w malejącym porządku ich częstości występowania. Dopóki istnieją przynajmniej dwa drzewa: z drzew t1 i t2 o najmniejszych częstościach występowania p1 i p2 utwórz drzewo zawierające w korzeniu częstość p12 = p1+p2, przypisz 0 każdej lewej, a 1 każdej prawej gałęzi drzewa. Utwórz słowo kodu dla każdego znaku przechodząc od korzenia do liścia. Przykład: Z={A,B,C,D,E,F}, P={0.35, 0.17, 0.17, 0.16, 0.10, 0.05} informatyka + 28

Etapy kodowania MP3 1. Sygnał wejściowy jest dzielony na mniejsze fragmenty zwane ramkami o czasie trwania ułamka sekundy. 2. Na podstawie sygnału kodera wyliczany jest rozkład widmowy sygnału dźwiękowego. 3. Widmo sygnału dla każdej ramki porównywane jest z matematycznym modelem psychoakustycznym. W wyniku tego porównania koder określa, które ze składowych dźwięku jako najlepiej słyszalne muszą zostać odwzorowane najwierniej, a które można zakodować w przybliżeniu lub w ogóle pominąć. 4. Ustalany jest optymalny przydział bitów na poszczególne częstotliwości pasma akustycznego, tak aby zapewnić możliwie najwierniejsze zakodowanie sygnału. informatyka + 29

Zobrazowanie sposobu działania banku filtrów Na początku sygnał jest filtrowany i dzielony na małe odcinki. Następnie usuwana jest ta część, która nie dociera do mózgu człowieka. Dwa zielone sygnały po prawej stronie znajdują się poniżej poziomu słyszalności. Można więc usunąć te sygnały (w drugim i trzecim podzakresie). Sygnał z lewej strony jest słyszalny (pierwszy podzakres), można jednak podnieść dopuszczalny poziom szumów, czyli zapisać go mniejszą liczbą bitów. informatyka + 30

Etapy kodowania MP3, cd. 5. Na podstawie zadanej przez użytkownika gęstości strumienia bitowego (ang. bitrate) koder ustala maksymalną liczbę bitów przydzielonych dla każdej ramki (liczba bitów = długość ramki * bitrate). 6. Strumień bitów podawany jest ponownej kompresji poprzez kodowanie Huffmana. Celem tej operacji jest usunięcie nadmiarowości z danych przetworzonych w pierwszym etapie, czyli dodatkowa kompresja bezstratna. 7. Kolejne ramki poprzedzone nagłówkami są składane w pojedynczy ciąg bitów ( strumień bitowy). Nagłówki zawierają metainformacje określające parametry poszczególnych ramek. informatyka + 31

informatyka + 32

Strumień bitowy Gęstość strumienia bitowego określa współczynnik kompresji sygnału algorytmem MP3. Wyznacza on liczbę bitów przypadającą na sekundę finalnego zapisu. Ustawienie odpowiedniej wartości strumienia bitowego jest kompromisem między jakością a rozmiarem pliku wynikowego. informatyka + 33

Tryby CBR i VBR Kompresja MP3 może przebiegać: ze stałą gęstością strumienia bitowego (ang. constant bitrate), zmienną gęstością strumienia bitowego (ang. variable bitrate). Tryb CBR koduje sygnał w taki sposób, że każda jego sekunda będzie zawierała tą samą ilość bitów. Tryb VBR koduje sygnał uwzględniając jego dynamikę, dzięki czemu przydziela więcej bitów fragmentom sygnału, który zawiera dużo ważnych informacji, oraz mniej bitów dla części sygnału, które są mniej skomplikowane. Kompresja w trybie VBR wymaga podania przedziału tolerancji, w jakim może się zmieniać gęstość strumienia bitowego. informatyka + 34

Tryby CBR i VBR Przełącznik Predefiniowane Docelowo kbit/s Zakres przepływności kbit/s -b 320 --preset insane 320 320 CBR -V 0 -- preset fast extreme 245 220...260 -V 1 225 200...250 -V 2 --preset fast standard 190 170...210 -V 3 175 155...195 -V 4 --preset fast medium 165 145...185 -V 5 130 110...150 -V 6 115 95...135 -V 7 100 80...120 -V 8 85 65...105 -V 9 65 45..85 informatyka + 35

Prezentacja nagrań MP3 plik oryginalny próbkowanie 22500Hz rozdzielczość 16 bitów kompresja MP3 przepływność 100-125Kbps, tryb VBR kompresja MP3 przepływność 32Kbps, tryb CBR kompresja MP3 przepływność 20Kbps, tryb CBR informatyka + 36

Rezerwa bitowa Ponieważ zadana gęstość strumienia bitowego obowiązuje dla każdej ramki, w przypadku bardzo złożonych fragmentów może okazać się niewystarczająca i koder nie będzie w stanie zapewnić żądanej jakości zapisu w ramach przydzielonej liczby bitów. Aby zapobiec temu zjawisku standard MP3 zapewnia możliwość skorzystania z dodatkowej rezerwy umożliwiającej zapisanie nadmiarowych danych. Rezerwa ta powstaje w miejscu pustych fragmentów ramek, w których po zakodowaniu sygnału zostało trochę miejsca. informatyka + 37

Łączenie kanałów zapisu stereofonicznego Dzięki ludzkiej niezdolności do lokalizacji w przestrzeni źródeł dźwięku o niskich częstotliwościach standard MP3 przewiduje możliwość łączenia kanałów stereofonicznych w jeden za pomocą opcji joint stereo. Pliki stworzone tą metodą zajmują znacznie mniej miejsca (prawie dwukrotnie, gdyż zamiast dwóch kanałów zapisany zostaje tylko jeden). Dodatkową możliwością podczas kodowania sygnału z funkcją joint stereo jest stereofonia różnicowa. Polega ona na zapisaniu dwóch ścieżek kanału środkowego będącego sumą sygnałów R i L oraz kanał boczny będący ich różnicą, który służy później do rekonstrukcji sygnału oryginalnego podczas odtwarzania pliku. informatyka + 38

Swoboda implementacji Ciekawostką jest to, że specyfikacja formatu MP3 zawarta w dokumencie ISO/IEC 11172-3, nie określa dokładnie sposobu samego kodowania, a jedynie prezentuje ogólny zarys techniki, i określa wymagany poziom zgodności zapisu z normą. Podejście takie ma na celu promowanie różnorodności implementacji koderów i dekoderów MP3 realizowanych przez różnych producentów. Specyfikacja ISO pełni jedynie rolę bazowego zestawu reguł, określających sposób funkcjonowania standardu tak, aby za pomocą dowolnego kodera można było wygenerować plik odtwarzany przez dowolny dekoder. informatyka + 39

Struktura pliku MP3 Plik MP3 składa się z ogromnej liczby ramek, z których każda odpowiada ułamkowi sekundy zapisu rekonstruowanego przez dekoder. Każda ramka poprzedzona jest nagłówkiem zawierającym 32 bity dodatkowych informacji opisujących następujące po nim właściwe dane. Na początku lub końcu pliku mogą znajdować się znaczniki ID3, które zawierają dane o autorze, tytule, prawach autorskich itp. informatyka + 40

Składanie nagłówka ramki Pozycja Zastosowanie Długość A Ramka synchronizacji 11 B Wersja MPEG 2 C Warstwa (MPEG layer) 2 D Zabezpieczenie 1 E Index predkości bitowej 4 F Częstotliwość próbkowania 2 G Padding bit 1 H Bit prywatności 1 I Tryb kanałów 2 J Tryb rozszerzenia 2 K Copyright 1 L Oryginał 1 M Emfaza 2 informatyka + 41

Jakość kodowania MP3 Jakość dźwięku Pasmo Tryb Przepływność Współczynnik kompresji Telefon 2.5kHz Mono 8 kbps 1 :96 Fale krótkie 4.5kHz Mono 16kbps 1:48 Radio AM 7.5kHz Mono 32kbps 1:24 Radio FM 11kHz Stereo 56-64kbps 1:24-26 prawie CD 15kHz Stereo 96kbsp 1:16 CD >15kHz Stereo 112-128kbps 1:12-14 informatyka + 42

Zalety standardu MP3 Duży stopień kompresji - stosując kompresję MP3 uzyskujemy plik wynikowy o rozmiarze ok.10 razy mniejszym od oryginału. Możemy sterować stopniem kompresji dostosowując go do indywidualnych potrzeb. Metoda ta pozwala uzyskać sygnał o stosunkowo dobrej jakości. Dekompresja wymaga znacznie mniej mocy obliczeniowej niż kompresja. Twórcy standardu bezpłatnie udostępnili kod źródłowy programów kodujących i dekodujących, dzięki czemu standard ten stał się niezwykle popularny. informatyka + 43

Wady standardu MP3 Jest to metoda kompresji stratnej, co uniemożliwia zrekonstruowanie sygnału oryginalnego. Kompresja wymaga stosunkowo dużo mocy obliczeniowej. informatyka + 44