Opracował: Dominik Tyniw, PG pod kier. Prof.. A. Czyżewskiego

Podobne dokumenty
Kompresja dźwięku w standardzie MPEG-1

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

dr inż. Piotr Odya Parametry dźwięku zakres słyszanych przez człowieka częstotliwości: 20 Hz - 20 khz; 10 oktaw zakres dynamiki słuchu: 130 db

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Percepcja dźwięku. Narząd słuchu

Komputerowe modelowanie ludzkiego słuchu w kompresji dźwięku

Przygotowała: prof. Bożena Kostek

Ze względu na dużą rozpiętość mierzonych wartości ciśnienia (zakres ciśnień akustycznych obejmuje blisko siedem rzędów wartości: od 2x10 5 Pa do

Formaty - podziały. format pliku. format kompresji. format zapisu (nośnika) kontener dla danych WAV, AVI, BMP

DŹWIĘK. Dźwięk analogowy - fala sinusoidalna. Dźwięk cyfrowy 1-bitowy 2 możliwe stany fala jest mocno zniekształcona

Wielokanałowe systemy kodowania dźwięku

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH

Wielokanałowe systemy kodowania dźwięku

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

Neurobiologia na lekcjach informatyki? Percepcja barw i dźwięków oraz metody ich przetwarzania Dr Grzegorz Osiński Zakład Dydaktyki Fizyki IF UMK

Program wykładu. informatyka + 2

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

Technika audio część 2

Wymiana i Składowanie Danych Multimedialnych Mateusz Moderhak, EA 106, Pon. 11:15-12:00, śr.

Wprowadzenie do cyfrowej obróbki dźwięku

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

KOMPRESJA STRATNA DŹWIĘKU

Metody kodowania i przechowywania sygnałów dźwiękowych. Andrzej Majkowski Politechnika Warszawska amajk@ee.pw.edu.pl

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 1, strona 1.

Autorzy: Tomasz Sokół Patryk Pawlos Klasa: IIa

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.

Dźwięk podstawowe wiadomości technik informatyk

Psychoakustyka. Dźwięk zapisany w formie nieskompresowanej na przykład na CD zawiera więcej informacji niż jest w stanie przetworzyć ludzki mózg.

Podstawy transmisji multimedialnych podstawy kodowania dźwięku i obrazu Autor Wojciech Gumiński

Wszechnica Popołudniowa: Multimedia, grafika i technologie internetowe Metody kodowania i przechowywania sygnałów dźwiękowych

Kompresja sekwencji obrazów - algorytm MPEG-2

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Wybrane metody kompresji obrazów

Co to jest dźwięk. Dźwięk to wyrażenie słuchowe wywołane przez falę akustyczną. Ludzki narząd wyłapuje dźwięki z częstotliwością 16 do 20 Hz

Wszechnica Popołudniowa: Multimedia, grafika i technologie internetowe Metody kodowania i przechowywania sygnałów dźwiękowych

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2019 CZĘŚĆ PISEMNA

Standardy zapisu i transmisji dźwięku

Przygotowali: Bartosz Szatan IIa Paweł Tokarczyk IIa

ZAKŁAD SYSTEMÓW ELEKTRONICZNYCH I TELEKOMUNIKACYJNYCH Laboratorium Podstaw Telekomunikacji WPŁYW SZUMÓW NA TRANSMISJĘ CYFROWĄ

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów

Wybrane algorytmu kompresji dźwięku

Nowoczesne metody emisji ucyfrowionego sygnału telewizyjnego

Transformata Fouriera

Systemy plezjochroniczne (PDH) synchroniczne (SDH), Transmisja w sieci elektroenergetycznej (PLC Power Line Communication)

Instrukcja do laboratorium z Fizyki Budowli. Temat laboratorium: CZĘSTOTLIWOŚĆ

Formaty plików audio

Formaty kompresji audio

Kompresja sekwencji obrazów

Standardowy zapis cyfrowego dźwięku

Konwersja dźwięku analogowego do postaci cyfrowej

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

dr inż. Piotr Odya Wprowadzenie

Przetwarzanie analogowo-cyfrowe sygnałów

Technika audio część 1

Przykładowe zadanie praktyczne

Nauka o słyszeniu. Wykład III +IV Wysokość+ Głośność dźwięku

METODY KODOWANIA SYGNAŁU MOWY DO ZASTOSOWAŃ W TELEKOMUNIKACJI

Modele psychofizyczne w zastosowaniu do kompresji treści multimedialnych

Nauka o słyszeniu Wykład IV Głośność dźwięku

Diagnostyka i protetyka słuchu i wzroku APARATY SŁUCHOWES

PROGRAMOWANIE APLIKACJI MULTIMEDIALNYCH

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej

Metodyka i system dopasowania protez słuchu w oparciu o badanie percepcji sygnału mowy w szumie

Badanie jakości sygnałów audio

Kompresja Kodowanie arytmetyczne. Dariusz Sobczuk

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

Wytwarzanie znaku wodnego w czasie rzeczywistym

Przykładowe rozwiązanie zadania dla zawodu technik telekomunikacji

NOWOCZESNE METODY EMISJI UCYFROWIONEGO SYGNAŁU TELEWIZYJNEGO

Kompresja video (MPEG)

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

WYZNACZANIE FILTRÓW SŁUCHOWYCH METODĄ SZUMU PRZESTRAJANEGO. Karolina Kluk,

Podstawy Przetwarzania Sygnałów

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

KOMPRESJA STRATNA SYGNAŁU MOWY. Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP

Nauka o słyszeniu Wykład II System słuchowy

POMIARY AUDIOMETRYCZNE

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

1.Stosunek sygnału do szumu kwantyzacji dla n-bitowego kwantyzatora jest równy w przybliżeniu:

Mapa akustyczna Torunia

Przetwarzanie i transmisja danych multimedialnych. Wykład 10 Kompresja obrazów ruchomych MPEG. Przemysław Sękalski.

Informacje na temat produktu C: Instalacja

Nauka o słyszeniu. Wykład I Dźwięk. Anna Preis,

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)

Algorytmy detekcji częstotliwości podstawowej

Adaptacyjne Przetwarzanie Sygnałów. Filtracja adaptacyjna w dziedzinie częstotliwości

Karta dźwiękowa. Architektura systemów komputerowych Ćwiczenie 3

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 6. Transformata cosinusowa. Krótkookresowa transformata Fouriera.

TECHNIKI MULTIMEDIALNE

Cechy karty dzwiękowej

Transkrypt:

KODOWANIE PERCEPTUALNE Opracował: Dominik Tyniw, PG pod kier. Prof.. A. Czyżewskiego

Wprowadzenie Cyfrowy sygnał foniczny w postaci nieskomprymowanej charakteryzuje się wysoką przepływnością strumienia bitów. Przykład: Sygnał audio o jakości CD: liczba kanałów: 2 liczba bitów na próbkę: 16 bitów częstotliwość próbkowania: 44,1 khz Przepływność: 2 16 [bitów] 44100 [1/s] = 1411200 [bitów/s] (ok. 172 kb/s) WNIOSEK: 1 minuta muzyki o jakości płyty CD to ok. 10 MB danych!!! Stanowi to istotny problem w przypadku archiwizacji oraz przesyłania poprzez sieci komputerowe.

Sposoby ograniczenia przepływności p Zastosowanie odpowiedniego kodowania pozwala na usunięcie redundancji (nadmiarowości) sygnału, a zatem ograniczenie przepływności strumienia bitów. KODOWANIE BEZSTRATNE STRATNE

Kodowanie bezstratne (ang. lossless l coding) ) Kodowanie bezstratne polega na przyporządkowaniu częściej pojawiającym się wartościom, krótszych słów kodowych. Zastosowanie bezstratnych metod kodowania, takich jak kodowanie arytmetyczne, kodowanie Huffmana czy Lempel-Zip, bezpośrednio do sygnału audio nie jest zbyt efektywne m.in. ze względu na duży zakres kodowanych wartości. Cechy bezstratnego kodowania audio: zachowana jakość z dokładnością do pojedynczych próbek sygnału niewielkie współczynniki kompresji (ok. 2:1) kaskadowość możliwość wielokrotnego kodowaniadekodowania bez utraty jakości

Kodowanie bezstratne (ang. lossless l coding) ) Zastosowania bezstratnego kodowania: archiwizacja edycja DVD-Audio Przykłady algorytmów bezstratnej kompresji audio: Meridian Lossless Packing (MLP) stosowany w DVD-Audio MPEG-4 Audio Lossless Coding (ALS) WavPack RKAU FLAC LPAC

Kodowanie bezstratne (ang. lossless l coding) ) Tabela 1. Współczynniki kompresji plików audio otrzymane za pomocą standardowego oraz dedykowanego oprogramowania kompresującego. STANDARDOWE DEDYKOWANE Typ WinZip WinRAR WavPack Monkey s Audio RKAU FLAC Chór 1,30:1 1,88:1 2,36:1 2,48:1 2,44:1 2,29:1 Orkiestra 1,05:1 1,41:1 1,77:1 1,53:1 1,50:1 1,46:1 Rock 1,08:1 1,45:1 1,67:1 1,72:1 1,46:1 1,43:1 Pop 1,05:1 1,35:1 1,47:1 1,47:1 1,59:1 1,52:1 Disco 1,11:1 1,43:1 1,57:1 1,61:1 1,67:1 1,59:1

Kodowanie stratne (ang. lossy coding) ) Kodowanie stratne polega na wyeliminowaniu części sygnału bez wyraźnego pogorszenia jego subiektywnej jakości. Kodowanie perceptualne jest kodowaniem stratnym i wykorzystuje zjawisko maskowania w pasmach krytycznych słuchu. Cechy stratnego t kodowania audio: nieodwracalna utrata informacji możliwość ość osiągnięcia wysokich współczynników kompresji (ok. 12:1 dla jakości porównywalnej z płytą CD) utrata jakości sygnału przy kaskadowym łączeniu kodeków

Modelowanie zjawisk percepcyjnych p y Wyznaczenie absolutnego progu słyszenia Modelowanie pasm krytycznych Modelowanie maskowania nierównoczesnego Modelowanie maskowania równoczesnego Aproksymacja wychyleń błony podstawnej Pobudzenie błony podstawnej Sumowanie pobudzeń Aproksymacja sumarycznego wychylenia y błony podstawnej Globalny próg maskowania

Wyznaczenie absolutnego progu słyszenia (ang. Absolute Threshold of Hearing) Ważną cechą słuchu ludzkiego, charakteryzującego się ogromną dynamiką, jest dolna granica słyszenia, tzw. absolutny próg słyszenia. Dźwięki o głośności usytuowane poniżej tej krzywej są niesłyszalne dla ludzkiego ucha. Na podstawie danych eksperymentalnych, można znaleźć wyrażenie opisujące krzywą absolutnego progu słyszenia. Najbardziej powszechny jest model zaproponowany przez Terharda o funkcji aproksymującej absolutny próg słyszenia: LT q = + 0,8 2 3 3,64 f 6,5exp[ 0,6 ( f 3,3) 3) ] + 10 f 4 LT q f poziom progu słyszenia w db częstotliwość w khz

Wyznaczenie absolutnego progu słyszenia (ang. Absolute Threshold of Hearing) Krzywa absolutnego progu słyszenia w funkcji częstotliwości.

Modelowanie pasm krytycznych y y słuchu System słuchowy człowieka przetwarza dźwięk w pewnych podpasmach, zwanych pasmami krytycznymi. Definicja pasma krytycznego według Fletchera: pasmo krytyczne jest elementarnym pasmem częstotliwości o szerokości równej Δf, wydzielonym z ciągłego widma mocy szumów i zawierającym w sobie moc akustyczną ą równą ą mocy akustycznej tonu prostego o częstotliwości f położonej w środku tego pasma, przy czym rozpatrywany ton prosty ma taką intensywność, że zagłuszany przez nieograniczone widmo szumów ciągłych, znajduje się dokładnie na granicy słyszalności. Definicja pasma krytycznego według Zwickera: Przy zwiększaniu szerokości pasma szumu, głośność pozostaje na tym samym poziomie, dopóki nie zostanie przekroszona szerokość pasma krytycznego. Wówczas wrażenie głośności ulega zmianie.

Modelowanie pasm krytycznych y y słuchu Każdemu pasmu krytycznemu odpowiada pewien odcinek błony podstawnej ślimaka równy ok. 1,3 mm. System słuchowy może być modelowany jako zestaw filtrów pasmowo-przepustowych, dla których szerokość pasma jest równa szerokości odpowiedniego pasma krytycznego. Bezwzględne szerokości pasm krytycznych nie są jednakowe. Poniżej częstotliwości ę 500 Hz szerokość pasma krytycznego y jest stała i wynosi ok. 100 Hz, powyżej 500 Hz szerokość każdego następnego pasma krytycznego jest o 20 % większa niż szerokość poprzedniego pasma.

Modelowanie pasm krytycznych y y słuchu Bark perceptualna jednostka dźwięku. Jeden bark odpowiada szerokości pojedynczego pasma krytycznego. Wykres zależności skali barków od skali Hz według Zwickera

Maskowanie psychoakustyczne y W algorytmach stratnej kompresji sygnału fonicznego modelowane są zjawiska maskowania dźwięku. Zjawiska te są spowodowane wychylaniem błony podstawnej narządu Cortiego pod wpływem py bodźców akustycznych. y Wzwiązku z niejednorodną podatnością akustyczną błony W związku z niejednorodną podatnością akustyczną błony podstawnej i ograniczoną liczbą komórek nerwowych narządu Cortiego, narząd słuchu zachowuje się jak równoległy analizator widma o ograniczonej rozdzielczości widmowej i czasowej.

Maskowanie nierównoczesne (ang. temporal masking) ) Przykład maskowania nierównoczesnego 60 db premaskowanie maskowanie równoczesne postmaskowanie 40 20 0 masker t [ms] -50 0 50 100 150 ms 0 50 100 ms 150 200 premaskowanie dźwięk o dużym natężeniu jest w stanie zamaskować tony, które wystąpiły wcześniej. Premaskowanie trwa od 10 do 30 ms. postmaskowanie po wystąpieniu głośnego tonu, pozostałe dźwięki mogą nie być słyszane. Postmaskowanie trwa do ok. 200 ms. Czas ten zależy od natężenia oraz czasu trwania tonu maskującego.

Maskowanie równoczesne (ang. simultaneous masking) ) Maskowanie równoczesne charakteryzuje się tym, że pewne tony stają się niesłyszalne w obecności innych tzw. maskerów. 60 ton maskujący (a) 40 L [d db] ton niesłyszalny 20 tony słyszalne (b) (c) (d) 0 0.1 1 10 częstotliwość [khz]

Maskowanie równoczesne (ang. simultaneous masking) ) Nachylenie zbocza krzywych maskowania po stronie niższych częstotliwości jest praktycznie stałe. Po drugiej stronie zależy od częstotliwości i głośności poziomu maskera. Im ton maskujący jest głośniejszy, tym zbocze bardziej płaskie i zwiększa się wpływ maskowania na tony o wyższej częstotliwości. [db] 60 Kształt krzywych maskowania 40 20 0 2 4 6 8 10 12 14 16 18 20 [Bark]

Aproksymacja wychyleń y błony yp podstawnej W wyniku pobudzenia błony podstawnej zostaje ona wychylona z położenia równowagi. Kształt odkształconej błony, tzw. poziom pobudzenia, aproksymuje się przy pomocy dwóch odcinków nachylonych y pod kątem ą α 1 i α 2 względem osi częstotliwości. L[dB] O(i) LE T sygnał maskujący poziom pobudzenia próg maskowania α 1 α 2 b x b [Bark]

Aproksymacja wychyleń y błony yp podstawnej Nachylenia odcinków aproksymujących wychylenie błony podstawnej przy pobudzeniu LE o częstotliwości f x można wyrazić przy pomocy zależności: ż ś S1 = 31 S1 = 27 1 albo S2 = 22 + min(0,23 f x,10) 0, 2 LE S 2 = 24 + 0,23 1 f c ( i) 0, 2 LE S 1, S 2 LE f x f c (i) nachylenia wyrażone w db/bark poziom głośności sygnału maskującego w db częstotliwość w khz częstotliwość środkowa i-tego pasma krytycznego w khz

Aproksymacja wychyleń y błony yp podstawnej Próg maskowania wywołany pobudzeniem LE jest aproksymowany przez krzywą T odległą od oszacowanego wychylenia błony podstawnej o wartość O(i): O ( i ) = α (14,5 + i ) + (1 α ) α + v α i α v indeks tonalności (0 α 1), wskazuje na charakter sygnału pobudzenia. Dla czystego tonu α = 1, natomiast dla pobudzenia szumem α = 0, numer pasma krytycznego, w którym nastąpiło pobudzenie indeks maskowania 2 f x α V = 2 2,05 arctg(0,25 f x ) 0,75 arctg albo α = 5, 5 2,56 V f x częstotliwość pobudzenia w khz

Aproksymacja wychyleń y błony yp podstawnej Indeks tonalności wyznaczany jest na podstawie parametru określającego charakter widmowy sygnału SFM (ang. Spectral Flatness Measure). Parametr ten jest zdefiniowany jako stosunek średniej geometrycznej do średniej arytmetycznej widma mocy: SFM 2 X k = 1 = 10log10 N 1 N / 2 k N / 1/ 2 k / 2 =1 X N k α = min( i( SFM SFM max def SFM max = 60 db,1) X k widmo gęstości mocy, określane przy pomocy N-punktowej DFT na podstawie widma krótkookresowego Maskowanie szumem jest efektywniejsze niż maskowanie Maskowanie szumem jest efektywniejsze niż maskowanie tonem prostym.

Pobudzenie błony yp podstawnej Wpływ pobudzenia na wychylenie błony podstawnej L [db] LE x LE x,j poziom pobudzenia LE x,i α 1 α 2 b i b x b j b [Bark]

Pobudzenie błony podstawnej Pobudzenie błony podstawnej yp j yp j Wychylenie błony podstawnej w miejscach odpowiadającym częstotliwości b (b b )orazczęstotliwości b (b > b )przy częstotliwości b i (b i b x ) oraz częstotliwości b j (b j > b x ) przy pobudzeniu sygnałem o częstotliwości b x można wyrazić za pomocą wzorów: p ą w mierze logarytmicznej: > = = x j x j x j x x i i x x i x b b b b S LE LE b b b b S LE LE ), ( ), ( 2, 1, b S 1 w mierze liniowej: > = Δ = = Δ = Δ Δ x j x j j x b S x j x x i i x i x b S x i x b b b b b E E b b b b b E E j x i x,,,,, 10, 10, 2 10 1, 1 10 1 j j j j

Sumowanie pobudzeń Sumaryczne pobudzenie E w dowolnym miejscu błony może być modelowane przy pomocy relacji, która jest spełniona zarówno w dziedzinie czasu jak i częstotliwości: E i n α E 1/ α n = α E i, α i=11 liniowe pobudzenie (wychylenie) błony podstawnej w miejscu odpowiadającym częstotliwości b i liczba pobudzeń błony podstawnej współczynnik kompresji, w praktycznej implementacji związanej z tzw. Modelem Psychoakustycznym 1 (standard MPEG) przyjmuje się, że poziomy pobudzeń pochodzących z różnych miejsc błony podstawnej są addytywne (α =2) 2

Sumaryczne wychylenie y błony yp podstawnej Sumaryczne wychylenie błony podstawnej modeluje się przy pomocy splotu, wyrażającego wpływ mocy sygnału X(i) w i-tym paśmie krytycznym na sąsiednie pasma krytyczne: E G ( i) = X ( i) B( i, j) = 25 j= 1 X ( j) B( i j) E G (i) B(i,j) X(i) sumaryczne pobudzenie błony podstawnej w i-tym paśmie krytycznym, wyrażone w skali liniowej, funkcja rozkładu energii wzdłuż błony podstawnej moc sygnału w skali liniowej w i-tym paśmie krytycznym

Globalny yp próg maskowania Na skutek sumowania się energii poszczególnych pobudzeń błona podstawna ulega wychyleniu, co prowadzi do zamaskowania sygnałów, których energia nie przekracza progu maskowania. Próg maskowania można można określić korzystając z zależności, w oparciu o funkcję wagową ą w(i): LT ( i ) = w ( i ) LE ( i ) 10 log 10 w ( i ) (15,55 + i ) LT(i) LE(i) próg maskowania dla i-tego pasma krytycznego w db pobudzenie w i-tym paśmie krytycznym w db

Perceptualny koder foniczny Znakomita większość obecnie stosowanych standardów perceptualnej kompresji dźwięku opiera się na kwantyzacji poziomu sygnału fonicznego. W ten sposób uzyskuje się redukcję objętości. wejściowy sygnał foniczny BANK FILTRÓW KWANTYZACJA I FORMATOWANIE ANALIZUJĄCYCH KODOWANIE STRUMIENIA BITÓW wyjściowy strumień bitów MODEL PSYCHOAKUSTYCZNY Jeśli produkt uboczny kwantyzacji szum kwantyzacji znajduje się poniżej progu percepcji, to materiał dźwiękowy zachowuje wysoką jakość subiektywną.

Standardy stratnej kompresji dźwięku ę Przykłady standardów stratnej kompresji dźwięku: Sony ATRAC (system MiniDisc) Dolby AC-3 (wielokanałowe systemy kina cyfrowego) PASC (magnetofon cyfrowy DCC) MUSICAM (radiofonia cyfrowa DAB) MPEG AAC (Apple) Ogg Vorbis (projekt open-source) WMA (Microsoft)

Kodek Sony ATRAC (ang. Adaptive Transform Acoustic Coding) Nośnik MiniDisc: Dysk magnetooptyczny o średnicy 64 mm, Pojemność dysku ok.160 MB (74 minuty muzyki), Żywotność min. 30 lat. Kodek ATRAC: Kaskadowe filtry zwierciadlane QMF (ang. Quadrature Mirror Filters) dzielą sygnał na trzy podpasma: 0 5,5 khz; 5,5 11 khz; 11 22 khz, Zmodyfikowana dyskretna transformacja MDCT (ang. Modified Discrete Cosine Transform),

Kodek Sony ATRAC (ang. Adaptive Transform Acoustic Coding) Kodek ATRAC: W zależności od trybu pracy przepływności od 66 kb/s (ATRAC-3 LP-4 tryb long-play o obniżonej jakości) do 266 kb/s (ATRAC SP), Możliwość rozwijania systemu bez wprowadzania zmian w dekoderze algorytm ATRAC nie narzuca konkretnego sposobu alokacji bitów. Praca kodera jest całkowicie niezależna od przyjętego modelu psychoakustycznego, Zmienna rozdzielczość częstotliwościowa dla różnych pasm częstotliwości, Zmienna rozdzielczość czasowa w zależności od parametrów statystycznych y y sygnału. więcej: http://www.minidisc.org/

Dolby AC-3 Standard ten opracowano w celu zastosowania w systemie wielokanałowego nagłośnienia kina cyfrowego, następnie wybrano go dla potrzeb kodowania dźwięku w HDTV. Wykorzystuje: maskowanie jednoczesne w dziedzinie częstotliwości bank filtrów oparty na transformacie TDAC (ang. Time Domain Aliasing Cancelation) zmienną rozdzielczość czasowo-częstotliwościową. Koder wykorzystuje dodatkowe 16-bitowe słowo synchronizacji oraz 2 słowa 16-bitowe w celu kontroli błędu (CRC). Przepływność binarna kodeka AC-3 jest zawarta między 32 a 640 kbit/s w sumie na wszystkie kanały. Typowe całkowite opóźnienie czasowe kodowania ok.100ms. więcej: http://www.dolby.com/tech/ac-3mult.html

Kodek PASC (ang. Precission Adaptive Subband Coding) Standard PASC został opracowany w 1988 roku przez firmę Philips wraz z japońskim koncernem Matsushita i zastosowany w magnetofonie cyfrowym DCC (ang. Digital Compact Casette). Analiza sygnału szerokopasmowego odbywa się przy pomocy 32 filtrów FIR, pasmowo- przepustowych o stałej szerokości pasma (750 Hz). Przepływność binarna kodeka PASC wynosi 384 kbit/s dla sygnału stereo przy jakości dźwięku płyty CD. W 1996 roku firma Philips zaprzestała produkcji magnetofonów o DCC

System MUSICAM (ang. Masking-pattern Universal Subband Integrated Coding And Multiplexing) MUSICAM został opracowany dla potrzeb cyfrowej transmisji radiowej DAB (ang. Digital Audio Broadcasting). Cyfrowy sygnał foniczny w standardzie EBU/AES (768 kbit/s) jest dzielony na 32 podpasma o szerokości 750 Hz przy pomocy wielofazowego banku filtrów. Zastosowano układ realizujący FFT, który oblicza co 24 ms 1024 składowych widma. Kodek MUSICAM wykorzystuje y maskowanie jednoczesne w dziedzinie częstotliwości i jest kompatybilny z formatami ISO/MPEG (Layer I). Przepływność binarna kodeka MUSICAM wynosi 384 kbit/s dla sygnałów stereo przy kompaktowej jakości dźwięku. więcej: http://www.worlddab.org/

Standard MPEG-1 (ang. Moving Pictures Expert Group) umożliwia kodowanie sygnałów PCM dla częstotliwości tli ś ipróbkowania: 32kH khz, 441kH 44,1 khz oraz 48kHz, maskowanie jednoczesne w dziedzinie częstotliwości maskowanie w dziedzinie czasu zastosowanie banku 32 filtrów wielofazowych wytwarzających podpasma o stałej szerokości 750Hz

Standard MPEG-1 MPEG umożliwia pracę z zadanym trybem przepływności: ł ś FBR praca ze stałą przepływnością bitową VBR praca ze zmienną przepływnością bitową Tryby kodowania sygnału: tryb monofoniczny tryb stereofoniczny tryb dwukanałowy (ang. dual channel) tryb łączny dwukanałowy (ang. joint stereo)

Warstwy modelu MPEG-1 Warstwy modelu MPEG-1 mono stereo 32 khz 44,1 khz 48 khz WARSTWA 1 WARSTWA 2 WARSTWA 3

Warstwy modelu MPEG-1 Warstwa 1 (Layer I): Uproszczona wersja schematu MUSICAM. Przeznaczona głównie do zastosowań takich, jak: cyfrowe nagrywanie w warunkach domowych na kasetach, twardych dyskach i dyskach magnetooptycznych. Warstwa ta używa ramki o czasie trwania 8ms przy częstotliwości próbkowania 48kHz. Przepływności od 32 kbit/s do 448 kbit/s

Warstwy modelu MPEG-1 Warstwa 2 (Layer II): Wprowadza dalsze udoskonalenia w stosunku do warstwy 1. Podstawowa długość ramki to 24ms przy 48kHz. Jest prawie identyczna ze schematem MUSICAM. Ma zastosowanie głównie w profesjonalnej technice dźwiękowej, czyli wykorzystywana jest w rozgłośniach radiowych i telewizyjnych, studiach nagrań oraz w systemach multimedialnych. Przepływności od 32 kbit/s do 384 kbit/s

Warstwy modelu MPEG-1 Warstwa 3 (Layer III): kombinacja efektywnych modułów z kodera ASPEC i MUSICAM. Hybrydowy bank filtrów wprowadza dodatkową rozdzielczość częstotliwościową. Długość ramki jest identyczna z warstwą 2. Używana jest tutaj niejednolita kwantyzacja, adaptacyjna segmentacja i kodowanie entropijne skwantowanych wartości w celu zwiększenia wydajności kodowania. Metoda ta jest najbardziej j użyteczna ż w telekomunikacji, szczególnie w wąskopasmowym ISDN, łączach satelitarnych ta i wszystkich przypadkach, ac gdzie wymagana jest wysoka jakość przy niskich przepływnościach. Przepływności od 32 kbit/s do 320 kbit/s

Schemat kodera MPEG sygnał akustyczny 2 768 kbit/s BANK FILTRÓW ANALIZUJĄCYCH KWANTYZACJA LINIOWA FORMATOWANIE SYGNAŁU SKOMPRYMOWANEGO zakodowany sygnał od 2 32 kbit/s do 2 192 kbit/s KODOWANIE INFORMACJI DODATKOWEJ FFT MODEL PSYCHOAKUSTYCZNY KONTROLA ZEWNĘTRZNA DANE POMOCNICZE

Schemat dekodera MPEG zakodowany sygnał od d2 32 kbit/s do 2 192 kbit/s DEMULTIPLEKSER I TEST CRC DEKWANTYZACJA LINIOWA BANK FILTRÓW ANALIZUJĄCYCH sygnał akustyczny 2 768 kbit/s DEKODOWANIE INFORMACJI DODATKOWEJ

MPEG Audio - licencje MPEG Audio nie jest typu freeware!!! KODEKI SOFTWARE owe: Dekodery. Freeware brak opłat, programy komercyjne $0.75 za każdą sprzedaną sztukę oprogramowania albo $50,000 jednorazowej opłaty, Enkodery. $2.5 (enc) $5 (codec) za każdą sztukę albo $60,000000 jednorazowej opłaty, KODEKI HARDWARE owe: Dekodery. $0.75 za sztukę, Enkodery. $2.5 (enc) $5 (codec) za sztukę,

Standard MPEG-2 MPEG-2 BC kompatybilny wstecz Obejmuje kompresję sygnału fonicznego dla częstotliwości próbkowania: 16 khz; 22,05 khz; 24 khz telekonferencje Kompresja wielokanałowego sygnału fonicznego typu 3/2+1 lub 5/2+1 Oferuje obsługę wielokanałowych ścieżek dźwiękowych w wersjach wielojęzycznych.

Standard MPEG-2 Dodatkowe kanały C (kanał centralny), L s (lewy surround) i R s (prawy surround) są przesyłane ł w pomocniczym polu MPEG-1 Składa się z dwóch podsystemów: LSF (ang. Lower Sampling Frequency) dla niższych wartości częstotliwości próbkowania niż w standardzie MPEG-1 Kodowanie wielokanałowe do pięciu kanałów fonicznych wraz z opcjonalnym kanałem dla niskiej częstotliwości LFE (ang. Low Frequency Enhancement)

Warstwy modelu MPEG-2 Warstwy modelu MPEG-2 Tryb LSF mono stereo 16 khz 22,05 khz 24 khz Tryb wielokanałowy 5 kanałów 32 khz 44,1 khz 48 khz WARSTWA 1 WARSTWA 1 WARSTWA 2 WARSTWA 2 WARSTWA 3 WARSTWA 3

Subiektywna ocena jakości dźwięku ę Tabela 2. Subiektywna ocena jakości dźwięku ę zakodowanego perceptualnie w standardzie MPEG-1 Layer III (44,1 khz, joint-stereo) w zależności od typu muzyki i przepływności bitowej (współczynnika kompresji). PCM MPEG-1 Layer III Chór Orkiestra 1411 kbit/s 192 kbit/s 128 kbit/s 64 kbit/s 32 kbit/s (1:1) (7,3:1) (11:1) (22:1) (44,1:1) 1411 kbit/s 192 kbit/s 128 kbit/s 64 kbit/s 32 kbit/s (1:1) (7,3:1) (11:1) (22:1) (44,1:1) Rock 1411 kbit/s (1:1) 192 kbit/s (7,3:1) 128 kbit/s (11:1) 64 kbit/s (22:1) 32 kbit/s (44,1:1) Pop 1411 kbit/s (1:1) 192 kbit/s (7,3:1) 128 kbit/s (11:1) 64 kbit/s (22:1) 32 kbit/s (44,1:1) Disco 1411 kbit/s 192 kbit/s 128 kbit/s 64 kbit/s 32 kbit/s (1:1) (7,3:1) (11:1) (22:1) (44,1:1)