Modele psychofizyczne w zastosowaniu do kompresji treści multimedialnych

Transkrypt

1 1/65 Modele psychofizyczne w zastosowaniu do kompresji treści multimedialnych Paweł Forczmański pforczmanski@wi.zut.edu.pl

2 2/65 dr inż. Paweł Forczmański

3 Kompresja a nośnik informacji Nośnik danych systemu multimedialnego ma zasadniczy wpływ na rodzaj wybranego kodowania. 3/65 Różnorodność kanałów transmisyjnych powoduje różnorodność standardów kodowania, choć daje się zaobserwować pewien trend do tworzenia systemów uniwersalnych (np. MPEG-4). Warto też pamiętać o tym, że często kanał transmisyjny składa się z kilku różnych części, np. media transmitowane przez Internet są składowane po stronie nadawczej (a często i odbiorczej) w pamięci masowej.

4 Kompresja a nośnik informacji Transmisja radiowa Szerokość pasma średnia i duża. Poziom zakłóceń wysoki. Ilość jednoczesnych odbiorców nieograniczona. Dostęp swobodny brak. Kanał zwrotny brak. Transmisja kablowa Szerokość pasma duża. Poziom zakłóceń niski. Ilość jednoczesnych odbiorców średnia i duża. Dostęp swobodny brak. Kanał zwrotny najczęściej brak. Pamięci masowe Szerokość pasma duża i bardzo duża. Poziom zakłóceń żaden. Ilość jednoczesnych odbiorców 1. Dostęp swobodny jest. Kanał zwrotny brak. Ograniczona pojemność. Internet 4/65 Szerokość pasma mała lub średnia. Poziom zakłóceń niski lub bardzo niski. Ilość jednoczesnych odbiorców umiarkowana. Dostęp swobodny może być zapewniony. Kanał zwrotny bez problemu.

5 Szerokość strumienia danych a/v Zastosowanie Wideotelefonie w publicznych sieciach telefonicznych Wideotelefonie i wideokonferencje w sieciach ISDN Zdalne nauczanie 5/65 Systemy multimedialne wykorzystujące CD-ROM Telewizja, Video On Demand Telewizja wysokiej rozdzielczości (HDTV) Przepływność [Mb/s] bez kompresji z kompresją 9,1 30,4 0,01 0,025 30,4 0,064 0, ,064 4,00 30,4 1,15 3, ,00 8, ,00 20,00

6 Redundancja percepcyjna Kompresja stratna jest charakterystyczna dla danych medialnych, ponieważ wykorzystuje redundancję percepcyjną. Opiera się ona na tym, że ludzkie zmysły i mózg nie analizują całej informacji zawartej w strumieniu multimedialnym. 6/65 W związku z tym część danych może zostać z tego strumienia usunięta, podczas gdy percepcja tego strumienia pozostanie niezmieniona, lub (częściej) strata jakości percepcji jest w danych warunkach akceptowalna.

7 Redundancja percepcyjna Pewnym problemem jest tu indywidualność percepcji. Autorzy kompresorów konstruują uśrednione modele percepcji w oparciu o wyniki eksperymentów (np. model psychoakustyczny MPEG Audio).Trzeba się liczyć z tym, że indywidualne osoby mogą mieć percepcję inną niż uśredniony model. Na przykład większość ludzi kompresję MPEG 1 Audio warstwę 3 (popularne MP3) o przepływności 192 kbit/s traktuje jako jakość CD, podczas gdy są osoby, które odczuwają stratę jakości nawet przy 256 kbit/s. 7/65 Większość algorytmów kompresji stratnej na koniec pakuje przetransformowane dane dodatkowo algorytmem bezstratnym.

8 Obraz statyczny JPEG - oparty na DCT i dający relatywnie słabe rezultaty. JPEG oparty na falkach, dający znacznie lepsze wyniki DjVu j.w., kompresja dokumentów (skanów) Video MPEG1,2,4 DCT bardzo wysoka jakość, połączona z większymi objętościowo plikami (100MB MPEG-4 = 350MB MPEG2). Real Video, niską jakość obrazu rekompensuje mała objętość dzięki czemu wykorzystywany jest przy transmisjach na żywo. H.263, H.264 kompresja w kanałach o niskiej przepływności Audio MP3 (MPEG-1 Layer3), najpopularniejsze kodowanie stratne audio, oparte na MDCT, stosuje model psychoakustyczny Instytutu Fraunhoffera i firmy Thomson Ogg Vorbis, oparte na MDCT Real Audio, podobnie jak Real Video, rekompensuje straty jakości małą objętością, jest stosowany głównie do transmisji na żywo. AAC (Advanced Audio Coding, MPEG-4 Audio) nowy standard o wysokim stopniu kompresji 8/65 Przykładowe algorytmy

9 Budowa oka i kory wzrokowej 9/65 W 2006 r. na University of Pennsylvania przeprowadzono badania, które wykazały, że pasmo transmisyjne siatkówki okaz ludzkiego to około 8960 kbps, natomiast świnki morskiej tylko 875 kbps.

10 HVS human visual system Model ludzkiego systemu postrzegania (Human Visual System Model), często zwany po prostu HVS, stosowany jest w zadaniach przetwarzania i rozpoznawania obrazu przez badaczy z zakresu widzenia komputerowego (computer vision) w celu opisywania biologicznych i psychologicznych procesów, które nie są do końca zrozumiałe. Model ten stosuje się w celu uproszczenia zachowań skomplikowanego systemu. Wiedza o systemie postrzegania cały czas się pogłębia, więc HVS jest na bieżąco poprawiany i udoskonalany 10/65 Wiele cech HVS wynika z ewolucji i ma zastosowania szczególnie w przypadkach zagrożenia życia, czy też polowania. Częstym przykładem działania HVS są złudzenia optyczne.

11 Założenia dot. HVS Charakterystyka niskoczęstotliwościowa (ograniczona liczba pręcików w oku) -> pasma Macha Niska rozdzielczość postrzegania kolorów (czopków jest mniej niż pręcików) Stosunkowo wysoka czułość w stosunku do ruchu Bardziej czułe w widzeniu peryferyjnym Dużo większa czułość niż w stosunku do tekstur, patrz kamuflaż zwierząt Większa czułość dla tekstur niż rozbieżność punktów w przestrzeni rozdzielczość przestrzenna nie jest bardzo dokładna Wrodzone rozpoznawanie twarzy (nawet małe dzieci śmieją się gdy widzą twarz) Twarz wklęsła (nie wypukła!) wygląda normalnie (cechy twarzy ważniejsze niż informacja 3D) 11/65 Twarz obrócona o 180st. Z odwróconymi (poprawnie) oczami i ustami wygląda normalnie) -> Paradoks Margaret Thatcher

12 12/65 Pasma Macha (Ernesta) Charakterystyka niskoczęstotliwościowa (ograniczona liczba pręcików w oku) -> pasma Macha

13 Czułość koloru Dane wejściowe 13/65 Po dokonaniu subsamplingu kolorów

14 14/65 Interlace Interlace (międzyliniowość) to technika poprawy jakości obrazów ruchomych (eliminacji migotania, zwiększenia częstotliwości odświeżania) bez zwiększania wymaganego pasma transmisyjnego opracowana przez Randalla C. Ballarda z firmy RCA w 1932r.

15 Złudzenia to podstawa... Dzięki znajomości złudzeń, którym ulegamy istnieje możliwość konstruowania wydajnych algorytmów kompresji treści multimedialnych Złudzenia wizualne Złudzenia akustyczne Model psychofizyczny (psychoakustyczny, psychowizualny) 15/65 Obraz, dźwięk Algorytm kompresji Zapis cyfrowy

16 16/65 Złudzenia (Bjørn Borg)

17 17/65 Złudzenia (Bjørn Borg)

18 18/65 Złudzenia (paradoks Margaret Thatcher)

19 19/65 Złudzenia (paradoks Margaret Thatcher)

20 20/65 Złudzenia (na zdjęciu jest twarz)

21 21/65 Złudzenia (na zdjęciu jest twarz)

22 22/65 Złudzenia (tworzenie obrazu wirtualnego)

23 23/65 Złudzenia (postrzeganie kolorów)

24 24/65 Złudzenia (postrzeganie kolorów)

25 25/65 Złudzenia

26 26/65 Złudzenia

27 27/65 Złudzenia (obrazy niemożliwe)

31 31/65 Złudzenia

32 32/65 Złudzenia

33 33/65 Złudzenia

34 34/65 Złudzenia (w służbie polityki) Horatio Herbert Kitchener, lepiej znany jako Lord Kitchener, jest najbardziej rozpoznawany jako twarz wykorzystana na plakacie, który rekrutował obywateli Wielkiej Brytanii podczas Pierwszej Wojny Światowej. Potem ten pomysl był wielokrotnie kopiowany)

35 Metody kompresji 35/65 Kodowanie Kodowanie źródła Entropijne (Entropy coding) (Source coding) Kodowanie Hybrydowe (Hybrid coding) W kodowaniu źródła wykorzystywane są ograniczenia i niedoskonałości ludzkiego wzroku i słuchu. Kodowanie źródła należy do grupy metod stratnych (lossy), co oznacza, że plik po dekompresji nie będzie w 100% zgodny z plikiem źródłowym.

36 Definicja Kompresja stratna to metody zmniejszania ilości bitów potrzebnych do wyrażenia danej informacji, które nie dają gwarancji, że odtworzona informacja będzie identyczna z oryginałem. Dla niektórych danych algorytm kompresji stratnej może odtworzyć informację w sposób identyczny. Kompresja stratna jest możliwa ze względu na sposób działania ludzkich zmysłów, tj. wyższą wartość pewnych części danych nad innymi. Algorytmy kompresji stratnej zazwyczaj posługują się modelami psychoakustycznymi, psychowizualnymi itd., aby odrzucić najmniej istotne dane o dźwięku, obrazie, pozostawiając dane o wyższej wartości dla rozpoznawania tej informacji (akustycznej, wizualnej) przez zmysły. 36/65 Ilość odrzucanych danych jest zazwyczaj określana przez stopień kompresji. Stopień kompresji wyraża się często w %. Nowoczesne algorytmy operują na przepływności wyrażanej w bps.

37 Kompresja stratna obrazów nieruchomych Wzrok człowieka oszukać trudniej niż słuch, stąd wiele formatów obrazu pozostaje przy kompresji bezstratnej (GIF, BMP), ewentualnie wspomagając się usuwaniem korelacji między sąsiednimi pikselami (PNG). Kompresja stratna sprawdza się w przypadku obrazów naturalnych (zdjęcia). Najbardziej rozpowszechnionym formatem jest JPEG, który opiera się na transformacie obrazu w dziedzinę częstotliwości (DCT), a następnie stratnym kwantowaniu współczynników transformaty. 37/65 Nowsze formaty (JPEG2000, DjVu) wykorzystują transformatę falkową, która lepiej dopasowana jest do sposobu przetwarzania obrazu przez mózg (przy tej samej kompresji, artefakty są mniej widoczne). Ważną techniką jest też zmniejszanie pasma przenoszenia chrominancji (formaty YUV).

38 Kompresja stratna obrazów nieruchomych 8kB - JPEG 38/65 45kB - JPEG 8kB - JPG2000

39 39/65 Subsampling koloru Schemat subsamplingu jest często opisywany jako stosunek trzech elementów (np. 4:2:2), części te to (w kolejności): Luminancja (Luma, Y) pozioma wartość próbkowania (początkowo, jako wielokrotność MHz w systemie NTSC) Chrominancja R (Cr) współczynnik poziomego próbkowania (w stosunku do pierwszej wartości) Chrominancja B (Cb) współczynnik poziomego próbkowania (w stosunku do pierwszej wartości). Wyjątkiem jest zero, co oznacza że wartość Cb jest równa Cr i jednocześnie Cb i Cr są próbkowane w stosunku 2:1 w kierunku pionowym.

40 40/65 Subsampling koloru Schemat 4:2:0 jest stosowany w: wszystkie wersje MPEG video (MPEG-1, MPEG-2/DVD). Niektóre wyższe profile MPEG-4 stosują 4:4:4 PAL, DV, DVCAM większość implementacji JPEG/JFIF, H.261 i MJPEG

41 Kompresja stratna obrazów ruchomych O ile rozdzielczość percepcyjna obrazów nieruchomych u człowieka jest niezła, o tyle w przypadku video możliwości oszustwa jest więcej. Większość ludzi odbiera ruch pokazany z prędkością powyżej 25 klatek na sekundę jako płynny. To podstawa ograniczenia strumienia danych. Do każdej klatki dają się zastosować techniki stosowane przy obrazach nieruchomych, przede wszystkim format YUV i skwantowane transformaty częstotliwościowe. 41/65 Oprócz tego dochodzi wiele nowych technik wykorzystujących korelację międzyklatkową: predykcja i interpolacja klatek, predykcja ruchu bloków obrazu.

42 JPEG (1) Najbardziej powszechniejszym algorytmem kompresji obrazów jest JPEG. Wiele rozwiązań użytych w JPEG jest używanych także w innych algorytmach. Kolejne kroki algorytmu JPEG to: zamiana przestrzeni kolorów z RGB na kanał jasności i dwa kanały koloru. Ludzie znacznie dokładniej postrzegają drobne różnice jasności od drobnych różnic barwy, a więc użyteczne jest tutaj użycie różnych parametrów kompresji. obniżenie rozdzielczości kanałów koloru, zwykle odrzuca się co drugą wartość wzdłuż osi poziomej, i każdą na pionowej, choć możliwe są też inne ustawienia. Tak radykalne cięcie danych nieznacznie wpływa na jakość, ponieważ rozdzielczość postrzegania kolorów przez ludzkie oko jest słaba. Krok nie jest obowiązkowy. 42/65

43 43/65 JPEG (2) Kolejne kroki algorytmu JPEG to: podział każdego kanału obrazka na bloki 8x8. W przypadku kanałów kolorów, jest to 8x8 aktualnych danych, a więc zwykle 16x8. transformata kosinusowa każdego z bloków. Zamiast wartości pikseli mamy teraz średnią wartość wewnątrz bloku oraz częstotliwości zmian wewnątrz bloku, obie wyrażone przez liczby zmiennoprzecinkowe. Transformata DCT jest odwracalna, więc na razie nie tracimy żadnych danych. Zastąpienie średnich wartości bloków przez różnicę wobec wartości poprzedniej. Poprawia to w pewnym stopniu współczynnik kompresji. Kwantyzacja, czyli zastąpienie danych zmiennoprzecinkowych przez liczby całkowite. To właśnie tutaj występują straty danych. Zależnie od parametrów kompresora, odrzuca się mniej lub więcej danych. Zasadniczo większa dokładność jest stosowana do danych dotyczących niskich częstotliwości niż wysokich. Kompresja algorytmem bezstratnym, w tym przypadku algorytmem Huffmana. Użyta transformata powoduje efekty blokowe w przypadku mocno skompresowanych obrazków.

44 44/65 JPEG (schemat)

45 Kompresja obrazów: inne algorytmy Inne algorytmy kompresji obrazków opierają się głównie na: użyciu innej transformaty zmodyfikowanej transformaty kosinusowej, która nie powoduje efektu bloków, a więc jest korzystniejsza w przypadku mocno skompresowanych obrazków. Nie odbiega ona wynikami znacząco od DCT w przypadku obrazów o średniej i niskiej kompresji. transformat falkowych - mogą one dać znacznie lepsze wyniki. Zazwyczaj nie powodują efektu bloków. 45/65 użyciu innego algorytmu kompresji bezstratnej kompresja wszystkich kanałów naraz, w szczególności ich wspólna kwantyzacja. Daje lepsze wyniki jeśli wartości w różnych kanałach są mocno skorelowane.

46 46/65 Kompresja fraktalna Opisuje ona obraz w postaci parametrów funkcji fraktalnej, która daje w efekcie przybliżoną postać obrazu. Dotychczas kompresja fraktalna daje znacznie słabszą jakość w przypadku obrazów o niskim i średnim stopniu kompresji. Dla obrazów silnie skompresowanych może dawać lepsze rezultaty niż JPEG, przede wszystkim nie powoduje efektu bloków, jednak jest słabsza od znacznie prostszych metod opartych na MDCT czy falkach. Na razie nic nie wskazuje na to, że kompresja fraktalna znajdzie szersze zastosowanie.

47 47/65 Kompresja video (1) Najprostsze systemy kompresji ruchomych obrazów po prostu kompresują wszystkie klatki indywidualnie i niezależnie. Jest to bardzo nieefektywne, ponieważ kolejne klatki są zwykle bardzo podobne do siebie. W najbardziej popularnych metodach używa się zestawu klatek kluczowych, które kompresuje się tak samo jak samodzielne obrazki. Pozostałe klatki kompresuje się natomiast korzystając z danych z klatek poprzednich (lub następnych). Lepsze wyniki dałoby wykorzystanie danych o poprzednich klatkach przy kompresji każdej klatki, jednak utrudniało by to znacznie przewijanie.

48 48/65 Kompresja video (2) Prostym sposobem wykorzystania danych o poprzednich klatkach jest kodowanie różnicy wartości pikseli o tym samym położeniu zamiast samych wartości. Tym sposobem można dobrze skompresować sceny w których kamera jest nieruchoma, jednak nie da to znaczących efektów w scenach z ruchomą kamerą. Zwykle wykorzystuje się więc różne rodzaje kompensacji ruchu. Np. dla każdego bloku podaje się który niewielki wektor przesunięcia, np. <+2,-1>, czyli zamiast tego samego bloku klatki poprzedniej używamy bloku o 2 piksele w prawo i jeden w górę (czy też w lewo i w dół).

49 Kompresja video (3) Inną ważną techniką wykorzystywaną przy kompresji ruchomych obrazów jest zmienna przepływność (VBR, variable bitrate), czyli używanie różnej dokładności dla różnych klatek. Jest wiele sposobów dobierania takich różnic, algorytmy wyboru jakości zwykle są cechą bardziej enkodera niż formatu. 49/65 Często enkodery stosują metody dwuprzebiegowe, pierwszy przebieg działający na danych wejściowych zbiera informacje potrzebne algorytmowi zmiennej przepływności, a dopiero drugi kompresuje dane.

50 50/65 Budowa ucha

51 Model psychoakustyczny (1) Model psychoakustyczny to matematyczny model mówiący jakie informacje o dźwięku są rozpoznawalne przez ludzkie ucho, jakie natomiast nie są. 51/65 Modele psychoakustyczne są podstawą między innymi kompresji dźwięku, algorytmów oceny jakości transmisji mowy, systemów automatycznie rozpoznających mowę oraz rozpoznających mówców.

52 52/65 Model psychoakustyczny (2) Modele psychoakustyczne są szczególną grupą modeli układu słuchowego. W tej grupie wytyczne do modelowania pochodzą z pomiarów psychoakustycznych (odsłuchowych), w których słuchacze oceniają wrażenia wywołane różnymi sygnałami testowymi prezentowanymi w określonym kontekście (np. czy słyszą ton sinusoidalny prezentowany na tle szumu). Model przetwarza sygnał w taki sposób, aby jego wyjście stanowiło predykcję ocen subiektywnych słuchaczy. Zjawiskami słuchowymi najczęściej wykorzystywanymi przy opracowywaniu modeli psychoakustycznych są: maskowanie dźwięków, percepcja wysokości dźwięków oraz dyskryminacja modulacji amplitudy.

53 Elementy psychoakustyki: System słuchowy System słuchowy człowieka przetwarza dźwięk w pewnych podpasmach, zwanych pasmami krytycznymi. W każdym z nich sygnał jest analizowany w sposób niezależny od dźwięku w pozostałych pasmach krytycznych. Każdemu pasmu krytycznemu odpowiada pewien odcinek na błonie podstawnej ślimaka równy 1,3 mm. 53/65 Szerokość tych pasm nie jest wielkością stałą. Mianowicie poniżej 500 Hz jest ona stała i wynosi 100 Hz, zaś powyżej 500 Hz szerokość każdego następnego pasma jest o 20% większa niż dla poprzedniego pasma.

54 54/65 Cechy modelu psychoakustycznego (1) Modele psychoakustyczne przewidują zwykle zakres słyszalności od 20 Hz do 20 khz (dlatego właśnie większość współczesnych odtwarzaczy muzyki zapisanej cyfrowo ma takie pasmo przenoszenia) i maksymalną czułość w zakresie od 2 khz do 4 khz

55 55/65 Cechy modelu psychoakustycznego (2) maskowanie sąsiednich częstotliwości (maskowanie jednoczesne): ciche dźwięki o częstotliwościach zbliżonych do częstotliwości dźwięku głośnego nie są słyszalne maskowanie dźwięków następujących (maskowanie pobodźcowe): głośny dźwięk potrafi zagłuszyć cichsze dźwięki następujące zaraz po nim maskowanie dźwięków poprzedzających (maskowanie wsteczne): cichy dźwięk poprzedzający w krótkim czasie dźwięk głośny nie jest słyszalny - ta własność układu słuchowego jest szczególnie ciekawa gdyż nie da się jej wyjaśnić na gruncie adaptacji krótkoterminowej układu słuchowego, równocześnie pokazuje ona, że układ słuchowy nosi pewne cechy układu nieprzyczynowego (problem nieprzyczynowości można rozwiązać dopuszczając, pewne opóźnienie w odbiorze bodźców dźwiękowych).

56 56/65 Warstwice równej głośności

57 Intensywność tonu maskującego Intensywność tonu testowego która jest ledwo słyszalna [db] Krzywe maskowania jednoczesnego 57/65 Częstotliwość tonu maskującego Częstotliwość tonu testowego [Hz]

58 58/65 Maskowanie niejednoczesne

59 Kompresja stratna dźwięku Najprostszą kompresją stratną dźwięku jest nieliniowe kwantowanie próbek, stosowane między innymi w formatach A-law i μ-law. Osiąga się kompresję 2:1 przy nieznacznym pogorszeniu stosunku sygnału do szumu. 59/65 Kolejnym stopniem jest wykorzystanie korelacji międzypróbkowej ADPCM z predyktorami różnego stopnia.

60 60/65 Kompresja stratna dźwięku Powszechnie obecnie jest stosowana transformata w dziedzinę częstotliwości, następnie przy pomocy modelu psychoakustycznego usuwa się składowe percepcyjnie nieistotne, dzięki zjawisku maskowania tonalnego i szumowego. Prostą metodą stosowaną przy dźwięku wielokanałowym jest wykorzystanie wysokiej korelacji między kanałami (najczęściej stosowana wraz z innymi metodami).

61 61/65 Typowy koder psychoakustyczny

62 62/65 Kompresja stratna dźwięku Najnowsze standardy (AAC+) wykorzystują też sztuczki z powieleniem dolnej połowy widma w górną (spectral band replication).

63 Kompresja stratna dźwięku: głos Odrębną gałęzią jest kompresja sygnałów mowy. Tu podstawowym kryterium jest raczej zrozumiałość mowy niż wierne odtworzenie. Powszechnie stosowaną techniką jest dynamiczne modelowanie układu głosowego człowieka i przesyłanie parametrów modelu, oraz pobudzenia szczątkowego (szum + ton). 63/65 Na technice tej opiera się np. standard kompresji telefonii komórkowej GSM.

64 Kompresja dźwięku: MPEG Audio sygnał akustyczny (2*768 kbit/s) zakodowany sygnał (2*32 kbit/s)... 2*192 kbit/s Podpasmo 0 Bank filtrów dla 32 pasm... Kwantyzacja liniowa Formatowanie sygnału skompreswanego 31 Kodowanie informacji dodatkowej 64/65 FFT Model psychoakustyczny Kontrola zewnętrzna Dane pomocnicze

65 65/65 Kompresja dźwięku: Vorbis OGG (1) Dwa najpopularniejsze publicznie dostępne algorytmy - MP3 i Vorbis, używają podobnych technik. Warto tu omówić algorytm Vorbis, ponieważ używa on bardziej efektywnych rozwiązań. Strumień jest dzielony na okna. Okna występują w dwóch rozmiarach - duże (zwykle 2048 próbek) i małe (zwykle 256 próbek). Małe służą do przedstawienia szybko zmieniającego się dźwięku oraz nagłego wzrostu intensywności dźwięku w danej częstotliwości. Nie używa się ich w przypadku spadków intensywności, ponieważ ludzkie ucho jest na nie znacznie mniej czułe. Okna nie są po prostu grupą kolejnych wartości natężenia dźwięku. Okna częściowo się pokrywają i jedna wartość należy w tych obszarach częściowo do kilku okien. Dla obszarów zachodzenia na siebie okien, dana wartość należy do lewego okna w stopniu sin(pi/2 sin2(pi/2 t)), gdzie t=0 dla początku obszaru i t=1 dla jego końca.

66 66/65 Kompresja dźwięku: Vorbis OGG (2) Na każdym oknie jest przeprowadzana zmodyfikowana transformata kosinusowa. Zamiast poszczególnych wartości mamy teraz w bloku widmo parametrów MDCT czyli (pomijając szczegóły) częstotliwości. Dane z MDCT są upraszczane zależnie od parametrów kompresji zgodnie z modelem psychoakustycznym. Dane o energii przypadającej na daną częstotliwość są skalowane, co umożliwia równie dobrą kompresje głośnych jak i cichych dźwięków. Dane są kwantowane i kompresowane bezstratnie.