Kompresja dźwięku w standardzie MPEG-1

Podobne dokumenty
Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 1, strona 1.

Kompresja video (MPEG)

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Technika audio część 2

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.

Transformata Fouriera

Program wykładu. informatyka + 2

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Psychoakustyka. Dźwięk zapisany w formie nieskompresowanej na przykład na CD zawiera więcej informacji niż jest w stanie przetworzyć ludzki mózg.

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Kompresja Danych. Streszczenie Studia Dzienne Wykład 13, f(t) = c n e inω0t, T f(t)e inω 0t dt.

Przetwarzanie i transmisja danych multimedialnych. Wykład 9 Kodowanie podpasmowe. Przemysław Sękalski.

DŹWIĘK. Dźwięk analogowy - fala sinusoidalna. Dźwięk cyfrowy 1-bitowy 2 możliwe stany fala jest mocno zniekształcona

Neurobiologia na lekcjach informatyki? Percepcja barw i dźwięków oraz metody ich przetwarzania Dr Grzegorz Osiński Zakład Dydaktyki Fizyki IF UMK

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

dr inż. Piotr Odya Wprowadzenie

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów

Podstawy transmisji multimedialnych podstawy kodowania dźwięku i obrazu Autor Wojciech Gumiński

Kompresja JPG obrazu sonarowego z uwzględnieniem założonego poziomu błędu

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) kierunkowy (podstawowy / kierunkowy / inny HES)

Przykładowe rozwiązanie zadania dla zawodu technik telekomunikacji

Przetwarzanie i transmisja danych multimedialnych. Wykład 10 Kompresja obrazów ruchomych MPEG. Przemysław Sękalski.

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j

Kompresja sekwencji obrazów - algorytm MPEG-2

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 6. Transformata cosinusowa. Krótkookresowa transformata Fouriera.

WPŁYW PRÓBKOWANIA I KWANTYZACJI NA JAKOŚĆ DŹWIĘKU

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 4, strona 1. GOLOMBA I RICE'A

dr inż. Piotr Odya Parametry dźwięku zakres słyszanych przez człowieka częstotliwości: 20 Hz - 20 khz; 10 oktaw zakres dynamiki słuchu: 130 db

Zaawansowane algorytmy DSP

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

DYSKRETNA TRANSFORMACJA FOURIERA

Zastosowanie kompresji w kryptografii Piotr Piotrowski

Metody kodowania i przechowywania sygnałów dźwiękowych. Andrzej Majkowski Politechnika Warszawska amajk@ee.pw.edu.pl

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Formaty - podziały. format pliku. format kompresji. format zapisu (nośnika) kontener dla danych WAV, AVI, BMP

Wprowadzenie do cyfrowej obróbki dźwięku

Wszechnica Popołudniowa: Multimedia, grafika i technologie internetowe Metody kodowania i przechowywania sygnałów dźwiękowych

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

Wszechnica Popołudniowa: Multimedia, grafika i technologie internetowe Metody kodowania i przechowywania sygnałów dźwiękowych

KOMPRESJA STRATNA SYGNAŁU MOWY. Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP

Andrzej Leśnicki Laboratorium CPS Ćwiczenie 9 1/5 ĆWICZENIE 9. Kwantowanie sygnałów

Opracował: Dominik Tyniw, PG pod kier. Prof.. A. Czyżewskiego

FFT i dyskretny splot. Aplikacje w DSP

Adaptacyjne Przetwarzanie Sygnałów. Filtracja adaptacyjna w dziedzinie częstotliwości

Przykładowe zadanie praktyczne

Przetwarzanie analogowo-cyfrowe sygnałów

Komputerowe modelowanie ludzkiego słuchu w kompresji dźwięku

CYFROWE PRZTWARZANIE SYGNAŁÓW (Zastosowanie transformacji Fouriera)

Algorytmy detekcji częstotliwości podstawowej

3. Przetwarzanie analogowo-cyfrowe i cyfrowo-analogowe... 43

zniekształcenia przyjmują różne formy, w zależności od miejsca, w którym powstają

Założenia i obszar zastosowań. JPEG - algorytm kodowania obrazu. Geneza algorytmu KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH

Przygotowali: Bartosz Szatan IIa Paweł Tokarczyk IIa

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

PROGRAMOWANIE APLIKACJI MULTIMEDIALNYCH

Podstawy Przetwarzania Sygnałów

Fundamentals of Data Compression

Transformaty. Kodowanie transformujace

Metodyka i system dopasowania protez słuchu w oparciu o badanie percepcji sygnału mowy w szumie

Percepcja dźwięku. Narząd słuchu

Przetwarzanie obrazów wykład 6. Adam Wojciechowski

Kodowanie podpasmowe

Opis efektów kształcenia dla modułu zajęć

KOMPRESJA STRATNA DŹWIĘKU

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

9. Dyskretna transformata Fouriera algorytm FFT

Ćwiczenie 11. Podstawy akwizycji i cyfrowego przetwarzania sygnałów. Program ćwiczenia:

Analizy Ilościowe EEG QEEG

KARTA MODUŁU KSZTAŁCENIA

LABORATORIUM AKUSTYKI MUZYCZNEJ. Ćw. nr 12. Analiza falkowa dźwięków instrumentów muzycznych. 1. PODSTAWY TEORETYCZNE ANALIZY FALKOWEJ.

Percepcyjne kodowanie dźwięku

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.

Teoria sygnałów Signal Theory. Elektrotechnika I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny)

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

jako analizatory częstotliwości

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

Cyfrowe przetwarzanie i kompresja danych

Kompresja sekwencji obrazów

Nowoczesne metody emisji ucyfrowionego sygnału telewizyjnego

Zygmunt Wróbel i Robert Koprowski. Praktyka przetwarzania obrazów w programie Matlab

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

Wybrane metody kompresji obrazów

LABORATORIUM AUDIOLOGII I AUDIOMETRII

Co to jest dźwięk. Dźwięk to wyrażenie słuchowe wywołane przez falę akustyczną. Ludzki narząd wyłapuje dźwięki z częstotliwością 16 do 20 Hz

PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających

Zakres wymaganych wiadomości do testów z przedmiotu Metrologia. Wprowadzenie do obsługi multimetrów analogowych i cyfrowych

TRANSFORMATA FALKOWA 2D. Oprogramowanie Systemów Obrazowania 2016/2017

Przygotowała: prof. Bożena Kostek

Modulacja i kodowanie laboratorium. Modulacje Cyfrowe: Kluczowanie Amplitudy (ASK) i kluczowanie Fazy (PSK)

Dźwięk podstawowe wiadomości technik informatyk

Akwizycja i przetwarzanie sygnałów cyfrowych

POMIARY WYBRANYCH PARAMETRÓW TORU FONICZNEGO W PROCESORACH AUDIO

Generowanie sygnałów na DSP

Transkrypt:

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 7, strona 1. Kompresja dźwięku w standardzie MPEG-1 Ogólne założenia kompresji stratnej Zjawisko maskowania psychoakustycznego Schemat blokowy kodera Model psychoakustyczny Kodowanie podpasmowe Bank filtrów Filtry polifazowe Zmodyfikowana transformata cosinusowa Różne tryby kompresji

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 7, strona 2. Podstawy stratnej kompresji dźwięku 1. Najprostsze algorytmy: ADPCM. Zaletą rozlicznych odmian ADPCM jest prostota, wadą: niewielki stopień kompresji i wprowadzanie sporych zniekształceń. Ogólny schemat: filtr [adaptacyjny] kwantyzacja [nieliniowa] multiplekser wybór współczynników 2. Zaawansowana kompresja stratna dźwięku opiera się na zjawisku maskowania. Polega ono na tym, że nie słyszymy pewnych słabych dźwięków, w obecności silniejszych, maskujących je: P [db] szum maskujący P [db] ton maskujący próg maskowania tony maskowane f [Hz] maskowanie tonów szumem próg maskowania szumy maskowane f [Hz] maskowanie szumów tonem

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 7, strona 3. Model psychoakustyczny Zjawisko maskowania psychoakustycznego może zostać w koderze wykorzystane w dwojaki sposób: 1. Korzystając z wiedzy o zamaskowanych składowych, można je usunąć z sygnału. 2. Korzystając z wiedzy o charakterze wprowadzanych przez kodek zniekształceń, można je uczynić niesłyszalnymi (noise shaping). Zjawisko maskowania jest dość złożone. Kształt krzywej maskowania zależy od częstotliwości składowych maskujących i maskowanych i charakteru składowych (szum/sygnał). Oprócz tego mamy do czynienia ze zjawiskiem maskowania czasowego (sygnał może być maskowany jakiś czas po sygnale maskującym, a nawet przed (!)). Oprócz tego u każdego człowieka maskowanie zachodzi w nieco inny sposób. Uśredniony i zapisany matematycznie model zjawiska maskowania nosi nazwę modelu psychoakustycznego. Schemat blokowy kodera MPEG-1, warstwa III 32-kanałowy bank filtrów f/32 DCT z nakładaniem okien skalowanie i kwantyzacja kompresja Huffmana transformata Fouriera model psychoakustyczny

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 7, strona 4. Analiza psychoakustyczna Ponieważ model psychoakustyczny jest zdefiniowany w dziedzinie częstotliwości, koder musi dokonać transformacji sygnału wejściowego w tę dziedzinę. Odbywa się to za pomocą szybkiej, 1024- punktowej transformaty Fouriera. Na bazie transformaty dokonywane jest wydzielenie składników szumowych i tonalnych i obliczenie progów maskowania. Na ich bazie określana jest rozdzielczość transformaty cosinusowej: 6 próbek (duża rozdzielczość czasowa kosztem częstotliwościowej dla przebiegów szybkozmiennych) lub 18 próbek (duża rozdzielczość częstotliwościowa, dla przebiegów wolnozmiennych). Progi maskowania określają też współczynniki skalujące i siłę kwantowania poszczególnych współczynników transformaty przed kompresją Huffmana tak, aby z jednej strony zmieścić się w narzuconym bitrate, z drugiej zaś uzyskać możliwie najlepszą jakość sygnału. Kodowanie podpasmowe Kodowanie podpasmowe jest esencją standardów MPEG Audio. Polega ono na rozdzieleniu sygnału audio na szereg pasm. Następnie każde pasmo jest oddzielnie skalowane i kwantowane. Rozdzielenie sygnału na pasma odbywa się A za pomocą banku filtrów. Bank filtrów F 0 F 1 F 2 F 3 F 4 F 5 F 6 F 7 F 8 F 9 użyty w MP3 posiada 192 albo 576 podpasm (w zależności od wymaganej rozdzielczości czasowej). Osiągnięcie takiej ilości pasm za pomocą zwykłych filtrów FIR wymaga zastosowania ogromnej ilości długich filtrów, co oznacza dużą ilość 0 f s /2 obliczeń. Dlatego MP3 używa hybrydowego banku filtrów, pierwszy stopień to typowy bank filtrów FIR o 32 pasmach.

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 7, strona 5. Bank filtrów H 0 (z) H 1 (z) 32 32 H 2 (z) 32 H 3 (z) 32 H 4 (z) 32...... 192 lub 576 pasm Pierwszym stopniem filtru hybrydowego są 32 filtry FIR. Wszystkie używają tego samego rodzaju okna okna sinusoidalnego. To okno daje całemu filtrowi odwracalność, to znaczy, że możliwa jest idealna rekonstrukcja sygnału, przez odwrotny filtr syntezujący. Po przejściu przez filtr pasmowy, z podpasm usuwane są próbki, tak, że zostaje tylko co 32 (następuje decymacja). Z tego względu, każdy filtr oblicza tylko co 32 próbkę, a więc jest filtrem polifazowym. Zdecymowane sekwencje próbek są poddawane zmodyfikowanej transformacie cosinusowej typu IV, co zwiększa ilość pasm do 192 lub 576 (długość transformaty jest wybierana przez blok analizy psychoakustycznej). H 31 (z) 32 Modyfikacja transformaty polega na tym, że obejmuje ona dwa bloki próbek (a więc 12 lub 36), kolejne transformaty zazębiają się o 50%. Dzięki takiemu zazębieniu się, unika się zniekształceń na granicy ramek.

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 7, strona 6. Filtry polifazowe Polifazowy filtr FIR to taki, w którym interesuje nas jedynie co któraś próbka sygnału wyjściowego. Najczęściej z filtrami polifazowymi mamy do czynienia przy interpolacji, a więc cyfrowym zwiększaniu częstotliwości próbkowania, oraz w bankach filtrów. 0 1 2 3 4 5 6 7 8 9 10 11 0 2 4 6 8 10 5 3 1 = + 5 3 1 5 3 1 5 3 1 1 3 5 7 9 11 4 2 0 4 2 0 4 2 0 4 2 0 faza 0 faza 180

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 7, strona 7. Zmodyfikowana transformata cosinusowa 18 próbek 18 próbek 18 próbek 18 próbek Zmodyfikowana transformata cosinusowa przekształca 2N próbek w N próbek, dlatego, że pierwsza cosinusoida ma okres 2N próbek, a nie N. Nakładanie się kolejnych przedziałów eliminuje problem zakłóceń na granicach bloków. 18 współcz. 18 współcz. 18 współcz. 2 N 1 X k = n=0 x[n]cos N n 1 2 N 2 k 1 2

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 7, strona 8. Różne tryby kompresji Każda ramka MP3 zawiera 1152 próbki (2304 przy stereo). Długość ramki w bajtach zależy od założonego stopnia kompresji (wyrażanego jako przepływność skompresowanego strumienia w kbit/s). Ze względu na to, że każda ramka może mieć inną docelową przepływność, możliwe są 3 tryby kompresji: CBR (Constant BitRate) Wszystkie ramki mają tę samą przepływność, równą średniej przepływności całego strumienia. Rozmiar pliku jest proporcjonalny do czasu trwania utworu. ABR (Average BitRate) Ramki mają różną przepływność dobraną tak, aby skompresować utwór z możliwie małymi stratami, zachowując zadaną średnią przepływność. Rozmiar pliku jest w przybliżeniu proporcjonalny do czasu trwania utworu. VBR (Variable BitRate) Ramki mają różną przepływność dobraną tak, aby zachować stałą jakość kompresji. Rozmiar pliku nie jest znany przed zakończeniem kompresji i nie jest proporcjonalny do czasu trwania utworu.