Kodowanie podpasmowe Plan 1. Zasada. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania
Zasada ogólna Rozkład sygnału źródłowego na części składowe (jak w kodowaniu transformacyjnym) Wada kodowania transformacyjnego sztuczny podział na bloki. Problemy z rekonstrukcją na krawędziach bloków Tutaj: sposób rozdziału rozkład na róŝne pasma częstotliwościowe za pomocą filtrów cyfrowych Kodowanie kaŝdego pasma oddzielnie Główny obszar zastosowań: kodowanie mowy (G.7), dźwięku (MPEG audio)
Składowe częstotliwościowe sygnału Przykład: Widoczne komponenty o róŝnej zmienności: Szybkozmienna składowa krótkofalowa Wolnozmienna składowa długofalowa (linia przerywana) Wyznaczenie składowej wolnozmiennej średniowanie próbek w przesuwającym się oknie
Przykład Chcemy zakodować ciąg x n : 10 14 10 1 14 8 14 1 10 8 10 1 Próbki skorelowane moŝliwość uŝycia DPCM. Ciąg róŝnic: 10 4-4 -6 6 - - - Gdy kwantyzujemy z głębokością m bitów, to: m Ilość poziomów rekonstrukcji: M = Szerokość kroku kwantyzacji: =1 / M Maksymalny błąd kwantyzacji: εq = / = 6/M
Przykład c.d. Rozkładamy na składowe o róŝnej zmienności: y n xn + xn xn xn =, zn = xn yn = 1 1 Ciągi y n i z n. Ich znajomość pozwala znaleźć x n = y n + z n 10 1 1 11 13 11 11 13 11 9 9 11 0-1 1-3 3-1 -1-1 1 1 Kodowanie z n bezpośrednia kwantyzacja; y n - DPCM 10 0-1 - 0 - - 0
Przykład c.d. Zmienność y n i z n wyraźnie mniejsza niŝ zmienność x n
Przykład c.d. Maksymalne błędy kodowania: Dla róŝnic y n : /M Dla ciągu z n : 3/M Maksymalny błąd rekonstrukcji : 5/M czyli mniej niŝ błąd kodowania róŝnic x n Problem: przekazując ciągi y n i z n musimy określić x więcej danych niŝ dla samego ciągu x n Rozwiązanie: wystarczy przekazać np. tylko parzyste elementy: 1 1 1,, = = + = + = n n n n n n n n n n n n x z y x z y x x z x x y
Przykład podsumowanie Rozdział sygnału na składową o niskich i wysokich częstościach ( x n y n, z n ) Wydzielenie tych składowych liniowe operacje na sygnale wejściowym Aby rozkład nie spowodował zwiększenie ilości danych sygnały wtórne poddajemy dziesiątkowaniu (przekazujemy tylko co drugi element) Sygnały wtórne róŝne charakterystyki, kodowane w róŝny sposób (DPCM, PCM). Rozdział sygnału mniejsze zniekształcenia lepsza kompresja
Filtry Filtry układy słuŝące wyodrębnieniu składowych o odpowiednich częstotliwościach Charakterystyka filtra funkcja przenoszenia modułu Rodzaje filtrów: Dolnoprzepustowe Górnoprzepustowe Środkowoprzepustowe Filtry cyfrowe działają na ciągi liczb (zwykle są to próbki sygnału ciągłego). Minimalna wymagana częstość próbkowania Uogólnione tw. Nyquista: aby odtworzyć dokładnie sygnał, który zawiera składowe o częstotliwościach pomiędzy f 1 a f naleŝy go próbkować z częstością * f f f p ( ) 1
Filtry cyfrowe Filtr cyfrowy relacja między wejściem {x n } a wyjściem {y n }: y n N M = a + ixn i i= 0 i= 1 b i y a i, b i - współczynniki filtra. Reakcja impulsowa filtra h n odpowiedź filtra na wejście x 0 =1, x i = 0 dla i>0 n i JeŜeli b i = 0, to odpowiedź zaniknie po N próbkach filtry FIR (finite impulse response). Wtedy N rząd filtra, zaś a n = h n JeŜeli niektóre współczynniki b i 0, to reakcja impulsowa moŝe być nieskończona filtry IIR (infinite impulse reaction).
Filtry cyfrowe - przykłady Filtry uŝywane w przykładzie numerycznym: Dolnoprzepustowy: h 0 = 0.5, h 1 = 0.5, h n = 0 dla n>1 Górnoprzepustowy: h 0 = 0.5, h 1 = 0.5, h n = 0 dla n>1 Filtr IIR niech a 0 =1, b 1 = b. Wtedy h n : h 0 = 1*1 + b*0 = 1 h 1 = 1*0 + b*1 = b h = 1*0 + b*b = b... h n = 1*0 + b*b n-1 = b n gdy b>1 filtr niestabilny. Filtry FIR zawsze stabilne. Filtry IIR mogą dawać lepsze wyniki (ostrzejsze odcięcie, mniejszy szum w paśmie przejścia.
Filtry cyfrowe kodowanie podpasmowe Najbardziej popularne lustrzane filtry kwadraturowe (QMF) Własność jeŝeli {h n } zadaje filtr dolnoprzepustowy, to {(-1) n h N-n-1 } określa filtr górnoprzepustowy Popularna grupa filtrów tej klasy filtry Johnstona Inna popularna grupa filtrów filtry Smitha-Barnwella Zasady ogólne: Im wyŝszy rząd filtra, tym lepszy filtr Filtr Smitha-Barnwella lepszy od filtra Johnstona tego samego rzędu
Charakterystyki popularnych filtrów J - 8 S-B- 8
Kodowanie podpasmowe algorytm
Koder Kodowanie podpasmowe działanie Sygnał wejściowy wchodzi na bank filtrów analizujących rozkład na podpasma Podpróbkowanie w stosunku (szerokość całego pasma):(szerokość podpasma) Zgodne z reguła Nyquista Ogranicza całkowitą ilość próbek Kodowane podpasm Mechanizm kodowania (DPCM, ADPCM, kwantyzacja; VLC) Sposób rozdziału bitów Przesyłanie zakodowanego sygnału
Kodowanie podpasmowe działanie c.d. Dekoder Dekodowanie w podpasmach Uzupełnianie (wstawienie odpowiedniej ilości zer pomiędzy próbkami) Podanie na filtry syntetyczne Sumowanie zrekonstruowanych sygnałów podpasm
Zastosowania Głównie do kodowania mowy i dźwięku MoŜliwe zastosowania do kodowania obrazów Kodowanie mowy standard G.7 Transmisja mowy z przepustowością 64, 56 i 48 kbps Na wejściu filtr antyaliasingowy 7kHz, próbkowanie z częstością 16 khz, kwantyzator 14-bitowy Rozdział na składową dolnoprzepustową (< 4 khz) i górnoprzepustową (> 4 khz) bank 4-rzędowych filtrów FIR Redukcja wyjścia filtrów, kwantyzacja (w obu kanałach ADPCM) Przydział bitów: pasmo dolnoprzepustowe 4 6 bitów; górnoprzepustowe: bity Kodowanie dźwięku standard MPEG audio rola modeli psychoakustycznych.
Percepcja dźwięku Podstawowe fakty Zakres słyszalności: 0 Hz 0 khz, największa czułość w zakresie 4 khz Czułość na dźwięk jest funkcją częstotliwości Człowiek przetwarza dźwięk w pewnych podpasmach, zwanych pasmami krytycznymi. Cały zakres akustyczny około 4 pasm krytycznych Szerokość pasma krytycznego stała dla małych, rośnie dla częstości > 500 Hz
Maskowanie Polega na przesłanianiu wraŝenia brzmienia dźwięków przez inne sąsiadujące w dziedzinie częstotliwości lub czasu. Maskowanie jednoczesne (częstotliwościowe) Silniejszy dźwięk zakłóca współbrzmiące słabsze dźwięki o zbliŝonych częstotliwościach Efekt tym większy im mniejsza separacja w częstotliwości
Maskowanie c.d. Maskowanie niejednoczesne (czasowe) silny dźwięk maskuje inne juŝ poza jego czasem trwania Premasking moŝe trwać kilka kilkanaście milisekund Postmasking do 00 ms Premasking mocniejsze dźwięki są przetwarzane szybciej niŝ słabsze Postmasking wysycenie, długi czas relaksacji neuronów
Maskowanie c.d. Łączne działanie obu typów maskowania Maskowanie pozwala na opuszczenie części danych bez szkody dla jakości dźwięku Łączny opis progu czułości jako funkcji częstotliwości oraz wpływu maskowania model psychoakustyczny.
Standard MPEG Opracowany na początku lat 90-tych jako standard kodowania video Zawiera definicję standardu kodowania audio trzy odmiany (warstwy) o coraz większej złoŝoności Działanie oparte na: Kodowaniu podpasmowym Modelu psychoakustycznym słyszenia (przydział bitów) Kwantyzacji skalowanie szerokości by skwantyzować sygnał wystający ponad poziom maskowania Asymetria koder dekoder
MPEG audio - działanie
MPEG audio - działanie Dopuszcza sygnał wejściowy próbkowanych 3, 44.1 lub 48 khz Pozwala na obsługę 1 lub kanałów audio w trybach: mono, dual-mono, joint-stereo, stereo Sekwencja przetwarzania sygnału Podział na ramki po 384 (warstwa 1) lub 3 x 384 (warstwa i 3) próbki Skierowanie na bank 3 filtrów analizujących podział na 3 podpasma Dzisiątkowanie sygnału ramka elementarna w podpaśmie zawiera 1 próbek Zastosowanie modelu psychoakustycznego wyliczenie maskowania oraz progów kwantyzacji w kaŝdym z podpasm Kwantyzacja i kodowanie entropijne sygnału podpasm, uformowanie strumienia bitowego
MPEG audio działanie c.d. Działanie modelu psychoakustycznego: Niech po podziale na podpasma poziomy pierwszych podpasm wynoszą: Nr 1 3 4 5 6 7 8 9 10 11 1 13 14 15 16 Poziom[dB] 0 8 1 10 6 10 60 35 0 15 3 5 3 1 Pasmo 8 poziom 60 db daje maskowanie: kanał 7 1 db, kanał 9 15 db Poziom w kanale 7 równy 10 db (< 1 db) kanał 7 moŝna pominąć Poziom w kanale 9 równy 35 db (> 15 db). Poziom maskowania wyznacza szerokość przedziału kwantyzacji do zakodowania efektywnie tylko 0 db; to wymaga 0 db/6 db/bit 4 bity (zamiast 6 bitów bez uwzględniania maskowania).
Warstwa 1 Warstwy MPEG-1 Filtry typu QMF, równy podział w częstotliwości Na filtr jest podawana 1 ramka jednocześnie ( 384 próbki, ok. 8 msek) Tylko maskowanie jednoczesne Daje jakość CD dla bitrate 384 kbps (kompresja 4:1) Warstwa Podaje na filtr 3 ramki jednocześnie (115 próbek, ok. 4 msek) Pozwala na uwzględnienie pewnych elementów maskowania czasowego Daje jakość CD dla bitrate 56 kbps (kompresja 6:1) Warstwa 3 (MP3) Lepsze filtry (MDCT, nierównomierne w częstotliwości, zbliŝone do pasm krytycznych) Model psychoakustyczny zawiera maskowanie czasowe Stosuje kodowanie Huffmana wyjść kwantyzatorów Daje jakość CD dla bitrate 18 kbps (kompresja 1:1)
Warstwy MPEG-1
Kodowanie obrazów Obraz jest strukturą -wymiarową potrzeba filtrów -wymiarowych (rozkład sygnału w oparciu o składowe częstości pionowej i poziomej) Realizowane jako dwa jednowymiarowe filtry działające kolejno na na oba wymiary filtry separowalne Filtrowanie obrazów: Obraz N x N filtrowanie wierszy (przez układ dwóch filtrów: dolno- i górnoprzepustowy) dziesiątkowanie wierszy o czynnik dwie macierze N x N/ (składowe L, H) Następnie kaŝdą z nich poddajemy filtrowaniu kolumn tymi samymi filtrami dziesiątkowanie kolumn dostajemy 4 macierze N/ x N/ (LL, LH, HL, HH) Procedura filtrowania moŝemy przerwać, lub kontynuować w odniesieniu do wszystkich lub tylko niektórych podobrazów (w rezultacie dostajemy 7, 10, 13 lub 16 podobrazów)
Kodowanie obrazów - przykład Rozkładamy na podobrazy, kodujemy je niezaleŝnie Jakość kodowania i rekonstrukcji zaleŝy od koncentracji energii czyli jakości filtra 8-rzędowy filtr Johnstona. Wyraźnie widoczne składowe energii w wyŝszych podpasmach (zwłaszcza HL) 8-rzędowy filtr Smitha-Barnwella. Znacznie lepsza separacja
Kodowanie obrazów przykład c.d. Chcemy uzyskać średnią bitową 0.5 bpp. Jak filtr wpływa na jakość rekonstrukcji? 8-rzędowy filtr Johnstona Konieczność kodowania podpasm LL i HL (po 1 bicie na podpasmo) zbyt mała dokładność w LL 8-rzędowy filtr Smitha-Barnwella Lepsza separacja sprawia, Ŝe kodujemy tylko LL ( bity na podpasmo) dobra jakość rekonstrukcji