Kwantowanie sygnałów analogowych na przykładzie sygnału mowy Treść wykładu: Sygnał mowy i jego właściwości Kwantowanie skalarne: kwantyzator równomierny, nierównomierny, adaptacyjny Zastosowanie w koderze PCM G.711 Kwantowanie wektorowe Kodowanie różnicowe, predykcja, kodery ADPCM Kodery telefonii komórkowej (CELP) Wokoder predykcyjny Przemysław Dymarski, Instytut Telekomunikacji Politechniki Warszawskiej dymarski@tele.pw.edu.pl
Literatura: K.Sayood Kompresja danych wprowadzenie, Wyd. RM, W-wa 00 A.Drozdek Wprowadzenie do kompresji danych R.Tadeusiewicz "Sygnał mowy W.Skarbek MULTIMEDIA algorytmy i standardy kompresji T.P.Zieliński «Cyfrowe przetwarzanie sygnałów od teorii do zastosowań», WKiŁ, Warszawa 005 T.P.Zieliński «Cyfrowe przetwarzanie sygnałów w telekomunikacji», PWN, Warszawa 014
1. Sygnał mowy i jego modele Badanie jakości sygnału mowy
Sygnał mowy
Próbkowanie sygnału analogowego Claude Shannon 1916-001 Próbkowanie idealne Harry Nyquist 1889-1976 Próbkowanie chwilowe Vladimir Kotelnikov 1908-005 Tw. o próbkowaniu (Shannon, Nyquist, Kotelnikow): Próbkowanie jest procesem bezstratnym (można odzyskać sygnał analogowy bez zniekształceń), jeśli częstotliwość próbkowania (tzn. liczba próbek na sekundę) jest większa niż B, gdzie B jest szerokością pasma sygnału analogowego. fs 1 B T
Ocena jakości mowy: metody subiektywne (odsłuchowe) MOS mean opinion score (oceny od 1 do 5) Wyrazistość logatomowa (%) = odtworzenie ze słuchu krótkich słów pozbawionych semantycznego znaczenia, np. tra, bru zastosowanie zdań nieprzewidywalnych semantycznie (SUS - Semantically Unpredictable Sentences), np. Umysł ugrzązł podczas marsowego wiadra
Metody obiektywne: SNR jako najprostszy obiektywny wskaźnik jakości
Metody obiektywne: SNR w ujęciu segmentowym
Maskowanie szumu widmo sygnału widmo szumu Metody obiektywne uwzględniające maskowanie: - PESQ (ITU-T P.86) - POLQA (ITU-T P.863) Wynik: MOS w skali 1-5
Kwantyzacja skalarna {x n } - zbiór próbek, {x* n } próbki skwantowane y 1 y, x* n y L x n
Kwantyzacja skalarna {x n } - zbiór próbek, {x* n } próbki skwantowane y 1 y, x* n y L Kwantyzacja jest procesem stratnym x n
Kwantyzacja równomierna Zwiększenie rozdzielczości o 1 bit na próbkę: -> podwojenie liczby poziomów -> -krotne zmniejszenie amplitudy błędu kwantyzacji -> 4-krotne zmniejszenie mocy błędu kwantyzacji 1 e -> 4-krotne (o 6 db) zwiększenie SNR 1 x e x SNR 3 L z 103 [ db] 0log10 z 10log10 SNR[ db] 10log x L (gdy nie ma przesterowania) Zasada 6 db/bit 1 z 1 z ( ) 1 L 3 L
Charakterystyki kwantyzatora równomiernego
Kwantyzacja nierównomierna (logarytmiczna) Zasada logarytmiczna: (x) proporcjonalne do x Zasady logarytmicznej nie można stosować dla x~0 gdyż wymagałoby to użycia nieskończonej liczby poziomów kwantyzacji. Z tego względu dla sygnałów o małej amplitudzie kwantyzator logarytmiczny przechodzi w równomierny (stosowane są dwa algorytmy: A i µ). Pociąga to za sobą spadek SNR dla tych sygnałów. Kwantyzatory logarytmiczne A i µ stosowane są w najpopularniejszym standardzie PCM G.711 (pasmo sygnału mowy 300-3400 Hz, częstotliwość próbkowania 8 khz, L=56 poziomów kwantyzacji, n=8 bitów na próbkę, przepływność binarna 64 kbit/s)
Charakterystyki kwantyzatorów a) równomierny b) logarytmiczny typu A c) logarytmiczny typu µ d) optymalny dla sygnału o mocy -5 db
Kwantyzacja adaptacyjna Zakres pracy z podąża za amplitudą sygnału 1. Adaptacja w przód (MPEG Audio) brak przesterowań opóźnienie przesyłanie z
Kwantyzacja adaptacyjna. Adaptacja wstecz (ADPCM) np. kwantyzator 4-poziomowy przesterowania brak opóźnień nie przesyła się z
Kwantyzator wektorowy VQ - vector quantizer P(f 1 ),...,P(f L ): komórki Voronoi a Georgij Voronij
Kwantyzator wektorowy VQ - vector quantizer xp( f ) x* f j j Przewaga VQ nad kwantyzatorem skalarnym: - wykorzystanie korelacji między kolejnymi N próbkami - wykorzystanie właściwości wielowymiarowej gęstości prawdopodobieństwa próbek
ADPCM (adaptive differential pulse code modulation) Modulator x n p x n * n n x n n -sygnał wejściowy -sygnał różnicowy (błąd predykcji) * x n p x n * n -sygnał predykcji -skwantowany syg. różnicowy * x n -sygnał wyjściowy Demodulator * x n * n en * n n -błąd kwantyzacji p x n e n * n n x * n x n x * n x n e n
ADPCM (adaptive differential pulse code modulation) SNR G x x e e p SNR SNR[ db] G [ db] SNR [ db] p q q Gp x -zysk predykcji (zależy od predyktora) SNR q e -SNR kwantyzatora (w kwantyzatorze adaptacyjnym zależy głównie od liczby poziomów kwantyzacji L)
Kodery CELP (Code Excited Linear Prediction) na przykładzie G.78 filtr syntezy (predykcyjny) dekoder koder - Operacje na wektorach N=5 -wymiarowych (stąd opóźnienie 0.65ms) - Przesyła się indeks wybranego wektora (j) w 7 bitach i wzmocnienie g w 3 bitach. Razem 10 bitów na N=5 próbek, czyli bity na próbkę, co daje przepływność binarną 8000=16000 bit/s
Wokodery od kilkuset do około 400 bit/s d=1: mowa dźwięczna d=0: mowa bezdźwięczna T 0 - okres tonu krtaniowego (okres drgań strun głosowych) Można wyróżnić więcej klas pobudzeń:
Porównanie standardów kodowania mowy