dr inż. Artur Janicki email: A.Janicki@tele.pw.edu.pl, pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW
Kodowanie źródła podstawowe informacje Sygnał mowy informacje ogólne, jak powstaje mowa Analiza sygnału mowy w dziedzinie czasu i częstotliwości Model psychoakustyczny Cyfryzacja sygnału audio próbkowanie i kwantyzacja Techniki kompresji predykcja Kodowanie mowy i audio przykłady Badanie jakości sygnału mowy Przykłady przetwarzania sygnału mowy
Źródło część systemu telekomunikacyjnego, generująca wiadomości Informacja miara wartościująca wiadomość ilość informacji zależna odwrotnie od P wiadomości Kodowanie przyporządkowanie wiadomościom słów kodowych do celów transmisji Nie mylić kodowania z szyfrowaniem!
Kodowanie (kompresja) bezstratne a stratne Podstawowe parametry: stopień kompresji efektywność kodowania (ograniczenie Shannona!) Przykłady algorytmów kompresji: bezstratnej: algorytm Huffmana, metody słownikowe (LZx), kodowanie arytmetyczne stratnej: z wykorzystaniem kwantyzacji: liniowej, wektorowej, adapt. z wykorzystaniem predykcji (LPC) z wykorzystaniem transformaty: DCT, falkowej, KLT
Audio łac. słyszę Sygnały audio w szczególności: sygnał mowy sygnały muzyczne
Sygnał mowy informacje ogólne
1. Jama nosowa 2. Podniebienie twarde 3. Dziąsła 4. Podniebienie miękkie 5. Przednia część języka 6. Środkowa część języka 7. Języczek 8. Tylna część języka 9. Jama gardłowa 10. Nagłośnia 11. Fałszywe więzadła głosowe 12. Więzadła głosowe 13. Krtań 14. Przełyk 15. Tchawica 16. Zęby [S. Lemmetty, HUT]
YouTube: Anatomical Tutorial During Trans-Nasal Endoscopy (Fauquier ENT Consultants, Varrenton, Virginia)
Fonem - najmniejsza jednostka systemu dźwiękowego danego języka, pozwalająca różnicować znaczenie wyrazów: (p) of pić vs. (b) of bić Alofon jeden z fonetycznych wariantów fonemu, zależny od jego otoczenia: (t) w: top, stop, trzy, kot, metal, bity Difon para fonemów
Samogłoski: Spółgłoski: wybuchowe: trące: zwarto-trące: nosowe: boczne: () aproksymanty: drżące:
Analiza sygnału audio i sygnału mowy
Sygnał quasi-stacjonarny Fragmenty bezdźwięczne i dźwięczne - pseudookresowość Czasy trwania poszczególnych segmentów
Transformata Fouriera G( f ) F[ g( t)] G( Odwrotna transformata Fouriera g( t) F 1 [ G( f )] f ) g( t) g( t) e G( f ) e j2ft dt j2ft df Dlaczego ją wykorzystujemy? łatwa interpretacja fizyczna ułatwia obliczenia dla sygnałów okresowych można użyć T zamiast
Transformata Fouriera Widmo amplitudowe segmentów dźwięcznych i bezdźwięcznych Częstotliwość podstawowa = ton krtaniowy = F0 Częstotliwości formantowe
= częstotliwość podstawowa, ton ktaniowy Cecha indywidualna, nośnik intonacji, emocji, znaczenia Typowe zakresy: mężczyźni: 60 200 Hz (tenorzy do 480 Hz) kobiety: 150 350 Hz (sopranistki do 960 Hz) dzieci: 300 Hz 500 Hz Pomiar: analiza korelacji wzajemnej, cepstrum, pomiar laryngograficzny
Cepstrum ˆ 1 Mel-cepstrumX ( T) F [lng( f + parametry delta, delta delta Współczynniki liniowej predykcji - LPC (Linear Prediction Coefficients) PLP - Perceptual Linear Prediction LAR Log Area Ratio Momenty widmowe )]
Czasy trwania fonemów Pitch (~F0) Akcentowanie Tembr Rytm Energia Pauzy
Jak słyszymy? Model psychoakustyczny
http://pzgzabrze.republika.pl/5ciekawostki/ciekawostki.htm
Próg słyszalności Najlepiej słyszymy w zakresie 2-4 khz Maskowanie częstotliwościowe [Yao Wang]
Sygnał Sygnał + szum (SNR = 24 db) Szum [Dr. T. Collins]
[Yao Wang]
Cyfryzacja sygnału audio
Cyfryzacja zamiana sygnału analogowego na cyfrowy analogowy x(t) FDP próbkowanie kwantyzacja f p cyfrowy x(n) i z powrotem na analogowy - interpolacja cyfrowy x(n) D/A FDP analogowy x^(t)
dyskretyzacja sygnału w dziedzinie czasu Twierdzenie Nyquista f samp 2B Typowe wartości f samp 8 khz telefonia 16 khz, 22,050 khz WAV 44,1 khz, 48 khz jakość CD
Dyskretyzacja sygnału w dziedzinie wartości Mapowanie zbioru R na skończony podzbiór R
y x k-1 y k y k+1 k-1 x k x k+1 x y k+2 y k+3 k+2 x k+3 x k+4 poziomy decyzji komórka kwantyzacji wartości reprezentujące
Charakterystyka kwantyzatora; funkcja kwantyzacji liniowa, logarytmiczna (A-law, m-law) i inne Błąd kwantyzacji, szum kwantyzacji xˆ ( t) x( t) e( t) SNR db 6* R[ db] (dla kwantyzatora równomiernego)
xˆ Q( x) Kwantyzator równomierny: z A.M.Kondoz "Digital Speech", Wiley 1994
[Hanzo et al.]
Kwantyzery adaptacyjne Inne podejście kwantyzacja wektorowa (VQ)
Techniki kompresji sygnału audio predykcja. Kodowanie sygnału mowy i audio.
x(n) e(n) Q e^(n) - + + x^(n) x x p (n) p (n) x^(n) P P
x p (n) = x^(n-1) DPCM Differential PCM x p (n) = a 1 x^(n-1) ADPCM Adaptive Differential PCM G.721 x p (n) = a 1 x^(n-1) + a 2 x^(n-2)+ + a p x^(n-p) liniowa predykcja rzędu p LPC Linear Prediction Coding
przewidywanie wektora N próbek ~ x( n.. n N 1) g * x( n t.. n N 1 t ) przesyłane parametry: t offset g gain
[Hanzo et al.]
PCM = Pulse Code Modulation, modulacja kodowo-impulsowa każda próbka kwantowana niezależnie fs = 8 khz, 8 bitów/próbkę kwantyzer: A-law lub m-law
model źródło-filtr przykład kodera 2,4 kb/s: przykład kodera 1,2 kb/s: muzyka? niekoniecznie
wejście z konwertera A/D - - subsampling 13 próbek (13 x 3 bitów / 5 ms) kodowanie APCM LPC obliczanie współczynników LPC LTP obliczanie współczynników LPC obliczanie energii i parametrów RPE 2 parametry RPE (8 bitów / 5 ms) multipleksing strumień cyfrowy 13 kb/s 2 parametry LTP (9 bitów / 5 ms) 8 współczynników LPC (36 bitów / 20 ms) LPC LTP RPE
G.723.1 5,6 / 6,3 kb/s, ACELP/MP-MLQ, ramka 30 ms (4 x 60 pr.), opóźn. 37,5 ms LD-CELP 16 kb/s, opóźnienie 0,675 ms, 1024 wektorów Speex 2 44 kb/s, oparty o CELP; VAD, VBR ilbc - Internet Low Bitrate Codec, 13,33 / 15,2 kb/s, ramka (20 / 30 ms) Skype ilbc, isac?
Poziom ciśnienia dźwięku [db-spl] 80 70 60 50 40 30 20 10 0-10 -20-30 5 bits 5 bits Próg maskowania 5 bits 5 bits 4 bits 4 bits 4 bits 4 4 bits bits 3 bits 2 bits 2 bits 5000 10000 15000 Średnia liczba bitów na próbkę = 3,92 Stopień kompresji = 16:3,92 = 4,1:1 [Dr. T. Collins] Próg słyszenia Częstotlowość [Hz]
Badanie jakości sygnału audio
SNR Signal to Noise Ratio, S/N Czy jest to kryterium miarodajne?
Metody subiektywne z wykorzystaniem słuchaczy, np. MOS (Mean Opinion Score), uśredniona opinia słuchaczy Metody konwersacyjne, odsłuchowe, kategoryzacyjne, np.: ACR Absolute Category Rating DCR Degradation Category Rating PC Pair Comparison Badanie wyrazistości (zdaniowa, wyrazowa, logatomowa) Metody obiektywne Wyznaczenie odległości pomiędzy wybranymi parametrami sygnału mowy oryginalnej i przetworzonej Zastosowanie modelu psychoakustycznego Np. PESQ (mowa), PEAQ (audio), PSQM
Wyrazistość logatomowa logatomy, np.. szypi, mijka, ben, chryszcze Wyrazistość wyrazowa Wyrazistość zdaniowa wykorzystuje np.. zdania nieprzewidywalne znaczeniowo (Semantically Unpredictable Sentences SUS), np. Umysł grzęźnie pod marcowym wiadrem.
Przykłady przetwarzania sygnału mowy
Kodowanie, kompresja mowy, audio Synteza mowy Rozpoznawanie sygnału mowy Rozpoznawanie mówcy Rozpoznawanie emocji Ewaluacja jakości głosu Transformacja głosu Poprawa jakości sygnału mowy (odszumianie itp.) Ukrywanie informacji w sygnale audio (watermarking) Przetwarzanie sygnałów muzycznych Sądowe przetwarzanie sygnału mowy
Rozpoznawanie stanu emocjonalnego mówcy na podstawie analizy sygnału mowy Poprawa jakości sygnału mowy w systemach telefonii internetowej Weryfikacja mówcy na przykładzie systemu Głosowy PIN Wizyjna synteza mowy Automatyczne rozpoznawanie melodii Selekcja jednostek w korpusowej syntezie mowy Rozpoznawanie mówcy z zastosowaniem liniowej kombinacji rozkładów normalnych Automatyczne rozpoznawanie mowy ciągłej dla języka polskiego Automatyczne algorytmy badania jakości sygnału mowy Badanie jakości przesyłu sygnału mowy w systemach telefonii internetowej Multi-Rate Audio Codec
Kodowanie źródła podstawowe informacje Sygnał mowy informacje ogólne, jak powstaje mowa Analiza sygnału mowy w dziedzinie czasu i częstotliwości Model psychoakustyczny Cyfryzacja sygnału audio próbkowanie i kwantyzacja Techniki kompresji predykcja Kodowanie mowy i audio przykłady Badanie jakości sygnału mowy Przykłady przetwarzania sygnału mowy