dr hab. inż. Artur Janicki email: A.Janicki@tele.pw.edu.pl, pok. 407 Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW
Kodowanie źródła podstawowe informacje Sygnał mowy informacje ogólne, jak powstaje mowa Analiza sygnału mowy w dziedzinie czasu i częstotliwości Model psychoakustyczny Cyfryzacja sygnału audio próbkowanie i kwantyzacja Techniki kompresji predykcja Kodowanie mowy i audio przykłady Badanie jakości sygnału mowy
Źródło część systemu telekomunikacyjnego, generująca wiadomości Informacja miara wartościująca wiadomość ilość informacji zależna odwrotnie od P wiadomości Kodowanie przyporządkowanie wiadomościom słów kodowych do celów transmisji Nie mylić kodowania z szyfrowaniem!
Kodowanie (kompresja) bezstratne a stratne Podstawowe parametry: stopień kompresji = rozmiar danych na wejściu / rozmiar danych na wyjściu efektywność kodowania (ograniczenie Shannona!) Przykłady algorytmów kompresji: bezstratnej: algorytm Huffmana, metody słownikowe (LZx), kodowanie arytmetyczne stratnej: z wykorzystaniem kwantyzacji: liniowej, wektorowej, adapt. z wykorzystaniem predykcji (LPC) z wykorzystaniem transformaty: DCT, falkowej, KLT
Liczba bitów przypisana wiadomości zbliżona do ilości informacji niesionej przez wiadomość Łączenie elementów w pary, zaczynając od elementów o najmniejszym prawdopodobieństwie
Audio łac. słyszę Sygnały audio w szczególności: sygnał mowy sygnały muzyczne
Transmisja: kodowanie, kompresja mowy, audio Synteza mowy Rozpoznawanie sygnału mowy Rozpoznawanie mówcy Poprawa jakości sygnału mowy (odszumianie, PLC itp.) Rozpoznawanie emocji Ewaluacja jakości transmisji mowy / audio Transformacja głosu Ukrywanie informacji w sygnale audio (watermarking, steganografia) Rozpoznawanie sygnałów muzycznych Sądowe przetwarzanie sygnału mowy
[http://www.businessinsider.com/]
[http://www.businessinsider.com/]
[bloombergbusinessweek.pl ] [www.businessinsider.com]
Sygnał mowy informacje ogólne
1. Jama nosowa 2. Podniebienie twarde 3. Dziąsła 4. Podniebienie miękkie 5. Przednia część języka 6. Środkowa część języka 7. Języczek 8. Tylna część języka 9. Jama gardłowa 10. Nagłośnia 11. Fałszywe więzadła głosowe 12. Więzadła głosowe 13. Krtań 14. Przełyk 15. Tchawica 16. Zęby [S. Lemmetty, HUT]
YouTube: Anatomical Tutorial During Trans-Nasal Endoscopy (Fauquier ENT Consultants, Varrenton, Virginia)
Fonem - najmniejsza jednostka systemu dźwiękowego danego języka, pozwalająca różnicować znaczenie wyrazów: (p) of pić vs. (b) of bić Alofon jeden z fonetycznych wariantów fonemu, zależny od jego otoczenia: (t) w: top, stop, trzy, kot, metal, bity Difon para fonemów
Samogłoski: Spółgłoski: wybuchowe: trące: h zwarto-trące: d d nosowe: boczne: ( ) aproksymanty: j w drżące: e
Analiza sygnału audio i sygnału mowy
Sygnał quasi-stacjonarny Fragmenty bezdźwięczne i dźwięczne - pseudookresowość Czasy trwania poszczególnych segmentów
Transformata Fouriera G( f ) F[ g( t)] G( Odwrotna transformata Fouriera g( t) F 1 [ G( f )] f ) g( t) g( t) e G( f ) e j2ft dt j2ft df Dlaczego ją wykorzystujemy? łatwa interpretacja fizyczna ułatwia obliczenia dla sygnałów okresowych można użyć T zamiast
Transformata Fouriera Widmo amplitudowe segmentów dźwięcznych i bezdźwięcznych Częstotliwość podstawowa = ton krtaniowy = F0 Częstotliwości formantowe
= częstotliwość podstawowa, ton ktaniowy Cecha indywidualna, nośnik intonacji, emocji, znaczenia Typowe zakresy: mężczyźni: 60 200 Hz (tenorzy do 480 Hz) kobiety: 150 350 Hz (sopranistki do 960 Hz) dzieci: 300 Hz 500 Hz Pomiar: analiza korelacji wzajemnej, cepstrum, pomiar laryngograficzny
Jak słyszymy? Model psychoakustyczny
http://pzgzabrze.republika.pl/
[R.Tadeusiewicz, Sygnał mowy]
Próg słyszalności Najlepiej słyszymy w zakresie 2-4 khz Maskowanie częstotliwościowe [Yao Wang]
Sygnał Sygnał + szum (SNR = 24 db) Szum [Dr. T. Collins]
[Yao Wang]
Cyfryzacja sygnału audio
Cyfryzacja zamiana sygnału analogowego na cyfrowy analogowy x(t) FDP próbkowanie kwantyzacja f p cyfrowy x(n) i z powrotem na analogowy - interpolacja cyfrowy x(n) D/A FDP analogowy x^(t)
dyskretyzacja sygnału w dziedzinie czasu Twierdzenie Nyquista f samp 2B Typowe wartości f samp 8 khz telefonia 16 khz, 22,050 khz jakość średnia 44,1 khz, 48 khz jakość CD / HiFi
Dyskretyzacja sygnału w dziedzinie wartości Mapowanie zbioru R na skończony podzbiór R
y x k-1 y k y k+1 k-1 x k x k+1 x y k+2 y k+3 k+2 x k+3 x k+4 poziomy decyzji komórka kwantyzacji wartości reprezentujące
Charakterystyka kwantyzatora; funkcja kwantyzacji liniowa, logarytmiczna (A-law, m-law) i inne Błąd kwantyzacji, szum kwantyzacji xˆ ( t) x( t) e( t) SNR db 6* R[ db] (dla kwantyzatora równomiernego)
xˆ Q( x) Kwantyzator równomierny: z A.M.Kondoz "Digital Speech", Wiley 1994
[Hanzo et al.]
Kwantyzatory adaptacyjne Adaptacja w przód Adaptacja wstecz Kwantyzacja wektorowa (VQ) Podejście wielowymiarowe
Techniki kompresji sygnału audio predykcja. Kodowanie sygnału mowy i audio.
x(n) e(n) Q eˆ ( n) - + xˆ ( n) x p (n) x p (n) + P xˆ ( n) P
PCM Pulse Code Modulation modulacja kodowo-impulsowa każda próbka kwantowana niezależnie fs = 8 khz, 8 bitów/próbkę czyli przepływność = 64 kb/s kwantyzator logarytmiczny: A-law lub m-law
wejście z konwertera A/D - - subsampling 13 próbek (13 x 3 bitów / 5 ms) kodowanie APCM LPC obliczanie współczynników LPC LTP obliczanie współczynników LPC obliczanie energii i parametrów RPE 2 parametry RPE (8 bitów / 5 ms) multipleksing strumień cyfrowy 13 kb/s 2 parametry LTP (9 bitów / 5 ms) 8 współczynników LPC (36 bitów / 20 ms) LPC LTP RPE
G.723.1 5,6 / 6,3 kb/s, ACELP/MP-MLQ, ramka 30 ms (4 x 60 pr.), opóźn. 37,5 ms LD-CELP 16 kb/s, opóźnienie 0,675 ms, 1024 wektorów Speex 2 44 kb/s, oparty o CELP; VAD, VBR ilbc - Internet Low Bitrate Codec, 13,33 / 15,2 kb/s, ramka (20 / 30 ms) Skype ilbc, SVOPC, obecnie: SILK (fp: 8/16/24 khz, 6-40 kb/s)
Poziom ciśnienia dźwięku [db-spl] 80 70 60 50 40 30 20 10 0-10 -20-30 5 bits 5 bits Próg maskowania 5 bits 5 bits 4 bits 4 bits 4 bits 4 4 bits bits 3 bits 2 bits 2 bits 5000 10000 15000 Średnia liczba bitów na próbkę = 3,92 Stopień kompresji = 16:3,92 = 4,1:1 [Dr. T. Collins] Próg słyszenia Częstotlowość [Hz]
Badanie jakości sygnału audio
SNR Signal to Noise Ratio, S/N Czy jest to kryterium miarodajne?
Metody subiektywne z wykorzystaniem słuchaczy, np. MOS (Mean Opinion Score), uśredniona opinia słuchaczy Metody konwersacyjne, odsłuchowe, kategoryzacyjne, np.: ACR Absolute Category Rating DCR Degradation Category Rating PC Pair Comparison Badanie wyrazistości (zdaniowa, wyrazowa, logatomowa) Metody obiektywne Wyznaczenie odległości pomiędzy wybranymi parametrami sygnału mowy oryginalnej i przetworzonej Zastosowanie modelu psychoakustycznego Np. PESQ (mowa), PEAQ (audio), PSQM
Wyrazistość logatomowa logatomy, np.. szypi, mijka, ben, chryszcze Wyrazistość wyrazowa Wyrazistość zdaniowa wykorzystuje np.. zdania nieprzewidywalne znaczeniowo (Semantically Unpredictable Sentences SUS), np. Umysł grzęźnie pod marcowym wiadrem.
Rozpoznawanie stanu emocjonalnego mówcy na podstawie analizy sygnału mowy Poprawa jakości sygnału mowy w systemach telefonii internetowej Weryfikacja mówcy na przykładzie systemu Głosowy PIN Wizyjna synteza mowy Automatyczne rozpoznawanie melodii Selekcja jednostek w korpusowej syntezie mowy Rozpoznawanie mówcy z zastosowaniem liniowej kombinacji rozkładów normalnych Automatyczne rozpoznawanie mowy ciągłej dla języka polskiego Automatyczne algorytmy badania jakości sygnału mowy Badanie jakości przesyłu sygnału mowy w systemach telefonii internetowej Algorytmy konwersji głosu
Czym się różni kodowanie bezstratne od kodowania stratnego? Omów cechy charakterystyczne sygnału mowy. Czym się różni dźwięczny sygnał mowy od bezdźwięcznego? Na czym polega proces próbkowania / kwantyzacji / cyfryzacji sygnału? Omów kodowanie mowy w standardzie PCM. Na czym polega predykcja sygnału? Omów sposoby badania jakości sygnału mowy.
Kodowanie źródła podstawowe informacje Sygnał mowy informacje ogólne, jak powstaje mowa Analiza sygnału mowy w dziedzinie czasu i częstotliwości Model psychoakustyczny Cyfryzacja sygnału audio próbkowanie i kwantyzacja Techniki kompresji predykcja Kodowanie mowy i audio przykłady Badanie jakości sygnału mowy