Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

Slajd 1 Analiza i synteza mowy - wprowadzenie Spektrogram wyrażenia: computer speech Slide 1 Slajd 2 Analiza i synteza mowy - wprowadzenie Slide 2

Slajd 3 Analiza i synteza mowy - wprowadzenie Slide 3 Slajd 4 Pierwsze próby syntezy mowy Maszyna wymawiająca samogłoski z 1769 roku zbudowana przez Wolfganga Rittera von Kempelen (rekonstrukcja) Slide 4

Slajd 5 Pierwsze próby syntezy mowy Urządzenia do wymawiania spółgłosek plozyjnych : b i d (Wolfgang Ritter) Slide 5 Slajd 6 Pierwsze próby syntezy mowy Rezonatory (wibrujące piszczałki) Kratzensteina - 1779 Slide 6

Slajd 7 Pierwsze próby syntezy mowy Przekroje kanału głosowego przy wymawianiu samogłosek i oraz u i odpowiadające im formanty (rezonanse) Slide 7 Slajd 8 Pierwsze próby syntezy mowy Najprostszy model kanału głosowego Slide 8

Slajd 9 Rozpoznawanie mowy oraz identyfikacja głosu Pomiar parametrów fizycznych kanału głosowego Slide 9 Slajd 10 Rozpoznawanie mowy oraz identyfikacja głosu Pomiar parametrów geometrycznych kanału głosowego Slide 10

Slajd 11 Rozpoznawanie mowy oraz identyfikacja głosu Poprawa jakości głosu metodą modulacji częstotliwościowej Slide 11 Slajd 12 Rozpoznawanie mowy oraz identyfikacja głosu Spektrogram wyrażenia two of five Spektrogram po modulacji częstotliwości (2-8 Hz) Slide 12

Slajd 13 Rozpoznawanie mowy oraz identyfikacja głosu Spektrogram w obecności szumu średniego natężenia Spektrogram po modulacji częstotliwości Slide 13 Slajd 14 Rozpoznawanie mowy oraz identyfikacja głosu Spektrogram w obecności silnego szumu Spektrogram po modulacji częstotliwości Slide 14

Slajd 15 Rozpoznawanie mowy oraz identyfikacja głosu Spektrogram w pomieszczeniu odbijającym głos Spektrogram po modulacji częstotliwości Slide 15 Slajd 16 Rozpoznawanie mowy oraz identyfikacja głosu Spektrogram w pomieszczeniu odbijającym głos (b. silny pogłos) Spektrogram po modulacji częstotliwości Slide 16

Slajd 17 Rozpoznawanie mowy Reguły Bayes,a: wyznaczanie prawdopodobieństw a posteriori w funkcji prawdopodobieństw a priori p ( W A) = p( AW ) p( W ) p( A) Slide 17 Slajd 18 Kompresja mowy Predykcja liniowa s + e n = a1sn 1 a2sn 2 L a psn p n (1) E N N p 2 = en = k n= 1 n= 1 k = 0 a s n k 2 a 0 = 1 Slide 18

Slajd 19 Rozpoznawanie mowy E a m = E = N n= 1 2s p n m k = 0 a s k n k = 0 Odwracając porządek sumowania p r mk k = 0 a k = 0 gdzie r mk = N n= 1 s n m s n k Slide 19 Slajd 20 Rozpoznawanie mowy Pamiętając, że a 0 =1 p r mk k = 1 a k = r m0 lub w postaci macierzowej R a = r czyli a = R 1 0 r 0 Slide 20

Slajd 21 Rozpoznawanie mowy oraz identyfikacja głosu Slide 21 Slajd 22 Rozpoznawanie mowy Filtr predykcyjny Filtr FIR (Finite Impulse Response): H N ( z) = k = 0 a k z k Odpowiedź impulsowa filtru FIR:, a, a, 1 1 2 L a p Slide 22

Slajd 23 Rozpoznawanie mowy s n s( z) e( z) Przyjmując: A e n ( z p ) a z 1 a z 2 a z = 1+ + + L + p Z równania (1): e n n 1 = s + a s L 2 1 n 1 + a2sn 2 + + a s p n p czyli: ( z) A( z) = e( z) s( z) s = ( z) ( z) e A Slide 23 Slajd 24 Rozpoznawanie mowy A z z z z 2 ( z) = 1 1 1 z, z L L 1 2 zera A(z) 1 H p ( z) = A ( z) all-pole filter Slide 24

Slajd 25 Rozpoznawanie mowy oraz identyfikacja głosu Głoska dźwięczna i jej widmo oraz obwiednia zdefiniowana przez filtr 1/A(z) Slide 25 Slajd 26 Rozpoznawanie mowy oraz identyfikacja głosu Głoska bezdźwięczna i jej widmo oraz obwiednia zdefiniowana przez filtr 1/A(z) Slide 26

Slajd 27 Rozpoznawanie mowy oraz identyfikacja głosu Kształtowanie widma szumu: szum słyszalny i prawie niesłyszalny Slide 27 Slajd 28 Analiza kanału głosowego Slide 28

Slajd 29 Analiza kanału głosowego Slide 29 Slajd 30 Kanał głosowy Slide 30

Slajd 31 Kanał głosowy Równanie Webster a, czyli równanie natężenia (ciśnienia) fali dźwiękowej p(x,t) wzdłuż kanału: 2 p 1 + 2 x A da dx p 1 = 2 x c 2 p 2 t A(x) jest przekrojem kanału głosowego między głośnią (x=0) a wargami x=l ~= 170 mm) Slide 31 Slajd 32 Lokalizacja położenia źródła dźwięku = 0 α 180 c t d Prawo pierwszej fali frontowej (Joseph Henry) i efekt Haas a Slide 32

Slajd 33 Lokalizacja położenia źródła dźwięku u 1 (t) t u 2 (t) t Continuity effect Slide 33 Slajd 34 Lokalizacja położenia źródła dźwięku 8kHz 300Hz, 3kHz 1kHz, 10kHz Slide 34

Slajd 35 Rozpoznawanie mowy Slide 35 Slajd 36 Rozpoznawanie mowy Slide 36

Slajd 37 Rozpoznawanie mowy Slide 37 Slajd 38 Rozpoznawanie mowy Slide 38

Slajd 39 Rozpoznawanie mowy Slide 39 Slajd 40 Rozpoznawanie mowy Przebieg funkcji cepstrum z zaznaczonym torem głosowym (1) oraz pobudzeniem krtaniowym (2) Slide 40

Slajd 41 Formaty dźwiękowe LPCM (Linear Pulse Code Modulation): udoskonalony PCM Częstotliwość próbkowania 48 khz 48 khz 48 khz 96 khz 96 khz 96 khz Rozdzielczość 16 bitów 20 bitów 24 bity 16 bitów 20 bitów 24 bity Ilość kanałów 8 6 5 4 3 2 Strumień max. 6,144 Mb/s 5,76 Mb/s 5,76 Mb/s 6,144 Mb/s 5,76 Mb/s 4,608 Mb/s Slide 41 Slajd 42 MPEG AUDIO A. MPEG-1 audio, opisuje trzy warstwy kodowania dźwięku o następujących właściwościach: 1 lub 2 kanały dźwiękowe Częstotliwość próbkowania 32kHz, 44.1kHz lub 48kHz Przepustowość od 32kbps do 448kbps Slide 42

Slajd 43 B. MPEG-2 audio występuje w dwóch odmianach MPEG-2/LSF 1 lub 2 kanały dźwiękowe Dwa razy mniejszą częstotliwość próbkowania Przepustowość od 8 do 256 kbs MPEG-2/Multichannel Do 5 pełno-zakresowych kanałów dźwiękowych Częstotliwość próbkowania taką samą jak w MPEG-1 Rozdzielczość 16 bitów Większe przepustowości dochodzące do około 1 Mb/s do systemu 5+1 kanałów Slide 43 Slajd 44 Schemat blokowy układu kodera standardu MPEG-1 Slide 44

Slajd 45 Struktura zakodowanego strumienia danych MPEG-1 Slide 45 Slajd 46 Dolby Surround Slide 46

Slajd 47 Kodowanie Slide 47 Slajd 48 Dekodowanie Slide 48

Slajd 49 Dolby Pro Logic Slide 49 Slajd 50 Kodek Slide 50

Slajd 51 Dekodowanie Slide 51 Slajd 52 Dolby Digital Slide 52

Slajd 53 Rozpoznawanie mowy Kompatybilne miksowanie w dół Slide 53 Slajd 54 DTS firmy Digital Theater Systems DTS EX Slide 54

Slajd 55 DC DVD Slide 55 Slajd 56 Standard: Pojemność: Rodzaj płyty: DVD 5 DVD 9 DVD 10 DVD 18 4.7 GB 8.5 GB 9.4 GB 17 GB jednostronna jednowarstwowa jednostronna dwuwarstwowa dwuwarstwowa jednostronna dwuwarstwowa dwustronna Slide 56

Slajd 57 Struktura warstw płyty DVD w zależności od standardu Slide 57