Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

Podobne dokumenty
DŹWIĘK. Dźwięk analogowy - fala sinusoidalna. Dźwięk cyfrowy 1-bitowy 2 możliwe stany fala jest mocno zniekształcona

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Wielokanałowe systemy kodowania dźwięku

KOMPRESJA STRATNA SYGNAŁU MOWY. Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP

MODULACJE IMPULSOWE. TSIM W10: Modulacje impulsowe 1/22

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

dr inż. Piotr Odya Parametry dźwięku zakres słyszanych przez człowieka częstotliwości: 20 Hz - 20 khz; 10 oktaw zakres dynamiki słuchu: 130 db

Formaty DVD czwartek, 26 stycznia :00 - Poprawiony czwartek, 26 stycznia :40

TEORIA WYTWARZANIA DŹWIĘKÓW

TECHNIKI MULTIMEDIALNE

Wybrane metody kompresji obrazów

Wielokanałowe systemy kodowania dźwięku

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Systemy plezjochroniczne (PDH) synchroniczne (SDH), Transmisja w sieci elektroenergetycznej (PLC Power Line Communication)

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Formaty plików audio

Formaty - podziały. format pliku. format kompresji. format zapisu (nośnika) kontener dla danych WAV, AVI, BMP

ZAKŁAD SYSTEMÓW ELEKTRONICZNYCH I TELEKOMUNIKACYJNYCH Laboratorium Podstaw Telekomunikacji WPŁYW SZUMÓW NA TRANSMISJĘ CYFROWĄ

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów

Technika audio część 1

Kompresja dźwięku w standardzie MPEG-1

Biometryczna Identyfikacja Tożsamości

Podstawowe informacje o płytach DVD

Wybrane algorytmu kompresji dźwięku

Biometryczna Identyfikacja Tożsamości

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

Standardy zapisu i transmisji dźwięku

METODY KODOWANIA SYGNAŁU MOWY DO ZASTOSOWAŃ W TELEKOMUNIKACJI

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

Informacje na temat produktu C: Instalacja

58. Otwarte Seminarium z Akustyki, OSA '11, Gdańsk-Jurata, September 2011

LEKCJA. TEMAT: Napędy optyczne.

Percepcja dźwięku. Narząd słuchu

dr hab. inż. Artur Janicki pok. 407 Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW

WIDMO, ELEMENTY SKŁADOWE DŹWIĘKU, ZAPIS DŹWIĘKU, SYNTEZA ADDYTYWNA

dr inż. Artur Janicki pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

Modulacja i kodowanie laboratorium. Modulacje Cyfrowe: Kluczowanie Amplitudy (ASK) i kluczowanie Fazy (PSK)

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

Technika audio część 2

Architektura systemów komputerowych. dr Artur Bartoszewski

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

WPŁYW PRÓBKOWANIA I KWANTYZACJI NA JAKOŚĆ DŹWIĘKU

Podstawy Przetwarzania Sygnałów

Wymiana i Składowanie Danych Multimedialnych Mateusz Moderhak, EA 106, Pon. 11:15-12:00, śr.

Kompresja sekwencji obrazów

KODOWANIE I KOMPRESJA SYGNAŁU MOWY

Akwizycja i przetwarzanie sygnałów cyfrowych

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Od CD do DVD. Marcin LACEK Lackowski. Bartek Radzicki. Tomek SZYDŁO Szydłowski

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH

Karta dźwiękowa. Architektura systemów komputerowych Ćwiczenie 3

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

Wzmacniacz sygnału 4K HDMI Extender, HDBaseT

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

Nazwa handlowa / Producent / Nr katalogowy

Analogowa (para miedziana, radio, walkie-talkie, CB) Cyfrowa (ISDN, GSM, VoIP, DRB, DVB, Tetra, )

Kompresja sekwencji obrazów - algorytm MPEG-2

Standard DVD-Video. W³aœciwoœæ Laserdisc Video CD SVCD DVD-Video

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Kwantyzacja wektorowa. Kodowanie różnicowe.

HDV18A. Cyfrowy dekoder audio Podręcznik użytkownika

Biometryczna Identyfikacja Tożsamości

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.

Podstawy transmisji multimedialnych podstawy kodowania dźwięku i obrazu Autor Wojciech Gumiński

Semantyczne kodowanie mowy przy bardzo małych prędkościach transmisji.

Projektowanie układów scalonych do systemów komunikacji bezprzewodowej

KOMPRESJA STRATNA DŹWIĘKU

Języki Modelowania i Symulacji

Program wykładu. informatyka + 2

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Przykładowe zadanie praktyczne

Systemy multimedialne. Instrukcja 5 Edytor audio Audacity

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

CENNIK DETALICZNY styczeń Polpak Poland Sp. z o.o. Al. Jerozolimskie 333A Reguły k/warszawy.

Przygotowali: Bartosz Szatan IIa Paweł Tokarczyk IIa

Neurobiologia na lekcjach informatyki? Percepcja barw i dźwięków oraz metody ich przetwarzania Dr Grzegorz Osiński Zakład Dydaktyki Fizyki IF UMK

CENNIK DETALICZNY styczeń Polpak Poland Sp. z o.o. Al. Jerozolimskie 333A Reguły k/warszawy.

Systemy i Sieci Radiowe

Rekompresja DVD do AVI z dźwiękiem MP3 5.1 Aud-X w programie Gordian Knot. Wstęp

dr inż. Jacek Naruniec

PROGRAMOWANIE APLIKACJI MULTIMEDIALNYCH

Przetwornik analogowo-cyfrowy

Modulacja i kodowanie laboratorium. Modulacje Cyfrowe: Kluczowanie Amplitudy (ASK)

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej

ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 4. Wybrane telekomunikacyjne zastosowania algorytmów adaptacyjnych

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert

O sygnałach cyfrowych

Wprowadzenie do cyfrowej obróbki dźwięku

Audio i video. R. Robert Gajewski omklnx.il.pw.edu.pl/~rgajewski

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

Matrycowy przełącznik sygnału HDMI z portami 4 x 2

CENNIK DETALICZNY styczeń Polpak Poland Sp. z o.o. Al. Jerozolimskie 333A Reguły k/warszawy.

Przykładowe rozwiązanie zadania dla zawodu technik telekomunikacji

Zakres wymaganych wiadomości do testów z przedmiotu Metrologia. Wprowadzenie do obsługi multimetrów analogowych i cyfrowych

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

ARKUSZ EGZAMINACYJNY ETAP PRAKTYCZNY EGZAMINU POTWIERDZAJĄCEGO KWALIFIKACJE ZAWODOWE CZERWIEC 2011

Transkrypt:

Slajd 1 Analiza i synteza mowy - wprowadzenie Spektrogram wyrażenia: computer speech Slide 1 Slajd 2 Analiza i synteza mowy - wprowadzenie Slide 2

Slajd 3 Analiza i synteza mowy - wprowadzenie Slide 3 Slajd 4 Pierwsze próby syntezy mowy Maszyna wymawiająca samogłoski z 1769 roku zbudowana przez Wolfganga Rittera von Kempelen (rekonstrukcja) Slide 4

Slajd 5 Pierwsze próby syntezy mowy Urządzenia do wymawiania spółgłosek plozyjnych : b i d (Wolfgang Ritter) Slide 5 Slajd 6 Pierwsze próby syntezy mowy Rezonatory (wibrujące piszczałki) Kratzensteina - 1779 Slide 6

Slajd 7 Pierwsze próby syntezy mowy Przekroje kanału głosowego przy wymawianiu samogłosek i oraz u i odpowiadające im formanty (rezonanse) Slide 7 Slajd 8 Pierwsze próby syntezy mowy Najprostszy model kanału głosowego Slide 8

Slajd 9 Rozpoznawanie mowy oraz identyfikacja głosu Pomiar parametrów fizycznych kanału głosowego Slide 9 Slajd 10 Rozpoznawanie mowy oraz identyfikacja głosu Pomiar parametrów geometrycznych kanału głosowego Slide 10

Slajd 11 Rozpoznawanie mowy oraz identyfikacja głosu Poprawa jakości głosu metodą modulacji częstotliwościowej Slide 11 Slajd 12 Rozpoznawanie mowy oraz identyfikacja głosu Spektrogram wyrażenia two of five Spektrogram po modulacji częstotliwości (2-8 Hz) Slide 12

Slajd 13 Rozpoznawanie mowy oraz identyfikacja głosu Spektrogram w obecności szumu średniego natężenia Spektrogram po modulacji częstotliwości Slide 13 Slajd 14 Rozpoznawanie mowy oraz identyfikacja głosu Spektrogram w obecności silnego szumu Spektrogram po modulacji częstotliwości Slide 14

Slajd 15 Rozpoznawanie mowy oraz identyfikacja głosu Spektrogram w pomieszczeniu odbijającym głos Spektrogram po modulacji częstotliwości Slide 15 Slajd 16 Rozpoznawanie mowy oraz identyfikacja głosu Spektrogram w pomieszczeniu odbijającym głos (b. silny pogłos) Spektrogram po modulacji częstotliwości Slide 16

Slajd 17 Rozpoznawanie mowy Reguły Bayes,a: wyznaczanie prawdopodobieństw a posteriori w funkcji prawdopodobieństw a priori p ( W A) = p( AW ) p( W ) p( A) Slide 17 Slajd 18 Kompresja mowy Predykcja liniowa s + e n = a1sn 1 a2sn 2 L a psn p n (1) E N N p 2 = en = k n= 1 n= 1 k = 0 a s n k 2 a 0 = 1 Slide 18

Slajd 19 Rozpoznawanie mowy E a m = E = N n= 1 2s p n m k = 0 a s k n k = 0 Odwracając porządek sumowania p r mk k = 0 a k = 0 gdzie r mk = N n= 1 s n m s n k Slide 19 Slajd 20 Rozpoznawanie mowy Pamiętając, że a 0 =1 p r mk k = 1 a k = r m0 lub w postaci macierzowej R a = r czyli a = R 1 0 r 0 Slide 20

Slajd 21 Rozpoznawanie mowy oraz identyfikacja głosu Slide 21 Slajd 22 Rozpoznawanie mowy Filtr predykcyjny Filtr FIR (Finite Impulse Response): H N ( z) = k = 0 a k z k Odpowiedź impulsowa filtru FIR:, a, a, 1 1 2 L a p Slide 22

Slajd 23 Rozpoznawanie mowy s n s( z) e( z) Przyjmując: A e n ( z p ) a z 1 a z 2 a z = 1+ + + L + p Z równania (1): e n n 1 = s + a s L 2 1 n 1 + a2sn 2 + + a s p n p czyli: ( z) A( z) = e( z) s( z) s = ( z) ( z) e A Slide 23 Slajd 24 Rozpoznawanie mowy A z z z z 2 ( z) = 1 1 1 z, z L L 1 2 zera A(z) 1 H p ( z) = A ( z) all-pole filter Slide 24

Slajd 25 Rozpoznawanie mowy oraz identyfikacja głosu Głoska dźwięczna i jej widmo oraz obwiednia zdefiniowana przez filtr 1/A(z) Slide 25 Slajd 26 Rozpoznawanie mowy oraz identyfikacja głosu Głoska bezdźwięczna i jej widmo oraz obwiednia zdefiniowana przez filtr 1/A(z) Slide 26

Slajd 27 Rozpoznawanie mowy oraz identyfikacja głosu Kształtowanie widma szumu: szum słyszalny i prawie niesłyszalny Slide 27 Slajd 28 Analiza kanału głosowego Slide 28

Slajd 29 Analiza kanału głosowego Slide 29 Slajd 30 Kanał głosowy Slide 30

Slajd 31 Kanał głosowy Równanie Webster a, czyli równanie natężenia (ciśnienia) fali dźwiękowej p(x,t) wzdłuż kanału: 2 p 1 + 2 x A da dx p 1 = 2 x c 2 p 2 t A(x) jest przekrojem kanału głosowego między głośnią (x=0) a wargami x=l ~= 170 mm) Slide 31 Slajd 32 Lokalizacja położenia źródła dźwięku = 0 α 180 c t d Prawo pierwszej fali frontowej (Joseph Henry) i efekt Haas a Slide 32

Slajd 33 Lokalizacja położenia źródła dźwięku u 1 (t) t u 2 (t) t Continuity effect Slide 33 Slajd 34 Lokalizacja położenia źródła dźwięku 8kHz 300Hz, 3kHz 1kHz, 10kHz Slide 34

Slajd 35 Rozpoznawanie mowy Slide 35 Slajd 36 Rozpoznawanie mowy Slide 36

Slajd 37 Rozpoznawanie mowy Slide 37 Slajd 38 Rozpoznawanie mowy Slide 38

Slajd 39 Rozpoznawanie mowy Slide 39 Slajd 40 Rozpoznawanie mowy Przebieg funkcji cepstrum z zaznaczonym torem głosowym (1) oraz pobudzeniem krtaniowym (2) Slide 40

Slajd 41 Formaty dźwiękowe LPCM (Linear Pulse Code Modulation): udoskonalony PCM Częstotliwość próbkowania 48 khz 48 khz 48 khz 96 khz 96 khz 96 khz Rozdzielczość 16 bitów 20 bitów 24 bity 16 bitów 20 bitów 24 bity Ilość kanałów 8 6 5 4 3 2 Strumień max. 6,144 Mb/s 5,76 Mb/s 5,76 Mb/s 6,144 Mb/s 5,76 Mb/s 4,608 Mb/s Slide 41 Slajd 42 MPEG AUDIO A. MPEG-1 audio, opisuje trzy warstwy kodowania dźwięku o następujących właściwościach: 1 lub 2 kanały dźwiękowe Częstotliwość próbkowania 32kHz, 44.1kHz lub 48kHz Przepustowość od 32kbps do 448kbps Slide 42

Slajd 43 B. MPEG-2 audio występuje w dwóch odmianach MPEG-2/LSF 1 lub 2 kanały dźwiękowe Dwa razy mniejszą częstotliwość próbkowania Przepustowość od 8 do 256 kbs MPEG-2/Multichannel Do 5 pełno-zakresowych kanałów dźwiękowych Częstotliwość próbkowania taką samą jak w MPEG-1 Rozdzielczość 16 bitów Większe przepustowości dochodzące do około 1 Mb/s do systemu 5+1 kanałów Slide 43 Slajd 44 Schemat blokowy układu kodera standardu MPEG-1 Slide 44

Slajd 45 Struktura zakodowanego strumienia danych MPEG-1 Slide 45 Slajd 46 Dolby Surround Slide 46

Slajd 47 Kodowanie Slide 47 Slajd 48 Dekodowanie Slide 48

Slajd 49 Dolby Pro Logic Slide 49 Slajd 50 Kodek Slide 50

Slajd 51 Dekodowanie Slide 51 Slajd 52 Dolby Digital Slide 52

Slajd 53 Rozpoznawanie mowy Kompatybilne miksowanie w dół Slide 53 Slajd 54 DTS firmy Digital Theater Systems DTS EX Slide 54

Slajd 55 DC DVD Slide 55 Slajd 56 Standard: Pojemność: Rodzaj płyty: DVD 5 DVD 9 DVD 10 DVD 18 4.7 GB 8.5 GB 9.4 GB 17 GB jednostronna jednowarstwowa jednostronna dwuwarstwowa dwuwarstwowa jednostronna dwuwarstwowa dwustronna Slide 56

Slajd 57 Struktura warstw płyty DVD w zależności od standardu Slide 57