dr inż. Artur Janicki pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW

Podobne dokumenty
dr hab. inż. Artur Janicki pok. 407 Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

KOMPRESJA STRATNA SYGNAŁU MOWY. Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Analogowa (para miedziana, radio, walkie-talkie, CB) Cyfrowa (ISDN, GSM, VoIP, DRB, DVB, Tetra, )

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

Technika audio część 2

Jakości usług telekomunikacyjnych

Kompresja dźwięku w standardzie MPEG-1

MODULACJE IMPULSOWE. TSIM W10: Modulacje impulsowe 1/22

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

METODY KODOWANIA SYGNAŁU MOWY DO ZASTOSOWAŃ W TELEKOMUNIKACJI

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Podstawy transmisji multimedialnych podstawy kodowania dźwięku i obrazu Autor Wojciech Gumiński

KODOWANIE I KOMPRESJA SYGNAŁU MOWY

Wybrane metody kompresji obrazów

Przetwarzanie i transmisja danych multimedialnych. Wykład 6 Metody predykcyjne. Przemysław Sękalski.

Kwantyzacja wektorowa. Kodowanie różnicowe.

Przetwarzanie sygnałów w telekomunikacji

KOMPRESJA STRATNA DŹWIĘKU

Przesył mowy przez internet

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 1, strona 1.

Instytut Telekomunikacji Wydział Elektroniki i Technik Informacyjnych.

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Fundamentals of Data Compression

Technika audio część 1

dr inż. Piotr Odya Parametry dźwięku zakres słyszanych przez człowieka częstotliwości: 20 Hz - 20 khz; 10 oktaw zakres dynamiki słuchu: 130 db

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.

Przetwornik analogowo-cyfrowy

58. Otwarte Seminarium z Akustyki, OSA '11, Gdańsk-Jurata, September 2011

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH

Komputerowe przetwarzanie sygnału mowy

WPŁYW PRÓBKOWANIA I KWANTYZACJI NA JAKOŚĆ DŹWIĘKU

Instytut Telekomunikacji Wydział Elektroniki i Technik Informacyjnych.

FFT i dyskretny splot. Aplikacje w DSP

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Jakość transmisji multimedialnej. Opracowanie: Marcin Szykulski

O sygnałach cyfrowych

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

JAKOŚĆ USŁUG TELEKOMUNIKACYJNYCH. Sławomir Kula Przemysław Dymarski Marcin Golański

5/25/2017. Elementy teorii informacji. Co to jest informacja? Słownik Języka Polskiego: Elementy teorii informacji

Percepcyjne kodowanie dźwięku

Systemy plezjochroniczne (PDH) synchroniczne (SDH), Transmisja w sieci elektroenergetycznej (PLC Power Line Communication)

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów

Przetwarzanie sygnałów z zastosowaniem procesorów sygnałowych - opis przedmiotu

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Percepcja dźwięku. Narząd słuchu

Nauka o słyszeniu Wykład IV Głośność dźwięku

Sygnał a informacja. Nośnikiem informacji mogą być: liczby, słowa, dźwięki, obrazy, zapachy, prąd itp. czyli różnorakie sygnały.

Algorytmy detekcji częstotliwości podstawowej

Akwizycja i przetwarzanie sygnałów cyfrowych

Założenia i obszar zastosowań. JPEG - algorytm kodowania obrazu. Geneza algorytmu KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

Kompresja video (MPEG)

Kompresja danych DKDA (7)

Rok akademicki: 2017/2018 Kod: IET s Punkty ECTS: 5. Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne

Program wykładu. informatyka + 2

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

PROGRAMOWANIE APLIKACJI MULTIMEDIALNYCH

Micha Strzelecki Metody przetwarzania i analizy obrazów biomedycznych (2)

Formaty - podziały. format pliku. format kompresji. format zapisu (nośnika) kontener dla danych WAV, AVI, BMP

Teoria sygnałów Signal Theory. Elektrotechnika I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny)

KWANTYZACJA. kwantyzacja

ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 4. Wybrane telekomunikacyjne zastosowania algorytmów adaptacyjnych

Dźwięk podstawowe wiadomości technik informatyk

Zaawansowane algorytmy DSP

Podstawowe funkcje przetwornika C/A

Omówienie różnych metod rozpoznawania mowy

Neurobiologia na lekcjach informatyki? Percepcja barw i dźwięków oraz metody ich przetwarzania Dr Grzegorz Osiński Zakład Dydaktyki Fizyki IF UMK

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

Zastosowanie kompresji w kryptografii Piotr Piotrowski

DŹWIĘK. Dźwięk analogowy - fala sinusoidalna. Dźwięk cyfrowy 1-bitowy 2 możliwe stany fala jest mocno zniekształcona

Konwersja dźwięku analogowego do postaci cyfrowej

Badanie jakości sygnałów audio

Analiza sygnałów biologicznych

Przetwarzanie i transmisja danych multimedialnych. Wykład 8 Transformaty i kodowanie cz. 2. Przemysław Sękalski.

Przetwarzanie analogowo-cyfrowe sygnałów

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

PODSTAWY I ALGORYTMY PRZETWARZANIA SYGNAŁÓW PROGRAM WYKŁADÓW PROGRAM WYKŁADÓW PROGRAM WYKŁADÓW

TEORIA WYTWARZANIA DŹWIĘKÓW

Semantyczne kodowanie mowy przy bardzo małych prędkościach transmisji.

Podstawy Przetwarzania Sygnałów

Teoria przetwarzania A/C i C/A.

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j

Komputerowe modelowanie ludzkiego słuchu w kompresji dźwięku

DYSKRETNA TRANSFORMACJA FOURIERA

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Kompresja sekwencji obrazów - algorytm MPEG-2

Kompresja JPG obrazu sonarowego z uwzględnieniem założonego poziomu błędu

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

Kompresja Danych. Streszczenie Studia Dzienne Wykład 13, f(t) = c n e inω0t, T f(t)e inω 0t dt.

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

Przetwarzanie i transmisja danych multimedialnych. Wykład 9 Kodowanie podpasmowe. Przemysław Sękalski.

METODY OCENY JAKOŚCI DŹWIĘKU

Transkrypt:

dr inż. Artur Janicki email: A.Janicki@tele.pw.edu.pl, pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW

Kodowanie źródła podstawowe informacje Sygnał mowy informacje ogólne, jak powstaje mowa Analiza sygnału mowy w dziedzinie czasu i częstotliwości Model psychoakustyczny Cyfryzacja sygnału audio próbkowanie i kwantyzacja Techniki kompresji predykcja Kodowanie mowy i audio przykłady Badanie jakości sygnału mowy Przykłady przetwarzania sygnału mowy

Źródło część systemu telekomunikacyjnego, generująca wiadomości Informacja miara wartościująca wiadomość ilość informacji zależna odwrotnie od P wiadomości Kodowanie przyporządkowanie wiadomościom słów kodowych do celów transmisji Nie mylić kodowania z szyfrowaniem!

Kodowanie (kompresja) bezstratne a stratne Podstawowe parametry: stopień kompresji efektywność kodowania (ograniczenie Shannona!) Przykłady algorytmów kompresji: bezstratnej: algorytm Huffmana, metody słownikowe (LZx), kodowanie arytmetyczne stratnej: z wykorzystaniem kwantyzacji: liniowej, wektorowej, adapt. z wykorzystaniem predykcji (LPC) z wykorzystaniem transformaty: DCT, falkowej, KLT

Audio łac. słyszę Sygnały audio w szczególności: sygnał mowy sygnały muzyczne

Sygnał mowy informacje ogólne

1. Jama nosowa 2. Podniebienie twarde 3. Dziąsła 4. Podniebienie miękkie 5. Przednia część języka 6. Środkowa część języka 7. Języczek 8. Tylna część języka 9. Jama gardłowa 10. Nagłośnia 11. Fałszywe więzadła głosowe 12. Więzadła głosowe 13. Krtań 14. Przełyk 15. Tchawica 16. Zęby [S. Lemmetty, HUT]

YouTube: Anatomical Tutorial During Trans-Nasal Endoscopy (Fauquier ENT Consultants, Varrenton, Virginia)

Fonem - najmniejsza jednostka systemu dźwiękowego danego języka, pozwalająca różnicować znaczenie wyrazów: (p) of pić vs. (b) of bić Alofon jeden z fonetycznych wariantów fonemu, zależny od jego otoczenia: (t) w: top, stop, trzy, kot, metal, bity Difon para fonemów

Samogłoski: Spółgłoski: wybuchowe: trące: zwarto-trące: nosowe: boczne: () aproksymanty: drżące:

Analiza sygnału audio i sygnału mowy

Sygnał quasi-stacjonarny Fragmenty bezdźwięczne i dźwięczne - pseudookresowość Czasy trwania poszczególnych segmentów

Transformata Fouriera G( f ) F[ g( t)] G( Odwrotna transformata Fouriera g( t) F 1 [ G( f )] f ) g( t) g( t) e G( f ) e j2ft dt j2ft df Dlaczego ją wykorzystujemy? łatwa interpretacja fizyczna ułatwia obliczenia dla sygnałów okresowych można użyć T zamiast

Transformata Fouriera Widmo amplitudowe segmentów dźwięcznych i bezdźwięcznych Częstotliwość podstawowa = ton krtaniowy = F0 Częstotliwości formantowe

= częstotliwość podstawowa, ton ktaniowy Cecha indywidualna, nośnik intonacji, emocji, znaczenia Typowe zakresy: mężczyźni: 60 200 Hz (tenorzy do 480 Hz) kobiety: 150 350 Hz (sopranistki do 960 Hz) dzieci: 300 Hz 500 Hz Pomiar: analiza korelacji wzajemnej, cepstrum, pomiar laryngograficzny

Cepstrum ˆ 1 Mel-cepstrumX ( T) F [lng( f + parametry delta, delta delta Współczynniki liniowej predykcji - LPC (Linear Prediction Coefficients) PLP - Perceptual Linear Prediction LAR Log Area Ratio Momenty widmowe )]

Czasy trwania fonemów Pitch (~F0) Akcentowanie Tembr Rytm Energia Pauzy

Jak słyszymy? Model psychoakustyczny

http://pzgzabrze.republika.pl/5ciekawostki/ciekawostki.htm

Próg słyszalności Najlepiej słyszymy w zakresie 2-4 khz Maskowanie częstotliwościowe [Yao Wang]

Sygnał Sygnał + szum (SNR = 24 db) Szum [Dr. T. Collins]

[Yao Wang]

Cyfryzacja sygnału audio

Cyfryzacja zamiana sygnału analogowego na cyfrowy analogowy x(t) FDP próbkowanie kwantyzacja f p cyfrowy x(n) i z powrotem na analogowy - interpolacja cyfrowy x(n) D/A FDP analogowy x^(t)

dyskretyzacja sygnału w dziedzinie czasu Twierdzenie Nyquista f samp 2B Typowe wartości f samp 8 khz telefonia 16 khz, 22,050 khz WAV 44,1 khz, 48 khz jakość CD

Dyskretyzacja sygnału w dziedzinie wartości Mapowanie zbioru R na skończony podzbiór R

y x k-1 y k y k+1 k-1 x k x k+1 x y k+2 y k+3 k+2 x k+3 x k+4 poziomy decyzji komórka kwantyzacji wartości reprezentujące

Charakterystyka kwantyzatora; funkcja kwantyzacji liniowa, logarytmiczna (A-law, m-law) i inne Błąd kwantyzacji, szum kwantyzacji xˆ ( t) x( t) e( t) SNR db 6* R[ db] (dla kwantyzatora równomiernego)

xˆ Q( x) Kwantyzator równomierny: z A.M.Kondoz "Digital Speech", Wiley 1994

[Hanzo et al.]

Kwantyzery adaptacyjne Inne podejście kwantyzacja wektorowa (VQ)

Techniki kompresji sygnału audio predykcja. Kodowanie sygnału mowy i audio.

x(n) e(n) Q e^(n) - + + x^(n) x x p (n) p (n) x^(n) P P

x p (n) = x^(n-1) DPCM Differential PCM x p (n) = a 1 x^(n-1) ADPCM Adaptive Differential PCM G.721 x p (n) = a 1 x^(n-1) + a 2 x^(n-2)+ + a p x^(n-p) liniowa predykcja rzędu p LPC Linear Prediction Coding

przewidywanie wektora N próbek ~ x( n.. n N 1) g * x( n t.. n N 1 t ) przesyłane parametry: t offset g gain

[Hanzo et al.]

PCM = Pulse Code Modulation, modulacja kodowo-impulsowa każda próbka kwantowana niezależnie fs = 8 khz, 8 bitów/próbkę kwantyzer: A-law lub m-law

model źródło-filtr przykład kodera 2,4 kb/s: przykład kodera 1,2 kb/s: muzyka? niekoniecznie

wejście z konwertera A/D - - subsampling 13 próbek (13 x 3 bitów / 5 ms) kodowanie APCM LPC obliczanie współczynników LPC LTP obliczanie współczynników LPC obliczanie energii i parametrów RPE 2 parametry RPE (8 bitów / 5 ms) multipleksing strumień cyfrowy 13 kb/s 2 parametry LTP (9 bitów / 5 ms) 8 współczynników LPC (36 bitów / 20 ms) LPC LTP RPE

G.723.1 5,6 / 6,3 kb/s, ACELP/MP-MLQ, ramka 30 ms (4 x 60 pr.), opóźn. 37,5 ms LD-CELP 16 kb/s, opóźnienie 0,675 ms, 1024 wektorów Speex 2 44 kb/s, oparty o CELP; VAD, VBR ilbc - Internet Low Bitrate Codec, 13,33 / 15,2 kb/s, ramka (20 / 30 ms) Skype ilbc, isac?

Poziom ciśnienia dźwięku [db-spl] 80 70 60 50 40 30 20 10 0-10 -20-30 5 bits 5 bits Próg maskowania 5 bits 5 bits 4 bits 4 bits 4 bits 4 4 bits bits 3 bits 2 bits 2 bits 5000 10000 15000 Średnia liczba bitów na próbkę = 3,92 Stopień kompresji = 16:3,92 = 4,1:1 [Dr. T. Collins] Próg słyszenia Częstotlowość [Hz]

Badanie jakości sygnału audio

SNR Signal to Noise Ratio, S/N Czy jest to kryterium miarodajne?

Metody subiektywne z wykorzystaniem słuchaczy, np. MOS (Mean Opinion Score), uśredniona opinia słuchaczy Metody konwersacyjne, odsłuchowe, kategoryzacyjne, np.: ACR Absolute Category Rating DCR Degradation Category Rating PC Pair Comparison Badanie wyrazistości (zdaniowa, wyrazowa, logatomowa) Metody obiektywne Wyznaczenie odległości pomiędzy wybranymi parametrami sygnału mowy oryginalnej i przetworzonej Zastosowanie modelu psychoakustycznego Np. PESQ (mowa), PEAQ (audio), PSQM

Wyrazistość logatomowa logatomy, np.. szypi, mijka, ben, chryszcze Wyrazistość wyrazowa Wyrazistość zdaniowa wykorzystuje np.. zdania nieprzewidywalne znaczeniowo (Semantically Unpredictable Sentences SUS), np. Umysł grzęźnie pod marcowym wiadrem.

Przykłady przetwarzania sygnału mowy

Kodowanie, kompresja mowy, audio Synteza mowy Rozpoznawanie sygnału mowy Rozpoznawanie mówcy Rozpoznawanie emocji Ewaluacja jakości głosu Transformacja głosu Poprawa jakości sygnału mowy (odszumianie itp.) Ukrywanie informacji w sygnale audio (watermarking) Przetwarzanie sygnałów muzycznych Sądowe przetwarzanie sygnału mowy

Rozpoznawanie stanu emocjonalnego mówcy na podstawie analizy sygnału mowy Poprawa jakości sygnału mowy w systemach telefonii internetowej Weryfikacja mówcy na przykładzie systemu Głosowy PIN Wizyjna synteza mowy Automatyczne rozpoznawanie melodii Selekcja jednostek w korpusowej syntezie mowy Rozpoznawanie mówcy z zastosowaniem liniowej kombinacji rozkładów normalnych Automatyczne rozpoznawanie mowy ciągłej dla języka polskiego Automatyczne algorytmy badania jakości sygnału mowy Badanie jakości przesyłu sygnału mowy w systemach telefonii internetowej Multi-Rate Audio Codec

Kodowanie źródła podstawowe informacje Sygnał mowy informacje ogólne, jak powstaje mowa Analiza sygnału mowy w dziedzinie czasu i częstotliwości Model psychoakustyczny Cyfryzacja sygnału audio próbkowanie i kwantyzacja Techniki kompresji predykcja Kodowanie mowy i audio przykłady Badanie jakości sygnału mowy Przykłady przetwarzania sygnału mowy