dr hab. inż. Artur Janicki pok. 407 Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW

Podobne dokumenty
dr inż. Artur Janicki pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

Kompresja dźwięku w standardzie MPEG-1

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Jakości usług telekomunikacyjnych

KOMPRESJA STRATNA SYGNAŁU MOWY. Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Technika audio część 2

Przetwarzanie sygnałów w telekomunikacji

Przetwarzanie i transmisja danych multimedialnych. Wykład 6 Metody predykcyjne. Przemysław Sękalski.

Przetwornik analogowo-cyfrowy

Analogowa (para miedziana, radio, walkie-talkie, CB) Cyfrowa (ISDN, GSM, VoIP, DRB, DVB, Tetra, )

Wybrane algorytmu kompresji dźwięku

Kwantyzacja wektorowa. Kodowanie różnicowe.

Podstawy transmisji multimedialnych podstawy kodowania dźwięku i obrazu Autor Wojciech Gumiński

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

MODULACJE IMPULSOWE. TSIM W10: Modulacje impulsowe 1/22

Technika audio część 1

METODY KODOWANIA SYGNAŁU MOWY DO ZASTOSOWAŃ W TELEKOMUNIKACJI

Instytut Telekomunikacji Wydział Elektroniki i Technik Informacyjnych.

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 1, strona 1.

KOMPRESJA STRATNA DŹWIĘKU

Systemy plezjochroniczne (PDH) synchroniczne (SDH), Transmisja w sieci elektroenergetycznej (PLC Power Line Communication)

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów

dr inż. Piotr Odya Parametry dźwięku zakres słyszanych przez człowieka częstotliwości: 20 Hz - 20 khz; 10 oktaw zakres dynamiki słuchu: 130 db

Podstawowe funkcje przetwornika C/A

KODOWANIE I KOMPRESJA SYGNAŁU MOWY

Wybrane metody kompresji obrazów

Fundamentals of Data Compression

FFT i dyskretny splot. Aplikacje w DSP

O sygnałach cyfrowych

Komputerowe przetwarzanie sygnału mowy

Przesył mowy przez internet

Instytut Telekomunikacji Wydział Elektroniki i Technik Informacyjnych.

Dźwięk podstawowe wiadomości technik informatyk

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

Sygnał a informacja. Nośnikiem informacji mogą być: liczby, słowa, dźwięki, obrazy, zapachy, prąd itp. czyli różnorakie sygnały.

Jakość transmisji multimedialnej. Opracowanie: Marcin Szykulski

Przetwarzanie sygnałów z zastosowaniem procesorów sygnałowych - opis przedmiotu

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

Kompresja danych DKDA (7)

58. Otwarte Seminarium z Akustyki, OSA '11, Gdańsk-Jurata, September 2011

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

Neurobiologia na lekcjach informatyki? Percepcja barw i dźwięków oraz metody ich przetwarzania Dr Grzegorz Osiński Zakład Dydaktyki Fizyki IF UMK

JAKOŚĆ USŁUG TELEKOMUNIKACYJNYCH. Sławomir Kula Przemysław Dymarski Marcin Golański

Percepcja dźwięku. Narząd słuchu

Zaawansowane algorytmy DSP

Konwersja dźwięku analogowego do postaci cyfrowej

Kompresja sekwencji obrazów - algorytm MPEG-2

Program wykładu. informatyka + 2

Teoria sygnałów Signal Theory. Elektrotechnika I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny)

5/25/2017. Elementy teorii informacji. Co to jest informacja? Słownik Języka Polskiego: Elementy teorii informacji

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Kompresja video (MPEG)

Nauka o słyszeniu Wykład IV Głośność dźwięku

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej

WPŁYW PRÓBKOWANIA I KWANTYZACJI NA JAKOŚĆ DŹWIĘKU

TEORIA WYTWARZANIA DŹWIĘKÓW

Micha Strzelecki Metody przetwarzania i analizy obrazów biomedycznych (2)

Akwizycja i przetwarzanie sygnałów cyfrowych

Opis efektów kształcenia dla modułu zajęć

Transformata Fouriera

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

Zastosowanie kompresji w kryptografii Piotr Piotrowski

DŹWIĘK. Dźwięk analogowy - fala sinusoidalna. Dźwięk cyfrowy 1-bitowy 2 możliwe stany fala jest mocno zniekształcona

Kompresja sekwencji obrazów

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Teoria przetwarzania A/C i C/A.

Formaty - podziały. format pliku. format kompresji. format zapisu (nośnika) kontener dla danych WAV, AVI, BMP

Spis treści. 1. Cyfrowy zapis i synteza dźwięku Schemat blokowy i zadania karty dźwiękowej UTK. Karty dźwiękowe. 1

Algorytmy detekcji częstotliwości podstawowej

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 6. Transformata cosinusowa. Krótkookresowa transformata Fouriera.

Założenia i obszar zastosowań. JPEG - algorytm kodowania obrazu. Geneza algorytmu KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG

DYSKRETNA TRANSFORMACJA FOURIERA

Przetwarzanie analogowo-cyfrowe sygnałów

Teletransmisyjne systemy cyfrowe

Przetwarzanie i transmisja danych multimedialnych. Wykład 8 Transformaty i kodowanie cz. 2. Przemysław Sękalski.

Podstawy Przetwarzania Sygnałów

Cechy karty dzwiękowej

Akwizycja i przetwarzanie sygnałów cyfrowych

Kompresja JPG obrazu sonarowego z uwzględnieniem założonego poziomu błędu

Badanie jakości sygnałów audio

Przykładowe zadanie praktyczne

Transformaty. Kodowanie transformujace

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j

Kompresja Danych. Streszczenie Studia Dzienne Wykład 13, f(t) = c n e inω0t, T f(t)e inω 0t dt.

Percepcyjne kodowanie dźwięku

PRZEWODNIK PO PRZEDMIOCIE

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Wymiana i Składowanie Danych Multimedialnych Mateusz Moderhak, EA 106, Pon. 11:15-12:00, śr.

PODSTAWY I ALGORYTMY PRZETWARZANIA SYGNAŁÓW PROGRAM WYKŁADÓW PROGRAM WYKŁADÓW PROGRAM WYKŁADÓW

Transkrypt:

dr hab. inż. Artur Janicki email: A.Janicki@tele.pw.edu.pl, pok. 407 Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW

Kodowanie źródła podstawowe informacje Sygnał mowy informacje ogólne, jak powstaje mowa Analiza sygnału mowy w dziedzinie czasu i częstotliwości Model psychoakustyczny Cyfryzacja sygnału audio próbkowanie i kwantyzacja Techniki kompresji predykcja Kodowanie mowy i audio przykłady Badanie jakości sygnału mowy

Źródło część systemu telekomunikacyjnego, generująca wiadomości Informacja miara wartościująca wiadomość ilość informacji zależna odwrotnie od P wiadomości Kodowanie przyporządkowanie wiadomościom słów kodowych do celów transmisji Nie mylić kodowania z szyfrowaniem!

Kodowanie (kompresja) bezstratne a stratne Podstawowe parametry: stopień kompresji = rozmiar danych na wejściu / rozmiar danych na wyjściu efektywność kodowania (ograniczenie Shannona!) Przykłady algorytmów kompresji: bezstratnej: algorytm Huffmana, metody słownikowe (LZx), kodowanie arytmetyczne stratnej: z wykorzystaniem kwantyzacji: liniowej, wektorowej, adapt. z wykorzystaniem predykcji (LPC) z wykorzystaniem transformaty: DCT, falkowej, KLT

Liczba bitów przypisana wiadomości zbliżona do ilości informacji niesionej przez wiadomość Łączenie elementów w pary, zaczynając od elementów o najmniejszym prawdopodobieństwie

Audio łac. słyszę Sygnały audio w szczególności: sygnał mowy sygnały muzyczne

Transmisja: kodowanie, kompresja mowy, audio Synteza mowy Rozpoznawanie sygnału mowy Rozpoznawanie mówcy Poprawa jakości sygnału mowy (odszumianie, PLC itp.) Rozpoznawanie emocji Ewaluacja jakości transmisji mowy / audio Transformacja głosu Ukrywanie informacji w sygnale audio (watermarking, steganografia) Rozpoznawanie sygnałów muzycznych Sądowe przetwarzanie sygnału mowy

[http://www.businessinsider.com/]

[http://www.businessinsider.com/]

[bloombergbusinessweek.pl ] [www.businessinsider.com]

Sygnał mowy informacje ogólne

1. Jama nosowa 2. Podniebienie twarde 3. Dziąsła 4. Podniebienie miękkie 5. Przednia część języka 6. Środkowa część języka 7. Języczek 8. Tylna część języka 9. Jama gardłowa 10. Nagłośnia 11. Fałszywe więzadła głosowe 12. Więzadła głosowe 13. Krtań 14. Przełyk 15. Tchawica 16. Zęby [S. Lemmetty, HUT]

YouTube: Anatomical Tutorial During Trans-Nasal Endoscopy (Fauquier ENT Consultants, Varrenton, Virginia)

Fonem - najmniejsza jednostka systemu dźwiękowego danego języka, pozwalająca różnicować znaczenie wyrazów: (p) of pić vs. (b) of bić Alofon jeden z fonetycznych wariantów fonemu, zależny od jego otoczenia: (t) w: top, stop, trzy, kot, metal, bity Difon para fonemów

Samogłoski: Spółgłoski: wybuchowe: trące: h zwarto-trące: d d nosowe: boczne: ( ) aproksymanty: j w drżące: e

Analiza sygnału audio i sygnału mowy

Sygnał quasi-stacjonarny Fragmenty bezdźwięczne i dźwięczne - pseudookresowość Czasy trwania poszczególnych segmentów

Transformata Fouriera G( f ) F[ g( t)] G( Odwrotna transformata Fouriera g( t) F 1 [ G( f )] f ) g( t) g( t) e G( f ) e j2ft dt j2ft df Dlaczego ją wykorzystujemy? łatwa interpretacja fizyczna ułatwia obliczenia dla sygnałów okresowych można użyć T zamiast

Transformata Fouriera Widmo amplitudowe segmentów dźwięcznych i bezdźwięcznych Częstotliwość podstawowa = ton krtaniowy = F0 Częstotliwości formantowe

= częstotliwość podstawowa, ton ktaniowy Cecha indywidualna, nośnik intonacji, emocji, znaczenia Typowe zakresy: mężczyźni: 60 200 Hz (tenorzy do 480 Hz) kobiety: 150 350 Hz (sopranistki do 960 Hz) dzieci: 300 Hz 500 Hz Pomiar: analiza korelacji wzajemnej, cepstrum, pomiar laryngograficzny

Jak słyszymy? Model psychoakustyczny

http://pzgzabrze.republika.pl/

[R.Tadeusiewicz, Sygnał mowy]

Próg słyszalności Najlepiej słyszymy w zakresie 2-4 khz Maskowanie częstotliwościowe [Yao Wang]

Sygnał Sygnał + szum (SNR = 24 db) Szum [Dr. T. Collins]

[Yao Wang]

Cyfryzacja sygnału audio

Cyfryzacja zamiana sygnału analogowego na cyfrowy analogowy x(t) FDP próbkowanie kwantyzacja f p cyfrowy x(n) i z powrotem na analogowy - interpolacja cyfrowy x(n) D/A FDP analogowy x^(t)

dyskretyzacja sygnału w dziedzinie czasu Twierdzenie Nyquista f samp 2B Typowe wartości f samp 8 khz telefonia 16 khz, 22,050 khz jakość średnia 44,1 khz, 48 khz jakość CD / HiFi

Dyskretyzacja sygnału w dziedzinie wartości Mapowanie zbioru R na skończony podzbiór R

y x k-1 y k y k+1 k-1 x k x k+1 x y k+2 y k+3 k+2 x k+3 x k+4 poziomy decyzji komórka kwantyzacji wartości reprezentujące

Charakterystyka kwantyzatora; funkcja kwantyzacji liniowa, logarytmiczna (A-law, m-law) i inne Błąd kwantyzacji, szum kwantyzacji xˆ ( t) x( t) e( t) SNR db 6* R[ db] (dla kwantyzatora równomiernego)

xˆ Q( x) Kwantyzator równomierny: z A.M.Kondoz "Digital Speech", Wiley 1994

[Hanzo et al.]

Kwantyzatory adaptacyjne Adaptacja w przód Adaptacja wstecz Kwantyzacja wektorowa (VQ) Podejście wielowymiarowe

Techniki kompresji sygnału audio predykcja. Kodowanie sygnału mowy i audio.

x(n) e(n) Q eˆ ( n) - + xˆ ( n) x p (n) x p (n) + P xˆ ( n) P

PCM Pulse Code Modulation modulacja kodowo-impulsowa każda próbka kwantowana niezależnie fs = 8 khz, 8 bitów/próbkę czyli przepływność = 64 kb/s kwantyzator logarytmiczny: A-law lub m-law

wejście z konwertera A/D - - subsampling 13 próbek (13 x 3 bitów / 5 ms) kodowanie APCM LPC obliczanie współczynników LPC LTP obliczanie współczynników LPC obliczanie energii i parametrów RPE 2 parametry RPE (8 bitów / 5 ms) multipleksing strumień cyfrowy 13 kb/s 2 parametry LTP (9 bitów / 5 ms) 8 współczynników LPC (36 bitów / 20 ms) LPC LTP RPE

G.723.1 5,6 / 6,3 kb/s, ACELP/MP-MLQ, ramka 30 ms (4 x 60 pr.), opóźn. 37,5 ms LD-CELP 16 kb/s, opóźnienie 0,675 ms, 1024 wektorów Speex 2 44 kb/s, oparty o CELP; VAD, VBR ilbc - Internet Low Bitrate Codec, 13,33 / 15,2 kb/s, ramka (20 / 30 ms) Skype ilbc, SVOPC, obecnie: SILK (fp: 8/16/24 khz, 6-40 kb/s)

Poziom ciśnienia dźwięku [db-spl] 80 70 60 50 40 30 20 10 0-10 -20-30 5 bits 5 bits Próg maskowania 5 bits 5 bits 4 bits 4 bits 4 bits 4 4 bits bits 3 bits 2 bits 2 bits 5000 10000 15000 Średnia liczba bitów na próbkę = 3,92 Stopień kompresji = 16:3,92 = 4,1:1 [Dr. T. Collins] Próg słyszenia Częstotlowość [Hz]

Badanie jakości sygnału audio

SNR Signal to Noise Ratio, S/N Czy jest to kryterium miarodajne?

Metody subiektywne z wykorzystaniem słuchaczy, np. MOS (Mean Opinion Score), uśredniona opinia słuchaczy Metody konwersacyjne, odsłuchowe, kategoryzacyjne, np.: ACR Absolute Category Rating DCR Degradation Category Rating PC Pair Comparison Badanie wyrazistości (zdaniowa, wyrazowa, logatomowa) Metody obiektywne Wyznaczenie odległości pomiędzy wybranymi parametrami sygnału mowy oryginalnej i przetworzonej Zastosowanie modelu psychoakustycznego Np. PESQ (mowa), PEAQ (audio), PSQM

Wyrazistość logatomowa logatomy, np.. szypi, mijka, ben, chryszcze Wyrazistość wyrazowa Wyrazistość zdaniowa wykorzystuje np.. zdania nieprzewidywalne znaczeniowo (Semantically Unpredictable Sentences SUS), np. Umysł grzęźnie pod marcowym wiadrem.

Rozpoznawanie stanu emocjonalnego mówcy na podstawie analizy sygnału mowy Poprawa jakości sygnału mowy w systemach telefonii internetowej Weryfikacja mówcy na przykładzie systemu Głosowy PIN Wizyjna synteza mowy Automatyczne rozpoznawanie melodii Selekcja jednostek w korpusowej syntezie mowy Rozpoznawanie mówcy z zastosowaniem liniowej kombinacji rozkładów normalnych Automatyczne rozpoznawanie mowy ciągłej dla języka polskiego Automatyczne algorytmy badania jakości sygnału mowy Badanie jakości przesyłu sygnału mowy w systemach telefonii internetowej Algorytmy konwersji głosu

Czym się różni kodowanie bezstratne od kodowania stratnego? Omów cechy charakterystyczne sygnału mowy. Czym się różni dźwięczny sygnał mowy od bezdźwięcznego? Na czym polega proces próbkowania / kwantyzacji / cyfryzacji sygnału? Omów kodowanie mowy w standardzie PCM. Na czym polega predykcja sygnału? Omów sposoby badania jakości sygnału mowy.

Kodowanie źródła podstawowe informacje Sygnał mowy informacje ogólne, jak powstaje mowa Analiza sygnału mowy w dziedzinie czasu i częstotliwości Model psychoakustyczny Cyfryzacja sygnału audio próbkowanie i kwantyzacja Techniki kompresji predykcja Kodowanie mowy i audio przykłady Badanie jakości sygnału mowy