KODOWANIE I KOMPRESJA SYGNAŁU MOWY



Podobne dokumenty
Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

METODY KODOWANIA SYGNAŁU MOWY DO ZASTOSOWAŃ W TELEKOMUNIKACJI

Wybrane algorytmu kompresji dźwięku

Analogowa (para miedziana, radio, walkie-talkie, CB) Cyfrowa (ISDN, GSM, VoIP, DRB, DVB, Tetra, )

1 ALGORYTMY KODOWANIA ŹRÓDŁOWEGO MOWY

dr inż. Piotr Odya Parametry dźwięku zakres słyszanych przez człowieka częstotliwości: 20 Hz - 20 khz; 10 oktaw zakres dynamiki słuchu: 130 db

KOMPRESJA STRATNA SYGNAŁU MOWY. Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP

Kompresja dźwięku w standardzie MPEG-1

Przesył mowy przez internet

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Technika audio część 2

Formaty - podziały. format pliku. format kompresji. format zapisu (nośnika) kontener dla danych WAV, AVI, BMP

Systemy plezjochroniczne (PDH) synchroniczne (SDH), Transmisja w sieci elektroenergetycznej (PLC Power Line Communication)

Przetwarzanie i transmisja danych multimedialnych. Wykład 6 Metody predykcyjne. Przemysław Sękalski.

Kwantyzacja wektorowa. Kodowanie różnicowe.

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

DŹWIĘK. Dźwięk analogowy - fala sinusoidalna. Dźwięk cyfrowy 1-bitowy 2 możliwe stany fala jest mocno zniekształcona

dr inż. Artur Janicki pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW

Podstawy transmisji multimedialnych podstawy kodowania dźwięku i obrazu Autor Wojciech Gumiński

58. Otwarte Seminarium z Akustyki, OSA '11, Gdańsk-Jurata, September 2011

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej

MODULACJE IMPULSOWE. TSIM W10: Modulacje impulsowe 1/22

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Wybrane metody kompresji obrazów

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

KOMPRESJA STRATNA DŹWIĘKU

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

dr hab. inż. Artur Janicki pok. 407 Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW

Jakości usług telekomunikacyjnych

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 1, strona 1.

Kompresja danych DKDA (7)

WPŁYW PRÓBKOWANIA I KWANTYZACJI NA JAKOŚĆ DŹWIĘKU

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.

Kompresja sekwencji obrazów - algorytm MPEG-2

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

PROGRAMOWANIE APLIKACJI MULTIMEDIALNYCH

Standardy zapisu i transmisji dźwięku

Wielokanałowe systemy kodowania dźwięku

Klasyfikacja mówców oparta na modelowaniu GMM-UBM dla mowy o różnej jakości

Wielokanałowe systemy kodowania dźwięku

5/25/2017. Elementy teorii informacji. Co to jest informacja? Słownik Języka Polskiego: Elementy teorii informacji

ZAKŁAD SYSTEMÓW ELEKTRONICZNYCH I TELEKOMUNIKACYJNYCH Laboratorium Podstaw Telekomunikacji WPŁYW SZUMÓW NA TRANSMISJĘ CYFROWĄ

Zaawansowane algorytmy DSP

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

Audio i video. R. Robert Gajewski omklnx.il.pw.edu.pl/~rgajewski

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Założenia i obszar zastosowań. JPEG - algorytm kodowania obrazu. Geneza algorytmu KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG

Formaty kompresji audio

Kompresja video (MPEG)

ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 4. Wybrane telekomunikacyjne zastosowania algorytmów adaptacyjnych

Nowoczesne metody emisji ucyfrowionego sygnału telewizyjnego

Teoria przetwarzania A/C i C/A.

dr inż. Piotr Odya Wprowadzenie

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

Promotor: dr Marek Pawełczyk. Marcin Picz

Opis efektów kształcenia dla modułu zajęć

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 4, strona 1. GOLOMBA I RICE'A

PL B1. POLITECHNIKA GDAŃSKA, Gdańsk, PL BUP 19/09. ANDRZEJ CZYŻEWSKI, Gdynia, PL GRZEGORZ SZWOCH, Gdańsk, PL

Kompresja sekwencji obrazów

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

Przetwarzanie i transmisja danych multimedialnych. Wykład 10 Kompresja obrazów ruchomych MPEG. Przemysław Sękalski.

Politechnika Śląska Wydział Automatyki, Elektroniki i Informatyki Instytut Automatyki PRACA MAGISTERSKA

Wymagania i zalecenia dla usługi głosowej w Sieci FreePhone. MASH.PL Wymagania i zalecenia dla usługi głosowej w Sieci FreePhone Strona 1

KARTA DO CENTRAL: MICRA, SIGMA I OPTIMA. ver xx

KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG

Przetwarzanie analogowo-cyfrowe sygnałów

Modulacja i kodowanie laboratorium. Modulacje Cyfrowe: Kluczowanie Amplitudy (ASK) i kluczowanie Fazy (PSK)

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

Podstawy Przetwarzania Sygnałów

Metodyka i system dopasowania protez słuchu w oparciu o badanie percepcji sygnału mowy w szumie

8. Realizacja projektowanie i pomiary filtrów IIR

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Cechy karty dzwiękowej

Języki Modelowania i Symulacji

Transmisja danych multimedialnych. mgr inż. Piotr Bratoszewski

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

Przekształcenie Fouriera i splot

Kodowanie podpasmowe

Dynamika procesu zmienna stała. programowalne zmiany parametrów r.

Percepcyjne kodowanie dźwięku

NOWOCZESNE METODY EMISJI UCYFROWIONEGO SYGNAŁU TELEWIZYJNEGO

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

Praca dyplomowa magisterska

Konwersja dźwięku analogowego do postaci cyfrowej

Generowanie sygnałów na DSP

Politechnika Łódzka. Instytut Systemów Inżynierii Elektrycznej. Laboratorium cyfrowej techniki pomiarowej. Ćwiczenie 3

PODSTAWY TELEKOMUNIKACJI Egzamin I (za każde polecenie - 6 punktów)

Kompresja Kodowanie arytmetyczne. Dariusz Sobczuk

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)

Filtry cyfrowe procesory sygnałowe

POMIARY WYBRANYCH PARAMETRÓW TORU FONICZNEGO W PROCESORACH AUDIO

Przetwornik analogowo-cyfrowy

Transkrypt:

Akustyka mowy KODOWANIE I KOMPRESJA SYGNAŁU MOWY Katedra Systemów Multimedialnych, Politechnika Gdańska Autor: Grzegorz Szwoch, kwiecień 2011

Potrzeba kompresji mowy Cyfrowy sygnał mowy bez kompresji: duża przepływność bitowa, czas transmisji powstawanie opóźnień. Kompresja mowy: zmniejszenie przepływności (mniejsze opóźnienia z powodu transmisji), ale: wprowadzenie opóźnień związanych z: kodowaniem i dekodowaniem, buforowaniem próbek (przetwarzanie blokowe).

Kodowanie i kompresja Kompresja zmniejszenie liczby danych potrzebnych do zapisania istotnych informacji. Może być bezstratna lub (częściej w przypadku mowy) stratna. Kodowanie zapis potrzebnych informacji za pomocą liczb (bitów) przesyłanych w strumieniu wyjściowym. Kodek = koder + dekoder koder: kompresja, kodowanie dekoder: dekodowanie, dekompresja

Pojęcia podstawowe Algorytm kodowania sposób kompresji i kodowania sygnału, np. LPC-10, CELP Standard kodowania dokument opisujący praktyczną implementację algorytmu, opublikowany w celu zapewnienia kompatybilności, np. G.729 Kodek oprogramowanie i ew. sprzęt, implementujący algorytm kodowania (może opierać się na standardzie, ale nie musi), np. kodek Speex

Kodeki mowy Uniwersalne kodeki sygnału nie sprawdzają się w przypadku mowy: zbyt duża przepływność, jeżeli ograniczymy przepływność: zbyt słaba jakość (zniekształcenia kompresji). Kodeki mowy są dostosowane do specyficznych właściwości sygnału mowy: wąskie pasmo, fragmenty dźwięczne i bezdźwięczne, formantowość części dźwięcznych, entropia sygnału mowy

Zastosowania kodeków mowy Telefonia mobilna Telefonia internetowa (VoIP) Komunikatory internetowe Telekonferencje Rejestratory mowy Archiwizacja nagrań mowy

Typy kodeków mowy Kodeki sygnałowe (waveform) operują na próbkach sygnału zachowują sygnał dźwiękowy wysokie przepływności (mała kompresja) Kodeki parametryczne (źródłowe) kodowanie: analiza sygnału, wyodrębnienie parametrów transmisja parametrów sygnału i modelu dekodowanie: synteza mowy na podstawie otrzymanych parametrów niższe przepływności (większa kompresja)

Kodowanie sygnałowe Kodeki sygnałowe wykorzystują: nieliniowe kodowanie rozkład amplitud sygnału mowy skupia się w zakresie małych wartości, potrzebna większa rozdzielczość dla zakresu małych wartości ADPCM: kodowanie różnic między próbkami (usunięcie korelacji, zmniejszenie entropii) kodowany jest błąd predykcji małe wartości wydajne kodowanie adaptacyjny dobór sposobu kwantyzacji

Nieliniowe kodowanie Sygnał mowy ma duży zakres dynamiki Przy liniowej kwantyzacji, ciche fragmenty mowy giną w szumie Stosunek między amplitudą sygnału a odbieraną przez człowieka głośnością jest logarytmiczny (spełnia prawo Webera- Fechnera) Nieliniowe kodowanie sygnału mowy pozwala na jego bardziej skuteczne kodowanie

Standardy nieliniowego kodowania Kompresja (w sensie kompresji dynamiki) - nieliniowe przekształcenie liniowych wartości amplitudy na wartości zakodowane. Dwa standardy kodowania: µ-law (µ czytamy [miu]) starszy standard, stosowany w USA i Japonii A-law: nowszy standard, stosowany w Europie. Przy połączeniach międzynarodowych, jeżeli jedna strona używa A-law, druga też musi to zrobić.

Standard µ-law µ = 255

Standard A-law A = 87,5

Porównanie standardów Wykres poziomu sygnału wejście-wyjście Źródło: Wikipedia

Ilustracja kodowania nieliniowego Wartości liniowe (oś pionowa) i wartości zakodowane w µ-law (oś pozioma) Źródło: Wikipedia

Zysk z nieliniowego kodowania Korzyści: zwiększenie dynamiki sygnału o ok. 24 db, dzięki zwiększeniu precyzji kodowania dla małych amplitud, dzięki temu jakość sygnału zakodowanego w µ-law lub A-law na 8 bitach odpowiada jakości sygnału zakodowanego liniowo na 12 bitach a zatem przy tej samej dostępnej przepływności mamy lepszą jakość mowy niż przy kodowaniu liniowym

Kodowanie różnicowe (DPCM) W sygnale mowy dominują składowe o niskich częstotliwościach małe zmiany amplitudy sąsiednich próbek. Kodowanie różnicowe DPCM dwie metody: kodowanie (zwykle nieliniowe) różnicy między bieżącą a poprzednią wartością sygnału; kodowanie różnicy między rzeczywistą wartością próbki a wartością estymowaną (przewidywaną) za pomocą pewnego modelu Zalety: mniej bitów potrzebnych do zakodowania, zysk dynamiki 4 11 db.

DPCM Kodowanie Dekodowanie

ADPCM (adaptacyjne kodowanie różnicowe) ADPCM adaptive differential pulse modulation coding Najczęściej używana metoda w kodekach sygnałowych. Rozwinięcie DPCM. Błąd predykcji jest normalizowany (skalowany) Kodowanie dostosowuje się do zmiennych właściwości sygnału Dalsze zmniejszenie przepływności bitowej i poprawa dynamiki (SNR)

Kodeki sygnałowe G.711 PCM, nieliniowe kodowanie, 8 khz, 8 bit przepł. 64 kbit/s (słowa 14-bitowe kodowane na 8 bitach) G.726 ADPCM z nieliniowym kodowaniem, tryby: 16, 24, 32, 40 kbit/s G.722 sub-band ADPCM, osobne przetwarzanie w pasmach częstotliwości, przepł. 48, 56, 64 kbit/s

Kodowanie parametryczne Wytwarzanie sygnału mowy: pobudzenie ton krtaniowy (elementy dźwięczne) szum (elementy bezdźwięczne) trakt głosowy filtracja pobudzenia Kodowanie parametryczne kodujemy: typ pobudzenia parametry modelu traktu głosowego

Predykcja liniowa (LPC) Niemal wszystkie kodeki parametryczne wykorzystują liniowe kodowanie predykcyjne LPC (linear predictive coding) filtr LPC modeluje trakt głosowy dla bloku próbek sygnału mowy parametry filtru są kodowane i przesyłane dla każdego bloku (ramki) próbek resynteza za pomocą filtru LPC:

Model LPC wytwarzania mowy

Predykcja liniowa (LPC) Predykcja Synteza

Kodek FS-1015 (LPC-10) Kodowanie: sygnał 8 khz, 12 bit/próbkę podział na ramki po 180 próbek (22,5 ms) preemfaza podbicie wysokich częstotliwości klasyfikacja ramek dźwięczne: LPC 10. rzędu (LPC-10) bezdźwięczne: LPC 4. rzędu wyznaczenie współczynników predykcji kwantyzacja współczynników wyznaczenie wysokości dźwięku kodowanie, wysłanie

Koder FS-1015

Koder FS-1015 Zakodowany strumień dla jednej ramki: 7 bitów: rodzaj (dźwięczny/bezdźwięczny) oraz wysokość dźwięku 5 bitów: wzmocnienie sygnału 41 bitów (dźwięczne) lub 20 bitów (bezdźw.): skwantowane współczynniki LPC 1 bit: synchronizacja 21 bitów (tylko bezdźwięczne): kodowanie protekcyjne. Razem: 54 bity na jedną ramkę (180 próbek). Bez kodowania: 180*12 = 2160 bitów Przepływność kodeka: 2,4 kbit/s

Dekoder FS-1015

Wady kodeka LPC-10 Ramki nie są zwykle czysto dźwięczne lub bezdźwięczne Ciąg impulsów nie symuluje odpowiednio dokładnie pobudzenia dla ramek dźwięcznych Utrata informacji o fazie Efekt działania kodeka: słaba zrozumiałość mowy bardzo słaba jakość mowy duży poziom szumu nienaturalna (syntetyczna) mowa

CELP CELP Code-Excited Linear Prediction Rozwinięcie idei kodowania LPC Zamiast dwóch typów pobudzeń: zbiór ( książka kodowa ) reprezentatywnych pobudzeń. Wybierane jest pobudzenie dające najmniejszy błąd predykcji. Kod wybranego pobudzenia jest przesyłany. Dekoder odtwarza sygnał. CELP jest podstawą praktycznie wszystkich używanych obecnie kodeków parametrycznych. Czysty CELP: kodek FS-1016; 4,8 kbit/s

CELP Model wytwarzania mowy wg CELP

LPC short-term i long-term Predykcja w krótkich ramkach próbek (short-term LPC) pozwala na estymację kształtu widma (formantów), ale nie można wyznaczyć wysokości sygnału mowy Dodatkowa predykcja długoterminowa (long-term LPC) obejmuje co najmniej jeden okres pozwala wyznaczyć wysokość

LPC short-term i long-term Predykcja Synteza

Wybór pobudzenia Wybór pobudzenia z książki kodowej (codebook) odbywa się w pętli zamkniętej, na zasadzie analizy przez syntezę.

CELP wybór pobudzenia Filtracja ramki próbek filtrem ważącym perceptualnie (zjawiska maskowania) Dla każdego słowa kodowego w książce: wyznaczenie optymalnego wzmocnienia synteza sygnału za pomocą filtrów LPC (wysokości dźwięku i formantowego) wyznaczenie błędu predykcji Wybór pobudzenia, dla którego błąd predykcji jest najmniejszy.

CELP wybór pobudzenia Filtr wysokości (pitch filter) Filtr formantowy (formant filter) Połączenie obu filtrów

Koder CELP Segmentacja (ramki 20-30 ms, każda ramka ma zwykle 4 podramki) Analiza LPC short-term oraz long-term Wyznaczenie pobudzenia z książki kodowej Kodowanie strumienia bitowego indeks pobudzenia wzmocnienie parametry long-term LPC (wysokość) współczynniki LPC (short-term)

Koder CELP

Dekoder CELP Postfilter filtracja perceptualna sygnału na podstawie współczynników LPC, uwydatnia formanty, poprawia jakość sygnału

CELP a LPC Poprawa jakości i zrozumiałości lepszy dobór pobudzenia dla filtrów LPC, dostosowany do właściwości sygnału mowy Zwiększenie przepływności (dodatkowe informacje) Większa złożoność obliczeniowa (głównie dobór pobudzenia), a więc zwiększenie opóźnień. Stosowane obecnie kodeki parametryczne w różny sposób optymalizują algorytm CELP.

Adaptacyjna książka kodowa Praktyczne implementacje kodeków CELP wykorzystują dwie książki kodowe: adaptacyjna reprezentuje przewidywalną część pobudzenia (na podstawie historii) jest uaktualniana dla każdej ramki stała (fixed, stochastic) reprezentuje zmienną część pobudzenia Sygnał pobudzenia: suma wektorów z obu książek kodowych. Uproszczenie obliczeń, szczególnie wyznaczania wysokości dźwięku.

Low-delay CELP (LD-CELP) Modyfikacja algorytmu CELP zmniejszenie opóźnienia <2 ms (małe bloki próbek) zastosowanie wstecznej adaptacji predyktora: wsp. LPC obliczane z sygnału syntetycznego, nie muszą być przesyłane wysoki rząd predykcji (50), tylko short-term brak predykcji wysokości dźwięku znaczne większa złożoność Kodek G.728, 16 kbit/s

Algebraic CELP (ACELP) Zmniejszenie złożoności i opóźnień, poprawa jakości kodowanej mowy Algebraiczna książka kodowa: wektory kodowe uzyskiwane przez dodawanie i przesuwanie ciągów impulsów Adaptacyjna książka kodowa Zespolona kwantyzacja wektorowa obliczonych parametrów Kodek G.729 (CS-ACELP): 6,4 / 8,0 / 11,8 kbit/s

Kodek ilbc Oparty na CELP Dostosowany do transmisji w sieciach IP Predykcja w niezależnych blokach próbek zabezpieczenie przed zniekształceniami przy utracie pakietów Adaptacja książki kodowej w przód i wstecz Lepsza jakość gdy tracone są pakiety Tryby pracy: 13,3 / 15,2 kbit/s

Tryby pracy kodeka Pasmo częstotliwości do 4 khz (cz. próbkowania 8 khz, tryb narrowband) wystarcza do celów zrozumiałości mowy. Nie wystarcza do uzyskania zadawalającej jakości mowy, trudno przesyłać muzykę Szerokopasmowe tryby pracy kodeków: wideband: cz. próbkowania 16 khz (pasmo do 8 khz) ultra wideband: 32 khz (pasmo do 16 khz)

Metody zmniejszenia przepływności Zmienna przepływność bitowa (variable bit rate, VBR) dostosowanie przepływności do parametrów sygnału (wejściowy parametr: quality, czyli jakość sygnału) Wykrywanie obecności mowy (voice activity detection, VAD) mowa nie jest kodowana i przesyłana gdy nie występuje na wejściu Wykrywanie przerw w transmisji (discontinuous transmission, DTX)

Kodek Speex Speex jest dostosowany do transmisji w sieciach IP (utrata pakietów) Wykorzystuje CELP Tryby pracy narrowband, wideband Opcjonalne kodowanie VBR z podaną jakością Licencja open source Przepływności: narrowband: 2,15 24,6 kbit/s wideband: 4,0 44,2 kbit/s

Kodeki GSM Kodeki oparte na LPC, wykorzystywane do transmisji w sieciach komórkowych. GSM-FR (Full Rate, GSM 06.10) najstarszy kodek GSM RPE-LPT (Regular Pulse Excitation Long Time Prediction), LPC 8. rzędu 13 kbit/s (8 khz), kiepska jakość GSM-HR (Half Rate, GSM 06.20) mniejsza przepływność: 5,6 kbit/s VSELP (Vector-Sum Excited LP) gorsza jakość, mniejsze zużycie energii

Kodeki GSM GSM-EFR (Enhanced Full Rate, GSM 06.60) wykorzystuje ACELP lepsza jakość niż FR, większe zużycie energii przepływność 12,2 kbit/s AMR (Adaptive Multi-Rate) wykorzystuje ACELP kodek hybrydowy (+kodowanie sygnałowe) wykorzystanie VAD i DTX poprawa jakości względem FR/EFR 8 przepływności od 4,75 do 12,2 kbit/s

Kodeki GSM AMR-WB (AMR Wideband, G.722.2) kodek szerokopasmowy do 7 khz przepływności 6,60 / 8,85 / 12,65 kbit/s do trudniejszych zastosowań (hałas, muzyka): do 23,85 kbit/s wymagane szerokopasmowe sieci AMR-WB+ (Extended AMR-WB) sygnały stereo i wyższe cz. próbkowania zaprojektowane dla usług telekomunikacyjnych przepł. od 5,2 do 48,0 kbit/s

Kodek SILK SILK został opracowany do zastosowania w komunikatorze Skype (4.0). Dostosowanie do aplikacji VoIP (odporność na utratę pakietów) Elementy dźwięczne: predykcja long-term LPC w wybielonym sygnale Elementy bezdźwięczne: LPC w sygnale przefiltrowanym górnoprzepustowo Skalowalność, niskie opóźnienia Cz. próbkowania 8 / 12 /16 /24 khz Przepływności od 6 do 40 kbit/s

SILK-koder +---+ +-----------------------------> +---------+ +---------+ Voice LTP +-----> Activity -----+ +----> Scaling ---------+---> Detector 3 Control <+ 12 +---------+ +---------+ +---------+ Gains 11 +-> Processor - ---+--- ---> R a \/ +---------+ n +---------+ +---------+ g Pitch LSF e +-> Analysis -+ Quantizer - --- --- ---> 4 8 E -> +---------+ +---------+ n 14 9/\ 10 c \/ o +---------+ +----------+ d Noise +-- -> Prediction +--- --- ---> e +-> Shaping - --+ Analysis 7 r Analysis 5 +---------+ +----------+ /\ +--------- -- -------+ \/ \/ \/ \/ \/ +---------+ +---------+ +------------+ High-Pass Noise -+-> Filter -+----+-----> Prefilter ------> Shaping -> 1 2 6 Quantization 13 +---------+ +---------+ +------------+ +---+ 1: Input speech signal 2: High passed input signal 3: Voice activity estimate 4: Pitch lags (per 5 ms) and voicing decision (per 20 ms) 5: Noise shaping quantization coefficients - Short term synthesis and analysis noise shaping coefficients (per 5 ms) - Long term synthesis and analysis noise shaping coefficients (per 5 ms and for voiced speech only) - Noise shaping tilt (per 5 ms) - Quantizer gain/step size (per 5 ms) 6: Input signal filtered with analysis noise shaping filters 7: Short and long term prediction coefficients LTP (per 5 ms) and LPC (per 20 ms) 8: LSF quantization indices 9: LSF coefficients 10: Quantized LSF coefficients 11: Processed gains, and synthesis noise shape coefficients 12: LTP state scaling coefficient. Controlling error propagation / prediction gain trade-off 13: Quantized signal 14: Range encoded bitstream

SILK-dekoder +---------+ +------------+ --> Range ---> Decode -----------------------------+ 1 Decoder 2 Parameters -----------+ 5 +---------+ +------------+ 4 3 \/ \/ \/ +------------+ +------------+ +------------+ Generate ---> LTP ---> LPC ---> Excitation Synthesis Synthesis 6 +------------+ +------------+ +------------+ 1: Range encoded bitstream 2: Coded parameters 3: Pulses and gains 4: Pitch lags and LTP coefficients 5: LPC coefficients 6: Decoded signal

Literatura Wikipedia hasła: Speech coding, Speech codecs Chu W.C., Speech Coding Algorithms. Foundation and Evolution of Standardized Coders, John Wiley & Sons, Hoboken 2003. SPEEX: A free codec for free speech. http://www.speex.org/ http://developer.skype.com/silk SILK: Super Wideband Audio Codec. G. Szwoch: Algorytmy kodowania źródłowego mowy (raport). Dostępny na stronie Katedry (dział Materiały pomocnicze ). Instrukcja do ćwiczenia laboratoryjnego nr 2: Badanie algorytmów kodowania mowy. Materiały wyłącznie do użytku wewnętrznego dla studentów przedmiotu Synteza dźwięku i obrazu, prowadzonego przez Katedrę Systemów Multimedialnych Politechniki Gdańskiej. Wykorzystywanie do innych celów oraz publikowanie i rozpowszechnianie zabronione. This presentation is intended for internal use only, for students of Multimedia Systems Department, Gdansk University of Technology, attending the Sound and image synthesis course. Other uses, including publication and distribution, are strictly prohibited.