Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

Kompresja dźwięku

Kompresja dźwięku bezstratna podczas odtwarzania otrzymujemy wierne odwzorowanie dźwięku źródłowego. Najczęściej otrzymujemy 2-krotnie mniejszy rozmiar plików (w szczególnych sytuacjach 3-4-krotnie). stratna pliki nawet 10 krotnie mniejsze. Utrata jakości nagrania.

Formaty zapisu dźwięku skompresowanego Kompresja bezstratna: FLAC (Free Lossless Audio Codec) LPAC RKAU WavPack monkey s audio

Formaty zapisu dźwięku skompresowanego Kompresja stratna: mp3 (także mp3 pro - twórca Instytut Fraunhoffera) wma, asf (MICROSOFT) mpeg, mp4 ogg (Vorbis - projekt open source) atrac (SONY) aac (Advanced Audio Coding - APPLE) vqf (YAMAHA) Musepack (inaczej MPC) Dolby AC-3 (pozwala na zapisanie wielokanałowego dźwięku)

Techniki kompresji dźwięku Metoda predykcyjna - w cyfrowym sygnale kolejne próbki moją podobne wartości, dlatego opracowano kilka algorytmów kompresji, których podstawą jest odpowiednie kodowanie różnicy między kolejnymi próbkami. Kodowanie dynamiki amplitudy dźwięku - można zaoszczędzić na przepływności bitowej przez zastosowanie nierównomiernej kwantyzacji amplitudy, która polega na tym, że duże poziomy amplitudy mają krótszy zapis bitowy niż amplitudy o niskim poziomie. Przeznaczanie większej dokładności zapisu niskich poziomów dźwięku pozwala znacznie ograniczyć szum kwantyzacji.

Techniki kompresji dźwięku Kodowanie perceptualne - wykorzystuje właściwości ludzkiego słuchu. Maskowanie - zagłuszanie składowych sygnału fonicznego przez inne. maskowanie jednoczesne (w dziedzinie częstotliwości) maskowanie niejednoczesne (w dziedzinie czasu).

Maskowanie jednoczesne Maskowanie jednoczesne - polega na tym, że w zależności od wzajemnego natężenia i częstotliwości pewne tony stają się niesłyszalne (zagłuszone) w obecności innych tonów w ich sąsiedztwie.

Maskowanie niejednoczesne Maskowanie niejednoczesne: - premaskowanie - (maskowanie wstecz, do kilkunastu milisekund) związane jest z szybszym przetwarzaniem przez układ słuchowy dźwięków głośniejszych. Zatem dźwięk późniejszy, ale głośniejszy może zamaskować dźwięk wcześniejszy ale cichszy. - postmaskowanie - (maskowanie wprzód, do kilkuset milisekund) związane jest z relaksacją neuronów i zależy od głośności i czasu trwania tonu maskującego. Niesłyszalne elementy sygnału koder może wyeliminować.

Format FLAC Free Lossless Audio Codec

FLAC FLAC kompresja bezstratna, kompresja rzędu 40-60 %, wykorzystywana liniową predykcję, tzn. wartość pojedynczej próbki dźwięku jest przewidywana na podstawie wartości kilku wcześniejszych próbek, zapisywana jest tylko różnica między wartością rzeczywistą a obliczoną (różnice mają zwykle niewielkie wartości), różnice kodowane kodem Rice a. Format FLAC pozwala zapisywać dźwięk o parametrach: rozdzielczość: 4-32 bity częstotliwość próbkowania: 1 Hz - 655350 Hz liczba kanałów: 1-8

Kod Rice a Niech d będzie pewną ustaloną liczbą naturalną, natomiast n będzie liczbę naturalną n, którą chcemy zakodować. Możemy jednoznacznie wskazać liczby naturalne q oraz r (r < 2 d ) takie, że n = q 2 d + r. (odpowiednio iloraz i reszta z dzielenia całkowitego n przez 2 d ) Kod Rice a liczby n konstruujemy następująco: wypisujemy q zer, potem jedynkę, a na końcu zwyczajny zapis binarny liczby r, na który potrzebujemy d bitów. Przy ustalonym d im liczba większa tym dłuższy ma zapis. Niech d = 3 i n = 13. Wtedy n = 1 2 3 + 5, zatem kod to 01101. FLAC dopuszcza stosowanie parametru d z zakresu 0-16. Kompresor dobiera do kompresowanego dźwięku optymalny parametr.

Format MP3 MPEG Audio Layer-3

MP3 - cechy ogólne Ten format wykorzystuje kodowanie perceptualne. Prędkości transmisji dostępne w MP3 od 8-320 kb/s Tryby: - CBR - stały bitrate. Każda sekunda takiego pliku zapisywana była jako paczka danych o dokładnie tej samej wielkości. - VBR, - zmienny bitrate. W tym trybie ilości danych koniecznych do skompresowania danego fragmentu utworu dopasowywana jest dynamicznie przez koder. Stosuje się rozbicie na podpasma poprzez 32 filtry. Podpasma uzyskane z banku filtrów przekształcane są zmodyfikowaną transformatą kosinusową (Modified Discrete Cosine Transform - MDCT). MDCT generuje 18 współczynników dla każdego podpasma, czyli 32 18 = 576 współczynników.

Tryby pracy kodeka MP3 dla sygnału stereo Podstawowe: - dual channel zapis jako dwa odrębne kanały monofoniczne; - stereo (stereo mode 0) każda ramka zapisywana jest algorytmem left/right stereo; - joint stereo (stereo mode 1) dla każdej ramki wybierany jest najlepszy algorytm kompresji.

Algorytmy kompresji kodeka MP3 dla sygnału stereo - left/right stereo (simple stereo, independent channel) kanał prawy i lewy jest kodowany niezależnie, może jednak zmieniać się liczba bitów przeznaczonych na każdy z kanałów. Korzystny dla ramek danych, w których oba kanały różnią się w dużym stopniu; - middle/side stereo sygnał stereo kodowany jest w postaci pary wartości oznaczających sumę (L+R) oraz różnicę (L-R) kanałów. Korzystny dla ramek, w których oba kanały przyjmują podobne wartości; - intensity stereo w którym sygnał stereo dla niektórych (głównie wysokich) częstotliwości kodowany jest monofonicznie wartość uzupełniona o wektor określający kierunek, z którego dochodzi dźwięk. W praktyce stosowany tylko przy niskiej przepływności, poniżej 80 kbps.

Schemat kodera MP3

Analiza i synteza mowy

Zastosowania rozpoznawanie mowy, dyktowanie, sterowanie maszynami, komunikacja z komputerem, ułatwienia dla głuchych, synteza mowy (ułatwienia dla niewidomych), rozpoznawanie i weryfikacja mówcy: kryminalistyka, autoryzacja, poprawa jakości sygnału: usuwanie echa, szumów, trzasków, systemy dialogowe, IVR (Interactive Voice Response)

Analiza mowy Jedną z technik stosowanych w rozpoznawaniu mowy jest metoda dynamicznego dopasowania czasowego DTW (Dynamic Time Warping). Algorytm ten mierzy podobieństwo sygnału (np. słowa) do wzorców bazowych, poprzez nieliniowe przekształcenie w czasie, tak aby dopasować sygnał do wzorców bazowych. Niweluje wpływ różnic prędkości wypowiedzi.

Synteza mowy 1 Najstarszą metodą analizy i syntezy mowy jest wokoder. Stosuje się dwa rodzaje sygnałów nośnych: okresową i szumową odpowiednio dla głosek dźwięcznych i bezdźwięcznych. Parametrami takiej syntezy są: częstotliwość podstawowa, przebieg zmian amplitudy, parametry filtrów pasmowo-przepustowych modyfikujących sygnał nośny. Generowana mowa brzmi bardzo sztucznie, ale jest zrozumiała. 2 Synteza fonemowa jest techniką polegającą na budowaniu dźwięku według wzorów opisujących poszczególne fonemy. Uzyskany dźwięk ma dość nienaturalne brzmienie. Metoda ta zakłada, że każda głoska ma określone cechy artykulacyjne które można interpretować jak zmieniające się w czasie obwiednie widma sygnału. Stosowana w przypadku syntezatora posiadającego wyraźne ograniczenia pamięciowe.

Synteza mowy 3 Synteza konkatenacyjna - wykorzystuje fragmenty mowy (np. difony - przejścia pomiędzy fonemami) nagrane wcześniej przez lektora (wyselekcjonowane z naturalnego głosu). Program łączy je tworząc właściwą wypowiedź, modyfikując wysokości i czasy trwania poszczególnych fragmentów zależnie od prozodii (akcentu, intonacji i iloczasu - zróżnicowania czasu samogłosek długich i krótkich). Ta synteza wymaga bazy nagranych próbek głosu. Dodatkowo stosuje się selekcję segmentów (unit selection technique) polegającą na wyszukiwaniu w bazie najdłuższego łańcucha, który można wpasować w określony fragment tekstu.

Koniec