WPŁYW PRÓBKOWANIA I KWANTYZACJI NA JAKOŚĆ DŹWIĘKU

KATEDRA SYSTEMÓW MULTIMEDIALNYCH LABORATORIUM PRZETWARZANIA DŹWIĘKÓW I OBRAZÓW Ćwiczenie nr : WPŁYW PRÓBKOWANIA I KWANTYZACJI NA JAKOŚĆ DŹWIĘKU Opracowanie: mgr Marek Szczerba mgr inż. Piotr Odya mgr inż. Dariusz Tkaczuk. Wprowadzenie Rozwój systemów komputerowych umożliwił zastosowanie komputerów do cyfrowego zapisu i edycji dźwięku. Podstawowym problemem przy cyfrowej rejestracji sygnałów jest wybór szybkości próbkowania, formatu danych (liniowy PCM, kodery) i rozdzielczości bitowej zapisu. Wybór powyższych parametrów jest zdeterminowany następującymi czynnikami: jakość sygnału, oszczędność w wykorzystaniu pamięci masowej, możliwość zapisu sygnału w czasie rzeczywistym (szczególnie dotyczy to starszych systemów o niewielkiej mocy obliczeniowej), kompatybilność formatu zapisu. W praktyce wybór formatu cyfrowej rejestracji sygnału jest najczęściej kompromisem pomiędzy jakością sygnału, a oszczędnością w wykorzystaniu pamięci masowej. W związku z opracowywaniem metod akwizycji i przechowywania danych dźwiękowych przez wielu producentów sprzętu komputerowego i oprogramowania równocześnie, powstało wiele różnych formatów plików dźwiękowych. Obecnie można obserwować dążenie do unifikacji standardów i umożliwienia konwersji formatów. Problem konwersji formatów plików dźwiękowych należy generalnie podzielić na dwa zasadnicze zagadnienia: problem konwersji formatów cyfrowego zapisu sygnału (konwersja szybkości próbkowania, sposobu kodowania, liczby kanałów i rozdzielczości bitowej), problem konwersji typów plików dźwiękowych (konwersja formatu zapisu danych w pliku).. Konwersja szybkości próbkowania W cyfrowych systemach fonicznych wykorzystuje się wiele różnych szybkości próbkowania. Najczęściej spotykane szybkości próbkowania przedstawiono w Tab..

Tab.. Szybkości próbkowania stosowane w cyfrowych systemach fonicznych. Szybkość próbkowania Opis (Hz) 5500 050/ (Macintosh) lub 00/ 7333 050/3 lub 00/6 000 standard telefoniczny do kodowania -law a-law 0.053 standard NeXT - używany z kodekiem Telco 05 050/ 6000 standard telefoniczny G.7 lub 3000/ 63 6 0 676. standard NTSC TV = 759090.5/( ) 900 standard CD-ROM/XA 050 standard Macintosh lub CD/ 5.55 standard złącza monitora komputera Macintosh k 3000 DAB (Digital Audio Broadcasting), NICAM (Nearly- Instantaneous Companded Audio Multiplex) [IBA, BREMA, BBC] i inne systemy TV, R-DAT LP oraz HDTV 376 3 0 3700 High quality CD-ROM/XA 056 szybkość próbkowania używana w sprzęcie profesjonalnym, kompatybilny ze standardem NTSC 00 CD audio, najbardziej rozpowszechniona szybkość próbkowania w aplikacjach profesjonalnych i domowych 000 R-DAT, DVD-video 95 0 >50000 Wyższe szybkości próbkowania używane są niekiedy w profesjonalnych systemach cyfrowego przetwarzania sygnałów. 96000, 9000 High resolution R-DAT, DVD-audio Konwersja szybkości próbkowania wymaga przeprowadzenia dwuetapowej procedury. Pierwszym etapem jest wygenerowanie dodatkowych próbek na podstawie próbek istniejących. Operacja taka nazywana jest nadpróbkowaniem. Następnie usuwane są próbki nadmiarowe. Na rys.. przedstawiono poglądowo istotę działania algorytmu konwersji szybkości próbkowania. Szybkość nadpróbkowania powinna być najmniejszą, wspólną wielokrotnością źródłowej i docelowej Input sampling rate Compute intermediate samples (oversampling) Output sampling rate Rys.. Działanie algorytmu konwersji szybkości próbkowania szybkości próbkowania. Przykładowe relacje algebraiczne pomiędzy najczęściej stosowanymi szybkościami próbkowania przedstawiono na rys..

000/00.056 30/. 000/00 3.0 7.5 0/63 63/6 50..0 000/00 6/5 50.0 /5 50.39 5 MHz Rys.. Relacje algebraiczne pomiędzy najczęściej stosowanymi szybkościami próbkowania. Dodatkowe próbki generowane są przy użyciu różnego typu algorytmów interpolacyjnych. W zależności od oczekiwanej jakości procedury nadpróbkowania jak i możliwości systemowych stosuje się zarówno najprostsze metody interpolacji liniowej w prostych systemach powszechnego użytku, jak i np. interpolacje wielomianowe wysokiego rzędu w zastosowaniach profesjonalnych i w zaawansowanych systemach komputerowej obróbki sygnałów. Decymacja, czyli wybranie co M-tej próbki z sygnału, realizowana jest zgodnie ze wzorem: y[ n] x ( ntm ) x ( nt ) a M j( T k ) M k 0 jt M Y( e ) X ( e ) gdzie: T wejściowy okres próbkowania, T docelowy okres próbkowania, M T T współczynnik (krotność) decymacji. W celu zapobieżenia aliasingowi decymowany sygnał nie może zawierać częstotliwości wyższych niż połowa docelowej szybkości próbkowania, zgodnie ze wzorem: T F N. Y jt jt ( e M M T a T ) X ( e M ) X ( j) X ( j) dla a a T T Wymaga to, aby sygnał x a (t) poddać filtracji dolnoprzepustowej z częstotliwością odcięcia T. Należy zauważyć, że sygnał wyjściowy może nie zawierać żadnych próbek z sygnału wejściowego; wszystkie próbki mogą zostać wygenerowane przez procedurę przepróbkowania.

3. Konwersja sposobu kodowania Najprostszym i najbardziej rozpowszechnionym sposobem kodowania sygnału fonicznego jest kodowanie PCM (Pulse Code Modulation). Zaletą tego systemu jest możliwość uzyskania wysokiej jakości sygnału (równoważna z jakością płyty CD) i prostota procedury kodowania. Wadą natomiast są bardzo duże rozmiary plików (np. przy zapisie z jakością CD - 7600 bajtów na sekundę!). Bardziej zaawansowane metody kodowania pozwalają na oszczędny zapis sygnału fonicznego. Jest to niezwykle istotne zwłaszcza przy transmisji sygnałów audio, a przede wszystkim mowy, w sieciach IP. Kodeki kompandorowe. Podstawą działania kodeków kompandorowych jest zastosowanie zmiennej rozdzielczości kodowania względem amplitudy sygnału. Stosowana jest relatywnie większa rozdzielczość zapisu przy małych amplitudach sygnału, natomiast mniejsza w przy większych amplitudach. Najbardziej rozpowszechnionymi kodekami kompandorowymi są kodeki -law (standard amerykańsko japoński) i A-law (standard europejski). ADPCM - Adaptive Differential PCM. Podstawą funkcjonowania koderów ADPCM jest właściwość quasi-okresowości sygnałów akustycznych. Stosowana jest zatem predykcja wartości kolejnej próbki na podstawie znanych próbek poprzednich. Jeśli predykcje są zgodne z rzeczywistymi wartościami próbek, wykres różnic pomiędzy wartościami predykcji i wartościami rzeczywistych próbek będzie znacznie bardziej płaski niż wykres fali. Opisana technika zapisu różnic nazywana jest DPCM (Differential Pulse Code Modulation). Różnice te będą nawet mniejsze, jeśli predyktor będzie adaptywny - będzie przystosowywał sposób predykcji do indywidualnej charakterystyki kodowanego sygnału. Kodeki źródła tworzą model generatora dźwięku i dokonują rekonstrukcji sygnału na podstawie tego modelu. Najbardziej powszechnymi kodekami źródła są wokodery (voice coder), stworzone do transmisji sygnału mowy. Używane są dwa podstawowe modele sygnału: dźwięczny i bezdźwięczny (pobudzenie tonowe i szumowe). Dzięki przekazywaniu wyłącznie niewielkiego zbioru cech dystynktywnych wokodery pozwalają na przekazanie sygnału w bardzo małym pliku. Wadą kodeków źródła jest przydatność jedynie do kodowania określonego typu sygnałów. Nie nadają się do kodowania sygnałów złożonych (np. muzyki). Kodeki hybrydowe łączą w sobie cechy kodeków falowych i kodeków źródła. Najbardziej rozpowszechnionymi kodekami hybrydowymi są kodeki AbS (Analysis-by-Synthesis). W procesie kodowania AbS dokonywany jest w fazie początkowej podział sygnału na ramki. Dla każdej kolejnej ramki budowany jest odpowiedni model źródła (tak jak w przypadku wokoderów). Następnie koder sprawdza zachowanie modelu źródła przy różnych sposobach pobudzenia układu. Po porównaniu z sygnałem źródłowym wybierany jest najodpowiedniejszy sposób pobudzenia. W celu dokonania konwersji sposobu kodowania sygnału fonicznego stosuje się zasadniczo rozkodowanie do formatu PCM, a następnie kodowanie do formatu docelowego. Taka procedura pozwala na wykorzystanie istniejących kodeków.. Konwersja rozdzielczości bitowej i liczby kanałów Do konwersji rozdzielczości bitowej cyfrowego sygnału fonicznego mogą być wykorzystywane proste algorytmy uśredniające i interpolacyjne. Niektóre konwertery pozwalają na normalizację amplitudy sygnału względem próbki o największej amplitudzie przy konwersji na niższą rozdzielczość bitową. Umożliwia to maksymalne wysterowanie kwantyzatora, a tym samym na wykorzystaniem maksymalnej dynamiki formatu. Istnieją bardziej zaawansowane konwertery, pozwalające na kształtowanie widma szumu (ang. noiseshaping). Technika ta jest stosowana w połączeniu z techniką ditheringu. Polega ona na wykorzystaniu szumu addytywnego (dither), powodującego nieznaczne podniesienie podłogi szumowej sygnału (noise floor) przy jednoczesnym ograniczeniu zniekształceń harmonicznych sygnału i ograniczeniu zjawiska głuchoty cyfrowej (digital deafness). Dokonuje się odpowiedniego ukształtowania widma szumu dithera, mającego na celu jego przeniesienie w możliwie najmniej słyszalną część pasma (np. maskowaną zarejestrowanym sygnałem). Technika noise-shaping znalazła szerokie zastosowanie przy masteringu nagrań cyfrowych. Pozwala ona na optymalizację wykorzystania techniki 0 i -bitowej przy przejściu na format CD (6 bitów).

Konwersja liczby kanałów dokonywana jest najczęściej przez proste uśrednienie wartości sygnału w łączonych kanałach. Niektóre konwertery dopuszczają możliwość ustalenia balansu kanałów przy konwersji. Przy zwiększeniu liczby kanałów z reguły dokonuje się prostego powielenia sygnałów w kanałach. 5. Narzędzia do konwersji formatów plików dźwiękowych Na rynku oprogramowania istnieje wiele narzędzi umożliwiających konwersję formatów plików dźwiękowych. W przebiegu ćwiczenia przewiduje się użycie aplikacji Adobe Audition i środowiska Matlab. Aplikacja Adobe Audition pozwala na wszechstronną konwersję formatów i typów plików dźwiękowych. Konwersję formatu sygnału cyfrowego można dokonać z okna dialogowego Convert Sample Type (rys. 3) z menu Edit. Rys. 3. Okno dialogowe Convert Sample Type aplikacji Adobe Audition. Na uwagę zasługuje możliwość zastosowania filtru antyaliasingowego (Pre/post filter), oraz możliwość wyboru dokładności algorytmu interpolacji (Quality). Aplikacja ta pozwala także na wykorzystanie szumu addytywnego (dither) i algorytmu kształtowania widma szumu (noise shaping) przy konwersji z formatu do mniejszej rozdzielczości bitowej. Możliwe jest ustawienie poziomu szumu dither względem LSB (poziomu najmłodszego bitu) oraz wybór algorytmu kształtowania widma szumu. 6. Obiektywne miary zniekształceń sygnału 6. Stosunek sygnału do szumu, SNR W wyniku kwantyzacji sygnał w ogólnym przypadku (a w praktyce zawsze) będzie się różnił od sygnału oryginalnego. Różnicę obu sygnałów nazywamy błędem kwantyzacji lub częściej szumem kwantyzacji i wyrażamy wzorem: e[ n] xq [ n] x[ n]. Przekształcając powyższy wzór do postaci: x Q [ n] x[ n] e[ n], otrzymujemy prostą interpretację sygnału skwantowanego. Jest to bowiem sygnał, w którym występuje sygnał użyteczny x[n] oraz szum kwantyzacji e[n].

Należy zdawać sobie sprawę z tego, że proces kwantyzacji, a więc dyskretyzacji wartości, zachodzi nie tylko przy przekształcaniu sygnału analogowego do postaci cyfrowej, ale również w wyniku obecnych w obróbce numerycznej operacji zaokrągleń. Na wielkość błędu decydujący wpływ ma stosowana arytmetyka oraz rodzaj wykonywanych operacji. Na przykład przy stosowaniu wyłącznie liczb całkowitych sumowanie, odejmowanie i mnożenie są operacjami nie prowadzącymi do powstania błędów zaokrągleń, podczas gdy stosowanie arytmetyki zmiennoprzecinkowej, zwłaszcza o pojedynczej precyzji (liczby czterobajtowe), dla tych samych operacji może prowadzić do błędów. W ogólnym przypadku lepiej jest jednak stosować liczby zmiennoprzecinkowe, przede wszystkim z tego względu, że większość algorytmów, funktorów i operatorów używa liczb niecałkowitych (na przykład jako współczynników filtrów). Miarą zaszumienia sygnału spowodowanego kwantyzacją jest, wyrażony w decybelach, stosunek energii sygnału użytecznego x[n] do energii szumu kwantyzacji e[n]: x [ n] L SNR 0 log [db], e [ k] gdzie L długość sygnałów. 6. Współczynnik zniekształcenia aliasingowego, AF Jako miarę stopnia zniekształcenia AF widma przyjęto tu stosunek energii sygnału zawartej w paśmie powyżej częstotliwości Nyquista F S / do całkowitej energii sygnału (bez składowej stałej): L N / X [ k] k N / M AF 00 [%], N / X [ k] gdzie X[k] k-ta próbka dyskretnej transformaty Fouriera sygnału przed decymacją. k 6.3 Współczynnik zawartości harmonicznych, THD Stopień zniekształcenia sygnału, polegającego na pojawieniu się w nim harmonicznych zdefiniowano następująco: gdzie: X energia pierwszej harmonicznej, k X k THD 00 [%] X X k energia k-tej harmonicznej, k =, 3,... W skrajnym przypadku, dla kwantyzatora jednobitowego, sygnał sinusoidalny zamieniany jest w falę prostokątną. Przy założeniu, że kwantyzator działa jak komparator porównujący wartość wejściową z zerem (czyli zwraca, gdy jest ona nieujemna, i gdy jest ujemna), fala prostokątna ma wypełnienie 50 %, a w jej widmie nie występują parzyste harmoniczne. Wówczas współczynnik THD jest równy: THD 00 3 5 7 9 3 %

Ćw. Wykonujący: PRZETWARZANIE DŹWIĘKÓW I OBRAZÓW Wpływ próbkowania i kwantyzacji na jakość dźwięku Ocena: Specjalność: Data wykonania: Data oddania sprawozdania: 7. Zadania 7. Część pierwsza zmiana rozdzielczości bitowej Korzystając z aplikacji Adobe Audition utworzyć nowy plik monofoniczny z następującymi ustawieniami: szybkość próbkowania, khz, rozdzielczość 6 bitów. Wygenerować sinusoidy o częstotliwościach: a) khz; b) 0 khz, długości s i maksymalnej amplitudzie (Generate Tones). Zapisać sygnały do osobnych plików w formacie Windows PCM ( pliki). Powyższe sygnały oraz przygotowane fragmenty muzyki przekonwertować do rozdzielczości bitowej: bitów i bity bez dithera, z ditherem o trójkątnym rozkładzie prawdopodobieństwa i głębokością bitową oraz z noise shapingiem A (szum kształtowany krzywą słyszenia A) (Edit Convert Sample Type). Wyniki zapisać na dysku (6 plików na każdy z sygnałów wejściowych/oryginalnych). Uwaga! Nie zmieniać amplitudy żadnego z sygnałów! Po odsłuchaniu wszystkich próbek dźwiękowych dokonać ich subiektywnej oceny. Zaobserwować widma próbek dźwiękowych (Window Frequency Analysis). Czym się różnią widma bez dithera, z ditherem i z noise shapingiem?

Korzystając ze skryptu Matlaba kwantyzacja.m, zbadać zależność SNR od rozdzielczości bitowej. Funkcję wywołujemy w następujący sposób: [SNR,h] = kwantyzacja( nazwa_pliku_oryginalnego, nazwa_pliku_po_kwantyzacji ); khz Liczba bitów SNR [db] Brak dithera Dither Noise shaping 0 khz Fragment muzyki () Zbadać zależność zawartości harmonicznych od rozdzielczości bitowej. khz Liczba bitów THD [%] Brak dithera Dither Noise shaping 0 khz Jakie zjawisko wystąpiło w przypadku przekroczenia przez kolejne harmoniczne połowy szybkości próbkowania? W jaki sposób na jakość dźwięku wpływa liczba bitów, obecność dithera i noise shaping? Co by się stało, gdybyśmy w czasie nagrania wykorzystali tylko połowę dynamiki kwantyzatora?

7. Część druga zmiana szybkości próbkowania Wygenerować i zapisać do pliku falę prostokątną i falę trójkątną o częstotliwości 30 Hz (rozdzielczość 6 bitów, F S =, khz). Korzystając ze skryptu decymacja.m, przekonwertować oryginalne próbki dźwiękowe (wygenerowane przebiegi oraz fragment(y) muzyki) do szybkości próbkowania F S / (współczynnik decymacji ) i F S / (współczynnik decymacji równy ) z wyłączoną i włączoną filtracją antyaliasingową. Dokonać odsłuchu sygnałów (funkcja Matlaba sound(x,fs) i sound(y,fs)) oraz zaobserwować ich widma. Skrypt uruchamiamy następującym poleceniem: [x,y,m,fs] = decymacja( nazwa_pliku, M, Filtr); Wejście: M krotność decymacji Filtr włączony () lub wyłączony (0) filtr Nyquista Wyjście: x wczytany ciąg próbek, y wyjściowy (zdecymowany) ciąg próbek, Fs szybkość próbkowania. Podać w tabeli zmierzone wartości AF: Decymacja khz 0 khz Fala prostokątna 30 Hz Fala trójkątna 30 Hz M= bez filtracji M= z filtracją AF [%] M= bez filtracji M= z filtracją Fragment muzyki () Fragment muzyki () Jakie zjawisko zaszło w przypadku decymacji sygnału? Jak filtracja dolnoprzepustowa, poprzedzająca decymację, wpłynęła na widmo sygnału i jakość dźwięku? 7.3 Podsumowanie