Matematyka i informatyka może i trudne, ale nie nudne Wykład 6 Komputerowe modelowanie ludzkiego słuchu w kompresji dźwięku prelegent: mgr inż Krzysztof Popowski 23 wrzesień 2009
Plan wykładu Podstawowe definicje: dźwięk, kompresja dźwięku (bezstratna, stratna), Metody bezstratnej i stratnej kompresji dźwięku, Ludzkie ucho i psychoakustyka, Modelowanie ludzkiego słuchu (model Johnstona) w kompresji mp3, Podsumowanie
Dźwięk Drgania, które ucho ludzkie odbiera jako zmiany ciśnienia powietrza wywierane na bębenki, Kształt falowy, który jest wykresem funkcji zmiany napięcia od czasu, Najbardziej elementarnym kształtem fali jest sinusoida, Człowiek posiada zdolność słyszenia dźwięków w zakresie pasma częstotliwości od 20 Hz do 20 khz
Fala dźwiękowa - przykład
Rodzaje kompresji Kompresja bezstratna wymagamy, aby rekonstrukcja Y i dane oryginalne X były identyczne podstawy: teoria informacji (entropie), modele (fizyczne, probabilistyczne, Markowa, mieszane), kodowanie (np Huffmana, arytmetyczne, słownikowe, predykcyjne) Kompresja stratna zazwyczaj pozwala na większą kompresję niż kompresja bezstratna, dopuszcza się tutaj, aby Y i X były różne podstawy: kryteria oceny zniekształceń, modele, kwantyzacja, kodowanie
Bezstratne systemy kompresji dźwięku FLAC - Free Lossless Audio Codec pliki zawierają pełną oryginalną informację w innej reprezentacji zoptymalizowany do kompresji sygnałów audio współczynnik kompresji: max ok 15 Monkey s Audio APE MPEG-4 ALS - Audio Lossless Coding
Stratne systemy kompresji dźwięku (1) MPEG-1 (1992) trzy warstwy o rosnącej złożoności, opóźnieniu i jakości sygnału wyjściowego każda wyższa warstwa zawiera w sobie bloki funkcjonalne z warstw niższych
Stratne systemy kompresji dźwięku (2) MPEG-2 (1994) podstawowy system dla aktualnie używanej telewizji cyfrowej (DVB) i DVD, początkowo miał być standardem kompresji audio Koder dźwięku: AAC ang Advanced Audio Coding - zaprojektowany został jako następca MP3, oferujący lepszą jakość dźwięku przy podobnym rozmiarze danych MPEG-3 zamysł standardu przewidywał kompresję obrazu przeznaczoną dla HDTV (High Definition Television), jednak naukowcy doszli do wniosku, iż korzystniejsze będzie jego dołączenie do standardu MPEG-2
Stratne systemy kompresji dźwięku (3) MPEG-4 Zbiór kodeków kompresji dla kodowania percepcyjnego sygnałów wraz z pewnymi wariantami kodowania Advanced Audio Coding (AAC), jak i innymi narzędziami kodowania audio/mowy HE-AAC (ang High Efficiency-AAC) - kombinacją trzech technologii kodowania: Advanced Audio Coding (AAC), Spectral Band Replication (SBR) oraz Parametric Stereo (PS) MPEG-7, MPEG-21
Stratne systemy kompresji dźwięku (4) Ogg Vorbis (1998) ideą było stworzenie wysokiej jakości kodera audio, wolnego od warunków, licencji, patentów oraz tantiem konkurencja dla AAC, reakcja na trwającą komercjalizacje MP3 i inne, objęte licencjami kodery audio Musepack (MPC) (1997) autor: Andree Buschmann nie był zadowolony z marnej jakości dźwięku, oferowanej przez pliki MP3 TwinVQ (ang Transform-domain Weighted Interleave Vector Qunatization) opracowany w laboratoriach Nippon Telegraph and Telephone Corporation (NTT) w Japonii
Psychoakustyka jeden z działów psychofizyki, zajmuje się badaniem relacji pomiędzy fizyczną charakterystyką dźwięków, a wywoływanymi przez nie wrażeniami słuchowymi, proces powstawania wrażeń słuchowych jest bardzo skomplikowany i wbrew pozorom nie dotyczy tylko odbierania fal akustycznych przez odpowiednio zbudowane uszy człowieka
Ucho człowieka a włoski b - przewód słuchowy zewnętrzny c błona bębenkowa d trąbka Eustachiusza e jama bębenkowa f ślimak g kanały półkoliste h strzemiączko i kowadełko j - młoteczek
Ślimak najważniejszy element ucha wewnętrznego, wzdłuż ślimaka biegną dwie błony, dzielące go na trzy wypełnione cieczą kanały, jedna z tych błon nosi nazwę błony podstawnej i ciągnie się od okienka owalnego do wierzchołka ślimaka
Błona podstawna w miarę oddalania się od początku ślimaka jej szerokość jest coraz większa, a twardość zwiększa się nawet o 100 razy, najważniejsze narzędzie przetwarzające drgania, stanowi przybliżony analizator Fouriera, który konwertuje częstotliwości dźwięku na wychylenie błony w odpowiednim miejscu
Sygnał nieistotny nie jest słyszany nawet przez dobrze przygotowanego lub wrażliwego słuchacza, jest rozpoznawany podczas analizy sygnału w koderze dźwięku poprzez zastosowanie szeregu reguł psychoakustyki: próg absolutnego słyszenia, analiza częstotliwościowa pasm krytycznych, maskowanie równoczesne, maskowania na błonie podstawnej, maskowanie czasowe
Model psychoakustyczny Na podstawie modelu określa się dopuszczalny szum kwantyzacji (błąd kwantyzacji) danej składowej częstotliwości w danym momencie czasu, niektóre składowe częstotliwościowe mogą być odrzucone w całości, gdyż i tak nie docierają do świadomości odbiorcy, inne składowe mogą być zakodowane z małą dokładnością, gdyż błąd/szum kwantyzacji jest poniżej progu percepcji ludzkiego słyszenia
Model Johnstona zaproponowany w 1988 roku przez Jamesa Johnstona pracownika firmy Bell Labs 1 Sygnał dzielony jest na okna czasowe i transformowany w dziedzinę częstotliwości 2 Wyznaczane są progi maskowania w poszczególnych pasmach częstotliwości 3 Obliczana jest liczba bitów potrzebnych do kwantyzacji, która nie spowoduje dodania słyszalnego szumu kwantyzacji do kompresowanej próbki sygnału audio
Czas w częstotliwość obecnie najczęściej, przetwarza się dane wejściowe dzielone są na ramki długości 1024 próbek (ok 23ms) (rys lewy) okienkowanie ramek wejściowych - przemnożenie kolejnych próbek przez współczynniki okna np Hamminga - redukuje przecieki transformaty 2048-punktowa szybka transformata Fouriera (FFT) zespolone komponenty spektrum sygnału przekształcane są w komponenty spektrum mocy (rys prawy)
Pasma krytyczne (1) spektrum mocy jest uszeregowane w częstotliwości liniowej, natomiast systemy akustyczne odnoszą się do skali niemal logarytmicznej, spektrum mocy przenosi się do dziedziny pasm krytycznych, a następnie sumuje się energia składowych w każdym paśmie krytycznym wyznaczana jest moc w paśmie krytycznym bh B i = P(ω) i ω= bl i
Pasma krytyczne (2) koncepcja zaproponowana przez Fletchera w 1940 roku, Fletcher założył, że błonę podstawną można traktować jako układ filtrów pasmowoprzepustowych o zmieniających się w ciągły sposób częstotliwościach środkowych, tak aby odpowiadały one wszystkim częstotliwościom słyszalnym, Skale pasm krytycznych: Bark, ERB
Skala Bark szerokość pasma wzrasta wraz ze wzrostem analizowanych częstotliwości szerokość pasm krytycznych poniżej 500 Hz wynosi około 100 Hz, a powyżej 500 Hz szerokość pasm krytycznych to 20% częstotliwości środkowej pasma, Jednostką tej skali jest Bark, ku pamięci naukowca Barkhausena, który wprowadził jednostkę głośności fon
Granice skali Bark
Rozkład energii wzdłuż błony podstawnej aby obliczyć przybliżony próg maskowania w odniesieniu do pasm krytycznych, wykorzystuje się funkcję rozkładu energii wzdłuż błony podstawnej (spreading function) wykonuje się to, ponieważ wychylenie błony podstawnej w pojedynczym paśmie krytycznym wpływa na sąsiednie pasma
Spektrum pasm krytycznych otrzymuje się je na bazie splotu funkcji rozkładu energii z rozkładem mocy w pasmach krytycznych: = 25 3 2 1 25,25 25,3 25,2 25,1 3,25 3,3 3,2 3,1 2,25 2,3 2,2 2,1 1,25 1,3 1,2 1,1 25 2 1 B B B B S S S S S S S S S S S S S S S S C C C Działanie realizowane w ramach projektu
Maskowanie jeden z elementarnych efektów akustycznych, zjawisko, w którym próg słyszalności jednego dźwięku wzrasta na skutek obecności innego dźwięku, zwanego maskerem, miarą maskowania jest wzrost progu słyszalności jednego dźwięku w obecności maskera mierzony w db, inaczej mówiąc maskowanie to proces, w którym jeden dźwięk staje się niesłyszalny z powodu obecności innego dźwięku
Maskowanie równoczesne przy równoczesnej ekspozycji dwóch tonów ton głośniejszy maskuje ton o mniejszej intensywności i przez co staje się on niesłyszalny o tym czy następuje maskowanie i który z tonów jest maskującym, a który maskowanym decyduje widmo częstotliwościowe sygnału
Maskowanie równoczesne - szum-maskuje-ton (NMT) wąskie pasmo szumu (np mające szerokość jednego Barka) maskuje ton w tym samym paśmie krytycznym, pod warunkiem, że intensywność maskowanego tonu znajduje się poniżej przewidywalnego progu próg ten związany jest bezpośrednio z intensywnością i częstotliwością środkową maskującego szumu
Maskowanie równoczesne - ton-maskuje-szum (TMN) Czysty ton występujący w środku pasma krytycznego maskuje szum o częstotliwości w tym samym paśmie, pod warunkiem, że widmo szumu znajduje się poniżej przewidywalnego progu maskowania, związanego z intensywnością i częstotliwością maskującego tonu
Ton czy szum? Próg maskowania dla szumu maskowanego przez ton wynosi 14,5 +i db poniżej C i Próg maskowania dla tonu maskowanego przez szum wynosi 5,5 db poniżej C i Aby określić czy sygnał jest tonem, czy szumem, Johnston zastosował parametr określający widmowy charakter sygnału - SFM (Spectral Flatness Measure)
Miara płaskości widma Do jego wyliczenia stosuje się geometryczną i arytmetyczną średnią spektrum mocy: SFM db GM = 10log = 10 log10 10 AM N 1 log = ( P n ) 10 ( GM ) log10 ( ) N n= 1 N 1 log = 10 ( AM ) log10 P( n) N n= 1 [ ( GM ) log ( )] 10 AM
Współczynnik totalności Powstaje on na bazie miary płaskości widma SFM db α = min, 1 SFM db(max) SFMdB(max) = -60 Współczynnik ten jest używany do wyznaczenia poziomów maskowania w każdym paśmie
Przesunięcie progu i przybliżony próg maskowania Przesunięcie progu maskowania (masking offset) od poziomu wychylenia błony podstawnej, dla i-tego pasma krytycznego wynosi: O i = α( 145 + i) + (1 α)55 ( db) Korekta spektrum pasm krytycznych o obliczone przesunięcie daje wynik w postaci przybliżonego progu maskowania (JND Just Noticeable Distortion): T i = 10 log 10 ( C i Oi ) 10
Normalizacja JND funkcja rozkładu energii wprowadza pewien błąd do obliczonego spektrum pasm krytycznych przeprowadzić mnożenie macierzowe wyników funkcji rozkładu energii i wektora jednostkowego, a następnie ustalić znormalizowany próg maskowania C 1 = S I T = T i, j i( norm) i CEi Ei
Próg absolutnego słyszenia charakteryzuje się ilością energii, jaką zawiera czysty ton, który może być dostrzeżony przez odbiorcę w cichym środowisku Zależność tego poziomu od częstotliwości zastała określona około roku 1940 Jest to poziom słyszenia reprezentatywny dla młodego słuchacza z wnikliwym słuchem Poniżej tej linii dźwięki nie są już przez człowieka słyszalne
Uwzględnienie progu słyszenia ATH absolutny próg słyszenia jest jednak określony w skali decybelowej obliczony próg należy sprowadzić do tej samej skali, gdyż tylko wówczas możliwa będzie korekta T rozmiar FFT i( norm) Ti ( db) = 10log10 ref = 16 ref 2 T, = i( fin) ( ) T ATH max i( db) i
Podsumowanie wszystkie komponenty widmowe znajdujące się poniżej finalnego progu słyszalności są niesłyszalne, mogą więc zostać usunięte bez odczuwalnych zmian w sygnale, do sygnału można dodać jakikolwiek komponent widmowy, bez spowodowania zmiany w sygnale słyszalnym, jeśli komponent ten jest mniejszy od finalnego progu słyszenia, dwa sygnały będą brzmieć identycznie, jeśli ich komponenty widmowe leżące powyżej finalnego progu słyszenia są identyczne
Matematyka i informatyka może i trudne, ale nie nudne Wykład 6 Komputerowe modelowanie ludzkiego słuchu w kompresji dźwięku prelegent: mgr inż Krzysztof Popowski 23 wrzesień 2009 Dziękuję za uwagę!