Komputerowe modelowanie ludzkiego słuchu w kompresji dźwięku

Podobne dokumenty
Kompresja dźwięku w standardzie MPEG-1

Percepcja dźwięku. Narząd słuchu

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Przygotowała: prof. Bożena Kostek

Oddziaływanie hałasu na człowieka w środowisku pracy i życia, metody ograniczania. dr inż. Grzegorz Makarewicz

Opracował: Dominik Tyniw, PG pod kier. Prof.. A. Czyżewskiego

Ze względu na dużą rozpiętość mierzonych wartości ciśnienia (zakres ciśnień akustycznych obejmuje blisko siedem rzędów wartości: od 2x10 5 Pa do

Nauka o słyszeniu Wykład IV Głośność dźwięku

Neurobiologia na lekcjach informatyki? Percepcja barw i dźwięków oraz metody ich przetwarzania Dr Grzegorz Osiński Zakład Dydaktyki Fizyki IF UMK

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

Transformata Fouriera

Mapa akustyczna Torunia

Instrukcja do laboratorium z Fizyki Budowli. Temat laboratorium: CZĘSTOTLIWOŚĆ

Ponieważ zakres zmian ciśnień fal akustycznych odbieranych przez ucho ludzkie mieści się w przedziale od 2*10-5 Pa do 10 2 Pa,

Dźwięk podstawowe wiadomości technik informatyk

Nauka o słyszeniu. Wykład III +IV Wysokość+ Głośność dźwięku

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

1.Stosunek sygnału do szumu kwantyzacji dla n-bitowego kwantyzatora jest równy w przybliżeniu:

dr inż. Piotr Odya Parametry dźwięku zakres słyszanych przez człowieka częstotliwości: 20 Hz - 20 khz; 10 oktaw zakres dynamiki słuchu: 130 db

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

LABORATORIUM AUDIOLOGII I AUDIOMETRII

Technika audio część 2

Program wykładu. informatyka + 2

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Zmysł słuchu i równowagi

Podstawy Przetwarzania Sygnałów

Co to jest dźwięk. Dźwięk to wyrażenie słuchowe wywołane przez falę akustyczną. Ludzki narząd wyłapuje dźwięki z częstotliwością 16 do 20 Hz

PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających

Metody kodowania i przechowywania sygnałów dźwiękowych. Andrzej Majkowski Politechnika Warszawska amajk@ee.pw.edu.pl

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

voice to see with your ears

Podstawy elektroniki i akustyki

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Nauka o słyszeniu Wykład II System słuchowy

Przygotowali: Bartosz Szatan IIa Paweł Tokarczyk IIa

Ruch falowy. Parametry: Długość Częstotliwość Prędkość. Częstotliwość i częstość kołowa MICHAŁ MARZANTOWICZ

Wszechnica Popołudniowa: Multimedia, grafika i technologie internetowe Metody kodowania i przechowywania sygnałów dźwiękowych

Diagnostyka i protetyka słuchu i wzroku APARATY SŁUCHOWES

Wszechnica Popołudniowa: Multimedia, grafika i technologie internetowe Metody kodowania i przechowywania sygnałów dźwiękowych

Metodyka i system dopasowania protez słuchu w oparciu o badanie percepcji sygnału mowy w szumie

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Formaty - podziały. format pliku. format kompresji. format zapisu (nośnika) kontener dla danych WAV, AVI, BMP

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

Przekształcenie Fouriera i splot

Kompresja JPG obrazu sonarowego z uwzględnieniem założonego poziomu błędu

Autorzy: Tomasz Sokół Patryk Pawlos Klasa: IIa

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Podstawy transmisji multimedialnych podstawy kodowania dźwięku i obrazu Autor Wojciech Gumiński

Biologiczne mechanizmy zachowania - fizjologia. zajecia 6 :

Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy

ZASTOSOWANIE PSYCHOAKUSTYKI ORAZ AKUSTYKI ŚRODOWISKA W SYSTEMACH NAGŁOŚNIAJĄCYCH

Fale dźwiękowe. Jak człowiek ocenia natężenie bodźców słuchowych? dr inż. Romuald Kędzierski

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.

Kompresja Danych. Streszczenie Studia Dzienne Wykład 13, f(t) = c n e inω0t, T f(t)e inω 0t dt.

Modele systemu słuchowego buduje się ze względu na różne motywacje. Na przykład można mówić o modelach tworzonych dla potrzeb ochrony słuchu

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.

Dźwięk i słuch. Percepcja dźwięku oraz funkcjonowanie narządu słuchu

KOMPRESJA STRATNA DŹWIĘKU

Ćwiczenie 3. Właściwości przekształcenia Fouriera

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

Przetwarzanie analogowo-cyfrowe sygnałów

Wytwarzanie znaku wodnego w czasie rzeczywistym

Wprowadzenie do cyfrowej obróbki dźwięku

DŹWIĘK. Dźwięk analogowy - fala sinusoidalna. Dźwięk cyfrowy 1-bitowy 2 możliwe stany fala jest mocno zniekształcona

Wykład III: Kompresja danych. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Algorytmy detekcji częstotliwości podstawowej

Konwersja dźwięku analogowego do postaci cyfrowej

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)

Podstawy biofizyki zmysłu słuchu. Badanie progu pobudliwości ucha ludzkiego.

Dźwięk. Cechy dźwięku, natura światła

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów

Kodowanie transformujace. Kompresja danych. Tomasz Jurdziński. Wykład 11: Transformaty i JPEG

Widmo akustyczne radia DAB i FM, porównanie okien czasowych Leszek Gorzelnik

Demodulator FM. o~ ~ I I I I I~ V

Maskowanie równoczesne

PROGRAMOWANIE APLIKACJI MULTIMEDIALNYCH

LABORATORIUM POMIARY W AKUSTYCE. ĆWICZENIE NR 4 Pomiar współczynników pochłaniania i odbicia dźwięku oraz impedancji akustycznej metodą fali stojącej

Akustyka muzyczna ANALIZA DŹWIĘKÓW MUZYCZNYCH

Ochrona przeciwdźwiękowa (wykład ) Józef Kotus

ZROZUMIEĆ UBYTEK SŁUCHU

Psychoakustyka. Dźwięk zapisany w formie nieskompresowanej na przykład na CD zawiera więcej informacji niż jest w stanie przetworzyć ludzki mózg.

Wprowadzenie. Spis treści. Analiza_sygnałów_-_ćwiczenia/Filtry

l a b o r a t o r i u m a k u s t y k i

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

3GHz (opcja 6GHz) Cyfrowy Analizator Widma GA4063

Formaty kompresji audio

LABORATORIUM POMIARY W AKUSTYCE. ĆWICZENIE NR 14 Pomiar zniekształceń nielinearnych głośnika

Kompresja video (MPEG)

Laboratorium Elektronicznej Aparatury Medycznej I

LABORATORIUM AKUSTYKI MUZYCZNEJ. Ćw. nr 12. Analiza falkowa dźwięków instrumentów muzycznych. 1. PODSTAWY TEORETYCZNE ANALIZY FALKOWEJ.

WYZNACZANIE FILTRÓW SŁUCHOWYCH METODĄ SZUMU PRZESTRAJANEGO. Karolina Kluk,

Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L

3. Przetwarzanie analogowo-cyfrowe i cyfrowo-analogowe... 43

KARTA MODUŁU KSZTAŁCENIA

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

Zastowowanie transformacji Fouriera w cyfrowym przetwarzaniu sygnałów

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j

Systemy akwizycji i przesyłania informacji

Transkrypt:

Matematyka i informatyka może i trudne, ale nie nudne Wykład 6 Komputerowe modelowanie ludzkiego słuchu w kompresji dźwięku prelegent: mgr inż Krzysztof Popowski 23 wrzesień 2009

Plan wykładu Podstawowe definicje: dźwięk, kompresja dźwięku (bezstratna, stratna), Metody bezstratnej i stratnej kompresji dźwięku, Ludzkie ucho i psychoakustyka, Modelowanie ludzkiego słuchu (model Johnstona) w kompresji mp3, Podsumowanie

Dźwięk Drgania, które ucho ludzkie odbiera jako zmiany ciśnienia powietrza wywierane na bębenki, Kształt falowy, który jest wykresem funkcji zmiany napięcia od czasu, Najbardziej elementarnym kształtem fali jest sinusoida, Człowiek posiada zdolność słyszenia dźwięków w zakresie pasma częstotliwości od 20 Hz do 20 khz

Fala dźwiękowa - przykład

Rodzaje kompresji Kompresja bezstratna wymagamy, aby rekonstrukcja Y i dane oryginalne X były identyczne podstawy: teoria informacji (entropie), modele (fizyczne, probabilistyczne, Markowa, mieszane), kodowanie (np Huffmana, arytmetyczne, słownikowe, predykcyjne) Kompresja stratna zazwyczaj pozwala na większą kompresję niż kompresja bezstratna, dopuszcza się tutaj, aby Y i X były różne podstawy: kryteria oceny zniekształceń, modele, kwantyzacja, kodowanie

Bezstratne systemy kompresji dźwięku FLAC - Free Lossless Audio Codec pliki zawierają pełną oryginalną informację w innej reprezentacji zoptymalizowany do kompresji sygnałów audio współczynnik kompresji: max ok 15 Monkey s Audio APE MPEG-4 ALS - Audio Lossless Coding

Stratne systemy kompresji dźwięku (1) MPEG-1 (1992) trzy warstwy o rosnącej złożoności, opóźnieniu i jakości sygnału wyjściowego każda wyższa warstwa zawiera w sobie bloki funkcjonalne z warstw niższych

Stratne systemy kompresji dźwięku (2) MPEG-2 (1994) podstawowy system dla aktualnie używanej telewizji cyfrowej (DVB) i DVD, początkowo miał być standardem kompresji audio Koder dźwięku: AAC ang Advanced Audio Coding - zaprojektowany został jako następca MP3, oferujący lepszą jakość dźwięku przy podobnym rozmiarze danych MPEG-3 zamysł standardu przewidywał kompresję obrazu przeznaczoną dla HDTV (High Definition Television), jednak naukowcy doszli do wniosku, iż korzystniejsze będzie jego dołączenie do standardu MPEG-2

Stratne systemy kompresji dźwięku (3) MPEG-4 Zbiór kodeków kompresji dla kodowania percepcyjnego sygnałów wraz z pewnymi wariantami kodowania Advanced Audio Coding (AAC), jak i innymi narzędziami kodowania audio/mowy HE-AAC (ang High Efficiency-AAC) - kombinacją trzech technologii kodowania: Advanced Audio Coding (AAC), Spectral Band Replication (SBR) oraz Parametric Stereo (PS) MPEG-7, MPEG-21

Stratne systemy kompresji dźwięku (4) Ogg Vorbis (1998) ideą było stworzenie wysokiej jakości kodera audio, wolnego od warunków, licencji, patentów oraz tantiem konkurencja dla AAC, reakcja na trwającą komercjalizacje MP3 i inne, objęte licencjami kodery audio Musepack (MPC) (1997) autor: Andree Buschmann nie był zadowolony z marnej jakości dźwięku, oferowanej przez pliki MP3 TwinVQ (ang Transform-domain Weighted Interleave Vector Qunatization) opracowany w laboratoriach Nippon Telegraph and Telephone Corporation (NTT) w Japonii

Psychoakustyka jeden z działów psychofizyki, zajmuje się badaniem relacji pomiędzy fizyczną charakterystyką dźwięków, a wywoływanymi przez nie wrażeniami słuchowymi, proces powstawania wrażeń słuchowych jest bardzo skomplikowany i wbrew pozorom nie dotyczy tylko odbierania fal akustycznych przez odpowiednio zbudowane uszy człowieka

Ucho człowieka a włoski b - przewód słuchowy zewnętrzny c błona bębenkowa d trąbka Eustachiusza e jama bębenkowa f ślimak g kanały półkoliste h strzemiączko i kowadełko j - młoteczek

Ślimak najważniejszy element ucha wewnętrznego, wzdłuż ślimaka biegną dwie błony, dzielące go na trzy wypełnione cieczą kanały, jedna z tych błon nosi nazwę błony podstawnej i ciągnie się od okienka owalnego do wierzchołka ślimaka

Błona podstawna w miarę oddalania się od początku ślimaka jej szerokość jest coraz większa, a twardość zwiększa się nawet o 100 razy, najważniejsze narzędzie przetwarzające drgania, stanowi przybliżony analizator Fouriera, który konwertuje częstotliwości dźwięku na wychylenie błony w odpowiednim miejscu

Sygnał nieistotny nie jest słyszany nawet przez dobrze przygotowanego lub wrażliwego słuchacza, jest rozpoznawany podczas analizy sygnału w koderze dźwięku poprzez zastosowanie szeregu reguł psychoakustyki: próg absolutnego słyszenia, analiza częstotliwościowa pasm krytycznych, maskowanie równoczesne, maskowania na błonie podstawnej, maskowanie czasowe

Model psychoakustyczny Na podstawie modelu określa się dopuszczalny szum kwantyzacji (błąd kwantyzacji) danej składowej częstotliwości w danym momencie czasu, niektóre składowe częstotliwościowe mogą być odrzucone w całości, gdyż i tak nie docierają do świadomości odbiorcy, inne składowe mogą być zakodowane z małą dokładnością, gdyż błąd/szum kwantyzacji jest poniżej progu percepcji ludzkiego słyszenia

Model Johnstona zaproponowany w 1988 roku przez Jamesa Johnstona pracownika firmy Bell Labs 1 Sygnał dzielony jest na okna czasowe i transformowany w dziedzinę częstotliwości 2 Wyznaczane są progi maskowania w poszczególnych pasmach częstotliwości 3 Obliczana jest liczba bitów potrzebnych do kwantyzacji, która nie spowoduje dodania słyszalnego szumu kwantyzacji do kompresowanej próbki sygnału audio

Czas w częstotliwość obecnie najczęściej, przetwarza się dane wejściowe dzielone są na ramki długości 1024 próbek (ok 23ms) (rys lewy) okienkowanie ramek wejściowych - przemnożenie kolejnych próbek przez współczynniki okna np Hamminga - redukuje przecieki transformaty 2048-punktowa szybka transformata Fouriera (FFT) zespolone komponenty spektrum sygnału przekształcane są w komponenty spektrum mocy (rys prawy)

Pasma krytyczne (1) spektrum mocy jest uszeregowane w częstotliwości liniowej, natomiast systemy akustyczne odnoszą się do skali niemal logarytmicznej, spektrum mocy przenosi się do dziedziny pasm krytycznych, a następnie sumuje się energia składowych w każdym paśmie krytycznym wyznaczana jest moc w paśmie krytycznym bh B i = P(ω) i ω= bl i

Pasma krytyczne (2) koncepcja zaproponowana przez Fletchera w 1940 roku, Fletcher założył, że błonę podstawną można traktować jako układ filtrów pasmowoprzepustowych o zmieniających się w ciągły sposób częstotliwościach środkowych, tak aby odpowiadały one wszystkim częstotliwościom słyszalnym, Skale pasm krytycznych: Bark, ERB

Skala Bark szerokość pasma wzrasta wraz ze wzrostem analizowanych częstotliwości szerokość pasm krytycznych poniżej 500 Hz wynosi około 100 Hz, a powyżej 500 Hz szerokość pasm krytycznych to 20% częstotliwości środkowej pasma, Jednostką tej skali jest Bark, ku pamięci naukowca Barkhausena, który wprowadził jednostkę głośności fon

Granice skali Bark

Rozkład energii wzdłuż błony podstawnej aby obliczyć przybliżony próg maskowania w odniesieniu do pasm krytycznych, wykorzystuje się funkcję rozkładu energii wzdłuż błony podstawnej (spreading function) wykonuje się to, ponieważ wychylenie błony podstawnej w pojedynczym paśmie krytycznym wpływa na sąsiednie pasma

Spektrum pasm krytycznych otrzymuje się je na bazie splotu funkcji rozkładu energii z rozkładem mocy w pasmach krytycznych: = 25 3 2 1 25,25 25,3 25,2 25,1 3,25 3,3 3,2 3,1 2,25 2,3 2,2 2,1 1,25 1,3 1,2 1,1 25 2 1 B B B B S S S S S S S S S S S S S S S S C C C Działanie realizowane w ramach projektu

Maskowanie jeden z elementarnych efektów akustycznych, zjawisko, w którym próg słyszalności jednego dźwięku wzrasta na skutek obecności innego dźwięku, zwanego maskerem, miarą maskowania jest wzrost progu słyszalności jednego dźwięku w obecności maskera mierzony w db, inaczej mówiąc maskowanie to proces, w którym jeden dźwięk staje się niesłyszalny z powodu obecności innego dźwięku

Maskowanie równoczesne przy równoczesnej ekspozycji dwóch tonów ton głośniejszy maskuje ton o mniejszej intensywności i przez co staje się on niesłyszalny o tym czy następuje maskowanie i który z tonów jest maskującym, a który maskowanym decyduje widmo częstotliwościowe sygnału

Maskowanie równoczesne - szum-maskuje-ton (NMT) wąskie pasmo szumu (np mające szerokość jednego Barka) maskuje ton w tym samym paśmie krytycznym, pod warunkiem, że intensywność maskowanego tonu znajduje się poniżej przewidywalnego progu próg ten związany jest bezpośrednio z intensywnością i częstotliwością środkową maskującego szumu

Maskowanie równoczesne - ton-maskuje-szum (TMN) Czysty ton występujący w środku pasma krytycznego maskuje szum o częstotliwości w tym samym paśmie, pod warunkiem, że widmo szumu znajduje się poniżej przewidywalnego progu maskowania, związanego z intensywnością i częstotliwością maskującego tonu

Ton czy szum? Próg maskowania dla szumu maskowanego przez ton wynosi 14,5 +i db poniżej C i Próg maskowania dla tonu maskowanego przez szum wynosi 5,5 db poniżej C i Aby określić czy sygnał jest tonem, czy szumem, Johnston zastosował parametr określający widmowy charakter sygnału - SFM (Spectral Flatness Measure)

Miara płaskości widma Do jego wyliczenia stosuje się geometryczną i arytmetyczną średnią spektrum mocy: SFM db GM = 10log = 10 log10 10 AM N 1 log = ( P n ) 10 ( GM ) log10 ( ) N n= 1 N 1 log = 10 ( AM ) log10 P( n) N n= 1 [ ( GM ) log ( )] 10 AM

Współczynnik totalności Powstaje on na bazie miary płaskości widma SFM db α = min, 1 SFM db(max) SFMdB(max) = -60 Współczynnik ten jest używany do wyznaczenia poziomów maskowania w każdym paśmie

Przesunięcie progu i przybliżony próg maskowania Przesunięcie progu maskowania (masking offset) od poziomu wychylenia błony podstawnej, dla i-tego pasma krytycznego wynosi: O i = α( 145 + i) + (1 α)55 ( db) Korekta spektrum pasm krytycznych o obliczone przesunięcie daje wynik w postaci przybliżonego progu maskowania (JND Just Noticeable Distortion): T i = 10 log 10 ( C i Oi ) 10

Normalizacja JND funkcja rozkładu energii wprowadza pewien błąd do obliczonego spektrum pasm krytycznych przeprowadzić mnożenie macierzowe wyników funkcji rozkładu energii i wektora jednostkowego, a następnie ustalić znormalizowany próg maskowania C 1 = S I T = T i, j i( norm) i CEi Ei

Próg absolutnego słyszenia charakteryzuje się ilością energii, jaką zawiera czysty ton, który może być dostrzeżony przez odbiorcę w cichym środowisku Zależność tego poziomu od częstotliwości zastała określona około roku 1940 Jest to poziom słyszenia reprezentatywny dla młodego słuchacza z wnikliwym słuchem Poniżej tej linii dźwięki nie są już przez człowieka słyszalne

Uwzględnienie progu słyszenia ATH absolutny próg słyszenia jest jednak określony w skali decybelowej obliczony próg należy sprowadzić do tej samej skali, gdyż tylko wówczas możliwa będzie korekta T rozmiar FFT i( norm) Ti ( db) = 10log10 ref = 16 ref 2 T, = i( fin) ( ) T ATH max i( db) i

Podsumowanie wszystkie komponenty widmowe znajdujące się poniżej finalnego progu słyszalności są niesłyszalne, mogą więc zostać usunięte bez odczuwalnych zmian w sygnale, do sygnału można dodać jakikolwiek komponent widmowy, bez spowodowania zmiany w sygnale słyszalnym, jeśli komponent ten jest mniejszy od finalnego progu słyszenia, dwa sygnały będą brzmieć identycznie, jeśli ich komponenty widmowe leżące powyżej finalnego progu słyszenia są identyczne

Matematyka i informatyka może i trudne, ale nie nudne Wykład 6 Komputerowe modelowanie ludzkiego słuchu w kompresji dźwięku prelegent: mgr inż Krzysztof Popowski 23 wrzesień 2009 Dziękuję za uwagę!