Neurobiologia na lekcjach informatyki? Percepcja barw i dźwięków oraz metody ich przetwarzania Dr Grzegorz Osiński Zakład Dydaktyki Fizyki IF UMK IV Konferencja Informatyka w Edukacji 31.01 01.02. 2007 Toruń.
Plan warsztatów 1. Po co nam neurobiologia? 2. Czy mózg działa jak komputer? 3. Budowa systemów sensorycznych: słuch, wzrok. 4. Analiza dźwięków w korze mózgowej. 5. Kiedy mózg nas oszukuje? -złudzenia akustyczne w odróżnieniu od dobrze znanych złudzeń optycznych - test percepcji dźwięki wysokie i niskie - jak to wygląda w edytorze dźwięku 6. Model psychoakustyczny MP3 -różnice w widmie częstotliwości (Panie Janie) -różnice w zapisie czasowym (The Beatles) 7. Przykłady kompresja MP3 8. Wskazówki metodyczne i przykłady zastosowań dydaktycznych
Budowa układu słuchowego człowieka Fala akustyczna Ucho Neuronalny układ detekcyjny Impuls nerwowy do układu jąder pnia mózgu Mapy fonotypiczne
Budowa ucha wewnętrznego
Komórki włoskowate
Układ wzrokowy Oko ma 100 000 000 receptorów a ucho tylko 3500.
A po co nam kompresja? Najczęściej używane słowa w języku polskim Lp. Słow o Częstość [%] Lp. Słowo Częstość [%] 1 w 3,51 11 r 0,42 2 i 2,09 12 a 0,42 3 z 1,61 13 to 0,42 4 na 1,39 14 od 0,41 5 się 1,21 15 przez 0,39 6 do 1,19 16 lub 0,39 7 o 0,86 17 oraz 0,33 8 nie 0,84 18 za 0,31 9 że 0,54 19 poz 0,28 10 jest 0,49 20 dla 0,27
Zapis dźwięku Jeżeli przeznaczymy na opisanie fali sinusoidalnej 1 bit pamięci, to uzyskamy następujący Żeby wartości: uzyskać opis fali obraz: bardziej odpowiadający rzeczywistości trzeba Musimy jeszcze zwiększyć liczbę bitów, najlepiej do następujących zwiększyć 8 bitów -liczbę da nam bitów to przeznaczonych 256 możliwych na poziomów zapis dźwięku. dźwięku, Rozpatrzmy teraz rozdzielczość dźwięk 16-bitowy 2-bitową. - 65536 Da nam możliwości. ona 4 możliwe stany (22 = 4): Częstotliwość próbkowania - co najmniej kilka KHz (44100 Hz da nam jakość płyty CD, 96 KHz - DVD) Nagrywać należy dźwięk w formacie 16-bitowym i z częstotliwością próbkowania 44100 Hz
Zapis dźwięku 1. Próbkowanie dźwięku dźwięk musi być zamieniony z postaci analogowej na cyfrową, aby mógl zostać użyty w komputerowych systemach multimedialnych. 2. Jakość dźwięku: częstość próbkowania 11.025 khz, 22.05 khz, 44.1 khz rozmiar próbki: ilosć zapisanej informacji 8 bitów, 16 bitów Kryterium próbkowania Nyquista częstość próbkowania musi być dwa razy większa niż maksymalna częstotliwość słyszalna przez ucho ludzkie czyli około 22.05 khz 3. Jakość zapisanego dźwięku jest tym lepsza im większa jest częstotliwość próbkowania i rozmiar próbki. Niestety rośnie wtedy rozmiar zbioru.
Przykładowa struktura kodowania MP3 Kluczowy element systemu kodowania Bank filtrów 32 filtry stosowane również w Layer 1 i 2 Podpasma uzyskane z banku filtrów przekształcane są zmodyfikowaną transformatą kosinusową Modified Discrete Cosint Transform (MDCT) MDCT generuje 18 współczynników dla każdego podpasma 32x18=576 Kaskada banku filtrów i MDCT Lepsza rozdzielczość w dziedzinie częstotliwości niż dla większej liczby filtrów efektywniejsze kodowanie dokładniejsze maskowanie składowych częstotliwości (następne slajdy) możliwość zmniejszenia rozdzielczości w przypadku pojawienia się pre-echa (echo wyprzedzające właściwy dźwięk)
Model psychoakustyczny 1 W kompresji plików MP3 wykorzystuje się tzw. model pseudoakustyczny. Model ten opiera się na założeniu że ze względu na właściwości ucha i mózgu człowieka, nie jesteśmy w stanie odebrać i przetworzyć całej informacji akustycznej niesionej przez dźwięk. Nadmiar informacji jest bardzo duży, około 95% informacji zawartej w złożonym sygnale akustycznym nie dociera do ludzkiej świadomości. 1. Model można wytłumaczyć ograniczoną szybkością transportu bodźca nerwowego w mózgu. 2. Przed-maskowanie występuje w bardzo krótkim czasie od 2 do 5 ms, natomiast czas maskowania po sygnale to ponad 100 ms. 3. Inną własnością sygnału stereo, wykorzystywaną podczas kompresji, to występowanie korelacji pomiędzy kanałami. 4. W standardach Layer 3 (MP3) obliczenia prowadzone są na tzw. ramkach, tj. odcinkach trwających 24 ms. 5. Efekt maskowania obliczany jest dla najsilniejszego dźwięku, po którym można usłyszeć szum ( jest to odbierane prze ucho jako "szumowe echo" ).
Model psychoakustyczny 2 1. Modele psychoakustyczne przewidują zwykle zakres słyszalności od 20 Hz -16 khz (dlatego właśnie większość współczesnych odtwarzaczy muzyki zapisanej cyfrowo ma takie pasmo przenoszenia) 2. Maksymalną czułość w zakresie od 2 khz do 4 khz. 3. Uwzględnienie maskowania jednych dźwięków przez inne: 3.1 maskowanie sąsiednich częstotliwości: ciche dźwięki o częstotliwościach zbliżonych do częstotliwości dźwięku głośnego nie są słyszalne 3.2 maskowanie dźwięków następujących głośny dźwięk potrafi zagłuszyć cichsze dźwięki następujące zaraz po nim (np.: po wystrzale trwajacym 50ms istnieje martwy okres trwający ok.150 ms. 3.2 maskowanie dźwięków poprzedzających: cichy dźwięk poprzedzający w krótkim czasie dźwięk głośny nie jest słyszalny - ta własność układu słuchowego jest szczególnie ciekawa, gdyż nie da się jej wyjaśnić na gruncie adaptacji krótkoterminowej układu słuchowego; równocześnie pokazuje ona, że układ słuchowy nosi pewne cechy układu niedeterministycznego. (problem nieprzyczynowości można rozwiązać, dopuszczając pewne opóźnienie w odbiorze bodźców dźwiękowych). TEST
3.1
Kiedy mózg nas oszukuje? Test percepcji Dz. ostrz. Dźwięk 1 Przerwa Dźwięk 2 30 ms 15ms 30ms 3000 Hz + (6) 300 Hz - (7) 84 próby
Analiza częstotliwości WAV i MP3 [PJ] WAV czy MP3? 113 KB i 83 KB
Porównanie [TB] 1 WAV MP3
Nieskompresowany Porównanie [TB] 2 MP3
Jak poznać oryginalny plik audio? Mając kilkadziesiąt CDR-ów z muzyką AUDIO chcielibyśmy się dowiedzieć, które z nich były nagrane z MP3, czyli po prostu MP3-ki zostały "odkompresowane" z powrotem do AUDIO. Proces taki jest oczywiście procesem wtórnym i mierna jakość MP3 pozostaje. Można go rozpoznać po obcięciu składowych częstotliwości powyżej 16 khz Metoda badania jest skuteczna w ok.. 98% przypadków. Te 2% - to płyty, gdzie trudno jest wizualnie ocenić, czy widmo jest obcięte w okolicach 16 khz, poza tym niektóre z oryginalnych płyt mogą być studyjnie nagrane z dużym spadkiem poziomu powyżej 16 khz, jednak to zdecydowany margines.
Dziękuję za uwagę! www.phys.uni.torun.pl/~gos Google: Grzegorz Osiński