TONY KOMBINACYJNE JAKO ZJAWISKO CENTRALNEGO POZIOMU W UKŁADZIE SŁUCHOWYM TADEUSZ ZIĘBAKOWSKI West Pomeranian University of Technology, Institute of Manufacturing Engineering Al. Piastów 19, 70-310 Szczecin E-mail: tezet@zut.edu.pl Praca podejmuje problem trudności w klasycznej interpretacji tonów kombinacyjnych jako zniekształceń nieliniowych. Jednym z podstawowych problemów tej interpretacji jest wskazanie źródeł tych zniekształceń. Co więcej tego typu zniekształcenia wykazują szereg anomalii trudnych do wyjaśnienia na gruncie fizyki czy fizjologii. Celem zaprezentowanego w pracy modelu jest pokazanie, że zjawisko tonów kombinacyjnych można wyjaśnić jako efekt działania mechanizmów centralnych. Większość istniejących teorii i modeli percepcji wysokości dźwięku koncentruje się głównie na percepcji wysokości wirtualnych i nie traktuje tego zjawiska jako elementu tego samego mechanizmu. Zaprezentowany model opisuje abstrakcyjnie mechanizm zwany procesorem słuchowym, który w spójny sposób pozwala wyjaśnić percepcję zarówno wysokości wirtualnych jak i tonów kombinacyjnych. Ze względu na ograniczony charakter opracowania konferencyjnego w pracy przedstawiono model uproszczony, który w zakresie wysokości wirtualnych należy do klasy modeli widmowych. 1. WSTĘP Percepcja wysokości dźwięku wiąże się ściśle z analizą widmową dźwięku, czego przejawem jest na przykład fakt, że poprzez wrażenie wysokości potrafimy uszeregować dźwięki o różnych częstotliwościach we właściwym porządku. Związek pomiędzy percepcją wysokości dźwięku a jego analizą widmową został wyraźnie zauważony przez G. Ohma, który w 1843 ogłosił prawo psychoakustyczne, które stwierdza, że w złożonych tonach poszczególne wysokości są odróżniane tylko wówczas gdy widmo dźwięku zawiera odpowiednie składowe częstotliwościowe. Dokładniejsze badania psychofizyczne pokazują jednak, że prawo to nie jest do końca słuszne. Już w czasach kiedy Ohm ogłosił swoje prawo znane było zjawisko tonów kombinacyjnych, tj. dodatkowych słyszalnych tonów, którym nie odpowiadały żadne składowe częstotliwościowe zawarte w dźwięku źródłowym. Mniej więcej w tym samym czasie zauważono też problem w interpretacji wysokości dźwięków złożonych, który w wyniku dalszych badań doprowadził do odkrycia zjawiska residuum i związanego z nim zjawiska wysokości wirtualnych. Zjawiska wysokości wirtualnych i tonów
S t r o n a 2 kombinacyjnych można zaobserwować m.in. w sytuacji gdy źródło dźwięku zawiera dwie składowe sinusoidalne o różnych częstotliwościach (dwuton). Występowanie tych zjawisk zależy jednak ściśle od usytuowania składowych widmowych w dziedzinie częstotliwościowej. Na Rys.1 został przedstawiony przykładowy obraz percepcji wysokości dwutonu. Tego typu obraz będziemy dalej nazywać widmem psychofizycznym. Przedstawimy teraz pokrótce podstawowe informacje odnośnie wysokości wirtualnych i tonów kombinacyjnych. Zjawisko wysokości wirtualnej zaobserwowano najpierw w wielotonie harmonicznym, z którego usunięto częstotliwość podstawową. Okazuje się, że wysokość częstotliwości podstawowej jest percypowana również po usunięciu tej składowej częstotliwościowej z wielotonu harmonicznego. Wysokości wirtualne w przypadku dwutonu występują w wąskim obszarze wokół częstotliwości różnicowej. Cechą charakterystyczną wysokości wirtualnych jest trudność zagłuszania ich (zamaskowania) szumem. Co więcej, w przypadku np. dwutonu, szum o względnie niedużym natężeniu może nawet wzmocnić ten efekt. Wysokości wirtualne są znacznie silniejszym efektem w kompleksach harmonicznych, przy czym ich słyszalność zwiększa się wraz ze wzrostem ilości harmonicznych. Początkowo sądzono, że mechanizm powstawania wysokości wirtualnych da się niemal całkowicie zrozumieć na bazie fizjologii ucha. Dopiero odkrycie dwuusznej percepcji wysokości wirtualnych było mocnym argumentem przemawiającym za centralnym pochodzeniem tego zjawiska i dało impuls do rozwoju teorii centralnych [7],[8] W zakresie percepcji wysokości wirtualnych powstało wiele teorii (modeli), które można podzielić na dwie kategorie: teorie miejsca (widmowe) oraz teorie czasowe. Teorie miejsca wychodzą z założenia, że podstawą identyfikacji wysokości jest przybliżony obraz widmowy dźwięku - zwany dalej widmem fizjologicznym (por. Rys.1), który na poziomie ucha wewnętrznego zakodowany jest w postaci drgań błony podstawnej. Teorie czasowe bazują natomiast na rozkładach czasowych impulsów generowanych w wyniku bodźca dźwiękowego we włóknach nerwu słuchowego. Najbardziej znane teorie pierwszej kategorii są zaprezentowane w pracach Goldsteina [3], Wightmana [21] i Terhardta [19]. W uproszczeniu główną ideą tych teorii jest dobieranie najlepiej pasującego wzorca wielotonu harmonicznego do zadanej grupy tonów. Ponieważ pracują one w dziedzinie częstotliwości zakładają one rozseparowalność składowych widmowych. Jednak wysokość wirtualna może wystąpić nawet w sytuacji gdy składowe nie są rozróżnialne słuchem. Z takimi sytuacjami lepiej sobie radzą teorie drugiej kategorii, których przykładami mogą być prace Licklidera [9], Morre a [11] czy Meddisa i Hewitta [10]. Szacowanie wysokości w tych modelach jest związane z efektem synchroniczności w odpowiedzi nerwu słuchowego na bodziec dźwiękowy i polega na wykorzystaniu funkcji autokorelacji do przebiegów czasowych odzwierciedlanych w strukturze impulsów nerwu słuchowego. Jednak i te modele mają pewne ograniczenia, gdyż efektu synchroniczności fazowej nie obserwuje się powyżej 5 khz co zawęża stosowalność teorii czasowych do częstotliwości 5 khz. Tony kombinacyjne w przeciwieństwie do wysokości wirtualnych wykazują szereg odmiennych zachowań. Nie obserwuje się dwuusznej percepcji tonów kombinacyjnych. Tony te zachowują się jak dodatkowe rzeczywiste składowe wprowadzone do widma dźwięku: ulegają zdudnieniom z tonami o zbliżonej częstotliwości wprowadzonymi do sygnału pierwotnego i dają się zagłuszyć (zamaskować) np. pasmem szumu w otoczeniu częstotliwości ich występowania. Częstotliwości tonów kombinacyjnych są kombinacjami liniowymi częstotliwości tonów pierwotnych z małymi liczbami całkowitymi. Dało to początek hipotezie, sformułowanej w roku 1856 przez Helmholtza [6], że tony kombinacyjne są efektem zniekształceń nieliniowych dźwięku. Helmholtz pokazał, że dodanie czynnika
S t r o n a 3 kwadratowego wychylenia do równania oscylatora harmonicznego wymuszonego dwoma składowymi sinusoidalnymi, wprowadza do widma drgań oscylatora dodatkowe składowe sinusoidalne. Rozwiązując to równanie perturbacyjnie Helmholtz otrzymał w pierwszym rzędzie rachunku czynniki kwadratowe o częstotliwościach,, i, w drugim rzędzie rachunku czynniki 3-go stopnia o częstotliwościach,, i. Hipoteza Helmholtza jest do dziś ogólnie przyjmowana, chociaż istnieją fakty, które podważają jej wiarygodność. Przy założeniu, że tony kombinacyjne są efektem zniekształceń nieliniowych jest rzeczą zastanawiającą, że słyszymy tak niewiele tonów kombinacyjnych. Wśród tonów kombinacyjnych wyróżniają się tony rzędów nieparzystych typu dla i i ton różnicowy [14],[12],[17]. Na uwagę zasługuje fakt, że ton 3. rzędu (n = 1) jest słyszalny przy niższych poziomach dźwięku niż ton 2. rzędu. Nie są na ogół słyszalne tony powyżej częstotliwości. W szczególności tonowi nie towarzyszą tony, zaś słyszalność tonu jest sygnalizowana sporadycznie. Ponadto zauważono pewną anomalię w słyszeniu tonu kombinacyjnego. Jeśli amplitudy tonów są jednakowe i wynoszą x to ton jako nieliniowy powinien wzrastać początkowo z trzecią potęgą tymczasem wzrasta mniej niż z pierwszą potęgą [22],[4],[5],[18]. Słyszalność tonów kombinacyjnych silnie zależy od stosunku częstotliwości tonów pierwotnych i ogranicza się do zakresu od 1,1 do 1,5 [17]. Zasygnalizowane wyżej problemy są dokładniej omówienie w pracy Plompa [12] i de Boera [1],[2]. Widmo psychofizyczne Centralny procesor słuchowy Widmo fizjologiczne Ucho Dźwięk Rys.1. Kodowanie informacji dźwiękowej w postaci widm na różnych poziomach procesu percepcji słuchowej Rys.2. Usytuowanie procesora słuchowego w układzie słuchowym Osobliwości w słyszeniu tonów kombinacyjnych próbuje się wytłumaczyć na gruncie fizjologii ucha. Analiza widmowa dźwięku jest realizowana bezpośrednio w ślimaku w uchu wewnętrznym. Dzięki odpowiedniej konstrukcji mechanicznej ślimaka informacja widmowa odwzorowana jest bezpośrednio w postaci maksimów wychyleń błony podstawnej, przy czym różnym częstotliwościom odpowiadają różne miejsca maksymalnych wychyleń tej błony. W celu ustalenia źródeł zniekształceń nieliniowych badano pod tym kątem mechanizmy ucha
S t r o n a 4 środkowego jak i wewnętrznego. Pomiary transmitancji ucha środkowego wskazują na jego liniowe zachowanie się w dość szerokim zakresie zmian ciśnienia akustycznego, natomiast analiza drgań błony podstawnej w uchu wewnętrznym wykazała występowanie maksimów w miejscach odpowiadających składowym widmowym zniekształceń nieliniowych [15]. jednak tylko w sytuacji współdziałania ucha z nerwowym układem słuchowym. Badania ostatnich dekad pokazują że, dźwięk nie jest jedynym źródłem energii mechanicznej determinującej działanie ślimaka. Znajdujące się w narządzie Cortiego zewnętrzne komórki rzęskowe (OHC), które są detektorami informacji widmowej, mogą również wykonywać ruchy pod wpływem impulsów dochodzących z mózgu za pośrednictwem neuronów eferentnych. Badania wykonane przez Ruggero i in. [16] pokazują, że występowanie tonów kombinacyjnych silnie zależy od kondycji zewnętrznych komórek rzęskowych. Okazuje się bowiem, że nieliniowa zależność wychylenia błony podstawnej od bodźca akustycznego charakterystyczna dla błony sterowanej sygnałami z nerwu słuchowego przechodzi w liniową gdy praca komórek rzęskowych zostaje zaburzona. M.in. na tej podstawie niektórzy badacze przyjmują, że źródłem zniekształceń nieliniowych mogą być zewnętrzne komórki rzęskowe. Istnieje jeszcze jedno źródło informacji odnośnie tonów kombinacyjnych. Są nimi tzw. emisje otoakustyczne (OAE). Przy stymulacji ucha za pomocą krótkich impulsów zawierających składowe widmowe, ( ) w przewodzie słuchowym rejestruje się występowanie emisji otoakustycznej zawierającej ton kombinacyjny (tzw. DPOAE). Tego typu badania przeprowadzono także na różnych gatunkach kręgowców m.in. ptakach, płazach i gadach [20]. Budowa ucha wielu z tych zwierząt np. u żaby istotnie różni się od budowy ucha człowieka ucho żaby nie ma np. błony podstawnej. Jest rzeczą godną uwagi, że pomimo tych różnic obserwuje się DPOAE jako dominujący czynnik zniekształcenia [20]. Podsumowując, badania fizjologiczne pokazują, że ucho, w szczególności ucho wewnętrzne jest złożonym, sterowanym przez układ nerwowy elektro-mechanicznym urządzeniem, które może zarówno analizować dźwięki jak i je generować. Dotychczasowe teorie dotyczące tonów kombinacyjnych porównują ucho do oscylatora harmonicznego o nieliniowych parametrach z wymuszeniem dźwiękowym [6], [20]. W świetle przedstawionych wyżej faktów wydaje się, że jest to zbyt duże uproszczenie. W niniejszej pracy przyjęto alternatywną tezę zakładającą istnienie mechanizmu generującego tony kombinacyjne na poziomie centralnym. Jedną z głównych trudności z umiejscowieniem źródła tonów kombinacyjnych na tym poziomie jest występowanie tych tonów na poziomie peryferyjnym. Można to jednak uzasadnić istnieniem sprzężenia zwrotnego między poziomem centralnym a peryferyjnym realizowanym w uchu przez OHC (Rys.2). W kolejnych rozdziałach przedstawimy uproszczony model mechanizmu centralnego opisujący zarówno tworzenie się tonów kombinacyjnych jak i wysokości wirtualnych. Podobnie jak w pracy Goldsteina [3] mechanizm ten będziemy nazywać procesorem słuchowym. Model ten będzie należał do klasy modeli widmowych i ze względu na przyjęte uproszczenia opis zjawiska wysokości wirtualnych będzie daleko niewystarczający, natomiast jego zaletą jest możliwość łatwego zaprezentowania mechanizmu generowania tonów kombinacyjnych. Można pokazać (co ze względu na ograniczony charakter opracowania konferencyjnego zostanie zaprezentowane jedynie w wersji rozszerzonej tego artykułu) że model ten można rozszerzyć do modelu widmowo-czasowego, który w zakresie wysokości wirtualnych będzie zbieżny z modelami opartymi na analizie autokorelacyjnej. W naszej konstrukcji w zakresie elementarnym wykorzystujemy pojęcia z zakresu algebr grupowych.
S t r o n a 5 2. PODSTAWOWE ELEMENTY KONSTRUKCJI MODELU Wrażenie wysokości dźwięku odnosi się do bardzo szerokiej klasy sygnałów w tym również i niektórych postaci szumów. Na potrzeby uproszczenia tego artykułu, ograniczymy się jedynie do rozważania sygnałów prawie okresowych. Będziemy rozważać widma amplitudowe takich sygnałów, które będą opisywane skończonymi kombinacjami liniowymi impulsów Diraca o nieujemnych amplitudach: gdzie jest ciągiem częstotliwości oraz, jest niarą Diraca w punkcie i λ R jest pewną stałą normalizacyjną taką, że norma spełnia. Przestrzeń wszystkich dyskretnych miar na R opisującą tego typu widma oznaczymy przez. Będziemy także rozważać zbiory częstotliwości inne niż R posiadające strukturę pewnej grupy G, na których będziemy określać przestrzeń miar dyskretnych. Rozpoczniemy nasze rozważania od obserwacji, że operacja splotu (*) zastosowana do składowych widmowych pozwala opisać tworzenie się tonów kombinacyjnych: Jeśli G jest grupą, to na jest dobrze określona operacja splotu 1. Proces percepcji wysokości będzie opisywany w postaci ciągu widm psychofizycznych generowanych na podstawie odpowiedniego ciągu widm fizycznych. Dokładniej, będzie zdefiniowany w ogólności jako pewien nieskończony proces iteracyjny, w którym widmo powstaje na podstawie widm i gdzie : Jedną z najprostszych formuł określenia procesu iteracyjnego jest formuła liniowa : gdzie jest czynnikiem zależnym od widma fizycznego. W równaniu (4) można dopatrzeć się analogii do formuły generowania sum częściowych ciągu geometrycznego tj. formuły. Formuła procesu iteracyjnego (4) ma swoje głębsze uzasadnienie psychofizyczne, związane z narastaniem w postępie geometrycznym wrażenia przy skokowym narastaniu dźwięku [13]. Zostanie to dokładniej omówione w wersji rozszerzonej artykułu. Jeśli chodzi o czynnik to w najprostszym przypadku można przyjąć gdzie oraz jest miarą Diraca w zerze (jest to jedność splotowa). W przypadku gdy proces (4) jest stacjonarnym procesem iteracyjnym w sensie takim, że, łatwiejszym staje się zadanie określenia kryteriów zbieżności i punktów zbieżności takiego procesu. Można wówczas zauważyć, że dla odwzorowanie (1) (2) (3) (4) (5) 1 Będziemy także używać notacji multiplikatywnej zamiast addytywnej. Jeśli jest iloczynem to splot można zapisać:
S t r o n a 6 jest odwzorowaniem zwężającym i korzystając z klasycznych twierdzeń dotyczących tych odwzorowań można wyznaczyć graniczne widmo psychofizyczne P jako punkt stały odwzorowania. Sytuacja, w której będzie nazywana stanem ciszy. W takim przypadku oraz Kolejnym krokiem w proponowanej konstrukcji jest określenie struktury w M 1 (G) uwzględniającej podział wrażenia wysokości na tonalne i wirtualne. W najprostszym przypadku można to zrobić przez wprowadzenie dwóch zbiorów częstotliwości T tonalnych i V wirtualnych, a więc założyć, że. Należy jednak zatroszczyć się, aby G było grupą. Zrealizujemy to w ten sposób, że założymy, że G jest rozszerzeniem swojej podgrupy V za pomocą grupy. To rozszerzenie będziemy realizować za pomocą iloczynu prostego lub półprostego. Jeśli przez oznaczymy element generujący podgrupę to. Dowolne widmo P można zatem zapisać jako sumę dwóch składników: tonalnego i wirtualnego tj.. Zakładać będziemy, że każde widmo fizyczne F zawiera tylko część tonalną więc a zatem: Przejdziemy teraz do kolejnego elementem konstrukcji tj. filtrów słuchowych. Filtry słuchowe wprowadza się w psychoakustyce w celu opisu takich zjawisk jak zjawisko maskowania, zjawisko pasm krytycznych, czy zjawisko strojenia. Zjawiska te są obserwowane psychofizycznie, a także bada się je na gruncie fizjologii ucha. Mechanizm funkcjonowania filtrów słuchowych nie jest do końca znany niemniej większość badaczy umiejscawia go na poziomie peryferyjnym. Można Rys.3. Charakterystyki filtrów słuchowych dla określonej częstotliwości podstawowej przyjęte w modelowaniu. jednak również przyjąć, jak to czynimy w niniejszej pracy, że podobnie jak w przypadku tonów kombinacyjnych mechanizm ten znajduje się na poziomie centralnym i jest odzwierciedlany na poziomie peryferyjnym poprzez sprzężenie zwrotne. W konstrukcji tych filtrów wykorzystamy fakty związane z percepcją wielotonu harmonicznego. W proponowanej na Rys.3 strukturze filtrów mamy w części tonalnej filtr grzebieniowy ustawiony na wydobywanie tonu podstawowego i harmonicznych, zaś w części wirtualnej filtr 3-pasmowy ustawiony na generację tylko takiej wysokości wirtualnej, która pochodzi od sąsiadujących harmonicznych. Dla prostoty przyjęto prostokątne zarysy filtrów i jednakową szerokość pasm. (Rys.3). Ponieważ głównym parametrem charakteryzującym wieloton harmoniczny jest częstotliwość podstawowa, więc również filtry słuchowe będą parametryzowane poprzez częstotliwość podstawową. Pojedynczy filtr dla danej częstotliwości podstawowej opiszemy za pomocą charakterystyk filtrów tj. funkcji gdzie przebiega zbiór wszystkich częstotliwości odpowiadających percypowanym wysokościom wirtualnym. Zakładamy, że wartości tego zbioru tworzą skończony ciąg arytmetyczny z ustalonym krokiem : gdzie (7) (6)
S t r o n a 7 Nasze wyjściowe równanie (4) określające percepcję wysokości rozpiszemy na poszczególne filtry przyjmując, że na poszczególnych filtrach przetwarzanie widm zachodzi niezależnie. W związku z tym z każdym filtrem skojarzymy pewne widmo psychofizyczne cząstkowe, które z pozostałymi widmami cząstkowymi tworzy efekt końcowy na zasadzie superpozycji: gdzie (8) Kropką oznaczyliśmy mnożenie widma (jako miary) przez funkcję. Łatwo pokazać, że widmo cząstkowego jest niezerowe w pasmach przenoszenia. 3. WYZNACZANIE WIDM PSYCHOFIZYCZNYCH DLA SYGNAŁÓW OKRESOWYCH Widma amplitudowe sygnałów okresowych można opisać za pomocą miar dyskretnych, których składowe są równo rozmieszczone o ustaloną odległość Δω. W naszym modelu sytuację tę opisuje grupa ( 2 ). W tym przypadku możemy utożsamić z tj. z funkcjami więc zamiast na miarach możemy operować na funkcjach, dla których splot określony jest wzorem:,, (9) Poza tym ze względu na dyskretny charakter grupy jak i ograniczenie zakresów częstotliwości przez siatki filtrów słuchowych rozważanie widm można zawęzić do skończenie wymiarowych przestrzeni liniowych przez co równanie (8) będzie można zapisać w postaci macierzowej. Dla uproszczenia przyjmiemy, że szerokość pasma 2r jest mniejsza od rozdzielczości częstotliwościowej słuchu, tak aby w każdym z pasm przenoszenia siatki mógł znajdować się tylko 1 ton. Niech będzie numerem najwyższej słyszalnej składowej. Zdefiniujmy następujący podzbiór w G: Zbiór ten możemy traktować jako pewną bazę podprzestrzeni liniowej generowanej przez ten zbiór. W bazie B element zapisujemy w postaci: gdzie pierwsza połowa to część wirtualna, druga tonalna. Przejdziemy teraz do zapisania równania (8) w postaci macierzowej w zawężeniu do podprzestrzeni W. Weźmy teraz element określony równaniem (11) i zapiszmy w bazie B operację jako odwzorowanie określone następująco: Macierz tego odwzorowania w bazie B ma następującą postać (10) (11) gdzie (12) (13) 2 W definicji grupy G = Z 2 Z zakładamy relację definiującą gdzie. Można też zastosować relację, ale wyniki są mniej przejrzyste. Grupę G jako zbiór można przedstawić co określa rozkład na część wirtualną i tonalną.
S t r o n a 8 gdzie: (14) Podobnie charakterystyki filtrów zapiszemy w postaci macierzy. W bazie (równ. (10)) będą to macierze diagonalne z wartościami na głównej przekątnej. Dla przykładu, dla i N parzystego macierz ma postać: (15) Widma psychofizyczne i zapisujemy w postaci macierzy jednokolumnowej o długości 4N+2. Wobec powyższych definicji równanie (8) przybiera postać: (16) Zagadnienie wyznaczania widm wyznaczonych przez pasma przenoszenia można zredukować do podprzestrzeni. Równanie (16) można przepisać następująco: Rozważmy dwuton o widmie fizycznym:, (17) 4. PERCEPCJA WYSOKOŚCI DWUTONU gdzie. W sposób sztuczny do widma została wprowadzona niepercypowana 0-wa składowa tonalna jako element mechanizmu procesora słuchowego. Zakładamy, że amplituda tej składowej ma stałą w czasie ustaloną wartość. Ponieważ widmo amplitudowe jest symetryczne więc podstawiając wyrażenie (18) do równania (5), dostajemy: gdzie, A, B, są przeskalowanymi amplitudami za pomocą czynnika. Mając Q F możemy wyznaczyć macierz Q F (13). Naszym celem jest teraz wyznaczenie granicznych cząstkowych widm psychofizycznych dla poszczególnych częstotliwości podstawowych. Widma te wyznaczamy z następującego równania uzyskanego na podstawie równ. (17): gdzie I jest macierzą jednostkową w bazie B przestrzeni W. Rozważmy zatem siatkę filtrów o częstotliwości podstawowej której pasma przenoszenia pokazane są na Rys.3. W zależności od położenia składowych dwutonu względem pasm przenoszenia w części tonalnej można wyodrębnić cztery przypadki pokazane na Rys.4. Rozważymy przypadek 1. Można sprawdzić, że pozostałe przypadki sprowadzają się albo do (18) (19) (20)
S t r o n a 9 braku percepcji tonów (przypadek 2) albo do percepcji jednego lub dwóch pojedynczych tonów (przypadek 3 i 4). Widmo psychofizyczne (20) przedstawiamy w postaci: (21) Rys.4. Możliwości rozmieszczenia składowych dwutonu względem filtru tonalnego. Rys.5. Przewidywania modelu w zakresie widma psychofizycznego dwutonu: równ. (21), (22). Wypiszemy niezerowe składowe tego widma jako funkcje amplitud,a i B.,,,,,,,. (22) gdzie:,,, (23) Widmo to zostało przedstawione także na Rys.5. Widzimy, że widmo to zawiera wysokość wirtualną, a w zakresie tonalnym oprócz składowych źródłowych zawiera dodatkowo składową zerową i tony kombinacyjne o częstotliwościach, i. Zauważmy, że wysokości wirtualne i tonalne są generowane w różnych fazach procesu percepcyjnego: tonalne w nieparzystych a wirtualne w parzystych krokach (patrz diagramy z poprzedniego rozdziału). Zauważmy również, że w widmie przedstawionym na Rys.5 brakuje wyższych tonów kombinacyjnych typu, n > 1. Z kolei występuje w nim ton kombinacyjny, który psychofizycznie nie jest obserwowany. Występuje on jednak w widmie fizjologicznym aktywnym. Wyjaśnienie tych zjawisk wymaga uwzględnienia sprzężenia zwrotnego. Rys.6. Poziom tonu kombinacyjnego Podsumowując, widzimy, że tony w zależności od poziomu tonu ( β = 0,4 ; kombinacyjne pojawiają się w sytuacji ε = 0,4 ; ; A = B )
S t r o n a 10 umiejscowienia składowych dwutonu w filtrach sąsiadujących. Pamiętamy z wprowadzenia, że tony kombinacyjne występują tylko dla pewnych stosunków częstotliwości tonów pierwotnych tj. zakresu 2 : 1 od 1,1 do 1,5. W przypadku filtrów sąsiadujących odpowiada to stosunkom numerów filtrów k od 11:10 do 3:2. Przy tych zakresach 2 : 1 po zsumowaniu po wszystkich zestawach filtrów uzyskujemy obraz taki jak na Rys.5, który jakościowo odpowiada obrazowi opartemu na danych eksperymentalnych (por. Rys.1 ze wstępu niniejszego opracowania). 5. DYSKUSJA Wyjaśnienie niektórych anomalii tonów kombinacyjnych. W przedstawionym modelu procesora słuchowego w prosty sposób można wyjaśnić fakt występowania tonów kombinacyjnych w ograniczonych zakresach ilorazu częstotliwości składowych dwutonu (ok. 1,05-1,5 dla tonu). Tony kombinacyjne pojawiają się w sytuacji, gdy tony wpadają w sąsiadujące pasma określonego filtru tonalnego, a więc w otoczeniu ilorazu częstotliwości (k+1)/k. Dla k > 1 ilorazy te leżą w przedziale od 1 do 1,5 (dla k =1 mamy stosunek 2:1, dla którego ton kombinacyjny musiałby się pojawić wokół niesłyszalnej zerowej częstotliwości). Kolejnym problemem jest narastanie amplitudy tonu, przy zbliżaniu częstotliwości tonów. Jeśli bowiem stosunek częstotliwości tonów zbliża się do jedności to ilość siatek filtrów słuchowych, które mogą objąć tony w sąsiadujących pasmach zwiększa się (por. Rys.7). Tym samym ton kombinacyjny ma większe natężenie, gdyż jest generowany przez większą liczbę siatek filtrów słuchowych. Innym problemem jest narastanie amplitudy tonu kombinacyjnego w zależności od poziomu bodźca. W klasycznej interpretacji Helmholtza ton ten powinien wzrastać w skali logarytmicznej 3 razy szybciej niż tony źródłowe przynajmniej w zakresie najniższych poziomów, co w rzeczywistości nie jest obserwowane. Nasz model przewiduje w przybliżeniu jednakowe z tonami źródłowymi wzrastanie poziomu tonu kombinacyjnego (por. Rys.6) co jest zbieżne z danymi eksperymentalnymi. Rola sprzężenia zwrotnego pomiędzy centralnym a peryferyjnym układem słuchowym W proponowanym modelu zgodnie z przedstawionym opisem w poprzednich rozdziałach przyjmuje się, że procesor słuchowy ma dwie grupy rejestrów, z których w jednej zapamiętywane są widma tonalne a w drugiej wirtualne dla różnych wielkości filtrów słuchowych (Rys.8). Efektywne wrażenie wysokości jako widmo psychofizyczne jest sumą widm z poszczególnych rejestrów tonalnych i wirtualnych. Istnieją jednak duże różnice percepcyjne pomiędzy wysokościami wirtualnymi a tonalnymi, o których była mowa we wprowadzeniu. W modelu naszym tłumaczymy to istnieniem sprzężenia zwrotnego między procesorem słuchowym a układem peryferyjnym. Zakładamy, ze rejestry wirtualne w przeciwieństwie do tonalnych nie biorą udziału w sprzężeniu zwrotnym. Zatem wysokości wirtualne nie są bezpośrednio w interakcji z tonami rzeczywistymi na poziomie peryferyjnym, dzięki czemu nie ulegają np. zdudnieniu, z tonami zbliżonymi częstotliwościowo. Sprzężeniem zwrotnym procesora słuchowego można wytłumaczyć również występowanie wyższych tonów kombinacyjnych typu. Załóżmy, że poprzez sprzężenie zwrotne widmo wejściowe dwutonu jest wzbogacone o ton kombinacyjny. Wykonując podobne obliczenia dla trójtonu można pokazać, że ton kombinacyjny, generowany jest na zasadzie tzn.:
S t r o n a 11. Na tej samej zasadzie uzyskuje się też dalsze tony kombinacyjne typu. Rys.7. Udział filtrów tonalnych w procesie tworzenia tonu kombinacyjnego w zależności od ilorazu. Rys.8. Uproszczony schemat procesora słuchowego Problemy i ograniczenia przedstawionego modelu Model przedstawiony w poprzednich rozdziałach posiada szereg ograniczeń. Wymieńmy kilka najważniejszych. Oparty jest na koncepcji modeli widmowych i dziedziczy wady tej klasy modeli, o których była mowa we wprowadzeniu, w szczególności nie uwzględnia informacji czasowej związanej z synchronicznością fazową nerwu słuchowego. W percepcji wysokości wirtualnej nie uwzględnia zjawisk związanych z przesunięciami składowych w wielotonach tzw. I i II efektu przesunięcia wysokości wirtualnej. Przewiduje występowanie tonów kombinacyjnych typu co nie jest do końca psychofizycznie obserwowane. Tego typu składowe obserwuje się jednak w uchu w postaci wychyleń błony podstawnej. Nie tłumaczy takich zjawisk jak strojenie, maskowanie czy supresja. Większość z tych problemów można rozwiązać wprowadzając w modelu dodatkowy wymiar czasowy. Będzie o tym mowa w wersji rozszerzonej tego artykułu. Innym problemem jest wykorzystanie symetrii jako zasady opisu zjawisk psychoakustycznych. Takie podejście jest z powodzeniem stosowane w fizyce czy chemii kwantowej ze względu na liniowość rozważanych tam struktur Fizyka struktury neuronowej mózgu jest jednak nieliniowa. Można jednak przyjąć hipotezę, że działanie sieci neuronowej jako struktury makroskopowej jest powiązane na poziomie mikroskopowym z jakimś liniowym polem kwantowym z zadaną symetrią. Pole to mogłoby realizować przetwarzanie sygnału dźwiękowego zgodnie z przedstawionym opisem. Za przyjęciem takiej hipotezy przemawia też fakt, że za przetwarzanie informacji na poziomie centralnym powinny być odpowiedzialne struktury bogatsze i bardziej złożone niż struktura neuronowa na co również wskazuje pośrednio przedstawiony model.
S t r o n a 12 BIBLIOGRAFIA [1] BOER E. de: Auditory Physics. Physical Principles in Hearing Theory II. Physics Reports 105 No.3, 141-226 (1984). [2] BOER E. de: Auditory Physics. Physical Principles in Hearing Theory III. Physics Reports 203 No.3, 125-231 (1991). [3] GOLDSTEIN, J.L. An optimum processor theory for the central formation of the pitch of complex tones, J. Acoust. Soc. Am. 54, 1496 1516 (1973). [4] GOLDSTEIN, J.L., Auditory nonlinearity, J. Acoust. Soc. Am. 41, 676-689 (1967). [5] HELLE, R., Amplitude und Phase des im Gehör gebildeten Differenztones dritter Ordnung (Amplitude and phase of third order auditory difference tone), Acustica 22, 74-87 (1969/70). [6] Helmholtz, H., Die Lehre von Tonempfindungen als physiologische Grundlage für die Theorie der Music, (F.Vieweg, Braunschweig); 1st English ed. 1897, On the sensation of tone as a physiological basis for the theory of music, Paperback ed. 1954, (Dover, New York), Chap.VII, App.XII (1863). [7] HOUSTMA, A.J.M. GOLDSTEIN, J.L., The central origin of the pitch of pure tones: evidence from musical interval recognition, J. Acoust. Soc. Am. 51, 520-529 (1972). [8] HOUSTMA, A.J.M., Experiments on pitch perception: implications for music and other processes, Archives of Acoustics, 32, 3 475-490 (2007). [9] LICKLIDER, J. C. R. A duplex theory of pitch perception, Experientia 7, 128 133 (1951) [10] MEDDIS, R., HEWITT, M. Virtual pitch and phase sensitivity studied of a computer model of the auditory periphery. I. Pitch identification, J. Acoust. Soc. Am. 89, 2866 2882 (1991). [11] MOORE B.C.J., Introduction to psychology of hearing (4th ed.), Academic Press, London, 1997. [12] PLOMP, R., Aspects of tone sensation, Academic Press, London, 1976. [13] PLOMP, R., Rate of decay of auditory system, J. Acoust. Soc. Am. 36, 277-282 (1964). [14] PLOMP, R.,, Detectability threshold for combination tones, J. Acoust. Soc. Am 37, 1110-1123 (1965). [15] ROBLES L., RUGGERO M.A., RICH N.C., Two-Tone Distortion on the Basilar Membrane of the Chinchilla Cochlea, J.Neurophysiol. 77(5), 2385 2399, (1997). [16] RUGGERO M.A., RICH N.C., Furosemide alters organ of Corti mechanism: Evidence for feedback of outer hair cells upon the basilar membrane. J.Neurosci. 11, 1057, (1991). [17] SMOORENBURG, G.F., Audibility region of combination tones, Journal of The Acoustical Society of America 52, 603-614 (1972) [18] SMOORENBURG, G.F., Combination tones and their origin,, J. Acoust. Soc. Am, 52, 615. (1972). [19] TERHARDT, E. Pitch, consonance, and harmony, J. Acoust. Soc. Am. 55, 1061 1069. (1974) [20] VAN DIJK, P., AND MANLEY, G.A. Distortion product otoacoustic emissions in the tree frog Hyla cinerea, Hear. Res. 153, 14-22. (2001). [21] WIGHTMAN, F. L. The pattern-transformation model of pitch, J. Acoust. Soc. Am. 54, 407 416 (1973). [22] ZWICKER, E. FASTL, H., Cubic difference sounds measured by threshold- and compensation-method, Acustica 29, 336-343 (1973)