POLITECHNIKA WARSZAWSKA ROZPRAWA DOKTORSKA

POLITECHNIKA WARSZAWSKA Wydział Elektroniki i Technik Informacyjnych ROZPRAWA DOKTORSKA mgr Aneta Świercz Model filtrów słuchowych a deskryptory MPEG-7 w rozpoznawaniu dźwięku Promotor prof. nzw. dr hab. inż. Jan Żera Warszawa, 2013

Podziękowania Pragnę z serca podziękować wszystkim osobom, które w jakikolwiek sposób przyczyniły się do powstania tej rozprawy. Dzięki ich zaangażowaniu i otwartości na drugiego człowieka praca ta w ogóle mogła powstać. Dziękuję promotorowi prof. nzw. dr hab. inż. Janowi Żera za jego zaangażowanie, poświęcony czas, pomysły z dziedziny psychoakustyki, cenne, merytoryczne uwagi, duże wsparcie w pisaniu pracy i wszelką inną pomoc, która przyczyniła się do powstania tej rozprawy. Prof. dr hab. inż. Władysławowi Skarbkowi dziękuję za zachętę do podjęcia studiów doktoranckich i opiekę merytoryczną w pierwszej fazie ich trwania. Dziękuję rektorowi prof. dr hab. inż. Władysławowi Wieczorkowi za cierpliwość, wyrozumiałość, wypożyczanie specjalistycznego sprzętu i zapewnianie dogodnego miejsca w akademiku. Dziękuję rektorowi prof. nzw. dr hab. inż. Andrzejowi Jakubiakowi za zakup i wypożyczanie specjalistycznego sprzętu, zapewnianie dogodnego miejsca w akademiku, wsparcie stypendialne, umiejętność zauważania problemów i natychmiastowe ich rozwiązywanie. Dziękuję prof. nzw. dr hab. inż. Andrzejowi Kraśniewskiemu za pomoc w rozwiązywaniu kwestii formalnych związanych ze studiami doktoranckimi oraz pani dyrektor Biblioteki Głównej PW Jolancie Stępniak za wypożyczanie drukarki brajlowskiej. Koleżankom i kolegom z Zakładu Elektroakustyki, zwłaszcza dr Marcinowi Lewandowskiemu, chciałam bardzo podziękować za życzliwość, za to, że zawsze mogłam liczyć na ich pomoc, służenie okiem i wsparcie techniczne. Szczególną wdzięczność pragnę wyrazić przyjaciołom, znajomym i wszystkim innym ludziom dobrej woli, którzy poświęcali mi swój czas, hojnie dzielili się swoją wiedzą i umiejętnościami, pomagali dotrzeć do niedostępnej dla mnie informacji i wspierali na wszelkie inne sposoby zwłaszcza na ostatnim etapie powstawania pracy doktorskiej. Bardzo dziękuję osobom, które wzięły udział w nagraniach niezbędnych do przeprowadzenia badań. Chciałam także serdecznie podziękować ks. Marcinowi Żurkowi, każdemu z karmelitów bosych posługujących w Warszawie od 2009 r., dominikanom, szczególnie o. Mirosławowi Pilśniakowi i o. Łukaszowi Kubiakowi, za wsparcie w pogłębianiu osobistej relacji z Bogiem - źródłem, z którego czerpałam siły do pokonywania kolejnych trudności. Wszystkim wspierajacym mnie osobom, duchownym i świeckim, z serca dziękuję za każde dobre słowo, a zwłaszcza za modlitwę. Dziękuję także fundacjom i instytucjom, z których finansowego wsparcia korzystałam podczas studiów doktoranckich i pisania rozprawy doktorskiej: Narodowemu Centrum Nauki (grant promotorski nr NN516377634), Fundacji Wspierania Rozwoju Radiokomunikacji i Technik Multimedialnych, Fundacji Mieczysława Króla, Towarzystwu Opieki nad Ociemniałymi (Działowi ds. Absolwentów) oraz Państwowemu Funduszowi Rehabilitacji Osób Niepełnosprawnych.

Streszczenie Badania opisane w rozprawie podjęto w celu ustalenia, czy zastosowanie modelu filtracji dźwięku występującej w układzie słuchowym może poprawić jakość opisu oraz rozpoznawania dźwięku z zastosowaniem deskryptorów MPEG-7 audio wysokiego poziomu. Jako model filtrów słuchowych zastosowano filtry gammatone. Oceny dokonano poprzez porównanie aplikacji, w której zastosowano filtry gammatone i aplikacji wykorzystującej oryginalny deskryptor MPEG-7 AudioSpectrumEnvelope, który analizuje dźwięk z użyciem krótkoterminowej transformaty Fouriera (STFT). Testy przeprowadzono na dźwiękach instrumentów muzycznych i mowy. Stwierdzono, że zastosowanie filtrów gammatone w miejsce STFT w deskryptorze niskiego poziomu prowadzi do lepszego rozpoznawania dźwięku z wykorzystaniem narzędzi wysokiego poziomu MPEG-7 audio. Uzyskany wynik jest istotny z uwagi na to, że obecnie stosowane deskryptory MPEG-7 audio nie odnoszą się bezpośrednio do filtracji dźwięku w układzie słuchowym. Abstract The research project described in the dissertation was undertaken to determine whether the application of a model of signal processing occurring in the auditory system can improve the quality of sound description and recognition with the use of MPEG-7 audio high-level descriptors. The model of auditory filters comprised a bank of gammatone filters. The assessment was made by comparing an application employing gammatone filters with an application using the original MPEG-7 AudioSpectrumEnvelope descriptor, which analyzes sound using short-term Fourier transform (STFT). The tests were run on the sounds of musical instruments and speech. It was found that the use of the gammatone filters in place of STFT in the low-level descriptor produces better sound recognition with the use of MPEG-7 audio high-level tools. The result is significant due to the fact that the currently used MPEG-7 audio descriptors do not make use of filters corresponding to filtering in the human auditory system. 5

Spis treści 1. Wprowadzenie....................................... 9 2. Norma MPEG-7 w zakresie dźwięku......................... 12 2.1. Deskryptory audio MPEG-7............................. 12 2.1.1. Deskryptory audio MPEG-7 niskiego poziomu............... 12 2.1.2. Narzędzia MPEG-7 audio wysokiego poziomu............... 16 2.2. Deskryptory audio MPEG-7 wykorzystane w badaniach.............. 18 2.2.1. Deskryptory audio MPEG-7 niskiego poziomu............... 18 2.2.2. Narzędzia wysokiego poziomu MPEG-7 audio............... 22 3. Modelowanie filtrów słuchowych z zastosowaniem filtru gammatone..... 24 3.1. Pasmowość słuchu................................... 24 3.1.1. Zjawiska wskazujące na pasmowe właściwości słuchu............ 24 3.1.2. Filtr Roex(p, r) jako model filtru słuchowego................ 25 3.2. Filtry gammatone i gammachirp........................... 28 4. Przegląd prac z zakresu rozpoznawania dźwięku oraz zastosowania filtru gammatone......................................... 30 4.1. Zastosowania deskryptorów MPEG-7 audio..................... 30 4.2. Rozpoznawanie dźwięku................................ 32 4.3. Zastosowania filtrów gammatone........................... 37 5. Teza i zakres pracy.................................... 39 6. Zakres zrealizowanych prac numerycznych rozpoznawania dźwięku...... 40 6.1. Deskryptor AudioSpectrumEnvelopeGT....................... 40 6.2. Aplikacja GT i aplikacja MP7............................ 41 7. Badania z użyciem dźwięków instrumentów muzycznych............ 43 7.1. Materiał eksperymentalny i sposób przeprowadzenia badań............ 43 7.1.1. Materiał eksperymentalny.......................... 43 7.1.2. Podział na zbiory uczące i testujące..................... 45 7.1.3. Sposób symulacji............................... 47 7.2. Rozpoznawanie dźwięków dziewięciu instrumentów muzycznych.......... 48 7.3. Rozpoznawanie dźwięków w podgrupach instrumentów.............. 56 7.3.1. Podział na rodziny instrumentów...................... 56 7.3.2. Podział instrumentów ze względu na zakres wysokościowy skali...... 59 7.4. Wpływ zmniejszania liczebności zbiorów uczących................. 63 7

7.5. Rozpoznawanie dźwięków instrumentów przy użyciu zbiorów uczących i testujących pochodzących z różnych źródeł nagrań................. 68 7.6. Podsumowanie rozdziału............................... 77 8. Badania z użyciem dźwięków mowy.......................... 79 8.1. Materiał eksperymentalny i sposób przeprowadzenia badań............ 79 8.1.1. Materiał eksperymentalny.......................... 79 8.1.2. Podział na zbiory uczące i testujące..................... 80 8.1.3. Sposób symulacji............................... 80 8.2. Rozpoznawanie głosów dwunastu mówców...................... 80 8.3. Rozpoznawanie głosów w podgrupach sześciu mówców............... 86 8.3.1. Rozpoznawanie głosów sześciu mówców przy podziale na głosy żeńskie i głosy męskie.................................. 86 8.3.2. Rozpoznawanie sześciu mówców przy głosach mieszanych......... 89 8.4. Wpływ zmniejszania liczebności zbiorów uczących................. 92 8.5. Rozpoznawanie głosów żeńskich i męskich...................... 99 8.6. Podsumowanie rozdziału............................... 101 9. Badania z jednoczesnym użyciem dźwięków instrumentów muzycznych i dźwięków mowy...................................... 102 9.1. Materiał eksperymentalny i sposób przeprowadzenia badań............ 102 9.2. Rozpoznawanie dźwięków instrumentów muzycznych i głosów mówców...... 103 9.3. Podsumowanie rozdziału............................... 107 10.Wnioski........................................... 108 Bibliografia........................................... 111 8

1. Wprowadzenie Postęp techniki w urządzeniach i oprogramowaniu spowodował, że w dzisiejszych czasach mamy do czynienia z powodzią informacji. Jest to informacja multimedialna, tj. przekazywana poprzez obraz, film, dźwięk i tekst. Dostępność urządzeń elektronicznych spowodowała, że każdy człowiek wytwarza dużo informacji cyfrowej, np. przy użyciu kamery czy aparatu fotograficznego. Internet umożliwia powszechny dostęp do informacji. Jednakże, by móc korzystać z informacji multimedialnej, konieczne jest zarządzanie nią. Informacja, której nie można znaleźć, w jakimś sensie nie istnieje. Opanowanie obecnej powodzi informacyjnej wymaga efektywnych narzędzi: tworzenia opisów, indeksowania, wyszukiwania, kompresji danych czy metadanych [109]. W celu rozwiązania wyżej wspomnianych problemów została stworzona grupa robocza International Electrotechnic Commettee (IEC) pod nazwą Moving Picture Experts Group (MPEG), która pracuje od roku 1988 [78, 86, 109]. MPEG opracowuje normy dotyczące m.in. kompresji i transmisji danych oraz ich opisu. Normy MPEG-1, MPEG-2 i MPEG-4 [86] standardyzują wyłącznie audiowizualną zawartość multimediów, natomiast norma MPEG-7 [51, 78, 86] pozwala na nawigowanie po ich zawartości. Celem opisu zawartości multimediów znanego pod nazwą MPEG-7, który jest przedmiotem normy ISO/IEC 15938 [51, 78, 86], jest określenie sposobu opisu różnych typów informacji zawartej w multimediach, ułatwienie szybkiej i efektywnej identyfikacji interesującej i istotnej informacji, a także efektywne zarządzanie nią. Ujednolicenie zasad opisu obiektów audio i wideo pozwala na integrację różnych systemów i aplikacji korzystających z takiej informacji, np. multimedialnych baz danych oraz aplikacji do wyszukiwania lub obróbki materiałów audio i wideo. Norma MPEG-7 opisuje informację zawartą w obiektach multimedialnych, zarówno obrazu jak i dźwięku, poprzez opisanie ich cech. W normie tej definiuje się opis i opisuje cechy intuicyjnie rozumiane jako cechy tych obiektów, takie jak kolor, kształt, wysokość dźwięku czy jego barwa, a także cechy oparte na wielkościach statystycznych. Do zapisania informacji przypisanej do konkretnej cechy obiektu stosowane są deskryptory. W celu zapewnienia kompatybilności opisu cech obiektów przez różne aplikacje lub formaty, stworzony został język definiowania deskryptorów description definition language (DDL). Normę MPEG-7 stosują takie firmy, jak Sony, Toshiba czy IBM [51]. Posiadanie opisu cech obiektów umożliwia analizę obiektów na podstawie ich cech, a nie całych obiektów, co przyspiesza proces analizy związanej np. z wyszukiwaniem obiektów. Jest to związane z tym, że algorytmy mają mniej danych do zanalizowania. 9

Ponadto, wyszukiwanie obiektów ze względu na ich cechy, a nie na podstawie zawartej w nich informacji tekstowej, otwiera nowe możliwości wyszukiwania informacji. Umiejętność wyodrębniania cech przez wyszukiwarki otwiera nową przestrzeń docierania do informacji, czego przykładem jest wyszukiwanie obiektów dźwiękowych na podstawie zarejestrowanego dźwięku. Opisywanie obiektów poprzez ich cechy, a nie poprzez metadane tekstowe, takie jak tagi, jest bardziej obiektywne. Opisy tekstowe tworzone są bowiem przez człowieka, a więc mają cechy wynikające z jego subiektywnych decyzji. Co więcej, opis obiektu na podstawie obliczeniowego charakteryzowania jego cechy może być tworzony automatycznie, natomiast do utworzenia wspomnianego opisu tekstowego wciąż potrzebny jest udział człowieka. W licznych pracach badawczych prowadzonych w minionych dziesięcioleciach w odniesieniu do percepcji dźwięku stosuje się zaawansowane modele analizy widmowo-czasowej występującej w układzie słuchowym. Możliwość opracowania tych modeli wynikała z coraz doskonalszej wiedzy o działaniu układu słuchowego, a zwłaszcza ze szczegółowego poznania właściwości słuchu jako analizatora widma działającego w czasie rzeczywistym. Znane są szerokości pasm częstotliwościowych występujących w procesie słyszenia oraz stałe uśredniania czasowego. W modelowaniu stosuje się więc reprezentacje filtrów słuchowych w postaci filtrów, takich jak Roex, gammatone i gammachirp [44, 48, 49, 97, 98]. Modele te umożliwiają numeryczną symulację analizy pasmowej dokonywanej przez układ słuchowy i na jej użycie w różnych zastosowaniach [62, 95, 97]. Ważnym etapem indeksowania dźwięku jest wyodrębnienie na podstawie analizy sygnału fonicznego cech utworu muzycznego lub innej produkcji dźwiękowej pozwalających na identyfikację obiektu dźwiękowego. Deskryptory audio standardu MPEG-7 stanowią obecnie jedną z podstawowych propozycji indeksowania i rozpoznawania dźwięku. Deskryptory te w analizie statystycznej dźwięku w żadnym stopniu nie odnoszą się do filtracji dźwięku zachodzacej w układzie słuchowym. W pracy proponuje się rozszerzenie grupy deskryptorów zgodnych ze standardem MPEG-7 o deskryptor obliczany na podstawie procedur, które realizują psychoakustyczny model analizy widmowej odpowiadający analizie widmowej dźwięku, która występuje w układzie słuchowym. Celem pracy jest stwierdzenie, czy rozszerzenie grupy deskryptorów MPEG-7 o deskryptor uwzględniający przetwarzanie sygnału odpowiadające modelowi przetwarzania dźwięku w układzie słuchowym poprawi jakość ekstrakcji cech istotnych dla rozpoznawania dźwięku, a co za tym idzie jego rozpoznawanie. W tym celu został zaimplementowany deskryptor kompatybilny ze standardem MPEG-7, lecz opisujący dźwięk za pomocą informacji uzyskanej poprzez analizę z użyciem filtrów gammatone. Przeprowadzono testy mające na celu porównanie skuteczności zastosowania nowego deskryptora w miejsce dotychczas stosowanego deskryptora w rozpoznawaniu dźwięku z wykorzystaniem deskryptorów wysokiego poziomu MPEG-7. Testy przeprowadzono na dźwiękach instrumentów muzycznych i dźwiękach mowy. Rozprawa składa się z dziesięciu rozdziałów. Deskryptory MPEG-7 audio zostały opi- 10

sane w rozdziale 2. Rozdział 3 zawiera podstawowe informacje o filtrach słuchowych. W rozdziale 4 przeprowadzono przegląd literatury. Tezę i zakres pracy przedstawiono w rozdziale 5. Nowy deskryptor oparty na filtrach pasmowych gammatone i aplikacje stosowane przy przeprowadzeniu testów opisano w rozdziale 6. W kolejnych rozdziałach 7, 8 i 9 omówiono wyniki przeprowadzonych badań. W rozdziale 10 przedstawiono wnioski pozwalające na ustosunkowanie się do tezy pracy. 11

2. Norma MPEG-7 w zakresie dźwięku 2.1. Deskryptory audio MPEG-7 Norma MPEG-7 zawiera odrębną część opisującą obiekty dźwiękowe MPEG-7 audio ISO/IEC 15938-4 [51]. Norma ta odnosi się do wszelkich form informacji dźwiękowej: muzyki, mowy, efektów dźwiękowych, ścieżek dźwiękowych filmów itp., niezależnie od form kodowania czy zapisu tej informacji. MPEG-7 audio zawiera opis cech obiektów dźwiękowych [51, 78]. Opis każdej cechy obiektu dźwiękowego zapisany jest w deskryptorze. Deskryptory MPEG-7 audio dzielą się na deskryptory niskiego poziomu (low-level descriptors LLD), zawierające opis cech obiektów dźwiękowych, oraz na narzędzia wysokiego poziomu (high-level tools HLT) stworzone na potrzeby aplikacji. Deskryptory niskiego poziomu są bardziej uniwersalne. Mogą być wykorzystywane przez narzędzia wysokiego poziomu MPEG-7 audio, ale również przez inne części systemu MPEG-7, a także przez różne aplikacje. Narzędzia wysokiego poziomu mają węższy charakter. Są przeznaczone dla aplikacji realizujących konkretne zastosowania, np. wyszukujących informację czy rozpoznających mowę. Narzędzia wysokiego poziomu wykorzystują wyniki obliczeń deskryptorów niskiego poziomu. 2.1.1. Deskryptory audio MPEG-7 niskiego poziomu Deskryptory niskiego poziomu MPEG-7 audio (LLD) [51,78] obejmują zbiór procedur obliczania pewnych wielkości statystycznych na podstawie sygnału fonicznego. Są one obliczane dla segmentu sygnału lub dla ramki okna czasowego, zazwyczaj o długości 10 ms lub 30 ms. Zdefiniowanych jest 17 deskryptorów LLD opisujących dźwięk zarówno w dziedzinie czasu jak i częstotliwości. W dziedzinie czasu opisują one kształt i moc sygnału w każdej ramce. Deskryptory opisujące dźwięk w dziedzinie częstotliwośći można podzielić na te, które bazują wyłącznie na analizie widma, odnoszą się do częstotliwości podstawowej f 0 lub opisują barwę dźwięku. Odrębna grupa deskryptorów LLD jest przeznaczona do zapamiętywania informacji o ciszy w sygnale. Deskryptory niskiego poziomu odnoszące sie do czasu opisują sygnał dźwiękowy poprzez: obwiednię jego przebiegu czasowego (wartości międzyszczytowe) AudioWaveForm, energię moc chwilową wygładzoną w czasie (wartości kwadratowe próbek przebiegu czasowego) AudioPower. 12

Deskryptory opisujące dzwięk w dziedzinie czasu są obliczane dla ramki o długości 10 ms, gdyż wartość ta mieści się w przedziale szacowanych rozdzielczości czasowych słuchu (od 8 do 13 ms [51]). Umożliwiają one oszczędną reprezentację dźwięku. Pierwszy z nich pozwala na oszczędną wizualizację przebiegu czasowego dźwięku, co może być wykorzystane przy edytowaniu dźwięku w sieci czy do szybkiego porównywania przebiegów czasowych. Bez względu na liczbę próbek przebieg czasowy może być wizualizowany z użyciem małego zestawu wartości, które reprezentują ekstrema (minimum i maksimum) próbek w ramkach. Drugi z deskryptorów zawiera moc chwilową (energię), która jest użyteczną miarą amplitudy sygnału jako funkcji czasu P (t) = s(t) 2. Umożliwia on oszczędną reprezentację widma mocy sygnału dzięki temu, że moc chwilowa jest spójna z widmem mocy. W zestawieniu z deskryptorami opisującymi dźwięk w dziedzinie częstotliwości deskryptor ten umożliwia oszczędną reprezentację widma mocy jednocześnie w dziedzinie czasu i częstotliwości. W tym celu wartości deskryptora AudioPower należy przekonwertować do skali decybelowej. W dziedzinie częstotliwości deskryptory audio MPEG-7 niskiego poziomu pochodzące z analizy czasowo-częstotliwościowej sygnału dźwiękowego opisują obiekt dźwiękowy poprzez: widmo dźwięku w logarytmicznej skali częstotliwości AudioSpectrumEnvelope, środek ciężkości (centroid) widma mocy o logarytmicznej skali częstotliwości AudioSpectrumCentroid, rozproszenie widma mocy o logarytmicznej skali częstotliwości (drugi moment widma mocy) AudioSpectrumSpread, spłaszczenie widma sygnału dźwiękowego w określonych pasmach częstotliwości w skali logarytmicznej (średnia geometryczna przez średnią arytmetyczną) AudioSpectrumFlatness, funkcje bazowe (stosowane do rzutowania metadanych widmowych o dużej wymiarowości na reprezentacje o małej wymiarowości) AudioSpectrumBasis, reprezentację cech widma o małej liczbie wymiarów po zrzutowaniu na bazę o zredukowanym wymiarze AudioSpectrumProjection. Deskryptory z tej grupy oparte są na obliczaniu wielkości odnoszących się do ogólnego opisu dźwięku i jego cech szumowych. Są one obliczane dla ramki o długości 30 ms. Ramki są przesuwane o 10 ms. Długość okna 30 ms dobrana jest tak, aby pozwolić na analizę sygnału dźwiękowego o najniższej rozpatrywanej częstotliwości 62,5 Hz. Norma zakłada, że analizowany jest sygnał w przedziale od 62,5 Hz do 16 khz. Deskryptory te mogą być zastosowane do wizualizacji spektrogramu, do wyszukiwania i porównywania (AudioSpectrumEnvelope), do opisu kształtu mocy (AudioSpectrumCentroid, AudioSpectrumSpread, AudiospectrumFlatness), do automatycznej klasyfikacji i wyszukiwania czy do sporządzania wyciągu ze spektrogramu (AudiospectrumBasis i AudioSpectrumProjection). Wszystkie te deskryptory opisują obiekt dźwiękowy w logaryt- 13

micznej skali częstotliwości. Zdecydowano się na logarytmiczną skalę częstotliwości, żeby uzyskać zwięzłą reprezentację zawartości częstotliwościowej, jak również dlatego, że skala taka w przybliżeniu odzwierciedla logarytmiczną odpowiedź ludzkiego ucha. Deskryptor AudioSpectrumEnvelope jest wyjściowym deskryptorem dla tej grupy deskryptorów. Wszystkie one obliczają dodatkowe wartości (cechy) na podstawie współczynników widma krótkoterminowej transformaty Fouriera (short-term Fourier transform STFT) z logarytmiczną osią częstotliwości zapamiętanych w tym deskryptorze. Centroid widma wskazuje, czy widmo mocy jest zdominowane przez niskie czy wysokie częstotliwości oraz, dodatkowo, jest skorelowany z podstawowym percepcyjnym wymiarem barwy dźwięku, tzn. z ostrością. Rozproszenie widma wskazuje, czy jest ono skoncentrowane w pobliżu jego centroidu, czy też rozproszone w pełnym zakresie częstotliwości. Pozwala na rozróżnienie dźwięków tonowych od szumowych. Płaskość widma natomiast wyraża odchylenie widma mocy sygnału od kształtu płaskiego, co w dziedzinie częstotliwości odpowiada sygnałowi typu szumowego albo impulsowego. Duże odchylenie od kształtu płaskiego może oznaczać obecność komponentów tonalnych. Wartości zapamiętane w tym deskryptorze są wykorzystywane przez narzędzia wysokiego poziomu MPEG-7 audio związane z podpisem audio. Ostatnie dwa deskryptory z tej grupy AudioSpectrumBasis i AudioSpectrumProjection zawierają zwięzłą reprezentację najistotniejszej informacji statystycznej odnoszącej się do widma analizowanych segmentów dźwiękowych. Te dwa typy są stosowane zawsze razem. Reprezentację tę uzyskuje się poprzez redukcję wymiarów widma częstotliwościowego za pomocą SVD (Singular Value Decomposition). Redukowane jest widmo otrzymywane przy obliczaniu wcześniej opisanego deskryptora AudioSpectrumEnvelope. Informacje zapisane w tych deskryptorach są wykorzystywane przez narzędzia wysokiego poziomu MPEG-7 audio przeznaczone do ogólnego rozpoznawania i indeksowania dźwięku. Deskryptory opisujące harmoniczność dźwięku opisują ją poprzez: częstotliwość podstawową AudioFundamentalFrequency, stopień harmoniczności AudioHarmonicity. Deskryptory te opisują harmoniczną strukturę dźwięku. Są one obliczane dla okien czasowych o długości 30 ms, przesuwanych o 10 ms. Cechy te są uzupełniające w stosunku do metadanych, takich jak AudioSpectrumEnvelope, przy obliczaniu których informacja o harmoniczności sygnału jest utracona. Częstotliwość podstawowa stanowi dobrą predykcję muzycznej wysokości tonu i intonacji mowy. Jest więc ważną metadaną sygnału dźwiękowego. Nie jest ona przeznaczona do opisu melodii, ale mimo to możliwe jest wykonywanie porównań pomiędzy danymi opisanymi za pomocą deskryptorów melodii i danymi opisanymi za pomocą częstotliwości podstawowej. Miara harmoniczności pozwala na rozróżnienie dźwięków, które mają widmo harmoniczne (dźwięki muzyczne, mowa dźwięczna itp.) i tych, które mają widmo nieharmoniczne (instrumenty perkusyjne, zmieszanie wielu instrumentów itp.). Deskryptor AudioHarmonicity zawiera dwie miary: HarmonicRatio i UpperLimitOfHarmonicity. Pierwsza z nich opisuje stosunek mocy składowych harmo- 14

nicznych do mocy całkowitej sygnału, zaś druga określa częstotliwość, powyżej której widmo nie może być uważane za harmoniczne. Kolejna grupa deskryptorów audio MPEG-7 deskryptory barwy dźwięku opisują dźwięk poprzez: czas narastania (logarytm dziesiętny czasu trwania od chwili pojawienia się sygnału do chwili osiągnięcia przez niego wartości ustalonej) LogAttackTime, czas uśredniony po obwiedni energii TemporalCentroid, średnią częstotliwość przedziałów w widmie mocy ważoną mocą SpectralCentroid, centroid składowych harmonicznych (amplitudowo ważona średnia (skala liniowa) z częstotliwości składowych harmonicznych) HarmonicSpectralCentroid, odchylenie widmowych składowych logarytmicznych amplitudy od obwiedni globalnej HarmonicSpectralDeviation, odchylenie standardowe składowych harmonicznych ważone amplitudowo, normalizowane za pomocą wartości HarmonicSpectralCentroid HarmonicSpectralSpread, znormalizowaną korelację pomiędzy amplitudami składowych harmonicznych dwóch przyległych ramek HarmonicSpectralVariation. Deskryptory z tej grupy są obliczane dla segmentów dźwiękowych, np. odpowiadających pojedynczym nutom. W przypadku czterech ostatnich: HarmonicSpectralCentroid, HarmonicSpectralDeviation, HarmonicSpectralSpread i HarmonicSpectralVariation wartości dla segmentów dźwiękowych są średnimi z wartości tych deskryptorów obliczanych dla ramek czasowych o długości 30 ms przemnożonych przez okno Hamminga i przesuwanych o 10 ms. Dwa pierwsze deskryptory z tej grupy: LogAttackTime i Temporal- Centroid opisują dźwięk w dziedzinie czasu. Pozostałe deskryptory z opisujących barwę dźwięku opisują dźwięk w dziedzinie częstotliwości. W odróżnieniu od wcześniejszej grupy odnoszącej się do częstotliwości, deskryptory barwy opisują dźwięk w liniowej, a nie logarytmicznej skali częstotliwości. Wyjątek stanowi deskryptor HarmonicSpectralDeviation, który obliczany jest w logarytmicznej skali częstotliwości. Deskryptory z tej grupy są wykorzystywane przez narzędzia wysokiego poziomu opisujące barwę dźwięku. Ostatnią grupę deskryptorów MPEG-7 audio niskiego poziomu stanowią deskryptory opisujące ciszę. Cisza jest rozumiana jako cecha oznaczająca, że w segmencie nie występuje żaden znaczący dźwięk. Podstawową informacją zawartą w tych deskryptorach jest czas rozpoczęcia i czas trwania ciszy w segmencie. Metadane te zapamiętują minimalny próg czasowy decydujący, czy wycinek sygnału jest traktowany jako segment ciszy oraz współczynnik wskazujący, czy dany segment zawiera ciszę. Informacja o ciszy w danym materiale dźwiękowym ma znaczenie semantyczne, np. cisza w filmie zazwyczaj oznacza, że za chwilę wydarzy się coś ważnego. Deskryptory z tej grupy umożliwiają bezpośredni dostęp do semantycznych zdarzeń materiału dźwiękowego. Deskryptory ciszy są również przydatne do segmentacji materiału dźwiękowego na mniejsze części, dając dostęp do jego fizycznej struktury, np. na fragmenty rozdzielone ciszą. Mogą być też używane przez narzę- 15

dzia segmentacji do wstawiania komentarzy i wyszukiwania, np. segmentacji wiadomości czy oprogramowania do wstawiania podpisów. 2.1.2. Narzędzia MPEG-7 audio wysokiego poziomu Narzędzia wysokiego poziomu MPEG-7 audio (HLT) [51,78] przeznaczone są do wspierania konkretnych zastosowań. Wykorzystują one informacje zapamiętane w deskryptorach niskiego poziomu LLD. Norma MPEG-7 zawiera pięć grup narzędzi wysokiego poziomu. Są to narzędzia służące do: automatycznej identyfikacji sygnałów dźwiękowych Audio Signature, opisywania percepcyjnych cech dźwięków instrumentów muzycznych Timbre, automatycznego rozpoznawania i indeksowania dźwięku General Sound Recognition and Indexing, reprezentacji danych uzyskiwanych na wyjściu ASR (Automatic Speech Recognition) Spoken Content, reprezentacji melodii monofonicznej Melody. Deskryptor sygnatury dźwięku (Audio Signature) zawiera zwięzłą reprezentację sygnału dźwiękowego. Reprezentacja ta wykorzystywana jest do uzyskania unikatowego identyfikatora zawartości dźwięku, który może być stosowany do skutecznej automatycznej identyfikacji sygnałów dźwiękowych. Deskryptor ten obliczany jest na podstawie informacji zawartej w deskryptorach LLD AudioSpectrumFlatness. Deskryptory barwy dźwięku (Timbre) opisują percepcyjne cechy dźwięków instrumentów muzycznych, takie jak ich narastanie, żywość czy głębokość. Barwa dźwięku jest powszechnie definiowana w literaturze jako zbiór cech percepcyjnych, które są powodem różnego brzmienia dwóch dźwięków o takiej samej wysokości i głośności. Celem schematu metadanych barwy dźwięku jest opisanie tych cech percepcyjnych z użyciem ograniczonego zestawu deskryptorów. Deskryptory barwy dzwięku do obliczeń wykorzystują deskryptory niskiego poziomu (LLD) opisujące barwę dźwięku (rozdz. 2.1.1). Deskryptory barwy dźwięku wysokiego poziomu mogą być wykorzystane przez: narzędzia autorskie przeznaczone dla projektantów dźwięku i muzyków (zarządzanie bazą danych próbek muzycznych), narzędzia wyszukiwania dla producentów ( zapytanie poprzez przykład na podstawie cech percepcyjnych). Kolejna grupa General Sound Recognition and Indexing wspiera aplikacje automatycznego rozpoznawania i indeksowania dźwięków. Narzędzia te mogą być stosowane zarówno do klasyfikacji dźwięków dla klas o szerszym zakresie, takich jak: efekty dźwiękowe, muzyka, mowa, jak również do klafyfikacji dźwięków do klas o węższym zakresie, np. gatunków muzycznych. Narzędzia te do klasyfikacji wykorzystują ukryte modele Markova (HMM hidden Markov model). Są one obliczane na podstawie informacji zawartej w deskryptorach LLD: AudioSpectrumBasis i AudioSpectrumProjection. 16

Deskryptory treści wypowiadanej (Spoken Content) są reprezentacją danych uzyskiwanych na wyjściu systemów rozpoznawania mowy (ASR). Zawierają one dane zdekodowane przez system rozpoznawania mowy, a także informacje o systemie rozpoznawania mowy i rozpoznawanych osobach. Deskryptory te mogą być wykorzystane w procesach wyszukiwania: indeksowaniu i wyszukiwaniu w strumieniu dźwiękowym oraz indeksowaniu obiektów multimedialnych z komentarzami mówionymi. Przykładowe zastosowania uwzględniają: Przywoływanie danych dźwiękowych/wideo na podstawie zapamiętanych zdarzeń mowy. Przykładem może być film lub nagranie wideo, w którym postać lub osoba wypowiada określone słowo lub sekwencję słów. Dokument źródłowy jest znany, a wynikiem wyszukiwania jest pozycja w tym dokumencie. Wyszukiwanie dokumentów zawierających mowę. W tym przypadku, istnieje baza danych składająca się z oddzielnych dokumentów mówionych. Wynikiem wyszukiwania są odpowiednie dokumenty oraz, opcjonalnie, pozycja dopasowanej mowy w tych dokumentach. Wyszukiwanie dokumentów multimedialnych z komentarzami mówionymi. Jest to podobne do wyszukiwania dokumentów zawierających mowę, ale część mówiona tych dokumentów zwykle bywa dosyć krótka (kilka sekund). Wynikiem wyszukiwania jest dokument zawierający przypisany komentarz mówiony, a nie sama mowa. Przykładem może być fotografia wyszukana z wykorzystaniem komentarza mówionego. Deskryptory melodii (Melody) stanowią bogatą reprezentację melodii monofonicznych. Dają one możliwość efektywnego i wydajnego dopasowania podobieństwa melodii. Grupa tych deskryptorów zawiera narzędzia służące do zwięzłej i efektywnej reprezentacji konturów melodii oraz narzędzia do obszernej, kompletnej reprezentacji melodii. Obydwa narzędzia pozwalają na dopasowywanie melodii oraz dostarczają informacji dotyczącej melodii, która może być wykorzystywana w procesie wyszukiwania. Pierwsze narzędzie (MelodyContour) opisuje melodie w bardzo uproszczony sposób poprzez różnice między sąsiednimi nutami. Różnice te są określane w skali pięciostopniowej. Dostarcza ono informacji także o innych cechach melodii, takich jak rytm, ale w formie bardzo uproszczonej. Może być ono stosowane np. przez aplikacje zapytanie przez nucenie. Drugie narzędzie (MelodySequence) natomiast opisuje melodie w sposób dużo bardziej precyzyjny, zapamiętuje wysokości i czasy trwania nut. Poziom szczegółowości informacji zapamiętanej o melodii jest porównywalny z tym, który można odczytać z jej zapisu nutowego. Oprócz informacji o melodii może ono dostarczać również informacji o związanym z nią tekście. Narzędzie to, w odróżnieniu od pierwszego umożliwia zrekonstruowanie linii melodycznej i tekstu utworu muzycznego. W deskryptorach tej grupy zapamiętana jest również bardzo szczegółowa informacja dotycząca percepcyjnych cech melodii, takich jak: nastrój (wesoła, smutna), rodzaj nagrania (studio, sala koncertowa), energia (spokojna, dynamiczna). 17

2.2. Deskryptory audio MPEG-7 wykorzystane w badaniach W badaniach wykorzystane zostały deskryptory mające zastosowanie w rozpoznawaniu i indeksowaniu dźwięku. W procesie rozpoznawania dźwięku zgodnym ze standardem MPEG-7 [51,78] wykorzystywane są deskryptory niskiego poziomu: AudioSpectrumEnvelope, AudioSpectrumBasis i AudioSpectrumProjection, oraz wysokiego poziomu z grupy do ogólnego rozpoznawania i indeksowania dźwięku: SoundModel, SoundClassification- Model, SoundModelStatePath i SoundModelStateHistogram. W rozdziale tym znajduje się dokładniejszy opis wyżej wymienionych deskryptorów z wyjątkiem deskryptora SoundModelStateHistogram, gdyż ten nie był wykorzystany w badaniach. 2.2.1. Deskryptory audio MPEG-7 niskiego poziomu Wszystkie trzy opisane poniżej deskryptory niskiego poziomu audio MPEG-7 Audio- SpectrumEnvelope, AudioSpectrumBasis i AudioSpectrumProjection [51, 78] są metadanymi widma dźwięku. Pochodzą one z czasowo-częstotliwościowej analizy sygnału dźwiękowego. Są obliczane na podstawie krótkoterminowej transformaty Fouriera (rozdz. 2.1.1). Mają one wspólne atrybuty zapamiętane w deskryptorze AudioSpectrumAttributeGrp: loedge dolna częstotliwość krawędzi pasm rozłożonych logarytmicznie, hiedge górna częstotliwość krawędzi pasm rozłożonych logarytmicznie, Resolution rozdzielczość częstotliwości widma przedstawionego w skali logarytmicznej (liczba współczynników na każde pasmo widma (oktawę) pomiędzy loedge i hiedge). Parametry loedge i hiedge określają zakres częstotliwości, w jakim opisywany jest sygnał dźwiękowy. Parametr Resolution decyduje o dokładności spectogramu poprzez określenie liczby współczynników na pasmo oktawę. Przyjmuje on wartości od 1 oktawy do 8 oktaw. Przykładowo Resolution = 1 oznacza, że każda oktawa opisywana jest 16 4 przez 4 współczynniki. Atrybuty te przyjmują domyślnie następujące wartości: loedge = 62,5 Hz 8 oktaw poniżej hiedge, hiedge = 16000 Hz przyjęta w normie MPEG-7 jako najwyższa częstotliwość słyszalna przez człowieka, Resolution = 1 tzn. 1 współczynnik na oktawę. Pierwszy z trzech deskryptorów audio MPEG-7 niskiego poziomu wykorzystanych w badaniach AudioSpectrumEnvelope opisuje widmo dźwięku za pomocą współczynników krótkookresowego widma Fouriera (STFT) w logarytmicznej skali częstotliwości. Deskryptor ten opisuje krótkoterminowe widmo mocy na podstawie przebiegu czasowego dźwięku. Jest on obliczany dla ramki czasowej 30 ms. Ramki są przesuwane o 10 ms. W deskryptorze, dla każdego okna czasowego, zapamiętane jest widmo składające się z jednego współczynnika reprezentującego moc pomiędzy 0 Hz a loedge, ciągu współczynników reprezentujących moc w pasmach o szerokości określonej przez Resolution pomiędzy 18

loedge a hiedge oraz współczynnika reprezentującego moc powyżej hiedge. Jeśli HiEdge jest równe połowie częstotliwości Nyquista, to współczynnik opisujący sygnał w przedziale powyżej HiEdge jest równy 0. W efekcie deskryptor ten opisuje dźwięk poprzez listę współczynników charakteryzujących dźwięk w poszczególnych przedziałach czasowych i częstotliwościowych, a dokładniej poprzez serię wektorów charakteryzujących przedziały częstotliwościowe w przedziałach czasowych. W deskryptorze zapamiętana jest macierz B F, gdzie B jest liczbą pasm, a F liczbą ramek czasowych analizowanego dźwięku. Przykładowo, jeśli loedge=62,5 Hz, hiedge=16000 Hz, Resolution = 1, to każda ramka sygnału reprezentowana jest przez 34 współczynniki: 1 poniżej 62,5 Hz, 1 4 powyżej 16000 Hz i po 4 w każdej z 8 oktaw. W celu obliczenia AudioSpectrumEnvelope należy przeprowadzić następujące operacje: 1. Wyznaczyć długość kroku h; zazwyczaj 10 ms. 2. Ustalić długość okna lw; powinna być ona 3 razy dłuższa od kroku zazwyczaj wynosi 30 ms. 3. Wyznaczyć długość STFT nf f t; najmniejsza potęga dwójki większa od liczby próbek sygnału w oknie o długości lw. 4. Obliczyć STFT w każdym oknie, stosując okna Hamminga długości lw, okna przesuwane są o krok h. 5. W każdej ramce czasowej częstotliwość dzielona jest na przedziały zgodnie z zadaną rozdzielczością. W każdym przedziale częstotliwościowym obliczana jest średnia moc widma P w zgodnie ze wzorem: P w = gdzie X w (k) jest widmem sygnału. nfft 1 1 lw NF F T X w (k) 2, 6. Przepróbkować do skali logarytmicznej. Niech DF będzie odstępem częstotliwości dla STFT (DF = sr/nf F T ). Współczynnik STFT oddalony o więcej niż DF/2 od krawędzi pasma jest przypisany temu pasmu. Współczynnik oddalony o mniej niż DF/2 od krawędzi pasma jest proporcjonalnie dzielony pomiędzy pasmami.. Deskryptory AudioSpectrumBasis i AudioSpectrumProjection służą do zwięzłej reprezentacji widma (rozdz. 2.1.1). Bardziej zwięzłą reprezentację widma można uzyskać poprzez zmniejszenie liczby współczynników opisujących widmo w każdej ramce sygnału poprzez odpowiedni dobór parametru Resolution co opisano powyżej. Taka redukcja widma wiąże się jednak z utratą istotnej informacji charakteryzującej dźwięk. Zatem norma MPEG-7 audio proponuje redukcję wymiaru całej macierzy reprezentującej obiekt dźwiękowy, zapamiętanej w deskryptorze AudioSpectrumEnvelope, algorytmem SVD (singular value decomposition). Ta metoda powoduje usunięcie z macierzy informacji nieistotnej statystycznie. W efekcie otrzymuje się zredukowaną informację o widmie sygnału z mniejszą k=0 19

utratą istotnej informacji niż przy redukcji wspólczynników opisujących widmo. Rezultat tej redukcji zapamiętany jest w deskryptorach AudioSpectrumBasis i AudioSpectrum- Projection. Pierwszy z nich zapamiętuje funkcje bazowe, zaś drugi macierz, którą należy pomnożyć przez funkcje bazowe, żeby odtworzyć pierwotną macierz reprezentującą obiekt dźwiękowy, czyli jego deskryptor AudioSpectrumEnvelope. Deskryptor AudioSpectrumBasis zawiera funkcje bazowe, które są stosowane do rzutowania metadanych widmowych o dużej wymiarowości na reprezentacje o małej wymiarowości. Funkcje te zapamiętane są jako macierz B K, gdzie B jest długością widma, a K jest liczbą funkcji bazowych. W deskryptorze tym przechowywana jest także informacja o parametrach widmowych wektorów bazowych zapamiętanych w deskryptorze AudioSpectrumAttrGroup. Deskryptor AudioSpectrumProjection stanowi uzupełnienie deskryptora AudioSpectrumBasis i jest stosowany do reprezentacji cech widma o małej liczbie wymiarów po zrzutowaniu na bazę o zredukowanym wymiarze. W deskryptorze tym zapamiętana jest reprezentacja widma o małej liczbie wymiarów, wykorzystująca rzutowanie na widmowe funkcje bazowe jako macierz F K + 1, gdzie F jest liczbą ramek czasowych, a K jest liczbą funkcji bazowych. W celu obliczenia AudioSpectrumBasis i AudioSpectrumProjection należy: 1. Obliczyć deskryptor AudioSpectrumEnvelope zgodnie z opisem podanym powyżej. Deskryptor AudioSpectrumEnvelope zawiera F wektorów x t o długości B, gdzie: F liczba ramek czasowych, B liczba współczynników opisujących widmo sygnału w ramce. 2. Unormować skalę logarytmiczną: Przekształcić wektory widmowe x t opisujące kolejne ramki czasowe w deskryptorze AudioSpectrumEnvelope do skali decybelowej: κ = 10 log 10 (x t ) i dla uzyskanego wektora obliczyć normę l 2 : r = B κ k2. Nowy wektor widmowy unormowany jednostkowo jest wyrażony jako: k=1 tildemathbfx = κ r. 3. Obliczyć macierz obserwacji: umieścić każdą znormalizowaną ramkę widmową x w wierszu macierzy X. Rozmiar uzyskanej macierzy wynosi F B, gdzie F jest liczbą ramek czasowych, a B jest liczbą współczynników opisujących przedziały częstotliwości. Macierz będzie miała następującą strukturę: 20

T x 1 T x X = 2... x T F. 4. Wyznaczyć bazę z użyciem dekompozycji na wartości singularne (SVD). Po przekształceniach macierzy X zapamiętanej w deskryptorze AudioSpectrumEnvelope wyznaczyć wektory bazowe za pomocą algorytmu SVD X = USV T, gdzie X jest faktoryzowana na wynik mnożenia trzech macierzy; bazy wierszowej U, diagonalnej macierzy wartości singularnych S i transponowanej macierzy kolumnowych funkcji bazowych V. Należy zredukować widmową (kolumnową) bazę, zachowując tylko pierwsze k funkcji bazowych, tzn. pierwsze k kolumn V : V K = [v 1, v 2,, v k ]. Tak więc macierz V jest wymiaru B K, gdzie B jest liczbą przedziałów częstotliwości, a K liczbą wektorów bazowych. W przypadku zastosowania do klasyfikacji dźwięku i agregacji widma, za k przyjmuje się zazwyczaj od 3 do 10 funkcji bazowych. Funkcje bazowe są przechowywane w deskryptorze AudioSpectrumBasis. 5. Obliczyć deskryptor AudioSpectrumProjection: posiadając wektory bazowe, możemy informację o wektorach x t zapisać w bardziej skompresowany sposób: y t = [r t, x T t v 1, x T t v 2,, x T t v k ]. Macierz Y, której wierszami są wektory y t jest wymiaru F K, gdzie: F liczba ramek czasowych, K liczba wektorów bazowych. Macierz ta zapamiętywana jest w deskryptorze AudioSpectrumProjection. Redukcja wymiarowości widma odgrywa znaczącą rolę w zastosowaniu automatycznej klasyfikacji z powodu zwięzłej reprezentacji najistotniejszej informacji statystycznej odnośnie segmentów dźwiękowych. Jak wiadomo, cechy te są przydatne w automatycznej klasyfikacji i wyszukiwaniu, dlatego też metadane AudioSpectrumBasis i AudioSpectrum- Projection są stosowane w narzędziach klasyfikacji i indeksowania dźwięku do automatycznej klasyfikacji segmentów dźwiękowych z zastosowaniem modeli probabilistycznych. 21

2.2.2. Narzędzia wysokiego poziomu MPEG-7 audio W badaniach zostały wykorzystane narzędzia wysokiego poziomu do ogólnego rozpoznawania i indeksowania dźwięku [51, 78]. Narzędzia te wspierają aplikacje ogólnej klasyfikacji i indeksowania treści, np.: automatyczną klasyfikację i segmentację dźwięku na klasy o szerokim zakresie, takie jak mowa, muzyka, odgłosy tła, albo na klasy o węższym zakresie, takie jak gatunki muzyczne. W standardzie MPEG-7 do rozpoznawania dźwięku stosowane są ukryte modele Markowa (HMM) [66]. Modele te z powodzeniem wykorzystywane są w różnorodnych algorytmach wyszukujących informację. Wymagają one skondensowanej reprezentacji cech zjawiska, dla którego są budowane wynika to z dużej złożoności obliczeniowej tych modeli. W procesie rozpoznawania zgodnym z normą MPEG-7 ukryte modele Markova uczone są na zredukowanej informacji o dźwiękach zapamiętanej w macierzach AudioSpectrumProjection (rozdz. 2.2.1). Do opisywanej w tym rozdziale grupy deskryptorów zaliczają się: SoundModel, SoundClassificationModel, i SoundModelStatePath. Deskryptor SoundModel przechowuje informacje o pojedynczej klasie dźwięków. Zawiera on model tej klasy (czyli ciągły ukryty model Markowa CHMM continous hidden Markov model) i jej etykietę. Parametry ukrytego modelu Markowa są obliczane z zastosowaniem algorytmu Bauma-Welcha, operującego na dźwiękowym zbiorze danych trenujących. Raz nauczony ukryty model Markowa może być wykorzystywany do porównywania nowych dźwięków z tym modelem w celu określenia stopnia dopasowania. Domyślnym deskryptorem przeznaczonym do klasyfikacji dźwięku jest AudioSpectrum- Projection. Razem z każdym modelem przechowywany jest zbiór funkcji bazowych, które są stosowane do obliczania rzutów widm segmentów dźwiękowych; są one zapamiętane w deskryptorze AudioSpectrumBasis. Klasyfikacja może się odbywać na podstawie innych deskryptorów. Deskryptor SoundModel zawiera: ukryty model Markowa (HMM) rozszerzony deskryptor ContinuousHiddenMarkovModelType zdefiniowany w ISO/IEC 15938, Część 5 [52]; HMM składa się z trzech komponentów θ j = {A j, B j, π j }, odpowiadających początkowemu rozkładowi stanów Initial π i = P (q 1 = i), gdzie q t {1 K}, macierzy przejść stanów Transitions A ij = P (q t = j q t 1 = i) oraz zdefiniowanego dla każdego stanu ObservationDistributionType B j (y) = P (y q t = j). Początkowy rozkład stanów i ich prawdopodobieństwa przejść charakteryzują zmienność stanów w czasie. SoundClassLabel unikatowa etykieta albo odniesienie do etykiety w schemacie klasyfikacji, która określa klasę dźwięków modelu. SpectrumBasis funkcje bazowe dla klasy dźwięków uzyskane na podstawie danych. SoundModelRef opcjonalne odniesienie do SoundModel, które wskazuje na instancję zawierającą definicję modelu. Deskryptor SoundClassificationModel zawiera zbiór modeli klas opisujących dźwięki 22

przez deskryptory SoundModel poszczególnych klas. W deskryptorze tym zapamiętana jest również informacja o relacjach między pojedynczymi modelami kategoriami, tj. ich zależności w hierarchicznej strukturze klas. Deskryptor ten zawiera: SoundModel sekwencja instancji schematów metadanych SoundModel definiująca opcje modeli dla klasyfikatora. Deskryptor SoundModelStatePath składa się z sekwencji stanów wygenerowanych przez SoundModel dla danego segmentu dźwiękowego. Deskryptor ten przechowuje ciąg indeksów stanów, który odnosi się do stanów ciągłego ukrytego modelu Markowa z Sound- Model. Sekwencja stanów dla konkretnego dźwięku jest generowana za pomocą algorytmu Viterbiego. Deskryptor ten zawiera: StatePath regularnie próbkowany ciąg indeksów stanu przedstawiony za pomocą liczb całkowitych z zakresu 1 K, gdzie K jest liczbą stanów. Wartość ta reprezentuje kolejność stanów w ukrytym modelu Markowa. SoundModelRef Odniesienie do instancji schematu metadanej SoundModel, która wygenerowała podaną StatePath. 23

3. Modelowanie filtrów słuchowych z zastosowaniem filtru gammatone 3.1. Pasmowość słuchu 3.1.1. Zjawiska wskazujące na pasmowe właściwości słuchu Analityczne zdolności słuchu pojawiają się na etapie obwodowego układu słuchowego już na poziomie mechanicznym, gdy przebieg czasowy sygnału akustycznego wywołuje falę biegnącą na błonie podstawnej ucha wewnętrznego. Na rys. 3.1 przedstawiona jest wizualizacja drgań błony podstawnej w uchu wewnętrznym. Kolejne przebiegi oznaczone liczbami 1 4 reprezentują propagację wychylenia w czterech momentach czasowych, a linia przerywana zaznacza obwiednię wychyleń. Obwiednia wychyleń ma wyraźny kształt filtru pasmowego o niesymetrycznym nachyleniu zboczy. Maksimum obwiedni przypada w różnej odległości od początku błony podstawnej (podstawy ślimaka) w ścisłym powiązaniu z częstotliwością sygnału wejściowego drgań strzemiączka, co uwidocznione jest na rys. 3.2. Jest to pasmowa analiza widmowa przeprowadzana w układzie słuchowym. Obrazy przedstawione na rys. 3.1 i 3.2 pokazują pasmowość układu słuchowego już na etapie pobudzenia mechanicznego. Ponadto wskazują na rozmycie pobudzenia, ponieważ każda z przedstawionych charakterystyk jest odpowiedzią na pojedynczą częstotliwość w widmie fourierowskim. Rozmycie to wyjaśnia zjawisko maskowania dźwięków, jako wynikające z nakładania się pobudzeń powstających w odpowiedzi na prążki widmowe o bliskiej częstotliwości. Na dalszym etapie obserwowane są neurologiczne krzywe strojenia, które pokazują, że odpowiedź pojedynczego neuronu zmienia się w funkcji częstotliwości sygnału pobudzenia, odzwierciedlając charakterystykę typową dla filtru pasmowego (rys. 3.3). Zjawiska pokazane na rys. 3.1 3.3 znajdują swoje odzwierciedlenie na poziomie percepcyjnym. Pierwsze dowody eksperymentalne pasmowości słuchu, jako narzędzia pasmowej analizy częstotliwościowej sygnału pochodzą z lat 40-tych XX w. Fletcher [38] zaobserwował, że próg maskowania tonu (dźwięku wynikającego z przebiegu sinusoidalnego) rośnie wraz ze wzrostem szerokości pasma szumu maskującego o tej samej częstotliwości środkowej co częstotliwość tonu tylko do pewnej szerokości pasma, a potem pozostaje stały (rys. 3.4). Wskazuje to na fakt, że tylko częstotliwości pasma szumu bliskie częstotliwości maskowanego tonu biorą udział w maskowaniu. Fletcher [38] wprowadził pojęcie stosunku krytycznego dla oceny ilościowej tego zjawiska. 24

Rysunek 3.1. Kolejne fazy i obwiednia fali biegnącej na błonie podstawnej ucha wewnętrznego [102]. Rysunek 3.2. Obwiednia i przesunięcie fazowe fali biegnącej na błonie podstawnej ucha wewnętrznego w zależności od częstotliwości pobudzenia [102]. Rysunek 3.3. Schematyczny obraz neurologicznej krzywej strojenia neuronu o częstotliwości charakterystycznej cf [44]. Rysunek 3.4. Wzrost progu maskowania przy wzroście szerokości pasma szumu maskującego [84]. Badania późniejsze doprowadziły do pierwszej miary pasmowości słuchu, czyli pasmowego filtru słuchowego, określanej mianem pasma krytycznego [130]. Ostatecznie badania pasmowości słuchu prowadzone przez Pattersona [94] metodą maskowania szumem pasmowo zaporowym doprowadziły do wyznaczenia najdokładniejszej miary szerokości filtrów słuchowych określane jako ERB (Equivalent Rectangular Bandwidth). 3.1.2. Filtr Roex(p, r) jako model filtru słuchowego W psychoakustycznych badaniach słuchu pasmowość słuchu wiąże się ze zjawiskiem maskowania. Przyjmuje się model odpowiadający zarówno obserwacjom przedstawionym na rys. 3.1 3.3, jak i związany z innymi badaniami słuchu, że wokół maskowanego tonu o określonej częstotliwości istnieje filtr pasmowo przepustowy, przez który przedostaje się zarówno energia tonu maskowanego, jak i energia maskującego go szumu. Przyjmuje się założenie, że w maskowaniu tonu uczestniczy tylko ta cześć energii szumu, która 25

przechodzi przez filtr, przy zachowaniu ważącej charakterystyki filtru. Odpowiada to w pełni różnym obserwacjom, że jedynie energia sygnału maskującego bliska częstotliwości sygnału maskowanego uczestniczy w maskowaniu. Patterson [94] uzyskał znaczną dokładność wyznaczenia filtru słuchowego w drodze eksperymentalnej, posługując się jako sygnałem maskującym szumem pasmowo-zaporowym o różnej szerokości pasma zaporowego (rys. 3.5). Eksperyment Pattersona polegał na wyznaczeniu wartości progów maskowania tonu w funkcji szeregu wartości szerokości pasma zaporowego 2 f. Uzyskuje się w ten sposób zbiór wartości poziomów tonu na progu maskowania pozwalający, przy określonych założeniach, na wyznaczenie parametrów przyjętej analitycznej postaci filtru słuchowego. Dokładność metody Pattersona, której brakowało metodom wcześniejszym, bierze się stąd, że zastosowanie pasma zaporowego powoduje zmianę wartości progów w zakresie stosowanych szerokości pasma zaporowego w przedziale około 30 db, przy odchyleniu standardowym pomiarów rzędu 2 3 db. We wcześniejszych pomiarach filtrem pasmowym o zmiennej szerokości pasma całkowita zmiana wartości progów w granicach 4 6 db (rys. 3.4) była porównywalna do odchylenia standardowego pomiarów. Rysunek 3.5. Układ bodźców przy wyznaczaniu parametrów filtru słuchowego Roex(p, r) [44]. Rysunek 3.6. Charakterystyka filtru Roex(p, r) we względnej skali częstotliwości g. Obszar zacieniony reprezentuje równoważną szerokość prostokątną ERB [44]. Do reprezentacji analitycznej filtru słuchowego Patterson przyjął funkcję o nazwie Roex(p, r) (od ROunded EXponential). Jest to funkcja określona wzorem: H(f) 2 = r + (1 r)(1 + pg)e pg, (3.1) gdzie: p określa stromość nachylenia (selektywność) filtru, r określa dynamikę filtru, tj. poziom asymptoty poza pasmem przenoszenia (np. dla r = 10 5 charakterystyka filtru z dala od częstotliwości środkowej jest zbieżna do asymptoty na poziomie 10 log 10 (r) = 50 db), 26