PARAMETRYZACJA Bożena Kostek Katedra Systemów Multimedialnych, Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska
Standard MPEG-7 Standard MPEG-Moving Picture and Audio Coding Experts; MPEG-1 (89r), MPEG-2 (91r), MPEG-4 (95r), (MPEG-3 definicja HDTV, MPEG-5, MPEG-6 nie zdefiniowane) MPEG-7 (listopad 2000 r.) standard MPEG-7, Multimedia Content Description Interface - ISO 15938: stworzenie języka opisu (ang. Description Definition Language) zawartości obrazu, dźwięku, baz multimedialnych oraz informacji związanych (metadata) opis sygnału
Parametryzacja dźwięków instrumentów muzycznych Cel wyznaczenie wektora cech opisujących dźwięk Problemy definicja barwy dźwięku oparta na wrażeniach subiektywnych zmienność barwy dźwięku w czasie
Proces automatycznej klasyfikacji Akwizycja sygnału fonicznego Przetwarzanie wstępne Ekstrakcja cech dystynktywnych Zapis (bazy danych) lub transmisja Klasyfikacja
Przetwarzanie wstępne Analiza czasowa (np. funkcja gęstości przejść przez zero) Transformacje widmowe: FFT, DFT Transformacja czasowo-częstotliwościowa: gdzie: g b,a (t) - funkcja analizująca, 1 g b, a t a -ciągła t b g a g(t) - funkcja prototypowa, a - współczynnik rozszerzenia, b - parametr przesunięcia i czasowego - dyskretna jb 1 k ĝb,a a ĝ a e DWT a,n h n xk a k a gdzie: ĝg - transformata gdzie: k - indeks czasu, Fouriera funkcji g(t) h(k) - funkcja prototypowa, t x(k) - spróbkowany sygnał poddawany analizie Analiza cepstralna: m i l C ln A cos r m r i i1 m f Metody estymacji widma pr p gdzie: r -rząd współczynnika cepstralnego, lpr - liczba próbek w ramce, i - numer kolejnej próbki widma, Ai - amplituda próbki i, f c fp -częstotliwość próbkowania, fc - maks. częstotl. w analizie cepstralnej
Ekstrakcja cech dystynktywnych różnice barwy dźwięku w skali instrumentu widmo dźwięku ę klarnetu (c 2, 523.3 Hz) widmo dźwięku ę klarnetu (c 3, 1047 Hz)
Ekstrakcja cech dystynktywnych podobieństwa barwy dźwięku różnych instrumentów widmo dźwięku altówki (c 1, 261.66 Hz) widmo dźwięku ę oboju (c 1, 261.6 Hz)
Ekstrakcja cech dystynktywnych klarnet basowy: A4 (nonlegato forte) obój: A4 (nonlegato forte)
Ekstrakcja cech dystynktywnych Klarnet basowy: D3 (nonlegato forte) Klarnet basowy: D6 (nonlegato forte)
Ekstrakcja cech dystynktywnych fagot: A4 (nonlegato forte) fagot: A4 (nonlegato piano)
Ekstrakcja cech dystynktywnych - parametryzacja Wektor cech Parametry czasowe + statystyczne Parametry widmowe + statystyczne Parametry czasowo- częstotliwościowe
Parametryzacja - parametry czasowe dźwięku Model obwiedni ADSR Attack-Decay-Sustain-Release Atak - Opadanie - Stan ustalony - Wybrzmiewanie czas trwania: transjentu t początkowego (ataku) i stanu quasiustalonego (ewentualnie znormalizowany względem okresu składowej podstawowej) szybkość wybrzmiewania [db/oktawa]
Parametry widmowe dźwięku (wybrane) dewiacja częstotliwości n-tej składowej f n f n f ) / n f 100% ( n 1 1 średnia ważona dewiacja częstotliwości dla grupy 5 najniższych harmonicznych f d 5 k 1 A k ( f /( k f )) / A k 1 5 k 1 k nfd - numer składowej nfd=1..5 o największej dewiacji
Parametry widmowe dźwięku c.d. parametry Tristimulus ) ( ) ( ) ( 2 2 1 1 t A t A t Tr N n ) ( ) ( ) ( 1 1 1 n n ) ( ) ( ) ( 2 4 2 2 t A t A t Tr N n n 1 2 n n N n ) ( ) ( ) ( 1 2 5 2 3 t A t A t Tr n n n n
Parametry widmowe dźwięku c.d. zawartość składowych parzystych w widmie M=Entier(N/2) N n M k v A A E 2 2 2 ( ) zawartość składowych nieparzystych n k 1 1 zawartość składowych nieparzystych L E ti (N/2+1) N L A A O 2 2 L=Entier(N/2+1) n n k k d d A A O 1 2 1 2 jasność dźwięku N N N n n N n A n A n Br 1 1
Analiza falkowa - w oparciu o filtr Daubechies (rząd 2 - liczba próbek w ramce = 2048) klarnet- dźwięk g5 (non-legato, forte) oś pionowa - podział częstotliwości [Hz], oś pozioma - czas [ms] (lub liczba analizowanych próbek)
Analiza falkowa - Częst. próbkowania 44.1 Hz) oś pionowa - podział częstotliwości [Hz], oś ś pozioma - czas [ms] (lub liczba analizowanych próbek)
Analiza falkowa trąbka - dźwięk a4 (non-legato, forte)
Analiza falkowa trąbka - dźwięk a4 (non-legato, forte)
Analiza falkowa trąbka - dźwięk a4 (non-legato, forte) - energia skumulowana
Analiza falkowa wiolonczela - dźwięk a4 (non-legato, forte)
Analiza falkowa wiolonczela - dźwięk a4 (non-legato, forte)
Analiza falkowa wiolonczela - dźwięk a4 (non-legato, forte) - energia skumulowana
Analiza falkowa - Częst. próbkowania 44.1 Hz) oś pionowa - podział częstotliwości [Hz], oś ś pozioma - czas [ms] (lub liczba analizowanych próbek)
Parametryzacja parametry czasowo-częstotliwościowe Energia widma w poszczególnych pasmach w wybranym fragmencie ramki W i =E i /E E całkowita energia widma w parametryzowanym fragmencie; E i energia parametryzowanego obszaru czasowo częstotliwościowego Ei=E 1, E 10, gdzie: - i=1 energia w paśmie 21.53-43.066Hz, - i=2 - energia w paśmie 43.066-86.13Hz, -... - i=9 energia w paśmie 5512.5-11025Hz, - i=10 energia w paśmie 11025-22050Hz, Energia skumulowana - E c
Parametryzacja parametry czasowo-częstotliwościowe Energia Ek w kolejnych 10 pasmach, kolejne nuty dla poszczególnych pasm, i=10 f=(11025;22050) [Hz] i=9 f=(5512.5;11025) [Hz]... i=1 f=(21.53;43.066) [Hz] klarnet- staccato
Parametryzacja parametry czasowo-częstotliwościowe przykład parametrów klarnet trąbka Energia w 10 pasmach Energia w pasmach: 8,9,10 znormalizowana przez energię pasma 7
Parametryzacja parametry czasowo-częstotliwościowe przykład parametrów skrzypce altówka Energia w 10 pasmach Energia w pasmach: 8,9,10 znormalizowana przez energię pasma 7
Przykład separowalności wartości parametrów
Przykład braku separowalności wartości parametrów contra bassoon bassoon
Przykład wartości parametru dla wybranych instrumentów 25 Bri ightness 20 15 10 klarnet fagot trąbka obój puzon basowy skrzypce 5 0 0 5 10 15 20 25 30 35 40 45 chromatic scale Skala chromatyczna
Przykład analizy korelacyjnej r X, Y X )( y Y ) i n ( x i i1 r n _ n _ 2 ( x X ) ( y i i1 i1 i Y ) - współczynnik korelacji Pearsona -wartości średnie parameterów dla par instrumentów 2 X, Y
Przykład analizy korelacyjnej r P t T 2 T 3 P 1... B h odd h ev P t 1... T 2-0.030 030 1... T 3-0.351-0.001001 1... P 1 0.756-0.095-0.134 1..................... B 0.012 0.607 0.559 0.059... 1 h odd -0.148 0.274 0.474-0.041... 0.705 1 h ev -0.105 0.872 0.326-0.095... 0.766 0.370 1
Kryteria separowalności metody topologiczne separowalność klas X, Y dla 2 parametrów - statystyka t t Fishera X, Y y y V X-Y 2 S1 /k S 2 2 /m -estymatory wartości średnich 2 2 S 1, S - estymatory wariancji 2 separowalność klas bazy danych Q min D i, j max d Di,j - miara odstępu między klasami i, j di - miara rozrzutu obiektów w klasie i i, j i i
Własności wybranych kryteriów separowalności statystyka Fishera: ilustruje przydatność poszczególnych parametrów im wyższa wartość V, tym większa przydatność parametru przy badaniu separowalności obiektów nieprzydatna w przypadku dużych baz danych kryterium kryterium Q spełnione zadowalająco, gdy Q>1 zależy od doboru miar D ij oraz d i uzyskiwane miary zależą od stosowanej metryki
Przykład analizy separowalności Wartości średnie, odch. standardowe i wartości statystyki Fishera V dla pary instrumentów (puzon basowy i klarnet basowy) Instr./Par. P t T 2 T 3 B h ev h odd puzon bas. - X, 0.520 0.213 0.777 12.994 0.701 0.705 Y klarnet bas. - 0.522 0.228 0.455 12.972 0.793 0.213 2 puzon bas. - S 1 0.288 0.201 0.214 6.137 0.030 0.030 2 klarnet bas. - S 2 0.288 0.134 0.198 4.227 0.112 0.071 V 0.020 0.305 5.315 0.014 3.311 29.034
Wnioski rozpoznawanie dźwięków Cechy dźwięków ę instrumentów muzycznych y mogą być reprezentowane skutecznie przez zestaw kilkunastu do kilkudziesięciu parametrów, tworzący wektor cech dystynktywnych
Klasyfikacja fraz muzycznych J.S. Bach: Themes Of Fugues From "The Well-Tempered Clavier Akwizycja kodu MIDI Konwersja kodu MIDI Ekstrakcja cech dystyntywnych Parametryzacja statystyczna Parametryzacja trygonometryczna Zapis (bazy danych) BAZA_STATYST Zapis (bazy danych) BAZA_TRYGON Klasyfikacja Klasyfikacja
Akwizycja kodu MIDI - przygotowanie baz Fraza wzorcowa Fraza transponowana
Parametryzacja - reprezentacja frazy P Parametry statystyczne 3 1 n1 n1 1 k1 a k a k 1 P3 bezwzględna różnica wysokości dźwięku pomiędzy dwiema kolejnymi nutami a k - wysokość k-nuty, n - liczba nut we frazie Parametry trygonometryczne l 1 P i - i-element wektora parametrów, P i ek cos[ i( k ) ] l l - długość parametryzowanej frazy k1 2
Deskryptory Audio w standardzie MPEG 7 Opracowanie: mgr inż. Piotr Dalka mgr inż. Marcin Dąbrowskią
Standard MPEG7 Multimedia Content Description Language Główne cele: opis zawartości multimedialnej elastyczność w zarządzaniu danymi globalizacja i wewnętrzna kompatybilność zasobów danych Części: Part I: System Part II: Description Definition Language (DDL) Part III: Visual Part IV: Audio Part V: Multimedia Description Schemes (MDS) Part VI: Preference Softare Part VII: Conformance Testing Part VIII: Extraction And Use Of MPEG7 Descriptions Part IX: Profiles Part X: Schema Definition
MPEG7 Audio Standard MPEG 7 zawiera szereg rozwiązań przeznaczonych opisu danych multimedialnych. Dla danych dźwiękowych są to: format danych (rodzaj kodowania, częstotliwość próbkowania itp.) informacje takie jak autor bądź nazwa instrumentu deskryptory wyznaczane z sygnału dźwiękowego
Low Level Audio Descriptors Reprezentacja danych audio w standardzie MPEG7 deskryptory spektralne wyznaczane na podstawie analizy sygnału w kolejnych ramkach czasowych (ang. running window analysis) Możliwość reprezentowania ciągu danych przez jego parametry statystyczne p ąg y p jg p y y y (wartość minimalna, maksymalna, średnia, wariancja).
Low Level Audio Descriptors
Basic 0.25 AudioWaveform Przebieg czasowy sygnału 0.2 0.15 0.1 0.05 x(t) 0 s(t) -0.05-0.1-0.15-0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 t [s] 0.35 AudioPower moc sygnału P(t) 0.3 0.25 0.2 0.15 P(t) = s(t) 2 0.1 0.05 0 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 t [s]
Audio Spectrum Envelope Audio Spectrum Envelope (ASE) jest zdefiniowany jako krótkookresowe widmo gęstościmocy wyznaczone dla częstotliwości w odstępach logarytmicznych (pasma o szerokości 1/16, 1/8, 1/4, 1/2, 1, 2, 4 lub 8 oktaw) P x ( n) 1 X n lw NFFT 2
Audio Spectrum Envelope Rozdzielczość ¼ oktawy cz estotliwosc (n numer pasma a) Pasma: 1: do 62,5 Hz 30 2-5: 62,5 125 Hz 6-9: 125 250 Hz 25 10-13: 13: 250 500 Hz 14-17: 500 1000 Hz 20 18-21: 1 2 khz 22-25: 2-4 khz 26-29: 4-8 khz 15 30-33: 8 16 khz 34: powyżej 16 khz 10 5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 t [s]
Audio Spectrum Centroid Audio Spectrum Centroid (ASC) jest zdefiniowany jako środek ciężkości widma gęstości mocy, wyskalowany w oktawach w stosunku do 1 khz ASC n log 2 f n 1000 P n n P x n x
Audio Spectrum Centroid -0.1-0.2-0.3-0.4 ASC -0.5-0.6-0.7-0.8-0.9 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 t [s] ASC = -0.44555
Audio Spectrum Spread Audio Spectrum Spread (ASS) jest zdefiniowany jako odchylenie średniokwadratowe (RMS) widma gęstości mocy w skali oktawowej, względem Audio Spectrum Centroid ASS n 2 log 2 f n 1000 ASC Px n n P x n
Audio Spectrum Spread 1.6 1.4 1.2 1 ASS 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 t [s] ASS = 0.69174
Audio Spectrum Flatness Spectral Flatness Measure (SFM) jest zdefiniowany jako stosunek średniej geometrycznej i średniej arytmetycznej współczynników widma gęstości mocy w pasmach (b) o szerokości ¼ oktawy SFM b ih ihb b il b iilb 1 c i 1 ih b il b 1 ih b iil c b i
Audio Spectrum Flatness 20 czestotliwosc c (numer pas sma) 15 10 5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 t [s]
Audio Spectrum Basis Audio Spectrum Projection Deskryptory te zawierają informacje o widmie mocy w postaci zredukowanej liczby danych, uzyskane za pomocą rozkładu macierzy względem ę wartości szczególnych (SVD). Dekompozycji poddawana jest macierz X, której wiersze zawierają widmo dla kolejnych ramek czasowych (AudioSpectrumEnvelope). W wyniku otrzymuje się macierze wektorów U i V oraz diagonalną macierz wartości szczególnych S. X = U S V T Do wyznaczenia deskryptorów AudioSpectrumBasis i o y ac e a des ypto ó ud ospect u as s AudioSpectrumProjection wykorzystuje się kilka pierwszych kolumn macierzy V. Pozwala to dokonać aproksymacji macierzy X, przez ograniczenie się jedynie do kilku pierwszych wektorów szczególnych.
Audio Spectrum Basis Audio Spectrum Projection 30 25 20 15 10 30 5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 t [s] 30 25 20 15 10 5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 t [s] 25 20 15 10 estotliwosc (numer pasma) czes totliwosc (numer pasma) czestotliw wosc (numer pasma) czestotliwosc (numer pasma) 30 5 25 20 15 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 t[s] t [s] 10 5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 t [s] cze
Audio Spectrum Basis Audio Spectrum Projection Spektrogram oryginalny Spektrogram zrekonstruowany z wykorzystaniem 3 wektorów szczególnych 30 30 liwosc (numer pasm ma) 25 20 15 liwosc (numer pasm ma) 25 20 15 czestotl 10 czestot 10 5 5 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 t [s] 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 t [s] MxN Zajętość pamięci M ilość pasm częstotliwości N ilość ramek czasowych 3(M+N)
Audio Fundamental Frequency Audio Harmonicity Audio Fundamental Frequency częstotliwość podstawowa dźwięku [Hz] AudioHarmonicity zawiera informacje o stopniu harmoniczności (okresowości) sygnału Harmonic Ratio zawartość składowych harmonicznych w widmie sygnału (0 biały szum, 1 sygnał okresowy) Upper Limit Of Harmonicity częstotliwość, powyżej której widmo nie wykazuje cech harmoniczności Sposób detekcji częstotliwości podstawowej nie jest ustalony w standardzie MPEG7
Timbre Descriptors Widmo gęstości mocy Spectral Centroid Sygnał Obwiednia sygnału Log Attack Time Temporal Centroid STFT Detekcja prążków widma Instantaneous Harmonic Spectral Spread Instantaneous Harmonic Spectral Centroid Ruchome okno czasowe f0 Instantaneous t Harmonic Spectral Deviation Instantaneous Harmonic Spectral Variation z -1
Log Attack Time Jednostka: [log s] Zakres: [log 1/SR, określone przez czas trwania sygnału] Log Attack Time (LAT) jest zdefiniowany dfii jk jako logarytm di dziesiętny it czasu od chwili, gdy sygnał się rozpoczyna (T0) do chwili, gdy osiąga stan ustalony (T1). LAT log10 T 1 T 0
Log Attack Time Jednostka: [log s] Zakres: [log 1/SR, określone przez czas trwania sygnału] 0.35 0.3 0.25 0.2 P(t) 0.15 0.1 0.05 0 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 t [s] LAT = log(0,18 s) = -0,74 [log s]
Temporal Centroid Jednostka: [s] Zakres: [0, określone przez czas trwania sygnału] Temporal lcentroid id(tc) jest zdefiniowany dfii jk jako środek dkciężkości ś i obwiedni imocy sygnału w dziedzinie czasu TC length( SE) n n1 length ( SE ) n1 SR SE SE n n
Temporal Centroid Jednostka: [s] Zakres: [0, określone przez czas trwania sygnału] 0.35 0.3 0.25 0.2 (t) P( 0.15 0.1 0.05 0 0 02 0.2 04 0.4 06 0. 08 0.8 1 12 1. 14 1.4 16 1. 18 1.8 t [s] TC = 0,72 [s]
Spectral Centroid Jednostka: [Hz] Zakres: [0, SR/2] Spectral lcentroid id(sc) jest zdefiniowany dfii jk jako środek dkciężkości ś i widma, czyli średnia ważona częstotliwość współczynników widma gęstości mocy. ISC length(s ) f k k 1 length( S ) k1 S S k k SC nb _ f i1 ISC( i) nb _ f
Spectral Centroid Jednostka: [Hz] Zakres: [0, SR/2] 950 900 850 Hz 800 750 700 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 s SC = 827 [Hz]
Harmonic Spectral Centroid Jednostka: [Hz] Zakres: [0, SR/2] Harmonic Spectral lcentroid id(hsc) jest zdefiniowany dfii jk jako ważona ż amplitudowo średnia częstotliwość prążków widma IHSC nb_ h f h1 nb _ h h1 h A h A h HSC nb _ f i1 IHSC ( i ) nb _ f
Harmonic Spectral Centroid Jednostka: [Hz] Zakres: [0, SR/2] 1300 1250 1200 1150 Hz 1100 1050 1000 950 900 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 s HSC = 1068 [Hz]
Harmonic Spectral Deviation Jednostka: [ ] Zakres: [0, 1] Harmonic Spectral ldeviation (HSD) jest zdefiniowany dfii jk jako średnie d i odchylenie dhl logarytmu amplitudy prążków widma od obwiedni widma (SE) 1 Ah 1 A h 2, dla h 1 A h i i 1 SE h, dla h2, nb _ h 1 3 Ah 1 Ah, dla h nb _ h 2 IHSD HSD nb _ h h1 nb _ f i1 log 10 nb _ h h1 A h IHSD ( i ) nb _ f log log 10 A h 10 SE h
Harmonic Spectral Deviation Jednostka: [ ] Zakres: [0, 1] 0.14 0.12 01 0.1 0.08 0.06 0.04 0.02 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 s HSD = 0,091
Harmonic Spectral Spread Jednostka: [ ] Zakres: [0, 1] Harmonic Spectral lspread d(hss) jest zdefiniowany dfii jako jk ważone ż amplitudowo standardowe odchylenie amplitud prążków widma, znormalizowane przez Harmonic Spectral Centroid (HSC) IHSS 1 IHSC nb _ h h1 A 2 h f h nb _ h h 1 A 2 IHSC h 2 HSS nb _ f i1 IHSS( i) nb _ f
Harmonic Spectral Spread Jednostka: [ ] Zakres: [0, 1] 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 s HSS = 0,416
Harmonic Spectral Variation Jednostka: [ ] Zakres: [0, 1] Harmonic Spectral lvariation (HSV) jest zdefiniowany dfii jk jako znormalizowana korelacja pomiędzy amplitudami prążków w dwóch sąsiednich ramkach czasowych IHSV 1 nb _ h h1 A 1 h A h nb _ h nb _ h 2 A 1 h h1 h1 A 2 h HSV nb _ f i2 IHSV ( i) nb _ f 1
Harmonic Spectral Variation Jednostka: [ ] Zakres: [0, 1] 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 s HSV = 0,0025
Silence Deskryptor ten pozwala stwierdzić, w którym fragmencie nagrania występują fragmenty ciszy. Podstawowe informacje zawarte w takim deskryptorze to czas rozpoczęcia oraz czas trwania ciszy. Deskryptor ten ma charakter semantyczny. Pojęcie ciszy oznacza w tym przypadku brak istotnych dźwięków (np. brak dialogów na ścieżce dźwiękowej filmu, przy obecnych dźwiękach tła). Zastosowaniem tego deskryptora może być automatyczna segmentacja materiału dźwiękowego, np. dzielenie sygnału mowy na zdania lub poszczególne wyrazy, w zależności od przyjętego progu minimalnego trwania ciszy. Dtkj Detekcja ciszy może ż być ć implementowane na wiele il sposobów. Zwykle uwzględnia się psychofizjologię słuchu i związane z tym pasma krytyczne słyszenia oraz zjawisko maskowania.