Automatyczna klasyfikacja instrumentów szarpanych w multimedialnych bazach danych



Podobne dokumenty
Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.

Podstawy Przetwarzania Sygnałów

Algorytmy detekcji częstotliwości podstawowej

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających

Nauka o słyszeniu Wykład IV Wysokość dźwięku

Ćwiczenie 3. Właściwości przekształcenia Fouriera

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Akustyka muzyczna ANALIZA DŹWIĘKÓW MUZYCZNYCH

Badanie widma fali akustycznej

Nauka o słyszeniu. Wykład III +IV Wysokość+ Głośność dźwięku

Laboratorium EAM. Instrukcja obsługi programu Dopp Meter ver. 1.0

ETYKIETOWANIE DANYCH DŹWIĘKOWYCH DO CELÓW PRZESZUKIWANIA MULTIMEDIALNYCH BAZ DANYCH

Transformata Fouriera

CYFROWE PRZTWARZANIE SYGNAŁÓW (Zastosowanie transformacji Fouriera)

Ćwiczenie 11. Podstawy akwizycji i cyfrowego przetwarzania sygnałów. Program ćwiczenia:

Kompresja dźwięku w standardzie MPEG-1

Wykorzystanie Szybkiej Transformaty Fouriera do strojenia instrumentów gitarowych na urządzeniach mobilnych.

LABORATORIUM AKUSTYKI MUZYCZNEJ. Ćw. nr 12. Analiza falkowa dźwięków instrumentów muzycznych. 1. PODSTAWY TEORETYCZNE ANALIZY FALKOWEJ.

DYSKRETNA TRANSFORMACJA FOURIERA

TEORIA OBWODÓW I SYGNAŁÓW LABORATORIUM

Egzamin / zaliczenie na ocenę*

PARAMETRYZACJA. Bożena Kostek. Katedra Systemów Multimedialnych, Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska

uzyskany w wyniku próbkowania okresowego przebiegu czasowego x(t) ze stałym czasem próbkowania t takim, że T = t N 1 t

LABORATORIUM POMIARY W AKUSTYCE. ĆWICZENIE NR 4 Pomiar współczynników pochłaniania i odbicia dźwięku oraz impedancji akustycznej metodą fali stojącej

Politechnika Łódzka. Instytut Systemów Inżynierii Elektrycznej

Systemy akwizycji i przesyłania informacji

Generowanie sygnałów na DSP

Dlaczego skrzypce nie są trąbką? o barwie dźwięku i dźwięków postrzeganiu

KOOF Szczecin:

Barwa dźwięku muzycznego i metody jej skalowania. II rok reżyserii dźwięku AM_2_2016

ANALIZA HARMONICZNA DŹWIĘKU SKŁADANIE DRGAŃ AKUSTYCZNYCH DUDNIENIA.

ĆWICZENIE III ANALIZA WIDMOWA SYGNAŁÓW DYSKRETNYCH. ver.3

Cechy karty dzwiękowej

Zaawansowane algorytmy DSP

Percepcja dźwięku. Narząd słuchu

Multimedialne Systemy Medyczne

Sposoby prezentacji problemów w statystyce

Układy i Systemy Elektromedyczne

Akustyka muzyczna. Wykład 6 Klasyfikacja instrumentów. Instrumenty strunowe. dr inż. Przemysław Plaskota

Kamil Jonak Zakład Bioinżynierii Instytut Technologicznych Systemów Informatycznych Politechnika Lubelska Paweł Krukow Zakład Neuropsychiatrii

Pomiary hałasu. Obiektami pomiarowymi są silniki indukcyjne Wiefama STK90 S-2 o następujących danych znamionowych:

Przekształcenia widmowe Transformata Fouriera. Adam Wojciechowski

Temat ćwiczenia. Wyznaczanie mocy akustycznej

IMPLEMENTATION OF THE SPECTRUM ANALYZER ON MICROCONTROLLER WITH ARM7 CORE IMPLEMENTACJA ANALIZATORA WIDMA NA MIKROKONTROLERZE Z RDZENIEM ARM7

Przekształcenia sygnałów losowych w układach

Cyfrowe przetwarzanie i kompresja danych

Systemy multimedialne. Instrukcja 5 Edytor audio Audacity

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

PL B1. Sposób i układ do modyfikacji widma sygnału ultraszerokopasmowego radia impulsowego. POLITECHNIKA GDAŃSKA, Gdańsk, PL

PL B1. POLITECHNIKA WARSZAWSKA, Warszawa, PL

OKREŚLENIE WPŁYWU WYŁĄCZANIA CYLINDRÓW SILNIKA ZI NA ZMIANY SYGNAŁU WIBROAKUSTYCZNEGO SILNIKA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

7. Szybka transformata Fouriera fft

dr inż. Artur Zieliński Katedra Elektrochemii, Korozji i Inżynierii Materiałowej Wydział Chemiczny PG pokój 311

Ćwiczenie - 1 OBSŁUGA GENERATORA I OSCYLOSKOPU. WYZNACZANIE CHARAKTERYSTYKI AMPLITUDOWEJ I FAZOWEJ NA PRZYKŁADZIE FILTRU RC.

ANALIZA WIDMOWA SYGNAŁÓW (1) Podstawowe charakterystyki widmowe, aliasing

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SCENARIUSZ LEKCJI. Fale akustyczne oraz obróbka dźwięku (Fizyka poziom rozszerzony, Informatyka poziom rozszerzony)

Przygotowali: Bartosz Szatan IIa Paweł Tokarczyk IIa

9. Dyskretna transformata Fouriera algorytm FFT

Analiza sygnałów biologicznych

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

f = 2 śr MODULACJE

Fal podłużna. Polaryzacja fali podłużnej

Przygotowała: prof. Bożena Kostek

Sposoby opisu i modelowania zakłóceń kanałowych

PRZEWODNIK PO PRZEDMIOCIE

Laboratorium Przetwarzania Sygnałów

Przekształcenie Fouriera i splot

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

POLITECHNIKA OPOLSKA

Temat ćwiczenia. Analiza częstotliwościowa

DYSKRETNE PRZEKSZTAŁCENIE FOURIERA C.D.

Akustyka muzyczna. Wykład 2 Elementy muzyki. O dźwięku. dr inż. Przemysław Plaskota

Metody analizy zapisu EEG. Piotr Walerjan

Badanie widma fali akustycznej

LABORATORIUM PODSTAW TELEKOMUNIKACJI

TEMAT: OBSERWACJA ZJAWISKA DUDNIEŃ FAL AKUSTYCZNYCH

Badanie roli pudła rezonansowego za pomocą konsoli pomiarowej CoachLab II

INFORMATYKA POZIOM ROZSZERZONY

INFORMATYKA POZIOM ROZSZERZONY

dr inż. Artur Zieliński Katedra Elektrochemii, Korozji i Inżynierii Materiałowej Wydział Chemiczny PG pokój 311

Określenie właściwości paneli akustycznych ekranów drogowych produkcji S. i A. Pietrucha Sp z o. o.

Transformata Fouriera. Sylwia Kołoda Magdalena Pacek Krzysztof Kolago

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

BADANIA MOŻLIWOŚCI ROZPOZNAWANIA MOWY W AUTONOMICZNYCH SYSTEMACH STEROWANIA

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

CHARAKTERYSTYKI CZĘSTOTLIWOŚCIOWE

7. Identyfikacja defektów badanego obiektu

Układy stochastyczne

TEORIA WYTWARZANIA DŹWIĘKÓW

Klasyfikacja naukowa Chordofony Aerofony Membranofony właściwości akustyczne o nieokreślonej wysokości dźwięku

Akwizycja i przetwarzanie sygnałów cyfrowych

Laboratorium Przetwarzania Sygnałów Biomedycznych

Dźwięk podstawowe wiadomości technik informatyk

Ewa Dębko Zespół Szkół Ogólnokształcących w Sokółce

Transkrypt:

XII Konferencja PLOUG Zakopane Październik 006 Automatyczna klasyfikacja instrumentów szarpanych w multimedialnych bazach danych Krzysztof Tyburek, Waldemar Cudny Uniwersytet Kazimierza Wielkiego, Instytut Mechaniki Środowiska i Informatyki Stosowanej, pl. Weyssenhoffa, 85-07 Bydgoszcz. e-mail: krzysiekkt@ukw.edu.pl, wcudny@ukw.edu.pl Witold Kosiński Polsko-Japońska Wyższa Szkoła Technik Komputerowych, ul. Koszykowa 86, 0-008 Warszawa e-mail: wkos@pjwstk.edu.pl Abstrakt W związku z tym, że większość dotychczasowych rozwiązań związanych z wydobywaniem danych multimedialnych bazuje na technice etykietowania przechowywanych informacji rozwiązanie to nie zawsze daje rzetelny wynik tzn. wysyłane zapytania nie zawsze jest zgodne z oczekiwaniami osoby (czy systemu) pytającej. Kolejny problem, który występuje w procesie rozpoznawania sygnałów dźwiękowych, jest właściwa interpretacja źródła dźwięku. Rozpoznanie dźwięku pochodzącego np. z drgającej struny gitary może być bardzo trudne. Trudność ta najczęściej wynika z doskonałych procesorów muzycznych za, pomocą których z łatwością można podrobić oryginalny instrument. Drogą do rozwiązania problemu klasyfikacji i agregacji danych multimedialnych jest nowo powstały (posiadający certyfikat ISO) standard MPEG-7, który dostarcza szereg podstawowych deskryptorów opisujących dźwięk. Na bazie standardu MPEG 7 stworzono nowe deskryptory rozpoznające konkretne instrumenty muzyczne. Głównym zadaniem postawionym w badaniach jest takie zdefiniowanie deskryptorów, które w połączeniu z określonymi algorytmami przeszukiwań pozwolą na prawidłową interpretację źródła dźwięku zapisanego w formatach dźwiękowych i multimedialnych. Do badań wybrano grupę strunowych instrumentów muzycznych, w których rolę źródła dźwięku pełnią drgające struny nazywaną chordofony. Z tej klasy wyselekcjonowano instrumenty z dwóch podgrup: Instrumenty smyczkowe (uwzględniono tylko artykulację pizzicato) Instrumenty szarpane. Uwagę badawczą skupiono na takich instrumentach jak: wiolonczela, kontrabas, gitara akustyczna, gitara elektryczna, gitara basowa, harfa, altówka i skrzypce.

Automatyczna klasyfikacja instrumentów szarpanych w multimedialnych bazach danych 67. Analiza dźwięku wybranych instrumentów muzycznych Dźwięki muzyczne wykazują okresowość przed osiągnięciem 0% swej maksymalnej amplitudy, a co istotniejsze, etap narastania dźwięku jest jedną z najistotniejszych cech dystynktywnych, pozwalających słuchaczowi sklasyfikować instrument. Posługując się takimi podstawowymi metodami analizy dźwięków jak transformata Fouriera oraz analiza falkowa można precyzyjnie określić skład widmowy analizowanej próbki. Przebiegi czasowe dźwięku badane są na podstawie analizy:. transjentu początkowego,. stanu quasi-ustalonego, 3. transjentu końcowego. Rys.. Przykład wykresu postaci czasowej dźwięku waltorni, a razkreślne (440Hz). Zacieniowano stan quasiustalony W przypadku analizy sygnałów pochodzących z grupy instrumentów szarpanych należy brać pod uwagę tylko transjent końcowy stan quasi-ustalony w tym przypadku nie występuje, (co jest cechą charakterystyczną tych instrumentów). Rys.. Przykład wykresu postaci czasowej dźwięku altówki, a razkreślne (440Hz). Przyjęte metody badawcze W celu odszukania wektora cech wybranej grupy instrumentów przeprowadzano analizę zarówno postaci czasowej jak i widma dźwięków. Do badań przeznaczono 840 próbek dźwięków zawierających się w zakresach 4 oktaw: Wielka (A=0Hz) Mała (a=0hz) Razkreślna (a = 440Hz) Dwukreślna (a = 880Hz) Zakres częstotliwości badanych próbek: 65,4 Hz<f< 987,77Hz. Badano pojedyncze dźwięki do naturalnego wybrzmiewania nuty.. Parametryzacja w dziedzinie czasu W celu właściwego opisu postaci czasowej sygnału dźwiękowego zdecydowano się wykorzystać dwa parametry:

68 Krzysztof Tyburek, Waldemar Cudny, Witold Kosiński. ZC (zerro crossing) gęstość przejść przez zero osi OX w zadanym oknie. Do analizy wybrano okno o długości 500 próbek rozpoczynając od wartości max, a więc wykluczono transjent początkowy przebiegu.. l tk logarytm czasu wybrzmiewania dźwięku wyrażony zależnością: l tk = log( t t ) (3..) pk max gdzie: t max czas osiągnięcia maksymalnej amplitudy dźwięku t pp czas osiągnięcia progu 0% maksymalnej amplitudy dźwięku w transjencie początkowym.. Parametryzacja w dziedzinie widma Widmo zawiera bardzo wiele szczegółów, a zatem do celów automatycznej klasyfikacji instrumentów muzycznych konieczna jest jego parametryzacja. W celu odszukania wektora cech widmowych wybranych instrumentów przeprowadzono szereg badań związanych z wyznaczaniem środka ciężkości widma, zawartości składowych parzystych lub nieparzystych, odszukanie prążków harmonicznych itp. Badania przeprowadzone zostały na wyciętym oknie sygnału o długości 05 próbek mierzonym od wartości max. Wycięty fragment przebiegu postaci czasowej został poddany DFT, a jego widmo poddano szczegółowej analizie. Zastosowanie jednakowej długości okna podyktowane było koniecznością utrzymania jednakowej rozdzielczości widma wyrażonej zależnością: gdzie: f r rozdzielczość widma f s częstotliwość próbkowania (4400) n ilość próbek (05) f f = s r n (3..) Podczas prowadzonych badań zdecydowano się na rozdzielczość widma f r =4Hz. Stwierdzono, że dla celów automatycznej klasyfikacji badanych instrumentów niektóre metody badawcze nie przynoszą istotnych korzyści. Na przykład analizując wyniki uzyskane na podstawie metody momentów k-tego rzędu wyrażonej zależnością: gdzie: f(i) amplituda i-tej składowej. m i częstotliwość i-tego prążka widma k = 0 i k (3..) stwierdzono, że nie uzyskano wyników istotnie przyczyniających się do określenia cechy jednego instrumentu. Wyciągnięty wniosek poparto faktem, że zbyt duża cześć zakresów jest właściwa dla różnych instrumentów zagranych w różnych oktawach. Stwierdzono również, że jedną z istotniejszych grup deskryptorów charakteryzujących cechy widma są parametry tristimulus opisywane zależnościami:

Automatyczna klasyfikacja instrumentów szarpanych w multimedialnych bazach danych 69 Tr Tr 4 f () (3..3) (3..4) Tr n 5 3 (3..5) Wykorzystując grupę parametrów tristimulus można rozróżnić dźwięki analizując zawartość grup harmonicznych widma w poszczególnych zakresach częstotliwości. Stwierdzono również, że klasyczne parametry tristimulus mogą okazać się mało efektywne w przypadku zastosowania progowania widma oraz stwierdzono, że szczególnie Tr wnosi mało istotne informacje. Wniosek ten można wyciągnąć uwzględniając fakt, że w widmie mogą się zawierać niskie częstotliwości związane z zakłóceniami powstałymi podczas rejestrowania dźwięku (np. przypadkowe uderzenie w mikrofon lub pudło rezonansowe), które są brane pod uwagę podczas obliczania Tr oraz Tr. W związku z opisanymi możliwościami uzyskania mało precyzyjnych wyników, zdecydowano się dokonać modyfikacji grupy parametrów tristimulus uwzględniając prążek o wartości maksymalnej jako najistotniejszą informację widma. Zdecydowano się przedstawić opisywaną grupę parametrów zależnościami: NTr f (max) (3..6) NTr max max (3..7) NTr n max 3 gdzie: max indeks prążka o maksymalnej wartości. (3..8) Analizując rozkład częstotliwościowy badanych widm zdecydowano się wprowadzić podział widma na 0 kolumn - po 00 próbek każda. Wszystkie wycięte kolumny widma poddano analizie. Stwierdzono również, że analiza widma w wyższych partiach częstotliwości nie przynosi ciekawych informacji, co przedstawiono graficznie:

70 Krzysztof Tyburek, Waldemar Cudny, Witold Kosiński Rys. 5. Wiolonczela a razkreślne Rys. 6. Harfa b małe Z powyższych przykładów można wyczytać, że analiza widma powyżej 000 próbki sprowadza się do analizy szumu, co nie jest interesujące dla prowadzonych badań. W związku z tym zdecydowano się przeznaczyć do analizy okno widma zawarte między a 000 próbką a zatem badano rozkład częstotliwościowy w zakresie do 4kHz.

Automatyczna klasyfikacja instrumentów szarpanych w multimedialnych bazach danych 7 Rys. 7. Fragment widma gitary akustycznej z zaznaczonym obszarem przeznaczonym do analizy W trakcie badań zdecydowano się przeprowadzić analizę rozkładu częstotliwościowego badanego fragmentu widma. W tym celu dokonano podziału widma na 0 kolumn, w których zliczano zgromadzoną energie. Poza tym analizę skierowano na rozkład energetyczny w poszczególnych warstwach widma, badając ilość zgromadzonej energii w poszczególnych przedziałach. Rys. 8. Przykładowy podział widma na warstwy

7 Krzysztof Tyburek, Waldemar Cudny, Witold Kosiński 3. Decyzja/Rozpoznanie Proces klasyfikacji instrumentów oraz selekcji cech został przeprowadzony z wykorzystaniem ogólnie dostępnego pakietu WEKA. Wykorzystując wyniki uzyskane podczas analizy rozkładu częstotliwościowego oraz energetycznego otrzymano dla 8 klas instrumentów rozpoznawalność wahającą się w granicach od 6.966 % do 77.7778 %. Przykładową macierz przekłamań przedstawiono poniżej: a b c d e f g h <-- classified 60 0 0 0 0 0 0 0 a = harfa 8,8 54,55 0 7,7 0 0 0 0 b = gitara_akustyczna 0,5 75,5 0 0 0 0 c = gitara_elektryczna 0 0 0 90 0 0 0 0 d = gitara_basowa 0 0 0 0 75 5 0 0 e = altowka 0 0 0,5,5 6,5,5 0 f = skrzypce 0 0 0 0 0 4,9 85,7 0 g = kontrabas 0 0 0 0,, 0 66,67 h = wiolonczela Rys. 9. Macierz przekłamań badanych instrumentów. Rozpoznawalność = 7. % przy podziale zbioru 60:40 Z powyższej macierzy wynika, że najgorszą rozpoznawalnością charakteryzuje się gitara akustyczna, która poprawnie została zinterpretowana tylko w 54,55%. W 8,8 procentach próbki gitary akustycznej zostały zinterpretowane jako dźwięki harfy a w 7,7% jako gitary basowej. W dalszej pracy autorzy planują skupić swoja uwagę na optymalnym doborze szerokości warstw oraz ich ilości. Jako drogę do rozwiązania w/w problemu zaplanowano wykorzystanie histogramu amplitudy. Literatura [] Jordi Bonada, Alex Loscos, Pedro Cano, Xavier Serra Spectral Approach to the Modeling of the Singing Voice p. 4-5 Presented at the th Convention 00 September 4 New York, NY, USA. [] José M. Martínez MPEG-7 Overview, p. 4- Klangenfurt, July 00. [3] Xavier Serra, Xavier Amatriain, Jordi Bonada, Alex Loscos Spectral Modeling for Higher-level Sound Transformations, p. 4-6 Music Technology Group, Pompeu Fabra University, October 00. [4] Krzysztof Tyburek Klasyfikacja cech instrumentów muzycznych w standardzie MPEG 7 dźwięków, s. 4-5 Lwów, czerwiec 004.