Hybrydowa analiza transformat w rozpoznawaniu wysokości dźwięków w polifonicznych nagraniach instrumentów muzycznych

Podobne dokumenty
LABORATORIUM AKUSTYKI MUZYCZNEJ. Ćw. nr 12. Analiza falkowa dźwięków instrumentów muzycznych. 1. PODSTAWY TEORETYCZNE ANALIZY FALKOWEJ.

Adaptive wavelet synthesis for improving digital image processing

przetworzonego sygnału

10. Redukcja wymiaru - metoda PCA

IMPLEMENTATION OF THE SPECTRUM ANALYZER ON MICROCONTROLLER WITH ARM7 CORE IMPLEMENTACJA ANALIZATORA WIDMA NA MIKROKONTROLERZE Z RDZENIEM ARM7

Ćwiczenie 3. Właściwości przekształcenia Fouriera

EKSTRAKCJA CECH TWARZY ZA POMOCĄ TRANSFORMATY FALKOWEJ

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Algorytmy detekcji częstotliwości podstawowej

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

POLITECHNIKA POZNAŃSKA

9. Dyskretna transformata Fouriera algorytm FFT

Akwizycja i przetwarzanie sygnałów cyfrowych

Teoria sygnałów Signal Theory. Elektrotechnika I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny)

Wykrywanie sygnałów DTMF za pomocą mikrokontrolera ATmega 328 z wykorzystaniem algorytmu Goertzela

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

O RÓŻNYCH SPOSOBACH ROZUMIENIA ANALOGOWOŚCI W INFORMATYCE

mgr inż. Stefana Korolczuka

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Wydział Matematyki Stosowanej. Politechniki Śląskiej w Gliwicach

Transformata Fouriera. Sylwia Kołoda Magdalena Pacek Krzysztof Kolago

Przetwarzanie obrazu

Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych

Efektywność algorytmów

FFT i dyskretny splot. Aplikacje w DSP

Informacja w perspektywie obliczeniowej. Informacje, liczby i obliczenia

Podstawy Przetwarzania Sygnałów

Politechnika Łódzka. Instytut Systemów Inżynierii Elektrycznej

KARTA PRZEDMIOTU. Techniki przetwarzania sygnałów, D1_3

Kompresja dźwięku w standardzie MPEG-1

Aproksymacja funkcji a regresja symboliczna

SCENARIUSZ LEKCJI. Dzielenie wielomianów z wykorzystaniem schematu Hornera

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Recenzja rozprawy doktorskiej mgr Łukasza Gadomera pt. Rozmyte lasy losowe oparte na modelach klastrowych drzew decyzyjnych w zadaniach klasyfikacji

PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających

PRZEWODNIK PO PRZEDMIOCIE

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Recenzja rozprawy doktorskiej mgr Mirona Bartosza Kursy p/t. Robust and Efficient Approach to Feature Selection and Machine Learning

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

TEORIA OBWODÓW I SYGNAŁÓW LABORATORIUM

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Przekształcenia widmowe Transformata Fouriera. Adam Wojciechowski

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Laboratorium optycznego przetwarzania informacji i holografii. Ćwiczenie 4. Badanie optycznej transformaty Fouriera

Praca dyplomowa magisterska

OCENA SKUTECZNOŚCI ANALIZ FFT, STFT I FALKOWEJ W WYKRYWANIU USZKODZEŃ WIRNIKA SILNIKA INDUKCYJNEGO

BIBLIOTEKA PROGRAMU R - BIOPS. Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat

KARTA MODUŁU / KARTA PRZEDMIOTU

Kamil Jonak Zakład Bioinżynierii Instytut Technologicznych Systemów Informatycznych Politechnika Lubelska Paweł Krukow Zakład Neuropsychiatrii

Dwufazowy system monitorowania obiektów. Karina Murawko, Michał Wiśniewski

PRZEWODNIK PO PRZEDMIOCIE

Cyfrowe przetwarzanie i kompresja danych

dr inż. Artur Zieliński Katedra Elektrochemii, Korozji i Inżynierii Materiałowej Wydział Chemiczny PG pokój 311

Recenzja rozprawy doktorskiej mgr inż. Piotra Skowrońskiego Analiza oscylacji temperatury w stanach przejściowych urządzeń wymieniających ciepło"

Politechnika Warszawska

Porównanie wydajności CUDA i OpenCL na przykładzie równoległego algorytmu wyznaczania wartości funkcji celu dla problemu gniazdowego

Symulacja sygnału czujnika z wyjściem częstotliwościowym w stanach dynamicznych

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

PRZEWODNIK PO PRZEDMIOCIE

RACHUNEK KOSZTÓW STRUMIENI WARTOŚCI W WARUNKACH PRODUKCJI ZLECENIOWEJ

RECENZJA. rozprawy doktorskiej Jolanty GRZEBIELUCH nt. "Znaczenie strategii marketingowej w

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Cyfrowe Przetwarzanie Obrazów i Sygnałów

PRZEWODNIK PO PRZEDMIOCIE

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

tel. (+4861) fax. (+4861)

Opis efektów kształcenia dla modułu zajęć

Efekty kształcenia dla kierunku studiów INFORMATYKA, Absolwent studiów I stopnia kierunku Informatyka WIEDZA

Dlaczego skrzypce nie są trąbką? o barwie dźwięku i dźwięków postrzeganiu

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 6. Transformata cosinusowa. Krótkookresowa transformata Fouriera.

PL B1. Sposób wyznaczania błędów napięciowego i kątowego indukcyjnych przekładników napięciowych dla przebiegów odkształconych

Optimizing Programs with Intended Semantics

Podstawy Automatyki. Wykład 4 - algebra schematów blokowych. dr inż. Jakub Możaryn. Warszawa, Instytut Automatyki i Robotyki

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Przetwarzanie obrazu

Podstawy Automatyki. Wykład 4 - algebra schematów blokowych. dr inż. Jakub Możaryn. Warszawa, Instytut Automatyki i Robotyki

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Badanie widma fali akustycznej

Na czym polega streszczanie tekstu?

KARTA MODUŁU KSZTAŁCENIA

Interwałowe zbiory rozmyte

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Przetwarzanie i transmisja danych multimedialnych. Wykład 8 Transformaty i kodowanie cz. 2. Przemysław Sękalski.

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

rozpoznawania odcisków palców

Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego

2 Ocena celu badań i sformułowanej tezy naukowej

Badanie widma fali akustycznej

Dobór parametrów algorytmu ewolucyjnego

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

Anna Fabijańska. Algorytmy segmentacji w systemach analizy ilościowej obrazów

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

Transkrypt:

Wydział Fizyki Technicznej, Informatyki i Matematyki Stosowanej Politechnika Łódzka Streszczenie rozprawy doktorskiej Hybrydowa analiza transformat w rozpoznawaniu wysokości dźwięków w polifonicznych nagraniach instrumentów muzycznych mgr inż. Krzysztof Rychlicki-Kicior Promotor: prof. dr hab. Mykhaylo Yatsymirskyy Promotor pomocniczy: dr inż. Bartłomiej Stasiak Instytut Informatyki, Politechnika Łódzka Łódź 2017

1 Wprowadzenie W rozprawie omówiono hybrydową analizę transformat sygnału dźwiękowego reprezentującego współbrzmienie wielu dźwięków muzycznych, której celem jest rozpoznawanie wysokości tych dźwięków. Przedstawione podejście stanowi rozszerzenie ogólnej, powszechnie stosowanej koncepcji, która polega na przekształceniu sygnału dźwiękowego za pomocą rozmaitych technik cyfrowego przetwarzania sygnałów (np. dyskretnej transformacji Fouriera, transformacji stałego Q, itd.), a następnie poddaniu tak otrzymanej transformaty analizie za pomocą dedykowanych algorytmów. Hybrydowy charakter rozwiązania polega na zastosowaniu wielu niezależnych metod cząstkowych, z których każda jest zgodna z główną, opisaną powyżej, wcześniej stosowaną koncepcją, i połączeniu wyników ich działania za pomocą dedykowanego algorytmu, tzw. sędziego. Dzięki zastosowaniu takiego podejścia łączna skuteczność całego rozwiązania wzrasta, w porównaniu do skuteczności pojedynczych metod cząstkowych. Wynika to w dużej mierze z przydatności poszczególnych metod cząstkowych w zakresie rozpoznawania współbrzmień wykonywanych na różnych instrumentach. Jak wykazano w wynikach pracy, mimo dominującego charakteru jednej z metod cząstkowych (opartej o transformację stałego Q i metodę analizy SI-PLCA), w przypadku niektórych kombinacji instrumentów muzycznych lepsze wyniki uzyskuje metoda cząstkowa skonstruowana na podstawie cepstrum i metody analizy SI-PLCA. 2 Cele i tezy pracy Cele pracy: 1. Opracowanie rozwiązania, które pozwoli na rozpoznawanie wysokości wielu dźwięków w polifonicznych nagraniach instrumentów muzycznych w oparciu o hybrydową analizę transformat czasowo-częstotliwościowych sygnału dźwiękowego. 2

2. Opracowanie bazy danych dwu-, trój- i czterodźwięków w oparciu o rzeczywiste nagrania pojedynczych dźwięków muzycznych. Tezy pracy: 1. Zastosowanie hybrydowej analizy transformat czasowo-częstotliwościowych pozwala na zwiększenie skuteczności rozpoznawania wysokości wielu dźwięków w polifonicznych nagraniach instrumentów muzycznych w porównaniu do pojedynczych metod analizy transformat sygnału dźwiękowego. 3 Charakterystyka pracy Z uwagi na charakter niniejszej pracy, którą dotyczy zarówno informatyki, jak i muzyki, głównym celem pierwszej części pracy jest przedstawienie najważniejszych pojęć i zagadnień teoretycznych zarówno od strony informatycznej, jak i muzycznej, a także wykazanie powiązań pomiędzy nimi, jak chociażby w przypadku barwy dźwięku i jego widma, czy też częstotliwości i wysokości dźwięku. W rozdziale trzecim autor przedstawia najważniejsze opracowane do tej pory rozwiązania problemu rozpoznawania wysokości wielu dźwięków, ze szczególnym uwzględnieniem wyodrębnienia poszczególnych metod, algorytmów i transformacji wchodzących w skład tych rozwiązań. We wszystkich omawianych metodach można bowiem wyróżnić sposób przekształcenia wejściowego sygnału dźwiękowego, regułę jego transformacji, a także algorytm analizy powstałej transformaty. Spośród przedstawianych koncepcji największe znaczenie dla badanego problemu i niniejszej pracy mają: transformacje: stałego Q (CQT) i cepstrum, probabilistyczna analiza ukrytych składowych niezależna od przesunięcia SI-PLCA (Shift-Invariant Probabilistic Latent Component Analysis). W rozdziale czwartym autor prezentuje ogólny schemat hybrydowej analizy transformat w oparciu o zastosowanie wielu niezależnych metod cząstkowych. Najważ- 3

Rysunek 1: Ogólny schemat metody rozpoznawania wysokości wielu dźwięków muzycznych w oparciu o wiele metod cząstkowych niejsze różnice pomiędzy standardowym podejściem, a novum zaproponowanym przez autora, można opisać następująco: 1. Klasyczne podejście, polegające na połączeniu pojedynczej transformacji z jedną metodą analizy, zostaje zastąpione wieloma (w niniejszej pracy trzema) niezależnymi metodami cząstkowymi (rysunek 1). Warto zauważyć, że każda z metod cząstkowych jest z założenia niezależna od pozostałych. Oznacza to, że wykonanie tych metod może być zrównoleglane, np. za pomocą wielu rdzeni mikroprocesora lub wyspecjalizowanych kart graficznych, obsługujących technologię CUDA (ang. Compute Unified Device Architecture). 2. Opracowany został specjalny algorytm łączenia różnych kandydatów przedstawionych przez poszczególne metody cząstkowe (tzw. sędzia) [3, 5]. O ile w ramach implementacji samych metod cząstkowych odwołano się do powszechnie uznanych koncepcji, o tyle połączenie kilku zbiorów kandydatów obliczonych przez różnorodne metody jest zadaniem nietrywialnym. W skład 4

tej operacji wchodzą dwa etapy: złączenie podobnych kandydatów, w sytuacji, gdy kilku kandydatów ma podobną częstotliwość; uszeregowanie kandydatów według wagi łącznej i wybór liczby kandydatów zgodnej ze znaną liczbą dźwięków w zadanym sygnale dźwiękowym. 3. W ramach jednej z metod cząstkowych dodano autorską metodę stałej różnicy harmonicznych (ang. Harmonic Constant Difference, HCD), która pełni charakter pomocniczy w porównaniu do pozostałych dwóch metod. Celem pokazania tej metody było udowodnienie, że nawet zastosowanie metody o względnie niedużej samodzielnej skuteczności, pozwala na uzyskanie globalnie lepszych wyników. 4 Wyniki i wnioski Badania zostały przeprowadzone na bazie danych zawierającej ponad trzy tysiące dwudźwięków, trójdźwięków i czterodźwięków przy czym cała baza danych została podzielona na dwie części zbiór, na którym parametry rozwiązania i jego postać były optymalizowane, dostrajane (ok. 1300 dwudźwięków), i zbiór pozostały, na którym rozwiązanie było testowane po zakończeniu optymalizacji. We wszystkich przypadkach par instrumentów wśród analizowanych interwałów udało się uzyskać wyniki lepsze bądź równe najlepszej z metod cząstkowych. Oznacza to, że teza omawianej rozprawy została udowodniona. Z pojedynczych metod cząstkowych najlepszą skuteczność osiągnęła metoda cząstkowa CQT/SI-PLCA. Wyniki dla przykładowych par przedstawia rysunek 2. Przedstawione wyniki pokazują jednoznacznie, że zastosowanie hybrydowej analizy transformat poprawia skuteczność rozpoznawania wysokości wielu dźwięków w polifonicznych nagraniach instrumentów muzycznych w porównaniu do zastosowania pojedynczych metod, co było do udowodnienia w niniejszej rozprawie. Warto jednocześnie zauważyć, że 5

Rysunek 2: Wyniki łączne i cząstkowe uzyskane dla dwudźwięków (M1 CQT/SI-PLCA, M2 Cepstrum/SI-PLCA, M3 CQT/HCD choć w ramach tej pracy omówiono rozwiązanie istniejące, konkretne, to ogólna idea zastosowanie wielu metod analizy sygnału dźwiękowego zamiast jednej, a także umiejętne połączenie szerokiego zestawu kandydatów w jeden, skuteczny zbiór wyników całego rozwiązania, może znaleźć zastosowanie także w przypadku innych proponowanych rozwiązań. Dziedzina MIR rozwija się z roku na rok i nowe pomysły, opracowane przez innych badaczy, takie jak zastosowanie nowych transformat czy też metod ich analizy, mogą z powodzeniem być wykorzystane w przedstawionej przeze mnie ogólnej koncepcji zamiast (lub razem z) zaprezentowanymi metodami cząstkowymi. Uzyskane łącznie wyniki są satysfakcjonujące, niemniej omawiane rozwiązane ma szerokie możliwości dalszego rozwoju. W szczególności należy zwrócić uwagę na możliwość dodania kolejnych metod cząstkowych (np. w oparciu o transformacje falkowe), jak również dalszy rozwój algorytmu sędziego, biorąc pod uwagę, że wyniki uzyskane przez wszystkie metody łącznie (bez eliminacji sporej części kandydatów przez sędziego) są przeciętnie o kilka procent lepsze. 6

5 Wykaz ważniejszych publikacji autora rozprawy [1] Rychlicki-Kicior K., Stasiak B., Yatsymirskyy M., Application of Multiple Sound Representations in Multipitch Estimation Using Shift-Invariant Probabilistic Latent Component Analysis, w: SOFSEM 2016: Theory and Practice of Computer Science, LNCS, Springer, pp. 592 601 (2016). [2] Rychlicki-Kicior K., Stasiak B.: Metaheuristic Optimization of Multiple Fundamental Frequency Estimation, In: Man-Machine Interactions 3, Advances in Intelligent Systems and Computing Volume 242, 307 314, Springer-Verlag (2014) [3] Rychlicki-Kicior K., Yatsymirskyy M., Multipitch estimation using nonlinear frequency-domain sound representation, V WSNDPŁ, Rogów, 09-12.04.2015 [4] Rychlicki-Kicior K., Stasiak B., Yatsymirskyy M., Multipitch estimation using multiple transformation analysis, Proc. of IEEE First International Conference on Data Stream Mining & Processing, DSMP 2016, pp. 299 304 (2016) [5] Rychlicki-Kicior K., Stasiak B.: Multipitch estimation using judge-based model, Bulletin of the Polish Academy of Sciences, Technical Sciences, Vol. 62(4), 2014. 7