Hybrydowa analiza transformat w rozpoznawaniu wysokości dźwięków w polifonicznych nagraniach instrumentów muzycznych

Wydział Fizyki Technicznej, Informatyki i Matematyki Stosowanej Politechnika Łódzka Streszczenie rozprawy doktorskiej Hybrydowa analiza transformat w rozpoznawaniu wysokości dźwięków w polifonicznych nagraniach instrumentów muzycznych mgr inż. Krzysztof Rychlicki-Kicior Promotor: prof. dr hab. Mykhaylo Yatsymirskyy Promotor pomocniczy: dr inż. Bartłomiej Stasiak Instytut Informatyki, Politechnika Łódzka Łódź 2017

1 Wprowadzenie W rozprawie omówiono hybrydową analizę transformat sygnału dźwiękowego reprezentującego współbrzmienie wielu dźwięków muzycznych, której celem jest rozpoznawanie wysokości tych dźwięków. Przedstawione podejście stanowi rozszerzenie ogólnej, powszechnie stosowanej koncepcji, która polega na przekształceniu sygnału dźwiękowego za pomocą rozmaitych technik cyfrowego przetwarzania sygnałów (np. dyskretnej transformacji Fouriera, transformacji stałego Q, itd.), a następnie poddaniu tak otrzymanej transformaty analizie za pomocą dedykowanych algorytmów. Hybrydowy charakter rozwiązania polega na zastosowaniu wielu niezależnych metod cząstkowych, z których każda jest zgodna z główną, opisaną powyżej, wcześniej stosowaną koncepcją, i połączeniu wyników ich działania za pomocą dedykowanego algorytmu, tzw. sędziego. Dzięki zastosowaniu takiego podejścia łączna skuteczność całego rozwiązania wzrasta, w porównaniu do skuteczności pojedynczych metod cząstkowych. Wynika to w dużej mierze z przydatności poszczególnych metod cząstkowych w zakresie rozpoznawania współbrzmień wykonywanych na różnych instrumentach. Jak wykazano w wynikach pracy, mimo dominującego charakteru jednej z metod cząstkowych (opartej o transformację stałego Q i metodę analizy SI-PLCA), w przypadku niektórych kombinacji instrumentów muzycznych lepsze wyniki uzyskuje metoda cząstkowa skonstruowana na podstawie cepstrum i metody analizy SI-PLCA. 2 Cele i tezy pracy Cele pracy: 1. Opracowanie rozwiązania, które pozwoli na rozpoznawanie wysokości wielu dźwięków w polifonicznych nagraniach instrumentów muzycznych w oparciu o hybrydową analizę transformat czasowo-częstotliwościowych sygnału dźwiękowego. 2

2. Opracowanie bazy danych dwu-, trój- i czterodźwięków w oparciu o rzeczywiste nagrania pojedynczych dźwięków muzycznych. Tezy pracy: 1. Zastosowanie hybrydowej analizy transformat czasowo-częstotliwościowych pozwala na zwiększenie skuteczności rozpoznawania wysokości wielu dźwięków w polifonicznych nagraniach instrumentów muzycznych w porównaniu do pojedynczych metod analizy transformat sygnału dźwiękowego. 3 Charakterystyka pracy Z uwagi na charakter niniejszej pracy, którą dotyczy zarówno informatyki, jak i muzyki, głównym celem pierwszej części pracy jest przedstawienie najważniejszych pojęć i zagadnień teoretycznych zarówno od strony informatycznej, jak i muzycznej, a także wykazanie powiązań pomiędzy nimi, jak chociażby w przypadku barwy dźwięku i jego widma, czy też częstotliwości i wysokości dźwięku. W rozdziale trzecim autor przedstawia najważniejsze opracowane do tej pory rozwiązania problemu rozpoznawania wysokości wielu dźwięków, ze szczególnym uwzględnieniem wyodrębnienia poszczególnych metod, algorytmów i transformacji wchodzących w skład tych rozwiązań. We wszystkich omawianych metodach można bowiem wyróżnić sposób przekształcenia wejściowego sygnału dźwiękowego, regułę jego transformacji, a także algorytm analizy powstałej transformaty. Spośród przedstawianych koncepcji największe znaczenie dla badanego problemu i niniejszej pracy mają: transformacje: stałego Q (CQT) i cepstrum, probabilistyczna analiza ukrytych składowych niezależna od przesunięcia SI-PLCA (Shift-Invariant Probabilistic Latent Component Analysis). W rozdziale czwartym autor prezentuje ogólny schemat hybrydowej analizy transformat w oparciu o zastosowanie wielu niezależnych metod cząstkowych. Najważ- 3

Rysunek 1: Ogólny schemat metody rozpoznawania wysokości wielu dźwięków muzycznych w oparciu o wiele metod cząstkowych niejsze różnice pomiędzy standardowym podejściem, a novum zaproponowanym przez autora, można opisać następująco: 1. Klasyczne podejście, polegające na połączeniu pojedynczej transformacji z jedną metodą analizy, zostaje zastąpione wieloma (w niniejszej pracy trzema) niezależnymi metodami cząstkowymi (rysunek 1). Warto zauważyć, że każda z metod cząstkowych jest z założenia niezależna od pozostałych. Oznacza to, że wykonanie tych metod może być zrównoleglane, np. za pomocą wielu rdzeni mikroprocesora lub wyspecjalizowanych kart graficznych, obsługujących technologię CUDA (ang. Compute Unified Device Architecture). 2. Opracowany został specjalny algorytm łączenia różnych kandydatów przedstawionych przez poszczególne metody cząstkowe (tzw. sędzia) [3, 5]. O ile w ramach implementacji samych metod cząstkowych odwołano się do powszechnie uznanych koncepcji, o tyle połączenie kilku zbiorów kandydatów obliczonych przez różnorodne metody jest zadaniem nietrywialnym. W skład 4

tej operacji wchodzą dwa etapy: złączenie podobnych kandydatów, w sytuacji, gdy kilku kandydatów ma podobną częstotliwość; uszeregowanie kandydatów według wagi łącznej i wybór liczby kandydatów zgodnej ze znaną liczbą dźwięków w zadanym sygnale dźwiękowym. 3. W ramach jednej z metod cząstkowych dodano autorską metodę stałej różnicy harmonicznych (ang. Harmonic Constant Difference, HCD), która pełni charakter pomocniczy w porównaniu do pozostałych dwóch metod. Celem pokazania tej metody było udowodnienie, że nawet zastosowanie metody o względnie niedużej samodzielnej skuteczności, pozwala na uzyskanie globalnie lepszych wyników. 4 Wyniki i wnioski Badania zostały przeprowadzone na bazie danych zawierającej ponad trzy tysiące dwudźwięków, trójdźwięków i czterodźwięków przy czym cała baza danych została podzielona na dwie części zbiór, na którym parametry rozwiązania i jego postać były optymalizowane, dostrajane (ok. 1300 dwudźwięków), i zbiór pozostały, na którym rozwiązanie było testowane po zakończeniu optymalizacji. We wszystkich przypadkach par instrumentów wśród analizowanych interwałów udało się uzyskać wyniki lepsze bądź równe najlepszej z metod cząstkowych. Oznacza to, że teza omawianej rozprawy została udowodniona. Z pojedynczych metod cząstkowych najlepszą skuteczność osiągnęła metoda cząstkowa CQT/SI-PLCA. Wyniki dla przykładowych par przedstawia rysunek 2. Przedstawione wyniki pokazują jednoznacznie, że zastosowanie hybrydowej analizy transformat poprawia skuteczność rozpoznawania wysokości wielu dźwięków w polifonicznych nagraniach instrumentów muzycznych w porównaniu do zastosowania pojedynczych metod, co było do udowodnienia w niniejszej rozprawie. Warto jednocześnie zauważyć, że 5

Rysunek 2: Wyniki łączne i cząstkowe uzyskane dla dwudźwięków (M1 CQT/SI-PLCA, M2 Cepstrum/SI-PLCA, M3 CQT/HCD choć w ramach tej pracy omówiono rozwiązanie istniejące, konkretne, to ogólna idea zastosowanie wielu metod analizy sygnału dźwiękowego zamiast jednej, a także umiejętne połączenie szerokiego zestawu kandydatów w jeden, skuteczny zbiór wyników całego rozwiązania, może znaleźć zastosowanie także w przypadku innych proponowanych rozwiązań. Dziedzina MIR rozwija się z roku na rok i nowe pomysły, opracowane przez innych badaczy, takie jak zastosowanie nowych transformat czy też metod ich analizy, mogą z powodzeniem być wykorzystane w przedstawionej przeze mnie ogólnej koncepcji zamiast (lub razem z) zaprezentowanymi metodami cząstkowymi. Uzyskane łącznie wyniki są satysfakcjonujące, niemniej omawiane rozwiązane ma szerokie możliwości dalszego rozwoju. W szczególności należy zwrócić uwagę na możliwość dodania kolejnych metod cząstkowych (np. w oparciu o transformacje falkowe), jak również dalszy rozwój algorytmu sędziego, biorąc pod uwagę, że wyniki uzyskane przez wszystkie metody łącznie (bez eliminacji sporej części kandydatów przez sędziego) są przeciętnie o kilka procent lepsze. 6

5 Wykaz ważniejszych publikacji autora rozprawy [1] Rychlicki-Kicior K., Stasiak B., Yatsymirskyy M., Application of Multiple Sound Representations in Multipitch Estimation Using Shift-Invariant Probabilistic Latent Component Analysis, w: SOFSEM 2016: Theory and Practice of Computer Science, LNCS, Springer, pp. 592 601 (2016). [2] Rychlicki-Kicior K., Stasiak B.: Metaheuristic Optimization of Multiple Fundamental Frequency Estimation, In: Man-Machine Interactions 3, Advances in Intelligent Systems and Computing Volume 242, 307 314, Springer-Verlag (2014) [3] Rychlicki-Kicior K., Yatsymirskyy M., Multipitch estimation using nonlinear frequency-domain sound representation, V WSNDPŁ, Rogów, 09-12.04.2015 [4] Rychlicki-Kicior K., Stasiak B., Yatsymirskyy M., Multipitch estimation using multiple transformation analysis, Proc. of IEEE First International Conference on Data Stream Mining & Processing, DSMP 2016, pp. 299 304 (2016) [5] Rychlicki-Kicior K., Stasiak B.: Multipitch estimation using judge-based model, Bulletin of the Polish Academy of Sciences, Technical Sciences, Vol. 62(4), 2014. 7