Podobieństwo i klasyfikacja dźwięku w kontekście rekomendacji muzycznej

Transkrypt

1 PRACA MAGISTERSKA Podobieństwo i klasyfikacja dźwięku w kontekście rekomendacji muzycznej Mariusz Kleć nr albumu: s3547 Kierunek: Informatyka Specjalność: Multimedia Promotor: prof. dr hab. Krzysztof Marasek Warszawa, 2010

2 Pracę tę dedykuję mojemu Bratu oraz Rodzicom.

3 Spis treści Spis treści CEL PRACY... 5 WSTĘP TECHNIKI GENEROWANIA PLAY LIST MUZYCZNYCH TECHNIKI STANDARDOWE TECHNIKI OPARTE NA METADANYCH INTERNETOWYCH PLAY LISTY OPARTE O ANALIZĘ POWIĄZAŃ SPOŁECZNYCH PLAY LISTY OPARTE O ANALIZĘ SYGNAŁU AUDIO MIARY PODOBIEŃSTWA CO TO JEST PODOBIEŃSTWO? PODOBIEŃSTWO WARTOŚCI BINARNYCH Odległość Hamminga Prosty współczynnik dopasowania i odległości Współczynnik Jaccarda PODOBIEŃSTWO WARTOŚCI LICZBOWYCH Odległość Euklidesowa Odległość city block Odległość Czebyszewa Odległość Canberra Odległość Bray Curtis Kosinus kąta między wektorami Współczynnik korelacji Odległość Mahalanobisa NORMALIZACJA Z wykorzystaniem funkcji sigmoidalnej unipolarnej Z wykorzystaniem wartości maksymalnej i minimalnej Gdy wartość maksymalna jest nieznana Normalizacja wartości ujemnych Standaryzacja PODSUMOWANIE KLASYFIKACJA MUZYCZNA CZYM JEST KLASYFIKACJA? TRENING I TESTOWANIE KLASYFIKATORA PREDYKCJA KRYTERIA PORÓWNAWCZE METODY UCZENIA MASZYNOWEGO K najbliższych sąsiadów (k-nn) Naiwny klasyfikator Bayesa Metoda wektorów nośnych SVM Drzewa decyzyjne

4 3.5.5 Sieci neuronowe Ada-Boost Bagging PODSUMOWANIE PAKIET PROGRAMÓW JMIR FRAMEWORK ACE JAUDIO OPIS DESKRYPTORÓW DOSTĘPNYCH W PROGRAMIE JAUDIO JWEBMINER PODSUMOWANIE EKSPERYMENT KLASYFIKACJI MUZYKI OPIS EKSPERYMENTU PRZEBIEG EKSPERYMENTU WNIOSKI PROGRAM PLAY LIST GENERATOR INSTALACJA PROGRAMU Instalacja bibliotek zewnętrznych Rejestracja sterownika źródła danych Uruchomienie programu OPIS INTERFEJSU UŻYTKOWNIKA Menedżer bazy danych Play lista OPIS OPCJI POMIARU PODOBIEŃSTWA STRUKTURA KODU I IMPLEMENTACJA ANALIZA SKUTECZNOŚCI PROGRAMU ŚRODOWISKO BADAWCZE PRZEBIEG BADAŃ WYNIKI BADAŃ WNIOSKI PODSUMOWANIE DODATEK A: OBLICZENIA PODOBIEŃSTWA PLAY LIST DODATEK B: SZCZEGÓŁOWY OPIS PROGRAMU JWEBMINER DODATEK C. KOD FUNKCJI GENERUJĄCEJ PLAY LISTĘ DODATEK D. LISTA UTWORÓW W EKSPERYMENCIE DODATEK E. SPIS ZAWARTOŚCI DOŁĄCZONEJ PŁYTY CD BIBLIOGRAFIA

5 Cel pracy Dzięki coraz większym i tańszym urządzeniom magazynującym, osobiste kolekcje muzyczne rozrastają się dziś w nadzwyczajnym tempie. Technologie mobilne umożliwiają ściąganie całych kolekcji muzycznych i przenoszenie ich w kieszeni słuchacza. Odtwarzacze MP3 mogą przechowywać z łatwością ponad utworów. Wybór ulubionych utworów jest zadaniem nierzadko frustrującym, nużącym, a przede wszystkim nieefektywnym. Niezwykle trudnym staje się wybór muzyki na różne okazje. Następujące po sobie utwory powinny pasować do siebie, brzmieć podobnie lub przynajmniej posiadać wspólne cechy. Cieszące się powodzeniem rozgłośnie radiowe dbają o to, aby ich program radiowy charakteryzował się określonym typem muzyki oraz dużym zróżnicowaniem, aby utrzymać słuchaczy. Systemy rekomendacji muzycznej działają na podobnej zasadzie, próbując dobierać odpowiedni zestaw utworów na daną okoliczność. Aby było to jednak możliwe, niezbędne są badania nad dwoma kluczowymi tematami w tej dziedzinie: pomiarem podobieństwa między utworami oraz ich klasyfikacją.

6 Wstęp We wszystkich okresach swego rozwoju historycznego ludzkość tworzyła muzykę. Stała się ona bogatym źródłem natchnienia dla wielkich myślicieli. Muzyka została elementem filmów, wydarzeń sportowych, ceremonii religijnych, klubów nocnych, a nawet zakupów w supermarketach. Człowiek podczas konfrontacji z dźwiękami dokonuje ich oceny, na którą wpływa m.in. stan emocjonalny. Nawet osoby niewykształcone muzycznie, mogą świadomie lub podświadomie wyrabiać sobie szybko poglądy i oceniać muzykę, również na podstawie niewielkich jej fragmentów. Poglądy te mogą dotyczyć takich cech jak styl muzyczny, wykonawca, rytm, wpływ emocjonalny itp. [1]. Zbudowanie algorytmu o zdolnościach tworzenia poglądów podobnych do tych, które tworzą ludzie jest niezwykle trudne. Istnieją jednak pewne modele komputerowe, wyjaśniające tą kwestię. Mogą one być wykorzystane do budowy mechanizmu szacującego podobieństwo dwóch utworów muzycznych. Stąd jest już bliska droga do zbudowania systemu rekomendującego muzykę na podstawie preferencji muzycznych słuchacza lub całych społeczności. Zanim to jednak nastąpi, musimy nauczyć maszynę słuchania muzyki. Do tego celu niezbędne jest dogłębne zrozumienie percepcji muzycznej człowieka. Badania w tym kierunku doprowadziły do powstania algorytmów ekstrakcji cech muzycznych (deskryptorów) z sygnału dźwiękowego. W Internecie znaleźć można wiele serwisów rekomendujących muzykę. Dobrym przykładem jest firma Apple i należący do niej sklep muzyczny itunes Store 1 (ang. itunes Music Store), oferujący liczne sposoby odkrywania muzyki. Sposoby te polegają m.in. na śledzeniu, czego słuchają inni, wnioskowaniu upodobań muzycznych klienta na podstawie wcześniej pobranych utworów itp. Żaden inny ze znanych sposobów dystrybucji muzyki nie może konkurować z nieograniczonym dostępem, wysoką skutecznością rekomendacji oraz z nieprzerwaną dostępnością 24 godziny na dobę. Ponadto, istnieje liczna grupa serwisów oferujących dostęp do olbrzymich kolekcji muzycznych za darmo lub prawie za darmo. Serwisy te zwykle przybierają formę spersonalizowanych stacji radiowych. Są to między innymi Launchcast 2 firmy Yahoo!, Last.fm 3 oraz Pandora 4. Ten ostatni dostępny jest jednak tylko na terytorium U.S.A

7 Wstęp Ogólnie rzecz ujmując, narzędzia, które wzbogacają doświadczenia związane z słuchaniem muzyki, rozwijają się bardzo szybko. W tym kontekście pomiar podobieństwa, klasyfikacja utworów oraz programy opisane w tej pracy magisterskiej stanowią jedynie niewielką cegiełkę w dążeniu do tego celu. Z całą pewnością podniosą natomiast świadomość używanych metod i algorytmów, których działanie często utrzymane jest w tajemnicy przez firmy będące właścicielami wyżej opisanych systemów. Niezwykle ważną rolę na tym polu odgrywają coroczne konferencje ISMIR 5 (ang. International Conference on Music Information Retrieval) zajmujące się interdyscyplinarną dziedziną nauki, jaką jest wyszukiwanie informacji muzycznej (ang. Music Information Retrieval, MIR). Liczne prace i tematy związane z konferencją ISMIR 6 znalazły wiele zastosowań w projektach akademickich i przemysłowych (m.in. w last.fm). Szczególną popularnością cieszy się system Marsyas 7 (ang. Music Analysis, Retrieval and Synthesis for Audio Signals), którego projektantem jest George Tzanetakis. Marsyas rozwijany jest od 1998 roku. Służy do przetwarzania sygnału audio, ze szczególnym uwzględnieniem zagadnień związanych z wyszukiwaniem informacji muzycznej. W programie zintegrowany został system klasyfikacji oraz ekstrakcji cech muzycznych. By to pierwszy darmowy program tego typu. Kolejnym ciekawym przedsięwzięciem jest projekt o nazwie CLAM uniwersytetu Pompeu Fabra 8. Służy do analizy oraz syntezy sygnału audio. Nie został on jednak przystosowany do wykorzystania wyekstrahowanych za jego pomocą cech muzycznych w innych systemach. Ostatnim z projektów, na który warto zwrócić uwagę, jest program Sonic Annotator 9. Służy do ekstrakcji cech muzycznych z sygnału audio, wykorzystując przy tym wtyczki Vamp plugins 10. Wtyczki te rozszerzają funkcjonalność Sonic Annotator oraz programu do wizualizacji i analizy dźwięku Sonic Visualizer 11. Pozwalają m.in. na szacowanie tempa utworu, śledzenie wysokości dźwięku oraz ekstrakcję niskopoziomowych deskryptorów dźwiękowych

8 Niniejsza praca magisterska została podzielona na pięć rozdziałów. Pierwszy z nich omawia metryki pomiaru podobieństwa dwóch wektorów będących deskryptorami muzycznymi. W rozdziale drugim przedstawiono ogólne informacje związane z klasyfikacją, ze szczególnym uwzględnieniem klasyfikacji muzyki. Rozdział trzeci bardzo szczegółowo opisuje narzędzia wykorzystane podczas budowy autorskiego programu oraz przeprowadzania eksperymentów. W rozdziale czwartym opisano przeprowadzony eksperyment klasyfikacji 10 utworów muzycznych, z wykorzystaniem 7 różnych klasyfikatorów. Rozdział piąty opisuje autorski program Play List Generator, służący do generowania play list muzycznych, wykorzystujący podobieństwo utworów obliczone na podstawie przeszukiwania sieci Web. Program ukierunkowany jest na jego przyszły rozwój, w którym przewiduje się implementację wszystkich technik opisywanych w tej pracy.

9 1 Techniki generowania play list muzycznych Pojęcie play listy może być zdefiniowane, jako skończony zbiór sekwencyjnie ułożonych utworów muzycznych. Bazując na tej definicji, można wyróżnić trzy istotne atrybuty związane z play listami. Atrybutami tymi są: poszczególne utwory zawarte w play liście, ich ilość oraz kolejność, w której występują. Poszczególne utwory występujące w play liście są głównym celem, dla którego play lista jest tworzona. Utwory te powinny spełniać określone oczekiwania słuchacza bądź słuchaczy. Kolejność występowania utworów powinna odwzorowywać pewien porządek przejść między utworami np. począwszy od szybkich a skończywszy na wolnych utworach. Ilości utworów umożliwia określenie długości trwania całej play listy [3]. Automatyczne generowanie play list wymaga zainicjowania pewnych początkowych działań przez użytkownika. Przede wszystkim, musi on w jakiś sposób określić, czego chciałby słuchać. To początkowe określenie dotyczące np. stylu muzycznego może być przeprowadzone w sposób, w którym użytkownik dostarcza pewnego rodzaju wzoru muzycznego np. za pomocą swoich ulubionych artystów, lub innych warunków opisujących muzykę, której chciałby posłuchać. Zagadnienie to jest jednak dość skomplikowane, ponieważ definicja gatunku muzycznego jest bardzo subiektywna a większość muzyki nie należy tylko i wyłącznie do jednego gatunku. Bardzo często są one mieszaniną różnych styli [2]. Jednym ze sposobów automatycznej generacji play list jest narysowanie ścieżki na mapie, będącej wizualizacją muzycznej bazy danych. Na takiej mapie utwory podobne są skupione wokół siebie. Stopień skupienia utworów mierzony jest za pomocą technik pomiaru podobieństwa. Przykładem takiego podejścia jest aplikacja zwana PlaySom [4]. Kolejną techniką, która może być wykorzystana do automatycznej generacji play list jest technika polegająca na dostarczeniu tzw. utworu wzorcowego (ang. query-by-example), który powinien wskazać styl muzyczny dla pozostałych utworów w play liście. Bazując na utworach wzorcowych, generator play list próbuje odnaleźć najbardziej podobne utwory w całej kolekcji muzycznej. Utwory te są następnie sortowane względem podobieństwa tworząc ostateczną play listę. W pracy Beth Logan [5] znajduje się ewaluacja tej techniki wraz z technikami analizy podobieństwa. Elias Pampalk rozwija tą technikę wprowadzając dodatkowo analizę przeskakiwanych (opuszczonych) utworów podczas odsłuchiwania play

10 listy [6]. Opuszczone utwory dostarczają negatywnego sygnału zwrotnego, natomiast utwory odsłuchane do końca traktowane są w kategoriach pozytywnego sygnału zwrotnego. Za pomocą analizy sygnałów zwrotnych, przyszłe play listy mogą być ulepszane a co za tym idzie jeszcze bardziej odpowiadać preferencjom muzycznym słuchacza. 1.1 Techniki standardowe Techniki standardowe polegają zwykle na metadanych, takich jak gatunek, liczba już odegranych utworów, ocena utworu przez użytkownika (ang. rating) itp. Zwykle informacje te są zakodowane w pliku w postaci znaczników ID3, lub są generowane w wyniku interakcji użytkownika z odtwarzaczem. Następnie informacje te są używane przez odtwarzacz muzyczny do sortowaniu lub wyszukiwania muzyki. Metoda ta działa poprawnie pod warunkiem, że wszystkie utwory są dobrze opisane i sklasyfikowane przez użytkownika. Typowo, strategia ta zawodzi, ponieważ standardowe kolekcje muzyczne są zwykle słabo opisane pod kątem gatunku muzycznego lub są po prostu są za duże, aby je ręcznie opisywać i klasyfikować. 1.2 Techniki oparte na metadanych internetowych Jest to bardziej inteligentny sposób wychodzący naprzeciw wadom technik standardowych. Sposób ten polega na użyciu Internetu w celu uzyskania dodatkowych metadanych na temat utworu. Tak zebrane informacje mogą być następnie użyte do generowania play list. Technika ta działa dość dobrze na poziomie nazwisk artystów, ponieważ informacje na ich temat są szeroko rozpowszechnione w Internecie. Technika nie działa zadowalająco, jeśli szacowanie podobieństwa odbywa się na poziomie porównania indywidualnych piosenek. Takie informacje dość rzadko występują w Internecie, w porównaniu z informacjami o artystach. Dokładniej techniki te opisane zostały m.in. w następujących pracach: Brian Whitman i Paris Smaragdis [7] oraz Jean-Julien Aucouturier i Francois Pachet [8]. 1.3 Play listy oparte o analizę powiązań społecznych Jest to dość nowa technika zbierająca informację na temat gustów muzycznych pewnej społeczności użytkowników. Społecznościowe muzyczne serwisy internetowe wymagają od użytkownika założenia jego własnego profilu. Po tej czynności, za pomocą usług sieciowych możliwe jest sklasyfikowanie preferencji użytkownika poprzez porównanie jego profilu z profilami inny użytkowników. Rodzajem tej techniki jest tzw. technika

11 Techniki generowania play list muzycznych kolaborująca (ang. collaborative filtering) (Rys. 1.1). Przyjmuje ona założenie, jeśli słuchacz ma wiele wspólnego z słuchaczem w kategoriach ich kolekcji muzycznej, to posiadają oni podobny gust muzyczny. W rezultacie system poleci utwory słuchaczowi z kolekcji muzycznej słuchacza i na odwrót. Jeśli z kolei słuchacz posiada kolekcję muzyczną, która ma niewiele wspólnego z kolekcjami słuchaczy i, żaden utwór nie będzie rekomendowany z kolekcji słuchacza [9] [3]. Przykładem serwisu internetowego, który wykorzystuje wyżej opisaną technikę jest last.fm 12 kolekcjonujący informacje na temat zwyczajów słuchania muzyki i porównujący wyniki z innymi użytkownikami serwisu. Rysunek 1.1 Zobrazowanie techniki kolaborującej [3]. Słuchacz A ma wiele wspólnego z słuchaczem B w przeciwieństwie do słuchacza C. Słuchaczowi A będą polecane utwory słuchacza B i na odwrót. Żaden utwór nie będzie polecany z bazy muzycznej słuchacza C. 1.4 Play listy oparte o analizę sygnału audio Metoda ta polega na komputerowej ekstrakcji cech muzycznych z sygnału audio. Cechy te nazywane są deskryptorami i zwykle reprezentowane są przez wartości numeryczne. Jeśli dwa wektory cech muzycznych (deskryptorów) są do siebie podobne, utwory powinny brzmieć podobnie w tym aspekcie, w którym deskryptor próbuje opisać sygnał audio. Jest to sposób na porównanie dwóch utworów między sobą lub na ich uporządkowanie. Ekstrakcja cech jest zwykle dość trudnym zadaniem, ponieważ deskryptory powinny

12 odpowiadać aspektom odbierania dźwięku przez człowieka [10]. Spośród wszystkich metod generowania play list, metoda ta posiada najwięcej zalet, jako że rezultaty jej nie zależą od opinii innych użytkowników, tak jak w przypadku sieci społecznych czy opisów utworów jak w przypadku technik standardowych i technikach opartych na metadanych Internetowych.

13 Miary podobieństwa 2 Miary podobieństwa Rozważania nad czystym podobieństwem utworów są wysoce interesujące i dyskusyjne zarazem, jako iż ujawniają wiele pytań, na które odpowiedź nie jest jednoznaczna. W jaki sposób określić podobieństwo? Czy podczas pomiaru podobieństwa powinniśmy również rozważać różnice? W jaki sposób oceniać i mierzyć systemy analizujące podobieństwo? W rozdziale tym przedstawiony zostanie szereg miar, służących do pomiaru podobieństwa dwóch wektorów liczbowych. Są to miary niezwykle istotne z punktu widzenia pomiaru podobieństwa utworów muzycznych, jako iż utwór muzyczny, w świecie komputerowym, może być reprezentowany tylko w postaci wektora pewnych liczb. 2.1 Co to jest podobieństwo? Przypuśćmy, iż mamy cztery obiekty reprezentujące gwiazdy (Rys. 2.1). Które z nich są podobne a które różne? Rysunek 2.1 Przykład obrazujący podobieństwo dwóch obiektów [ 13 ] A B C D Można powiedzieć, że gwiazda A jest podobna do gwiazdy C. Gwiazdy A, B i C mają ten sam rozmiar, podczas gdy gwiazdy A, C i D mają ten sam kolor. Cechy, jakie użyjemy do pomiaru podobieństwa w tym przypadku to kolor i wielkość. Podobieństwo jest wielkością, która odzwierciedla siłę związku pomiędzy dwoma obiektami lub dwoma ich deskryptorami. Kiedy zapytamy, w jaki sposób odróżnić dwa różne typy dźwięku, usłyszymy bardzo różne odpowiedzi dotyczące jego cech. Nawet, jeśli potrafimy nazywać owe cechy, są one w dalszym ciągu abstrakcją, którą trudno zmierzyć, a tym bardziej wydobyć z sygnału audio. Muzycy na przykład, określają różnice pomiędzy dwoma rodzajami gatunków muzycznych, posługując się terminami: tonacja, rytm czy brzmienie. Niestety, deskryptory wysokiego poziomu, takie jak wspomniane powyżej, są w ogólności

14 trudne do wydobycia z sygnału audio w sposób bezpośredni. Oznacza to, iż zawsze należy przynajmniej zacząć od deskryptorów niskiego poziomu. Deskryptory niskiego poziomu są przedstawiane w postaci wektora wartości liczbowych. Dopiero w takiej postaci możemy mierzyć ich podobieństwo. Jest ono zwykle podawane w wartościach z przedziału <-1, 1> lub w znormalizowanej postaci w przedziale <0, 1>. Podobieństwo pomiędzy wektorem cech a wektorem można mierzyć w różny sposób w zależności od rodzaju danych, które posiadamy. Mówiąc o podobieństwie nie sposób nie wspomnieć o odległości, które w tym przypadku jest synonimem słowa różnica. Niech znormalizowana odległość pomiędzy obiektem a obiektem będzie oznaczona jako. Odległość jest wartością liczbową, która spełnia przynajmniej trzy pierwsze spośród niżej wymienionych warunków [11]: 0 - odległość jest zawsze większa bądź równa 0. = 0 - odległość jest równa 0, gdy porównujemy obiekt sam ze sobą. = - odległość jest symetryczna. + odległość spełniająca nierówność trójkąta (Rys. 2.2). Rysunek 2.2 Ilustracja właściwości trójkąta Przy założeniu, że podobieństwo przyjmuje wartości z zakresu <0, 1>, związek pomiędzy podobieństwem a odległością jest następujący: = 1 (1) Gdy podobieństwo jest równe 1 (obiekty są identyczne), odległość jest równa 0 i odwrotnie. Gdy wartość podobieństwa posiada wartości z przedziału <-1, 1>, a odległość w przedziale <0, 1>, wtedy zachodzi następująca zależność: = 1 2 (2)

15 Miary podobieństwa Kiedy różnica wynosi 1 (obiekty nie mają ze sobą nic wspólnego), podobieństwo wynosi 1 i na odwrót. W wielu przypadkach, pomiar odległości jest prostszy od pomiaru podobieństwa. Kiedy obliczymy odległość, można ją znormalizować i w prosty sposób przekonwertować na miarę podobieństwa. Z tego powodu, dalsze rozważania w tym rozdziale będą dotyczyły zarówno odległości jak i podobieństwa. 2.2 Podobieństwo wartości binarnych Obiekty, wobec których dokonujemy pomiaru podobieństwa, mogą zawierać wartości binarne takie jak: obecny i nieobecny, tak, nie, 0, 1 itp. Dla takich danych istnieją tylko dwie możliwe wartości, które są reprezentowane przez wartości logiczne prawda i fałsz. Podobieństwo lub odległość (różnica) dwóch obiektów reprezentowanych przez wartości binarne, może być mierzona w kategoriach częstości występowania pozytywnych i negatywnych wartości w każdym z obiektów. Aby przedstawić miary podobieństwa wartości binarnych, konieczne jest wprowadzenie pewnych oznaczeń oraz przykładu, na którym dokonywane będą obliczenia w celu zobrazowania działania poszczególnych miar podobieństwa. Przykładem niech będą dwa utwory z następującymi cechami binarnymi (Tab. 2.1): Tabela 2.1 Dwa obiekty (utwory muzyczne) z przykładowymi cechami binarnymi Piosenka Wesoła Wolna Zagraniczna Instrumentalna Obiekt Within Temptation Mother Earth Obiekt Apocalyptica Nothing Else Matters NIE NIE TAK NIE NIE TAK TAK TAK Koordynatem (deskryptorem) obiektu jest wektor (0,0,1,0). Dla obiektu jest to wektor (0,1,1,1). Każdy z obiektów jest reprezentowany przez cztery zmienne, dlatego też mówimy, że deskryptory obiektów są czterowymiarowe. Przyjmijmy następujące oznaczenia do dalszych rozważań: Liczba pozytywnych zmiennych dla obydwu obiektów jednocześnie. Liczba zmiennych, które są pozytywne jednocześnie dla -tego obiektu i negatywne dla -tego obiektu. Liczba zmiennych, które są negatywne jednocześnie dla -tego obiektu i pozytywne dla -tego obiektu. Liczba zmiennych, które są negatywne dla obydwu obiektów jednocześnie. 15

16 = Suma wszystkich wyżej opisanych zmiennych. Dla przykładu powyżej, mierząc podobieństwo między utworem a utworem otrzymujemy następujące wartości wyżej opisanych zmiennych: = 1, = 0, = 2, = 1 (3) Zmienne te będą stanowić bazę do dalszych rozważań Odległość Hamminga Określona sekwencja zer i jedynek nazywana jest słowem kodowym. Jeśli dwa słowa mają tę samą długość, możemy policzyć liczbę pozycji, przy których występuje różnica w wartościach zmiennych. Wielkość ta nazywana jest odległością Hamminga (ang. Hamming distance) [11]. Wzór na tę odległość przedstawia się następująco: Kodując wartości z tabeli 2.1 otrzymujemy (Tab. 2.2): = + (4) Tabela 2.2 Zakodowane wartości cech z Tabeli 2.1. Wartości w wierszu Różnica przyjmują wartość 1 gdy zmienne dla dwóch obiektów są różne. W przeciwnym przypadku przyjmują wartość 0. Obiekt Obiekt Różnica Widzimy, iż = 0 i = 2, więc = 2. Odległość Hamminga podzielona przez długość słowa (liczba wszystkich zmiennych) da nam prostą odległość dopasowania (ang. Simple matching distance) Prosty współczynnik dopasowania i odległości Prosty współczynnik dopasowania (ang. Simple matching coefficient) oraz prosty współczynnik odległości (ang. Simple matching distance) są szczególnie użyteczne, gdy informacje reprezentowane przez pozytywne i negatywne wartości są symetryczne względem siebie. Przykładem może być płeć, która jest atrybutem symetrycznym z powodu podobnej liczby wszystkich osobników żeńskich oraz męskich [11]. Wzór na współczynnik dopasowania wygląda następująco: = + (5)

17 Miary podobieństwa Aby zmierzyć odległość bazującą na współczynniku dopasowania, skorzystamy z zależności pomiędzy odległością a podobieństwem: = 1 = 1 + = = + (6) Otrzymany wzór na odległość przedstawia się następująco: = + (7) Dla przykładu podanego we wstępie i przeprowadzeniu obliczeń otrzymujemy następujące współczynniki podobieństwa i różnicy dla obiektu oraz obiektu : = 1 2 (8) = Współczynnik Jaccarda Współczynnik podobieństwa Jaccarda (ang. Jaccard s coefficient) oraz współczynnik odległości Jaccarda (ang. Jaccard s distance) są miarami odpowiednimi dla asymetrycznych informacji nie tylko binarnych. Dla niektórych zastosowań, wykorzystanie prostego współczynnika dopasowania (ang. Simple matching coefficient) nie ma sensu. Jest tak w przypadku, gdy pozytywne i negatywne wartości nie niosą ze sobą równej informacji (są asymetryczne). Na przykład, jeśli z semantycznego punktu widzenia, negatywna wartość jest nieistotna, obliczanie czegoś, co jest nieistotne w obu obiektach prowadzi do niewiarygodnych wyników. Dlatego też, współczynnik Jaccarda przedstawia nowy wzór na podobieństwo obiektów [11]: = + + (9) Wyprowadzenie wzoru na odległość przedstawia się następująco: = 1 = = + + = (10) Otrzymujemy w ten sposób: = (11) 17

18 Po przeprowadzaniu obliczeń dla przykładu z początku rozdziału otrzymujemy następujące wyniki: = 1 3 (12) = 2 3 (13) Dla danych niebinarnych, współczynnik Jaccarda może być także obliczany wykorzystując następującą relację: = (14) Przypuśćmy że mamy dwa zbiory = 7,3,2,4,1 oraz = 4,1,9,7,5. Suma tych zbiorów wynosi = 1,2,3,4,5,7, 9, część wspólna natomiast to: = 1,4, 7. Wyznaczanie współczynnika Jaccarda może odbywać się w oparciu o liczbę elementów w zbiorze części wspólnej podzielonym przez liczbę elementów w zbiorze sumy. = = 3 = 0,429 (15) Podobieństwo wartości liczbowych Załóżmy, że mamy dwa utwory muzyczne oraz wektory cech, których wartości reprezentowane są przez zmienne o wartościach liczbowych (Tab. 2.3). Tabela 2.3 Przykład dwóch obiektów (utworów muzycznych) z przykładowymi cechami liczbowymi Piosenka (1) (2) (3) (4) Obiekt Blues Brothers - How Blue Can you Get Obiekt Brian Adams - Summer of 69 8,517 6,692 3,822 2,026 7,034 6,899 3,308 1,760 Obiekt posiada koordynaty: (8,517, 6,692, 3,822, 2,026). Koordynaty dla obiektu są następujące: (7,034, 6,899, 3,308, 1.760). W dalszej części rozdziału zostaną przedstawione sposoby pomiaru podobieństwa dwóch wektorów zawierających dane liczbowe, posługując się przytoczonym przykładem.

19 Miary podobieństwa Odległość Euklidesowa Odległość Euklidesowa (ang. Euclidean Distance) jest najczęściej używaną miarą do pomiaru odległości np. dwóch punktów. Odległość Euklidesową definiuje się, jako pierwiastek z kwadratu różnicy pomiędzy parami wartości zmiennych [11]: = (16) Dla przykładu z początku rozdziału, odległość Euklidesowa wynosi: = 2, , , ,070 = 1,604 (17) Odległość city block Miara ta znana jest także pod innymi angielskimi nazwami: Manhattan distance, boxcar distance lub absolute value distance. Oblicza wartość absolutną różnicy par zmiennych dwóch koordynatów [11]. = (18) Dla przykładu z początku rozdziału otrzymujemy: = 1, , , ,266 = 2,47 (19) Odległość Czebyszewa Odległość Czebyszewa (ang. Chebyshev Distance) jest znana także jako odległość wartości maksymalnej. Odległość ta bierze pod uwagę maksimum z wartości absolutnej różnicy par zmiennych dwóch koordynatów [11]. = max (20) Dla przykładu z początku rozdziału, odległość Czebyszewa wynosi: = 1,483, 0,207,0,514,0,266 = 1,483 (21) 19

20 2.3.4 Odległość Canberra Odległość Canberra (ang. Canberra distance) jest określone przez sumę ułamków:. Jeśli jedna ze zmiennych wynosi zero, druga zmienna nie ma żadnego znaczenia w obliczaniu odległości. Metryka ta jest bardzo wrażliwa na małe zmiany, gdy oba koordynaty są bliskie zeru [11]. = + (22) Dla przykładu z początku rozdziału, odległość Canberra wynosi: = 1,483 15, ,207 13, ,514 7,13 + 0,266 = 0,252 (23) 3, Odległość Bray Curtis Odległość Bray Curtis (ang. Bray Curtis distance) jest nazywana czasami Sorensen distance. Posiada ciekawą właściwość: jeśli wszystkie koordynaty są większe od zera, wyjściowa wartość znajduje się w przedziale <0, 1>. Odległość ta jest w pewnym stopniu metodą normalizacji. Zero reprezentuje dokładnie identyczne obiekty. Jeśli oba koordynaty posiadają wartości równe zero wtedy miara nie jest zdefiniowana. Normalizacja jest realizowana poprzez użycie różnicy absolutnej podzielonej przez sumę poszczególnych par zmiennych [11]. = + (24) Dla przykładu z początku rozdziału, odległość Bray Curtis wynosi: = 1, , , ,266 = 0,061 (25) 15, , ,13 + 3, Kosinus kąta między wektorami Mierzy raczej podobieństwo niż odległość. Im większa wartość separacji kątowej, tym dwa obiekty są do siebie bardziej podobne. Wartości występują w przedziale <-1, 1> podobnie jak funkcja kosinus [11].

21 Miary podobieństwa = (26) Dla przykładu z początku rozdziału, separacja kątowa wynosi: = = 59, , , , , ,112 = 122,284 = 0,994 (27) 122, Współczynnik korelacji Współczynnik korelacji jest ujednoliconą miarą separacji kątowej, poprzez wycentrowanie koordynatów do ich wartości średnich. Wartości występują w przedziale <-1, 1>. Współczynnik ten jest raczej współczynnikiem podobieństwa niż odległości. = =, = (28) Dla przykładu z początku rozdziału, otrzymujemy: = 1 8, , , ,026 = 5,264 4 = 1 7, , , ,760 = 4,75 4 (29) = = 7, , , ,681 25,184 20,853 = 22,257 22,916 = 0, Odległość Mahalanobisa Odległość Mahalonobisa (ang. Mahalanobis distance) jest odległością pomiędzy dwoma wektorami i, dla zadanej macierzy kowariancji. Odległość Mahalanobista różni się od odległości Euklidesowej tym, iż dodatkowo bierze pod uwagę korelację zmiennych wchodzących w skład porównywanych wektorów. Z tego powodu, miarę tę nazywa się często ważoną odległością Euklidesową, z macierzą wag, będącą macierzą odwrotną do macierzy kowariancji jednego z wektorów [12]. 21

22 , = (30) Macierz kowariancji jest uogólnieniem pojęcia wariancji na przypadek wielowymiarowy. Dla wektora,,,, macierz kowariancji przyjmuje postać: (31) gdzie: = - wariancja zmiennej =, - kowariancja między zmiennymi i. 2.4 Normalizacja Proces przekształcenia wyników na wartości z przedziału <0, 1> jest nazywany normalizacją. Załóżmy, iż wartość odległości znajduje się w przedziale <, > i nie znajduje się w przedziale <0, 1>. Przyjmijmy następujące oznaczenia - oryginalna odległość - odległość znormalizowana Istnieje kilka sposobów na normalizację odległości. Z zasady, aby sprowadzić sekwencję liczb do przedziału <0, 1> powinniśmy posiadać wartości w formie dodatniej i podzielić przez liczbę wyższą od tej wartości [11] Z wykorzystaniem funkcji sigmoidalnej unipolarnej Jednym ze sposobów normalizacji jest wykorzystanie następującej funkcji: = + (32) Zmienna reprezentuje wartości z przedziału <-1, 1> dla 0. Ustawienie większej wartości tworzy wykres o bardziej łagodnym zboczu funkcji (Rys 2.3). Za pomocą następującego wzoru, funkcja być w prosty sposób przetransformowana na wartości z przedziału <0, 1>.

23 Miary podobieństwa = 1 2 (33) Co w połączeniu z oryginalnym wzorem daje: = (34) Rysunek 2.3 Wykres funkcji sigmoidalnej unipolarnej 14 W ogólności, kiedy < 0 wtedy > 0.5. Jeśli > 0, wówczas < 0.5. Dla = 0 funkcja produkuje wartości binarne 0 lub 1 z brakiem jej ciągłości dla = 0 [11]. Dla przykładu, jeśli = 4 i = 100 otrzymamy: = = 0,685 (35) Z wykorzystaniem wartości maksymalnej i minimalnej Kiedy wartość maksymalna i minimalna jest znana, transformacja może wyglądać następująco: = (36) Transformacja zwraca wartości z przedziału <0, 1>. Jeśli =, wtedy = 0. Jeśli = wtedy = 1. Należy jednak zwrócić uwagę, iż dzielenie nie może zostać wykonane, jeśli = 0 [11]

24 2.4.3 Gdy wartość maksymalna jest nieznana W przypadku, gdy w wektorze zmiennych nie znamy wartości maksymalnej, możemy użyć sumy wartości zmiennych, aby zastąpić wartość maksymalną [11]. Przypuśćmy, że ilość zmiennych jest stała i wynosi, wtedy: = (37) Normalizacja wartości ujemnych Wszystkie powyższe transformacje działają pod warunkiem, że nasze dane mają wartości większe od 0. Dla następującego wektora {-1,3,4} suma wynosi 6. Jeśli dokonamy normalizacji przy pomocy wartości maksymalnej otrzymamy:,,. Suma znormalizowanych wartości nadal jest większa od 0, ale wciąż w znormalizowanym wektorze istnieje wartość ujemna (. Rozwiązaniem jest przesunięcie danych poprzez dodanie do każdej zmiennej wartości bezwzględnej z najmniejszej wartości ujemnej. Po tej transformacji otrzymamy 0 w miejscu najmniejszej wartości ujemnej oraz wszystkie pozostałe wartości większe od zera. Wtedy można użyć jednego z wyżej opisanych sposobów normalizacji danych [11]. Dla przykładu, dla danych {-1,3,4}, najmniejszą wartością ujemną jest -1. Po dodaniu wartości bezwzględnej z -1 do pozostałych wartości otrzymamy: {0,4,5}. Po znormalizowaniu otrzymamy wektor: {0,, } Standaryzacja Standaryzacja jest również nazywana normalizacją statystyczną. Celem tej normalizacji jest przekształcenie danych o dowolnym rozkładzie do postaci rozkładu normalnego ze średnią zero i wariancją 1. Wzór normalizacji statystycznej przedstawia się następująco: = (38) gdzie: - wektor początkowych danych średnia - odchylenie standardowe

25 Miary podobieństwa 2.5 Podsumowanie Pomimo, iż istnieje wyraźna różnica pomiędzy klasyfikacją a podobieństwem muzycznym, te dwie dziedziny nie są od siebie aż tak bardzo odległe. Podstawową różnicą w przypadku klasyfikacji jest fakt, iż wymaga ona ustalenia z góry pewnej taksonomii. Badania nad podobieństwem natomiast wyznaczają określone miary, bez konieczności odnoszenia się do zewnętrznych struktur. Jest jednak jeden wspólny obszar w obydwu przypadkach. Mianowicie, wymagane jest zastosowanie tego samego mechanizmu ekstrakcji cech muzycznych. Jak zostało wspomniane na początku tego rozdziału, podobieństwo utworów muzycznych odzwierciedla siłę związku pomiędzy ich deskryptorami. Opis powyższego rozdziału dostarczył metod służących do pomiaru podobieństwa dwóch wektorów cech, a tym samym metod pomiaru podobieństwa utworów. Nie są to jednak jedyne sposoby. Podobieństwo może być również określane za pomocą metod uczenia maszynowego, a więc za pomocą klasyfikacji. 25

26 3 Klasyfikacja muzyczna Rozdział ten opisuje podstawowe zagadnienia związane z klasyfikacją. Opisuje sposoby działania klasyfikatorów, ich uczenie oraz testowanie. Opis nowych pojęć pozwoli lepiej orientować się w tej dziedzinie. Pod koniec rozdziału zostaną zaprezentowane najważniejsze algorytmy uczenia maszynowego, wykorzystywane do klasyfikacji przez program WEKA Czym jest klasyfikacja? Na wstępnie przytoczyć należy definicję klasyfikacji taksonomicznej, jako iż to pojęcie jest szczególnie istotne w badaniach związanych z muzyką. Klasyfikacja taksonomiczna jest to przyporządkowywanie obiektów do wcześniej zdefiniowanego zbioru kategorii (np. taksonomii) na podstawie właściwości tych obiektów. Mówiąc o klasyfikacji utworów, mamy na myśli skategoryzowanie utworów wg pewnej taksonomii (np. taksonomia gatunków muzycznych). Klasyfikacja znalazła szereg zastosowań, między innymi w rozpoznawaniu trendów na rynkach finansowych, w automatycznym rozpoznawaniu obrazów w dużych bazach danych, wspomaganiu decyzji przyznawania kredytów bankowych, itp. Znaczące zastosowanie znalazła w systemach medycznych. Przykładowo, w bazie danych medycznych znalezione mogą być reguły klasyfikujące poszczególne schorzenia, a następnie, przy pomocy tych reguł, automatycznie przeprowadzone diagnozowanie kolejnych pacjentów [13]. W niniejszej pracy, klasyfikacja znalazła zastosowanie w muzyce. Na podstawie zawartości bazy muzycznej budowany jest model (np. drzewo decyzyjne, reguły logiczne), który posłuży do klasyfikowania nowych utworów w bazie danych, lub głębszego zrozumienia istniejącego podziału kolekcji muzycznej. Głównym celem klasyfikacji jest zbudowanie formalnego modelu zwanego klasyfikatorem. Dane wejściowe w procesie klasyfikacji stanowi zbiór treningowy (zbiór przykładów, obserwacji, próbek), będący listą wartości atrybutów opisowych (tzw. deskryptorów) oraz wybranego atrybutu decyzyjnego (ang. class label attribute). W związku z wykorzystaniem zbioru treningowego, klasyfikację możemy nazwać metodą eksploracji danych z nadzorem (z nauczycielem) [13]. Klasyfikator jest modelem, który 15

27 Klasyfikacja muzyczna służy do predykcji wartości atrybutu decyzyjnego (np. gatunku muzycznego) utworów, dla których wartość tego atrybutu, tj. przydział do klasy, nie jest znana. Klasyfikacja jest procesem dwuetapowym. W pierwszym etapie konstruowany jest model (klasyfikator), opisujący predefiniowany zbiór klas. W drugim etapie klasyfikacji otrzymany model jest wykorzystywany do klasyfikacji nowych danych. 3.2 Trening i testowanie klasyfikatora Pierwszy etap klasyfikacji to nauka (trening) klasyfikatora w oparciu o zbiór treningowy. Następnie weryfikowana jest dokładność (jakość) klasyfikatora w oparciu o zbiór danych testowych. W związku z powyższym, aby zbudować klasyfikator należy podzielić bazę danych, czyli zbiór dostępnych utworów muzycznych na dwa niezależne zbiory. Pierwszy zbiór to zbiór treningowy. Na jego podstawie zbudowany zostanie model klasyfikatora. Drugi to zbiór służący do testowania modelu. Dane treningowe Algorytm klasyfikacji tempo wokal gatunek 120 chór dance 80 solo klasyka 100 solo dance 130 solo dance 60 brak klasyka 150 brak dance 120 brak klasyka 77 solo klasyka Klasyfikator (model) If tempo < 90 Or wokal = brak Then gatunek= klasyka Rysunek 3.1 Schemat budowy (nauki) klasyfikatora na podstawie danych treningowych W celu zobrazowania omówionych etapów budowy klasyfikatora, posłużmy się przykładami, takimi jak ten przedstawiony na rysunku 3.1. Załóżmy, iż baza danych zawiera informację o utworach muzycznych oraz ich gatunkach muzycznych. Baza stanowi prostą relację zawierającą trzy atrybuty: atrybut tempo, wokal, czyli rodzaj wokalu w utworze lub jego brak oraz atrybut gatunek związany z informacją o rodzaju muzycznym. Atrybut gatunek jest atrybutem decyzyjnym. Załóżmy ponadto, iż z takiej bazy wydzielono zbiór danych treningowych, przedstawiony na rysunku 3.1. Zbiór ten zostaje poddany algorytmowi klasyfikacji, który z kolei konstruuje klasyfikator. 27

28 Klasyfikator może być np. w postaci drzewa decyzyjnego, zbioru reguł decyzyjnych lub innych algorytmów uczenia maszynowego szczegółowo opisanych w podrozdziale 3.5. W przykładzie z rysunku 3.1, wynikiem działania algorytmu klasyfikacji jest klasyfikator w postaci pojedynczej reguły decyzyjnej:, Jeżeli tempo utworu jest mniejsze od 90 bpm (ang. beats per minute) lub wokal w utworze nie występuje, to utwór jest z gatunku muzyka klasyczna. Reguła ta oczywiście jest dużym uogólnieniem. Przykład ten ma jedynie na celu zobrazowanie ogólnej zasady budowy klasyfikatora. Dane testowe Klasyfikator (model) tempo wokal gatunek 125 chór dance 55 brak klasyka 100 chór dance 130 solo dance gatunek dance klasyka dance klasyka Dokładność = 75% Rysunek 3.2 Schemat testowania klasyfikatora, weryfikujący jego dokładność. W drugim etapie klasyfikacji, zwanym etapem testowania, dokonujemy weryfikacji dokładności opracowanego modelu. Weryfikacja dokładności jest realizowana w następujący sposób: dla zbioru przykładów testowych, wartości atrybutów decyzyjnych są porównywane z wartościami atrybutów generowanych przez klasyfikator. Na rysunku 3.2 przedstawiony został zbiór danych testowych, wyodrębnionych z muzycznej bazy danych. Dla podanych rekordów, klasyfikator generuje wartości atrybutu decyzyjnego, po czym następuje weryfikacja klasyfikatora. Jedną z miar weryfikujących dokładność modelu jest tzw. współczynnik dokładności (precyzja), obliczany jako procent poprawnie zaklasyfikowanych przykładów testowych [13]. Klasyfikator wygenerował następujące wartości atrybutu decyzyjnego dla zbioru testowego: dance, klasyka, dance, klasyka. Jeżeli porównamy wartości atrybutu decyzyjnego wygenerowane przez klasyfikator, z wartościami atrybutu decyzyjnego w zbiorze testowym, okazuje się, że klasyfikator poprawnie zaklasyfikował 3 z 4 przypadków a zatem współczynnik dokładności modelu wynosi 75%. Jeśli dokładność modelu jest akceptowalna, model może

29 Klasyfikacja muzyczna być użyty do klasyfikacji przyszłych danych, dla których wartość atrybutu decyzyjnego (np. gatunek muzyczny) jest nieznana. 3.3 Predykcja Jeżeli dokładność klasyfikatora jest akceptowalna, wówczas możemy go wykorzystać do klasyfikacji nowych danych. Celem klasyfikacji, jest przyporządkowanie nowych danych, dla których wartość atrybutu decyzyjnego jest nieznana, do odpowiedniej klasy. Nowe dane Klasyfikator (model) tempo wokal gatunek 34 chór? 155 brak? 125 chór? 80 brak? gatunek klasyka klasyka dance klasyka Rysunek 3.3 Schemat użycia klasyfikatora do celów predykcji wartości atrybutu decyzyjnego Na rysunku 3.3 przedstawiony został zbiór danych, dla których wartość atrybutu decyzyjnego gatunek nie jest znana. Zbiór ten poddany został procesowi klasyfikacji. W wyniku tego procesu, rozpoznane zostały następujące wartości atrybutu decyzyjnego gatunek : klasyka, klasyka, dance, klasyka. Klasyfikator zaklasyfikował nowe utwory do odpowiednich klas. Utwór z tempem 34 bpm oraz wokalem typu chór został zaklasyfikowany jako klasyka. Podobnie z utworami, które mają tempo 155 oraz 80 bpm i nie posiadają wokalu. 3.4 Kryteria porównawcze W tym punkcie zaprezentowanych zostanie kilka kryteriów, według których można oceniać dany klasyfikator [13]. Kryteria te są istotne nie tylko dlatego, aby rozważać klasyfikatory w kategoriach jakości, ale również, aby móc przeprowadzić eksperymenty na różnych typach klasyfikatorów. Dokładność predykcji (and. predictive accuracy) zdolność modelu do poprawnej predykcji wartości atrybutu decyzyjnego (klasy) nowego obiektu. 29

30 Efektywność (ang. efficiency) koszt obliczeniowy związany z wygenerowaniem i zastosowaniem klasyfikatora. Odporność modelu (ang. robustness) zdolność modelu do poprawnej predykcji klas w przypadku braku części danych lub występowania danych zaszumionych. Skalowalność (ang. scalability) zdolność do konstrukcji klasyfikatora dla dowolnie dużych danych (np. niektóre klasyfikatory są binarne). Interpretowalność (ang. interpretability): odnosi się do stopnia, w jakim konstrukcja klasyfikatora pozwala na zrozumienie mechanizmu klasyfikacji danych. 3.5 Metody uczenia maszynowego Podrozdział ten przedstawia najważniejsze algorytmy uczenia maszynowego, zaimplementowane w programie WEKA 16. Jedną z metod ulepszania obecnych metod klasyfikacji jest łączenie klasyfikatorów w zespoły. Metodę te wykorzystuje sie głównie w sytuacji, gdy klasyfikatory wykazują się dość dużą niestabilnością podczas testów z wykorzystaniem np. walidacji krzyżowej (ang. cross-validation). Walidacja krzyżowa polega na podziale zbioru dostępnych danych na dwa podzbiory treningowy oraz testowy i wykonaniu na nich odpowiednich analiz. Istniejące metody walidacji krzyżowej określają sposób podziału początkowego zbioru. Jedną z tych metod jest walidacja prosta, polegająca na losowym podziale zbioru początkowego na dwa rozłączne zbiory: uczący i testowy. Zwykle zbiór testowy stanowi mniej niż wszystkich elementów zbioru początkowego. Kolejną metodą jest walidacja -krotna, charakteryzująca się podziałem zbioru początkowego na podzbiorów. Następnie każdy z tym podzbiorów, stanowi kolejno zbiór testowy, a pozostałe razem stanowią zbiór uczący. Metoda Leave-one-out jest odmianą walidacji -krotnej. W metodzie tej, początkowy zbiór o elementach jest dzielony na podzbiorów, zawierających po jednym elemencie 17. Niestabilność klasyfikatorów objawia się dużym współczynnikiem błędów klasyfikacji. Istnieją jednak metody niwelowania takiej niestabilności, nazywane metodami stabilizacji klasyfikatorów. Do najbardziej popularnych należą bagging oraz boosting. Obie te metody zostaną omówione w tym rozdziale. Metody te, jak i inne mechanizmy opisywane poniżej, posłużą do klasyfikacji utworów muzycznych w dalszej części pracy

31 Klasyfikacja muzyczna K najbliższych sąsiadów (k-nn) Metoda najbliższych sąsiadów (ang. k-nearest neighbour) polega na przydzieleniu nowego obiektu do klasy decyzyjnej na podstawie kilku najbardziej podobnych do niego znanych obiektów. Zakładając, że obiekty przeznaczone do klasyfikacji są elementami przestrzeni R, wtedy odległość między dwoma obiektami, jest obliczana za pomocą odległości Euklidesowej:, = ( ) (39) Im mniejsza jest wartość odległości, tym obiekty uważane są za bardziej podobne. Klasyfikacja nowego obiektu polega na znalezieniu najbliższych obiektów z danych treningowych i przypisaniu mu klasy reprezentowanej przez większość spośród wyznaczonych reprezentantów [14] Naiwny klasyfikator Bayesa Jest to szeroko stosowana metoda, pozwalająca przewidzieć prawdopodobieństwo przynależności obiektów do klasy. Opiera się na twierdzeniu Bayesa: ( )= ( )( ) () (40) gdzie: obiekt, traktowany jako wektor jego atrybutów {,,, }, którego prawdopodobieństwo przynależności do klasy chcemy oszacować. - klasa, do której może należeć obiekt. ( ) - prawdopodobieństwo przynależności do klasy. ( ) - prawdopodobieństwo warunkowe (a posteriori 18 ) że obiekt posiada atrybuty {,,, }, jeśli wiadomo, że należy do klasy. () - prawdopodobieństwo, że każdy z obiektów posiada atrybuty {,,, }. Jest to tzw. prawdopodobieństwo bezwarunkowe (a priori 19 ). ( ) - prawdopodobieństwo a priori, że losowo wybrany obiekt należy do klasy

32 Prostota tej metody wynika z założenia niezależności statystycznej zmiennych. Stosując ten algorytm można osiągnąć zaskakująco dobre rezultaty. Naiwny klasyfikator Bayesa jest szczególnie odpowiedni przy dużym wymiarze wektora wejściowego. Z powodów opisanych powyżej, klasyfikator ten może być często lepszy od innych, bardziej skomplikowanych metod klasyfikacji [14]. Rysunek 3.4 Zbiór obiektów w przestrzeni dwuwymiarowej, należących do dwóch klas [14] Aby zilustrować koncepcję tego algorytmu, rozpatrzmy przykład z rysunku 3.4. Znajdują się tu obiekty zielone i czerwone. Zadaniem jest zaklasyfikowanie nowego obiektu, który może pojawić się wśród obecnych obiektów. Ponieważ zielonych obiektów jest dwa razy więcej niż czerwonych, rozsądnie będzie przyjąć, że obiekt, który jest jeszcze nieznany, będzie miał dwa razy większe prawdopodobieństwo bycia zielonym niż czerwonym. W analizie Bayesowskiej, takie prawdopodobieństwa nazywane są prawdopodobieństwami a priori. Wynikają one z posiadanych, wcześniejszych (a priori) obserwacji. W tym wypadku, chodzi o procent zielonych względem czerwonych obiektów. Prawdopodobieństwa a priori służą często do przewidywania klasy nieznanych przypadków, zanim się one pojawią. Jako iż na rysunku 3.4 wszystkich obiektów jest 60, obiektów zielonych jest 40, a czerwonych 20, to prawdopodobieństwa przynależności do odpowiednich klas wynoszą:. = 2 3 (41). = 1 3 Mając obliczone prawdopodobieństwo można przystąpić do zaklasyfikowania nowego obiektu [14].

33 Klasyfikacja muzyczna Rysunek 3.5 Zobrazowanie sąsiedztwa punktu przeznaczonego do klasyfikacji [14] Sensownie jest założyć, że im więcej jest obiektów zielonych (lub czerwonych) w pobliżu nowego obiektu, tym bardziej prawdopodobne jest, że nowy obiekt również będzie zielony (czerwony). Rysując okrąg wokół nowego obiektu (Rys. 3.5), tak by obejmował wstępnie zadaną liczbę obiektów, można obliczyć wielkość zwaną szansą, zliczając wystąpienia poszczególnych obiektów wewnątrz okręgu w stosunku do całkowitej liczby obiektów każdego typu., ż ę = 1 40, ż ę = 3 20 (42) Pomimo, iż prawdopodobieństwo wskazuje, że X będzie zielone, to szanse są odwrotne, ze względu na bliskość czerwonych obiektów. Końcowa klasyfikacja w analizie Bayesowskiej bazuje na obu informacjach. Można wyliczyć prawdopodobieństwo że X będzie zielone. Prawdopodobieństwo to jest iloczynem prawdopodobieństwa że X będzie zielone oraz szansy że X będzie zielone. Dla powyższego przykładu prawdopodobieństwo, że X będzie zielone wynosi. Z kolei prawdopodobieństwo że X będzie czerwone wynosi. W rezultacie X należy zaklasyfikować, jako obiekt czerwony, ponieważ prawdopodobieństwo jest większe dla takiej właśnie przynależności [14]. Powyższy przykład ma jedynie charakter intuicyjny. Za pomocą naiwnego klasyfikatora Bayesowskiego, można analizować dowolną liczbę zmiennych niezależnych, ciągłych i skategoryzowanych. Wzór metody Bayesa wygląda następująco:,, =,, (43) 33

34 gdzie oznacza klasę nr, a,, są wartościami obiektów przeznaczonych do klasyfikacji.,, oznacza prawdopodobieństwo przynależności wartości wektora (gdzie k={1,2.,n}) do klasy [15] Metoda wektorów nośnych SVM U podstaw metody wektorów nośnych (ang. Support Vector Machines, SVM) leży koncepcja przestrzeni decyzyjnej, którą dzieli się budując granice separujące obiekty o różnej przynależności klasowej 20. Innymi słowy, zadaniem tej metody jest rozdzielenie danych, należących do przeciwnych klas. Aby odseparować większą liczbę klas, należy użyć tej metody wielokrotnie. Dla przykładu podane są dwie klasy obiektów: obiekty zielone i czerwone. Linia graniczna rozdziela je wyraźnie. Nowy, nieznany obiekt, jeżeli znajdzie się po prawej stronie granicy, zostanie zaklasyfikowany jako zielony, w przeciwnym przypadku jako czerwony. Rysunek 3.6 Przykład działania prostego klasyfikatora liniowego 21 Rys. 3.6 jest ilustracją bardzo prostego przykładu klasyfikatora liniowego, dzielącego obszar prób na dwie części za pomocą prostej. Większość praktycznych zadań klasyfikacyjnych nie jest jednak tak oczywista. Do poprawnego klasyfikowania potrzebne są bardziej skomplikowane struktury niż linia prosta. Rysunek 3.7 Przykład działania klasyfikatora, dzielącego obszar prób na dwie części za pomocą krzywej vm.html

35 Klasyfikacja muzyczna Zilustrować może to przykład z rysunku 3.7, który porównany z poprzednim jasno wskazuje, że do rozdzielenia obiektów zielonych i czerwonych konieczna jest krzywa. Krzywa ta jest przykładem klasyfikatora hiperpłaszczyznowego. Tego typu klasyfikatory otrzymujemy stosując metodę wektorów nośnych SVM [14]. Rysunek 3.8 Przykład wykonania transformacji z jednej przestrzeni na inną za pomocą pewnej funkcji jądrowej Rys. 3.8 ilustruje główną ideę metody wektorów nośnych. Oryginalne obiekty z lewej strony rysunku zostały zmapowane (przetransportowane) za pomocą funkcji jądrowych (ang. kernel functions) na przestrzeń ilustrowaną po prawej. Co ważne, w nowej przestrzeni dwie klasy są liniowo separowane, co pozwala uniknąć skomplikowanej postaci granicy klas. Biały obiekt, to nowy, nieznany przypadek Drzewa decyzyjne Drzewo jest grafem składającym się z wierzchołków i krawędzi łączących niektóre wierzchołki. Najprostsze drzewa to tzw. drzewa binarne, w których z każdego wierzchołka wychodzą dwie krawędzie. Każdy taki wierzchołek reprezentuje decyzję o podziale zbioru obiektów na dwa podzbiory ze względu na jedną z cech objaśniających. Początkowy wierzchołek drzewa, obrazujący pierwszą decyzję podziału, nazywany jest korzeniem drzewa. Z kolei liściem drzewa nazywany jest wierzchołek, z którego nie wychodzą żadne krawędzie. Na tym etapie następuje identyfikacja obiektu. Korzeń drzewa wybierany jest na podstawie tzw. kryterium wyboru. Najczęściej stosowanym kryterium jest tzw. zysk informacji (ang. Information gain). Innymi słowy, wybierany jest ten podział, który daje dwa najbardziej różniące się między sobą podzbiory m.html 35

Pokazać jeszcze