Problem rozpoznawania wzorców dla zagadnień słabo zrównoważonych. mgr inż. Wojciech Lesiński

Transkrypt

1 Instytut Badań Systemowych Polskiej Akademii Nauk Streszczenie rozprawy doktorskiej Problem rozpoznawania wzorców dla zagadnień słabo zrównoważonych mgr inż. Wojciech Lesiński Uniwersytet w Białymstoku Wydział Matematyki i Informatyki Promotor: dr hab. inż. Władysław Homenda, prof. PW Warszawa, grudzień 2013

2 Spis treści Spis treści i 1 Wstęp 1 2 Klasyfikacja Funkcja klasyfikująca i obszary decyzyjne Klasyfikatory proste Metody minimalnoodległościowe Metody statystyczne Klasyfikatory złożone Głosowania Bagging Analiza obrazu Normalizacja obrazu Interpolacja obrazu Cechy Eksperyment Rozpoznawanie klas licznych Klasyfikatory proste Klasyfikatory złożone Rozpoznawanie klas mało licznych Klasyfikatory proste Klasyfikatory złożone Zagadnienie dobrze zrównoważone Podsumowanie 22 Bibliografia 24 A Szczegółowe wyniki rozpoznawania 27 i

3 Rozdział 1 Wstęp Informatyka jest jedną z najdynamiczniej rozwijający się dyscyplin naukowych. Wśród jej działów szczególną dynamiką wykazuje się sztuczna inteligencja, a zwłaszcza problem rozpoznawania wzorców (ang. pattern recognition). Zagadnienie to zostało szeroko opisane w literaturze i doczekało się wielu praktycznych implementacji, zapewniających wysoką skuteczność działania. Prace w tym obszarze trwają już wiele lat i zaowocowały olbrzymią liczbą publikacji, książek i innych opracowań. Opracowany został szereg klasyfikatorów, między innymi k najbliższych sąsiadów (knn), klasyfikator bayesowski, klasyfikatory oparte na sztucznych sieciach neuronowych oraz drzewa decyzyjne. Na bazie klasyfikatorów prostych powstały metody łączenia zwiększające skuteczność klasyfikatorów bazowych. Chociaż rozwój dziedziny rozpoznawania wzorców jest szybki i znaczący, w wielu jej fragmentach wciąż można wiele zrobić. Jednym z nich jest niewątpliwie zagadnienie słabo zrównoważone. Oczywiście zagadnienie słabo zrównoważone także jest przedmiotem licznych badań. Ich wyniki zostały przedstawione między innymi w pracach [2], [9], [11], [35]. Z punktu widzenia tej pracy szczególne znaczenie ma artykuł Leo Breimana [7] przedstawiający znaczenie lasów losowych w rozpoznawaniu zagadnienia słabo zrównoważonego. Większość prac dotyczących zagadnienia słabo zrównoważonego skupia się na liczności poszczególnych klas. Przykładem zagadnienie słabo zrównoważonego, na którym skupiono się w niniejszej pracy, jest notacja muzyczna. Różne podejścia do rozpoznawania notacji muzycznej przedstawione są między innymi w [12], [13], [14], [16], [15], [24], [22], [23], [32] i [33]. Przeglądy stanu wiedzy na temat optycznego rozpoznawania notacji muzycznej można znaleźć w pracach [1] i [31]. Spis znaczącej literatury z zakresu rozpoznawania notacji muzycznej można znaleźć w [30]. Pomimo zaawansowanych prac badawczych i wdrożeniowych prowadzonych w zakresie rozpoznawania notacji muzycznej, wyniki w tej dziedzinie są wciąż niedoskonałe. Dziedzina ta nadal stanowi wyzwanie badawcze i technologiczne. Na potrzeby niniejszej pracy zagadnienie słabo zrównoważone można zdefiniować jako przypadek, w którym występuje jedna lub kilka z poniższych cech: w liczności elementów poszczególnych klas występują znaczne różnice; elementy w obrębie tej samej klasy mogą mieć kształty nie pokrywające się; obiekty należące do różnych klas zdecydowanie różnią się wielkością; występują zarówno obiekty proste jak i złożone. Pierwsza z tych cech może mieć negatywny wpływ na tworzenie odpowiedniego zbioru uczącego. O ile nie będzie problemów z zebraniem odpowiedniej liczby reprezentantów klas 1

4 ROZDZIAŁ 1. WSTĘP 2 Rysunek 1.1: Przykład zróżnicowania notacji muzycznej licznych, tak elementy z klas rzadkich mogą pojawić się w niewystarczającej liczbie. Pozwala to domniemywać, że niektóre klasyfikatory (np. knn dla dużych wartości współczynnika k, czy też zbyt mocno przycięte drzewo decyzyjne) mogą niewłaściwie klasyfikować klasy ubogie w reprezentantów. Zniwelowanie tych negatywnych czynników może nastąpić poprzez zebranie odpowiedniej liczby przedstawicieli każdej z klas (czasem może być to niemożliwe) oraz poprzez zbudowanie odpowiedniej struktury klasyfikatorów. Nie pokrywające się kształty w ramach tej samej klasy, czyli druga cecha z omawianej definicji, również mają negatywny wpływ na rozpoznawanie. W takim przypadku trudniej jest stworzyć średni wektor cech. Rozwiązaniem może być tu podział danej klasy na tyle podzbiorów, ile mód ona posiada. Kolejne cechy również mogą obniżać skuteczność klasyfikacji. Znaczące różnice w wielkości mogą utrudnić normalizację. Podobny wpływ mogą mieć różnice w złożoności obiektów. W niniejszej pracy zagadnienie słabo zrównoważone zilustrowane zostanie na przykładzie symboli notacji muzycznej. Znaki znajdujące się na partyturze posiadają wszystkie cechy omówione powyżej. Symbole notacji muzycznej występują w zdecydowanie różnej częstotliwości. Niektóre z nich, takiej jak ćwierćnuty czy ósemki, występują bardzo często, nierzadko wielokrotnie w obrębie jednej linijki partytury. Inne, (między innymi pauzy czy znaki chromatyczne) pojawiają się często, ale jednak zdecydowanie rzadziej. Są też takie symbole (nuta brevis, nuta longa), które pojawiają się sporadycznie w nielicznych utworach. Problem nieprzystających kształtów w ramach tej samej klasy dotyczy części badanych symboli. Są to, między innymi, łuki, crescenda i diminuenda. Różne kształty łuków pokazuje rysunek 1.2. Rysunek 1.2: Nieprzystające kształty symbolu łuk Obiekty należące do poszczególnych klas notacji muzycznej zdecydowanie różnią się między sobą wielkością. Rysunek 1.3 ilustruje to zróżnicowanie. Zawiera on symbole wielkie, średnie i małe. Oczywiście określenia te traktujemy umownie. Do obiektów wielkich możemy z całą pewnością zaliczyć doskonale na nim widoczny łuk. Do dużych znaków możemy zaliczyć również klucz wiolinowy. Przeciwieństwem łuku, w sensie wielkości, jest kropka. Jest to najmniejszy znak występujący w partyturze. Do symboli małych, jednakże znacznie większych od kropki,

5 ROZDZIAŁ 1. WSTĘP 3 możemy zaliczyć również niektóre akcenty, całą nutę czy pauzę całonutową. Porównanie kropki i łuku doskonale pokazuje słabe zrównoważenie notacji muzycznej w sensie wielkości. Pomiędzy wartościami skrajnymi możemy znaleźć wiele znaków o wielkościach pośrednich, między innymi ćwierćnuty, bemole czy kasowniki. Rysunek 1.3: Różne wielkości wybranych symboli notacji muzycznej Celem niniejszej pracy jest opracowanie i analiza skuteczności, w zastosowaniach praktycznych, różnych metod rozpoznawania zagadnienia słabo zrównoważonego na przykładzie symboli notacji muzycznej. W jej ramach przeprowadzona była analiza procesu przygotowania do rozpoznawania obrazów, wykonane zostały testy klasyfikatorów prostych i złożonych oraz dokonany został dobór odpowiedniego zestawu cech. Szczególna uwaga została skierowana na użycie drzew decyzyjnych oraz lasu losowego. Dokonane też zostało porównanie rozpoznawania notacji muzycznej z rozpoznawaniem liter drukowanych, które tu reprezentują zagadnienie dobrze zrównoważone. Należy podkreślić, że analiza rozpoznawania symboli notacji muzycznej jako zagadnienia słabo zrównoważonego przedstawiona w niniejszej rozprawie jest zagadnieniem oryginalnym i nie podejmowanym w innych pracach. W ramach niniejszej rozprawy opracowana została odpowiednia dla problemu struktura klasyfikatorów oraz wyznaczone zostały właściwe wektory cech. Osiągnięta wysoka skuteczność wybranych klasyfikatorów świadczy o prawidłowości przyjętej metodyki.

6 Rozdział 2 Klasyfikacja 2.1 Funkcja klasyfikująca i obszary decyzyjne Algorytm klasyfikacji ψ przypisuje każdemu wektorowi zmierzonych cech x X numer klasy i M, co można zapisać ψ(x) = i. Funkcję ψ nazywamy funkcją klasyfikującą. Innymi słowy, algorytm ψ odwzorowuje przestrzeń cech w zbiór numerów klas: ψ : X M (2.1) lub, równoważnie, generuje rozkład przestrzeni cech na tak zwane obszary decyzyjne: D (i) X = {x X : ψ(x) = i} dla każdego i M (2.2) Ponieważ rozkład przestrzeni oznacza rozłączną i pokrywającą cała przestrzeń rodzinę zbiorów, dlatego mamy: ( i, j M, i j) D (i) X D(j) X = (2.3) oraz 2.2 Klasyfikatory proste i M Metody minimalnoodległościowe D (i) X = X (2.4) Metody minimalnoodległościowe opierają się na ocenie odległości pomiędzy klasyfikowanym obiektem, a elementami zbioru uczącego. Odległość określa się niekoniecznie w sensie odległości euklidesowej [28]. W przypadku jednomodalnym klasyfikację można przeprowadzić wyznaczając odległości pomiędzy klasyfikowanym obiektem x, a modami lub wzorcami wszystkich klas reprezentowanych w zbiorze uczącym. Tak więc klasyfikator działający według reguły minimalnej odległości oblicza odległość dzielącą klasyfikowany obiekt x od wzorca każdej klasy i następnie zalicza go do tej klasy, której wzorzec znajduje się najbliżej. W przypadku wielomodalnym istnieje konieczność tworzenia tylu wzorców, ile mód posiada dana klasa. Istotną sprawą w omawianej metodzie jest dobór metryki. Metryka posiada wpływ na skuteczność oraz szybkość działania klasyfikatora. Metrykę można wybrać poprzez eksperymenty metodą prób i błędów lub też podjąć arbitralną decyzję na podstawie wiedzy pozyskanej z innego źródła. Możliwe metryki to: 4

7 ROZDZIAŁ 2. KLASYFIKACJA 5 Euklidesowa Minkowskiego Manhatańska Mahalanobisa gdzie Σ 1 i Czebyszewa L 2 (x, y) = ( L d (x, y) = ( L 1 (x, y) = d (x i y i ) 2 ) 1 2 (2.5) i=1 d (x i y i ) d ) 1 d (2.6) i=1 d x i y i (2.7) i=1 L M (x, m k ) = ((x m k ) T Σ 1 i (x m k )) 1 2 (2.8) to macierz kowariancji klasy c i Metody statystyczne K najbliższych sąsiadów L d (x, y) = max i=1..d x i y i (2.9) Klasyfikator k najbliższych sąsiadów [8] podaje bezpośrednie oszacowanie warunkowych prawdopodobieństw p(j x), przynależności badanego symbolu x do klasy j. W fazie uczenia zapamiętuje wszystkie symbole próbki uczącej. Faza rozpoznania polega na wybraniu klasy, dla której prawdopodobieństwo przynależności jest największe. W przypadku, gdy k = 1 rozpoznanie sprowadza się do znalezienia wzorca najbliższego badanemu symbolowi w określonej metryce. Metodę tą często określa się skrótem knn. Algorytm ten opiera się na porównaniu gęstości rozmieszczenia obserwacji z różnych klas w najbliższym otoczeniu badanego symbolu x. W tym celu ustala się liczbę k i do obliczeń stosuje się k obserwacji X i, które leżą w najbliższym otoczeniu badanego wzorca. Formułując to dokładniej, konstruuje się kulę R p o środku w punkcie x i promieniu tak dobranym, aby kula zawierała dokładnie k obserwacji z próbki uczącej X 1, X 2,...X n. Oszacowanie prawdopodobieństwa polega na badaniu liczebności symboli z każdej klasy w kuli R p. Przyjmuje się prawdopodobieństwa jako stosunek badanej liczebności symboli w kuli R p do liczby k. Innymi słowy, obserwacja x zostaje zakwalifikowana do klasy, do której należy najwięcej spośród k znalezionych symboli z kuli R p. Można też powiedzieć, że reguła k najbliższych sąsiadów orzeka: Obserwacja x zostaje zakwalifikowana do tej klasy, z której pochodzi najwięcej spośród k najbliższych punktowi x obserwacji z próby uczącej. Należy wspomnieć, że algorytm ten wymaga dużego nakładu obliczeń. Spowodowane jest to wyznaczeniem otoczenia badanego wzorca x. W tym celu należy policzyć odległości punktu x od każdego z zapamiętanych wzorców. Obliczone odległości należy również posortować. K średnich K średnich [10], [29], jest algorytmem podobnym do k najbliższych sąsiadów, próbującym rozwiązać problem dużego nakładu obliczeń w fazie rozpoznania, jakim charakteryzował się klasyfikator knn. W fazie uczenia zbiór uczący X = {X 11,..., X 1n1, X 21,..., X 2n2,..., X m1,..., X mnm } dzielony jest na m klas, a następnie każdy ze zbiorów reprezentujących daną klasę jest dalej dzielony na k podzbiorów, inaczej zwanych klastrami. Dla każdego podzbioru w klasie wyznaczony jest punkt centralny, centroid, który jest brany do obliczeń w fazie

8 ROZDZIAŁ 2. KLASYFIKACJA 6 Rysunek 2.1: Schemat klasyfikatora knn - dla k = 1 obiekt reprezentowany przez czarną kropkę będzie klasyfikowany do klasy c 1, dla k = 3, do c 3 rozpoznania. Faza ta polega na znalezieniu punktu centralnego najbliższego badanemu symbolowi względem ustalonej normy. Odpowiedzią klasyfikatora jest etykieta klasy, do której należy najbliższy znaleziony centroid. Algorytm klasteryzacji podany jest poniżej: Niech dany będzie zbiór uczący X = {X 11,..., X 1n1, X 21,..., X 2n2,..., X m1,..., X mnm } oraz metryka L(x, y) : X X [0, + ) opisująca odległość elementów na zbiorze X. Algorytm można podzielić na kilka kroków: 1. Ustal liczbę k 1, która określa liczbę klastrów dla danej klasy na zbiorze X. 2. Wybierz losowo lub arbitralnie początkowe położenie centroidów dla każdego z klastrów. 3. Przypisz elementy najbliższe (w sensie metryki L) danemu centroidowi do jego klastra. 4. Ustal położenie nowych centrów, wyliczając je jako średnią z elementów należących do danego podzbioru. 5. Powtarzaj krok 3. i 4. tak długo, aż elementy przestaną zmieniać swój klaster. Klasyfikator korzysta z powyżej opisanego algorytmu w fazie uczenia. Wówczas wyznaczane jest k centroidów dla każdej klasy ze zbioru uczącego. Klasyfikator nie zapamiętuje całego zbioru uczącego, a tylko wyliczone centroidy. Dzięki temu zmniejsza się nakład obliczeń w fazie rozpoznania. W fazie rozpoznania znajdowany jest najbliższy centroid dla symbolu rozpoznawanego x. Klasa, do której należy dany centroid, stanowi odpowiedź algorytmu. Odległość pomiędzy dwoma elementami w fazie rozpoznania wyznaczana jest przy pomocy wcześniej ustalonej metryki. Tak jak to miało miejsce dla algorytmu k-nn, może to być dowolna metryka. Rysunek 2.2 pokazuje podział klasy na 3 klastry. Klasyfikator Bayesa i jego modyfikacje Niech rozkład obserwacji x z klasy j dla próbki uczącej X = {X 11,..., X 1n1, X 21,..., X 2n2,..., X m1,..., X mnm } będzie dany rozkładem prawdopodobieństwa lub gęstością prawdopodobieństwa w postaci 2.10: p(x j) f j (x) (2.10) Niech ponadto prawdopodobieństwo a priori, że obserwacja x pochodzi z klasy j wynosi π j. Na mocy tw. Bayesa prawdopodobieństwo, że klasyfikowany obiekt x pochodzi z klasy j możemy przedstawić wzorem 2.11: p(j x) = π j p(x j) m k=1 π kp(x k) (2.11)

9 ROZDZIAŁ 2. KLASYFIKACJA 7 Rysunek 2.2: Podział klasy na 3 klastry za pomocą algorytmu k-średnich Budowa klasyfikatora odbywa się na podstawie reguły Bayesa: wektor x klasyfikuje się jako element z klasy j, jeśli wartość p(j x), j = 1,..., m jest największa dla tej klasy. W praktyce prawdopodobieństwa π j oraz p(x j) nie są znane i należy je oszacować, zastępując je ich estymatorami. Prawdopodobieństwa π j szacuje się jako stosunek liczby elementów z j tej klasy do liczby wszystkich próbek: π j = n j (2.12) n gdzie n j jest licznością j tej klasy, natomiast n licznością całego zbioru uczącego. Prawdopodobieństwa p(x j) estymuje się najczęściej rozkładem normalnym: p(x j) N(m j, Σ j ) (2.13) gdzie m j jest wartością oczekiwaną, a Σ j wariancją. Ponieważ wielkości wariancji oraz wartości oczekiwanej też nie są znane, są estymowane na podstawie zbioru uczącego. Estymowane wartości możemy przedstawić wzorami: Wartość oczekiwana: Wariancja: m j = 1 n j Σj= 1 n j n j n j x ij (2.14) i=1 (x ij m j ) 2 (2.15) i=1 Pewne uproszczenie reguły Bayesa możemy uzyskać świadomie usuwając z niej prawdopodobieństwa a priori lub też przyjmując, że są one równe π 1 = π 2 = = π m. Reguła Bayesa, którą po takiej modyfikacji, nazywamy tu Metodą Największej Wiarygodności (NW), przyjmuje postać 2.16: p(j x) = p(x j) m k=1 p(x k) (2.16) Prawdopodobieństwo p(x j) estymujemy rozkładem normalnym, identycznie jak to miało miejsce dla klasyfikatora Bayesa. W terminach gęstości prawdopodobieństwa symbol x zostanie zaklasyfikowany do tej klasy, dla której wartość gęstości p(j x) jest największa. Jeżeli zostanie założone, że obserwacje pochodzą z rozkładów normalnych o takiej samej macierzy kowariancji oraz są o równych prawdopodobieństwach a priori π 1 = π 2 = = π M, można sprowadzić regułę Bayesa do postaci 2.17: (x m k ) T Σ 1 (x m k ) (2.17)

10 ROZDZIAŁ 2. KLASYFIKACJA 8 gdzie m k jest wartością oczekiwaną zdefiniowaną jak w regule Bayesa, natomiast Σ jest macierzą kowariancji estymowaną w postaci: Σ = 1 n m m n k (x ki m k ) T (x ki m k ) (2.18) k=1 i=1 Tak zdefiniowana reguła jest określana jako odległość Mahalanobisa [27]. W tej metodzie klasyfikujemy wzorzec x do klasy j, jeśli kwadrat powyższej odległości jest minimalny dla tej klasy. Drzewo decyzyjne Drzewa zwane klasyfikacyjnymi lub decyzyjnymi pojawiły się w literaturze w kontekście badań socjologicznych [19]. Drzewa klasyfikacyjne zadomowiły się w statystyce dzięki książce Breimana i innych w 1984 [6]. Metody drzew decyzyjnych są również stosowane w innych obszarach, m.in. w uczeniu maszynowym do pozyskiwania wiedzy na podstawie przykładów. W założeniu będziemy rozważać próbę uczącą X, która posłuży do konstrukcji klasyfikatorów. Próba X jest podzielona na m klas. Wszystkie klasy są parami rozłączne i stanowią podział próby: X = {X 11,..., X 1n1, X 21,..., X 2n2,..., X m1,..., X mnm } (2.19) gdzie X ij jest elementem o indeksie j z klasy o numerze i, i < 1, m >, j < 1, n i >. Elementy próby uczącej charakteryzowane są atrybutami. Będziemy rozważać K atrybutów (F 1, F 2,... F K ). Każdy atrybut będzie przyjmował pewną liczbę wartości. Próba X będzie też dzielona ze względu na wartości danego atrybutu. Zakładając, że atrybut F i przyjmuje wartości f 1, f 2,..., f ki, otrzymamy podział próby X na podzbiory T i,1, T i,2,..., T i,ki. Oczywiście, zakładamy, ze zbiory T i,j są parami rozłączne i dają w sumie próbę X, tzn. stanowią podział zbioru X. Ideą algorytmu konstrukcji drzewa decyzyjnego jest przypisanie próby X korzeniowi drzewa, a następnie podział próby ze względu na wartości pewnego atrybutu. Podzbiory wyznaczone tym podziałem są przypisywane następnikom korzenia, jako próby uczące dla tych wierzchołków. Proces podziału prób przypisywanych następnikom jest kontynuowany, aż zostaną spełnione warunki zakończenia podziałów. Podział próby przypisanej pewnemu wierzchołkowi jest dokonywany z wyłączeniem atrybutów, które zostały użyte w podziałach prób przypisanych poprzednikom tego wierzchołka. Ogólny algorytm konstrukcji drzewa decyzyjnego można przedstawić w kilku krokach: 1. jeżeli wszystkie obiekty ze zbioru treningowego X należą do tej samej klasy C należy oznaczyć ten węzeł jako liść o etykiecie C i zakończyć pracę. 2. w przeciwnym wypadku należy wybrać jeden atrybut F (z wartościami f 1,..., f k ) i utworzyć węzeł v; 3. podzielić zbiór treningowy X na podzbiory X 1,..., X k odpowiadające wartościom atrybutu F; 4. zastosować rekurencyjnie niniejszy algorytm dla powstałych podzbiorów X 1,..., X k. Drzewa przedstawia się zwykle graficznie. Przyjęła się konwencja rysowania drzew decyzyjnych jako rosnących od góry do dołu, tzn. ich korzeń umieszcza się na samej górze rysunku, natomiast na samym dole znajdują się liście.

11 ROZDZIAŁ 2. KLASYFIKACJA Klasyfikatory złożone Jedną z metod poprawy skuteczności rozpoznania jest łączenie klasyfikatorów. Polega ono na rozpoznaniu badanej próbki x przez wszystkie klasyfikatory, a następnie porównaniu wyników w celu uzgodnienia jednej odpowiedzi systemu. Zwykle proces łączenia wyniku sprowadza się do sumowania odpowiedzi z ustalonymi wagami. Zasadniczą różnicę stanowi uczenie klasyfikatorów użytych w systemie. W przypadku metod łączenia klasyfikator tworzymy łącząc ze sobą pewną liczbę innych klasyfikatorów. Klasyfikatory, które używamy do łączenia, będziemy nazywać słabymi klasyfikatorami. W różnych metodach łączenia możemy używać różnych typów klasyfikatorów lub też takich samych. W przypadku, gdy używamy tych samych klasyfikatorów, różnią się one sposobem uczenia Głosowania Jest to jedna z najprostszych metod łączenia. W metodzie tej można użyć dowolnych klasyfikatorów składowych. Mogą one być już wytrenowane lub faza uczenia może następować dopiero w trakcie tworzenia systemu. Nie narzuca się tu także sposobu uczenia składowych algorytmu. Jedynym warunkiem uruchomienia tego algorytmu jest dysponowanie nauczonymi klasyfikatorami, które są od siebie statystycznie niezależne. Rozpoznanie polega na podaniu badanej próbki x X każdemu ze słabych klasyfikatorów i obliczeniu odpowiedzi jako sumy. Obiekt jest klasyfikowany do tej klasy, na którą wskaże najwięcej z klasyfikatorów składowych. Algorytm kombinowanego głosowania to modyfikacja metody głosowania prostego. Podobnie jak w poprzedniej metodzie łączymy ze sobą różne klasyfikatory. Warunki postawione łączonym klasyfikatorom są identyczne jak w metodzie prostego głosowania. Różnica polega na dodaniu wag do głosów poszczególnych słabych klasyfikatorów. Klasyfikowany obiekt x jest poddawany działaniu każdego z łączonych algorytmów. Wynik polega na sumowaniu głosów pomnożonych przez ich wagi. Obiekt jest klasyfikowany do tej klasy, dla której opisana wyżej suma będzie największa. Klasyfikatory o lepszej skuteczności można premiować większymi wagami. Zastosowanie tej metody, w przeciwieństwie do prostego głosowania, wymaga wiedzy o skuteczność klasyfikatorów składowych Bagging Agregacja bootstrapowa (bagging) [4] definiuje sposób uczenia słabych klasyfikatorów użytych później w systemie. W metodach głosowania zostało założone, że dysponujemy klasyfikatorami już nauczonymi, statystycznie niezależnymi. Co jednak zrobić, gdy jest do dyspozycji tylko jeden klasyfikator? Nauka jednego rodzaju klasyfikatora na tym samym zbiorze treningowym jest pozbawiona sensu, ponieważ uzyskujemy tę samą odpowiedź. Algorytm ten polega na zróżnicowaniu zbioru uczącego w celu osiągnięcia niezależności statystycznej klasyfikatorów. Polega ona na utworzeniu ze zbioru uczącego pseudo-próbek, które używane są do nauki klasyfikatorów. W przypadku tej metody każda próbka powstaje w ten sam sposób: losowanych ze zwracaniem jest n elementów ze zbioru uczącego, gdzie n jest liczbą elementów w zbiorze uczącym. Należy tu dodać, że prawdopodobieństwo wylosowania każdego elementu jest takie samo i wynosi 1/n. Trzeba utworzyć tyle pseudo-próbek, ile klasyfikatorów będzie łączonych. Klasyfikacja w tej metodzie odbywa się w ten sam sposób jak dla algorytmu prostego głosowania. Badany element x podawany jest na wejścia wszystkich utworzonych klasyfikatorów, a następnie negocjowana jest odpowiedz systemu.

12 ROZDZIAŁ 2. KLASYFIKACJA 10 Las losowy Klasyfikator ten został zaproponowany przez Leo Breimana [3], [5]. Las losowy to metoda wywodząca się z idei baggingu. W przeciwieństwie do tamtego algorytmu, klasyfikatorami składowymi są tylko i wyłącznie drzewa. Algorytm lasu sprowadza się do oddzielnego stworzenia kolejnych drzew składowych, a poszczególne drzewa buduje się w sposób następujący: podobnie jak w algorytmie bagging, z oryginalnej próby uczącej losuje się ze zwracaniem n elementów do pseudo-próby uczącej tworzącej drzewo, w każdym węźle budowanego drzewa podział podpróby, która dotarła do tego węzła, odbywa się następująco: niezależnie od innych losowań losowane bez zwracania jest m spośród p atrybutów wektora obserwacji, następnie jest stosowana przyjęta reguła podziału do wylosowanych m atrybutów (podział jest oparty tylko na m wylosowanych atrybutach). W momencie, w którym liczba dostępnych atrybutów jest równa m proces losowania kończy się, zaś cechę do podziału węzła wybiera się spośród wszystkich dostępnych atrybutów. Liczba m losowanych atrybutów powinna być znacząco mniejsza niż liczba wszystkich atrybutów (m << p), drzewo jest budowane bez przycinania, jeśli jest to możliwe, aż do otrzymania liści o elementach pochodzących z tylko jednej klasy[5], [19]. Klasyfikacja za pomocą lasu losowego odbywa się tak, jak w przypadku algorytmu bagging, to znaczy metodą prostego głosowania. Dany obiekt klasyfikowany za pomocą lasu jest zaliczony do klasy, która osiągnęła zwykłą większość głosów.

13 Rozdział 3 Analiza obrazu Symbol, nim zostanie poddany klasyfikacji, podlega szeregowi przekształceń. W tej pracy przyjąłem założenie, że rozpoznawany obraz jest monochromatyczny oraz jego wielkość wynosi Należy zauważyć, że rozmiar ten daje 1024 piksele. Wektor cech o takim rozmiarze powodowałby konieczność przeprowadzenia zbyt dużej liczby obliczeń. Także skuteczność rozpoznawania obrazów metodą piksel po pikselu jest niezadawalająca. Sprawia, że dla celów rozpoznawania należy stworzyć wektor cech za pomocą pewnych analiz, to jest normalizacji, skalowania oraz tworzenia wektora cech. 3.1 Normalizacja obrazu Pierwszym z problemów napotkanych w tym procesie jest kolor wzorców. Podczas skanowania obrazka otrzymujemy obraz w odcieniach szarości. Przetwarzanie wzorca w odcieniach szarości jest trudne ze względu na proces wyznaczenia cech. Należy tu uwzględnić kolor z zakresu [0, 255], co może powodować duży wzrost rozmiaru wektora cech. Prostszym rozwiązaniem jest sprowadzenie obrazu do kolorów białego i czarnego. Zabieg ten jest możliwy tylko wtedy, gdy kolor rozpoznawanego obiektu nie ma znaczenia. Dzieje się tak, między innymi, w przypadku rozpoznawania liter lub symboli notacji muzycznej. Ze względu na łatwiejsze metody wyznaczania cech możemy znacznie ograniczyć rozmiar wektora, a tym samym przyspieszyć proces rozpoznania. Należy tu jeszcze określić, w jaki sposób będzie dokonywana konwersja na obraz czarnobiały. Jednym ze sposobów jest ustalenie progu. Jeśli wartość poziomu szarości piksela jest mniejsza od progu to będzie czarny, a jeśli większa to taki piksel staje się biały. Proces ten sprawia, że badany obraz reprezentowany jest poprzez macierz zbudowaną z zer i jedynek, odpowiadających odpowiednio białym i czarnym pikselom. Trzeba także wspomnieć, że metoda ta może powodować pewne błędy, a tym samym mieć negatywny wpływ na proces rozpoznania. 3.2 Interpolacja obrazu Kolejnym problemem napotkanym w procesie normalizacji jest rozmiar obrazka. Ustalmy docelowy rozmiar na N N, gdzie N przyjmuje wartość 32. Należy zastanowić się jak przejść z obrazka prostokątnego do obrazka o rozmiarze N N. Proces ten przebiega w dwóch fazach: 1. W pierwszej fazie obrazek jest przeskalowany tak, aby jego dłuższy bok miał rozmiar N. 2. W drugiej fazie następuje dodanie białych pikseli na krótszym boku, po obu stronach obrazka tak, aby jego środek ciężkości pokrywał się ze środkiem nowo otrzymanego wzorca. 11

14 ROZDZIAŁ 3. ANALIZA OBRAZU 12 Badane metody interpolacji obrazów to: 1. metoda najbliższych sąsiadów, 2. interpolacja dwuliniowa, 3. interpolacja dwukwadratowa. 3.3 Cechy W procesie rozpoznawania istotną rzeczą jest określenie elementów wektora cech. Jak zostało napisane wyżej interesujący nas wzorzec ma rozmiar Daje to w sumie 1024 piksele. Wektor cech, zbudowany z 1024 elementów, znacząco zwiększyłby koszty obliczeniowe klasyfikatorów. Także sama analiza piksel po pikselu nie służy procesowi klasyfikacji, gdyż uzależnia prawidłowe rozpoznanie od położenia symbolu na obrazie. W takim przypadku właściwym wydaje się wydobycie ze znormalizowanego obiektu cech opisujących w jak najlepszy sposób jego kształt. Pozwala to znacząco zmniejszyć wielkość wektora użytego w klasyfikacji. Różne rodzaje obrazów posiadają różne, odpowiednie dla siebie, zestawy cech. W literaturze znajduje się wiele opisów ekstrakcji cech oraz tworzenia wektorów, jednak w wielu przypadkach najlepsze rozwiązanie można znaleźć jedynie eksperymentalnie. Poniżej przedstawione zostaną cechy użyte do budowy wektorów różnych obrazów badanych w tej pracy. Projekcje to jedne z podstawowych cech używanych w rozpoznawaniu obrazów. W przypadku obrazów czarnych wyznaczamy projekcję koloru czarnego. Jest to liczba czarnych punktów w wierszu dla projekcji poziomej i w kolumnie dla projekcji pionowej. Projekcja niesie za sobą wiele informacji o kształcie obrazu. Do tworzonego wektora cech można brać zarówno całą projekcję, czyli wektor o długości równej szerokości lub wysokości obrazu, lub pewne wartości, które można z niego odczytać. Mogą to być wartości maksymalne i minimalne, średnie, ich pozycje oraz szereg innych. Tranzycja jest to liczba białych punktów poprzedzających bezpośrednio punkty czarne w wierszu (tranzycja horyzontalna) lub w kolumnie (tranzycja wertykalna). Tranzycja pozwala określić obiekty o złożonych kształtach. Podobnie jak w przypadku projekcji jest to cecha wektorowa i może być używana w podobny sposób. Marginesem nazywamy liczbę białych punktów liczonych od brzegu wzorca do pierwszego czarnego punktu. Wyróżniamy marginesy: lewy, prawy, górny i dolny. Cecha ta obrazuje położenie symbolu na obrazku. Identycznie jak projekcja i tranzycja jest to cecha wektorowa. Również i w tym przypadku można rozważać zarówno cały wektor, jak i wartości, które można z niego wydobyć. Skierowanie to kierunek najdłuższego odcinka złożonego z czarnych punktów tak, aby zawierał rozpatrywany punkt. Brane są pod uwagę kierunki 0, 22, 5, 45, 67, 5, 90, 112, 5, 135 oraz 152, 5. Jest to cecha bardzo dobrze różnicująca zbiór rozpatrywanych symboli. Ze względu na swój kształt symbole posiadają różne długości oraz miejsca położenia odcinków złożonych z czarnych punktów. Momenty są wykorzystywane w różnych dziedzinach, np. w fizyce (np. masy, środek masy, moment bezwładności), rachunku prawdopodobieństwa (np. wartość średnia, wariancja). W przetwarzaniu obrazu, widzeniu maszynowym oraz dziedzinach pokrewnych, momentami są szczególne średnie ważone intensywności pikseli obrazu. Ponadto, momenty są często wykorzystywane w celu uzyskania pewnych własności lub interpretacji. Momenty są przydatne do opisu obiektów po segmentacji.

15 ROZDZIAŁ 3. ANALIZA OBRAZU 13 Momenty Zernike a to współczynniki rozwinięcia funkcji dwóch zmiennych rzeczywistych (najczęściej reprezentującej obraz) względem wielomianów Zernike a [34]. Nazwa moment jest tu użyta w analogii do definicji klasycznych momentów. Momenty Zernike a po raz pierwszy zostały zastosowane do analizy obrazów w pracy Teague [34]. Obecnie są one stosowane dosyć często. Główną przyczyną popularności momentów Zernike a jest ich niezmienność względem przekształceń afinicznych: translacji, skalowania i obrotu. Pole powierzchni jest zdefiniowane jako liczba czarnych pikseli obrazu. Obwód zdefiniowany jaki liczba pikseli krawędzi symbolu. Ecentryczność można najprościej zdefiniować jako stosunek maksymalnej długości cięciwy A obiektu do maksymalnej długości cięciwy B prostopadłej do A. Szerokość i wysokość Szerokość definiujemy jako różnicę indeksów ostatniego i pierwszego niezerowego elementu projekcji poziomej. Wysokość wyznaczmy podobnie, biorąc pod uwagę tym razem projekcję pionową.

16 Rozdział 4 Eksperyment W niniejszym rozdziale pokazane zostały możliwości rozpoznawania wzorców w zagadnieniu słabo zrównoważonym. Jako przykład posłużyły tu wybrane symbole notacji muzycznej. Główną cechą definiującą zagadnienie została liczba wystąpień przedstawicieli danej klasy w zbiorze uczącym. Symbole podzielono na dwie grupy klas. W pierwszej znalazły się obiekty występujące często na pięciolinii, w drugiej elementy rzadkie. Część symboli została przygotowana przez autora pracy, a część powstała w ramach projektów badawczych [36] i [37]. W grupie pierwszej znalazły się: bemol forte f kasownik, klucz G klucz F krzyżyk G I laska z chorągiewką, mezzo forte piano p mf pauza ćwierćnutowa > pauza ósemkowa? pauza W drugiej, decydującej o słabym zrównoważeniu, grupie znalazły się: akcent ffi nuta brevis 14

17 P A ROZDZIAŁ 4. EKSPERYMENT 15 crescendo diminuendo Ă fermata łuk klucz C K pauza 1/32 W ramach pierwszej części eksperymentu rozpoznawaniu poddane zostały symbole z pierwszej grupy. W tym momencie analizowana była skuteczność poszczególnych klasyfikatorów oraz dobierana eksperymentalnie ich jak najlepsza struktura. W drugiej części badania do analizowanych symboli dołączono grupę klas mało licznych. W tym momencie sprawdzane było zachowanie się klasyfikatorów działających na symbolach kłopotliwych. 4.1 Rozpoznawanie klas licznych Pierwsza część eksperymentu miała na celu wykazanie skuteczności poszczególnych klasyfikatorów w rozpoznawaniu symboli powszechnie występujących na pięciolinii. W jej trakcie sprawdzono działanie wybranych klasyfikatorów prostych i złożonych w zależności od wielkości zbioru uczącego oraz parametrów klasyfikatora. Każdy z klasyfikatorów był uczony na bazie zbiorów uczących liczących odpowiednio 1, 10, 50, 100, 200 i 400 symboli przynależnych do każdej z klas. Oprócz tego badane były różne wielkości parametrów sprawdzanych klasyfikatorów. Wektor cech każdorazowo liczył 50 elementów. Ocena skuteczności klasyfikatorów w przypadku badania klas licznych polegała na wyznaczeniu procentu poprawnych klasyfikacji [20] Klasyfikatory proste Badaniu poddane były 4 klasyfikatory proste: knn, k-średnich, klasyfikator wykorzystujący normę Mahalanobisa oraz drzewo decyzyjne. W tym przypadku badano wpływ wielkości zbioru uczącego na skuteczność rozpoznawania. Dla klasyfikatorów knn oraz k-średnich zbadano także wpływ parametru k. Dokładne wyniki znajdują się w tabeli 4.2. Metoda k najbliższych sąsiadów W przypadku klasyfikatora knn testowany był wpływ wielkości zbioru uczącego oraz wielkość parametru k na skuteczność rozpoznawania. Parametr k badany był przy zbiorze uczącym liczącym po 400 elementów dla każdej z rozpoznawanych klas. Testy przeprowadzono dla k = 1, 2, 3, 5, 10, 15, 20. Najsłabszą skuteczność klasyfikator uzyskał przy k = 1. Było to 95%. Największa efektywność, 98%, zostało osiągnięte przy k = 5 oraz przy k = 10. Wraz ze wzrostem zbioru uczącego wzrasta skuteczność rozpoznania na zbiorze testowym. Wzrost ten jednak nie jest proporcjonalny do liczności zbioru uczącego. Maksymalna skuteczność przekroczyła 98%. Wraz ze wzrostem zbioru uczącego wzrasta czas potrzebny na znalezienie najbliższego sąsiedztwa badanego symbolu. Powoduje to dużą złożoność czasową algorytmu, która ogranicza praktyczne zastosowanie tej metody.

18 ROZDZIAŁ 4. EKSPERYMENT 16 klasyfikator knn k-średnich Mahalanobis drzewo decyzyjne Tabela 4.1: Skuteczność rozpoznawania klas regularnych przez klasyfikatory proste w zależności od wielkości zbioru uczącego Algorytm k-średnich Pierwszym testem tej metody było sprawdzenie skuteczności w zależności od wielkości tego parametru. Analiza została przeprowadzona dla zbioru uczącego zawierającego 400 symboli w każdej z klas. Testy przeprowadzono dla k = 1, 2, 3, 5, 10, 15, 25, 50. Najsłabszą skuteczność klasyfikator uzyskał przy k = 1. Wraz ze wzrostem liczby klastrów dla danej klasy rosła efektywność metody. Niestety wzrasta również wtedy złożoność obliczeniowa i wydłuża się czas działania. Badanie wpływu wielkości zbioru uczącego na skuteczność rozpoznawania przeprowadzono dla k = 10. Oczywiście uczyniony został wyjątek dla zbioru liczącego po jednym przedstawicielu każdej z klas, dla którego przyjęto k = 1 oraz dla zbiorów 10 elementowych, gdzie przyjęto k = 2. Wraz ze wzrostem zbioru uczącego wzrasta rozpoznanie na zbiorze testowym. Wzrost ten jednak nie jest proporcjonalny do liczności zbioru uczącego. Najlepsza skuteczność, czyli 93%, zostaje osiągnięta przy zbiorze uczącym liczącym 400 elementów dla każdej z klas. Klasyfikator z normą Mahalanobisa W przypadku tej metody również badany był wpływ wielkości zbioru uczącego na skuteczność rozpoznawania. Podobnie jak w poprzednich przypadkach wraz ze wzrostem wielkości zbioru uczącego rośnie efektywność klasyfikatora. Największa skuteczność zostaje osiągnięta dla zbioru uczącego liczącego po 400 elementów w każdej z klas. Było to 93%. Jest to skuteczność mniejsza niż w przypadku klasyfikatora k najbliższych sąsiadów, ale rekompensuje ją znaczna szybkość działania tego algorytmu. Drzewo decyzyjne Podobnie jak algorytmy omawiane wyżej, również ta metoda w znacznej mierze zależy od liczby i jakości danych uczących. Drzewo decyzyjne cechuje niska skuteczność dla małego zbioru uczącego. Dla zbioru uczącego liczącego tylko jeden obiekt dla każdej z klas skuteczność wyniosła tylko 35%. Wraz ze wzrostem rozmiaru zbioru uczącego znacząco poprawia się skuteczność tego algorytmu. Osiąga on jedną z najlepszych skuteczności spośród badanych do tej pory klasyfikatorów. Było to 98%. Dodatkową zaletą tego algorytmu jest szybkość działania, wynikająca z małej wysokości drzew budowanych dla badanych klas. W celu rozpoznania obiektu drzewo wykonuje nie więcej porównań niż wynosi liczba elementów wektora cech Klasyfikatory złożone Metoda prostego głosowania Oprócz klasyfikatorów prostych przetestowane zostały również metody złożone [21]. Pierwszą z nich była metoda prostego głosowania. W algorytmie tym połączone następujące klasyfikatory: knn (k = 5), Mahalanobisa, drzewo decyzyjne. W przypadku remisu obiekt był przypisywany do tej klasy, na którą wskazało drzewo decyzyjne. Skuteczność metody rosła wraz ze wzrostem

19 ROZDZIAŁ 4. EKSPERYMENT głosowanie bagging las losowy Tabela 4.2: Skuteczność rozpoznawania klas regularnych przez klasyfikatory złożone w zależności od wielkości zbioru uczącego wielkości zbioru uczącego. W porównaniu do klasyfikatorów prostych była ona skuteczniejsza dla małej liczby danych uczących, natomiast dla dużych zbiorów uczących te wyniki są podobne. Bagging Kolejnym złożonym klasyfikatorem użytym do testów był bagging. Przeprowadzono testy, w których łączone były: knn (k = 5), drzewo decyzyjne. W każdym teście łączonych było po 10 klasyfikatorów danego typu. Także i w tym przypadku skuteczność klasyfikatora rosła wraz ze wzrostem wielkości zbiorów uczących. Ogólna skuteczność okazała się być wyższa, niż w przypadku stosowania klasyfikatorów prostych. Różnica ta była szczególnie widoczna dla testów przeprowadzonych na małych zbiorach uczących. Przy zbiorze uczącym liczącym 400 elementów dla każdej z klas różnica ta wynosiła mniej niż 0,5%. Las losowy W przypadku tego klasyfikatora badana była struktura klasyfikatora oraz wpływ wielkości zbioru uczącego na skuteczność rozpoznawania. W przypadku struktury analizowane były dwa parametry: liczba drzew w lesie oraz liczba cech losowanych do podziału pojedynczego węzła. Badanie dotyczące liczby drzew w lesie przeprowadzono jako pierwsze. Do nauczenia każdego z drzew użyto zbiorów uczących liczących po 100 elementów w każdej z klas. Do podziału pojedynczego węzła losowanych było po 5 dostępnych cech. Las składający się tylko z jednego oraz z trzech drzew osiągnął wyniki słabsze niż zwykłe drzewo decyzyjne pracujące na tym samym zbiorze uczącym. Wraz ze wzrostem liczby drzew rosła skuteczność rozpoznawania, która stała się lepsza niż w przypadku zwykłego drzewa. Dla 20 drzew skuteczność osiągnęła poziom 98% i przestała rosnąć w sposób znaczący. Kolejnym krokiem było ustalenie optymalnej dla tego zagadnienia liczby cech losowanych w trakcie konstrukcji pojedynczego węzła. Do testów użyty został las liczący 10 drzew. Do nauczenia każdego z drzew użyto zbiorów uczących liczących po 100 elementów w każdej z klas. Zbadano zachowanie się klasyfikatora dla 1, 2, 3, 4, 5, 8, 10, 15 oraz 20 losowanych cech. Najsłabszą skutecznością charakteryzuje się las, w którym losujemy tylko po jednej cesze. Wynika to zapewne z całkowicie losowej kolejności wyboru cech i całkowitego odrzucenia jakichkolwiek miar podziału. Wraz ze wzrostem liczby losowanych cech wzrasta również skuteczność. Powyżej liczby 5 losowanych cech wzrost skuteczności przestaje być znaczący. Przeprowadzone także zostały badania wpływu wielkości zbioru uczącego na efektywność metody. W trakcie tych badań las tworzyło 20 drzew, zaś do podziału pojedynczego węzła losowanych było po 5 dostępnych cech. Podobnie jak w poprzednich przypadkach skuteczność rosła wraz ze wzrostem liczebności danych uczących. Dla zbiorów liczących po 400 elementów w każdej z klas wyniosła ona ponad 98% i był to jeden z najlepszych wyników.

20 ROZDZIAŁ 4. EKSPERYMENT Rozpoznawanie klas mało licznych Ustalenie właściwej struktury klasyfikatorów było wstępem do rozpoznawania całości zagadnienia. Do klas licznych dodane zostały klasy decydujące o słabym zrównoważeniu. W tym przypadku, oprócz globalnej skuteczności, na uwagę zasługuje rozpoznawanie wewnątrz klas mało licznych. Klasy liczne posiadały po 400 przedstawicieli w zbiorze uczącym, natomiast liczebność pozostałych klas przedstawia tabela 4.3. klasa zbiór uczący zbiór testowy akcent brevis 1 2 crescendo dominuendo fermata klucz C łuk puaza 1/ Tabela 4.3: Liczebność wybranych klas w zbiorze uczącym i testowym W przypadku klas mało licznych zmieniony został sposób oceny klasyfikatorów. W pracy Garcia i innych [9] podane zostały różne miary oceny klasyfikatorów dla zagadnienia słabo zrównoważonego w przypadku dwuklasowym. Są to: error rate: accuracy: true positive rate: err = acc = F P + F N T P + F N + T N + F P T P + T N T P + F N + T N + F P (4.1) (4.2) true negative rate: false positive rate: false negative rate: T P rate = T Nrate = F P rate = F Nrate = T P T P + F N T N T N + F P F P F P + T N F N T P + F N (4.3) (4.4) (4.5) (4.6) gdzie TP oznacza liczbę elementów z klasy pierwszej właściwie rozpoznanych, FN - to liczba elementów z pierwszej klasy źle rozpoznanych, FP - liczba elementów z klasy drugiej źle rozpoznanych, TN - liczba elementów z klasy drugiej dobrze rozpoznanych.

21 ROZDZIAŁ 4. EKSPERYMENT Klasyfikatory proste Metoda k najbliższych sąsiadów Klasyfikator ten ponownie został zbadany jako pierwszy. Testy przeprowadzono dla k = 1 oraz k = 5. Globalna skuteczność w porównaniu do wyników opisanych w sekcji 4.1 spadała w sposób nieznaczny. Niestety skuteczność rozpoznawania klas rzadkich jest znacząco niższa niż klas licznych. Najlepszą skuteczność spośród powyższych obiektów uzyskał klucz C. Wynika to zapewne z dosyć dużego zbioru uczącego oraz kształtu tego symbolu zapewniającego znaczne odróżnienie go od innych. Z wysoką skutecznością rozpoznawany był także łuk. Również ten symbol posiadał zbiór uczący o sporej liczebności. Kolejna grupa symboli, którym należy się przyjrzeć to akcent, crescendo oraz diminuendo. Symbole te są bardzo do siebie podobne. W połączeniu z małym zbiorem uczącym dla tych klas powoduje to niską skuteczność rozpoznawania. Symbole te w klasyfikacji mylą się głównie między sobą. Należy zauważyć, że dla symboli posiadających bardzo małą reprezentację wśród danych uczących korzystniejsze jest stosowanie mniejszego parametru k. Ogólna skuteczność tego klasyfikatora dla k = 5 wyniosła acc = 97, 94%, a współczynnik błędu err = 2, 06%. Algorytm k-średnich Badanie tego klasyfikatora zostało przeprowadzone przy k = 5. Wyjątek stanowiła klasa brevis, dla której, z racji zbioru uczącego zawierającego tylko jeden element, przyjęto k = 1. Także i w tym przypadku zwiększenie liczby klas spowodowało nieznaczny spadek globalnej skuteczności. W przypadku klas rzadkich efektywność metody była niższa niż dla klasyfikatora knn. Także i tu najlepiej rozpoznawany był klucz C oraz łuk. Można było zaobserwować, że im klasa jest mniej liczna, tym jest gorzej rozpoznawana. Błędy klasyfikacji pojawiały się mniej więcej w tych samych miejscach, w których pojawiały się dla k najbliższych sąsiadów, było jednak ich więcej. Ogólna skuteczność tego klasyfikatora dla k = 5 wyniosła acc = 93, 09%, a współczynnik błędu err = 6, 91%. Klasyfikator z normą Mahalanobisa Globalny wynik dla klasyfikatora wykorzystującego odległość Mahalanobisa również zmniejszył się wraz ze zwiększeniem liczby badanych klas. Ogólny wynik dla tej metody okazał się słabszy niż dla metody knn. Jednakże, co ciekawe, poszczególne symbole rzadkie były rozpoznawane lepiej przez tą metodę. Algorytm ten szczególnie potrafił wyizolować akcent, który to symbol był rozpoznawany za 100 procentową skutecznością. Niestety wciąż myliły się wzajemnie crescendo i diminuendo. Problemy pojawiały się także przy odróżnieniu pauzy 1/32 od pauzy 1/16. Nierozpoznawana pozostawała także nuta brevis. Ogólna skuteczność tego klasyfikatora wyniosła acc = 93, 51%, a współczynnik błędu err = 6, 49%. Drzewo decyzyjne Poprzednie testy wykazały, że drzewo decyzyjne jest wrażliwe na wielkość zbioru uczącego. Można się więc było spodziewać, że symbole z klas rzadkich mogą być rozpoznawane słabo. Tak też w istocie było. Globalna skuteczność tego klasyfikatora wraz z dodaniem nowych klas zmniejszyła się o dwa procent. Niestety wyniki rozpoznawania symboli rzadkich okazały się niezadawalające. Podobnie jak w poprzednich metodach najlepiej klasyfikowane były klucz C oraz łuk. Wynikało to zapewne z ich znacznej reprezentacji w zbiorze uczącym. Także i tu pojawiały się przekłamania: akcent - diminuendo oraz diminuendo - akcent. Co dziwne drzewo często myliło symbol fermata z mezzo forte. Pojawiały się także błędy przy rozpoznawaniu pauzy 1/32. Nierozpoznawana była także nuta brevis. Ogólna skuteczność drzewa decyzyjnego

22 ROZDZIAŁ 4. EKSPERYMENT 20 class knn k-średnnich Mahalanobis drzewo decyzyjne TPrate FNrate TPrate FNrate TPrate FNrate TPrate FNrate akcent brevis crescendo diminuendo fermata klucz C łuk pauza 1/ Tabela 4.4: Skuteczność rozpoznawania klasyfikatorów prostych po dodaniu klas mało licznych wyniosła acc = 97, 93%, a współczynnik błędu err = 2, 07%. Dokładne wyniki osiągnięte przez klasyfikatory złożone znajdują się w tabeli Klasyfikatory złożone Metoda prostego głosowania W tej metodzie połączone zostały następujące klasyfikatory: knn ( k = 1), Mahalanobisa, drzewo decyzyjne. W przypadku remisu symbol klasyfikowany był do klasy, na którą wskazał klasyfikator k najbliższych sąsiadów. Algorytm ten przeniósł właściwości klasyfikatorów składowych. Nastąpił niewielki spadek skuteczności globalnej w stosunku do rozpoznawania tylko i wyłącznie klas licznych. Klasy rzadkie klasyfikowane były z mniejszą skutecznością. Najlepiej rozpoznawane były te symbole rzadkie, które posiadały największą reprezentację spośród danych uczących. Ogólna skuteczność metody prostego głosowania wyniosła acc = 98, 05%, a współczynnik błędu err = 1, 95%. Bagging Kolejnym złożonym klasyfikatorem użytym do testów był bagging. Przeprowadzono testy, w których łączone były: knn (k = 1) oraz drzewo decyzyjne. W każdym teście łączonych było po 10 klasyfikatorów danego typu. W ujęciu globalnym osiągnięte wyniki były nieco gorsze niż w przypadku testów na zbiorze tylko licznych klas. Symbole rzadkie były rozpoznawane nieco lepiej niż w przypadku składowych klasyfikatorów prostych. Bagging oparty na drzewach decyzyjnych dał nieco lepsze rezultaty. Jego ogólna skuteczność wyniosła acc = 98, 15%, a współczynnik błędu err = 1, 85%. Las losowy Ostatnią z badanych metod był las losowy. W testach użyty został las zbudowany z 10 drzew. Do podziału pojedynczego węzła losowanych było 5 dostępnych cech. Globalna skuteczność tego klasyfikatora wraz z dodaniem nowych klas zmniejszyła się o jeden procent. Podobnie jak w poprzednich metodach symbole z klas rzadkich klasyfikowane były gorzej. Las losowy osiągnął jednak najlepszą skuteczność w klasyfikowaniu klas rzadkich. Ogólna skuteczność lasu losowego wyniosła acc = 98, 21%, a współczynnik błędu err = 1, 81%. Dokładne wyniki osiągnięte przez klasyfikatory złożone znajdują się w tabeli 4.5. Szczegółowe wyniki dla tego klasyfikatora znajdują się w tabeli A.1. Pełne wyniki dla wszystkich badanych klasyfikatorów umieszczone zostały w rozprawie.

23 ROZDZIAŁ 4. EKSPERYMENT 21 class Głosowanie Bagging Las losowy TPrate FNrate TPrate FNrate TPrate FNrate akcent brevis crescendo diminuendo fermata klucz C łuk pauza 1/ Tabela 4.5: Skuteczność rozpoznawania klas mało licznych przez klasyfikatory złożone klasyfikator skuteczność knn 95 k - średnich 92 Mahalanobis 93 drzewo 95 proste głosowanie 95 bagging 96 las losowy 96 Tabela 4.6: Skuteczność wybranych klasyfikatorów na zbiorze liter 4.3 Zagadnienie dobrze zrównoważone W celu porównania pomiędzy zagadnieniami słabo i dobrze zrównoważonymi przeprowadzone zostały badania skuteczności rozpoznawania małych liter alfabetu łacińskiego. W związku z cechami tych symboli możemy je traktować jako przykład zagadnienia dobrze zrównoważonego. Co prawda występują tu różnice w liczności poszczególnych klas, jednak nie pojawia się problem w konstrukcji zbioru uczącego o żądanej liczbie elementów. Litery są również dobrze zrównoważone pod względem kształtu i rozmiaru. Do oceny klasyfikatorów, z uwagi na mniejsze znaczenie dla niniejszej pracy, użyto jedynie procentu poprawnych klasyfikacji. Zbiór liter liczył 6108 elementów [26, 25]. Zbiór powstał na skutek wycinania liter ze skanów pochodzących z tej samej książki anglojęzycznej, więc obiekty z poszczególnych klas są podobne do siebie. W trakcie badań był on dzielony w różnych konfiguracjach na zbiory uczące i testowe. Jak było wspomniane wyżej, reprezentowane w nim jest 26 klas odpowiadających 26 małym literom alfabetu łacińskiego. Liczność występujących w nim klas jest różna. Najwięcej elementów posiada klasa reprezentująca literę a, najmniej - z. Dużo obiektów posiadają też klasy o, n czy też r, natomiast stosunkowo niewiele mamy reprezentantów klas j oraz q. Liczby te wynikają z częstości występowania danej litery w zapisie języka angielskiego. Tabela 4.6 przedstawia skuteczność wybranych klasyfikatorów w rozpoznawaniu liter. Wektor cech oraz parametry klasyfikatorów były identyczne jak w przypadku rozpoznawania wybranych symboli notacji muzycznej.

Pokazać jeszcze