Problem rozpoznawania wzorców dla zagadnień słabo zrównoważonych. mgr inż. Wojciech Lesiński
|
|
- Włodzimierz Filip Kosiński
- 9 lat temu
- Przeglądów:
Transkrypt
1 Instytut Badań Systemowych Polskiej Akademii Nauk Streszczenie rozprawy doktorskiej Problem rozpoznawania wzorców dla zagadnień słabo zrównoważonych mgr inż. Wojciech Lesiński Uniwersytet w Białymstoku Wydział Matematyki i Informatyki Promotor: dr hab. inż. Władysław Homenda, prof. PW Warszawa, grudzień 2013
2 Spis treści Spis treści i 1 Wstęp 1 2 Klasyfikacja Funkcja klasyfikująca i obszary decyzyjne Klasyfikatory proste Metody minimalnoodległościowe Metody statystyczne Klasyfikatory złożone Głosowania Bagging Analiza obrazu Normalizacja obrazu Interpolacja obrazu Cechy Eksperyment Rozpoznawanie klas licznych Klasyfikatory proste Klasyfikatory złożone Rozpoznawanie klas mało licznych Klasyfikatory proste Klasyfikatory złożone Zagadnienie dobrze zrównoważone Podsumowanie 22 Bibliografia 24 A Szczegółowe wyniki rozpoznawania 27 i
3 Rozdział 1 Wstęp Informatyka jest jedną z najdynamiczniej rozwijający się dyscyplin naukowych. Wśród jej działów szczególną dynamiką wykazuje się sztuczna inteligencja, a zwłaszcza problem rozpoznawania wzorców (ang. pattern recognition). Zagadnienie to zostało szeroko opisane w literaturze i doczekało się wielu praktycznych implementacji, zapewniających wysoką skuteczność działania. Prace w tym obszarze trwają już wiele lat i zaowocowały olbrzymią liczbą publikacji, książek i innych opracowań. Opracowany został szereg klasyfikatorów, między innymi k najbliższych sąsiadów (knn), klasyfikator bayesowski, klasyfikatory oparte na sztucznych sieciach neuronowych oraz drzewa decyzyjne. Na bazie klasyfikatorów prostych powstały metody łączenia zwiększające skuteczność klasyfikatorów bazowych. Chociaż rozwój dziedziny rozpoznawania wzorców jest szybki i znaczący, w wielu jej fragmentach wciąż można wiele zrobić. Jednym z nich jest niewątpliwie zagadnienie słabo zrównoważone. Oczywiście zagadnienie słabo zrównoważone także jest przedmiotem licznych badań. Ich wyniki zostały przedstawione między innymi w pracach [2], [9], [11], [35]. Z punktu widzenia tej pracy szczególne znaczenie ma artykuł Leo Breimana [7] przedstawiający znaczenie lasów losowych w rozpoznawaniu zagadnienia słabo zrównoważonego. Większość prac dotyczących zagadnienia słabo zrównoważonego skupia się na liczności poszczególnych klas. Przykładem zagadnienie słabo zrównoważonego, na którym skupiono się w niniejszej pracy, jest notacja muzyczna. Różne podejścia do rozpoznawania notacji muzycznej przedstawione są między innymi w [12], [13], [14], [16], [15], [24], [22], [23], [32] i [33]. Przeglądy stanu wiedzy na temat optycznego rozpoznawania notacji muzycznej można znaleźć w pracach [1] i [31]. Spis znaczącej literatury z zakresu rozpoznawania notacji muzycznej można znaleźć w [30]. Pomimo zaawansowanych prac badawczych i wdrożeniowych prowadzonych w zakresie rozpoznawania notacji muzycznej, wyniki w tej dziedzinie są wciąż niedoskonałe. Dziedzina ta nadal stanowi wyzwanie badawcze i technologiczne. Na potrzeby niniejszej pracy zagadnienie słabo zrównoważone można zdefiniować jako przypadek, w którym występuje jedna lub kilka z poniższych cech: w liczności elementów poszczególnych klas występują znaczne różnice; elementy w obrębie tej samej klasy mogą mieć kształty nie pokrywające się; obiekty należące do różnych klas zdecydowanie różnią się wielkością; występują zarówno obiekty proste jak i złożone. Pierwsza z tych cech może mieć negatywny wpływ na tworzenie odpowiedniego zbioru uczącego. O ile nie będzie problemów z zebraniem odpowiedniej liczby reprezentantów klas 1
4 ROZDZIAŁ 1. WSTĘP 2 Rysunek 1.1: Przykład zróżnicowania notacji muzycznej licznych, tak elementy z klas rzadkich mogą pojawić się w niewystarczającej liczbie. Pozwala to domniemywać, że niektóre klasyfikatory (np. knn dla dużych wartości współczynnika k, czy też zbyt mocno przycięte drzewo decyzyjne) mogą niewłaściwie klasyfikować klasy ubogie w reprezentantów. Zniwelowanie tych negatywnych czynników może nastąpić poprzez zebranie odpowiedniej liczby przedstawicieli każdej z klas (czasem może być to niemożliwe) oraz poprzez zbudowanie odpowiedniej struktury klasyfikatorów. Nie pokrywające się kształty w ramach tej samej klasy, czyli druga cecha z omawianej definicji, również mają negatywny wpływ na rozpoznawanie. W takim przypadku trudniej jest stworzyć średni wektor cech. Rozwiązaniem może być tu podział danej klasy na tyle podzbiorów, ile mód ona posiada. Kolejne cechy również mogą obniżać skuteczność klasyfikacji. Znaczące różnice w wielkości mogą utrudnić normalizację. Podobny wpływ mogą mieć różnice w złożoności obiektów. W niniejszej pracy zagadnienie słabo zrównoważone zilustrowane zostanie na przykładzie symboli notacji muzycznej. Znaki znajdujące się na partyturze posiadają wszystkie cechy omówione powyżej. Symbole notacji muzycznej występują w zdecydowanie różnej częstotliwości. Niektóre z nich, takiej jak ćwierćnuty czy ósemki, występują bardzo często, nierzadko wielokrotnie w obrębie jednej linijki partytury. Inne, (między innymi pauzy czy znaki chromatyczne) pojawiają się często, ale jednak zdecydowanie rzadziej. Są też takie symbole (nuta brevis, nuta longa), które pojawiają się sporadycznie w nielicznych utworach. Problem nieprzystających kształtów w ramach tej samej klasy dotyczy części badanych symboli. Są to, między innymi, łuki, crescenda i diminuenda. Różne kształty łuków pokazuje rysunek 1.2. Rysunek 1.2: Nieprzystające kształty symbolu łuk Obiekty należące do poszczególnych klas notacji muzycznej zdecydowanie różnią się między sobą wielkością. Rysunek 1.3 ilustruje to zróżnicowanie. Zawiera on symbole wielkie, średnie i małe. Oczywiście określenia te traktujemy umownie. Do obiektów wielkich możemy z całą pewnością zaliczyć doskonale na nim widoczny łuk. Do dużych znaków możemy zaliczyć również klucz wiolinowy. Przeciwieństwem łuku, w sensie wielkości, jest kropka. Jest to najmniejszy znak występujący w partyturze. Do symboli małych, jednakże znacznie większych od kropki,
5 ROZDZIAŁ 1. WSTĘP 3 możemy zaliczyć również niektóre akcenty, całą nutę czy pauzę całonutową. Porównanie kropki i łuku doskonale pokazuje słabe zrównoważenie notacji muzycznej w sensie wielkości. Pomiędzy wartościami skrajnymi możemy znaleźć wiele znaków o wielkościach pośrednich, między innymi ćwierćnuty, bemole czy kasowniki. Rysunek 1.3: Różne wielkości wybranych symboli notacji muzycznej Celem niniejszej pracy jest opracowanie i analiza skuteczności, w zastosowaniach praktycznych, różnych metod rozpoznawania zagadnienia słabo zrównoważonego na przykładzie symboli notacji muzycznej. W jej ramach przeprowadzona była analiza procesu przygotowania do rozpoznawania obrazów, wykonane zostały testy klasyfikatorów prostych i złożonych oraz dokonany został dobór odpowiedniego zestawu cech. Szczególna uwaga została skierowana na użycie drzew decyzyjnych oraz lasu losowego. Dokonane też zostało porównanie rozpoznawania notacji muzycznej z rozpoznawaniem liter drukowanych, które tu reprezentują zagadnienie dobrze zrównoważone. Należy podkreślić, że analiza rozpoznawania symboli notacji muzycznej jako zagadnienia słabo zrównoważonego przedstawiona w niniejszej rozprawie jest zagadnieniem oryginalnym i nie podejmowanym w innych pracach. W ramach niniejszej rozprawy opracowana została odpowiednia dla problemu struktura klasyfikatorów oraz wyznaczone zostały właściwe wektory cech. Osiągnięta wysoka skuteczność wybranych klasyfikatorów świadczy o prawidłowości przyjętej metodyki.
6 Rozdział 2 Klasyfikacja 2.1 Funkcja klasyfikująca i obszary decyzyjne Algorytm klasyfikacji ψ przypisuje każdemu wektorowi zmierzonych cech x X numer klasy i M, co można zapisać ψ(x) = i. Funkcję ψ nazywamy funkcją klasyfikującą. Innymi słowy, algorytm ψ odwzorowuje przestrzeń cech w zbiór numerów klas: ψ : X M (2.1) lub, równoważnie, generuje rozkład przestrzeni cech na tak zwane obszary decyzyjne: D (i) X = {x X : ψ(x) = i} dla każdego i M (2.2) Ponieważ rozkład przestrzeni oznacza rozłączną i pokrywającą cała przestrzeń rodzinę zbiorów, dlatego mamy: ( i, j M, i j) D (i) X D(j) X = (2.3) oraz 2.2 Klasyfikatory proste i M Metody minimalnoodległościowe D (i) X = X (2.4) Metody minimalnoodległościowe opierają się na ocenie odległości pomiędzy klasyfikowanym obiektem, a elementami zbioru uczącego. Odległość określa się niekoniecznie w sensie odległości euklidesowej [28]. W przypadku jednomodalnym klasyfikację można przeprowadzić wyznaczając odległości pomiędzy klasyfikowanym obiektem x, a modami lub wzorcami wszystkich klas reprezentowanych w zbiorze uczącym. Tak więc klasyfikator działający według reguły minimalnej odległości oblicza odległość dzielącą klasyfikowany obiekt x od wzorca każdej klasy i następnie zalicza go do tej klasy, której wzorzec znajduje się najbliżej. W przypadku wielomodalnym istnieje konieczność tworzenia tylu wzorców, ile mód posiada dana klasa. Istotną sprawą w omawianej metodzie jest dobór metryki. Metryka posiada wpływ na skuteczność oraz szybkość działania klasyfikatora. Metrykę można wybrać poprzez eksperymenty metodą prób i błędów lub też podjąć arbitralną decyzję na podstawie wiedzy pozyskanej z innego źródła. Możliwe metryki to: 4
7 ROZDZIAŁ 2. KLASYFIKACJA 5 Euklidesowa Minkowskiego Manhatańska Mahalanobisa gdzie Σ 1 i Czebyszewa L 2 (x, y) = ( L d (x, y) = ( L 1 (x, y) = d (x i y i ) 2 ) 1 2 (2.5) i=1 d (x i y i ) d ) 1 d (2.6) i=1 d x i y i (2.7) i=1 L M (x, m k ) = ((x m k ) T Σ 1 i (x m k )) 1 2 (2.8) to macierz kowariancji klasy c i Metody statystyczne K najbliższych sąsiadów L d (x, y) = max i=1..d x i y i (2.9) Klasyfikator k najbliższych sąsiadów [8] podaje bezpośrednie oszacowanie warunkowych prawdopodobieństw p(j x), przynależności badanego symbolu x do klasy j. W fazie uczenia zapamiętuje wszystkie symbole próbki uczącej. Faza rozpoznania polega na wybraniu klasy, dla której prawdopodobieństwo przynależności jest największe. W przypadku, gdy k = 1 rozpoznanie sprowadza się do znalezienia wzorca najbliższego badanemu symbolowi w określonej metryce. Metodę tą często określa się skrótem knn. Algorytm ten opiera się na porównaniu gęstości rozmieszczenia obserwacji z różnych klas w najbliższym otoczeniu badanego symbolu x. W tym celu ustala się liczbę k i do obliczeń stosuje się k obserwacji X i, które leżą w najbliższym otoczeniu badanego wzorca. Formułując to dokładniej, konstruuje się kulę R p o środku w punkcie x i promieniu tak dobranym, aby kula zawierała dokładnie k obserwacji z próbki uczącej X 1, X 2,...X n. Oszacowanie prawdopodobieństwa polega na badaniu liczebności symboli z każdej klasy w kuli R p. Przyjmuje się prawdopodobieństwa jako stosunek badanej liczebności symboli w kuli R p do liczby k. Innymi słowy, obserwacja x zostaje zakwalifikowana do klasy, do której należy najwięcej spośród k znalezionych symboli z kuli R p. Można też powiedzieć, że reguła k najbliższych sąsiadów orzeka: Obserwacja x zostaje zakwalifikowana do tej klasy, z której pochodzi najwięcej spośród k najbliższych punktowi x obserwacji z próby uczącej. Należy wspomnieć, że algorytm ten wymaga dużego nakładu obliczeń. Spowodowane jest to wyznaczeniem otoczenia badanego wzorca x. W tym celu należy policzyć odległości punktu x od każdego z zapamiętanych wzorców. Obliczone odległości należy również posortować. K średnich K średnich [10], [29], jest algorytmem podobnym do k najbliższych sąsiadów, próbującym rozwiązać problem dużego nakładu obliczeń w fazie rozpoznania, jakim charakteryzował się klasyfikator knn. W fazie uczenia zbiór uczący X = {X 11,..., X 1n1, X 21,..., X 2n2,..., X m1,..., X mnm } dzielony jest na m klas, a następnie każdy ze zbiorów reprezentujących daną klasę jest dalej dzielony na k podzbiorów, inaczej zwanych klastrami. Dla każdego podzbioru w klasie wyznaczony jest punkt centralny, centroid, który jest brany do obliczeń w fazie
8 ROZDZIAŁ 2. KLASYFIKACJA 6 Rysunek 2.1: Schemat klasyfikatora knn - dla k = 1 obiekt reprezentowany przez czarną kropkę będzie klasyfikowany do klasy c 1, dla k = 3, do c 3 rozpoznania. Faza ta polega na znalezieniu punktu centralnego najbliższego badanemu symbolowi względem ustalonej normy. Odpowiedzią klasyfikatora jest etykieta klasy, do której należy najbliższy znaleziony centroid. Algorytm klasteryzacji podany jest poniżej: Niech dany będzie zbiór uczący X = {X 11,..., X 1n1, X 21,..., X 2n2,..., X m1,..., X mnm } oraz metryka L(x, y) : X X [0, + ) opisująca odległość elementów na zbiorze X. Algorytm można podzielić na kilka kroków: 1. Ustal liczbę k 1, która określa liczbę klastrów dla danej klasy na zbiorze X. 2. Wybierz losowo lub arbitralnie początkowe położenie centroidów dla każdego z klastrów. 3. Przypisz elementy najbliższe (w sensie metryki L) danemu centroidowi do jego klastra. 4. Ustal położenie nowych centrów, wyliczając je jako średnią z elementów należących do danego podzbioru. 5. Powtarzaj krok 3. i 4. tak długo, aż elementy przestaną zmieniać swój klaster. Klasyfikator korzysta z powyżej opisanego algorytmu w fazie uczenia. Wówczas wyznaczane jest k centroidów dla każdej klasy ze zbioru uczącego. Klasyfikator nie zapamiętuje całego zbioru uczącego, a tylko wyliczone centroidy. Dzięki temu zmniejsza się nakład obliczeń w fazie rozpoznania. W fazie rozpoznania znajdowany jest najbliższy centroid dla symbolu rozpoznawanego x. Klasa, do której należy dany centroid, stanowi odpowiedź algorytmu. Odległość pomiędzy dwoma elementami w fazie rozpoznania wyznaczana jest przy pomocy wcześniej ustalonej metryki. Tak jak to miało miejsce dla algorytmu k-nn, może to być dowolna metryka. Rysunek 2.2 pokazuje podział klasy na 3 klastry. Klasyfikator Bayesa i jego modyfikacje Niech rozkład obserwacji x z klasy j dla próbki uczącej X = {X 11,..., X 1n1, X 21,..., X 2n2,..., X m1,..., X mnm } będzie dany rozkładem prawdopodobieństwa lub gęstością prawdopodobieństwa w postaci 2.10: p(x j) f j (x) (2.10) Niech ponadto prawdopodobieństwo a priori, że obserwacja x pochodzi z klasy j wynosi π j. Na mocy tw. Bayesa prawdopodobieństwo, że klasyfikowany obiekt x pochodzi z klasy j możemy przedstawić wzorem 2.11: p(j x) = π j p(x j) m k=1 π kp(x k) (2.11)
9 ROZDZIAŁ 2. KLASYFIKACJA 7 Rysunek 2.2: Podział klasy na 3 klastry za pomocą algorytmu k-średnich Budowa klasyfikatora odbywa się na podstawie reguły Bayesa: wektor x klasyfikuje się jako element z klasy j, jeśli wartość p(j x), j = 1,..., m jest największa dla tej klasy. W praktyce prawdopodobieństwa π j oraz p(x j) nie są znane i należy je oszacować, zastępując je ich estymatorami. Prawdopodobieństwa π j szacuje się jako stosunek liczby elementów z j tej klasy do liczby wszystkich próbek: π j = n j (2.12) n gdzie n j jest licznością j tej klasy, natomiast n licznością całego zbioru uczącego. Prawdopodobieństwa p(x j) estymuje się najczęściej rozkładem normalnym: p(x j) N(m j, Σ j ) (2.13) gdzie m j jest wartością oczekiwaną, a Σ j wariancją. Ponieważ wielkości wariancji oraz wartości oczekiwanej też nie są znane, są estymowane na podstawie zbioru uczącego. Estymowane wartości możemy przedstawić wzorami: Wartość oczekiwana: Wariancja: m j = 1 n j Σj= 1 n j n j n j x ij (2.14) i=1 (x ij m j ) 2 (2.15) i=1 Pewne uproszczenie reguły Bayesa możemy uzyskać świadomie usuwając z niej prawdopodobieństwa a priori lub też przyjmując, że są one równe π 1 = π 2 = = π m. Reguła Bayesa, którą po takiej modyfikacji, nazywamy tu Metodą Największej Wiarygodności (NW), przyjmuje postać 2.16: p(j x) = p(x j) m k=1 p(x k) (2.16) Prawdopodobieństwo p(x j) estymujemy rozkładem normalnym, identycznie jak to miało miejsce dla klasyfikatora Bayesa. W terminach gęstości prawdopodobieństwa symbol x zostanie zaklasyfikowany do tej klasy, dla której wartość gęstości p(j x) jest największa. Jeżeli zostanie założone, że obserwacje pochodzą z rozkładów normalnych o takiej samej macierzy kowariancji oraz są o równych prawdopodobieństwach a priori π 1 = π 2 = = π M, można sprowadzić regułę Bayesa do postaci 2.17: (x m k ) T Σ 1 (x m k ) (2.17)
10 ROZDZIAŁ 2. KLASYFIKACJA 8 gdzie m k jest wartością oczekiwaną zdefiniowaną jak w regule Bayesa, natomiast Σ jest macierzą kowariancji estymowaną w postaci: Σ = 1 n m m n k (x ki m k ) T (x ki m k ) (2.18) k=1 i=1 Tak zdefiniowana reguła jest określana jako odległość Mahalanobisa [27]. W tej metodzie klasyfikujemy wzorzec x do klasy j, jeśli kwadrat powyższej odległości jest minimalny dla tej klasy. Drzewo decyzyjne Drzewa zwane klasyfikacyjnymi lub decyzyjnymi pojawiły się w literaturze w kontekście badań socjologicznych [19]. Drzewa klasyfikacyjne zadomowiły się w statystyce dzięki książce Breimana i innych w 1984 [6]. Metody drzew decyzyjnych są również stosowane w innych obszarach, m.in. w uczeniu maszynowym do pozyskiwania wiedzy na podstawie przykładów. W założeniu będziemy rozważać próbę uczącą X, która posłuży do konstrukcji klasyfikatorów. Próba X jest podzielona na m klas. Wszystkie klasy są parami rozłączne i stanowią podział próby: X = {X 11,..., X 1n1, X 21,..., X 2n2,..., X m1,..., X mnm } (2.19) gdzie X ij jest elementem o indeksie j z klasy o numerze i, i < 1, m >, j < 1, n i >. Elementy próby uczącej charakteryzowane są atrybutami. Będziemy rozważać K atrybutów (F 1, F 2,... F K ). Każdy atrybut będzie przyjmował pewną liczbę wartości. Próba X będzie też dzielona ze względu na wartości danego atrybutu. Zakładając, że atrybut F i przyjmuje wartości f 1, f 2,..., f ki, otrzymamy podział próby X na podzbiory T i,1, T i,2,..., T i,ki. Oczywiście, zakładamy, ze zbiory T i,j są parami rozłączne i dają w sumie próbę X, tzn. stanowią podział zbioru X. Ideą algorytmu konstrukcji drzewa decyzyjnego jest przypisanie próby X korzeniowi drzewa, a następnie podział próby ze względu na wartości pewnego atrybutu. Podzbiory wyznaczone tym podziałem są przypisywane następnikom korzenia, jako próby uczące dla tych wierzchołków. Proces podziału prób przypisywanych następnikom jest kontynuowany, aż zostaną spełnione warunki zakończenia podziałów. Podział próby przypisanej pewnemu wierzchołkowi jest dokonywany z wyłączeniem atrybutów, które zostały użyte w podziałach prób przypisanych poprzednikom tego wierzchołka. Ogólny algorytm konstrukcji drzewa decyzyjnego można przedstawić w kilku krokach: 1. jeżeli wszystkie obiekty ze zbioru treningowego X należą do tej samej klasy C należy oznaczyć ten węzeł jako liść o etykiecie C i zakończyć pracę. 2. w przeciwnym wypadku należy wybrać jeden atrybut F (z wartościami f 1,..., f k ) i utworzyć węzeł v; 3. podzielić zbiór treningowy X na podzbiory X 1,..., X k odpowiadające wartościom atrybutu F; 4. zastosować rekurencyjnie niniejszy algorytm dla powstałych podzbiorów X 1,..., X k. Drzewa przedstawia się zwykle graficznie. Przyjęła się konwencja rysowania drzew decyzyjnych jako rosnących od góry do dołu, tzn. ich korzeń umieszcza się na samej górze rysunku, natomiast na samym dole znajdują się liście.
11 ROZDZIAŁ 2. KLASYFIKACJA Klasyfikatory złożone Jedną z metod poprawy skuteczności rozpoznania jest łączenie klasyfikatorów. Polega ono na rozpoznaniu badanej próbki x przez wszystkie klasyfikatory, a następnie porównaniu wyników w celu uzgodnienia jednej odpowiedzi systemu. Zwykle proces łączenia wyniku sprowadza się do sumowania odpowiedzi z ustalonymi wagami. Zasadniczą różnicę stanowi uczenie klasyfikatorów użytych w systemie. W przypadku metod łączenia klasyfikator tworzymy łącząc ze sobą pewną liczbę innych klasyfikatorów. Klasyfikatory, które używamy do łączenia, będziemy nazywać słabymi klasyfikatorami. W różnych metodach łączenia możemy używać różnych typów klasyfikatorów lub też takich samych. W przypadku, gdy używamy tych samych klasyfikatorów, różnią się one sposobem uczenia Głosowania Jest to jedna z najprostszych metod łączenia. W metodzie tej można użyć dowolnych klasyfikatorów składowych. Mogą one być już wytrenowane lub faza uczenia może następować dopiero w trakcie tworzenia systemu. Nie narzuca się tu także sposobu uczenia składowych algorytmu. Jedynym warunkiem uruchomienia tego algorytmu jest dysponowanie nauczonymi klasyfikatorami, które są od siebie statystycznie niezależne. Rozpoznanie polega na podaniu badanej próbki x X każdemu ze słabych klasyfikatorów i obliczeniu odpowiedzi jako sumy. Obiekt jest klasyfikowany do tej klasy, na którą wskaże najwięcej z klasyfikatorów składowych. Algorytm kombinowanego głosowania to modyfikacja metody głosowania prostego. Podobnie jak w poprzedniej metodzie łączymy ze sobą różne klasyfikatory. Warunki postawione łączonym klasyfikatorom są identyczne jak w metodzie prostego głosowania. Różnica polega na dodaniu wag do głosów poszczególnych słabych klasyfikatorów. Klasyfikowany obiekt x jest poddawany działaniu każdego z łączonych algorytmów. Wynik polega na sumowaniu głosów pomnożonych przez ich wagi. Obiekt jest klasyfikowany do tej klasy, dla której opisana wyżej suma będzie największa. Klasyfikatory o lepszej skuteczności można premiować większymi wagami. Zastosowanie tej metody, w przeciwieństwie do prostego głosowania, wymaga wiedzy o skuteczność klasyfikatorów składowych Bagging Agregacja bootstrapowa (bagging) [4] definiuje sposób uczenia słabych klasyfikatorów użytych później w systemie. W metodach głosowania zostało założone, że dysponujemy klasyfikatorami już nauczonymi, statystycznie niezależnymi. Co jednak zrobić, gdy jest do dyspozycji tylko jeden klasyfikator? Nauka jednego rodzaju klasyfikatora na tym samym zbiorze treningowym jest pozbawiona sensu, ponieważ uzyskujemy tę samą odpowiedź. Algorytm ten polega na zróżnicowaniu zbioru uczącego w celu osiągnięcia niezależności statystycznej klasyfikatorów. Polega ona na utworzeniu ze zbioru uczącego pseudo-próbek, które używane są do nauki klasyfikatorów. W przypadku tej metody każda próbka powstaje w ten sam sposób: losowanych ze zwracaniem jest n elementów ze zbioru uczącego, gdzie n jest liczbą elementów w zbiorze uczącym. Należy tu dodać, że prawdopodobieństwo wylosowania każdego elementu jest takie samo i wynosi 1/n. Trzeba utworzyć tyle pseudo-próbek, ile klasyfikatorów będzie łączonych. Klasyfikacja w tej metodzie odbywa się w ten sam sposób jak dla algorytmu prostego głosowania. Badany element x podawany jest na wejścia wszystkich utworzonych klasyfikatorów, a następnie negocjowana jest odpowiedz systemu.
12 ROZDZIAŁ 2. KLASYFIKACJA 10 Las losowy Klasyfikator ten został zaproponowany przez Leo Breimana [3], [5]. Las losowy to metoda wywodząca się z idei baggingu. W przeciwieństwie do tamtego algorytmu, klasyfikatorami składowymi są tylko i wyłącznie drzewa. Algorytm lasu sprowadza się do oddzielnego stworzenia kolejnych drzew składowych, a poszczególne drzewa buduje się w sposób następujący: podobnie jak w algorytmie bagging, z oryginalnej próby uczącej losuje się ze zwracaniem n elementów do pseudo-próby uczącej tworzącej drzewo, w każdym węźle budowanego drzewa podział podpróby, która dotarła do tego węzła, odbywa się następująco: niezależnie od innych losowań losowane bez zwracania jest m spośród p atrybutów wektora obserwacji, następnie jest stosowana przyjęta reguła podziału do wylosowanych m atrybutów (podział jest oparty tylko na m wylosowanych atrybutach). W momencie, w którym liczba dostępnych atrybutów jest równa m proces losowania kończy się, zaś cechę do podziału węzła wybiera się spośród wszystkich dostępnych atrybutów. Liczba m losowanych atrybutów powinna być znacząco mniejsza niż liczba wszystkich atrybutów (m << p), drzewo jest budowane bez przycinania, jeśli jest to możliwe, aż do otrzymania liści o elementach pochodzących z tylko jednej klasy[5], [19]. Klasyfikacja za pomocą lasu losowego odbywa się tak, jak w przypadku algorytmu bagging, to znaczy metodą prostego głosowania. Dany obiekt klasyfikowany za pomocą lasu jest zaliczony do klasy, która osiągnęła zwykłą większość głosów.
13 Rozdział 3 Analiza obrazu Symbol, nim zostanie poddany klasyfikacji, podlega szeregowi przekształceń. W tej pracy przyjąłem założenie, że rozpoznawany obraz jest monochromatyczny oraz jego wielkość wynosi Należy zauważyć, że rozmiar ten daje 1024 piksele. Wektor cech o takim rozmiarze powodowałby konieczność przeprowadzenia zbyt dużej liczby obliczeń. Także skuteczność rozpoznawania obrazów metodą piksel po pikselu jest niezadawalająca. Sprawia, że dla celów rozpoznawania należy stworzyć wektor cech za pomocą pewnych analiz, to jest normalizacji, skalowania oraz tworzenia wektora cech. 3.1 Normalizacja obrazu Pierwszym z problemów napotkanych w tym procesie jest kolor wzorców. Podczas skanowania obrazka otrzymujemy obraz w odcieniach szarości. Przetwarzanie wzorca w odcieniach szarości jest trudne ze względu na proces wyznaczenia cech. Należy tu uwzględnić kolor z zakresu [0, 255], co może powodować duży wzrost rozmiaru wektora cech. Prostszym rozwiązaniem jest sprowadzenie obrazu do kolorów białego i czarnego. Zabieg ten jest możliwy tylko wtedy, gdy kolor rozpoznawanego obiektu nie ma znaczenia. Dzieje się tak, między innymi, w przypadku rozpoznawania liter lub symboli notacji muzycznej. Ze względu na łatwiejsze metody wyznaczania cech możemy znacznie ograniczyć rozmiar wektora, a tym samym przyspieszyć proces rozpoznania. Należy tu jeszcze określić, w jaki sposób będzie dokonywana konwersja na obraz czarnobiały. Jednym ze sposobów jest ustalenie progu. Jeśli wartość poziomu szarości piksela jest mniejsza od progu to będzie czarny, a jeśli większa to taki piksel staje się biały. Proces ten sprawia, że badany obraz reprezentowany jest poprzez macierz zbudowaną z zer i jedynek, odpowiadających odpowiednio białym i czarnym pikselom. Trzeba także wspomnieć, że metoda ta może powodować pewne błędy, a tym samym mieć negatywny wpływ na proces rozpoznania. 3.2 Interpolacja obrazu Kolejnym problemem napotkanym w procesie normalizacji jest rozmiar obrazka. Ustalmy docelowy rozmiar na N N, gdzie N przyjmuje wartość 32. Należy zastanowić się jak przejść z obrazka prostokątnego do obrazka o rozmiarze N N. Proces ten przebiega w dwóch fazach: 1. W pierwszej fazie obrazek jest przeskalowany tak, aby jego dłuższy bok miał rozmiar N. 2. W drugiej fazie następuje dodanie białych pikseli na krótszym boku, po obu stronach obrazka tak, aby jego środek ciężkości pokrywał się ze środkiem nowo otrzymanego wzorca. 11
14 ROZDZIAŁ 3. ANALIZA OBRAZU 12 Badane metody interpolacji obrazów to: 1. metoda najbliższych sąsiadów, 2. interpolacja dwuliniowa, 3. interpolacja dwukwadratowa. 3.3 Cechy W procesie rozpoznawania istotną rzeczą jest określenie elementów wektora cech. Jak zostało napisane wyżej interesujący nas wzorzec ma rozmiar Daje to w sumie 1024 piksele. Wektor cech, zbudowany z 1024 elementów, znacząco zwiększyłby koszty obliczeniowe klasyfikatorów. Także sama analiza piksel po pikselu nie służy procesowi klasyfikacji, gdyż uzależnia prawidłowe rozpoznanie od położenia symbolu na obrazie. W takim przypadku właściwym wydaje się wydobycie ze znormalizowanego obiektu cech opisujących w jak najlepszy sposób jego kształt. Pozwala to znacząco zmniejszyć wielkość wektora użytego w klasyfikacji. Różne rodzaje obrazów posiadają różne, odpowiednie dla siebie, zestawy cech. W literaturze znajduje się wiele opisów ekstrakcji cech oraz tworzenia wektorów, jednak w wielu przypadkach najlepsze rozwiązanie można znaleźć jedynie eksperymentalnie. Poniżej przedstawione zostaną cechy użyte do budowy wektorów różnych obrazów badanych w tej pracy. Projekcje to jedne z podstawowych cech używanych w rozpoznawaniu obrazów. W przypadku obrazów czarnych wyznaczamy projekcję koloru czarnego. Jest to liczba czarnych punktów w wierszu dla projekcji poziomej i w kolumnie dla projekcji pionowej. Projekcja niesie za sobą wiele informacji o kształcie obrazu. Do tworzonego wektora cech można brać zarówno całą projekcję, czyli wektor o długości równej szerokości lub wysokości obrazu, lub pewne wartości, które można z niego odczytać. Mogą to być wartości maksymalne i minimalne, średnie, ich pozycje oraz szereg innych. Tranzycja jest to liczba białych punktów poprzedzających bezpośrednio punkty czarne w wierszu (tranzycja horyzontalna) lub w kolumnie (tranzycja wertykalna). Tranzycja pozwala określić obiekty o złożonych kształtach. Podobnie jak w przypadku projekcji jest to cecha wektorowa i może być używana w podobny sposób. Marginesem nazywamy liczbę białych punktów liczonych od brzegu wzorca do pierwszego czarnego punktu. Wyróżniamy marginesy: lewy, prawy, górny i dolny. Cecha ta obrazuje położenie symbolu na obrazku. Identycznie jak projekcja i tranzycja jest to cecha wektorowa. Również i w tym przypadku można rozważać zarówno cały wektor, jak i wartości, które można z niego wydobyć. Skierowanie to kierunek najdłuższego odcinka złożonego z czarnych punktów tak, aby zawierał rozpatrywany punkt. Brane są pod uwagę kierunki 0, 22, 5, 45, 67, 5, 90, 112, 5, 135 oraz 152, 5. Jest to cecha bardzo dobrze różnicująca zbiór rozpatrywanych symboli. Ze względu na swój kształt symbole posiadają różne długości oraz miejsca położenia odcinków złożonych z czarnych punktów. Momenty są wykorzystywane w różnych dziedzinach, np. w fizyce (np. masy, środek masy, moment bezwładności), rachunku prawdopodobieństwa (np. wartość średnia, wariancja). W przetwarzaniu obrazu, widzeniu maszynowym oraz dziedzinach pokrewnych, momentami są szczególne średnie ważone intensywności pikseli obrazu. Ponadto, momenty są często wykorzystywane w celu uzyskania pewnych własności lub interpretacji. Momenty są przydatne do opisu obiektów po segmentacji.
15 ROZDZIAŁ 3. ANALIZA OBRAZU 13 Momenty Zernike a to współczynniki rozwinięcia funkcji dwóch zmiennych rzeczywistych (najczęściej reprezentującej obraz) względem wielomianów Zernike a [34]. Nazwa moment jest tu użyta w analogii do definicji klasycznych momentów. Momenty Zernike a po raz pierwszy zostały zastosowane do analizy obrazów w pracy Teague [34]. Obecnie są one stosowane dosyć często. Główną przyczyną popularności momentów Zernike a jest ich niezmienność względem przekształceń afinicznych: translacji, skalowania i obrotu. Pole powierzchni jest zdefiniowane jako liczba czarnych pikseli obrazu. Obwód zdefiniowany jaki liczba pikseli krawędzi symbolu. Ecentryczność można najprościej zdefiniować jako stosunek maksymalnej długości cięciwy A obiektu do maksymalnej długości cięciwy B prostopadłej do A. Szerokość i wysokość Szerokość definiujemy jako różnicę indeksów ostatniego i pierwszego niezerowego elementu projekcji poziomej. Wysokość wyznaczmy podobnie, biorąc pod uwagę tym razem projekcję pionową.
16 Rozdział 4 Eksperyment W niniejszym rozdziale pokazane zostały możliwości rozpoznawania wzorców w zagadnieniu słabo zrównoważonym. Jako przykład posłużyły tu wybrane symbole notacji muzycznej. Główną cechą definiującą zagadnienie została liczba wystąpień przedstawicieli danej klasy w zbiorze uczącym. Symbole podzielono na dwie grupy klas. W pierwszej znalazły się obiekty występujące często na pięciolinii, w drugiej elementy rzadkie. Część symboli została przygotowana przez autora pracy, a część powstała w ramach projektów badawczych [36] i [37]. W grupie pierwszej znalazły się: bemol forte f kasownik, klucz G klucz F krzyżyk G I laska z chorągiewką, mezzo forte piano p mf pauza ćwierćnutowa > pauza ósemkowa? pauza W drugiej, decydującej o słabym zrównoważeniu, grupie znalazły się: akcent ffi nuta brevis 14
17 P A ROZDZIAŁ 4. EKSPERYMENT 15 crescendo diminuendo Ă fermata łuk klucz C K pauza 1/32 W ramach pierwszej części eksperymentu rozpoznawaniu poddane zostały symbole z pierwszej grupy. W tym momencie analizowana była skuteczność poszczególnych klasyfikatorów oraz dobierana eksperymentalnie ich jak najlepsza struktura. W drugiej części badania do analizowanych symboli dołączono grupę klas mało licznych. W tym momencie sprawdzane było zachowanie się klasyfikatorów działających na symbolach kłopotliwych. 4.1 Rozpoznawanie klas licznych Pierwsza część eksperymentu miała na celu wykazanie skuteczności poszczególnych klasyfikatorów w rozpoznawaniu symboli powszechnie występujących na pięciolinii. W jej trakcie sprawdzono działanie wybranych klasyfikatorów prostych i złożonych w zależności od wielkości zbioru uczącego oraz parametrów klasyfikatora. Każdy z klasyfikatorów był uczony na bazie zbiorów uczących liczących odpowiednio 1, 10, 50, 100, 200 i 400 symboli przynależnych do każdej z klas. Oprócz tego badane były różne wielkości parametrów sprawdzanych klasyfikatorów. Wektor cech każdorazowo liczył 50 elementów. Ocena skuteczności klasyfikatorów w przypadku badania klas licznych polegała na wyznaczeniu procentu poprawnych klasyfikacji [20] Klasyfikatory proste Badaniu poddane były 4 klasyfikatory proste: knn, k-średnich, klasyfikator wykorzystujący normę Mahalanobisa oraz drzewo decyzyjne. W tym przypadku badano wpływ wielkości zbioru uczącego na skuteczność rozpoznawania. Dla klasyfikatorów knn oraz k-średnich zbadano także wpływ parametru k. Dokładne wyniki znajdują się w tabeli 4.2. Metoda k najbliższych sąsiadów W przypadku klasyfikatora knn testowany był wpływ wielkości zbioru uczącego oraz wielkość parametru k na skuteczność rozpoznawania. Parametr k badany był przy zbiorze uczącym liczącym po 400 elementów dla każdej z rozpoznawanych klas. Testy przeprowadzono dla k = 1, 2, 3, 5, 10, 15, 20. Najsłabszą skuteczność klasyfikator uzyskał przy k = 1. Było to 95%. Największa efektywność, 98%, zostało osiągnięte przy k = 5 oraz przy k = 10. Wraz ze wzrostem zbioru uczącego wzrasta skuteczność rozpoznania na zbiorze testowym. Wzrost ten jednak nie jest proporcjonalny do liczności zbioru uczącego. Maksymalna skuteczność przekroczyła 98%. Wraz ze wzrostem zbioru uczącego wzrasta czas potrzebny na znalezienie najbliższego sąsiedztwa badanego symbolu. Powoduje to dużą złożoność czasową algorytmu, która ogranicza praktyczne zastosowanie tej metody.
18 ROZDZIAŁ 4. EKSPERYMENT 16 klasyfikator knn k-średnich Mahalanobis drzewo decyzyjne Tabela 4.1: Skuteczność rozpoznawania klas regularnych przez klasyfikatory proste w zależności od wielkości zbioru uczącego Algorytm k-średnich Pierwszym testem tej metody było sprawdzenie skuteczności w zależności od wielkości tego parametru. Analiza została przeprowadzona dla zbioru uczącego zawierającego 400 symboli w każdej z klas. Testy przeprowadzono dla k = 1, 2, 3, 5, 10, 15, 25, 50. Najsłabszą skuteczność klasyfikator uzyskał przy k = 1. Wraz ze wzrostem liczby klastrów dla danej klasy rosła efektywność metody. Niestety wzrasta również wtedy złożoność obliczeniowa i wydłuża się czas działania. Badanie wpływu wielkości zbioru uczącego na skuteczność rozpoznawania przeprowadzono dla k = 10. Oczywiście uczyniony został wyjątek dla zbioru liczącego po jednym przedstawicielu każdej z klas, dla którego przyjęto k = 1 oraz dla zbiorów 10 elementowych, gdzie przyjęto k = 2. Wraz ze wzrostem zbioru uczącego wzrasta rozpoznanie na zbiorze testowym. Wzrost ten jednak nie jest proporcjonalny do liczności zbioru uczącego. Najlepsza skuteczność, czyli 93%, zostaje osiągnięta przy zbiorze uczącym liczącym 400 elementów dla każdej z klas. Klasyfikator z normą Mahalanobisa W przypadku tej metody również badany był wpływ wielkości zbioru uczącego na skuteczność rozpoznawania. Podobnie jak w poprzednich przypadkach wraz ze wzrostem wielkości zbioru uczącego rośnie efektywność klasyfikatora. Największa skuteczność zostaje osiągnięta dla zbioru uczącego liczącego po 400 elementów w każdej z klas. Było to 93%. Jest to skuteczność mniejsza niż w przypadku klasyfikatora k najbliższych sąsiadów, ale rekompensuje ją znaczna szybkość działania tego algorytmu. Drzewo decyzyjne Podobnie jak algorytmy omawiane wyżej, również ta metoda w znacznej mierze zależy od liczby i jakości danych uczących. Drzewo decyzyjne cechuje niska skuteczność dla małego zbioru uczącego. Dla zbioru uczącego liczącego tylko jeden obiekt dla każdej z klas skuteczność wyniosła tylko 35%. Wraz ze wzrostem rozmiaru zbioru uczącego znacząco poprawia się skuteczność tego algorytmu. Osiąga on jedną z najlepszych skuteczności spośród badanych do tej pory klasyfikatorów. Było to 98%. Dodatkową zaletą tego algorytmu jest szybkość działania, wynikająca z małej wysokości drzew budowanych dla badanych klas. W celu rozpoznania obiektu drzewo wykonuje nie więcej porównań niż wynosi liczba elementów wektora cech Klasyfikatory złożone Metoda prostego głosowania Oprócz klasyfikatorów prostych przetestowane zostały również metody złożone [21]. Pierwszą z nich była metoda prostego głosowania. W algorytmie tym połączone następujące klasyfikatory: knn (k = 5), Mahalanobisa, drzewo decyzyjne. W przypadku remisu obiekt był przypisywany do tej klasy, na którą wskazało drzewo decyzyjne. Skuteczność metody rosła wraz ze wzrostem
19 ROZDZIAŁ 4. EKSPERYMENT głosowanie bagging las losowy Tabela 4.2: Skuteczność rozpoznawania klas regularnych przez klasyfikatory złożone w zależności od wielkości zbioru uczącego wielkości zbioru uczącego. W porównaniu do klasyfikatorów prostych była ona skuteczniejsza dla małej liczby danych uczących, natomiast dla dużych zbiorów uczących te wyniki są podobne. Bagging Kolejnym złożonym klasyfikatorem użytym do testów był bagging. Przeprowadzono testy, w których łączone były: knn (k = 5), drzewo decyzyjne. W każdym teście łączonych było po 10 klasyfikatorów danego typu. Także i w tym przypadku skuteczność klasyfikatora rosła wraz ze wzrostem wielkości zbiorów uczących. Ogólna skuteczność okazała się być wyższa, niż w przypadku stosowania klasyfikatorów prostych. Różnica ta była szczególnie widoczna dla testów przeprowadzonych na małych zbiorach uczących. Przy zbiorze uczącym liczącym 400 elementów dla każdej z klas różnica ta wynosiła mniej niż 0,5%. Las losowy W przypadku tego klasyfikatora badana była struktura klasyfikatora oraz wpływ wielkości zbioru uczącego na skuteczność rozpoznawania. W przypadku struktury analizowane były dwa parametry: liczba drzew w lesie oraz liczba cech losowanych do podziału pojedynczego węzła. Badanie dotyczące liczby drzew w lesie przeprowadzono jako pierwsze. Do nauczenia każdego z drzew użyto zbiorów uczących liczących po 100 elementów w każdej z klas. Do podziału pojedynczego węzła losowanych było po 5 dostępnych cech. Las składający się tylko z jednego oraz z trzech drzew osiągnął wyniki słabsze niż zwykłe drzewo decyzyjne pracujące na tym samym zbiorze uczącym. Wraz ze wzrostem liczby drzew rosła skuteczność rozpoznawania, która stała się lepsza niż w przypadku zwykłego drzewa. Dla 20 drzew skuteczność osiągnęła poziom 98% i przestała rosnąć w sposób znaczący. Kolejnym krokiem było ustalenie optymalnej dla tego zagadnienia liczby cech losowanych w trakcie konstrukcji pojedynczego węzła. Do testów użyty został las liczący 10 drzew. Do nauczenia każdego z drzew użyto zbiorów uczących liczących po 100 elementów w każdej z klas. Zbadano zachowanie się klasyfikatora dla 1, 2, 3, 4, 5, 8, 10, 15 oraz 20 losowanych cech. Najsłabszą skutecznością charakteryzuje się las, w którym losujemy tylko po jednej cesze. Wynika to zapewne z całkowicie losowej kolejności wyboru cech i całkowitego odrzucenia jakichkolwiek miar podziału. Wraz ze wzrostem liczby losowanych cech wzrasta również skuteczność. Powyżej liczby 5 losowanych cech wzrost skuteczności przestaje być znaczący. Przeprowadzone także zostały badania wpływu wielkości zbioru uczącego na efektywność metody. W trakcie tych badań las tworzyło 20 drzew, zaś do podziału pojedynczego węzła losowanych było po 5 dostępnych cech. Podobnie jak w poprzednich przypadkach skuteczność rosła wraz ze wzrostem liczebności danych uczących. Dla zbiorów liczących po 400 elementów w każdej z klas wyniosła ona ponad 98% i był to jeden z najlepszych wyników.
20 ROZDZIAŁ 4. EKSPERYMENT Rozpoznawanie klas mało licznych Ustalenie właściwej struktury klasyfikatorów było wstępem do rozpoznawania całości zagadnienia. Do klas licznych dodane zostały klasy decydujące o słabym zrównoważeniu. W tym przypadku, oprócz globalnej skuteczności, na uwagę zasługuje rozpoznawanie wewnątrz klas mało licznych. Klasy liczne posiadały po 400 przedstawicieli w zbiorze uczącym, natomiast liczebność pozostałych klas przedstawia tabela 4.3. klasa zbiór uczący zbiór testowy akcent brevis 1 2 crescendo dominuendo fermata klucz C łuk puaza 1/ Tabela 4.3: Liczebność wybranych klas w zbiorze uczącym i testowym W przypadku klas mało licznych zmieniony został sposób oceny klasyfikatorów. W pracy Garcia i innych [9] podane zostały różne miary oceny klasyfikatorów dla zagadnienia słabo zrównoważonego w przypadku dwuklasowym. Są to: error rate: accuracy: true positive rate: err = acc = F P + F N T P + F N + T N + F P T P + T N T P + F N + T N + F P (4.1) (4.2) true negative rate: false positive rate: false negative rate: T P rate = T Nrate = F P rate = F Nrate = T P T P + F N T N T N + F P F P F P + T N F N T P + F N (4.3) (4.4) (4.5) (4.6) gdzie TP oznacza liczbę elementów z klasy pierwszej właściwie rozpoznanych, FN - to liczba elementów z pierwszej klasy źle rozpoznanych, FP - liczba elementów z klasy drugiej źle rozpoznanych, TN - liczba elementów z klasy drugiej dobrze rozpoznanych.
21 ROZDZIAŁ 4. EKSPERYMENT Klasyfikatory proste Metoda k najbliższych sąsiadów Klasyfikator ten ponownie został zbadany jako pierwszy. Testy przeprowadzono dla k = 1 oraz k = 5. Globalna skuteczność w porównaniu do wyników opisanych w sekcji 4.1 spadała w sposób nieznaczny. Niestety skuteczność rozpoznawania klas rzadkich jest znacząco niższa niż klas licznych. Najlepszą skuteczność spośród powyższych obiektów uzyskał klucz C. Wynika to zapewne z dosyć dużego zbioru uczącego oraz kształtu tego symbolu zapewniającego znaczne odróżnienie go od innych. Z wysoką skutecznością rozpoznawany był także łuk. Również ten symbol posiadał zbiór uczący o sporej liczebności. Kolejna grupa symboli, którym należy się przyjrzeć to akcent, crescendo oraz diminuendo. Symbole te są bardzo do siebie podobne. W połączeniu z małym zbiorem uczącym dla tych klas powoduje to niską skuteczność rozpoznawania. Symbole te w klasyfikacji mylą się głównie między sobą. Należy zauważyć, że dla symboli posiadających bardzo małą reprezentację wśród danych uczących korzystniejsze jest stosowanie mniejszego parametru k. Ogólna skuteczność tego klasyfikatora dla k = 5 wyniosła acc = 97, 94%, a współczynnik błędu err = 2, 06%. Algorytm k-średnich Badanie tego klasyfikatora zostało przeprowadzone przy k = 5. Wyjątek stanowiła klasa brevis, dla której, z racji zbioru uczącego zawierającego tylko jeden element, przyjęto k = 1. Także i w tym przypadku zwiększenie liczby klas spowodowało nieznaczny spadek globalnej skuteczności. W przypadku klas rzadkich efektywność metody była niższa niż dla klasyfikatora knn. Także i tu najlepiej rozpoznawany był klucz C oraz łuk. Można było zaobserwować, że im klasa jest mniej liczna, tym jest gorzej rozpoznawana. Błędy klasyfikacji pojawiały się mniej więcej w tych samych miejscach, w których pojawiały się dla k najbliższych sąsiadów, było jednak ich więcej. Ogólna skuteczność tego klasyfikatora dla k = 5 wyniosła acc = 93, 09%, a współczynnik błędu err = 6, 91%. Klasyfikator z normą Mahalanobisa Globalny wynik dla klasyfikatora wykorzystującego odległość Mahalanobisa również zmniejszył się wraz ze zwiększeniem liczby badanych klas. Ogólny wynik dla tej metody okazał się słabszy niż dla metody knn. Jednakże, co ciekawe, poszczególne symbole rzadkie były rozpoznawane lepiej przez tą metodę. Algorytm ten szczególnie potrafił wyizolować akcent, który to symbol był rozpoznawany za 100 procentową skutecznością. Niestety wciąż myliły się wzajemnie crescendo i diminuendo. Problemy pojawiały się także przy odróżnieniu pauzy 1/32 od pauzy 1/16. Nierozpoznawana pozostawała także nuta brevis. Ogólna skuteczność tego klasyfikatora wyniosła acc = 93, 51%, a współczynnik błędu err = 6, 49%. Drzewo decyzyjne Poprzednie testy wykazały, że drzewo decyzyjne jest wrażliwe na wielkość zbioru uczącego. Można się więc było spodziewać, że symbole z klas rzadkich mogą być rozpoznawane słabo. Tak też w istocie było. Globalna skuteczność tego klasyfikatora wraz z dodaniem nowych klas zmniejszyła się o dwa procent. Niestety wyniki rozpoznawania symboli rzadkich okazały się niezadawalające. Podobnie jak w poprzednich metodach najlepiej klasyfikowane były klucz C oraz łuk. Wynikało to zapewne z ich znacznej reprezentacji w zbiorze uczącym. Także i tu pojawiały się przekłamania: akcent - diminuendo oraz diminuendo - akcent. Co dziwne drzewo często myliło symbol fermata z mezzo forte. Pojawiały się także błędy przy rozpoznawaniu pauzy 1/32. Nierozpoznawana była także nuta brevis. Ogólna skuteczność drzewa decyzyjnego
22 ROZDZIAŁ 4. EKSPERYMENT 20 class knn k-średnnich Mahalanobis drzewo decyzyjne TPrate FNrate TPrate FNrate TPrate FNrate TPrate FNrate akcent brevis crescendo diminuendo fermata klucz C łuk pauza 1/ Tabela 4.4: Skuteczność rozpoznawania klasyfikatorów prostych po dodaniu klas mało licznych wyniosła acc = 97, 93%, a współczynnik błędu err = 2, 07%. Dokładne wyniki osiągnięte przez klasyfikatory złożone znajdują się w tabeli Klasyfikatory złożone Metoda prostego głosowania W tej metodzie połączone zostały następujące klasyfikatory: knn ( k = 1), Mahalanobisa, drzewo decyzyjne. W przypadku remisu symbol klasyfikowany był do klasy, na którą wskazał klasyfikator k najbliższych sąsiadów. Algorytm ten przeniósł właściwości klasyfikatorów składowych. Nastąpił niewielki spadek skuteczności globalnej w stosunku do rozpoznawania tylko i wyłącznie klas licznych. Klasy rzadkie klasyfikowane były z mniejszą skutecznością. Najlepiej rozpoznawane były te symbole rzadkie, które posiadały największą reprezentację spośród danych uczących. Ogólna skuteczność metody prostego głosowania wyniosła acc = 98, 05%, a współczynnik błędu err = 1, 95%. Bagging Kolejnym złożonym klasyfikatorem użytym do testów był bagging. Przeprowadzono testy, w których łączone były: knn (k = 1) oraz drzewo decyzyjne. W każdym teście łączonych było po 10 klasyfikatorów danego typu. W ujęciu globalnym osiągnięte wyniki były nieco gorsze niż w przypadku testów na zbiorze tylko licznych klas. Symbole rzadkie były rozpoznawane nieco lepiej niż w przypadku składowych klasyfikatorów prostych. Bagging oparty na drzewach decyzyjnych dał nieco lepsze rezultaty. Jego ogólna skuteczność wyniosła acc = 98, 15%, a współczynnik błędu err = 1, 85%. Las losowy Ostatnią z badanych metod był las losowy. W testach użyty został las zbudowany z 10 drzew. Do podziału pojedynczego węzła losowanych było 5 dostępnych cech. Globalna skuteczność tego klasyfikatora wraz z dodaniem nowych klas zmniejszyła się o jeden procent. Podobnie jak w poprzednich metodach symbole z klas rzadkich klasyfikowane były gorzej. Las losowy osiągnął jednak najlepszą skuteczność w klasyfikowaniu klas rzadkich. Ogólna skuteczność lasu losowego wyniosła acc = 98, 21%, a współczynnik błędu err = 1, 81%. Dokładne wyniki osiągnięte przez klasyfikatory złożone znajdują się w tabeli 4.5. Szczegółowe wyniki dla tego klasyfikatora znajdują się w tabeli A.1. Pełne wyniki dla wszystkich badanych klasyfikatorów umieszczone zostały w rozprawie.
23 ROZDZIAŁ 4. EKSPERYMENT 21 class Głosowanie Bagging Las losowy TPrate FNrate TPrate FNrate TPrate FNrate akcent brevis crescendo diminuendo fermata klucz C łuk pauza 1/ Tabela 4.5: Skuteczność rozpoznawania klas mało licznych przez klasyfikatory złożone klasyfikator skuteczność knn 95 k - średnich 92 Mahalanobis 93 drzewo 95 proste głosowanie 95 bagging 96 las losowy 96 Tabela 4.6: Skuteczność wybranych klasyfikatorów na zbiorze liter 4.3 Zagadnienie dobrze zrównoważone W celu porównania pomiędzy zagadnieniami słabo i dobrze zrównoważonymi przeprowadzone zostały badania skuteczności rozpoznawania małych liter alfabetu łacińskiego. W związku z cechami tych symboli możemy je traktować jako przykład zagadnienia dobrze zrównoważonego. Co prawda występują tu różnice w liczności poszczególnych klas, jednak nie pojawia się problem w konstrukcji zbioru uczącego o żądanej liczbie elementów. Litery są również dobrze zrównoważone pod względem kształtu i rozmiaru. Do oceny klasyfikatorów, z uwagi na mniejsze znaczenie dla niniejszej pracy, użyto jedynie procentu poprawnych klasyfikacji. Zbiór liter liczył 6108 elementów [26, 25]. Zbiór powstał na skutek wycinania liter ze skanów pochodzących z tej samej książki anglojęzycznej, więc obiekty z poszczególnych klas są podobne do siebie. W trakcie badań był on dzielony w różnych konfiguracjach na zbiory uczące i testowe. Jak było wspomniane wyżej, reprezentowane w nim jest 26 klas odpowiadających 26 małym literom alfabetu łacińskiego. Liczność występujących w nim klas jest różna. Najwięcej elementów posiada klasa reprezentująca literę a, najmniej - z. Dużo obiektów posiadają też klasy o, n czy też r, natomiast stosunkowo niewiele mamy reprezentantów klas j oraz q. Liczby te wynikają z częstości występowania danej litery w zapisie języka angielskiego. Tabela 4.6 przedstawia skuteczność wybranych klasyfikatorów w rozpoznawaniu liter. Wektor cech oraz parametry klasyfikatorów były identyczne jak w przypadku rozpoznawania wybranych symboli notacji muzycznej.
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
8. Drzewa decyzyjne, bagging, boosting i lasy losowe
Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane
Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Prawdopodobieństwo czerwonych = = 0.33
Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie
Systemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
Drzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Indukowane Reguły Decyzyjne I. Wykład 8
Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne
Temat: Algorytm kompresji plików metodą Huffmana
Temat: Algorytm kompresji plików metodą Huffmana. Wymagania dotyczące kompresji danych Przez M oznaczmy zbiór wszystkich możliwych symboli występujących w pliku (alfabet pliku). Przykład M = 2, gdy plik
Metody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie
Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.
Wnioskowanie bayesowskie
Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,
Adrian Horzyk
Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Co to jest grupowanie
Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie
W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:
Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,
Testowanie hipotez statystycznych. Wnioskowanie statystyczne
Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Testy nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria
Wrocław University of Technology WYKŁAD 7 Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria autor: Maciej Zięba Politechnika Wrocławska Testowanie modeli klasyfikacyjnych Dobór odpowiedniego
Testowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Spacery losowe generowanie realizacji procesu losowego
Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z
Wymagania edukacyjne z matematyki - klasa III (poziom rozszerzony) wg programu nauczania Matematyka Prosto do matury
STEREOMETRIA Wymagania edukacyjne z matematyki - klasa III (poziom rozszerzony) wskazać płaszczyzny równoległe i prostopadłe do danej płaszczyzny wskazać proste równoległe i prostopadłe do danej płaszczyzny
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba Cel zadania Celem zadania jest implementacja klasyfikatorów
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Algorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Kompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące
SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
Przygotowanie materiału uczącego dla OCR w oparciu o aplikację Wycinanki.
Przygotowanie materiału uczącego dla OCR w oparciu o aplikację Wycinanki. Zespół bibliotek cyfrowych PCSS 6 maja 2011 1 Cel aplikacji Aplikacja wspomaga przygotowanie poprawnego materiału uczącego dla
Sieć przesyłająca żetony CP (counter propagation)
Sieci neuropodobne IX, specyficzne architektury 1 Sieć przesyłająca żetony CP (counter propagation) warstwa Kohonena: wektory wejściowe są unormowane jednostki mają unormowane wektory wag jednostki są
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl
Uczenie sieci radialnych (RBF)
Uczenie sieci radialnych (RBF) Budowa sieci radialnej Lokalne odwzorowanie przestrzeni wokół neuronu MLP RBF Budowa sieci radialnych Zawsze jedna warstwa ukryta Budowa neuronu Neuron radialny powinien
Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne
Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład
Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących
Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Cezary Dendek Wydział Matematyki i Nauk Informacyjnych PW Plan prezentacji Plan prezentacji Wprowadzenie
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące
Klasyfikacja LDA + walidacja
Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja
PDM 3 zakres podstawowy i rozszerzony PSO
PDM 3 zakres podstawowy i rozszerzony PSO STEREOMETRIA wskazać płaszczyzny równoległe i prostopadłe do danej płaszczyzny wskazać proste równoległe i prostopadłe do danej płaszczyzny odróżnić proste równoległe
Sposoby prezentacji problemów w statystyce
S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Klasyfikacja metodą Bayesa
Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-11 1 Modelowanie funkcji logicznych
Sztuczna inteligencja : Algorytm KNN
Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012 1 Algorytm 1 NN 2 Algorytm knn 3 Zadania Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr
Testowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
2. Empiryczna wersja klasyfikatora bayesowskiego
Algorytmy rozpoznawania obrazów 2. Empiryczna wersja klasyfikatora bayesowskiego dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Brak pełnej informacji probabilistycznej Klasyfikator bayesowski
8. Neuron z ciągłą funkcją aktywacji.
8. Neuron z ciągłą funkcją aktywacji. W tym ćwiczeniu zapoznamy się z modelem sztucznego neuronu oraz przykładem jego wykorzystania do rozwiązywanie prostego zadania klasyfikacji. Neuron biologiczny i
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Reprezentacja i analiza obszarów
Cechy kształtu Topologiczne Geometryczne spójność liczba otworów liczba Eulera szkielet obwód pole powierzchni środek ciężkości ułożenie przestrzenne momenty wyższych rzędów promienie max-min centryczność
Wymagania kl. 3. Zakres podstawowy i rozszerzony
Wymagania kl. 3 Zakres podstawowy i rozszerzony Temat lekcji Zakres treści Osiągnięcia ucznia 1. RACHUNEK PRAWDOPODOBIEŃSTWA 1. Reguła mnożenia reguła mnożenia ilustracja zbioru wyników doświadczenia za
w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
Oprogramowanie Systemów Obrazowania SIECI NEURONOWE
SIECI NEURONOWE Przedmiotem laboratorium jest stworzenie algorytmu rozpoznawania zwierząt z zastosowaniem sieci neuronowych w oparciu o 5 kryteriów: ile zwierzę ma nóg, czy żyje w wodzie, czy umie latać,
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza
Inteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.
STATYSTYKA MATEMATYCZNA WYKŁAD 4 WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. Wysuwamy hipotezy: zerową (podstawową H ( θ = θ i alternatywną H, która ma jedną z
Algorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, rozważane dotychczas problemy koncentrowały się na nauczeniu na podstawie zbioru treningowego i zbioru etykiet klasyfikacji
Testowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
Analiza głównych składowych- redukcja wymiaru, wykł. 12
Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają
ALGORYTMY SZTUCZNEJ INTELIGENCJI
ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.
Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )
Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Kolokwium ze statystyki matematycznej
Kolokwium ze statystyki matematycznej 28.05.2011 Zadanie 1 Niech X będzie zmienną losową z rozkładu o gęstości dla, gdzie 0 jest nieznanym parametrem. Na podstawie pojedynczej obserwacji weryfikujemy hipotezę
TEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie
Statystyka opisowa. Wykład I. Elementy statystyki opisowej
Statystyka opisowa. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Elementy statystyku opisowej 1 Elementy statystyku opisowej 2 3 Elementy statystyku opisowej Definicja Statystyka jest to nauka o
Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed
Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury Paweł Kobojek, prof. dr hab. inż. Khalid Saeed Zakres pracy Przegląd stanu wiedzy w dziedzinie biometrii, ze szczególnym naciskiem
Przykładowa analiza danych
Przykładowa analiza danych W analizie wykorzystano dane pochodzące z publicznego repozytorium ArrayExpress udostępnionego na stronach Europejskiego Instytutu Bioinformatyki (http://www.ebi.ac.uk/). Zbiór
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
Wykład 3 Hipotezy statystyczne
Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza
OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI
Autoreferat do rozprawy doktorskiej OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Michał Mazur Gliwice 2016 1 2 Montaż samochodów na linii w
Matlab podstawy + testowanie dokładności modeli inteligencji obliczeniowej
Matlab podstawy + testowanie dokładności modeli inteligencji obliczeniowej Podstawy matlaba cz.ii Funkcje Dotychczas kod zapisany w matlabie stanowił skrypt który pozwalał na określenie kolejności wykonywania
Wydział Matematyki. Testy zgodności. Wykład 03
Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy
Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.
Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a