Rozpoznawanie obiektów na podstawie zredukowanego zbioru cech Piotr Porwik Uniwersytet Śląski w Katowicach
?? It is obvious that more does not mean better, especially in the case of classifiers!! *) *) XIAO-HUA ZHOU et al..statistical Methods in Diagnostic Medicine. Wiley-Interscience, 2002, 2
Cechy podpisu s() t t 1,..., z 3 F { f1, f2,..., f u } t t t s( t) [ f1, f2,..., f u ]
Czy klasyfikacja jest zawsze możliwa? NIE! Podpis kapitana Bonaparte w roku 1793 (ma 24 lata) Generał dywizji (1796) (ma 27 lat) Napoleon jak cesarz Francji 1804 (ma 35 lat) Dowódca Francuzów pod Austerlitz 1805 (ma 36 lat) Dowódca Francuzów pod Moskwą 1812 (ma 43 lata) Przed śmiercią na wyspie Św. Heleny 1821 (ma 52 lata) 4 1769 Korsyka 1821 Św. Helena
Cech obiektu tutaj podpis (1) 5
Cechy obiektu tutaj podpis (2) 6
Miary podobieństwa (1) 1 Euclidean 12 Jaccard 2 Gower 13 Fidelity 3 Minkowski 14 Bhattacharyya 4 City Block 15 Hellinger 5 Cosine 16 Matusita 6 Kulczynski 17 Pearson 7 Canberra 18 Neyman χ2 8 Czekanowski 19 Squared χ2 9 Intersection 20 Symmetric χ2 10 Clark 21 Kullback Leibler 7 11 Lorentzian 22 Kumar-Hassebrook
Miary podobieństwa (2) s ER 2 ( f ) z ( p p )( q q ) i i i i i 1 i z z 2 2 ( pi pi ) ( qi qi ) i 1 i 1 i i i 1 Jac( fi ) z z z 2 2 pi qi piqi i 1 i 1 i 1 z pq 2 d ( f ) p q Euc i i i i z 2 1/ 2 8 Sung-Hyug Cha (2007) Comprehensive survey on distance/similarity measures between probability density functions. Int. J. of Mathematical Models and Methods in Applied Sciences, vol. 1, pp. 300-307.
Nowa koncepcja podobieństwa (1) Zbiór cech: fm F m 1,..., u Zbiór metod : (sposoby wyznaczania podobieństwa) j M j 1,..., k Zbiór wszystkich kombinacji cecha-metoda : Niech nowy współczynnik nazywa się Sim 9
Nowa koncepcja podobieństwa (2) Podpisy oryginalne: 1 { S1, S2,..., S c } Podpisy fałszywe: 2 { S1, S2,..., S d } X S S,..., S S,..., S S [ x,..., x ] 1 2 1 c c 1 c c ( uk) 1 c 2 2 Y S S,..., S S,..., S S [ y,..., y ] 1 1 1 d c d 1 c d ( u k ) ( c d ) 10 c liczba podpisów oryginalnych, d liczba podpisów fałszywych, u liczba zarejestrowanych cech, k liczba użytych miar podobieństwa (metod pomiaru)
Nowa koncepcja podobieństwa (3) Współczynnik Sim pomiędzy podpisami oryginalnymi: X x 1 1 2 Sim( S, S ) 1 2. Sim( S, S ) 1 2 [ S S ]. Sim( S, S ) 1 2. Sim( S, S ) ( f, ) 1 1 11 ( f, ) 1 k 1k ( f, ) u 1 u1 ( fu, k ) u k 1 2 ( uk) 1 11
Nowa koncepcja podobieństwa (4) Współczynnik Sim pomiędzy podpisami prawdziwymi i fałszywymi: Y y 1 1 1 Sim( S, S ) 1 1. Sim( S, S ) 1 1 [ S S ]. Sim( S, S ) 1 1. Sim( S, S ) ( f, ) 1 1 11 ( f, ) 1 k 1k ( f, ) u 1 1u ( fu, k ) u k 1 1 ( uk) 1 12
Nowa koncepcja podobieństwa (5) Macierze X oraz Y mogą być jednak bardzo duże! ( uk) c 2 ( u k) ( c d) Rozwiązanie: redukcja rozmiarów macierzy. Na przykład: -PCA -SVD -Metoda Hotellinga 13 Dwie pierwsze metod są dobrze znane i opisane w literaturze. Metoda Hotellinga jest mniej znana ale tutaj daje najlepsze rezultaty.
Szkic metody Hotellinga (1) x x. x 11 12 1n x21 x22. x2n X x1, x2,..., x.... x x. x p1 p2 pn n 14 y y. y 11 12 1m y21 y22. y2m Y y1, y2,..., y.... y y. y p1 p2 pm m
Szkic metody Hotellinga (2) Elementy macierzy X oraz Y są próbkami dwóch populacji: x i ~ N (, 1 1 x X j x n n p Rozkład jest normalny, a parametry tego rozkładu są nieznane. Można je jednak estymować: y n i 1 i x x x. 1 2 p y i ~ N (, 1 1 y Y g y m m p m i 1 i y y. 1 2 p 15 n 1 T S1 ( xi x)( xi x) S2 n 1 i 1 1 m 1 m i 1 ( y y)( y y) i i T
Szkic metody Hotellinga (3) Jeśli kowariancje S1 oraz S2 są homogeniczne *, to: V 1 S ( n 1) S ( m 1) n m 2 1 2 w przeciwnym przypadku: (wariancja wspólna) S1 S2 V 2 + (wariancje oddzielnie) n m Statystyka Hotellinga: 2 T 1 i T ( x y) V ( x y) i {1,2} Test Hotellinga można sprowadzić do testu F: * - test Bartletta Poziom istotności 16
Szkic metody Hotellinga (4) 17
Czy nowe dane są prawidłowe? Tak, bo: 18
Bazy danych SVC 2004 MCYT SigComp2011 4NSigComp2012 http://www.cse.ust.hk/svc2004 http://atvs.ii.uam.es/mcytscores.html http://www.iapr-tc11.org/mediawiki/index.php/datasets_list http://www.iapr-tc11.org/mediawiki/index.php/datasets_list SigWiComp2013 http://www.dfki.de/afha/2013/sigwicomp.html Baza własna http://biometrics.us.edu.pl 19 Bazy zawierają podpisy oryginalne i sfałszowane. W eksperymencie badano 1600 podpisów z podziałem na podpisy uczące i testowe
Testy praktyczne, (k-nn), Hotelling 20 Prawidłowe rozpoznanie
Testy praktyczne, PCA 21
Testy praktyczne, PCA 22
Testy praktyczne (k-nn), PCA 23 Nieprawidłowe rozpoznanie!
Jakie klasyfikatory stosować? Pytania dodatkowe. Dla nowego typu danych: czy jakość klasyfikacji jest podobna kiedy klasyfikator pracuje na: -danych zredukowanych, -danych nie zredukowanych, (to może być duży zbiór!) -danych surowych (pierwotne cechy, bez przetworzenia) Aby odpowiedzieć na te pytania trzeba przeprowadzić odpowiednie eksperymenty! Accuracy liczba poprawnie klasyfikowanych liczba wszystkich prób 24
Zastosowane klasyfikatory 25
Wyniki klasyfikacji 26
Wyniki klasyfikacji 27
Wyniki klasyfikacji Użyte narzędzia Matlab, R, KNIME 28
Wyniki klasyfikacji 29
Porównanie z innymi (przybliżona ocena) 30 1) D. Impedovo, G. Pirlo, Automatic signature verification: the state of the art. IEEE Trans. on Syst. Man. and Cybernetics. Part C: Applications and Reviews, vol. 38v no. 5, 2013, pp. 609-635.
PNN+PSO G( Jc, ) exp T [( J c) ( J c)] 2 2 1/2 31
Accuracy [%] Accuracy [%] Trening sieci 100 99.8 99.6 99.4 99.2 99 0 5 10 PSO epoch 15 20 5 4 3 2 1 0 0 5 10 15 20 PSO epoch 100 (2.21, 99.34) 90 80 32 70 60 50 0 1 2 3 4 5
Dziękuję za uwagę 33