Rozpoznawanie obiektów na podstawie zredukowanego zbioru cech. Piotr Porwik Uniwersytet Śląski w Katowicach

Podobne dokumenty
Spis treści 3 SPIS TREŚCI

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Testowanie hipotez statystycznych

Wykład 12 Testowanie hipotez dla współczynnika korelacji

1 Estymacja przedziałowa

Matematyka i statystyka matematyczna dla rolników w SGGW

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Testowanie hipotez statystycznych.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Wykład 8 Dane kategoryczne

10. Redukcja wymiaru - metoda PCA

Statystyka matematyczna. Wykład VI. Zesty zgodności

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Elementy statystyki STA - Wykład 5

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

STATYSTYKA

Testowanie hipotez statystycznych

Porównanie dwóch rozkładów normalnych

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Testowanie hipotez statystycznych

Weryfikacja hipotez statystycznych

KURS STATYSTYKA. Lekcja 5 Analiza współzależności ZADANIE DOMOWE. Strona 1

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Elementy modelowania matematycznego

Wnioskowanie statystyczne. Statystyka w 5

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017

PRZEWODNIK PO PRZEDMIOCIE

Rozkłady statystyk z próby. Statystyka

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Analiza kanoniczna w pigułce

Estymacja punktowa i przedziałowa

9. Praktyczna ocena jakości klasyfikacji

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych

Hierarchiczna analiza skupień

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

MODELE I METODY STATYSTYKI MATEMATYCZNEJ

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Testowanie hipotez statystycznych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

Metody probabilistyczne

Analiza składowych głównych. Wprowadzenie

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Komputerowa Analiza Danych Doświadczalnych

Ważne rozkłady i twierdzenia c.d.

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

Hipotezy statystyczne

Wykład 11 Testowanie jednorodności

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Hipotezy statystyczne

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Kierunek i poziom studiów: Biologia, poziom drugi Sylabus modułu: Metody statystyczne w naukach przyrodniczych

Agnieszka Nowak Brzezińska

Weryfikacja hipotez statystycznych testy t Studenta

Porównanie wielu rozkładów normalnych

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Testowanie hipotez statystycznych cd.

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Przykładowa analiza danych

STATYSTYKA wykład 5-6

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Komputerowa diagnoza medyczna tworzenie i interpretowanie. prof. dr hab. inż. Andrzej Walczak

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Testowanie hipotez statystycznych.

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Transkrypt:

Rozpoznawanie obiektów na podstawie zredukowanego zbioru cech Piotr Porwik Uniwersytet Śląski w Katowicach

?? It is obvious that more does not mean better, especially in the case of classifiers!! *) *) XIAO-HUA ZHOU et al..statistical Methods in Diagnostic Medicine. Wiley-Interscience, 2002, 2

Cechy podpisu s() t t 1,..., z 3 F { f1, f2,..., f u } t t t s( t) [ f1, f2,..., f u ]

Czy klasyfikacja jest zawsze możliwa? NIE! Podpis kapitana Bonaparte w roku 1793 (ma 24 lata) Generał dywizji (1796) (ma 27 lat) Napoleon jak cesarz Francji 1804 (ma 35 lat) Dowódca Francuzów pod Austerlitz 1805 (ma 36 lat) Dowódca Francuzów pod Moskwą 1812 (ma 43 lata) Przed śmiercią na wyspie Św. Heleny 1821 (ma 52 lata) 4 1769 Korsyka 1821 Św. Helena

Cech obiektu tutaj podpis (1) 5

Cechy obiektu tutaj podpis (2) 6

Miary podobieństwa (1) 1 Euclidean 12 Jaccard 2 Gower 13 Fidelity 3 Minkowski 14 Bhattacharyya 4 City Block 15 Hellinger 5 Cosine 16 Matusita 6 Kulczynski 17 Pearson 7 Canberra 18 Neyman χ2 8 Czekanowski 19 Squared χ2 9 Intersection 20 Symmetric χ2 10 Clark 21 Kullback Leibler 7 11 Lorentzian 22 Kumar-Hassebrook

Miary podobieństwa (2) s ER 2 ( f ) z ( p p )( q q ) i i i i i 1 i z z 2 2 ( pi pi ) ( qi qi ) i 1 i 1 i i i 1 Jac( fi ) z z z 2 2 pi qi piqi i 1 i 1 i 1 z pq 2 d ( f ) p q Euc i i i i z 2 1/ 2 8 Sung-Hyug Cha (2007) Comprehensive survey on distance/similarity measures between probability density functions. Int. J. of Mathematical Models and Methods in Applied Sciences, vol. 1, pp. 300-307.

Nowa koncepcja podobieństwa (1) Zbiór cech: fm F m 1,..., u Zbiór metod : (sposoby wyznaczania podobieństwa) j M j 1,..., k Zbiór wszystkich kombinacji cecha-metoda : Niech nowy współczynnik nazywa się Sim 9

Nowa koncepcja podobieństwa (2) Podpisy oryginalne: 1 { S1, S2,..., S c } Podpisy fałszywe: 2 { S1, S2,..., S d } X S S,..., S S,..., S S [ x,..., x ] 1 2 1 c c 1 c c ( uk) 1 c 2 2 Y S S,..., S S,..., S S [ y,..., y ] 1 1 1 d c d 1 c d ( u k ) ( c d ) 10 c liczba podpisów oryginalnych, d liczba podpisów fałszywych, u liczba zarejestrowanych cech, k liczba użytych miar podobieństwa (metod pomiaru)

Nowa koncepcja podobieństwa (3) Współczynnik Sim pomiędzy podpisami oryginalnymi: X x 1 1 2 Sim( S, S ) 1 2. Sim( S, S ) 1 2 [ S S ]. Sim( S, S ) 1 2. Sim( S, S ) ( f, ) 1 1 11 ( f, ) 1 k 1k ( f, ) u 1 u1 ( fu, k ) u k 1 2 ( uk) 1 11

Nowa koncepcja podobieństwa (4) Współczynnik Sim pomiędzy podpisami prawdziwymi i fałszywymi: Y y 1 1 1 Sim( S, S ) 1 1. Sim( S, S ) 1 1 [ S S ]. Sim( S, S ) 1 1. Sim( S, S ) ( f, ) 1 1 11 ( f, ) 1 k 1k ( f, ) u 1 1u ( fu, k ) u k 1 1 ( uk) 1 12

Nowa koncepcja podobieństwa (5) Macierze X oraz Y mogą być jednak bardzo duże! ( uk) c 2 ( u k) ( c d) Rozwiązanie: redukcja rozmiarów macierzy. Na przykład: -PCA -SVD -Metoda Hotellinga 13 Dwie pierwsze metod są dobrze znane i opisane w literaturze. Metoda Hotellinga jest mniej znana ale tutaj daje najlepsze rezultaty.

Szkic metody Hotellinga (1) x x. x 11 12 1n x21 x22. x2n X x1, x2,..., x.... x x. x p1 p2 pn n 14 y y. y 11 12 1m y21 y22. y2m Y y1, y2,..., y.... y y. y p1 p2 pm m

Szkic metody Hotellinga (2) Elementy macierzy X oraz Y są próbkami dwóch populacji: x i ~ N (, 1 1 x X j x n n p Rozkład jest normalny, a parametry tego rozkładu są nieznane. Można je jednak estymować: y n i 1 i x x x. 1 2 p y i ~ N (, 1 1 y Y g y m m p m i 1 i y y. 1 2 p 15 n 1 T S1 ( xi x)( xi x) S2 n 1 i 1 1 m 1 m i 1 ( y y)( y y) i i T

Szkic metody Hotellinga (3) Jeśli kowariancje S1 oraz S2 są homogeniczne *, to: V 1 S ( n 1) S ( m 1) n m 2 1 2 w przeciwnym przypadku: (wariancja wspólna) S1 S2 V 2 + (wariancje oddzielnie) n m Statystyka Hotellinga: 2 T 1 i T ( x y) V ( x y) i {1,2} Test Hotellinga można sprowadzić do testu F: * - test Bartletta Poziom istotności 16

Szkic metody Hotellinga (4) 17

Czy nowe dane są prawidłowe? Tak, bo: 18

Bazy danych SVC 2004 MCYT SigComp2011 4NSigComp2012 http://www.cse.ust.hk/svc2004 http://atvs.ii.uam.es/mcytscores.html http://www.iapr-tc11.org/mediawiki/index.php/datasets_list http://www.iapr-tc11.org/mediawiki/index.php/datasets_list SigWiComp2013 http://www.dfki.de/afha/2013/sigwicomp.html Baza własna http://biometrics.us.edu.pl 19 Bazy zawierają podpisy oryginalne i sfałszowane. W eksperymencie badano 1600 podpisów z podziałem na podpisy uczące i testowe

Testy praktyczne, (k-nn), Hotelling 20 Prawidłowe rozpoznanie

Testy praktyczne, PCA 21

Testy praktyczne, PCA 22

Testy praktyczne (k-nn), PCA 23 Nieprawidłowe rozpoznanie!

Jakie klasyfikatory stosować? Pytania dodatkowe. Dla nowego typu danych: czy jakość klasyfikacji jest podobna kiedy klasyfikator pracuje na: -danych zredukowanych, -danych nie zredukowanych, (to może być duży zbiór!) -danych surowych (pierwotne cechy, bez przetworzenia) Aby odpowiedzieć na te pytania trzeba przeprowadzić odpowiednie eksperymenty! Accuracy liczba poprawnie klasyfikowanych liczba wszystkich prób 24

Zastosowane klasyfikatory 25

Wyniki klasyfikacji 26

Wyniki klasyfikacji 27

Wyniki klasyfikacji Użyte narzędzia Matlab, R, KNIME 28

Wyniki klasyfikacji 29

Porównanie z innymi (przybliżona ocena) 30 1) D. Impedovo, G. Pirlo, Automatic signature verification: the state of the art. IEEE Trans. on Syst. Man. and Cybernetics. Part C: Applications and Reviews, vol. 38v no. 5, 2013, pp. 609-635.

PNN+PSO G( Jc, ) exp T [( J c) ( J c)] 2 2 1/2 31

Accuracy [%] Accuracy [%] Trening sieci 100 99.8 99.6 99.4 99.2 99 0 5 10 PSO epoch 15 20 5 4 3 2 1 0 0 5 10 15 20 PSO epoch 100 (2.21, 99.34) 90 80 32 70 60 50 0 1 2 3 4 5

Dziękuję za uwagę 33