Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1
1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną postać δ(x) = w T x + w 0 = D i=1 w i x i + w 0. (1) Do liniowych dyskryminatorów, czyli klasyfikatorów opartych o liniowe funkcje dyskryminacyjne, zaliczamy FLD - liniowy dyskryminator Fishera, LDA - liniową analizę dyskryminacyjną. 2
Rysunek 1. Prosta rozdzielająca (na czerwono) jest prostopadła do wektora w (na zielono) wyznaczającego kierunek rzutu wektora x. Źródło: [2] 3
a) b) Rysunek 2. (a) Rzut na prostą łączącą średnie w klasach. (b) Rzut na prostą o kierunku wyznaczonym przez kryterium Fishera poprawia separację klas. Źródło: [2] 4
2. Liniowy dyskryminator Fishera (FLD) Liniowy dyskryminator Fishera [1] (ang. Fisher s Linear Discriminant, FLD) zakłada, że µ k to średnie, a Σ k to macierze kowariancji w klasach k = 1, 2. Dokonujemy liniowej transformacji, dzięki której uzyskamy najlepsze rozdzielenie klas. W celu separacji klas rzutujemy wektory cech x na hiperpłaszczyznę wyznaczoną przez kierunek w. Aby to osiągnąć maksymalizujemy klasyczne kryterium Fishera [5] F(w) = wt S m w w T S w w, (2) gdzie S m to macierz rozproszeń międzyklasowych S m = (µ 1 µ 2 )(µ 1 µ 2 ) T, (3) 5
a S w to macierz rozproszeń wewnątrzklasowych S w = p 1 Σ 1 + p 2 Σ 2. (4) Rysunek 3. Rozrzut międzyklasowy oraz wewnątrzklasowy. Źródło: opracowanie własne 6
Wyliczamy pochodną kryterium F i przyrównujemy do zera F(w) = 0. (5) w Optymalny kierunek dyskryminacyjny to w = S 1 w (µ 1 µ 2 ). (6) Liniowy dyskryminator Fishera ma postać 1, gdy w T x < w gr, Ψ FLD (x) = 2, w przeciwnym wypadku, (7) 7
co po podstawieniu (6) i uwzględnieniu, że S w jest macierzą symetryczną, daje 1, gdy (µ 1 µ 2 ) T S 1 w x < w gr, Ψ FLD (x) = 2, w przeciwnym wypadku. (8) Próg w gr wyznaczamy minimalizując średnie prawdopodobieństwo błędnej klasyfikacji - jest to punkt graniczny (por. rys. 1 z wykładu nr 1). Niech f 1 i f 2 oznaczają jednowymiarowe funkcje gęstości, które są rzutami D-wymiarowych gęstości f 1 i f 2 w klasach na kierunek w (por. histogramy na rys. (b)). Zrzutowane rozkłady w klasach k = 1, 2 charakteryzują się średnimi m k = w T µ k (9) 8
oraz wariancjami σ 2 k = wt Σ k w. (10) Szukamy w gr, które spełnia p 1 f 1 (w gr ) = p 2 f 2 (w gr ). (11) Ogólnie można zapisać, że FLD klasyfikuje obraz do klasy j M, Ψ FLD (x) = j, gdy w T x w T µ j < w T x w T µ k, (12) dla każdej klasy k M różnej od j. 9
3. Liniowa analiza dyskryminacyjna (LDA) Liniowa analiza dyskryminacyjna [2] (ang. Linear Discriminant Analysis, LDA) zakłada, że funkcje gęstości prawdopodobieństwa w klasach k = 1, 2 mają D-wymiarowe rozkłady normalne N (µ k, Σ) o równych macierzach kowariancji w klasach. Można więc powiedzieć, że LDA jest równoważne FLD przy dodatkowych założeniach, że rozkłady w klasach są gaussowskie i macierze kowariancji w klasach są równe Σ = Σ 1 = Σ 2. Liniowa funkcja dyskryminacyjna ma ponownie postać δ(x) = w T x + w 0 = 10 D i=1 w i x i + w 0, (13)
a klasyfikator 1, gdy w T x < w gr, Ψ LDA (x) = 2, w przeciwnym wypadku, (14) gdzie optymalny kierunek dyskryminacyjny to w = Σ 1 (µ 1 µ 2 ). (15) Z warunku p 1 f 1 (w gr ) = p 2 f 2 (w gr ) (16) wyznaczymy w gr. 11
W przypadku dwóch klas rozpatrujemy rozkłady N (µ 1, Σ 1 ) oraz N (µ 2, Σ 2 ), co po uwzględnieniu (9) i (10) prowadzi do warunku 1 { p 1 exp (w gr m 1 ) 2 / ( 2σ 2 ) } 1 { 1 = p 2 exp (w gr m 2 ) 2 / ( 2σ 2 ) } 2. (17) σ 1 2π σ 1 2π Po przekształceniu otrzymujemy równanie kwadratowe (σ 2 1 σ 2 2 )w 2 gr + (σ 2 1 m 2 σ 2 2 m 1 )w gr + m 2 1σ 2 2 m 2 2σ 2 1 2σ 2 1 σ 2 2 ln p 1σ 1 p 2 σ 2 = 0. (18) Przypadki szczególne: (a) Jeżeli σ = σ 1 = σ 2, to w gr = m 1 + m 2 2 + σ 2 m 2 m 1 ln p 1 p 2. (19) 12
(b) Jeżeli σ = σ 1 = σ 2 i p 1 = p 2, to w gr = m 1 + m 2. (20) 2 (c) Jeżeli σ 1 σ 2, to istnieją dwa pierwiastki równania w gr 1,2 = σ2 2m 1 σ1 2m 2 ± σ 1 σ 2 (m 2 m 1 ) 2 + 2 ( σ2 2 σ 1 2 ) ln p 1 σ 1 p 2 σ 2 σ2 2 σ 1 2. (21) (d) Jeżeli σ 1 σ 2, i m = m 1 = m 2, to w gr 1,2 = m ± σ 1 σ 2 2 σ 2 2 σ 2 1 ln p 1σ 1 p 2 σ 2. (22) 13
Uwaga 1. Czasami w literaturze reguła FLD i LDA są ze sobą utożsamiane. Uwaga 2. Z równości Σ = Σ 1 = Σ 2 wynika σ = σ 1 = σ 2 = w T Σw, dlatego przypadki (a) i (b) odnoszą się do metody LDA. Uwaga 3. Natomiast przypadki (c) i (d) zachodzą dla σ 1 σ 2, co może zajść jedynie, gdy Σ 1 Σ 2. Dopuszczenie różnych macierzy kowariancji przy założeniu normalności rozkładów w klasach nazywane jest metodą QDA. 14
4. Kwadratowa analiza dyskryminacyjna (QDA) W przypadku, gdy pominiemy założenie o równości macierzy kowariancji w gaussowskich rozkładach N (µ 1, Σ 1 ) oraz N (µ 2, Σ 2 ), otrzymamy klasyfikator zwany kwadratową analizą dyskryminacyjną [3] (ang. Quadratic Discriminant Analysis, QDA). Warunek p 1 f 1 (w gr ) = p 2 f 2 (w gr ) (23) pozwala wyznaczyć w gr - patrz wzory (21) i (22). Forma reguły klasyfikacyjnej pozostaje bez zmian, tzn. 1, gdy w T x < w gr, Ψ QDA (x) = 2, w przeciwnym wypadku. 15 (24)
W przypadku punktów na płaszczyźnie krzywa rozdzielająca klasy przyjmuje postać okręgu, elipsy, paraboli lub hiperboli. 5. Uogólnione liniowe funkcje dyskryminacyjne Uogólnione liniowe funkcje dyskryminacyjne [4] (ang. Generalised Linear Discriminant Functions, GLDFs), określane także jako maszyny φ, są to funkcje dyskryminacyjne postaci δ(x) = w T φ + w 0 (25) gdzie φ = (φ 1 (x), φ 2 (x),..., φ d (x)) T jest funkcja wektorową x. 16
Funkcja dyskryminująca liniowa Matematyczna forma φ i (x) φ i (x) = x i kwadratowa φ i (x) = x l 1 k1 x l 2 k2, gdzie l 1,l 2 = 0 lub 1 wielomianowa n-tego rzędu φ i (x) = x l 1 k1...x l n kn, gdzie l 1,...,l n = 0 lub 1 radialna funkcja bazowa φ i (x) = φ( x v i ) perceptron wielowarstwowy φ i (x) = f (x T v i + v i0 ), gdzie f to funkcja logistyczna f (z) = 1/(1 + exp( z)) 17
7. Przykłady i dyskusja założeń a) b) Rysunek 4. Rozkłady brzegowe: (a) dla danych Fisheriris, (b) rozkłady jednostajne. 18 Źródło: opracowanie własne
a) b) Rysunek 5. (a) Prosta rozdzielająca klasy za pomocą LDA. (b) Krzywe rozdzielające klasy za pomocą QDA. Źródło: opracowanie własne 19
a) b) Rysunek 6. (a) Prosta rozdzielająca klasy za pomocą LDA. (b) Krzywe rozdzielające klasy za pomocą QDA. Źródło: opracowanie własne 20
a) b) Rysunek 7. (a) Prosta rozdzielająca klasy za pomocą LDA. (b) Krzywe rozdzielające klasy za pomocą QDA. Źródło: opracowanie własne 21
Literatura [1] R.A. Fisher, The Use of Multiple Measurements in Taxonomic Problems, Annals of Eugenics 7 (2): 179 188, (1936) [2] C.M. Bishop, Pattern Recognition and Machine Learning, Springer Series: Information Science and Statistics (2006) [3] J. Koronacki, J. Ćwik, Statystyczne systemy uczace się, WNT, Warszawa (2005) [4] A.R. Webb, K.D. Copsey, Statistical Pattern Recognition, 3rd ed., Wiley, (2011) [5] W. Malina, M. Smiatacz, Rozpoznawanie obrazów, Exit, Warszawa, (2011) 22