5. Analiza dyskryminacyjna: FLD, LDA, QDA

Podobne dokumenty
7. Maszyny wektorów podpierajacych SVMs

10. Redukcja wymiaru - metoda PCA

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

2. Empiryczna wersja klasyfikatora bayesowskiego

Metody systemowe i decyzyjne w informatyce

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Klasyfikacja LDA + walidacja

1 Klasyfikator bayesowski

Jądrowe klasyfikatory liniowe

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Procesy stochastyczne

Procesy stochastyczne

Estymacja parametrów w modelu normalnym

Rozpoznawanie obrazów

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Metody systemowe i decyzyjne w informatyce

Rachunek prawdopodobieństwa i statystyka

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Wykład 12 i 13 Macierz w postaci kanonicznej Jordana , 0 A 2

Metody numeryczne. Sformułowanie zagadnienia interpolacji

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Rozpoznawanie obrazów

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

Wykład 12 Testowanie hipotez dla współczynnika korelacji

POD- I NADOKREŚLONE UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Wykład 16. P 2 (x 2, y 2 ) P 1 (x 1, y 1 ) OX. Odległość tych punktów wyraża się wzorem: P 1 P 2 = (x 1 x 2 ) 2 + (y 1 y 2 ) 2

Elementy statystyki wielowymiarowej

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Zmienne losowe ciągłe i ich rozkłady

3. FUNKCJA LINIOWA. gdzie ; ół,.

Ważne rozkłady i twierdzenia c.d.

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Zaawansowane metody numeryczne

Wektory i wartości własne

Prawdopodobieństwo i statystyka

Komputerowa analiza danych doświadczalnych

Metody systemowe i decyzyjne w informatyce

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Analiza danych. TEMATYKA PRZEDMIOTU

Metody szacowania zdolności kredytowej klientów indywidualnych. Mateusz Kobos

Wykład 3 Jednowymiarowe zmienne losowe

R n jako przestrzeń afiniczna

Modele zapisane w przestrzeni stanów

Wykład 7 Testowanie zgodności z rozkładem normalnym

Ekonometria Analiza dyskryminacyjna

Testowanie hipotez statystycznych.

Zagadnienia brzegowe dla równań eliptycznych

9. Praktyczna ocena jakości klasyfikacji

Wektor, prosta, płaszczyzna; liniowa niezależność, rząd macierzy

Komputerowa analiza danych doświadczalnych

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Entropia Renyi ego, estymacja gęstości i klasyfikacja

Programowanie liniowe

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2,

Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Geometria w R 3. Iloczyn skalarny wektorów

Metody systemowe i decyzyjne w informatyce

Zmienne losowe ciągłe i ich rozkłady

UCZENIE MASZYNOWE III - SVM. mgr inż. Adam Kupryjanow

Metoda największej wiarygodności

Metoda największej wiarogodności

Weryfikacja hipotez statystycznych

Przestrzeń unitarna. Jacek Kłopotowski. 23 października Katedra Matematyki i Ekonomii Matematycznej SGH

Prawdopodobieństwo i statystyka

Statystyka i eksploracja danych

Statystyczna Eksploracja Danych

Podstawowe modele probabilistyczne

Rozdział 2. Krzywe stożkowe. 2.1 Elipsa. Krzywe stożkowe są zadane ogólnym równaniem kwadratowym na płaszczyźnie

Kinematyka: opis ruchu

Metody sztucznej inteligencji Zadanie 1: Perceptron Rosenblatt a w wersji nieliniowej

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

- prędkość masy wynikająca z innych procesów, np. adwekcji, naprężeń itd.

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

WYKŁAD 2. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

Popularne klasyfikatory w pakietach komputerowych

Diagonalizacja macierzy i jej zastosowania

Aby przygotować się do kolokwiów oraz do egzaminów należy ponownie przeanalizować zadania

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Komputerowa Analiza Danych Doświadczalnych

Metody systemowe i decyzyjne w informatyce

Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach

Wektory i wartości własne

KADD Minimalizacja funkcji

Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju

cx cx 1,cx 2,cx 3,...,cx n. Przykład 4, 5

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Rozkłady wielu zmiennych

Geometria analityczna - przykłady

WYKŁADY Z MATEMATYKI DLA STUDENTÓW UCZELNI EKONOMICZNYCH

Katedra Fizyki Ciała Stałego Uniwersytetu Łódzkiego. Ćwiczenie 2 Badanie funkcji korelacji w przebiegach elektrycznych.

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

1 Relacje i odwzorowania

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Transkrypt:

Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1

1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną postać δ(x) = w T x + w 0 = D i=1 w i x i + w 0. (1) Do liniowych dyskryminatorów, czyli klasyfikatorów opartych o liniowe funkcje dyskryminacyjne, zaliczamy FLD - liniowy dyskryminator Fishera, LDA - liniową analizę dyskryminacyjną. 2

Rysunek 1. Prosta rozdzielająca (na czerwono) jest prostopadła do wektora w (na zielono) wyznaczającego kierunek rzutu wektora x. Źródło: [2] 3

a) b) Rysunek 2. (a) Rzut na prostą łączącą średnie w klasach. (b) Rzut na prostą o kierunku wyznaczonym przez kryterium Fishera poprawia separację klas. Źródło: [2] 4

2. Liniowy dyskryminator Fishera (FLD) Liniowy dyskryminator Fishera [1] (ang. Fisher s Linear Discriminant, FLD) zakłada, że µ k to średnie, a Σ k to macierze kowariancji w klasach k = 1, 2. Dokonujemy liniowej transformacji, dzięki której uzyskamy najlepsze rozdzielenie klas. W celu separacji klas rzutujemy wektory cech x na hiperpłaszczyznę wyznaczoną przez kierunek w. Aby to osiągnąć maksymalizujemy klasyczne kryterium Fishera [5] F(w) = wt S m w w T S w w, (2) gdzie S m to macierz rozproszeń międzyklasowych S m = (µ 1 µ 2 )(µ 1 µ 2 ) T, (3) 5

a S w to macierz rozproszeń wewnątrzklasowych S w = p 1 Σ 1 + p 2 Σ 2. (4) Rysunek 3. Rozrzut międzyklasowy oraz wewnątrzklasowy. Źródło: opracowanie własne 6

Wyliczamy pochodną kryterium F i przyrównujemy do zera F(w) = 0. (5) w Optymalny kierunek dyskryminacyjny to w = S 1 w (µ 1 µ 2 ). (6) Liniowy dyskryminator Fishera ma postać 1, gdy w T x < w gr, Ψ FLD (x) = 2, w przeciwnym wypadku, (7) 7

co po podstawieniu (6) i uwzględnieniu, że S w jest macierzą symetryczną, daje 1, gdy (µ 1 µ 2 ) T S 1 w x < w gr, Ψ FLD (x) = 2, w przeciwnym wypadku. (8) Próg w gr wyznaczamy minimalizując średnie prawdopodobieństwo błędnej klasyfikacji - jest to punkt graniczny (por. rys. 1 z wykładu nr 1). Niech f 1 i f 2 oznaczają jednowymiarowe funkcje gęstości, które są rzutami D-wymiarowych gęstości f 1 i f 2 w klasach na kierunek w (por. histogramy na rys. (b)). Zrzutowane rozkłady w klasach k = 1, 2 charakteryzują się średnimi m k = w T µ k (9) 8

oraz wariancjami σ 2 k = wt Σ k w. (10) Szukamy w gr, które spełnia p 1 f 1 (w gr ) = p 2 f 2 (w gr ). (11) Ogólnie można zapisać, że FLD klasyfikuje obraz do klasy j M, Ψ FLD (x) = j, gdy w T x w T µ j < w T x w T µ k, (12) dla każdej klasy k M różnej od j. 9

3. Liniowa analiza dyskryminacyjna (LDA) Liniowa analiza dyskryminacyjna [2] (ang. Linear Discriminant Analysis, LDA) zakłada, że funkcje gęstości prawdopodobieństwa w klasach k = 1, 2 mają D-wymiarowe rozkłady normalne N (µ k, Σ) o równych macierzach kowariancji w klasach. Można więc powiedzieć, że LDA jest równoważne FLD przy dodatkowych założeniach, że rozkłady w klasach są gaussowskie i macierze kowariancji w klasach są równe Σ = Σ 1 = Σ 2. Liniowa funkcja dyskryminacyjna ma ponownie postać δ(x) = w T x + w 0 = 10 D i=1 w i x i + w 0, (13)

a klasyfikator 1, gdy w T x < w gr, Ψ LDA (x) = 2, w przeciwnym wypadku, (14) gdzie optymalny kierunek dyskryminacyjny to w = Σ 1 (µ 1 µ 2 ). (15) Z warunku p 1 f 1 (w gr ) = p 2 f 2 (w gr ) (16) wyznaczymy w gr. 11

W przypadku dwóch klas rozpatrujemy rozkłady N (µ 1, Σ 1 ) oraz N (µ 2, Σ 2 ), co po uwzględnieniu (9) i (10) prowadzi do warunku 1 { p 1 exp (w gr m 1 ) 2 / ( 2σ 2 ) } 1 { 1 = p 2 exp (w gr m 2 ) 2 / ( 2σ 2 ) } 2. (17) σ 1 2π σ 1 2π Po przekształceniu otrzymujemy równanie kwadratowe (σ 2 1 σ 2 2 )w 2 gr + (σ 2 1 m 2 σ 2 2 m 1 )w gr + m 2 1σ 2 2 m 2 2σ 2 1 2σ 2 1 σ 2 2 ln p 1σ 1 p 2 σ 2 = 0. (18) Przypadki szczególne: (a) Jeżeli σ = σ 1 = σ 2, to w gr = m 1 + m 2 2 + σ 2 m 2 m 1 ln p 1 p 2. (19) 12

(b) Jeżeli σ = σ 1 = σ 2 i p 1 = p 2, to w gr = m 1 + m 2. (20) 2 (c) Jeżeli σ 1 σ 2, to istnieją dwa pierwiastki równania w gr 1,2 = σ2 2m 1 σ1 2m 2 ± σ 1 σ 2 (m 2 m 1 ) 2 + 2 ( σ2 2 σ 1 2 ) ln p 1 σ 1 p 2 σ 2 σ2 2 σ 1 2. (21) (d) Jeżeli σ 1 σ 2, i m = m 1 = m 2, to w gr 1,2 = m ± σ 1 σ 2 2 σ 2 2 σ 2 1 ln p 1σ 1 p 2 σ 2. (22) 13

Uwaga 1. Czasami w literaturze reguła FLD i LDA są ze sobą utożsamiane. Uwaga 2. Z równości Σ = Σ 1 = Σ 2 wynika σ = σ 1 = σ 2 = w T Σw, dlatego przypadki (a) i (b) odnoszą się do metody LDA. Uwaga 3. Natomiast przypadki (c) i (d) zachodzą dla σ 1 σ 2, co może zajść jedynie, gdy Σ 1 Σ 2. Dopuszczenie różnych macierzy kowariancji przy założeniu normalności rozkładów w klasach nazywane jest metodą QDA. 14

4. Kwadratowa analiza dyskryminacyjna (QDA) W przypadku, gdy pominiemy założenie o równości macierzy kowariancji w gaussowskich rozkładach N (µ 1, Σ 1 ) oraz N (µ 2, Σ 2 ), otrzymamy klasyfikator zwany kwadratową analizą dyskryminacyjną [3] (ang. Quadratic Discriminant Analysis, QDA). Warunek p 1 f 1 (w gr ) = p 2 f 2 (w gr ) (23) pozwala wyznaczyć w gr - patrz wzory (21) i (22). Forma reguły klasyfikacyjnej pozostaje bez zmian, tzn. 1, gdy w T x < w gr, Ψ QDA (x) = 2, w przeciwnym wypadku. 15 (24)

W przypadku punktów na płaszczyźnie krzywa rozdzielająca klasy przyjmuje postać okręgu, elipsy, paraboli lub hiperboli. 5. Uogólnione liniowe funkcje dyskryminacyjne Uogólnione liniowe funkcje dyskryminacyjne [4] (ang. Generalised Linear Discriminant Functions, GLDFs), określane także jako maszyny φ, są to funkcje dyskryminacyjne postaci δ(x) = w T φ + w 0 (25) gdzie φ = (φ 1 (x), φ 2 (x),..., φ d (x)) T jest funkcja wektorową x. 16

Funkcja dyskryminująca liniowa Matematyczna forma φ i (x) φ i (x) = x i kwadratowa φ i (x) = x l 1 k1 x l 2 k2, gdzie l 1,l 2 = 0 lub 1 wielomianowa n-tego rzędu φ i (x) = x l 1 k1...x l n kn, gdzie l 1,...,l n = 0 lub 1 radialna funkcja bazowa φ i (x) = φ( x v i ) perceptron wielowarstwowy φ i (x) = f (x T v i + v i0 ), gdzie f to funkcja logistyczna f (z) = 1/(1 + exp( z)) 17

7. Przykłady i dyskusja założeń a) b) Rysunek 4. Rozkłady brzegowe: (a) dla danych Fisheriris, (b) rozkłady jednostajne. 18 Źródło: opracowanie własne

a) b) Rysunek 5. (a) Prosta rozdzielająca klasy za pomocą LDA. (b) Krzywe rozdzielające klasy za pomocą QDA. Źródło: opracowanie własne 19

a) b) Rysunek 6. (a) Prosta rozdzielająca klasy za pomocą LDA. (b) Krzywe rozdzielające klasy za pomocą QDA. Źródło: opracowanie własne 20

a) b) Rysunek 7. (a) Prosta rozdzielająca klasy za pomocą LDA. (b) Krzywe rozdzielające klasy za pomocą QDA. Źródło: opracowanie własne 21

Literatura [1] R.A. Fisher, The Use of Multiple Measurements in Taxonomic Problems, Annals of Eugenics 7 (2): 179 188, (1936) [2] C.M. Bishop, Pattern Recognition and Machine Learning, Springer Series: Information Science and Statistics (2006) [3] J. Koronacki, J. Ćwik, Statystyczne systemy uczace się, WNT, Warszawa (2005) [4] A.R. Webb, K.D. Copsey, Statistical Pattern Recognition, 3rd ed., Wiley, (2011) [5] W. Malina, M. Smiatacz, Rozpoznawanie obrazów, Exit, Warszawa, (2011) 22