Klasyfkatory lnowe Lnear classfers JERZY STEFANOWSKI Insttute of Computng Scences, Poznań Unversty of Technology UMSN slady wykładu Wersa 2010
Plan 1. Lnowe klasyfkatory 2. Klasyczne lnowa analza dyskrymnacyna 3. Podeśca probablstyczne 4. Inne zagadnena 5. Oprogramowane
Formalzaca problemu klasyfkac W przestrzen danych (ang. measurement space) Ω znaduą sę wektory danych x stanowące próbkę uczącą D, należące do dwóch lub węce K klas Klasyfkaca est dokonywana na podstawe funkc będące lnową kombnacą p cech parametrów Dążymy do sytuac {( ) p } N c x R, c { C1,... Ck} D = x, = 1 y = f ( x, w) y = f ( x, w) = /lub mnmalzac błędów klasyfkac y c c
Lnowa funkca separuąca (granczna) y Szukamy klasyfkatora pozwalaącego na podzał całe przestrzen na obszary odpowadaące klasom (dwe lub węce) oraz pozwalaącego ak nalepe klasyfkować nowe obekty x do klas Podeśce opera sę na znalezenu tzw. grancy decyzyne mędzy klasam f(x)=wt x x y = f f ( x ( x ) ) > T < T x x C C 1 2
Różne podeśca do budowy klasyfkatorów lnowych Podeśca generatywne (probablstyczne) Analza dyskrymnacyna (zwąz. z rozkładem normalnym) Wersa klasyfkac Bayesowske (dwumanowy rozkład) Podeśca wykorzystuące własnośc zboru uczącego Perceptron lnowy Rosenblata (teracyne poprawk wag) Metoda wektorów nośnych (max. margnesu klasyfkatora) Regresa logstyczna (EM estymaca)
Co est celem analzy dyskrymnacyne Podeśce statystyczne do problemów klasyfkowana obektów (term. ang. Dscrmnant Analyss) Orygnalne wprowadzona przez R.A.Fshera (1936) dla funkc lnowych (2 klasy), Metody probablstyczne B.Welch. Dostępna w welu programach, np. SAS, SPSS, R lub Statstca, Lczne zastosowana
Lnowa analza dyskrymnacyna Problem wprowadzony przez R.A.Fshera w 1936 dla welowymarowe przestrzen atrybutów (zmennych lczbowych) dyskrymnaca 2 klas Fsher orygnalne zaproponował poszukwane kerunku proekc, na którym można dobrze rozdzelć zrzutowane obe klasy Średne w klasach są dostateczne oddalone od sebe Obszary rozrzutu (rozproszena, zmennośc) obu klas ne nakładaą sę zbyt mocno.
Intuca proekc w Fsher s Lnear Dscrmnant [EST} From tranng set we want to fnd out a drecton where the separaton between the class means s hgh and overlap between the classes s small 8
Trochę uwag matem. o proekc Dysponuemy przykładam uczącym opsanym p -cecham x=[x 1,x 2,,x p ] T należącym do dwóch klas C 1 C 2 (odpowedno n 1 n 2 ) Wektory p-wymarowe x są zrzutowane na prostą (kerunek zwązany z parametram w). Algebraczne odpowada to zastąpenu ch skalarem z = w T x. Celem est tak dobór w aby na podstawe nowe zmenne z przykłady z obu klas były ak nalepe rozdzelone.
Założena co do danych Fsher dość ogranczone założena: wektor p wartośc oczekwanych E(x) oraz rozproszene charakteryzowane przez macerz kowaranc Σ=Cov(x)=E[(x-E(x)) [(x-e(x)) T ] Estymatory 1 n x = n = 1 x S = 1 n 1 n T = ( x x) ( x x) 1 Waranca po rzutowanu x na prosta o wektorze kerunkowym w Var ( w T x) = w T Σw
Sformułowane problemu Fsher LDA Cel Maksymalzu odległość zrzutowanych średnch klas Mnmalzu warance wewnątrz klasową Odległość mędzy rzutam średnch T T 2 1 w 2) ( w x x Fsher założył, że obe klasy maą taką samą macerz kowaranc S=S 1 +S 2. Dlatego wskaźnk zmennośc wewnątrzgrupowe (wspólne dla obu klas) zdefnowany est ako: 1 2 SW = k n = 2 ( n 1 k 1) S k Pamęta, że po rzutowanu mamy w T S W w
Co optymalzować? Czy różnca mędzy rzutam średnch wystarcza?
Sformułowane problemu Fsheran LDA W celu maksymalzac odległośc rzutów średnch klas mnmalzac waranc wewnątrzklasowe należy poszukwać wektora w który maksymalzue następuące wyrażene: T T J ( w) = ( w x w x ) 2 Po znalezenu kerunku maksymalzuące J(w) można stosować zasadę klasyfkac na rzutowane proste. Przydzel x do klasy dla które T T T T w ~ x w~ x < w~ x w~ x Można wykazać, że ten wektor est proporconalny w~ S 1 W w 1 T ( x S W 1 w x 2 2 ) k
Uwag o konstrukc wskaźnka Zwększane J(w) ma gwarantować dobrą separace klas ch rzutów
Hperpłaszczyzna separuąca Wyraz wolny to środek odcnka mędzy rzutam średnch 1 T T 1 T 1 m = ( w x1 w x2) = ( x1 x2) SW ( x1 + x2) 2 2 Stąd lnowa funkca dyskrymnacyna Fshera y = 1 1 x x2) T S W [ x ( x1 + 2 ( 1 x2 )] Węce nformac, np. J.Koronack, J.Cwk: Statystyczne systemy uczące sę M.Krzyśko et al.: Systemy uczące sę
Przypadek welu klas (K > 2) Rozwązane Fshera uogólnono dla wększe lczby K klas (C.Rao 1948) Średna w próbe uczące = K 1 Macerz zmennośc wewnątrzklasowe S 1 W = x n K ) K ( x x )( x = 1 C Macerz zmennośc mędzyklasowe 1 n x = 1 K S B = n ( x x)( x x) 1 K 1 = Poszuku wektora w maksymalzuącego x T T J ( w) = w w T T S S B W w w
O autorze Ronald A. Fsher, 1890-1962 The elaborate mechansm bult on the theory of nfntely large samples s not accurate enough for smple laboratory data. Only by systematcally tacklng small sample problems on ther merts does t seem possble to apply accurate tests to practcal data. 1936
Podeśca opsowe probablstyczne Stochastyczne / probablstyczne Zbór obserwac est próbą losową pobraną z k podpopulac π1,π2,,πk; celem est tak podzał aby podpopulace odpowadały właścwym k klasom C1,C2,,Ck Opsowe Ne rozważa sę losowośc próby, zakłada sę że posadany zbór zawera przykłady z k klas C1,C2,,Ck ; zadane polega na poprawnym podzale zboru na klasy
Sformułowane probablstyczne z Tw. Bayesa Obekty x R p welowymarowy rozkład prawdopodobeństwa funkca gęstośc f(x C ) Każda klasa C opsana prawdopodobeństwa apror p Bayesowska reguła klasyfkowana Przydzel nowy obekt x do te klasy C dla które prawdopodobeństwo a posteror est nawększe: = = K C x f p C x f p x C P 1 ) ( ) ( ) ( ) ( ) ( ) ( ) ( x P C P C x P x C P =
Rozwązane probablstyczne reguły klasyfkac Załóżmy, że rozkłady wektora x w poszczególnych klasach są p-wymarowym rozkładam normalnym: 0,5 p 0,5 [ T 1 ] 0,5( x µ ) Σ ( x ) f ( x C ) = (2π ) Σ exp µ Wykorzystuąc logarytmczne przekształcene twerdzena Bayesa, obekt x est przydzelany do te klasy C dla które funkca dyskrymnuąca osąga maksmum: δ ( x) = 0,5( x µ ) T Σ 1 ( x µ ) 0,5 log Σ + log p Jest to kwadratowa funkca dyskrymnuąca (QDA)
Lnowa funkca Założene równośc macerzy kowaranc Σ δ ( x) = x T Σ 1 µ 0,5µ T Σ 1 µ + log p Dla dwóch klas przekształcene log-rato Węce w Krzyśko lub Haste et al. Elements of Statstcal Learnng
Porównane rozwązań LDA QDA Wybrany zbór danych (za Haste et al. Elements of Statstcal Learnng)
Wymog stosowana model AD Zmenne wyrażone na skalach lczbowych Specalne podeśca dla zmennych akoścowych (bnaryzaca, model lokacyny, ) Zmenne maą welowymarowy rozkład normalnych Macerze kowaranc dla poszczególnych klas są równe eśl ne, to bardze złożone funkce kwadratowe dyskrymnuące. Problem doboru właścwych zmennych.
Selekca zmennych W funkc dyskrymnuące uwzględna zmenne o dobrych właścwoścach dyskrymnuących Przykład kryterum akośc dyskrymnac: λ = S W S w + S B gdze macerz zmennośc wewnątrzklasowe S 1 W = x n k ) k ( x x )( x = 1 C a macerz zmennośc mędzyklasowe 1 k S B = n ( x x)( x x) 1 k 1 = T T
Inne zagadnena Poęce zmennych kanoncznych kerunk które dobrze separuą k klasy (także ch wzualzaca) Dyskrymnaca oparta na regres lnowe logstyczne Uogólnene model lnowych elastyczna dyskrymnaca (FDA) Ad a metoda wektorów nośnych (SVM) Powązane z metodą PCA Odnesena do Analzy Korespondenc
Typowe obszary zastosowań Analza danych fnansowych (zwłaszcza bank, poltyka kredytowa, predykca bankructw) Badana marketngowe Także dentyfkaca czynnków różncuących klasy klentów Badana danych medycznych, bologcznych lub nnych powązanych nauk Rozpoznawana twarzy na obrazach
Implementace np. Statstca
Węce Przeczyta lteraturę T.Haste, R.Tbshran, J.Fredman: The Elements of Statstcal Learnng. Sprnger (zwłaszcza rozdz. 4) poszuka wers elektronczne pdf J.Koronack, J.Ćwk: Statystyczne systemy uczące sę (rozdz. 1 oraz o FDA w rozdz. 6) M.Krzyśko, W.Wołyńsk, T.Góreck,M.Skorzybut: Systemy uczące sę. + wcześnesze prace M.Krzyśko o analze dyskrymnacyne Angelska Wkpeda Lnear dscrmnant analyss McLachlan, G. J. (2004). Dscrmnant Analyss and Statstcal Pattern Recognton. Wley. Duda, R. O.; Hart, P. E.; Stork, D. H. (2000). Pattern Classfcaton (2nd ed.). Wley