Jądrowe klasyfikatory liniowe Waldemar Wołyński Wydział Matematyki i Informatyki UAM Poznań Wisła, 9 grudnia 2009 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 1 / 19
Zagadnienie klasyfikacyjne Binarnym zagadnieniem klasyfikacyjnym nazywamy problem przyporządkowania obiektu opisanego przez p-wymiarowy wektor obserwowanych cech X = (X 1, X 2,..., X p ) do jednej z dwóch populacji (grup,klas) G 0, G 1. O populacjach zakładamy, że mają p-wymiarowe rozkłady prawdopodobieństwa z nieznanymi wektorami wartości oczekiwanych µ 0 i µ 1 oraz nieznanymi macierzami kowariancji Σ 0 i Σ 1. Rozwiązanie zagadnienia klasyfikacyjnego polega na podaniu reguły klasyfikacyjnej (klasyfikatora) pozwalającego na przyporządkowanie obiektu do jednej z klas: d : X {0, 1}. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 2 / 19
Zagadnienie klasyfikacyjne Poszukujemy klasyfikatora liniowego postaci d(x) = I (a x > m) = I (< a, x >> m), spełniającego warunek a = arg max w R p J(w). Klasyfikator wyznaczamy przy użyciu n-elementowej próby uczącej L n, przy czym L n = L 0 L 1 = {x 1, x 2,..., x n }, gdzie L 0 = {x 0 1,..., x 0 n 0 }, L 1 = {x 1 1,..., x 1 n 1 }. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 3 / 19
Zagadnienie klasyfikacyjne Jako estymatory nieznanych parametrów przyjmujemy Ponadto, niech ˆΣ i = S i = 1 n i 1 ˆµ i = x i = 1 n i x L i x, i = 0, 1, x L i (x x i )(x x i ), i = 0, 1. S B = ( x 1 x 0 )( x 1 x 0 ), S W = 1 n 2 [(n 0 1)S 0 + (n 1 1)S 1 ]. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 4 / 19
Przypadek Σ 0 = Σ 1 (Fisher,1936) Jako miarę odległości pomiędzy grupami G 0 i G 1 przyjmujemy J(w) = w S B w w S W w. W wyniku maksymalizacji miary J(w) otrzymujemy klasyfikator liniowy, dla którego a = S 1 W ( x 1 x 0 ), m = 1 2 ( x 1 x 0 ) S 1 W ( x 1 + x 0 ). Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 5 / 19
Przypadek Σ 0 Σ 1 (Anderson i Bahadur,1962) Twierdzenie Przy dodatkowym założeniu normalności rozkładów populacji, dla dowolnego θ takiego, że macierz Σ 1 + θσ 0 jest dodatnio określona, klasyfikator liniowy, dla którego a = (Σ 1 + θσ 0 ) 1 (µ 1 µ 0 ), m = a µ 0 + θa Σ 0 a jest dopuszczalny Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 6 / 19
Przypadek Σ 0 Σ 1 Kryteria maksymalizujące odległości probabilistyczne (Schumway i Unger, 1974 oraz Krzyśko i Wołyński, 1997) odległość Chernoffa: J 1 (w) = 1 w S B w s(1 s) 2 (1 s)w S 1 w + sw S 0 w + 1 2 ln[(1 s)w S 1 w + sw S 0 w] 1 2 (1 s) ln(w S 1 w) 1 2 s ln(w S 0 w), s [0, 1]. odległość Morisity: J 2 (w) = 1 w S B w 2 w (S 1 + S 0 )w + 1 2 ln[w (S 1 + S 0 )w] + ln[(w S 1 w) 1 2 + (w S 0 w) 1 2 ] 1 2 ln[(w S 1 w)(w S 0 w)] ln(2 2). Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 7 / 19
Przypadek Σ 0 Σ 1 Wszystkie rozważane miary odległości pomiędzy grupami J(w) są funkcjami wektora w jedynie poprzez wyrażenia: w S B w, w S i w, i = 0, 1. Zauważmy, że oraz w S B w = w S i w = 1 n i 1 ( 1 n 1 n 1 k=1 < w, x 1 k > 1 n 0 n 0 k=1 < w, x 0 k > ) 2 ( n i < w, x i k > 1 n i 2 < w, x i k >), i = 0, 1. n i k=1 k=1 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 8 / 19
Przykład µ 0 = [ 0 0 ], Σ 0 = [ 1 0 0 1 ], µ 1 = [ 6 0 ], Σ 1 = [ 9 0 0 4 ]. LDA: e R = 0.074, e CV = 0.086. θ LDA: e R = 0.037 dla θ = 3.83, e CV = 0.041. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 9 / 19
Klasyfikatory jądrowe Niech Zatem oraz gdzie x Φ(x) = x H. L H n = L H 0 L H 1 = {Φ(x 1 ), Φ(x 2 ),..., Φ(x n )} d(x) = I (< a, Φ(x) >> m), a = arg max J(w). w Lin(L H n ) Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 10 / 19
Kernel trick Mamy a = Zatem n α j Φ(x j ). j=1 n n < a, Φ(x) > = < α j Φ(x j ), Φ(x) >= α j < Φ(x j ), Φ(x) > j=1 j=1 n = α j K(x j, x), j=1 gdzie K jest jądrem. Typy jąder: wielomianowe K(x, y) = (1 + x y) c, c > 0, normalne K(x, y) = exp( x y 2 /c), c > 0. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 11 / 19
Własności Niech x H i = 1 Φ(x), S H i = 1 (Φ(x) x H i )(Φ(x) x H i ), i = 0, 1. n i n x L i 1 i x L i Wtedy gdzie oraz gdzie w S H B w = α Mα, M = (M 1 M 0 )(M 1 M 0 ), (M i ) j = 1 n i K(x j, x i n k) i w S H i w = α N i α, k=1 N i = 1 n i 1 K i(i 1 n i 11 )K i, (K i ) kl = K(x k, x i l), i = 0, 1. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 12 / 19
Przypadek Σ 0 = Σ 1 (Mika, Rätsch, Weston, Schölkopf, Müller,1999) Niech Wtedy J(w) = w Mw w Nw, N = 1 n 2 [(n 0 1)N 0 + (n 1 1)N 1 ]. a = N 1 (M 1 M 0 ), m = 1 2 (M 1 M 0 ) N 1 (M 1 + M 0 ). Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 13 / 19
Przypadek Σ 0 Σ 1 Dla odległości Chernoffa: J 1 (w) = 1 w Mw s(1 s) 2 (1 s)w N 1 w + sw N 0 w + 1 2 ln[(1 s)w N 1 w + sw N 0 w] 1 2 (1 s) ln(w N 1 w) 1 2 s ln(w N 0 w), s [0, 1]. Otrzymujemy a = (N 1 + θn 0 ) 1 (M 1 M 0 ), m = a M 0 + θa N 0 a. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 14 / 19
Przykład c.d. µ 0 = [ 0 0 ], Σ 0 = [ 1 0 0 1 ], µ 1 = [ 6 0 ], Σ 1 = [ 9 0 0 4 ]. KLDA: e R = 0.027, e CV = 0.058. θ KLDA: e R = 0.023 dla θ = 5.64, e CV = 0.043. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 15 / 19
Zagadnienie wieloklasowe Niech liczba klas K > 2. Oznaczmy p ij (x) = P(X G i X G i G j, x), i, j = 1,..., K, i j. Przyjmujemy p ij (x) = 1/(1 + exp(a ij x m ij)), i, j = 1,..., K, i j. Ponadto p i (x) = P(X G i x), i = 1,..., K. Wtedy p ij (x) = p i (x) p i (x) + p j (x), i < j, (p ji(x) = 1 p ij (x)). Układ K(K 1)/2 równań z K niewiadomymi (zazwyczaj sprzeczny). Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 16 / 19
Metoda PWC (Hastie i Tibshirani, 1998) Oszacowanie prawdopodobieństw a posteriori p i (x) poprzez minimalizację odległości Kullbacka-Leiblera postaci: ρ KL (ˆp 1 (x),..., ˆp K (x)) = [ n ij ˆp ij (x) log ˆp ] ij(x), p j i ij (x) gdzie liczebności n ij = n i + n j pełnią rolę wag. Do wyznaczenia tych oszacowań wykorzystujemy algorytm Bradley a-terry ego. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 17 / 19
Ważona metoda PWC Niech q ij (x) = p i (x) + p j (x). Do oszacowania prawdopodobieństwa q ij (x) wykorzystujemy klasyfikatory binarne uczone na próbie zawierającej tylko dwie klasy. Do pierwszej z nich zaliczamy obserwacje z klas i-tej i j-tej, a do drugiej pozostałe obserwacje. Ważona procedura sumacyjna: ˆp i (x) = 1 ˆq ij (x)ˆp ij (x), i = 1, 2,..., K. K 1 j i ˆd(x) = arg max 1 i K Ważona procedura iloczynowa: ˆq ij (x)ˆp ij (x). j i ˆp i (x) = K 1 ˆq ij (x)ˆp ij (x), i = 1, 2,..., K. j i ˆd(x) = arg max ˆq ij (x)ˆp ij (x). 1 i K j i Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 18 / 19
Literatura 1 Anderson T.W., Bahadur R.R. (1962), Classification into two multivariate normal distributions with different covariance matrices, Ann. Math. Statist. 33, 420 431. 2 Krzyśko M., Wołyński W. (1997), Linear discriminant functions for stationary time series, Biometrical Journal 39, 955-973. 3 Mika S., Rätsch G., Weston J., Schölkopf B., Müller K.R. (1999), Fisher discriminant analysis with kernels, In Y.-H. Hu, J. Larsen, E. Wilson, and S. Douglas, editors, Neural Networks for Signal Processing IX, 41-48. 4 T. Hastie, R. Tibshirani (1998), Classification by pairwise coupling, The Annals of Statistics 26, 451-471. 5 M. Krzyśko, W. Wołyński (2009), New variants of pairwise classification, European Journal of Operational Research 199, 512 519. Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 19 / 19