Miimalizacja ryzyka strukturalego, podejście Vapika Wykład IV Wisła, grudzień 2009
Miimalizacja ryzyka strukturalego Problem klasyfikacji dla dwóch klas, g = 2. L(f (x), y) = I {f (x) y}. Załóżmy, że daa jest rodzia C potecjalych klasyfikatorów φ R p φ : R p { 1, 1}. (ideks klasy Y = ±1). Na przykład C = {φ a : φ a (x) = sig(a x)} Problem: Ocea błędu predykcji dla reguły miimalizującej ryzyko empirycze (estymator błędu przez powtóre podstawieie).
Przykład p(x 1) U[0, 1] i p(x 1) U[1, 2] Miimale ryzyko reguły (ryzyko bayesowskie rówa) się 0. A 1,..., A obserwacje z populacji pierwszej B 1,..., B obserwacje z populacji drugiej. LDA Fishera w tym przypadku redukuje się do: klasyfikuj do drugiej populacji gdy X > T = (Ā + B )/2 Err U = 1 (P(X > T Y = 1) + P(X < T Y = 1) = T 1 /2 2 Err = E T 1 /2 E N(0, 1 24 ) = 1 4 π
Szacujemy bład, jaki popełimy, wybierając klasyfikator φ miimalizujący estymator błędu przez powtóre podstawieie (ryzyko empirycze) Ile różi się err(φ) = 1 I {φ(x i ) Y i }. i=1 φ = argmi φ C err(φ). Err U (φ ) = P(φ (X 0 ) Y 0 U) od miimalego błędu w klasie wszystkich klasyfikatorów if φ Err(φ).
(Err U (φ ) if Err(φ)) φ C } {{ } błąd estymacji Err U (φ ) if φ Err(φ) = + (if φ C Err(φ) if φ Err(φ)) } {{ } błąd aproksymacji Zwiększając rodzię C zwiększamy (zmiejszamy) błąd estymacji (aproksymacji). Zmiejszając rodzię C zmiejszamy (zwiększamy) błąd estymacji (aproksymacji).
Błąd estymacji φ = argmi φ C Err(φ) Err U (φ ) Err( φ) Err U (φ ) err(φ ) + err( φ) Err( φ) } {{ } 0 Err U (φ ) err(φ } {{ ) } + err( φ) Err( φ) } {{ } 2 sup φ C Err(φ) err(φ) ( ) Poadto Err U (φ ) err(φ ) + sup(err(φ) err(φ)) φ C ( ) Problem ( ): szacowaie błędu predykcji Err U (φ ) w termiach err(φ ).
sup(err(φ) err(φ)) = sup(pf P f ) φ C f F Z = (X, Y ), Z i = (X i, Y i ) f (z) = I {φ(x) y}, Pf = Ef (Z), P f = 1 i=1 f (Z i). F: rodzia fukcji f utworzoa a podstawie C.
Nierówość kocetracyja McDiarmida g : X R: sup g(x 1,..., x ) g(x 1,..., x i 1, x x 1,...,x,x i X i, x i+1,..., x ) c 1 i to dla Z = g(x 1,..., X ), gdzie X 1,..., X - iezależe, P(Z EZ > t) exp( 2t 2 /c 2 ) (!) Dla Z = sup f F Pf P f, c = 2/ i (!) implikuje
Z prawdopodobieństwem > 1 δ ( sup[pf P f ] E f F sup f F Średie Rademachera zbioru A R R (A) = E { ) 2 log(1/δ) [Pf P f ] + sup a a = (a 1,..., a ) i σ i zl Rademachera. 1 σ i a i }, i=1
Własości średich Rademachera (i) R (A) = R (abscov(a)), gdzie abscov(a) = { N j=1 c ja (j), N j=1 c j 1, a (j) A} (ii) R (φ A) L φ R (A), gdzie φ : R R Lipschitzowska ze stałą L φ, a φ A = {(φ(a 1 ),..., φ(a )), a = (a 1,..., a ) A} (iii) A = {a 1,..., a m } to R (A) max i=1,...,m a i 2 log m
(Z 1,..., Z ) iezależa kopia (Z 1,..., Z ) i P f = 1 i=1 f (Z i). Techika sprzęgaia daje ( ) E [Pf P f ] sup f F = E(sup f F = E sup 1 f F i=1 E[P f P f Z 1,..., Z ]) E sup E[P f P f ] f F σ i (f (Z i ) f (Z i )) 2ER (Z ) Nasz zbiór A: F(z ) = {(f (z 1 ),..., f (z ))} f F, (iii) 2 log R (Z SF (Z ) ), gdzie S F (z ) = F(z ), z = (z 1, z 2,..., z ).
Jeśli V (z ) wymiar Vapika-Czervoekisa zbioru S F (z ) to i log S F (z ) V (z ) log( + 1) 2V R (Z (Z ) log( + 1) ), Jeśli sup z V (z ) V to z prawdopodobieństwem > 1 δ V log 2 log(1/δ) sup[pf P f ] C + f F Czyik log moża pomiąć.
Miimalizacja ryzyka strukturalego Rodziy klasyfikatorów C 1 C 2... C N (1) Err U (φ,i) err(φ,i) + B(, F i ) i = 1,..., Miimalizacja prawej stroy (1) Problemy: (i) Klasy z małym wymiarem mogą mieć duży bład aproksymacji (ii) miimalizacja err(φ) często problem NP-trudy (ii) ierówość Err U (φ ) err(φ ) + sup(err(φ) err(φ)) φ C ( ) za gruba!
Oszacowaia oparte a margiesach Niech φ będzie regułą klasyfikacyją oparta a fukcji klasyfikacyjej d: φ(x) = 1 jeśli d(x) 0 i φ(x) = 1 w przeciwym przypadku. Wtedy P(φ(X) Y ) = P(sig(d(X)) Y ) E I {d(x)y 0} Niech γ : R R + będzie fukcją kosztu taką, że γ(x) I {x 0}. Typowe przykłady γ(x) = e x, γ(x) = (1 + x) +, γ(x) = log 2 (1 + x) Fukcjoał kosztu i jego wersja empirycza A(d) = E(γ( d(x)y ) U), A (d) = 1 γ( d(x i )Y i ) i=1
Mamy Err(d) A(d) Niech B = γ( d(x)y)). Wtedy err (d) A (d). Err U (d ) A(d ) = E(γ( d (X)Y ) U)) L γ - stała Lipschitza fukcji γ. A (d ) + sup(a(d) A (d)) d D A (d ) + 2L γ ER (F(Z 2 log 1 δ )) + B,
Systemy głosowaia Systemy głosowaia opierają się a podejmowaiu decyzji a podstawie kombiacji liiowych klasyfikatorów. C- rodzia bazowych klasyfikatorów. D λ = { d(x) = m c j g j (x) : m N, i=1 j=1 } c j λ, g 1,..., g C Na podstawie własości średich Rademachera zbioru R (D λ (Z 2VC log( + 1) )) = λr (C(Z )) λ
Stąd Err U (sig(d )) A (d 2VC log( + 1) 2 log 1 δ ) + 2L φ λ + B, gddzie sig(d ) miimalizuje ryzyko empirycze w klasie {sig(d)} d D Oszacowaie błedu predykcji sig(d ) w termiach wymiaru Vapika-Chervoekisa klasy bazowej.
Margiesy Przykład φ η (x) = 1 x η φ η (x) = 0 x 0 φ η (x) = 1 + x/η w p.p. W tym przypadku B = 1 i L φ = 1/η. Poadto A (d) err γ (d), gdzie err γ (d) = 1 I {d(x i )Y i η}. Liczymy ie tylko źle sklasyfikowae elemety, ale rówież te sklasyfikowae dobrze, ale z małym margiesem i=1
Err U (d ) err (d ) + 2λ η 2VC log( + 1) + 2 log 1 δ.
Ie waże kieruki/perspektywy Własości skończeiepróbkowe estymatorów PMS i ich ryzyka (Barro, Birgé, Massart, Barraud..) Metody rzadkiej regresji (Lasso, Least Agle Regressio LAR,...). potecjala liczba predyktorów w modelu liiowym p, p >, jedakże #{i : β i 0} << p Związki metod selekcji z wielokrotym testowaiem, w szczególości z procedurami typu Bejamiiego-Hochberga (M 1 M 2 ˆM AIC = M 2 LRT M1,M 2 > 2(p 2 p 1 )) metody selekcji w modelach regresyjych oparte a wstępym uporządkowaiu predyktorów. metody predykcji oparte a uśrediaiu modeli
Własości skończeiepróbkowe Y i = f (x i ) + ε i, i = 1,..., ε i (0, σ 2 ), σ 2 -zae, f ; [0, 1] R, x i [0, 1]. M m : fukcje stałe a odcikach [(j 1)/m, j/m). f Holder(L, α), to dla ˆf = ˆf MNK (M m ) optymaly wybór m: R = E f ˆf 2 L 2 M 2α + mσ2 ( L m(α, L) = σ ) 2/(1+α)m 1/(2α+1) Ryzyko R = O( 2α/(2α+1) ). Kostrukcja estymatorów PMS o takim rzędzie ryzyka, bez wykorzystywaia wiedzy, że f Holder(L, α). Kalibracja stałych w fukcji kryterialej!!!
Referecje Bousquet, O., Bouchero, S., Lugosi, G. (2005) Theory of classificatio: a survey of recet results, ESAIM: Probability ad Statistics, 323-375 Claeskes, G., Hjort, N. (2008) Model selectio ad model averagig, Cambridge Uiversity Press Friedma, J. (1997) O bias, variace, 0/1-loss ad the curse of dimesioality, Data miig ad Kowledge Discovery, str. 55-77 Hastie, T., Tibshirai, R., Friedma, J. (2009) The Elemets of Statistical Learig, (wydaie drugie) http://www-stat.staford.edu/ tibs/elemstatlear/ Koishi, S., Kitagawa, G. (2008) Iformatio Criteria ad Statistical Modellig, Spriger Leeb, H., Pötscher, B. (2008) Sparse estimators ad the oracle property, or the retur of Hodges estimator, J. Ecoometrics, str. 201-211 Leeb, H., Pötscher, B. (2008) Model selectio,w Hadbook of Fiacial Time Series (wyd Aderse,Davis,Kreiss,Mikosch), Spriger,2008
Nishii, R. (1984) Asymptotic properties of criteria for selectio of variables i multiple regressio, A. Statist., str. 758-765. Schiavo, R., Had, D.(2000) Te more years of error rate research, Iteratioal Statistical Review, str. 295-310. Shao, J. (1993) Liear model selectio by cross-validatio, JASA, str. 486-494. Shao, J. (1997) A asymptotic theory for liear model selectio, Statistica Siica, str. 221-264 Yag, Y. (2005) Ca the stregths of AIC ad BIC be shared? A coflict betwee model idetificatio ad regressio estimatio, Biometrika, str. 937-950.