Minimalizacja ryzyka strukturalnego, podejście Vapnika

HTML
DOWNLOAD

Wielkość: px

Rozpocząć pokaz od strony:

Download "Minimalizacja ryzyka strukturalnego, podejście Vapnika"

Małgorzata Skiba
10 lat temu
Przeglądów:

1 Miimalizacja ryzyka strukturalego, podejście Vapika Wykład IV Wisła, grudzień 2009

2 Miimalizacja ryzyka strukturalego Problem klasyfikacji dla dwóch klas, g = 2. L(f (x), y) = I {f (x) y}. Załóżmy, że daa jest rodzia C potecjalych klasyfikatorów φ R p φ : R p { 1, 1}. (ideks klasy Y = ±1). Na przykład C = {φ a : φ a (x) = sig(a x)} Problem: Ocea błędu predykcji dla reguły miimalizującej ryzyko empirycze (estymator błędu przez powtóre podstawieie).

Załóżmy, że daa jest rodzia C potecjalych klasyfikatorów φ R p φ : R p { 1, 1}.

3 Przykład p(x 1) U[0, 1] i p(x 1) U[1, 2] Miimale ryzyko reguły (ryzyko bayesowskie rówa) się 0. A 1,..., A obserwacje z populacji pierwszej B 1,..., B obserwacje z populacji drugiej. LDA Fishera w tym przypadku redukuje się do: klasyfikuj do drugiej populacji gdy X > T = (Ā + B )/2 Err U = 1 (P(X > T Y = 1) + P(X < T Y = 1) = T 1 /2 2 Err = E T 1 /2 E N(0, 1 24 ) = 1 4 π

LDA Fishera w tym przypadku redukuje się do: klasyfikuj do drugiej populacji gdy X > T = (Ā +

4 Szacujemy bład, jaki popełimy, wybierając klasyfikator φ miimalizujący estymator błędu przez powtóre podstawieie (ryzyko empirycze) Ile różi się err(φ) = 1 I {φ(x i ) Y i }. i=1 φ = argmi φ C err(φ). Err U (φ ) = P(φ (X 0 ) Y 0 U) od miimalego błędu w klasie wszystkich klasyfikatorów if φ Err(φ).

err(φ) = 1 I {φ(x i ) Y i }. i=1 φ = argmi φ C err(φ).

5 (Err U (φ ) if Err(φ)) φ C } {{ } błąd estymacji Err U (φ ) if φ Err(φ) = + (if φ C Err(φ) if φ Err(φ)) } {{ } błąd aproksymacji Zwiększając rodzię C zwiększamy (zmiejszamy) błąd estymacji (aproksymacji). Zmiejszając rodzię C zmiejszamy (zwiększamy) błąd estymacji (aproksymacji).

Zwiększając rodzię C zwiększamy (zmiejszamy) błąd estymacji

6 Błąd estymacji φ = argmi φ C Err(φ) Err U (φ ) Err( φ) Err U (φ ) err(φ ) + err( φ) Err( φ) } {{ } 0 Err U (φ ) err(φ } {{ ) } + err( φ) Err( φ) } {{ } 2 sup φ C Err(φ) err(φ) ( ) Poadto Err U (φ ) err(φ ) + sup(err(φ) err(φ)) φ C ( ) Problem ( ): szacowaie błędu predykcji Err U (φ ) w termiach err(φ ).

7 sup(err(φ) err(φ)) = sup(pf P f ) φ C f F Z = (X, Y ), Z i = (X i, Y i ) f (z) = I {φ(x) y}, Pf = Ef (Z), P f = 1 i=1 f (Z i). F: rodzia fukcji f utworzoa a podstawie C.

8 Nierówość kocetracyja McDiarmida g : X R: sup g(x 1,..., x ) g(x 1,..., x i 1, x x 1,...,x,x i X i, x i+1,..., x ) c 1 i to dla Z = g(x 1,..., X ), gdzie X 1,..., X - iezależe, P(Z EZ > t) exp( 2t 2 /c 2 ) (!) Dla Z = sup f F Pf P f, c = 2/ i (!) implikuje

9 Z prawdopodobieństwem > 1 δ ( sup[pf P f ] E f F sup f F Średie Rademachera zbioru A R R (A) = E { ) 2 log(1/δ) [Pf P f ] + sup a a = (a 1,..., a ) i σ i zl Rademachera. 1 σ i a i }, i=1

10 Własości średich Rademachera (i) R (A) = R (abscov(a)), gdzie abscov(a) = { N j=1 c ja (j), N j=1 c j 1, a (j) A} (ii) R (φ A) L φ R (A), gdzie φ : R R Lipschitzowska ze stałą L φ, a φ A = {(φ(a 1 ),..., φ(a )), a = (a 1,..., a ) A} (iii) A = {a 1,..., a m } to R (A) max i=1,...,m a i 2 log m

11 (Z 1,..., Z ) iezależa kopia (Z 1,..., Z ) i P f = 1 i=1 f (Z i). Techika sprzęgaia daje ( ) E [Pf P f ] sup f F = E(sup f F = E sup 1 f F i=1 E[P f P f Z 1,..., Z ]) E sup E[P f P f ] f F σ i (f (Z i ) f (Z i )) 2ER (Z ) Nasz zbiór A: F(z ) = {(f (z 1 ),..., f (z ))} f F, (iii) 2 log R (Z SF (Z ) ), gdzie S F (z ) = F(z ), z = (z 1, z 2,..., z ).

12 Jeśli V (z ) wymiar Vapika-Czervoekisa zbioru S F (z ) to i log S F (z ) V (z ) log( + 1) 2V R (Z (Z ) log( + 1) ), Jeśli sup z V (z ) V to z prawdopodobieństwem > 1 δ V log 2 log(1/δ) sup[pf P f ] C + f F Czyik log moża pomiąć.

13 Miimalizacja ryzyka strukturalego Rodziy klasyfikatorów C 1 C 2... C N (1) Err U (φ,i) err(φ,i) + B(, F i ) i = 1,..., Miimalizacja prawej stroy (1) Problemy: (i) Klasy z małym wymiarem mogą mieć duży bład aproksymacji (ii) miimalizacja err(φ) często problem NP-trudy (ii) ierówość Err U (φ ) err(φ ) + sup(err(φ) err(φ)) φ C ( ) za gruba!

.., Miimalizacja prawej stroy (1) Problemy: (i) Klasy z małym wymiarem mogą mieć

14 Oszacowaia oparte a margiesach Niech φ będzie regułą klasyfikacyją oparta a fukcji klasyfikacyjej d: φ(x) = 1 jeśli d(x) 0 i φ(x) = 1 w przeciwym przypadku. Wtedy P(φ(X) Y ) = P(sig(d(X)) Y ) E I {d(x)y 0} Niech γ : R R + będzie fukcją kosztu taką, że γ(x) I {x 0}. Typowe przykłady γ(x) = e x, γ(x) = (1 + x) +, γ(x) = log 2 (1 + x) Fukcjoał kosztu i jego wersja empirycza A(d) = E(γ( d(x)y ) U), A (d) = 1 γ( d(x i )Y i ) i=1

Wtedy P(φ(X) Y ) = P(sig(d(X)) Y ) E I {d(x)y 0} Niech γ : R R + będzie fukcją kosztu taką, że γ(x) I {x

15 Mamy Err(d) A(d) Niech B = γ( d(x)y)). Wtedy err (d) A (d). Err U (d ) A(d ) = E(γ( d (X)Y ) U)) L γ - stała Lipschitza fukcji γ. A (d ) + sup(a(d) A (d)) d D A (d ) + 2L γ ER (F(Z 2 log 1 δ )) + B,

16 Systemy głosowaia Systemy głosowaia opierają się a podejmowaiu decyzji a podstawie kombiacji liiowych klasyfikatorów. C- rodzia bazowych klasyfikatorów. D λ = { d(x) = m c j g j (x) : m N, i=1 j=1 } c j λ, g 1,..., g C Na podstawie własości średich Rademachera zbioru R (D λ (Z 2VC log( + 1) )) = λr (C(Z )) λ

17 Stąd Err U (sig(d )) A (d 2VC log( + 1) 2 log 1 δ ) + 2L φ λ + B, gddzie sig(d ) miimalizuje ryzyko empirycze w klasie {sig(d)} d D Oszacowaie błedu predykcji sig(d ) w termiach wymiaru Vapika-Chervoekisa klasy bazowej.

18 Margiesy Przykład φ η (x) = 1 x η φ η (x) = 0 x 0 φ η (x) = 1 + x/η w p.p. W tym przypadku B = 1 i L φ = 1/η. Poadto A (d) err γ (d), gdzie err γ (d) = 1 I {d(x i )Y i η}. Liczymy ie tylko źle sklasyfikowae elemety, ale rówież te sklasyfikowae dobrze, ale z małym margiesem i=1

19 Err U (d ) err (d ) + 2λ η 2VC log( + 1) + 2 log 1 δ.

20 Ie waże kieruki/perspektywy Własości skończeiepróbkowe estymatorów PMS i ich ryzyka (Barro, Birgé, Massart, Barraud..) Metody rzadkiej regresji (Lasso, Least Agle Regressio LAR,...). potecjala liczba predyktorów w modelu liiowym p, p >, jedakże #{i : β i 0} << p Związki metod selekcji z wielokrotym testowaiem, w szczególości z procedurami typu Bejamiiego-Hochberga (M 1 M 2 ˆM AIC = M 2 LRT M1,M 2 > 2(p 2 p 1 )) metody selekcji w modelach regresyjych oparte a wstępym uporządkowaiu predyktorów. metody predykcji oparte a uśrediaiu modeli

β i 0} << p Związki metod selekcji z wielokrotym testowaiem, w szczególości z procedurami typu Bejamiiego-Hochberga (M 1 M 2 ˆM AIC =

21 Własości skończeiepróbkowe Y i = f (x i ) + ε i, i = 1,..., ε i (0, σ 2 ), σ 2 -zae, f ; [0, 1] R, x i [0, 1]. M m : fukcje stałe a odcikach [(j 1)/m, j/m). f Holder(L, α), to dla ˆf = ˆf MNK (M m ) optymaly wybór m: R = E f ˆf 2 L 2 M 2α + mσ2 ( L m(α, L) = σ ) 2/(1+α)m 1/(2α+1) Ryzyko R = O( 2α/(2α+1) ). Kostrukcja estymatorów PMS o takim rzędzie ryzyka, bez wykorzystywaia wiedzy, że f Holder(L, α). Kalibracja stałych w fukcji kryterialej!!!

22 Referecje Bousquet, O., Bouchero, S., Lugosi, G. (2005) Theory of classificatio: a survey of recet results, ESAIM: Probability ad Statistics, Claeskes, G., Hjort, N. (2008) Model selectio ad model averagig, Cambridge Uiversity Press Friedma, J. (1997) O bias, variace, 0/1-loss ad the curse of dimesioality, Data miig ad Kowledge Discovery, str Hastie, T., Tibshirai, R., Friedma, J. (2009) The Elemets of Statistical Learig, (wydaie drugie) tibs/elemstatlear/ Koishi, S., Kitagawa, G. (2008) Iformatio Criteria ad Statistical Modellig, Spriger Leeb, H., Pötscher, B. (2008) Sparse estimators ad the oracle property, or the retur of Hodges estimator, J. Ecoometrics, str Leeb, H., Pötscher, B. (2008) Model selectio,w Hadbook of Fiacial Time Series (wyd Aderse,Davis,Kreiss,Mikosch), Spriger,2008

23 Nishii, R. (1984) Asymptotic properties of criteria for selectio of variables i multiple regressio, A. Statist., str Schiavo, R., Had, D.(2000) Te more years of error rate research, Iteratioal Statistical Review, str Shao, J. (1993) Liear model selectio by cross-validatio, JASA, str Shao, J. (1997) A asymptotic theory for liear model selectio, Statistica Siica, str Yag, Y. (2005) Ca the stregths of AIC ad BIC be shared? A coflict betwee model idetificatio ad regressio estimatio, Biometrika, str

Podobne dokumenty

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności