Minimalizacja ryzyka strukturalnego, podejście Vapnika



Podobne dokumenty
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Jądrowe klasyfikatory liniowe

Prawdopodobieństwo i statystyka

Estymatory regresji rangowej oparte na metodzie LASSO

P = 27, 8 27, 9 27 ). Przechodząc do granicy otrzymamy lim P(Y n > Y n+1 ) = P(Z 1 0 > Z 2 X 2 X 1 = 0)π 0 + P(Z 1 1 > Z 2 X 2 X 1 = 1)π 1 +

Regresja nieparametryczna series estimator

Estymacja gęstości prawdopodobieństwa metodą selekcji modelu

Maszyny wektorów podpierajacych w regresji rangowej

Własności statystyczne regresji liniowej. Wykład 4

0.1 ROZKŁADY WYBRANYCH STATYSTYK

Metody systemowe i decyzyjne w informatyce

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Własności estymatorów regresji porządkowej z karą LASSO

Statystyka Matematyczna Anna Janicka

Estymacja parametru rozkładu Rayleigha i logistycznego w terminach k-tych wartości rekordowych

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Elementy modelowania matematycznego

Rozpoznawanie obrazów

Statystyka Matematyczna Anna Janicka

Wybór modelu i ocena jakości klasyfikatora

Charakterystyki liczbowe zmiennych losowych: wartość oczekiwana i wariancja

WYKŁAD I: PROBLEM KLASYFIKACJI POD NADZOREM, LINIOWA ANALIZA DYSKRYMINACYJNA. Wydział Matematyki i Nauk Informacyjnych PW

NOWY PROGRAM STUDIÓW 2016/2017 SYLABUS PRZEDMIOTU AUTORSKIEGO: Wprowadzenie do teorii ekonometrii. Część A

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun

Predykcja i selekcja zmiennych w klasyfikacji z wieloma etykietami przy użyciu łańcuchów klasyfikatorów i sieci elastycznej

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Twierdzenia graniczne:

Estymacja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 7

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych

Zadania z Rachunku Prawdopodobieństwa III - 1

O zgodności procedur jednoczesnego testowania zastosowanych do problemu selekcji zmiennych w modelu liniowym

Stosowana Analiza Regresji

Rozpoznawanie obrazów

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Metody systemowe i decyzyjne w informatyce

Estymacja w regresji nieparametrycznej

Wykład 5 Przedziały ufności. Przedział ufności, gdy znane jest σ. Opis słowny / 2

INSTRUKCJA DO ĆWICZEŃ LABORATORYJNYCH Z WYTRZYMAŁOŚCI MATERIAŁÓW

2. Empiryczna wersja klasyfikatora bayesowskiego

STATYSTYKA MATEMATYCZNA

STATYSTYKA OPISOWA PODSTAWOWE WZORY

3. Funkcje elementarne

POISSONOWSKA APROKSYMACJA W SYSTEMACH NIEZAWODNOŚCIOWYCH

Wprowadzenie. Data Science Uczenie się pod nadzorem

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

Miary rozproszenia. Miary położenia. Wariancja. Średnia. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

Jak trudne jest numeryczne całkowanie (O złożoności zadań ciągłych)

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Estymatory nieobciążone o minimalnej wariancji

Wojciech Skwirz

Miary położenia. Miary rozproszenia. Średnia. Wariancja. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Podstawowe oznaczenia i wzory stosowane na wykładzie i laboratorium Część I: estymacja

Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania

STATYSTYKA OPISOWA PODSTAWOWE WZORY

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Matematyka finansowa r. Komisja Egzaminacyjna dla Aktuariuszy. XLIII Egzamin dla Aktuariuszy z 8 października 2007 r.

Estymatory kwantylowe i estymacja kwantyli

Monte Carlo, bootstrap, jacknife

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

1 Twierdzenia o granicznym przejściu pod znakiem całki

Entropia Renyi ego, estymacja gęstości i klasyfikacja

5. Analiza dyskryminacyjna: FLD, LDA, QDA

STATYSTKA I ANALIZA DANYCH LAB II

Wektory Funkcje rzeczywiste wielu. Matematyka Studium doktoranckie KAE SGH Semestr letni 2008/2009 R. Łochowski

Selekcja zmiennych w klasyfikacji z wieloma etykietami

Stosowana Analiza Regresji

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Historia Rachunku Prawdopodobieństwa i Statystyki WYKŁAD VII: Ronald Fisher. Statystyka Matematyczna jako oddzielna dyscyplina

Wykład 7. Przestrzenie metryczne zwarte. x jest ciągiem Cauchy ego i posiada podciąg zbieżny. Na mocy

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Metody systemowe i decyzyjne w informatyce

Statystyka matematyczna. Wykład II. Estymacja punktowa

Analiza numeryczna Kurs INP002009W. Wykład 4 Rozwiązywanie równań nieliniowych. Karol Tarnowski A-1 p.

1 Modele ADL - interpretacja współczynników

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Asymptotyczna kontrola FDR dla zaleznych testowań wielu hipotez statystycznych. Konrad Furmańczyk Wydzia Zastosowań Informatyki i Matematyki SGGW

Stanisław Cichocki. Natalia Nehrebecka

Budowa modelu i testowanie hipotez

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

1. Wnioskowanie statystyczne. Ponadto mianem statystyki określa się także funkcje zmiennych losowych o

(LMP-Liniowy model prawdopodobieństwa)

Metody systemowe i decyzyjne w informatyce


WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

1 Klasyfikator bayesowski

Metody systemowe i decyzyjne w informatyce

Elementy modelowania matematycznego

Modele tendencji rozwojowej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

Odporność statystyk według Ryszarda Zielińskiego a porządki stochastyczne

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Jarosław Wróblewski Analiza Matematyczna 1, zima 2016/ n 333))

O liczbach naturalnych, których suma równa się iloczynowi

Obliczenia naukowe Wykład nr 6

Agnieszka Nowak Brzezińska Wykład III

Transkrypt:

Miimalizacja ryzyka strukturalego, podejście Vapika Wykład IV Wisła, grudzień 2009

Miimalizacja ryzyka strukturalego Problem klasyfikacji dla dwóch klas, g = 2. L(f (x), y) = I {f (x) y}. Załóżmy, że daa jest rodzia C potecjalych klasyfikatorów φ R p φ : R p { 1, 1}. (ideks klasy Y = ±1). Na przykład C = {φ a : φ a (x) = sig(a x)} Problem: Ocea błędu predykcji dla reguły miimalizującej ryzyko empirycze (estymator błędu przez powtóre podstawieie).

Przykład p(x 1) U[0, 1] i p(x 1) U[1, 2] Miimale ryzyko reguły (ryzyko bayesowskie rówa) się 0. A 1,..., A obserwacje z populacji pierwszej B 1,..., B obserwacje z populacji drugiej. LDA Fishera w tym przypadku redukuje się do: klasyfikuj do drugiej populacji gdy X > T = (Ā + B )/2 Err U = 1 (P(X > T Y = 1) + P(X < T Y = 1) = T 1 /2 2 Err = E T 1 /2 E N(0, 1 24 ) = 1 4 π

Szacujemy bład, jaki popełimy, wybierając klasyfikator φ miimalizujący estymator błędu przez powtóre podstawieie (ryzyko empirycze) Ile różi się err(φ) = 1 I {φ(x i ) Y i }. i=1 φ = argmi φ C err(φ). Err U (φ ) = P(φ (X 0 ) Y 0 U) od miimalego błędu w klasie wszystkich klasyfikatorów if φ Err(φ).

(Err U (φ ) if Err(φ)) φ C } {{ } błąd estymacji Err U (φ ) if φ Err(φ) = + (if φ C Err(φ) if φ Err(φ)) } {{ } błąd aproksymacji Zwiększając rodzię C zwiększamy (zmiejszamy) błąd estymacji (aproksymacji). Zmiejszając rodzię C zmiejszamy (zwiększamy) błąd estymacji (aproksymacji).

Błąd estymacji φ = argmi φ C Err(φ) Err U (φ ) Err( φ) Err U (φ ) err(φ ) + err( φ) Err( φ) } {{ } 0 Err U (φ ) err(φ } {{ ) } + err( φ) Err( φ) } {{ } 2 sup φ C Err(φ) err(φ) ( ) Poadto Err U (φ ) err(φ ) + sup(err(φ) err(φ)) φ C ( ) Problem ( ): szacowaie błędu predykcji Err U (φ ) w termiach err(φ ).

sup(err(φ) err(φ)) = sup(pf P f ) φ C f F Z = (X, Y ), Z i = (X i, Y i ) f (z) = I {φ(x) y}, Pf = Ef (Z), P f = 1 i=1 f (Z i). F: rodzia fukcji f utworzoa a podstawie C.

Nierówość kocetracyja McDiarmida g : X R: sup g(x 1,..., x ) g(x 1,..., x i 1, x x 1,...,x,x i X i, x i+1,..., x ) c 1 i to dla Z = g(x 1,..., X ), gdzie X 1,..., X - iezależe, P(Z EZ > t) exp( 2t 2 /c 2 ) (!) Dla Z = sup f F Pf P f, c = 2/ i (!) implikuje

Z prawdopodobieństwem > 1 δ ( sup[pf P f ] E f F sup f F Średie Rademachera zbioru A R R (A) = E { ) 2 log(1/δ) [Pf P f ] + sup a a = (a 1,..., a ) i σ i zl Rademachera. 1 σ i a i }, i=1

Własości średich Rademachera (i) R (A) = R (abscov(a)), gdzie abscov(a) = { N j=1 c ja (j), N j=1 c j 1, a (j) A} (ii) R (φ A) L φ R (A), gdzie φ : R R Lipschitzowska ze stałą L φ, a φ A = {(φ(a 1 ),..., φ(a )), a = (a 1,..., a ) A} (iii) A = {a 1,..., a m } to R (A) max i=1,...,m a i 2 log m

(Z 1,..., Z ) iezależa kopia (Z 1,..., Z ) i P f = 1 i=1 f (Z i). Techika sprzęgaia daje ( ) E [Pf P f ] sup f F = E(sup f F = E sup 1 f F i=1 E[P f P f Z 1,..., Z ]) E sup E[P f P f ] f F σ i (f (Z i ) f (Z i )) 2ER (Z ) Nasz zbiór A: F(z ) = {(f (z 1 ),..., f (z ))} f F, (iii) 2 log R (Z SF (Z ) ), gdzie S F (z ) = F(z ), z = (z 1, z 2,..., z ).

Jeśli V (z ) wymiar Vapika-Czervoekisa zbioru S F (z ) to i log S F (z ) V (z ) log( + 1) 2V R (Z (Z ) log( + 1) ), Jeśli sup z V (z ) V to z prawdopodobieństwem > 1 δ V log 2 log(1/δ) sup[pf P f ] C + f F Czyik log moża pomiąć.

Miimalizacja ryzyka strukturalego Rodziy klasyfikatorów C 1 C 2... C N (1) Err U (φ,i) err(φ,i) + B(, F i ) i = 1,..., Miimalizacja prawej stroy (1) Problemy: (i) Klasy z małym wymiarem mogą mieć duży bład aproksymacji (ii) miimalizacja err(φ) często problem NP-trudy (ii) ierówość Err U (φ ) err(φ ) + sup(err(φ) err(φ)) φ C ( ) za gruba!

Oszacowaia oparte a margiesach Niech φ będzie regułą klasyfikacyją oparta a fukcji klasyfikacyjej d: φ(x) = 1 jeśli d(x) 0 i φ(x) = 1 w przeciwym przypadku. Wtedy P(φ(X) Y ) = P(sig(d(X)) Y ) E I {d(x)y 0} Niech γ : R R + będzie fukcją kosztu taką, że γ(x) I {x 0}. Typowe przykłady γ(x) = e x, γ(x) = (1 + x) +, γ(x) = log 2 (1 + x) Fukcjoał kosztu i jego wersja empirycza A(d) = E(γ( d(x)y ) U), A (d) = 1 γ( d(x i )Y i ) i=1

Mamy Err(d) A(d) Niech B = γ( d(x)y)). Wtedy err (d) A (d). Err U (d ) A(d ) = E(γ( d (X)Y ) U)) L γ - stała Lipschitza fukcji γ. A (d ) + sup(a(d) A (d)) d D A (d ) + 2L γ ER (F(Z 2 log 1 δ )) + B,

Systemy głosowaia Systemy głosowaia opierają się a podejmowaiu decyzji a podstawie kombiacji liiowych klasyfikatorów. C- rodzia bazowych klasyfikatorów. D λ = { d(x) = m c j g j (x) : m N, i=1 j=1 } c j λ, g 1,..., g C Na podstawie własości średich Rademachera zbioru R (D λ (Z 2VC log( + 1) )) = λr (C(Z )) λ

Stąd Err U (sig(d )) A (d 2VC log( + 1) 2 log 1 δ ) + 2L φ λ + B, gddzie sig(d ) miimalizuje ryzyko empirycze w klasie {sig(d)} d D Oszacowaie błedu predykcji sig(d ) w termiach wymiaru Vapika-Chervoekisa klasy bazowej.

Margiesy Przykład φ η (x) = 1 x η φ η (x) = 0 x 0 φ η (x) = 1 + x/η w p.p. W tym przypadku B = 1 i L φ = 1/η. Poadto A (d) err γ (d), gdzie err γ (d) = 1 I {d(x i )Y i η}. Liczymy ie tylko źle sklasyfikowae elemety, ale rówież te sklasyfikowae dobrze, ale z małym margiesem i=1

Err U (d ) err (d ) + 2λ η 2VC log( + 1) + 2 log 1 δ.

Ie waże kieruki/perspektywy Własości skończeiepróbkowe estymatorów PMS i ich ryzyka (Barro, Birgé, Massart, Barraud..) Metody rzadkiej regresji (Lasso, Least Agle Regressio LAR,...). potecjala liczba predyktorów w modelu liiowym p, p >, jedakże #{i : β i 0} << p Związki metod selekcji z wielokrotym testowaiem, w szczególości z procedurami typu Bejamiiego-Hochberga (M 1 M 2 ˆM AIC = M 2 LRT M1,M 2 > 2(p 2 p 1 )) metody selekcji w modelach regresyjych oparte a wstępym uporządkowaiu predyktorów. metody predykcji oparte a uśrediaiu modeli

Własości skończeiepróbkowe Y i = f (x i ) + ε i, i = 1,..., ε i (0, σ 2 ), σ 2 -zae, f ; [0, 1] R, x i [0, 1]. M m : fukcje stałe a odcikach [(j 1)/m, j/m). f Holder(L, α), to dla ˆf = ˆf MNK (M m ) optymaly wybór m: R = E f ˆf 2 L 2 M 2α + mσ2 ( L m(α, L) = σ ) 2/(1+α)m 1/(2α+1) Ryzyko R = O( 2α/(2α+1) ). Kostrukcja estymatorów PMS o takim rzędzie ryzyka, bez wykorzystywaia wiedzy, że f Holder(L, α). Kalibracja stałych w fukcji kryterialej!!!

Referecje Bousquet, O., Bouchero, S., Lugosi, G. (2005) Theory of classificatio: a survey of recet results, ESAIM: Probability ad Statistics, 323-375 Claeskes, G., Hjort, N. (2008) Model selectio ad model averagig, Cambridge Uiversity Press Friedma, J. (1997) O bias, variace, 0/1-loss ad the curse of dimesioality, Data miig ad Kowledge Discovery, str. 55-77 Hastie, T., Tibshirai, R., Friedma, J. (2009) The Elemets of Statistical Learig, (wydaie drugie) http://www-stat.staford.edu/ tibs/elemstatlear/ Koishi, S., Kitagawa, G. (2008) Iformatio Criteria ad Statistical Modellig, Spriger Leeb, H., Pötscher, B. (2008) Sparse estimators ad the oracle property, or the retur of Hodges estimator, J. Ecoometrics, str. 201-211 Leeb, H., Pötscher, B. (2008) Model selectio,w Hadbook of Fiacial Time Series (wyd Aderse,Davis,Kreiss,Mikosch), Spriger,2008

Nishii, R. (1984) Asymptotic properties of criteria for selectio of variables i multiple regressio, A. Statist., str. 758-765. Schiavo, R., Had, D.(2000) Te more years of error rate research, Iteratioal Statistical Review, str. 295-310. Shao, J. (1993) Liear model selectio by cross-validatio, JASA, str. 486-494. Shao, J. (1997) A asymptotic theory for liear model selectio, Statistica Siica, str. 221-264 Yag, Y. (2005) Ca the stregths of AIC ad BIC be shared? A coflict betwee model idetificatio ad regressio estimatio, Biometrika, str. 937-950.