ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Podobne dokumenty
Metoda najmniejszych kwadratów

Stosowana Analiza Regresji

Natalia Neherbecka. 11 czerwca 2010

Stosowana Analiza Regresji

Wybór modelu i ocena jakości klasyfikatora

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Prawdopodobieństwo i statystyka

Estymacja gęstości prawdopodobieństwa metodą selekcji modelu

Estymacja w regresji nieparametrycznej

Metoda największej wiarogodności

STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Wprowadzenie. Data Science Uczenie się pod nadzorem

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

Zawansowane modele wyborów dyskretnych

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

1.1 Statystyka matematyczna Literatura Model statystyczny Preliminaria... 3

Statystyczna analiza danych 1

1.9 Czasowy wymiar danych

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Stanisław Cichocki. Natalia Nehrebecka

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

STATYSTYKA

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Metody Ekonometryczne

Spis treści 3 SPIS TREŚCI

Statystyka w przykładach

Definicja danych panelowych Typy danych panelowych Modele dla danych panelowych. Dane panelowe. Część 1. Dane panelowe

1.1 Klasyczny Model Regresji Liniowej

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Własności statystyczne regresji liniowej. Wykład 4

STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Testowanie hipotez statystycznych

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Losowe zmienne objaśniające. Rozszerzenia KMRL. Rozszerzenia KMRL

STATYSTYKA MATEMATYCZNA

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Metody systemowe i decyzyjne w informatyce

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Weryfikacja hipotez statystycznych

1 Modele ADL - interpretacja współczynników

2. Empiryczna wersja klasyfikatora bayesowskiego

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Ekonometria Wykład 4 Prognozowanie, sezonowość. Dr Michał Gradzewicz Katedra Ekonomii I KAE

Analizowane modele. Dwa modele: y = X 1 β 1 + u (1) y = X 1 β 1 + X 2 β 2 + ε (2) Będziemy analizować dwie sytuacje:

Uogolnione modele liniowe

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Uogólniona Metoda Momentów

Wykład z analizy danych: estymacja punktowa

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

STATYSTYKA MAŁYCH OBSZARÓW II.ESTYMATOR HORVITZA-THOMPSONA, ESTYMATOR KALIBROWANY

Stanisław Cichocki. Natalia Nehrebecka

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Prawdopodobieństwo i statystyka r.

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Czasowy wymiar danych

Ćwiczenia IV

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Mikroekonometria 9. Mikołaj Czajkowski Wiktor Budziński

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Dane zgrupowane: każda obserwacja należy do jednej grupy i jest tylko jeden czynnik grupujący

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Monte Carlo, bootstrap, jacknife

Komputerowa Analiza Danych Doświadczalnych

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Rozpoznawanie obrazów

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Metoda największej wiarygodności

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

Estymacja parametrów rozkładu cechy

Mikroekonometria 2. Mikołaj Czajkowski Wiktor Budziński

Statystyczna analiza danych

Metody Ekonometryczne

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Testowanie hipotez statystycznych

Transkrypt:

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009

PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności predykcyjne estymatorów postselekcyjnych Metoda minimalizacji ryzyka strukturalnego

BŁĘDY PREDYKCJI I ICH PODSTAWOWE ESTYMATORY

Rozpatrywane problemy (i) Regresja wielokrotna z losowymi zmiennymi objaśniającymi Wektor losowy (X, Y ) R p R o rozkładzie P X,Y takim, że Y = f (X) + ε, ( ) f : R p R, ε zmienna niezależna od X, E(ε) = 0. Uwaga. Założenia implikują f (X) = E(Y X) i ε = Y E(Y X). Dla takich f i ε, ( ) spełniona oczywiście zawsze, tu zakładamy dodatkowo niezależność X i ε.

(ii) Klasyfikacja pod nadzorem Tak jak w (i), zakładamy dodatkowo, że Y {1, 2,..., K} (Y - indeks przynależności do populacji). Nie zakładamy niezależności X i ε. Obserwowalna p.p.l. U = {(X 1, Y 1 ),..., (X n, Y n )} z rozkładu P X,Y. Na jej podstawie estymator ˆf (x) używany do prognozy zmiennej Y 0 :. Ŷ 0 = ˆf (X 0 )

surface 3.5 4.5 5.5 6.5 Q Q Q Q QQ Q Q Q Q Q Q Q Q X X XX X X X Q X 4.5 5.0 5.5 6.0 6.5 body

(iii) Estymacja gęstości zmiennej losowej Y Y 1,..., Y n p.p.l. z rozkładu P Y o gęstości f. Estymacja f w oparciu o model parametryczny M = {f θ } θ Θ. (iv) Estymacja gęstości warunkowej (X 1, Y 1 ),..., (X n, Y n ) p.p.l. z rozkładu P X,Y na R p R. Estymujemy gęstość warunkową Y pod warunkiem X = x w oparciu o model parametryczny M = {f θ(x) } θ Θ, x R p

Problem prognozy (X 0, Y 0 ) P X,Y niezależna od U. - Jak dalece ˆf (X 0 ) różni się od Y 0? (Problem (i) i (ii)) - Jak dalece gęstość fˆθ różni się od gęstości f? (problem (iii)) - Jak dalece gęstość fˆθ(x 0 ) różni się od gęstości f Y 0 X0? (problem (iv)) Błędy rozpatrywane w (iii) i (iv) będą związane z problemem prognozy.

Funkcje straty Problemy (i) i (ii): L(y, ˆf (x)) 0 : (y ˆf (x)) 2, y ˆf (x), I {y ˆf (x)} (funkcja straty 0-1 dla problemu (ii)). Problemy (iii) i (iv): L(y, ˆθ(x)) : L(y, ˆθ) = 2 log fˆθ (y) L(y, ˆθ(x)) = 2 log fˆθ(x) (y)

Błąd predykcji (uogólnienia) (X 0, Y 0 ) P X,Y niezależna od U. Err U = E(L(Y 0, ˆf (X 0 )) U) Err U = E(L(Y 0, ˆθ(X 0 )) U) (i), (ii) (iii), (iv) Warunkowy błąd predykcji ( w (ii): prawdopodobieństwo błędnej klasyfikacji), Err U = G(U) jest funkcją próby U. Dla ustalonej próby uczącej U konstruujemy predyktor ˆf i oceniamy jego działanie dla nowej obserwacji (X 0, Y 0 ). Miara jakości odpowiadająca faktycznej funkcji predyktora.

Bezwarunkowy błąd predykcji Err = E(Err U ) Uśredniamy losowość próby uczącej, na podstawie której skonstruowano predyktor (Hastie et al., ESL). Wewnątrzpróbkowy błąd predykcji (in-sample error) Y 0 i P Y X=Xi niezależne, i = 1, 2,..., n. Y 0 = (Y 0 1,..., Y 0 n ) Err in = 1 n n i=1 E Y 0(L(Y 0 i, ˆf (X i )) U) Losujemy indeks I {1,..., n}, nowa obserwacja Yi 0 i = I, dla niej oczekiwany błąd predykcji. w punkcie X i dla

Estymatory błędu predykcji estymator metodą próby testowej estymator metodą powtórnego podstawienia err estymator kroswalidacyjny Err ˆ CV estymator metodą bootstrap Err ˆ boot

Estymator metodą próby testowej Oprócz próby uczącej U dysponujemy również w pełni obserwowalną próbą testową T (D = U T, U T = 0), T = m Mamy ˆ Err U = 1 m m I {(X i, Y i ) T : ˆf (X i ) Y i }. i=1 E T ( ˆ Err U U) = Err U Nieobciążone oszacowanie prawdopodobieństwa błędnej klasyfikacji. Ale często w powyższym schemacie będziemy używać estymatora ˆf D a nie ˆf U - wtedy zbyt konserwatywnie z reguły oceniamy prawdopodobieństwo błędnej klasyfikacji tego klasyfikatora.

Trudny problem: Err U = 0.05, ErrU (1 Err U ) 0.05 0.95 2 = 2 0.01 m m m 1900!! Dwie możliwości zastąpienia próby testowej: metoda analityczna - uwzględnienie obciążenia estymatora metodą powtórnego podstawienia metoda repróbkowania - efektywne ponowne użycie próby uczącej

Estymator metodą powtórnego podstawienia err = 1 n n L(ˆf (X i ), Y i ). i=1 err jest naturalnym estymatorem Err U. Ale: elementy próby U pełnią funkcję niezależnych od U obserwacji (X, Y ). Jest estymatorem optymistycznym w tym sensie, że z reguły możemy sie spodziewać, że Możemy porównać err < Err U. E Y ( err X) z E Y (Err in X) Y = (Y 1,..., Y n ), X = (X 1,..., X n ).

Twierdzenie 1. Dla kwadratowej funkcji straty w (i) i 0-1 w (ii) E Y ( err X) = E Y (Err in X) 2 n n Cov(Ŷi, Y i X). Im bardziej elastyczna metoda predykcji (silnej skorelowane Ŷi i Y i ) tym większy optymizm err. Człon kara kowariancyjna. 2 n i=1 n Cov(Ŷi, Y i X) i=1

Dowód Porównujemy przy ustalonym X kwadraty wyrażeń (Y i ˆf (X i )) (1) z (Y 0 i ˆf (X i )) (2) (1) = (Y i f (X i )) (ˆf (X i ) E(ˆf (X i ) X) + (f (X i ) E(ˆf (X i ) X) =: A + B + C (2) = A + B + C A := Y 0 i f (X i ) Liczymy E((1) 2 X) i E((2) 2 X) 2E(A B X) 2E(A B X) E(A B X) = E Y (E(A B X, Y)) = E Y (BE(A X, Y)) = 0 E(AB X) = Cov(Y i, Ŷi X)

Model liniowy Przypadek szczególny (i): Y i = X iβ + ε i X i = (X i1,..., X ip ), β = (β 1,..., β p ). X = (X 1, X 2,..., X n ) macierz eksperymentu n p z wierszami = X 1, X 2,... X n. Z definicji Err in = n 1 n i=1 E Y 0(Y i 0 ˆf (X i )) 2 U) E Y (Err in X) = σ 2 + 1 n E( Xˆβ Xβ 2 X)

Fakt Dla modelu liniowego n Cov(Ŷi, Y i X) = pσ 2, i=1 jeśli rząd X = p i σ 2 = Var(ε). Dowód Ŷ = HX, gdzie H = X(X X) 1 X n Cov(Ŷi, Y i X) = E((HY Xβ) ε) X) = i=1 = E(ε Hε) = pσ 2. Tylko w przybliżeniu prawdziwe dla innych modeli i metod!

Dla modelu liniowego i kwadratowej funkcji straty estymator E Y (Err in X) ma postać err + 2 p n ˆσ2 = 1 n RSS + 2p n ˆσ2 ( ) Jeśli E ˆσ 2 = σ 2 to ( ) nieobciążony estymator E(Err in X). W takiej sytuacji nieobciążony estymator 1 n E( Xˆβ Xβ 2 X) ma postać Funkcja kryterialna Mallowsa. C p = 1 n RSS + 2p n ˆσ2 ˆσ 2.

Estymator kroswalidacyjny (rotacyjny) oczekiwanego błędu prognozy Err Modele (i) i (ii). Próbę U dzielimy na K > 1 w przybliżeniu równych części. κ : {1,..., n} {1,..., K} (funkcja przynależności do elementu podziału). Ŷ i j = ˆf i (X j ) prognoza Y j na podstawie próby z usuniętą i-tą częścią. CV = 1 n L(Y j, Ŷ κ(j) j ). n Y j prognozowana na podstawie próby niezależnej od Y j zgodnie z definicją Err. Co estymujemy? U i : próba z usuniętą i-tą częścią. Oszacowanie błędu j=1 CV = 1 K K Ê(L(X, Y ) U i ) = Ê(Err U 1) i=1

Nie estymujemy warunkowego błedu klasyfikatora ˆd U dla danej próby U tylko oczekiwany błąd klasyfikatora ˆd U 1 = Err (n(k 1)/K) Hypothetical learning curve 1 err 0.0 0.2 0.4 0.6 0.8 0 50 100 150 200

Uwagi o estymatorze kroswalidacyjnym 1. Liczba podziałów K = 5, 10 i K = n. (leave-one out). W ostatnim przypadku najmniejsze obciążenie estymatora (jako oszacownania Err n dla liczności próby n), największa wariancja (skorelowanie czynników w definicji CV. 2. Obciażenie estymatora kroswalidacyjnego jako estymatora Err n dla K = 5, 10 może być znaczne.

cp 3. Niestabilność CV związana z losowością podziału na K części. size of tree 1 2 3 4 6 7 10 11 13 X val Relative Error 0.4 0.6 0.8 1.0 1.2 Inf 0.24 0.13 0.07 0.041 0.03 0.021 0.013

size of tree 1 2 3 4 6 7 10 11 13 X val Relative Error 0.4 0.6 0.8 1.0 1.2 Inf 0.24 0.13 0.07 0.041 0.03 0.021 0.013 cp

size of tree 1 2 3 4 6 7 10 11 13 X val Relative Error 0.4 0.6 0.8 1.0 1.2 Inf 0.24 0.13 0.07 0.041 0.03 0.021 0.013 cp

size of tree 1 2 3 4 6 7 10 11 13 X val Relative Error 0.4 0.6 0.8 1.0 1.2 Inf 0.24 0.13 0.07 0.041 0.03 0.021 0.013 cp

CV jako metoda estymacji Err U i Err Przykład (ESL, rozdział VII) (Y, X) {0, 1} R 20 : Y = 1 jeśli 10 i=1 X i > 5, 0 w przeciwnym przypadku. CV-10 i CV leave-one-out jak estymatory Err U i Err liczone dla 100 prób uczących (n = 80). Metoda estymacji: regresji liniowa dla najlepszego podzbioru predyktorów danej liczności (argmin M: M =p RSS M ) Czerwona linia - Err Czarna linia - ECV 10 i ECV n