Stosowana Analiza Regresji

Stosowana Analiza Regresji Wykład VI... 16 Listopada 2011 1 / 24

Jest to rozkład zmiennej losowej rozkład chi-kwadrat Z = n i=1 X 2 i, gdzie X i N(µ i, 1) - niezależne. Oznaczenie: Z χ 2 (n, λ), gdzie: n - liczba stopni swobody, λ = 1 2 n i=1 µ2 i - parametr niecentralności. Fakt. Z χ 2 (n, λ) EZ = n + 2λ, VarZ = 2n + 8λ. Uwaga. Zwykły (n) jest tożsamy z χ(n, 0) i zachodzi: EZ = n, VarZ = 2n dla Z χ 2 (n). 2 / 24

rozkład chi-kwadrat Przykład: 0.00 0.05 0.10 0.15 χ 2 (5) χ 2 (5,5) 0 10 20 30 40 Tw. Z i χ 2 (n i, λ i ) - niezależne k Z i χ 2 ( k n i, k λ i ). i=1 i=1 i=1 3 / 24

Rozkład F Rozkład F jest to rozkład zmiennej losowej W = Z 1/n 1 Z 2 /n 2, gdzie Z 1 χ 2 (n 1 ), Z 2 χ 2 (n 2 ) - niezależne. Oznaczenie: n 1, n 2 - stopnie swobody. W F(n 1, n 2 ), Fakt. W F(n 1, n 2 ) EW = n2 n 2 2, VarW = 2n2 2 (n1+n2 2) n 1(n 2 1) 2 (n 2 4). 4 / 24

Jest to rozkład zmiennej losowej W = Z 1/n 1 Z 2 /n 2, gdzie Z 1 χ 2 (n 1, λ), Z 2 χ 2 (n 2 ) - niezależne. Oznaczenie: n 1, n 2 - stopnie swobody, λ - parametr niecentralności. W F(n 1, n 2, λ), Fakt. W F(n 1, n 2, λ) EW = n2 n 2 2 ( 1 + 2λ n 1 ). 5 / 24

Przykład: 0.0 0.2 0.4 0.6 F(5,10) F(5,10,10) 0 2 4 6 8 10 6 / 24

Rozkład statystyki F Ogólny test liniowy: ω : Y = X 1 β 1 + ε p parametrów Ω : Y = X 1 β 1 + X 2 β 2 + ε p + q parametrów Testujemy: H 0 : ω przeciwko H 1 : Ω \ ω Statystyka F : F = (SSE ω SSE Ω )/q SSE Ω /(n p q) 7 / 24

Rozkład statystyki F Przy H 1 zachodzi: 1 (SSE ω SSE Ω ) niezależne od SSE Ω 2 σ 2 SSE Ω χ 2 (n p q) 3 σ 2 (SSE ω SSE Ω ) χ 2 (q, λ), gdzie λ = σ 2 (Xβ) H 2 Xβ, H 2 = H H 1. Zatem przy hipotezie alternatywnej mamy: F F(q, n p q, λ). może być więc użyty do obliczenia mocy testu (prawd. odrzucenia H 0, gdy H 0 fałszywa). Wykazano, że moc rośnie, gdy n 2 lub λ rośnie, i maleje, gdy n 1 rośnie. 8 / 24

Odchylenie modelu ω od modelu Ω (deviance): dev ω,ω = 2 log L Ω(ˆθ Ω NW ) L ω (ˆθ ω NW ), gdzie: ˆθ NW Ω, ˆθ NW ω - estymatory największej wektora nieznanych parametrów występujących w modelach Ω i ω, odpowiednio. Testy oparte o dev ω,ω nazywamy testami ilorazu (LRT - likelihood ratio test). Przy H 0 : ω mają one z reguły asymptotyczny rozkład chi-kwadrat. 9 / 24

Dla modelu liniowego: jeśli σ 2 znane: L( ˆβ NW ) = { 1 1 } exp (Yi (2πσ 2 ) n/2 2σ 2 x i ˆβ) 2. Zatem Mamy więc dev ω,ω = 1 σ 2 (SSE ω SSE Ω ). F = 1 q SSE ω SSE Ω ˆσ 2 Ω = 1 q dev ω,ω. jeśli σ 2 nieznane: dev ω,ω = n log SSE ω SSE Ω. Również w tym przypadku test oparty o dev ω,ω jest równoważny testowi F. 10 / 24

Dane: D = ((x 1, Y 1 ),..., (x n, Y n )) ˆf D - estymator funkcji regresji w skonstruowany oparciu o D. Cel: ocena błędu popełnianego dla nowej losowej obserwacji (x, Y ) niezależnej od D i pochodzącej z tego samego modelu (błąd ten jest miarą jakości estymatora ˆf D ). Możemy estymować: ( ( Err D = E Y ˆf ) ) 2 D (x) D, lub ( ( ) ) 2 Err = E Y ˆf D (x) = E (Err D ). 11 / 24

1.. Próba testowa o liczności m niezależna od danych D, pochodząca z tego samego rozkładu co D: T = ( (x t 1, Y t 1 ),..., (x t m, Y t m) ) Estymator błędu na podstawie T : Êrr D = 1 m m i=1 ( Yi t ˆf 2 D (xi )) t. 12 / 24

2. (sprawdzanie krzyżowe) dzielimy próbę D na K części (losowo), dopasowujemy model w oparciu o dane D z wyłączeniem jednej z K części, obliczamy błąd dla wyłączonej części danych, postępowanie powtarzamy dla każdej z K części. Na końcu uśredniamy obliczone błędy. Formalnie: κ : {1,..., n} {1,..., K} - przyporządkowuje każdej obserwacji nr bloku, do którego ona należy. ˆf k (x) - model dopasowany bez użycia k-tej części, k = 1,..., K. Wtedy: Êrr = 1 n n i=1 ( Y i ˆf κ(i) (x i )) 2. 13 / 24

Typowo przyjmuje się: K = 5, 10, n. K = n leave-one-out crossvalidation. Wtedy otrzymujemy: PRESS = n e(i) 2, gdzie: e (i) - rezyduum dla i-tej obserwacji w modelu dopasowanym na podstawie n 1 obserwacji z pominięciem i-tej obserwacji. i=1 PRESS - Predicted Residual Sum of Squares. 14 / 24

3. : wielokrotne repróbkowanie elementów z oryginalnej próby D (losowanie ze zwracaniem); otrzymujemy m pseudoprób o liczności n każda, na podstawie każdej z nich dopasowujemy model ˆf b, b = 1,..., m; dla każdej obserwacji z pierwotnych danych liczymy średni błąd w modelach nie wykorzystujących tych obserwacji; uśredniamy otrzymane wielkości po wszystkich obserwacjach Êrr = 1 n n i=1 1 C i b C i ( Y i ˆf b (x i )) 2, C i - zbiór indeksów modeli dopasowanych na podstawie pseudoprób nie zawierających i-tej obserwacji. Uwaga: Przy pomocy bootstrapu możemy też przybliżać rozkład estymatorów b i S 2. 15 / 24

Jest to rozwiązanie problemu: ( ( ˆβridge 0, ˆβ ridge) p 1 = arg min SSE + λ b dla ustalonego λ > 0, gdzie SSE = ( n i=1 Y i b 0 ) p 1 2. j=1 x ijb j Z Tw. Kuhna-Tackera wynika, że problem ten jest równoważny problemowi programowania wypukłego: ( ˆβridge 0, ˆβ ridge) = arg min b SSE przy war. j=1 b 2 j p 1 bj 2 j=1 ) t(λ). (1) Zatem szukamy minimum SSE przy nałożonym ograniczeniu na normę wektora (b 1,..., b p 1 ) lub, równoważnie, budujemy funkcję kryterialną dodając do SSE karę za dużą wartość normy tego wektora. 16 / 24

Uwaga 1. Kara w (1) nie uwzględnia b 0. W przeciwnym razie przesunięcie wektora Y o stałą nie skutkowałoby przesunięciem ˆβ ridge 0 o tę stałą. Uwaga 2. Rozwiązanie (1) jest równoważne wykonaniu dwóch kroków: ˆβ ridge 0 := Ȳ, regresja dla scentrowanych X i Y i bez uwzględnienia b 0 w SSE. Dowód:... 17 / 24

Mamy: Stąd SSE(λ) = (Y c X c b) (Y c X c b) + λb b b SSE(λ) = 2(Xc ) X c b 2(X c ) Y c + 2λb ˆβ ridge = ((X c ) X c + λi) 1 (X c ) Y c. Zatem sytuacja, gdy mac. (X c ) X c jest nieodwracalna lub bliska nieodwracalnej została zamieniona na sytuację bardziej stabilną numerycznie (macierz (X c ) X c + λi możemy odwrócić). 18 / 24

Dekompozycja na wartości szczególne (Singular Values Decomposition) X = UDV, gdzie: U(n p) - ortonormalna, jej kolumny rozpinają tę samą przestrzeń, co kolumny X, D(p p) - diagonalna, na przekątnej: wartości własne X X, V (p p) - ortonormalna, jej kolumny rozpinają przestrzeń wierszy X. Estymatory MNK i ridge można prosto wyrazić używając rozkładu SVD. 19 / 24

Dekompozycja na wartości szczególne Dla estymatorów MNK: Ŷ MNK = X(X X) 1 X Y = = UDV (VDU UDV ) 1 VDU Y = p p = UU Y = u j u jy = u j, Y u j. j=1 Zatem ŶMNK - rzut ortogonalny Y na podprzestrzeń rozpiętą przez kolumny mac. X. j=1 20 / 24

Dekompozycja na wartości szczególne Dla regresji grzbietowej (przy zał., że X scentrowana): Ŷ ridge = X(X X + λi) 1 X Y = = UDV (VDU UDV + λvv ) 1 VDU Y = = p j=1 u j = UD(D 2 + λi)du Y = dj 2 p d dj 2 + λ u j 2 jy = u j, Y u j dj 2 + λ. Współczynniki rzutu Y na lin(u 1,..., u p ) są ściągane przez przemnożenie przez współczynniki: j=1 d 2 j d 2 j + λ 1. 21 / 24

Porównanie MNK i ridge Estymator ˆβ MNK jest nieobciążony o macierzy kowariancji: σ 2 (X X) 1 = σ 2 VD 1 D 1 V. Estymator ˆβ ridge jest obciążony o macierzy kowariancji: σ 2 VD 1 (D 2 + λi) 2 D 4 D 1 V. Na przekątnej: ( d 2 j ) 2 1. d 2 j + λ Zatem dla i = 0,..., p 1. Var ˆβ ridge i Var ˆβ MNK i 22 / 24

Metoda (Least Absolute Shrinkage and Selection Operator): Równoważnie: ˆβ lasso = arg min b ˆβ lasso = arg min SSE b ) p 1 2 SSE + λ b j. ( 1 przy war. j=1 p 1 b j t. j=1 23 / 24

24 / 24