MNK z losową macierzą obserwacji Równanie modelu y = X β + ε Jeżeli X zawiera elementy losowe to należy sprawdzić czy E(b β) = E[(X X ) 1 X ε]? = E[(X X ) 1 X ]E(ε) Przypomnienie: Nieskorelowane zmienne losowe Z teorii RP wiemy, że jeśli X,Y zmienne losowe E(XY ) = E(X )E(Y ) cov(x, Y ) = 0
Zmodyfikowane założenia 1 Proces generujący dane, 2 Liniowość, 3 Warunkowa wartość oczekiwana składnika losowego jest równa zero, i E(ε i X ) = 0 4 Warunkowa wariancja składnika losowego jest identyczna dla każdej obserwacji, i var(ε i X ) = σ 2
Wnioski 1/2 Konsekwencją 3 założenia jest E(y X ) = E(X β + ε X ) = E(X β X ) + E(ε X ) = X β }{{} 0 Warunkowa wartość oczekiwana estymatora E(b X ) = β+e((x X ) 1 X ε X ) = β+(x X ) 1 X E(ε X ) = β }{{} 0 Estymator MNK jest również bezwarunkowo nieobciążony E(E(b X )) = E(β) = β
Wnioski 2/2 Podobnie uzyskiwany jest wzór na warunkową wariancję estymatora var(b X ) = var(β + (X X ) 1 X ε X ) = = (X X ) 1 X var(ε X )X (X X ) 1 = σ 2 (X X ) 1 Rozkłady estymatorów w próbach o małej liczbie obserwacji wyprowadzane są przy założeniu ε X N (0, σ 2 I)
estymatora 1 E(x i ε i ) = 0 i 2 E(x i x i) = Σ x i jest odwracalna Zbieżność według prawdopodobieństwa Ciąg zmiennych losowych a n jest zbieżny według prawdopodobieństwa do granicy a gdy alternatywnie δ > 0 δ > 0 lim Pr( a n a > δ) = 0 n lim Pr( a n a δ) = 1 n Zbieżność według prawdopodobieństwa oznaczamy symbolem plim
estymatora 3 plim( 1 N x i ε i ) = E(x i ε i) 4 plim( 1 N x i x i ) = E(x i x i) Twierdzenie Słuckiego (1925) Jeżeli funkcja g( ) jest ciągła w otoczeniu punktu a, to a n p a = g(an ) p g(a) zapis alternatywny plim g(a n ) = plim g(a)
Wnioski z Twierdzenia Słuckiego Podstawowa zaleta E(g(x n )) g(e(x n )) ale plim(g(x n )) = g(plim(x n )) p p p Wnioski. Jeżeli a n a, bn b, Cn C 1 plim(a n ± b n ) = a ± b 2 plim a nb n = a b 3 plim Cn 1 = C 1 o ile C 1 istnieje
Wnioski z Twierdzenia Słuckiego Zbieżność według rozkładu Mówimy, że ciąg zmiennych losowych X n jest zbieżny według rozkładu do rozkładu prawdopodobieństwa o dystrybuancie F (X ), jeżeli lim n F n(x ) = F (X ) Zbieżność według rozkładu oznaczamy X n D X Dodatkowo jeśli x n D η, plim yn = y, oraz x n i y n są niezależne to x n + y n D η + y, xn y n D η y
estymatora wektora parametrów MNK plim(b) = plim[(x X ) 1 X y] = plim[(x X ) 1 X (X β + ε)] = Z własności zbieżności według prawdopodobieństwa [ ] [ = β + plim (X X ) 1 X ε = β + plim N(X X ) 1 1 ] N X ε [ ( X X ) 1 X ε ] = β + plim N N Z własności 3 i 4 oraz PWL wiemy, że ( X X = β + plim N = β + E(x i x i ) 1 E(x i ε }{{} i ) = β 0 ) 1 ( X ε ) plim N
estymatora wektora parametrów MNK Ale cov(x i, ε i ) = E(x i, ε i ) E(x i ) E(ε i ) = E(x }{{} i, ε i ) 0 Wobec tego do uzyskania zgodności estymatora niezbędne jest by cov(x i, ε i ) = 0 To założenie jest słabsze od warunkowej niezależności składnika losowego od macierzy obserwacji Chociaż przy spełnionym założeniu o wielowymiarowej normalności składnika losowego są one równoważne
estymatora wektora parametrów MNK Aby pokazać zgodność estymatora MNK, należy udowodnić że średnie wartości z próby zbiegają do wartości oczekiwanych Pokażemy zbieżność dla pojedynczych elementów wektorów x i x i oraz x i ε i Oznaczmy je odpowiednio x ri x si oraz x ri ε i
Dowód zgodności (szkic) Z PWL wynika, że założenia 3 i 4 są spełnione jeżeli 1 var(x ri x si ) = σ 2 x r x s < r, s, i = 1... n 2 cov(x ri x si, x rj x sj ) = 0 i, j = 1... n i j i analogicznie 3 var(x ri ε i ) = σ 2 x r ε < r, i = 1... n 4 cov(x ri ε i, x rj ε j ) = 0 i, j = 1... n i j
estymatora wektora parametrów MNK - przypadek ogólny Warunki zgodności dla estymatora MNK przy heteroscedastyczności i/lub autokorelacji składnika losowego 1 1 lim n N var(x rix si ) = σx 2 r x s < r, s, i = 1... n 2 1 lim n N cov(x rix si, x rj x sj ) = 0 i, j = 1... n i j 3 1 lim n N var(x riε i ) = σx 2 r ε < r, i = 1... n 4 1 lim n N cov(x riε i, x rj ε j ) = 0 i, j = 1... n i j
Asymptotyczny rozkład estymatora MNK Założenie 1 X ε = ( 1 ) D ( N xi ε i N 0, σ 2 E(x i x i ) ) N N więc ( 1 ) 1 ( 1 N(b β) = N X ) D X xi ε i [E(x N i x i )] 1 η Z własności rozkładu normalnego i twierdzenia Sluckiego N(b β) D N ( 0, σ 2 E(x i x i ) ) Wobec tego b a N ( β, σ 2 (X X ) 1)
Równoczesność O występowaniu równoczesności mówimy, gdy cov(x i, ε i ) = E(x i, ε i ) 0 Są dwa powody występowania równoczesności 1 zmienne pominięte 2 sprzężenie zwrotne Konsekwencją występowania równoczesności jest brak zgodności estymatora
Równoczesność Mamy model ln(zarobki) = β 0 + β 1 plec + β 2 dosw + β 3 dosw2 + ε Jeśli pominiemy zmienną dosw 2 i oszacujemy model ln(zarobki) = β 0 + β 1 plec + β 2 dosw + η To wtedy η = β 3 dosw2 + ε W konsekwencji cov(η, dosw) 0