1.3 Własności statystyczne estymatorów MNK

1.3 Własności statystyczne estymatorów MNK 1. Estymator nazywamy estymatorem nieobciążonym, jeżeli jego wartość oczekiwana jest równa wartości szacowanego parametru. Udowodnimy, że estymator MNK wektora parametrów β jest nieobciążony. W tym celu obliczymy jego wartość oczekiwaną E(b) = E((X X) 1 X y) Podstawiając do wzoru formułę na y wynikającą z modelu liniowego otrzymujemy E(b) = E((X X) 1 X y) = E((X X) 1 X (Xβ + ε)) = E((X X) 1 X Xβ)+E((X X) 1 X ε) = E(β)+(X X) 1 X E(ε) = β }{{} 0 Rzeczywiście b jest estymatorem nieobciążonym. Estymator obciążony 2. Estymatorem liniowym nazywamy estymator, który można przedstawić jako kombinację liniową zaobserwowanych wartości zmiennej zależnej y. Estymator MNK wektora parametrów β jest liniowy, ponieważ b = (X X) 1 X y }{{} C 11

Obliczymy obciążenie dowolnego estymatora liniowego ˆb. Niech ˆb = Cy gdzie C jest macierzą nielosową, będzie dowolnym estymatorem liniowym. Wtedy: E(ˆb) = E(Cy) = CE(y) = CE(Xβ + ε) = CXβ Estymator liniowy Cy jest nieobciążony wtedy i tylko wtedy, gdy CX = I. Istnieje nieskończenie wiele macierzy C o tej własności. 3. Wariancja estymatora wektora parametrów β var(b) = E(b β)(b β) = E[((X X) 1 X X β+(x X) 1 X ε β)((x X) 1 X X β+(x X) 1 X ε β) ] = }{{}}{{} I I E[(X X) 1 X εε X(X X) 1 ] = (X X) 1 X E(εε )X(X X) 1 = ponieważ macierz X jest nielosowa, możemy ją wyłączyć spod znaku wartości oczekiwanej otrzymując E(εε )(X X) 1 X X(X X) 1 = σ 2 (X X) 1 }{{} I 4. Wariancja estymatora liniowego Niech macierz C = (X X) 1 X + D. Wobec tego CX = (X X) 1 X X + DX = I + DX Z tego wynika, że estymator ˆb jest nieobciążony gdy DX = 0. var(ˆb) = E[(Cy β)(cy β) ] = bowiem wobec tego E[(CXβ + Cε β)(cxβ + Cε β) ] = E[(β + Cε β)(β + Cε β) ] = CC E(εε ) = σ 2 CC = σ 2 (X X) 1 + σ 2 DD D = C (X X) 1 X DX = CX (X X) 1 X X = I I = 0 12

Lemat 1 Twierdzenie A11 (Greene): Niech A będzie macierzą symetryczą. Jeżeli wszystkie pierwiastki charakterystyczne A są dodatnie (ujemne) to macierz A jest dodatnio ujemnie określona. Jeżeli wśród pierwiastków charakterystycznych są zera wówczas macierz jest nieujemnie (niedodatnio) określona gdy pozostałe pierwiastki charakterystyczne są dodatnie (ujemne) Lemat 2 Jeżeli A jest macierzą o wymiarach N k o pełnym rzędzie kolumnowym i n > k, wówczas A A jest dodatnio określona oraz AA jest nieujemnie określona. Dowód: Z założenia wiemy, że Ax 0 x A Ax = (Ax) (Ax) = y y = i y 2 i > 0 Ponieważ macierz DD jest nieujemnie określona (na mocy lematu 1), wariancja dowolnego liniowego estymatora jest większa o nieujemnie zdefiniowaną macierz od wariancji estymatora uzyskanego z MNK. 5. Nieobciążony estymator wariancji dla estymatora wektora parametrów b. e = My = M(Xβ + ε) = Mε ponieważ MX = 0 e e = ε M Mε = ε Mε E(e e) = E(ε Mε) = E(tr(ε Mε)) = E(tr(Mε ε)) = tr(me(ε ε)) = ponieważ estymator jest liniowy, a macierz M nielosowa i idempotentna. Należy również zauważyć, że macierz idempotentna jako wartości własne ma wyłącznie 0 i 1. tr(mσ 2 ) = σ 2 tr(m) = σ 2 tr(i X(X X) 1 X ) = σ 2 (N tr(x(x X) 1 X )) = σ 2 (N tr((x X) 1 X X)) = σ 2 (N k). Macierz X ma wymiary NxK. Więc macierze (X X) oraz (X X) 1 mają wymiary KxK. Ponieważ macierz (X X) 1 X X jest macierzą idempotentną o pełnym rzędzie więc można ją doprowadzić do postaci diagonalnej z wartościami 1 na diagonali. Z tego wynika, że jej ślad wynosi k. Wobec tego S 2 = e e jest nieobciążonym estymatorem nieznanej N k wariancji składnika losowego. 13

Przykład 1. W klasycznym modelu regresji liniowej y = Xβ + ε zastąpiono standardowy estymator parametru β przez b = (X AX) 1 X Ay, gdzie A NxN jest znaną nielosową macierzą symetryczną. Sprawdź czy: (a) estymator b jest liniowy, (b) estymator b jest nieobciążony, (c) znaljdź jego macierz wariancji. Rozwiązanie ad (a) Estymator b jest liniowy ponieważ jest liniową funkcją zmiennej y. ad (b) E(b ) = E((X AX) 1 X Ay) = E((X AX) 1 X A(Xβ + ε)) = E[(X AX) 1 X AXβ + (X AX) 1 X Aε] = E(β) + E[(X AX) 1 X Aε] = β + (X AX) 1 X AE(ε) = β ad (c) var(b ) = E(b E(b ))(b E(b )) = E(b β))(b β) ) = E(((X AX) 1 X Ay β)((x AX) 1 X Ay β) ) = E(((X AX) 1 X A(Xβ + ε β))((x AX) 1 X A(Xβ + ε β)) ) = E(((X AX) 1 X AXβ+(X AX) 1 X Aε β)((x AX) 1 X AXβ+(X AX) 1 X Aε β) ) = E((β + (X AX) 1 X Aε β)((β + (X AX) 1 X Aε β) ) = E(((X AX) 1 X Aε)(((X AX) 1 X Aε) ) = E((X AX) 1 X Aεε A X(X AX) 1 ) = (X AX) 1 X AE(εε )A X(X AX) 1 = E(εε )(X AX) 1 X AA X(X AX) 1 = σ 2 (X AX) 1 X AA X(X AX) 1 14

Przykład 2. Pokaż, że estymator b = (X X + A) 1 X y jest nieobciążony w KMRL wtedy i tylko wtedy gdy Aβ = 0. Rozwiązanie By pokazać nieobciążoność estymatora należy obliczyć jego obciążenie: E( b) = E((X X + A) 1 X y) E( b) = E((X X + A) 1 X (X b) + ε) E( b) = E((X X + A) 1 X X b + (X X + A) 1 X ε) E( b) = E((X X + A) 1 X X b) + E((X X + A) 1 X ε) E( b) = E((X X + A) 1 X X b) + (X X + A) 1 X E(ε) E( b) = E((X X + A) 1 X X b) + 0 (1) Ponieważ estymator z równania (1) różni się od zwykłego estymatora MNK, który jest nieobciążony, tylko macierzą A to jest on nieobciążony wtedy i tylko wtedy gdy A = 0. Wobec tego iloczyn A b = 0 jeśli b jest estymatorem nieobciążonym. Przykład 3. Mamy model następującej postaci: y t = β 1 + β 2 d t + ε t t = 1... T d t = { 1 dla t k 0 dla t > k var(ε) = σ 2 I (a) Posługując się wzorami dla MNK wyprowadź postać estymatorów MNK dla parametrów β 1 i β 2 i oblicz je dla T = 40, k = 20, T t=1 y t = 30, k t=1 y t = 10. (b) udowodnij, że te estymatory są nieobciążone jeśli spełniają założenia KMRL, (c) Podaj postać macierzy wariancji-kowariancji dla estymatorów b 1 i b 2 jeśli spełnione są założenia KMRL. 15

Podpowiedź Skorzystaj z tego, że: [ T k k k ] 1 = 1 T k [ 1 1 1 T k ] Rozwiązanie ad (a) Dla tego modelu 1 1.. 1..k 1 1 X = 1 0.. k + 1..T 1 0 więc [ T k, X X = k k ] [ T X y = t=1 y t k t=1 y t b = (X X) 1 X y = 1 [ ] [ 1 1 T t=1 y ] t T T k 1 k k t=1 y t b = 1 [ ] [ ] [ ] 1 1 30 1 = 20 1 2 10 ad (b) Można zastosować standardowy dowód na nieobciążoność estymatora KMRL: E(b) = E((X X) 1 X y) = E((X X) 1 X (Xβ+ε)) = β+(x X) 1 X E(ε) = β Estymator jest nieobciążony. ac (c) jeżeli spełnione są założenia KMRL to macierz wariancji jest równa [ ] var(b) = σ 2 (X X) 1 = σ 2 1 1 1 T k 1 1.4 Testowanie hipotez statystycznych Lemat 3 Niech X będzie wektorem o standardowym rozkładzie normalnym N(0, 1). Wtedy X X χ 2 k, gdzie k jest rzędem macierzy X. Niech A będzie macierzą idempotentną rzędu r. Wtedy forma kwadratowa X AX χ 2 r ma rozkład χ 2 o r stopniach swobody. 16 1 2 T k ]

Lemat 4 Niech X będzie pojedynczą zmienną losową o rozkładzie X N(0.1), oraz niech w χ 2 r. Dodatkowo załóżmy że zmienne losowe X i w są niezależne. Wówczas: X w t r (2) r ma rozkład t-studenta o r stopniach swobody. Jeżeli przez i k oznaczymy wersor k-tej osi, oraz przez b k = i kb, k - ty element wektora estymatorów, oraz przez c kk = i k (X X) 1 i k element stojący na k-tym miejscu diagonali macierzy (X X) 1. Wówczas estymator pojedynczego parametru ma rozkład b k N(β k, σ 2 C kk ). Jeżeli ten rozkład wystandaryzujemy to otrzymamy: b k β k σ C kk N(0, 1) (3) Estymator nieznanego parametru równania regresji ma rozkład normalny, lecz w większości przypadków nie znamy wariancji zmiennej losowej dla której liczymy estymator. Nieznaną wariancję z populacji zastępujemy estymatorem obliczonym na podstawie wylosowanej próby. Można łatwo pokazać że: (N k)s 2 σ 2 χ 2 r (4) Podstawiając (3) oraz (4) do wzoru na statystykę t-studenta (2), otrzymujemy: b k β k σ (N k)s / 2 C kk σ 2 (N k) = b k β k S t N k C kk Ponieważ estymatory b i S są niezależne. (Dowód tego faktu jest dobrym ćwiczeniem). W testach statystycznych nie jest możliwe jednoczesne kontrolowanie rozmiarów błędu pierwszego i drugiego rodzaju. W ekonometrii przyjęto praktykę przyjmowania za hipotezę zerową taką hipotezę o której zakładamy, że jest fałszywa, a następnie staramy się ją sfalsyfikować, czyli odrzucić. Do badania istotności oszacowanych parametrów równania regresji używamy statystyki t-studenta. W testach zazwyczaj przyjmuje się 5% poziom istnotności, co oznacza że błąd pierwszego rodzaju jest nie wyższy niż 5%. Oznacza to, że jeżeli rzeczywiście badany parametr jest równy zero to przeprowadzony przez nas test wykaże to w conajmniej w 95 przypadkach na 100 przeprowadzonych testów. Jednak zawsze istnieje prawdopodobieństwo popełnienia błędu drugiego rodzaju, czyli przyjęcia hipotezy fałszywej. Taką hipotezę uznajemy za prawdziwą w sytuacji, gdy na postawie przeprowadzonego testu odrzucamy hipotezę zerową. 17

Test sprawdza czy parametr β k jest istotnie różny od zera. Hipotezą zerową testu istnotności jest H 0 : β k = 0. Wobec tego statystyka testowa redukuje się do: b k S C kk = b k se(b k ) t α,n k (5) Ta statystyka jest podstawową wartością liczoną przez każdy pakiet statystyczny. Zazwyczaj jest ona nazywana t-ratio. Jeżeli obliczona wartość statystyki jest większa od wartości krytycznej odczytanej z tablic, wtedy odrzucamy hipotezę zerową i mówimy że współczynnik jest istotny statystycznie. Wartości krytyczne dla dużych prób na poziomie istotności 5% wynoszą odpowiednio t = 1.96 dla testu dwustronnego lub t = 1.64 dla jednostronnego. Dla dużych prób rozkład t-studenta dąży według rozkładu do rozkładu normalnego, i powyższe wartości są po prostu kwantylami rozkładu normalnego. Mogą one być traktowane jako wyznaczniki istotności w przypadku gdy nie dysponujemy tablicami statystycznymi. Pakiet STATA wraz ze statystyką t ratio podaje jej p-value, czyli oblicza jakie jest prawdopodobieństwo, że statystyka t przyjmie obliczoną wartość pod warunkiem prawdziwości hipotezy zerowej. Interpretacja p-value jest prosta. Jeśli p-value 0.05 (wartość statystyki t jest duża) to odrzucamy hipotezę zerową, o tym że dany parametr regresji jest równy 0, na korzyść hipotezy alternatywnej że jest od zera różny. Testowanie istotności równania regresji Zazwyczaj duże znaczenie badawcze ma pytanie czy równanie regresji jako całość jest statystycznie istotne. Ten test jest łącznym testem hipotezy, że jednocześnie wszystkie parametry wektora β poza stałą są równe zero. Jeżeli wszystkie współczynniki β są równe zero to równanie regresji liniowej niewiele wyjaśnia, wobec tego współczynnik R 2 jest mały. Test sprawdzający istnotność równania regresji bazuje na wartości statystyki R 2. Statystyka testowa R 2 /(k 1) F (k 1, N k) = (6) (1 R 2 )/(N k) ma rozkład F z (k-1) i (N-k) stopniami swobody. k-1 to liczba zmiennych w równaniu regresji bez stałej, a N-k to liczba zmiennych wolnych (stopni swobody). Statystyka F mierzy utratę dopasowania, gdy narzucimy ograniczenie, że wszystkie współczynniki równania regresji poza stałą są równe zero. Jeżeli przekształcimy wzór (6) to otrzymamy: F (k 1, N k) = 18 (N k)r2 (k 1)(1 R 2 )

R 2 = k 1 N k (1 R2 )F (k 1, N k) R 2 = k 1 k 1 F (k 1, N k) F (k 1, N k)r2 N k N k R 2 = k 1 F (k 1, N k) N k 1 + k 1 F (k 1, N k) N k Widać, że duża wartość R 2 współwystępuje z dużą wartością statystyki F. Przykład 2. Po przeprowadzeniu wywiadu z piędziesięcioma osobami oszacowano MNK model płac o postaci: lnw t = β 0 + β 1 A t + β 2 S t + ε t gdzie W to indywidualna płaca (w złotych), A - okres zatrudnienia w pełnym wymiarze czasu (w latach), S - liczba lat nauki (w latach). Oto wyniki: lnw ˆ t 1.202 0.029A t 0.123S t R 2 = 0.396 (0.197) (0.006) (0.035) (a) Oceń jakość dopasowania modelu do danych empirycznych, (b) Sprawdź czy zmienne występujące w modelu są istotne łącznie i każda z osobna. (c) Zinterpretuj otrzymane wyniki. Rozwiązanie ad (a) R 2 = 1 49 (1 0.396) = 0.3703 47 Około 37 % zróżnicowania płac jest wyjaśniane przez model. ad (b) t β0 = 1.202 0.197 = 6.10 t β 1 = 0.029 0.006 = 4.83 t β 2 = 0.123 0.035 = 3.51 czyli każda zmienna osobno jest istotna. Pozostał jeszcze do przeprowadzenia test łącznej istostności. F (2, 47) = 0.396/2 0.604/47 = 0.198 0.012851 = 15.40 19

Wartość krytyczna F 0.95 (2, 50) = 2.79, wobec tego statystyka testowa znajduje się w obszarze krytycznym, czyli odrzucamy hipotezę zerową o tym że współczynniki regresji są łącznie nieistotne. ad (c) Wzrost stażu pracy o rok przyczynia się do przeciętnego wzrostu płacy o 3 %, ponieważ e 0.029 = 1.029. Rok nauki przyczynia się do wzrostu średniej płacy o 13 %, ponieważ e 0.123 = 1.13. Przykład 3. Na podstawie informacji z badań gospodarstw domowych w czterech krajach europejskich zbudowano następujący model opisujący strukturę wydatków. lns n = β 0 + β 1 ln(i n ) + β 2 ln(f n ) + ε n gdzie lns to logarytm oszczędności (w walucie krajowej), lni - logarytm dochodu (w walucie krajowej), lnf - logarytm wydatków na żywność (w walucie krajowej). By zlikwidować efekty zróżnicowania pomiędzy krajami do modelu dodano stałe dla każdego kraju. Dodatkowo przyjmujemy założenie, że wydatki konsumpcyjne nie zależą od dochodu. Sprawdź statystyczną istotność otrzymanych wyników i dokonaj ich interpretacji Number of obs = 13445 F( 2, 13439) = 1047.13 Prob > F = 0.0000 R-squared = 0.5108 Adj R-squared = 0.5106 Root MSE = 1.8623 --------------------------------------------------------------------------- savings Coef. Std. Err. t P> t [95% Conf. Interval] -----------+--------------------------------------------------------------- income 1.048205.0302841...9888439 1.107566 food -.0459197.0203422...4193238.4990709 _cons -.3158473.2269704.. -.7607412.1290467 -----------+--------------------------------------------------------------- country F(3, 13439) = 579.538 0.000 (4 categories) Rozwiązanie t βinc = 1.048 0.030 = 34.93 t β food = 0.0459 0.020 = 2.29 t βcons = 0.316 0.227 = 1.39 Indywidualne statystyki t wskazują, że jedynie stała w modelu nie jest statystycznie istotna. Łącznie zmienne są istotne na co wskazuje wartość statystyki 20

F. Wyestymowany model jest modelem log-liniowym, więc otrzymane współczynniki mogą być interpretowane jako elastyczności. 1% wzrost dochodu powoduje 1,04% wzrost oszczędności, natomiast 1 % wzrost wydatków na żywność powoduje 0,05 % spadek oszczędności. Literatura [1] William H. Greene (2003) Econometric Analysis, 5th edition. [2] Jerzy Mycielski (2000), WNE. [3] Aleksander Welfe (1998) Zbiór zadań z ekonometrii, PWE 21