1.7 Ograniczenia nakładane na równanie regresji

Podobne dokumenty
Testowanie hipotez statystycznych

, a reszta dla pominiętej obserwacji wynosi 0, RSS jest stałe, T SS rośnie, więc zarówno R 2 jak i R2 rosną. R 2 = 1 n 1 n. rosnie. n 2 (1 R2 ) = 1 59

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Ekonometria egzamin 07/03/2018

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Egzamin z ekonometrii wersja IiE, MSEMAT

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Metoda najmniejszych kwadratów

Egzamin z ekonometrii - wersja ogólna

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Egzamin z ekonometrii wersja IiE, MSEMat Pytania teoretyczne

Ekonometria egzamin 31/01/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria Ćwiczenia 19/01/05

Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08

1.9 Czasowy wymiar danych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Egzamin z ekonometrii wersja ogolna

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Egzamin z ekonometrii wersja IiE, MSEMAT

1.6 Zmienne jakościowe i dyskretne w modelu regresji

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

1 Modele ADL - interpretacja współczynników

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Testowanie hipotez statystycznych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Czasowy wymiar danych

Egzamin z ekonometrii wersja IiE, MSEMAT

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Budowa modelu i testowanie hipotez

1.1 Klasyczny Model Regresji Liniowej

1.8 Diagnostyka modelu

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

1.3 Własności statystyczne estymatorów MNK

Ekonometria dla IiE i MSEMat Z12

Problem równoczesności w MNK

Testowanie hipotez statystycznych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Testowanie hipotez statystycznych

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Natalia Neherbecka. 11 czerwca 2010

Własności statystyczne regresji liniowej. Wykład 4

Ekonometria egzamin wersja ogólna 17/06/08

Diagnostyka w Pakiecie Stata

1.5 Problemy ze zbiorem danych

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Modele wielorównaniowe (forma strukturalna)

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Ekonometria egzamin wersja ogólna 29/01/08

Autokorelacja i heteroskedastyczność

Zmienne Binarne w Pakiecie Stata

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Weryfikacja hipotez statystycznych

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Metoda największej wiarogodności

2.3 Modele nieliniowe

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

2.2 Autokorelacja Wprowadzenie

Statystyka matematyczna dla leśników

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Przykład 2. Stopa bezrobocia

Analizowane modele. Dwa modele: y = X 1 β 1 + u (1) y = X 1 β 1 + X 2 β 2 + ε (2) Będziemy analizować dwie sytuacje:

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

Kolokwium ze statystyki matematycznej

Metoda najmniejszych kwadratów

Testowanie hipotez statystycznych

Diagnostyka w Pakiecie Stata

Rozdział 8. Regresja. Definiowanie modelu

1 Metoda Najmniejszych Kwadratów (MNK) 2 Interpretacja parametrów modelu. 3 Klasyczny Model Regresji Liniowej (KMRL)

Testowanie hipotez statystycznych.

Stanisław Cichocki. Natalia Nehrebecka

Transkrypt:

1.7 Ograniczenia nakładane na równanie regresji Często teoria ekonomiczna wskazuje dobór zmiennych do modelu. Jednak nie w każdym przypadku oceny wartości parametrów są statystycznie istotne. Zastanowimy się jak wpływ na jakość uzyskanych oszacowań wartości parametrów ma uwzględnianie niepotrzebnych (statystycznie nieistotnych) zmiennych objaśniających lub usuwanie potrzebnych (statystycznie istotnych). 1.7.1 Regresja podzielona Podzielmy równanie regresji w następujący sposób: y = Xβ + ε = X 1 β 1 + X 2 β 2 + ε (1) Chcemy uzyskać oszacowanie b 1 parametrów związanych ze zmiennymi zawartymi w macierzy X 1. Z własności hiperpłaszczyzny regresji wiemy, że X 1e = oraz X 2e =. Zapiszemy macierz idempotentną dla macierzy X 2 M X2 = I X 2 (X 2X 2 ) 1 X 2 Ta macierz zeruje współczynniki dla parametrów przy zmiennych zawartych w macierzy X 2. Przemnożymy (1) przez M X2 z lewej strony M X2 y = M X2 X 1 b 1 + M X2 X }{{} 2 β2 + M X2 e Mnożąc teraz lewostronnie przez X 1 uzyskujemy wobec tego M X2 y = M X2 X 1 b 1 + e (2) X 1M X2 y = X 1M X2 X 1 b 1 + X 1e }{{} b 1 = (X 1M X2 X 1 ) 1 X 1M X2 y (3) Wzór ten daje dokładnie ten sam wynik co standardowo obliczony estymator MNK. 1.7.2 Dodawanie i usuwanie regresorów z równania regresji Rozpatrzymy dwa równania regresji: y = X 1 β 1 + ε 1 (4) y = X 1 β 1 + X 2 β 2 + ε 2 (5) 37

Przypuśćmy, że zjawisko ekonomiczne jest opisywane przez równanie (5), ale do modelowania stosujemy równanie (4). Pomijamy k 2 regresorów zawartych w macierzy X 2 przyjmując, że odpowiednie współczynniki wektora β są równe zero. W modelu może pojawić się problem zmiennych pominiętych. Szacujemy nieznane współczynniki wektora β z równania (4) b 1 = (X 1X 1 ) 1 X 1y ale poprawnym modelem jest (5) zatem: b 1 = (X 1X 1 ) 1 X 1(X 1 β 1 +X 2 β 2 +ε 2 ) = β 1 +(X 1X 1 ) 1 X 1X 2 β 2 +(X 1X 1 ) 1 X 1ε 2 Jeżeli obliczymy wartość oczekiwaną tego estymatora otrzymamy: E(b 1 ) = β 1 + (X 1X 1 ) 1 X 1X 2 β 2 Zatem otrzymany przez nas estymator jest obciążony. Jego obciążenie wynosi (X 1X 1 ) 1 X 1X 2. W przypadku gdy przestrzeń rozpinana przez kolumny macierzy X 1 jest ortogonalna do przestrzeni rozpinanej przez kolumny macierzy X 2 to obciążenie estymatora b 1 znika, ponieważ E(b 1 ) = β 1 + (X 1X 1 ) 1 X 1X }{{} 2 Ekonomicznie oznacza to, że zmienne zawarte w macierzy X 2 są nieskorelowane ze zmiennymi zawartymi w macierzy X 1. Reszty z modelu (4) można zapisać jako: e 1 = M 1 y gdzie M 1 jest macierzą idempotentną utworzoną z macierzy X 1. Przekształcając wektor reszt otrzymujemy: e 1 = M 1 (X 1 β 1 + X 2 β 2 + ε 2 ) e 1 = M 1 X 2 β 2 + M 1 ε 2 Wobec tego estymatorem wariancji składnika losowego dla tego modelu jest: E(e 1e 1 ) = E[(M 1 X 2 β 2 + M 1 ε 2 ) (M 1 X 2 β 2 + M 1 ε 2 )] β 2 E(e 1e 1 ) = β 2X 2M 1 X 2 β 2 + σ 2 (T k) W tej sytuacji estymator wariancji składnika losowego jest dodatnio obciążony, bowiem forma kwadratowa X 2M 1 X 2 jest dodatnio określona, a wektor β 2 jest niezerowy. Rozważmy teraz przypadek odwrotny. Niech poprawnym równaniem zjawiska zachodzącego w populacji będzie (4), ale do modelowania stosujemy 38

równanie (5). Dochodzi wtedy do sytuacji, w której w modelu uwzględniamy zmienne nieistotne. Mamy zatem o k 2 za dużo regresorów w równaniu. [ ] [ ] [ ] b1 β1 β1 E = = b 2 β 2 Na mocy twierdzenia Gaussa-Markowa estymatory nieznanych wartości parametrów β są nieobciążone. Z tych samych powodów estymator wariancji składnika losowego jest nieobciążony. Więc estymator b wektora parametrów β jest nieobciążony i ma minimalną wariancję. Ale suma kwadratów reszt w modelu jest za duża. Powoduje to, że oszacowania nieznanych parametrów modelu są mniej dokładne. Wniosek: Z praktycznego punktu widzenia sytuacja druga, tzn. uwzględnienie nieistotnych zmiennych w modelu, jest mniej niebezpieczna od sytuacji pierwszej, czyli pominięcia zmiennych statystycznie istotnych. Jednak pozostawiając w modelu regresji liniowej zmienne nieistotne otrzymujemy mniejszą dokładność oszacowania parametrów modelu. Pomimo tego, jest to generalnie przyjęta strategia budowania modelu ekonometrycznego. Nosi ona nazwę general-to-simple lub alternatywnie general-to-specific. W języku polskim okreslana jest mianem od ogólnego do szczegółowego. Badacze zaczynają pracę z modelem o dużej ilości zmiennych objaśniających, a następnie wykluczają nieistotne zmienne z modelu. Ale używając tej metodologii trzeba uważać, bowiem budując początkowo bardzo duży model, i przyjmując 5 % poziom istotności, jesteśmy pewni, że niektóre zmienne mogą okazać się istotne zupełnie przypadkowo. Przykład. Szacujemy model grawitacyjny handlu międzynarodowego dla krajów Unii Europejskiej w roku 2. Wyjaśniamy w nim wielkość obrotów wymiany handlowej pomiędzy krajami (trade) za pomocą produktu krajowego brutto (gdp), liczby ludności (population), wspólnej waluty (currency) oraz zmiennej (home), która mierzy wielkości produkcji sprzedanej na rynku krajowym. Obserwacja w tak skonstruowanym modelu stanowi para krajów Unii Europejskiej handlująca ze sobą. Ponieważ w bazie Eurostatu dane dla Belgii i Luksemburga są podawane łącznie mamy tylko 14 handlujące pary krajów. (Każdy kraj z każdym innym plus ze sobą).. reg trade home gdp population currency Source SS df MS Number of obs = 14 -----------+------------------------------ F( 4, 99) = 58.63 39

Model 2975758.96 4 743939.739 Prob > F =. Residual 1256215.7 99 12689.475 R-squared =.732 -----------+------------------------------ Adj R-squared =.6912 Total 4231974.65 13 4187.1326 Root MSE = 112.65 ------------------------------------------------------------------------ trade Coef. Std. Err. t P> t [95% Conf. Interval] -----------+------------------------------------------------------------ home 281.7843 39.4646 7.14. 23.4862 36.824 gdp.2725153.316966 8.6..296224.335482 population -4.351363.76448-5.69. -5.8681-2.834626 currency -57.22637 25.5583-2.24.27-17.9248-6.527986 _cons -7.41417 27.28542 -.27.787-61.556 46.72977 ------------------------------------------------------------------------ Jak widać wszystkie zmienne w modelu są statystycznie istotne, oraz łącznie są istotne na co wskazuje wysoka wartość statystyki F. Dodatkowo model ma wysokie R 2. Jeśli spojrzymy na wyniki testu współliniowości to ona nie powinna wpływać na estymatory parametrów modelu.. vif Variable VIF 1/VIF -------------+---------------------- population 5.91.169186 gdp 5.65.176999 home 1.4.716396 currency 1.16.86274 -------------+---------------------- Mean VIF 3.53 Zgodnie z wynikami modelu wzrost produkcji o 1 % powoduje wzrost wymiany międzynarodowej o 2,7 %. Wielkość współczynnika przy zmiennej home jest trudno zinterpretować, bowiem należy pamiętać że np. Niemcy dużo więcej sprzedają na rynku wewnętrznym niż Belgia ze względu na to że w Niemczech mieszka ponad 8 razy więcej ludzi. Dla modelu grawitacyjnego istotny jest dodatni znak przy zmiennej, który oznacza, że dane państwo chętniej sprzedaje na rynku lokalnym niż eksportuje. Zmienna currency obrazuje wymianę handlową z krajami pozostającymi poza strefą euro (Wielka Brytania, Dania, Szwecja). Jej ujemny znak świadczy że brak wspólnej waluty jest czynnikiem zniechęcającym do handlu. Znowu nie możemy interpretować wielkości współczynnika z uwagi na różne rozmiary rynków w różnych krajach. Ujemny znak przy zmiennej population świadczy o tym że większe kraje relatywnie więcej sprzedają na rynku krajowym, co jest zgodne z intuicją. Z teoretycznego punktu widzenia otrzymane wyniki są zasadniczo zgodne z teoriami handlu międzynarodowego. Co się jednak stanie jeśli rozszerzymy 4

nasz model o zmienne instytucjonalne, takie jak wspólny język, czy wspólna granica?. reg trade home gdp population language border currency Source SS df MS Number of obs = 14 -----------+------------------------------ F( 6, 97) = 39.99 Model 313732.24 6 52288.76 Prob > F =. Residual 1218242.42 97 12559.22 R-squared =.7121 -----------+------------------------------ Adj R-squared =.6943 Total 4231974.65 13 4187.1326 Root MSE = 112.7 ------------------------------------------------------------------------ trade Coef. Std. Err. t P> t [95% Conf. Interval] -----------+------------------------------------------------------------ home 297.4458 51.41374 5.79. 195.437 399.4878 gdp.2789986.319397 8.74..215671.342391 population -4.29215.767781-5.6. -5.814543-2.769667 language 38.46699 37.24442 1.3.34-35.45288 112.3869 border -57.4732 34.8647-1.65.13-126.6671 11.72645 currency -57.13311 25.49176-2.24.27-17.7272-6.53917 _cons -13.21911 27.98323 -.47.638-68.7587 42.31984 ------------------------------------------------------------------------ Obie zmienne instytucjonalne nie są statystycznie istotne. Co prawda statystyki R 2 i R2 pozakują, że model się nieznacznie poprawił, ale dzieje się tak, tylko i wyłacznie dlatego, że wartości bezwzględne statystyk t przy tych zmiennych są większe od 1. (Można pokazać, że jeżeli dodamy do modelu zmienną, której wartość bezwzględna statystyki t jest większa od 1 to współczynnik R 2 rośnie). W efekcie dołączenia zmiennych nieistotnych nieznacznie rosną wariancje estymatorów. Wobec tego oszacowania parametrów są mniej dokładne. A co się stanie jeśli opuścimy zmienną, która jest statystycznie istotna. Jeżeli opuścimy zmienną gdp z pierwotnego modelu to otrzymamy:. reg trade home population currency Source SS df MS Number of obs = 14 -----------+------------------------------ F( 3, 1) = 3.96 Model 237796.17 3 679265.391 Prob > F =. Residual 2194178.48 1 21941.7848 R-squared =.4815 -----------+------------------------------ Adj R-squared =.466 Total 4231974.65 13 4187.1326 Root MSE = 148.13 ------------------------------------------------------------------------ trade Coef. Std. Err. t P> t [95% Conf. Interval] -----------+------------------------------------------------------------ 41

home 429.3668 46.72319 9.19. 336.6694 522.643 population 1.61497.4259261 3.76..7564722 2.446523 currency 3.286626 32.2991.1.919-6.79388 67.36713 _cons -71.8328 34.554 2.8.4-14.282-3.383989 ------------------------------------------------------------------------ Współczynnik R 2 tego modelu drastycznie spada. Ponadto zmienna currency staje się nieistotna statystycznie. Natomiast statystycznie istotna staje się stała, która do tej pory nie miała znaczenia. Poza tym współczynniki przy zmiennych dość nieoczekiwanie zmieniają znaki oraz rozmiary. Wyraźnie widać, że ten model jest dużo gorzej dopasowany do danych od poprzednich. 1.7.3 Testowanie ograniczeń nakładanych na parametry modelu Jednym z podstawowych celów dla których tworzy się modele ekonometryczne jest weryfikacja teorii ekonomicznej. Formułując matematyczny model badanego zjawiska należy go skonstruować w sposób pozwalający zweryfikować czy dane empiryczne potwierdzają teorię ekonomiczną. Weryfikacja poprawności teorii ekonomicznej oparta jest o sprawdzenie czy wartości oszacowań parametrów modelu są zgodne z wartościami wynikającymi z teorii. Testując badamy czy parametry są bliskie narzuconym na nie ograniczeniom i czy ewentualne odchylenia wartości parametrów wynikają z losowości próby czy są raczej błędami systematycznymi. Rozważmy przypadek weryfikacji J ograniczeń nałożonych na parametry modelu. Weryfikujemy hipotezę zerową: przeciwko alternatywie: H : Rβ q = H 1 : Rβ q Macierz R jest macierzą ograniczeń liniowych nałożonych na wektor estymowanych parametrów β. Każdy wiersz macierzy odpowiada jednemu ograniczeniu. Przeważnie w każdym wierszu jest dużo zer i jeden bądź kilka elementów niezerowych. Rząd macierzy R jest równy liczbie nałożonych ograniczeń. Macierz ograniczeń R może na przykład przyjmować następującą postać: 1. Jeden ze współczynników wektora β jest równy zero, β j =. R = [... 1... ], q = 2. Dwa współczynniki równania regresji są sobie równe, β j = β k : R = [... 1... 1... ], q = 42

3. Kilka współczynników równania regresji sumuje się do jedynki, β 2 + β 3 + β 4 = 1: R = [ 1 1 1... ], q = 1 4. Kilka współczynników równania regresji jest równych zero, β 1 = β 2 = β 3 = : 1... R = 1... q = 1... 5. Kilka ograniczeń liniowych nałożonych na współczynniki regresji, β 2 + β 3 = 1 β 4 + β 6 = β 5 + β 6 =. 1 1 1 R = 1 1 q = 1 1 6. Wszystkie współczynniki modelu są równe zero. Znając estymator metody najmniejszych kwadratów dla wektora parametrów β, szukamy wektora odchyleń od narzuconych ograniczeń na parametry m = Rb q. Jeżeli narzucone ograniczenia są spełnione przez dostępne dane empiryczne to wektor odchyleń m powinien być wektorem zerowym. Jednak w praktyce jest mało prawdopodobne, że wektor m będzie wektorem zerowym. Dużo częściej różni się on od zera. Statystyka testowa dla ograniczeń bazuje na statystycznej istotności odchyleń wektora m od zera. Estymator wektora β, wektor b ma rozkład normalny, wektor m jako kombinacja liniowa wektora b ma również rozkład normalny. Przy prawdziwej hipotezie zerowej wartość oczekiwana wektora m wynosi: a macierz wariancji-kowariancji: E[m X] = RE[b X] q = Rβ q = var[m X] = RE[Rb q X] q = Rvar[b X]R = σ 2 R(X X) 1 R Na podstawie tej macierzy można skonstruować statystykę testu Walda (W). W = m var[m X]m = (Rb q) [σ 2 R(X X) 1 R ] 1 (Rb q) χ 2 (J) (6) Przy prawdziwej hipotezie zerowej statystyka Walda ma rozkład χ 2 z liczbą stopni swobody równą liczbie nakładanych ograniczeń na wektor parametrów. Jeśli zamiast prawdziwej wariancji σ 2 używany jest jej estymator S 2 to 43

statystyka Walda ma rozkład F (J, N k) stopniami swobody, gdzie k jest liczbą regresorów łącznie ze stałą w modelu bez ograniczeń. Trzy równoważne testy. Obliczenie statystyki Walda (W) ze wzoru (6) jest skomplikowane i czasochłonne w przypadku rozbudowanych ograniczeń na parametry modelu, jeśli nie dysponujemy pakietem statystyczym. Statystyka Walda dla weryfikująca hipotezę, że parametr jest równy zero redukuje się do: F = ˆβ 2 k (7) se(β k ) 2 gdzie w liczniku jest estymator MNK dla k-tego współczynnika wektora β, a w mianowniku mamy kwadrat jego odchylenia standardowego. Łatwo zauważyć, że w ten sposób skonstruowana statystyka F jest kwadratem statystyki t dla pojedynczego parametru. Testem równoważnym do testu Walda jest test ilorazu wiarogodności (LR). Jego przeprowadzenie wymaga obliczenia dwóch modeli regresji. Na początku szacujemy parametry modelu bez ograniczeń i to co nas interesuje to suma kwadratów reszt (RSS U ). Nałożenie ograniczeń na parametry wektora β powoduje że trudniej jest dopasować taki model do danych empirycznych. Z tego powodu suma kwadratów reszt modelu z ograniczeniami (RSS R ) będzie niemniejsza, a zazwyczaj większa niż w modelu bez ograniczeń. Test ilorazu wiarogodności polega na sprawdzeniu czy różnica kwadratów błędów obu modeli jest statystycznie istotna. Test przeprowadza się wykorzystując statystykę LR: LR = (RSS R RSS U )/J S 2 (8) gdzie S 2 = RSS U /(N k) jest estymatorem wariancji otrzymanym z regresji bez ograniczeń. Statystyka LR ma asymptotyczny rozkład F z [J, N K] stopniami swobody, gdzie J jest liczbą testowanych ograniczeń, N liczbą obserwacji, a k liczbą regresorów w równaniu regresji bez ograniczeń. Trzecim sposobem sprawdzenia istotności ograniczeń nałożonych na parametry modelu jest przeprowadzenie testu mnożników Lagrange a (LM). Bazuje on na wynikach powstałych przy estymacji regresji z narzuconymi ograniczeniami. Statystyka testowa ma postać: LM = ˆγ2 s 2 γ w której γ jest współczynnikiem regresji reszt z modelu z ograniczeniami na pojedynczą zmienną dla której badamy nałożone ograniczenie. 44 (9)

Gdy chcemy zbadać złożoną hipotezę postępujemy według następującego schematu: 1. Wyliczamy model regresji z ograniczeniami i zapamiętujemy z niego reszty e R 2. Przeprowadzamy regresję pomocniczą. Wyjaśniamy reszty e R pełenym zestawem zmiennych objaśniających bez żadnych ograniczeń. 3. Obliczamy wartość statystyki NR 2, gdzie N jest liczbą obserwacji, a R 2 współczynnikiem dopasowania modelu regresji pomocniczej. Tak otrzymana statystyka ma asymptotyczny rozkład χ 2 z liczbą stopni swobody równą liczbie testowanych ograniczeń. 4. Alternatywnym sposobem jest skonstruowanie statystyki o rozkładzie F: LMF = N k R 2 (1) J 1 R 2 gdzie k jest liczbą regresorów, a m liczbą testowanych ograniczeń. Statystyka LMF ma asymptotyczny rozkład F (J, N k). Te trzy testy są asymptotycznie równoważne i w dużych próbach dla modeli liniowych zachodzi zależność (Greene, str.496): Przykład 1. W modelu: W LR LM y i = β + x 1i β 1 + x 2i β 2 + x 3i β 3 + ɛ i (11) chcemy weryfikować hipotezę H postaci: β = β 1 = β 2 β 2 + β 3 = 1 1. Znajdź macierze H i h za pomocą których hipotezę H można zapisać jako Hβ = h 2. Przekształć tak podany model, by model spełniający ograniczenia dane przez H można było zapisać jako: y i = x i β + ε t (12) gdzie y i oraz x i są funkcjami zmiennych modelu. 45

3. Modele (11) oraz (12) oszacowano za pomocą MNK na próbie 29 elementowej. Otrzymano sumę kwadratów reszt w modelu bez ograniczeń RSS U = 1, a w modelu z ograniczeniami RSS R = 2. Oblicz statystykę testową F dla zadanych ograniczeń na parametry i zweryfikuj ją na poziomie istotności α =.1 4. Wyjaśnij dlaczego problemy może spowodować próba przetestowania hipotezy H : Hβ = h, jeżeli macierz H nie ma pełnego rzędu wierszowego. Odpowiedź. Kolejne wiersze macierzy H zawierają ograniczenia na parametry. Zatem macierz ma postać: 1 H = 1 1 1 1 a macierz h to wektor, którego elementy to prawe strony nałożonych ograniczeń. h = 1 Ad.2. Jeżeli narzucimy ograniczenia na współczynniki równania (11) to nasz model możemy zapisać jako: y i = γ + x 1i γ 2 + x 2i γ 2 + x 3i (1 γ 2 ) + ε i grupując zmienne X i oraz pamiętając, że γ = otrzymujemy: y i = (x 1i + x 2i x 3i )γ 2 + x 3i + εi wobec tego nowe zmienne możemy zapisać jako: yi = y i x i = [ x 1i + x 2i x 3i x 3i ] Ad. 3. F = (SRR R SRR U )/k SRR U /(N k) = (2 1)/3 1/(29 3) = 8, 66 wartość krytyczne testu F.99 (3, 25) = 4.68, co powoduje że statystyka testowa znajduje się w obszarze krytycznym testu. Wobec tego odrzucamy 46

hipotezę zerową H na korzyść hipotezy alternatywnej. Inaczej mówiąc wyniki testu wskazują, że dane empiryczne nie spełniają żądanych ograniczeń. Ad. 4. Jeżeli macierz H nie ma pełnego rzędu wierszowego, oznacza to że przynajmniej jedno z ograniczeń jest współliniowe z pozostałymi. W takim przypadku nie jesteśmy w stanie rozwiązać jednoznacznie układu równań Hβ = h, albo jest on sprzeczny. Przykład 2. Zadanie przygotowawcze do kolokwium Na podstawie danych pochodzących z Badania Aktywności Ekonomicznej Ludności (BAEL) zbudowano Klasyczny Model Regresji Liniowej wyjaśniający poziom zarobków za pomocą płci (1-mężczyzna), wykształcenia, stażu pracy i zamieszkiwania w dużym mieście. Oszacowano następujący model: zarobki n = stala + β 1 plec + β 2 wyzsze + β 3 srednie + β 4 staz + β 5 dmiasto + ε (13) Otrzymano następujące oszacowania wielkości parametrów β: stala β 1 β 2 β 3 β 4 β 5 13.4462 59.299 242.832 118.7394.9534177 9.71356 oraz ich macierz wariancji-kowariancji: plec wyzsze srednie staz dmiasto _cons ---------+------------------------------------------------------ plec 7.7637 wyzsze.653625 25.157 srednie -.49456 9.99634 12.715 staz -.13924.144787.14421.14444 dmiasto.36815-3.6993-1.8291 -.56 1.4579 _cons -3.7348-11.9266-11.4932 -.39763 -.96261 2.8221 Uzupełnij brakujące wielkości w poniższej tabeli, a następnie oceń poprawność modelu analizując wyniki testów istotności i łącznej istotności oszacowań parametrów. Dokonaj interpretacji statystycznie istotnych współczynników wektora β. Source SS df MS Number of obs = 25794 ----------+------------------------------ F( 5, 25788) = 999.1 Model 243286287 5 48657257.3 Prob > F =. Residual 1.256e+9 25788 4875.6867 R-squared =. ----------+------------------------------ Adj R-squared =. Total 1.4993e+9 25793 58128.552 Root MSE = 22.69 ------------------------------------------------------------------- 47

zarobki Coef. Std. Err. t [95% Conf. Interval] ----------+-------------------------------------------------------- plec 59.299.. 53.58791 64.4728 wyzsze 242.832.. 232.2622 251.942 srednie 118.7394.. 111.753 125.7286 staz -.9534177.. -1.188985 -.717855 dmiasto 9.71356.. 84.3751 97.5211 _cons 13.4462.. 94.5228 112.392 ------------------------------------------------------------------- Rozwiązanie: 1. Wariancje estymatorów odczytujemy z diagonali macierzy wariancjikowariancji. Błędy standartowe estymatorów to pierwiastki ich wariancji. se(β plec ) = 7.7637 = 2.776 se(β wyzsze ) = 25.157 = 5.16 se(β srednie ) = 12.715 = 3.5658 se(β staz ) =.14444 =.122 se(β miasto ) = 1.4579 = 3.2339 se(β stala ) = 2.8221 = 4.5631 2. Statystyki t-studenta otrzymujemy dzieląc współczynniki wektora β przez wcześniej obliczone błędy standardowe. t βplec = 59.291 2.776 = 21.26 t β wyzsze = 242.832 5.16 = 48.31 t βsrednie = 118.7394 3.5658 = 33.3 t β staz =.9534.122 = 7.93 t βdmiasto = 9.7136 3.2339 = 28.5 t β stala = 13.4462 4.5631 = 22.67 3. Współczynnik R 2 uzyskujemy ze stasystyki F. R 2 = k 1 F N k 1 + k 1 F = N k 5 999.1 25788 1 + 5 25788 4. Znając R 2 łatwo wyliczamy dopasowane R 2 : 999.1 =.1622 R 2 = 1 25793 (1.1622) =.162 25788 Po wykonaniu powyższych czynności możemy uzupełnić tabelę. 48

Source SS df MS Number of obs = 25794 ----------+------------------------------ F( 5, 25788) = 999.1 Model 243286287 5 48657257.3 Prob > F =. Residual 1.256e+9 25788 4875.6867 R-squared =.1622 ----------+------------------------------ Adj R-squared =.162 Total 1.4993e+9 25793 58128.552 Root MSE = 22.69 -------------------------------------------------------------------- zarobki Coef. Std. Err. t [95% Conf. Interval] ----------+--------------------------------------------------------- plec 59.299 2.776 21.26 53.58791 64.4728 wyzsze 242.832 5.16 48.31 232.2622 251.942 srednie 118.7394 3.5658 33.3 111.753 125.7286 staz -.9534177.122-7.93-1.188985 -.717855 dmiasto 9.71356 3.2339 28.5 84.3751 97.5211 _cons 13.4462 4.5631 22.67 94.5228 112.392 -------------------------------------------------------------------- Na podstawie powyższych wyników widzimy, że model w około 16 % wyjaśnia zróżnicowanie zarobków. Interpretacja współczynników β jest następująca. Mężczyżni przeciętnie zarabiają o 59 złotych więcej niż kobiety. Wykształcenie wyższe daje zarobki o 242 złote wyższe w stosunku do wykształcenia podstawowego, a wykształcenie średnie 118 złotych więcej niż podstawowe. Staż pracy wpływa ujemnie na zarobki. Każdy rok pracy oznacza przeciętnie obniżenie pensji o złotówkę. Mieszkańcy dużych miast zarabiają przeciętnie o 9 złotych więcej od pozostałych. Literatura [1] William H. Greene (23) Econometric Analysis, 5th edition. [2] Jerzy Mycielski (2), WNE. [3] Aleksander Welfe (1998) Zbiór zadań z ekonometrii, PWE 49