2 Rozszerzenia MNK. 2.1 Heteroscedastyczność

Podobne dokumenty
Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Natalia Neherbecka. 11 czerwca 2010

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Diagnostyka w Pakiecie Stata

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria egzamin 07/03/2018

Ekonometria Ćwiczenia 19/01/05

Egzamin z ekonometrii wersja IiE, MSEMAT

Ekonometria dla IiE i MSEMat Z12

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Egzamin z ekonometrii wersja IiE, MSEMAT

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Czasowy wymiar danych

Diagnostyka w Pakiecie Stata

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Autokorelacja i heteroskedastyczność

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

1.8 Diagnostyka modelu

Natalia Nehrebecka. 18 maja 2010

2.2 Autokorelacja Wprowadzenie

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Egzamin z ekonometrii - wersja ogólna

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Testowanie hipotez statystycznych

Problem równoczesności w MNK

Ekonometria egzamin 31/01/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

1 Modele ADL - interpretacja współczynników

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Definicja danych panelowych Typy danych panelowych Modele dla danych panelowych. Dane panelowe. Część 1. Dane panelowe

Metody Ekonometryczne

Egzamin z ekonometrii wersja ogolna

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Egzamin z ekonometrii wersja IiE, MSEMAT

Stanisław Cichocki. Natalia Nehrebecka

1.1 Klasyczny Model Regresji Liniowej

1.3 Własności statystyczne estymatorów MNK

1.7 Ograniczenia nakładane na równanie regresji

Ekonometria egzamin wersja Informatyka i Ekonometria 29/01/08

1.9 Czasowy wymiar danych

Ekonometria. Własności składnika losowego. Jakub Mućk. Katedra Ekonomii Ilościowej

, a reszta dla pominiętej obserwacji wynosi 0, RSS jest stałe, T SS rośnie, więc zarówno R 2 jak i R2 rosną. R 2 = 1 n 1 n. rosnie. n 2 (1 R2 ) = 1 59

Egzamin z ekonometrii wersja IiE, MSEMat Pytania teoretyczne

Ekonometria egzamin wersja ogólna 17/06/08

Modele warunkowej heteroscedastyczności

Metoda najmniejszych kwadratów

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

Ekonometria egzamin wersja ogólna 29/01/08

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

1.6 Zmienne jakościowe i dyskretne w modelu regresji

Modele wielorównaniowe (forma strukturalna)

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Weryfikacja hipotez statystycznych

1.5 Problemy ze zbiorem danych

Testowanie hipotez statystycznych

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Heteroskedastyczość w szeregach czasowyh

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Uogólniona Metoda Momentów

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Budowa modelu i testowanie hipotez

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Stanisław Cichocki. Natalia Nehrebecka

Metody Ekonometryczne

Losowe zmienne objaśniające. Rozszerzenia KMRL. Rozszerzenia KMRL

Stanisław Cichocki. Natalia Nehrebecka

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Własności statystyczne regresji liniowej. Wykład 4

Metoda najmniejszych kwadratów

Metoda największej wiarogodności

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Statystyka matematyczna dla leśników

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Stosowana Analiza Regresji

Analiza regresji - weryfikacja założeń

Metody Ekonometryczne

Transkrypt:

2 Rozszerzenia MNK 2.1 Heteroscedastyczność 2.1.1 Wprowadzenie Przy wyprowadzaniu estymatorów Klasycznego Modelu Regresji Liniowej (KMRL) zakładaliśmy, że są spełnione założenia Gaussa-Markowa, tzn. składniki losowe są homoscedastyczne i nieskorelowane. Jednak te założenia dla dużej liczby modeli nie są spełnione. Homoscedastycznośc i nieskorelowanie składników losowych są przypadkiem szczególnym, a nie regułą. Heteroscedastyczność, czyli brak stałej wariancji występuje w wielu klasach modeli, zarówno w modelach dla danych przekrojowych, jak i w modelach tworzonych na podstawie szeregów czasowych i danych o charakterze panelowym. Najprostszym przykładem, który uzasadnia powszechnośc występowania heteroscedastyczności jest analiza wydatków gospodarstw domowych na konkretną grupę towarów np. żywność. Naturalne jest, że gospodarstwa domowe dysponujące większym budżetem, będą przeciętnie wydawały więcej. Będą kupowały większe ilości towarów, bardziej zróżnicowany koszyk dóbr i będą to z reguły towary droższe. Gdy wykonamy wykres wydatków konsumpcyjnych w stosunku do dochodów rozporządzalnych to zauważymy, że wśród gospodarstw o niższych dochodach zróżnicowanie poziomu wydat- wydatki konsumpcyjne 0 10000 20000 30000 40000 14.4 31786.08 dochód rozporz¹dzalny Zródlo: Obliczenia wlasne, dane BBGD 2004 ków jest dużo mniejsze (absolutnie i relatywnie) niż w grupie gospodarstw o wysokich dochodach. Dzieje się tak, gdyż bogatsze gospodarstwa nabywają bardziej zróżnicowane koszyki dóbr, oraz mają większe możliwości substytucji dóbr tańszych droższymi odpowiednikami. Model ze zmienną wariancją może przyjmować różne formy. Wychodząc od Klasycznego Modelu Regresji Liniowej postać funkcyjną modelu możemy 68

zapisać jako: y = Xβ + ε (1) Model z heteroscedastycznością różni się jedynie tym od KMRL, że na diagonali macierzy wariancji-kowariancji składnika losowego znajdują się różne, dodatnie liczby obrazujące wielkość wariancji (błędu pomiaru) dla kolejnych obserwacji. W odróżnieniu od KMRL macierz wariancji-kowariancji oznaczamy przez: var(ε) = Ω = σ 2 V (2) gdzie V jest macierzą diagonalną, ale elementy stojące na diagonali niekoniecznie są równe 1. Funkcja opisująca zmienność wariancji może przyjmować różne formy. Załóżmy, że wariancja składnika losowego modelu zależy od pewnego zbioru zmiennych Z. W jego skład mogą wchodzić zarówno zmienne objaśniające modelu, czyli wektory z macierzy X, jak również zmienne nie uwzględnione w równaniu modelu. Przykładowe formy heteroscedastyczności: 1. wariancja może być funkcją liniową zmiennych z macierzy Z var(ε i ) = σ 2 i = δz i δ > 0 2. forma kwadratowa zabezpiecza nas przed ewentualną ujemnością wariancji var(ε i ) = σ 2 i = δz 2 i δ > 0 3. wariancja może być również funkcją afiniczną zmiennych z macierzy Z. W takim przypadku mówimy o heteroscedastyczności addytywnej var(ε i ) = σ 2 i = δ 1 + δ 2 z 2 i δ 1 > 0, δ 2 > 0 4. wariancja może również przyjmować postać wykładniczą. Wtedy mówimy o wariancji z heteroscedastycznością multiplikatywną var(ε i ) = σ 2 i = exp(δ 1 + δ 2 z 2 i ) 5. w modelu może również występować wariancja przełącznikowa (switching). { σ var(ε i ) = σi 2 2 = 1 dla i=1...s dla i=s+1...t σ 2 2 ten typ wariancji może być połączony z każdą z uprzednio przedstawionych postaci. 69

2.1.2 Własności estymatorów MNK Estymatorem w KMRL otrzymywanym Metodą Najmniejszych Kwadratów dla wektora nieznanych parametrów β jest: b = (X X) 1 X y (3) Jeśli uchylimy założenie o homoscedatyczości to estymator nadal pozostanie nieobciążony, ponieważ: E(b) = E(X X) 1 X y = E(X X) 1 X (Xβ + ε) = (X X) 1 X X E(β) + (X X) 1 X X E(ε) = β }{{}}{{}}{{} I I 0 Podczas dowodu nieobciążoności nie korzystamy z homoscedastyczności składnika losowego ε. Jeżeli macierz obserwacji X nie zawiera regresorów skorelowanych z błędem losowym ε, to wariancję estymatora b możemy zapisać jako: var(b) = E(b E(b))(b E(b)) = E[(X X) 1 X εε X(X X) 1 ] = (X X) 1 X E(εε )X(X X) 1 = (X X) 1 X E[Ω]X(X X) 1 var(b) = σ 2 (X X) 1 X V X(X X) 1 (4) Jak widać wariancja estymatora jest różna od σ 2 (X X) 1. Jeżeli V jest macierzą dodatnio okresloną (a tak jest w przeważającej większości przypadków) to rzeczywista wariancja jest wyższa niż oszacowanie uzyskane MNK. Wobec tego statystyka S 2 będzie obciążonym estymatorem wariancji składnika losowego. Jednak zazwyczaj nie ma pewności, czy estymator MNK niedoszacowuje, czy przeszacowuje prawdziwą wielkość wariancji. Co więcej testy statystyczne oparte na statystykach t, F oraz χ 2 bardzo często będą dawać mylne wyniki. 2.1.3 Uogólniona Metoda Najmniejszych Kwadratów W związku z tym, że MNK zastosowana do modelu regresji liniowej z niesferycznym składnikiem losowym jest nieefektywna, zamiast niej używa się Uogólnionej Metody Najmniejszych Kwadratów (UMNK) Generalized Least Squares (GLS). Pozwala ona na uwzględnienie braku sferyczności błędów losowych. Do otrzymania efektywnego estymatora wektora nieznanych parametrów β wymagana jest znajomość postaci macierzy wariancji-kowariancji Ω. Na początku rozważymy przypadek, w którym macierz Ω jest znana, symetryczna i dodatnio określona. 70

Twierdzenie 1 O faktoryzacji macierzy. Każdą dodatnio określoną macierz A można przedstawić w postaci: A = CΛC gdzie kolumny macierzy C zawierają wektory własne macierzy A, a Λ jest macierzą diagonalną z wartościami własnymi macierzy A na diagonali. Stosując twierdzenie o faktoryzacji do macierzy Ω możemy zapisać: Ω = CΛC Elementem upraszczającym faktoryzację macierzy Ω jest jej symetryczność. Niech Λ 1 2 będzie macierzą diagonalną o elementach λ i na diagonali. Oczywiście Λ 1 2 Λ 1 2 = Λ. Niech P = Λ 1 2. Wobec tego Ω 1 = P P, ponieważ P i Λ są diagonalne to P = P oraz Λ = Λ. Jeżeli przemnożymy model (1) z lewej strony przez macierz P otrzymamy: lub alternatywnie P y = P Xβ + P ε Wariancja składnika losowego wynosi zatem: y = X β + ε (5) E[ε ε ] = P εε P = σ 2 P V P = σ 2 I Zatem w modelu z przekształconymi zmiennymi składnik losowy jest homoscedastyczny i nieskorelowany. Wobec tego możemy zastosować MNK do estymacji parametrów modelu (5). Ponieważ macierz wariancji-kowariancji Ω jest znana, y oraz X są danymi pochodzącymi z próby losowej. Wobec tego: ˆβ = (X X ) 1 X y (6) ˆβ = (X P P X) 1 X P P y ˆβ = (X Ω 1 X) 1 X Ω 1 y jest efektywnym estymatorem nieznanego wektora parametrów β. Estymator (6) jest nazywany estymatorem Uogólnionej Metody Najmniejszych Kwadratów, albo estymatorem Aitkena. Różni się on od klasycznego estymatora MNK tym, że do ważenia obserwacji używa macierzy Ω 1 zamiast macierzy jednostkowej I. 71

Własności estymatora UMNK. Twierdzenie 2 Aitkena Jeżeli wektory macierzy X są nieskorelowane z błędem losowym ε, wtedy: E[ ˆβ X ] = E[(X X ) 1 X y X ] = β + E[(X X ) 1 X ε X ] = β Estymator Uogólnionej Metody Najmniejszych Kwadratów jest nieobciążony. Ten wynik jest równoważny z E[P ε P X] = 0. Ponieważ macierz P składa się ze znanych stałych elementów, warunek redukuje się do E[ε X] = 0, czyli regresory powinny być nieskorelowane ze składnikiem losowym. Estymator Uogólnionej Metody Najmniejszych Kwadratów jest zgodny jeśli plim 1 n X X = Q, gdzie Q jest dodatnio określoną macierzą o skończonych elementach. Wstawiając do wzoru na estymator otrzymujemy: plim[ 1 n X Ω 1 X] 1 = Q 1 by ta granica istniała i była skończona macierz danych transformowanych X musi być macierzą o pełnym rzędzie kolumnowym i skończonych elementach. Estymator Uogólnionej Metody Najmniejszych Kwadratów ma rozkład asymptotycznie normalny o średniej β i wariancji: var[ ˆβ X ] = σ 2 (X X ) 1 = σ 2 (X Ω 1 X) 1 Estymator Uogólnionej Metody Najmniejszych Kwadratów ˆβ jest liniowym, nieobciążonym estymatorem o minimalnej wariancji dla uogólnionego modelu regresji, o ile znana jest postać macierzy wariancji-kowariancji. Wynika to z zastosowania twierdzenia Gaussa-Markowa do modelu (6). Twierdzenie Gaussa-Markowa jest przypadkiem szczególnym twierdzenia Aitkena, dla którego Ω = I. 2.1.4 Stosowalna UMNK Estymator wyprowadzony w części 2.1.3 jest nazywany w literaturze ekonometrycznej estymatorem Teoretycznej Uogólnionej Metody Najmniejszych Kwadratów. Jest to spowodowane tym, że w celu wyprowadzenia tego estymatora musi być znana macierz wariancji-kowariancji składnika losowgo Ω. Przeważnie w zastosowaniach ekonometrycznych ta macierz nie jest znana, wobec tego nie możemy użyć UMNK. Możemy jednak nieznane parametry macierzy zastąpić estymatorami. Ale jeśli nie narzucimy żadnych ograniczeń na postać macierzy wariancji-kowariancji staniemy przed nierozwiązywalnym 72

problemem. Macierz Ω jest macierzą symertyczną o wymiarze N N. Wobec tego musimy oszacować n(n + 1)/2 nieznanych parametrów, dysponując jedynie n obserwacjami. Jest to zadanie niewykonalne. Wobec tego dla każdego konkretnego modelu ekonometrycznego wybieramy zbiór parametrów θ tak aby Ω = Ω(θ) postać macierzy wariancjikowariancji składnika losowego zależała jedynie od wartości parametrów z tego zbioru. W przypadku heteroscedastyczności zazwyczaj przyjmujemy, że model ma jeden dodatkowy parametr. σ 2 i = σ 2 z θ i (7) Przypuśćmy, że ˆθ jest zgodnym estymatorem nieznanego wektora parametrów θ. Wobec tego w UMNK możemy zastąpić nieznaną macierz wariancjikowariancji składnika losowego jej estymatorem ˆΩ = Ω(θ). Zapiszmy estymator Stosowalnej UMNK jako β = (X ˆΩ 1 X) 1 X ˆΩ 1 y (8) Jednak często w zastosowaniach zamiast przyjmować założenie ε N (0, σ 2 Ω), warto jest przyjąć, że ε N (0, V ). W takim przypadku estymator przyjmuje postać b SUMNK = (X V 1 X) 1 X V 1 y (9) Jeżeli spełnione są następujące warunki: [ ( 1 plim n X ˆΩ 1 X ) ( 1 n X Ω 1 X )] = 0 [ ( 1 plim n X ˆΩ 1 ε ) ( 1 n X Ω 1 ε )] = 0 to estymator β jest asymptotycznie równoważny estymatorowi ˆβ. Pierwszy z warunków stanowi, że jeżeli ważona suma kwadratów otrzymywana z macierzy Ω dąży do dodatnio określonej macierzy, to ważona suma kwadratów otrzymywana z estymatora macierzy ˆΩ dąży do tej samej macierzy. Drugi warunek mówi, że jeśli macierz przekształconych zmiennych jest macierzą odwracalną o skończonych elementach, to jej rozkładem granicznym będzie rozkład asymptotycznie normalny. Estymatory SUMNK są asymptotycznie efektywnie, jednak w małych próbach ich własności nie są znane. 2.1.5 Ważona Metoda Najmniejszych Kwadratów Jednym z wyjątkowych przypadków, w którym forma macierzy wariancjikowariancji Ω jest znana jest przypadek Ważonej Metody Najmniejszych 73

Kwadratów. Jeżeli w modelu występuje heteroscedastyczności to Ω jest macierzą diagonalną o elementach var[ε i x i ] = σ 2 ω i jest przypisanie wag poszczególnym obserwacjom. Estymator UMNK dany jest wzorem: ˆβ = (X Ω 1 X) 1 X Ω 1 y Jeżeli elementy ω i (wagi) są znane to Ω 1 jest macierzą diagonalną o elementach na diagonali równych 1/ω i. Jeżeli przekształcimy model mnożąc przez macierz P daną wzorem: P = 1/ ω 1 0... 0 1/ ω N i zastosujemy MNK do przekształconego modelu to otrzymamy estymator ważonej metody najmniejszych kwadratów ( n ) 1 ( n ) b = w i x ix i w i x iy i i=1 w którym w i = 1/ω i. Obserwacje o małych wariancjach, a więc bardziej dokładne, dostają większe wagi, wobec tego mają większy wpływ na wielkości uzyskanych oszacowań. W praktyce bardzo często jako wagi bierze się jedną ze zmiennych objaśniających modelu lub jej kwadrat. 2.1.6 Stosowalna UMNK Metoda UMNK jest metoda czysto teoretyczna, gdyż w praktyce nie są znane wartości elementów macierzy wariancji-kowariancji (poza przypadkiem w pełni kontrolowanego eksperymentu). Aby uzyskać jej oszacowanie, przyjmuje się założenie, ze wariancja błędu losowego jest funkcją wektora zmiennych egzogenicznych Z. E(ε i Z i ) = σ 2 i = σ 2 f(z i ) gdzie f( ) jest pewną funkcją. Z reguły przyjmuje się że jest ona liniowa, kwadratowa lub wykładnicza. W modelu z heteroscedastycznym składnikiem losowym, w którym brak jest autokorelacji, macierz wariancji-kowariancji błędu losowego jest diagonalna. Jej odwrotność przyjmuje postać: Ω 1 = 1 σ 2 V 1 = 1 σ 2 i=1 1 f(α 0 +αz i 0 )... 0 1 f(α 0 +αz i ) Oszacowania uzyskujemy w następujący sposób: 74 = σ 2 L L

1. Szacujemy model y i = x i b + e i i uzyskujemy wektor reszt. 2. Przeprowadzamy regresję e 2 na stałej i wektorze z i 3. Szacujemy macierz L. 4. Przekształcamy za pomocą oszacowania ˆL oryginalny model 5. Obliczamy estymator W praktyce oszacowania uzyskane za pomocą SUMNK są zbliżone do oszacowań MNK. 2.1.7 Estymator White a Jeśli znalibyśmy macierz wariancji-kowariancji Ω, wtedy estymatorem macierzy wariancji-kowariancji wektora parametrów β byłoby var(β) = 1 n( 1 n X X) 1 ( 1 n X ΩX)( 1 n X X Jednak macierz Ω nie jest znana. Zachodzi więc konieczność oszacowania n(n+1)/2 nieznanych parametrów macierzy na podstawie n obserwacji. White w swoim artykule z 1980 roku pokazał, że rozwiązaniem jest odmienne spojrzenie na problem. To co jest istotne to uzyskanie zgodnego estymatora dla macierzy X ΩX, która ma wymiar k k. Ponadto liczba zmiennych w modelu jest zazwyczaj stała i nie zależy od rozmiaru próby. Oznaczmy przez x j j-ty wiersz macierzy obserwacji X. Wówczas n X ΩX = X σ 2 V X = σi 2 x i x i White zaproponował by nieznane wariancje zastąpić kwadratami reszt. W ten sposób uzyskany estymator jest zgodny. Formalnie należy pokazać że plimq = plim 1 n n σ ij x i x j n Elementy macierzy Q to iloczyny wariancji σ ij oraz kolumn macierzy X. Dzięki temu, że b jest zgodnym estymatorem wektora β, reszty otrzymane z MNK e i są zgodnymi punktowymi estymatorami błędów z populacji. White wykazał, że w przypadku heteroscedastyczności dla estymatora S = 1 n e 2 i x i x i n i=1 75 i=1 i=1 j=1 ) 1

prawdziwe jest plims = plimq Korzystając z prawa wielkich liczb możemy zapisać plimq dla przypadku heteroscedastyczności jako plimq = plim 1 n n σ ij x i x i = plim 1 n i=1 n ε 2 iix i x i (10) Ponieważ b jest zgodnym estymatorem β, możemy zastąpić w (10) błędy losowe z populacji ε i przez wartości z próby e i. w rezultacie otrzymujemy estymator White a, który jest zgodny w przypadku heteroscedastyczności (White heteroscedasticity consistent estimator) AsyV ar[b] = n( 1 1 ) 1 ( 1 1 1 n X X n X [e 2 i Ω]X)( X) n X (11) i=1 AsyV ar[b] = n(x X) 1 S(X X) 1 Z równania (11) wynika, że nie robiąc żadnych założeń a priori o postaci heteroscedastyczności, możemy przeprowadzić estymację metodą MNK. Jest to bardzo użyteczne w sytuacji, gdy nic nie wiemy o naturze heteroscedastyczności w modelu. 2.1.8 Testowanie występowania heteroscedastyczności Wnioskowanie na podstawie modelu w którym pominiemy problem heteroscedastyczności z dużym prawdopodobieństwem jest nieprawidłowe. Z tego powodu ważnym elementem budowy poprawnego modelu ekonometrycznego jest zbadanie czy składnik losowy jest homoscedastyczny. Większość testów wykrywających heteroscedastyczność bazuje na tym że estymator metody najmniejszych kwadratów jest zgodny nawet w przypadku występowania heteroscedastyczności. Wobec tego reszty otrzymane metodą MNK z modelu będą zachowywać się bardzo podobnie jak prawdziwe reszty nawet przy heteroscedastyczności. Korzystając z tej własności test konstruuje się na podstawie otrzymanych reszt z regresji. Test White a. Test White a jest ogólnym testem wykrywającym obecność heteroscedastyczności. Testujemy hipotezę: H 0 : σ 2 i = σ 2 i H 1 : H 0 jest nieprawdziwa Test przeprowadzany jest w sposób następujący: 76

1. Szacujemy parametry modelu regresji y = Xβ + ε, i zapamiętujemy wektor reszt e i 2. Podnosimy reszty do kwadratu e 2 i 3. Przeprowadzamy regresję e 2 i na stałej, wszystkich zmiennych modelu (je możemy pominąć) oraz kwadratach zmiennych i wszystkich iloczynach postaci x s x r s r 4. Zapamiętujemy R 2 5. Statystyka LM = nr 2 ma asymptotyczny rozkład χ 2 z liczbą stopni swobody równą ilości zmiennych w regresji z punktu (3) bez stałej Intuicyjnie idea testu jest prosta. Jeżeli model jest prawidłowy, i nie występuje heteroscedastyczność, kwadraty reszt powinny niewiele wyjaśniać. Wobec tego jeśli statystyka testowa jest mała nie mamy podstaw by twierdzić że w modelu występuje heteroscedastyczność. Warto również zauważyć, że test RESET Ramsey a jest przypadkiem szczególnym testu White a. Przykłady: Model 1. Zarobki. Source SS df MS Number of obs = 25794 ----------+------------------------------ F( 5, 25788) = 999.01 Model 243286287 5 48657257.3 Prob > F = 0.0000 Residual 1.2560e+09 25788 48705.6867 R-squared = 0.1623 ----------+------------------------------ Adj R-squared = 0.1621 Total 1.4993e+09 25793 58128.5052 Root MSE = 220.69 zarobki Coef. Std. Err. t P> t [95% Conf. Interval] ----------+--------------------------------------------------------------- plec 59.02909 2.776036 21.26 0.000 53.58791 64.47028 wyzsze 242.0832 5.010558 48.31 0.000 232.2622 251.9042 srednie 118.7394 3.565809 33.30 0.000 111.7503 125.7286 staz -.9534177.1201839-7.93 0.000-1.188985 -.7178505 dmiasto 90.71356 3.233862 28.05 0.000 84.37501 97.05211 _cons 103.4462 4.563119 22.67 0.000 94.50228 112.3902. whitetst White s general test statistic : 1457.719 Chi-sq(15) P-value = 6.e-302 77

Jak widać wartość statystyki testowej jest duża, a p-value nieznacznie różni się od zera, wobec tego odrzucamy hipotezę zerową o homoscedastyczności składnika losowego. Można również przeprowadzić test sam test, ale oparty o macierz informacyjną:. imtest, white White s test for Ho: homoskedasticity against Ha: unrestricted heteroskedasticity chi2(15) = 1457.72 Prob > chi2 = 0.0000 Cameron & Trivedi s decomposition of IM-test --------------------------------------------------- Source chi2 df p ---------------------+----------------------------- Heteroskedasticity 1457.72 15 0.0000 Skewness 84.08 5 0.0000 Kurtosis 6.75 1 0.0094 ---------------------+----------------------------- Total 1548.54 21 0.0000 --------------------------------------------------- Na podstawie wyników testu stwierdzamy, że w modelu występuje heteroscedastyczność, reszty są skośne i ich kurtoza jest różni się od kurtozy rozkładu normalnego. Model 2. Dane losowe. Source SS df MS Number of obs = 100 ----------+------------------------------ F( 2, 97) = 3017.22 Model 119.91201 2 59.9560051 Prob > F = 0.0000 Residual 1.92751219 97.01987126 R-squared = 0.9842 ----------+------------------------------ Adj R-squared = 0.9839 Total 121.839522 99 1.23070225 Root MSE =.14097 x Coef. Std. Err. t P> t [95% Conf. Interval] ----------+--------------------------------------------------------------- x1.4917573.0065512 75.06 0.000.478755.5047597 x2.0170383.0121051 1.41 0.162 -.0069869.0410635 _cons -.198657.0288946-6.88 0.000 -.2560048 -.1413091. whitetst White s general test statistic : 3.091832 Chi-sq( 5) P-value =.6858 78

Jak widać wartość statystyki testowej jest mała, a p-value ma dużą wartość, wobec tego brak jest podstaw do odrzucenia hipotezy zerowej o homoscedastyczności składnika losowego. Test Goldfelda-Quandta. W celu przeprowadzenia testu zakładamy, że możemy podzielić próbę na dwie części według wartości zmiennej, którą podejrzewamy o powodowanie heteroscedastyczności. W ten sposób, jeżeli rzeczywiści zmienna powoduję heteroscedastyczność, otrzymamy podział na podpróbę z mniejszą i większą wariancją. Test sprawdza, czy wariancja w obu grupach jest taka sama, czy różni się. Procedura i statystyka testowa jest analogiczna do testu Chow a. H 0 : σ 2 i = σ 2 i { σ H 1 : σi 2 2 = L dla i=1...k dla i=k+1...t σ 2 H F [n 2 K, n 1 K] = e 2e 2 /(n 2 K) e 1e 1 /(n 1 K) By przeprowadzić test estymujemy dwie regresje na podpróbkach. Przy prawdziwości hipotezy zerowej statystka testowa jako iloraz dwóch zmiennych losowych o rozkładzie χ 2 ma rozkład F [n 2 K, n 1 K] Niestety test Goldfelda-Quandta jest bardzo wrażliwy na założenie o normalności rozkładu reszt. Jeśli składniki losowe nie mają rozkładu normalnego, statystyka testowa nie ma rozkładu F, i daje może dawać mylne wyniki. By zwiększyć moc testu możemy wyrzucić część obserwacji ze środka próby. Ale im więcej obserwacji wyrzucimy, tym mniej stopni swobody będą miały wyrażenia w liczniku i mianowniku statystyki testowej. Wobec tego literatura ekonometryczna sugeruje by wyrzucać liczbę obserwacji leżącą pomiędzy 20 % liczebności próby a 1/3 próby. Test ten, tak jak test Chowa, nie jest oprogramowany w pakiecie STATA. Jednak możemy uzyskać wartość statystyki testowej estymując oba modele. Test Breuscha-Pagana. Test Goldfelda-Quanta pozwala na uzależnienie wariancji składnika losowego tylko od jednej zmiennej. Heteroscedastyczność w modelu może być powodowana przez więcej niż jedną zmienną. Test Breuscha-Pagana zakłada, że wariancja jest funkcją liniową zmiennych modelu. H 0 : σi 2 = σ 2 i H 1 : σ 2 i = σ 2 f(α 0 + α 1 z i ) Test przeprowadzany jest w sposób następujący: 79

1. Liczymy model regresji y = Xβ + ɛ, i zapamiętujemy wektor reszt e i 2. Podnosimy reszty do kwadratu e 2 i 3. Normalizujemy wektor reszt g i = e2 i e e/n 4. Przeprowadzamy regresję g i na z i 5. Zapamiętujemy ESS 6. Statystyka LM = 1 2 ESS, przy prawdziwej H 0 ma asymptotyczny rozkład χ 2 z liczbą stopni swobody równą ilości zmiennych w macierzy z (rzędowi macierzy z) Regresja pomocnicza sprawdza siłę związku między kwadratem reszt a wektorem zmiennych Z. Jeżeli wariancja rzeczywiście zależy od zmiennych zawartych w macierzy Z to wyjaśniona suma kwadratów regresji pomocniczej będzie duża i statystyka wpadnie do obszaru krytycznego wskazując na heteroscedastyczność. Natomiast niska wartość statystyki testowej może być zarówno efektem braku heteroscedastyczności, jak i źle wyspecyfikowanej alternatywy. Przykłady: Model 1. Zarobki.. hettest Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of zarobki chi2(1) = 2905.94 Prob > chi2 = 0.0000. hettest plec wyzsze srednie staz dmiasto. hettest, rhs Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: plec wyzsze srednie staz dmiasto chi2(5) = 3904.92 Prob > chi2 = 0.0000. hettest plec wyzsze srednie staz dmiasto staz2 Breusch-Pagan / Cook-Weisberg test for heteroskedasticity 80

Ho: Constant variance Variables: plec wyzsze srednie staz dmiasto staz2 chi2(6) = 4071.97 Prob > chi2 = 0.0000 Jak widać niezależnie od tego czy do testu jako zmienną objaśniającą weźmiemy kolejne potęgi zmiennej zarobki, czy pełny zestaw regresorów, czy zestaw regresorów uzupełniony o kwadrat zmiennej staż zawsze uzyskujemy ten sam rezultat. Wysoka wartość statystyki testowej wskazuje na obecność heteroscedastyczności. Model 2. Dane losowe.. hettest Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of x chi2(1) = 0.56 Prob > chi2 = 0.4561 Jak widać w przypadku tego modelu niska wartość statystyki testowej sprawia, że brak jest podstaw do odrzucenia hipotezy, że wariancja jest stała. Test Szroetera Ten test, tak jak test Goldfelda-Quandta pozwala na uzależnienie wariancji wyłącznie od jednej zmiennej objaśniającej. Jego dodatkowym założeniem jest to, że istnieje monotoniczna funkcja h(.) która jest rosnąca lub malejąca i wiąże wielkość regresora z wielkością wariancji. H 0 : σ 2 i = σ 2 i Statystyka testowa ma postać H 1 : σ 2 i = σ 2 h(x i ) H = n i=1 h(x i)e 2 i n i=1 e2 i Przy prawdziwej hipotezie zerowej powinna zachodzić równość H = h(x i ), czyli wartość statystyki testowej powinna być równa średniej wartości funkcji przekształcającej obserwacje. Znormalizowana postać statystyki 6n Q = n 2 1 H 81

ma w przybliżeniu rozkład normalny N(0, 1). Test Szroetera zakłada, że zmienna x jest ciągła lub quasi-ciągła. Dla zmiennych dyskretnych, a w szczególności dla zmiennych 0-1 (dummy variables) może dawać nieprawidłowe wyniki, ponieważ każda funkcja która nie jest funkcją stałą, będzie spełniać warunek monotoniczności dla zmiennej przyjmującej wyłącznie dwie wartości. Wobec tego moc testu będzie mała. Przykłady: Model 1. Zarobki.. szroeter plec wyzsze srednie staz dmiasto Szroeter s test for homoskedasticity Ho: variance constant Ha: variance monotonic in variable --------------------------------------- Variable chi2 df p -------------+------------------------- plec 1286.81 1 0.0000 # wyzsze 1559.06 1 0.0000 # srednie 4.50 1 0.0340 # staz 17.86 1 0.0000 # dmiasto 731.08 1 0.0000 # --------------------------------------- # unadjusted p-values Jak widać hipoteza zerowa testu, czyli stałość wariancji, jest odrzucana dla każdej ze zmiennych. Przy czym tak naprawdę interesuje nas jedynie zmienna staż, bowiem wyłącznie ta zmienna jest ciągła. Dla pozostałych zmiennych nie są spełnione założenia testu. Na podstawie rezultatów testu widzimy że wariancja jest monotoniczną funkcją zmiennych modelu. Model 2. Dane losowe.. szroeter x1 x2 Szroeter s test for homoskedasticity Ho: variance constant Ha: variance monotonic in variable --------------------------------------- Variable chi2 df p -------------+------------------------- x1 0.68 1 0.4103 # 82

x2 0.96 1 0.3279 # --------------------------------------- # unadjusted p-values Podobnie jak przy poprzednich testach przeprowadzanych dla tego modelu, nie mamy podstaw do odrzucenia hipotezy o homoscedastyczności składnika losowego. Który test wybrać? W praktyce wybór odpowiedniego testu wykrywającego obecność heteroscedastyczności jest zdeterminowany przez wiedzą, pochodzącą najczęściej spoza próby, na temat jej możliwych form funkcyjnych. Jeżeli znamy zmienne odpowiedzialne za heteroscedastycznośc to wtedy powinniśmy użyć jeden ze specyficznych testów, ponieważ one z większym prawdopodobieństwem odrzucają hipotezę zerową o homoscedastyczności. Ale musimy być ostrożni dokonując wyboru testu, bowiem w przypadku, gdy prawdziwa heteroscedastyczność ma inną formę funkcyjną wybrany przez nas test może nie wykryć jej obecności. Najbardziej ogólny test, test White a, ma ograniczoną moc. Czasami proste wykonanie wykresu reszty i jednej lub kilku zmiennych może nam pomóc. Jeżeli zmienną odpowiedzialną za heteroscedastyczność jest zmienna dyskretna to najbardziej jest prawdopodobne że tą zależność wykryje test Goldfelda-Quandta. Jeżeli heteroscedastycznośc jest funkcją liniową zmiennych, to tą zależność największą szansę ma wykryć test Breucha- Pagana. Natomiast, jeżeli podejrzewamy że heteroscedastyczność rośnie lub maleje wraz z wartościami jednej ze zmiennych ciągłych to powinniśmy zastosować test Szroetera. Przykład empiryczny 1 Przeanalizujemy model popytu na pracę zgłaszanego przez belgijskie firmy. Próba zawiera dane z 570 firm z roku 1996. Dostępne są następujące zmienne: labor zatrudnienie wage suma pensji podzielona przez liczbę pracowników (w milionach Bef) output wartość dodana produkcji (w milionach Bef) capital wartość majątku trwałego (w milionach Bef) 1 Na podstawie Verbbek(2000) 83

Możemy zapisać ogólną postać funkcji popytu na pracę jako. reg labor wage output capital L = f(wage, output, capital) Source SS df MS Number of obs = 570 -----------+------------------------------ F( 3, 566) = 2701.56 Model 198887382 3 66295793.9 Prob > F = 0.0000 Residual 13889543.2 566 24539.829 R-squared = 0.9347 -----------+------------------------------ Adj R-squared = 0.9344 Total 212776925 569 373948.902 Root MSE = 156.65 labor Coef. Std. Err. t P> t [95% Conf. Interval] -----------+-------------------------------------------------------------- wage -162.7665 12.26131-13.27 0.000-186.8497-138.6833 output.380672.0088206 43.16 0.000.3633468.3979972 capital -.1132496.0066786-16.96 0.000 -.1263675 -.1001317 _cons 281.8517 19.46326 14.48 0.000 243.6226 320.0807 Współczynniki wyestymowanego modelu są zgodne z teorią ekonomiczną. Wyższe pensje powodują niższe zatrudnienie (ceteris paribus), wyższa produkcja oznacza wyższe zatrudnienie. Widać też słaby efekt substytucji pracy kapitałem. Jednak w tego typu modelach (modele mikroekonomiczne) bardzo często występuje heteroscedastyczność. Jest to związane z tym, że w tej samej próbie zarówno mamy małe firmy zatrudniające do kilku osób działające na rynku lokalnym, jak i duże koncerny zatrudniające kilkadziesiąt tysięcy pracowników. Przed przystąpieniem do testowania przeanalizujmy zależność wielkości reszt z regresji od wielkości zmiennych i wartości teoretycznych y uzyskanych z modelu. Analiza graficzna reszt sugeruję, że wielkość składnika losowego jest uzależniona od zmiennej wage. Występowanie heteroscedastyczności potwierdza test Breuch-Pagan a. Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of labor chi2(1) = 3020.42 Prob > chi2 = 0.0000 Pierwszym krokiem w eliminowaniu heteroscedastyczności z modelu jest zlogarytmowanie wszystkich zmiennych. Przekształcenie danych przez funkcję 84

wage 0 2 4 6 8 output 0 10000 20000 30000 40000 50000 2000 1000 0 1000 2000 Residuals 2000 1000 0 1000 2000 Residuals capital 0 20000 40000 60000 80000 2000 1000 0 1000 2000 Residuals Residuals 2000 1000 0 1000 2000 0 5000 10000 Fitted values Źródło: Obliczenia własne. logarytmiczną zmniejsza wariację. Po zlogarytmowaniu dostaniemy model log-liniowy.. reg lnlabor lnwage lnoutput lncapital Source SS df MS Number of obs = 569 -----------+------------------------------ F( 3, 565) = 1011.02 Model 656.747032 3 218.915677 Prob > F = 0.0000 Residual 122.338815 565.216528876 R-squared = 0.8430 -----------+------------------------------ Adj R-squared = 0.8421 Total 779.085847 568 1.37163001 Root MSE =.46533 lnlabor Coef. Std. Err. t P> t [95% Conf. Interval] -----------+-------------------------------------------------------------- lnwage -.9277642.0714046-12.99 0.000-1.068015 -.7875132 lnoutput.9900474.0264103 37.49 0.000.938173 1.041922 lncapital -.0036975.0187697-0.20 0.844 -.0405644.0331695 _cons -.4480909.0932397-4.81 0.000 -.6312296 -.2649522 Przeprowadzamy ponownie test sprawdzający czy składnik losowy jest homoscedastyczny. 85

. hettest Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of lnlabor chi2(1) = 19.49 Prob > chi2 = 0.0000 Ponieważ nadal heteroscedstycznośc stanowi problem powinniśmy użyć estymatorów White a. Są one odporne na heteroscedastyczność i dają lepsze estymatory wariancji składnika losowego i błędów standardowych estymatorów.. reg lnlabor lnwage lnoutput lncapital, robust Regression with robust standard errors Number of obs = 569 F( 3, 565) = 544.73 Prob > F = 0.0000 R-squared = 0.8430 Root MSE =.46533 Robust lnlabor Coef. Std. Err. t P> t [95% Conf. Interval] -----------+-------------------------------------------------------------- lnwage -.9277642.0866604-10.71 0.000-1.09798 -.7575483 lnoutput.9900474.0467902 21.16 0.000.8981434 1.081951 lncapital -.0036975.037877-0.10 0.922 -.0780944.0706995 _cons -.4480909.1332882-3.36 0.001 -.7098918 -.18629 Wyraźnie widać, że rzeczywiste błędy standardowe estymatorów są większe od uzyskanych standardową procedurą. Oczywiście, zamiast używać estymatorów odpornych na heteroscedastyczność możemy za pomocą testu White a poszukać zmiennych które ją powodują. Przyjmijmy, że wariancja ε i zależy od zmiennych lnwage, lnoutput, oraz lncapital. Aby obliczyć wartość statystyki testowej generujemy wektor reszt.predict e, resid a następnie obliczamy ich kwadraty gen e2=e^2 Przeprowadzając regresję pomocniczą kwadratów reszt na zbiór zmiennych od których chcemy uzależnić wariację składnika losowego otrzymujemy:. reg e2 lnoutput lncapital lnwage 86

Source SS df MS Number of obs = 569 -----------+------------------------------ F( 3, 565) = 29.98 Model 1.6898e+12 3 5.6327e+11 Prob > F = 0.0000 Residual 1.0615e+13 565 1.8788e+10 R-squared = 0.1373 -----------+------------------------------ Adj R-squared = 0.1327 Total 1.2305e+13 568 2.1664e+10 Root MSE = 1.4e+05 e2 Coef. Std. Err. t P> t [95% Conf. Interval] -----------+-------------------------------------------------------------- lnoutput 41917.91 7779.576 5.39 0.000 26637.49 57198.33 lncapital -359.6716 5528.915-0.07 0.948-11219.41 10500.07 lnwage 33726.26 21033.37 1.60 0.109-7586.883 75039.4 _cons -212582.4 27465.23-7.74 0.000-266528.8-158636 Zmienna lnoutput wydaje się być istotna w wyjaśnianiu zróżnicowania kwadratów reszt. Wysoka wartość statystyki F modelu, również sugeruje obecność heteroscedastycznoci w składniku losowym, ponieważ zmienne są łącznie istotne, czyli wyjaśniają kwadrat błędu. Postępując dalej w sposób analogiczny, możemy dokładnie znaleźć funkcję, która jest odpowiedzialna za heteroscedastyczność. Literatura [1] William H. Greene (2003) Econometric Analysis, 5th edition. [2] Jerzy Mycielski (2000), WNE. [3] Jerzy Szroeter (1978) A Class of Parametric Test for Heteroscedasticity in Linear Econometric Models, Econometrica 46, vol. 6. [4] Marno Verbbek (2000) A Guide to Modern Econometrics, John Wiley & Sons. [5] Halber White (1980) A Heteroscedasticity-Consistent Covariance Matrix Extimator and a Direct Test for Heteroscedasticity, Econometrica 48, vol. 4, str 817-838. 87