Propozycja tytułu: Liniowe i nieliniowe modele ekonometryczne

Podobne dokumenty
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Natalia Neherbecka. 11 czerwca 2010

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Własności statystyczne regresji liniowej. Wykład 4

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Monte Carlo, bootstrap, jacknife

Stanisław Cichocki. Natalia Nehrebecka

Testowanie hipotez statystycznych.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Statystyka matematyczna dla leśników

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Metoda najmniejszych kwadratów

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Weryfikacja hipotez statystycznych

Ekonometryczne modele nieliniowe

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Ekonometria. Własności składnika losowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Metoda największej wiarogodności

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Stosowana Analiza Regresji

Rozkłady statystyk z próby

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych

Egzamin z ekonometrii wersja IiE, MSEMAT

Testowanie hipotez statystycznych.

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Ekonometria Ćwiczenia 19/01/05

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

STATYSTYKA

Wprowadzenie do analizy korelacji i regresji

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Ekonometria. Zajęcia

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Wykład 3 Hipotezy statystyczne

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Modele zapisane w przestrzeni stanów

Kolokwium ze statystyki matematycznej

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Metody Ekonometryczne

Statystyka Matematyczna Anna Janicka

Czasowy wymiar danych

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Uogólniona Metoda Momentów

Ekonometria egzamin 07/03/2018

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Estymacja parametrów w modelu normalnym

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

166 Wstęp do statystyki matematycznej

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Metody Ekonometryczne

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Wnioskowanie statystyczne. Statystyka w 5

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych.

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Diagnostyka w Pakiecie Stata

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

STATYSTYKA MATEMATYCZNA

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Zmienne zależne i niezależne

Transkrypt:

Propozycja tytułu: Liniowe i nieliniowe modele ekonometryczne Rozdział 1 Wprowadzenie W tym opracowaniu traktujemy zarówno zmienną objaśnianą Y jak i zmienne objaśniające X 1, X 2,, X k jako zmienne losowe z pewnej populacji F. Oznacza to, że rozpatrujemy rozkład zmiennej Y warunkowy ze względu na X 1, X 2,, X k, czyli F(Y X 1, X 2,, X k ). W praktyce zwykle koncentrujemy uwagę na warunkowej wartości oczekiwanej E(Y X 1, X 2,, X k ) z takiego rozkładu, kiedy na przykład chcemy wyjaśnić przeciętne zmiany wzrostu gospodarczego. Czasami analizujemy warunkową wariancję Var(Y X 1, X 2,, X k ), kiedy na przykład chcemy wyjaśnić zmienność stóp zwrotu z akcji na giełdzie. W dalszej części tego rozdziału zakładamy, że zmienna Y nie jest ograniczona, to znaczy, że realizacje Y należą do zbioru liczb rzeczywistych R. Ekonomistów najczęściej interesuje odpowiedź na pytanie, jaki wpływ (w domyśle przeciętnie ) pewna zmienna X ma na zmienną Y. Najłatwiej taki wpływ można zmierzyć, kiedy zależność między zmienną X a zmienną Y jest liniowa. Na przykład przy założeniu liniowej zależności między dochodem i wydatkami możemy przyjąć, że wzrost aktualnego dochodu o 100 zł powoduje wzrost wydatków przeciętnie o 40 zł, niezależnie od wielkości aktualnego dochodu. Do analizy zależności między zmiennymi wykorzystywany jest liniowy model wartości oczekiwanej postaci: E(Y X 1, X 2,, X k ) = β 1 X 1 + β 2 X 2 +... +β k X k Szczególnym i najbardziej popularnym przykładem takiego modelu jest model regresji, w którym oprócz zmiennych objaśniających X 1, X 2,, X k z obserwowalnymi wartościami występuje także nieobserwowalny składnik losowy U: Y = β 1 X 1 + β 2 X 2 +... +β k X k + U Wśród zmiennych objaśniających może też występować stała, czyli wyraz wolny. Do analizy zależności w regresji liniowej wykorzystywany jest ciąg k + 1 zmiennych losowych (y i, x 1,i, x 2,i,, x k,i ), i = 1,, n, wybranych losowo z populacji F i zwanych dalej obserwacjami. Wektor i-tej obserwacji zmiennych objaśniających można zapisać jako x i = [x 1,i x 2,i x k,i ]. Natomiast cała próba obserwacji składa się z wektora n 1 obserwacji zmiennej objaśnianej Y, czyli y = [y 1 y 2 y n ], oraz z macierzy n k obserwacji zmiennych objaśniających X = [x 1 x 2 x n ]. 1

Liniową zależność między obserwacjami y i pewnej zmiennej objaśnianej Y a obserwacjami x 1,i, x 2,i,, x k,i odpowiednich zmiennych objaśniających X 1, X 2,, X k można zapisać przy pomocy następującego modelu regresji liniowej: y i = β 1 x 1,i + β 2 x 2,i +... +β k x k,i + u i (1) gdzie y i oznacza i-tą obserwację zmiennej objaśnianej, x 1,i, x 2,i,, x k,i oznaczają i-te obserwacje zmiennych objaśniających, a u i oznacza i-tą obserwację składnika losowego dla i = 1,,n. Postać tego modelu w formie macierzowej jest następująca: y = Xβ + u (2) gdzie wektor u jest n-elementowym wektorem składników losowych. Zauważmy, że jest to model liniowy względem parametrów i względem zmiennych. Zmienna objaśniana jest liniową funkcją względem zmiennych objaśniających przy ustalonych wartościach parametrów. Zmienna objaśniana jest też liniową funkcją parametrów przy ustalonych wartościach zmiennych objaśniających. Definicja 1 Nieliniowy model regresji definiujemy jako taki, w którym zmienna objaśniana jest nieliniową funkcją parametrów lub nieliniową funkcją zmiennych objaśniających. W modelach liniowych łatwiejszy niż w modelach nieliniowych jest wybór specyfikacji modelu, szacowanie parametrów, testowanie hipotez statystycznych, interpretacja ekonomiczna wyników czy też prognozowanie. W kontekście tego opracowania najważniejszy jest fakt, że poznanie podstawowych założeń i własności liniowych modeli regresji jest ważne do lepszego zrozumienia nieliniowych modeli ekonometrycznych. Dlatego w dalszej części tego rozdziału koncentrujemy uwagę na modelach liniowych, a rozszerzenia modeli liniowych do modeli nieliniowych omówione zostaną w następnych rozdziałach. Założenia liniowego modelu regresji Założenia do liniowego modelu regresji przedstawiamy za Hansenem (2018, str. 88-113; por. także Hayashi, 2000, str. 3-34; Greene, 2012, str. 56). Założenie 1: Obserwacje {(y 1, x 1 ), (y 2, x 2 ),, (y n, x n )} są niezależne i mają jednakowe rozkłady. 2

To założenie wydaje się racjonalne w przypadku analizy danych przekrojowych, gdzie obserwacje są losowane niezależnie z pewnej populacji. W przypadku danych w postaci szeregów czasowych kolejne obserwacje są rzadko niezależne. Na przykład y i często zależy od y i 1. Dlatego modele szeregów czasowych wymagają zastosowania nieco innych założeń niż podane tutaj i mają inne własności. Na przykład w miejsce Założenia 1 przyjmuje się, że (k + 1)-wymiarowy proces stochastyczny {y i, x i } jest łącznie stacjonarny i ergodyczny (Hayashi, 2000, str. 109). W tym rozdziale nie rozróżniamy rodzajów danych i dlatego wprowadzamy dość restrykcyjne założenie o niezależności obserwacji w próbie. Założenie 2: Zależności między obserwacjami (y i, x i ) są objaśniane przez model regresji y i = x i β + u i, gdzie wartość oczekiwana składnika losowego jest równa zero niezależnie od wartości zmiennych objaśniających x i, E(u i x i )=0. Ponieważ obserwacje są niezależne to równoważnie można zapisać założenie, że E(u i x 1, x 2,, x n ) = 0. Jest to założenie tzw. silnej egzogeniczności (Hayashi, 2000, str. 7). Czasami w podręcznikach podaje się silniejsze założenie, że składnik losowy jest niezależny od zmiennych objaśniających (por.np. Johnston i DiNardo, 1997, str. 110), ale tak silne założenie nie jest wymagane do zachowania najważniejszych własności modelu regresji i estymatorów takich jak estymator metody najmniejszych kwadratów (MNK, least squares estimator), czy też estymator uogólnionej metody najmniejszych kwadratów (UMNK, generalized least squares estimator). Inne założenie spotykane w literaturze jest takie, że zmienne objaśniające są nielosowe i dlatego składniki losowe są od nich niezależne (por.np. Johnston i DiNardo, 1997, str. 86). Ponieważ w ekonomii zmienne mają zwykle losowy charakter, to takie założenie wydaje się zbyt restrykcyjne (por. także Hayashi, 2000, str. 13). Założenie 3: Zmienne w modelu regresji mają skończone drugie momenty, czyli E(y 2 i ) < oraz E x i 2 <. Założenie 4: Wartość oczekiwana z iloczynu i-tych obserwacji x i jest macierzą odwracalną, czyli E(x i x i ) > 0. Ostatni wzór oznacza, że macierz dodatnio określona jest odwracalna. Ważne jest, żeby rząd macierzy X zawierającej wszystkie obserwacje x i z próby był równy liczbie zmiennych objaśniających i nie mniejszy od liczby obserwacji w modelu, r(x) = k n. 3

Niektóre własności modeli regresji zależą jeszcze od dwóch dodatkowych założeń. Założenie 5: Składnik losowy jest homoskedastyczny, czyli jego wariancja jest stała i niezależna od x i, czyli E(u i 2 x i ) = σ 2. W takim przypadku model regresji nazywamy homoskedastycznym (homoskedastic regression). Założenie 5 upraszcza wzory na błędy oszacowań parametrów i dlatego jest preferowane szczególnie przy wyprowadzaniu własności estymatorów i testów statystycznych. Niestety założenie to rzadko jest spełnione w praktyce. Standardem powinno być zatem stosowanie modelu regresji heteroskedastycznej, to znaczy uwzględnianie potencjalnej heteroskedastyczności składnika losowego przy szacowaniu parametrów, liczeniu błędów szacunków, czy też przy testowaniu statystycznym hipotez. Jeśli to założenie nie jest spełnione, to model (i składnik losowy) nazywamy heteroskeastycznym (heteroskedastic regression, heteroskedastic error term). Założenie 6: Składnik losowy ma warunkowy rozkład normalny, (u i x i )~N(0, σ 2 ). Ponieważ obserwacje są niezależne, to u X~N(0, σ 2 I ). Założenie 6 jest przydatne, kiedy interesują nas własności estymatorów i statystyk dotyczących modelu regresji w skończonych próbach. Na przykład estymator MNK parametrów β w modelu regresji ma (wielowymiarowy) rozkład normalny, kiedy spełnione jest założenie 6. Założenie 6 umożliwia też szacowanie modelu metodą największej wiarygodności (MNW), ponieważ model jest wtedy w pełni sparametryzowany i znany jest rozkład y. Własności liniowych modeli regresji i metody najmniejszych kwadratów Najczęściej wykorzystywaną metodą szacowania parametrów modeli regresji liniowej jest metoda najmniejszych kwadratów (MNK). Polega ona na znalezieniu takich wartości estymatora β parametrów β, które minimalizują sumę kwadratów reszt modelu regresji: β = argmin β R k S(β) = argmin β R k n ( (y i x i β) 2 ). (3) Estymator MNK można wyprowadzić przyrównując pochodną z funkcji S(β) po parametrach β do wektora zerowego: i=1 4

S(β ) β n = 2 y ix i + x i x i β = 0. (4) i=1 Estymator MNK dany jest zatem wzorem: n β = ( x i x i ) i=1 1 n n i=1 ( y i x i ) = (X X) 1 X y. (5) i=1 Estymator MNK parametrów β przy spełnieniu Założeń 1 4 ma następujące własności. Własność 1: Przy spełnionych Założeniach 1 4 estymator MNK jest nieobciążony, tzn. jego wartość oczekiwana równa jest wartości β, E(β ) = β. Prawdziwa jest również własność E(β X) = β. Przydatne będzie przedstawienie estymatora MNK jako funkcji zależnej od wektora prawdziwych wartości parametrów i odchyleń od tego wektora. Ze wzorów (2) i (5) wynika: β = (X X) 1 X (Xβ + u) = β + (X X) 1 X u (6) Ponieważ E(β X) = E((X X) 1 X y X) = E((X X) 1 X (Xβ + u) X), to zachodzi dalej E((X X) 1 X Xβ + (X X) 1 X u X) = β + (X X) 1 X E(u X) = β. Z prawa iterowanych oczekiwań wynika, że E(β ) = E (E(β X)) = E(β) = β. Własność 2: Przy spełnionych Założeniach 1 5 wariancja estymatora MNK warunkowa ze względu na X ma postać V β = Var(β X) = σ 2 (X X) 1. Na podstawie wzoru (6) można wyznaczyć wariancję oszacowań parametrów: V β = Var(β X) = E[(β β)(β β) X] = E[(X X) 1 X uu X(X X) 1 X] = = (X X) 1 X DX(X X) 1 = σ 2 (X X) 1. Ostatnia równość jest prawdziwa, ponieważ macierz wariancji składników losowych w modelu homoskedastycznym ma postać D = E[uu X] = σ 2 I i ma wymiary n n. Macierz V β ma wymiary k k. Ponieważ wariancja składnika losowego σ 2 zwykle nie jest znana, to zamiast niej podstawia się do wzoru (7) jej nieobciążony i zgodny szacunek σ 2 = (u u ) (n k), gdzie u oznacza wektor reszt regresji oszacowanej metodą MNK. Wtedy estymator wariancji oszacowań parametrów ma wzór: (7) 5

V β = σ 2(X X) 1 = u u n k (X X) 1. (8) Ponadto z twierdzenia Gaussa-Markowa wynika, że estymator MNK parametrów β w modelu homoskedastycznym (czyli przy spełnieniu Założeń 1 5) ma następującą własność. Własność 3: (twierdzenie Gaussa-Markowa) Przy spełnionych Założeniach 1 5 estymator MNK jest efektywny w klasie liniowych nieobciążonych estymatorów (BLUES, best linear unbiased estimator). To znaczy, że dla każdego liniowego nieobciążonego estymatora β zachodzi Var(β X) σ 2 (X X) 1, czyli różnica Var(β X) σ 2 (X X) 1 jest macierzą dodatnio półokreśloną. Ta własność oznacza, że estymator MNK jest najbardziej precyzyjnym estymatorem w klasie estymatorów liniowych, czyli tych będących liniową funkcją y, i nieobciążonych. Dowód twierdzenia można znaleźć na przykład w podręcznikach Hamayashiego (2000, str. 29) i Hansena (2018, str. 94-95). Własność 4: Jeśli spełnione jest dodatkowo Założenie 6 i wektor składników losowych ma nwymiarowy rozkład normalny u X~N(0, σ 2 I ), to rozkład β warunkowy ze względu na X jest także normalny, czyli: β X~N(β, V β ). Dla każdego j-tego elementu wektora β, gdzie j = 1,, k, mamy β j~n (β j, σ 2 (β j)), gdzie σ 2 (β j) jest j-tym parametrem leżącym na diagonalnej macierzy V β. Jeśli znana jest parametru β j = β i znana jest wariancja σ 2 (β j) szacunku β j (i jej pierwiastek, czyli odchylenie standardowe σ(β j)), to statystyka z = (β j β j ) σ(β j) ma standardowy rozkład normalny, N(0,1). Ta własność wykorzystywana jest często do testowania istotności zmiennych stojących przy poszczególnych parametrach w modelu regresji (1) lub do testowania hipotez zakładających konkretną wartość danego parametru, to znaczy β j = β. Bezpośrednie użycie statystyki z w praktyce nie jest możliwe, gdy nie jest znana wariancja składnika losowego ani tym bardziej nie jest znane odchylenie standardowe σ(β j) szacunku parametru β j. Wykorzystuje się wtedy szacunek wariancji oszacowań parametrów V β do przybliżenia V β. Szacunek odchylenia standardowego estymatora β i ma wtedy wzór σ (β j) = v jj, gdzie v jj 6

oznacza j-ty element diagonalnej macierzy V β. Obliczana jest wtedy analogiczna do z statystyka t: t = (β j β ) σ (β j) i przy założeniu, że β j = β, ma ona rozkład t(n k). Dla dużych prób, gdzie n k > 30 rozkład t jest bardzo podobny do standardowego rozkładu normalnego. W modelu, w którym Założenia 5 i 6 nie są spełnione, macierz wariancji oszacowań parametrów V β = (X X) 1 X DX(X X) 1 nie daje się łatwo skrócić tak, jak we wzorze (7). Macierz D można wtedy zapisać w następujący sposób: Wartości σ i 2 D = diag(σ 1 2, σ n 2,, σ n 2 ) = 2 σ 1 O 0 2 0 σ 2. 0 [ 0 0 σ 2 n ] z reguły nie są znane i macierze D i V β mogą zostać jedynie oszacowane. W praktyce często stosowany jest estymator White a wariancji oszacowań parametrów V β (White, 1980): V β = n n n k (X X) 1 ( u i2 x i x i ) (X X) 1. (9) i=1 Ten oraz inne alternatywne estymatory wariancji szacunku parametrów, odporne na heteroskedastyczność składnika losowego, zostały dokładniej opisane między innymi w podręczniku Hansena (2018, str.101-104). W modelu heteroskedastycznym przestaje też działać twierdzenie Gaussa-Markowa i prawdziwa jest następująca bardziej ogólna własność. Własność 5: Jeśli w modelu regresji y = Xβ + u składnik losowy spełnia warunki E(u X) = 0 i E[uu X] = D, to dla każdego liniowego nieobciążonego estymatora β zachodzi Var(β X) (X D 1 X) 1, czyli różnica Var(β X) (X D 1 X) 1 jest macierzą dodatnio półokreśloną. Oznacza to, że w modelu heteroskedastycznym (lub w modelu ze wzajemnie skorelowanymi składnikami losowymi) estymator MNK nie jest najbardziej precyzyjny, czyli efektywny. Efektywny jest następujący estymator uogólnionej metody najmniejszych kwadratów (UMNK): 7

β = (X D 1 X) 1 X D 1 y. (10) W praktyce jednak ze względu na trudności z ustaleniem wartości D stosuje się estymator MNK, a jedynie wariancję i błędy estymatora liczy się uwzględniając heteroskedastyczność składnika losowego. Własność 2: zgodny, tzn. lim i P( β i β < δ) = 1 dla każdego δ > 0 Nakładanie restrykcji liniowych na parametry modelu regresji liniowej W modelach ekonometrycznych nakłada się czasami warunki na parametry, żeby móc następnie sprawdzić przy pomocy testów statystycznych, czy te warunki są spełnione, lub wykorzystać nałożone warunki do dokładniejszego oszacowania parametrów modelu. Przykład 1 Chcemy sprawdzić, czy w modelu regresji y i = β 1 x 1,i + β 2 x 2,i +... +β k x k,i + u i z k zmiennymi objaśniającymi spełniony jest warunek β 1 = β. Hipoteza zerowa zakłada, że β 1 = β (na przykład β 1 = 0), a hipoteza alternatywna zakłada, że β 1 β. Statystyka testowa służąca do weryfikacji hipotezy zerowej ma następującą postać (analogiczną do wzoru na statystykę z omawianą wcześniej): t 1 = β 1 β σ (β 1) i przy założeniu prawdziwości hipotezy zerowej oraz spełnionych Założeń 1 4 i 6 ma ona rozkład t Studenta z n k stopniami swobody, t 1 ~t(n k). Warto wiedzieć, że przy założeniu prawdziwości hipotezy zerowej oraz spełnieniu założeń Założeń 1 4 ta sama statystyka ma asymptotyczny (to znaczy przy n ) standardowy rozkład normalny. Przykład 2 Często nakłada się na parametry liniowego modelu regresji restrykcje liniowe postaci Rβ = r. Na przykład restrykcje zerowe na grupę trzech parametrów z pięciu w modelu regresji można 8

zapisać następująco: β 1 = 0, β 2 = 0 i β 3 = 0 lub stosując zapis macierzowy: 1 0 0 [ 0 1 0 0 0 1 Przykład 3 0 0 β 1 β 1 0 0 0] β 1 = [ 0]. 0 0 β 1 [ β 1 ] 0 Można też nakładać bardziej złożone warunki na funkcje liniowe parametrów w tym samym modelu regresji, np. 2 β 1 3 β 2 = 1, co przedstawia się stosując zapis macierzowy jako [2 3 0 0 0] [β 1 β 2 β 3 β 4 β 5 ] = 1. Przykład 4 Załóżmy, że chcemy przetestować jednocześnie dwa niezależne warunki (m = 2), β 1 + β 3 = 5 oraz β 2 = β 4, nałożone na parametry w następującym modelu regresji: y i = β 1 x 1,i + β 2 x 2,i + β 3 x 3,i + β 4 x 4,i + u i Liczba wszystkich parametrów β j wynosi zatem 4. Odpowiednie macierze R i r służące do zapisania warunków w formie macierzowej Rβ = r mają postać: R = [ 1 0 1 0 0 1 0 1 ] oraz r = [5 0 ]. Przykład 5 Zgodnie z teorią nieubezpieczonego parytetu stóp procentowych oczekiwane dynamika kursu walutowego powinna być równa różnicy stóp procentowych w kraju i za granicą, E t (ln (S t+1 ) ln (S t+1 )) E t ( s t+1 ) = i t i t. Taką teorię można testować przy pomocy modelu regresji s t+1 = α 0 + α 1 i t + α 2 i t + u t i nałożonych na nią restrykcji α 0 = 0, α 1 = 1, α 2 = 1. Odpowiednie macierze R i r mają wtedy postać: 1 0 0 0 R = [ 0 1 0 ], r = [ 1 ]. 0 0 1 1 Przykład 6 Przy założeniu stałych korzyści skali w funkcji produkcji Cobba-Douglasa suma elastyczności produkcji względem czynników produkcji jest równa 1, co można zapisać następująco: Y = α exp (α 0 ) X 1 α 1 X 2 α 2 X 3 3 U, gdzie U to czynnik losowy, a α 1 + α 2 + α 3 = 1. Taki model 9

można przekształcić do postaci liniowej względem parametrów redefiniując zmienne: y = ln (Y), x 1 = ln (X 1 ), x 2 = ln (X 2 ), x 1 = ln (X 3 ), u = ln (U). Model regresji służący do testowania stałych korzyści skali będzie miał wzór: y = α 0 + α 1 x 1 + α 1 x 2 + α 1 x 3 + u t a restrykcje zapisane w macierzach R i r mają wtedy postać R = [0 1 1 1], r = [1]. Przykłady ekonomiczne Prawo jednej ceny w kraju i za granicą Relacja kursu spot akcji i kursu futures Ze wzoru (xxx) można także wyprowadzić statystyki przydatne do testowania bardziej złożonych hipotez, dotyczących jednocześnie wielu parametrów i wielu warunków. Pomożenie estymatora β przez pewną macierz znanych parametrów R o rozmiarach m K powoduje, że iloczyn Rβ ma rozkład: Rβ ~N(Rβ, RV β R ) Z kolei odjęcie od tego iloczynu wektora znanych parametrów r o rozmiarach m 1 zmienia rozkład wyrażenia w następujący sposób: Rβ r~n(rβ r, RV β R ) Wykorzystuje się fakt, że dla każdego wektora z~n(0, Ω) o wymiarach m 1, gdzie macierz wariancji Ω jest nieosobliwa, forma kwadratowa z Ω 1 z ma rozkład χ 2 z m stopniami swobody. Dlatego przy założeniu hipotezy, że Rβ = r (czyli Rβ r = 0), następująca forma kwadratowa ma także rozkład χ 2 z m stopniami swobody: (Rβ r) (RV β R )(Rβ r)~χ 2 (m)[0 1 1 1] W analogiczny sposób budowana jest statytyka F, służąca do testowania hipotezy zerowej H 0 : Rβ = r. Hipoteza alternatywna zakłada, że równość nie jest spełniona, H 1 : Rβ r. Ponieważ wartość V β nie jest znana, to należy ją oszacować, na przykład stosując wzór (xxx) lub (xxxx). Wtedy następująca statystyka testowa F ma rozkład Fishera Snedecora (zwanego też rozkładem F): F = (Rβ r) (RV β R )(Rβ r) m ~F(m, n k) We wzorze tym m oznacza liczbę niezależnych warunków, czyli wierszy wektora r. Przy założeniu modelu homoskedastycznego wykorzystuje się następującą własność wariancji składnika losowego u u σ 2 ~χ2 (n k) oraz własność, że iloraz dwóch niezależnych zmiennych 10

losowych z rozkładów χ 2 (m) i χ 2 (n k) pomnożony przez n k Wtedy prawdziwy jest wzór: (Rβ r) (σ 2 R(X X) 1 R )(Rβ r) u u σ 2 N K m m ma rozkład F(m, n k). = (Rβ r) (R(X X) 1 R )(Rβ r) m u u n k który po podstawieniu σ 2 prowadzi do wzoru (xxx) statystyki testowej F: F = (Rβ r) (σ 2R(X X) 1 R )(Rβ r) m ~F(m, n k) Warto dodać, że bardzo podobny wzór ma statystyka Walda, służąca do testowania tej samej hipotezy zerowej (Rβ = r). Przy spełnionych Założeniach 1 4 oraz spełnionym warunku Rβ = r statystyka Walda dla modelu liniowego ma wzór: (Rβ r) (σ 2R(X X) 1 R )(Rβ r) = m F d χ 2 (m) Ważne jest, że statystyka Walda ma asymptotyczny (to znaczy przy n ) rozkład χ 2 nawet, gdy składnik losowy nie ma rozkładu normalnego. Statystyka Walda zostanie omówiona dokładniej w rozdziale XXX. Tabela 1. Własności estymatora MNK w modelach regresji Założenia modelu Oszacowania β Statystyka t k Statystyka F X nielosowe, u~n(0, σ 2 I ) β ~N(β, σ 2 (X X) 1 ) t i ~t(n k) F~F(m, n k) m F d χ 2 (m) X losowe, ale niezależne od u, u~n(0, σ 2 I ) X losowe, ale niezależne od p u, ( N x i x i ) N Q i=1 u~niegaussowski(0, σ 2 I ) Model autoregresji ze stacjonarnymi zmiennymi E(β ) = β, rozkład niegaussowski (*) E(β ) = β, N(β N β) d N(0, σ 2 Q 1 ) E(β ) = β, N(β N β) d N(0, σ 2 Q 1 ) 11 t i ~t(n k) t i d N(0,1) t k L N(0,1) Źródło: opracowanie na podstawie pracy Hamiltona (1994), Tabela 8.1, str. 209. F~F(m, n k) m F d χ 2 (m) m F d χ 2 (m) m F L χ 2 (m) Uwagi: Q oznacza xxxxxx. (*) asymptotyczny rozkład jest normalny podobniej aj w przykładach poniżej. Symbol d oznacza słabą zbieżność, a symbol p oznacza zbieżność z prawdopodobieństwem (por. XXXXXX).

Przykład 7 Dla tej samej hipotezy zerowej, co w Przykładzie 1 (β i = β ), można skonstruować odpowiednią statystykę testową F. Wzór (xxx) znacznie się uprości do postaci: F = (β i β ) 2 σ 2(β i) ~F(1, N K) Zwróćmy uwagę, że t i = F. Z własności rozkładu F wynika, że pierwiastek zmiennej z tego rozkładu z parametrami 1 i n k ma rozkład t(n k). Nieliniowe restrykcje w liniowym modelu regresji Rozważamy model regresji liniowej postaci: y i = β 1 x 1,i + β 2 x 2,i +... +β K x K,i + u i gdzie y i oznacza i-tą obserwację zmiennej objaśnianej, x 1,i, x 2,i,, x k,i oznaczają i-te obserwacje zmiennych objaśniających, a u i oznacza i-tą obserwację składnika losowego dla i = 1,,n. Wśród zmiennych objaśniających może występować stała, czyli wyraz wolny. Postać tego modelu w formie macierzowej jest następująca: y = Xβ + u Wektor y zawiera n obserwacji zmiennej objaśnianej, macierz X o wymiarach n k zawiera obserwacje zmiennych objaśniających, a u jest n-elementowym wektorem składników losowych. Sprawdźmy, czy parametry takiego modelu regresji spełniają pewne, potencjalnie nieliniowe restrykcje, na przykład β 1 (β 2 + β 3 ) = 1. Niech g(β): R k R m, funkcja wektora parametrów regresji, spełnia równanie g(β) = 0 m 1. Zwróćmy uwagę, że szczególnym przypadkiem g(β) jest liniowa funkcja parametrów zadana wzorem g(β) = Rβ r. Zdefiniujmy następnie macierz G(β) o wymiarach m k jako macierz pierwszych pochodnych z funkcji g(β) po wektorze parametrów β, G(β) = g β = [ g β 1 g β k ]. 12

Przykład 1 Zdefiniujmy funkcję g(β) i zapiszmy macierz G(β) dla warunku β 1 (β 2 + β 3 ) = 1 w liniowym modelu regresji z trzema parametrami, β = [β 1 β 2 β 3 ] : 1 G(β) = [ β 2 + β 3 W tym przypadku m = 1 i k = 3. g(β) = β 1 (β 2 + β 3 ) 1 β 1 (β 2 + β 3 ) 2 β 1 (β 2 + β 3 ) 2] Do testowania hipotezy H 0 zakładającej, że g(β) = 0, służy statystyka Walda postaci W = n g(b) (G(b)V n G(b) ) 1 g(b) gdzie V n = (X X) 1 Ω n (X X) 1. Macierz Ω n jest zgodnym estymatorem macierzy wariancji E(x i x i u i 2 ). Na przykład w modelu z warunkową homoskedastycznością Ω n 0 = X Xs 2, s 2 = u u (n k), a w modelu heteroskedastycznym można użyć Ω n = n i=1 x i x i u i2. W modelu homoskedastycznym V n = s 2 (X X) 1. Symbolem b oznaczono oszacowania parametrów β otrzymane metodą najmniejszych kwadratów. Przy założeniu prawdziwości H 0 statystyka W ma asymptotyczny rozkład χ 2 z m stopniami swobody, gdzie m oznacza liczbę niezależnych restrykcji, czyli liczbę wierszy w układzie równań g(β) = 0 m 1. Restrykcje nieliniowe można zapisać na różny sposób, tak by statystyka Walda miała różną wartość. Na przykład warunek β 1 β 2 + β 3 1 = 0 jest identyczny jak β 1 + β 2 β 3 β 2 = 0 przy założeniu β 2 0, ale statystyka Walda ma w każdym przypadku inną postać i inną wartość. W obu przypadkach asymptotyczne wartości krytyczne statystyki W są jednak identyczne, ponieważ W d χ 1 2. W badaniu empirycznym może się zatem zdarzyć, że nie będzie podstaw do odrzucenia warunku pierwszego, a odrzucony zostanie identyczny warunek drugi. Możliwość otrzymania różnych wyników testu dla identycznych, ale różnie zapisanych nieliniowych restrykcji jest poważnym problemem przy analizowaniu restrykcji nieliniowych w modelach ekonometrycznych (Gregory, A., & Veall, M. (1985)) Możliwym rozwiązaniem jest zastosowanie testu minimalnej odległości (ang. minimumdistance test) Neweya i Westa (1987). Test ten polega na porównaniu statytystyk J(β) uogólnionej metody momentów (UMM) policzonych, odpowiednio, dla modelu z restrykcjami 13

g(β) = 0 i bez restrykcji. Statystyki J(β) stanowią kryteria minimalizacji otrzymywane w procesie estymacji parametrów modeli. Mianowicie w modelu regresji liniowej oszacowanie parametrów β przy pomocy UMM polega na znalezieniu takich wartości parametrów β, dla których minimalizowana jest statystyka J(β) postaci: J(β) = n(y Xβ) XΩ n 1 X (y Xβ) gdzie Ω n jest zgodnym estymatorem macierzy wariancji E(x i x i u i 2 ). Na przykład w modelu z warunkową homoskedastycznością Ω 0 n = X Xs 2, s 2 = u u (n k), a w modelu heteroskedastycznym można użyć Ω n = n i=1 x i x i u i2. W przypadku modelu bez restrykcji estymator UMM ma identyczną postać jak estymator MNK: β = argmin J(β) = (X X) 1 (X y) β R k Natomiast dla modelu regresji z nieliniowymi restrykcjami estymator UMM nie ma ustalonej formuły i należy wykorzystać metody numeryczne do znalezienia minimalnej wartości J(β): β = argmin J(β) g(β)=0 Więcej informacji na temat numerycznych metod optymalizacji przedstawiono w rozdziale XXX. Statystyka testowa ma postać: D = J(β ) J(β )~χ m 2 i jest ona odporna na algebraiczny sposób zapisania nieliniowego warunku g(β) = 0. Co ciekawe wartości statystyk D i W są identyczne, gdy testowane są restrykcje liniowe i używane są identyczne estymatory E(x i x i u i 2 ). 14

Podstawowe testy liniowej postaci modelu regresji W rozdziale tym skoncentrowano uwagę na tych testach specyfikacji modelu regresji, które służą zbadaniu czy postać liniowa modelu jest prawidłowa, czy też bardziej odpowiednia byłaby postać nieliniowa. Test RESET Test RESET Ramseya (1969) służy do sprawdzenia, czy postać funkcyjna oszacowanego modelu jest prawidłowa, czy w oszacowanym modelu nie brakuje istotnych zmiennych lub czy zmienne objaśniające nie są skorelowane ze składnikiem losowym (por. także Ramsey i Schmidt, 1976). Gdyby któryś z tych warunków nie był spełniony, to oszacowania parametrów w modelu regresji byłyby najprawdopodobniej obciążone i niezgodne, ponieważ składnik losowy zawierałby ważne informacje dotyczące zmiennych objaśniających. Hipoteza zerowa testu zakłada, że składnik losowy spełnia Założenia 1 6, czyli H 0 : u X~N(0, σ 2 I ). Natomiast hipoteza alternatywna zakłada, że składnik losowy ma wartość oczekiwaną różną od zera, H 1 : u X~N(μ, σ 2 I ) i μ 0 (Johnston, DiNardo, 1997, str. 121). W pierwszym kroku procedury testowej weryfikowany model regresji jest szacowany i wyliczany jest wektor wartości teoretycznych y = Xβ. Następnie definiowane są wektory y 2, y 3, y 4,, zawierające odpowiednie kolejne potęgi wartości elementów wektora y. Wektor y 2 zawiera drugie potęgi elementów wektora y, wektor y 3 zawiera trzecie potęgi i tak dalej. Zwykle wystarczą już tylko wektory y 2 i y 3. W kolejnym kroku nowo utworzone wektory traktuje się jak dodatkowe zmienne w modelu regresji i szacuje się tak rozszerzony model. Testowanie hipotezy zerowej polega na sprawdzeniu przy pomocy statystyki F opisanej wzorem (xxx), czy dodane zmienne są statystycznie istotne, czyli czy nieliniowości reprezentowane przez potęgi obserwacji w y powinny zostać uwzględnione w modelu. Przy założeniu prawdziwości hipotezy zerowej statystyka F ma rozkład F(m, n k), gdzie m oznacza liczbę dodatkowych zmiennych dodanych do modelu regresji. Test Chowa Test Chowa (1960????) (Chow s test for structural change) służy do wykrywania zmian strukturalnych w dużych próbach. Test polega na podzieleniu próby na dwie podpróby i na sprawdzeniu, czy parametru modelu oszacowanego na podstawie danych z jednej podpróby są identyczne jak te oszacowane przy użyciu danych z drugiej podpróby. Hipoteza zerowa 15

wskazuje, że parametry modelu regresji w obu podpróbach są jednakowe, H 0 : β 1 = β 2, natomiast hipoteza alternatywna zakłada, że parametry w obu próbach są różne, H 0 : β 1 β 2. Odrzucenie hipotezy zerowej na rzecz alternatywnej może sugerować, że liniowa postać modelu nie jest odpowiednia. W pierwszym kroku procedury testowej szacujemy model regresji (xxx) na podstawie danych z całej próby, potem na podstawie danych z pierwszej podpróby, a na końcu z drugiej podpróby. Obliczamy reszty z każdego oszacowanego modelu i obliczamy kolejno sumy kwadratów reszt dla każdego z oszacowanych modeli. Sumy kwadratów reszt oznaczamy odpowiednio jako S, S 1, S 2. W drugim kroku obliczamy statystykę testową, która jest analogiczna do tych zapisanych wzorami (xxx) i (xxx): F = [S (S 1 + S 2 )] k (S 1 + S 2 ) (n 2k) Statystyka F przy założeniu prawdziwości hipotezy zerowej ma rozkład F(k, n 2k). Przykład xxx Zwróćmy uwagę, że przy odpowiednim przedefiniowaniu zmiennych objaśniających z obserwacjami oddzielnie z obu podprób można otrzymać identyczną wartość statystyki F, jak ta zapisana wzorem (xxx) oraz jak statystyka F zapisana wzorem (xxx). Zdefiniujmy zmienne x 1,i, x 2,i,, x k,i, które przyjmują wartości identyczne jak x 1,i, x 2,i,, x k,i dla i = 1,, i oraz przyjmują wartości zero dla i = i + 1,, n. Oznaczmy macierz obserwacji zmiennych x 1,i, x 2,i,, x k,i w próbie przez X. Analogicznie zdefiniujmy zmienne x 1,i, x 2,i,, x k,i, które przyjmują wartości zero dla i = 1,, i oraz przyjmują wartości identyczne jak x 1,i, x 2,i,, x k,i dla i = i + 1,, n. Oznaczmy macierz obserwacji zmiennych x 1,i, x 2,i,, x k,i przetworzone zmienne: y i = β 1 x 1,i w próbie przez X. Następnie zbudujmy model regresji wykorzystujący tak + β 2 x 2,i +... +β k x k,i + β 1 x 1,i + β 2 x 2,i +... +β k x k,i + u i Sprawdzenie czy parametry modelu regresji są identyczne w podpróbie obserwacji i = 1,, i jak w podpróbie obserwacji i = i + 1,, n polega na weryfikacji hipotezy H 0 : β 1 = β 2, gdzie β 1 = [β 1 β 2 β k ] i β 2 = [β 1 restrykcje liniowe Rβ = r, gdzie β = [β 1 ma wtedy postać [I k k β 2 β k ]. Testować taką hipotezę można nakładając β 2 ], na parametry modelu regresji (xxx). Macierz R I k k ] i wymiary k 2k, a wektor r = 0 k 1 składa się z k zer. Możliwe jest zatem wykorzystanie statystyk F i Walda, przedstawionych w punkcie xxx, do 16

przeprowadzenia tego testu. Statystyki mnożnika Lagrange a i testu ilorazu wiarygodności, przedstawione w rozdziale xxx, także mogą zostać tutaj użyte. Test Quandta-Andrewsa Test Quandta (xxxx) i Andrewsa (xxxx) jest podobny do testu Chowa (1960). Także służy on do wykrywania zmian strukturalnych w modelu w dużych próbach. Test polega na podzieleniu próby na dwie podpróby i na sprawdzeniu, czy parametru modelu oszacowanego na podstawie danych z jednej podpróby są identyczne jak te oszacowane przy użyciu danych z drugiej podpróby. Jednak w tym teście przyjmuje się, że nieznany jest moment (lub miejsce) zmiany strukturalnej, co oznacza, że nie wiadomo z góry w jaki sposób podzielić próbę na dwie podpróby. Hipoteza zerowa wskazuje, że parametry modelu regresji w obu podpróbach są jednakowe, H 0 : β 1 = β 2, natomiast hipoteza alternatywna zakłada, że parametry w obu próbach są różne, H 0 : β 1 β 2. Procedura testowa przebiega w następujący sposób. Niech π oznacza część całej próby, która znajduje się w pierwszej podpróbie. To znaczy, że pierwsze πn obserwacji znajduje się w pierwszej podpróbie, a kolejne (1 π)n obserwacji znajduje się w drugiej podpróbie. Nieznana wartość parametru π wyznacza zatem punkt zmiany strukturalnej w modelu. Dla różnych π (π 1, π 2 ), gdzie 0 < π 1 < π 2 < 1, przeprowadza się test stabilności parametrów Chowa i wylicza odpowiednią statystykę, a następnie wybiera się największą wartość statystyki spośród wszystkich wyliczonych. Statystyka testowa może zatem przyjmować jedną z postaci: sup W(π), π (π 1,π 2 ) sup LM(π), π (π 1,π 2 ) sup LR(π), gdzie W(π) π (π 1,π 2 ) oznacza statystykę Walda wyliczoną przy założeniu podziału próby w punkcie π. Wyrażenie LM(π) oznacza statytykę mnożnika Lagrange a wyliczoną przy założeniu podziału próby w punkcie π, a LR(π) analogiczną statystykę ilorazu wiarygodności. Wszystkie trzy statystyki służące między innymi do badania restrykcji nakładanych na parametry modeli regresji zostały szerzej omówione w rozdziale xxx. Ponieważ parametr π jest nieidentyfikowalny przy założeniu hipotezy zerowej (czyli jego wartość nie ma znaczenia dla oszacowań innych parametrów modelu), to statystyki supw, suplm, suplr maja niestandardowe rozkłady, które zależą od danych użytych do obliczeń. Rozkłady asymptotyczne tych statystyk też są niestandardowe, ale zależą jedynie od liczby parametrów modelu. Wartości krytyczne testu zostały przedstawione w pracach Andrewsa (1993, 2003). 17

Test prognostyczny Chowa Test prognostyczny Chowa (xxxx; Chow forecast test) jest podobny do testu zmian strukturalnych Chowa. Jest on wykorzystywany wtedy, gdy jedna (zwykle druga) podpróba jest zbyt krótka by szacować w niej parametry regresji. Xxxxx Zgodnie z hipotezą zerową parametry modelu regresji w obu podpróbach są jednakowe, H 0 : β 1 = β 2, natomiast hipoteza alternatywna zakłada, że parametry w obu próbach są różne, H 0 : β 1 β 2. Procedurę testową przeprowadza się w następujący sposób. Należy podzielić próbę na dwie części, z których pierwsza (większa) zawiera n 1 obserwacji, a druga (mniejsza) składa się z n 2 = n n 1 obserwacji. Szacowane są parametry modelu na podstawie n 1 obserwacji z pierwszej podpróby β 1 = (X 1 X 1 ) 1 X 1 y 1 oraz wyliczane są reszty u 1 = y 1 X 1 β 1. Następnie na podstawie obserwacji zmiennych objaśniających z drugiej podpróby X 2 oraz oszacowań parametrów z pierwszej podpróby β 1 wyliczane są prognozy y i p wartości y i z drugiej podpróby, a wektor tych prognoz oznaczony jest jako y 2 p, y 2 p = X 2 β 1. Wyliczane są błędy prognozy u 2 p = y 2 y 2 p. Przy założeniu prawdziwości H 0 i przy spełnionych Założeniach 1 6 wartość oczekiwana błędów prognozy E(u 2 p ) = 0, a macierz wariancji błędów prognozy var(u 2 p ) = E(u 2 p u 2 p ) = σ 2 [I n2 + X 2 (X 1 X 1 ) 1 X 2 ]. Statystyka testowa F: F = u p 2 [I n2 + X 2 (X 1 X 1 ) 1 X 2 ]u p 2 n 2 u 1 u 1 (n 1 k) ma rozkład F(n 2, n 1 k). Johnston i DiNardo (1997, str. 113-116) podają różne alternatywne sposoby wyliczenia tego testu. Testy CUSUM i CUSUMSQ Testy CUSUM i CUSUMSQ służą do diagnozowania problemów związanych ze specyfikacją modelu, w szczególności zmian strukturalnych, nieuwzględnionych nieliniowych zależności między zmiennymi oraz brakujących ważnych zmiennych. Testy te polegają na sekwencyjnym i rekursywnym sprawdzaniu stabilności parametrów modelu poprzez badanie odstających wartości sum i sum kwadratów błędów prognozy. Najczęściej test ten wykonywany jest przy wykorzystaniu danych w postaci szeregów czasowych, ponieważ wtedy można łatwo ustalić kolejność obserwacji w próbie i ewentualne zmiany strukturalne w danym momencie w czasie mają często swoje ekonomiczne uzasadnienie. Hipoteza zerowa zakłada, że parametry regresji są stałe w próbie, H 0 : β 1 = β 2 =... = β n = β oraz σ 2 1 = σ 2 2 =... = σ 2 n = σ 2, a hipoteza alternatywna zakłada, że w próbie następuje zmiana wartości tych parametrów β. 18

Procedura testowa przebiega w następujący sposób. W pierwszym kroku szacowane są parametry β modelu regresji (xxx) na podstawie pierwszych j obserwacji, β j. Następnie na p podstawie obserwacji x j+1 i oszacowania β j wykonywana jest prognoza y j+1, czyli y j+1 p x j+1 β j, oraz liczony jest standaryzowany błąd prognozy u j+1 = = (y j+1 y p j+1 ) [σ 1 + x j+1 (X j X j ) 1 x j+1 ], gdzie X j = [x 1 x 2 x j ] oznacza macierz obserwacji zmiennych objaśniających, zapisanych od obserwacji 1 to obserwacji j. Liczony jest ciąg statystyk CUSUM i = i t=k+1 dla i = k + 1,, n, czyli dla wszystkich obserwacji od k + 1 do końca próby. Każda ze statystyk CUSUM i jest porównywana z odpowiednią parą wartości krytycznych c i i c i +. Wartości krytyczne c i i c i + leżą na dwóch symetrycznych odcinkach o współrzędnych [(k, ±a n k), (n, ±3a n k)] (por. Wykres xxx). Parametr a został w tych współrzędnych tak dobrany, żeby prawdopodobieństwo przekroczenia przez statystykę CUSUM i któregoś z odcinków przy założeniu prawdziwości H 0 było w przybliżeniu równe α przy poziomie istotności testu równym właśnie α. Na przykład dla poziomu istotności α = 0,01 parametr a = 1,143, dla α = 0,05 parametr a = 0,948, a dla α = 0,10 parametr a = 0,850. W analogiczny sposób przeprowadzany jest test CUSUMSQ (cusum of squares test) służący do sprawdzenia tej samej hipotezy zerowej. Tutaj sprawdzana jest alternatywna hipoteza, że odchylenia parametrów β od stałych wartości w próbie mają charakter losowy a nie systematyczny jak w przypadku statystyki CUSUM i. Liczony jest ciąg statystyk CUSUMSQ i = i (u p t ) 2 t=j+1 n (u p t ) 2 t=j+1 dla i = k + 1,, n, czyli dla wszystkich obserwacji od k + 1 do końca próby. Każda ze statystyk CUSUMSQ i jest porównywana z odpowiednią parą wartości krytycznych d i i d i +. Wartości krytyczne d i i d i + leżą na dwóch równoległych odcinkach o współrzędnych [(k, ±b), (n, ±b + 1)] (por. Wykres xxx). W związku z tym d i + = b + (i k)/(n k) i d i = b + (i k)/(n k). Tabela xxx zawiera wartości parametru b, które zależą od liczby stopni swobody w modelu regresji n k i od przyjętego poziomu istotności α. Wartość b może być też dokładniej policzona ze wzoru (Edgerton, Wells, 1994): b = u t p b 1 [0,5(n k) 1] 1 2 + b 2 [0,5(n k) 1] + b 3 [0,5(n k) 1] 3 2 Tabela xxx. Wartości parametru b do testu CUSUMSQ 19

Poziom Liczba stopni swobody (n k) istotności α 61 100 200 500 1000 b 1 b 2 b 3 α = 0,005 0,195 0,155 0,111 0,071 0,051 1,62762-0,67037-1,23659 α = 0,010 0,125 0,100 0,104 0,066 0,047 1,51743-0,67027-1,08477 α = 0,025 0,161 0,128 0,092 0,059 0,042 1,35810-0,67012-0,88587 α = 0,050 0,144 0,115 0,083 0,053 0,038 1,22387-0,67001-0,73517 α = 0,100 0,181 0,144 0,072 0,047 0,033 1,07298-0,66987-0,58165 Uwaga: parametry potrzebne do wyliczenia wartości krytycznych dla testu jednostronnego na podstawie pracy Edgerton, D. and Wells, C. (1994).4 Rekursywne oszacowania parametrów i reszt Zadania???? 1) Ile może być niezależnych warunków liniowych nałożonych na parametry modelu regresji, jeśli liczba wszystkich parametrów β k w modelu regresji wynosi 5? 2) Jakie wartości należy wpisać w macierze R i r, żeby przetestować hipotezę, że wszystkie zmienne w modelu są statystycznie nieistotne? 3) 20

Literatura Andrews, Donald W K, 1993. "Tests for Parameter Instability and Structural Change with Unknown Change Point," Econometrica, Econometric Society, vol. 61(4), pages 821-856, July. Andrews, D. W. (2003). Tests for Parameter Instability and Structural Change with Unknown Change Point: A Corrigendum. Econometrica, 71(1), 395-397. Gregory, A., & Veall, M. (1985). Formulating Wald Tests of Nonlinear Restrictions. Econometrica, 53(6), 1465-1468. doi:10.2307/1913221 Newey, W.K. and K.D. West (1987) Hypothesis testing with efficient method of moments estimation, International Economic Review, 28, 777-787. Ramsey (1969) Ramsey i Schmidt, 1976 Johnston, DiNardo, 1997, Chow, Gregory C. (1960). "Tests of Equality Between Sets of Coefficients in Two Linear Regressions". Econometrica. 28 (3): 591 605. Brown, R., Durbin, J., & Evans, J. (1975). Techniques for Testing the Constancy of Regression Relationships over Time. Journal of the Royal Statistical Society. Series B (Methodological), 37(2), 149-192. Edgerton, D. and Wells, C. (1994), CRITICAL VALUES FOR THE CUSUMSQ STATISTIC IN MEDIUM AND LARGE SIZED SAMPLES. Oxford Bulletin of Economics and Statistics, 56: 355-365. Hayashi 2000 Hansen, Bruce, 2018 Greene, 2012 White, 1980 21