1.8 Diagnostyka modelu

Podobne dokumenty
Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Diagnostyka w Pakiecie Stata

Diagnostyka w Pakiecie Stata

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Ekonometria Ćwiczenia 19/01/05

Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Egzamin z ekonometrii wersja IiE, MSEMAT

Testowanie hipotez statystycznych

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Egzamin z ekonometrii - wersja ogólna

Ekonometria egzamin 07/03/2018

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Egzamin z ekonometrii wersja IiE, MSEMAT

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Natalia Nehrebecka. 18 maja 2010

1 Modele ADL - interpretacja współczynników

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria egzamin 31/01/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Metoda najmniejszych kwadratów

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Budowa modelu i testowanie hipotez

Ekonometria dla IiE i MSEMat Z12

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Czasowy wymiar danych

Autokorelacja i heteroskedastyczność

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria egzamin wersja ogólna 17/06/08

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Stanisław Cichocki. Natalia Nehrebecka

Egzamin z ekonometrii wersja IiE, MSEMAT

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Egzamin z ekonometrii wersja IiE, MSEMat Pytania teoretyczne

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Natalia Neherbecka. 11 czerwca 2010

Problem równoczesności w MNK

Ekonometria egzamin wersja Informatyka i Ekonometria 29/01/08

, a reszta dla pominiętej obserwacji wynosi 0, RSS jest stałe, T SS rośnie, więc zarówno R 2 jak i R2 rosną. R 2 = 1 n 1 n. rosnie. n 2 (1 R2 ) = 1 59

Heteroskedastyczość w szeregach czasowyh

1.9 Czasowy wymiar danych

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Egzamin z ekonometrii wersja ogolna

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

Ekonometria. Własności składnika losowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Metoda największej wiarogodności

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Testowanie hipotez statystycznych

1.7 Ograniczenia nakładane na równanie regresji

Stanisław Cichocki. Natalia Nehrebecka

Weryfikacja hipotez statystycznych

2.2 Autokorelacja Wprowadzenie

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Statystyka matematyczna dla leśników

Testowanie hipotez statystycznych

Własności statystyczne regresji liniowej. Wykład 4

Modele warunkowej heteroscedastyczności

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Wprowadzenie Model ARMA Sezonowość Prognozowanie Model regresji z błędami ARMA. Modele ARMA

Ekonometria. Zajęcia

Metody Ekonometryczne

Testowanie hipotez statystycznych

Value at Risk (VaR) Jerzy Mycielski WNE. Jerzy Mycielski (Institute) Value at Risk (VaR) / 16

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

Statystyka matematyczna. Wykład VI. Zesty zgodności

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Ekonometria egzamin wersja ogólna 29/01/08

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

1 Metoda Najmniejszych Kwadratów (MNK) 2 Interpretacja parametrów modelu. 3 Klasyczny Model Regresji Liniowej (KMRL)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Stanisław Cichocki. Natalia Nehrebecka

Statystyka w przykładach

Analiza regresji - weryfikacja założeń

Przykład 1 ceny mieszkań

Transkrypt:

1.8 Diagnostyka modelu Dotychczas zajmowaliśmy się własnościami estymatorów przy spełnionych założeniach KMRL. W praktyce nie zawsze spełnione są wszystkie założenia modelu. Jeżeli któreś z nich nie jest spełnione, to należy zastanowić się jakie ten fakt niesie konsekwencje dla poprawności wnioskowania statystycznego. Testami diagnostycznymi nazywa się wszystkie testy służące do weryfikacji poprawności założeń modelu ekonometrycznego. Pierwszym elementem, który zostanie poddany analizie są własności składnika losowego. Przy wyprowadzaniu statystyk testowych dla testu hipotez prostych t, oraz testu hipotez złożonych F było to istotne założenie. Ponadto składnik losowy może zawierać takie nieporządane właściwości jak heteroscedastycznośc czy autokorelacja. 1.8.1 Test normalności reszt Jednym z założeń Klasycznego Modelu Regresji Liniowej (KMRL) jest normalność składnika losowego. Wyprowadzając wszystkie statystyki testowe zakładaliśmy normalność reszt. W próbach nieskończonych zało.żenie o normalności nie jest zbyt restrykcyjne, ponieważ z Centralnego Twierdzenia Granicznego (CTG) wiemy, że suma n niezależnych zmiennych losowych o jednakowych, aczkolwiek dowolnych rozkładach, zbiega według rozkładu do rozkładu normalnego. W praktyce twierdzenie to interpretuje się następująco: dla dostatecznie dużej liczby zmiennych losowych o rozkładzie ze średnią µ i wariancją σ 2 ich suma ma rozkład N(nµ, nσ 2 ). Wobec tego, niezależnie od rozkładu składnika losowego asymptotyczne rozkłady statystyk testowych będą poprawne o ile zmienne są niezależne. Natomiast sprawa wygląda inaczej w małych próbach skończonych. Jeżeli błędy losowe w małych próbach nie mają rozkładu normalnego, to rozkłady statystyk testowych, a więc i wartości krytyczne używane w testach, różnią się od wartości wynikających z założenia o normalności rozkładu reszt. Testem sprawdzającym normalność rozkładu jest test Jarque-Bera. Bazuje on na wielkości trzeciego i czwartego momentu centralnego. Trzeci moment centralny, czyli współczynnik skośności rozkładu jest miarą jego symetrii wokół średniej. Dla rozkładu symetrycznego skośność wynosi 0. Natomiast czwarty moment centralny jest miarą koncentracji rozkładu wokół średniej, czyli kurtozy. Kurtoza rozkładu normalnego wynosi 3. Wzory na statystyki wyglądają następująco: współczynnik skośności w = n i=1 e3 i ( n i=1 e2 i ) 3 2 (1) 50

współczynnik kurtozy k = n i=1 e2 i ( n i=1 e2 i )2 (2) Hipotezą zerową testu jest normalność reszt, i testujemy ją przeciwko alternatywie braku normalności. H 1 : ε H 0 : ε N(0, σ 2 I) ma inny rozkład Bazująca na wzorach (1) oraz (2) statystyka Jarque-Bera wygląda następująco: [ w (k ] 3)2 JB = n + (3) 6 24 gdzie n jest ilością obserwacji w próbie. Wyprowadzenie statystyki testu Jarque-Bera jest analogicznie do wyprowadzenia dowolnej statystyki opartej o mnożniki Lagrange a. Statystyka testowa JB jest sumą dwóch niezależnych zmiennych losowych o asymptotycznym rozkładzie χ 2 (1), więc ma rozkład χ 2 (2) (z dwoma stopniami swobody). Nawet w przypadku, gdy błędy losowe nie mają rozkładu normalnego to założenia twierdzenia Gaussa-Markowa są nadal spełnione. Wobec tego estymator b, otrzymany Metodą Najmniejszych Kwadratów, wektora parametrów β jest najlepszym liniowym i nieobciążonym estymatorem. Również estymator MNK macierzy wariancji-kowariancji jest nieobciążony. Jednak w takim przypadku istnieją estymatory nieliniowe, które są bardziej efektywne od estymatorów MNK. Drugim faktem, o którym należy pamiętać testując normalność reszt jest to, że test Jarque-Bera porównuje cały rozkład empiryczny z rozkładem normalnym. Jednak by statystyki testowe były poprawne i testy dawały wiarygodne wyniki wystarczy by ogony rozkładów były podobne to rozkładu normalnego. Dzieje się tak, ponieważ testy statystyczne bazują na prawdopodobieństwie wystąpienia wartość ekstremalnych dla danego rozkładu. Jeżeli te wartości będą występowały z taką samą częstotliwością jak w przypadku rozkładu normalnego, to do testów możemy przyjąć, że reszty modelu mają rozkład normalny i nie wpłynie to znacząco na rezultaty testów. Pakiet Stata daje możliwość zarówno przeprowadzenia testu Jarque-Bera, jak i graficznej analizy rozkładu reszt. W przykładzie używam zmiennych wygenerowanych w do-file do drugich zajęć w laboratorium. Pierwszym krokiem po estymacji modelu jest obliczenie jego reszt. 51

. qui reg x x1 x2. predict reszty, resid Następnie możemy graficznie porównać rozkład reszt z rozkładem normalnym.. kdensity reszty, normal Density 0 1 2 3.4.2 0.2.4 Residuals Kernel density estimate Normal density Density 0 1 2 3.4.2 0.2.4 Residuals Źródło: Obliczenia własne. A następnie sprawdzić czy ogony empirycznego rozkładu reszt pokrywają się z ogonami rozkładu normalnego. Jeżeli rozkład jest rzeczywiście normalny kwantyle empiryczne powinny pokryć się z ich wartościami teoretycznymi i na rysunku powinna być widoczna jedna linia nachylona pod kątem 45 stopni do osi wartości.. pnorm reszty Normal F[(r m)/s] 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 Empirical P[i] = i/(n+1) Źródło: Obliczenia własne. Możemy również przeprowadzić test Jarque-Bera: 52

. sktest reszty Skewness/Kurtosis tests for Normality ------- joint ------ Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- reszty 0.566 0.000. 0.0000 Statystyka testowa przyjmuje tak dużą wartość, że Stata nie jest w stanie jej zmieścić w tabelce. Test wskazuje, że powinniśmy odrzucić hipotezę zerową o rozkładzie normalnym reszt. Jednak rozkład jest symetryczny oraz jego ogony są podobne do ogonów rozkładu normalnego. 1.8.2 Testowanie poprawności formy funkcyjnej modelu Często zdarza się, że nie możemy zdecydować się na konkretną formę funkcyjną modelu, bądź chcemy sprawdzić czy forma funkcyjna którą wybraliśmy jest prawidłowa. Błąd powstały w przypadku nieprawidłowej formy może doprowadzić do pojawienia się rzekomej autokorelacji lub heteroscedastyczności w modelu. Do testowania poprawności formy funkcyjnej modelu służy test RESET. Jego nazwa jest akronimem z języka angielskiego: Regression Equation Specification Error Test. Ponieważ wiele nieliniowych funkcji można przybliżyć za pomocą wielomianów, to jeżeli dodanie do zbioru regresorów ich wyższych potęg znacząco poprawi dopasowanie modelu wskazuje to na złe dobranie jego formy funkcyjnej. Test RESET można przeprowadzić na dwa równoważne sposoby. Pierwszy polega na dołączeniu do równania wyjściowego kwadratów i iloczynów wszystkich par zmiennych, poza kwadratami zmiennych zero-jedynkowych (dlaczego?). Czasami dołącza się nawet regresory w trzeciej potędze. Jednak tak możemy postąpić jedynie w przypadku gdy dysponujemy dużą próbą, bowiem dodanie zmiennych wiąże się z utratą wielu stopni swobody. Hipoteza zerowa o poprawności funkcyjnej testu jest równoważna hipotezie, o tym że parametry przy wszystkich dodanych zmiennych są równe zero. Jeżeli wyjściowy model ma postać: y = Xβ + ε (4) to po dodaniu zmiennych otrzymujemy model rozszerzony: y = Xβ + Zγ + φ (5) 53

wtedy: H 0 : γ = 0 H 1 : γ 0 Hipotezę zerową testujemy za pomocą testu F. Statystyka testowa ma liczbę stopni swobody równą ilości narzuconych ograniczeń, oraz ilości zmiennych wolnych w równaniu (5). Alternatywną metodą przeprowadzenia testu RESET jest wykorzystanie rozwinięcia funkcji w szereg Taylora wokół punktu Xβ. Oczywiście nie znamy wartości parametru β, ale możemy ją zastąpić estymatorem b uzyskanym z modelu regresji. Test przeprowadzamy przez dołączenie do równania (4) kolejnych potęg wartości teoretycznych zmiennej y wyliczonych na podstawie tego modelu. Następnie za pomocą testu F sprawdzamy ich łączną istotność. Alternatywnie, liczymy statystykę R 2 modelu rozszerzonego i na jej postawie tworzymy statystykę mnożników Lagrange a LM = nr 2. Ma ona asymptotyczny rozkład χ 2 o ilości stopni swobody równej ilości dodanych zmiennych do równania modelu. Przykład:. reg x x1 x2 Source SS df MS Number of obs = 1000 ---------+------------------------------ F( 2, 997) =24546.12 Model 983.087978 2 491.543989 Prob > F = 0.0000 Residual 19.9652471 997.020025323 R-squared = 0.9801 ---------+------------------------------ Adj R-squared = 0.9801 Total 1003.05323 999 1.00405728 Root MSE =.14151 --------------------------------------------------------------------- x Coef. Std. Err. t P> t [95% Conf. Interval] ---------+----------------------------------------------------------- x1.4876392.0023065 211.42 0.000.483113.4921655 x2.0095206.003871 2.46 0.014.0019243.0171169 _cons -.2275173.0094676-24.03 0.000 -.2460961 -.2089385 --------------------------------------------------------------------- Po pierwsze przeprowadzimy test dodając do modelu kolejne potęgi zmiennych niezależnych.. ovtest, rhs Ramsey RESET test using powers of the independent variables Ho: model has no omitted variables F(6, 991) = 0.82 Prob > F = 0.5506 54

Jak widać statystyka F jest niska, czyli nie ma podstaw do odrzucenia hipotezy zerowej o poprawności funkcyjnej modelu. Następnie sprawdzimy czy kolejne potęgi wartości dopasowanych poprawiają formę funkcyjną modelu.. ovtest Ramsey RESET test using powers of the fitted values of x Ho: model has no omitted variables F(3, 994) = 1.26 Prob > F = 0.2873 Dołączone do modelu ŷ 2, ŷ 3, oraz ŷ 4. Przy tej hipotezie alternatywnej również nie mamy podstaw do odrzucenia hipotezy o poprawności funkcyjnej modelu liniowego. W literatura ekonometrycznej można również znaleźć inny sposób testowania poprawności formy funkcyjnej. Sugeruje się aby dodać do modelu kwadraty zmiennych niezależnych oraz ich interakcje. Niestety ta wersja testu nie jest oprogramowana. Jednak w prosty sposób można wykonać go samodzielnie. Na początku generujemy zmienne pomocnicze.. gen x1_2=x1^2. gen x2_2=x2^2. gen x1_x_x2=x1*x2 Następnie szacujemy model ze zmiennymi pomocniczymi i sprawdzamy ich łączną istotność.. qui reg x x1 x2 x1_2 x2_2 x1_x_x2. test x1_2 x2_2 x1_x_x2 ( 1) x1_2 = 0 ( 2) x2_2 = 0 ( 3) x1_x_x2 = 0 F( 3, 994) = 1.39 Prob > F = 0.2448 W tym przypadku również nie mamy podstaw do odrzucenia hipotezy o poprawności funkcyjnej modelu, zatem rzeczywiście forma liniowa jest odpowiednia. 55

1.8.3 Przekształcenie Boxa-Coxa Pozostaje pytanie co robić w przypadku wykrycia nieprawidłowości formy funkcyjnej zbudowanego modelu. Jeżeli używaliśmy rozbudowanej postaci testu problem wydaje się prosty do rozwiązania. Możemy zaobserwować przy których wyższych potęgach i iloczynach krzyżowych współczynniki okazały się istotne w regresji pomocniczej i włączyć je do modelu. Innym sposobem są transformacje zmiennych np. logarytmowanie, czy inne rozkodowanie w przypadku zmiennych zero-jedynkowych. Użytecznym narzędziem wspomagającym wybór formy funkcyjnej wydaje się być przekształcenie Boxa-Coxa. Umożliwia ono sformalizowanie procedury wyboru pomiędzy modelem log-liniowym, liniowym oraz potęgowym. Przekształcenie ma formę Dla λ = 1 otrzymujemy g(x, λ) = xλ 1 λ (6) Dla λ = 1 uzyskujemy g(x, 1) = x1 1 1 g(x, 1) = x 1 1 1 = x 1 = 1 x + 1 Dla λ = 0 obliczenia są troche trudniejsze x λ 1 lim g(x, λ) = lim λ 0 λ 0 λ = lim λ 0 x λ 1 lim λ 0 λ H = xλ ln x 1 = ln x Wybór odpowiedniej formy jest determinowany przez oszacowaną wartość parametru λ. Jeżeli wartość λ jest bliska -1 sugeruje to użycie modelu na odwrotnościach, wartość λ bliska 0 wskazuje na logarytmiczną transformację zmiennych zawartych w modelu, a wartość bliska 1 na formę liniową. W przypadku, gdy chcemy zbadać, czy właściwym jest model, w którym jedynie część zmiennych jest poddana transformacji możemy to oczywiście uwzględnić. Jest to ważne, gdyż np logarytmowanie zmiennej zero-jedynkowej nie ma sensu (dlaczego?). Przy szacowaniu parametrów modelu Boxa-Coxa problemem jest fakt, że wszystkie przypadki są jedynie modelami liniowymi względem przekształconych zmiennych, a rzeczywista zależność może być nieliniowa. 56

Literatura [1] Jerzy Mycielski (2000). 57