1.8 Diagnostyka modelu

1.8 Diagnostyka modelu Dotychczas zajmowaliśmy się własnościami estymatorów przy spełnionych założeniach KMRL. W praktyce nie zawsze spełnione są wszystkie założenia modelu. Jeżeli któreś z nich nie jest spełnione, to należy zastanowić się jakie ten fakt niesie konsekwencje dla poprawności wnioskowania statystycznego. Testami diagnostycznymi nazywa się wszystkie testy służące do weryfikacji poprawności założeń modelu ekonometrycznego. Pierwszym elementem, który zostanie poddany analizie są własności składnika losowego. Przy wyprowadzaniu statystyk testowych dla testu hipotez prostych t, oraz testu hipotez złożonych F było to istotne założenie. Ponadto składnik losowy może zawierać takie nieporządane właściwości jak heteroscedastycznośc czy autokorelacja. 1.8.1 Test normalności reszt Jednym z założeń Klasycznego Modelu Regresji Liniowej (KMRL) jest normalność składnika losowego. Wyprowadzając wszystkie statystyki testowe zakładaliśmy normalność reszt. W próbach nieskończonych zało.żenie o normalności nie jest zbyt restrykcyjne, ponieważ z Centralnego Twierdzenia Granicznego (CTG) wiemy, że suma n niezależnych zmiennych losowych o jednakowych, aczkolwiek dowolnych rozkładach, zbiega według rozkładu do rozkładu normalnego. W praktyce twierdzenie to interpretuje się następująco: dla dostatecznie dużej liczby zmiennych losowych o rozkładzie ze średnią µ i wariancją σ 2 ich suma ma rozkład N(nµ, nσ 2 ). Wobec tego, niezależnie od rozkładu składnika losowego asymptotyczne rozkłady statystyk testowych będą poprawne o ile zmienne są niezależne. Natomiast sprawa wygląda inaczej w małych próbach skończonych. Jeżeli błędy losowe w małych próbach nie mają rozkładu normalnego, to rozkłady statystyk testowych, a więc i wartości krytyczne używane w testach, różnią się od wartości wynikających z założenia o normalności rozkładu reszt. Testem sprawdzającym normalność rozkładu jest test Jarque-Bera. Bazuje on na wielkości trzeciego i czwartego momentu centralnego. Trzeci moment centralny, czyli współczynnik skośności rozkładu jest miarą jego symetrii wokół średniej. Dla rozkładu symetrycznego skośność wynosi 0. Natomiast czwarty moment centralny jest miarą koncentracji rozkładu wokół średniej, czyli kurtozy. Kurtoza rozkładu normalnego wynosi 3. Wzory na statystyki wyglądają następująco: współczynnik skośności w = n i=1 e3 i ( n i=1 e2 i ) 3 2 (1) 50

współczynnik kurtozy k = n i=1 e2 i ( n i=1 e2 i )2 (2) Hipotezą zerową testu jest normalność reszt, i testujemy ją przeciwko alternatywie braku normalności. H 1 : ε H 0 : ε N(0, σ 2 I) ma inny rozkład Bazująca na wzorach (1) oraz (2) statystyka Jarque-Bera wygląda następująco: [ w (k ] 3)2 JB = n + (3) 6 24 gdzie n jest ilością obserwacji w próbie. Wyprowadzenie statystyki testu Jarque-Bera jest analogicznie do wyprowadzenia dowolnej statystyki opartej o mnożniki Lagrange a. Statystyka testowa JB jest sumą dwóch niezależnych zmiennych losowych o asymptotycznym rozkładzie χ 2 (1), więc ma rozkład χ 2 (2) (z dwoma stopniami swobody). Nawet w przypadku, gdy błędy losowe nie mają rozkładu normalnego to założenia twierdzenia Gaussa-Markowa są nadal spełnione. Wobec tego estymator b, otrzymany Metodą Najmniejszych Kwadratów, wektora parametrów β jest najlepszym liniowym i nieobciążonym estymatorem. Również estymator MNK macierzy wariancji-kowariancji jest nieobciążony. Jednak w takim przypadku istnieją estymatory nieliniowe, które są bardziej efektywne od estymatorów MNK. Drugim faktem, o którym należy pamiętać testując normalność reszt jest to, że test Jarque-Bera porównuje cały rozkład empiryczny z rozkładem normalnym. Jednak by statystyki testowe były poprawne i testy dawały wiarygodne wyniki wystarczy by ogony rozkładów były podobne to rozkładu normalnego. Dzieje się tak, ponieważ testy statystyczne bazują na prawdopodobieństwie wystąpienia wartość ekstremalnych dla danego rozkładu. Jeżeli te wartości będą występowały z taką samą częstotliwością jak w przypadku rozkładu normalnego, to do testów możemy przyjąć, że reszty modelu mają rozkład normalny i nie wpłynie to znacząco na rezultaty testów. Pakiet Stata daje możliwość zarówno przeprowadzenia testu Jarque-Bera, jak i graficznej analizy rozkładu reszt. W przykładzie używam zmiennych wygenerowanych w do-file do drugich zajęć w laboratorium. Pierwszym krokiem po estymacji modelu jest obliczenie jego reszt. 51

. qui reg x x1 x2. predict reszty, resid Następnie możemy graficznie porównać rozkład reszt z rozkładem normalnym.. kdensity reszty, normal Density 0 1 2 3.4.2 0.2.4 Residuals Kernel density estimate Normal density Density 0 1 2 3.4.2 0.2.4 Residuals Źródło: Obliczenia własne. A następnie sprawdzić czy ogony empirycznego rozkładu reszt pokrywają się z ogonami rozkładu normalnego. Jeżeli rozkład jest rzeczywiście normalny kwantyle empiryczne powinny pokryć się z ich wartościami teoretycznymi i na rysunku powinna być widoczna jedna linia nachylona pod kątem 45 stopni do osi wartości.. pnorm reszty Normal F[(r m)/s] 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 Empirical P[i] = i/(n+1) Źródło: Obliczenia własne. Możemy również przeprowadzić test Jarque-Bera: 52

. sktest reszty Skewness/Kurtosis tests for Normality ------- joint ------ Variable Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- reszty 0.566 0.000. 0.0000 Statystyka testowa przyjmuje tak dużą wartość, że Stata nie jest w stanie jej zmieścić w tabelce. Test wskazuje, że powinniśmy odrzucić hipotezę zerową o rozkładzie normalnym reszt. Jednak rozkład jest symetryczny oraz jego ogony są podobne do ogonów rozkładu normalnego. 1.8.2 Testowanie poprawności formy funkcyjnej modelu Często zdarza się, że nie możemy zdecydować się na konkretną formę funkcyjną modelu, bądź chcemy sprawdzić czy forma funkcyjna którą wybraliśmy jest prawidłowa. Błąd powstały w przypadku nieprawidłowej formy może doprowadzić do pojawienia się rzekomej autokorelacji lub heteroscedastyczności w modelu. Do testowania poprawności formy funkcyjnej modelu służy test RESET. Jego nazwa jest akronimem z języka angielskiego: Regression Equation Specification Error Test. Ponieważ wiele nieliniowych funkcji można przybliżyć za pomocą wielomianów, to jeżeli dodanie do zbioru regresorów ich wyższych potęg znacząco poprawi dopasowanie modelu wskazuje to na złe dobranie jego formy funkcyjnej. Test RESET można przeprowadzić na dwa równoważne sposoby. Pierwszy polega na dołączeniu do równania wyjściowego kwadratów i iloczynów wszystkich par zmiennych, poza kwadratami zmiennych zero-jedynkowych (dlaczego?). Czasami dołącza się nawet regresory w trzeciej potędze. Jednak tak możemy postąpić jedynie w przypadku gdy dysponujemy dużą próbą, bowiem dodanie zmiennych wiąże się z utratą wielu stopni swobody. Hipoteza zerowa o poprawności funkcyjnej testu jest równoważna hipotezie, o tym że parametry przy wszystkich dodanych zmiennych są równe zero. Jeżeli wyjściowy model ma postać: y = Xβ + ε (4) to po dodaniu zmiennych otrzymujemy model rozszerzony: y = Xβ + Zγ + φ (5) 53

wtedy: H 0 : γ = 0 H 1 : γ 0 Hipotezę zerową testujemy za pomocą testu F. Statystyka testowa ma liczbę stopni swobody równą ilości narzuconych ograniczeń, oraz ilości zmiennych wolnych w równaniu (5). Alternatywną metodą przeprowadzenia testu RESET jest wykorzystanie rozwinięcia funkcji w szereg Taylora wokół punktu Xβ. Oczywiście nie znamy wartości parametru β, ale możemy ją zastąpić estymatorem b uzyskanym z modelu regresji. Test przeprowadzamy przez dołączenie do równania (4) kolejnych potęg wartości teoretycznych zmiennej y wyliczonych na podstawie tego modelu. Następnie za pomocą testu F sprawdzamy ich łączną istotność. Alternatywnie, liczymy statystykę R 2 modelu rozszerzonego i na jej postawie tworzymy statystykę mnożników Lagrange a LM = nr 2. Ma ona asymptotyczny rozkład χ 2 o ilości stopni swobody równej ilości dodanych zmiennych do równania modelu. Przykład:. reg x x1 x2 Source SS df MS Number of obs = 1000 ---------+------------------------------ F( 2, 997) =24546.12 Model 983.087978 2 491.543989 Prob > F = 0.0000 Residual 19.9652471 997.020025323 R-squared = 0.9801 ---------+------------------------------ Adj R-squared = 0.9801 Total 1003.05323 999 1.00405728 Root MSE =.14151 --------------------------------------------------------------------- x Coef. Std. Err. t P> t [95% Conf. Interval] ---------+----------------------------------------------------------- x1.4876392.0023065 211.42 0.000.483113.4921655 x2.0095206.003871 2.46 0.014.0019243.0171169 _cons -.2275173.0094676-24.03 0.000 -.2460961 -.2089385 --------------------------------------------------------------------- Po pierwsze przeprowadzimy test dodając do modelu kolejne potęgi zmiennych niezależnych.. ovtest, rhs Ramsey RESET test using powers of the independent variables Ho: model has no omitted variables F(6, 991) = 0.82 Prob > F = 0.5506 54

Jak widać statystyka F jest niska, czyli nie ma podstaw do odrzucenia hipotezy zerowej o poprawności funkcyjnej modelu. Następnie sprawdzimy czy kolejne potęgi wartości dopasowanych poprawiają formę funkcyjną modelu.. ovtest Ramsey RESET test using powers of the fitted values of x Ho: model has no omitted variables F(3, 994) = 1.26 Prob > F = 0.2873 Dołączone do modelu ŷ 2, ŷ 3, oraz ŷ 4. Przy tej hipotezie alternatywnej również nie mamy podstaw do odrzucenia hipotezy o poprawności funkcyjnej modelu liniowego. W literatura ekonometrycznej można również znaleźć inny sposób testowania poprawności formy funkcyjnej. Sugeruje się aby dodać do modelu kwadraty zmiennych niezależnych oraz ich interakcje. Niestety ta wersja testu nie jest oprogramowana. Jednak w prosty sposób można wykonać go samodzielnie. Na początku generujemy zmienne pomocnicze.. gen x1_2=x1^2. gen x2_2=x2^2. gen x1_x_x2=x1*x2 Następnie szacujemy model ze zmiennymi pomocniczymi i sprawdzamy ich łączną istotność.. qui reg x x1 x2 x1_2 x2_2 x1_x_x2. test x1_2 x2_2 x1_x_x2 ( 1) x1_2 = 0 ( 2) x2_2 = 0 ( 3) x1_x_x2 = 0 F( 3, 994) = 1.39 Prob > F = 0.2448 W tym przypadku również nie mamy podstaw do odrzucenia hipotezy o poprawności funkcyjnej modelu, zatem rzeczywiście forma liniowa jest odpowiednia. 55

1.8.3 Przekształcenie Boxa-Coxa Pozostaje pytanie co robić w przypadku wykrycia nieprawidłowości formy funkcyjnej zbudowanego modelu. Jeżeli używaliśmy rozbudowanej postaci testu problem wydaje się prosty do rozwiązania. Możemy zaobserwować przy których wyższych potęgach i iloczynach krzyżowych współczynniki okazały się istotne w regresji pomocniczej i włączyć je do modelu. Innym sposobem są transformacje zmiennych np. logarytmowanie, czy inne rozkodowanie w przypadku zmiennych zero-jedynkowych. Użytecznym narzędziem wspomagającym wybór formy funkcyjnej wydaje się być przekształcenie Boxa-Coxa. Umożliwia ono sformalizowanie procedury wyboru pomiędzy modelem log-liniowym, liniowym oraz potęgowym. Przekształcenie ma formę Dla λ = 1 otrzymujemy g(x, λ) = xλ 1 λ (6) Dla λ = 1 uzyskujemy g(x, 1) = x1 1 1 g(x, 1) = x 1 1 1 = x 1 = 1 x + 1 Dla λ = 0 obliczenia są troche trudniejsze x λ 1 lim g(x, λ) = lim λ 0 λ 0 λ = lim λ 0 x λ 1 lim λ 0 λ H = xλ ln x 1 = ln x Wybór odpowiedniej formy jest determinowany przez oszacowaną wartość parametru λ. Jeżeli wartość λ jest bliska -1 sugeruje to użycie modelu na odwrotnościach, wartość λ bliska 0 wskazuje na logarytmiczną transformację zmiennych zawartych w modelu, a wartość bliska 1 na formę liniową. W przypadku, gdy chcemy zbadać, czy właściwym jest model, w którym jedynie część zmiennych jest poddana transformacji możemy to oczywiście uwzględnić. Jest to ważne, gdyż np logarytmowanie zmiennej zero-jedynkowej nie ma sensu (dlaczego?). Przy szacowaniu parametrów modelu Boxa-Coxa problemem jest fakt, że wszystkie przypadki są jedynie modelami liniowymi względem przekształconych zmiennych, a rzeczywista zależność może być nieliniowa. 56

Literatura [1] Jerzy Mycielski (2000). 57