Ekonometria I Weryfikacja: współliniowość i normalność Dr Michał Gradzewicz Szkoła Główna Handlowa w Warszawie 1
Współliniowość 2
Przypomnienie: Założenia MNK Założenia MNK: 1. Zmienne objaśniające są nielosowe (i w konsekwencji i nieskorelowane ze składnikiem losowym ( 0) 2. 1 3. 0 4. oraz dodatkowe założenie: 5. ~0,, w zasadzie niepotrzebne do wyznaczenia estymatora MNK czy udowodnienia twierdzenia Gaussa-Markowa, ale niezbędne do testowania 3
Dokładna współliniowość zmiennych objaśniających Co oznacza założenie MNK: 1? Przykład (dla 2): 1 2 4 1 5 10 1 3 6 1 7 14 1 10 20 Jeśli jedna ze zmiennych w jest liniową kombinacją innych zmiennych (tutaj 2! ) występuje dokładna współliniowość (korelacja między parą zmiennych jest jednostkowa) W konsekwencji: macierz " "jest osobliwa (det 0), jej odwrotność nie istnieje, a zatem nie istnieje też estymator MNK &' (! )
Przybliżona współliniowość zmiennych objaśniających W praktyce modelowania problem dokładnejwspółliniowości nie występuje, ale może wystąpić problem przybliżonej współliniowości czyli sytuacją, kiedy korelacja między parą zmiennych nie jest co prawda jednostkowa, ale bardzo bliska 1 Przykładowo: Dla szeregów czasowych zmiennych makroekonomicznych (np. PKB, inwestycje, import, konsumpcja) występuje tzw. variable comovement, czyli współzmienność szeregów czasowych ich zmiany w czasie są zbliżone ze względu na oddziaływanie na nie cyklu koniunkturalnego W danych przekrojowych często występuje tendencja do proporcjonalnych zmian wartości zmiennych objaśniających obiekty duże charakteryzują się często wysokimi wartościami różnych zmiennych je określających, a obiekty małe -małymi
Konsekwencje przybliżonej współliniowości Przypomnijmy z matematyki: * (!! +,-. */, gdzie 012*jest wyznacznikiem macierzy *, natomiast * / jest macierzą dopełnień algebraicznych Dla dokładnej współliniowości 012" " 0, ale w przypadku przybliżonej współliniowości 012" "jest bliskie zera i elementy macierzy " " (! są duże Macierz wariancji i kowariancji estymatora ma postać: &3 4 " " (!, zatem błędy estymatorów (elementy diagonalne tej macierzy) są w przypadku współliniowości wysokie konsekwencją przybliżonej współliniowości jest niska precyzja szacunku prowadzi to do niskich wartości statystyk t-studenta i potencjalnych częstszych wyników testów wskazujących na nieistotność zmiennych Można pokazać, że współczynnik determinacji 5 5 6 5 (! 5 6, gdzie 5to macierz, której element 7,8to współczynnik korelacji w przez zmiennych, :, 5 6 jest wektorem, którego 7-ty element to współczynnik korelacji )z jeśli 5ma elementy pozadiagonalne zbliżone do 1 (na diagonalnej z definicji są 1), to również det5 jest niski a w konsekwencji współczynnik determinacji ; < jest wysoki Często również niewielkie zmiany próby (np. obcięcie jej o kilka obserwacji) skutkują wyraźnymi zmianami parametrów Problematyczna staje się też interpretacja parametru jeśli zmiana : pociąga za sobą niemal automatyczne ruchy innych zmiennych w modelu, to trudno koncepcyjnie interpretować parametr jako samodzielny efekt, jaki : ma na ) 6
Ilustracja problemu współliniowości (1) Rozpatrzymy krótki program Gretla: nulldata 500 series x1 = randgen(n, 0, 3) series eps1 = randgen(n, 0, 0.5) series y = 2 + 5*x1 + eps1 ols y 0 x1 series eps2 = randgen(n, 0, 0.01) series x2 = 10*x1 + eps2 ols y 0 x1 x2 gnuplot y x1 --output=graph1.svg gnuplot x2 x1 --output=graph2.svg Model 1: Estymacja KMNK, wykorzystane obserwacje 1-500 Zmienna zależna (Y): y współczynnik błąd standardowy t-studenta wartość p --------------------------------------------------------------- const 2,00919 0,0235079 85,47 1,01e-299 *** x1 4,99994 0,00808702 618,3 0,0000 *** Średn.aryt.zm.zależnej 1,909547 Odch.stand.zm.zależnej 14,55785 Suma kwadratów reszt 137,5962 Błąd standardowy reszt 0,525640 Wsp. determ. R-kwadrat 0,998699 Skorygowany R-kwadrat 0,998696 F(1, 498) 382254,2 Wartość p dla testu F 0,000000 Logarytm wiarygodności 386,8980 Kryt. inform. Akaike'a 777,7961 Kryt. bayes. Schwarza 786,2253 Kryt. Hannana-Quinna 781,1037 Model 2: Estymacja KMNK, wykorzystane obserwacje 1-500 Zmienna zależna (Y): y współczynnik błąd standardowy t-studenta wartość p --------------------------------------------------------------- const 2,00917 0,0235310 85,38 3,99e-299 *** x1 9,25695 23,7452 0,3898 0,6968 x2 0,425712 2,37457 0,1793 0,8578 Średn.aryt.zm.zależnej 1,909547 Odch.stand.zm.zależnej 14,55785 Suma kwadratów reszt 137,5873 Błąd standardowy reszt 0,526152 Wsp. determ. R-kwadrat 0,998699 Skorygowany R-kwadrat 0,998694 F(2, 497) 190755,7 Wartość p dla testu F 0,000000 Logarytm wiarygodności 386,8819 Kryt. inform. Akaike'a 779,7637 Kryt. bayes. Schwarza 792,4076 Kryt. Hannana-Quinna 784,7251 7
Ilustracja problemu współliniowości (2) 8
Współliniowość - diagnostyka Podstawowe wskazanie na problem współliniowości obserwujemy mało istotne parametry przy wysokim dopasowaniu modelu Formalne diagnozowanie wyznaczenie = czynników inflacji wariancji CIW (Variance Inflation Factor VIF) >? :!!(@ A B, 8 1,= D gdzie 5 : jest współczynnikiem determinacji równania, w którym " : jest objaśniany pozostałymi E1zmiennymi objaśniającymi >? : 1; >? : D 10jest oznaką problematycznej współliniowości, znacząco obniżającą jakość modelu (wtedy 5 : D 0.9) Przykładowo, dla modelu ) - & 6 &!!- & - & I I- - wartość 5 jest definiowana jako 5 z modelu: - J 6 J!!- J I- K!, wtedy >?!!(@ B B
Adresowanie problemu współliniowości Jak sobie poradzić z tym problemem? identyfikacja źródła problemu (jakość danych czy specyfikacja modelu) Eliminacja zmiennych powodujących występowanie współliniowości (dla tych 8, dla których są wysokie wartości >? : ) ale usunięcie ważnych zmiennych objaśniających z specyfikacji modelu może prowadzić do obciążenia oszacowań parametrów uzyskanych MNK (problem ten nazywa się Omitted Variable Bias) Czasami możliwa jest respecyfikacjadanych (np. zamiast stopy bezrobocia można użyć liczby osób bezrobotnych) Użycie proxy(alternatywnego sposobu pomiaru danego zjawiska, przybliżenia) dla problematycznej zmiennej/zmiennych, Zastosowanie innej metody estymacji regresji grzbietowej (ridge regression) &3@+L, MN (! ), gdzie M D 0jest skalarem, a Nmacierzą jednostkową metodą ta uzyskujemy obciążony, ale jednocześnie bardziej efektywny estymator (ekonomiści bardzo nie lubią obciążonych estymatorów) Zastosowanie innej metody estymacji regresji względem tzw. głównych składowych (principal components), która polega na przekształceniu zbioru zmiennych w niezależne od siebie czynniki, objaśniające łącznie całość zmienności badanego zjawiska ale wtedy tracimy możliwość interpretacji współczynników Można też nie zrobić nic, co jest uzasadnione gdy rozwiązanie stworzy jeszcze gorsze problemy 10
Normalność rozkładu składnika losowego O 11
Przypomnienie: Założenia MNK Założenia MNK: 1. Zmienne objaśniające są nielosowe (i w konsekwencji i nieskorelowane ze składnikiem losowym ( 0) 2. 1 3. 0 4. oraz dodatkowe założenie: 5. ~0,, w zasadzie niepotrzebne do wyznaczenia estymatora MNK czy udowodnienia twierdzenia Gaussa-Markowa, ale niezbędne do testowania 12
Normalność rozkładu zmiennej losowej Normalność nie jest niezbędna do wyprowadzenia własności estymatora MNK zawartych w twierdzenie Gaussa-Markowa, ale wszystkie statystyki testowe, które omawiamy, mają odpowiednie rozkłady (np. 2,P,Q) jedynie przy założeniu normalności składnika losowego tylko przy spełnieniu tego założenia możemy korzystać ze standardowo liczonych p-values Istnieje cała grupa testów normalności zmiennej informacji można poszukać np. tutaj Omówimy tu test typu Jarque-Bera, oparty o kurtozę i skośność Momenty zmiennej losowej Momentem centralnym rzędu 8rozkładu zmiennej losowej "nazywamy R : "E" : Wariancja rozkładu (8 2): R " "E"! S S V! E Skośność rozkładu (8 3): R I " "E" I! S I S V! E Kurtozarozkładu (8 4): R W " "E" W! S W S V! E 13
Skośność rozkładu Skośność jest miarą asymetrii rozkładu, czyli sytuacji, gdy masa prawdopodobieństwa rozkładu przesunięta jest na prawo lub lewo Rozkład normalny jest symetryczny (dla niego R I 0) Skośność może być dodatnia (R I D 0, zwana też prawostronną) lub ujemna. 14
Kurtoza rozkładu Kurtoza dotyczy ogonów rozkładu, czyli prawdopodobieństwa zdarzeń mocno odbiegających od przeciętnych wartości danego zjawiska Dla rozkładu normalnego kurtozar W 3 Dla rozkładu platokurtycznegor W D 3(prawdopodobieństwo zdarzeń nietypowych jest wyższe, niż w przypadku rozkładu normalnego, rozkłady takie rozpatruje się w ekonometrii rynków finansowych) Dla rozkładu leptokurtcznegor W D 3(prawdopodobieństwo zdarzeń nietypowych jest niższe, niż w przypadku rozkładu normalnego) 15
Przykłady rozkładów o różnej kurtozie i skośności type mean sd skewness kurtosis norm_distribution 0 1.5 0 3 t_distribution 0 1.49-0.23 15.6 unitary_distribution -0.01 1.5 0.01 1.8 W przypadku skośności prawostronnej zlogarytmowanie zmiennej często prowadzi do dużo bardziej symetrycznego rozkładu type mean sd skewness kurtosis chisq 4.5 3 1.34 5.7 log_chisq 1.27 0.74-0.71 3.96 16
Obserwacje wylosowane z rozkładu normalnego i rozkładu t o tej samej wariancji 17
Test Jarque-Bery normalności rozkładu składnika losowego (1) Zestaw hipotez testowych X 6 :, X! :!~, Wystandaryzowany współczynnik skośności: 4 ] 1 S I ^I _ I ` V! E 1 S ` E V! Wystandaryzowany współczynnik kurtozy: = ] 1 S W ^W ` _ W V! E 1 S ` E V! Oczywiście w przypadku testu normalności dla reszt: oraz 0 Hipoteza zerowa testu Jarque-Berry(JB) opiera się na łącznym teście: 4 0 oraz = 3 I
Test Jarque-Bery normalności rozkładu składnika losowego (2) Statystyka testu JB: ab ` 4 6 =E3 24 P 2 Ma rozkład P z dwoma stopniami swobody ponieważ testujemy restrykcje na 2 parametry rozkładu Jeśli statystyka JB jest większa od wartości krytycznej testu, to odrzucamy X 6 Czyli zależy nam na wysokich wartościach p-value W Gretluzaimplementowana jest nieco zmodyfikowana wersja tego testu (nadająca się do testowania rozkładów wielowymiarowych) autorstwa Doornika-Hansena Odrzucenie hipotezy zerowej Nie możemy korzystać ze standardowych testów statystycznych W przypadku dużych prób możemy jednak liczyć na własności asymptotyczne testów
Zadania 20
Zadanie 1 - Produkcja ryżu Używając zbiór danych rice5.gdt wykonaj następujące analizy cząstkowe: 1. Oceń podstawowe cechy danych, takie jak średnia, mediana, odchylenie standardowe 2. Jak kształtują się korelacje między zmiennymi: area, fert, labor, prod? A jak między ich logarytmami? 3. Oszacuj model funkcji produkcji na danych z roku 1994: lnef0 & 6 &! ln1& lnghf& I lni12 - a. Jaka to funkcja produkcji? b. Które zmienne są nieistotne? Wykonaj dla nich test łącznej nieistotności. c. Przeprowadź analizę współliniowości w modelu przy użyciu czynników inflacji wariancji (vif) i odpowiedz na pytanie dlaczego 5 modelu jest wysoki, a zmienne są nieistotne. d. Jak wysokie musi być 5 z regresji pomocniczej dla vif, aby uznać, że współliniowość jest problemem? e. Sprawdź czy oszacowana funkcja produkcji należy do klasy funkcji produkcji o stałych korzyściach skali (CRS). 4. Oszacuj ten sam model na pełnej próbie a) Jak wyglądają wyniki analizy VIF b) Jak kształtuje się istotność i dopasowanie modelu oszacowanego na pełnej próbie. 21
Zadanie 2 Porównanie dwóch modeli Tabela 6.5 zawiera informacje o dwóch modelach: ) & 6 &! & j1 ) & 6 &! 1 Otrzymanych z użyciem 35. Statystyka testu RESET w drugim modelu wynosi 8.72, a korelacja między i j wynosi kl 0.975. a. Czy j powinno się znaleźć w specyfikacji? b. Co możesz powiedzieć o problemie omitted variable c. Co możesz powiedzieć o współliniowości i jej potencjalnych efektach. 22
Zadanie 3 Jak edukacja wpływa na wynagrodzenie? Zbiór cps5_small.dtazawiera 1200 obserwacji godzinowych wynagrodzeń, edukacji i innych zmiennych z Current Population Survey(CPS) 2008 a. Skonstruuj histogram zmiennej WAGEi jej logarytmu. Która wydaje się bliższa rozkładowi normalnemu. b. Ile wynosi skośność i kurtozaobu zmiennych? (pamiętaj, że Gretlpodaje odpowiednie statystyki względem wartości dla rozkładu normalnego) c. Przeprowadź test JB dla obu zmiennych d. Oszacuj liniowy model?*m & 6 &! n>1oraz log-liniowa regresję ln?*m & 6 &! n>1 e. Jaki jest oszacowany zwrot z edukacji w każdym modelu? f. Skonstruuj histogram reszt obu modeli g. Przeprowadź test JB na resztach z obu modeli. Jakie są wnioski? Jakie są wskaźniki skośności i kurtozy dla reszt? h. Czy w obu modelach można korzystać z podawanych przez Gretlwartości krytycznych dla różnych testów, np. dla testu t? i. Oszacuj model dla logarytmu płac uwzględniając wszystkie zmienne w zbiorze danych i przeprowadź test normalności reszt. Jakie są wnioski z analizy VIF? 23