Ekonometria I Weryfikacja: współliniowość i normalność. Dr Michał Gradzewicz Szkoła Główna Handlowa w Warszawie

Podobne dokumenty
e) Oszacuj parametry modelu za pomocą MNK. Zapisz postać modelu po oszacowaniu wraz z błędami szacunku.

4. Średnia i autoregresja zmiennej prognozowanej

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Proces modelowania zjawiska handlu zagranicznego towarami

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Niestacjonarne zmienne czasowe własności i testowanie

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y

Szymon Bargłowski, sb39345 MODEL. 1. Równania rozpatrywanego modelu: 1 PKB t = a 1 a 2 E t a 3 Invest t 1

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Ekonometria. Własności składnika losowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Outsourcing a produktywność pracy w polskich przedsiębiorstwach. Anna Grześ Zakład Zarządzania Uniwersytet w Białymstoku

Metody Ekonometryczne

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Stanisław Cichocki. Natalia Nehrebecka

Własności statystyczne regresji liniowej. Wykład 4

Ekonometria. Zajęcia

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE

MODELE LINIOWE. Dr Wioleta Drobik

Elementy statystyki wielowymiarowej

Stanisław Cichocki. Natalia Nehrebecka. Zajęcia 15-16

Egzamin z ekonometrii wersja IiE, MSEMAT

Zadanie 1 1. Czy wykresy zmiennych sugerują, że zmienne są stacjonarne. Czy występuje sezonowość?

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

STUDIA I STOPNIA EGZAMIN Z EKONOMETRII

Ćwiczenia IV

Model 1: Estymacja KMNK z wykorzystaniem 32 obserwacji Zmienna zależna: st_g

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Ekonometria egzamin 07/03/2018

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

5. Model sezonowości i autoregresji zmiennej prognozowanej

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Zadanie 3 Na podstawie danych kwartalnych z lat oszacowano następujący model (w nawiasie podano błąd standardowy oszacowania):

Stanisław Cihcocki. Natalia Nehrebecka

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Analiza regresji - weryfikacja założeń

Rozdział 8. Regresja. Definiowanie modelu

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Wprowadzenie do analizy korelacji i regresji

Egzamin z ekonometrii wersja IiE, MSEMat Pytania teoretyczne

Metody Ilościowe w Socjologii

Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej. Modele nieliniowe Funkcja produkcji

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

3. Modele tendencji czasowej w prognozowaniu

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Ekonometria Ćwiczenia 19/01/05

Testowanie hipotez statystycznych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Zmienne zależne i niezależne

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Ekonometria egzamin 31/01/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

STATYSTYKA MATEMATYCZNA

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

METODY STATYSTYCZNE W BIOLOGII

1.8 Diagnostyka modelu

Weryfikacja hipotez statystycznych

Natalia Neherbecka. 11 czerwca 2010

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Diagnostyka w Pakiecie Stata

Ekonometria. Model nieliniowe i funkcja produkcji. Jakub Mućk. Katedra Ekonomii Ilościowej

Diagnostyka w Pakiecie Stata

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Testowanie hipotez statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Egzamin z ekonometrii wersja IiE, MSEMAT

Testowanie hipotez statystycznych.

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Analiza kanoniczna w pigułce

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Weryfikacja hipotez statystycznych

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Przykład 2. Stopa bezrobocia

Transkrypt:

Ekonometria I Weryfikacja: współliniowość i normalność Dr Michał Gradzewicz Szkoła Główna Handlowa w Warszawie 1

Współliniowość 2

Przypomnienie: Założenia MNK Założenia MNK: 1. Zmienne objaśniające są nielosowe (i w konsekwencji i nieskorelowane ze składnikiem losowym ( 0) 2. 1 3. 0 4. oraz dodatkowe założenie: 5. ~0,, w zasadzie niepotrzebne do wyznaczenia estymatora MNK czy udowodnienia twierdzenia Gaussa-Markowa, ale niezbędne do testowania 3

Dokładna współliniowość zmiennych objaśniających Co oznacza założenie MNK: 1? Przykład (dla 2): 1 2 4 1 5 10 1 3 6 1 7 14 1 10 20 Jeśli jedna ze zmiennych w jest liniową kombinacją innych zmiennych (tutaj 2! ) występuje dokładna współliniowość (korelacja między parą zmiennych jest jednostkowa) W konsekwencji: macierz " "jest osobliwa (det 0), jej odwrotność nie istnieje, a zatem nie istnieje też estymator MNK &' (! )

Przybliżona współliniowość zmiennych objaśniających W praktyce modelowania problem dokładnejwspółliniowości nie występuje, ale może wystąpić problem przybliżonej współliniowości czyli sytuacją, kiedy korelacja między parą zmiennych nie jest co prawda jednostkowa, ale bardzo bliska 1 Przykładowo: Dla szeregów czasowych zmiennych makroekonomicznych (np. PKB, inwestycje, import, konsumpcja) występuje tzw. variable comovement, czyli współzmienność szeregów czasowych ich zmiany w czasie są zbliżone ze względu na oddziaływanie na nie cyklu koniunkturalnego W danych przekrojowych często występuje tendencja do proporcjonalnych zmian wartości zmiennych objaśniających obiekty duże charakteryzują się często wysokimi wartościami różnych zmiennych je określających, a obiekty małe -małymi

Konsekwencje przybliżonej współliniowości Przypomnijmy z matematyki: * (!! +,-. */, gdzie 012*jest wyznacznikiem macierzy *, natomiast * / jest macierzą dopełnień algebraicznych Dla dokładnej współliniowości 012" " 0, ale w przypadku przybliżonej współliniowości 012" "jest bliskie zera i elementy macierzy " " (! są duże Macierz wariancji i kowariancji estymatora ma postać: &3 4 " " (!, zatem błędy estymatorów (elementy diagonalne tej macierzy) są w przypadku współliniowości wysokie konsekwencją przybliżonej współliniowości jest niska precyzja szacunku prowadzi to do niskich wartości statystyk t-studenta i potencjalnych częstszych wyników testów wskazujących na nieistotność zmiennych Można pokazać, że współczynnik determinacji 5 5 6 5 (! 5 6, gdzie 5to macierz, której element 7,8to współczynnik korelacji w przez zmiennych, :, 5 6 jest wektorem, którego 7-ty element to współczynnik korelacji )z jeśli 5ma elementy pozadiagonalne zbliżone do 1 (na diagonalnej z definicji są 1), to również det5 jest niski a w konsekwencji współczynnik determinacji ; < jest wysoki Często również niewielkie zmiany próby (np. obcięcie jej o kilka obserwacji) skutkują wyraźnymi zmianami parametrów Problematyczna staje się też interpretacja parametru jeśli zmiana : pociąga za sobą niemal automatyczne ruchy innych zmiennych w modelu, to trudno koncepcyjnie interpretować parametr jako samodzielny efekt, jaki : ma na ) 6

Ilustracja problemu współliniowości (1) Rozpatrzymy krótki program Gretla: nulldata 500 series x1 = randgen(n, 0, 3) series eps1 = randgen(n, 0, 0.5) series y = 2 + 5*x1 + eps1 ols y 0 x1 series eps2 = randgen(n, 0, 0.01) series x2 = 10*x1 + eps2 ols y 0 x1 x2 gnuplot y x1 --output=graph1.svg gnuplot x2 x1 --output=graph2.svg Model 1: Estymacja KMNK, wykorzystane obserwacje 1-500 Zmienna zależna (Y): y współczynnik błąd standardowy t-studenta wartość p --------------------------------------------------------------- const 2,00919 0,0235079 85,47 1,01e-299 *** x1 4,99994 0,00808702 618,3 0,0000 *** Średn.aryt.zm.zależnej 1,909547 Odch.stand.zm.zależnej 14,55785 Suma kwadratów reszt 137,5962 Błąd standardowy reszt 0,525640 Wsp. determ. R-kwadrat 0,998699 Skorygowany R-kwadrat 0,998696 F(1, 498) 382254,2 Wartość p dla testu F 0,000000 Logarytm wiarygodności 386,8980 Kryt. inform. Akaike'a 777,7961 Kryt. bayes. Schwarza 786,2253 Kryt. Hannana-Quinna 781,1037 Model 2: Estymacja KMNK, wykorzystane obserwacje 1-500 Zmienna zależna (Y): y współczynnik błąd standardowy t-studenta wartość p --------------------------------------------------------------- const 2,00917 0,0235310 85,38 3,99e-299 *** x1 9,25695 23,7452 0,3898 0,6968 x2 0,425712 2,37457 0,1793 0,8578 Średn.aryt.zm.zależnej 1,909547 Odch.stand.zm.zależnej 14,55785 Suma kwadratów reszt 137,5873 Błąd standardowy reszt 0,526152 Wsp. determ. R-kwadrat 0,998699 Skorygowany R-kwadrat 0,998694 F(2, 497) 190755,7 Wartość p dla testu F 0,000000 Logarytm wiarygodności 386,8819 Kryt. inform. Akaike'a 779,7637 Kryt. bayes. Schwarza 792,4076 Kryt. Hannana-Quinna 784,7251 7

Ilustracja problemu współliniowości (2) 8

Współliniowość - diagnostyka Podstawowe wskazanie na problem współliniowości obserwujemy mało istotne parametry przy wysokim dopasowaniu modelu Formalne diagnozowanie wyznaczenie = czynników inflacji wariancji CIW (Variance Inflation Factor VIF) >? :!!(@ A B, 8 1,= D gdzie 5 : jest współczynnikiem determinacji równania, w którym " : jest objaśniany pozostałymi E1zmiennymi objaśniającymi >? : 1; >? : D 10jest oznaką problematycznej współliniowości, znacząco obniżającą jakość modelu (wtedy 5 : D 0.9) Przykładowo, dla modelu ) - & 6 &!!- & - & I I- - wartość 5 jest definiowana jako 5 z modelu: - J 6 J!!- J I- K!, wtedy >?!!(@ B B

Adresowanie problemu współliniowości Jak sobie poradzić z tym problemem? identyfikacja źródła problemu (jakość danych czy specyfikacja modelu) Eliminacja zmiennych powodujących występowanie współliniowości (dla tych 8, dla których są wysokie wartości >? : ) ale usunięcie ważnych zmiennych objaśniających z specyfikacji modelu może prowadzić do obciążenia oszacowań parametrów uzyskanych MNK (problem ten nazywa się Omitted Variable Bias) Czasami możliwa jest respecyfikacjadanych (np. zamiast stopy bezrobocia można użyć liczby osób bezrobotnych) Użycie proxy(alternatywnego sposobu pomiaru danego zjawiska, przybliżenia) dla problematycznej zmiennej/zmiennych, Zastosowanie innej metody estymacji regresji grzbietowej (ridge regression) &3@+L, MN (! ), gdzie M D 0jest skalarem, a Nmacierzą jednostkową metodą ta uzyskujemy obciążony, ale jednocześnie bardziej efektywny estymator (ekonomiści bardzo nie lubią obciążonych estymatorów) Zastosowanie innej metody estymacji regresji względem tzw. głównych składowych (principal components), która polega na przekształceniu zbioru zmiennych w niezależne od siebie czynniki, objaśniające łącznie całość zmienności badanego zjawiska ale wtedy tracimy możliwość interpretacji współczynników Można też nie zrobić nic, co jest uzasadnione gdy rozwiązanie stworzy jeszcze gorsze problemy 10

Normalność rozkładu składnika losowego O 11

Przypomnienie: Założenia MNK Założenia MNK: 1. Zmienne objaśniające są nielosowe (i w konsekwencji i nieskorelowane ze składnikiem losowym ( 0) 2. 1 3. 0 4. oraz dodatkowe założenie: 5. ~0,, w zasadzie niepotrzebne do wyznaczenia estymatora MNK czy udowodnienia twierdzenia Gaussa-Markowa, ale niezbędne do testowania 12

Normalność rozkładu zmiennej losowej Normalność nie jest niezbędna do wyprowadzenia własności estymatora MNK zawartych w twierdzenie Gaussa-Markowa, ale wszystkie statystyki testowe, które omawiamy, mają odpowiednie rozkłady (np. 2,P,Q) jedynie przy założeniu normalności składnika losowego tylko przy spełnieniu tego założenia możemy korzystać ze standardowo liczonych p-values Istnieje cała grupa testów normalności zmiennej informacji można poszukać np. tutaj Omówimy tu test typu Jarque-Bera, oparty o kurtozę i skośność Momenty zmiennej losowej Momentem centralnym rzędu 8rozkładu zmiennej losowej "nazywamy R : "E" : Wariancja rozkładu (8 2): R " "E"! S S V! E Skośność rozkładu (8 3): R I " "E" I! S I S V! E Kurtozarozkładu (8 4): R W " "E" W! S W S V! E 13

Skośność rozkładu Skośność jest miarą asymetrii rozkładu, czyli sytuacji, gdy masa prawdopodobieństwa rozkładu przesunięta jest na prawo lub lewo Rozkład normalny jest symetryczny (dla niego R I 0) Skośność może być dodatnia (R I D 0, zwana też prawostronną) lub ujemna. 14

Kurtoza rozkładu Kurtoza dotyczy ogonów rozkładu, czyli prawdopodobieństwa zdarzeń mocno odbiegających od przeciętnych wartości danego zjawiska Dla rozkładu normalnego kurtozar W 3 Dla rozkładu platokurtycznegor W D 3(prawdopodobieństwo zdarzeń nietypowych jest wyższe, niż w przypadku rozkładu normalnego, rozkłady takie rozpatruje się w ekonometrii rynków finansowych) Dla rozkładu leptokurtcznegor W D 3(prawdopodobieństwo zdarzeń nietypowych jest niższe, niż w przypadku rozkładu normalnego) 15

Przykłady rozkładów o różnej kurtozie i skośności type mean sd skewness kurtosis norm_distribution 0 1.5 0 3 t_distribution 0 1.49-0.23 15.6 unitary_distribution -0.01 1.5 0.01 1.8 W przypadku skośności prawostronnej zlogarytmowanie zmiennej często prowadzi do dużo bardziej symetrycznego rozkładu type mean sd skewness kurtosis chisq 4.5 3 1.34 5.7 log_chisq 1.27 0.74-0.71 3.96 16

Obserwacje wylosowane z rozkładu normalnego i rozkładu t o tej samej wariancji 17

Test Jarque-Bery normalności rozkładu składnika losowego (1) Zestaw hipotez testowych X 6 :, X! :!~, Wystandaryzowany współczynnik skośności: 4 ] 1 S I ^I _ I ` V! E 1 S ` E V! Wystandaryzowany współczynnik kurtozy: = ] 1 S W ^W ` _ W V! E 1 S ` E V! Oczywiście w przypadku testu normalności dla reszt: oraz 0 Hipoteza zerowa testu Jarque-Berry(JB) opiera się na łącznym teście: 4 0 oraz = 3 I

Test Jarque-Bery normalności rozkładu składnika losowego (2) Statystyka testu JB: ab ` 4 6 =E3 24 P 2 Ma rozkład P z dwoma stopniami swobody ponieważ testujemy restrykcje na 2 parametry rozkładu Jeśli statystyka JB jest większa od wartości krytycznej testu, to odrzucamy X 6 Czyli zależy nam na wysokich wartościach p-value W Gretluzaimplementowana jest nieco zmodyfikowana wersja tego testu (nadająca się do testowania rozkładów wielowymiarowych) autorstwa Doornika-Hansena Odrzucenie hipotezy zerowej Nie możemy korzystać ze standardowych testów statystycznych W przypadku dużych prób możemy jednak liczyć na własności asymptotyczne testów

Zadania 20

Zadanie 1 - Produkcja ryżu Używając zbiór danych rice5.gdt wykonaj następujące analizy cząstkowe: 1. Oceń podstawowe cechy danych, takie jak średnia, mediana, odchylenie standardowe 2. Jak kształtują się korelacje między zmiennymi: area, fert, labor, prod? A jak między ich logarytmami? 3. Oszacuj model funkcji produkcji na danych z roku 1994: lnef0 & 6 &! ln1& lnghf& I lni12 - a. Jaka to funkcja produkcji? b. Które zmienne są nieistotne? Wykonaj dla nich test łącznej nieistotności. c. Przeprowadź analizę współliniowości w modelu przy użyciu czynników inflacji wariancji (vif) i odpowiedz na pytanie dlaczego 5 modelu jest wysoki, a zmienne są nieistotne. d. Jak wysokie musi być 5 z regresji pomocniczej dla vif, aby uznać, że współliniowość jest problemem? e. Sprawdź czy oszacowana funkcja produkcji należy do klasy funkcji produkcji o stałych korzyściach skali (CRS). 4. Oszacuj ten sam model na pełnej próbie a) Jak wyglądają wyniki analizy VIF b) Jak kształtuje się istotność i dopasowanie modelu oszacowanego na pełnej próbie. 21

Zadanie 2 Porównanie dwóch modeli Tabela 6.5 zawiera informacje o dwóch modelach: ) & 6 &! & j1 ) & 6 &! 1 Otrzymanych z użyciem 35. Statystyka testu RESET w drugim modelu wynosi 8.72, a korelacja między i j wynosi kl 0.975. a. Czy j powinno się znaleźć w specyfikacji? b. Co możesz powiedzieć o problemie omitted variable c. Co możesz powiedzieć o współliniowości i jej potencjalnych efektach. 22

Zadanie 3 Jak edukacja wpływa na wynagrodzenie? Zbiór cps5_small.dtazawiera 1200 obserwacji godzinowych wynagrodzeń, edukacji i innych zmiennych z Current Population Survey(CPS) 2008 a. Skonstruuj histogram zmiennej WAGEi jej logarytmu. Która wydaje się bliższa rozkładowi normalnemu. b. Ile wynosi skośność i kurtozaobu zmiennych? (pamiętaj, że Gretlpodaje odpowiednie statystyki względem wartości dla rozkładu normalnego) c. Przeprowadź test JB dla obu zmiennych d. Oszacuj liniowy model?*m & 6 &! n>1oraz log-liniowa regresję ln?*m & 6 &! n>1 e. Jaki jest oszacowany zwrot z edukacji w każdym modelu? f. Skonstruuj histogram reszt obu modeli g. Przeprowadź test JB na resztach z obu modeli. Jakie są wnioski? Jakie są wskaźniki skośności i kurtozy dla reszt? h. Czy w obu modelach można korzystać z podawanych przez Gretlwartości krytycznych dla różnych testów, np. dla testu t? i. Oszacuj model dla logarytmu płac uwzględniając wszystkie zmienne w zbiorze danych i przeprowadź test normalności reszt. Jakie są wnioski z analizy VIF? 23