1. Obserwacje nietypowe

Podobne dokumenty
Diagnostyka w Pakiecie Stata

Diagnostyka w Pakiecie Stata

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

Egzamin z ekonometrii wersja IiE, MSEMAT

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Egzamin z ekonometrii wersja IiE, MSEMAT

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Ekonometria Ćwiczenia 19/01/05

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Natalia Nehrebecka. 18 maja 2010

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Egzamin z ekonometrii wersja IiE, MSEMAT

1.8 Diagnostyka modelu

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Egzamin z ekonometrii - wersja ogólna

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Egzamin z ekonometrii wersja IiE, MSEMat Pytania teoretyczne

Natalia Nehrebecka Stanisław Cichocki. Wykład 6

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Ekonometria egzamin 07/03/2018

Egzamin z ekonometrii wersja ogolna

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Stanisław Cichocki. Natalia Nehrebecka

Testowanie hipotez statystycznych

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08

Ekonometria egzamin 31/01/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria dla IiE i MSEMat Z12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

, a reszta dla pominiętej obserwacji wynosi 0, RSS jest stałe, T SS rośnie, więc zarówno R 2 jak i R2 rosną. R 2 = 1 n 1 n. rosnie. n 2 (1 R2 ) = 1 59

Chcesz zwiększyć swój dochód? Przenieś się i pracuj w Urzędzie!

Czasowy wymiar danych

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

1 Modele ADL - interpretacja współczynników

Zmienne Binarne w Pakiecie Stata

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Ekonometria egzamin wersja ogólna 29/01/08

1.9 Czasowy wymiar danych

Heteroskedastyczość w szeregach czasowyh

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Metoda najmniejszych kwadratów

Ekonometria egzamin wersja Informatyka i Ekonometria 29/01/08

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Problem równoczesności w MNK

Kolokwium ze statystyki matematycznej

Analiza regresji - weryfikacja założeń

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Ekonometria egzamin wersja ogólna 17/06/08

Autokorelacja i heteroskedastyczność

MODELE LINIOWE. Dr Wioleta Drobik

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Autoregresyjne modele o rozłożonych opóźnieniach - Autoregressive Distributed Lags models

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Modele warunkowej heteroscedastyczności

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych

2.2 Autokorelacja Wprowadzenie

Testowanie hipotez statystycznych

Budowa modelu i testowanie hipotez

Rozdział 8. Regresja. Definiowanie modelu

1.5 Problemy ze zbiorem danych

Jednowskaźnikowy model Sharpe`a

MODEL EKONOMETRYCZNY. Marcin Michalski, Konrad Rotuski, gr. 303, WNE UW

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Zmienne sztuczne i jakościowe

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Stanisław Cihcocki. Natalia Nehrebecka

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Natalia Neherbecka. 11 czerwca 2010

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Jak zarabiają najbardziej wpływowi - determinanty zarobków CEO

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Ćwiczenia IV

1 Metoda Najmniejszych Kwadratów (MNK) 2 Interpretacja parametrów modelu. 3 Klasyczny Model Regresji Liniowej (KMRL)

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Czynniki wpływające na wielkość oczekiwanej płacy po ukończeniu studiów przez studentów z województwa podlaskiego

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18

1.7 Ograniczenia nakładane na równanie regresji

Ekonometria I Weryfikacja: współliniowość i normalność. Dr Michał Gradzewicz Szkoła Główna Handlowa w Warszawie

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Ekonometria. Zajęcia

Transkrypt:

1. Obserwacje nietypowe Przeanalizujemy następujący eksperyment: 1) Generujemy zmienną x z rozkładu N (,1) (37 obserwacji). ) Generujemy zmienną y w następujący sposób: y = 1+ x + ε, gdzie ε ~ N(0,1). 3) Dodajemy do zbioru danych 3 obserwacje: 4) Przeprowadzamy regresję na próbie zawierającej pierwszych 37 obserwacji a następnie 3 regresje, w których dodatkowo uwzględniamy po jednej z obserwacji o numerach 38, 39, 40. 5) Za pomocą wykresów (wykresy poniżej) sprawdzamy jak dodanie poszczególnych obserwacji wpłynęło na oszacowania parametrów regresji. Na poniższych wykresach liczby to numery obserwacji. Obserwacja 38 nie jest nie typowa ze względu na zmienną x (dla niej x =, a pierwszych 37 obserwacji zostało wygenerowanych z rozkładu normalnego o średniej równej ). Na wykresie widać, iż dodanie tej obserwacji do próby nie powoduje znacznych zmian w oszacowanych parametrach (jest to obserwacja o stosunkowo dużej reszcie, ale nie jest nietypowa ze względu na x). Dodanie obserwacji 40 również nie ma znaczącego wpływu na wyniki oszacowań (wykres 3). Obserwacja ta jest co prawda nietypowa ze względu na zmienną x, ale pasuje do linii regresji (czyli reszta dla niej jest mała). Znaczący wpływ na oszacowania ma dodanie obserwacji o numerze 39, która jest nietypowa ze względu na x oraz nie pasuje do linii regresji (otrzymujemy duże reszty). y 0 5 10 15 Wykres 1 38 8 4 4 37 3 10 5 11 715 31 13 1614 0 3 935 730 5 63 18 8 17 33 9 19 136 1 6 1 34 0 4 6 x 40 39 0 5 10 9 8 1 6 341 Wykres 38 8 4 4 37 3 10 5 11 13 7 15 31 16 14 3 935 5 6 318 7 30 17 33 19 1 36 0 1 3 4 x 0 y obserwcje 1-37 obserwacje 1-38 0 4 6 8 Wykres 4 8 4 437 3 10 5 11 7 31 16 13 15 14 0 3 935 730 5 6318 17 33 9 8 19 136 1 6 1 34 39 0 5 10 15 Wykres 3 8 4 10 11 1315 16 14 0 3 7 4 5 9 5 3 730 3 31 37 35 17 18 9 33 18 19 6 1 6 341 36 40 0 4 6 x 0 4 6 x y obserwcje 1-37 obserwacje 1-37 i 39 y obserwcje 1-37 obserwacje 1-37 i 40 1

Przyjrzyjmy się jeszcze dźwigni, standaryzowanym resztą oraz odległości Cooka policzonym dla obserwacji 38, 39 i 40 w regresji na całej próbie (tzn. obserwacje 1-40): +----------------------------------------------+ reszty reszty_st dzwignia cook_dist ---------------------------------------------- 38. 6.17936.756601.0548.0991116 39. -9.7964-4.858357.815545 4.6506 40. 3.54708 1.85669.55551.570831 +----------------------------------------------+ Dla obserwacji 39 otrzymaliśmy duże wartości standaryzowanych reszt, dźwigni oraz odległości Cooka. Jest to obserwacja nietypowa, która nie pasuje do prostej regresji.. Współliniowość W analizie problemu współliniowości posłużymy się zbiorem danych zawierającym następujące zmienne: wiek - wiek w latach; waga - waga w kilogramach; bieg - czas biegu 1500m (zmienna zależna); puls_bieg - puls w trakcie biegu; puls_max - maksymalny puls w trakcie biegu. Zaczynamy od analizy zmiennych na wykresie. Na uwagę zasługuje silna zależność między zmiennymi puls_bieg i puls_max. Można spodziewać się, że umieszczenie obu tych zmiennych w modelu w charakterze regresorów może wywołać problem współliniowości. 140 160 180 40 50 60 14 bieg 1 10 180 8 160 puls_bieg 140 00 puls_max 60 150 50 wiek 40 8 10 1 14 150 00 waga 60 70 80 90 90 80 70 60 Na potwierdzenie silnej zależności, poniżej macierz korelacji dla zmiennych (korelacje istotne na poziomie istotności 0,05 są oznaczone przez *): bieg puls_b~g puls_max wiek waga -------------+--------------------------------------------- bieg 1.0000 puls_bieg 0.3136 1.0000

puls_max 0.61 0.998* 1.0000 wiek 0.1887-0.3379-0.439* 1.0000 waga 0.1435 0.1815 0.494-0.335 1.0000 Przeprowadzamy regresję: Source SS df MS Number of obs = 31 -------------+------------------------------ F( 4, 6) = 1.93 Model 13.79659 4 3.30699148 Prob > F = 0.135 Residual 44.5195687 6 1.71911 R-squared = 0.91 -------------+------------------------------ Adj R-squared = 0.1105 Total 57.7475346 30 1.949178 Root MSE = 1.3085 bieg Coef. Std. Err. t P> t [95% Conf. Interval] puls_bieg.0908955.064971 1.40 0.174 -.046566.44475 puls_max -.045466.076515-0.59 0.558 -.07418.1118166 wiek.086786.0543 1.66 0.109 -.00565.1941346 waga.087541.030138 0.95 0.349 -.0331955.0907036 _cons -3.98 6.859401-0.48 0.635-17.3979 10.8015 Za równo puls_bieg jak i puls_max są nieistotne na poziomie istotności 0,05. Przeprowadzamy test na łączną nieistotność tych zmiennych:. test puls_bieg puls_max ( 1) puls_bieg = 0 ( ) puls_max = 0 F(, 6) =.63 Prob > F = 0.0908 Obie zmienne okazują się być łącznie istotne na poziomie istotności 0,1. Co jest przyczyną sytuacji, w której poszczególne zmienne są nieistotne, natomiast są łącznie istotne? Oczywiście jest to konsekwencja silnej korelacji między tymi zmiennymi. Poniżej statystyka VIF policzona dla tej regresji:. estat vif /*Wyliczany jest VIF dla ostatnio przeprowadzonej regresji*/ Variable VIF 1/VIF -------------+---------------------- puls_max 8.61 0.116087 puls_bieg 7.77 0.18643 wiek 1.30 0.770541 waga 1.10 0.905913 -------------+---------------------- Mean VIF 4.70 Naszą uwagę zwracają duże wartości VIF dla zmiennych puls_bieg i puls_max. Rozwiązaniem problemu współliniowości jest usunięcie zmiennej, dla której wartość VIF jest największa. Poniżej oszacowania regresji, w której nie uwzględniamy zmiennej puls_max:. regress bieg puls_bieg wiek waga /*Regresja bez zmiennej puls_max*/ Source SS df MS Number of obs = 31 -------------+------------------------------ F( 3, 7) =.5 Model 1.63474 3 4.078465 Prob > F = 0.0793 Residual 45.140607 7 1.6716151 R-squared = 0.186 -------------+------------------------------ Adj R-squared = 0.1318 Total 57.7475346 30 1.949178 Root MSE = 1.98 bieg Coef. Std. Err. t P> t [95% Conf. Interval] puls_bieg.05543.046163.4 0.033.0047346.1057514 wiek.0965478.0489751 1.97 0.059 -.0039408.1970365 waga.056717.093303 0.88 0.389 -.0345091.085856 _cons -5.376856 5.89068-0.9 0.364-17.3371 6.583403 3

. estat vif Variable VIF 1/VIF -------------+---------------------- wiek 1.17 0.855177 puls_bieg 1.14 0.874707 waga 1.07 0.933574 -------------+---------------------- Mean VIF 1.13 Wartości statystyki VIF (są bliskie jedności) wskazują, iż w tej regresji nie występuje już problem współliniowości. Proszę również zwrócić uwagę na fakt, iż zmienna puls_bieg tym razem jest istotna na poziomie 0,05. Na koniec porównamy trzy następujące regresje: model_1 - regresja ze zmiennymi puls_bieg i puls_max (regresja ze współliniowością); model_ - regresja bez zmiennej puls_max; model_3 - regresja bez zmiennych puls_bieg i puls_max.. estimates table model_1 model_ model_3, stat(r r_a F) b(%4.3f) se(%4.3f) p(%4.3f) -------------------------------------------- Variable model_1 model_ model_3 -------------+------------------------------ puls_bieg 0.091 0.055 0.065 0.05 0.174 0.033 puls_max -0.045 0.077 0.558 wiek 0.087 0.097 0.063 0.05 0.049 0.050 0.109 0.059 0.19 waga 0.09 0.06 0.033 0.030 0.09 0.031 0.349 0.389 0.98 _cons -3.98-5.377 5.043 6.859 5.89 3.770 0.635 0.364 0.19 -------------+------------------------------ r 0.9 0.19 0.073 r_a 0.110 0.13 0.007 F 1.931.518 1.100 -------------------------------------------- legend: b/se/p Opis tabeli: - dla każdej zmiennej wyświetlane są: oszacowanie parametru, błąd standardowy oraz p-value; - r współczynnik R ; - r_a skorygowany współczynnik R ; - F statystyka testowa w teście na łączną istotność regresji. Usunięcie zmiennej puls_max (a tym samy rozwiązanie problemu współliniowości) nie wpływa w istotny sposób na dopasowanie regresji do danych (nawet następuje wzrost statystyki F oraz skorygowanego R ). Ponadto zmienna puls_bieg jest już istotna na poziomie istotności 0,05. Jeżeli dodatkowo usuniemy zmienną puls_bieg, to dopasowanie drastycznie spada (statystka F, R i skorygowany R ). 3. Diagnostyka Wracamy do regresji, na której skończyliśmy ostatnie zajęcia. Przypomnienie co oznaczają zmienne:. label list pl miasto_3 wyksztalcenie właściciel kieruje 4

pl: 0 mężczyzna 1 kobieta miasto_3: 1 wies miasto do 10 tyś. 3 miasto do 10 tyś. do 100 tyś. 4 miasto od 100 tyś. do 500 tyś. 5 miasta powyżej 500 tyś. wyksztalcenie: 1 podstawowe średnie 3 wyższe właściciel: 0 nie 1 tak kieruje: 1 nie kieruje kieruje nie kierownikami 3 kieruje kierownikami Testowanie prawidłowości formy funkcyjnej (test RESET) Test RESET służy do testowania prawidłowości wybranej przez nas formy funkcyjnej. Hipoteza zerowa zakłada, że liniowa forma funkcyjna modelu jest prawidłowa. Natomiast w hipotezie alternatywnej zakładamy, że forma funkcyjna jest nieliniowa (ale nie precyzujemy jaka). Sposób przeprowadzenia testu: 1) Szacujemy regresję i wyznaczamy wartości dopasowane.. xi: regress ln_dochod wiek wiek_ plec i.miasto_3 i.wyksztalcenie wlasciciel i.kieruje i.wyksztalcenie _Iwyksztalc_1-3 (naturally coded; _Iwyksztalc_1 omitted) -------------+------------------------------ F( 1, 1070) = 35.71 Model 105.74189 1 8.8118419 Prob > F = 0.0000 Residual 64.03781 1070.46763814 R-squared = 0.860 -------------+------------------------------ Adj R-squared = 0.780 Total 369.77917 108.3417554 Root MSE =.49675 wiek.0469.00978 4.3 0.000.030791.0614593 wiek_ -.000587.000146-4.4 0.000 -.0007733 -.00084 plec -.304918.0309936-9.84 0.000 -.3657369 -.441068 _Imiasto_3_.1635086.068506.39 0.017.090587.979585 _Imiasto_3_3.14308.0413098 5.19 0.000.133634.953781 _Imiasto_3_4.90661.0448065 6.5 0.000.041476.3799846 _Imiasto_3_5.3868997.0554695 6.97 0.000.780583.495741 _Iwyksztal~.1054956.050894.07 0.038.00563.053591 _Iwyksztal~3.3953344.0680483 5.81 0.000.618111.588576 wlasciciel.109646.0393898 3.07 0.00.0436745.198546 _Ikieruje_.466866.0410991 6.00 0.000.166046.373306 _Ikieruje_3.3899091.0567059 6.88 0.000.786416.5011765 _cons 5.44453.188151 8.94 0.000 5.075396 5.813668. predict y_hat /*Wartości dopasowane*/ (option xb assumed; fitted values) ) Tworzymy trzy nowe zmienne: wartości dopasowane podniesione do kwadratu, trzecie i czwartej potęgi. Zmienne te wykorzystamy za chwilę w regresji 5

pomocniczej (można podnosić wartości dopasowane do wyższych potęg, ale my postępujemy tak jak jest w standardowym teście przeprowadzanym przez STATĘ).. generate y_hat = y_hat^ /*Wartości dopasowane podniesione do kwadratu*/. generate y_hat3 = y_hat^3 /*Wartości dopasowane podniesione do trzeciej potęgi*/. generate y_hat4 = y_hat^4 /*Wartości dopasowane podniesione do czwartej potęgi*/ 3) Szacujemy regresję pomocniczą: zmienna zależna ta sama co w regresji wyjściowej, do zbioru zmiennych objaśniających dołączamy zmienne powstałe w kroku.. xi: regress ln_dochod wiek wiek_ plec i.miasto_3 i.wyksztalcenie wlasciciel i.kieruje y_hat? i.wyksztalcenie _Iwyksztalc_1-3 (naturally coded; _Iwyksztalc_1 omitted) -------------+------------------------------ F( 15, 1067) = 30.97 Model 11.155481 15 7.4770308 Prob > F = 0.0000 Residual 57.6369 1067.41446758 R-squared = 0.3033 -------------+------------------------------ Adj R-squared = 0.935 Total 369.77917 108.3417554 Root MSE =.49137 wiek 9.440684 7.48453 0.34 0.731-44.48917 63.37054 wiek_ -.118085.3437895-0.34 0.731 -.79668.5564978 plec -68.07071 198.739-0.34 0.731-457.117 30.980 _Imiasto_3_ 36.5149 106.3181 0.34 0.731-17.0947 45.1377 _Imiasto_3_3 47.8738 139.3576 0.34 0.731-5.5736 31.3183 _Imiasto_3_4 65.35 189.914 0.34 0.731-307.418 437.8665 _Imiasto_3_5 86.36016 51.5796 0.34 0.731-407.867 580.007 _Iwyksztal~ 3.58581 68.6006 0.34 0.731-111.016 158.1933 _Iwyksztal~3 88.16846 57.0635 0.34 0.73-416.389 59.5759 wlasciciel 6.98143 78.65615 0.34 0.73-17.3569 181.3197 _Ikieruje_ 55.046 160.403 0.34 0.73-59.6936 369.786 _Ikieruje_3 86.89607 53.5301 0.34 0.73-410.5781 584.3703 y_hat -49.775 147.5497-0.33 0.738-338.798 40.43 y_hat3 4.781787 14.8560 0.3 0.748-4.36854 33.9311 y_hat4 -.1709638.559976-0.31 0.760-1.69743.978158 _cons 844.6711 467.645 0.34 0.73-3997.316 5686.658 4) Testujemy łączną istotność zmiennych y_hat, y_hat3 i y_hat4. Przyjęcie hipotezy zerowej, która oznacza łączną nieistotność tych zmiennych, implikuje poprawność formy funkcyjnej przyjętej przez nas w regresji wyjściowej.. test y_hat y_hat3 y_hat4 ( 1) y_hat = 0 ( ) y_hat3 = 0 ( 3) y_hat4 = 0 F( 3, 1067) = 8.85 Prob > F = 0.0000 Wartość p-value jest równa 0,000, więc odrzucamy hipotezę zerową o poprawności przyjętej przez nas formy funkcyjnej. W Stacie ten test można przeprowadzić o wiele szybciej. Po oszacowaniu modelu, w którym chcemy przetestować poprawność formy funkcyjnej używamy polecenia: 6

. ovtest /*test RESET dla ostatnio przeprowadzonej regresji; w regresji pomocniczej testowana jest łączna nieistotność wartości dopasowanych podniesionych do,3 i 4 potęgi*/ Ramsey RESET test using powers of the fitted values of ln_dochod Ho: model has no omitted variables F(3, 1067) = 8.86 Prob > F = 0.0000 Oczywiście wynik testu ten sam. Czeka nas teraz praca nad poprawą formy funkcyjnej. Zaczynamy od analizy wykresu, gdzie na osi y odłożony jest średni poziom logarytmu dochodu, natomiast na osi x wiek: Średni poziom logarytmu dochodu w zależności od wieku (mean) ln_dochod 5 5.5 6 6.5 7 0 30 40 50 60 70 wiek w latach Być może zamiast wielomianu drugiego stopnia należałoby użyć wielomianu stopnia trzeciego? Sprawdzamy to wprowadzając do modelu zmienną wiek podniesioną do 3 potęgi (zmienna wiek_3):. xi: regress ln_dochod wiek wiek_ wiek_3 plec i.miasto_3 i.wyksztalcenie wlasciciel i.kieruje i.wyksztalcenie _Iwyksztalc_1-3 (naturally coded; _Iwyksztalc_1 omitted) -------------+------------------------------ F( 13, 1069) = 33.03 Model 105.9704 13 8.15155695 Prob > F = 0.0000 Residual 63.808931 1069.4678104 R-squared = 0.866 -------------+------------------------------ Adj R-squared = 0.779 Total 369.77917 108.3417554 Root MSE =.49677 wiek -.0013463.0463843-0.03 0.977 -.09361.0896684 wiek_.00064.00105 0.5 0.605 -.0017403.009886 wiek_3-9.6e-06.00001-0.96 0.336 -.00009.00001 plec -.305467.0309991-9.85 0.000 -.36657 -.446007 _Imiasto_3_.166659.0686009.43 0.015.030453.301605 _Imiasto_3_3.14959.0413165 5.0 0.000.1338885.9603 _Imiasto_3_4.91847.0448086 6.51 0.000.039199.3797656 _Imiasto_3_5.38755.055475 6.99 0.000.786698.496375 _Iwyksztal~.1069331.0509178.10 0.036.00703.06843 _Iwyksztal~3.39998.068177 5.86 0.000.660671.5337785 7

wlasciciel.11703.0393987 3.09 0.00.0443948.1990098 _Ikieruje_.45167.0411309 5.96 0.000.1644607.358736 _Ikieruje_3.387164.056777 6.8 0.000.758095.498634 _cons 5.95888.566786 10.51 0.000 4.846695 7.070961. ovtest Ramsey RESET test using powers of the fitted values of ln_dochod Ho: model has no omitted variables F(3, 1066) = 8.43 Prob > F = 0.0000 Następuje niewielki spadek statystyki testowej w teście RESET, ale w dalszym ciągu odrzucamy hipotezę zerową o poprawności formy funkcyjnej. Ponadto zmienne dotyczące wieku są nieistotne. Nie oznacza to, że wiek nie wpływa na dochód, lecz jest to zapewne konsekwencją współliniowości. Statystyka VIF dla tego modelu poniżej:. vif Variable VIF 1/VIF -------------+---------------------- wiek_ 3973.68 0.0005 wiek_3 1101.94 0.000907 wiek 954.94 0.001047 _Iwyksztal~3.0 0.454539 _Iwyksztal~.05 0.48838 _Imiasto_3_3 1.60 0.65841 _Imiasto_3_4 1.51 0.661886 _Imiasto_3_5 1.36 0.735471 _Imiasto_3_ 1.17 0.8586 _Ikieruje_3 1.14 0.874999 wlasciciel 1.10 0.906867 _Ikieruje_ 1.08 0.9769 plec 1.05 0.949509 -------------+---------------------- Mean VIF 464.99 Analizując powtórnie wykres znajdujący się na stronie 7 można dojść do wniosku, że zależność między logarytmem dochodu a wiekiem jest kwadratowa dla osób powyżej 30 roku życia, natomiast dla osób młodszych logarytm dochodu zachowuje się w sposób losowy. Zależność między wartością oczekiwaną logarytmu dochodu a wiekiem zapisujemy w następujący sposób: δ0 dla wieku < 30 E(ln_ dochodi ) = δ1 + δ wieki + δ3wieki dla wieku 30 Następnie definiujemy zmienną zerojedynkową: 0 dla wieku < 30 d = 1 dla wieku 30 Wówczas postać modelu możemy zapisać jako: E(ln_ dochod ) = β + β d + β dwiek + β dwiek = i 1 3 i 4 i β 1 dla wieku < 30 δ0 = β1 + β + β 3 wieki + β 4 wieki dla wieku 30 δ δ 1 δ3 Pozostaje narzucić ograniczenia na parametry β1,..., β 4, aby zapewnić sobie ciągłość w punkcie 30. Musi zachodzić: 8

β1 = β1 + β + β330 + β430 β = β330 β430 Wstawiamy uzyskane ograniczenie do naszego równania: E( dochod ) = β + ( β 30 β 30 ) d + β dwiek + β dwiek = i 1 3 4 3 i 4 i β β β 1 + 3 d( wieki 30) + 4 d( wieki 30 ) wiek _ 30 i wiek 30i Aby móc oszacować model ze sklejanymi funkcjami liniowymi, musimy zdefiniować nowe zmienne: 0 dla wieku < 30 wiek _ 30 i = d( wieki 30) = wieki 30 dla wieku 30 0 dla wieku < 30 wiek 30 i = d( wieki 30 ) = wieki 30 dla wieku 30 Obliczenia w Stacie:. generate wiek_30 = wiek - 30. replace wiek_30 = 0 if wiek < 30. generate wiek 30 = wiek_ - 900. replace wiek 30 = 0 if wiek < 30. xi: regress ln_dochod wiek_30 wiek 30 plec i.miasto_3 i.wyksztalcenie wlasciciel i.kieruje i.wyksztalcenie _Iwyksztalc_1-3 (naturally coded; _Iwyksztalc_1 omitted) -------------+------------------------------ F( 1, 1070) = 35.38 Model 105.034871 1 8.7590593 Prob > F = 0.0000 Residual 64.7443 1070.474458 R-squared = 0.840 -------------+------------------------------ Adj R-squared = 0.760 Total 369.77917 108.3417554 Root MSE =.4974 wiek_30.065396.0165441 3.95 0.000.039337.0978587 wiek 30 -.0007738.0001947-3.97 0.000 -.0011559 -.0003918 plec -.3049385.0310453-9.8 0.000 -.365855 -.44019 _Imiasto_3_.1706864.068583.49 0.013.0361139.305588 _Imiasto_3_3.164184.0413473 5.3 0.000.135874.975494 _Imiasto_3_4.94684.0448716 6.5 0.000.0441.3805147 _Imiasto_3_5.3868866.0555433 6.97 0.000.779004.495878 _Iwyksztal~.1074761.0509586.11 0.035.0074859.074663 _Iwyksztal~3.406448.0681473 5.96 0.000.7574.539963 wlasciciel.154618.0393845 3.19 0.001.048181.07415 _Ikieruje_.461834.0411845 5.98 0.000.1653717.36995 _Ikieruje_3.3891108.0568177 6.85 0.000.77641.5005975 _cons 6.174065.0563588 109.55 0.000 6.063479 6.8465. ovtest Ramsey RESET test using powers of the fitted values of ln_dochod Ho: model has no omitted variables F(3, 1067) = 8.05 Prob > F = 0.0000 W teście RESET następuje niewielki spadek statystyki testowej. W dalszym ciągu odrzucamy hipotezę zerową o poprawności formy funkcyjnej. W ostatniej regresji p-value dla wykształcenia średniego wynosi 0,035, czyli zmienna ta jest nieistotna na poziomie istotności 0,01. Sprawdzamy co stanie się, jeżeli usuniemy tę zmienną z modelu: 9

. xi: regress ln_dochod wiek_30 wiek 30 plec i.miasto_3 wyzsze wlasciciel i.kieruje -------------+------------------------------ F( 11, 1071) = 38.07 Model 103.93468 11 9.44856983 Prob > F = 0.0000 Residual 65.844903 1071.481198 R-squared = 0.811 -------------+------------------------------ Adj R-squared = 0.737 Total 369.77917 108.3417554 Root MSE =.498 wiek_30.0658735.0165691 3.98 0.000.0333619.098385 wiek 30 -.0007875.0001949-4.04 0.000 -.00117 -.0004051 plec -.304881.031095-9.80 0.000 -.3658956 -.438667 _Imiasto_3_.184953.0683584.71 0.007.050814.3190845 _Imiasto_3_3.34069.0407118 5.71 0.000.1559.31908 _Imiasto_3_4.310333.0441448 7.03 0.000.36131.3968534 _Imiasto_3_5.4070945.0547987 7.43 0.000.995695.5146195 wyzsze.3054166.048643 6.8 0.000.099697.4008635 wlasciciel.10803.039415 3.10 0.00.0447405.1994 _Ikieruje_.56695.0409718 6.5 0.000.1758755.3366635 _Ikieruje_3.3991079.0567107 7.04 0.000.878313.5103846 _cons 6.60135.0389335 160.79 0.000 6.18374 6.33659. ovtest Ramsey RESET test using powers of the fitted values of ln_dochod Ho: model has no omitted variables F(3, 1068) = 7.37 Prob > F = 0.0001 Następuje dalszy spadek statystyki testowej w teście RESET. Następnie wprowadzamy do modelu interakcje między wykształceniem wyższym a zmienną właściciel:. xi: regress ln_dochod wiek_30 wiek 30 plec i.miasto_3 i.wyzsze*i.wlasciciel i.kieruje i.wyzsze _Iwyzsze_0-1 (naturally coded; _Iwyzsze_0 omitted) i.wlasciciel _Iwlascicie_0-1 (naturally coded; _Iwlascicie_0 omitted) i.wyz~e*i.wla~l _IwyzXwla_#_# (coded as above) -------------+------------------------------ F( 1, 1070) = 37.4 Model 109.308956 1 9.10907968 Prob > F = 0.0000 Residual 60.47015 1070.43430108 R-squared = 0.956 -------------+------------------------------ Adj R-squared = 0.877 Total 369.77917 108.3417554 Root MSE =.49339 wiek_30.0670045.016410 4.08 0.000.0348047.099044 wiek 30 -.0008045.0001931-4.17 0.000 -.0011833 -.000457 plec -.987496.030813-9.69 0.000 -.35967 -.3876 _Imiasto_3_.1777147.067713.6 0.009.0448494.31058 _Imiasto_3_3.33136.0403634 5.53 0.000.144113.30514 _Imiasto_3_4.9803.0437938 6.81 0.000.11008.3839636 _Imiasto_3_5.3976354.0543046 7.3 0.000.910798.504191 _Iwyzsze_1.63817.051036 4.44 0.000.16639.364994 _Iwlascici~1.0666464.0407768 1.63 0.10 -.013365.146658 _IwyzXwla_~1.631015.136079 4.70 0.000.369005.883305 10

_Ikieruje_.419141.0406893 5.95 0.000.160743.31754 _Ikieruje_3.3737389.0564196 6.6 0.000.630333.4844446 _cons 6.8131.0388164 161.8 0.000 6.05066 6.357396. ovtest Ramsey RESET test using powers of the fitted values of ln_dochod Ho: model has no omitted variables F(3, 1067) = 3.1 Prob > F = 0.03 Tym razem następuje znaczący spadek statystyki testowej w teście RESET. Na poziomie istotności 0,01 brak podstaw do odrzucenia hipotezy zerowej o prawidłowości przyjętej formy funkcyjnej. Zastanówmy się jeszcze jak interpretować parametry w modelu z interakcjami. Interesują nas tylko zmienna dotycząca wykształcenia wyższego i tego czy osoba ma własną firmę (przy pozostałych zmiennych interpretacja standardowa): E(ln_ dochod) = β0 + β1wyzszei + βwlascicieli + β3wyzsze wlascicieli = β - osoby z wykształceniem podstawowym lub średnim, które nie mają własnej firmy; 0 β + β - osoby z wykształceniem podstawowym lub średnim, które mają własnej firmy; 0 β + β - osoby z wykształceniem wyższym, które nie mają własnej firmy; 0 1 β0 + β1 + β3 - osoby z wykształceniem wyższym, które mają własne firmy. Proszę zwrócić uwagę, iż zmienna właściciel jest nieistotna (p-value = 0,10). Oznacza to, że nie ma istotnych statystycznie różnic w poziomie dochodu pomiędzy osobami z wykształceniem podstawowym lub średnim, które nie mają własnej firmy a tymi którzy mają. W związku z tym definiujemy nową zmienną wykszt_wlasciciel: 0 - wykształcenie podstawowe lub średnie; 1 - wykształcenie wyższe, nie ma własnej firmy; - wykształcenie wyższe, ma własną firmę; Wprowadzamy tę zmienną do modelu:. xi: regress ln_dochod wiek_30 wiek 30 plec i.miasto_3 i.wykszt_wlasciel i.kieruje i.wykszt_wlas~l _Iwykszt_wl_0- (naturally coded; _Iwykszt_wl_0 omitted) -------------+------------------------------ F( 11, 1071) = 40.5 Model 108.658676 11 9.87806145 Prob > F = 0.0000 Residual 61.10496 1071.43809987 R-squared = 0.938 -------------+------------------------------ Adj R-squared = 0.866 Total 369.77917 108.3417554 Root MSE =.49377 wiek_30.068198.0164067 4.16 0.000.036005.100391 wiek 30 -.0008155.0001931-4. 0.000 -.0011943 -.0004366 plec -.305019.0306055-9.97 0.000 -.365075 -.449654 _Imiasto_3_.1651704.067391.45 0.014.0330585.978 _Imiasto_3_3.107138.0396513 5.31 0.000.139108.885169 _Imiasto_3_4.844958.043037 6.61 0.000.000493.36894 _Imiasto_3_5.384749.0537689 7.16 0.000.7905.49093 _Iwykszt_w~1.156764.050641 4.6 0.000.1163097.315043 _Iwykszt_w~.9014834.114003 7.43 0.000.66374 1.139693 _Ikieruje_.453313.040667 6.03 0.000.1655348.35177 _Ikieruje_3.374897.0564584 6.60 0.000.617079.483714 _cons 6.303345.0364103 173.1 0.000 6.31901 6.374788 11

. ovtest Ramsey RESET test using powers of the fitted values of ln_dochod Ho: model has no omitted variables F(3, 1068) =.3 Prob > F = 0.0737 Na poziomie istotności 0,05 brak podstaw do odrzucenia hipotezy zerowej o poprawności formy funkcyjnej. Ponadto poszczególne zmienne są istotne w regresji. W następnym kroku wprowadzamy do modelu interakcje między płcią a zmienną kieruje:. xi: regress ln_dochod wiek_30 wiek 30 i.miasto_3 i.wykszt_wlasciel i.plec*i.kieruje i.wykszt_wlas~l _Iwykszt_wl_0- (naturally coded; _Iwykszt_wl_0 omitted) i.plec _Iplec_0-1 (naturally coded; _Iplec_0 omitted) i.plec*i.kier~e _IpleXkie_#_# (coded as above) -------------+------------------------------ F( 13, 1069) = 34.80 Model 109.966196 13 8.45893814 Prob > F = 0.0000 Residual 59.81976 1069.43043008 R-squared = 0.974 -------------+------------------------------ Adj R-squared = 0.888 Total 369.77917 108.3417554 Root MSE =.4999 wiek_30.0670776.0163958 4.09 0.000.0349059.09949 wiek 30 -.00080.000193-4.16 0.000 -.0011807 -.000434 _Imiasto_3_.16155.067394.41 0.016.030189.94091 _Imiasto_3_3.0950.039597 5.9 0.000.1318136.871903 _Imiasto_3_4.846053.04305 6.61 0.000.00183.369084 _Imiasto_3_5.3838871.053754 7.15 0.000.784678.4893064 _Iwykszt_w~1.065.050731 4.07 0.000.1069764.3060636 _Iwykszt_w~.8585771.1673 7.00 0.000.6178698 1.09984 _Iplec_1 -.73797.0353478-7.75 0.000 -.3431516 -.044338 _Ikieruje_.776779.0557085 4.98 0.000.1683675.3869883 _Ikieruje_3.4699367.0704555 6.67 0.000.33169.6081834 _IpleXkie_~ -.060783.08016-0.76 0.448 -.179978.0964331 _IpleXkie_~3 -.59349.113788 -.8 0.03 -.4865 -.0360755 _cons 6.89637.0374575 167.91 0.000 6.16138 6.363135. ovtest Ramsey RESET test using powers of the fitted values of ln_dochod Ho: model has no omitted variables F(3, 1066) = 1.58 Prob > F = 0.1914 P-value w teście RESET wynosi 0,1914. Oczywiście brak podstaw do odrzucenia hipotezy zerowej zakładającej poprawność formy funkcyjnej. Pozostaje usunąć nieistotną interakcje między płcią a zmienną kieruje. Tworzymy nową zmienną kier_3_plec: 1 dla kobiet, które kierują kierownikami, 0 w pozostałych przypadkach. Ponownie szacujemy regresję:. xi: regress ln_dochod wiek_30 wiek 30 i.miasto_3 i.wykszt_wlasciel plec i.kieruje kier_3_plec i.wykszt_wlas~l _Iwykszt_wl_0- (naturally coded; _Iwykszt_wl_0 omitted) -------------+------------------------------ F( 1, 1070) = 37.67 1

Model 109.8635 1 9.1519374 Prob > F = 0.0000 Residual 59.95847 1070.4946586 R-squared = 0.970 -------------+------------------------------ Adj R-squared = 0.891 Total 369.77917 108.3417554 Root MSE =.499 wiek_30.0668354.0163895 4.08 0.000.0346763.0989945 wiek 30 -.000799.000199-4.14 0.000 -.0011776 -.000407 _Imiasto_3_.1619686.06756.41 0.016.0300596.938776 _Imiasto_3_3.09766.0395834 5.30 0.000.13097.87435 _Imiasto_3_4.83049.04966 6.59 0.000.1987177.367331 _Imiasto_3_5.3849.0536833 7.1 0.000.771557.487887 _Iwykszt_w~1.084095.0506598 4.11 0.000.1090057.307813 _Iwykszt_w~.865967.1656 7.08 0.000.660191 1.105834 plec -.854461.031891-8.97 0.000 -.3479006 -.9917 _Ikieruje_.48767.040654 6.1 0.000.169057.384816 _Ikieruje_3.46836.0698149 6.63 0.000.358339.5998133 kier_3_plec -.46789.11543 -.19 0.09 -.4675593 -.058985 _cons 6.95997.0365 17.49 0.000 6.4377 6.367616. ovtest Ramsey RESET test using powers of the fitted values of ln_dochod Ho: model has no omitted variables F(3, 1067) = 1.70 Prob > F = 0.1653 Wszystkie zmienne są istotne w regresji oraz przyjmujemy hipotezę zerową o poprawności przyjętej formy funkcyjnej. Zastanówmy się jak zinterpretować parametry przy zmiennej płeć i kieruje. E( dochod) = β + β plec + β kieruje _ + β kieruje _ 3 + β plec kieruje _ 3 = 0 0 1 i i 3 i 4 i β - mężczyźni, którzy nie zajmują stanowiska kierowniczego; β + β - kobiety, które nie zajmują stanowiska kierowniczego; 0 1 β + β - mężczyźni, którzy kierują nie kierownikami; 0 β + β + β - kobiety, które kierują nie kierownikami; 0 1 β + β - mężczyźni, którzy kierują kierownikami; 0 3 β0 + β1 + β3 + β4 - kobiety, które kierują kierownikami. Przykładowa interpretacja: Kobiety, które nie zajmują stanowiska kierowniczego w porównaniu z mężczyznami, którzy także nie zajmują stanowiska kierowniczego zarabiają o 8,55% mniej ( β 1*100%). Mężczyźni, którzy kierują nie kierownikami zarabiają o 4,88% więcej niż mężczyźni, którzy nie zajmują stanowiska kierowniczego ( β *100%). Mężczyźni, którzy kierują kierownikami zarabiają o 46,8% więcej niż mężczyźni, którzy nie zajmują stanowiska kierowniczego ( β 3 *100%). Kobiety, które kierują kierownikami zarabiają o 53,1% mniej niż mężczyźni, którzy kierują kierownikami (( β1 + β4 )*100%). Obserwacje nietypowe Przyjrzymy się obserwacją o dużych standaryzowanych resztach (większych co do wartości K 13 bezwzględnej od ) i dźwigni (większej od N = 1083 0, 016066 ).. predict reszty_st, rstandard /*standaryzowane reszty*/. predict dzwignia, leverage /*Dźwignia (zamiast "leverage" można użyć "hat" */. predict cook_dist, cooksd /*odległość Cooka*/ 13

list dochod plec wiek wlasciciel miasto kieruje wyksztalcenie dzwignia reszty_st cook_dist if dzwignia > *e(df_m)/e(n) & abs(reszty_st)>; 1. dochod plec wiek wlasci~l miasto 50 kobieta 37 nie miasto od 50tyś do 100tyś ------------------------------------------------------------------------- kieruje wyksztal~e dzwignia reszty_st cook_d~t kieruje kierownikami średnie.033569-5.40168.077859 4. dochod plec wiek wlasci~l miasto 170 mężczyzna nie miasto do 10tyś ------------------------------------------------------------------------- kieruje wyksztal~e dzwignia reszty_st cook_d~t kieruje kierownikami średnie.034953-3.686431.0378614 16. dochod plec wiek wlasci~l miasto 500 mężczyzna 5 tak wieś ------------------------------------------------------------------------- kieruje wyksztal~e dzwignia reszty_st cook_d~t kieruje nie kierownikami wyższe.067335 -.51697.0350568 18. dochod plec wiek wlasci~l miasto 100 kobieta 65 tak wieś ------------------------------------------------------------------------- kieruje wyksztal~e dzwignia reszty_st cook_d~t nie kieruje podstawowe.0436414 -.55984.017865 6. dochod plec wiek wlasci~l miasto 50 kobieta 45 nie miasto do 10tyś ------------------------------------------------------------------------- kieruje wyksztal~e dzwignia reszty_st cook_d~t kieruje nie kierownikami średnie.04564 -.058784.00749 1075. dochod plec wiek wlasci~l miasto 000 kobieta 46 nie wieś ------------------------------------------------------------------------- kieruje wyksztal~e dzwignia reszty_st cook_d~t kieruje kierownikami średnie.03688.638439.001637 1079. dochod plec wiek wlasci~l miasto 4500 mężczyzna 7 tak miasto od 100tyś do 50tyś ------------------------------------------------------------------------- kieruje wyksztal~e dzwignia reszty_st cook_d~t kieruje kierownikami średnie.03498.8161.0145996 Szczególną uwagę należy zwrócić na osoby o bardzo niskich dochodach. Dla pierwszej i czwartej obserwacji dochód wynosi odpowiednio 50 i 170, a osoby te kierują kierownikami. Być może są to obserwacje błędne. Warto dodać, że analizowany zbiór danych dotyczy roku 1997, a płaca minimalna w tamtym okresie była na poziomie 400 złoty. Może to sugerować, że osoby o skrajnie niskich zarobkach nie pracowały na pełnym etacie. Niestety my nie 14

posiadamy na ten temat informacji i przez to nasza regresja nie jest wstanie wytłumaczyć niskich dochodów. Badanie normalności zaburzenia losowego Zaczynamy od oszacowania regresji i wyznaczenia reszt:. xi: regress ln_dochod wiek_30 wiek 30 i.miasto_3 i.wykszt_wlasciel plec i.kieruje i.wykszt_wlas~l _Iwykszt_wl_0- (naturally coded; _Iwykszt_wl_0 omitted) -------------+------------------------------ F( 11, 1071) = 40.5 Model 108.658676 11 9.87806145 Prob > F = 0.0000 Residual 61.10496 1071.43809987 R-squared = 0.938 -------------+------------------------------ Adj R-squared = 0.866 Total 369.77917 108.3417554 Root MSE =.49377 wiek_30.068198.0164067 4.16 0.000.036005.100391 wiek 30 -.0008155.0001931-4. 0.000 -.0011943 -.0004366 _Imiasto_3_.1651704.067391.45 0.014.0330585.978 _Imiasto_3_3.107138.0396513 5.31 0.000.139108.885169 _Imiasto_3_4.844958.043037 6.61 0.000.000493.36894 _Imiasto_3_5.384749.0537689 7.16 0.000.7905.49093 _Iwykszt_w~1.156764.050641 4.6 0.000.1163097.315043 _Iwykszt_w~.9014834.114003 7.43 0.000.66374 1.139693 plec -.305019.0306055-9.97 0.000 -.365075 -.449654 _Ikieruje_.453313.040667 6.03 0.000.1655348.35177 _Ikieruje_3.374897.0564584 6.60 0.000.617079.483714 _cons 6.303345.0364103 173.1 0.000 6.31901 6.374788. predict reszty, residual /*Tworzymy reszty*/ Opis tworzenia wykresu kwantylowego i prawdopodobieństwa e, e,..., e oznaczają statystyki pozycyjne dla rozkładu reszty (czyli są to Niech (1: n) (: n) ( n: n) posortowane w sposób rosnący reszty). Na wykresie kwantylowym na osi y odłożone są reszty, natomiast na osi x kwantyle rozkładu normalnego standardowego. Czyli punkty na tym wykresie mają następujące współrzędne 1 i 1 ( q, e ), gdzie = Φ ( ) ( Φ oznacza funkcję odwrotną do dystrybuanty rozkładu i ( i: n) q i n + 1 normalnego standardowego). Ponadto na wykres jest naniesiona linia prosta jeżeli punkty pokrywają się z tą prostą, to można przyjąć, że reszty pochodzą z rozkładu normalnego. Wykres kwantylowy służy do badania ogonów rozkładów. Na wykresie prawdopodobieństwa na osi y odłożone jest Φ(( e ˆ ˆ ( : ) µ ) / σ ), gdzie ˆµ i ˆ σ to i odpowiednio średnia i odchylenie standardowe reszt. Na osi x odłożone jest p. i = n+ 1 Podobnie jak w przypadku wykresu kwantylowego na wykres nałożona jest prosta, która odpowiada rozkładowi normalnemu. Jeżeli punkty w znaczący sposób odstają od tej prostej, to dane nie pochodzą z rozkładu normalnego. Wykres ten służy do analizy środkowej części rozkładu (bez ogonów). Przeprowadzamy graficzną analizę reszt: - Histogram z nałożoną gęstością rozkładu normalnego (parametry rozkładu to średnia i wariancja z próby). Reszty raczej nie pochodzą z rozkładu normalnego. Wskazuje na to występowanie bardzo dużych wartości oraz asymetria lewostronna rozkładu. i n 15

- Wykres pudełkowy. Tutaj co prawda nie jest widoczna asymetria, ale naszą uwagę zwraca duża liczba obserwacji nietypowych. - Wykres kwantylowy wskazuje, na problem z ogonami reszt. - Na wykresie prawdopodobieństwa widoczna jest asymetria. Analiza Graficzna Reszt Histogram W ykres pudełkowy Density 0..4.6.8 1-4 - 0 4 Residuals Residuals -4-0 4 Residuals -4-0 4 Wykres kwantylow y - -1 0 1 Inverse Normal Normal F[(reszty-m)/s] 0.00 0.5 0.50 0.75 1.00 W ykres prawdopodbieństwa 0.00 0.5 0.50 0.75 1.00 Empirical P[i] = i/(n+1) Bardziej formalne postępowanie test Jarque-Berra (hipoteza zerowa zakłada normalność zaburzenia losowego):. sktest reszty Skewness/Kurtosis tests for Normality ------- joint ------ Variable Pr(Skewness) Pr(Kurtosis) adj chi() Prob>chi -------------+------------------------------------------------------- reszty 0.178 0.000 67.69 0.0000 P-value wynosi 0,000, więc odrzucamy hipotezę zerową o normalności zaburzenia losowego. Jakie są tego konsekwencje? Rozkłady testów t i F zostały wyprowadzone przy założeniu normalności zaburzenia losowego. Można jednak pokazać, że nawet przy braku założenia o normalności błędów losowych rozkłady graniczne statystyk służących do testowania hipotez w KMRL mają już rozkłady t i F. Czyli duża liczebność próby gwarantuje nam, że przeprowadzone wnioskowanie statystyczne jest poprawne. Testowanie heteroscedastyczności Zaczynamy od testu Breuscha-Pagana. Hipoteza zerowa zakłada homoscedastyczność, natomiast hipoteza alternatywna heteroscedastyczność wariancja zaburzenia losowego jest funkcją pewnych zmiennych. Możemy to zapisać w następujący sposób: H : Var( ε ) = σ H : Var( ε ) = σ f ( γ + γ z +... γ z ) 0 i 1 i 0 1 1i l li 16

Zmienne z,..., 1 z l to zmienne, które naszym zdaniem wywołują heteroscedastyczność zaburzenia losowego. Test Breuscha-Pagana służy do testowania heteroscedastyczności w przypadku gdy wiemy jakie zmienne ją wywołują. Procedura testowania (sprawdzimy czy zmienne wiek i płeć wywołują heteroscedastyczność): ei 1) Szacujemy regresję i wyznaczamy reszty. Następnie tworzymy zmienną, wi = gdzie e i ˆ σ to reszty podniesione do kwadratu, a ˆ σ to oszacowanie wariancji zaburzenia losowego.. xi: regress ln_dochod wiek_30 wiek 30 i.miasto_3 i.wykszt_wlasciel plec i.kieruje kier_3_plec i.wykszt_wlas~l _Iwykszt_wl_0- (naturally coded; _Iwykszt_wl_0 omitted) -------------+------------------------------ F( 1, 1070) = 37.67 Model 109.8635 1 9.1519374 Prob > F = 0.0000 Residual 59.95847 1070.4946586 R-squared = 0.970 -------------+------------------------------ Adj R-squared = 0.891 Total 369.77917 108.3417554 Root MSE =.499 wiek_30.0668354.0163895 4.08 0.000.0346763.0989945 wiek 30 -.000799.000199-4.14 0.000 -.0011776 -.000407 _Imiasto_3_.1619686.06756.41 0.016.0300596.938776 _Imiasto_3_3.09766.0395834 5.30 0.000.13097.87435 _Imiasto_3_4.83049.04966 6.59 0.000.1987177.367331 _Imiasto_3_5.3849.0536833 7.1 0.000.771557.487887 _Iwykszt_w~1.084095.0506598 4.11 0.000.1090057.307813 _Iwykszt_w~.865967.1656 7.08 0.000.660191 1.105834 plec -.854461.031891-8.97 0.000 -.3479006 -.9917 _Ikieruje_.48767.040654 6.1 0.000.169057.384816 _Ikieruje_3.46836.0698149 6.63 0.000.358339.5998133 kier_3_plec -.46789.11543 -.19 0.09 -.4675593 -.058985 _cons 6.95997.0365 17.49 0.000 6.4377 6.367616. predict e, residual. generate w = (e/e(rmse))^ ) Estymacja regresji pomocniczej: w = γ + γ plec + γ wiek + η i 0 1 i i Następnie testujemy hipotezę H0 : γ1 = γ = 0 (wiek i płeć nie wywołują heteroscedastyczności zaburzenia losowego) za pomocą statystyki: 1 D LM = ESS χ D lub LM = N R χ (jeżeli nie jest spełnione założenie o normalności zaburzenia losowego). W ogólności rozkładem granicznym dla statystyki testowej jest rozkład chi-kwadrat z liczbą stopni swobody równą liczbie zmiennych umieszczonych w regresji pomocniczej.. regress w wiek plec /*Regresja pomocnicza*/ -------------+------------------------------ F(, 1080) = 0.7 Model 7.11541079 3.5577054 Prob > F = 0.485 Residual 5309.0336 1080 4.9157707 R-squared = 0.0013 -------------+------------------------------ Adj R-squared = -0.0005 17

Total 5316.14777 108 4.9136041 Root MSE =.17 w Coef. Std. Err. t P> t [95% Conf. Interval] wiek.001651.0067118 0.19 0.851 -.0119045.0144347 plec -.1617519.135068-1.0 0.31 -.467778.103739 _cons 1.017746.701748 3.77 0.000.4876184 1.547873. display e(mss)/ /*Statystyka testowa - wersja oryginalna testu Breuscha-Pagana*/ 3.5577054. display chitail(,e(mss)/) /*p-value*/.16883174. display e(n)*e(r) /*Statystyka testowa - wersja odporna na brak normalności zaburzenia losowego*/ 1.449544. display chitail(,e(n)*e(r)) /*p-value*/.4844350 W obu wersjach testu p-value zdecydowanie wyższe od 0,05, więc brak podstaw do odrzucenia hipotezy zerowej zakładającej homoscedastyczność. To samo szybciej (po oszacowanej regresji używamy komendy hettest):. hettest wiek plec /*Oryginalna wersja testu*/ Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: wiek plec chi() = 3.64 Prob > chi = 0.1616. hettest wiek plec, iid /*Poprawka na brak normalności zaburzenia losowego*/ Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: wiek plec chi() = 1.45 Prob > chi = 0.4844. hettest, rhs iid /*W regresji pomocniczej biorą udział wszystkie wyjściowe zmienne*/ Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: wiek_30 wiek 30 _Imiasto_3 Imiasto_3_3 _Imiasto_3_4 _Imiasto_3_5 _Iwykszt_wl_1 _Iwykszt_wl_ plec _Ikieruje Ikieruje_3 kier_3_plec chi(1) = 18.49 Prob > chi = 0.1015 Za każdym razem p-value większe od 0,05, więc brak podstaw do odrzucenia hipotezy zerowej o homoscedastyczności. Test Breuscha-Pagana, w którym w regresji pomocniczej uwzględniamy wszystkie zmienne objaśniające, ich iloczyny oraz kwadraty, nazywamy testem White a. Używamy tego testu jeśli chcemy sprawdzić, czy w modelu występuje heteroscedastyczność, a nie interesuje nas jakie zmienne ją wywołują. W celu przeprowadzenia tego testu, po oszacowaniu regresji używamy komendy imtest, white: 18

. imtest, white /*Test White*/ White's test for Ho: homoskedasticity against Ha: unrestricted heteroskedasticity chi(64) = 69.8 Prob > chi = 0.884 Cameron & Trivedi's decomposition of IM-test --------------------------------------------------- Source chi df p ---------------------+----------------------------- Heteroskedasticity 69.8 64 0.884 Skewness 14.55 1 0.668 Kurtosis 7.00 1 0.008 ---------------------+----------------------------- Total 91.37 77 0.160 --------------------------------------------------- Na wydruku wyniki testu White a zaznaczone na niebiesko brak podstaw do odrzucenia hipotezy zerowej o homoscedastyczności (p-value = 0,884). A co zrobić jeżeli jednak w modelu występuje heteroscedastyczność zaburzenia losowego? Wracamy do modelu, w którym dochód nie został zlogarytmowany. Wyniki regresji oraz testów na heteroscedastyczność poniżej (po drodze testujemy normalność zaburzenia losowego, aby sprawdzić którą wersję statystyki testowej powinniśmy wykorzystać w teście Breuscha-Pagana):. xi: regress ln_dochod wiek wiek_ plec i.miasto_3 i.wyksztalcenie wlasciciel i.kieruje i.wyksztalcenie _Iwyksztalc_1-3 (naturally coded; _Iwyksztalc_1 omitted) -------------+------------------------------ F( 1, 1070) = 35.71 Model 105.74189 1 8.8118419 Prob > F = 0.0000 Residual 64.03781 1070.46763814 R-squared = 0.860 -------------+------------------------------ Adj R-squared = 0.780 Total 369.77917 108.3417554 Root MSE =.49675 wiek.0469.00978 4.3 0.000.030791.0614593 wiek_ -.000587.000146-4.4 0.000 -.0007733 -.00084 plec -.304918.0309936-9.84 0.000 -.3657369 -.441068 _Imiasto_3_.1635086.068506.39 0.017.090587.979585 _Imiasto_3_3.14308.0413098 5.19 0.000.133634.953781 _Imiasto_3_4.90661.0448065 6.5 0.000.041476.3799846 _Imiasto_3_5.3868997.0554695 6.97 0.000.780583.495741 _Iwyksztal~.1054956.050894.07 0.038.00563.053591 _Iwyksztal~3.3953344.0680483 5.81 0.000.618111.588576 wlasciciel.109646.0393898 3.07 0.00.0436745.198546 _Ikieruje_.466866.0410991 6.00 0.000.166046.373306 _Ikieruje_3.3899091.0567059 6.88 0.000.786416.5011765 _cons 5.44453.188151 8.94 0.000 5.075396 5.813668. predict reszty_1, residual. sktest reszty_1 /*Odrzucamy H0 o normalności zaburzenia losowego, należy o tym pamiętać przeprowadzając test Breuscha-Pagana*/ 19

Skewness/Kurtosis tests for Normality ------- joint ------ Variable Pr(Skewness) Pr(Kurtosis) adj chi() Prob>chi -------------+------------------------------------------------------- reszty_1 0.010 0.000 73.47 0.0000. hettest, rhs iid /*Test Breuscha-Pagana, odrzucamy H0 zakładającą homoscedastyczność*/ Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: wiek wiek_ plec _Imiasto_3 Imiasto_3_3 _Imiasto_3_4 _Imiasto_3_5 _Iwyksztalc Iwyksztalc_3 wlasciciel _Ikieruje Ikieruje_3 chi(1) = 74.85 Prob > chi = 0.0000. imtest, white /*Test White - odrzucamy H0 o homoscedastyczności*/ White's test for Ho: homoskedasticity against Ha: unrestricted heteroskedasticity chi(71) = 140.7 Prob > chi = 0.0000 Cameron & Trivedi's decomposition of IM-test --------------------------------------------------- Source chi df p ---------------------+----------------------------- Heteroskedasticity 140.7 71 0.0000 Skewness 9.43 1 0.6658 Kurtosis 6.91 1 0.0086 ---------------------+----------------------------- Total 157.07 84 0.0000 --------------------------------------------------- Tym razem zarówno w teście Breuscha-Pagana jak i teście White a odrzucamy hipotezę zerową zakładającą homoscedastyczność zaburzenia losowego. Jakie są konsekwencje występowania heteroscedastyczności? Estymator b dalej pozostaje nieobciążony, ale jest nieefektywny. Największym problem jest jednak to, że macierz wariancji kowariancji b w przypadku występowania heteroscedastyczności nie jest oszacowana w sposób poprawny (standardowy estymator jest obciążony i nie jest zgodny). Zła postać macierzy wariancjikowariancji może zaburzać wyniki wnioskowania statystycznego. Najprostsze rozwiązanie: zastosowanie "odpornej" macierzy wariancji-kowariancji White a (zgodny estymator). Aby zastosować w procedurze estymacyjnej właśnie ten estymator macierzy wariancjikowariancji, to należy w STACIE użyć opcji robust:. xi: regress ln_dochod wiek wiek_ plec i.miasto_3 i.wyksztalcenie wlasciciel i.kieruje, robust i.wyksztalcenie _Iwyksztalc_1-3 (naturally coded; _Iwyksztalc_1 omitted) Linear regression Number of obs = 1083 F( 1, 1070) = 31. Prob > F = 0.0000 R-squared = 0.860 Root MSE =.49675 Robust wiek.0469.0104837 4.03 0.000.016981.06840 0

wiek_ -.000587.000135-3.9 0.000 -.0007936 -.000639 plec -.304918.030755-9.9 0.000 -.365639 -.445798 _Imiasto_3_.1635086.06977.60 0.010.0399445.87076 _Imiasto_3_3.14308.0408134 5.5 0.000.134375.944041 _Imiasto_3_4.90661.0440889 6.6 0.000.055556.3785766 _Imiasto_3_5.3868997.051445 7.4 0.000.84586.489167 _Iwyksztal~.1054956.05114.06 0.039.0051806.058107 _Iwyksztal~3.3953344.0690479 5.73 0.000.598498.5308189 wlasciciel.109646.0506466.39 0.017.015867.0344 _Ikieruje_.466866.0381953 6.46 0.000.1717405.31637 _Ikieruje_3.3899091.0747898 5.1 0.000.431577.5366604 _cons 5.44453.05175 6.54 0.000 5.041941 5.84713 Testowanie stabilności parametru w różnych próbach (test Chowa) Sprawdzimy, czy oszacowania parametrów są takie same w podpróbach wyodrębnionych za pomocą płci. W hipotezie zerowej zakładamy, że parametry regresji w wyodrębnionych próbkach są takie same. Statystyka testowa: (*) m ( S S ) / ( ( 1) ) j 1 j K m = j= 1 ( ) ( ) F = ~ F K( m 1), N mk, m S / N mk j gdzie S oznacza sumę kwadratów reszt z regresji na całej próbie, S j - suma kwadratów reszt z regresji na j-tej podpróbie, m liczba wyodrębnionych próbek, K- liczba szacowanych parametrów (taka sama we wszystkich regresjach), N liczba obserwacji. Zaczynamy od oszacowania regresji na całej próbie (tym razem nie wprowadzamy do modelu zmiennej płeć!):. xi: regress ln_dochod wiek_30 wiek 30 i.miasto_3 i.wykszt_wlasciel i.kieruje i.wykszt_wlas~l _Iwykszt_wl_0- (naturally coded; _Iwykszt_wl_0 omitted) -------------+------------------------------ F( 10, 107) = 31.7 Model 84.445 10 8.4445 Prob > F = 0.0000 Residual 85.33667 107.661768 R-squared = 0.84 -------------+------------------------------ Adj R-squared = 0.1 Total 369.77917 108.3417554 Root MSE =.5159 wiek_30.0604017.01713 3.53 0.000.06803.0940004 wiek 30 -.0007369.000016-3.66 0.000 -.001134 -.0003413 _Imiasto_3_.1513385.0703341.15 0.03.0133304.893467 _Imiasto_3_3.169931.041085 4.1 0.000.0890647.507816 _Imiasto_3_4.46191.044787 5.50 0.000.158487.3340096 _Imiasto_3_5.3474189.0560444 6.0 0.000.374498.457388 _Iwykszt_w~1.194494.058658 3.68 0.000.0907619.986 _Iwykszt_w~.98473.165449 7.78 0.000.736484 1.33036 _Ikieruje_.64196.044453 6. 0.000.1809108.347481 _Ikieruje_3.4379739.05859 7.48 0.000.330099.55938 _cons 6.19034.0361481 171.5 0.000 6.119305 6.61163. scalar define ee = e(rss) /*Suma kwadratów z regresji na całej próbie*/ Regresja na próbie kobiet:. xi: regress ln_dochod wiek_30 wiek 30 i.miasto_3 i.wykszt_wlasciel i.kieruje if plec 1

i.wykszt_wlas~l _Iwykszt_wl_0- (naturally coded; _Iwykszt_wl_0 omitted) Source SS df MS Number of obs = 54 -------------+------------------------------ F( 10, 513) = 10.61 Model 3.6917383 10.36917383 Prob > F = 0.0000 Residual 114.550895 513.396091 R-squared = 0.1714 -------------+------------------------------ Adj R-squared = 0.155 Total 138.4633 53.643659 Root MSE =.4754 wiek_30.074137.05047 3.30 0.001.0300009.118464 wiek 30 -.0008845.000633-3.36 0.001 -.0014019 -.000367 _Imiasto_3_.087061.097344 0.85 0.396 -.1084973.739095 _Imiasto_3_3.146964.055979.63 0.009.0369857.56939 _Imiasto_3_4.534155.060319 4.0 0.000.134918.371918 _Imiasto_3_5.91301.077893 4.00 0.000.1483183.4343 _Iwykszt_w~1.61715.06455 4.05 0.000.1348936.3885313 _Iwykszt_w~.874005.76889 3.16 0.00.331084 1.41680 _Ikieruje_.195386.056574 3.88 0.000.108399.3306843 _Ikieruje_3.10817.0880474.41 0.016.0391038.3850595 _cons 6.044871.049843 11.8 0.000 5.946951 6.14791. scalar define ee1 = e(rss) /*Suma kwadratów z regresji na próbce zawierającej kobiety*/ Regresja na próbie mężczyzn:. xi: regress ln_dochod wiek_30 wiek 30 i.miasto_3 i.wykszt_wlasciel i.kieruje if!plec i.wykszt_wlas~l _Iwykszt_wl_0- (naturally coded; _Iwykszt_wl_0 omitted) Source SS df MS Number of obs = 559 -------------+------------------------------ F( 10, 548) = 3.3 Model 61.0079776 10 6.10079776 Prob > F = 0.0000 Residual 143.948909 548.668049 R-squared = 0.977 -------------+------------------------------ Adj R-squared = 0.848 Total 04.956887 558.36730649 Root MSE =.515 wiek_30.068189.0418.59 0.010.0154.1103977 wiek 30 -.0007547.000865 -.63 0.009 -.0013176 -.0001919 _Imiasto_3_.38718.0937014.39 0.017.0398139.407998 _Imiasto_3_3.568397.056716 4.53 0.000.145433.36847 _Imiasto_3_4.3043383.060437 4.91 0.000.184657.46109 _Imiasto_3_5.484107.080370 6.0 0.000.36339.64081 _Iwykszt_w~1.148551.08161 1.53 0.17 -.0354558.851661 _Iwykszt_w~.830885.14717 5.84 0.000.551403 1.11035 _Ikieruje_.88461.058844 4.81 0.000.167971.3983951 _Ikieruje_3.487858.07681 6.9 0.000.3319037.6336678 _cons 6.6987.0485633 19.10 0.000 6.173894 6.36468. scalar define ee = e(rss) /*Suma kwadratów z regresji na próbce zawierającej mężczyzn*/ Zgodnie ze wzorem (*) wyznaczamy wartość statystyki testowej a następnie p-value:. /*Statystyka testowa*/. scalar define F = ((ee - ee1 - ee)/(ee1 + ee))*((1081 - *11)/(11*(-1)))

. display F 9.9948176. display Ftail(11,1081,F) /*p-value*/ 1.708e-17 Ponieważ p-value jest bardzo bliskie 0, to odrzucamy hipotezę zerową zakładającą, że parametry regresji w próbie kobiet i mężczyzn są takie same. Powinniśmy więc oszacować dwie regresje, osobno dla kobiet i mężczyzn. Testowanie autokorelacji Testów na autokorelację w próbach przekrojowych nie przeprowadzamy. W celu omówienia testów na autokorelację posłużymy się zbiorem autokorelacja.dta. Dane te pochodzą z podręcznika Econometric Analysis W. H. Greene (pełny opis zmiennych w wydaniu piątym znajduje się na stronie 947). Są to dane roczne za okres 1960-1995 dotyczące rynku paliwowego w Stanach Zjednoczonych. Poniżej opis tych zmiennych, które wykorzystamy w regresji: G konsumpcja benzyny wyrażona jako całkowite wydatki podzielone przez indeks cen; Pg indeks cen benzyny; Y PKB; Year rok. Na wstępie należy zdefiniować zmienną, która oznacza czas (komenda tsset):. tsset year /*zdefiniowanie zmiennej mierzącej przebieg czasu*/ time variable: year, 1960 to 1995 delta: 1 unit Szacujemy regresję zmiennej G na Pg i Y oraz wyznaczamy wartość statystyki Durbina Watsona (hipoteza zerowa: brak autokorelacji; hipoteza alternatywna: autokorelacja rzędu pierwszego):. regress g pg y Source SS df MS Number of obs = 36 -------------+------------------------------ F(, 33) = 987.1 Model 88110.8184 44055.409 Prob > F = 0.0000 Residual 147.79845 33 44.63056 R-squared = 0.9836 -------------+------------------------------ Adj R-squared = 0.986 Total 89583.6168 35 559.53191 Root MSE = 6.6806 g Coef. Std. Err. t P> t [95% Conf. Interval] pg -15.135 1.880337-8.04 0.000-18.9479-11.9677 y.036904.0013176 8.0 0.000.034397.039601 _cons -79.7535 8.67551-9.0 0.000-97.39794-6.10906. dwstat /*statystyka Durbina - Watsona*/ Durbin-Watson d-statistic( 3, 36) =.474979 Musimy odczytać wartości krytyczne z tablic DW dla 3 szacowanych parametrów oraz 36 obserwacji. Poniżej znajdują się odpowiednie tablice: 3

Wartości krytyczne wynoszą: d L = 1,35 i d U = 1,59. Ponieważ DW = 0,474979 <, proces testowania przebiega w następujący sposób: Dodatnia Brak autokorelacja Brak konkluzji autokorelacji d = 1,35 d = 1,59 L Ponieważ DW = 0,474979 < 1,41 = d L, to odrzucamy hipotezę zerową o braku autokorelacji i przyjmujemy o dodatniej autokorelacji. Na koniec omówimy test Breuscha-Godfreya, który służy do testowania autokorelacji wyższych rzędów. Hipoteza zerowa zakłada brak autokorelacji, natomiast alternatywna korelację rzędu s (można testować dowolny rząd autokorelacji). Omówimy sposób testowania autokorelacji rzędu czwartego. 1) Szacujemy regresję i wyznaczamy z niej reszty:. regress g pg y Source SS df MS Number of obs = 36 -------------+------------------------------ F(, 33) = 987.1 Model 88110.8184 44055.409 Prob > F = 0.0000 Residual 147.79845 33 44.63056 R-squared = 0.9836 -------------+------------------------------ Adj R-squared = 0.986 Total 89583.6168 35 559.53191 Root MSE = 6.6806 U 4