1. Obserwacje nietypowe

Transkrypt

1 1. Obserwacje nietypowe Przeanalizujemy następujący eksperyment: 1) Generujemy zmienną x z rozkładu N (,1) (37 obserwacji). ) Generujemy zmienną y w następujący sposób: y = 1+ x + ε, gdzie ε ~ N(0,1). 3) Dodajemy do zbioru danych 3 obserwacje: 4) Przeprowadzamy regresję na próbie zawierającej pierwszych 37 obserwacji a następnie 3 regresje, w których dodatkowo uwzględniamy po jednej z obserwacji o numerach 38, 39, 40. 5) Za pomocą wykresów (wykresy poniżej) sprawdzamy jak dodanie poszczególnych obserwacji wpłynęło na oszacowania parametrów regresji. Na poniższych wykresach liczby to numery obserwacji. Obserwacja 38 nie jest nie typowa ze względu na zmienną x (dla niej x =, a pierwszych 37 obserwacji zostało wygenerowanych z rozkładu normalnego o średniej równej ). Na wykresie widać, iż dodanie tej obserwacji do próby nie powoduje znacznych zmian w oszacowanych parametrach (jest to obserwacja o stosunkowo dużej reszcie, ale nie jest nietypowa ze względu na x). Dodanie obserwacji 40 również nie ma znaczącego wpływu na wyniki oszacowań (wykres 3). Obserwacja ta jest co prawda nietypowa ze względu na zmienną x, ale pasuje do linii regresji (czyli reszta dla niej jest mała). Znaczący wpływ na oszacowania ma dodanie obserwacji o numerze 39, która jest nietypowa ze względu na x oraz nie pasuje do linii regresji (otrzymujemy duże reszty). y Wykres x Wykres x 0 y obserwcje 1-37 obserwacje Wykres Wykres x x y obserwcje 1-37 obserwacje 1-37 i 39 y obserwcje 1-37 obserwacje 1-37 i 40 1

2 Przyjrzyjmy się jeszcze dźwigni, standaryzowanym resztą oraz odległości Cooka policzonym dla obserwacji 38, 39 i 40 w regresji na całej próbie (tzn. obserwacje 1-40): reszty reszty_st dzwignia cook_dist Dla obserwacji 39 otrzymaliśmy duże wartości standaryzowanych reszt, dźwigni oraz odległości Cooka. Jest to obserwacja nietypowa, która nie pasuje do prostej regresji.. Współliniowość W analizie problemu współliniowości posłużymy się zbiorem danych zawierającym następujące zmienne: wiek - wiek w latach; waga - waga w kilogramach; bieg - czas biegu 1500m (zmienna zależna); puls_bieg - puls w trakcie biegu; puls_max - maksymalny puls w trakcie biegu. Zaczynamy od analizy zmiennych na wykresie. Na uwagę zasługuje silna zależność między zmiennymi puls_bieg i puls_max. Można spodziewać się, że umieszczenie obu tych zmiennych w modelu w charakterze regresorów może wywołać problem współliniowości bieg puls_bieg puls_max wiek waga Na potwierdzenie silnej zależności, poniżej macierz korelacji dla zmiennych (korelacje istotne na poziomie istotności 0,05 są oznaczone przez *): bieg puls_b~g puls_max wiek waga bieg puls_bieg

3 puls_max * wiek * waga Przeprowadzamy regresję: Source SS df MS Number of obs = F( 4, 6) = 1.93 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = bieg Coef. Std. Err. t P> t [95% Conf. Interval] puls_bieg puls_max wiek waga _cons Za równo puls_bieg jak i puls_max są nieistotne na poziomie istotności 0,05. Przeprowadzamy test na łączną nieistotność tych zmiennych:. test puls_bieg puls_max ( 1) puls_bieg = 0 ( ) puls_max = 0 F(, 6) =.63 Prob > F = Obie zmienne okazują się być łącznie istotne na poziomie istotności 0,1. Co jest przyczyną sytuacji, w której poszczególne zmienne są nieistotne, natomiast są łącznie istotne? Oczywiście jest to konsekwencja silnej korelacji między tymi zmiennymi. Poniżej statystyka VIF policzona dla tej regresji:. estat vif /*Wyliczany jest VIF dla ostatnio przeprowadzonej regresji*/ Variable VIF 1/VIF puls_max puls_bieg wiek waga Mean VIF 4.70 Naszą uwagę zwracają duże wartości VIF dla zmiennych puls_bieg i puls_max. Rozwiązaniem problemu współliniowości jest usunięcie zmiennej, dla której wartość VIF jest największa. Poniżej oszacowania regresji, w której nie uwzględniamy zmiennej puls_max:. regress bieg puls_bieg wiek waga /*Regresja bez zmiennej puls_max*/ Source SS df MS Number of obs = F( 3, 7) =.5 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = 1.98 bieg Coef. Std. Err. t P> t [95% Conf. Interval] puls_bieg wiek waga _cons

4 . estat vif Variable VIF 1/VIF wiek puls_bieg waga Mean VIF 1.13 Wartości statystyki VIF (są bliskie jedności) wskazują, iż w tej regresji nie występuje już problem współliniowości. Proszę również zwrócić uwagę na fakt, iż zmienna puls_bieg tym razem jest istotna na poziomie 0,05. Na koniec porównamy trzy następujące regresje: model_1 - regresja ze zmiennymi puls_bieg i puls_max (regresja ze współliniowością); model_ - regresja bez zmiennej puls_max; model_3 - regresja bez zmiennych puls_bieg i puls_max.. estimates table model_1 model_ model_3, stat(r r_a F) b(%4.3f) se(%4.3f) p(%4.3f) Variable model_1 model_ model_ puls_bieg puls_max wiek waga _cons r r_a F legend: b/se/p Opis tabeli: - dla każdej zmiennej wyświetlane są: oszacowanie parametru, błąd standardowy oraz p-value; - r współczynnik R ; - r_a skorygowany współczynnik R ; - F statystyka testowa w teście na łączną istotność regresji. Usunięcie zmiennej puls_max (a tym samy rozwiązanie problemu współliniowości) nie wpływa w istotny sposób na dopasowanie regresji do danych (nawet następuje wzrost statystyki F oraz skorygowanego R ). Ponadto zmienna puls_bieg jest już istotna na poziomie istotności 0,05. Jeżeli dodatkowo usuniemy zmienną puls_bieg, to dopasowanie drastycznie spada (statystka F, R i skorygowany R ). 3. Diagnostyka Wracamy do regresji, na której skończyliśmy ostatnie zajęcia. Przypomnienie co oznaczają zmienne:. label list pl miasto_3 wyksztalcenie właściciel kieruje 4

5 pl: 0 mężczyzna 1 kobieta miasto_3: 1 wies miasto do 10 tyś. 3 miasto do 10 tyś. do 100 tyś. 4 miasto od 100 tyś. do 500 tyś. 5 miasta powyżej 500 tyś. wyksztalcenie: 1 podstawowe średnie 3 wyższe właściciel: 0 nie 1 tak kieruje: 1 nie kieruje kieruje nie kierownikami 3 kieruje kierownikami Testowanie prawidłowości formy funkcyjnej (test RESET) Test RESET służy do testowania prawidłowości wybranej przez nas formy funkcyjnej. Hipoteza zerowa zakłada, że liniowa forma funkcyjna modelu jest prawidłowa. Natomiast w hipotezie alternatywnej zakładamy, że forma funkcyjna jest nieliniowa (ale nie precyzujemy jaka). Sposób przeprowadzenia testu: 1) Szacujemy regresję i wyznaczamy wartości dopasowane.. xi: regress ln_dochod wiek wiek_ plec i.miasto_3 i.wyksztalcenie wlasciciel i.kieruje i.wyksztalcenie _Iwyksztalc_1-3 (naturally coded; _Iwyksztalc_1 omitted) F( 1, 1070) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = wiek wiek_ plec _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Iwyksztal~ _Iwyksztal~ wlasciciel _Ikieruje_ _Ikieruje_ _cons predict y_hat /*Wartości dopasowane*/ (option xb assumed; fitted values) ) Tworzymy trzy nowe zmienne: wartości dopasowane podniesione do kwadratu, trzecie i czwartej potęgi. Zmienne te wykorzystamy za chwilę w regresji 5

6 pomocniczej (można podnosić wartości dopasowane do wyższych potęg, ale my postępujemy tak jak jest w standardowym teście przeprowadzanym przez STATĘ).. generate y_hat = y_hat^ /*Wartości dopasowane podniesione do kwadratu*/. generate y_hat3 = y_hat^3 /*Wartości dopasowane podniesione do trzeciej potęgi*/. generate y_hat4 = y_hat^4 /*Wartości dopasowane podniesione do czwartej potęgi*/ 3) Szacujemy regresję pomocniczą: zmienna zależna ta sama co w regresji wyjściowej, do zbioru zmiennych objaśniających dołączamy zmienne powstałe w kroku.. xi: regress ln_dochod wiek wiek_ plec i.miasto_3 i.wyksztalcenie wlasciciel i.kieruje y_hat? i.wyksztalcenie _Iwyksztalc_1-3 (naturally coded; _Iwyksztalc_1 omitted) F( 15, 1067) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = wiek wiek_ plec _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Iwyksztal~ _Iwyksztal~ wlasciciel _Ikieruje_ _Ikieruje_ y_hat y_hat y_hat _cons ) Testujemy łączną istotność zmiennych y_hat, y_hat3 i y_hat4. Przyjęcie hipotezy zerowej, która oznacza łączną nieistotność tych zmiennych, implikuje poprawność formy funkcyjnej przyjętej przez nas w regresji wyjściowej.. test y_hat y_hat3 y_hat4 ( 1) y_hat = 0 ( ) y_hat3 = 0 ( 3) y_hat4 = 0 F( 3, 1067) = 8.85 Prob > F = Wartość p-value jest równa 0,000, więc odrzucamy hipotezę zerową o poprawności przyjętej przez nas formy funkcyjnej. W Stacie ten test można przeprowadzić o wiele szybciej. Po oszacowaniu modelu, w którym chcemy przetestować poprawność formy funkcyjnej używamy polecenia: 6

7 . ovtest /*test RESET dla ostatnio przeprowadzonej regresji; w regresji pomocniczej testowana jest łączna nieistotność wartości dopasowanych podniesionych do,3 i 4 potęgi*/ Ramsey RESET test using powers of the fitted values of ln_dochod Ho: model has no omitted variables F(3, 1067) = 8.86 Prob > F = Oczywiście wynik testu ten sam. Czeka nas teraz praca nad poprawą formy funkcyjnej. Zaczynamy od analizy wykresu, gdzie na osi y odłożony jest średni poziom logarytmu dochodu, natomiast na osi x wiek: Średni poziom logarytmu dochodu w zależności od wieku (mean) ln_dochod wiek w latach Być może zamiast wielomianu drugiego stopnia należałoby użyć wielomianu stopnia trzeciego? Sprawdzamy to wprowadzając do modelu zmienną wiek podniesioną do 3 potęgi (zmienna wiek_3):. xi: regress ln_dochod wiek wiek_ wiek_3 plec i.miasto_3 i.wyksztalcenie wlasciciel i.kieruje i.wyksztalcenie _Iwyksztalc_1-3 (naturally coded; _Iwyksztalc_1 omitted) F( 13, 1069) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = wiek wiek_ wiek_3-9.6e plec _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Iwyksztal~ _Iwyksztal~

8 wlasciciel _Ikieruje_ _Ikieruje_ _cons ovtest Ramsey RESET test using powers of the fitted values of ln_dochod Ho: model has no omitted variables F(3, 1066) = 8.43 Prob > F = Następuje niewielki spadek statystyki testowej w teście RESET, ale w dalszym ciągu odrzucamy hipotezę zerową o poprawności formy funkcyjnej. Ponadto zmienne dotyczące wieku są nieistotne. Nie oznacza to, że wiek nie wpływa na dochód, lecz jest to zapewne konsekwencją współliniowości. Statystyka VIF dla tego modelu poniżej:. vif Variable VIF 1/VIF wiek_ wiek_ wiek _Iwyksztal~ _Iwyksztal~ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Ikieruje_ wlasciciel _Ikieruje_ plec Mean VIF Analizując powtórnie wykres znajdujący się na stronie 7 można dojść do wniosku, że zależność między logarytmem dochodu a wiekiem jest kwadratowa dla osób powyżej 30 roku życia, natomiast dla osób młodszych logarytm dochodu zachowuje się w sposób losowy. Zależność między wartością oczekiwaną logarytmu dochodu a wiekiem zapisujemy w następujący sposób: δ0 dla wieku < 30 E(ln_ dochodi ) = δ1 + δ wieki + δ3wieki dla wieku 30 Następnie definiujemy zmienną zerojedynkową: 0 dla wieku < 30 d = 1 dla wieku 30 Wówczas postać modelu możemy zapisać jako: E(ln_ dochod ) = β + β d + β dwiek + β dwiek = i 1 3 i 4 i β 1 dla wieku < 30 δ0 = β1 + β + β 3 wieki + β 4 wieki dla wieku 30 δ δ 1 δ3 Pozostaje narzucić ograniczenia na parametry β1,..., β 4, aby zapewnić sobie ciągłość w punkcie 30. Musi zachodzić: 8

9 β1 = β1 + β + β330 + β430 β = β330 β430 Wstawiamy uzyskane ograniczenie do naszego równania: E( dochod ) = β + ( β 30 β 30 ) d + β dwiek + β dwiek = i i 4 i β β β d( wieki 30) + 4 d( wieki 30 ) wiek _ 30 i wiek 30i Aby móc oszacować model ze sklejanymi funkcjami liniowymi, musimy zdefiniować nowe zmienne: 0 dla wieku < 30 wiek _ 30 i = d( wieki 30) = wieki 30 dla wieku 30 0 dla wieku < 30 wiek 30 i = d( wieki 30 ) = wieki 30 dla wieku 30 Obliczenia w Stacie:. generate wiek_30 = wiek replace wiek_30 = 0 if wiek < 30. generate wiek 30 = wiek_ replace wiek 30 = 0 if wiek < 30. xi: regress ln_dochod wiek_30 wiek 30 plec i.miasto_3 i.wyksztalcenie wlasciciel i.kieruje i.wyksztalcenie _Iwyksztalc_1-3 (naturally coded; _Iwyksztalc_1 omitted) F( 1, 1070) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE =.4974 wiek_ wiek plec _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Iwyksztal~ _Iwyksztal~ wlasciciel _Ikieruje_ _Ikieruje_ _cons ovtest Ramsey RESET test using powers of the fitted values of ln_dochod Ho: model has no omitted variables F(3, 1067) = 8.05 Prob > F = W teście RESET następuje niewielki spadek statystyki testowej. W dalszym ciągu odrzucamy hipotezę zerową o poprawności formy funkcyjnej. W ostatniej regresji p-value dla wykształcenia średniego wynosi 0,035, czyli zmienna ta jest nieistotna na poziomie istotności 0,01. Sprawdzamy co stanie się, jeżeli usuniemy tę zmienną z modelu: 9

10 . xi: regress ln_dochod wiek_30 wiek 30 plec i.miasto_3 wyzsze wlasciciel i.kieruje F( 11, 1071) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE =.498 wiek_ wiek plec _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ wyzsze wlasciciel _Ikieruje_ _Ikieruje_ _cons ovtest Ramsey RESET test using powers of the fitted values of ln_dochod Ho: model has no omitted variables F(3, 1068) = 7.37 Prob > F = Następuje dalszy spadek statystyki testowej w teście RESET. Następnie wprowadzamy do modelu interakcje między wykształceniem wyższym a zmienną właściciel:. xi: regress ln_dochod wiek_30 wiek 30 plec i.miasto_3 i.wyzsze*i.wlasciciel i.kieruje i.wyzsze _Iwyzsze_0-1 (naturally coded; _Iwyzsze_0 omitted) i.wlasciciel _Iwlascicie_0-1 (naturally coded; _Iwlascicie_0 omitted) i.wyz~e*i.wla~l _IwyzXwla_#_# (coded as above) F( 1, 1070) = 37.4 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = wiek_ wiek plec _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Iwyzsze_ _Iwlascici~ _IwyzXwla_~

11 _Ikieruje_ _Ikieruje_ _cons ovtest Ramsey RESET test using powers of the fitted values of ln_dochod Ho: model has no omitted variables F(3, 1067) = 3.1 Prob > F = 0.03 Tym razem następuje znaczący spadek statystyki testowej w teście RESET. Na poziomie istotności 0,01 brak podstaw do odrzucenia hipotezy zerowej o prawidłowości przyjętej formy funkcyjnej. Zastanówmy się jeszcze jak interpretować parametry w modelu z interakcjami. Interesują nas tylko zmienna dotycząca wykształcenia wyższego i tego czy osoba ma własną firmę (przy pozostałych zmiennych interpretacja standardowa): E(ln_ dochod) = β0 + β1wyzszei + βwlascicieli + β3wyzsze wlascicieli = β - osoby z wykształceniem podstawowym lub średnim, które nie mają własnej firmy; 0 β + β - osoby z wykształceniem podstawowym lub średnim, które mają własnej firmy; 0 β + β - osoby z wykształceniem wyższym, które nie mają własnej firmy; 0 1 β0 + β1 + β3 - osoby z wykształceniem wyższym, które mają własne firmy. Proszę zwrócić uwagę, iż zmienna właściciel jest nieistotna (p-value = 0,10). Oznacza to, że nie ma istotnych statystycznie różnic w poziomie dochodu pomiędzy osobami z wykształceniem podstawowym lub średnim, które nie mają własnej firmy a tymi którzy mają. W związku z tym definiujemy nową zmienną wykszt_wlasciciel: 0 - wykształcenie podstawowe lub średnie; 1 - wykształcenie wyższe, nie ma własnej firmy; - wykształcenie wyższe, ma własną firmę; Wprowadzamy tę zmienną do modelu:. xi: regress ln_dochod wiek_30 wiek 30 plec i.miasto_3 i.wykszt_wlasciel i.kieruje i.wykszt_wlas~l _Iwykszt_wl_0- (naturally coded; _Iwykszt_wl_0 omitted) F( 11, 1071) = 40.5 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = wiek_ wiek plec _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Iwykszt_w~ _Iwykszt_w~ _Ikieruje_ _Ikieruje_ _cons

12 . ovtest Ramsey RESET test using powers of the fitted values of ln_dochod Ho: model has no omitted variables F(3, 1068) =.3 Prob > F = Na poziomie istotności 0,05 brak podstaw do odrzucenia hipotezy zerowej o poprawności formy funkcyjnej. Ponadto poszczególne zmienne są istotne w regresji. W następnym kroku wprowadzamy do modelu interakcje między płcią a zmienną kieruje:. xi: regress ln_dochod wiek_30 wiek 30 i.miasto_3 i.wykszt_wlasciel i.plec*i.kieruje i.wykszt_wlas~l _Iwykszt_wl_0- (naturally coded; _Iwykszt_wl_0 omitted) i.plec _Iplec_0-1 (naturally coded; _Iplec_0 omitted) i.plec*i.kier~e _IpleXkie_#_# (coded as above) F( 13, 1069) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE =.4999 wiek_ wiek _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Iwykszt_w~ _Iwykszt_w~ _Iplec_ _Ikieruje_ _Ikieruje_ _IpleXkie_~ _IpleXkie_~ _cons ovtest Ramsey RESET test using powers of the fitted values of ln_dochod Ho: model has no omitted variables F(3, 1066) = 1.58 Prob > F = P-value w teście RESET wynosi 0,1914. Oczywiście brak podstaw do odrzucenia hipotezy zerowej zakładającej poprawność formy funkcyjnej. Pozostaje usunąć nieistotną interakcje między płcią a zmienną kieruje. Tworzymy nową zmienną kier_3_plec: 1 dla kobiet, które kierują kierownikami, 0 w pozostałych przypadkach. Ponownie szacujemy regresję:. xi: regress ln_dochod wiek_30 wiek 30 i.miasto_3 i.wykszt_wlasciel plec i.kieruje kier_3_plec i.wykszt_wlas~l _Iwykszt_wl_0- (naturally coded; _Iwykszt_wl_0 omitted) F( 1, 1070) =

13 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE =.499 wiek_ wiek _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Iwykszt_w~ _Iwykszt_w~ plec _Ikieruje_ _Ikieruje_ kier_3_plec _cons ovtest Ramsey RESET test using powers of the fitted values of ln_dochod Ho: model has no omitted variables F(3, 1067) = 1.70 Prob > F = Wszystkie zmienne są istotne w regresji oraz przyjmujemy hipotezę zerową o poprawności przyjętej formy funkcyjnej. Zastanówmy się jak zinterpretować parametry przy zmiennej płeć i kieruje. E( dochod) = β + β plec + β kieruje _ + β kieruje _ 3 + β plec kieruje _ 3 = i i 3 i 4 i β - mężczyźni, którzy nie zajmują stanowiska kierowniczego; β + β - kobiety, które nie zajmują stanowiska kierowniczego; 0 1 β + β - mężczyźni, którzy kierują nie kierownikami; 0 β + β + β - kobiety, które kierują nie kierownikami; 0 1 β + β - mężczyźni, którzy kierują kierownikami; 0 3 β0 + β1 + β3 + β4 - kobiety, które kierują kierownikami. Przykładowa interpretacja: Kobiety, które nie zajmują stanowiska kierowniczego w porównaniu z mężczyznami, którzy także nie zajmują stanowiska kierowniczego zarabiają o 8,55% mniej ( β 1*100%). Mężczyźni, którzy kierują nie kierownikami zarabiają o 4,88% więcej niż mężczyźni, którzy nie zajmują stanowiska kierowniczego ( β *100%). Mężczyźni, którzy kierują kierownikami zarabiają o 46,8% więcej niż mężczyźni, którzy nie zajmują stanowiska kierowniczego ( β 3 *100%). Kobiety, które kierują kierownikami zarabiają o 53,1% mniej niż mężczyźni, którzy kierują kierownikami (( β1 + β4 )*100%). Obserwacje nietypowe Przyjrzymy się obserwacją o dużych standaryzowanych resztach (większych co do wartości K 13 bezwzględnej od ) i dźwigni (większej od N = , ).. predict reszty_st, rstandard /*standaryzowane reszty*/. predict dzwignia, leverage /*Dźwignia (zamiast "leverage" można użyć "hat" */. predict cook_dist, cooksd /*odległość Cooka*/ 13

14 list dochod plec wiek wlasciciel miasto kieruje wyksztalcenie dzwignia reszty_st cook_dist if dzwignia > *e(df_m)/e(n) & abs(reszty_st)>; 1. dochod plec wiek wlasci~l miasto 50 kobieta 37 nie miasto od 50tyś do 100tyś kieruje wyksztal~e dzwignia reszty_st cook_d~t kieruje kierownikami średnie dochod plec wiek wlasci~l miasto 170 mężczyzna nie miasto do 10tyś kieruje wyksztal~e dzwignia reszty_st cook_d~t kieruje kierownikami średnie dochod plec wiek wlasci~l miasto 500 mężczyzna 5 tak wieś kieruje wyksztal~e dzwignia reszty_st cook_d~t kieruje nie kierownikami wyższe dochod plec wiek wlasci~l miasto 100 kobieta 65 tak wieś kieruje wyksztal~e dzwignia reszty_st cook_d~t nie kieruje podstawowe dochod plec wiek wlasci~l miasto 50 kobieta 45 nie miasto do 10tyś kieruje wyksztal~e dzwignia reszty_st cook_d~t kieruje nie kierownikami średnie dochod plec wiek wlasci~l miasto 000 kobieta 46 nie wieś kieruje wyksztal~e dzwignia reszty_st cook_d~t kieruje kierownikami średnie dochod plec wiek wlasci~l miasto 4500 mężczyzna 7 tak miasto od 100tyś do 50tyś kieruje wyksztal~e dzwignia reszty_st cook_d~t kieruje kierownikami średnie Szczególną uwagę należy zwrócić na osoby o bardzo niskich dochodach. Dla pierwszej i czwartej obserwacji dochód wynosi odpowiednio 50 i 170, a osoby te kierują kierownikami. Być może są to obserwacje błędne. Warto dodać, że analizowany zbiór danych dotyczy roku 1997, a płaca minimalna w tamtym okresie była na poziomie 400 złoty. Może to sugerować, że osoby o skrajnie niskich zarobkach nie pracowały na pełnym etacie. Niestety my nie 14

15 posiadamy na ten temat informacji i przez to nasza regresja nie jest wstanie wytłumaczyć niskich dochodów. Badanie normalności zaburzenia losowego Zaczynamy od oszacowania regresji i wyznaczenia reszt:. xi: regress ln_dochod wiek_30 wiek 30 i.miasto_3 i.wykszt_wlasciel plec i.kieruje i.wykszt_wlas~l _Iwykszt_wl_0- (naturally coded; _Iwykszt_wl_0 omitted) F( 11, 1071) = 40.5 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = wiek_ wiek _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Iwykszt_w~ _Iwykszt_w~ plec _Ikieruje_ _Ikieruje_ _cons predict reszty, residual /*Tworzymy reszty*/ Opis tworzenia wykresu kwantylowego i prawdopodobieństwa e, e,..., e oznaczają statystyki pozycyjne dla rozkładu reszty (czyli są to Niech (1: n) (: n) ( n: n) posortowane w sposób rosnący reszty). Na wykresie kwantylowym na osi y odłożone są reszty, natomiast na osi x kwantyle rozkładu normalnego standardowego. Czyli punkty na tym wykresie mają następujące współrzędne 1 i 1 ( q, e ), gdzie = Φ ( ) ( Φ oznacza funkcję odwrotną do dystrybuanty rozkładu i ( i: n) q i n + 1 normalnego standardowego). Ponadto na wykres jest naniesiona linia prosta jeżeli punkty pokrywają się z tą prostą, to można przyjąć, że reszty pochodzą z rozkładu normalnego. Wykres kwantylowy służy do badania ogonów rozkładów. Na wykresie prawdopodobieństwa na osi y odłożone jest Φ(( e ˆ ˆ ( : ) µ ) / σ ), gdzie ˆµ i ˆ σ to i odpowiednio średnia i odchylenie standardowe reszt. Na osi x odłożone jest p. i = n+ 1 Podobnie jak w przypadku wykresu kwantylowego na wykres nałożona jest prosta, która odpowiada rozkładowi normalnemu. Jeżeli punkty w znaczący sposób odstają od tej prostej, to dane nie pochodzą z rozkładu normalnego. Wykres ten służy do analizy środkowej części rozkładu (bez ogonów). Przeprowadzamy graficzną analizę reszt: - Histogram z nałożoną gęstością rozkładu normalnego (parametry rozkładu to średnia i wariancja z próby). Reszty raczej nie pochodzą z rozkładu normalnego. Wskazuje na to występowanie bardzo dużych wartości oraz asymetria lewostronna rozkładu. i n 15

16 - Wykres pudełkowy. Tutaj co prawda nie jest widoczna asymetria, ale naszą uwagę zwraca duża liczba obserwacji nietypowych. - Wykres kwantylowy wskazuje, na problem z ogonami reszt. - Na wykresie prawdopodobieństwa widoczna jest asymetria. Analiza Graficzna Reszt Histogram W ykres pudełkowy Density Residuals Residuals Residuals Wykres kwantylow y Inverse Normal Normal F[(reszty-m)/s] W ykres prawdopodbieństwa Empirical P[i] = i/(n+1) Bardziej formalne postępowanie test Jarque-Berra (hipoteza zerowa zakłada normalność zaburzenia losowego):. sktest reszty Skewness/Kurtosis tests for Normality joint Variable Pr(Skewness) Pr(Kurtosis) adj chi() Prob>chi reszty P-value wynosi 0,000, więc odrzucamy hipotezę zerową o normalności zaburzenia losowego. Jakie są tego konsekwencje? Rozkłady testów t i F zostały wyprowadzone przy założeniu normalności zaburzenia losowego. Można jednak pokazać, że nawet przy braku założenia o normalności błędów losowych rozkłady graniczne statystyk służących do testowania hipotez w KMRL mają już rozkłady t i F. Czyli duża liczebność próby gwarantuje nam, że przeprowadzone wnioskowanie statystyczne jest poprawne. Testowanie heteroscedastyczności Zaczynamy od testu Breuscha-Pagana. Hipoteza zerowa zakłada homoscedastyczność, natomiast hipoteza alternatywna heteroscedastyczność wariancja zaburzenia losowego jest funkcją pewnych zmiennych. Możemy to zapisać w następujący sposób: H : Var( ε ) = σ H : Var( ε ) = σ f ( γ + γ z +... γ z ) 0 i 1 i 0 1 1i l li 16

17 Zmienne z,..., 1 z l to zmienne, które naszym zdaniem wywołują heteroscedastyczność zaburzenia losowego. Test Breuscha-Pagana służy do testowania heteroscedastyczności w przypadku gdy wiemy jakie zmienne ją wywołują. Procedura testowania (sprawdzimy czy zmienne wiek i płeć wywołują heteroscedastyczność): ei 1) Szacujemy regresję i wyznaczamy reszty. Następnie tworzymy zmienną, wi = gdzie e i ˆ σ to reszty podniesione do kwadratu, a ˆ σ to oszacowanie wariancji zaburzenia losowego.. xi: regress ln_dochod wiek_30 wiek 30 i.miasto_3 i.wykszt_wlasciel plec i.kieruje kier_3_plec i.wykszt_wlas~l _Iwykszt_wl_0- (naturally coded; _Iwykszt_wl_0 omitted) F( 1, 1070) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE =.499 wiek_ wiek _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Iwykszt_w~ _Iwykszt_w~ plec _Ikieruje_ _Ikieruje_ kier_3_plec _cons predict e, residual. generate w = (e/e(rmse))^ ) Estymacja regresji pomocniczej: w = γ + γ plec + γ wiek + η i 0 1 i i Następnie testujemy hipotezę H0 : γ1 = γ = 0 (wiek i płeć nie wywołują heteroscedastyczności zaburzenia losowego) za pomocą statystyki: 1 D LM = ESS χ D lub LM = N R χ (jeżeli nie jest spełnione założenie o normalności zaburzenia losowego). W ogólności rozkładem granicznym dla statystyki testowej jest rozkład chi-kwadrat z liczbą stopni swobody równą liczbie zmiennych umieszczonych w regresji pomocniczej.. regress w wiek plec /*Regresja pomocnicza*/ F(, 1080) = 0.7 Model Prob > F = Residual R-squared = Adj R-squared =

18 Total Root MSE =.17 w Coef. Std. Err. t P> t [95% Conf. Interval] wiek plec _cons display e(mss)/ /*Statystyka testowa - wersja oryginalna testu Breuscha-Pagana*/ display chitail(,e(mss)/) /*p-value*/ display e(n)*e(r) /*Statystyka testowa - wersja odporna na brak normalności zaburzenia losowego*/ display chitail(,e(n)*e(r)) /*p-value*/ W obu wersjach testu p-value zdecydowanie wyższe od 0,05, więc brak podstaw do odrzucenia hipotezy zerowej zakładającej homoscedastyczność. To samo szybciej (po oszacowanej regresji używamy komendy hettest):. hettest wiek plec /*Oryginalna wersja testu*/ Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: wiek plec chi() = 3.64 Prob > chi = hettest wiek plec, iid /*Poprawka na brak normalności zaburzenia losowego*/ Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: wiek plec chi() = 1.45 Prob > chi = hettest, rhs iid /*W regresji pomocniczej biorą udział wszystkie wyjściowe zmienne*/ Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: wiek_30 wiek 30 _Imiasto_3 Imiasto_3_3 _Imiasto_3_4 _Imiasto_3_5 _Iwykszt_wl_1 _Iwykszt_wl_ plec _Ikieruje Ikieruje_3 kier_3_plec chi(1) = Prob > chi = Za każdym razem p-value większe od 0,05, więc brak podstaw do odrzucenia hipotezy zerowej o homoscedastyczności. Test Breuscha-Pagana, w którym w regresji pomocniczej uwzględniamy wszystkie zmienne objaśniające, ich iloczyny oraz kwadraty, nazywamy testem White a. Używamy tego testu jeśli chcemy sprawdzić, czy w modelu występuje heteroscedastyczność, a nie interesuje nas jakie zmienne ją wywołują. W celu przeprowadzenia tego testu, po oszacowaniu regresji używamy komendy imtest, white: 18

19 . imtest, white /*Test White*/ White's test for Ho: homoskedasticity against Ha: unrestricted heteroskedasticity chi(64) = 69.8 Prob > chi = Cameron & Trivedi's decomposition of IM-test Source chi df p Heteroskedasticity Skewness Kurtosis Total Na wydruku wyniki testu White a zaznaczone na niebiesko brak podstaw do odrzucenia hipotezy zerowej o homoscedastyczności (p-value = 0,884). A co zrobić jeżeli jednak w modelu występuje heteroscedastyczność zaburzenia losowego? Wracamy do modelu, w którym dochód nie został zlogarytmowany. Wyniki regresji oraz testów na heteroscedastyczność poniżej (po drodze testujemy normalność zaburzenia losowego, aby sprawdzić którą wersję statystyki testowej powinniśmy wykorzystać w teście Breuscha-Pagana):. xi: regress ln_dochod wiek wiek_ plec i.miasto_3 i.wyksztalcenie wlasciciel i.kieruje i.wyksztalcenie _Iwyksztalc_1-3 (naturally coded; _Iwyksztalc_1 omitted) F( 1, 1070) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = wiek wiek_ plec _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Iwyksztal~ _Iwyksztal~ wlasciciel _Ikieruje_ _Ikieruje_ _cons predict reszty_1, residual. sktest reszty_1 /*Odrzucamy H0 o normalności zaburzenia losowego, należy o tym pamiętać przeprowadzając test Breuscha-Pagana*/ 19

20 Skewness/Kurtosis tests for Normality joint Variable Pr(Skewness) Pr(Kurtosis) adj chi() Prob>chi reszty_ hettest, rhs iid /*Test Breuscha-Pagana, odrzucamy H0 zakładającą homoscedastyczność*/ Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: wiek wiek_ plec _Imiasto_3 Imiasto_3_3 _Imiasto_3_4 _Imiasto_3_5 _Iwyksztalc Iwyksztalc_3 wlasciciel _Ikieruje Ikieruje_3 chi(1) = Prob > chi = imtest, white /*Test White - odrzucamy H0 o homoscedastyczności*/ White's test for Ho: homoskedasticity against Ha: unrestricted heteroskedasticity chi(71) = Prob > chi = Cameron & Trivedi's decomposition of IM-test Source chi df p Heteroskedasticity Skewness Kurtosis Total Tym razem zarówno w teście Breuscha-Pagana jak i teście White a odrzucamy hipotezę zerową zakładającą homoscedastyczność zaburzenia losowego. Jakie są konsekwencje występowania heteroscedastyczności? Estymator b dalej pozostaje nieobciążony, ale jest nieefektywny. Największym problem jest jednak to, że macierz wariancji kowariancji b w przypadku występowania heteroscedastyczności nie jest oszacowana w sposób poprawny (standardowy estymator jest obciążony i nie jest zgodny). Zła postać macierzy wariancjikowariancji może zaburzać wyniki wnioskowania statystycznego. Najprostsze rozwiązanie: zastosowanie "odpornej" macierzy wariancji-kowariancji White a (zgodny estymator). Aby zastosować w procedurze estymacyjnej właśnie ten estymator macierzy wariancjikowariancji, to należy w STACIE użyć opcji robust:. xi: regress ln_dochod wiek wiek_ plec i.miasto_3 i.wyksztalcenie wlasciciel i.kieruje, robust i.wyksztalcenie _Iwyksztalc_1-3 (naturally coded; _Iwyksztalc_1 omitted) Linear regression Number of obs = 1083 F( 1, 1070) = 31. Prob > F = R-squared = Root MSE = Robust wiek

21 wiek_ plec _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Iwyksztal~ _Iwyksztal~ wlasciciel _Ikieruje_ _Ikieruje_ _cons Testowanie stabilności parametru w różnych próbach (test Chowa) Sprawdzimy, czy oszacowania parametrów są takie same w podpróbach wyodrębnionych za pomocą płci. W hipotezie zerowej zakładamy, że parametry regresji w wyodrębnionych próbkach są takie same. Statystyka testowa: (*) m ( S S ) / ( ( 1) ) j 1 j K m = j= 1 ( ) ( ) F = ~ F K( m 1), N mk, m S / N mk j gdzie S oznacza sumę kwadratów reszt z regresji na całej próbie, S j - suma kwadratów reszt z regresji na j-tej podpróbie, m liczba wyodrębnionych próbek, K- liczba szacowanych parametrów (taka sama we wszystkich regresjach), N liczba obserwacji. Zaczynamy od oszacowania regresji na całej próbie (tym razem nie wprowadzamy do modelu zmiennej płeć!):. xi: regress ln_dochod wiek_30 wiek 30 i.miasto_3 i.wykszt_wlasciel i.kieruje i.wykszt_wlas~l _Iwykszt_wl_0- (naturally coded; _Iwykszt_wl_0 omitted) F( 10, 107) = 31.7 Model Prob > F = Residual R-squared = Adj R-squared = 0.1 Total Root MSE =.5159 wiek_ wiek _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Iwykszt_w~ _Iwykszt_w~ _Ikieruje_ _Ikieruje_ _cons scalar define ee = e(rss) /*Suma kwadratów z regresji na całej próbie*/ Regresja na próbie kobiet:. xi: regress ln_dochod wiek_30 wiek 30 i.miasto_3 i.wykszt_wlasciel i.kieruje if plec 1

22 i.wykszt_wlas~l _Iwykszt_wl_0- (naturally coded; _Iwykszt_wl_0 omitted) Source SS df MS Number of obs = F( 10, 513) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE =.4754 wiek_ wiek _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Iwykszt_w~ _Iwykszt_w~ _Ikieruje_ _Ikieruje_ _cons scalar define ee1 = e(rss) /*Suma kwadratów z regresji na próbce zawierającej kobiety*/ Regresja na próbie mężczyzn:. xi: regress ln_dochod wiek_30 wiek 30 i.miasto_3 i.wykszt_wlasciel i.kieruje if!plec i.wykszt_wlas~l _Iwykszt_wl_0- (naturally coded; _Iwykszt_wl_0 omitted) Source SS df MS Number of obs = F( 10, 548) = 3.3 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE =.515 wiek_ wiek _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Imiasto_3_ _Iwykszt_w~ _Iwykszt_w~ _Ikieruje_ _Ikieruje_ _cons scalar define ee = e(rss) /*Suma kwadratów z regresji na próbce zawierającej mężczyzn*/ Zgodnie ze wzorem (*) wyznaczamy wartość statystyki testowej a następnie p-value:. /*Statystyka testowa*/. scalar define F = ((ee - ee1 - ee)/(ee1 + ee))*(( *11)/(11*(-1)))

23 . display F display Ftail(11,1081,F) /*p-value*/ 1.708e-17 Ponieważ p-value jest bardzo bliskie 0, to odrzucamy hipotezę zerową zakładającą, że parametry regresji w próbie kobiet i mężczyzn są takie same. Powinniśmy więc oszacować dwie regresje, osobno dla kobiet i mężczyzn. Testowanie autokorelacji Testów na autokorelację w próbach przekrojowych nie przeprowadzamy. W celu omówienia testów na autokorelację posłużymy się zbiorem autokorelacja.dta. Dane te pochodzą z podręcznika Econometric Analysis W. H. Greene (pełny opis zmiennych w wydaniu piątym znajduje się na stronie 947). Są to dane roczne za okres dotyczące rynku paliwowego w Stanach Zjednoczonych. Poniżej opis tych zmiennych, które wykorzystamy w regresji: G konsumpcja benzyny wyrażona jako całkowite wydatki podzielone przez indeks cen; Pg indeks cen benzyny; Y PKB; Year rok. Na wstępie należy zdefiniować zmienną, która oznacza czas (komenda tsset):. tsset year /*zdefiniowanie zmiennej mierzącej przebieg czasu*/ time variable: year, 1960 to 1995 delta: 1 unit Szacujemy regresję zmiennej G na Pg i Y oraz wyznaczamy wartość statystyki Durbina Watsona (hipoteza zerowa: brak autokorelacji; hipoteza alternatywna: autokorelacja rzędu pierwszego):. regress g pg y Source SS df MS Number of obs = F(, 33) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = g Coef. Std. Err. t P> t [95% Conf. Interval] pg y _cons dwstat /*statystyka Durbina - Watsona*/ Durbin-Watson d-statistic( 3, 36) = Musimy odczytać wartości krytyczne z tablic DW dla 3 szacowanych parametrów oraz 36 obserwacji. Poniżej znajdują się odpowiednie tablice: 3

24 Wartości krytyczne wynoszą: d L = 1,35 i d U = 1,59. Ponieważ DW = 0, <, proces testowania przebiega w następujący sposób: Dodatnia Brak autokorelacja Brak konkluzji autokorelacji d = 1,35 d = 1,59 L Ponieważ DW = 0, < 1,41 = d L, to odrzucamy hipotezę zerową o braku autokorelacji i przyjmujemy o dodatniej autokorelacji. Na koniec omówimy test Breuscha-Godfreya, który służy do testowania autokorelacji wyższych rzędów. Hipoteza zerowa zakłada brak autokorelacji, natomiast alternatywna korelację rzędu s (można testować dowolny rząd autokorelacji). Omówimy sposób testowania autokorelacji rzędu czwartego. 1) Szacujemy regresję i wyznaczamy z niej reszty:. regress g pg y Source SS df MS Number of obs = F(, 33) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = U 4

Pokazać jeszcze