[121060-0610] Ekonometria Praca domowa nr 2 rozwiązania zadań Data oddania: 9 listopada 2012 Zadanie 1. W pliku nbasal.gdt znajdują się dane o płacach i statystykach koszykarzy ligi NBA. Wykonaj następujące polecenia: a) Oszacuj parametry modelu, w którym średnia liczba punktów zdobytych w meczu (points) zależy od lat doświadczenia w lidze (exper), wieku (age) i liczby lat gry w koledżu (educ). Do zbioru regresorów dodaj także kwadrat doświadczenia. Oceń istotność statystyczną poszczególnych zmiennych oraz zinterpretuj współczynnik R 2. Source SS df MS Number of obs = 286 -------------+------------------------------ F( 4, 281) = 11.15 Model 1344.58587 4 336.146467 Prob > F = 0.0000 Residual 8471.0129 281 30.1459534 R-squared = 0.1370 -------------+------------------------------ Adj R-squared = 0.1247 Total 9815.59877 285 34.4406974 Root MSE = 5.4905 points Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- exper 2.447391.3810051 6.42 0.000 1.697405 3.197378 expersq -.0783783.0203754-3.85 0.000 -.1184861 -.0382705 age -1.190252.2745621-4.34 0.000-1.730711 -.6497921 educ -.9182308.4089389-2.25 0.026-1.723203 -.1132583 _cons 36.48898 6.596162 5.53 0.000 23.50481 49.47314 Liczba obserwacji wynosi 286. Przyjmując poziom istotności równy 0,05, wszystkie wyróżnione zmienne mają statystycznie istotny wpływ na kształtowanie się średniej liczby zdobywanych punktów w meczu. Gdyby przyjąć α = 0, 01, należałoby wyciągnąć wniosek, iż liczba lat gdy w koledżu nie wpływa na skuteczność zawodnika. Wartość współczynnika R 2 to 0,137, co oznacza, iż w modelu zostało objaśnione 13,7% całkowitej zmienności zmiennej objaśnianej (tj. średniej liczby zdobywanych w meczu punktów). b) Zakładając, że liczba lat w koledżu i wiek są stałe, od jakiej liczby lat doświadczenia, średnia punktów na mecz spada? Czy ta wielkość ma sens? Oszacowany model ma postać: points i = 36, 49 + 2, 45exper i 0, 078exper 2 i 1, 19age i 0, 92educ i Z uwagi na włączenie do modelu kwadratu doświadczenia, zależność pomiędzy nim a liczbą zdobywanych punktów jest nieliniowa, ściślej zaś, ma kształt paraboli z ramionami zwróconymi ku dołowi. W związku z tym, istnieje pewien punkt, w którym wzrost doświadczenia o kolejny rok nie skutkuje już wzrostem liczby zdobywanych punktów. W ogólnym przypadku, rozważmy oszacowany model: ŷ = ˆβ 0 + ˆβ 1 x + ˆβ 2 x 2 1
Z definicji pochodnej możemy oszacować przyrost y jako: Wracając do naszego przypadku, mamy: ŷ ( ˆβ 1 + 2 ˆβ 2 x) x ŷ/ x ˆβ 1 + 2 ˆβ 2 x points/ exper (2, 45 2 0, 078exper) Zauważmy zatem np., że pierwszy rok doświadczenia powoduje zwiększenie liczby zdobywanych punktów o 2,45, drugi zaś już tylko o ok. 2,29 itd. Graniczną wartość zmiennej exper, po której przekroczeniu średnia zdobywanych punktów maleje jest zatem: points/ exper < 0 (2, 45 2 0, 078exper) < 0 exper > 2, 45 15, 7. 2 0, 078 Zatem wzrost liczby lat doświadczenia z 15 do 16 lat powoduje spadek średniej liczby punktów na mecz. Ta wielkość nie ma większego sensu - 15 lat to bardzo dużo i tylko 4 koszykarzy w próbie ma większy bagaż doświadczenia. Możemy zatem w przybliżeniu wnioskować, że każdy kolejny rok doświadczenia zwiększa średnią liczbę zdobywanych punktów. Ilustracja do zadania: Liczba zdobywanych punktów 0 5 10 15 20 0 5 10 15 20 25 Lata doświadczenia c) Teraz oszacuj model, w którym liczba punktów zależy od doświadczenia i jego kwadratu oraz od pozycji, na której gra dany koszykarz, wykorzystując zmienne zero-jedynkowe: guard (obrońca), forward (skrzydłowy) i center (środkowy). Niech środkowy będzie kategorią bazową 1. Dlaczego nie da się zawrzeć wszystkich trzech zmiennych zero-jedynkowych? Source SS df MS Number of obs = 287 -------------+------------------------------ F( 4, 282) = 6.66 Model 848.196453 4 212.049113 Prob > F = 0.0000 Residual 8981.12037 282 31.8479446 R-squared = 0.0863 -------------+------------------------------ Adj R-squared = 0.0733 Total 9829.31682 286 34.3682406 Root MSE = 5.6434 1 Tj. taką, względem której będziemy interpretować parametry dla pozostałych pozycji. 2
points Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- exper 1.231262.3018953 4.08 0.000.6370081 1.825517 expersq -.070743.02119-3.34 0.001 -.1124536 -.0290323 guard 2.337747.9674373 2.42 0.016.4334322 4.242063 forward 1.788738.9689547 1.85 0.066 -.1185634 3.69604 _cons 4.617457 1.124915 4.10 0.000 2.403161 6.831753 Zmienne guard, f orward i center wyczerpują wszystkie możliwe pozycje gracza na boisku. Włączenie wszystkich ich do modelu skutkowałoby wystąpieniem zjawiska dokładnej współliniowości, ponieważ w modelu znajduje się stała zsumowane 3 zmienne dałyby właśnie kolumnę jedynek. d) Na podstawie poprzedniego modelu oceń, czy obrońca rzuca średnio więcej punktów od centra. O ile? Czy ta różnica jest statystycznie istotna? Oszacowanie parametru przy zmiennej guard wyniosło 2.34. Wartość ta to dokładnie różnica pomiędzy średnią liczbą punktów zdobywaną przez obrońców, a średnią liczbą punktów zdobywanych przez środkowego. Ocena parametru statystycznie różni się od zera. e) Oszacuj parametry modelu: ln(wage i ) = β 0 + β 1 points i + β 2 exper i + β 3 exper 2 i + β 4 age i + β 5 educ i + ξ i i zinterpretuj oszacowanie parametru ˆβ 1. Source SS df MS Number of obs = 274 -------------+------------------------------ F( 5, 268) = 49.60 Model 102.523489 5 20.5046978 Prob > F = 0.0000 Residual 110.796583 268.413420088 R-squared = 0.4806 -------------+------------------------------ Adj R-squared = 0.4709 Total 213.320072 273.781392207 Root MSE =.64298 lwage Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- points.075293.0070625 10.66 0.000.061388.0891979 exper.2317659.049994 4.64 0.000.133335.3301968 expersq -.008128.0027622-2.94 0.004 -.0135663 -.0026896 age -.0437264.0348217-1.26 0.210 -.1122853.0248326 educ -.0555384.0502963-1.10 0.270 -.1545646.0434878 _cons 2.105011.8407685 2.50 0.013.44966 3.760363 ˆβ 1 = 0.075, co oznacza, że wzrost średniej liczby zdobywanych punktów w meczu powodowuje ceteris paribus wzrost płacy koszykarza o 7,5%. f) Oblicz wartości czynników inflacji wariancji (VIF) w powyższym modelu. Czy mamy do czynienia z problemem współliniowości? Dlaczego? 3
Variable VIF 1/VIF -------------+---------------------- exper 18.93 0.052816 expersq 10.77 0.092815 age 9.18 0.108910 points 1.15 0.873271 educ 1.04 0.964389 -------------+---------------------- Mean VIF 8.21 Istotnie, w modelu mamy do czynienia z problemem współliniowości - wartości VIF dla zmiennych exper i exper 2 przyjęły wartości przekraczające 10, zaś dla age bliską 10. Istnieje kilka powodów - jak zauważyliśmy w kilku poprzednich podpunktach, zmienne exper, exper 2, age i educ istotnie wpływają na liczbę zdobywanych punktów. Drugie źródło korelacji to włączenie zmiennej exper w kwadracie: mimo, że zależność między exper i exper 2 nie jest liniowa, co prowadziłoby do dokładnej współliniowości, to niewątpliwie jest bardzo silna. Trzecim źródłem współliniowości jest dość oczywista zależność pomiędzy doświadczeniem a wiekiem. g) Sprawdź, czy pominięcie zmiennych age i exper (łącznie) jest uzasadnione. Wartość statystyki testowej testu liniowych restrykcji (pominiętych zmiennych) wyniosła F = 13, 31, co jest większe od wartości krytycznej z rozkładu F z 2 i 268 stopniami swobody i poziomem istotności α = 0, 05 (p-value równe 0,0000). Wobec odrzucamy hipotezę zerową o braku zasadności pominięcia obu zmiennych w modelu. Zadanie 2. Zbiór fish.gdt zawiera 97 dziennych obserwacji dotyczących ceny i liczby sprzedanych ryb na targowisku Fulton w Nowym Jorku. Zmienną objaśnianą jest logarytm średniej ceny ryb (lavgprice). a) Oszacuj parametry model: lavgprice t = β 0 + β 1 mon t + β 2 tues t + β 3 wed t + β 4 thurs t + β 5 t + ε t. Czy na podstawie oszacowań można stwierdzić, że występują systematyczne zmiany cen w ciągu tygodnia? Source SS df MS Number of obs = 97 -------------+------------------------------ F( 5, 91) = 1.70 Model 1.3432706 5.268654121 Prob > F = 0.1423 Residual 14.3698396 91.157910325 R-squared = 0.0855 -------------+------------------------------ Adj R-squared = 0.0352 Total 15.7131102 96.163678231 Root MSE =.39738 lavgprc Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- mon -.0100699.1293525-0.08 0.938 -.2670127.2468729 tues -.0088125.1273075-0.07 0.945 -.2616932.2440682 wed.0376262.1256956 0.30 0.765 -.2120526.287305 thurs.090559.1256707 0.72 0.473 -.1590703.3401884 t -.0039912.0014444-2.76 0.007 -.0068603 -.0011221 _cons -.0729573.1151907-0.63 0.528 -.3017694.1558547 4
Oszacowania parametrów przy zmiennych binarnych dotyczących czterech dni tygodnia nie różnią się w sposób istotny od zera. Także łączny test istotności dla tych zmiennych daje F = 0.23, a zatem brak podstaw do odrzucenia hipotezy zerowej o zasadności pominięcia tych zmiennych w modelu nie mamy zatem podstaw, by twierdzić, że w ciągu tygodnia występują systematyczne zmiany cen ryb. b) Dodaj do poprzedniego modelu zmienne wave2 i wave3, opisujące średnią wysokość fal w poprzednich kilku dniach. Czy są one istotne statystycznie? Opisz krótko mechanizm, który powoduje, że oszacowania parametrów przy tych zmiennych są dodatnie. Oszacowania parametrów wyniosły odpowiednio: ˆβ wave2 = 0, 091 i ˆβ wave3 = 0, 047, a odpowiadające im wartości statystyk t 4,18 i 2,28. Przyjmując poziom istotności α = 0, 05 odrzucamy hipotezę zerową o braku wpływu wysokości fal na cenę ryb na targu. Mechanizm ekonomiczny tłumaczący istotność i dodatni znak jest następujący gdy warunki na morzu są trudniejsze (a fale wyższe), połów jest trudniejszy, wobec czego podaż ryb jest mniejsza. Przesunięcie krzywej podaży powoduje wzrost cen. c) Co stało się z oszacowaniem parametru przy trendzie po dodaniu zmiennych wave2 i wave3. Jak myślisz, dlaczego? Początkowo wartość tego parametru wynosiła ok. -0,004, zaś po dodaniu zmiennych wave2 i wave3-0,001. Dodatkowo, ta druga wartość nie różni się w sposób istotny od zera. Dodanie zmiennych spowodowało wzrost wartości współczynnika, który początkowo był ujemnie obciążony. Wynikało to z zależności pomiędzy wave2 i t oraz wave3 i t (można zrobić wykres albo oszacować modele regresji, aby potwierdzić ujemną zależność tymi dwiema zmiennymi a czasem). Innymi słowy, warunki pogodowe na morzu były trudniejsze (wyższe fale) na początku próby. d) Przy użyciu testów Durbina-Watsona oraz mnożnika Lagrange a (Breuscha-Godfreya) przetestuj, czy reszty w modelu podlegają procesowi AR(1), tj. czy w modelu występuje autokorelacja rzędu pierwszego. Wartość statystyki Durbina-Watsona wyniosła 0,745. W tablicach rozkładu DW odczytujemy wartość d L i d U dla k = 7 i n = 95 (lub n = 100). Wyniosły one d L = 1, 512 i d U = 1, 827. Wobec tego odrzucamy hipotezę zerową o braku autokorelacji składnika losowego rzędu pierwszego, na korzyść hipotezy alternatywnej o występowaniu autokorelacji dodatniej rzędu pierwszego. W teście mnożnika Lagrange a otrzymujemy wartość statystyki testowej równą 37,348, co również prowadzi do odrzucenia hipotezy zerowej o braku autokorelacji. Wykonane testy każą twierdzić, że składnik losowy w modelu podlega procesowi AR(1). e) Oszacuj ponownie model z zastosowaniem błędów odpornych na autokorelację i heteroskedastyczność Neweya-Westa (HAC). Porównaj nowe i stare błędy standardowe parametrów przy zmiennych wave2 i wave3. Czy zmiana oszacowań wariancji parametrów jest duża? OLS Newey-West (HAC) S ˆβwave2 0,02175 0,0227 S ˆβwave3 0,02081 0,0179 Różnice nie są duże i nie prowadzą do zmiany wniosków co do statystycznej istotności (jedynie zmienna thurs staje się istotna ale tylko na poziomie 0,1). Zadanie 3. Twoim zadaniem będzie odpowiedź na pytanie, czy działania policji faktycznie mają charakter prewencyjny tj. czy większa liczba aresztowań za zabójstwo w rzeczywistości powoduje spadek liczby zabójstw. Plik murder.gdt zawiera m.in. następujące zmienne: 5
arrmurd liczba aresztowań za zabójstwo jako procent zabójstw w gminie lratmurd logarytm naturalny rocznej stopy zabójstw (liczby zabójstw na 100 000 mieszkańców) density gęstość zaludnienia w gminie ppb procent populacji stanowiony przez Afroamerykanów rpcpi PKB per capita w gminie a) Oszacuj parametry następującego modelu: lratmurd i = α 0 + α 1 rpcpi i + α 2 arrmurd i + α 3 density i + α 4 ppb i + η i Czy znaki ocen parametrów są zgodne z oczekiwaniem? Model 1: OLS, using observations 1-702 Dependent variable: lratmur coefficient std. error t-ratio p-value ----------------------------------------------------------- const 2.67641 0.116682 22.94 3.50e-087 *** rpcpi -7.97488e-05 9.00756e-06-8.854 6.95e-018 *** arrmurd -0.00227678 0.000269087-8.461 1.55e-016 *** density 3.63994e-05 5.47412e-06 6.649 5.95e-011 *** ppb 0.0280222 0.00580950 4.824 1.73e-06 *** Mean dependent var 1.692067 S.D. dependent var 0.842004 Sum squared resid 339.6942 S.E. of regression 0.698116 R-squared 0.316496 Adjusted R-squared 0.312573 F(4, 697) 80.68617 P-value(F) 2.84e-56 Log-likelihood -741.3083 Akaike criterion 1492.617 Schwarz criterion 1515.386 Hannan-Quinn 1501.417 Znaki są generalnie zgodne z oczekiwaniami im wyższe PKB, tym niższa stopa zabójstw; im większa skuteczność aresztowań, tym także niższa stopa zabójstw, im wyższa gęstość zaludnienia, tym wyższa stopa zabójstw (tu można się spierać, z jednej strony więcej potencjalnych ofiar w pobliżu, z drugiej może na odludziu łatwiej kogoś zamordować i nie zostać złapanym), im większy procent populacji stanowią osoby czarnoskóre, tym wyższa stopa zabójstw (tu także możemy się spierać, ale zostawmy to specjalistom od problemów rasowych - jest to jednak dość typowa obserwacja). b) Przeprowadź test White a dla reszt z powyższego modelu. Co możemy powiedzieć o heteroskedastyczności na poziomie istotności 5%? White s test for heteroskedasticity - Null hypothesis: heteroskedasticity not present Test statistic: LM = 182.33 with p-value = P(Chi-square(14) > 182.33) = 2.18017e-031 Na poziomie istotności 5% (a także na wszystkich innych typowych poziomach) odrzucamy hipotezę zerową o homoskedastyczności składnika losowego. c) Intuicyjnie, w mniejszych społecznościach obserwuje się średnio niższe stopy zabójstw niż w większych. Posłuż się testem Breuscha-Pagana do oceny, czy faktycznie zmienność wielkości populacji przyczyniają się do powstania heteroskedastyczności. W regresji pomocniczej testu powinny znajdować się wyłącznie zmienne popc i jej kwadrat oraz stała. 6
Podpowiedź: test Breuscha-Pagana, który jest dostępny w gretlu nie umożliwi wykonania tego polecenia. Zamiast tego, należy zapisać kwadraty reszt z modelu a następnie wykorzystać je jako zmienna objaśniana w samodzielnie skonstruowanej pomocniczej regresji. Na koniec proszę sprawdzić łączną istotność obu zmiennych (tj. popc i popc 2 ) przy użyciu testu pominiętych zmiennych. Model 3: OLS, using observations 1-702 Dependent variable: usq2 coefficient std. error t-ratio p-value ------------------------------------------------------------- const 0.585002 0.0351226 16.66 1.04e-052 *** popc -6.01697e-07 1.75356e-07-3.431 0.0006 *** sq_popc 2.32260e-013 1.00471e-013 2.312 0.0211 ** Mean dependent var 0.483895 S.D. dependent var 0.691210 Sum squared resid 325.7745 S.E. of regression 0.682684 R-squared 0.027299 Adjusted R-squared 0.024516 F(2, 699) 9.808747 P-value(F) 0.000063 Log-likelihood -726.6223 Akaike criterion 1459.245 Schwarz criterion 1472.906 Hannan-Quinn 1464.525 Test for omission of variables - Null hypothesis: parameters are zero for the variables popc sq_popc Test statistic: F(2, 699) = 9.80875 with p-value = P(F(2, 699) > 9.80875) = 6.29212e-005 Odrzucamy hipotezę zerową o łącznej nieistotności zmiennych test Breuscha-Pagana informuje nas zatem o tym, że heteroskedastyczność składnika losowego faktycznie może być spowodowana różnicami w wielkości populacji w analizowanej gminie. (Notabene w takim przypadku w rozwiązaniu problemu mogłoby pomóc podzielenie wszystkich zmiennych w wyjściowym modelu przez wielkość populacji.) d) Oszacuj ponownie model z wykorzystaniem odpornych na heteroskedastyczność błędów standardowych i odpowiedz na pytanie zawarte na początku zadania, tj. czy większa liczba aresztowań skutkuje ceteris paribus mniejszą liczbą zabójstw. Model 5: OLS, using observations 1-702 Dependent variable: lratmur Heteroskedasticity-robust standard errors, variant HC1 coefficient std. error t-ratio p-value ----------------------------------------------------------- const 2.67641 0.148338 18.04 5.26e-060 *** rpcpi -7.97488e-05 7.79053e-06-10.24 5.25e-023 *** arrmurd -0.00227678 0.000840165-2.710 0.0069 *** density 3.63994e-05 3.80285e-06 9.572 1.79e-020 *** ppb 0.0280222 0.00507357 5.523 4.70e-08 *** 7
Mean dependent var 1.692067 S.D. dependent var 0.842004 Sum squared resid 339.6942 S.E. of regression 0.698116 R-squared 0.316496 Adjusted R-squared 0.312573 F(4, 697) 97.83256 P-value(F) 4.54e-66 Log-likelihood -741.3083 Akaike criterion 1492.617 Schwarz criterion 1515.386 Hannan-Quinn 1501.417 Wartość oszacowania parametru ˆα 2 równa -0,0022 istotnie różni się od zera, co w zestawieniu z ujemnym znakiem oszacowania pozwala twierdząco odpowiedzieć na pytanie zawarte w treści zadania. Wielkość tę można interpretować jako: Jeśli stopa aresztowań za zabójstwo wzrośnie o 1 punkt procentowy, to roczna stopa zabójstw zmaleje ceteris paribus o 0,2%. Zadanie 4. Liczba kin na terenie pewnego województwa w latach 1980 1990 kształtowała się następująco (brak danych dla 1985 roku): Lata 1980 1981 1982 1983 1984 1986 1987 1988 1989 1990 Kina 185 203 215 221 231 225 223 209 193 175 Przyjęto, że zmienna czasowa t ma wartość 0 dla roku 1985, a przyrosty jej wartości z roku na rok są jednostkowe. Oszacowano model trendu postaci: ŷ t = 230 t 2t 2. Ponadto wiadomo, że: S 2 = 4 oraz ˆD 1, 047 0 0, 059 2 (ˆβ) = 0 0, 036 0 0, 059 0 0, 005 a) Oszacuj liczbę kin w roku 1985. Z treści zadania wiemy, że t 1985 = 0. Zatem, ŷ 0 = 230. b) Na podstawie modelu sporządź prognozę liczby kin w województwie w 1998 roku. Skomentuj otrzymany wynik. Dla jakich lat prognozy uzyskane z tego modelu są formalnie sensowne? Z treści zadania wiemy, że t 1998 = 13. Zatem, y 1998 = 230 13 2 13 2 = 230 13 338 = 121. Prognozowana na podstawie powyższego modelu liczba kin w roku 1998 przyjmuje wartość 121. Nie jest fizycznie możliwe, aby liczba kin była wyrażona liczbą ujemną - prognoza wykonana na podstawie modelu jest bezsensowna. W celu wyznaczenia lat, dla których prognoza wykonana na podstawie modelu jest formalnie sensowna należy rozwiązać nierówność 230 t 2t 2 > 0. 230 t 2t 2 > 0 t ( 11; 10, 5). t przyjmuje wartość 10 dla roku 1995, zatem model pozwala na uzyskiwanie sensownych prognoz dla lat 1991 1995. c) Wyznacz prognozę punktową dla roku 1992 oraz wartość błędu prognozy ex ante i względnego błędu prognozy ex ante. Przy założeniu, że składnik losowy w modelu trendu miał rozkład normalny wykonaj prognozę przedziałową na poziomie ufności 0,95. Wyznaczamy prognozę punktową: t 1992 = 7, y 1992 = 230 7 2 7 2 = 230 7 98 = 125. 1 Średni błąd predykcji ex ante: t 1992 1, 047 0 0, 059 1 = 7 S = 4 + [1 7 49] 0 0, 036 0 7 = 49 0, 059 0 0, 005 49 3, 61 13, 034 = 3, 61, V1992 = = 0, 02888. 125 Prognoza przedziałowa: α = 0, 95, υ = n (k + 1) = 10 (2 + 1) = 7, t 0,05 = 2, 36, przedział 8
(125 2, 36 3, 61; 125 + 2, 36 3, 61) (116, 48; 133, 52) d) Na postawie modelu wyznacz prognozowaną liczbę kin w województwie w latach 1991-1995. Następnie, na podstawie prognoz oraz faktycznie zaobserwowanej liczby kin (tabela poniżej) wyznacz miary prognozy ex post (ME, MAE, MSE, RMSE oraz współczynnik Theila). Lata 1991 1992 1993 1994 1995 Kina 160 149 130 109 91 rok t y τ yτ 2 yτ P y τ yτ P y τ yτ P (y τ yτ P ) 2 1991 6 160 25600 152 8 8 64 1992 7 149 22201 125 24 24 576 1993 8 130 16900 94 36 36 1296 1994 9 109 11881 59 50 50 2500 1995 10 91 8281 20 71 71 5041 639 84863 450 189 189 9477 m m = 5, ME = 37, 8, MAE = 37, 8, RMSE = 43, 54, I 2 = 0, 11 Zadanie 5. Levitt i Vankatesh, w jednym ze swoich badań, analizowali działalność gangów ulicznych na terenie Chicago, szukając czynników kształtujących wysokość płac wśród gangsterów. Oszacowali równanie postaci: wage i = β 0 + β 1 war i + β 2 large i + ε i, gdzie: wage i - { godzinowa stawka płacy (wyrażona w dolarach), 1 jeżeli gang jest zaangażowany w wojnę uliczną, war i = 0 w przeciwnym przypadku { 1 jeżeli gang jest duży, large i = 0 w przeciwnym przypadku Autorzy znaleźli następujące wartości oszacowań parametrów: ˆβ 0 = 1, 83, ˆβ1 = 1, 30, ˆβ2 = 4, 07. a) Na podstawie uzyskanych oszacowań powiedz jak uczestnictwo w wojnie ulicznej wpływa na wysokość płac. Uczestnictwo w wojnie ulicznej wpływa dodatnio na wysokość płac - płaca rośnie średnio o 1,30 dolara ceteris paribus w porównaniu do sytuacji, kiedy gang nie jest zaangażowany w wojnę uliczną. b) W równaniu opisującym wysokość płacy znalazła się zmienna zero-jedynkowa mówiąca o tym, że gang jest duży. Dlaczego do modelu nie została jednocześnie włączona dodatkowa zmienna zero-jedynkowa mówiąca o tym, że gang jest mały? Z treści zadania domyślamy się, że gang może być albo mały albo duży. Ponieważ w modelu występuje stała, jednoczesne włączenie do modelu zmiennej large oraz small spowodowałoby wystąpienie zjawiska dokładnej współliniowości - suma tych dwóch zmiennych dałaby wektor jedynek. c) W jaki sposób można zmodyfikować postać równania, aby obydwie te zmienne mogły być jednocześnie uwzględnione w modelu? W celu jednoczesnego uwzględnienia zmiennej large praz small w modelu należy z niego usunąć stałą. 9
Zadanie 6. Poniższy model jest uproszczoną wersją modelu zaproponowanego przez Biddle a i Hamermesh a (1990) mającego na celu analizę czynników wpływających na przesypiany czas oraz kompromisu szukanego przez pracowników pomiędzy czasem poświęconym na pracę, a czasem przeznaczonym na sen (dane sleep.gdt) sleep i = β 0 + β 1 totwrk i + β 2 educ i + β 3 age i + ε i gdzie sleep oraz totwrk wyrażone są w minutach na tydzień, zaś educ oraz age wyrażone są w latach. a) Jeżeli prawdą jest, że pracownicy szukają kompromisu (tzn. muszą wybierać) pomiędzy liczbą minut poświęcanych na sen, a czasem poświęcanym na pracę jaki powinien być znak parametru stojącego przy zmiennej totwrk? Z treści zadania wiemy, że pracownicy szukają kompromisu (tzn. muszą wybierać) pomiędzy liczbą minut poświęcanych na sen, a czasem poświęcanym na pracę. Zatem, spodziewamy się, że parametr stojący przy zmiennej totwrk powinien być ujemny - pracownicy muszą ograniczyć liczbę minut poświęcanych na pracę, aby móc dłużej pospać. b) Oszacuj parametry powyższego modelu, wskaż które z nich są statystycznie istotnie różne od zera (podaj wartości poziomu istotności przy jakim testujesz hipotezę). Model 1: Estymacja KMNK, wykorzystane obserwacje 1-706 Zmienna zależna (Y): sleep współczynnik błąd standardowy t-studenta wartość p --------------------------------------------------------------- const 3638,25 112,275 32,40 1,47e-141 *** totwrk -0,148373 0,0166935-8,888 5,19e-018 *** educ -11,1338 5,88457-1,892 0,0589 * age 2,19988 1,44572 1,522 0,1285 Średn.aryt.zm.zależnej 3266,356 Odch.stand.zm.zależnej 444,4134 Suma kwadratów reszt 1,23e+08 Błąd standardowy reszt 419,3589 Wsp. determ. R-kwadrat 0,113364 Skorygowany R-kwadrat 0,109575 F(3, 702) 29,91889 Wartość p dla testu F 3,28e-18 Logarytm wiarygodności -5263,106 Kryt. inform. Akaike a 10534,21 Kryt. bayes. Schwarza 10552,45 Kryt. Hannana-Quinna 10541,26 Przymując poziom istotności α = 0, 01 można stwierdzić, że parametr stojący przy stałej oraz zmiennej totwrk je statystycznie istotnie różny od zera. Ponato, przy poziomie istotności α = 0, 1 odrzucamy hipotezę zerową mówiącą o braku wpływu liczby lat nauki na czas przesypiany przez pracownika. Natomiast, wiek pracownika nie oddziałuje w istotny sposób na liczbę minut przeznaczaną przez niego na sen, przy żadnym konwencjonalnym poziomie istotności (tzn alpha = 0, 1, α = 0, 05, α = 0, 01). c) Jeżeli pewna osoba decyduje się przepracować pięć dodatkowych godzin w tygodniu to o ile zmniejszy się liczba przesypianych przez nią minut? Czy Twoim zdaniem jest to duża wartość? W pierwszym kroku należy godziny zmienić na minuty 5 godzin=300 minut. Na podstawie oszacowań parametrów modelu obliczamy liczbę minut snu, którą należy poświęcić, aby móc pracować dodatkowego 300 minut w tygodniu - 300 ( 0, 148) ( 45)minut. Zatem, aby móc pracować dodatkowe 5 godzin w tygodniu, należy poświecić 45 minut snu tygodniowo - biorąc pod uwagę, że przeciętny czas snu w tygodniu wynosi 3266 minut oraz fakt, iż pracujemy dodatkowe 5 godzin wartość ta nie wydaje się duża. 10
d) Za pomocą odpowiedniego testu zweryfikuj hipotezę dotyczącą poprawności zaproponowanej specyfikacji modelu. Test RESET na specyfikację (kwadrat i sześcian zmiennej) Statystyka testu: F = 1,945014, z wartością p = P(F(2,700) > 1,94501) = 0,144 Test RESET na specyfikację (tylko kwadrat zmiennej) Statystyka testu: F = 1,245276, z wartością p = P(F(1,701) > 1,24528) = 0,265 Test RESET na specyfikację (tylko sześcian zmiennej) Statystyka testu: F = 1,139835, z wartością p = P(F(1,701) > 1,13983) = 0,286 Wyniki testu RESET przeprowadzonego w trzech możliwych wariantach wskazują, iż przy poziomie istotności α = 0, 05 nie ma podstaw do odrzucenia hipotezy zerowej mówiącej o tym, że model jest poprawnie wyspecyfikowany (zależność między zmiennymi ma charakter liniowy). e) Czy pomiędzy zmiennymi występuje zjawisko współliniowości? Ocena współliniowości VIF - czynnika powiększania wariancji Minimalna możliwa wartość = 1.0 Wartości > 10.0 mogą wskazywać na problem współliniowości-rozdęcia wariancji totwrk 1,003 educ 1,076 age 1,078 Wartości czynnika inflacji wariancji dla wszystkich zmiennych są mniejsze od 10. Zatem, możemy wnioskować o braku występowania problemu współlinowości pomiędzy zmiennymi uwzględnionymi w modelu. f) Zweryfikuj hipotezę dotyczącą normalności reszt modelu. Jakie są konsekwencje niespełnienia założenia mówiącego o tym, że składnik losowy ma rozkład normalny? Czy w przypadku powyższego modelu należy przejmować się niespełnieniem założenia dotyczącym normalności rozkładu reszt (weź pod uwagę wielkość próby)? Hipoteza zerowa: dystrybuanta empiryczna posiada rozkład normalny. Test Doornika-Hansena (1994)- transformowana skośność i kurtoza: Chi-kwadrat(2) = 74,057 z wartością p 0,00000 Wyniki testu Doornika-Hansena na normalność rozkładu reszt wskazują, iż przy poziomie istotności α = 0, 05 należy odrzucić hipotezę zerową, mówiącą o tym, że reszty modelu mają rozkład normalny. Na podstawie centralnego twierdzenia granicznego wiemy, że w sytuacji kiedy dysponujemy wystarczająco dużą próbą, estymator metody najmniejszych kwadratów ma rozkład asymptotycznie normalny, niezależnie od tego jaki rozkład mają reszty modelu. W analizowanym przykładzie dysponujemy dużą próbą N=706, zatem nie musimy się przejmować niespełnieniem założenia dotyczącego normalności rozkładu reszt - asymptotycznie rozkłady statystyk testowych są poprawne. 11