imię, nazwisko, nr indeksu: Ekonometria ćwiczenia Kolokwium 2 semestr 22/05/05 Zadanie 1 Zadanie 2 Zadanie 3 / 4 pkt / 4 pkt / 3 pkt Zadanie 4 / 7 pkt [1/1/1/2/2] Zadanie 5 Razem / 4 pkt /22 pkt Skala ocen: do 8,80 punktów 2 08,85-12,05 punktów 3 12,10-14,25 punktów 3+ 14,30-16,45 punktów 4 16,50-18,65 punktów 4+ 18,70 + punktów 5 Regulamin i informacje dodatkowe Przed przystąpieniem do rozwiązywania kolokwium należy podpisać pracę. Każda zauważona próba ściągania będzie karana podpisem osoby pilnującej złożonym na pracy. Pierwszy podpis oznacza utratę jednego punktu. Drugi podpis oznacza podzielenie wyniku punktowego przez 2. Trzeci podpis jest równoznaczny z odebraniem pracy i poinformowaniem władz wydziału o zaistniałej sytuacji. Zastrzegam sobie prawo do obniżenia progów wymaganych do otrzymania ocen. Osoby rażąco naruszające dyscyplinę i przeszkadzające w przeprowadzeniu kolokwium mogą zostać wyproszone z sali. O zaistniałym fakcie zostaną poinformowane władze dziekańskie. Powodzenia :-)
Teoria Należy odpowiedzieć na 2 wybranie pytania. W przypadku udzielenia odpowiedzi na więcej pytań należy zaznaczyć które mają być sprawdzane, w przeciwnym przypadku ocenione zostaną dwa pierwsze w kolejności udzielania odpowiedzi. 1. Estymator Least Absolute Deviation (LAD) jest zdefiniowany następująco: LAD : β yi Xβ min Pokaż, że estymator LAD jest estymatorem M. Wiedząc, że estymator MNK jest zgodny pokaż, że estymator LAD jest zgodny. 2. Na czym polega problem identyfikacji w modelu nielosowej selekcji 3. Co to jest obciążenie Lovella. Oblicz ile będzie wynosił prawdziwy poziom istotności jeśli do wyjaśnienia zmiennej y wybierzemy 2 regresory spośród 5, a nominalny poziom istotności wynosi 5 %. 1. Estymatory M, to estymatory minimalizujące funkcję celu. Ponieważ estymator LAD minimalizuję sumę modułów jest estymatorem klasy M. Wiemy, że estymator MNK dany wzorem (y i Xβ) 2. Jest więc kwadratem normy euklidesowej (drugiej). Estymator LAD jest równoważny normie 1. Ponieważ normy są równoważne to minimum będzie niezależne od normy. 2. Model Heckmana jest dwurównaniowy. Składa się z równania selekcji i równania zjawiska. Jeżeli w obu równaniach występuje ten sam zestaw zmiennych niezależnych X to model redukuje się do Tobitu, ponieważ: { di = X i γ + u i y i = X i β + ε i ponieważ zmienna d i jest równa 1 gdy y i > y. Parametry modelu są trudne do zidentyfikowania, ponieważ równanie probitowe może być zbliżone do równania liniowego, a jeśli oba równania są liniowe to nie możemy jednoznacznie zidentyfikować parametrów bez nałożenia dodatkowych ograniczeń na parametry. 3. Obciążenie Lovella występuje gdy wybieramy model regresji spośród grupy modeli konkurencyjnych. W takim przypadku rzeczywisty poziom istotności będzie wyższy od nominalnego. Częściej będziemy podejmować błędne decyzje. α 1 (1 α) c k = 1 (1 0.05)5 2
Zadanie 1. Na podstawie danych BAEL 2000 oszacowano model wyjaśniający fakt posiadania pracy dodatkowej za pomocą charakterystyk społeczno-demograficznych respondenta: płci (0 oznacza kobietę), w latach, dochodu gospodarstwa, posiadania rodziny na utrzymaniu oraz wykształcenia (dwie zmiennne 0-1). Otrzymano wyniki Logit estimates Number of obs = 28248 LR chi2(5) = 430.24 Prob > chi2 = 0.0000 Log likelihood = -1665.117 Pseudo R2 = 0.1144 ------------------------------------------------------------- dodatkowa Odds Ratio Std. Err. z P> z -------------+----------------------------------------------- plec 3.847853.4666835 11.11 0.000 wiek.9652003.0036769-9.30 0.000 rodzina 6.078828 1.025346 10.70 0.000 wyzsze 6.079864 1.123512 9.77 0.000 srednie 1.971332.2638736 5.07 0.000 ------------------------------------------------------------- Marginal effects after logit y = Pr(dodatkowa) (predict) =.00096351 ------------------------------------------------------------- variable dy/dx Std. Err. z P> z X ---------+--------------------------------------------------- plec*.0027338.00043 6.38 0.000 0 wiek -.0000341.00001-6.21 0.000 46.1379 rodzina*.004865.00075 6.48 0.000 0 wyzsze*.004866.00125 3.90 0.000 0 srednie*.0009341.00028 3.36 0.001 0 ------------------------------------------------------------- Przyjmując poziom istotności 5 % dokonaj interpretacji wyników oraz zbadaj istotność oraz łączną istotność modelu. Wartości krytyczne: χ 2 (2) = 5.99, χ 2 (5) = 11.07. Wiedząc, że wartość funkcji logarytmu wiarogodności dla modelu bez wykształcenia wynosi 1706.83 przeprowadź odpowiedni test badający czy te zmienne są istotne zapisując hipotezę zerową i alternatywną. 1. Mężczyźni mają prawie 4 kronie większą szansę na posiadanie dodatkowej pracy niż kobiety, wraz z wiekiem maleje szansa na posiadanie dodatkowej płacy o 4 % z każdym przeżytym rokiem, posiadanie rodziny zwiększa 6 krotnie szansę na posiadanie pracy dodatkowej, legitymowanie się wyższym wykształceniem zwiększa 6 krotnie szansę na posiadanie pracy dodatkowej w stosunku do wykształcenia podstawowego, legitymowanie się średnim wykształceniem zwiększa 2 krotnie szansę na posiadanie pracy dodatkowej w stosunku do wykształcenia podstawowego, 2. Wszystkie zmienne są łącznie istotne, świadczą o tym statystyki z > 2. Są również łącznie istotne ponieważ wartość statystyki LR > χ 2 (5) = 11.07, a jej p-value wynosi 0. 3. H 0 : β wyzsze = β srednie = 0 H 1 : H 0 LR = 2(L 1 L 0 ) = 2( 1665 + 1706) = 82 > χ 2 (2) = 5.99 Wobec tego odrzucamy H 0 o nieistotności zmiennych związanych z poziomami wykształcenia.
Zadanie 2. Jesteś pracownikiem firmy ubezpieczeniowej. Na podstawie następujących danych dotyczących liczby wypadków drogowych powodowanych przez klientów firmy: 0, 1, 2, 0, 0, 1, 3, 1, 0, 1, 2, 0, 1, 1, 0, masz oszacować przeciętną liczbę wypadków. 1. wyprowadź estymator metodą momentów dla liczby wypadków. Podpowiedź: Rozpocznij od wyprowadzenia wzoru na wartość oczekiwaną wiedząc że i=0 λx x! = e λ 2. wyprowadź wzór na estymator największej wiarogodności 3. opracuj procedurę dla programu Stata, która może być wykorzystana dla analizy 1 mln obserwacji. 1. Liczbę wypadków dobrze przybliża rozkład Poissona. EX = i=0 x λx x! e λ = 0 + 1λe λ + 2 λ2 2! e λ + 3 λ3 3! e λ +... = = λ(e λ + 2 λ 2! e λ + 3 λ2 3! e λ +...) = λ I przyrównujemy średnią próbkową do średniej z populacji. EMM(λ) = xi n = 13 15 2. L = Π n λ x i x i! e λ lnl = x i lnλ ln(x i!) λ lnl xi λ = λ n = 0 λ = xi n = 13 15 3. program define poisson version 8 args lnf theta tempvar lambda quietly gen double lambda = exp( theta) quietly replace lnf = - lambda +$ML_y1*ln( lambda ) end
Zadanie 3. Wskaż model, który według Ciebie jest najbardziej odpowiedni do analizy następujących problemów społeczno-ekonomicznych. Uzasadnij swój wybór. (a) stopień zadowolenia z życia mierzony za pomocą siedmiostopniowej skali (b) wysokość zarobków mężczyzn (c) długość pozostawania na bezrobociu (a) Stopień zadowolenia z życia mierzony za pomocą siedmiostopniowej skali może być modelowany za pomocą jednego z modeli dla dyskretnej uporządkowanej zmiennej zależnej. Ankiety psychologiczne i socjologiczne zakładają, że respondent jest w stanie wartościować swoje odpowiedzi, wobec tego budując model powinniśmy wykorzystać tą informację. (b) Wysokość zarobków meżczyzn jest cechą charakterystycznej subpopulacji - pracujących mężczyzn. Powinniśmy użyć modelu Heckmana. Bycie mężczyzną jest czynnikiem niezależnym od badanej osoby, ale fakt pracowania zależy od respondenta. (c) Długość pozostawania na bezrobociu, jest okresem czasu. Jest to liczba rzeczywista (wielkość jest ciągła), ograniczona z dołu. Wobec tego powinniśmy użyć modelu dla zmiennej ocenzurowanej, czyli tobitu.
Zadanie 3. Wskaż model, który według Ciebie jest najbardziej odpowiedni do analizy następujących problemów społeczno-ekonomicznych. Uzasadnij swój wybór. (a) ilość izb w mieszkaniu (b) wysokość zarobków kobiet (c) wydatki na zakup sprzętu audio-video poniesione w ostatnim roku (a) Ilość izb w mieszkaniu jest dana liczbą naturalną. Z reguły mieszkanie liczy od 1 do 5 izb, więc zarówno średnia jak i wariancja powinny zawierać się w przedziale 2-3. Wobec tego rozsądnym wyborem jest model Poissona. (b) Wysokość zarobków kobiet jest cechą charakterystycznej subpopulacji - pracujących kobiet. Powinniśmy użyć modelu Heckmana. Bycie kobietą jest czynnikiem niezależnym od badanej osoby, ale fakt pracowania zależy od respondenta. (c) Nie wszystkie osoby w ostatnim roku poniosły wydatki na zakup sprzętu audiovideo.w zbiorze możemy oczekiwać wielu obserwacji o wartości zero. Wobec tego, by uzyskać dobre oszacowania, powinniśmy użyć modelu tobitowego.
Zadanie 4. Oszacowano na podstawie próby reprezentatywnej model Heckmana dla zależności między wysokością oferowanej przez rynek płacy a charakterystykami respondenta. W równaniu regresji umieszczono wiek i płeć, a w równaniu selekcji wiek, płeć (1 mężczyzna, 2 kobieta) i dochód pozapłacowy. Zarówno płaca jak i dochód pozapłacowy zostały zlogarytmowane. Uzyskane oszacowania parametrów modelu i efektów cząstkowych znajdują się poniżej. Heckman selection model Number of obs = 1470 (regression model with sample selection) Censored obs = 837 Uncensored obs = 633 Wald chi2(2) = 36.92 Log likelihood = -1351.816 Prob > chi2 = 0.0000 Coef. Std. Err. z P> z -------------+-------------------------------------------------- lrincome age -.0038008.0030392-1.25 0.211 _Isex_2 -.2935203.0483514-6.07 0.000 _cons 5.494951.1011862 54.31 0.000 -------------+-------------------------------------------------- select _Isex_2 -.2672067.0718456-3.72 0.000 age -.0358237.0023274-15.39 0.000 lextincome -.450367.0527881-8.53 0.000 _cons 4.132161.3303863 12.51 0.000 -------------+-------------------------------------------------- /athrho.5645339.1583798 3.56 0.000 /lnsigma -.5155443.0505479-10.20 0.000 -------------+-------------------------------------------------- rho.5113336.1169695 sigma.5971755.030186 lambda.3053559.0831266 LR test of indep. eqns.(rho = 0):chi2(1)=11.82 Pr > chi2 =0.0006 Marginal effects after heckman y = E(lrincome Zg>0) (predict, ycond) = 5.4370371 variable dy/dx Std. Err. z P> z X ---------+------------------------------------------------------ age.003688.00224 1.64 0.100 47.4558 _Isex_2* -.2380003.04373-5.44 0.000.57415 lextin~e.0941472.02617 3.60 0.000 5.58034 (*) dy/dx is for discrete change of dummy variable from 0 to 1 Marginal effects after heckman y = Pr(select) (predict, psel) =.40729903 variable dy/dx Std. Err. z P> z X ---------+------------------------------------------------------ age -.013904.00089-15.65 0.000 47.4558 _Isex_2* -.1038767.0279-3.72 0.000.57415 lextin~e -.1747977.02055-8.51 0.000 5.58034 (*) dy/dx is for discrete change of dummy variable from 0 to 1 Marginal effects after heckman y = E(lrincome* Pr(select)) (predict, yexpected) = 2.2145
variable dy/dx Std. Err. z P> z X ---------+------------------------------------------------------ age -.0740944.00486-15.26 0.000 47.4558 _Isex_2* -.6656166.1532-4.34 0.000.57415 lextin~e -.9120358.10958-8.32 0.000 5.58034 (*) dy/dx is for discrete change of dummy variable from 0 to 1 1. Sprawdź istotność oraz łączną istotność zmiennych w modelu α = 0.05. Oceń dopasowanie modelu do danych empirycznych. 2. Podaj interpretację ekonomiczną wielkości oszacowanych parametrów modelu. 3. Podaj interpretację ekonomiczną efektów cząstkowych dla wieku w pierwszej, drugiej i trzeciej tablicy efektów cząstkowych. 4. Zinterpretuj wyliczoną wielkość parametru ρ i wyjaśnij, czy jest ona zgodna z intuicją. Przeprowadź test na korelację między efektami błędami losowymi w równaniu płac i równaniu selekcji i wyjaśnij jego znaczenie praktyczne. 5. Podaj ekonomiczne i ekonometryczne powody, dla których zmienna dochód pozapłacowy (lrincome) nie została umieszczona w równaniu regresji. 1. W równaniu zjawiska zmienną nieistotną okazał się wiek [ 1.25, p-value0.211 > 0.05]. Pozostałe zmienne w modelu są istotne. Łącznie wszystkie zmienne w modelu są istotne [36.92, p-value0.000 < 0.05]. 2. Oszacowany model opisuje wpływ czynników na ofertę płacy. Każdy dodatkowy rok życia obniża oferowaną płacę o 0.38%. Kobietom oferowana jest płaca o 29% niższa niż mężczyznom. 3. Osoby, które pracują z każdym dodatkowym rokiem życia otrzymują ofertę płacy o 0.37% niższą. Dodatkowy rok życia obniża prawdopodobieństwo posiadania pracy o 1.4%. Oczekiwany dochód z pracy spada z każdym rokiem życia o 7.4%. 4. Parametr ρ mierzy stopień korelacji między nieobserwowalnymi czynnikami w równaniu płac i partycypacji w rynku pracy. W modelu korelacja ta wyszła dodatnia. Ponieważ oczekujemy, że czynniki, które pozytywnie wpływają na prawdopodobieństwo posiadania pracy wpływają także pozytywnie na wysokość płacy, więc dodatni znak tego oszacowania tego parametru jest zgodny z intuicją. By przeprowadzić test patrzymy na statystykę LR dla H 0 : ρ = 0. Wielkość statystyki testowej równa 11.82 i wartość p value = 0.0006 < 0.05 skłaniają nas do odrzucenia H 0 i przyjęcia hipotezy alternatywnej, że istnieje niezerowa korelacja między błędami losowymi w równaniach. Praktyczne znaczenie tego testu wiąże się z tym, że w razie prawdziwości H 0 : ρ = 0 można do oszacowania równania regresji zastosować zwykłe MNK. 5. Z punktu widzenia ekonomii dla pracodawcy jest nieistotne jaki dochód pozapłacowy osiąga pracownik. W równaniu oferty płacy ta zmienna nie powinna się pojawiać. Z drugiej strony z przyczyn ekonometrycznych bardzo pożądane jest, by w równaniu selekcji pojawiały się zmienne nie pojawiające się w równaniu zjawiska. Tylko w tym przypadku można uzyskać precyzyjne oszacowania parametrów.
Zadanie 5. Rozważ następujący model: y i = exp (α + βx i ) + u i, i = 1,..., n ε N ( 0, σ 2 I ) 1. Znajdź warunki pierwszego rzędu na estymatory MNW parametrów α i β 2. Jakie własności będą miały uzyskane w ten sposób estymatory? 3. Wyprowadź statystykę LM dla hipotezy β = 0. Przedyskutuj zalety statystyki LM w stosunku do statystyki Walda i statystyki LR. 4. Wyjaśnij, czy model ten można przekształcić do modelu, który można oszacować za pomocą MNK. 1. y i N(exp(α + βx i ), σ 2 I) Więc funkcja gęstości jest dana przez { } 1 f(y i ) = exp [y i exp (α + βx i )] 2 2πσ 2 2σ 2 ln f (y 1... y n ) = n 2 ln (2π) n 2 ln ( σ 2) [y i exp (α + βx i )] 2 2σ 2 ln f n { } β = [yi exp (α + βx i )] exp (α + βx i ) x i σ 2 n y i exp (α + βx i ) x i = n exp (2α + 2βx i ) x i ln f σ 2 = n 1 n 2 σ 2 + [y i exp (α + βx i )] 2 2σ 4 σ 2 = 1 n n [y i exp (α + βx i )] 2 2. Dla spełnionych założeń M N W estymator ten będzie estymatorem zgodnym ponieważ estymatory MNW są zgodne. 3. Statystykę LM można policzyć w następujący sposób: (a) oszacować model, w którym zakładamy, że H 0 : β = 0. Taki model ma postać y i = exp (α) + u i jest więc zwykłym model liniowym, w którym występuje jedynie stała α = exp (α). Po oszacowaniu α za pomocą MNK znajdujemy oszacowanie α = ln ( α ). Oznaczmy reszty z MNK jako û i = y i α = y i exp ( α).
(b) Liczymy gradienty funkcji wiarogodności dla modelu bez ograniczeń dla wartości oszacowanych w modelu z ograniczeniami (wektory score): ln f i [y i exp ( α)] exp ( α) x i β β=0 = s α=bα 2 = ûi α x i s 2 σ 2 =s 2 ln f i σ 2 β=0 α=bα σ 2 =s 2 [ = 1 1 2 s 2 + [y i exp ( α)] 2 2s 4 = 1 2s 2 1 ) ] 2 (ûi s (c) Znajdujemy statystykę LM przy jako sumę wartości dopasowanych w regresji score ów na 1. Statystykę tą można znaleźć przy zastosowaniu MNK. Statystyki LR i W wymagałyby oszacowania modelu nieliniowego. 4. Nie, modelu tego nie da się sprowadzić do liniowości.