3 Modele wyborów dyskretnych

Podobne dokumenty
1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka

6 Modele wyborów dyskretnych dla danych panelowych

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y

2 Logit i logit wielomianowy

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Stanisław Cichocki. Natalia Nehrebecka

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Regresja logistyczna (LOGISTIC)

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Egzamin z ekonometrii wersja IiE, MSEMAT

Własności statystyczne regresji liniowej. Wykład 4

Szacowanie modeli wielowartościowych w pakiecie STATA

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Modele dla zmiennej binarnej w pakiecie STATA materiały na ćwiczenia z ekonometrii r. Piotr Wójcik, KTRG WNE UW

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria Ćwiczenia 19/01/05

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Diagnostyka w Pakiecie Stata

Ekonometria dla IiE i MSEMat Z12

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08

Egzamin z ekonometrii wersja IiE, MSEMAT

Diagnostyka w Pakiecie Stata

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Ćwiczenia IV

1.8 Diagnostyka modelu

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Ekonometria egzamin 07/03/2018

Egzamin z ekonometrii - wersja ogólna

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Czasowy wymiar danych

Analiza czynników wpływających na poziom wykształcenia.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Ekonometria dla IiE i MSEMat Z7

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

, a reszta dla pominiętej obserwacji wynosi 0, RSS jest stałe, T SS rośnie, więc zarówno R 2 jak i R2 rosną. R 2 = 1 n 1 n. rosnie. n 2 (1 R2 ) = 1 59

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Testowanie hipotez statystycznych

Stanisław Cichocki. Natalia Nehrebecka

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Ekonometria egzamin wersja ogólna 17/06/08

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Ekonometria egzamin 31/01/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Natalia Nehrebecka Stanisław Cichocki. Wykład 6

Testowanie hipotez statystycznych.

Egzamin z ekonometrii wersja ogolna

Weryfikacja hipotez statystycznych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Kolokwium ze statystyki matematycznej

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

Ekonometria. Zajęcia

(LMP-Liniowy model prawdopodobieństwa)

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Zawansowane modele wyborów dyskretnych

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Egzamin z ekonometrii wersja IiE, MSEMAT

Egzamin z ekonometrii wersja IiE, MSEMat Pytania teoretyczne

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Metoda najmniejszych kwadratów

Wprowadzenie Model ARMA Sezonowość Prognozowanie Model regresji z błędami ARMA. Modele ARMA

Problem równoczesności w MNK

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Wykład 8 Dane kategoryczne

Ekonometria egzamin wersja ogólna 29/01/08

1 Modele ADL - interpretacja współczynników

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Prawdopodobieństwo i statystyka r.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Egzamin z ekonometrii

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Natalia Neherbecka. 11 czerwca 2010

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński

Testowanie hipotez statystycznych.

Binarne zmienne zależne

PDF created with FinePrint pdffactory Pro trial version

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Transkrypt:

3 Modele wyborów dyskretnych Przykłady, rozszerzenia i interpretacja Dane do przykładu pochodzą z piątej fali badania Health and Retirement Study przeprowadzonego w Stanach Zjednoczonych Ameryki Północnej w 2002 roku. Analizowaną zmienną zależną będzie zakup dodatkowego ubezpieczenia medycznego ins. Zmienne objaśniające zawierają informacje dotyczące zdrowa, charakterystyk społeczno-ekonomicznych oraz informacji o żonie ubezpieczonego. Próba jest ograniczona do żonatych mężczyzn. net from http://www.stata-press.com/data/mus use mus14data.dta * usuwanie zmiennych opisujacych interakcje drop age2 agefem agechr agewhi * zmienne glowne global xlist age hstatusg hhincome educyear married hisp * logarytm dochodu generate linc=ln(hhinc) * dodatkowe zmienne objasniajace global extralist linc female white chronic adl sretire summarize ins retire $xlist $extralist Dokonujemy oszacowań wartości parametrów dla modelu logitowego, probitowego oraz liniowego modelu prawdopodobieństwa, oraz ich wariantów z odporną na zjawisko heteroscedastyczności macierzą wariancji-kowariancji, za każdym razem zapamiętujemy wynik uzyskanych ocen parametrów. Następnie tworzymy tabelę podsumowującą uzyskane wyniki *Model logitowy logit ins retire $xlist estimates store blogit *Model probitowy qui probit ins retire $xlist estimates store bprobit *Liniowy model prawdopodobieństwa qui reg ins retire $xlist estimates store bols 1

*Logit z macierzą odporną qui logit ins retire $xlist, vce(robust) estimates store blogitr *Probit z macierzą odporną qui probit ins retire $xlist, vce(robust) estimates store bprobitr *Regresja z macierzą odporna qui reg ins retire $xlist, vce(robust) estimates store bolsr *Podsumowanie i porównanie modeli estimates table blogit blogitr bprobit bprobitr bols bolsr, /* */ t stats(n ll) b(%7.3f) stfmt(%8.2f) Następnie generujemy interakcje między zmiennymi objaśniającymi (kwadrat wieku, iloczyn wieku i płci, iloczyn wieku i indykatora choroby przewlekłej, iloczyn wieku i rasy białej). Dołączamy dodatkowe zmienne do specyfikacji modelu logitowego, szacujemy parametry modelu rozszerzonego i weryfikujemy istotność dołączonych zmiennych wykorzystując statystykę testu Walda. * Test Walda (istotność interakcji) generate age2 = age*age generate agefem = age*female generate agechr = age*chronic generate agewhi = age*white global intlist age2 agefem agechr agewhi quietly logit ins retire $xlist $intlist test $intlist Uzyskana wartość statystyki testowej i jej p-value wskazują na brak podstaw do odrzucenia hipotezy o statystycznej nieistotności dodatkowych ocen parametrów. Alternatywnym sposobem weryfikacji hipotez, preferowanym w przypadku wykorzystania metody największej wiarogodności do szacowania ocen parametrów modelu, jest przeprowadzenie testu ilorazu wiarogodności LR. W celu obliczenia wartości statystyki testowej należy oszacować parametry modelu bez ograniczeń, oraz parametry modelu z narzuconymi ograniczeniami. Następnie należy porównać dwa wektory oszacowań parametrów. 2

*Test LR (istotność interakcji) quietly logit ins retire $xlist $intlist estimates store B quietly logit ins retire $xlist lrtest B Wyniki testu są zbliżone do wyników testu Walda. Ale nie w każdym przypadku będzie zachodzić taka sytuacja. Stuckel (1988) zaproponował aby badać poprawność specyfikacji modeli dla binarnej zmiennej zależnej, jego praca dotyczyła modeli logitowych, poprzez dodanie do modelu kwadratu wartości dopasowanej jako dodatkowego regresora. Test ten możemy przeprowadzić wykorzystując polecenie linktest /* Test poprawności formy funkcyjnej */ quietly logit ins retire $xlist linktest Uzyskana wartość statystyki testowej i jej p-value wskazują, iż model nie jest dobrze dopasowany do danych. Standardowe modele probit i logit zakładają stałą wariancję składnika losowego. Założenie o stałości wariancji modelu probitowego może być testowane poprzez oszacowanie modelu heteroscedastycznego probitu, który nie zakłada stałej wariancji. Model logitowy z heteroscedastycznością nie jest standardową komendą, niemniej jego zaprogramowanie nie jest trudne. hetprob ins retire $xlist, het(chronic) //Heteroscedastic Probit Test Hosmera-Lemeshowa sprawdza dopasowanie modelu do danych empirycznych poprzez porównanie częstotliwości próbkowych zmiennej zależnej z jej wartościami dopasowanymi z modelu. Konstrukcja testu jest zbliżona do testu χ 2 Pearsona. Pierwszym krokiem jest podział próby na G podpróbek według kwantyli rozkładu. Następnie obliczana jest wartość statystyki HL = G g=1 ( ˆp g ȳ g ) 2 ȳ g (1 ȳ g ) Statystyka testowa ma rozkład χ 2 (G 2), gdzie g jest liczbą podgrup. 3

/* Miary dopasowania */ quietly logit ins retire $xlist estat gof, group(4) estat gof, group(10) Tablica klasyfikacji jest standardowym narzędziem diagnostycznym porównującym wartości rzeczywiste z próby i dopasowane wynikające z wartości oszacowań parametrów modelu estat classification Do obliczenia dopasowanych prawdopodobieństw wykorzystujemy polecenie predict. Różnice w wartościach dopasowanych modelu probitowego i logitowego są na ogół nieznaczne. /* Predykcja */ * calculate predicted probabilities quietly logit ins hhincome predict plogit, pr quietly probit ins hhincome predict pprobit, pr quietly reg ins hhincome predict pols, xb Aby się o tym przekonać porównamy metodą graficzną wartości dopasowane z obu modeli sort hhincome graph twoway (scatter ins hhincome,msize(vsmall) jitter(3)) /* */ (line plogit hhincome, clstyle(p1) ) /* */ (line pprobit hhincome, clstyle(p2) ) /* */ (line pols hhincome, clstyle(p3) ) /* */ scale(1.2) plotregion(style(none)) /* */ title("predicted probabilities across models") /* */ xtitle("hhincome (hhincome)", size(medlarge)) xscale(titlegap(*5)) /* */ ytitle("predicted probability", size(medlarge)) yscale(titlegap(*5)) /* */ legend(pos(1)) ring(0) col(1)) legend(size(small)) /* */ legend(label(1 "Actual Data (jittered)") label(2 "Logit") /* */ label(3 "Probit") label(4 "OLS")) 4

Jak widać wartości dopasowane uzyskane z modelu logitowego i probitowego kształtują się w podobny sposób, wyraźnie różniąc się od wartości dopasowanych pochodzących z modelu liniowego prawdopodobieństwa. /* efekty krańcowe */ quietly logit ins retire $xlist mfx mfx, at(1 75 1 35 12 1 1) /* przecietna wielkość pochodnej */ net serach margeff margeff /* zmiana efektów krańcowych wywołana jednostkową zmianą regresora */ prchange /* model ze zmiennymi endogenicznymi */ global xlist2 female age age2 educyear married hisp white chronic /* */ adl hstatusg probit ins linc $xlist2, vce(robust) global ivlist retire sretire ivprobit ins $xlist2 (linc=$ivlist),vce(robust) W zastosowania w równaniu modelu obok zmiennych objaśniających często występują interakcje. Ich zadaniem jest wskazanie jaki wpływ na zmianę wartości jednej ze zmiennych objaśniających ma inna zmienna objaśniająca. Pomimo tego, że interakcje są często wykorzystywane przez badaczy, równie często wartości parametrów przy takich zmiennych są w nieprawidłowy sposób interpretowane. W przypadku modelu liniowego interpretacja oszacowanej wartości współczynnika dla interakcji jest niemal bezpośrednia. Przyjmijmy następujące oznaczenia. Niech y będzie ciągłą zmienna zależną, której wartość zależy od dwóch zmiennych objaśniających x 1 oraz x 2, ich interakcji, oraz macierzy dodatkowych zmiennych X. Wartości β oznaczają nieznane wartości parametrów modelu, które wymagają oszacowania. Jeżeli zmienne x 1 i x 2 są ciągłe, efekt ich interakcji jest obliczany jako pierwsza pochodna wartości oczekiwanej y względem obu zmiennych 2 E(y x 1, x 2, X) x 1 x 2 = β 12 Jeżeli x 1 i x 2 są dyskretne, to efekt interakcji jest dyskretną różnicą 2 E(y x 1, x 2, X) x 1 x 2 = β 12 5

Ale tak jest w przypadku modelu liniowego. W przypadku modelu nieliniowego, na przykład modelu probit, postać analityczna wyrażenia opisującego warunkową wartość oczekiwaną zmiennej zależnej jest bardziej skomplikowana. Przyjmijmy tym razem, że y jest wskazującą zmienną zero-jedynkową. Wówczas jej warunkowa wartość oczekiwana wynosi E(y x 1, x 2, X) = Φ(x 1 β 1 + x 2 β 2 + x 1 x 2 β 12 + Xβ) = Φ( ) gdzie Φ jest dystrybuantą standardowego rozkładu normalnego. Gdy x 1 oraz x 2 są ciągłe efekt interakcji jest pochodną krzyżową wartości oczekiwanej y. 2 Φ( ) x 1 x 2 = β 12 Φ ( ) + (β 1 + x 2 β 12 )(β 2 + x 1 β 12 )Φ ( ) Jednak większość pakietów statystycznych, a w konsekwencji badaczy, oblicza wartość efektu interakcji jako 2 Φ( ) x 1 x 2 = β 12 Φ ( ) Ponadto, warto wskazać za Ai i Norton (2003): Efekt interakcji może być niezerowy nawet jeżeli parametr β 12 = 0 Statystyczna istotność efektu interakcji nie może być weryfikowana testem t dla parametru β 12 Wartość efektu jest uzależniona od wartości pozostałych zmiennych niezależnych. Odróżnia to modele nieliniowe od modeli liniowych. Efekt interakcji może mieć różny znak dla różnych wartości zmiennych objaśniających. Standardowe polecenie pakietu Stata licząc pochodną zwróci wartość parametru β 12. Buis (2010) pokazał sposób w jaki można zinterpretować efekty interakcji w modelach nieliniowych bez odwoływania się do dodatkowych pakietów. Interpretację wyników wyjaśnimy na podstawie przykładu zaproponowanego przez Buisa (2010). W przykładzie wykorzystano dane z amerykańskiego badania National Longitudinal Survey (NLSW) for employed women. Analizujemy w jaki sposób wpływa ukończenie koledżu (collgrad) na szansę uzyskania dobrej pracy (high occ), tzn. wymagającej wysokich kwalifikacji, przez kobietę rasy czarnej i białej. 6

logit high_occ black##collgrad baseline, or noconstant nolog Logistic regression Number of obs = 2211 Wald chi2(4) = 504.62 Log likelihood = -1199.4399 Prob > chi2 = 0.0000 -------------------------------------------------------------------------------- high_occ Odds Ratio Std. Err. z P> z [95% Conf. Interval] ---------------+---------------------------------------------------------------- 1.black.4194072.0655069-5.56 0.000.3088072.5696188 1.collgrad 2.465411.293568 7.58 0.000 1.952238 3.113478 black#collgrad 1 1 1.479715.4132536 1.40 0.161.8559637 2.558003 baseline.3220524.0215596-16.93 0.000.2824512.3672059 -------------------------------------------------------------------------------- W standardowym podejściu zostałyby oszacowane parametry modelu, a następnie obliczone wartości efektów krańcowych dla zmiennych objaśniających tłumaczące prawdopodobieństwo uzyskania dobrej pracy. W tym przykładzie wykorzystano polecenie logit z opcją or zatem oszacowane wartości współczynników są szansami. W tym przypadku można je interpretować jako oczekiwana liczba osób zatrudnionych w dobrym zawodzie przypadająca na jedną osobę zatrudnioną w złym zawodzie. Szansa dla zmiennej baseline, czyli kategorii odniesienia została uzyskana dzięki zastosowaniu sztuczki. W modelu pominięto stałą dzięki wykorzystaniu opcji noconst a w zamian do zbioru regresorów dołączono zmienną baseline równą 1 dla każdej obserwacji. Szansę dla zmiennej baseline intrepretować należy jako szansę, że biała kobieta która ukończyła koledż posiada pracę wymagającą wysokich kwalifikacji. Wynosi ona 0,32 oznaczając, że należy spodziewać się że na każdą pracującą białą kobietę, która ukończyła koledź i pracuje w zawodzie wymagającym niskich kwalifikacji należy spodziewać się 0,32 kobiety pracującej w zawodzie wymagającym wysokich kwalifikacji. Iloraz szans dla zmiennej collgrad wynosi 2,47 oznaczając, że szansa posiadania zajęcia wymagającego wysokich kwalifikacji jest 2,47 razy wyższa dla kobiet które skończyły koledź. W modelu jest również zawarta zmienna obrazująca interakcję między zmienną collgrad a wskaźnikiem rasy czarnej black, zatem oszacowanie efektu ukończenia koledżu odnosi się do kobiet rasy białej. Efekt ukończenia koledżu dla czarnych kobiet wynosi 1,48 efektu dla białych kobiet. Zatem parametr przy interakcji pokazuje w jaki sposób efekt ukończenia koledżu jest zróżnicowany między białymi a czarnymi kobietami. 7

Wyniki pokazują, iż to ostatnie oszacowanie nie jest statystycznie istotne. Polecenie margins pokazuje szansę otrzymania dobrej pracy dla każdej kombinacji zmiennych black i colgrad. Szansa uzyskania dobrej pracy przez białą kobietę bez ukończonego koledżu wynosi 0,32, a dla kobiety z ukończonym koledźem 0,)79. Zatem efekt krańcowy ukończenia koledżu dla białej kobiety wynosi 0,47. Analogiczny efekt dla kobiety czarnej wynosi jedynie 0,36. Zatem efekt krańcowy zmiennej (collgrad, oznaczające ukończenie koledżu, jest wyższy dla białych kobiet niż czarnych kobiet, podczas gdy efekt mnożnikowy (efekt interakcji) zmiennej (collgrad jest wyższy dla czarnych kobiet niż dla białych kobiet.. margins, over(black collgrad) expression(exp(xb())) post Predictive margins Number of obs= 2211 Model VCE : OIM Expression : exp(xb()) over : black collgrad -------------------------------------------------------------------------------- Delta-method Margin Std. Err. z P> z [95% Conf. Interval] ---------------+---------------------------------------------------------------- black#collgrad 0 0.3220524.0215596 14.94 0.000.2797964.3643084 0 1.7939914.078188 10.15 0.000.6407457.9472371 1 0.1350711.0190606 7.09 0.000.097713.1724292 1 1.4927536.1032487 4.77 0.000.29039.6951173 -------------------------------------------------------------------------------- Literatura [1] Ai, C i Norton E. (2003) Interaction terms in logit and probit models, Economic Letters, vol. 80, pp. 123-129. [2] Buis, M. (2010) Stata tip 87: Interpretation of interactions in nonlinear models, Stata Journal, vol 10, Number 2, pp. 305-310. [3] Cameron, A.C. i Trivedi, P.K.. (2009): Microeconometrics Using Stata, Stata Press. [4] Cameron, A.C. i Windmeijer, F.A.G. (1993): R-Squared Measures for Count Data Regression Models with Applications to Health Care Utilization, Dept. of Economics Working Paper 93-24, University of California at Davis. 8

[5] Veall, Michael R. i Zimmermann, Klaus F. (1996) Pseudo-R2 Measures for Some Common Limited Dependent Variable Models. Collaborative Research Center 386, Discussion Paper 18. [6] Williams Richard (2011) Comparing Logit and Probit Coefficients Between Models and Across Groups. 9