Plan zajęć 1 Problem selekcji próby- heurystyka 2 Problem selekcji próby- teoria 3 Przykład empiryczny
Selekcja próby 1 regresja tobitowa- cenzurowanie(transformacja) zmiennej objaśnianej 2 regresja ucięta- próba nie zawiera obserwacji, dla których zmienna objaśniana jest mniejsza(większa) niż ustalony próg (y C).Efekt:próbaobciążona 3 model selekcji(heckman): również próba obciążona, ale poprzezbardziejskomplikowanywarunekniży C.
Model Heckmana y 2 =γ T z+u 2 (1) y 1 =β T x+u 1 (2) 1 Zmienney 1 ixsąobserwowanetylkodlatychobserwacji,dlaktórychy 2 C. C=0zreguły. 2 Dodatkowo,zamiasty 2 obserwujemy1(y 2 C). 3 Równanie(1)- model dwumianowy 4 Równanie(2)- model liniowy(czasami również dwumianowy) 5 Interesują nas parametry β z drugiego równania. Pierwsze mówi tylko, na czym polega obciążenie próby w pierwszym kroku. 6 Wektoryzmiennychobjaśniającychxizmogą,aleniemusząmiećczęść wspólną. 7 Gdyu 1 iu 2 sąnieskorelowane-niemaproblemuselekcji,możnadrugierównanie estymować MNK. Im większa korelacja, tym silniejszy wpływ selekcji próby.
Przykład- credit scoring 1 Pewna populacja ubiega się o kredyt. 2 Tylkonielicznymudzielasiękredytu(selekcja:y 2 =1jeżeliudzielono,y 2 =0 jeżeli nie udzielono). 3 Dla tych, którym udzielono kredytu obserwujemy zmienną określającą fakt spłacenialubnie(y 1 =1jeżelispłacił,y 1 =0jeżeliniespłacił). 4 Problem estymacji modelu dwumianowego objaśniającego prawdopodobieństwo spłaty kredytu. 5 Próba nie jest reprezentatywna(filtrowana selekcją opartą np. o działający model scoringowy). 6 Przypuśćmy, że chcemy zaktualizować/zbudować nowy model scoringowy na podstawie dostępnych danych. 7 Przypuśmy, że w oryginalnej populacji studenci(dla ustalenia uwagi- można w to miejsce wstawić dowolną inną grupę) są złymi kredytobiorcami(często nie spłacają).
Przykład- credit scoring 1 Model scoringowy zbudowany na oryginalnych danych uchwyci tę regułę. 2 Skutek: większość studentów nie będzie otrzymywać kredytu. Kredyt dostaną tylko nieliczni studenci, którzy mieli pozytywne wartości na pozostałych zmiennych objaśniających i dla nich prawdopodobieństwo niespłacenia jest niskie. 3 Skutek: w grupie osób, które otrzymały kredyt będą studenci, ale tacy, którzy często spłacają kredyt. 4 Przy aktualizacji/budowie nowego modelu na danych filtrowanych starym modelem scoringowym, nowy model uchwyci regułę student to dobry kredytobiorca. 5 Skutek: model uchwyci relację odwrotną do rzeczywistej!
Model selekcji próby Heckmana y 2 =γ T z+u 2 (3) y 1 =β T x+σu 1 dla y 1 >0 (4) u 1,u 2 N(0,1),Corr(u 1,u 2 )=ρ
Estymacja E[u 1 u 2 ]=ρu 2 φ(c) E[u 1 u 2 >C]=E[ρu 2 u 2 >C]=ρE[u 2 u 2 >C]=ρ 1 Φ(C) W modelu regresji: E[y 1 y 2 >0]=β T x+σe[u 1 y 2 >0]=β T x+σe[u 1 u 2 > γ T z]= β T x+σe[ρu 2 u 2 > γ T z]=β T x+σρλ(γ T z)
Estymacja, cd. Dwustopniowa procedura: 1 OszacujmodelprobitowyP(y 2 >0)=Φ(γ T z).użyjˆγdo obliczeniaodwrotnegoilorazumillsaˆλ. 2 OszacujzapomocąMNKmodelregresjiy 1 odxiˆλ wykorzystując dostępne obserwacje. alternatywa: metoda największej wiarygodności
Przykład- zarobki 1 Równanie(1): zmienna objaśniana: fakt, czy dana osoba pracowała 2 Równanie(2): zmienne objaśniające: wiek, wiek do kwadratu, dochód rodziny, wykształcenie, dzieci 3 Równanie(2): zmienna objaśniana: płaca(ww) 4 Równanie(2): zmienne objaśniające: doświadczenie, doświadczenie do kwadratu, wykształcenie, fakt, czy osoba mieszka w dużym mieście 5 http://www.stern.nyu.edu/~wgreene/text/edition6/tablef4-1.txt 6 Informacje o zarobkach są dostępne tylko dla tych, którzy pracowali
Komendy staty 1 Tobit:tobitYX1X2,ll.Opcjalloznacza,żeobserwacjesą cenzurowane z dołu. Program domyślnie wybierze jako punkt cenzurowania najmniejszą wartość zmiennej objaśnianej w próbie. 2 Regresja ucięta: truncreg Y X1 X2, ll(0). Wyrażenie ll(0) oznacza, że obcięcie jest w zerze. 3 Model Heckmana metodą największej wiarygodności: heckmanyx1x2select(y2=x3x4)ametodą dwukrokową heckman Y X1 X2 twostep select(y2 = X3 X4) rhoforce. 4 Test na niezależność równań: LRtestofindep.eqns.(rho=0):chi2(1)=234.62Prob> chi2 = 0.0000