Mkroekonometra 6 Mkołaj Czajkowsk Wktor Budzńsk
'Netypowe' zmenne objaśnane Problemy mkroekonometryczne często zmenna objaśnana ne jest cągła lub jej wartość ne ma bezpośrednej nterpretacj loścowej Zmenną objaśnaną jakś wskaźnk o ocenzurowanych wartoścach np. decyzja o zakupe, głosowane, wybór spośród dostępnych alternatyw, deklarowany pozom jakejś welkośc (w podanej skal) tp. Wynkem optymalzacj może być rozwązane brzegowe Estymatory MNK ne są zgodne -> estymacja MNW
'Netypowe' zmenne objaśnane Przykłady model dla necągłych zmennych objaśnanych Wybór bnarny (ang. bnary choce) Wybór jednej z dwóch możlwośc Np. podjęce dzałana czy ne dojazd transportem publcznym, kupno ubezpeczena 0/1 oznacza ne/tak Wybór welomanowy (ang. multnomal choce) Wybór jednej z węcej nż dwóch możlwośc Tej, która dostarcza najwększej użytecznośc Pozwala modelować preferencje konsumentów Np. wybór mark, produktu, sposobu dojazdu do pracy 0/1 oznacza ne wybraną/wybraną alternatywę
'Netypowe' zmenne objaśnane Przykłady model dla necągłych zmennych objaśnanych Wybór uporządkowany (ang. ordered choce) Wybór jednej z welkośc na podanej skal Ujawna słę preferencj Np. ocena flmu, własnego stanu zdrowa, zadowolena z produktu, mejsce w rankngu Wartośc lczbowe są na skal porządkowej, ne absolutnej 4 oznacza lepej nż 2, ale nekoneczne 2 razy lepej Lczność zdarzeń (ang. event counts) Obserwowane są welkośc całkowte Np. lczba wzyt u lekarza, w parku narodowym, na basene, lczba zachorowań, aresztowań, dzec, lczba wadlwych sztuk w procese produkcyjnym w cągu roku
Modele bnarne Obserwujemy wynk (Y = 0 lub Y = 1) Interesuje nas jak można go przewdywać Prawdopodobeństwo Y = 0 / prawdopodobeństwo Y = 1 Funkcja zmennych objaśnających X, Pr(Y) = Xβ Jake pownny być parametry (β)? Jaka jest nterpretacja takego modelu? Jak jest wzór na to prawdopodobeństwo, jako funkcja Xβ? W jak sposób wykorzystać dane (obserwacje) do oszacowana β?
Modele bnarne modele dla zmennej ukrytej Modele bnarne można znterpretować jako modele funkcj wskaźnkowej Wyjaśnana jest losowa, cągła zmenna y* ale obserwowana jest tylko zmenna bnarna y, która przyjmuje wartość 0 lub 1 w zależnośc od tego, czy y* przekracza wartość granczną (np., po normalzacj, 0) y y = βx+ ε Pr 1 Pr 0 jeśl y > 1 0 ne jest obserwowalne, obserwujemy tylko: y = [ y= X] = y > jeśl y = Pr[ βx + ε > 0] F jest dystrybuantą ε = Pr[ ε < βx ] = F ( βx ) Pozostaje tylko wybrać odpowedn rozkład ε 0 0 Zwykle o gęstośc symetrycznej względem 0
Modele dla zmennej ukrytej Modele funkcj wskaźnkowej Np. obserwujemy 1 gdy student ngdy ne mał żadnych warunków, 0 jeśl mał Tworzymy funkcję wskaźnkową, w której y wyjaśnane jest zmennym socjodemografcznym studentów X (wek, płeć, IQ, dochód, rok studów, ) stałą Stała pozwala znormalzować wartość granczną do 0 Jeśl wyberzemy jakś rozkład ε to wzór na prawdopodobeństwo (dystrybuantę) będze znany O tym za chwlę -> logt, probt = βx+ ε Znając wzór na to prawdopodobeństwo Pr możemy zastosować jakąś metodę estymacj = F parametrów β, która pozwala nam znaleźć take ch oszacowana, żeby nasz model najlepej pasował do obserwowanych wynków O tym już było -> maksymalzacja funkcj najwększej warygodnośc y jeśl y > 1 0 y = 0 jeśl y 0 [ y X] Pr = 1 = Pr y > 0 = Pr + > 0 [ βx ε ] [ ε βx ] ( βx ) = <
Modele bnarne normalzacja składnka losowego Warancja przyjętego rozkładu składnka losowego ne ma znaczena ε ma średną = 0 (jeśl model ma stałą to to też ne ma znaczena) jakąś warancję σ (ne wadomo jaką) Model będze ten sam jeśl polczymy Co jest tożsame z y = 1 βx + ε > 0 βx ε y = 1 + > 0 σ σ y = 1 γx + w> 0 Gdze w to jakś rozkład o średnej 0 warancj 1 Można przyjąć warancję = 1, przeskalują sę tylko parametry, model ten sam Normalzacja warancj (lub jednego z parametrów) jest koneczna dla dentyfkowalnośc modelu
Logt / probt Typowo zakładane składnk losowy (ε) ma rozkład: Logstyczny ( ) f x x μ exp σ = x μ σ 1+ exp σ 2 Normalny Zakładamy rozkład standardowy (μ = 0, σ = 1) Ne ma to znaczena, bo najwyżej parametry β będą wększe, żeby pozom 'losowośc' był odpowedn Dystrybuanta Dystrybuanta exp Λ ( x) = 1 + exp ( x) ( x) Mamy wzór na Pr, który możemy wykorzystać w estymacj! -> Model logt -> Model probt ( ) f x 1 = exp σ 2π x Φ = ( x) φ ( ) z dz ( x μ ) 2 2σ 2
Rozkład logstyczny vs. normalny
Logt / probt / lnowy model prawdopodobeństwa Predcted probablty -.5 0.5 1 1.5 Predcted Probabltes Across Models Actual Data (jttered) Logt Probt OLS -2 0 2 4 Log relatve prce (lnrelp)
Logt / probt który wybrać? Rozkład logstyczny przypomna normalny (symetryczny dzwon, trochę grubsze ogony), ale ma wzór na dystrybuantę w postac zamknętej Probt Upraszcza oblczena / umożlwa rozwązane analtyczne Pozwala nterpretować parametry jako stosunek log-oddsów Może być bardzej uzasadnony w przypadku normalnego rozkładu zmennej ukrytej Praktyczne ne ma różncy Istneją testy dla porównywana nezagneżdżonych model, ale w tym przypadku prawe zawsze ne dają jednoznacznego wynku Poneważ logt ma grubsze ogony, w próbach w których obserwacje są bardzo nesymetryczne (znaczne węcej 0 lub 1) lub jest bardzo duża warancja ważnej zmennej objaśnającej różnce mogą być wększe
Logt / probt parametry Poneważ logt probt wykorzystują różne funkcje prawdopodobeństwa, oszacowana parametrów będą różne Jako 'reguła kcuka': ˆ β ˆ β ˆ β logt probt logt 4 ˆ βmnk 2,5 ˆ β 1,6 ˆ β Ale to oczywśce bardzej skomplkowane Absolutne wartośc parametrów tak ne mają znaczena Ne tak jak w MNK! Dlaczego? Bo parametry wykorzystywane w nnych funkcjach Jeśl już, to lepej porównywać efekty krańcowe (pochodne) Jak zmenne objaśnające wpływają na zmanę prawdopodobeństwa danego wyboru MNK probt
Logt / probt nne modele dla wyboru bnarnego Inne rozkłady składnka losowego, które ne zakładają symetrycznośc: Gumbel, Gompt, Gompertz (ε ma rozkład wartośc ekstremalnych) CDF ( x) = exp( exp( x) ) Complementary log log CDF ( x) = 1 exp( exp( x) ) I nne (np. arctangens, burr (scobt), ) Wynk mogą sę czasem znaczne różnć od wynków logtu probtu Przydatne, gdy jeden z wynków jest rzadk Np. mały odsetek 'tak' w próbe
Standardowy rozkład wartośc ekstremalnych
Funkcje gęstośc.4 1 9.3 3 5.2 5 1 PDF.1 6 8.0 8 4.0 0 0-3 -2-1 0 1 2 3 Z DPROBIT DLOGIT DCL OGL OG DGOM PIT
Dystrybuanty 1.00.8 9.7 8.6 6 CDF.5 5.4 4.3 3.2 2.1 1.0 0-3 -2-1 0 1 2 3 Z PROBIT LOGIT CLOGLOG GOM PIT
Estymacja metoda najwększej warygodnośc Zaobserwowalśmy ( X ) = Y,, dla 1,..., N Zmenna zależna (Y ) ma rozkład Bernoullego (bnarny z 1 powtórzenem) Funkcja prawdopodobeństwa masy Co sę dzeje z tą funkcją gdy Y = 1? A gdy Y = 0? Zawsze dostajemy p lub ( 1 p ) U nas p = F( βx ) węc Y 1 ( ) = ( 1 ) X f Y p p 1 ( ) ( X ) = ( βx ) 1 ( βx ) Y Y f Y F F Y
Estymacja metoda najwększej warygodnośc Funkcja prawdopodobeństwa masy 1 f( Y ) = ( ) ( 1 ( )) X F βx F βx Y Y Obserwacje są nezależne. Jaka jest szansa, że dostanemy tak zbór obserwacj, jak mamy? N 1 ( ) Y ( β dane) = ( βx ) 1 ( βx ) L F F = 1 Funkcja warygodnośc (ang. lkelhood functon) Chcemy znaleźć take β, żeby zmaksymalzować tę funkcję Czyl, żeby nasz model mał take parametry, żeby przewdywał take prawdopodobeństwa, które dają najwększą szansę takego wynku, jak dostalśmy Y
Estymacja metoda najwększej warygodnośc Szukamy maksmum funkcj warygodnośc: N 1 ( ) Y ( β dane) = ( βx ) 1 ( βx ) L F F = 1 Jest ono w tym samym punkce, co maksmum logarytmu z funkcj warygodnośc (logarytm to funkcja monotonczne rosnąca), a wygodnej maksymalzować coś takego: ( β ) = ( βx ) + ( ) ( βx ) ( ( )) N ln L dane Y lnf 1 Y ln 1 F = 1 W praktyce dość prosto sę lczy Dla każdej obserwacj wząć prawdopodobeństwo uzyskanego wynku (tak lub ne) Zsumować Zmaksymalzować funkcję po β Y
Estymacja metoda najwększej warygodnośc* Maksymalzacja Lczymy pochodne ( βx ) ( ) ( βx ) ( ) lnl Yf f = + β βx βx N ( 1 Y) = 1 F 1 F gdze f ( βx ) jest funkcją gęstośc, f( βx ) = F( βx ) ( βx ) W zależnośc od wybranej formy F dostajemy np. logt lub probt X
Estymacja metoda najwększej warygodnośc* Dla modelu logt warunk koneczne to: N lnl = (( Λ ( )) ) = Y βx X 0 β = 1 Czyl średne oczekwane prawdopodobeństwa muszą być równe udzałow 1 w obserwacjach Pomyśl o Y Λ( βx ) jak o resztach w MNK ( ) Hesjan też jest dość prosty do wyznaczena: 2 N lnl H= = Λ Λ βx βx X X β β = 1 ( ( )( ( )) 1 ) Do optymalzacj można wykorzystać metodę Newtona
Estymacja metoda najwększej warygodnośc* Dla modelu probt warunk koneczne to: lnl φ( βx ) φ( βx) X = Φ( ) X β Y 0 1 βx Y = 1 Φ( βx ) = + = 0 A poneważ jeśl rozkład jest symetryczny to ( ) ( ) ( ) N lnl 2Y φ 1 2Y 1 βx = = X 0 β (( ) ) = 1 Φ 2Y 1 βx dφ ( z) Hesjan modelu probt, korzystając z tego, że = zφ ( z) dz 2 N lnl ( 2Y 1) φ( ( 2 1) ) ( 2 1) φ( ( 2 1) ) Y βx Y Y βx H= = + βx XX β β = Φ( ( ) ) Φ( ( ) ) 1 2Y 1 βx 2Y 1 βx Do optymalzacj można wykorzystać metodę Newtona ( βx ) F( βx ) 1 F = 2015-11-05 17:25:32
Macerz AVC estymatora MNW* Jeśl znamy postać wartośc oczekwanej Hesjanu LL, to: Można oszacować dla Nestety zwykle jest to trudna nelnowa funkcja danych o neznanej wartośc oczekwanej Alternatywa 1: AVC ( θ ) 0 0 Po prostu berzemy Hesjan ( θ ) 2 lnl 0 = E θ θ 0 0 ˆθ ( θ) lnl AVC ( θˆ ) = ˆ ˆ θθ 2 ˆ Dla nektórych model wyznaczene Hesjanu może być skomplkowane lub czasochłonne 1 1
Macerz AVC estymatora MNW* Aternatywa 2: ( ˆ ) AVC θ N = gˆˆ g = 1 1 gdze ( ˆ ) ln f X, θ = lnθˆ Ne wymaga żadnych nnych oblczeń poza tym, które tak trzeba wykonać maksymalzując funkcję LL Zawsze neujemne określony Nazywany estymatorem BHHH gˆ
Estymacja metoda najwększej warygodnośc Estymację robą za nas zwykle pakety statystyczne Ale jak wdać jest to dość proste, da sę polczyć na pechotę Hesjan modelu logt/probt jest ujemne określony Funkcja LL jest globalne wklęsła Istneje globalne maksmum Estymator MNW jest zgodny Estymator MNK ne jest Parametry mają asymptotyczny rozkład normalny Asymptotyczna macerz warancj-kowarancj (ang. asymptotc varance covarance matrx, AVC) może być oszacowana jako odwrotność hesjanu dla optymalnych oszacowań MNW Stąd mamy błędy standardowe parametrów
Przykład posadane kochanka 1. Wczytaj projekt me.affars.lpj Dane z ankety 6366 mężatek (magazyn Redbook) 2. Ile % kobet w próbe mało kedykolwek romans? 3. Sprawdź, jake zmenne mogą pomóc to przewdywać LOGIT ;... $ OLS podaje także oszacowana lnowego modelu prawdopodobeństwa (używane jako wartośc startowe)
Przykład posadane kochanka Interpretacja wynków Wartość funkcj LL Wartość funkcj LL 0 Lczba zmennych Lczba obserwacj Oszacowana parametrów Błędy standardowe Statystyka z, p-value 95% przedzał ufnośc Asymptotyczna macerz warancj-kowarancj Logl_obs ndywdualny wkład obserwacj do funkcj LL
Wartość funkcj LL zawsze ujemna Funkcja LL: ( β ) = ( βx ) + ( ) ( βx ) Logarytm z prawdopodobeństwa (<1) zawsze ujemny Funkcja LL zawsze ujemna ( ( )) N ln L dane Y lnf 1 Y ln 1 F = 1 Osąga teoretyczne maksmum w 0
Przykład 2 zakup eko-jabłek 1. Wczytaj projekt me.apples.lpj 2. Oszacuj model, w którym gotowość do zakupu dodatnch lośc ekojabłek wyjaśnana jest przez: Pozom edukacj respondenta Cenę zwykłych jabłek Cenę eko-jabłek To, czy wybór dokonywany jest w sezone To czy respondent był mężczyzną Dochód rodzny Lczbę członków rodzny w każdej kategor wekowej 3. Co dzeje sę z modelem, jeśl dodatkowo uwzględnć welkość rodzny?
Pomar 'dopasowana' modelu Po estymacj modelu zwykle raportowane są: Wartość funkcj LL w optmum (w punkce konwergencj) Wartość funkcj LL 'w 0' (model wykorzystujący tylko stałą) Odpowada założenu, że wszystke parametry w modelu nestotne Ne ma mary R 2 z MNK Pewnym rozwązanem jest Pseudo-R 2 (klka wersj) Mary oparte na wartośc funkcj LL (wele wersj): L( β) ( Y) 2 1 ln McFadden's pseudo-r = = 1 lnl lnl lnl Im model lepej dopasowany tym R 2 blższe 1 Ale przedzał mędzy 0 a 1 ne ma nterpretacj naturalnej Ne wemy, gdze jest zero Z powodu stnena składnka losowego model ne osąga 1 0 [0,1)
Pomar 'dopasowana' modelu Kryterum nformacyjne Akake (AIC) AIC = 2k 2lnL( β) AIC skorygowane (dla skończonej próby) 2k( k+ 1) AICc = AIC + N k 1 Bayesowske kryterum nformacyjne (BIC, Schwarza) BIC = klnn 2lnL( β) Znormalzowane podzelone przez N Jak w modelu lnowym ne jest to kryterum 'statystycznego' porównana, ale często używane Mów, który model lepej pasuje do danych Ne mów czy dobrze, o le lepej czy stotne lepej W porównanu z pseudo-r 2 przynajmnej berze pod uwagę lczbę zmennych objaśnających
Pomar 'dopasowana' modelu Mary oparte na przewdywanu prawdopodobeństw Średne prawdopodobeństwo poprawnych predykcj Problem gdy obserwacje w próbe są nesymetryczne Mary oparte na przewdywanu wynków Tabela poprawnych nepoprawnych predykcj Błędy I II typu trade-off ( ˆ( ) ( )( ˆ Xβ ( Xβ ))) N 2 1 BenAkva Lerman' s pseudo-r = YF + 1 Y 1 F N Ile % poprawnych predykcj ma nawna reguła Y = 1? ; output = IC ; summarze ; lmt = 0.5 = 1
Inne mary 'dopasowana' 2 lnl Estrella's pseudo-r = 1 lnl0 2lnL 0 N ( ( 0 ) ) 2 R ML= 1 exp 2 lnl lnl N N N ( Y ˆ P) ( Y Y ) Efron = 1 = 1 = 1 2 2 2 N N 2 Veal = McFadden's-R 1 McFadden's-R 2lnL0 2lnL0 ( Pˆ ) ś ( ˆ Y P Y ) Cramer = średna = 1 redna = 0
Przykład eko-jabłka c.d. 1. Sprawdź który model najlepej dopasowany do danych Logt Probt Gompertz Comploglog Arctangent Burr 2. Czy można to zrobć w oparcu o mary 'dopasowana'? Inne subkomendy Keep =... zachowuje przewdywane wartośc Y Prob =... zachowuje prawdopodobeństwa Res =... zachowuje reszty {-1,1} Lst wyśwetla to wszystko
Praca domowa ME.6 wydatk na lekarza w USA 1. Wczytaj projekt me.usahealth.lpj 2. Sprawdź czy następujące zmenne mogą pomóc przewdzeć, czy ktoś skorzystał z pomocy lekarskej Udzał własny w kosztach opek medycznej Stan zdrowa Czynnk socjodemografczne 3. Wyberz najlepszy model Do przygotowana w grupach trzyosobowych 2015-11-05 17:25:32