Ćwczena 7 Druge zajęca w pracown komputerowej. Uruchom Statę. /standardowo:/ set mat 800 set mem 00m /wczytane zboru danych dane_4.dta / use "x:\trybnk\dane_4.dta", clear TROCHĘ PROSTEJ GRAFIKI W STACIE: /wykres pudełkowy/ graph box p0, yttle ("Roczny dochod") /w podgrupach zmennej płeć/ /proszę porównać jak na podgrupy dzel opcja over, a jak by / graph box p0, over(pd0) over(pl08) yttle ("Roczny dochod") graph box p0, by(pd0 pl08) yttle ("Roczny dochod") /hstogram/ hstogram /w podzale na grupy wykształcena/ hstogram, yttle ("Wek") by(pe07) / ręczne regulowana lość słupków/ hstogram, yttle ("Wek") bn(7) hstogram, yttle ("Wek") bn(700) /grafczna prezentacja estymacj funkcj gęstośc weku/ twoway hstogram kdensty /wykres rozrzutu scatter plot/ /wykres rozrzutu zarobków weku/ scatter p0 /w podzale na płeć/ twoway scatter p0, by(pd0)
/z dopasowanym lnam regresj/ twoway (scatter p0, yttle("zarobk")) (lft p0 ), by(pd0) /a jak dopasować nelnowy (kwardatowy) wpływ weku na zarobk?/ /ZMIENNE ZEROJEDYNKOWE/ Chcemy oszacować model postac (model zarobków w zależnośc od weku wykształcena): p0 = β + β + β pe07 + ε 0 1 Skorzystajmy najperw z nepoprawnej specyfkacj modelu: reg p0 pe07 Dlaczego ta specyfkacja jest nepoprawna? Aby Stace dać do zrozumena, że jakaś zmenna jest dyskretna należy rozkodować jej kategore na zestaw zmennych zerojedynkowych przed wprowadzenem tej zmennej do modelu, należy całą komendę regresj ją poprzedzć wyrażenem x: (proszę sobe sprawdzć: help x), zaś zmenną dyskretną wyrażenem.. Czyl: x: reg p0.pe07 Znterpretuj wynk. /stwórz następujący model: p0 = β0 + β1 + β pe07 + β3 pd05 + β4 pd0 + ε Znterpretuj oszacowana./ Warto zwrócć uwagę, że jako pozom bazowy Stata przyjmuje kategorę zmennej, której przypsana jest najmnejsza wartość lczbowa. W tym sense użytkownk ne ma kontrol nad tym, który pozom zmennej dyskretnej z modelu wykluczyć traktować jako kategorę odnesena przy nterpretacj parametrów. Pamętając jak rozkodowuje sę zmenne, jesteśmy jednak w stane zrobć to ręczne, co pozwol nam kontrolować kategore bazowe. Przykładowo: gen p1=1 f pd0==1 replace p1=0 f p1==. gen p=(pd0==) /teraz zmennych p1 p ne trzeba już rozkodowywać/ /porównajmy węc trzy modele:/ reg p0 p1 reg p0 p reg p0 p1 p /Ćwczene A: Czy rzeczywśce wększość kategor stanu cywlnego mus być w modelu nestotna? Zbuduj model: p0 = β0 + β1 + β pd 0 + β3 pe07 + β4stan_cyw + ε w którym zmenna stan_cyw przyjmuje wartośc: 1 dla osób w stane małżeńskm, dla osób wolnych z dośwadczenem w małżeństwe (osoby w separacj, po rozwodze oraz wdowy/wdowcy) 3 dla osób wolnych bez dośwadczena w zwązku małżeńskm. Nech
pozomem bazowym zmennej stan_cyw będą osoby wolne, które ne mają dośwadczena w zwązku małżeńskm, dla wykształcena: wykształcene średne, a dla płc mężczyźn./ / UWAGA! Istneje łatwejszy sposób na określene kategor bazowej zmennej. Taką kategorę można zdefnować w następujący sposób: char nazwa_zmennej[omt] # gdze nazwa_zmennej odnos sę do zmennej, której kategorę bazową ustalamy, zaś # to wartość reprezentująca tę kategorę. Przykładowo, chcąc ustalć, żeby w modelu zarobków, w którym jednym z determnantów jest stan cywlny, pozomem bazowym tego ostatnego były osoby wolne bez dośwadczena małżeńskego (kategora oznaczana wartoścą 3), możemy przykładowo wykonać polecena: char pd05[omt] 3 x: reg p0.pe07.pd05 / Efekty progowe stosowane do zmennych dyskretnych o uporządkowanych kategorach (rosnąco lub malejąco), nazywane też czasem zmennym porządkowym. Przy standardowym rozkodowanu zmennej dyskretnej na zmenne zerojedynkowe, kategore wprowadzone do modelu nterpretuje sę względem kategor w modelu neuwzględnonej (bazowej, referencyjnej). Ne wadomo natomast jak zmena sę pozom analzowanego zjawska przy przejścu z jednej kategor wprowadzonej do modelu do drugej. Na taką nterpretację pozwalają efekty progowe, które dla przypadku naszej zmennej wykształcene ( pe07 ) wymagają następującego jej rozkodowana: gen w=(pe07>=) gen w3=(pe07>=3) Wtedy model p0 = β0 + β1 + β pe07 + β3 pd 05 + ε efektam progowym dla wykształcena można oszacować przy użycu polecena: x: reg p0 w w3.pd05 /w jak sposób należałoby przekształcć zmenną pd05 (stan cywlny), aby uwzględnć w modelu efekty progowe dla tej zmennej? Jeśl masz jakś pomysł, to spróbuj go zrealzować/ Interakcje Spróbujmy oszacować model z Ćwczena A przy założenu, że wek w różny sposób wpływa na dochody kobet mężczyzn (bardzej stymuluje dochody mężczyzn). Jest to obserwacja, którą poczynlśmy już wcześnej, analzując wykresy rozrzutu zarobków w podzale na płeć, a węc tak postawone pytane badawcze wydaje sę być zasadne. Dla pewnośc, zmenne do tego modelu można było utworzyć na przykład tak: gen pd05=pd05 recode pd05 1=1 3=3 = 4= 5= gen sc_1=(pd05==1) gen sc_=(pd05==) gen sc_3=(pd05==3) gen wyk_1=(pe07==1) gen wyk_=(pe07==)
gen wyk_3=(pe07==3) A oszacować go tak: x: reg p0.pd0 sc_1 sc_ wyk_1 wyk_3 Odpowedzeć na take pytane badawcze można szacując model z nterakcją pomędzy wekem, a płcą. Przybrałby on wtedy następującą postać: p0 = β0 + β1 + β pd0 + β3 pd0 + β4 pe07 _1 + β5 pe07 _ 3 + β6sc _1 + β7sc _ + ε Co w Stace można by oszacować przy użycu polecena: x: reg p0.pd0* sc_1 sc_ wyk_1 wyk_3 A co zmen zlogarytmowane zmennej zależnej? gen l_p0=ln(p0) x: reg l_p0.pd0* sc_1 sc_ wyk_1 wyk_3 Nelnowy wpływ zmennych objaśnających Często wek podejrzewany jest o nelnowy wpływ na zarobk do pewnego momentu stymuluje on zarobk, potem jednak zwykle je wyhamowuje (przypomnjmy sobe wykresy rozrzutu zarobków w funkcj weku). Model dochodu nelnowy wpływ weku uwzględnć może poprzez (przykładowo) dodane do nego weku w kwadrace: gen =^ x: reg p0.pd0 sc_1 sc_ wyk_1 wyk_3 UWAGA! Ważne pytane: Jak będze wpływ na zarobk jednostkowego wzrostu weku? Żeby odpowedzeć na to pytane, polczmy wartość oczekwaną zarobków dla weku równego np. 1 wększego o jednostkę: E( p0 = 1) = + b 1 + b 1 + E( p0 1 1) b ( 1 1) b ( 1 1) = + = + + + + + = E( p0) = b + b + b 1 = + b 1 + b + b 1 + b 1 + b + A węc zmana tej wartośc oczekwanej jest funkcją weku! Czyl naczej zmeną sę oczekwane zarobk osoby 5-co letnej wraz ze wzrostem jej weku o rok, a naczej osoby 60-co letnej. Z oszacowań parametrów wynka: b = 887.9 b = 8.9 Czyl dla osoby 5-co letnej, wzrost weku spowoduje: 887.9 + ( 8.9) + ( 8.9) 5 = 1414 a węc wzrost oczekwanych (rocznych) zarobków o 1414. Zaś dla osoby 60-co letnej: 887.9 + ( 8.9) + ( 8.9) 60 = 609 a węc spadek o 609.
Normalność składnka losowego Z uwag, na wykorzystywane w KMRL założene o normalnośc rozkładu składnka losowego, chcemy, żeby zmenna objaśnana równeż posadała rozkład możlwe blsk normalnemu. Często sę zdarza, że modelowane zjawska posadają prawoskośne rozkłady (np. zarobk) często w takej sytuacj pomaga logarytmowane zmennej zależnej (ne jest to sposób, który zawsze dzała). Sprawdźmy: hst p0 gen lnp0=ln(p0) hst lnp0 UWAGA! Istneje wele przekształceń, które są w stane przekształcć rozkład zmennej zależnej w rozkład przypomnający pożądany rozkład normalny. Problemem z wększoścą takch przekształceń jest taka zmana formy funkcyjnej modelu, że w zasadze unemożlwa ona nterpretację parametrów modelu. Zaproponowane wyżej przekształcene logarytmczne elmnuje asymetrę prawostronną, pozostawa jednak bardzo zgrabną nterpretację parametrów modelu. W oblczu wyboru pomędzy uzyskanem dealnej formy funkcyjnej, której oszacowań ne będzemy w stane znterpretować, a wykorzystanu w pewen sposób ułomnej formy funkcyjnej, pozwalającej jednak odpowedzeć na pytana badawcze, w mom przekonanu wybór ten paść pownen na druge rozwązane. Jak sę późnej Państwo dowece, stneje test dagnostyczny, pozwalający pokreślć na le wykorzystana forma funkcyjna spełna oczekwana. Modele sprowadzane do lnowych (na przykładze funkcj produkcj Cobba-Douglasa) Zbór cobb.dta zawera nformacje dotyczące produkcj oraz jej czynnków (kaptału pracy). Naszym zadanem jest oszacowane funkcj produkcj Cobba-Douglasa, a węc modelu postac: 1 produkcja = C kaptal praca e ε β β Oczywśce ne jest to model lnowy, ale możemy go do takego sprowadzć poprzez obustronne zlogarytmowane: 1 ln( produkcja ) = ln( C kaptal β praca β e ε ) ln( produkcja ) = ln C + β ln( kaptal ) + β ln( praca ) + ε 1 W Stace: gen lnp=ln(produkcja) gen lnk=ln(kaptal) gen lnpra=ln(praca) reg lnp lnk lnpra /jaka będze nterpretacja oszacowań?/
TESTOWANIE HIPOTEZ Otwórzmy zbór dane_3.dta. Oszacujmy model: ln( p0 ) = β0 + β1 pd0 + β pl08 + β3 pe07 _ + β4 pe07 _ 3 + β5 + β6 + ε Do modelu dochodów często oprócz weku dodaje sę jego kwadrat. Pozwala to uwzględnć fakt, że do pewnego weku dochody zwykle rosną, ale od pewnego weku zaczynają maleć. Kwadrat weku zwykle pozwala lepej dopasować model do danych. x: reg lnp0.pd0.pl08.pe07 Aby przetestować hpotezę prostą: H0 : β = 1 (co to znaczy?) używamy polecena: test _Ipl08_=-1 Testowane hpotez łącznych odbywa sę z użycem tej samej komendy, każdorazowo (począwszy od drugego odranczena narzucanego na model) zakończonej przecnkem komendą accum. Przykładowo, gdy chcemy przetestować hpotezę: H β β = 1 1 0 : β3 = β4 posłużymy sę polecenam: test _Ipl08_=1-_Ipd0_/ test _Ipe07_=_Ipe07_3, accum Ćwczene: Dla modelu ln( p0 ) = β0 + β1 pd 0 + β pl08 + β3 pe07 _ + β4 pe07 _ 3 + β5wek + β6wek + ε przetestuj hpotezy: H : β = 1 a. 0 5 β1 = 0,5 ( co to znaczy?) b. H0 : β = 0,8 ( co to znaczy?) β4 = β3 ( co to znaczy?) c. ręczne przetestuj hpotezę: β1 = 0,3 H0 : β4 = β3 Ręczne, czyl najperw wprowadź ogranczena do modelu, oszacuj model z ogranczenam, wyznacz statystykę testową oraz podejmj decyzję. Zobrazowane wynków nektórych robonych przez nas na ćwczenach zadań: Wróćmy do danych dane_4.dta.
/Wykorzysując do tego model : p0 = β0 + β1 + β pe07 + β3 pd 05 + ε sprawdź empryczne fakt udowodnony przez nas na ćwczenach, a manowce: a. wpływ przeskalowana zmennej objaśnanej b. wpływ przeskalowana zmennych objaśnających/ Zróbmy teraz regresję p0 = β0 + β1 + β pe07 + β3 pd 05 + ε, wyznaczmy jej wartośc teoretyczne przeprowadźmy ch regresję na te same zmenne objaśnające. Wynkem otrzymanym na ćwczenach jest doskonałe dopasowane tej drugej regresj do danych emprycznych. Sprawdźmy: x: reg p0.pe07.pd05 predct dopasowane, xb predct reszty, r Wykonajmy teraz tę drugą regresję: x: reg dopasowane.pe07.pd05 Ostatnm ćwczenem nech będze empryczna prezentacja, że dodane do modelu jakejkolwek zmennej, być może w żadnym raze ne zwązanej ze zmenną objaśnaną, zwększa (a na pewno ne zmnejsza) współczynnk determnacj. Pokażemy to dla modelu: p0 = β + β exp + β pe07 + β pd 0 + β ph0 + ε 0 1 3 4 Oszacujmy ten model, wyznaczmy jego wartośc teoretyczne reszty: x: reg p0 exp.pe07.pd0.ph0 predct teor, xb predct res, r Dodatkowo narysujmy wykres rozrzutu reszt (rysowany standardowo względem numeru obserwacj) oraz ch hstogram z funkcją gęstośc rozkładu normalnego w tle /zadane do wykonana samodzelnego!/ Dodajmy teraz do naszego modelu jakąś zmenną, której wartośc będą zupełne losowe, a węc ch moc wyjaśnana zarobków pownna być zerowa. Zmenną taką możemy sobe np. wygenerować z rozkładu normalnego standardowego (lub z jakegokolwek nnego normalnego rozkładu, co w zasadze polega jedyne na przeskalowanu rozkładu normalnego standardowego): gen normalna=nvnorm(unform()) Teraz szacujemy model: p0 = β0 + β1 exp + β pe07 + β3 pd0 + β4 ph0 + β5normalna + ε porównujemy wartośc współczynnków determnacj skorygowanych współczynnków determnacj.