Ntl Natala Nehrebecka Darusz Szymańsk Zajęca 4 1
1. Zmenne dyskretne 3. Modele z nterakcjam 2. Przyblżane model dlnelnowych 2
Zmenne dyskretne Zmenne nomnalne Zmenne uporządkowane 3
Neco bardzej skomplkowana jest sytuacja, gdy mamy do czynena ze zmenną dyskretną która przyjmuje węcej nż 2 wartośc. np. wykształcene ł (1 podstawowe, dt 2 średne, d 3 wyższe) ż W tym przypadku do każdego pozomu s zmennej dyskretnej X musmy przypsać jedną zmenną zero jedynkową Ds, D s, = 1 gdy X = s D s, = 0 gdy X s dla s = 12 1,2,...,S 4
1 podstawowe = 0 podstawowe w p. p. 1 podstawowe = wyksztalcene = 2 średne 1 średne 0 3 wyzsze 1 wyzsze = 0 średne w p. p. wyzsze w p. p. 5
Za pozom bazowy uznajemy jeden z pozomów (np. pozom 1), zmenną zero jedynkową zwązaną z tym pozomem usuwamy z modelu ze stałą. Np. dla zmennej wykształcene Pozom bazowy : wykształcene podstawowe placa = 1 + β 2średne + β3 β wyzsze + ε Dlaczego? Ne jest możlwe, by w modelu była jednocześne stała wszystke zmenne zero jedynkowe jd (dla każdego pozomu zmennej jdyskretnej), poneważ macerz X T X byłaby osoblwa! 6
Interpretacja współczynnków przy zmennych 0 1 jest analogczna jak w przypadku modelu z jedną tylko taką zmenną: dany współczynnk opsuje różncę mędzy oczekwaną wartoścą y dla respondenta o charakterystyce bazowej dla respondenta charakterystyce s. 7
Szacujemy model w który zmenną objaśnaną jest wynagrodzene, a zmennym objaśnającym są: płeć pracownka (0 kobeta, 1 mężczyzna), wykształcene pracownka (1 podstawowe, 2 gmnazjum, 3 średne, 4 wyższe), wek pracownka, Stan cywlny (1 kawaler/panna, 2 wdowec/wdowa, 3 rozwedzony/ rozwedzona, 4 zonaty/ zamężna). Podać prawdłową formę modelu ze stałą znterpretować jego współczynnk. 8
Zmenna zależna: dochod Zmenne nezależne: wek, wek_2, masto masto Freq. Percent Cum. -----------------------------+----------------------------------- 1 - wes 323 29.82 29.82 2 - masto do 25tyś 194 17.91 47.74 3 - masto od 25tyś do 250tyś 356 32.87 80.61 4 - masto powyżej 250tyś 210 19.39 100.00 --------------------------+--------------------------------------- Total 1,083 100.00 9
:regres dochod wek wek_ 2.masto.masto _Imasto 1-4 (naturally coded; _Imasto_1_1 omtted) Source SS df MS Number of obs = 1083 -------------+------------------------------ F( 5, 1077) = 7.11 Model 23872603.5 5 4774520.71 Prob > F = 0.0000 Resdual 723608532 1077 671874.217 R-squared = 0.0319 -------------+------------------------------ Adj R-squared = 0.0274 Total 747481135 1082 690832.842 Root MSE = 819.68 ------------------------------------------------------------------------------ dochod Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- wek 37.8833 16.01033 2.37 0.018 6.468336 69.29827 wek_2 -.4486477.2039518-2.20 0.028 -.8488356 -.0484597 _Imasto_2 158.2807 74.50027 2.12 0.034 12.0986 304.4629 _Imasto_3 265.9892 63.10008 4.22 0.000 142.1762 389.8022 _Imasto_4 345.5604 73.00193 4.73 0.000 202.3182 488.8025 _cons -119.8138 303.7319-0.39 0.693-715.7871 476.1596 ------------------------------------------------------------------------------ 10
:regres ln_ dochod wek wek_ 2.masto.masto _Imasto_1-4 (naturally coded; _Imasto_1 omtted) Source SS df MS Number of obs = 1083 -------------+------------------------------ F( 5, 1077) = 20.57 Model 32.2360851 5 6.44721702 Prob > F = 0.0000 Resdual 337.543087 1077.31341048 R-squared = 0.0872 -------------+------------------------------ Adj R-squared = 0.0829 Total 369.779172 1082.341755242 Root MSE =.55983 ------------------------------------------------------------------------------ ln_ dochod Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- wek.0491115.0109349 4.49 0.000.0276554.0705675 wek_2 -.0006039.0001393-4.34 0.000 -.0008772 -.0003306 _Imasto_2.2345958.0508828 4.61 0.000.1347553.3344364 _Imasto_3.2870446.0430966 6.66 66 0.000 000.2024818.3716073 _Imasto_4.4162679.0498594 8.35 0.000.3184353.5141005 _cons 5.351579.2074451 25.80 0.000 4.944537 5.758622 ------------------------------------------------------------------------------ 11
Stosowane do zmennych dyskretnych o uporządkowanych kategorach (rosnąco lub malejąco). Przy standardowym rozkodowanu zmennej dyskretnej na zmenne zerojedynkowe, kategore wprowadzone do modelu nterpretuje sę względem ę kategor w modelu neuwzględnonej ę (bazowej). Newadomo natomast jak zmena sę pozom analzowanego zjawska przy przejścu z jednej kategor wprowadzonej do modelu do drugej Na taką nterpretację pozwalają efekty progowe. 12
Sposób zdefnowana zmennych zerojedynkowych zależy od tego, czy uporządkowane zmennej dyskretnej jest rosnące, czy malejące. W przypadku porządku rosnącego zmenne zerojedynkowe zdefnowane są następująco: 1 dla z s + s = 0 dla z < s D, Dla s = 2,...,S W przypadku porządku malejącego zmenne zerojedynkowe zdefnowane są następująco: D s, = 1 0 dla dla z z > s s Dla s = 1,...,S 1 13
masto Freq. Percent Cum. -----------------------------+----------------------------------- 1 - wes 323 29.82 29.82 2 - masto do 25tyś 194 17.91 47.74 3 - masto od 25tyś do 250tyś 356 32.87 80.61 4 - masto powyżej 250tyś 210 19.39 100.00 --------------------------+--------------------------------------- Total 1,083 100.00 generate masto_male = (masto > 1) generate masto_sredne = (masto > 2) generate masto_duze = (masto > 3) 14
. generate masto_male = (masto > 1). generate masto_sredne = (masto > 2). generate masto_duze = (masto > 3).. regres dochod wek wek_2 masto_male masto_sredne masto_duze Source SS df MS Number of obs = 1083 -------------+------------------------------ F( 5, 1077) = 7.11 Model 23872603.5 5 4774520.71 Prob > F = 0.0000 Resdual 723608532 1077 671874.217 R-squared = 0.0319 -------------+------------------------------ Adj R-squared = 0.0274 Total 747481135 1082 690832.842 Root MSE = 819.68 ------------------------------------------------------------------------------ dochod Coef. Std. Err. t P> t [95% Conf. Interval] --------------+---------------------------------------------------------------- wek 37.8833 16.01033 2.37 0.018 6.468336 69.29827 wek_2 -.4486477.2039518-2.20 0.028 -.8488356 -.0484597 masto_male 158.2807 74.50027 2.12 0.034 12.0986 304.4629 masto_sredne 107.7085 73.16483 1.47 0.141-35.85331 251.2702 masto_duze 79.57117 71.45687 1.11 0.266-60.63929 219.7816 _cons -119.8138 303.7319-0.39 0.693-715.7871 7871 476.1596 -------------------------------------------------------------------------------- 15
Jeśl jednym z celów badana jest zdentefkowane pozomów zmennej dyskretnej, których wpływ wyróżna sę znacząco od wpływu pozostałych pozomów, wtedy celowe jest użyce tak zwanych kontrastów w odchylenach. 16
W modelu dl będzemy d uzależnać ż ć dochód od weku, k płc ł oraz zmennej województwo (16 pozomów): 1 Dolnośląske 2 Kujawsko-pomorske 3 Lubelske 4 Lubuske 5 Łódzke 6 Małopolske 7 Mazowecke 8 Opolske 9 Podkarpacke 10 Podlaske 11 Pomorske 12 Śląske 13 Śwętokrzyske 14 Warmńsko-mazurske 15 Welkopolske 16 Zachodnopomorske 17
Krok 1: tworzymy 16 zmennych zerojedynkowych odpowadających zmennej województwo: 1 0 dla dla woj D s, = Dla s = 1,...,16 woj = j j Krok 2: Następne defnujemy zmenne: D = D D dla s 2,.., 16 s, s, 1, = 18
Krok 3: Zapsujemy regresje: placa = β + D + ε 1 wek + β 2 plec + 0 + 2D2, +... 16 16, W jak sposób można nterpretować parametry przy zmennych D s,. Dla każdej obserwacj zachodz: D, 1, +... + D 16 = 1 placa placa = β + ε 1 wek + β 2 plec + 0 ( D1, +... + D16, ) + 2 ( D2, D1, ) +... + 16( D16, D1, ) = β wek 1 + β plec 2 + ( 0 2... 16) D 1442444 3 1 1, + ( 0 + 2 ) D 14243 2 2, +... + ( 0 + 16 ) D 14243 16 16, + ε 19
Przekształclśmy model do modelu bez stałej. Sumujemy parametry przy zmennych zerojedynkowych dotyczących województwa: 16 s = 1 s = 16 0 0 = 16 s = 1 Czyl stała w modelu jest średną z parametrów dla poszczególnych zmennych dotyczących województwa. 16 s 20
Pozostaje nadane nterpretacj parametrom przy zmennych D : Pozostaje nadane nterpretacj parametrom przy zmennych D s, : 0 2 2 2 0 2 = + = M 0 16 16 16 0 16 = + = M Czyl parametry można nterpretować jako odchylena parametrów dla poszczególnych pozomów województwa od średnej z tych S parametrów. Trzeba jeszcze wyznaczyć odchylene od średnej dla pozomu bazowego : 16 2 0 1 16 2 0 1...... = = 21
Płaca mejsce zameszkana: kontrasty w odchylenach 1 0 = 2... 16 = 0,002002 dla Dolnośląskego woj. 22
W standardowym modelu lnowym zakładamy, że wpływ poszczególnych zmennych nezależnych na oczekwaną wartość zmennej nezależnej jest addytywny. W ramach modelu lnowego można także uwzględnć efekt krzyżowego wzmacnana sę ę efektów poszczególnych zmennych. Efekt ten zachodz, gdy sła oddzaływana jednej zmennej nezależnej jest uwarunkowana welkoścą lk ś nnych zmennych nezależnych. ż Ten efekt można uwzględnć, ę wstawając do modelu loczyny yzmennych (nterakcje). 23
Interakcje mędzy zmennym zerojedynkowym berzemy pod uwagę, jeśl wpływ poszczególnych zmennych ne jest addytywny. Sytuacja taka może wystąpć, jeśl pewne kombnacje charakterystyk jakoścowych wpływają na zmenną zależną bardzej lub mnej, nż wynkałoby y z wpływu poszczególnych zmennych. Np. Zmenna zależna: dochód Zmenne nezależna płeć, wykształcene, nterakcja: płećxwykształcene Do modelu wprowadzamy nterakcje, poneważ spodzewamy sę, ż wpływ zmennej oznaczającej wykształcene zależy od płc. 24
dochod - zmenna zależna, wek, wek_2 oraz nterakcje medzy wykształcenem płcą - zmenne nezależne : regress dochod wek wek_2.plec.wyksztalcene.plec _Iplec_0-1 (naturally coded; _Iplec_0 omtted).wyksztalcene _Iwyksztalc_1-3 (naturally coded; _Iwyksztalc_1 omtted).plec.wyks~e _IpleXwyk_#_# (coded as above) Source SS df MS Number of obs = 1083 -------------+------------------------------ F( 7, 1075) = 18.83 Model 81648217.6 7 11664031.1 Prob > F = 0.0000 Resdual 665832918 1075 619379.458 R-squared = 0.1092 -------------+------------------------------ Adj R-squared = 0.1034 Total 747481135 1082 690832.842 Root MSE = 787.01 ------------------------------------------------------------------------------ dochod Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- wek 36.38318 15.39846 2.36 0.018 6.168745 66.59762 wek_2 -.4049352.1962222-2.06 0.039039 -.7899572 -.0199131 _Iplec_1-144.4044 143.4615-1.01 0.314-425.9008 137.0919 _Iwyksztal~2 274.2703 105.1538 2.61 0.009 67.94046 480.6002 _Iwyksztal~3 1040.998 137.1701 7.59 0.000 771.8461 1310.149 _IpleXwyk_~2-143.4455 153.4394-0.93 0.350-444.5201 157.6292 _IpleXwyk_~3-682.341 197.7395-3.45 0.001-1070.34-294.3418 _cons -121.1625 300.6773-0.40 0.687-711.1435 468.8184 ------------------------------------------------------------------------------ 25
Wprowadzene do modelu nterakcj pomędzy zmennym dyskretnym cągłym ma sens, jeśl wpływ pewnej zmennej nezależnej cągłej na zmenną zależną zależy od pozomów zmennej dyskretnej. 26
nterakcje mędzy zmenną masto a wekem : regress dochod.masto_1wek.masto_1 _Imasto_1_1-4 (naturally coded; _Imasto_1_1 omtted).masto_1wek _ImaXwek_# (coded as above) Source SS df MS Number of obs = 1083 -------------+------------------------------ F( 7, 1075) = 4.50 Model 21268278.5 7 3038325.5 Prob > F = 0.0001 Resdual 726212857 1075 675546.8436.8 R-squared = 0.0285 -------------+------------------------------ Adj R-squared = 0.0221 Total 747481135 1082 690832.842 Root MSE = 821.92 ------------------------------------------------------------------------------ dochod Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- _Imasto_m 28.34615 296.4254 0.10 0.924-553.2919 609.9842 _Imasto_ś 53.41383 249.026 0.21 0.830-435.2183 542.046 _Imasto_d 135.6545 283.6069 0.48 0.633-420.8315 692.1404 wek -.4870689 4.569159-0.11 0.915-9.452549 8.478412 _Imasto_mXwek 3.588019 7.603214 0.47 0.637-11.3308 18.50684 _Imasto_śXwek 5.698882 6.355967 0.90 0.370-6.772626 18.17039 _Imasto_dXwek 5.396286 7.063888 0.76 0.445-8.464285 19.25686 _ cons 641.7219 175.9821 3.65 0.000 296.4145 987.0292 ------------------------------------------------------------------------------ 27
Nelnowa zależność mędzy y a można przyblżyć za pomocą modelu lnowego stosując model: 1. Model welomanowy y = β + β + β +... + β + 0 1 2 2 k K ε Przy wększej lczbe zmennych objaśnających wstawa sę do modelu ch kwadraty loczyny 28
. regress dochod wek wek_2 plec sredne wyzsze Source SS df MS Number of obs = 1083 -------------+------------------------------ F( 5, 1077) = 22.98 Model 72048793.8 5 14409758.8 Prob > F = 0.0000 Resdual 675432341 1077 627142.378 R-squared = 0.0964 -------------+------------------------------ Adj R-squared = 0.0922 Total 747481135 1082 690832.842 Root MSE = 791.92 ------------------------------------------------------------------------------ dochod Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- wek 36.06131 15.48328 2.33 0.020 5.680494 66.44212 wek_2 -.3998842.1973767-2.03 0.043 -.7871707 -.0125977 plec -338.0671 48.25867-7.01 0.000-432.7588-243.3755 sredne 208.5538 77.72619 2.68 0.007 56.04182 361.0657 wyzsze 708.2862 99.55596 7.11 0.000 512.9406 903.6318 _cons -26.64989 298.3288-0.09 0.929-612.0215 558.7217 --------------------------------------------------------------------- 29
Średn pozom dochodu w zależnośc od weku 400 200 0 1000 600 800 1200 20 30 40 50 60 70 30
Nelnowa zależność mędzy y a można przyblżyć za pomocą modelu lnowego stosując model: 2. Model schodkowy W tym przypadku defnujemy zmenne zerojedynkowe zwązane z przedzałam przeprowadzamy regresję na tych zmennych zamast na. Wyestymowany model można zlustrować rysunkem: 31
32
generate wek_1 = (wek <= 25) generate wek_2 = (wek > 25 & wek <= 35) generate wek_3 = (wek > 35 & wek <= 45) generate wek_4 = (wek > 45 & wek <= 55) generate wek_5 = (wek > 55) regress dochod wek_? Source SS df MS Number of obs = 1083 -------------+------------------------------ F( 4, 1078) = 2.33 Model 6403953.56 56 4 1600988.39 Prob > F = 0.05440544 Resdual 741077182 1078 687455.642 R-squared = 0.0086 -------------+------------------------------ Adj R-squared = 0.0049 Total 747481135 1082 690832.842 Root MSE = 829.13 ------------------------------------------------------------------------------ dochod Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- wek_2 126.6784 88.27104 1.44 0.152-46.52407 299.881 wek_ 3 239.7376 84.81751 2.83 0.005 73.31151 406.1637 wek_4 206.697 91.38316 2.26 0.024 27.388 386.006 wek_5 175.5193 141.5618 1.24 0.215-102.2486 453.2873 _cons 639.0551 73.57334 8.69 0.000 494.6919 783.4183 ------------------------------------------------------------------------------ 33
Model krzywej łamanej Model krzywej łamanej Nelnowa zależność mędzy y a można przyblżyć za pomocą modelu Model krzywej łamanej Model krzywej łamanej Nelnowa zależność mędzy y a można przyblżyć za pomocą modelu lnowego stosując model: 3. Model krzywej łamanej < + + + + + 1 1 ) ( dla dla ε β β α ε β α > + + + + < + + + = 1 2 1 2 1 ) ( ) ( ) ( 1 s dl dla y β β β ε β β α M Zl ż ść l blż j t t dk k któ > + + + + = 2 1 1 ) ( ) ( s s s j j j dla ε β β β α Zależność nelnowa przyblżona jest w tym przypadku krzywą, którą można zlustrować rysunkem: 34
regress dochod wek wek_45 plec sredne wyzsze Source SS df MS Number of obs = 1083 -------------+------------------------------ F( 5, 1077) = 22.92 Model 71889880.6 5 14377976.1 Prob > F = 0.0000 Resdual 675591255 1077 627289.93 R-squared = 0.0962 -------------+------------------------------ Adj R-squared = 0.0920 Total 747481135 1082 690832.842 Root MSE = 792.02 ------------------------------------------------------------------------------ dochod Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- wek 9.892845 3.449602 2.87 0.004 3.124143 16.66155 wek_45-19.06609 9.716528-1.96 0.050-38.13156 -.0006177 plec -338.9919 48.27437-7.02 0.000-433.7144-244.2694 sredne 211.058 77.6635 2.72 0.007 58.66912 363.447 wyzsze 712.6863 99.4661 7.17 0.000 517.517 907.8556 _ cons 376.4752 145.4995 2.59 0.010 90.98058 661.9698 ------------------------------------------------------------------------------ 35
Średn pozom dochodu w zależnośc od weku 600 800 400 6 200 1000 1200 20 30 40 50 60 70 36
1. Dlaczego zmenna dyskretna rozkodowujemy na zmenne zerojedynkowe? 2. Dlaczegow modelu ne pownno sę umeszczać stałej wszystkch zmennych zerojedynkowych, zwązanych z pozomam zmennej dyskretnej? 3. Porównaj zastosowana znanych c kontrastów ze standardowym sposobem rozkodowana zmennej dyskretnej. 4. Wyjaśnć, co to znaczy, że mędzy zmennym w modelu występują nterakcje. 5. Opsać sposoby przyblżana zależnośc nelnowej za pomocą modelu lnowego. 37
Dzękuję za uwagę 38