Uniwersytet Warszawski Wydział Nauk Ekonomicznych Mateusz Błażej Nr albumu: 308521 Chcesz zwiększyć swój dochód? Przenieś się i pracuj w Urzędzie! Model ekonometryczny na kierunku: Informatyka i Ekonometria Praca wykonana pod kierunkiem mgr Anety Dzik z Katedry Statystyki i Ekonometrii WNE UW Warszawa, styczeń 2013 1
SPIS TREŚCI WSTĘP 3 1. FUNDAMENTY TEORETYCZNE I PRZEGLĄD LITERATURY... 3 2. HIPOTEZY BADAWCZE 5 3. OPIS BAZY DANYCH I DEFINICJE ZMIENNYCH.5 4. FORMA FUNKCYJNA MODELU.. 8 5. WYNIKI REGRESJI.9 6. INTERPRETACJA.. 10 7. DIAGNOSTYKA 7.1. Poprawność formy funkcyjnej...... 13 7.2. Normalność zaburzenia losowego....13 7.3. Homoskedastyczność........15 8. NIETYPOWE OBSERWACJE...17 9. WSPÓŁLINIOWOŚĆ.....18 10. PODSUMOWANIE....19 11. BIBLIOGRAFIA.....21 12. ZAŁĄCZNIKI 12.1. Statystyki opisowe zmiennych..... 22 12.2. Analiza zmiennych dyskretnych.. 23 12.3. Praca nad formą modelu regresji..30 12.4. Obliczenia dotyczące wpływu stażu na dochód...38 2
WSTĘP Celem mojej pracy było zdefiniowanie głównych czynników wpływających na potencjalny dochód. Nie jest łatwe precyzyjne wskazanie wszystkich zmiennych determinujących jego wielkość. Niewątpliwie, oprócz niżej opisanych, istotny udział ma branża, w której dana osoba jest zatrudniona. Istnieje wiele publikacji naukowych opisujących jego główne determinanty, skupiające się głównie na płci, stanie cywilnym, wykształceniu i wieku. Oprócz tych zmiennych, postanowiłem uwzględnić staż, rodzaj firmy oraz województwo, w którym dana osoba jest zatrudniona. Świadomość występujących zależności może być przydatna dla osób chcących polepszyć swoją sytuację materialną, gdyż na część zmiennych ma się bezpośredni wpływ. Można pominąć śladowe przypadki zmiany płci, zmianę stanu cywilnego uwarunkowaną chęcią zwiększenia zarobków, a także niemożliwą ingerencję w wiek, jednakże na poziom wykształcenia, wybór firmy i województwo pracy ma się bezpośredni wpływ. 1. FUNDAMENTY TEORETYCZNE I PRZEGLĄD LITERATURY Niniejsza praca opiera się głównie na publikacjach zagranicznych, m.in. dotyczącej Libanu. Beyrouti (2009) zajął się problemem nierówności dochodów wśród absolwentów wyższych uczelni. Próbował on udowodnić, że poziom wykształcenia, jak i poziom doświadczenia są ważnymi czynnikami prowadzącymi do powstawania różnic w dochodach. Zbadał on istotne determinanty przy użyciu analizy regresji wielokrotnej programem Statistical Package for the Social Sciences 9.0. Zmienną objaśnianą był dochód, a zmiennymi objaśniającymi poziom doświadczenia (w ujęciu rocznym) oraz zmienne binarne wskazujące na uczelnie, do której osoby badane uczęszczały. Udało się udowodnić dodatnią zależność między wysokością dochodów, a poziomem edukacji i doświadczeniem. Jednocześnie zauważył on dużą różnicę pomiędzy wynagrodzeniami osób po uczelniach amerykańskich, aniżeli uczelniach libańskich. Dodatkowo, w większości poziomów wykształcenia, wzrost dochodu wraz ze zwiększaniem poziomu wykształcenia jest bardziej zauważalny u mężczyzn, aniżeli u kobiet. Lazear (1997) zasugerował, że ludzie uczą się do momentu, w którym poziom ich edukacji zapewni dochód maksymalizujący ich użyteczność. Bartlett (1978) zauważa spadek znaczenia edukacji. W 1939 roku, rok dodatkowej edukacji powodował wzrost dochodów o 9.4%, podczas gdy w 1969 roku jedynie o 6.5%. 3
Analizy przeprowadzone w ogólnodostępnych badaniach potwierdzają przypuszczenia wyższych zarobków mężczyzn niż kobiet, a także niższych wynagrodzeń osób wolnych. Wyjaśnieniem tych zależności zajęli się Landau i Arthur (1992). Przeprowadzili oni hierarchiczną analizę regresji na 1537 osobach w różnym wieku pracujących na kierowniczych i profesjonalnych stanowiskach w Stanach Zjednoczonych. Zmienna objaśniana - wynagrodzenie (podzielona na 6 przedziałów) - wyjaśniona została m.in. za pomocą płci, wieku, poziomu wykształcenia, lokalizacji pracy, stanu cywilnego, a także zmiennych binarnych: czy osoba miała kiedykolwiek urlop macierzyński dłuższy niż 3 miesiące, czy małżonek był zatrudniony oraz czy w domu były dzieci poniżej 18 roku życia. Otrzymano następujące rezultaty. Pensja była dodatnio skorelowana z posiadaniem współmałżonka, który nie pracuje i nie ma dzieci poniżej 18 roku życia. Dodatkowo kobiety oraz osoby, które zawsze były wolne, zarabiały mniej. Co więcej pracownicy będący w związku małżeńskim, mający współmałżonków nieprowadzących kariery zawodowej, zarobili więcej niż pracownicy, których współmałżonkowie ją prowadzili, ale nie zarabiali więcej niż osoby rozwiedzione. Pracownicy, którzy nigdy nie byli w związku małżeńskim, zarabiali mniej niż osoby, które się rozwiodły, a także niż osoby, które były w związku małżeńskim, niezależnie od tego, czy ich współmałżonkowie prowadzili karierę zawodową. W tym przypadku posiadanie dzieci poniżej 18 roku życia nie miało wpływu na wysokość wynagrodzenia. Zależności były te same dla mężczyzn i kobiet, jednakże mężczyźni posiadający dzieci zarabiali więcej, niż bezdzietni - u kobiet już ta zależność nie wystąpiła. Wynagrodzenie osób, które były na urlopie macierzyńskim dłuższym niż 3 miesiące, nie zmieniło się istotnie. Może to być uwarunkowane małą próbą (jedynie 12% kobiet). Wpływu wieku nie można intuicyjnie określić, z powodu możliwej korelacji ze stażem pracy, i tak młodszy wiek pracownika powiązany z brakiem doświadczenia nie musi oznaczać wyższych zarobków. Łatwiej jest opisać wpływ regionu, w którym się mieszka, na poziom dochodów. Według statystyk Głównego Urzędu Statystycznego najwyższe średnie zarobki w 2009 roku odnotowano w województwie mazowieckim, a następnie podobne w województwach pomorskim, dolnośląskim i wielkopolskim. Andrzej Sadowski z Centrum im. Adama Smitha jako przyczynę wskazuje atrakcyjność dużych miast, które z jednej strony są idealne na centralę firmy, a z drugiej przyciągają zagraniczne spółki, które otwierają w dużych ośrodkach miejskich swoje filie. 1 1 http://www.se.pl/wydarzenia/kraj/tyle-zarabia-si-e-w-polsce_128194.html 4
Rzadziej analizowany jest wpływ rodzaju firmy na wysokość zarobków. Większość naukowych stwierdzeń dotyczących tej kwestii ukrytych jest w pracach poruszających inne tematy. Barro (1973) zauważa, że zarobki w urzędach nie dostosowują się do poziomu obecnego na rynku, w związku z czym występuje istotna nadwyżka w zarobkach osób pracujących w instytucjach publicznych. Często występująca różnica nie musi pochodzić z wielkości pensji, ale także z przyznawanych dodatków, premii lub atrakcyjnych warunków wyjazdów wypoczynkowych. Jacek Czaputowicz, Dyrektor Krajowej Szkoły Administracji Publicznej, zauważa, że zarobki w administracji publicznej są o 23% wyższe niż w sektorze prywatnym. Zauważa, że praca urzędnika jest w pewnym stopniu służbą wymagającą dużej empatii 2. Odmienne dane dostarcza PKPP Lewiatan i GUS, według których zarobki w sektorze publicznym są wyższe kolejno o 10% i 13%. 3 Wartości te zmieniają się w czasie, jednak stale budżetówka płaci więcej. 2. HIPOTEZY BADAWCZE Zgodnie z przeglądem literatury, która dokonana została w poprzednim punkcie, można się spodziewać, że w poniższym modelu wpływ poszczególnych zmiennych na dochód będzie następujący. Województwa mazowieckie, pomorskie, dolnośląskie i wielkopolskie wykażą wyższy dochód od pozostałych województw. Mężczyźni będą zarabiali więcej od kobiet. Osoby wolne będą zarabiały mniej od osób w innym stanie cywilnym. Ludzie z wykształceniem wyższym będą wykazywały większy dochód. Pracownicy firm publicznych będą zarabiali więcej. Wpływ wieku ze względu na korelację ze stażem jest trudny do przewidzenia. 3. OPIS BAZY DANYCH I DEFINICJE ZMIENNYCH Model został opracowany na podstawie bazy danych pobranej ze strony: http://ekonometria.wne.uw.edu.pl/uploads/main/bael2009.zip 2 http://www.pracuj.pl/praca-sektor-publiczny-dobry-urzednik-fachowcem-najwyzszej-klasy.htm 3 http://gazetapraca.pl/gazetapraca/1,90443,11766201,polak_marzy_o_urzedzie.html 5
Jest to Badanie Ekonomicznej Aktywności Ludności z 4. kwartału 2009 roku. Prowadzone jest ono przez Główny Urząd Statystyczny co kwartał, przy czym przy każdym nowym badaniu wymieniana jest ¼ próby. Badanie dotyczy osób w wieku 15 lat i starszych. Pobrana baza zawiera 3400 obserwacji, jednak po wstępnej selekcji zostało 396 obserwacji. Dobór polegał na usunięciu obserwacji, dla których nie były podane dane dotyczące wymaganych zmiennych, a także z niepoprawną wartością (symboliczne oznaczenie dochodu 99999, a także w jednym przypadku wartość województwa 0 ). 8 zmiennych zostało wykorzystanych. Są to: - województwo, - płeć, - stan cywilny, - wykształcenie, - rodzaj instytucji, - dochód, - staż, - wiek. Zmienna objaśniana: - dochód osoby badanej (zł, w skali miesiąca). Jest to zmienna ciągła, przyjmująca wartości z przedziału <150,5000> y=dochod. Po przeprowadzeniu przekształcenia Boxa-Coxa, zmienną zależną został logarytm dochodu y=ln(dochod)=lndochod. Zmienne objaśniające: - województwo zamieszkania osoby badanej x1=wojewodztwo. Jest to zmienna dyskretna przyjmująca jedną z szesnastu wartości: 6
SYMBOL WOJEWÓDZTWA NAZWA 2 Dolnośląskie 4 Kujawsko-Pomorskie 6 Lubelskie 8 Lubuskie 10 Łódzkie 12 Małopolskie 14 Mazowieckie 16 Opolskie 18 Podkarpackie 20 Podlaskie 22 -> 0 Pomorskie 24 Śląskie 26 Świętokrzyskie 28 Warmińsko-Mazurskie 30 Wielkopolskie 32 Zachodniopomorskie W modelu została ona rozkodowana i.wojewodztwo. Po wstępnej analizie województwo pomorskie (o największym średnim dochodzie) przyjęło wartość 0, aby stać się wartością bazową. wartości: - płeć osoby badanej x2=plec. Jest to zmienna dyskretna, przyjmująca jedną z dwóch 1 płeć męska, 2 płeć żeńska. W modelu została ona rozkodowana i.plec. - stan cywilny osoby badanej x3=stancywilny. Jest to zmienna dyskretna przyjmująca jedną z czterech wartości: 1 kawaler, panna, 2 żonaty, zamężna, 3 wdowiec, wdowa, 4 rozwiedziony, rozwiedziona. W modelu została ona rozkodowana i.stancywilny. - wykształcenie osoby badanej x4=wyksztalcenie. Jest to zmienna dyskretna przyjmująca jedną z siedmiu wartości: 1 wyższe. 2 policealne, 3 średnie, 4 zasadnicze zawodowe, 7
5 gimnazjalne, 6 podstawowe, 7 niepełne podstawowe. W modelu została ona rozkodowana i.wyksztalcenie. - rodzaj instytucji, która jest głównym miejscem pracy osoby badanej x5=rodzaj. Jest to zmienna dyskretna przyjmująca jedną z dwóch wartości: 1 publiczna, 2 prywatna. W modelu została ona rozkodowana i.rodzaj. - staż osoby badanej x5=staz. Jednostką jest ilość lat. Jest to zmienna ciągła, przyjmująca wartości z przedziału <0,64>. W modelu wprowadzono dodatkową zmienną objaśniającą x6=staz 2. - wiek osoby badanej x7=wiek. Jednostką jest ilość lat. Jest to zmienna ciągła, przyjmująca wartości z przedziału <17,80>. Z powodu współliniowości ze zmienną staż została w modelu pominięta (dokładne informacje w załączniku). 4. FORMA FUNKCYJNA MODELU Ostatecznie do modelu użyto logarytmu naturalnego dochodu. Poniżej przedstawiono formalny tekst Boxa-Coxa. Dokładne wyniki dostępne są w załączniku. i.wojewodztwo _Iwojewodzt_0-32 (naturally coded; _Iwojewodzt_0 omitted) i.plec _Iplec_1-2 (naturally coded; _Iplec_1 omitted) i.stancywilny _Istancywil_1-4 (naturally coded; _Istancywil_1 omitted) i.wyksztalcenie _Iwyksztalc_1-7 (naturally coded; _Iwyksztalc_1 omitted) i.rodzaj _Irodzaj_1-2 (naturally coded; _Irodzaj_1 omitted) Number of obs = 396 LR chi2(28) = 172.71 Log likelihood = -3046.1628 Prob > chi2 = 0.000 ------ dochod Coef. Std. Err. z P> z [95% Conf. Interval] -------------+---------------- /theta.1155027.069863 1.65 0.098 -.0214263.2524316 8
------ --------- Test Restricted LR statistic P-value H0: log likelihood chi2 Prob > chi2 --------- theta = -1-3224.9296 357.53 0.000 theta = 0-3047.5734 2.82 0.093 theta = 1-3112.3535 132.38 0.000 --------- Na poziomie istotności 5% brak podstaw do odrzucenia hipotezy zerowej o poprawnej formie funkcyjnej, wartość statystyki testowej 2.82, jednocześnie najniższa spośród pozostałych, dlatego końcowy model będzie ze zlogarytmowaną zmienną dochód. 5. WYNIKI REGRESJI Wartości określające poziom zmiennych objaśniających nie zostały celowo zmienione, aby były zgodne z użytymi w badaniu. Ostateczna regresja wygląda następująco: xi: reg lndochod i.wojewodztwo i.plec i.stancywilny i.wyksztalcenie i.rodzaj staz stazz i.wojewodztwo _Iwojewodzt_0-32 (naturally coded; _Iwojewodzt_0 omitted) i.plec _Iplec_1-2 (naturally coded; _Iplec_1 omitted) i.stancywilny _Istancywil_1-4 (naturally coded; _Istancywil_1 omitted) i.wyksztalcenie _Iwyksztalc_1-7 (naturally coded; _Iwyksztalc_1 omitted) i.rodzaj _Irodzaj_1-2 (naturally coded; _Irodzaj_1 omitted) Source SS df MS Number of obs = 396 -------------+------ F( 28, 367) = 7.07 Model 27.1173339 28.96847621 Prob > F = 0.0000 Residual 50.3031305 367.137065751 R-squared = 0.3503 -------------+------ Adj R-squared = 0.3007 Total 77.4204644 395.196001176 Root MSE =.37022 -------- lndochod Coef. Std. Err. t P> t [95% Conf. Interval] ---------------+---------------- _Iwojewodzt_2 -.3216196.1051631-3.06 0.002 -.5284174 -.1148219 _Iwojewodzt_4 -.340228.1032769-3.29 0.001 -.5433168 -.1371391 _Iwojewodzt_6 -.2472789.1121765-2.20 0.028 -.4678682 -.0266896 _Iwojewodzt_8 -.1235964.1120641-1.10 0.271 -.3439647.096772 _Iwojewodzt_10 -.3282816.0971685-3.38 0.001 -.5193584 -.1372047 _Iwojewodzt_12 -.0906211.1395111-0.65 0.516 -.3649625.1837203 _Iwojewodzt_14 -.254678.1019526-2.50 0.013 -.4551625 -.0541935 _Iwojewodzt_16 -.1871719.106925-1.75 0.081 -.3974344.0230906 9
_Iwojewodzt_18 -.3244527.1271041-2.55 0.011 -.5743964 -.074509 _Iwojewodzt_20 -.3168062.1021533-3.10 0.002 -.5176855 -.115927 _Iwojewodzt_24 -.2881264.0980782-2.94 0.004 -.4809923 -.0952606 _Iwojewodzt_26 -.4512844.1207683-3.74 0.000 -.6887691 -.2137997 _Iwojewodzt_28 -.2898893.0920339-3.15 0.002 -.4708693 -.1089093 _Iwojewodzt_30 -.2844661.1053753-2.70 0.007 -.4916813 -.0772509 _Iwojewodzt_32 -.3021958.1134685-2.66 0.008 -.5253257 -.0790659 _Iplec_2 -.3143361.0415638-7.56 0.000 -.3960691 -.2326031 _Istancywil_2.1077362.0579279 1.86 0.064 -.0061759.2216484 _Istancywil_3.2114957.1054267 2.01 0.046.0041795.418812 _Istancywil_4.2793052.101851 2.74 0.006.0790204.47959 _Iwyksztalc_2 -.3323837.0920966-3.61 0.000 -.513487 -.1512803 _Iwyksztalc_3 -.2575302.0606649-4.25 0.000 -.3768246 -.1382357 _Iwyksztalc_4 -.1895951.0775232-2.45 0.015 -.3420405 -.0371496 _Iwyksztalc_5 -.4812358.0601378-8.00 0.000 -.5994938 -.3629778 _Iwyksztalc_6 -.9398333.2012903-4.67 0.000-1.33566 -.5440062 _Iwyksztalc_7 -.6260741.0857586-7.30 0.000 -.7947139 -.4574343 _Irodzaj_2 -.084269.0420621-2.00 0.046 -.1669819 -.0015561 staz.024964.0058559 4.26 0.000.0134486.0364794 stazz -.0005995.0001295-4.63 0.000 -.0008541 -.0003448 _cons 7.828649.0981897 79.73 0.000 7.635564 8.021734 -------- Regresji nie przeprowadzono na zmiennej wiek, ponieważ okazała się współliniowa ze zmienną staż. Dodatkowe informacje oraz prace nad zmiennymi znajdują się w dalszej części dokumentu. Na podstawie testu F, gdzie wartość statystyki testowej wynosi 7.07, p-value równa się 0.0000, na dowolnie przyjętym poziomie istotności odrzucono hipotezę zerową o łącznej nieistotności wszystkich zmiennych. Po zastosowaniu macierzy wariancji-kowariancji White, nieistotne okazały się zmienne wojewodzt_8, wojewodzt_12, wojewodzt_16, stancywil_3, wyksztalc_6 oraz rodzaj_2, które oznaczają kolejno: osoba pochodzi z województwa lubuskiego, osoba pochodzi z województwa małopolskiego, osoba pochodzi z województwa opolskiego, osoba jest wdową lub wdowcem, osoba ma wykształcenie podstawowe oraz osoba pracuje w instytucji prywatnej. Warto zauważyć, że trzy ostatnie zmienne byłyby istotne już na poziomie istotności wynoszącym 6%. Dodatkowe informacje w dalszej części dokumentu. W 35.03% wyjaśniona została zmienność zmiennej objaśnianej, a model dopasowany jest do danych w 30.07%. 6. INTERPRETACJA 10
ln(dochod)=β0 + β1wojewodzt_2 + β2wojewodzt_4 + β3wojewodzt_6 + β4wojewodzt_8 + β5wojewodzt_10 + β6wojewodzt_12 + β7wojewodzt_14 + β8wojewodzt_16 + β9wojewodzt_18 + β10wojewodzt_20 + β11wojewodzt_24 + β12wojewodzt_26 + β13wojewodzt_28 + β14wojewodzt_30 + β15wojewodzt_32 + β16plec_2 + β17stancywil_2 + β18stancywil_3 + β19stancywil_4 + β20wyksztalc_2 + β21ksztalc_3 + β22wyksztalc_4 + β23wyksztalc_5 + β24wyksztalc_6 + β25wyksztalc_7 + β26rodzaj_2 + β27staz + β28stazz β1 = -0.3216: osoba z województwa dolnośląskiego zarabia mniej o 32.16% niż osoba z województwa pomorskiego, β2 = -0.3401: osoba z województwa kujawsko-pomorskiego zarabia mniej o 34.01% niż osoba z województwa pomorskiego, β3 = -0.2473: osoba z województwa lubelskiego zarabia mniej o 24.73% niż osoba z województwa pomorskiego, β4 = -0.1236: osoba z województwa lubuskiego zarabia mniej o 12.36% niż osoba z województwa pomorskiego. Zmienna jest nieistotna, β5 = -0.3283: osoba z województwa łódzkiego zarabia mniej o 32.83% niż osoba z województwa pomorskiego, β6 = -0.0906: osoba z województwa małopolskiego zarabia mniej o 9.06% niż osoba z województwa pomorskiego. Zmienna jest nieistotna, β7 = -0.2547: osoba z województwa mazowieckiego zarabia mniej o 25.47% niż osoba z województwa pomorskiego, β8 = -0.1872: osoba z województwa opolskiego zarabia mniej o 18.72% niż osoba z województwa pomorskiego. Zmienna jest nieistotna, β9 = -0.3245: osoba z województwa podkarpackiego zarabia mniej o 32.45% niż osoba z województwa pomorskiego, β10 = -0.3168: osoba z województwa podlaskiego zarabia mniej o 31.68% niż osoba z województwa pomorskiego, β11 = -0.2881: osoba z województwa śląskiego zarabia mniej o 28.81% niż osoba z województwa pomorskiego, β12 = -0.4513: osoba z województwa świętokrzyskiego zarabia mniej o 45.13% niż osoba z województwa pomorskiego, β13 = -0.2899: osoba z województwa warmińsko-mazurskiego zarabia mniej o 28.99% niż osoba z województwa pomorskiego, 11
β14 = -0.2845: osoba z województwa wielkopolskiego zarabia mniej o 28.45% niż osoba z województwa pomorskiego, β15 = -0.3022: osoba z województwa zachodniopomorskiego zarabia mniej o 30.22% niż osoba z województwa pomorskiego, β16 = -0.3143: kobieta zarabia o 31.43% mniej od mężczyzny, β17 = 0.1077: żonaty mężczyzna lub zamężna kobieta zarabiają o 10.77% więcej od osoby wolnej, β18 = 0.2115: wdowiec lub wdowa zarabiają o 21.15% więcej od osoby wolnej. Zmienna jest nieistotna na poziomie 5%, przy 6% jest istotna, β19 = 0.2793: rozwiedziony mężczyzna lub rozwiedziona kobieta zarabiają o 27.93% więcej od osoby wolnej, β20 = -0.3324: osoba z wykształceniem policealnym zarabia o 33.24% mniej niż osoba z wykształceniem wyższym, β21 = -0.2575: osoba z wykształceniem średnim zarabia o 25.75% mniej niż osoba z wykształceniem wyższym, β22 = -0.1896: osoba z wykształceniem zasadniczym zawodowym zarabia o 18.96% mniej niż osoba z wykształceniem wyższym, β23 = -0.4812: osoba z wykształceniem gimnazjalnym zarabia o 48.12% mniej niż osoba z wykształceniem wyższym, β24 = -0.9398: osoba z wykształceniem podstawowym zarabia o 93.98% mniej niż osoba z wykształceniem wyższym. Zmienna jest nieistotna na poziomie 5%, przy 6% jest istotna, β25 = -0.6261: osoba z wykształceniem niepełnym podstawowym zarabia o 62.61% mniej niż osoba z wykształceniem wyższym, β26 = -0.0843: osoba pracująca w instytucji prywatnej zarabia o 8.43% mniej niż osoba pracująca w instytucji publicznej. Zmienna jest nieistotna na poziomie 5%, przy 6% jest istotna, β27 = 0.0250, β28 = -0.0006: w celu poprawnej interpretacji wykonano wykres obrazujący wpływ stażu na poziom dochodu. Po analizie analitycznej oraz graficznej, do 21 roku stażu następuje wzrost wysokości dochodu, następnie spadek. Osoba mająca 21 lat stażu zarabia więcej o 25,99% od osoby nie posiadającej ani jednego roku stażu. Wykonane obliczenia znajdują się w załączniku. 12
Rys. 1. Wpływ stażu na dochód Źródło: Opracowanie własne 7. DIAGNOSTYKA 7.1. Poprawność formy funkcyjnej Test RESET: Ramsey RESET test using powers of the fitted values of lndochod Ho: model has no omitted variables F(3, 364) = 3.34 Prob > F = 0.0195 Na podstawie testu F, statystyka testowa 3.34, p-value 0.0195, na poziomie istotności 5% odrzucono hipotezę zerową o braku pominiętych zmiennych (o poprawnej formie funkcyjnej). Na podstawie niskiej statystyki testowej (bliskiej 2) oraz wcześniej przeprowadzonego testu Boxa-Coxa, skorzystano z tej formy funkcyjnej. Dodatkowe informacje znajdują się w załączniku. 7.2. Normalność zaburzenia losowego 13
W celu zbadania normalności zaburzenia losowego, została przeprowadzona graficzna analiza reszt. Poniżej otrzymane wyniki: Rys. 2. Analiza graficzna reszt Źródło: Opracowanie własne Na podstawie pierwszej grafiki można wysunąć wniosek, że reszty nie mają rozkładu normalnego. Na kolejnej grafice (wykres pudełkowy - BOX) widać występujące obserwacje nietypowe. Nie wydaje się być ich dużo. Następna grafika (wykres kwantylowy) przedstawia niedopasowane do rozkładu normalnego ogony reszt. Ostatnia grafika (wykres prawdopodobieństwa) obrazuje występującą asymetrię. Test Jarque-Berra: Skewness/Kurtosis tests for Normality ------- joint ------ Variable Obs Pr(Skewness) Pr(Kurtosis) chi2(2) Prob>chi2 -------------+--------------- residual 396 0.0109 0.0000 27.01 0.0000 14
Na podstawie wysokiej statystyki testowej (27.01) i p-value równego 0.0000, na dowolnie przyjętym poziomie istotności odrzucono hipotezę zerową, że zaburzenie losowe reszt ma rozkład normalny. Jest to zgodne z przypuszczeniami opartymi na graficznej analizie. Pomimo braku rozkładu normalnego, spełnione są założenia twierdzenia Gaussa-Markowa, więc estymator MNK wektora parametrów jest najlepszym nieobciążonym i liniowym estymatorem. Istnieją jednak estymatory nieliniowe, które wykazują większą efektywność od estymatorów MNK. 7.3. Homoskedastyczność Test Breuscha-Pagana: Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: _Iwojewodzt_2 _Iwojewodzt_4 _Iwojewodzt_6 _Iwojewodzt_8 _Iwojewodzt_10 _Iwojewodzt_12 _Iwojewodzt_14 _Iwojewodzt_16 _Iwojewodzt_18 _Iwojewodzt_20 _Iwojewodzt_24 _Iwojewodzt_26 _Iwojewodzt_28 _Iwojewodzt_30 _Iwojewodzt_32 _Iplec_2 _Istancywil_2 _Istancywil_3 _Istancywil_4 _Iwyksztalc_2 _Iwyksztalc_3 _Iwyksztalc_4 _Iwyksztalc_5 _Iwyksztalc_6 _Iwyksztalc_7 _Irodzaj_2 staz stazz chi2(28) = 182.63 Prob > chi2 = 0.0000 Na podstawie wysokiej statystyki testowej (182.63) i p-value równego 0.0000, na dowolnie przyjętym poziomie istotności odrzucono hipotezę zerową o homoskedastyczności zaburzenia losowego. Test White a: White's test for Ho: homoskedasticity against Ha: unrestricted heteroskedasticity chi2(241) = 320.86 Prob > chi2 = 0.0004 Cameron & Trivedi's decomposition of IM-test --- Source chi2 df p 15
---------------------+----- Heteroskedasticity 320.86 241 0.0004 Skewness 50.02 28 0.0064 Kurtosis 3.32 1 0.0683 ---------------------+----- Total 374.21 270 0.0000 --- Na podstawie statystyki testowej (320.86) i p-value równego 0.0004, na poziomie istotności 5% odrzucono hipotezę zerową o homoskedastyczności zaburzenia losowego. Heteroskedastyczność jest istotnym problemem. W celu jego wyeliminowania należy użyć estymatorów White a, ponieważ odporne są one na heteroskedastyczność i zapewniają odpowiednie estymatory błędów standardowych estymatorów oraz wariancji składnika losowego. xi: reg lndochod i.wojewodztwo i.plec i.stancywilny i.wyksztalcenie i.rodzaj staz stazz,robust i.wojewodztwo _Iwojewodzt_0-32 (naturally coded; _Iwojewodzt_0 omitted) i.plec _Iplec_1-2 (naturally coded; _Iplec_1 omitted) i.stancywilny _Istancywil_1-4 (naturally coded; _Istancywil_1 omitted) i.wyksztalcenie _Iwyksztalc_1-7 (naturally coded; _Iwyksztalc_1 omitted) i.rodzaj _Irodzaj_1-2 (naturally coded; _Irodzaj_1 omitted) Linear regression Number of obs = 396 F( 28, 367) = 9.66 Prob > F = 0.0000 R-squared = 0.3503 Root MSE =.37022 -------- Robust lndochod Coef. Std. Err. t P> t [95% Conf. Interval] ---------------+---------------- _Iwojewodzt_2 -.3216196.1068034-3.01 0.003 -.531643 -.1115963 _Iwojewodzt_4 -.340228.1051884-3.23 0.001 -.5470755 -.1333805 _Iwojewodzt_6 -.2472789.1088847-2.27 0.024 -.461395 -.0331627 _Iwojewodzt_8 -.1235964.101347-1.22 0.223 -.3228901.0756974 _Iwojewodzt_10 -.3282816.082548-3.98 0.000 -.4906081 -.1659551 _Iwojewodzt_12 -.0906211.1120547-0.81 0.419 -.310971.1297288 _Iwojewodzt_14 -.254678.1199621-2.12 0.034 -.4905773 -.0187786 _Iwojewodzt_16 -.1871719.10518-1.78 0.076 -.394003.0196593 _Iwojewodzt_18 -.3244527.1205987-2.69 0.007 -.5616039 -.0873015 _Iwojewodzt_20 -.3168062.0891389-3.55 0.000 -.4920933 -.1415192 _Iwojewodzt_24 -.2881264.1054086-2.73 0.007 -.495407 -.0808458 _Iwojewodzt_26 -.4512844.0964953-4.68 0.000 -.6410374 -.2615313 _Iwojewodzt_28 -.2898893.0873582-3.32 0.001 -.4616747 -.1181039 _Iwojewodzt_30 -.2844661.1239155-2.30 0.022 -.5281396 -.0407926 16
_Iwojewodzt_32 -.3021958.1389442-2.17 0.030 -.5754224 -.0289692 _Iplec_2 -.3143361.0401147-7.84 0.000 -.3932196 -.2354527 _Istancywil_2.1077362.0511096 2.11 0.036.0072319.2082406 _Istancywil_3.2114957.1078873 1.96 0.051 -.0006591.4236506 _Istancywil_4.2793052.091866 3.04 0.003.0986555.459955 _Iwyksztalc_2 -.3323837.1176539-2.83 0.005 -.563744 -.1010233 _Iwyksztalc_3 -.2575302.0653606-3.94 0.000 -.3860585 -.1290018 _Iwyksztalc_4 -.1895951.0775604-2.44 0.015 -.3421135 -.0370766 _Iwyksztalc_5 -.4812358.064875-7.42 0.000 -.6088093 -.3536623 _Iwyksztalc_6 -.9398333.4907483-1.92 0.056-1.904865.0251983 _Iwyksztalc_7 -.6260741.0739087-8.47 0.000 -.7714119 -.4807363 _Irodzaj_2 -.084269.0431181-1.95 0.051 -.1690586.0005206 staz.024964.0065202 3.83 0.000.0121423.0377857 stazz -.0005995.0001773-3.38 0.001 -.0009481 -.0002509 _cons 7.828649.0978097 80.04 0.000 7.636311 8.020987 -------- Kierunek zmiany wartości błędów standardowych, statystyk testowych oraz p-value nie był jednorodny, jednakże otrzymano istotniejsze ich oszacowanie. Zmienna stancywil_2 okazała się istotna (wzrost statystyki testowej do 2.11 oraz spadek p-value do 0.036), więc na poziomie istotności 5% zmienna oznaczająca osoby w związku małżeńskim jest istotna. Podobnie zmienna stancywil_3 oznaczająca wdowy lub wdowców okazała się nieistotna (spadek statystyki testowej do 1.96 oraz wzrost p-value do 0.051). Kolejną zmienną nieistotną na poziomie istotności 5% jest wyksztalc_6 oznaczająca osoby z wykształceniem podstawowym (wzrost statystyki testowej do -1.92 oraz wzrost p-value do 0.056). Ostatnią zmienną, która okazała się nieistotna jest rodzaj_2, czyli oznaczająca osoby pracujące w prywatnych firmach (wzrost statystyki testowej do -1.95 oraz wzrost p-value do 0.051). Warto zauważyć, że wszystkie spośród wymienionych wyżej zmiennych okazałyby się istotne już na poziomie 6%. Postanowiono nie usuwać zmiennej rodzaj z regresji z powodu granicznej wartości statystyki testowej oraz jej istotności na minimalnie wyżej przyjętym poziomie. 8. NIETYPOWE OBSERWACJE Znalezione zostały 4 nietypowe obserwacje, co stanowi 1.01% wszystkich obserwacji. Nic nie wskazuje by były one błędne, stąd nie zostały one pominięte. Poniżej zostały one przedstawione: +--+ dochod wojewo~o plec stancy~y wykszt~e rodzaj staz leverage residua~t cook_d~t 17
-- 1. 150 30 1 1 6 2 1.2866637-4.905236.3334266 388. 1900 0 1 1 6 2 2.2660882 2.199267.06047 391. 1700 8 1 1 6 2 1.2919644 2.353167.0787376 396. 4800 14 1 3 1 1 54.1656829 3.225834.0712578 +--+ W obserwacji nr 1 nietypowy jest dochód. Pozostałe zmienne nie są nietypowe, jednak poziom dochodu jest najniższy spośród wszystkich obserwacji, znacznie odbiegający od średniej. W kolejnych dwóch nietypowych obserwacjach wyróżnia się wykształcenie tych osób. Pomimo niskiego wykształcenia (podstawowe) zarobki są całkiem wysokie (w porównaniu do średniej wynoszącej 1184 zł). Ostatnia obserwacja wyróżnia się wysokim dochodem (najwyższym w swoim województwie) znacznie odbiegającym od średniej oraz wysokim stażem pracy. Warto zauważyć, że pierwsze 3 nietypowe obserwacje dotyczą wykształcenia podstawowego, a w bazie danych znajdują się tylko 4 osoby z tym poziomem wykształcenia. Ma to niewątpliwie wpływ na powyższy wynik. 9. WSPÓŁLINIOWOŚĆ Test VIF: Poniżej przedstawione zostały wyniki testu na współliniowość zmiennych: Variable VIF 1/VIF -------------+---------------------- staz 14.46 0.069176 stazz 12.88 0.077657 _Iwojewod~28 2.46 0.405703 _Iwyksztal~5 2.31 0.432326 _Iwojewod~10 2.25 0.443576 _Iwojewod~24 2.18 0.458449 _Istancywi~2 2.17 0.460726 _Iwojewod~14 2.04 0.490641 _Iwojewod~20 1.98 0.504793 _Iwojewod~_4 1.96 0.510772 _Iwyksztal~3 1.92 0.519534 _Iwojewod~_2 1.89 0.529156 _Iwojewod~30 1.83 0.547510 _Iwojewod~16 1.81 0.553387 _Iwojewod~32 1.78 0.560604 _Iwojewod~_6 1.74 0.573592 _Iwojewod~_8 1.74 0.574742 18
_Istancywi~3 1.68 0.593511 _Iwyksztal~4 1.54 0.648676 _Iwojewod~26 1.54 0.651181 _Iwojewod~18 1.48 0.674781 _Iwyksztal~7 1.44 0.693434 _Istancywi~4 1.44 0.695786 _Iwojewod~12 1.38 0.722469 _Iwyksztal~2 1.29 0.777754 _Iplec_2 1.25 0.801755 _Iwyksztal~6 1.17 0.854343 _Irodzaj_2 1.16 0.864614 -------------+---------------------- Mean VIF 2.60 Powyższy test wykazał problem współliniowości między zmiennymi staz i stazz, ponieważ wartość jest większa od 10. Jednak stazz=staz 2, stąd pozostawiono oszacowania bez zmian, gdyż zmienna staz 2 została celowo wprowadzona do modelu. Znaczący problem byłby gdyby statystyka którejkolwiek z pozostałych zmiennych przekraczała 10. W tym przypadku jej najwyższa wartość wynosi 2.46. Warto zauważyć, że przy szukaniu ostatecznej formy funkcyjnej wystąpił problem współliniowości między zmiennymi wiek i staz. Prace nad tymi zmiennymi i dokładniejsze informacje znajdują się w załączniku. 10. PODSUMOWANIE W niniejszej pracy udało się wykazać większość zależności występujących między poziomem dochodu, a wymienionymi zmiennymi. Jedyną zmienną, którą zdecydowano się usunąć z powodu współliniowości była zmienna wiek. Otrzymane rezultaty dotyczące wykształcenia, a także płci są zgodne z badaniami Beyrouti (2009). W prawdzie dotyczyły one innego kraju, jednak podobnie kobiety zarabiały mniej od mężczyzn, dodatkowo była zauważalna różnica w wynagrodzeniach osób lepiej wykształconych. Również uzyskane wyniki zgodne są z badaniami Landau i Arthur (1992). W tym przypadku doświadczenie miało miejsce w kolejnym kraju, jednak nie zauważono istotnych różnic. Podobnie wyższe wynagrodzenia otrzymywały osoby posiadające współmałżonka. Również osoby wolne zarabiały mniej od jednostek rozwiedzionych. Nieco odmienne, aczkolwiek zbliżone wartości otrzymano dotyczące województw, w których zarabia się najwięcej. Według wyżej przeprowadzonej regresji najwyższe wynagrodzenia otrzymywały osoby z województwa pomorskiego, co nie jest zgodne ze statystykami GUS, według których 19
najwyższe zarobki odnotowano w województwie mazowieckim, a dopiero później w województwie pomorskim. Niewątpliwie uzyskałoby się inne wyniki, gdyby oszacowanie przeprowadzone zostało na większej próbie. Również zgodne wyniki dotyczą rodzaju firmy (przy przyjęciu poziomu istotności 6%), w której dana osoba pracuje. Mianowicie według Barro (1973), a także danych przedstawionych na początku pracy, wyższe zarobki osiąga się w instytucjach publicznych. Zgodnie z przeprowadzoną regresją zarobki w instytucjach prywatnych są niższe o 8,71%, co jest wynikiem niższym niż wartości podane przez PKPP Lewiatan i GUS, kolejno 10% i 13%. Zgodnie z przeprowadzoną regresją, statycznie maksymalne dochody osiągnie osoba spełniająca następujące warunki: 1. jest mężczyzną, 2. z wykształceniem wyższym, 3. pracującym w instytucji publicznej, 4. który się rozwiódł, 5. zamieszkałym w województwie pomorskim, 6. mającym 21 lat stażu. 20
11. BIBLIOGRAFIA Dane: 1. Badanie Ekonomicznej Aktywności Ludności z 4. kwartału 2009 roku: http://ekonometria.wne.uw.edu.pl/uploads/main/bael2009.zip. Literatura: 1. Lazear, E., "Education: Consumption or production?", The Journal of Political Economy, Vol. 85 (3), 1997. 2. Bartlett, S. "Education, Experience, and Wage Inequality: 1939-1969", The Journal of Human Resources, Vol. 13, (3) 1978. 3. Barro, R. (1973), The Control of Politicians: An Economic Model, Public Choice 14 (September), 19-42. 4. Landau, J., Arthur, M. B. (1992), The relationship of marital status, spouse s career status, and gender to salary level, Sex Roles, Vol. 27, 665-681. 21
12. ZAŁĄCZNIKI 12.1. Statystyki opisowe zmiennych Poniżej przedstawione zostały statystyki opisowe zmiennych ciągłych, tj. średnia, odchylenie standardowe, minimalna i maksymalna wartość po usunięciu jednej błędnej obserwacji opisanej w dalszej części dokumentu. -------------+-------- dochod 396 1646.515 781.2893 150 5000 staz 396 18.41919 12.09461 0 64 wiek 396 39.90152 11.72438 17 80 Zauważalne jest duże zróżnicowanie zmiennych dochod, staz i wiek. Macierz korelacji dla tych zmiennych wygląda następująco: dochod wiek staz -------------+--- dochod 1.0000 wiek 0.0405 1.0000 staz 0.0945 0.9027 1.0000 Występuje dodatnia korelacji między dochodem, a wiekiem oraz dochodem i stażem, jednak jest to korelacja bardzo słaba. Dodatkowo zauważalna jest bardzo silna dodatnia korelacja między wiekiem, a stażem, stąd można podejrzewać wystąpienie problemu współliniowości w dalszej części analizy. Szczegółowe dane dotyczące zmiennej zależnej dochod: dochod ------------- Percentiles Smallest 1% 500 150 5% 800 300 10% 960 450 Obs 396 25% 1100 500 Sum of Wgt. 396 50% 1500 Mean 1646.515 22
Largest Std. Dev. 781.2893 75% 1920 4800 90% 2700 4800 Variance 610412.9 95% 3200 5000 Skewness 1.590333 99% 4800 5000 Kurtosis 6.13846 Kurtoza wynosi 6.14, co jest wartością większą od 3, a to oznacza że rozkład jest bardziej wysmukły niż normalny, oraz że występuje większe skupienie wartości wokół średniej. Dodatkowo mediana równa 1500 jest wartością mniejszą od średniej równej 1646.52, co oznacza że występuje więcej obserwacji o dochodzie niższym niż średnia. Rys. 3. Histogram zmiennej dochod Źródło: opracowanie własne Podobne wnioski do przedstawionych powyżej można wyciągnąć po analizie histogramu zmiennej dochod. 12.2. Analiza zmiennych dyskretnych Poniżej przedstawione zostały rozkłady zmiennych wyksztalcenie, wojewodztwo, plec i stancywilny: 23
wyksztalcen ie Freq. Percent Cum. ------------+----------- 0 1 0.25 0.25 1 77 19.40 19.65 2 22 5.54 25.19 3 94 23.68 48.87 4 39 9.82 58.69 5 131 33.00 91.69 6 4 1.01 92.70 7 29 7.30 100.00 ------------+----------- Total 397 100.00 Na tym etapie zauważona została jedna błędna obserwacja wartość 0 dla wykształcenia jest nieopisana może oznaczać brak danych lub błędną informację. Najwięcej spośród badanych osób ma wykształcenie gimnazjalne, najmniej wykształcenie podstawowe. Znacząca ilość obserwacji przyjmuje wartości odpowiadające wykształceniom średniemu i wyższemu. Rozkłady zmiennych wojewodztwo, plec i stancywilny wyświetlone zostały już po usunięciu błędnej obserwacji: wojewodztwo Freq. Percent Cum. ------------+----------- 2 25 6.31 6.31 4 27 6.82 13.13 6 20 5.05 18.18 8 20 5.05 23.23 10 36 9.09 32.32 12 10 2.85 14 29 7.32 42.17 16 23 5.81 47.98 18 13 3.28 51.26 20 28 7.07 58.33 22 27 6.82 65.15 24 34 8.59 73.74 26 15 3.79 77.53 28 45 11.36 88.89 30 24 6.06 94.95 32 20 5.05 100.00 ------------+----------- Total 396 100.00 Dane wydają się być poprawne. Najwięcej badanych mieszka w województwie warmińsko-mazurskim, a najmniej w małopolskim. 24
plec Freq. Percent Cum. ------------+----------- 1 202 51.01 51.01 2 194 48.99 100.00 ------------+----------- Total 396 100.00 Występuje niewielka przewaga w ilości mężczyzn, jednak różnica jest niewielka. Nie są zauważalne dane niezgodne. stancywilny Freq. Percent Cum. ------------+----------- 1 92 23.23 23.23 2 262 66.16 89.39 3 22 5.56 94.95 4 20 5.05 100.00 ------------+----------- Total 396 100.00 Najwięcej osób ma żonę lub męża (prawie 2/3). Następnie miejsce wśród ilości osób badanych zajmują osoby wolne. Również nie stwierdzono błędnych obserwacji. Do poprawnej analizy, konieczne okazało się wyświetlenie zmiennej dochod w zależności od zmiennych wyksztalcenie, wojewodztwo oraz stancywilny: - -> wyksztalcenie = 1 -------------+-------- dochod 77 2118.416 1039.363 300 5000 - -> wyksztalcenie = 2 -------------+-------- dochod 22 1520.455 785.2296 500 3500 - -> wyksztalcenie = 3 25
-------------+-------- dochod 94 1750.404 745.2857 660 4500 - -> wyksztalcenie = 4 -------------+-------- dochod 39 1639.744 615.4993 600 3200 - -> wyksztalcenie = 5 -------------+-------- dochod 131 1434.229 579.8522 500 4000 - -> wyksztalcenie = 6 -------------+-------- dochod 4 1187.5 792.0175 150 1900 - -> wyksztalcenie = 7 -------------+-------- dochod 29 1183.793 324.6362 450 1880 - Osoby z wykształceniem wyższym zarabiają najwięcej, stąd nie jest konieczna zmiana wartości bazowej. - -> wojewodztwo = 2 -------------+-------- dochod 25 1719.28 916.6477 820 5000 26
- -> wojewodztwo = 4 -------------+-------- dochod 27 1339.259 507.9213 720 2550 - -> wojewodztwo = 6 -------------+-------- dochod 20 1981.5 860.7847 1000 4500 - -> wojewodztwo = 8 -------------+-------- dochod 20 1780.5 775.2926 900 4000 - -> wojewodztwo = 10 -------------+-------- dochod 36 1472.694 427.0137 900 3000 - -> wojewodztwo = 12 -------------+-------- dochod 10 1818 598.9955 980 2800 - -> wojewodztwo = 14 -------------+-------- dochod 29 1709.655 1018.228 300 4800 - -> wojewodztwo = 16 27
-------------+-------- dochod 23 1880.435 1076.283 700 5000 - -> wojewodztwo = 18 -------------+-------- dochod 13 1525.692 781.013 684 3500 - -> wojewodztwo = 20 -------------+-------- dochod 28 1525.179 558.1044 660 3500 - -> wojewodztwo = 22 -------------+-------- dochod 27 2073.63 1067.289 1000 4800 - -> wojewodztwo = 24 -------------+-------- dochod 34 1631.765 729.0861 500 3500 - -> wojewodztwo = 26 -------------+-------- dochod 15 1318 394.972 650 2000 - -> wojewodztwo = 28 -------------+-------- dochod 45 1586.067 609.2194 450 3600 28
- -> wojewodztwo = 30 -------------+-------- dochod 24 1447.917 707.9485 150 3200 - -> wojewodztwo = 32 -------------+-------- dochod 20 1685.55 898.814 600 3500 - Osoby z województwa pomorskiego zarabiają najwięcej, stąd zdecydowano się ustalić tę wartość jako bazową. W tym celu zamieniono wartość przyjmowaną przez osoby badane zamieszkujące województwo pomorskiego z 22 na 0. - -> stancywilny = 1 -------------+-------- dochod 92 1411.12 514.5174 150 3500 - -> stancywilny = 2 -------------+-------- dochod 262 1721.706 821.1419 300 5000 - -> stancywilny = 3 -------------+-------- dochod 22 1515 947.3107 450 4800-29
-> stancywilny = 4 -------------+-------- dochod 20 1889 860.1218 600 4000 - bazowej. Osoby wolne zarabiają najmniej, stąd nie stwierdzono konieczności zmiany wartości -> plec = 1 -------------+-------- dochod 202 1806.842 869.7532 150 5000 - -> plec = 2 -------------+-------- dochod 194 1479.577 637.6111 450 4000 - Średnio rzecz biorąc kobiety zarabiają mniej od mężczyzn o 327.27 zł. 12.3. Praca nad formą modelu regresji Przy wstępnej regresji użyto zmiennej dochod, jako zmiennej objaśnianej: xi: reg dochod i.wojewodztwo i.plec i.stancywilny i.wyksztalcenie i.rodzaj staz wiek i.wojewodztwo _Iwojewodzt_0-32 (naturally coded; _Iwojewodzt_0 omitted) i.plec _Iplec_1-2 (naturally coded; _Iplec_1 omitted) i.stancywilny _Istancywil_1-4 (naturally coded; _Istancywil_1 omitted) i.wyksztalcenie _Iwyksztalc_1-7 (naturally coded; _Iwyksztalc_1 omitted) i.rodzaj _Irodzaj_1-2 (naturally coded; _Irodzaj_1 omitted) Source SS df MS Number of obs = 396 -------------+------ F( 28, 367) = 6.80 Model 82356195 28 2941292.68 Prob > F = 0.0000 Residual 158756912 367 432580.141 R-squared = 0.3416 30
-------------+------ Adj R-squared = 0.2913 Total 241113107 395 610412.929 Root MSE = 657.71 -------- dochod Coef. Std. Err. t P> t [95% Conf. Interval] ---------------+---------------- _Iwojewodzt_2-562.419 186.8141-3.01 0.003-929.7795-195.0585 _Iwojewodzt_4-579.0747 184.2227-3.14 0.002-941.3394-216.8101 _Iwojewodzt_6-459.5148 200.104-2.30 0.022-853.0092-66.02043 _Iwojewodzt_8-187.6353 199.174-0.94 0.347-579.3007 204.0302 _Iwojewodzt_10-635.9619 172.4729-3.69 0.000-975.121-296.8028 _Iwojewodzt_12-229.5653 248.2389-0.92 0.356-717.7144 258.5838 _Iwojewodzt_14-393.5051 181.3461-2.17 0.031-750.113-36.89725 _Iwojewodzt_16-296.5345 190.0757-1.56 0.120-670.3087 77.23973 _Iwojewodzt_18-511.3036 225.7917-2.26 0.024-955.3114-67.29582 _Iwojewodzt_20-616.0727 181.8157-3.39 0.001-973.604-258.5415 _Iwojewodzt_24-462.5547 174.2781-2.65 0.008-805.2637-119.8458 _Iwojewodzt_26-834.715 214.5511-3.89 0.000-1256.619-412.8112 _Iwojewodzt_28-550.8984 163.4805-3.37 0.001-872.3745-229.4223 _Iwojewodzt_30-436.6454 187.1906-2.33 0.020-804.7462-68.54463 _Iwojewodzt_32-391.3267 201.1713-1.95 0.053-786.9198 4.2664 _Iplec_2-538.2312 73.81215-7.29 0.000-683.379-393.0833 _Istancywil_2 377.1423 98.59247 3.83 0.000 183.2653 571.0194 _Istancywil_3 511.0627 190.0153 2.69 0.007 137.4073 884.718 _Istancywil_4 769.9894 181.1081 4.25 0.000 413.8496 1126.129 _Iwyksztalc_2-605.2804 163.5509-3.70 0.000-926.8949-283.6659 _Iwyksztalc_3-517.5613 106.4035-4.86 0.000-726.7984-308.3242 _Iwyksztalc_4-470.5302 138.5388-3.40 0.001-742.9596-198.1007 _Iwyksztalc_5-892.0151 105.2519-8.48 0.000-1098.988-685.0426 _Iwyksztalc_6-1307.138 358.5137-3.65 0.000-2012.137-602.1391 _Iwyksztalc_7-1081.364 150.5178-7.18 0.000-1377.35-785.3788 _Irodzaj_2-144.7246 74.75883-1.94 0.054-291.7341 2.284794 staz 17.77441 8.70745 2.04 0.042.6516499 34.89716 wiek -18.08043 9.244083-1.96 0.051-36.25844.09759 _cons 3130.227 267.3999 11.71 0.000 2604.399 3656.055 -------- Ramsey RESET test using powers of the fitted values of dochod Ho: model has no omitted variables F(3, 364) = 13.01 Prob > F = 0.0000 Forma funkcyjna okazała się niepoprawna (interpretacja testu pkt 7.1). W celu znalezienia jej poprawnej formy przeprowadzono test Boxa-Coxa (pkt 4). Rezultaty kolejnej regresji, w której użyto zmiennej lndochod jako zmiennej objaśnianej: xi: reg lndochod i.wojewodztwo i.plec i.stancywilny i.wyksztalcenie i.rodzaj staz wiek 31
i.wojewodztwo _Iwojewodzt_0-32 (naturally coded; _Iwojewodzt_0 omitted) i.plec _Iplec_1-2 (naturally coded; _Iplec_1 omitted) i.stancywilny _Istancywil_1-4 (naturally coded; _Istancywil_1 omitted) i.wyksztalcenie _Iwyksztalc_1-7 (naturally coded; _Iwyksztalc_1 omitted) i.rodzaj _Irodzaj_1-2 (naturally coded; _Irodzaj_1 omitted) Source SS df MS Number of obs = 396 -------------+------ F( 28, 367) = 6.35 Model 25.2704073 28.902514545 Prob > F = 0.0000 Residual 52.1500572 367.142098248 R-squared = 0.3264 -------------+------ Adj R-squared = 0.2750 Total 77.4204644 395.196001176 Root MSE =.37696 -------- lndochod Coef. Std. Err. t P> t [95% Conf. Interval] ---------------+---------------- _Iwojewodzt_2 -.2937877.1070707-2.74 0.006 -.5043368 -.0832385 _Iwojewodzt_4 -.3222205.1055855-3.05 0.002 -.529849 -.114592 _Iwojewodzt_6 -.2139868.1146877-1.87 0.063 -.4395143.0115408 _Iwojewodzt_8 -.0660184.1141547-0.58 0.563 -.2904977.1584609 _Iwojewodzt_10 -.3129215.0988512-3.17 0.002 -.5073073 -.1185357 _Iwojewodzt_12 -.0960253.1422758-0.67 0.500 -.3758033.1837527 _Iwojewodzt_14 -.2611638.1039368-2.51 0.012 -.4655502 -.0567774 _Iwojewodzt_16 -.197477.1089401-1.81 0.071 -.4117022.0167481 _Iwojewodzt_18 -.305335.1294103-2.36 0.019 -.5598139 -.0508562 _Iwojewodzt_20 -.2960368.1042059-2.84 0.005 -.5009524 -.0911211 _Iwojewodzt_24 -.2501454.0998858-2.50 0.013 -.4465658 -.0537251 _Iwojewodzt_26 -.4502637.1229679-3.66 0.000 -.6920738 -.2084536 _Iwojewodzt_28 -.2672031.0936973-2.85 0.005 -.451454 -.0829521 _Iwojewodzt_30 -.2795767.1072865-2.61 0.010 -.4905501 -.0686032 _Iwojewodzt_32 -.2507022.1152994-2.17 0.030 -.4774326 -.0239718 _Iplec_2 -.2809324.0423047-6.64 0.000 -.3641225 -.1977424 _Istancywil_2.2206731.0565073 3.91 0.000.1095543.3317919 _Istancywil_3.2467388.1089054 2.27 0.024.0325818.4608957 _Istancywil_4.4408941.1038004 4.25 0.000.2367759.6450122 _Iwyksztalc_2 -.3200865.0937376-3.41 0.001 -.5044168 -.1357562 _Iwyksztalc_3 -.2183682.0609842-3.58 0.000 -.3382905 -.098446 _Iwyksztalc_4 -.1983354.0794022-2.50 0.013 -.3544757 -.0421951 _Iwyksztalc_5 -.43875.0603241-7.27 0.000 -.5573743 -.3201256 _Iwyksztalc_6-1.039336.2054787-5.06 0.000-1.4434 -.6352727 _Iwyksztalc_7 -.5620724.0862678-6.52 0.000 -.7317137 -.3924312 _Irodzaj_2 -.0942262.0428473-2.20 0.028 -.1784832 -.0099691 staz.0120793.0049906 2.42 0.016.0022656.0218931 wiek -.0146815.0052982-2.77 0.006 -.0251001 -.004263 _cons 8.220767.1532577 53.64 0.000 7.919394 8.52214 -------- Ramsey RESET test using powers of the fitted values of lndochod Ho: model has no omitted variables F(3, 364) = 2.26 Prob > F = 0.0814 32
Forma funkcyjna okazał się poprawna. Z powodu zauważenia wysokiej korelacji między zmiennymi wiek i staz we wstępnej analizie danych przeprowadzony został test na współliniowość zmiennych: Variable VIF 1/VIF -------------+---------------------- wiek 10.73 0.093231 staz 10.13 0.098742 _Iwojewod~28 2.46 0.405798 _Iwojewod~10 2.25 0.444340 _Iwyksztal~5 2.24 0.445435 _Iwojewod~24 2.18 0.458236 _Iwojewod~14 2.04 0.489419 _Istancywi~2 1.99 0.501959 _Iwojewod~20 1.99 0.502913 _Iwojewod~_4 1.97 0.506623 _Iwojewod~_2 1.89 0.529210 _Iwyksztal~3 1.88 0.532985 _Iwojewod~30 1.83 0.547570 _Iwojewod~16 1.81 0.552677 _Iwojewod~32 1.78 0.562875 _Iwojewod~_6 1.76 0.568895 _Iwojewod~_8 1.74 0.574221 _Istancywi~3 1.73 0.576621 _Iwyksztal~4 1.56 0.641042 _Iwojewod~26 1.54 0.651155 _Iwojewod~18 1.48 0.674845 _Istancywi~4 1.44 0.694494 _Iwyksztal~7 1.41 0.710432 _Iwojewod~12 1.39 0.720170 _Iwyksztal~2 1.28 0.778326 _Iplec_2 1.25 0.802330 _Iwyksztal~6 1.18 0.849971 _Irodzaj_2 1.16 0.863806 -------------+---------------------- Mean VIF 2.36 Został wykryty problem współliniowości dla zmiennych których VIF > 10 (dokładna interpretacja pkt 9). Wynikać może on z wielu czynników, m.in. niewystarczającej ilości obserwacji, a także z rzeczywiście występującej współliniowości. Podjęto próby wyeliminowania problemu. Pierwsze dwie to regresje przeprowadzone z wykorzystaniem zmiennej staz jako zmiennej objaśniającej oraz kolejno zmiennej wiek: xi: reg lndochod i.wojewodztwo i.plec i.stancywilny i.wyksztalcenie i.rodzaj staz i.wojewodztwo _Iwojewodzt_0-32 (naturally coded; _Iwojewodzt_0 omitted) i.plec _Iplec_1-2 (naturally coded; _Iplec_1 omitted) 33
i.stancywilny _Istancywil_1-4 (naturally coded; _Istancywil_1 omitted) i.wyksztalcenie _Iwyksztalc_1-7 (naturally coded; _Iwyksztalc_1 omitted) i.rodzaj _Irodzaj_1-2 (naturally coded; _Irodzaj_1 omitted) Source SS df MS Number of obs = 396 -------------+------ F( 27, 368) = 6.19 Model 24.1792678 27.895528439 Prob > F = 0.0000 Residual 53.2411966 368.144677165 R-squared = 0.3123 -------------+------ Adj R-squared = 0.2619 Total 77.4204644 395.196001176 Root MSE =.38036 -------- lndochod Coef. Std. Err. t P> t [95% Conf. Interval] ---------------+---------------- _Iwojewodzt_2 -.3040587.1079732-2.82 0.005 -.5163807 -.0917368 _Iwojewodzt_4 -.349144.1060873-3.29 0.001 -.5577573 -.1405306 _Iwojewodzt_6 -.2428693.1152449-2.11 0.036 -.4694905 -.0162482 _Iwojewodzt_8 -.0891002.1148788-0.78 0.438 -.3150015.1368012 _Iwojewodzt_10 -.3078843.0997273-3.09 0.002 -.5039911 -.1117774 _Iwojewodzt_12 -.0706777.143264-0.49 0.622 -.3523965.2110411 _Iwojewodzt_14 -.2841808.1045403-2.72 0.007 -.4897521 -.0786095 _Iwojewodzt_16 -.1866601.1098536-1.70 0.090 -.4026797.0293595 _Iwojewodzt_18 -.3120473.1305565-2.39 0.017 -.5687777 -.0553169 _Iwojewodzt_20 -.3137558.1049491-2.99 0.003 -.5201311 -.1073806 _Iwojewodzt_24 -.2652907.1006371-2.64 0.009 -.4631868 -.0673947 _Iwojewodzt_26 -.4467424.1240721-3.60 0.000 -.6907217 -.2027631 _Iwojewodzt_28 -.2752153.0944987-2.91 0.004 -.4610405 -.0893901 _Iwojewodzt_30 -.2740096.1082367-2.53 0.012 -.4868497 -.0611695 _Iwojewodzt_32 -.2631075.1162533-2.26 0.024 -.4917116 -.0345035 _Iplec_2 -.2933378.0424472-6.91 0.000 -.3768073 -.2098683 _Istancywil_2.1952186.0562594 3.47 0.001.0845884.3058489 _Istancywil_3.1948268.1082512 1.80 0.073 -.0180418.4076954 _Istancywil_4.3789294.1022788 3.70 0.000.1778051.5800537 _Iwyksztalc_2 -.3048741.0944221-3.23 0.001 -.4905486 -.1191996 _Iwyksztalc_3 -.2115162.0614845-3.44 0.001 -.3324212 -.0906112 _Iwyksztalc_4 -.1722233.0795533-2.16 0.031 -.3286593 -.0157873 _Iwyksztalc_5 -.4323189.060824-7.11 0.000 -.5519251 -.3127126 _Iwyksztalc_6 -.9888303.2065177-4.79 0.000-1.394933 -.5827274 _Iwyksztalc_7 -.564527.0870425-6.49 0.000 -.7356902 -.3933639 _Irodzaj_2 -.0894253.043199-2.07 0.039 -.1743732 -.0044774 staz -.0006307.0019845-0.32 0.751 -.0045331.0032717 _cons 7.89626.0997573 79.15 0.000 7.700094 8.092425 -------- xi: reg lndochod i.wojewodztwo i.plec i.stancywilny i.wyksztalcenie i.rodzaj wiek i.wojewodztwo _Iwojewodzt_0-32 (naturally coded; _Iwojewodzt_0 omitted) i.plec _Iplec_1-2 (naturally coded; _Iplec_1 omitted) i.stancywilny _Istancywil_1-4 (naturally coded; _Istancywil_1 omitted) i.wyksztalcenie _Iwyksztalc_1-7 (naturally coded; _Iwyksztalc_1 omitted) i.rodzaj _Irodzaj_1-2 (naturally coded; _Irodzaj_1 omitted) 34
Source SS df MS Number of obs = 396 -------------+------ F( 27, 368) = 6.29 Model 24.4379337 27.905108655 Prob > F = 0.0000 Residual 52.9825307 368.143974268 R-squared = 0.3157 -------------+------ Adj R-squared = 0.2654 Total 77.4204644 395.196001176 Root MSE =.37944 -------- lndochod Coef. Std. Err. t P> t [95% Conf. Interval] ---------------+---------------- _Iwojewodzt_2 -.301895.1077225-2.80 0.005 -.5137238 -.0900662 _Iwojewodzt_4 -.3470262.1057784-3.28 0.001 -.5550321 -.1390203 _Iwojewodzt_6 -.2356792.1150893-2.05 0.041 -.4619944 -.009364 _Iwojewodzt_8 -.0839304.114664-0.73 0.465 -.3094093.1415486 _Iwojewodzt_10 -.3150675.0994976-3.17 0.002 -.5107226 -.1194124 _Iwojewodzt_12 -.0820001.143093-0.57 0.567 -.3633828.1993825 _Iwojewodzt_14 -.2755225.1044501-2.64 0.009 -.4809164 -.0701286 _Iwojewodzt_16 -.1908859.1096226-1.74 0.082 -.4064513.0246794 _Iwojewodzt_18 -.3106603.130243-2.39 0.018 -.5667741 -.0545464 _Iwojewodzt_20 -.3113578.1046979-2.97 0.003 -.517239 -.1054767 _Iwojewodzt_24 -.2607147.1004469-2.60 0.010 -.4582366 -.0631928 _Iwojewodzt_26 -.4483622.1237744-3.62 0.000 -.6917561 -.2049683 _Iwojewodzt_28 -.2754084.094252-2.92 0.004 -.4607486 -.0900683 _Iwojewodzt_30 -.2740678.1079681-2.54 0.012 -.4863797 -.061756 _Iwojewodzt_32 -.2628209.1159486-2.27 0.024 -.4908257 -.034816 _Iplec_2 -.2969388.0420596-7.06 0.000 -.3796461 -.2142315 _Istancywil_2.2241632.0568606 3.94 0.000.1123507.3359756 _Istancywil_3.2513361.1096053 2.29 0.022.0358048.4668675 _Istancywil_4.4118217.1037815 3.97 0.000.2077426.6159008 _Iwyksztalc_2 -.2953059.0937899-3.15 0.002 -.4797372 -.1108745 _Iwyksztalc_3 -.2045764.0611169-3.35 0.001 -.3247585 -.0843943 _Iwyksztalc_4 -.1705044.0790821-2.16 0.032 -.326014 -.0149949 _Iwyksztalc_5 -.4244891.0604307-7.02 0.000 -.5433219 -.3056562 _Iwyksztalc_6-1.0068.2063876-4.88 0.000-1.412647 -.6009529 _Iwyksztalc_7 -.5535379.0867628-6.38 0.000 -.7241511 -.3829247 _Irodzaj_2 -.0973946.0431091-2.26 0.024 -.1821657 -.0126235 wiek -.0028956.0021017-1.38 0.169 -.0070284.0012373 _cons 7.976753.1161907 68.65 0.000 7.748273 8.205234 -------- Na podstawie statystyk testowych t równych -0.32 oraz -1.38 i p-value 0.751 oraz 0.169 > 0.05 nie było podstaw do odrzucenia hipotezy zerowej o nieistotności tych zmiennych. Utworzono zmienne wiekk=wiek 2 oraz staz=staz 2. Przeprowadzone regresje oraz testy na poprawność formy funkcyjnej dały następujące rezultaty: xi: reg lndochod i.wojewodztwo i.plec i.stancywilny i.wyksztalcenie i.rodzaj wiek wiekk i.wojewodztwo _Iwojewodzt_0-32 (naturally coded; _Iwojewodzt_0 omitted) 35