Opis danych znajdujących się w zbiorze

Podobne dokumenty
0. Oszacowanie kilku prostych regresji, interpretacja oszacować parametrów

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Ntli Natalia Nehrebecka. Dariusz Szymański. Zajęcia 4

Natalia Nehrebecka. Zajęcia 4

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

IID = 2. i i i i. x nx nx nx

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Natalia Nehrebecka Stanisław Cichocki. Wykład 6

Natalia Nehrebecka. Zajęcia 3

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

65120/ / / /200

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Zmienne sztuczne i jakościowe

Weryfikacja hipotez dla wielu populacji

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Natalia Nehrebecka. Wykład 2

Metoda najmniejszych kwadratów

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Analiza danych. Analiza danych wielowymiarowych. Regresja liniowa. Dyskryminacja liniowa. PARA ZMIENNYCH LOSOWYCH

0 0,2 0, p 0,1 0,2 0,5 0, p 0,3 0,1 0,2 0,4

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

Testowanie hipotez statystycznych

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Egzamin ze statystyki/ Studia Licencjackie Stacjonarne/ Termin I /czerwiec 2010

Badania sondażowe. Braki danych Konstrukcja wag. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

Egzamin z ekonometrii wersja IiE, MSEMAT

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

ANALIZA KORELACJI WYDATKÓW NA KULTURĘ Z BUDŻETU GMIN ORAZ WYKSZTAŁCENIA RADNYCH

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

Dobór zmiennych objaśniających

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

Natalia Nehrebecka. Wykład 1

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

Analiza struktury zbiorowości statystycznej

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

Parametry zmiennej losowej

Trzecie laboratoria komputerowe ze Staty Testy

Ekonometria ćwiczenia Kolokwium 1 semestr 20/12/08. / 5 pkt. / 5 pkt. / 5 pkt. / 5 pkt. /20 pkt. Regulamin i informacje dodatkowe

, a reszta dla pominiętej obserwacji wynosi 0, RSS jest stałe, T SS rośnie, więc zarówno R 2 jak i R2 rosną. R 2 = 1 n 1 n. rosnie. n 2 (1 R2 ) = 1 59

dy dx stąd w przybliżeniu: y

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Rozwiązywanie zadań optymalizacji w środowisku programu MATLAB

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Proces narodzin i śmierci

I. Elementy analizy matematycznej

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer


Funkcje i charakterystyki zmiennych losowych

STATYSTYKA MATEMATYCZNA

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Ekonometria dla IiE i MSEMat Z7

Egzamin z ekonometrii wersja IiE, MSEMAT

Ekonometria Ćwiczenia 19/01/05

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Statystyka Inżynierska

SYSTEMY UCZĄCE SIĘ WYKŁAD 7. KLASYFIKATORY BAYESA. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Statystyka. Zmienne losowe

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Egzamin z ekonometrii - wersja ogólna

Badanie współzaleŝności dwóch cech ilościowych X i Y. Analiza korelacji prostej. Badanie zaleŝności dwóch cech ilościowych. Analiza regresji prostej

Zmienne Binarne w Pakiecie Stata

Egzamin z ekonometrii wersja IiE, MSEMat Pytania teoretyczne


Nieparametryczne Testy Istotności

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Egzamin z ekonometrii wersja ogolna

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Zaawansowane metody numeryczne

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

Diagnostyka układów kombinacyjnych

Hipotezy o istotności oszacowao parametrów zmiennych objaśniających ˆ ) ˆ

Prawdopodobieństwo i statystyka r.

Problem równoczesności w MNK

5. Pochodna funkcji. lim. x c x c. (x c) = lim. g(c + h) g(c) = lim

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

1 Modele ADL - interpretacja współczynników

Budowa modelu i testowanie hipotez

Diagonalizacja macierzy kwadratowej

EKONOMETRIA I Spotkanie 1, dn

Statystyka Opisowa 2014 część 1. Katarzyna Lubnauer

WikiWS For Business Sharks

brak podstaw do odrzucenia hipotezy zerowej.

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Natalia Nehrebecka. Dariusz Szymański

Transkrypt:

Ops danych znajdujących sę w zborze 1) masto welkość mejscowośc, w której meszka respondent 1 respondent meszka na ws 2 respondent meszka w meśce do 10 tyś. 3 respondent meszka w meśce od 10 tyś. do 25 tyś. 4 respondent meszka w meśce od 25 tyś. do 50 tyś. 5 respondent meszka w meśce od 50 tyś. do 100 tyś. 6 respondent meszka w meśce od 100 tyś. do 250 tyś. 7 respondent meszka w meśce od 250 tyś. do 500 tyś. 8 respondent meszka w meśce powyżej 500 tyś. 2) plec płeć respondenta Mężczyzna Kobeta 3) wlasceel - czy respondent ma własną frmę 1 respondent posada własną frmę 0 respondent ne posada własnej frmy 4) keruje czy respondent zajmuje stanowsko kerowncze 1 respondent ne zajmuje stanowska kerownczego 2 respondent keruje ne kerownkam 3 respondent keruje kerownkam 5) wykształcene wykształcene respondenta 1 podstawowe 2 średne 3 wyższe 6) wek wek respondenta w latach 7) dochod mesęczne zarobk w złotówkach 0. Przygotowane do pracy Aby unknąć problemów w czase pracy z danym zaczynamy od ustawena lośc pamęc maksymalnej welkośc macerzy (szczególne ważne przy dużych zborach):. set memory 10m /*przypsane 10m pamęc*/. set matsze 800 /*ustawene maksymalnego wymaru macerzy na 800x800*/ Następne ustalamy domyślny katalog (np. będzemy mogl wczytywać zbory danych znajdujące sę w tym katalogu bez podawana śceżk dostępu). Tworzymy na dysku C katalog o nazwe lab1, a następne defnujemy go jako katalog roboczy:. mkdr c:\lab1 /*tworzymy katalog c:\lab1*/. cd c:\lab1 /*zdefnowane katalogu domyślnego*/ Warto też na wstępe omówć sposób korzystana z pomocy w Stace. Zasadnczo służą do tego celu dwe komendy: help search. Perwsza z nch wyśwetla plk pomocy do wybranej komendy Staty (trzeba węc znać nazwę komendy Staty), druga zaś dokonuje 1

przeszukana dostępnych plków pomocy pod względem wystąpena podanych przez użytkownka słów kluczowych (ne trzeba węc znać nazwy komendy Staty). Ponżej składna obu komend: help nazwa_komendy search słowa_kluczowe W perwszym semestrze, na zajęcach w labach, przede wszystkm będzemy korzystać z komendy regress (estymacja model lnowych metodą najmnejszych kwadratów). help regress /*uzyskane dostępu do pomocy onlne na temat wybranej komendy Staty; w tym wypadku komenda regress*/ Gdybyśmy ne znal nazwy komendy służącej w Stace do estymacj model metodą najmnejszych kwadratów, należałoby użyć komendy search:. search least square /* least square - słowa kluczowe*/ 1. Wczytane zboru danych Zanm przejdzemy do wczytana zboru danych, warto wyróżnć używane przez Statę typy zmennych. Dzelą sę one na dwa rodzaje: numeryczne (byte, nt, long, float double) oraz cąg znaków (długość ne może przekroczyć 244 znaków).. help data types /* Dostępne w Stace typy zmennych*/ Ponżej zwęzła charakterystyka dostępnych typów danych (zaczerpnęta z pomocy Staty): Storage 0 wthout type Mnmum Maxmum beng 0 bytes ---------------------------------------------------------------------- byte -127 100 +/-1 1 nt -32,767 32,740 +/-1 2 long -2,147,483,647 2,147,483,620 +/-1 4 float -1.70141173319*10^38 1.70141173319*10^38 +/-10^-38 4 double -8.9884656743*10^307 8.9884656743*10^307 +/-10^-323 8 ---------------------------------------------------------------------- Precson for float s 3.795x10^-8. Precson for double s 1.414x10^-16. Strng storage Maxmum type length Bytes ---------------------------------- str1 1 1 str2 2 2............... str244 244 244 ---------------------------------- Będzemy wczytywać zbory danych w dwóch formatach: Staty (rozszerzene.dta) oraz plk tekstowy (rozszerzene.txt, kolejne kolumny rozdzelone znakem tabulacj). Zbór danych o 2

nazwe ekonometra_dane.dta wczytamy bezpośredno ze strony http://con.wne.uw.edu.pl/dszymansk/, natomast ekonometra_dane.txt z katalogu c:\lab1.. use http://con.wne.uw.edu.pl/dszymansk/ekonometra_dane.dta, clear /*wczytujemy zbór ekonometra_dane.dta; opcja clear usuwa obecne używany zbór danych (oczywśce jeśl tak jest)*/ Po wczytanu zboru danych do Staty, warto użyć komendy descrbe, która wyśwetla nformacje o wczytanym zborze danych (mędzy nnym typy danych):. descrbe Contans data from http://con.wne.uw.edu.pl/dszymansk/ekonometra_dane.dta obs: 1,089 vars: 7 2 Nov 2007 20:31 sze: 22,869 (97.8% of memory free) - storage dsplay value varable name type format label varable label - wlasccel byte %9.0g wek str2 %9s dochod nt %9.0g masto byte %9.0g keruje byte %9.0g wyksztalcene byte %9.0g plec str9 %9s - Sorted by: Zmenne: wlasccel, dochod, masto, keruje wyksztalcene to zmenne numeryczne, natomast wek plec są cągam znaków. O tyle to ważna kwesta, że komendy statystyczne w Stace dzałają wyłączne na zmennych numerycznych. Węc aby móc umeścć zmenne wek plec w budowanym przez nas modelu, musmy zamenć je na numeryczne. Przyjrzyjmy sę jak wyglądają wartośc zmennych wek plec (w tym celu otweramy w Stace edytor danych):. browse /*browse - otwera edytor danych, ne do edycj; edt - otwera edytor danych do edycj*/ 3

Po perwsze, wartośc zmennych będących cągam znaków mają kolor czerwony, natomast numerycznych czarny. Możemy sę domyślać, ż zmenna wek przez omyłkę została stworzona jako cąg znaków. Tę błąd naprawmy przy użycu komendy destrng. Ponżej jej składna: destrng lsta_zmennych, generate(lsta_nowych_zmennych) lub destrng lsta_zmennych, replace Używając powyższej komendy należy sprecyzować czy ma być tworzona nowa zmenna (perwszy sposób wywołana), czy też ma być zastąpona wyjścowa zmenna. Ponżej zastosowane komendy destrng do rozwązana naszego problemu:. destrng wek, generate(wek_1) /* Tworzona jest nowa zmenna o nazwe wek_1*/ destrng wek, replace /* Zastąpona zostaje wyjścowa zmenna*/ Oto jak teraz wygląda nasz zbór danych: Mamy węc dwe zmenne numeryczne, wek wek_1, które przyjmują dokładne take same wartośc. Pozbędzemy sę jednej z nch przy użycu komendy drop. Sposób wywołana komendy jest następujący: drop lsta_zmennych_do_usunęca drop wek_1 /*Usuwamy ze zboru danych zmenną wek_1*/ Pozostaje nam jeszcze zamana zmennej plec na zmenną numeryczną. Zmenne będące cągam znaków przyjmujące newelką, dobrze określoną lczbę pozomów będzemy 4

zamenać na zmenne numeryczne z etyketam. Do tego celu służy komenda encode. Ponżej składna do jej wywołana: encode nazwa_zmennej, generate(nowa_nazwa_zmennej). encode plec, generate(plec_1) /*Tworzona jest nowa zmenna o nazwe plec_1*/ I ponowne przyjrzyjmy sę jak wyglądają nasze dane: Wartośc zmennej plec_1 mają kolor nebesk zmenna ta wygląda jak cąg znaków. Czy w takm raze jest coś ne tak z komendą encode? Otóż ne, w Stace na nebesko wyśwetlane są wartośc zmennych numerycznych z etyketam. Tak naprawdę wartośc zmennej plec_1 to 1 (dla kobet) 2 (dla mężczyzn), ale zamast konkretnych wartośc lczbowych są wyśwetlane przypsane do nch etykety. Ponżej jak można to sprawdzć:. descrbe /*Ops zboru danych*/ Contans data from http://con.wne.uw.edu.pl/dszymansk/ekonometra_dane.dta obs: 1,089 vars: 8 2 Nov 2007 20:31 sze: 26,136 (97.5% of memory free) - storage dsplay value varable name type format label varable label - plec str9 %9s plec_1 long %9.0g plec_1 wek byte %10.0g wlasccel byte %9.0g dochod nt %9.0g masto byte %9.0g keruje byte %9.0g wyksztalcene byte %9.0g - Sorted by: Zmenna plec_1 rzeczywśce jest typu numerycznego (long), ponadto jest do nej przypsana etyketa o nazwe plec_1. Za pomocą komendy label lst sprawdzamy w jak sposób jest zakodowana ta etyketa:. label lst plec_1 /*Wyśwetlene reguły kodującej dla etykety o nazwe plec_1*/ 5

plec_1: 1 Kobeta 2 Mężczyzna Na konec jeszcze potwerdzene tego, co było już wcześnej powedzane zmenne będące cągam znaków ne mogą być używane w komendach statystycznych. Spróbujemy użyć komendy summarze, która wyznacza podstawowe statystyk opsowe:. summarze plec_1 Varable Obs Mean Std. Dev. Mn Max plec_1 1089 1.51607.4999713 1 2. summarze plec Varable Obs Mean Std. Dev. Mn Max plec 0 Dla zmennej plec_1 (zmenna numeryczna) po kolej w wyśwetlonej tabel znajduje sę: lczba obserwacj, średna, odchylene standardowe, wartość mnmalna oraz maksymalna (oczywśce w przypadku zmennej nomnalnej średna odchylene standardowe są nenterpretowane!). Natomast dla zmennej plec (cąg znaków) wartośc statystyk opsowych ne zostały wyśwetlone. Zapamętujemy zbór danych w katalogu roboczym (c:\lab1):.. save dane_wczytane /*Zapamętujemy dane w katalogu roboczym pod nazwą dane_wczytane.dta */ Pozostaje jeszcze do zobrazowana sposób wczytywana danych w formace tekstowym. Do tego celu służy komenda nsheet:. nsheet usng dane.txt, clear /*wczytujemy zbór dane.txt*/ 2. Etykety Zaczynamy od wczytana plku z danym o nazwe dane_wczytane.dta (dane w formace Staty, rozszerzene.dta, wczytujemy przy użycu komendy use):. use dane_wczytane.dta, clear /*Wczytane plku dane_wczytane.dta z katalogu roboczego*/ W Stace wyróżna sę dwa rodzaje etyket dla zmennych: value label varable label. Perwszy typ etyket (dalej nazywany etyketą dla wartośc) już poznalśmy przy okazj tworzena zmennej plec_1. Etyketa o nazwe plec_1 przypsana do wartośc tej zmennej jest właśne etyketą wartośc. Drug typ etyket (dalej nazywany etyketam dla zmennych), to cąg znaków przypsany do danej zmennej. Najczęścej take przypsane ma wyjaśnać co oznacza dana zmenna. Najperw stworzymy etykety dla poszczególnych zmennych znajdujących sę w zborze danych. Do tego celu w Stace służy komenda label varable: 6

label varable nazwa_zmennej etyketa nadane zmennej etykety. label varable plec_1 "płeć respondenta" /*nadaje zmennej plec etyketę "płeć respondenta"; na wszelkego rodzaju "wydrukach Staty" zamast nazwy zmennej będze pojawać sę właśne ta etyketa*/. label varable wlasccel "czy respondent ma własną frmę". label varable wek "wek w latach". label varable dochod "mesęczne zarobk w złotówkach". label varable masto "mejsce zameszkana". label varable keruje "czy respondent zajmuje stanowsko kerowncze". label varable wyksztalcene "wykształcene - podstawowe, średne lub wyższe" Etykety dla wartośc tworzy sę w dwóch krokach. Najperw musmy zdefnować etyketę dla wartośc (label defne), a następne przypsać ją do danej zmennej (label values). Składna obu poleceń ponżej: label defne nazwa_etykety # tekst # tekst... defnuje etykety dla konkretnych wartośc lczbowych; # - lczby label values nazwa_zmennej nazwa_etykety łączy daną zmenną z etyketą wartośc. label defne właśccel 0 "ne" 1 "tak" /*Tworzymy etyketę o nazwe właśccel; 0 ne, 1 - tak*/. label values wlasccel właśccel /*Przypsujemy etyketę właśccel do zmennej wlasccel*/. label defne masto 1 "weś" 2 "masto do 10tyś" 3 "masto od 10tyś do 25tyś" 4 "masto od 25tyś do 50tyś" 5 "masto od 50tyś do 100tyś" 6 "masto od 100tyś do 250tyś" 7 "masto od 250tyś do 500tyś" 8 "masto powyżej 500tyś". label values masto masto. label defne keruje 1 "ne keruje" 2 "keruje ne kerownkam" 3 "keruje kerownkam". label values keruje keruje. label defne wyksztalcene 1 "podstawowe" 2 "średne" 3 "wyższe". label values wyksztalcene wyksztalcene Dla zmennej plec_1 ne musmy tworzyć etykety dla wartośc, gdyż w trakce tworzena tej zmennej (za pomocą komendy encode) zostało to już zrobone. Parę słów wyjaśnena po co używamy etyket. Umożlwają one zawarce całej nformacj o zmennych w samym zborze danych. Na wydruku zamast wartośc lczbowych będą pojawały sę przypsane m etykety. Oto przykład:. tabulate plec_1 /*tabela częstośc dla zmennej płeć*/ 7

płeć respondenta Freq. Percent Cum. ------------+----------------------------------- kobeta 524 48.38 48.38 mężczyzna 559 51.62 100.00 ------------+----------------------------------- Total 1,083 100.00 Proszę zwrócć uwagę na fakt, ż zamast nazwy zmennej mamy płeć respondenta, a w mejsce wartośc 1 2 pojawły sę odpowedno etykety kobeta mężczyzna. Utworzone etykety możemy obejrzeć za pomocą polecena:. label lst /*wyśwetla wszystke etykety dla wartośc*/ wyksztalcene: 1 podstawowe 2 średne 3 wyższe keruje: 1 ne keruje 2 keruje ne kerownkam 3 keruje kerownkam masto: 1 weś 2 masto do 10tyś 3 masto od 10tyś do 25tyś 4 masto od 25tyś do 50tyś 5 masto od 50tyś do 100tyś 6 masto od 100tyś do 250tyś 7 masto od 250tyś do 500tyś 8 masto powyżej 500tyś właśccel: 0 ne 1 tak plec_1: 1 Kobeta 2 Mężczyzna Za pomocą komendy descrbe można sprawdzć do których zmennych przypsane są poszczególne etykety:. descrbe Contans data from dane_do_analzy.dta obs: 1,089 vars: 7 3 Nov 2007 00:09 sze: 13,068 (99.9% of memory free) - storage dsplay value varable name type format label varable label - plec_1 byte %9.0g plec_1 płeć respondenta wek byte %10.0g wek w latach wlasccel byte %9.0g właśccel czy respondent ma własną frmę dochod nt %9.0g mesęczne zarobk w złotówkach masto byte %26.0g masto mejsce zameszkana keruje byte %24.0g keruje czy respondent zajmuje stanowsko kerowncze wyksztalcene byte %10.0g wyksztalcene wykształcene - podstawowe, 8

średne lub wyższe - Sorted by: Możemy jeszcze zmenć nazwę zmennej plec_1 na plec (komenda rename):. rename plec_1 plec Zanm przejdzemy do dalszej analzy, warto zapamętać nasz zbór danych:. save dane_do_analzy /*zapsujemy nasz zbór danych pod nazwą dane_do_analzy w katalogu domyślnym, czyl na dysku C w katalogu lab1*/ 3. Wstępna analza danych Polecene, od którego należy zacząć analzę zboru danych (przynajmnej mom zdanem), to:. codebook, all /*wyśwetla nformacje o zborze oraz zmennych w nm zawartych, pozwala wykryć na wstępnym pozome analzy czy są jakeś błędy w kodowanu zmennych, czy są brak danych.*/ Oto wynk (częścowy) dzałana powyższej komendy: ------ wyksztalcene wykształcene - podstawowe, średne lub wyższe ------ type: numerc (byte) label: wyksztalcene, but 1 nonmssng value s not labeled range: [0,3] unts: 1 unque values: 4 mssng.: 0/1089 tabulaton: Freq. Numerc Label 2 0 122 1 podstawowe 830 2 średne 135 3 wyższe Dla każdej zmennej zostaje wyśwetlona jej etyketa ( wykształcene - podstawowe, średne lub wyższe ), typ zmennej ( numerc zmenna numeryczna), nazwa etykety wartośc przypsanej do danej zmennej, zakres wartośc ([0, 3]), lczbę przyjmowanych pozomów przez zmenną (4), lczbę braków danych (oznaczanych jako. ) w stosunku do całkowtej lczby obserwacj (0/1089) oraz tablcę częstośc. Nasz nepokój budzą zaznaczone na czerwono fragmenty. Na ch podstawe stwerdzamy, że w zborze danych są dwe obserwacje dla których wartość zmennej wyksztalcene wynos 0. A my wemy, że zmenna ta może tylko przyjmować wartośc 1, 2 lub 3. Wyjścowa zmenna oznaczająca wykształcene musała być źle zakodowana. Usunemy błędne obserwacje z analzy. Aby to móc zrobć najperw musmy zapoznać sę z operatoram logcznym występującym w Stace:. help operators /*Info o operatorach w Stace*/ 9

Relatonal Arthmetc Logcal (numerc and strng) -------------------- ------------------ --------------------- + addton & and > greater than - subtracton or < less than * multplcaton! not >= > or equal / dvson ~ not <= < or equal ^ power == equal - negaton!= not equal + strng concatenaton ~= not equal A double equal sgn (==) s used for equalty testng. The order of evaluaton (from frst to last) of all operators s! (or ~), ^, - (negaton), /, *, - (subtracton), +,!= (or \=), >, <, <=, >=, ==, &, and Warto podkreślć, że = = oznacza porównane, natomast = przypsane. Do usunęca błędnych obserwacj użyjemy komendy drop:. drop f wyksztalcene == 0 /*Z próby usuwane są obserwacje dla których spełnony jest warunek występujący po "f", czyl obserwacje dla których wartość zmennej wyksztalcene wynos 0 */ W przypadku zmennej, która przyjmuje węcej pozomów otrzymujemy: ------ dochod mesęczne zarobk w złotówkach ------ type: numerc (nt) range: [50,20000] unts: 1 unque values: 115 mssng.: 0/1089 mean: 810.323 std. dev: 829.127 percentles: 10% 25% 50% 75% 90% 350 500 650 900 1400 Zmenna dochod przyjmuje 115 pozomów z przedzału [50, 20000]. Średna wynos 810,32 zł, natomast odchylene standardowe 829,13 zł. Równeż na wydruku znajdują sę kwantyle, np. medana dochodu wynos 650 zł (połowa osób ma dochodu mnejsze nż 650 zł), a perwszy decyl to 350 zł (10 % respondentów ma dochody nższe od 350 zł). Celem naszej analzy będze wyznaczene determnantów dochodu (zmenna zależna w regresj). Przyjrzyjmy sę węc tej zmennej bardzej szczegółowo.. summarze dochod, detal /*podstawowe statystyk dla zmennej cągłej, trochę bardzej szczegółowe nż w przypadku codebook*/ 10

mesęczne zarobk w złotówkach ------------------------------------------------------------- Percentles Smallest 1% 150 50 5% 300 50 10% 360 100 Obs 1083 25% 500 100 Sum of Wgt. 1083 50% 650 Mean 810.5836 Largest Std. Dev. 831.1635 75% 900 5000 90% 1400 6000 Varance 690832.8 95% 1800 7000 Skewness 12.795 99% 3500 20000 Kurtoss 270.2014 99% 3500 20000 Kurtoss 270.2014 Medana jest mnejsza od średnej, czyl w próbe przeważają osoby o dochodach nższych nż średna (asymetra lewostronna, ujemna). To samo wdać na hstograme:. hstogram dochod, bn(40) /*bn(40) - lczba słupków*/ Densty 0 2.0e-04 4.0e-04 6.0e-04 8.0e-04.001 Hstogram dochodu 0 5000 10000 15000 20000 mesęczne zarobk w złotówkach Przyjrzyjmy sę jak wpływ na dochód mają poszczególne zmenne. plec Sprawdzmy, kto ma wększe średne zarobk, kobety czy mężczyźn?. bys plec: summarze dochod /*prefx bys powoduje posortowane obserwacj po wartoścach zmennej plec, statystyk opsowe będą wyznaczone dla każdej kategor zmennej plec*/ 11

--------------------------------------------------------------------------- -> plec = kobeta Varable Obs Mean Std. Dev. Mn Max dochod 524 642.5057 337.1288 50 2400 --------------------------------------------------------------------------- -> plec = mężczyzna Varable Obs Mean Std. Dev. Mn Max dochod 559 968.1377 1087.037 100 20000 Kobety mają średne zarobk nższe nż mężczyźn. Możemy spróbować potwerdzć te spostrzeżene za pomocą formalnego testu na równość średnch:. ttest dochod, by(plec) /*test na równość średnego dochodu w podpróbach wyodrębnonych za pomocą zmennej plec; standardowy test na równość średnch w dwóch populacjach omawany na statystyce matematycznej*/ Two-sample t test wth equal varances Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- kobeta 524 642.5057 14.72754 337.1288 613.5733 671.4381 mężczyzn 559 968.1377 45.97675 1087.037 877.8291 1058.446 ---------+-------------------------------------------------------------------- combned 1083 810.5836 25.25645 831.1635 761.0264 860.1407 ---------+-------------------------------------------------------------------- dff -325.632 49.58318-422.9222-228.3418 dff = mean(kobeta) - mean(mężczyzn) t = -6.5674 Ho: dff = 0 degrees of freedom = 1081 Ha: dff < 0 Ha: dff!= 0 Ha: dff > 0 Pr(T < t) = 0.0000 Pr( T > t ) = 0.0000 Pr(T > t) = 1.0000 Hpoteza zerowa w tym teśce jest następująca: H : 0 0 µ µ = (na wydruku kobety mężczyźn fragment zaznaczony na czerwono). Hpoteza alternatywna jest zdefnowana na trzy sposoby (fragment zaznaczony na nebesko). Nas nteresuje lewa hpoteza alternatywna: H : 0 1 µ kobety µ mężczyźn <. P-value testu równe 0.000 nakazuje odrzucć hpotezę zerową zakładającą równość średnch kobety zarabają mnej. Powyżej zaprezentowany test opera sę na dwóch założenach: odchylena standardowe dochodu w obu próbach są take same (a w rzeczywstośc w próbe mężczyzn jest trzykrotne wyższe!) oraz dochód pownen meć rozkład normalny w obu próbach. Narysujemy hstogramy dochodu w obu próbach z nałożoną krzywą gęstośc rozkładu normalnego:. hstogram dochod, by(plec) bn(50) /*hstogram dochodu dla każdej kategor zmennej plec*/ 12

Densty 0 5.0e-04.001.0015 Kobeta Mężczyzna 0 5000 10000 15000 20000 0 5000 10000 15000 20000 mesęczne zarobk w złotówkach Graphs by płeć respondenta Densty normal dochod Wykresy wskazują, ż ne mamy do czynena z rozkładem normalnym (slna asymetra, wększa kurtoza nż w rozkładze normalnym, występowane obserwacj netypowych). Występowane obserwacj netypowych jeszcze lepej wdać na wykrese pudełkowym:. graph box dochod, over(plec) /*Wykres pudełkowy dla dochodu po zmennej grupującej plec*/ mesęczne zarobk w złotówkach 0 5,000 10,000 15,000 20,000 Kobeta Mężczyzna Możemy jeszcze to sprawdzć za pomocą formalnego testu.. swlk dochod f plec==0 /* testujemy normalność zmennej dochod na podpróbe kobet*/ Shapro-Wlk W test for normal data Varable Obs W V z Prob>z -------------+------------------------------------------------- dochod 524 0.86555 47.179 9.284 0.00000. swlk dochod f plec==1 /* testujemy normalność zmennej dochod na podpróbe mężczyzn*/ 13

Shapro-Wlk W test for normal data Varable Obs W V z Prob>z -------------+------------------------------------------------- dochod 559 0.41613 217.200 12.999 0.00000 W obu przypadkach p-value = 0.0000, czyl odrzucamy hpotezę zerową zakładającą normalność rozkładu. W takm raze do testowana równośc średnch dochodów dla kobet mężczyzn ne pownnśmy stosować standardowego testu opartego na statystyce t. Użyjemy do tego celu neparametrycznego testu Wlcoxona:. ranksum dochod, by(plec) /*test Wlcoxona na równość średnego dochodu w podpróbach wyodrębnonych za pomocą zmennej plec*/ Two-sample Wlcoxon rank-sum (Mann-Whtney) test plec obs rank sum expected -------------+--------------------------------- kobeta 524 238247.5 284008 mężczyzna 559 348738.5 302978 -------------+--------------------------------- combned 1083 586986 586986 unadjusted varance 26460079 adjustment for tes -78171.026 ---------- adjusted varance 26381908 Ho: dochod(plec==kobeta) = dochod(plec==mężczyzna) z = -8.909 Prob > z = 0.0000 Wynk tak sam jak poprzedno: p-value = 0.0000, czyl odrzucamy hpotezę zerową zakładającą równość średnch. Podobną analzę można przeprowadzć dla zmennej wlasccel (też tylko dwa pozomy) masto Zmenna masto przyjmuje aż 8 pozomów. Porównajmy średne dochody osób meszkających w mastach o różnej welkośc:. bys masto: sum dochod ---------------------------------------------------------------------------- > masto = weś Varable Obs Mean Std. Dev. Mn Max dochod 323 623.6068 415.9461 50 5000 ---------------------------------------------------------------------------- > masto = masto do 10tyś Varable Obs Mean Std. Dev. Mn Max dochod 65 715.9846 331.2291 150 1700 ---------------------------------------------------------------------------- > masto = masto od 10tyś do 25tyś Varable Obs Mean Std. Dev. Mn Max dochod 129 824.2868 573.8198 100 4000 ---------------------------------------------------------------------------- 14

> masto = masto od 25tyś do 50tyś Varable Obs Mean Std. Dev. Mn Max dochod 78 1058.295 2247.522 200 20000 ---------------------------------------------------------------------------- > masto = masto od 50tyś do 100tyś Varable Obs Mean Std. Dev. Mn Max dochod 127 821.1339 585.1858 50 5000 ---------------------------------------------------------------------------- > masto = masto od 100tyś do 250tyś Varable Obs Mean Std. Dev. Mn Max dochod 151 876.3642 700.2053 150 6000 ---------------------------------------------------------------------------- > masto = masto od 250tyś do 500tyś Varable Obs Mean Std. Dev. Mn Max dochod 87 925.6897 634.2906 200 3500 ---------------------------------------------------------------------------- > masto = masto powyżej 500tyś Varable Obs Mean Std. Dev. Mn Max dochod 123 1007.057 805.2381 200 7000 Masta od 25tyś do 50tyś meszkańców, gdze przecętne zarobk są najwększe, zaburzają trend wzrostu zarobków wraz ze wzrostem mejsca zameszkana. Wprowadzając tę zmenną do modelu, należy ją rozkodować na 8 zmennych zero-jedynkowych. Możemy spróbować zredukować lczbę pozomów zmennej masto poprzez próbę połączena nektórych wyjścowych pozomów. Utworzymy zmenną o nazwe masto_1, która będze przyjmowała następujące pozomy: 1 respondent meszka na ws 2 respondent meszka w meśce do 25 tyś. 3 respondent meszka w meśce od 25 tyś. do 250 tyś. 4 respondent meszka w meśce powyżej 250 tyś.. generate masto_1 = masto /*tworzymy nową zmenną o nazwe masto_1, te same wartośc co masto*/. recode masto_1 3=2 4/6 = 3 7 8= 4 /*rekodujemy zmenną masto_1; 3 przechodz na 2; 4, 5 6 na 3; 7 8 na 4*/ Dla nowo utworzonej zmennej tworzymy etykety:. label defne masto_1 1 wes 2 "masto do 25tyś" 3 "masto od 25tyś do 250tyś" 4 "masto powyżej 250tyś". label values masto_1 masto_1 Wyznaczamy średne dochody dla poszczególnych kategor zmennej masto_1:. bys masto_1: sum dochod 15

---------------------------------------------------------------------------- > masto_1 = wes Varable Obs Mean Std. Dev. Mn Max dochod 323 623.6068 415.9461 50 5000 ---------------------------------------------------------------------------- > masto_1 = masto do 25tyś Varable Obs Mean Std. Dev. Mn Max dochod 194 788 507.3298 100 4000 ---------------------------------------------------------------------------- > masto_1 = masto od 25tyś do 250tyś Varable Obs Mean Std. Dev. Mn Max dochod 356 896.5225 1196.791 50 20000 ---------------------------------------------------------------------------- > masto_1 = masto powyżej 250tyś Varable Obs Mean Std. Dev. Mn Max dochod 210 973.3476 738.6886 200 7000 Średne dochody rosną wraz z welkoścą masta, w którym sę meszka. Budując model rozważymy dwe regresje: perwsza będze zawerać zmenną masto, druga zaś masto_1. Wyberzemy tę regresję, która ma lepsze własnośc. Podobną analzę ewentualną próbę redukcj lczby pozomów można przeprowadzć w przypadku pozostałych zmennych dyskretnych. Kolejna sprawa, to jak wpływ na dochód ma wek? Zacznjmy od prostej analzy korelacj.. pwcorr dochod wek, star(0.05) /*wyznaczana jest wsp. korelacj Pearsona, jeśl korelacja jest stotna na pozome stotnośc 0,05 to zostane zaznaczona przy pomocy gwazdk*/ dochod wek -------------+------------------ dochod 1.0000 wek 0.0519 1.0000 Współczynnk korelacj wynos zaledwe 0,0519 jest nestotny na pozome 0,05 (bo ne został zaznaczony przy pomocy *). Gdy mamy do czynena ze zmennym nemającym rozkładów normalnych lepej użyć współczynnk korelacj Spearmana:. spearman dochod wek, star(0.05) matrx (obs=1083) dochod wek -------------+------------------ dochod 1.0000 wek 0.0836* 1.0000 Współczynnk korelacj tym razem jest stotny, ale jego welkość tak pozostaje bardzo mała. Czy z tego wynka, ż wek w newelkm stopnu wpływa na dochód? Otóż ne! Należy pamętać, ż korelacja jest marą lnowych zależnośc mędzy zmennym. Zgodne z teorą ekonom, nasz dochód rośne szybko, gdy jesteśmy młodz, m jesteśmy stars to przyrosty 16

naszych płac są coraz nższe. Od pewnego momentu nasze zarobk zaczynają maleć! Zobaczmy, czy tę postulowaną zależność uda nam sę wychwycć za pomocą wykresu:. scatter dochod wek /*wykres rozproszena*/ Osoby o najwyższych zarobkach znajdują sę w środkowej częśc próby. Aby potwerdzć nasze przypuszczena narysujemy wykres rozproszena, gdze na os x będze odznaczony wek, natomast na os y średn pozom dochodu dla osób będących w danym weku: Średn pozom dochodu w zależnośc od weku (mean) dochod 200 400 600 800 1000 1200 20 30 40 50 60 70 wek w latach Powyższy wykres sugeruje, ż zależność mędzy średnm pozomem dochodu a wekem jest raczej kwadratowa nż lnowa! Jeżel chodz o zależność kwadratową, to może nam sę ne podobać fakt, że wykres ne jest symetryczny względem werzchołka (około 45 lat). Być może lepsze dopasowane zapewną dwe funkcje lnowe sklejone w 45. Budując model ekonometryczny wnklwej przeanalzujemy ten problem. 17

4. Tworzene zmennych zero-jedynkowych Szacując regresję zmennej dochod na pozostałe zmenne znajdujące sę w zborze danych, musmy pamętać, o rozkodowanu zmennych masto, masto_1, wyksztalcene oraz keruje na zmenne zero-jedynkowe. Można to uczynć na dwa sposoby (omówmy to na przykładze zmennej masto): I ) tworzymy zmenne zero-jedynkowe na pechotę : /*8-krotne powtórzona będze komenda w {} */ /*wygenerowane 8 zmennych 0-1 odpowadających pozomom zmennej masto*/. forvalues = 1(1)8 { generate mejsce_zam`' = (masto==`') /*generuje zmenną o nazwe mejsce_zam`' */ /*wartość 0 jeśl warunek masto==`' ne jest spełnony, 1 jeśl jest spełnony*/ } Poprawność tworzena zmennych zero-jedynkowych możemy sprawdzć za pomocą tablcy kontyngencj:. forvalues = 1(1)8 { tab masto mejsce_zam`' /*tablca kontyngencj dla masto mejsce_zam`'*/ } Częścowy wydruk: mejsce_zam1 mejsce zameszkana 0 1 Total ----------------------+----------------------+---------- weś 0 323 323 masto do 10tyś 65 0 65 masto od 10tyś do 25 129 0 129 masto od 25tyś do 50 78 0 78 masto od 50tyś do 10 127 0 127 masto od 100tyś do 2 151 0 151 masto od 250tyś do 5 87 0 87 masto powyżej 500tyś 123 0 123 ----------------------+----------------------+---------- Total 760 323 1,083 Zmenna mejsce_zam1 przyjmuje wartość 1 dla osób meszkających na ws (323 obserwacje) oraz 0 we wszystkch pozostałych przypadkach (760 obserwacj). II) za pomocą komendy tabulate /*tablca częstośc; zostają dodatkowo utworzone zmenne 0-1 odpowadające kolejnym pozomom zmennej masto*/. tab masto, gen(zm) 5. Oszacowane klku prostych regresj, nterpretacja oszacować parametrów Zacznemy od oszacowana metodą najmnejszych kwadratów następującego modelu: dochod = β0 + βwekwek + ε Najperw zastanowmy sę w jak sposób będzemy nterpretować oszacowana parametrów: E( dochod ) = β0 + βwekwek + E( ε ) = β0 + βwekwek 0 18

E ( dochod ) wek = β wek Oszacowane parametru przy zmennej wek oznacza zatem o le wzrośce średno dochód, jeżel wek wzrośne o 1 rok. Do szacowana model lnowych przy użycu metody najmnejszych kwadratów w Stace używamy komendy regress. Ponżej jej składna: regress zmenna_zależna lsta_zmennych_nezależnych. regress dochod wek /*dochod - zmenna zależna, wek - zmenna nezależna */ Source SS df MS Number of obs = 1083 -------------+------------------------------ F( 1, 1081) = 2.92 Model 2012014.5 1 2012014.5 Prob > F = 0.0879 Resdual 745469121 1081 689610.657 R-squared = 0.0027 -------------+------------------------------ Adj R-squared = 0.0018 Total 747481135 1082 690832.842 Root MSE = 830.43 dochod Coef. Std. Err. t P> t [95% Conf. Interval] -------- wek 4.285901 2.509161 1.71 0.088 -.6374771 9.209279 _cons 646.2313 99.47315 6.50 0.000 451.049 841.4137 Oszacowana parametrów na wydruku są zaznaczone na nebesko. Możemy węc zapsać oszacowany model: dochod ˆ = 646, 23 + 4, 29wek Wzrost weku o jeden rok przekłada sę na wzrost zarobków zaledwe o 4.29 zł. TSS (Total), ESS (Model) RSS (Resdual) są zaznaczone w tabel na czerwono, natomast 2 2 R (R-square) R (Adj R-square) na zelono. Spróbujemy trochę rozbudować nasz model, dodajemy zmenną oznaczającą płeć: 0 dla mężczyzn plec = 1 dla kobet E( dochod ) = β0 + βwekwek + β plec plec + E( ε ) = β0 + βwekwek + β plec plec 0 Interpretacja parametru przy zmennej wek ne zmen sę, ale w jak sposób znterpretować oszacowane parametru przy zmennej plec? β0 + βwek wek dla mężczyzn E( dochod ) = β0 + βwekwek + β plec plec = β0 + βwek wek + β plec dla kobet A węc oszacowane parametru przy zmennej plec będze pokazywało o le średno węcej lub mnej będą zarabały kobety w porównanu z mężczyznam, przy założenu weku na tym samym pozome. Ponżej oszacowana modelu:. regress dochod wek plec /*dochod - zmenna zależna, wek, plec - zmenne nezależne */ 19

Source SS df MS Number of obs = 1083 -------------+------------------------------ F( 2, 1080) = 23.95 Model 31739891.4 2 15869945.7 Prob > F = 0.0000 Resdual 715741244 1080 662723.374 R-squared = 0.0425 -------------+------------------------------ Adj R-squared = 0.0407 Total 747481135 1082 690832.842 Root MSE = 814.08 dochod Coef. Std. Err. t P> t [95% Conf. Interval] -------- wek 5.295934 2.464379 2.15 0.032.4604215 10.13145 plec -332.1539 49.59336-6.70 0.000-429.4641-234.8436 _cons 768.2091 99.20082 7.74 0.000 573.561 962.8573 Oszacowany model możemy zapsać: dochod ˆ = 768, 21+ 5,3wek 332,15 plec Wzrost weku o jeden rok przekłada sę średno na wzrost dochodu o 5,3 zł, kobety zarabają średno o 332.15 zł mnej nż mężczyźn (obe nterpretacje przy założenu pozostałych zmennych na tym samym pozome). W następnym kroku dodajemy do modelu zmenną oznaczającą wykształcene. Wykształcene przyjmuje tylko trzy pozomy (1 - podstawowe, 2 - średne, 3 - wyższe). Jeżel w takej postac wprowadzmy tę zmenną do modelu, to nterpretacja oszacowana parametru przy tej zmennej będze analogczna jak przy zmennej wek. Przejśce z wykształcena podstawowego na średne ze średnego na wyższe będze mało taką samą premę. W rzeczywstośc pewne tak ne jest, prema za uzyskane wykształcena wyższego jest wyższa nż za średnego. Ponżej porównane średnch pozomów dochodu w podpróbach wyodrębnonych ze względu na wykształcene:. bys wyksztalcene: summarze dochod ----- -> wyksztalcene = podstawowe Varable Obs Mean Std. Dev. Mn Max dochod 122 577.3607 307.2872 100 2000 ----- -> wyksztalcene = średne Varable Obs Mean Std. Dev. Mn Max dochod 828 769.6715 814.758 50 20000 ----- -> wyksztalcene = wyższe Varable Obs Mean Std. Dev. Mn Max dochod 133 1279.218 1065.423 100 7000 Różnca mędzy średnm pozomem dochodu osób ze średnm a podstawowym wykształcenem wynos około 200 zł, natomast mędzy wyższym a średnm około 500 zł. Założene, że dochód rośne w sposób lnowy wraz z pozomem wykształcena jest węc neprawdzwa. Dlatego rozkodujemy zmenną wykształcene na trzy zmenne zerojedynkowe: 20

1 dla osób z wyksztacenem podstawowym podstawowe = 0 w. p. p 1 dla osób z wyksztacenem srednm sredne = 0 w. p. p 1 dla osób z wyksztacenem wyższym wyzsze = 0 w. p. p Jednakże do modelu wprowadzmy tylko dwe spośród tych zmennych. Jeżel wprowadzlbyśmy trzy oraz pozostawlbyśmy w modelu stałą, to ne dałoby sę odwrócć macerzy X X. E( dochod ) = β + β wek + β plec + β sredne + β wyzsze = 0 wek plec sredn wyższe β0 + βwek wek + β plec plec dla wyksztalcena podstawowego = β0 + βwek wek + β plec plec + βsredne dla wyksztalcena srednego β0 + βwek wek + β plec plec + βwyższe dla wyksztalcena wyższego Czyl oszacowane parametru przy zmennej sredne można nterpretować jako różncę w średnch zarobkach osób z wykształcenem średnm podstawowym. Podobne z oszacowanem parametru przy zmennej wyzsze różnca w średnch zarobkach osób z wykształcenem wyższym podstawowym (obe nterpretacje przy założenu, że pozostałe zmenne na tym samym pozome).. regress dochod wek plec sredne wyzsze /*dochod - zmenna zależna, wek, plec, sredne, wyzsze - zmenne nezależne */ Source SS df MS Number of obs = 1083 -------------+------------------------------ F( 4, 1078) = 27.62 Model 69474590.4 4 17368647.6 Prob > F = 0.0000 Resdual 678006545 1078 628948.557 R-squared = 0.0929 -------------+------------------------------ Adj R-squared = 0.0896 Total 747481135 1082 690832.842 Root MSE = 793.06 dochod Coef. Std. Err. t P> t [95% Conf. Interval] -------- wek 5.079415 2.428562 2.09 0.037.3141704 9.844659 plec -336.5881 48.32259-6.97 0.000-431.4051-241.7712 sredne 220.0029 77.63203 2.83 0.005 67.67591 372.3299 wyzsze 720.3531 99.52064 7.24 0.000 525.077 915.6292 _cons 521.9914 125.3477 4.16 0.000 276.0382 767.9446 Oszacowany model możemy zapsać: dochod ˆ = 521,99 + 5, 07wek 336,59 plec + 220β + 720,35β sredne wyzsze Wzrost weku o jeden rok przekłada sę średno na wzrost dochodu o 5,07 zł, kobety zarabają średno o 336.59 zł mnej nż mężczyźn, osoby z wykształcenem średnm oraz wyższym zarabają odpowedno o 220 zł 720,35 zł węcej nż te z podstawowym (nterpretacje przy założenu pozostałych zmennych na tym samym pozome). Spróbujemy uwzględnć w naszym modelu nelnową zależność mędzy wekem a dochodem. Najprostsze wyjśce to podnesene weku do kwadratu.. generate wek_2 = wek^2 /*wek_2 - wek podnesony do kwadratu*/. regress dochod wek wek_2 plec sredne wyzsze /*dochod - zmenna zależna, wek, wek_2, plec, sredne, wyzsze - zmenne nezależne */ 21

Source SS df MS Number of obs = 1083 -------------+------------------------------ F( 5, 1077) = 22.98 Model 72048793.8 5 14409758.8 Prob > F = 0.0000 Resdual 675432341 1077 627142.378 R-squared = 0.0964 -------------+------------------------------ Adj R-squared = 0.0922 Total 747481135 1082 690832.842 Root MSE = 791.92 dochod Coef. Std. Err. t P> t [95% Conf. Interval] -------- wek 36.06131 15.48328 2.33 0.020 5.680494 66.44212 wek_2 -.3998842.1973767-2.03 0.043 -.7871707 -.0125977 plec -338.0671 48.25867-7.01 0.000-432.7588-243.3755 sredne 208.5538 77.72619 2.68 0.007 56.04182 361.0657 wyzsze 708.2862 99.55596 7.11 0.000 512.9406 903.6318 _cons -26.64989 298.3288-0.09 0.929-612.0215 558.7217 Ze względu na fakt, że: = β + 2β E ( dochod ) wek wek wek wek _ 2 ne da sę w tak prosty sposób znterpretować oszacowań parametrów przy zmennych dotyczących weku. Zależność mędzy wartoścą oczekwaną dochodu a wekem ne jest już lnowa! Możemy oblczyć werzchołek parabol: βwek 36.06131 xw = = 2*( 0.3998842) 45.09 2β wek _ 2 Ponadto ramona parabol są skerowane do dołu (bo β wek _ 2 < 0 ), węc w punkce 45.09 jest przyjmowane maksmum. Czyl dochody osób ponżej 45 roku życa rosną, ale coraz wolnej, powyżej 45 lat dochód zaczyna spadać. Możemy wyznaczyć na podstawe oszacowań modelu pozom dochodu dla osób o wybranych charakterystykach: wek płeć wykształcene dochód 25 mężczyzna wyższe 1333,24 45 mężczyzna wyższe 1494,63 60 mężczyzna wyższe 1405,73 (Np. dochód dla dwudzestopęcoletnego mężczyzn z wykształcenem wyższym: 2-26,64989 + 36,06131*25-0,3998842*25 +708,2862 1333.24 ). Ponżej jeszcze wykres przedstawający zależność średnego pozomu od weku z nałożoną 2 parabolą o równanu y = -26,64989 + 36,06131wek - 0,3998842 wek. Średn pozom dochodu w zależnośc od weku 200 400 600 800 1000 1200 20 30 40 50 60 70 22

(Kod Staty, który posłużył do wygenerowana tego wykresu omówmy na ćwczenach). Teraz spróbujemy uwzględnć nelnową zależność mędzy dochodem a wekem za pomocą dwóch funkcj lnowych sklejonych w punkce 45 (werzchołek parabol wyznaczony w poprzednm punkce). Zależność mędzy wartoścą oczekwaną dochodu a wekem możemy zapsać w następujący sposób: δ 0 + δ1wek dla weku < 45 E( dochod ) = δ 2 + δ3wek dla weku 45 Następne defnujemy zmenną zerojedynkową: 0 dla weku < 45 d = 1 dla weku 45 Wówczas postać modelu możemy zapsać jako: β 1 + β 2 wek dla weku < 45 δ0 δ1 E( dochod ) = β1 + β2wek + β3d + β4dwek = ( β1 + β3) + ( β2 + β4) wek dla weku 45 δ2 δ3 Pozostaje narzucć ogranczena na parametry β1,..., β 4, aby zapewnć sobe cągłość w punkce 45. Mus zachodzć: β + β *45 = ( β + β ) + ( β + β )*45 β = 45β 1 2 1 3 2 4 3 4 Wstawamy uzyskane ogranczene do naszego równana: E( dochod ) = β1 + β2wek 45 β4d + β4dwek = β1 + β2wek + β4 d( wek 45) = β + β wek + β wek _ 45 1 2 4 wek _ 45 Łatwo zauważyć, że jeśl prawdzwa jest hpoteza H0 : β 4 = 0, to model redukuje sę do standardowego modelu lnowego (dochód zależy wówczas w sposób lnowy od weku). Już ne długo nauczymy sę testować take hpotezy. Aby móc oszacować model ze sklejanym funkcjam lnowym, musmy zdefnować nową zmenną: 0 dla weku < 45 wek _ 45 = d( wek 45) = wek 45 dla weku 45. generate wek_45 = 0 /*Tworzymy zmenną o nazwe wek_45; na raze zmenna przyjmuje tylko wartość 0*/. replace wek_45 = wek - 45 f wek >= 45 /*Zamenamy wartość zmennej wek na (wek - 45) dla osób, które mają przynajmnej 45 lat*/. regress dochod wek wek_45 plec sredne wyzsze /*dochod - zmenna zależna, wek, wek_45, plec, sredne, wyzsze - zmenne nezależne */ 23

Source SS df MS Number of obs = 1083 -------------+------------------------------ F( 5, 1077) = 22.92 Model 71889880.6 5 14377976.1 Prob > F = 0.0000 Resdual 675591255 1077 627289.93 R-squared = 0.0962 -------------+------------------------------ Adj R-squared = 0.0920 Total 747481135 1082 690832.842 Root MSE = 792.02 dochod Coef. Std. Err. t P> t [95% Conf. Interval] -------- wek 9.892845 3.449602 2.87 0.004 3.124143 16.66155 wek_45-19.06609 9.716528-1.96 0.050-38.13156 -.0006177 plec -338.9919 48.27437-7.02 0.000-433.7144-244.2694 sredne 211.058 77.6635 2.72 0.007 58.66912 363.447 wyzsze 712.6863 99.4661 7.17 0.000 517.517 907.8556 _cons 376.4752 145.4995 2.59 0.010 90.98058 661.9698 Na podstawe oszacowanych parametrów, zależność mędzy dochodem a wekem możemy zapsać: ˆ b1 + b2wek dla weku < 45 dochod = = ( b1 45 b4 ) + ( b2 + b4 ) wek dla weku 45 376,4752 + 9,892845wek dla weku < 45 = (376,4752 45*(-19,06609)) + (9,892845-19,06609) wek dla weku 45 376,4752 + 9,892845wek dla weku < 45 = 1234,4492 9,173245wek dla weku 45 Jak można znterpretować uzyskane wynk? Dla osób ponżej 45 roku dochód rośne średno o 9,89 zł przy wzrośce weku o jeden rok, natomast dla osób powyżej 45 roku maleje w tempe 9,17 zł na rok. Interpretacja oszacowań przy pozostałych zmennych analogczna do wcześnej oszacowanych model. I znów wykres przedstawający zależność średnego pozomu od weku, tym razem z nałożonym dwoma funkcjam lnowym sklejonym w punkce 45. Średn pozom dochodu w zależnośc od weku 200 400 600 800 1000 1200 20 30 40 50 60 70 Przyjrzyjmy sę jeszcze raz wykresow, który prezentuje zależność mędzy średnm pozomem dochodu a wekem. 24

Średn pozom dochodu w zależnośc od weku (mean) dochod 200 400 600 800 1000 1200 20 30 40 50 60 70 wek w latach Może zamast dwóch sklejonych funkcj lnowych, lepej użyć trzech? Zależność mędzy wartoścą oczekwaną dochodu a wekem możemy zapsać w następujący sposób: δ 0 + δ1wek dla weku < 30 E( dochod ) = δ 2 + δ3wek dla weku 30 weku < 45 δ 4 + δ5wek dla weku 45 Następne defnujemy dwe zmenne zero-jedynkowe: 0 dla weku < 30 d1 = 1 dla weku 30 0 dla weku < 45 d2 = 1 dla weku 45 Wówczas postać modelu możemy zapsać jako: E( dochod ) = β + β wek + β d + β d wek + β d + β d wek = 1 2 3 1 4 1 5 2 6 2 β 1 β 2 wek dla weku 30 + < δ0 δ1 = ( β1 + β3) + ( β2 + β4) wek dla weku 30 weku < 45 δ2 δ3 ( β1 + β3 + β5) + ( β2 + β4 + β6) wek dla weku 45 δ4 δ5 25

Pozostaje narzucć ogranczena na parametry β1,..., β 6, aby zapewnć sobe cągłość w punktach 30 45. Warunek na cągłość w 30: β1 + β2 *30 = ( β1 + β3) + ( β2 + β4)*30 β3 = 30β4 Warunek na cągłość w 45: β1 + β3 + ( β2 + β4)*45 = ( β1 + β3 + β5) + ( β2 + β4 + β6)*45 β5 = 45β6 Wstawamy uzyskane ogranczene do naszego równana: E( dochod ) = β + β wek 30β d + β d wek 45β d + β d wek = 1 2 4 1 4 1 6 2 6 2 = β1 + β2wek + β4 d1( wek 30) + β6 d2( wek 45) = wek _ 30 wek _ 45 = β + β wek + β wek _ 30 + β wek _ 45 1 2 4 6 Łatwo zauważyć, że jeśl prawdzwa jest hpoteza H0 : β4 = β6 = 0, to model redukuje sę do standardowego modelu lnowego (dochód zależy wówczas w sposób lnowy od weku). Aby móc oszacować model ze sklejanym funkcjam lnowym, musmy zdefnować nowe zmenne: 0 dla weku < 30 wek _ 30 = d1( wek 30) = wek 30 dla weku 30 0 dla weku < 45 wek _ 45 = d2( wek 45) = (Tą zmenną stworzylśmy już wek 45 dla weku 45 przy estymacj poprzednego modelu.). generate wek_30 = 0 /*Tworzymy zmenną o nazwe wek_30; na raze zmenna przyjmuje tylko wartość 0*/. replace wek_30 = wek - 30 f wek >= 30 /*Zamenamy wartość zmennej wek na (wek - 30) dla osób, które mają przynajmnej 30 lat*/. regress dochod wek wek_30 wek_45 plec sredne wyzsze /*dochod - zmenna zależna, wek, wek_30, wek_45, plec, sredne, wyzsze - zmenne nezależne */ Source SS df MS Number of obs = 1083 -------------+------------------------------ F( 6, 1076) = 19.09 Model 71912579.3 6 11985429.9 Prob > F = 0.0000 Resdual 675568556 1076 627851.818 R-squared = 0.0962 -------------+------------------------------ Adj R-squared = 0.0912 Total 747481135 1082 690832.842 Root MSE = 792.37 dochod Coef. Std. Err. t P> t [95% Conf. Interval] -------- wek 11.89292 11.07069 1.07 0.283-9.829658 33.61551 wek_30-2.877238 15.13226-0.19 0.849-32.56932 26.81485 wek_45-17.72131 12.02151-1.47 0.141-41.30958 5.866954 plec -338.7973 48.30683-7.01 0.000-433.5836-244.011 sredne 210.5235 77.74912 2.71 0.007 57.96641 363.0806 wyzsze 711.39 99.74388 7.13 0.000 515.6755 907.1046 _cons 325.5816 304.6859 1.07 0.285-272.2643 923.4275 Na podstawe oszacowanych parametrów zależność mędzy dochodem a wekem możemy zapsać: 26

b1 + b2wek dla weku < 30 ˆ dochod = ( b1 30 b4 ) + ( b2 + b4 ) wek dla weku [30, 45) = ( b1 30b4 45 b6 ) + ( b2 + b4 + b6 ) wek dla weku 325,5816 + 11,89292wek dla weku < 30 = (325,5816 30*( 2,877238)) + (11,89292 2,877238) wek dla weku [30, 45) (325.5816 30*( 2,877238) 45*( 17,72131))+(11,89292 2,877238 17,72131) wek dla weku 45 325,5816 + 11,89292wek dla weku < 30 = 411,89874 +9,015682 wek dla weku [30, 45) 1209,3577 8,705628wek dla weku 45 Interpretacja wynków: dla osób ponżej 30 roku dochód rośne średno o 11,89 zł przy wzrośce weku o jeden rok, natomast dla osób w przedzale wekowym [30, 45) w tempe 9,02 zł na rok. Dla osób powyżej 45 roku dochód maleje o 8,71 zł przy wzrośce weku o 1 rok. Na konec wykres: Średn pozom dochodu w zależnośc od weku 200 400 600 800 1000 1200 20 30 40 50 60 70 Można równeż założyć, że zależność mędzy dochodem a wekem wśród osób ponżej 45 roku życa jest kwadratowa, natomast dla osób powyżej 45 roku życa lnowa. Średn pozom dochodu w zależnośc od weku (mean) dochod 200 400 600 800 1000 1200 20 30 40 50 60 70 wek w latach 27

Zależność mędzy wartoścą oczekwaną dochodu a wekem zapsujemy w następujący sposób: 2 δ 0 + δ1wek + δ2wek dla weku < 45 E( dochod ) = δ3 + δ4wek dla weku 45 Następne defnujemy zmenną zerojedynkową: 1 dla weku < 45 d = 0 dla weku 45 Wówczas postać modelu możemy zapsać jako: E( dochod ) = β + β wek + β d + β dwek + β dwek = 2 1 2 3 4 5 2 β1 + β3 + ( β2 + β4) wek + β 5 wek dla weku < 45 δ δ 0 δ1 2 = β 1 + β 2 wek dla weku 45 δ3 δ4 Pozostaje narzucć ogranczena na parametry β1,..., β 5, aby zapewnć sobe cągłość w punkce 45. Mus zachodzć: ( β + β ) + ( β + β )*45 + β 45 = β + β *45 β = 45β 45 β 2 2 1 3 2 4 5 1 2 3 4 5 Wstawamy uzyskane ogranczene do naszego równana: 2 2 E( dochod ) = β + β wek + ( 45β 45 β ) d + β dwek + β dwek = 1 2 4 5 4 5 2 2 = β1 + β2wek + β4 d( wek 45) + β5 d( wek 45 ) = wek _ 45 wek _ 2 _ 45 β + β wek + β wek _ 45 + β wek _ 2 _ 45 1 2 4 5 Łatwo zauważyć, że jeśl prawdzwa jest hpoteza H0 : β4 = β5 = 0, to model redukuje sę do standardowego modelu lnowego (dochód zależy wówczas w sposób lnowy od weku). Aby móc oszacować model ze sklejanym funkcjam lnowym, musmy zdefnować nowe zmenne: wek 45 dla weku < 45 wek _ 45 = d( wek 45) = 0 dla weku 45 2 2 2 2 wek 45 dla weku < 45 wek _ 2 _ 45 = d( wek 45 ) = 0 dla weku 45. drop wek_45 /*usunęce z pamęc Staty zmennej wek_45*/. generate wek_45 = 0 /*Tworzymy zmenną o nazwe wek_45; na raze zmenna przyjmuje tylko wartość 0*/. replace wek_45 = wek - 45 f wek < 45 /*Zamenamy wartość zmennej wek_45 na (wek - 45) dla osób ponżej 45 lat*/. generate wek_2_45 = 0 /*Tworzymy zmenną o nazwe wek_2_45; na raze zmenna przyjmuje tylko wartość 0*/ 28

. replace wek_2_45 = wek^2-45^2 f wek < 45 /*Zamenamy wartość zmennej wek_2_45 na (wek^2-45^2) dla osób ponżej 45 lat*/. regress dochod wek wek_45 wek_2_45 plec sredne wyzsze /*dochod - zmenna zależna, wek, wek_45, wek_2_45, plec, sredne, wyzsze - zmenne nezależne */ Source SS df MS Number of obs = 1083 -------------+------------------------------ F( 6, 1076) = 19.11 Model 71974761.1 6 11995793.5 Prob > F = 0.0000 Resdual 675506374 1076 627794.028 R-squared = 0.0963 -------------+------------------------------ Adj R-squared = 0.0913 Total 747481135 1082 690832.842 Root MSE = 792.33 dochod Coef. Std. Err. t P> t [95% Conf. Interval] -------- wek -7.909101 8.396863-0.94 0.346-24.38518 8.566982 wek_45 29.35264 29.61591 0.99 0.322-28.75885 87.46412 wek_2_45 -.1724977.4691242-0.37 0.713-1.093.7480042 plec -338.6992 48.30033-7.01 0.000-433.4727-243.9257 sredne 209.6498 77.78903 2.70 0.007 57.01445 362.2852 wyzsze 710.2749 99.72192 7.12 0.000 514.6035 905.9464 _cons 1166.541 426.2956 2.74 0.006 330.0758 2003.006 Na podstawe oszacowanych parametrów zależność mędzy dochodem a wekem możemy zapsać: 2 2 ˆ ( b1 45b4 45 b5 ) + ( b2 + b4 ) wek + b5wek dla weku < 45 dochod = = b1 + b2wek dla weku 45 = 1166,541 7,909101wek 2 2 (1166,541 45*29,35264 45 *( 0,1724977)) + ( 7,909101+29,35264) wek 0,1724977wek dla weku < 45 dla weku 45 + < = 1166,541 7,909101wek dla weku 45 2 194,98004 21,443539wek 0,1724977wek dla weku 45 (*) Narysujemy jeszcze wykres zależnośc średnego pozomu dochodu w zależnośc od weku z nałożoną krzywą (*). Średn pozom dochodu w zależnośc od weku 200 400 600 800 1000 1200 20 30 40 50 60 70 Przejdzemy do analzy wpływu wykształcena płc na dochód. W analzowanych do tej pory przez nas modelach zakładalśmy, że wpływ tych zmennych na dochód był addytywny. Postaramy sę sprawdzć, czy wpływ wykształcena na dochód ne zależy od płc (może mężczyźn z wyższym wykształcenem dostają wyższą premę nż kobety?). W tym celu do modelu wprowadzmy loczyny zmennych płeć wykształcene: E( dochod ) = β1 + β2plec + β3sredne + β4wyzsze + β5plec * sredne + β6plec* wyzsze Zakładamy, że zmenna plec zakodowana jest w następujący sposób: 29

0 dla mężczyzn plec = 1 dla kobet Możemy węc wartość oczekwaną dochodu zapsać w następujący sposób: E( dochod ) = β1 dla mężczyzn z wykształcenem podstawowym E( dochod ) = β1 + β2 dla kobet z wykształcenem podstawowym E( dochod ) = β1 + β3 dla mężczyzn z wykształcenem średnm E( dochod ) = β1 + β2 + β3 + β5 dla kobet z wykształcenem średnm E( dochod ) = β1 + β4 dla mężczyzn z wykształcenem wyższym E( dochod ) = β1 + β2 + β4 + β6 dla kobet z wykształcenem wyższym A z tego bezpośredno wynka nterpretacja parametrów, np: β 2 - o le mnej lub węcej zarabają kobety z wykształcenem podstawowym w porównanu z mężczyznam z wykształcenem podstawowym. β2 + β5 - o le mnej lub węcej zarabają kobety z wykształcenem średnm w porównanu z mężczyznam z wykształcenem średnm. β - prema dla mężczyzn za uzyskane wykształcena średnego. 3 β + β - prema dla kobety za uzyskane wykształcena średnego. 3 5 β 5 - różnca w prem mędzy kobetam a mężczyznam za uzyskane wykształcena średnego.. x: regress dochod wek wek_2.plec*.wyksztalcene /*dochod - zmenna zależna, wek, wek_2 oraz nterakcje medzy wykształcenem płcą - zmenne nezależne; prefx x: służy do rozkodowywana zmennych dyskretnych na zero-jedynkowe oraz wprowadzana do modelu nterakcj.plec _Iplec_0-1 (naturally coded; _Iplec_0 omtted).wyksztalcene _Iwyksztalc_1-3 (naturally coded; _Iwyksztalc_1 omtted).plec*.wyks~e _IpleXwyk_#_# (coded as above) Source SS df MS Number of obs = 1083 -------------+------------------------------ F( 7, 1075) = 18.83 Model 81648217.6 7 11664031.1 Prob > F = 0.0000 Resdual 665832918 1075 619379.458 R-squared = 0.1092 -------------+------------------------------ Adj R-squared = 0.1034 Total 747481135 1082 690832.842 Root MSE = 787.01 dochod Coef. Std. Err. t P> t [95% Conf. Interval] -------- wek 36.38318 15.39846 2.36 0.018 6.168745 66.59762 wek_2 -.4049352.1962222-2.06 0.039 -.7899572 -.0199131 _Iplec_1-144.4044 143.4615-1.01 0.314-425.9008 137.0919 _Iwyksztal~2 274.2703 105.1538 2.61 0.009 67.94046 480.6002 _Iwyksztal~3 1040.998 137.1701 7.59 0.000 771.8461 1310.149 _IpleXwyk_~2-143.4455 153.4394-0.93 0.350-444.5201 157.6292 _IpleXwyk_~3-682.341 197.7395-3.45 0.001-1070.34-294.3418 _cons -121.1625 300.6773-0.40 0.687-711.1435 468.8184 Ops oznaczeń Staty: _Iplec_1 płeć _Iwyksztal~2 wykształcene średne _Iwyksztal~3 wykształcene wyższe _IpleXwyk_~2 płeć x (wykształcene średne) _IpleXwyk_~3 - płeć x (wykształcene wyższe) 30