1.6 Zmienne jakościowe i dyskretne w modelu regresji

Podobne dokumenty
Zmienne sztuczne i jakościowe

Natalia Nehrebecka Stanisław Cichocki. Wykład 6

Egzamin z ekonometrii - wersja ogólna

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

, a reszta dla pominiętej obserwacji wynosi 0, RSS jest stałe, T SS rośnie, więc zarówno R 2 jak i R2 rosną. R 2 = 1 n 1 n. rosnie. n 2 (1 R2 ) = 1 59

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Ekonometria egzamin 07/03/2018

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Analizowane modele. Dwa modele: y = X 1 β 1 + u (1) y = X 1 β 1 + X 2 β 2 + ε (2) Będziemy analizować dwie sytuacje:

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Egzamin z ekonometrii wersja IiE, MSEMAT

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Zmienne Binarne w Pakiecie Stata

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Egzamin z ekonometrii wersja IiE, MSEMAT

Ekonometria egzamin 31/01/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

1.7 Ograniczenia nakładane na równanie regresji

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Egzamin z ekonometrii wersja IiE, MSEMat Pytania teoretyczne

Stanisław Cichocki. Natalia Nehrebecka

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Budowa modelu i testowanie hipotez

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Problem równoczesności w MNK

Ekonometria Ćwiczenia 19/01/05

Egzamin z ekonometrii wersja ogolna

Egzamin z ekonometrii wersja IiE, MSEMAT

Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08

1 Modele ADL - interpretacja współczynników

Testowanie hipotez statystycznych

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Ekonometria egzamin wersja ogólna 17/06/08

Badania eksperymentalne

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

1.9 Czasowy wymiar danych

1.5 Problemy ze zbiorem danych

Wprowadzenie do analizy korelacji i regresji

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Stanisław Cichocki. Natalia Nehrebecka

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Ekonometria dla IiE i MSEMat Z7

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Ekonometria egzamin wersja ogólna 29/01/08

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

1.1 Klasyczny Model Regresji Liniowej

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Analiza czynników wpływających na poziom wykształcenia.

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Statystyka i Analiza Danych

Ekonometria dla IiE i MSEMat Z12

Czasowy wymiar danych

Kalibracja. W obu przypadkach jeśli mamy dane, to możemy znaleźć równowagę: Konwesatorium z Ekonometrii, IV rok, WNE UW 1

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Diagnostyka w Pakiecie Stata

Stanisław Cichocki. Natalia Nehrebecka

Definicja danych panelowych Typy danych panelowych Modele dla danych panelowych. Dane panelowe. Część 1. Dane panelowe

Zawansowane modele wyborów dyskretnych

Etapy modelowania ekonometrycznego

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Natalia Nehrebecka. Wykład 1

1.3 Własności statystyczne estymatorów MNK

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Modele wielorównaniowe (forma strukturalna)

Analiza współzależności zjawisk

Stanisław Cichocki. Natalia Nehrebecka

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Analiza składowych głównych. Wprowadzenie

Metody Ilościowe w Socjologii

ANALIZA WIELOPOZIOMOWA JAKO NARZĘDZIE WSPARCIA POLITYK PUBLICZNYCH

Analiza współzależności dwóch cech I

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

1.8 Diagnostyka modelu

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

5. Model sezonowości i autoregresji zmiennej prognozowanej

Stanisław Cichocki Natalia Nehrebecka. Wykład 1

Egzamin z Ekonometrii

Zmienne zależne i niezależne

Transkrypt:

1.6 Zmienne jakościowe i dyskretne w modelu regresji 1.6.1 Zmienne dyskretne i zero-jedynkowe (Dummy Variables) W badaniach ekonometrycznych bardzo często występują zjawiska, które opisujemy zmiennymi nie posiadającymi charakteru ilościowego, a jakościowy (np. wykształcenie). Podobny charakter mają odpowiedzi na różne pytania ankietowe. Tego typu zmienne charakteryzuje się tym, że przyjmuje pewną skończoną liczbę dyskretnych wartości. Z powodu ograniczenia liczby ich wartości nie moża traktować tych zmiennych w sposób przyjęty dla zmiennych ciągłych w regresji. Dzieje się tak ponieważ pośrednie wartości tej zmiennej nie mają sensu ekonomicznego, a obliczone współczynniki modelu nie posiadają interpretacji ekonomicznej. Przykład 1. Budujemy model tłumaczący zarobki poziomem wykształcenia i liczbą godzin pracy w tygodniu. zarobki = β 0 + β 1 liczba godzin pracy + β 2 wykształcenie + ε Zmienna liczba godzin pracy może być traktowana jako ciągła, ponieważ może przyjmować wszystkie wartości z przedziału [0,168]. Zmienna wykształcenie przyjmuje tylko trzy wartości: podstawowe, średnie i wyższe. Współczynnik przy zmiennej liczba godzin pracy informuje nas o tym o ile więcej zarobimy pracując godzinę dłużej a pozostałe zmienne pozostaną na swoim poziomie ( ceteris paribus). Natomiast jak zinterpretować współczynnik przy zmiennej wykształcenie? Jest to zmiana dochodu spowodowana zmianą poziomu wykształcenia. Ale jeżeli w ten sposób zinterpretujemy tą zmienną to założymy, że różnica w zarobkach między osobami ze średnim wykształceniem a wykształceniem podstawowym jest taka sama jak różnica w zarobkach między osobą posiadającą wykształcenie wyższe a osobą ze średnim wykształceniem. Co więcej, założymy również, że różnica w zarobkach osoby z wyższym wykształceniem a osoby z wykształceniem podstawowym będzie równa dwukrotności różnicy w zarobkach między wykształceniem wyższym a średnim. Jednak takie założenia są nieuzasadnione teorią ekonomiczną! Przykład 2. Budujemy model tłumaczący zarobki liczbą godzin pracy w tygodniu i miejscem zamieszkania. Liczba godzin pracy jest zdefiniowana tak jak w przykładzie 1. Miejsce zamieszkania jest zmienną przyjmującą inną wartość dla 30

każdego województwa (16 wartości). zarobki = β 0 + β 1 liczba godzin pracy + β 2 klm + ε W takim przypadku, w odróżnieniu od poprzedniego przykładu współczynnik przy zmiennej miejsce zamieszkania nie będzie miał wogóle interpretacji! W ekonometrii rozróżniane są dwa typy nieciągłych zmiennych. Zmienne jakościowe, to zmienne których wartości posiadają charakter opisowy, np kolor oczu (niebieski, zielony, brązowy). Podczas analizy badacz arbitralnie wybiera sposób kodowania wartości zmiennej. Drugim typem są zmienne dyskretne. Takie zmienne przyjmują z góry określoną liczbę wartości, ale sumowanie tych wartości jest pozbawione sensu. W tego typu sytuacjach zmienną jakościową lub dyskretną o kilku czy kilkunastu kategoriach należy rozkodować na odpowiednią liczbę zmiennych zero-jedynkowych i używać tych zmiennych w równaniu regresji. Zmienne zero-jedynkowe są bardzo przydatnym narzędziem w analizie regresji. Taka zmienna przyjmuje wartość jeden, gdy jakieś zjawisko występuje i zero w przeciwnym przypadku. Najprostszym typem zmiennej zero-jedynkowej jest zmienna wyróżniająca pewien okres czasu. Przykład 3. Estymujemy funkcję konsumpcji typu keynesowskiego: C t = β 0 + β 1 Y t + ε t (1) dysponujemy danymi kwartalnymi, i chcemy sprawdzić czy funkcja konsumpcji jest taka sama w każdym kwartale. W tym celu wprowadzamy zmienne zero-jedynkowe (dummy variables) po jednej dla każego kwartału. C t = β 0 + β 1 Y t + δ 1 D t1 + δ 2 D t2 + δ 3 D t3 + δ 4 D t4 + ɛ t (2) ale wprowadzenie czterech zmiennych zero-jedynkowych do modelu spowoduje, że pojawi się współliniowość bowiem: C 1 1 y t1 1 0 0 0 β 0 ε 1 C 2 1 y t2 0 1 0 0 β 1 ε 2 C 3 C 4 = 1 y t3 0 0 1 0 δ 1 ε 3 1 y t4 0 0 0 1 δ 2 + ε 4.................... δ 3. C n 1 y tn 0 0 0 1 δ 4 ε n 31

zmienne zero-jedynkowe sumują się dla każdej obserwacji w próbie do wektora jednostkowego, powodując że macierz X staje się osobliwa. To zjawisko w literaturze ekonometrycznej nazywane jest pułapką związaną ze zmiennymi zero-jedynkowymi (dummy variable trap). Takiego modelu nie można oszacować, ponieważ wystąpi liniowa zależność między regresorami, a macierz X X będzie osobliwa. Dzieje się tak, ponieważ zmienne zerojedynkowe sumują się do jedności δ i = l. Aby ominąć pułapkę w modelu ekonometrycznym należy pominąć zmienną zero-jedynkową dla jednej z kategorii. Zazwyczaj w praktyce odrzuca się tę kategorię dla której jest najwięcej obserwacji. Wtedy model jest prawidłowy dla więszości obserwacji, a zmienne zero-jedynkowe mierzą odchylenia od stanu średniego powodowane przez inne kategorie rozpatrywanej zmiennej. 1.6.2 Interakcje W modelu ekonometrycznym zakłada się, że poszczególne zmienne wpływają na zmienną zależną w sposób od siebie niezależny. Niekiedy to założenie jest mało realistyczne. Na przykład przy tłumaczeniu wysokości zarobków za pomocą między innymi płci i wykształcenia respondentów. Teoretycznie możemy uznać, że wykształcenie i płeć wpływają na wysokość uzyskiwanych zarobków w sposób od siebie niezależny. Chociaż z drugiej strony, z teorii rynku pracy wiemy o istnieniu zjawiska dyskryminacji płacowej kobiet, i że jest ona silniejsza wraz ze wzrostem poziomu wykształcenia. W takim przypadku warto taką informację wykorzystać w modelu zjawiska wprowadzając interakcje. Badanie interakcji między zmiennymi ciągłymi sprowadza się do wprowadzenia do modelu odpowiednich iloczynów zmiennych. Zostanie ono szczegółowo omówione przy okazji doboru formy funkcyjnej modelu. Jeżeli w modelu zawartych jest kilka cech jakościowych, np. wykształcenie o m 1 kategoriach, klasa miejscowości o m 2 kategoriach to w równaniu regresji mamy (m 1 1) + (m 2 1) dodatkowych regresorów. Ale postępując w ten sposób zakładamy, że rozpatrywane cechy są niezależne i nie zachodzi żadna interakcja między nimi. Gdy chcemy zbadać efekty interakcyjne to powinniśmy wprowadzić m 1 m 2 1 dodatkowych regresorów w równaniu regresji. Przy takim kodowaniu wybór zmiennej pozostającej poza zbiorem regresorów jest dowolny, tyle że od tego wyboru może zależeć interpretacja wyników. Niekiedy może wystąpić sytuacja, że istnieje współzależność między zmiennymi objaśniającymi i jedna z tych zmiennych jest ciągła a druga dyskretna. Interakcję między tymi zmiennymi uwzględniamy wstawiając do modelu ilo- 32

czyny zmiennych zero-jedynkowych związanych z poziomami zmiennej dyskretnej i interesującej nas zmiennej ciągłej. 1.6.3 Zmienne o wielu kategoriach i efekty progowe (Threshold Effects) W wielu zastosowaniach zmienne zero-jedynkowe używane są w celu modelowania czynników jakościowych takich jak np. przynależność do danej grupy, czy występowanie zjawiskaw danym okresie czasu. Jednak na tym nie kończą się możliwości stosowania tych zmiennych. Zmienne jakościowe mogą być również stosowane do pomiaru pewnych zjawisk, które mogą być mierzone metodą bezpośrednią. Wracając do przykładu wykształcenia lepszą jego miarą jest wzięcie pod uwagę osiągniętego poziomu wykształcenia, niż rozpatrywanie ilości lat nauki. Przykład 4. Przypuśćmy, że analizujemy następujący model badający zależność zarobków od wykształcenia i wieku: zarobki = β 0 + β 1 wiek + wykształcenie + ε (3) Zbiór danych zawiera informacje o zarobkach, wieku oraz najwyższym osiągniętym wykształceniu przez respondenta. Zmienna ta przyjmuje trzy poziomy: podstawowe (P), średnie (S) i wyższe (W). Najprostszym sposobem analizy, aczkolwiek nie najlepszym, jest użycie zmiennej E równej 0 dla pierwszej grupy obserwacji, 1 dla drugiej i 2 dla trzeciej. Powstanie wtedy model: zarobki = β 0 + β 1 wiek + β 2 E + ε (4) Jednak sprawia on trudności w analizie i interpretacji wyników. Tak jak w przykładzie 1, zakładamy że każda zmiana poziomu wykształcenia, czyli przekroczenie pewnej wartości progowej zmiennej objaśniającej, powoduje taki sam przyrost zarobków. Jednak w rzeczywistości takie zjawisko jest mało prawdopodobne i to założenie ogranicza regresję powodują obciążenie estymatorów. Zamiast modelu (4), możemy użyć modelu z dwoma zmiennymi zero-jedynkowymi: zarobki = β 0 + β 1 wiek + δ w W + δ s S + ε (5) Zależność pomiędzy wykształceniem a dochodami wtedy jest dana przez: wyższe: E[zarobki wiek, W ] = β 0 + β 1 wiek + δ w 33

średnie: E[zarobki wiek, S] = β 0 + β 1 wiek + δ s podstawowe: E[zarobki wiek, P ] = β 0 + β 1 wiek Tym co nas interesuję są współczynniki δ w i δ s, oraz różnica między nimi. Jest ona łatwa do policzenia i interpretacji. Każdy współczynnik δ w równaniu (5) interpretujemy jako wzrost dochodu osiągany dzieki wyższemu poziomowi wykształcenia niż podstawowe, natomiast różnica δ w δ s pokazuje nam o ile więcej zarabiają ludzie z wyższym wykształceniem niż ludzie ze średnim wykształceniem przyjmując inne czynniki na stałym poziomie. Przyjęty sposób rozkodowania zmiennej nie jest jedynym możliwym. Istnieje również inny sposób rozbicia zmiennej wykształcenie na zmienne zerojedynkowe. Wartość 1 zmiennej zero-jedynkowej może oznaczać, że dana jednostka posiada dany poziom wykształcenia. W takim przypadku dla osoby z wyższym wykształceniem wszystkie zmienne zero-jedynkowe oznaczające niższe poziomy wykształcenia, które osoba osiągnęła, przyjmą wartość 1. Definiując zmienne w ten sposób zmieniamy również zależność między wykształceniem a dochodami: wyższe: E[zarobki wiek, W ] = β 0 + β 1 wiek + δ w + δ s średnie: E[zarobki wiek, S] = β 0 + β 1 wiek + δ s podstawowe: E[zarobki wiek, P ] = β 0 + β 1 wiek Zamiast różnicy między wykształceniem wyższym a podstawowym, w tym modelu δ w jest krańcową wartością wyższego wykształcenia. Sposób w jaki rozbijemy zmienna o kilku kategoriach jest wyborem badacza i powinien odpowiadać celowi modelu. Oba sposoby są matematycznie równoważne. Przykład 5. Na podstawie danych pochodzących z Badania Aktywności Ekonomicznej Ludności (BAEL) dwóch badaczy zbudowało modele tłumaczące wysokość płacy w zależności od poziomu wykształcenia i zmiennych kontrolnych (płeć - 1 mężczyzna, staż pracy oraz jego kwadrat, zamieszkiwanie w dużym mieście). W danych źródłowych zmienna wykształcenie przyjmowała 5 wartości (podstawowe, zawodowe, średnie, policealne, wyższe). Badacz A tworząc zmienne 0-1 dla poziomów wykształcenia przypisał wartość jeden dla najwyższego osiągniętego wykształcenia i 0 dla pozostałych. Z kolei badacz B przypisał wartość jeden wszystkim poziomom wykształcenia, które osoba osiągnęła. Czyli np. dla osoby o wykształceniu średnim wartość 1 przyjmują zmienne dla wykształcenia podstawowego, zawodowego oraz średniego. Badacze otrzymali następujące wyniki: 34

Model badacza A Model Badacza B Number of obs = 25794 Number of obs = 25794 F( 8, 25785) = 789.17 F( 8, 25785) = 789.17 Prob > F = 0.0000 Prob > F = 0.0000 R-squared = 0.1967 R-squared = 0.1967 Adj R-squared = 0.1964 Adj R-squared = 0.1964 Root MSE = 216.12 Root MSE = 216.12 ---------------------------------------------------------------------------- zarobki Coef. Std. Err. P> t Coef. Std. Err. P> t -------------+-------------------------------------------------------------- plec 64.78646 2.780403 0.000 64.78646 2.780403 0.000 staz 7.713932.340798 0.000 7.713932.340798 0.000 staz2 -.192435.007008 0.000 -.192435.007008 0.000 duze miasto 78.40807 3.201374 0.000 78.40807 3.201374 0.000 wyksztal_wyz 250.2458 5.429926 0.000 92.88095 8.530816 0.000 wyksztal_pol 157.3648 8.019582 0.000 31.82745 7.728078 0.000 wyksztal_sre 125.5374 4.024915 0.000 51.31021 3.479491 0.000 wyksztal_zaw 74.22715 3.922634 0.000 74.22715 3.922634 0.000 _cons 50.6661 4.896975 0.000 50.6661 4.896975 0.000 ---------------------------------------------------------------------------- 1. Oceń właściwości statystyczne obu modeli oraz ich dopasowanie do danych empirycznych. 2. Zinterpretuj współczynnik dla wykształcenia średniego w obu modelach 3. Policz o ile przeciętnie więcej zarabia osoba z wykształceniem wyższym od osoby z wykształceniem zawodowym według modelu A, a o ile według modelu B? 4. Czy sposób kodowania zmiennej wykształcenie ma istotny wpływ na osiągane wyniki? Odpowiedź 1. W obu modelach wszystkie zmienne objaśniające są pojedynczo istotne oraz łącznie istotne. Współczynnik Adj R 2 świadczy o tym, że zmienne objaśniające w prawie 20 % wyjaśniają zmienność zarobków. 2. W modelu A współczynnik dla zmiennej wykształcenie średnie mówi o ile przeciętnie więcej zarabia osoba z wykształceniem średnim w stosunku do osoby o wykształceniu podstawowym. W modelu B współczynnik dla zmiennej wykształcenie średnie mówi o ile złotych więcej zarabia osoba o wykształceniu średnim od osoby o wykształceniu zawodowym. 35

3. W modelu A każdy współczynnik oznacza premię do zarobków z posiadania danego poziomu wykształcenia w stosunku do wykształcenia podstawowego. Wobec tego różnica w zarobkach między osobą o wykształceniu wyższym a wykształceniu zawodowym jest to różnica: β wyzsze β zawodowe = 250.25 74.23 = 176.02. W modelu B każdy współczynnik oznacza premię do zarobków w stosunku do wykształcenia o jeden stopień niższego. Więc szukana różnica jest sumą β srednie + β policealne + β wyzsze = 51.31 + 32.83 + 92.88 = 176.02. 4. Sposób rozkodowania zmiennej wykształcenie nie zmienia w żaden sposób wyników modelu. Zmieniają się wartości i interpretacja parametrów. Sposób liczenia przeciętnych różnic w zarobkach powodowanych przez różne poziomy wykształcenia jest inny dla każdego modelu, ale ostateczne rezultaty takie same. Literatura [1] William H. Greene (2003) Econometric Analysis, 5th edition. [2] Jerzy Mycielski (2000), WNE. [3] Aleksander Welfe (1998) Zbiór zadań z ekonometrii, PWE 36