D. Cołek EKONOMETRIA wykład 5 EKONOMETRIA Wykład 5: Zmenne zerojedynkowe w modelowanu ekonometrycznym dr Dorota Cołek Katedra Ekonometr Wydzał Zarządzana UG http://wzr.pl/dorota-colek/ dorota.colek@ug.edu.pl
D. Cołek EKONOMETRIA wykład 5 Zmenne jakoścowe Często w ekonomcznych analzach emprycznych chcemy włączyć do badana (do modelu ekonometrycznego) także zmenne nemerzalne, jakoścowe tzw. zmenne dyskretne. Take cechy jak: - płeć, rasa, wykształcene osoby badanej - sektor gospodarczy, do jakego należy frma - regon kraju, w którym zlokalzowana jest frma - czy frma mportuje, czy ne mportuje - czy kraj ratyfkowała, czy ne np.. określoną umową handlową - Członkostwo w ugrupowanach mędzynarodowych (np. członkostwo w Un Europejskej) - tp. 2
D. Cołek EKONOMETRIA wykład 5 Zastosowana zmennych zerojedynkowych szerzej tzw. zmenne sztuczne (dummy varables) Zmenna przyjmuje wartość dla nektórych obserwacj, a dla pozostałych obserwacj. Często wykorzystywane w modelach jednocześne obok zmennych loścowych. Reprezentuje zmenne jakoścowe w modelu, Odzwercedla zmany strukturalne lub załamana strukturalne, Pozwala opsać sezonowość w szeregach czasowych dla danych o częstotlwośc wększej nż rok. 3
D. Cołek EKONOMETRIA wykład 5 Cechy jakoścowe (raczej dla danych przekrojowych) Zmenne dychotomczne (dwuwarantowe) np.: płeć, rodzaj stanowska pracownka (kerowncze, nekerowncze), członkostwo w określonym ugrupowanu (Un Europejskej), kraje anglo- neanglojęzyczne, położene kraju lub regonu nad morzem, lotnsko na obszarze danego regonu Np.: D = dla krajów należących do UE, dla krajów ne należących do UE. 4
D. Cołek EKONOMETRIA wykład 5 Regresja z jakoścowym zmennym objaśnającym Regresja wyjaśnająca zróżncowane w pozome wynagrodzeń: wage female 2 marred gdze obe zmenne objaśnające zdefnowane są następująco: for woman for marred person female marred for man for unmarred person Użyce zmennych zerojedynkowych prowadz do modelu regresj, w którym parametry strukturalne mają bardzo ntucyjną nterpretację : β nformuje o tym, jaka jest różnca w wynagrodzenu mędzy kobetą, a mężczyzną zakładając stałość pozostałych cech (ceters parbus). β 2 - nformuje o tym, jaka jest różnca w wynagrodzenu mędzy osobą w małżeństwe, a osobą ne będącą w małżeństwe zakładając stałość pozostałych cech (ceters parbus). 5 u
D. Cołek EKONOMETRIA wykład 5 Pułapka zmennych zerojedynkowych Dlaczego w modelu ne uwzględnamy jednocześne drugej zmennej zerojedynkowej np. male, która byłaby równa jeden dla mężczyzn zero dla kobet? Równoczesne użyce dwóch takch zmennych w modelu prowadzłoby do dokładnej współlnowośc zmennych objaśnających poneważ female + male = w takm przypadku ne jest możlwe oszacowane modelu ekonometrycznego przy pomocy estymatora MNK. Musmy wybrać jedną z dwóch grup jako grupę podstawową (benchmark), do której będzemy porównywać drugą grupę analzowanych osób w tym przypadku to jest grupa mężczyzn. 6
D. Cołek EKONOMETRIA wykład 5 Zmenne sztuczne przesunęce wyrazu wolnego Załóżmy, że w regresj mamy tylko jedną zerojedynkową zmenną objaśnającą: wage female 2 age u Jeżel zmenna zerojedynkowa wprowadzona jest w powyższy sposób, zmenamy wartość wyrazu wolnego dla wybranej grupy osób, zatem: dla kobet: wage ( ) 2 age u dla mężczyzn: wage 2 age u Przecętna różnca mędzy wynagrodzenam kobet mężczyzn jest równa β zakładając ten sam wek obu zatrudnonych. (uwaga: w tym przypadku zakładamy stałą wartość tej różncy) 7
D. Cołek EKONOMETRIA wykład 5 Zmana wyrazu wolnego 8
D. Cołek EKONOMETRIA wykład 5 Ten rodzaj regresj zapewna prosty sposób przeprowadzena testu porównawczego mędzy dwema grupam, które w tym przypadku są mężczyznam kobetam. Jeśl parametr przy zmennej objaśnającej jest statystyczne stotny, możemy powedzeć, że stneje stotna różnca mędzy obydwoma grupam: np. dyskrymnacj ze względu na płeć na rynku pracy. Inne przykłady: W regresj wzrostu możemy wprowadzć zmenną zerojedynkową dla członków UE - Czy członkostwo w UE wpływa na wzrost gospodarczy? W rozwoju regonalnym - Czy lokalzacja w poblżu morza wpływa na wzrost gospodarczy? 9
D. Cołek EKONOMETRIA wykład 5 Regresja ze logarytmowaną zmenną objaśnającą Uwaga: Zmennych zerojedynkowych ngdy ne logarytmujemy. Załóżmy, że mamy następującą regresję: log flm _ revenue costs 2 flm _ star 3 powesc u Jak nterpretować współczynnk przy zmennych sztucznych? Parametr β to tzw. sem-elastyczność. Jeżel w flme występuje znana gwazda flmowa, przychody z flmu są średno o β 2 *% wyższe w porównanu z podobnym flmam (z takm samym kosztam nnym cecham) - tzn. przy założenu stałośc pozostałych czynnków. Jeśl scenarusz flmu opera sę na poweśc, wówczas przychody są średno o β 3 *% wyższe w porównanu z podobnym flmem (przy tych samych kosztach nnych cechach).
D. Cołek EKONOMETRIA wykład 5 Zmana współczynnka kerunkowego prostej Czasam możemy założyć, że wartość zmennej jakoścowej ma wpływ ne tylko na stałą różncę mędzy zdefnowanym grupam, ale także na słę wpływu loścowej zmennej objaśnającej, np. weku. Zmana współczynnka kerunkowego: wage dla mężczyzn: 2 age 3 wage 2 female age age u u dla kobet: wage ) age ( 2 3 u
D. Cołek EKONOMETRIA wykład 5 Zmana współczynnka kerunkowego prostej 2
D. Cołek EKONOMETRIA wykład 5 Jednoczesna zmana współczynnka stałej wage female 2 age 3 female age u dla mężczyzn: wage 2 age u dla kobet: wage ) ( ) age ( 2 3 u Oznacza to, że w regresj uwzględnamy nterakcję mędzy zmenną loścową (wek) a zmenną jakoścową (płeć). 3
D. Cołek EKONOMETRIA wykład 5 Jednoczesna zmana współczynnka stałej 4
D. Cołek EKONOMETRIA wykład 5 Interakcje mędzy zmennym jakoścowym Zmenne jakoścowe mogą być nterakcyjne w modelach regresj podobne jak zmenne jakoścowe. W modelu możemy uwzględnć nterakcję np. mędzy płcą, a tym, że osoba jest w małżeństwe, gdy jednocześne występują zmenne zerojedynkowe dla płc dla małżeństwa. Pozwolłoby to oszacowań premę małżeńską w zależnośc od płc, wtedy gdy stneje statystyczne stotna nterakcja mędzy płcą a stanem cywlnym. Model ten pozwala równeż uzyskać szacunkową różncę płacową wśród wszystkch czterech grup, ale musmy uważać, aby połączyć prawdłową kombnację zer jedno. 5
D. Cołek EKONOMETRIA wykład 5 Zmenne loścowe z weloma kategoram Dla zmennej z g kategoram potrzebujemy uwzględnć w modelu g - zmennych zerojedynkowych. np: Zmenna: sektor dzałalnośc frmy - produkcja (manufacturng) - usług (servces) - handel (trade) Zdefnujmy dwe zmenne sztuczne: for servces sector servces for others Model: sale for trade sector trade for others X 2servces 3 Wówczas frmy produkcyjne są grupą referencyjną trade Parametr przy zmennej sztucznej dla określonej grupy stanow oszacowaną różncę wyrazu wolnego mędzy tą grupą a grupą bazową (referencyjną) zakładając take same wartośc pozostałych zmennych. 6 u
D. Cołek EKONOMETRIA wykład 5 Cechy jakoścowe (raczej dla danych przekrojowych) Zmenne welowarantowe np.: pozom wykształcena (podstawowe, średne, wyższe), stopeń naukowy pracownka dydaktycznego (magster, doktor, dr habltowany, profesor) wyznawana relga (chrześcjann, muzułmann, żyd, nna) D= dla magstrów, pozostałe stopne naukowe. dla doktorów, dla profesorów D2= D4= pozostałe stopne naukowe. pozostałe stopne naukowe. D3= dla doktorów habltowanych, pozostałe stopne naukowe. 7
8 D. Cołek EKONOMETRIA wykład 5 Model wyjaśnający zróżncowane wynagrodzena gdze: =,,N; W wynagrodzene -tego pracownka, S staż pracy pracownka, zmenne D stopeń naukowy pracownka Macerz obserwacj na zmennych objaśnających: Suma czterech ostatnch kolumn (dla zmennych D) jest równa kolumne jedynak, czyl tyle samo, co zmenna reprezentująca wyraz wolny. Mamy do czynena z dokładną współlnowoścą zmennych. Ne da sę oszacować takego modelu. Aby oszacować model pomjamy jedną ze zmennych D. D D D D S W 4 5 3 4 2 3 2 3 2 s N s s s X
9 D. Cołek EKONOMETRIA wykład 5 Model wyjaśnający zróżncowane wynagrodzena cd gdze: =,,N; W wynagrodzene -tego pracownka, S staż pracy pracownka, zmenne D jak poprzedno Macerz obserwacj na zmennych objaśnających: Suma czterech ostatnch kolumn (dla zmennych D) jest równa kolumne jedynak, czyl tyle samo, co zmenna reprezentująca wyraz wolny. Mamy do czynena z dokładną współlnowoścą zmennych. Ne da sę oszacować takego modelu. Aby oszacować model pomjamy jedną ze zmennych D. D D D D S W 4 5 3 4 2 3 2 3 2 s N s s s X
D. Cołek EKONOMETRIA wykład 5 Model wyjaśnający zróżncowane wynagrodzena cd - nterpretacja W S D D D 2 3 2 4 3 5D4 Po oszacowanu modelu MNK oceny parametrów nterpretujemy następująco: 3 : Wynagrodzene doktorów jest wyższe średno o 3 od wynagrodzena magstrów o tym samym stażu pracy. 4 : Wynagrodzene doktorów habltowanych jest wyższe średno o 4 od wynagrodzena magstrów o tym samym stażu pracy. 5 : Wynagrodzene profesorów jest wyższe średno o 5 od wynagrodzena magstrów o tym samym stażu pracy. Uwaga: oceny parametrów nterpretujemy w stosunku do pomnętej kategor zmennej jakoścowej. 2
D. Cołek EKONOMETRIA wykład 5 Model wyjaśnający zróżncowane wynagrodzena cd W S 2S D2 3S D3 4S D4 gdze: =,,N; W wynagrodzene -tego pracownka, S staż pracy pracownka, zmenne D jak poprzedno. Interpretacja: Dla magstrów wzrost stażu pracy o jeden rok powoduje wzrost wynagrodzena średno o jednostek. Dla doktorów wzrost stażu pracy o jeden rok powoduje wzrost wynagrodzena średno o ( + 2 ) jednostek. Dla doktorów habltowanych wzrost stażu pracy o jeden rok powoduje wzrost wynagrodzena średno o ( + 3 ) jednostek. Dla profesorów wzrost stażu pracy o jeden rok powoduje wzrost wynagrodzena średno o ( + 4 ) jednostek. 2
22 D. Cołek EKONOMETRIA wykład 5 Model wyjaśnający zróżncowane wynagrodzena cd gdze: =,,N; W wynagrodzene -tego pracownka, S staż pracy pracownka, zmenne D jak poprzedno. Interpretacja: Przy zerowym stażu pracy wynagrodzena doktorów różną sę od wynagrodzena magstrów średno o 5 jednostek. D D D D S D S D S S W 4 7 3 6 2 5 4 4 3 3 2 2
D. Cołek EKONOMETRIA wykład 5 Znaczące zmany w szeregu czasowym np. tzw. załamana strukturalne (structural breakes): Wprowadzene nowej technolog w przedsęborstwo, Przystąpene do określonego stowarzyszena lub un, Odzwercedlene netypowych obserwacj w czase: okres wojny, okres kryzysu, okres zarządzana komsarycznego, okres remontu. Dla zdefnowanego okresu wprowadzamy zmenną sztuczną: D t = w wyróżnony okrese, pozostałych okresach. 23
Konsumpcja D. Cołek EKONOMETRIA wykład 5 Funkcja konsumpcj w okrese 94-95 w USA Kształtowane sę konsumpcj w USA w latach 94-95 36 34 32 3 28 26 24 22 2 2 25 3 35 4 Konsumpcja t Dochód do dyspozycj o Dochód 2 D t D t = w latach wojny 942-945, poza latam wojny. 24
D. Cołek EKONOMETRIA wykład 5 Obserwacje netypowe (outlers) lub błędne Outler - obserwacja, która charakteryzuje sę netypową charakterystyką w porównanu z nnym obserwacjam w próbe. - Mechanzm, który w tym przypadku generuje zmenną zależną, jest opsany przez model. Obserwacja błędna - jej pojawene sę ne może być wyjaśnone przez teoretyczny model ekonomczny, który jest podstawą budowy modelu ekonometrycznego. - Często występuje w wynku błędów podczas wprowadzana obserwacj do bazy danych. Czasam jednak neprawdłowe obserwacje są faktycznym obserwacjam, powązanym z netypowym wydarzenam, których ne można wytłumaczyć przy pomocy naszego modelu. 25
D. Cołek EKONOMETRIA wykład 5 Przykład obserwacj netypowych Modelowane popytu - Załóżmy, że szacujemy krzywą popytu na żywność dla różnych krajów na śwece. - Jednakże w próbe stneją pewne kraje, w których występuje reglamentacja żywnośc, tj. Kuba lub Korea Północna. - Take obserwacje można zdentyfkować jako neprawdłowe obserwacje, poneważ teora opsująca krzywą popytu ne ma zastosowana w czase nerynkowej dystrybucj towarów. Znaczene obserwacj netypowych lub błędnych Efekt netypowej obserwacj w regresj zależy od tego, jak ta obserwacja pasuje do ln regresj. Najbardzej nepokojąca jest sytuacja, w której obserwacja ma netypowe wartośc dla zmennej nezależnej słabo pasuje do ln regresj. 26
D. Cołek EKONOMETRIA wykład 5 Obserwacja netypowa, która pasuje do ln regresj 27
D. Cołek EKONOMETRIA wykład 5 Obserwacja netypowa, która ne pasuje do ln regresj 28
D. Cołek EKONOMETRIA wykład 5 Znaczene obserwacj netypowych lub błędnych Uwzględnene obserwacj netypowych ma pozytywny wpływ na: A) dokładność szacunków B) dopasowane modelu Włączene błędnych obserwacj ma negatywny wpływ na: A) dokładność szacunków B) dopasowane modelu Identyfkacja obserwacj netypowych błędnych Mary, które mogą być użyte do wykryca netypowej obserwacj słabo dopasowanej do ln regresj slne wpływającej na wynk regresj: A) Leverage (dźwgna) B) Standaryzowane reszty C) Odległośc Cooka 29
D. Cołek EKONOMETRIA wykład 5 Leverage Merzy, jak bardzo wartość zmennej objaśnanej dla obserwacj netypowej różn sę od wartośc dla pozostałych obserwacj. Punkty tzw. wysokej dźwgn (hgh-leverage ponts) - obserwacje o ekstremalnych lub odstających wartoścach zmennej objaśnanej, przy których ne ma nnych obserwacj. Wartość leverage to: h H -ty dagonalny element tzw. macerz projekcj: H T T X X X X gdze X jest macerzą obserwacj na zmennych objaśnających. 3
D. Cołek EKONOMETRIA wykład 5 Wartośc leverage W każdym modelu: h W modelu z wyrazem wolnym: N h Reguła: obserwację traktujemy jako netypową wówczas, gdy: 2( k ) h N gdze N jest lczbą obserwacj k - lczbą zmennych objaśnających w regresj. Ale ne oznacza to, że dana obserwacja ne pasuje do regresj. Musmy sprawdzć wartość tzw. standaryzowanych reszt. 3
D. Cołek EKONOMETRIA wykład 5 Standaryzowane reszty Reszty są korygowane tak, aby były zgodne ze standardowym rozkładem normalnym. Trudność polega na tym, że dostosowane ne zawsze jest możlwe. Znormalzowane reszty to reszty skorygowane według nnej formuły, która w przyblżenu spełna założene o standaryzowanym rozkładze normalnym. Znormalzowane reszty można oblczyć jako: u~ s uˆ h N k gdze s to średn błąd kwadratowy w modelu regresj. ~ t Dla regresj netypowych: ~ 2 u 32
D. Cołek EKONOMETRIA wykład 5 Wartośc standaryzowanych reszt Jednakże, jeżel składnk losowe mają rozkład normalny wtedy statystyczne rzecz borąc około 5% obserwacj może meć znormalzowane reszty o wartośc powyżej 2. Musmy zwracać szczególną uwagę na obserwacje, które jednocześne mają wysoką wartość leverage oraz wysoką wartość standaryzowanej reszty są to netypowe obserwacje wpływowe. 33
D. Cołek EKONOMETRIA wykład 5 Odległość Cooka Merzy wpływ pojedynczej obserwacj na oszacowane regresj. Sprawdza efekt usunęca danej obserwacj z estymacj. Wskazuje te obserwacje, które wymagają sprawdzena, czy są błędne, czy też wymagają wprowadzena dodatkowych zmennych zerojedynkowych. Formuła: 2 uˆ h CD 2 2 s ( k ) h gdze h jest wartoścą leverage a s to średn kwadratowy błąd modelu, k lczba zmennych objaśnających w modelu. Neformalna reguła wskazuje, że obserwacjam wymagającym specjalnej uwag są te o wartośc: 4 CD N 34