Analizowane modele. Dwa modele: y = X 1 β 1 + u (1) y = X 1 β 1 + X 2 β 2 + ε (2) Będziemy analizować dwie sytuacje:

Podobne dokumenty
Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Problem równoczesności w MNK

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Metoda najmniejszych kwadratów

Autokorelacja i heteroskedastyczność

Egzamin z ekonometrii wersja IiE, MSEMat Pytania teoretyczne

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Egzamin z ekonometrii - wersja ogólna

Heteroskedastyczość w szeregach czasowyh

1.5 Problemy ze zbiorem danych

, a reszta dla pominiętej obserwacji wynosi 0, RSS jest stałe, T SS rośnie, więc zarówno R 2 jak i R2 rosną. R 2 = 1 n 1 n. rosnie. n 2 (1 R2 ) = 1 59

Ekonometria dla IiE i MSEMat Z12

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Modele wielorównaniowe (forma strukturalna)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Ekonometria egzamin 07/03/2018

Testowanie hipotez statystycznych

Metoda Monte Carlo. Jerzy Mycielski. grudzien Jerzy Mycielski () Metoda Monte Carlo grudzien / 10

Czasowy wymiar danych

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Egzamin z ekonometrii wersja IiE, MSEMAT

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18

1.6 Zmienne jakościowe i dyskretne w modelu regresji

Ekonometria egzamin 31/01/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08

1.9 Czasowy wymiar danych

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Egzamin z ekonometrii wersja ogolna

MODELE LINIOWE. Dr Wioleta Drobik

Definicja danych panelowych Typy danych panelowych Modele dla danych panelowych. Dane panelowe. Część 1. Dane panelowe

Stanisław Cichocki. Natalia Nehrebecka

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Ekonometria dla IiE i MSEMat Z7

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Stanisław Cichocki. Natalia Nehrebecka

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Egzamin z ekonometrii wersja IiE, MSEMAT

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Zawansowane modele wyborów dyskretnych

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria egzamin wersja ogólna 17/06/08

Metoda najmniejszych kwadratów

Ekonometria egzamin wersja ogólna 29/01/08

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Statystyczna analiza danych

Modelowanie rynków finansowych

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

1 Modele ADL - interpretacja współczynników

Stanisław Cichocki. Natalia Nehrebecka

1.7 Ograniczenia nakładane na równanie regresji

1.3 Własności statystyczne estymatorów MNK

Natalia Neherbecka. 11 czerwca 2010

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

2.2 Autokorelacja Wprowadzenie

Budowa modelu i testowanie hipotez

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Stosowana Analiza Regresji

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Statystyka w przykładach

1.1 Klasyczny Model Regresji Liniowej

1 Metoda Najmniejszych Kwadratów (MNK) 2 Interpretacja parametrów modelu. 3 Klasyczny Model Regresji Liniowej (KMRL)

Zmienne sztuczne i jakościowe

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Stosowana Analiza Regresji

Wprowadzenie Model ARMA Sezonowość Prognozowanie Model regresji z błędami ARMA. Modele ARMA

Binarne zmienne zależne

Value at Risk (VaR) Jerzy Mycielski WNE. Jerzy Mycielski (Institute) Value at Risk (VaR) / 16

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Prawdopodobieństwo i statystyka

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Stanisław Cichocki. Natalia Nehrebecka

Natalia Nehrebecka Stanisław Cichocki. Wykład 6

Statystyka i Analiza Danych

Egzamin z ekonometrii wersja IiE, MSEMAT

Egzamin z ekonometrii

Ekonometria Ćwiczenia 19/01/05

Metody Ekonometryczne

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

Rozdział 8. Regresja. Definiowanie modelu

Stanisław Cichocki. Natalia Nehrebecka

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

dr hab. Renata Karkowska 1

Transkrypt:

Analizowane modele Dwa modele: y = X 1 β 1 + u (1) Będziemy analizować dwie sytuacje: y = X 1 β 1 + X 2 β 2 + ε (2) zmienne pominięte: estymujemy model (1) a w rzeczywistości β 2 0 zmienne nieistotne: stymujemy model (2) a w rzeczywistości β 2 = 0. Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 1

Problem zmiennych pominiętych ma znacznie gorsze konsekwencje niż problem zmiennych nieistotnych Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 2

Zmienne pominięte. Przykład Przeprowadzono badanie skuteczności leku. Grupę chorych podzielono losowo na grupę, która podano lek i grupę kontrolna, której podano placebo. Następnie mierzono jaki procent chorych w obu grupach wyzdrowiał. Wiadomo, że wpływ na wyzdrowienie ma wiele dodatkowych charakterystyk pacjenta, takich jak na przykład wiek. Czy tak zaprojektowane badanie da właściwe oszacowanie wpływu leku na stan chorych, skoro pominięto te dodatkowe charakterystyki? Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 3

Odpowiedź: Tak, ponieważ dla próby dobranej losowo nie ma korelacji między zmiennymi uwzględnionymi w modelu i charakterystykami pacjenta, to jest Σ X1 X 2 = 0. Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 4

Przykład Korelacja między logarytmem płacy i numerem ankietera Wynik regresji ------------------------------------------------------------------------------ lognetpay Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- ANKR.0016346.0000989 16.53 0.000.0014408.0018284 _cons 5.557534.0042232 1315.95 0.000 5.549256 5.565812 ------------------------------------------------------------------------------ Dodajmy jednak do modelu zmienne zerojedynkowe zwiazane z numerem województwa i wielkościa miasta Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 5

Cześć tablicy z wynikami regresji ------------------------------------------------------------------------------ lognetpay Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- ANKR -.0002166.0001482-1.46 0.144 -.0005071.0000738 _IWOJ1_3 -.1495124.0428622-3.49 0.000 -.2335268 -.0654981... _IWOJ1_97 -.1219227.0275238-4.43 0.000 -.1758722 -.0679731 _ITOWN2_1 -.0789742.019422-4.07 0.000 -.1170433 -.040905... _ITOWN2_9 -.2471119.0166571-14.84 0.000 -.2797616 -.2144623 _cons 5.90414.0154814 381.37 0.000 5.873795 5.934485 ------------------------------------------------------------------------------ Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 6

Zmienna zwiazana z numerem ankietera jest teraz nieistotna! Powód: korelacja między numerami województw i wielkościami miast (pominiętych w orginalnym modelu) i numerem ankietera. Rzeczywiście regresja numeru ankietera na numerach województw i wielkościa miast daje R-squared = 0.5861 Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 7

Kierunek obciażenia ) E ( β1 = β 1 + β 2 s x2 s x1 ρ x1 x 2 zmienna pominięta x 2 skorelowana dodatnio z x 1, współczynnik β 2 dodatni - współczynnik przy x 1 będzie przeszacowany zmienna pominięta x 2 skorelowana dodatnio x 1, współczynnik β 2 ujemny - współczynnik przy x 1 będzie niedoszacowany zmienna pominięta x 2 skorelowana ujemnie x 1, współczynnik β 2 dodatni - współczynnik przy x 1 będzie niedoszacowany zmienna pominięta x 2 skorelowana ujemnie x 1, współczynnik β 2 ujemny - współczynnik przy x 1 będzie przeszacowany Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 8

Wnioski te używa się także (niecałkiem poprawnie) w odniesieniu do modeli z wieloma zmiennymi, w przypadku, kiedy pominięta zmienna skorelowana jest z jedna zmienna, która uwzględniona została w modelu. Przykład Zbudowano prosty model liniowy, w którym zmienna objaśniana była stopa przyrostu naturalnego na określonym terenie a zmienna objaśniajac a ilość bocianów zamieszkujacych na tym terenie. Stwierdzono, że ilość bocianów istotnie wpływa na ilość rodzacych się dzieci. Czyżby istotnie bociany przynosiły dzieci? Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 9

Odpowiedź: W Polsce znacznie wyższy przyrost naturalny odnotowuje się na wsi niż w mieście (β 2 > 0). Na wsi mieszka też znacznie więcej bocianów (ρ x1 x 2 > 0). W modelu pominięto ważna zmienna zwiazan a z tym, czy dany teren jest w dominujacej części terenem wiejskim czy miejskim. Dodatnie oszacowanie przy zmiennej bociany jest najprawdopodobniej s wynikiem obciażenia estymatora (E (b 1 ) = β 1 + β x2 2 s x1 ρ x1 x 2 > 0 nawet jeśli β 1 = 0). Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 10

Przykład Staż i wiek Zależność płacy od stażu ------------------------------------------------------------------------------ lplaca Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- staz.0113283.0006278 18.04 0.000.0100975.012559 _cons 7.36974.0133627 551.52 0.000 7.343544 7.395935 ------------------------------------------------------------------------------ Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 11

Zależność od stażu i wieku ------------------------------------------------------------------------------ lplaca Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- staz.0058233.0014101 4.13 0.000.003059.0085877 wiek.0064003.0014685 4.36 0.000.0035214.0092791 _cons 7.214572.0380217 189.75 0.000 7.140037 7.289107 ------------------------------------------------------------------------------ Współczynnik przy stażu znacznie niższy Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 12

Zmienne nieistotne Problem zmiennych nieistotnych: β 2 = 0. estymujemy model (2) a Ustaliliśmy wtedy, że dla prawdziwych ograniczeń postaci Hβ = h, estymator z ograniczeniami jest nieobciażony i ma mniejsza wariancję od estymatora bez ograniczeń. Wynika z tego, że jeśli prawdziwe jest ograniczenie β 2 = 0 (prawdziwy jest model 1) a my w trakcie estymacji nie uwzględnimy tego ograniczenia (estymujemy model 2), to Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 13

uzyskany estymator będzie co prawda nieobciażony ale będzie też nieefektywny. Wniosek: W modelu, w którym występuja zmienne nieistotne estymator M N K jest estymatorem nieefektywnym, ponieważ jego wariancja jest wyższa niż estymatora w modelu bez zmienych nieistotnych Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 14

Obserwacje nietypowe i błędne (outliers) Możemy natknać się na dwa przypadki: obserwacja jest nietypowa na tle pozostałych obserwacji (obserwacja nietypowa) obserwacja jest błędna Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 15

Obserwacja nietypowa x t Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 16

Obserwacja nietypowa y t Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 16

Obserwacja nietypowa y x Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 16

Obserwacja błędna (outlier) x t Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 17

Obserwacja błędna (outlier) y t Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 17

Obserwacja błędna (outlier) y x Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 17

Wpływ obserwacji nietypowych i outlierów na wynik regresji jest całkowicie przeciwny: Obserwacja nietypowa może pozytywnie wpłynać na: dokładność oszacowania β dopasowanie modelu Outlier negatywnie wpłyna na dokładność oszacowania β dopasowanie modelu Przykład Dostaliśmy za zadanie porównanie rentowności dwóch typów kontraktów: A i B. Dysponujemy następujacymi 10 danymi historycznymi dotyczacymi stóp zwrotu (IRR) dla kontraktu Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 18

A: {10, 8, 8, 9, 11, 10, 8, 9, 11, 10} B: {16, 15, 18, 17, 16, 80, 17, 16, 16, 17}. Zwraca uwagę jedna nietypowa ujemna obserwacja dla kontraktu B (dotyczy ona dłużnika, który zbankrutował), czy obserwację tę można pominać? Zdefiniujmy zmienna zerojedynkowa B przyjmujac a wartość 1 dla kontraktów z grupy B. Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 19

Wynik regresji z pominięta jedna obserwacja: ------------------------------------------------------------------------------ IRR Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- _IB_1 7.155556.4808912 14.88 0.000 6.140964 8.170147 _cons 9.4.330972 28.40 0.000 8.70171 10.09829 ------------------------------------------------------------------------------ Wynik regresji z uwględnionymi wszystkimi obserwacjami ------------------------------------------------------------------------------ IRR Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- _IB_1-3.5 10.66526-0.33 0.747-25.90688 18.90688 _cons 9.4 7.541478 1.25 0.229-6.444057 25.24406 ------------------------------------------------------------------------------ Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 20

Do stwierdzenia, czy x i jest nietypowe na tle pozostałych x można wykorzystać statystykę dźwigni (levarege) h i h i = δ ix ( X X ) 1 X δ i = δ ip X δ i = (P X ) ii = x i ( X X ) 1 x i gdzie δ i = [0,..., 0, 1, 0..., 0] a P X = X ( X X ) 1 X. Własności dźwigni: Dla każdego modelu 0 h i 1 Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 21

Dla modelu ze stała 1 n h i 1 Obserwacja może zostać uznana za nietypowa jeśli h i > 2k n To, że obserwacja x i jest nietypowa na tle x jednak nic nie mówi na temat tego, czy obserwacja ta dobrze pasuje do modelu. Wariancja wektora reszt jest równa: Var (e) = Var (M X ε) = M X ( Iσ 2 ) M X = σ 2 M X Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 22

W zwiazku z tym pojdeyncza reszta ma wariancję równa Var (e i ) = Var ( δ ie ) = σ 2 δ im X δ i = σ 2 ( 1 δ ip X δ i ) = σ 2 (1 h i ) A więc wystandaryzowane reszta ma wzór ê i = e i Var (ei ) = e i s 1 h i e i σ 1 h i Szczególnie duże będa wystandaryzowane reszty dla obserwacji, dla których duże jest e i i h i Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 23

Miara różnicy między ŷ uzyskiwanymi z pełnej próby i ŷ (i) uzyskiwanymi z próby powstałej po usunięciu i-tej obserwacji jest odległościa Cooka: (ŷ ŷ (i) ) (ŷ ŷ (i) ) CD i = Ks 2 = ê2 i K h i 1 h i Należy sprawdzić te obserwacje dla których CD i szczególnie te, dla których CD i > 1. > 0.5 a Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 24

Przykład Zależność wydatków na mieszkanie od dochodu Wynik regresji dla 4111 obserwacji ------------------------------------------------------------------------------ lq Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- linc.4087146.0139339 29.33 0.000.3813966.4360326 _cons 2.768599.106037 26.11 0.000 2.560709 2.976488 ------------------------------------------------------------------------------ Liczba ê > 2 równa 217 a więc około 5% Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 25

Tablica uporzadkowana dla 5 największych dźwigni +------------------------------------------------------+ q inc r2st lev cook ------------------------------------------------------ 375.9 16 3.582841.0140365.0911117 414.84 23 3.4911.0120339.0740249 400 47 2.904768.0085492.036313 132.35 78.9.5826743.0064039.0010943 370.68 118 2.103206.0049578.0110109 Tablica uporzadkowana dla 5 największych odległości Cooka +------------------------------------------------------+ q inc r2st lev cook ------------------------------------------------------ 3.67 16150-9.631348.0028882.1314109 375.9 16 3.582841.0140365.0911117 414.84 23 3.4911.0120339.0740249 400 47 2.904768.0085492.036313 2.72 780-7.928539.0007519.0233001 Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 26

Dla wszystkich obserwacji mamy q > inc co jest rzeczywiście nietypowe Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 27

Wykres standaryzowanych kwadratów standaryzownych reszt i dźwigni Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 28

Prównanie wyników regresji orginalnej i tej z usuniętymi obserwacjami, dla których q > inc Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 29