Analizowane modele Dwa modele: y = X 1 β 1 + u (1) Będziemy analizować dwie sytuacje: y = X 1 β 1 + X 2 β 2 + ε (2) zmienne pominięte: estymujemy model (1) a w rzeczywistości β 2 0 zmienne nieistotne: stymujemy model (2) a w rzeczywistości β 2 = 0. Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 1
Problem zmiennych pominiętych ma znacznie gorsze konsekwencje niż problem zmiennych nieistotnych Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 2
Zmienne pominięte. Przykład Przeprowadzono badanie skuteczności leku. Grupę chorych podzielono losowo na grupę, która podano lek i grupę kontrolna, której podano placebo. Następnie mierzono jaki procent chorych w obu grupach wyzdrowiał. Wiadomo, że wpływ na wyzdrowienie ma wiele dodatkowych charakterystyk pacjenta, takich jak na przykład wiek. Czy tak zaprojektowane badanie da właściwe oszacowanie wpływu leku na stan chorych, skoro pominięto te dodatkowe charakterystyki? Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 3
Odpowiedź: Tak, ponieważ dla próby dobranej losowo nie ma korelacji między zmiennymi uwzględnionymi w modelu i charakterystykami pacjenta, to jest Σ X1 X 2 = 0. Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 4
Przykład Korelacja między logarytmem płacy i numerem ankietera Wynik regresji ------------------------------------------------------------------------------ lognetpay Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- ANKR.0016346.0000989 16.53 0.000.0014408.0018284 _cons 5.557534.0042232 1315.95 0.000 5.549256 5.565812 ------------------------------------------------------------------------------ Dodajmy jednak do modelu zmienne zerojedynkowe zwiazane z numerem województwa i wielkościa miasta Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 5
Cześć tablicy z wynikami regresji ------------------------------------------------------------------------------ lognetpay Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- ANKR -.0002166.0001482-1.46 0.144 -.0005071.0000738 _IWOJ1_3 -.1495124.0428622-3.49 0.000 -.2335268 -.0654981... _IWOJ1_97 -.1219227.0275238-4.43 0.000 -.1758722 -.0679731 _ITOWN2_1 -.0789742.019422-4.07 0.000 -.1170433 -.040905... _ITOWN2_9 -.2471119.0166571-14.84 0.000 -.2797616 -.2144623 _cons 5.90414.0154814 381.37 0.000 5.873795 5.934485 ------------------------------------------------------------------------------ Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 6
Zmienna zwiazana z numerem ankietera jest teraz nieistotna! Powód: korelacja między numerami województw i wielkościami miast (pominiętych w orginalnym modelu) i numerem ankietera. Rzeczywiście regresja numeru ankietera na numerach województw i wielkościa miast daje R-squared = 0.5861 Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 7
Kierunek obciażenia ) E ( β1 = β 1 + β 2 s x2 s x1 ρ x1 x 2 zmienna pominięta x 2 skorelowana dodatnio z x 1, współczynnik β 2 dodatni - współczynnik przy x 1 będzie przeszacowany zmienna pominięta x 2 skorelowana dodatnio x 1, współczynnik β 2 ujemny - współczynnik przy x 1 będzie niedoszacowany zmienna pominięta x 2 skorelowana ujemnie x 1, współczynnik β 2 dodatni - współczynnik przy x 1 będzie niedoszacowany zmienna pominięta x 2 skorelowana ujemnie x 1, współczynnik β 2 ujemny - współczynnik przy x 1 będzie przeszacowany Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 8
Wnioski te używa się także (niecałkiem poprawnie) w odniesieniu do modeli z wieloma zmiennymi, w przypadku, kiedy pominięta zmienna skorelowana jest z jedna zmienna, która uwzględniona została w modelu. Przykład Zbudowano prosty model liniowy, w którym zmienna objaśniana była stopa przyrostu naturalnego na określonym terenie a zmienna objaśniajac a ilość bocianów zamieszkujacych na tym terenie. Stwierdzono, że ilość bocianów istotnie wpływa na ilość rodzacych się dzieci. Czyżby istotnie bociany przynosiły dzieci? Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 9
Odpowiedź: W Polsce znacznie wyższy przyrost naturalny odnotowuje się na wsi niż w mieście (β 2 > 0). Na wsi mieszka też znacznie więcej bocianów (ρ x1 x 2 > 0). W modelu pominięto ważna zmienna zwiazan a z tym, czy dany teren jest w dominujacej części terenem wiejskim czy miejskim. Dodatnie oszacowanie przy zmiennej bociany jest najprawdopodobniej s wynikiem obciażenia estymatora (E (b 1 ) = β 1 + β x2 2 s x1 ρ x1 x 2 > 0 nawet jeśli β 1 = 0). Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 10
Przykład Staż i wiek Zależność płacy od stażu ------------------------------------------------------------------------------ lplaca Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- staz.0113283.0006278 18.04 0.000.0100975.012559 _cons 7.36974.0133627 551.52 0.000 7.343544 7.395935 ------------------------------------------------------------------------------ Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 11
Zależność od stażu i wieku ------------------------------------------------------------------------------ lplaca Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- staz.0058233.0014101 4.13 0.000.003059.0085877 wiek.0064003.0014685 4.36 0.000.0035214.0092791 _cons 7.214572.0380217 189.75 0.000 7.140037 7.289107 ------------------------------------------------------------------------------ Współczynnik przy stażu znacznie niższy Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 12
Zmienne nieistotne Problem zmiennych nieistotnych: β 2 = 0. estymujemy model (2) a Ustaliliśmy wtedy, że dla prawdziwych ograniczeń postaci Hβ = h, estymator z ograniczeniami jest nieobciażony i ma mniejsza wariancję od estymatora bez ograniczeń. Wynika z tego, że jeśli prawdziwe jest ograniczenie β 2 = 0 (prawdziwy jest model 1) a my w trakcie estymacji nie uwzględnimy tego ograniczenia (estymujemy model 2), to Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 13
uzyskany estymator będzie co prawda nieobciażony ale będzie też nieefektywny. Wniosek: W modelu, w którym występuja zmienne nieistotne estymator M N K jest estymatorem nieefektywnym, ponieważ jego wariancja jest wyższa niż estymatora w modelu bez zmienych nieistotnych Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 14
Obserwacje nietypowe i błędne (outliers) Możemy natknać się na dwa przypadki: obserwacja jest nietypowa na tle pozostałych obserwacji (obserwacja nietypowa) obserwacja jest błędna Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 15
Obserwacja nietypowa x t Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 16
Obserwacja nietypowa y t Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 16
Obserwacja nietypowa y x Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 16
Obserwacja błędna (outlier) x t Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 17
Obserwacja błędna (outlier) y t Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 17
Obserwacja błędna (outlier) y x Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 17
Wpływ obserwacji nietypowych i outlierów na wynik regresji jest całkowicie przeciwny: Obserwacja nietypowa może pozytywnie wpłynać na: dokładność oszacowania β dopasowanie modelu Outlier negatywnie wpłyna na dokładność oszacowania β dopasowanie modelu Przykład Dostaliśmy za zadanie porównanie rentowności dwóch typów kontraktów: A i B. Dysponujemy następujacymi 10 danymi historycznymi dotyczacymi stóp zwrotu (IRR) dla kontraktu Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 18
A: {10, 8, 8, 9, 11, 10, 8, 9, 11, 10} B: {16, 15, 18, 17, 16, 80, 17, 16, 16, 17}. Zwraca uwagę jedna nietypowa ujemna obserwacja dla kontraktu B (dotyczy ona dłużnika, który zbankrutował), czy obserwację tę można pominać? Zdefiniujmy zmienna zerojedynkowa B przyjmujac a wartość 1 dla kontraktów z grupy B. Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 19
Wynik regresji z pominięta jedna obserwacja: ------------------------------------------------------------------------------ IRR Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- _IB_1 7.155556.4808912 14.88 0.000 6.140964 8.170147 _cons 9.4.330972 28.40 0.000 8.70171 10.09829 ------------------------------------------------------------------------------ Wynik regresji z uwględnionymi wszystkimi obserwacjami ------------------------------------------------------------------------------ IRR Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- _IB_1-3.5 10.66526-0.33 0.747-25.90688 18.90688 _cons 9.4 7.541478 1.25 0.229-6.444057 25.24406 ------------------------------------------------------------------------------ Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 20
Do stwierdzenia, czy x i jest nietypowe na tle pozostałych x można wykorzystać statystykę dźwigni (levarege) h i h i = δ ix ( X X ) 1 X δ i = δ ip X δ i = (P X ) ii = x i ( X X ) 1 x i gdzie δ i = [0,..., 0, 1, 0..., 0] a P X = X ( X X ) 1 X. Własności dźwigni: Dla każdego modelu 0 h i 1 Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 21
Dla modelu ze stała 1 n h i 1 Obserwacja może zostać uznana za nietypowa jeśli h i > 2k n To, że obserwacja x i jest nietypowa na tle x jednak nic nie mówi na temat tego, czy obserwacja ta dobrze pasuje do modelu. Wariancja wektora reszt jest równa: Var (e) = Var (M X ε) = M X ( Iσ 2 ) M X = σ 2 M X Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 22
W zwiazku z tym pojdeyncza reszta ma wariancję równa Var (e i ) = Var ( δ ie ) = σ 2 δ im X δ i = σ 2 ( 1 δ ip X δ i ) = σ 2 (1 h i ) A więc wystandaryzowane reszta ma wzór ê i = e i Var (ei ) = e i s 1 h i e i σ 1 h i Szczególnie duże będa wystandaryzowane reszty dla obserwacji, dla których duże jest e i i h i Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 23
Miara różnicy między ŷ uzyskiwanymi z pełnej próby i ŷ (i) uzyskiwanymi z próby powstałej po usunięciu i-tej obserwacji jest odległościa Cooka: (ŷ ŷ (i) ) (ŷ ŷ (i) ) CD i = Ks 2 = ê2 i K h i 1 h i Należy sprawdzić te obserwacje dla których CD i szczególnie te, dla których CD i > 1. > 0.5 a Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 24
Przykład Zależność wydatków na mieszkanie od dochodu Wynik regresji dla 4111 obserwacji ------------------------------------------------------------------------------ lq Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- linc.4087146.0139339 29.33 0.000.3813966.4360326 _cons 2.768599.106037 26.11 0.000 2.560709 2.976488 ------------------------------------------------------------------------------ Liczba ê > 2 równa 217 a więc około 5% Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 25
Tablica uporzadkowana dla 5 największych dźwigni +------------------------------------------------------+ q inc r2st lev cook ------------------------------------------------------ 375.9 16 3.582841.0140365.0911117 414.84 23 3.4911.0120339.0740249 400 47 2.904768.0085492.036313 132.35 78.9.5826743.0064039.0010943 370.68 118 2.103206.0049578.0110109 Tablica uporzadkowana dla 5 największych odległości Cooka +------------------------------------------------------+ q inc r2st lev cook ------------------------------------------------------ 3.67 16150-9.631348.0028882.1314109 375.9 16 3.582841.0140365.0911117 414.84 23 3.4911.0120339.0740249 400 47 2.904768.0085492.036313 2.72 780-7.928539.0007519.0233001 Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 26
Dla wszystkich obserwacji mamy q > inc co jest rzeczywiście nietypowe Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 27
Wykres standaryzowanych kwadratów standaryzownych reszt i dźwigni Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 28
Prównanie wyników regresji orginalnej i tej z usuniętymi obserwacjami, dla których q > inc Wykład z Ekonometrii nr 12, III rok, WNE UW, Copyright c 2006 by Jerzy Mycielski 29