1.5 Problemy ze zbiorem danych

Podobne dokumenty
Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Ekonometria egzamin 07/03/2018

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Metoda najmniejszych kwadratów

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Analizowane modele. Dwa modele: y = X 1 β 1 + u (1) y = X 1 β 1 + X 2 β 2 + ε (2) Będziemy analizować dwie sytuacje:

Ekonometria Ćwiczenia 19/01/05

Testowanie hipotez statystycznych

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Egzamin z ekonometrii wersja IiE, MSEMat Pytania teoretyczne

Modele wielorównaniowe (forma strukturalna)

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

1 Modele ADL - interpretacja współczynników

, a reszta dla pominiętej obserwacji wynosi 0, RSS jest stałe, T SS rośnie, więc zarówno R 2 jak i R2 rosną. R 2 = 1 n 1 n. rosnie. n 2 (1 R2 ) = 1 59

1.9 Czasowy wymiar danych

Egzamin z ekonometrii wersja IiE, MSEMAT

Czasowy wymiar danych

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Egzamin z ekonometrii - wersja ogólna

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Egzamin z ekonometrii wersja IiE, MSEMAT

Problem równoczesności w MNK

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Diagnostyka w Pakiecie Stata

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

1.7 Ograniczenia nakładane na równanie regresji

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Ekonometria dla IiE i MSEMat Z12

Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Budowa modelu i testowanie hipotez

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria egzamin 31/01/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Stanisław Cichocki. Natalia Nehrebecka

Definicja danych panelowych Typy danych panelowych Modele dla danych panelowych. Dane panelowe. Część 1. Dane panelowe

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Diagnostyka w Pakiecie Stata

Autokorelacja i heteroskedastyczność

Egzamin z ekonometrii wersja ogolna

1.6 Zmienne jakościowe i dyskretne w modelu regresji

Testowanie hipotez statystycznych

Egzamin z ekonometrii wersja IiE, MSEMAT

Ekonometria egzamin wersja Informatyka i Ekonometria 29/01/08

1.1 Klasyczny Model Regresji Liniowej

Ekonometria egzamin wersja ogólna 17/06/08

Rozdział 8. Regresja. Definiowanie modelu

Testowanie hipotez statystycznych

1.3 Własności statystyczne estymatorów MNK

Analiza regresji - weryfikacja założeń

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Testowanie hipotez statystycznych

Stanisław Cichocki. Natalia Nehrebecka

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

Wprowadzenie do analizy korelacji i regresji

MODELE LINIOWE. Dr Wioleta Drobik

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

5. Model sezonowości i autoregresji zmiennej prognozowanej

Metody Ilościowe w Socjologii

Wprowadzenie Model ARMA Sezonowość Prognozowanie Model regresji z błędami ARMA. Modele ARMA

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

1.8 Diagnostyka modelu

Natalia Neherbecka. 11 czerwca 2010

Zmienne Binarne w Pakiecie Stata

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Ekonometria I Weryfikacja: współliniowość i normalność. Dr Michał Gradzewicz Szkoła Główna Handlowa w Warszawie

Ćwiczenia IV

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Modele warunkowej heteroscedastyczności

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Ekonometria egzamin wersja ogólna 29/01/08

Stanisław Cichocki. Natalia Nehrebecka

Heteroskedastyczość w szeregach czasowyh

1 Metoda Najmniejszych Kwadratów (MNK) 2 Interpretacja parametrów modelu. 3 Klasyczny Model Regresji Liniowej (KMRL)

Stanisław Cichocki. Natalia Nehrebecka

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Proces modelowania zjawiska handlu zagranicznego towarami

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Weryfikacja hipotez statystycznych

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Stosowana Analiza Regresji

Ekonometria dla IiE i MSEMat Z7

Transkrypt:

1.5 Problemy ze zbiorem danych W praktyce ekonometrycznej bardzo rzadko spełnione są wszystkie założenia klasycznego modelu regresji liniowej. Częstym przypadkiem jest, że zbiór danych którymi dysponujemy posiada pewne niepożądane cechy. 1.5.1 Współliniowość Zgodnie z założeniami Klasycznego Modelu Regresji Liniowej (KMRL) zmienne objaśniające w modelu powinny być skorelowane ze zmienną objaśnianą i nieskorelowane między sobą. Ale rzeczywiste dane zawsze są w pewnym stopniu skorelowane, więc regresory są współliniowe. Rozpatrzmy prosty model z jedną zmienną objaśnianą y oraz dwiema zmiennymi objaśniającymi (x 1, x 2 ). Zgodnie z założeniami KMRL powinny zachodzić następujące zależności: cov(y, x 1 ) 0 cov(y, x 2 ) 0 cov(x 1, x 2 ) = 0 Jest to sytuacja idealna, która z reguły nie występuje gdy obserwacje nie są danymi eksperymentalnymi. Wariancję każdego z esytmatorów modelu można zapisać jako: var(b j ) = σ 2 (1 r 2 12) n i=1 (x i,j x j ) 2 = σ2 (1 r 2 12)S jj (1) Jeśli zmienne objaśniające modelu są silnie skorelowane (korelacja=1) to wariancja estymatora dąży do nieskończoności. Liniowa zależność między regresorami nie jest błędem zbioru danych, jest błędem powstałym podczas tworzenia modelu. Częściej dochodzi do sytuacji, w której występuje wysoka korelacja między zmiennymi objaśniającymi, ale nie jest to dokładna zależność liniowa. W takim przypadku są spełnione założenia KMRL, ale występują następujące problemy: 1. niewielkie zmiany w zbiorze danych powodują duże zmiany w otrzymywanych estymatorach. 2. współczynniki równania regresji mają duże błędy standardowe, oraz mogą być nieistotne statystycznie, nawet gdy łącznie są istotne, a współczynnik R 2 modelu jest wysoki 3. współczynniki równania regresji mają złe, czyli niezgodne z teorią znaki, albo są zbyt małe lub zbyt duże. 20

Można uogólnić równanie (1) do przypadku wielu zmiennych objaśniających. Niech (x 1, x 2,..., x k ) będzie wektorem zmiennych objaśniających. Jeżeli przez Rk. 2 oznaczymy współczynnik regresji k-tego regresora na pozostałe, to wariancję estymatora b k możemy zapisać jako: var(b j ) = σ 2 (1 r 2 j. ) n i=1 (x i,j x j ) 2 (2) Z powyższego wzoru wynika, że wariancja estymatora parametru β j rośnie wraz ze skorelowaniem j-tego regresora z pozostałymi, a maleje z wariancją j-tej zmiennej. Pakiet STATA wylicza statystykę nazwaną Variance Inflation Factor (VIF). Jest to prosty test oparty na statystyce R 2. V IF = 1 1 r 2 j. (3) Mierzy on jaka część wariancji estymatora jest powodowana przez to, że zmienna j nie jest ortogonalna względem pozostałych zmiennych objaśniających w modelu regresji. W praktycznych zastosowaniach współliniowość trudno jest odróżnić od innych problemów występujących w modelu. Podobne objawy do współliniowości mogą występować gdy w próbie którą dysponujemy jest mała liczba obserwacji lub zachodzi mała zmienność regresorów. Przykład. Dane pochodzą z artykułu Longleya (1967). Celem artykułu była analiza dokładności procedur obliczających estymatory metodą MNK. Dane te są tak skonstruowane, że występuje w nich problem współliniowości. Jest to model wyjaśniający poziom zatrudnienia za pomocą roku year, deflatora produktu narodowego brutto gnp def, produktu narodowego brutto gnp, oraz zatrudnienia w armii armed forces. Obserwacje pochodzą z lat 1947-1962 i dotyczą gospodarki USA.. reg employment year gnp_def gnp armed_forces Source SS df MS Number of obs = 16 -------------+------------------------------ F( 4, 11) = 101.11 Model 180110100 4 45027525 Prob > F = 0.0000 Residual 4898726.13 11 445338.739 R-squared = 0.9735 -------------+------------------------------ Adj R-squared = 0.9639 21

Total 185008826 15 12333921.7 Root MSE = 667.34 ------------------------------------------------------------------------ employment Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------- year -576.4642 433.4875-1.33 0.210-1530.564 377.6353 gnp_def -19.76811 138.8927-0.14 0.889-325.469 285.9328 gnp.064394.0199519 3.23 0.008.0204802.1083078 armed_forces -.0101452.3085695-0.03 0.974 -.689302.6690116 _cons 1169087 835902.5 1.40 0.189-670721.5 3008896 ------------------------------------------------------------------------ Gdy pominiemy obserwację z ostatniego roku otrzymamy następujące wyniki:. reg employment year gnp_def gnp armed_forces if year<1962 Source SS df MS Number of obs = 15 -------------+------------------------------ F( 4, 10) = 120.99 Model 152633988 4 38158496.9 Prob > F = 0.0000 Residual 3153765.27 10 315376.527 R-squared = 0.9798 -------------+------------------------------ Adj R-squared = 0.9717 Total 155787753 14 11127696.6 Root MSE = 561.58 ------------------------------------------------------------------------ employment Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------- year -721.7562 369.985-1.95 0.080-1546.134 102.6218 gnp_def -181.1226 135.5249-1.34 0.211-483.0908 120.8456 gnp.0910677.0202608 4.49 0.001.0459239.1362116 armed_forces -.0749372.2611272-0.29 0.780 -.6567649.5068905 _cons 1459415 714183.1 2.04 0.068-131883.9 3050714 ------------------------------------------------------------------------ Jak wyraźnie widać z porównania wyników estymacji obu modelu opuszczenie jednej obserwacji powoduje zmianę współczynnika przy zmiennej gdp def o ponad 800% a przy zmiennej armed forces o ponad 600%. Jeżeli policzymy statystyki VIF dla obu modeli to przekonamy się, że wskazują one na znaczną współliniowość zmiennych.. vif Variable VIF model 1 VIF model 2 -------------+--------------------------- year 143.46 154.08 gnp 132.46 121.53 gnp_def 75.67 87.35 armed_forces 1.55 1.56 22

-------------+--------------------------- Mean VIF 88.29 91.13 Na podstawie wyników testu VIF jedynie zmienną armed forces możemy uznać za nieskorelowaną z pozostałymi. Spójrzmy jeszcze na tablicę korelacji między zmiennymi. corr employment year gnp_def gnp armed_forces (obs=16) employ~t year gnp_def gnp armed_~s -------------+--------------------------------------------- employment 1.0000 year 0.9713 1.0000 gnp_def 0.9709 0.9911 1.0000 gnp 0.9836 0.9953 0.9916 1.0000 armed_forces 0.4573 0.4172 0.4647 0.4464 1.0000 i tablice wariancji-kowariancji estymatorów modelu. Wariancje i kowariancje są znormalizowane do współczynników korelacji.. vce, corr year gnp_def gnp armed_~s _cons -------------+--------------------------------------------- year 1.0000 gnp_def -0.2776 1.0000 gnp -0.6950-0.4922 1.0000 armed_forces 0.4166-0.2303-0.2420 1.0000 _cons -0.9999 0.2674 0.7025-0.4157 1.0000 Jak widać estymator parametru przy zmiennej gnp jest silnie skorelowany z estymatorem przy zmienniej year i ze stałą modelu. Walka ze współliniowością w modelu jest trudna. Najprostszym sposobem jest zwiększenie liczby obserwacji w modelu. Zmienne które są współliniowe na zbiorze K obserwacji nie muszą być współliniowe na zbiorze K + T obserwacji, bowiem współliniowość w małej próbie może mieć charakter czysto losowy. Innym sposobem, często używanym w praktyce ekonometrycznej, jest wyrzucenie zmiennych, które podejrzewamy o powodowanie współliniowości w modelu. Jest to równoznaczne z przyjęciem założenia, że pomijana zmienna nie ma wpływu na badane zjawisko ekonomiczne. Takie działanie może spowodować problem błędnej specyfikacji modelu, który szczegółowo zostanie omówiony w niedalekiej przyszłości. Upraszczając jeżeli błędnie założymy o zmiennej, że nie występuje w modelu (współczynnik β = 0), a w rzeczywistości jest on statystycznie istotny β 0 to spowoduje to obciążenie pozostałych estymatorów. 23

Kolejnym sposobem jest regresja grzbietowa ridge regression. Do estymatora b dodajemy macierz diagonalną D. Zmodyfikowany estymator ma postać b = (X X + D) 1 X y. W ten sposób powstaje estymator obciążony, ale o mniejszej wariancji. 1.5.2 Obserwacje nietypowe i braki w obserwacjach Innym dość często występującym problemem zbiorów danych są obserwacje nietypowe lub braki w obserwacjach. Obserwacje nietypowe charakteryzują się dużą resztą czyli różnicą między wartością rzeczywistą a wartością teoretyczną wynikającą z modelu ekonometrycznego. Jest wiele powodów dla których zdarzają się braki. Najczęściej dotyczą one badań przekrojowych, w których osoby badane nie zawsze odpowiadają na wszystkie pytania. W szeregach czasowych danych może brakować ponieważ nie są zbierane w takich odstępach jak sobie życzymy, np. potrzebujemy danych miesięcznych a dostępne są jedynie kwartalne, lub nie zostały zebrane z przyczyn losowych (np. nie można określić PKB dla Polski za lata 1939-45 z powodu wojny). Gdy występują braki w danych trzeba stwierdzić czy ich niedostępność jest niezależna od sposobu badania i występuje z nieznanych powodów, czy może powstaje w skutek nieznanego systematycznego związku ze zjawiskiem które modelujemy. Pierwszy przypadek - nieznany powód braku w danych - jest prosty w analizie. W takim wypadku możemy zignorować braki i oszacować model na danych którymi dysponujemy. W drugim przypadku, gdy braki w danych powstają w wyniku samoselekcji - brak odpowiedzi jest powodowany przez czynniki inne od losowych - należy zastosować bardziej zaawansowane techniki estymacji. Na przykład jeśli badamy rozkład dochodów w społeczeństwie to wiemy, że ludzie dużo zarabiający niechętnie przyznają się do swoich dochodów. Dlatego w ankiecie zamieszcza się odpowiedź np. dochód 100.000 zł rocznie i wyższy, a prawdziwy rozkład ludzi o dochodach powyżej tej kwoty jest obliczany za pomocą specjalnego modelu z poprawką Heckmana. 1.5.3 Obserwacje wpływowe Nawet gdy jesteśmy pewni, że w modelu nie występuje problem współliniowości lub inny problem z danymi, warto jest zbadać właściwości zbioru danych. Identyfikacja obserwacji nietypowych może pomóc w lepszym dopasowaniu modelu. Jezeli taką obserwację wykluczymy ze zbioru danych, współczynniki dopasowania powinny się poprawić. Jest to szczególnie istotne gdy dysponujemy niewielkim zbiorem danych. Po drugie możemy przekonać się które obserwacje mają duży wpływ na wyniki regresji. Zarówno obserwacje 24

nietypowe jak i wpływowe powinniśmy usunąć ze zbioru danych, aczkolwiek niekiedy może to prowadzić do błędnego modelu. Diagnostyka obserwacji wpływowych dostarcza informacji o wiarygodności wniosków wyciąganych na podstawie oszacowanego modelu. Podstawowym narzędziem do wykrywania obserwacji wpływowych jest macierz rzutu P = X(X X) 1 X. Wielkość i-tego elementu tej macierzy jest miarą wpływu i-tej obserwacji. Bowiem: ŷ = P i,j y j Element z diagonali P i określa wpływ i-tej obserwacji na oszacowania parametrów modelu. Ponieważ macierz P jest idempotentna, elementy diagonalne są zawarte w przedziale [0,1]. Reguła kciuka mówi że jeżeli P ii > 0.5 to obserwację należy uznać za wpływową. Innym sposobem jest standaryzacja reszt modelu. Jeżeli każda resztę podzielimy przez jej odchylenie standardowe to otrzymamy statystykę wskazującą na wpływ obserwacji. ê i = e i se(e i ) Jeżeli ma ona wartość większą od 2 należy uznać ją za wpływową (Greene 2000, p. 61). Oczywiście przy spełnionym założeniu o normalności reszt ê i ma rozkład t-studenta z n Kstopniami swobody. Jednakże nie ma jednolitej praktyki postępowania z takimi obserwacjami. Korzystając z statystyki dźwigni i studentyzowanych reszt można utworzyć szereg statystyk wskazujących na nietypowość obserwacji. Mierzą one wpływ pojedynczych obserwacji na wyniki oszacowań, uwzględniając ich odstawanie od pozostałych. Statystyka DFITS jest iloczynem studentyzowanej reszty i monotonicznej transformacji dźwigni. e i hi hi DF IT S i = = r i S i 1 hi 1 h i 1 h i Obserwacje dla których wartość statystyki DFITS przekracza 2 zostać poddane dalszej analizie. Inną statystyką, która mierzy wpływ pojedynczej obserwacji na wyniki regresji jest odległość Cooka (Cook s Distance). Dana jest ona następującym wzorem: CD i = 1 k e 2 i S 2 h i (1 h i ) 2 F (2, n 2) K powinny n gdzie h i = x i (X X) 1 x i. S 2 jest estymatorem wariancji, a Si 2 tym samym estymatorem obliczonym bez uwzględniania obserwacji i. Jeżeli CD > 4, gdzie n 25

n jest liczebnością próby to uznajemy obserwację za wpływającą na wyniki regresji. Przykład. Sprawdźmy czy w analizowanym przez nas modelu ze współliniowością występują obserwacje o znacznym wpływie.. predict d, cooksd. list if d>4/e(n) +----------------------------------------------------------+ year gnp_def gnp armed_~s employ~t d ---------------------------------------------------------- 16. 1962 116.9 554894 2827 70551.8829132 +----------------------------------------------------------+ Pierwsza komenda generuje statystyki Cook s Distance, druga wyświetla numery obserwacji które według testu należy uznać za podejrzane. Obserwacja z 1962 roku rzeczywiście nie pasuje do pozostałych. Możemy również przeprowadzić analizę graficzną obserwacji wpływowych.. lvr2plot, mlabel (year) Leverage.1.2.3.4.5 1958 1948 1954 1947 1949 1955 1953 1960 1959 1951 1952 1950 1961 1957 0.1.2.3.4 Normalized residual squared 1956 Pionowa linia na rysunku oznacza przeciętną wielkość znormalizowanej reszty, a linia pozioma przeciętny poziom wpływu. Jeżeli są obserwacje o dużej reszcie i dużym wpływie - znalazłyby się w prawym górnym rogu wykresu 26

- to otrzymane oszacowania parametrów modelu mogą być zaburzone przez takie obserwacje. Pokażemy, w jaki sposób pojedyncza obserwacja może wpływać na uzyskiwane wyniki oszacowań. W analizowanym modelu poziom zatrudnienia został uzależniony od czterech zmiennych objaśniających. W celu przedstawienia analizy na rysunku ograniczymy model do dwóch zmiennych employment i gnp. W celu wyeliminowania trendu zawartego w zmiennych, obie zostały zróżnicowane, czyli zostały obliczone przyrosty wartości zmiennych. zmiana zatrudnienia 2000 1000 0 1000 2000 3000 1949 1954 1958 1961 1953 1952 1960 1956 1950 1948 1957 1955 1962 1959 0 10000 20000 30000 40000 zmiana pkb 1951 Ciągła linia przedstawia wartości dopasowane z modelu obliczonego na podstawie pełnej próby, linia przerywana na podstawie próby nie zawierającej obserwacji z roku 1962. Wyeliminowanie obserwacji z dużą resztą leżącej poniżej linii regresji powoduje zwiększenie kąta nachylenia linii regresji, czyli wartości parametru β. Zmiana jest dość znaczna, ponieważ obserwacja posiadała stosunkowo duży wpływ na wyniki regresji (miała wysoką statystykę dźwigni). 1.5.4 Przykładowe zadania Zadanie 1. Rozważmy następujący model popytu na pieniądz: gdzie: X 1t = r t stopa procentowa M t = α 0 + α 1 X 1t + α 2 X 2t + α 3 X 3t + ε t 27

X 2t = r t 1 opóźniona stopa procentowa X 3t = r t r t 1 miara korekty oczekiwań wynikająca z ostatniej zmiany stopy procentowej ε t składnik losowy Czy parametry powyższego modelu można oszacować za pomocą MNK? Odpowiedż. Nie, ponieważ zmienna X 3 jest z definicji kombinacją liniową zmiennych X 1 oraz X 2. Wobec tego w modelu wystąpi współliniowość. Natomiast po wyeliminowaniu jednej ze zmiennych objaśniających model można oszacować za pomocą MNK. Zadanie 2. W skład koncernu wchodzą 23 przedsiębiorstwa wytwarzające ten sam wyrób. Cena zbytu tego wyrobu jest identyczna we wszystkich przedsiębiorstwach. Zbudowano model liniowy opisujący zależność poziomu płac od produkcji w sztukach (X 1 ) oraz od wartośći produkcji w mln USD (X 2 ). Czy na podstawie danych dotyczących poszczególnych przedsiębiorstw i pochodzących z tego samego okresu (dane przekrojowe) można oszacować parametry tego modelu za pomocą MNK? Odpowiedź. Nie można oszacować parametrów tego modelu, ponieważ jeżeli cena jest jednakowa we wszystkich przedsiębiorstwach, to zachodzi zależność liniowa między wartocią produkcji w mln USD (X 2 ) a poziomem płac X 2 = px 1. Zatem w modelu występuje dokładna współliniowość. Zadanie 3. Pokaż, że w KMRL ortogonalizacja macierzy obserwacji X usuwa problem współliniowości z modelu. Odpowiedź. Załóżmy, że macierz X ma dwie nieortogonalne zmienne x 1, x 2. Wtedy współczynnik częściowego R 2 x1x2 = corr(x 1, x 2 ) > 0. Wobec tego są one 28

współliniowe. Jeśli zortogonalizujemy macierz X to otrzymamy nową parę zmiennych x 1, x 2. Współczynnik regresji cząstkowej Rx1x2 2 = 0. ponieważ zmienne są ortogonalne, więc corr(x 1, x 2) = 0. Analogiczne rozumowanie możemy przeprowadzić dla dowolnej liczby zmiennych. Wobec tego ortogonalizacja macierzy usuwa problem współliniowości. Literatura [1] William H. Greene (2003) Econometric Analysis, 5th edition. [2] Józef Dziechciarz (2000) Zbiór zadań z ekonometrii, Wydawnictwo akademii Ekonomicznej im. Oskara Langego. [3] Jerzy Mycielski (2000), WNE. 29