Hanna Dudek SGGW w Warszawie WYKRYWANIE WSPÓŁLINIOWOŚCI ZA POMOCĄ SCENTROWANYCH, NIESCENTROWANYCH ORAZ UOGÓLNIONYCH CZYNNIKÓW INFLACJI WARIANCJI. Wstęp Poęcie czynnika inflaci warianci VIF zostało wprowadzone w 970 roku przez D. W. Marquarda [0]. Od tego czasu różne rodzae współczynników VIF są przedmiotem licznych badań teoretycznych i stosowanych. W pracy opracowano syntetyczny wykaz możliwości zastosowań rozważanych współczynników do diagnozowania współliniowości. Ponadto zbadano, czy wykorzystanie powszechnie stosowanych w polskie literaturze ekonometryczne metod doboru zmiennych obaśniaących eliue problem współliniowości. Rozpatrzono metodę eliaci zmiennych quasi stałych, metodę badania poemności nośników informaci oraz metodę analizy grafów.. Poęcie współliniowości w ednorównaniowym liniowym modelu ekonometrycznym W pracy rozważono ednorównaniowy liniowy model ekonometryczny Y Xβ ε. Założono, że liczebność próby est większa od liczby szacowanych parametrów. Dokładna współliniowość dotyczy sytuaci, kiedy wektory wartości odpowiadaące poszczególnym zmiennym obaśniaącym i stałe są liniowo zależne. Macierz zaobserwowanych wartości zmiennych obaśniaących X nie ma wtedy pełnego rzędu kolumnowego. W konsekwenci tego nie można metodą namnieszych kwadratów wyznaczyć estymatorów parametrów strukturalnych modelu, ponieważ układ równań normalnych nie ma ednoznacznego rozwiązania. W przypadku przybliżone współliniowości kolumny macierzy X są prawie liniowo zależne. Macierz X ma pełny rząd kolumnowy, zatem wektor estymatorów parametrów T T strukturalnych można wyznaczyć ze wzoru b X X X Y. Jednakże w takim przypadku mogą wystąpić niekorzystne konsekwence różnego typu. Do napoważnieszych można zaliczyć: dużą wrażliwość wartości estymatorów parametrów strukturalnych na niewielkie zmiany wartości zmiennych, niewłaściwe znaki wartości estymatorów parametrów strukturalnych,
duże (w stosunku do wartości estymatorów parametrów strukturalnych) standardowe błędy szacunku parametrów. W celu wykrycia współliniowości oraz pomiaru niektórych skutków e wystąpienia konstruue się różne współczynniki. W pracy te poddano analizie współczynniki inflaci warianci. 3. Scentrowany (zwykły) współczynnik inflaci warianci Naczęście w literaturze przedmiotu (por. np. Greene [5], Gruszczyński, Podgórska [6]) pod poęciem współczynnika VIF rozumie się scentrowany czynnik inflaci warianci zdefiniowany ako: VIF, () R gdzie R est współczynnikiem deteraci w modelu liniowym ze stałą, w którym zmienną obaśnianą est zmienna X, zaś zmiennymi obaśniaącymi zmienne X, X,...,X -,X +,..., X k, =,,...,k, k oznacza liczbę zmiennych obaśniaących uwzględnionych w modelu. Z definici () wynikaą następuące zależności wyprowadzone m.in. w pracy Belsleya [] i Osiewalskiego [] i [].. VIF r, () gdzie r est -tym elementem diagonalnym macierzy odwrotne do macierzy R, R oznacza macierz współczynników korelaci między zmiennymi obaśniaącymi.. VIF, gdzie - imalna wartość własna macierzy R. (3) VIF = wtedy i tylko wtedy, gdy zmienna X nie est skorelowana z żadną inną zmienną obaśniaącą. Osiąganie dużych wartości VIF est równoważne istnieniu przybliżone liniowe zależności pomiędzy kolumną macierzy X odpowiadaącą zmienne X oraz co namnie edną z kolumn odpowiadaących zmiennym X, X,...,X -,X +,..., X k. 3. Wariance estymatorów poszczególnych parametrów strukturalnych można wyrazić ako: Var ( b ) VIF n i x i x, =,,...,k, (4) gdzie - warianca składnika losowego, wartość średnia zmienne X, =,,...,k. xi - i-ta, wartość zmienne X, i=,,..n x
3 Z zależności (4) wynika, że skorelowanie zmienne X z pozostałymi zmiennymi obaśniaącymi pogarsza precyzę szacunku parametru. Od zależności te pochodzi nazwa współczynnika VIF (ang. Variance Inflation Factor), co może być przetłumaczone na ęzyk polski ako czynnik inflaci warianci (por. np. Gruszczyński, Podgórska [6]) lub ako współczynnik zwiększenia warianci (por. Osiewalski []). Czynnik inflaci warianci ma ako miernik współliniowości ma pewne wady (por. Belsley []).. Na podstawie VIF nie można określić liczby zależności łączących zmienne. Np. eśli są dwie silne liniowe zależności, pierwsza obemuąca X, X, druga: X 3 i X 4, to wszystkie wartości VIF będą duże, =,, 3, 4.. Nie ma wartości krytyczne określaące akie wartości VIF wskazuą na współliniowość. Zwykle stosowana wartość krytyczną równa 0 est przyęta ad hoc. 3. Wysokie wartości VIF są koniecznym, ale niewystarczaącym warunkiem współliniowości. Jeśli kolumna wartości zmienne X oraz kolumna edynek odpowiadaąca stałe są związane przybliżoną zależnością liniową, to VIF może przymować niskie wartości. Pierwsza i druga wada dotyczy także innych rozważanych w te pracy rodzaów czynników inflaci warianci. Trzecia zaś może być wyeliowana poprzez zastosowanie niescentrowanych czynników inflaci warianci. warianci: NVIF 4. Niescentrowany czynnik inflaci warianci W pracy Belsleya [] zdefiniowano poęcie niescentrowanego czynnika inflaci, (5) NR gdzie NR - niescentowany współczynnik deteraci w modelu bez stałe, w którym zmienną obaśnianą est X, zaś zmiennymi obaśniaącymi są X 0, X,...,X -,X +,..., X k, = 0,,,...,k, X 0 odpowiada stałe. NVIF ma następuące własności (por. Belsley [] i Osiewalski [] i []).. NVIF Nr, = 0,,...,k, (6) gdzie Nr oznacza -ty element diagonalnym macierzy odwrotne do NR, NR est macierzą niescentrowanych współczynników korelaci. Większość autorów podae, że wartości VIF > 0 est oznaką współliniowości (por. np. Gruszczyński, Podgórska [6]), niektórzy zaś przymuą, że uż VIF > 5 sygnalizue poważne problemy (por. Judge i inni [9]).
4. NVIF, gdzie d - imalna wartość własna macierzy NR. (7) d NVIF osiąga duże wartości wtedy i tylko wtedy, gdy istniee przybliżona liniowa zależność pomiędzy -tą kolumną macierzy X oraz co namnie edną z pozostałych kolumn. 3. Var b ) NVIF ( n, = 0,,,...,k. (8) xi i 4. Własności -3 są zachowane także w modelu bez stałe. 5. Czynniki inflaci warianci wg Osiewalskiego W pracach Osiewalskiego [] oraz [] przedstawiono definice czynników inflaci warianci dowolne liniowe funkci MNK-estymatorów parametrów strukturalnych modelu oraz czynników inflaci warianci błędu predykci w przypadku predyktora MNK. 5.. Scentrowane i niescentrowane czynniki inflaci warianci dla liniowe funkci Niech c T b, c 0 estymatorów MNK parametrów strukturalnych T T g, wtedy warianca Var ( g) c X X c Scentrowany czynnik inflaci warianci dla liniowe funkci MNK-estymatorów parametrów strukturalnych definiue się następuąco (por. Osiewalski []): Var ( g) VIF ( g), (9) Var ( g) I gdzie Var I (g) - warianca g, w przypadku braku skorelowania między zmiennymi obaśniaącymi, t. gdy R=I. Zakłada się, że średnie i odchylenia standardowe zmiennych uwzględnionych w Var I (g) są takie same ak w Var(g). Niescentrowany czynnik inflaci warianci dla liniowe funkci estymatorów MNK parametrów strukturalnych określa się zaś ako (por. Osiewalski []): Var ( g) NVIF ( g), (0) Var ( g) NI gdzie Var NI (g) - warianca g, w przypadku gdy macierz niescentrowanych współczynników korelaci NR=I. Zakłada się, że długości wektorów kolumnowych macierzy obserwaci X w Var NI (g) są takie same ak w Var(g). W pracach Osiewalskiego [] i [] dowiedziono następuących własności czynników inflaci warianci dla funkci liniowe MNK-estymatorów parametrów strukturalnych.
5. Jeśli -ty element wektora c, c =, zaś pozostałe elementy są równe 0, to VIF(g)=VIF oraz NVIF(g)=NVIF.. Zakres możliwych wartości VIF(g) dla dane macierzy R i różnych wektorów c określony est przez nierówności: gdzie VIF ( g), () k, - odpowiednio maksymalna i imalna wartość własna macierzy R. 3. Dla dane macierzy NR i różnych wektorów c: d NVIF ( f ) d, () k gdzie d, d - odpowiednio maksymalna i imalna wartość własna macierzy NR. 4. Dla każde macierzy współczynników korelaci R istniee wektor c, taki że VIF(g)<. T Jeśli c, c x, c x c x c 0 0 0, 0, to VIF(g) = dla każde macierzy R. k Skorelowanie zmiennych obaśniaących nie ma wtedy żadnego wpływu na wariancę funkci liniowe g. 5. Dla każde macierzy NR istniee taki wektor c, że NVIF(g)<. 5.. Scentrowane i niescentrowane czynniki inflaci warianci dla błędu predykci Niech * x* T β * ŷ x T * * b przy ustalonym x * będzie MNK-predyktorem zmienne y, wówczas błąd predykci f y * ŷ*. Warianca błędu predykci wyraża się T T Var * x*. wzorem: ( f ) [ x X X ] Scentrowany czynnik inflaci warianci dla błędu predykci ma postać: Var ( f ) VIF ( f ), (3) Var ( f ) I gdzie Var I ( f ) - warianca f, w przypadku braku skorelowania między zmiennymi obaśniaącymi t. gdy R=I. Zakłada się, że średnie i odchylenia standardowe zmiennych uwzględnione w Var I (f) są takie same ak w Var(f). Niescentrowany czynnik inflaci warianci dla błędu predykci określa się ako: Var ( f ) NVIF ( f ), (4) VarNI ( f ) gdzie Var NI ( f ) - warianca f, w przypadku gdy macierz niescentrowanych współczynników korelaci NR=I. Zakłada się, długości wektorów kolumnowych macierzy obserwaci X w Var NI (f) są takie same ak w Var(f). W pracach Osiewalskiego [] i [] dowiedziono następuących własności.
6. Dla dane macierzy R i różnych x * zachodzi: VIF ( f ), (5) k gdzie, - odpowiednio - maksymalna i imalna wartość własna macierzy R.. Przy ustalone macierzy NR i różnych x * d NVIF ( f ) d, (6) k gdzie d, d - odpowiednio maksymalna i imalna wartość własna macierzy NR. 3. Dla każde macierzy współczynników korelaci R istniee takie x *, że VIF(f)< Jeśli T *, x, x k x, x, to VIF(f) = dla każde macierzy R. 4. Dla każde macierzy współczynników korelaci NR istniee takie x *, że NVIF(f)<. 6. Uogólniony czynnik inflaci warianci wg Foxa i Monette a W niektórych modelach wskazany może być pomiar współliniowości dla zestawów zmiennych obaśniaących. Przez X oznacza się część macierzy X odpowiadaącą wyróżnionemu podzbiorowi zmiennych obaśniaących, przez X część macierzy X odpowiadaącą pozostałym zmiennym obaśniaącym występuącym w modelu, X 0 odpowiada stałe w modelu. Model liniowy można wtedy zapisać w postaci: Y ˆ X b 0 0 Xb Xb. Wyróżnionym podzbiorem zmiennych obaśniaących mogą być, np. zmienne zeroedynkowe odpowiadaące zmienne akościowe. Ponieważ wybór zmienne bazowe wpływa na wartości współczynników korelaci pomiędzy zmiennymi zeroedynkowymi a innymi zmiennymi, to od tego wyboru zależą także wartości czynników inflaci warianci. Podobnie est w przypadku, gdy w modelu występue część wielomianowa, t. np. gdy zestaw zmiennych obaśniaących est następuący: X, X podzbiorem est tu { X, X X, 3 X, 3, X, X 3,...,X k. Wyróżnionym }. Wartości współczynników korelaci pomiędzy zmiennymi 3 X, X a pozostałymi zmiennymi obaśniaącymi są w ogólnym przypadku różne od wartości współczynników korelaci pomiędzy zmiennymi ( X c a 3 c), ( X ) pozostałymi zmiennymi, gdzie c oznacza stałą. Stąd wartości czynników inflaci warianci zależą od przyęcia zmienne bazowe 3. W celu pomiaru współliniowości dla podzbiorów zmiennych obaśniaących, Fox i Monette [4] rozważyli uogólniony czynnik inflaci warianci zdefiniowany ako: Zmienną bazową w przypadku modelu ze zmienną akościową est poięta zmienna zeroedynkowa. 3 Wybór zmienne bazowe polega tu na wyborze stałe c.
7 det Rdet R GVIF, (7) det R gdzie: R est macierzą korelaci pomiędzy zmiennymi z wyróżnionego podzbioru zmiennych obaśniaących, R - macierz korelaci pomiędzy pozostałymi zmiennymi obaśniaącymi występuącymi w modelu. Uogólniony czynnik inflaci warianci ma następuące własności (por. Fox, Monette [4]).. Jeśli wyróżniony zbiór X składa się z edne zmienne X, to GVIF = VIF. W tym sensie GVIF est uogólnionym czynnikiem inflaci warianci (ang. Generalized Variance Inflation Factor).. Wartość GVIF nie zależy od sposobu przyęcia zmienne bazowe. 3. GVIF = odpowiada sytuaci, kiedy zbiór X zawiera zmienne nieskorelowane z pozostałymi zmiennymi występuącymi w modelu. 7. Metody doboru zmiennych obaśniaących a współliniowość Kolenym zagadnieniem rozważonym w te pracy est zbadanie, czy zastosowanie metod analizy grafów i badania poemności nośników informaci eliue zawsze wystąpienie współliniowości. Metody te bazuą na wartościach współczynników korelaci pomiędzy parami zmiennych. Zastosowanie ich nie pozwala zatem ustrzec się przed wyborem zmienne obaśniaące, które wektor wartości est związany przybliżoną zależnością z wektorem, odpowiadaącym stałe w modelu. Dlatego też metoda eliaci zmiennych quasi stałych powinna być zawsze stosowana niezależnie od obu metod. Eliue ona bowiem zmienne charakteryzuące się małą zmiennością. Następnie zbadano czy optymalny zestaw zmiennych obaśniaących uzyskanych metodami Bartosiewicz i Hellwiga może zawierać zmienne związane ze sobą zależnością liniową. W metodzie analizy grafów wychodzi się z założenia, że zmienne obaśniaące w modelu liniowym powinny być słabo skorelowane między sobą oraz silnie skorelowane ze zmiennymi, które nie weszły do modelu. W metodzie te zależności pomiędzy zmiennymi uważa się za nieistotne, eśli wartości bezwzględne współczynników korelaci nie przekraczaą wartości krytyczne r *. Wartość krytyczna określa est wzorem: r * ( t * ) n ( t * ), gdzie * t est kwantylem rzędu w rozkładzie t-studenta z n- stopniami swobody, n liczebność próby.
8 Dobór zmiennych obaśniaących odbywa się na podstawie analizy grafu, w którym wierzchołkami są poszczególne zmienne, a łuki reprezentuą istotne powiązania pomiędzy zmiennymi. W grafie mogą wystąpić: zmienne izolowane, to znaczy nie wykazuące istotnych powiązań z innymi zmiennymi, grupy zmiennych wzaemnie powiązanych. Zmiennymi obaśniaącymi zostaą: zmienne izolowane, z każde grupy zmiennych wzaemnie powiązanych zmienną reprezentuącą stae się zmienna o maksymalne liczbie powiązań. Jeśli w dane grupie istniee kilka zmiennych o maksymalne liczbie powiązań, to należy wybrać spośród nich zmienną nabardzie skorelowaną ze zmienną obaśnianą (por. Bartosiewicz []). W metodzie analizie grafów wartość krytyczna współczynnika korelaci zależy od poziomu istotności oraz liczebności próby. Dla ustalonego poziomu istotności est funkcą maleącą liczebności próby. W przypadku małego n r * może przymować dość wysokie wartości, np. dla poziomu istotności =0,05, gdy liczebność próby n 5, to r * > 0,5. Jeśli wartości bezwzględne współczynników korelaci pomiędzy zmiennymi nie przewyższaą wartości krytyczne r *, to zmienne uznae się za izolowane. Zmienne te tym samym staą się zmiennymi obaśniaącymi. W pracy Dudek [3] wykazano, że stosunkowo niskie wartości współczynników korelaci pomiędzy parami zmiennych obaśniaących nie wykluczaą wystąpienia współliniowości. W pracy te m.in. podano przykład, w którym X 3 =X +X oraz wszystkie r 0, 5, i,=,,3 n=5. Zmienne X, X, X 3 są zmiennymi izolowanymi, czyli i wchodzą do modelu. Metodą analizy grafów można zatem czasem dobrać zmienne obaśniaące z liniowo zależnymi wektorami wartości. W metodzie badania poemności nośników informaci każdą zmienną obaśniaącą traktue się ako nośnik informaci o zmienne obaśniane. W metodzie te rozpatrue się wszystkie niepuste kombinace potencalnych zmiennych obaśniaących. Dla każde kombinaci oblicza się współczynnik zwany poemnością integralną nośników informaci. Za optymalną kombinacę uznae się taki zestaw zmiennych, dla którego współczynnik ten osiąga wartość maksymalną (por. Hellwig [8]). Generalnie, poemności integralne nośników informaci przymuą tym większe wartości, im zmienne obaśniaące są silnie skorelowane ze zmienną obaśnianą oraz słabie skorelowane między sobą. W pracy Guzika [7] ednakże przedstawiono przykład, w którym poemność integralna nośników informaci osiąga nawiększą wartość dla zestawu zawieraącego trzy zmienne, spośród których dwie są
9 doskonale skorelowane. Dobór zmiennych obaśniaących metodą Hellwiga nie zawsze zatem chroni przed problemem współliniowości. 8. Uwagi końcowe Czynniki inflaci warianci z pewnością nie mogą zastąpić procedury pomiaru współliniowości oparte na liczbie warunkowe. Jednakże ze względu na ich prostotę obliczeniową oraz interpretacę warto est e wyznaczyć. Powszechnie bowiem stosowane metody doboru zmiennych obaśniaących nie zawsze wykluczaą współliniowość. Odpowiednio duże wartości czynników inflaci warianci powinny być sygnałem do wnikliwe analizy rozpatrywanych danych empirycznych. Literatura [] Bartosiewicz S., Prosta metoda wyboru zmiennych obaśniaących w modelu ekonometrycznym, Prace Naukowe WSE we Wrocławiu, Nr 43 (65), 974, s. 93-0. [] Belsley D. A., Conditioning Diagnostics, Collinearity and Weak Data in Regression, John Wiley&Sons, New York, 99. [3] Dudek H., Wpływ współliniowości na wartości współczynników korelaci pomiędzy parami zmiennych obaśniaących, Przegląd Statystyczny, Tom 50, Z., 003, s. 4-5. [4] Fox J., Monette G., Generalized Collinearity Diagnostics, Journal of the American Statistical Association, Vol. 87, No. 47, 99, s 78-83. [5] Greene W.H., Econometric Analysis, Prentice Hall, Inc., New Jersey 000. [6] Gruszczyński M., Podgórska M. (red.), Ekonometria, Oficyna Wydawnicza SGH, Warszawa 003. [7] Guzik B., Metoda Hellwiga w warunkach współliniowości par zmiennych obaśniaących, Przegląd Statystyczny, Tom 3, Z., 985, s. 33-39. [8] Hellwig Z., Problem optymalnego wyboru predykant, Przegląd Statystyczny, Tom 6, 3-4, 969, s.-37. [9] Judge G. G., Hill C., Griffiths W. E., Lütkepohl H., Lee T., Introduction to the Theory and Practice of Econometrics, John Wiley&Sons, New York, 988. [0] Marquardt D. W., Generalized inverses, ridge regression, biased linear estimation, and nonlinear regression, Technometrics, Vol., 970, s. 59-63. [] Osiewalski J., Centered and noncentered variance inflation factors for the OLS estimator of a linear function and for the OLS prediction error, Acta Universitatis Lodziensis, Folia Oeconomica, No. 3, Łódź 99, s. 97-08. [] Osiewalski J., Współczynniki zwiększenia warianci estymatora MNK liniowe funkci parametrów oraz błędu predykci, Przegląd Statystyczny, Tom 36, Z. 4, 988, s. 39-399.
0 Streszczenie W zagadnieniu wykrywania liniowych zależności między wektorami wartości zmiennych obaśniaących wykorzystue się poęcie czynników inflaci warianci. W pracy opracowano syntetyczny wykaz możliwości zastosowań rozważanych współczynników do diagnozowania współliniowości spowodowane różnymi przyczynami. Ponadto wykazano, że zastosowanie metody badania poemności nośników informaci oraz metody analizy grafów nie zawsze pozwala ustrzec się przed wystąpieniem współliniowości. DETECTING OF COLLINEARITY BY USING CENTERED, NONCENTERED AND GENERALIZED VARIANCE INFLATION FACTORS Summary In this article we analyze the concepts of variance inflation factors VIF. Centered VIF is misleading in the case of small variation of one of the regressors. In such cases noncentered VIF should be applied. In order to detere collinearity for a set of related regressors, such as dummy regresssors corresponding to a categorical variable, generalized inflation factor is applied. Moreover explanatory variables selection methods are analyzed in the context of collinearity. We demonstrate that by using Hellwig s method and Bartosiewicz s method it is possible to choose variables with linearly dependent vectors of observations.