UOGÓLNIONA MIARA DOPASOWANIA W MODELU LINIOWYM Wojciech Zieliński Katedra Ekonoetrii i Statystyki, SGGW Nowoursynowska 159, PL-0-767 Warszawa wojtekzielinski@statystykainfo Streszczenie: W odelu regresji liniowej stosowane są dwie iary wpływu ziennych niezależnych na zienna zależną: współczynnik deterinacji oraz współczynnik korelacji cząstkowej W pracy zaproponowane jest uogólnienie tych iar i skonstruowana jest iara wpływu grupy ziennych niezależnych z wyłączenie wpływu pozostałych ziennych niezależnych Słowa kluczowe: iara dopasowania, współczynnik deterinacji, korelacja cząstkowa, analiza regresji Załóży, że obserwacje Y i pewnej ziennej losowej ożey przedstawić w postaci Y i = β 1 x 1i + + β p x pi + ε i, i = 1,, n, ( ) gdzie x ki, k = 1,, p, i = 1,, n, są znane, β 1,, β p są nieznanyi współczynnikai regresji, natoiast ε i, i = 1,, n są ziennyi losowyi o rozkładach noralnych o zerowej wartości oczekiwanej i wariancji σ Jedny z pytań stawianych w analizie odeli ( ) jest pytanie o wpływ ziennych niezależnych na cechę Y W zastosowaniach wykorzystuje się w zasadzie dwie iary: irę łącznego wpływu wszystkich ziennych niezależnych oraz iarę wpływu pojedynczych ziennych (z eliinacją wpływu pozostałych) Jest to powszechnie znany współczynnik deterinacji oraz współczynnik korelacji cząstkowej Ścisłe określenia tych pojęć ożna znaleźć w bardzo bogatej literaturze poświęconej analizie regresji (w spisie literatury podanych znaleźć kilka takich książek) Podane iary niestety nie udzielają odpowiedzi na pytania o wpływ grup wybranych ziennych niezależnych na zienną zależną, np jak zierzyć wpływ ziennej x 1 oraz x z wyłączenie pozostałych ziennych? W dalszy ciągu zaproponowana jest taka iara Pokazano również, że współczynnik deterinacji oraz współczynnik korelacji cząstkowej sa szczególnyi przypadkai tej ogólniejszej iary W dalszych rozważaniach znacznie wygodniej jest się posługiwać zapisai acierzowyi Model liniowy ( ) w zapisie acierzowy a postać Y = Xβ + ε, gdzie Y = [Y 1,, Y n jest wektore obserwacji, β = [β 1, β p jest wektore nieznanych 1
paraetrów, ε = [ε 1,, ε n jest wektore błędów losowych oraz x 11 x p1 x 1 x p X = x 1n x pn jest acierzą eksperyentu Zgodnie z poczynionyi założeniai wektor losowy Y a n-wyiarowy rozkład noralny: Y N n (Xβ, σ I n ) Niech teraz X = [X 1 X, gdzie acierze X 1 oraz X są acierzai o wyiarach odpowiednio n (p q) i n q Niech wektor paraetrów β będzie podzielony odpowiednio na dwa podwektory β 1 i β zgodnie z podziałe acierzy X Interesuje nas zierzenie wpływu na zienną zależną ziennych zawartych w acierzy X Niech β oznacza estyator wektora β w odelu z acierzą X β = (X X) 1 X Y, natoiast niech β 1 będzie estyatore najniejszych kwadratów wektora β w odelu z ograniczeniai β = 0 (Zieliński 007): β 1 = β (X X) 1 A [A(X X) 1 A 1 A β Tutaj A = [0 q (p q) I q jest acierzą ograniczeń, tzn β = 0 jest równoważne teu, że Aβ = 0 (0 oznacza, w zależności od kontekstu, wektor lub acierz zerową, I q oznacza acierz jednostkową wyiaru q) Wektor obserwacji Y ożey zapisać jako Y X β 1 = (X β X β 1 ) + (Y X β + X β 1 ) Zauważy, że wektory X β X β 1 i Y X β + X β 1 są ortogonalne A zate Y X β 1 = X β X β 1 + Y X β + X β 1, gdzie oznacza kwadrat długości wektora (w norie euklidesowej) Jako iarę wpływu ziennych zawartych w acierzy X przyjujey Twierdzenie Zienna losowa R (X ) = X β X β 1 Y X β 1 R (X ) 1 R (X ) n q q
a niecentralny rozkład F z (q, n q) stopniai swobody i paraetre niecentralności β A [A(X X) 1 A 1 Aβ, gdzie A = [0 q (p q) I q Dowód W dowodzie korzystay z dobrze znanych faktów dotyczących rozkładów prawdopodobieństwa for liniowych i kwadratowych wektorów losowych o wielowyiarowy rozkładzie noralny Łatwo sprawdzić, że R (X ) 1 R (X ) = X β X β 1 Y (X β X β 1 ) = β A [A(X X) 1 A 1 A β Y (I n A [A(X X) 1 A 1 A)Y Macierz I n A [A(X X) 1 A 1 A jest idepotentna, więc w ianowniku ay zienną losową o centralny rozkładzie chi-kwadrat z (n q) stopniai swobody Ponieważ wektor losowy a rozkład N p (β, σ (X X) 1 ), więc w liczniku ay zienną losową o niecentralny rozkładzie chi-kwadrat z q stopniai swobody i paraetre niecentralności β A [A(X X) 1 A 1 Aβ Licznik i ianownik są niezależnyi ziennyi losowyi i stąd wynika teza twierdzenia Pokażey teraz, że współczynnik deterinacji oraz współczynnik korelacji cząstkowej sa szczególny przypadkai iary R (X ) Współczynnik deterinacji jest iarą wpływu wszystkich ziennych niezależnych x 1,, x na zienną Y w odelu W zapisie acierzowy Y i = β 0 + β 1 x 1i + + x i + ε i, i = 1,, n 1 x 11 x 1 1 x X = 1 x 1 x 1n x n Macierz X i wektor paraetrów ożna podzielić na x 11 x 1 x X 1 = 1 n, X = 1 x x 1n x n W ty odelu ay p = + 1, q = oraz [ X X = n 1 nx X 1 n X X, β = β 0 β 1, β 1 = [β 0, β = β 1 [, (X X) 1 M k = k L 3
gdzie L 1 = X X 1 n X 1 n 1 nx, k = 1 n 1 nx L oraz M = 1 n + k Lk (ogólny wzór na odwrotność blokowej acierzy ożna znaleźć w np Rao 198, Zieliński 007) Estyator najniejszych kwadratów wektora β w pełny odelu a postać [ [ M k 1 β = n k L X [ M1 Y = n + k X k1 n + LX Y, tzn β 0 = (M1 n + k X )Y oraz β = (k1 n + LX )Y Estyator wektora β 1 w odelu z ograniczeniai określonyi acierzą A = [0 I wyraża się wzore ( [ [ ( [ [ M k 0 β 1 = I +1 M k 0 [0 k L I I k L I [ [ [ 1 k = L 1 β0 k β = L 1 β 1 [ = n 1 ny Ȳ = 0 0 0 0 ) 1 [0 I ) β 0, gdzie Ȳ = 1 n n i=1 Y i Ponieważ X β 1 = Ȳ 1 n, więc (Ŷ = X β) X β X β 1 = (Ŷ Ȳ 1 n) (Ŷ Ȳ 1 n) = n (Ŷi Ȳ ) i=1 oraz Y X β 1 = (Y Ȳ 1 n) (Y Ȳ 1 n) = n (Y i Ȳ ) i=1 Współczynnik deterinacji, wyrażany zwyczajowo w procentach, określony jest więc w następujący sposób ( D = R Ŷ i (X ) 100% = Ȳ ) 100% (Yi Ȳ ) Z twierdzenia otrzyujey Wniosek Zienna losowa D 100 D n a niecentralny rozkład F z (, n ) stopniai swobody i paraetre niecentralności β X (I n 1 n 1 n1 n)x β 4
Współczynnik korelacji cząstkowej jest iarą wpływu jednej ze ziennych niezależnych na zienną Y w odelu Y i = β 0 + β 1 x 1i + + x i + ε i, i = 1,, n Wyprowadziy odpowiedni wzór dla ziennej x 1 Dla uproszczenia zapisu odel zapisujey w postaci Y i = β 0 + β x i + + x i + β 1 x 1i + ε i, i = 1,, n W zapisie acierzowy 1 x 1 x 1 x 11 1 x X = x x 1, β = 1 x n x n x 1n Macierz X i wektor paraetrów ożna podzielić na 1 x 1 x 1 x 11 1 x X 1 = x, x x = 1 1 x n x n x 1n W ty odelu gdzie [ X X X = 1 X 1 X 1x x X 1 x x L =, β 1 =, (X X) 1 = 1 x x x X 1(X 1 X 1) 1 X 1 x, β 0 β β 1 β 0 β, β = [β 1 [ M k k L k = L(X 1X 1 ) 1 x X 1, M = (X 1X 1 ) 1 Lkk Ograniczenia opisane są za poocą wektora [0 1 Po wykonaniu odpowiednich obliczeń otrzyujey, że iarą wpływu ziennej x 1 na Y jest R (x )= (x (I n X 1 (X 1X 1 ) 1 X 1)Y) (Y (I n X 1 (X 1 X 1) 1 X 1 )Y)(x (I n X 1 (X 1 X 1) 1 X 1 )x ) Współczynnik korelacji cząstkowej iędzy Y a x 1 określony jest jako R (x ) i oznaczany R Y (x1 )(x,,x ) Znak tego współczynnika jest oczywiście zgodny ze znakie x (I n X 1 (X 1X 1 ) 1 X 1)Y Z twierdzenia 18 otrzyujey następujący Wniosek Zienna losowa R Y (x 1 )(x,,x ) 1 R Y (x 1 )(x,,x ) (n 1) a niecentralny rozkład F z (1, n 1) stopniai swobody i paraetre niecentralności β x (I n X 1 (X 1X 1 ) 1 X 1)x 5
Dodatkowa zienna Niech Y = Xβ + ε Przypuśćy, że do odelu włączay jeszcze jedną zienną niezależną, tzn Y = Xβ+zγ+η = Wδ+η, gdzie W = [X z, δ = [β γ oraz η jest wektore błędów losowych Tutaj z jest wektore n-wyiarowy reprezentujący włączaną zienną, natoiast γ jest nieznany współczynnikie regresji Wyznaczyy współczynnik R (W) i porównay go z R (X) Estyatore najniejszych kwadratów wektora δ jest oczywiście δ = (W W) 1 W Y May [ W X W = X X z z X z z oraz (W W) 1 = 1 b [ b(x X) 1 + aa a a 1 gdzie a = (X X) 1 X z oraz b = z (I n X(X X) 1 X )z Zate Ponieważ więc [ β z (I n X(X X) 1 X )Y z δ = (I n X(X X) 1 X )z (X X) 1 X z z (I n X(X X) 1 X )Y z (I n X(X X) 1 X )z W δ = X β + z (I n X(X X) 1 X )Y z (I n X(X X) 1 X )z (I n X(X X) 1 X )z, W δ = X β + (z (I n X(X X) 1 X )Y) z (I n X(X X) 1 X )z Zate R (W) R (X), tzn odel z dodatkową zienną nie gorzej odtwarza zienną zależną niż odel bez niej Literatura BORKOWSKI B, DUDEK H, SZCZESNY W 003: Ekonoetria, wybrane zagadnienia, PWN, Warszawa DRAPER N R, SMITH H 1973: Analiza regresji stosowana, PWN, Warszawa RAO C R 198: Modele liniowe statystyki ateatycznej, PWN, Warszawa SEBER G A F 1977: Linear Regression Analysis, Wiley, New York ZIELIŃSKI W 007: Teoretyczne podstawy ekonoetrycznych jednorównaniowych odeli liniowych, Wydawnictwo SGGW, Warszawa 6