Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl

Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3

Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 + α 1 X 1 +... + α k X k + ε (1) Na podstawie danych z obserwacji zmiennych Y, X 1,..., X k Y X 1... X k y 1 x 11... x 1k.... y n x n1... x nk wartości ocen α 0, α 1,..., α k parametrów modelu (1) wyznaczymy korzystając z metody najmniejszych kwadratów.

Na podstawie odserwacji cech Y, X 1,..., X k model (1) możemy zapisać w postaci układu równań Rozwiązując zadanie y 1 = α 0 + α 1 x 11 +... + α k x 1k + ε 1... y n = α 0 + α 1 x n1 +... + α k x nk + ε n min F (α 0, α 1,..., α k ) α 0,α 1,...,α k gdzie F (α 0, α 1,..., α k ) = n (y i α 0 α 1 x i1 +... + α k x ik ) 2, i=1 wyznaczamy wartości parametrów α 0, α 1,..., α k.

Układ równań możemy przedstawić w postaci macierzowej y 1... = 1 x α 11... x 0 1k.... α 1... + ε 1... y n 1 x n1... x nk ε α n k Wprowadzając oznaczenia na Y R n i X R n (k+1), β R k+1, ε R n mamy Y = Xβ + ε Twierdzenie 1. Jeżeli det ( X T X ) 0 to estymatory parametrów strukturalnych modelu (1) szacujemy jako β = ( X T X ) 1 X T Y

Dowód. Metoda najmniejszych kwadratów polega min β ε 2 Natomiast ε 2 = Y Xβ, Y Xβ. Zdefiniujmy funkcję celu F (β) = Y Xβ, Y Xβ. Zatem Szukamy gradient F (β) = Y 2 2 Y, Xβ + Xβ, Xβ F (β) = β F (β) = 2XT Y + 2X T Xβ Przyrównując do zera otrzymujemy X T Xβ = X T Y mnożąc lwostroniie przez ( X T X ) 1 otrzymujemy β = ( X T X ) 1 X T Y. Z drugiej strony, ponieważ kwadrat błędu ε 2 jest funkcją kwadratową i wypukłą ze względu na β, zatem funkcja ta osiąga w β swoje ekstremum minimum globalne.

Przykład 1. Dane są obserwacje zmiennych Y, X 1, X 2, X 3. Y X 1 X 2 X 3 2 1 1 1 2 2 0 1 4 1 0 1 4 2 1 0 5 2 0 1 Oszacujemy parametry strukturalne modelu Y = α 0 + α 1 X 1 + α 2 X 2 + α 3 X 3 + ε. Rozwiązanie zadania 2 2 Niech Y = 4 4, X = 5 1 1 1 1 1 2 0 1 1 1 0 1 1 2 1 0 1 2 0 1, β = α 0 α 1 α 2 α 3.

Zatem X T X = ( X T X ) 1 = Ostatecznie β = 5 8 2 4 8 14 3 6 2 3 2 1 4 6 1 4 13 4 4 6 4 1, 5 1 1, 5 4 1 2 2 6 1, 5 2 3, 5 7 0, 5 2 2, 5., det ( X T X ) = 2,, XT Y = 17 28 6 13.

Przykład 2. Dane są obserwacje zmiennych Y, X 1, X 2 Y X 1 X 2 2 0 0 3 1 0 4 0 1 5 2 1 Wyznaczymymy parametry strukturalne modelu Y = α 0 + α 1 X 1 + α 2 X 2 + ε. Rozwiązanie zadania 2 Niech Y = 3 4, X = 5 1 0 0 1 1 0 1 0 1 1 2 1, β = α 0 α 1 α 2.

Zatem X T X = ( X T X ) 1 = Ostatecznie β = 4 3 2 3 5 2 2 2 2 0, 6 0, 2 0, 4 0, 2 0, 4 0, 2 0, 4 0, 2 1, 1 2, 2 0, 6 1, 7., det ( X T X ) = 10,, X T Y = 14 13 9.

Weryfikacja liniowej zależności Po oszacowaniu parmetrów strukturalnych modelu ekonometrycznego należe zbadać, czy ów model dobrze opisuje badane przez nas zależności. Jeżeli okaże się, że rozbieżność pomiędzy otrzymanym modelem a wiedzą ekonomiczną o badanych zależnościach jest duża, należy go wówczas skorygować i poprawić. Ta nieefektywność może być spowodowana wieloma przyczynami: złe dobranie zmiennych objaśniających zła postać analityczna modelu zastosowanie niewłaściwej metody estymacji parametrów.

Przed wykonaniem wnioskowania statystycznego należy przeprowadziċ weryfikację modelu ekonometrycznego. Weryfikacja modelu sprowadza się do zbadania trzech własności: stopnia zgodności modelu z danymi empirycznymi jakości ocen parametrów strukturalnych rozkładu ocen odchyleń losowych.

polega na wyjaśniu w jakim stopniu model opsuje kształtowanie się zmiennej zależnej. Do tego celu służą różne miary zgodności modelu z danymi empirycznymi: wspolczynnik zmienności losowej współczynnik zbieżności współczynnik determinacji Rozważmy model liniowy w którym występuje k zmiennych objaśniających modelu liniowego Model w postaci macierzowej Y = α 0 + α 1 X 1 +... + α k X k + ε Y = Xβ + ε gdzie Y R n 1, X R n (k+1), β R (k+1) 1, ε R n 1, a n liczba obserwacji.

Odchylenie standardowe skladnika losowego n ε 2 i i=1 S e = n k 1 = ε T ε n k 1 gdzie ε = Y X β (wektor różnić pomiędzy wartością empiryczną a wartością teoretyczną zmiennej zależnej).

Współczynnik zbieżności ϕ 2 [0, 1] ϕ 2 = n ε 2 i i=1 n (y i y) 2 i=1 pokazuje jaka część całkowitej zmienności zmiennej zależnej nie jest wyjaśniana przez model. Dopasowanie do dannych jest trym lepsze im ϕ 2 bliższy jest zera.

Współczynnik determinacji R 2 [0, 1] R 2 = 1 ϕ 2 pokazuje jaka część całkowitej zmienności zmiennej zależnej jest wyjaśniana przez model, ta część jest zdeterminowana przez zmienne niezależne. Innymi słowy, współczynnik detrminacji pokazuje jaką cześć całkowitej zmienności zmiennej objaśnianej stanowi zmiennośc wartości teoretycznych. Im R 2 jest bliższe 1 tym dopasowanie modelu jest lepsze.

Przykład 3. Na podstawie danych z obserwacji cech Y, X 1, X 2 oszacować parametry regresji liniowej, znaleźć odchylenie standardowe składnika losowego, współczynniki zbieżności i determinacji. Y = α 0 + α 1 X 1 + α 2 X 2 + ε Y X 1 X 2 Ŷ ε i ε 2 i Y Y (Y Y ) 2 2 2 1 2 0 0 7, 4 54, 76 4, 9 3 2 5 0, 1 0, 01 4, 5 20, 25 10, 5 5 4 11 0, 5 0, 25 1, 1 1, 21 4, 3 2 2 4 0, 3 0, 09 5, 1 26, 01 16 6 6 16 0 0 6, 6 43, 56 14 4 6 14 0 0 4, 6 21, 16 11 3 5 11 0 0 1, 6 2, 56 12, 5 8 3 12 0, 5 0, 25 3, 1 9, 61 75, 2 0, 6 179, 12

Oszacujemy parametry modelu. 2 1 1 2 3 2 1 4, 9 5 4 1 10, 5 X = 2 2 1 6 6 1, Y = 4, 3 16 4 6 1 14 3 5 1 11 8 3 1 12, 5 167 131 33 Zatem X T X = 131 131 29 33 29 8 (X T X) 1 = 1 5356 X T Y = 364, 8 334, 9 75, 2., 207 91 524 91 247 520 524 520 4716 1, 0517. Ostatecznie β = 1, 9454 1, 99 1 2 2

Po oszacowaniu parametrów strukturalnych modelu mamy: odchylenie standardowe składnika losowego 0, 6 S e = 8 2 1 = 0, 12 0, 346

Po oszacowaniu parametrów strukturalnych modelu mamy: odchylenie standardowe składnika losowego 0, 6 S e = 8 2 1 = 0, 12 0, 346 współczynnik zbieźności ϕ 2 = 0, 6 = 0, 00335 179, 12

Po oszacowaniu parametrów strukturalnych modelu mamy: odchylenie standardowe składnika losowego 0, 6 S e = 8 2 1 = 0, 12 0, 346 współczynnik zbieźności współczynnik determinacji ϕ 2 = 0, 6 = 0, 00335 179, 12 R 2 = 1 0, 00335 = 0, 99665 a zatem zmienność zmiennej zależnej jest wyjaśniana przez model na 99, 665%.