1.1 Klasyczny Model Regresji Liniowej Klasyczny model Regresji Liniowej jest bardzo użytecznym narzędziem służącym do analizy danych empirycznych. Analiza regresji zajmuje się opisem zależności między wybraną zmienną (nazywaną zmienną zależną lub objaśnianą) i jedną lub wieloma zmiennymi nazywanymi zmiennymi niezależnymi lub objaśniającymi. Termin regresja została zaproponowany przez Francisa Galtona, który zajmował się genetyką i eugeniką. Badając zależność między wzrostem dzieci a wzrostem rodziców stwierdził, że wysocy rodzice mają wysokie dzieci, niscy rodzice niskie, ale istnieje tendencja zbieżności wzrostu do średniej wartości. Tę tendencję nazwał żegresją do przeciętności. Budując model zjawiska zachodzącego w populacji posługujemy się informacjami pochodzącymi z próby y = Xβ + ε y = Xb + e (1) β, ε - wartości pochodzące z populacji, b, e - wartości pochodzące z próby. Zjawisko zachodzące w populacji opisać możemy następującym równaniem liniowym: y = Xβ + ε (2) gdzie: y - wektor wartości zmiennej objaśnianej (zależnej), X - macierz zmiennych objaśniających (niezależnych), β - wektor nieznanych parametrów ε - składnik losowy (czynnik stochastyczny równania). W ekonomii zazwyczaj zachodzi problem przeidentyfikowania układu równań. Szukamy rozwiązania równania, które ma dużo więcej warunków ograniczających (obserwacji) niż jest w równaniu niewiadomych (parametrów w modelu). W rezultacie bardzo rzadko otrzymujemy dokładne rozwiazanie układu, częściej najlepsze liniowe jego przybliżenie. y = y 1 y 2... y n X = x 11 x 21... x 1k x 21 x 22... x 2k............ x n1 x n2... x nk β = β 1 β 2... β k ε = ε 1 ε 2... ε n Model zjawiska zapisujemy jako: 1
lub alternatywnie: E[y X] = Xβ (3) y = Xb + e (4) Bardzo często przyjmuje się, że model posiada stałą. Wtedy pierwsza kolumna macierzy zmiennych objaśniających X wypełniona jest przez wektor l = [1, 1,.., 1]. Założenia modelu: 1. Związek pomiędzy y a x 1,..., x k jest opisany równaniem y = Xβ + ε. Alternatywnie to założenie definiowane jest jako y = Xβ + ε jest procesem generującym dane. 2. liniowość. O modelu ekonometrycznym mówimy, że jest liniowy jeśli jest liniowy względem parametrów. Model nie musi być liniowy względem zmiennych. Mogą być one dowolnymi funkcjami od wartości obserwowanych. Przykłady modeli liniowych: y = β 0 + x 1 β 1 + x 2 β 2 y = β 0 + x 2 1β 1 + x 2 2β 2 Równanie wyjściowe: y = Ax β e ε po zlogarytmowaniu ma formę liniową: ln y = ln A + β ln x + ε ln e ln y = β 0 + β 1 ln x 1 + β 2 ln x 2 + ε jest to ważny model noszący nazwę modelu logliniowego. 3. E(ε) = 0. Wartość oczekiwana składnika losowego wynosi 0. 4. Wariancja składnika losowego jest identyczna dla wszystkich obserwacji (homoscedastyczność). i var(ε i ) = σ 2 5. Kowariancja między dwoma różnymi błędami losowymi wynosi zero. i j cov(ε i, ε j ). 6. Składnik losowy ma wielowymiarowy rozkład normalny N(0, σ 2 I), jest homoscedastyczny, oraz występuje brak autokorelacji. E(εε ) = σ 2 I var(ε) = E(εε ) 2
Macierz wariancji-kowariancji. ε 1 ε 2... ε k [ ε1 ε 2... ε k ] = ε 1 ε 1 ε 1 ε 2... ε 1 ε k ε 2 ε 1 ε 2 ε 2... ε 2 ε k............ ε k ε 1 ε k ε 2... ε k ε k 7. Egzogeniczność zmiennych niezależnych E[ε i x i,1, x i,2,..., x i,k ] = 0. Zaburzenie losowe nie jest funkcją zmiennych objaśniających modelu. 8. Macierz X zawiera wielkości stałe lub elementy losowe, ale proces generujący dane jest niezależny od składnika losowego ε. 9. Macierz X ma pełen rząd kolumnowy. rz(x) = k T 1.2 Metoda najmniejszych kwadratów (MNK) Celem estymacji jest dopasowanie linii regresji do zaobserwowanego zbioru danych empirycznych. Model jest tym lepiej dopasowany im mniejsza jest odległość wartości teoretycznych ŷ od wartości zaobserwowanych y dla zmiennej zależnej. Celem jest minimalizacja min i dist(y i, ŷ i ) ponieważ w przestrzeniach euklidesowych wszystkie metryki są równoważne możemy dla celów optymalizacji wybrać dowolną z nich. Najlepszym wyborem będzie 2. Przy takim wyborze problem minimalizacji sprowadzi się do minimalizacji sumy kwadratów reszt. Ponadto, zastosowana funkcja jest ciągła i różniczkowalna dla wszystkich wartości reszt e i. Dzięki temu rozwiązując w standardowy sposób warunki pierwszego rzędu można znaleźć jej optimum. Nazwa Metoda najmniejszych kwadratów (MNK) bierze się ze względu na sposób znajdowania optymalnych wartości nieznanych parametrów. Polega na minimalizowaniu sumy kwadratów reszt szacowanego modelu. Szacujemy model y = Xb + e e = y Xb RSS = e e = (y Xb) (y Xb) = (y b X )(y Xb) = = y y y Xb b X y + b X Xb Ponieważ y Xb oraz b X y są skalarami (liczbami) możemy je dodać. Otrzymujemy: RSS = y y 2b X y + b X Xb (5) 3
W celu minimalizacji sumy kwadratów błędów liczymy jej pochodna. Pochodna wektora, to pochodna każdego jego elementu liczona osobno. RSS = 2X y + 2X Xb b 2 RSS = 2X X b b ponieważ macierz X ma pełen rząd kolumnowy, to macierz X X jest dodatnio określona więc RSS jest szukanym minimum. b Zapisujemy warunek pierwszego rzędu: 2X y + 2X Xb = 0 X y = X Xb mnożymy obie strony przez macierz (X X) 1 z lewej strony. Ponieważ macierz X X ma pełen rząd kolumnowy i jest dodatnio określona to jest odwracalna (X X) 1 X y = (X X) 1 X Xb b = (X X) 1 X y Własności algebraiczne metody MNK. 1. każdy regresor, oraz cała macierz regresorów jest ortogonalna (prostopadła) względem wektora reszt X e = 0 Dowód: Z warunków pierwszego rzędu mamy X Xb = X y X y X Xb = 0 = X (y X b) = 0 }{{} X e=0 4
2. hiperpłaszyzna regresji przechodzi przez punkt średnich ( X, ȳ) Dowód: Z warunków pierwszego rzędu mamy X Xb = X y weźmy pod uwagę jedynie pierwszy wiersz macierzy X jedynki wówczas: l Xb = l y [T, Σx 1, Σx 2,..., Σx k ]b = Σy / : T [1, Σx 1 /T, Σx 2 /T,..., Σx k /T ]b = Σy/T [1, x 1, x 2,..., x k ]b = ȳ zawierający 3. wektor reszt e jest ortogonalny do wektora wartości dopasowanych ŷ ŷ e = 0 Dowód: wektor wartości dopasowanych ŷ = Xb ŷ = b X. ŷ e = b }{{} X e = 0 0 Dla modelu ze stałą można pokazać dwie dodatkowe własności 4. suma reszt jest równa zero. Dowód: Z własności 1 wiadomo, że X e = 0. Niech X = l. Wówczas: X e = l e = i e = 0 5. średnia wartość teoretyczna jest równa średniej wartości empirycznej (próbkowej) ŷ = ȳ. Dowód: Wiemy, że y = Xb + e = ŷ + e /l l y = l ŷ + l e }{{} 0 /N l y N = l ŷ N = ȳ = ŷ 5
Rysunek 1: Rzut wektora y na przestrzeń X Macierz idempotentna. Definicja. Macierz idempotentna M to jest taka macierz, że M 2 = MM = M. Jeśli M jest macierzą symetryczną idempotentną wtedy M M = M. W ekonometrii literą M oznaczmy macierz M = I X(X X) 1 X. Macierz M przekształca wektor obserwacji w wektor reszt. My = e MX = [I X(X X) 1 X ]X = X X (X X) 1 X X = X X = 0 }{{} I Macierz X(X X) 1 X nazywamy macierzą rzutu (projekcji) i oznaczmy przez P. P = I M = X(X X) 1 X Macierz P jest macierzą przekształcenia (rzutu) wektora y na przestrzeń rozpiętą na kolumnach macierzy X. ŷ = y e = (I M)y = X(X X) 1 X y = P y Macierz idempotentna M oraz macierz rzutu P mają następujące własności: P X = X MP = P M = 0 Za ich pomocą zmienną zależną można rozbić na dwa elementy y = P y + My = rzut + reszta. Część zmienności zmiennej y wyjaśnioną przez zmienne zawarte w macierzy X, oraz składnik resztowy. Wspołczynnik R 2 6
Podstawową równością analizy wariancji jest zależność Σ(y i ȳ) 2 = Σ(ŷ i ȳ) 2 + Σ(y i ŷ i ) 2 (6) Suma po lewiej stronie to całkowita suma kwadratów (Total Sum of Squares). Można ją przedstawić jako sumę dwóch komponentów. Pierwszy jej składnik po prawej stronie to estymowana suma kwadratów (Estimated Sum of Squares), a drugi to resztowa suma kwardartów (Residual Sum of Squares). Dokonują drobnej manipulacji łatwo można udowodnić poniższy wzór: Σ(ŷ i ȳ + y i ŷ i ) 2 = Σ(ŷ i ȳ) 2 + Σ(y i ŷ i ) 2 + 2Σ(y i ŷ }{{} i )(ŷ i ȳ) e Wcześniej pokazaliśmy, że wektor reszt jest ortogonalny do ŷ. Ortogonalność ȳ e wprost wynika z 5 własności MNK. Wobec tego ostatni składnik sumy po prawej stronie jest równy zero. T SS = ESS + RSS / : T SS 1 = ESS T SS + RSS T SS R 2 = ESS T SS = 1 RSS (7) T SS Współczynnik R 2 jest miarą dopasowania modelu. Mówi nam ile procent zmienności zmiennej objaśnianej jest wyjaśnione przez model ekonometryczny. Jednak ta miara ma pewne wady. Po pierwsze jest dobrą miarą wyłącznie dla modelu liniowego. Po drugie, jeżeli w modelu występuje problem autokorelacji, wysokie R 2 nie zawsze świadczy o dobrym dopasowaniu modelu. Kolejnym problemem z tą miarą jest to że dodanie regresora powoduje wzrost współczynnika R 2 nawet gdy nowa zmienna jest słabo skorelowana ze zmienną objaśnianą i w rzeczywistości niewiele wyjaśnia, bowiem: ŷ = X iβ R 2 = 1 Σ(y i ŷ i ) 2 Σ(y i ȳ) = 1 Σ(y i X i β) 2 2 Σ(y i ȳ) 2 Gdy dodamy jedna zmienną do macierzy X, która nie jest dokładnie wspóliniowa ze zmiennymi już uwzględnionymi, to RSS maleje, wobec tego wartość 7
statystyki R 2 rośnie. By uniezależnić miarę dopasowania modelu od liczby zmiennych powszechnie używa się skorygowanego współczynnika R 2 = 1 n 1 n K (1 R2 ) (8) Gdzie n jest liczebnością próby, a k liczbą zmiennych uwzględnionych w modelu łącznie ze stałą. Dodatkowo dla różnych modeli wartość współczynnika R 2 jest różna. Wynik zależy od typu danych na podstawie których oszacowano parametry modelu. Dla modelu szacowanego na podstawie szeregów czasowych wartość R 2 jest bliska 1, dla danych przekrojowych R 2 wartość jest silnie uzależniona od liczebności próby. Dla małej próby R 2 równe 0.5 jest wysokie, dla dużej prawidłowy model może mieć współczynnik R 2 bliski wartości 0. Dla danych panelowych wartość R 2 = 0.3 należy przyjąć za znaczącą. Przykład 1. Na podstawie tej samej próby losowej wyestymowano dwa modele ekonometryczne: (1) y = α 0 + α 1 x 1 + α 2 x 2 + ε R 2 = 0.632 (2) ln y = β 0 + β 1 x 1 + β 2 ln x 2 + ψ R 2 = 0.642 który model jest lepszy? Odpowiedź: Lepszy jest model (2) ponieważ ma wyższy współczynnik R 2. Przykład 2. Na podstawie próby zawierającej k + 1 obserwacji oszacowano parametry modelu: y = α 0 + α 1 x 1 + α 2 x 2 +... + α k x k + ε Jaki będzie współczynnik R 2 tego modelu? Odpowiedź: Współczynnik R 2 modelu będzie bardzo bliski lub równy 1. Ale ponieważ liczba obserwacji k + 1 jest równa liczbie nieznanych parametrów modelu, liczba stopni swobody wynosi 0. Powoduje to że nie jesteśmy w stanie oszacować błędów standardowych szukanych parametr ow. Czyli nic nie wiemy o dopasowaniu modelu. Przykład 3. Oszacowano model postaci y = Xβ + ε. Następnie przeprowadzono regresję reszt z powyższego modelu na uzyskanych wartościach teoretycznych ŷ. Ile będzie wynosiło R 2 w takiej regresji? Odpowiedź: Mamy znaleźć współczynnik R 2 dla modelu: ε = ŷγ + ψ (9) 8
Wiemy, że estymator KMRL jest dany wzorem: b = (X X) 1 X y (10) Podstawiając zmienne z równania (9) do równiania (10) otrzymujemy: γ = (ŷ ŷ) 1 ŷε = ((Xb) Xb) 1 (Xb) ε (11) γ = ((Xb) Xb) 1 (Xb) (y Xb) = γ = ((Xb) Xb) 1 (Xb) y ((Xb) Xb) 1 (Xb) Xb = γ = ((Xb) Xb) 1 (Xb) Xb + ((Xb) Xb) 1 (Xb) ε ((Xb) Xb) 1 (Xb) Xb = γ = I + 0 I = 0 Literatura [1] William H. Greene (2003) Econometric Analysis, 5th edition. Prentice Hall. [2] Wojciech Niemiro (1999) Rachunek Prawdopodobieństwa i statystyka matematyczna, Szkoła Nauk Ścisłych. [3] G.S Maddala (2006) Ekonometria. PWE [4] Aleksander Welfe (1998) Zbiór zadań z ekonometrii, PWE 9