1.1 Klasyczny Model Regresji Liniowej

Podobne dokumenty
Metoda najmniejszych kwadratów

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów

Metody Ekonometryczne

Natalia Neherbecka. 11 czerwca 2010

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Stosowana Analiza Regresji

Rozdział 8. Regresja. Definiowanie modelu

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Testowanie hipotez statystycznych

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Ekonometria egzamin 07/03/2018

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Losowe zmienne objaśniające. Rozszerzenia KMRL. Rozszerzenia KMRL

Testowanie hipotez statystycznych

Metody Ilościowe w Socjologii

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Metoda najmniejszych kwadratów

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08

Ekonometria egzamin wersja ogólna 29/01/08

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Stacjonarność Integracja. Integracja. Integracja

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Metoda największej wiarogodności

1.3 Własności statystyczne estymatorów MNK

1.9 Czasowy wymiar danych

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

MODELE LINIOWE. Dr Wioleta Drobik

, a reszta dla pominiętej obserwacji wynosi 0, RSS jest stałe, T SS rośnie, więc zarówno R 2 jak i R2 rosną. R 2 = 1 n 1 n. rosnie. n 2 (1 R2 ) = 1 59

Egzamin z ekonometrii wersja IiE, MSEMAT

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

EKONOMETRIA PRZESTRZENNA

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Uogólniona Metoda Momentów

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Wiadomości ogólne o ekonometrii

Czasowy wymiar danych

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Wprowadzenie do analizy korelacji i regresji

Modele wielorównaniowe (forma strukturalna)

x x 1. Przedmiot identyfikacji System x (1) x (2) : x (s) a 1 a 2 : a s mierzone, a = zestaw współczynników konkretyzujacych F ()

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Metody Ekonometryczne

Testowanie hipotez statystycznych

Analiza współzależności zjawisk

Stosowana Analiza Regresji

3. Modele tendencji czasowej w prognozowaniu

Ważne rozkłady i twierdzenia c.d.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Estymacja w regresji nieparametrycznej

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

1.7 Ograniczenia nakładane na równanie regresji

Analiza składowych głównych. Wprowadzenie

Ekonometria egzamin wersja Informatyka i Ekonometria 29/01/08

Analiza wariancji i kowariancji

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Ekonometria egzamin 31/01/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Statystyczna analiza danych 1

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria. Własności składnika losowego. Jakub Mućk. Katedra Ekonomii Ilościowej

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Przykład 2. Stopa bezrobocia

Metoda Najmniejszych Kwadratów

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Stanisław Cichocki Natalia Neherbecka

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Ekonometria. Zajęcia

KORELACJE I REGRESJA LINIOWA

Komputerowa Analiza Danych Doświadczalnych

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Wnioskowanie statystyczne. Statystyka w 5

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Stanisław Cichocki. Natalia Nehrebecka

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Własności statystyczne regresji liniowej. Wykład 4

Programowanie celowe #1

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

EKONOMETRIA. Prof. dr hab. Eugeniusz Gatnar.

Transkrypt:

1.1 Klasyczny Model Regresji Liniowej Klasyczny model Regresji Liniowej jest bardzo użytecznym narzędziem służącym do analizy danych empirycznych. Analiza regresji zajmuje się opisem zależności między wybraną zmienną (nazywaną zmienną zależną lub objaśnianą) i jedną lub wieloma zmiennymi nazywanymi zmiennymi niezależnymi lub objaśniającymi. Termin regresja została zaproponowany przez Francisa Galtona, który zajmował się genetyką i eugeniką. Badając zależność między wzrostem dzieci a wzrostem rodziców stwierdził, że wysocy rodzice mają wysokie dzieci, niscy rodzice niskie, ale istnieje tendencja zbieżności wzrostu do średniej wartości. Tę tendencję nazwał żegresją do przeciętności. Budując model zjawiska zachodzącego w populacji posługujemy się informacjami pochodzącymi z próby y = Xβ + ε y = Xb + e (1) β, ε - wartości pochodzące z populacji, b, e - wartości pochodzące z próby. Zjawisko zachodzące w populacji opisać możemy następującym równaniem liniowym: y = Xβ + ε (2) gdzie: y - wektor wartości zmiennej objaśnianej (zależnej), X - macierz zmiennych objaśniających (niezależnych), β - wektor nieznanych parametrów ε - składnik losowy (czynnik stochastyczny równania). W ekonomii zazwyczaj zachodzi problem przeidentyfikowania układu równań. Szukamy rozwiązania równania, które ma dużo więcej warunków ograniczających (obserwacji) niż jest w równaniu niewiadomych (parametrów w modelu). W rezultacie bardzo rzadko otrzymujemy dokładne rozwiazanie układu, częściej najlepsze liniowe jego przybliżenie. y = y 1 y 2... y n X = x 11 x 21... x 1k x 21 x 22... x 2k............ x n1 x n2... x nk β = β 1 β 2... β k ε = ε 1 ε 2... ε n Model zjawiska zapisujemy jako: 1

lub alternatywnie: E[y X] = Xβ (3) y = Xb + e (4) Bardzo często przyjmuje się, że model posiada stałą. Wtedy pierwsza kolumna macierzy zmiennych objaśniających X wypełniona jest przez wektor l = [1, 1,.., 1]. Założenia modelu: 1. Związek pomiędzy y a x 1,..., x k jest opisany równaniem y = Xβ + ε. Alternatywnie to założenie definiowane jest jako y = Xβ + ε jest procesem generującym dane. 2. liniowość. O modelu ekonometrycznym mówimy, że jest liniowy jeśli jest liniowy względem parametrów. Model nie musi być liniowy względem zmiennych. Mogą być one dowolnymi funkcjami od wartości obserwowanych. Przykłady modeli liniowych: y = β 0 + x 1 β 1 + x 2 β 2 y = β 0 + x 2 1β 1 + x 2 2β 2 Równanie wyjściowe: y = Ax β e ε po zlogarytmowaniu ma formę liniową: ln y = ln A + β ln x + ε ln e ln y = β 0 + β 1 ln x 1 + β 2 ln x 2 + ε jest to ważny model noszący nazwę modelu logliniowego. 3. E(ε) = 0. Wartość oczekiwana składnika losowego wynosi 0. 4. Wariancja składnika losowego jest identyczna dla wszystkich obserwacji (homoscedastyczność). i var(ε i ) = σ 2 5. Kowariancja między dwoma różnymi błędami losowymi wynosi zero. i j cov(ε i, ε j ). 6. Składnik losowy ma wielowymiarowy rozkład normalny N(0, σ 2 I), jest homoscedastyczny, oraz występuje brak autokorelacji. E(εε ) = σ 2 I var(ε) = E(εε ) 2

Macierz wariancji-kowariancji. ε 1 ε 2... ε k [ ε1 ε 2... ε k ] = ε 1 ε 1 ε 1 ε 2... ε 1 ε k ε 2 ε 1 ε 2 ε 2... ε 2 ε k............ ε k ε 1 ε k ε 2... ε k ε k 7. Egzogeniczność zmiennych niezależnych E[ε i x i,1, x i,2,..., x i,k ] = 0. Zaburzenie losowe nie jest funkcją zmiennych objaśniających modelu. 8. Macierz X zawiera wielkości stałe lub elementy losowe, ale proces generujący dane jest niezależny od składnika losowego ε. 9. Macierz X ma pełen rząd kolumnowy. rz(x) = k T 1.2 Metoda najmniejszych kwadratów (MNK) Celem estymacji jest dopasowanie linii regresji do zaobserwowanego zbioru danych empirycznych. Model jest tym lepiej dopasowany im mniejsza jest odległość wartości teoretycznych ŷ od wartości zaobserwowanych y dla zmiennej zależnej. Celem jest minimalizacja min i dist(y i, ŷ i ) ponieważ w przestrzeniach euklidesowych wszystkie metryki są równoważne możemy dla celów optymalizacji wybrać dowolną z nich. Najlepszym wyborem będzie 2. Przy takim wyborze problem minimalizacji sprowadzi się do minimalizacji sumy kwadratów reszt. Ponadto, zastosowana funkcja jest ciągła i różniczkowalna dla wszystkich wartości reszt e i. Dzięki temu rozwiązując w standardowy sposób warunki pierwszego rzędu można znaleźć jej optimum. Nazwa Metoda najmniejszych kwadratów (MNK) bierze się ze względu na sposób znajdowania optymalnych wartości nieznanych parametrów. Polega na minimalizowaniu sumy kwadratów reszt szacowanego modelu. Szacujemy model y = Xb + e e = y Xb RSS = e e = (y Xb) (y Xb) = (y b X )(y Xb) = = y y y Xb b X y + b X Xb Ponieważ y Xb oraz b X y są skalarami (liczbami) możemy je dodać. Otrzymujemy: RSS = y y 2b X y + b X Xb (5) 3

W celu minimalizacji sumy kwadratów błędów liczymy jej pochodna. Pochodna wektora, to pochodna każdego jego elementu liczona osobno. RSS = 2X y + 2X Xb b 2 RSS = 2X X b b ponieważ macierz X ma pełen rząd kolumnowy, to macierz X X jest dodatnio określona więc RSS jest szukanym minimum. b Zapisujemy warunek pierwszego rzędu: 2X y + 2X Xb = 0 X y = X Xb mnożymy obie strony przez macierz (X X) 1 z lewej strony. Ponieważ macierz X X ma pełen rząd kolumnowy i jest dodatnio określona to jest odwracalna (X X) 1 X y = (X X) 1 X Xb b = (X X) 1 X y Własności algebraiczne metody MNK. 1. każdy regresor, oraz cała macierz regresorów jest ortogonalna (prostopadła) względem wektora reszt X e = 0 Dowód: Z warunków pierwszego rzędu mamy X Xb = X y X y X Xb = 0 = X (y X b) = 0 }{{} X e=0 4

2. hiperpłaszyzna regresji przechodzi przez punkt średnich ( X, ȳ) Dowód: Z warunków pierwszego rzędu mamy X Xb = X y weźmy pod uwagę jedynie pierwszy wiersz macierzy X jedynki wówczas: l Xb = l y [T, Σx 1, Σx 2,..., Σx k ]b = Σy / : T [1, Σx 1 /T, Σx 2 /T,..., Σx k /T ]b = Σy/T [1, x 1, x 2,..., x k ]b = ȳ zawierający 3. wektor reszt e jest ortogonalny do wektora wartości dopasowanych ŷ ŷ e = 0 Dowód: wektor wartości dopasowanych ŷ = Xb ŷ = b X. ŷ e = b }{{} X e = 0 0 Dla modelu ze stałą można pokazać dwie dodatkowe własności 4. suma reszt jest równa zero. Dowód: Z własności 1 wiadomo, że X e = 0. Niech X = l. Wówczas: X e = l e = i e = 0 5. średnia wartość teoretyczna jest równa średniej wartości empirycznej (próbkowej) ŷ = ȳ. Dowód: Wiemy, że y = Xb + e = ŷ + e /l l y = l ŷ + l e }{{} 0 /N l y N = l ŷ N = ȳ = ŷ 5

Rysunek 1: Rzut wektora y na przestrzeń X Macierz idempotentna. Definicja. Macierz idempotentna M to jest taka macierz, że M 2 = MM = M. Jeśli M jest macierzą symetryczną idempotentną wtedy M M = M. W ekonometrii literą M oznaczmy macierz M = I X(X X) 1 X. Macierz M przekształca wektor obserwacji w wektor reszt. My = e MX = [I X(X X) 1 X ]X = X X (X X) 1 X X = X X = 0 }{{} I Macierz X(X X) 1 X nazywamy macierzą rzutu (projekcji) i oznaczmy przez P. P = I M = X(X X) 1 X Macierz P jest macierzą przekształcenia (rzutu) wektora y na przestrzeń rozpiętą na kolumnach macierzy X. ŷ = y e = (I M)y = X(X X) 1 X y = P y Macierz idempotentna M oraz macierz rzutu P mają następujące własności: P X = X MP = P M = 0 Za ich pomocą zmienną zależną można rozbić na dwa elementy y = P y + My = rzut + reszta. Część zmienności zmiennej y wyjaśnioną przez zmienne zawarte w macierzy X, oraz składnik resztowy. Wspołczynnik R 2 6

Podstawową równością analizy wariancji jest zależność Σ(y i ȳ) 2 = Σ(ŷ i ȳ) 2 + Σ(y i ŷ i ) 2 (6) Suma po lewiej stronie to całkowita suma kwadratów (Total Sum of Squares). Można ją przedstawić jako sumę dwóch komponentów. Pierwszy jej składnik po prawej stronie to estymowana suma kwadratów (Estimated Sum of Squares), a drugi to resztowa suma kwardartów (Residual Sum of Squares). Dokonują drobnej manipulacji łatwo można udowodnić poniższy wzór: Σ(ŷ i ȳ + y i ŷ i ) 2 = Σ(ŷ i ȳ) 2 + Σ(y i ŷ i ) 2 + 2Σ(y i ŷ }{{} i )(ŷ i ȳ) e Wcześniej pokazaliśmy, że wektor reszt jest ortogonalny do ŷ. Ortogonalność ȳ e wprost wynika z 5 własności MNK. Wobec tego ostatni składnik sumy po prawej stronie jest równy zero. T SS = ESS + RSS / : T SS 1 = ESS T SS + RSS T SS R 2 = ESS T SS = 1 RSS (7) T SS Współczynnik R 2 jest miarą dopasowania modelu. Mówi nam ile procent zmienności zmiennej objaśnianej jest wyjaśnione przez model ekonometryczny. Jednak ta miara ma pewne wady. Po pierwsze jest dobrą miarą wyłącznie dla modelu liniowego. Po drugie, jeżeli w modelu występuje problem autokorelacji, wysokie R 2 nie zawsze świadczy o dobrym dopasowaniu modelu. Kolejnym problemem z tą miarą jest to że dodanie regresora powoduje wzrost współczynnika R 2 nawet gdy nowa zmienna jest słabo skorelowana ze zmienną objaśnianą i w rzeczywistości niewiele wyjaśnia, bowiem: ŷ = X iβ R 2 = 1 Σ(y i ŷ i ) 2 Σ(y i ȳ) = 1 Σ(y i X i β) 2 2 Σ(y i ȳ) 2 Gdy dodamy jedna zmienną do macierzy X, która nie jest dokładnie wspóliniowa ze zmiennymi już uwzględnionymi, to RSS maleje, wobec tego wartość 7

statystyki R 2 rośnie. By uniezależnić miarę dopasowania modelu od liczby zmiennych powszechnie używa się skorygowanego współczynnika R 2 = 1 n 1 n K (1 R2 ) (8) Gdzie n jest liczebnością próby, a k liczbą zmiennych uwzględnionych w modelu łącznie ze stałą. Dodatkowo dla różnych modeli wartość współczynnika R 2 jest różna. Wynik zależy od typu danych na podstawie których oszacowano parametry modelu. Dla modelu szacowanego na podstawie szeregów czasowych wartość R 2 jest bliska 1, dla danych przekrojowych R 2 wartość jest silnie uzależniona od liczebności próby. Dla małej próby R 2 równe 0.5 jest wysokie, dla dużej prawidłowy model może mieć współczynnik R 2 bliski wartości 0. Dla danych panelowych wartość R 2 = 0.3 należy przyjąć za znaczącą. Przykład 1. Na podstawie tej samej próby losowej wyestymowano dwa modele ekonometryczne: (1) y = α 0 + α 1 x 1 + α 2 x 2 + ε R 2 = 0.632 (2) ln y = β 0 + β 1 x 1 + β 2 ln x 2 + ψ R 2 = 0.642 który model jest lepszy? Odpowiedź: Lepszy jest model (2) ponieważ ma wyższy współczynnik R 2. Przykład 2. Na podstawie próby zawierającej k + 1 obserwacji oszacowano parametry modelu: y = α 0 + α 1 x 1 + α 2 x 2 +... + α k x k + ε Jaki będzie współczynnik R 2 tego modelu? Odpowiedź: Współczynnik R 2 modelu będzie bardzo bliski lub równy 1. Ale ponieważ liczba obserwacji k + 1 jest równa liczbie nieznanych parametrów modelu, liczba stopni swobody wynosi 0. Powoduje to że nie jesteśmy w stanie oszacować błędów standardowych szukanych parametr ow. Czyli nic nie wiemy o dopasowaniu modelu. Przykład 3. Oszacowano model postaci y = Xβ + ε. Następnie przeprowadzono regresję reszt z powyższego modelu na uzyskanych wartościach teoretycznych ŷ. Ile będzie wynosiło R 2 w takiej regresji? Odpowiedź: Mamy znaleźć współczynnik R 2 dla modelu: ε = ŷγ + ψ (9) 8

Wiemy, że estymator KMRL jest dany wzorem: b = (X X) 1 X y (10) Podstawiając zmienne z równania (9) do równiania (10) otrzymujemy: γ = (ŷ ŷ) 1 ŷε = ((Xb) Xb) 1 (Xb) ε (11) γ = ((Xb) Xb) 1 (Xb) (y Xb) = γ = ((Xb) Xb) 1 (Xb) y ((Xb) Xb) 1 (Xb) Xb = γ = ((Xb) Xb) 1 (Xb) Xb + ((Xb) Xb) 1 (Xb) ε ((Xb) Xb) 1 (Xb) Xb = γ = I + 0 I = 0 Literatura [1] William H. Greene (2003) Econometric Analysis, 5th edition. Prentice Hall. [2] Wojciech Niemiro (1999) Rachunek Prawdopodobieństwa i statystyka matematyczna, Szkoła Nauk Ścisłych. [3] G.S Maddala (2006) Ekonometria. PWE [4] Aleksander Welfe (1998) Zbiór zadań z ekonometrii, PWE 9