Wykªad 1+2: Klasyczny model regresji liniowej Podstawy R Ekonometria Stosowana SGH KMNK i R 1 / 45
Plan wykªadu 1 Informacje organizacyjne 2 Wprowadzenie do ekonometrii Ekonometria Dane i postacie funkcyjne równa«testy statystyczne resume 3 Model regresji liniowej i estymator KMNK 4 Przykªad: satysfakcja kobiet i m»czyzn ze studiów 5 KMNK jako estymator: precyzja szacunku 6 Diagnostyka dopasowania do danych KMNK i R 2 / 45
Plan prezentacji 1 Informacje organizacyjne 2 Wprowadzenie do ekonometrii 3 Model regresji liniowej i estymator KMNK 4 Przykªad: satysfakcja kobiet i m»czyzn ze studiów 5 KMNK jako estymator: precyzja szacunku 6 Diagnostyka dopasowania do danych KMNK i R 3 / 45
Informacje organizacyjne Zaliczenie egzamin na ostatnich zaj ciach lub w sesji (do ustalenia) 5-6 zada«do rozwi zania przy pomocy komputera odpowiedzi na kartce KMNK i R 4 / 45
Informacje organizacyjne Materiaªy i kontakt materiaªy dost pne na stronie internetowej: websghwawpl/~atoroj/ w zakªadce Ekonometria stosowana KMNK i R 5 / 45
Lektury Polecane lektury ogólne dla pocz tkuj cych i ugruntowania wiedzy: G S Maddala, Ekonometria, PWN, 2007 A Welfe, Ekonometria Metody i ich zastosowanie, PWE, 2009 dla zaawansowanych i jako leksykon: W Greene, Econometric Analysis, Prentice Hall, ró»ne wydania KMNK i R 6 / 45
Lektury Polecane lektury wyspecjalizowane szeregi czasowe (makroekonometria): J D Hamilton, Time Series Analysis, Princeton University Press, 1994 dane przekrojowe, panele (mikroekonometria): J M Woolridge, Econometric Analysis of Cross Section and Panel Data, MIT Press, 2001 M Gruszczy«ski (red), Mikroekonometria Modele i metody analizy danych indywidualnych, Wolters Kluwer, 2010 KMNK i R 7 / 45
Plan prezentacji 1 Informacje organizacyjne 2 Wprowadzenie do ekonometrii 3 Model regresji liniowej i estymator KMNK 4 Przykªad: satysfakcja kobiet i m»czyzn ze studiów 5 KMNK jako estymator: precyzja szacunku 6 Diagnostyka dopasowania do danych KMNK i R 8 / 45
Ekonometria Po co ekonometria? badanie powi za«mi dzy cechami statystycznymi ustalanie warto±ci parametrów w modelach ekonomicznych (np elastyczno±ci) werykacja teorii ekonomicznych budowa modeli prognostycznych budowa modeli symulacyjnych dla ró»nych wariantów polityki gospodarczej KMNK i R 9 / 45
Ekonometria Po co ekonometria? badanie powi za«mi dzy cechami statystycznymi ustalanie warto±ci parametrów w modelach ekonomicznych (np elastyczno±ci) werykacja teorii ekonomicznych budowa modeli prognostycznych budowa modeli symulacyjnych dla ró»nych wariantów polityki gospodarczej KMNK i R 9 / 45
Ekonometria Po co ekonometria? badanie powi za«mi dzy cechami statystycznymi ustalanie warto±ci parametrów w modelach ekonomicznych (np elastyczno±ci) werykacja teorii ekonomicznych budowa modeli prognostycznych budowa modeli symulacyjnych dla ró»nych wariantów polityki gospodarczej KMNK i R 9 / 45
Ekonometria Po co ekonometria? badanie powi za«mi dzy cechami statystycznymi ustalanie warto±ci parametrów w modelach ekonomicznych (np elastyczno±ci) werykacja teorii ekonomicznych budowa modeli prognostycznych budowa modeli symulacyjnych dla ró»nych wariantów polityki gospodarczej KMNK i R 9 / 45
Ekonometria Po co ekonometria? badanie powi za«mi dzy cechami statystycznymi ustalanie warto±ci parametrów w modelach ekonomicznych (np elastyczno±ci) werykacja teorii ekonomicznych budowa modeli prognostycznych budowa modeli symulacyjnych dla ró»nych wariantów polityki gospodarczej KMNK i R 9 / 45
Ekonometria Jakie problemy w praktyce? braki danych ekstrapolacja, interpolacja, dopasowanie trendu, wypeªnienie warto±ciami teoretycznymi, usuwanie informacji niewielki rozmiar próby (liczba obserwacji > liczba parametrów, uproszczona reguªa: co najmniej 10 obserwacji na 1 szacowany parametr) brak identykacji niektórych parametrów (lub sªaba), np y t = α 0 + α 1 α 2 x t + ε t (w szczególno±ci: modele wielorównaniowe) makroekonometria: niestacjonarno± zmiennych mikroekonometria: dominacja zmiennych o skali nominalnej dokªadna wspóªliniowo± przy zªym doborze zmiennych KMNK i R 10 / 45
Ekonometria Jakie problemy w praktyce? braki danych ekstrapolacja, interpolacja, dopasowanie trendu, wypeªnienie warto±ciami teoretycznymi, usuwanie informacji niewielki rozmiar próby (liczba obserwacji > liczba parametrów, uproszczona reguªa: co najmniej 10 obserwacji na 1 szacowany parametr) brak identykacji niektórych parametrów (lub sªaba), np y t = α 0 + α 1 α 2 x t + ε t (w szczególno±ci: modele wielorównaniowe) makroekonometria: niestacjonarno± zmiennych mikroekonometria: dominacja zmiennych o skali nominalnej dokªadna wspóªliniowo± przy zªym doborze zmiennych KMNK i R 10 / 45
Ekonometria Jakie problemy w praktyce? braki danych ekstrapolacja, interpolacja, dopasowanie trendu, wypeªnienie warto±ciami teoretycznymi, usuwanie informacji niewielki rozmiar próby (liczba obserwacji > liczba parametrów, uproszczona reguªa: co najmniej 10 obserwacji na 1 szacowany parametr) brak identykacji niektórych parametrów (lub sªaba), np y t = α 0 + α 1 α 2 x t + ε t (w szczególno±ci: modele wielorównaniowe) makroekonometria: niestacjonarno± zmiennych mikroekonometria: dominacja zmiennych o skali nominalnej dokªadna wspóªliniowo± przy zªym doborze zmiennych KMNK i R 10 / 45
Ekonometria Jakie problemy w praktyce? braki danych ekstrapolacja, interpolacja, dopasowanie trendu, wypeªnienie warto±ciami teoretycznymi, usuwanie informacji niewielki rozmiar próby (liczba obserwacji > liczba parametrów, uproszczona reguªa: co najmniej 10 obserwacji na 1 szacowany parametr) brak identykacji niektórych parametrów (lub sªaba), np y t = α 0 + α 1 α 2 x t + ε t (w szczególno±ci: modele wielorównaniowe) makroekonometria: niestacjonarno± zmiennych mikroekonometria: dominacja zmiennych o skali nominalnej dokªadna wspóªliniowo± przy zªym doborze zmiennych KMNK i R 10 / 45
Ekonometria Jakie problemy w praktyce? braki danych ekstrapolacja, interpolacja, dopasowanie trendu, wypeªnienie warto±ciami teoretycznymi, usuwanie informacji niewielki rozmiar próby (liczba obserwacji > liczba parametrów, uproszczona reguªa: co najmniej 10 obserwacji na 1 szacowany parametr) brak identykacji niektórych parametrów (lub sªaba), np y t = α 0 + α 1 α 2 x t + ε t (w szczególno±ci: modele wielorównaniowe) makroekonometria: niestacjonarno± zmiennych mikroekonometria: dominacja zmiennych o skali nominalnej dokªadna wspóªliniowo± przy zªym doborze zmiennych KMNK i R 10 / 45
Ekonometria Jakie problemy w praktyce? braki danych ekstrapolacja, interpolacja, dopasowanie trendu, wypeªnienie warto±ciami teoretycznymi, usuwanie informacji niewielki rozmiar próby (liczba obserwacji > liczba parametrów, uproszczona reguªa: co najmniej 10 obserwacji na 1 szacowany parametr) brak identykacji niektórych parametrów (lub sªaba), np y t = α 0 + α 1 α 2 x t + ε t (w szczególno±ci: modele wielorównaniowe) makroekonometria: niestacjonarno± zmiennych mikroekonometria: dominacja zmiennych o skali nominalnej dokªadna wspóªliniowo± przy zªym doborze zmiennych KMNK i R 10 / 45
Dane i postacie funkcyjne równa«jaka struktura danych? 1 szeregi czasowe (produkcja przemysªowa, PKB, ±rednia temperatura w miesi cu, liczba pism wysªanych w tygodniu) 2 dane przekrojowe (wyniki sonda»u wyborczego na próbie 1000 respondentów, dane nt powierzchni powiatów) 3 dane panelowe (kwartalny PKB w poszczególnych pa«stwach UE w okresie 1995-2009) KMNK i R 11 / 45
Dane i postacie funkcyjne równa«jaka struktura danych? 1 szeregi czasowe (produkcja przemysªowa, PKB, ±rednia temperatura w miesi cu, liczba pism wysªanych w tygodniu) 2 dane przekrojowe (wyniki sonda»u wyborczego na próbie 1000 respondentów, dane nt powierzchni powiatów) 3 dane panelowe (kwartalny PKB w poszczególnych pa«stwach UE w okresie 1995-2009) KMNK i R 11 / 45
Dane i postacie funkcyjne równa«jaka struktura danych? 1 szeregi czasowe (produkcja przemysªowa, PKB, ±rednia temperatura w miesi cu, liczba pism wysªanych w tygodniu) 2 dane przekrojowe (wyniki sonda»u wyborczego na próbie 1000 respondentów, dane nt powierzchni powiatów) 3 dane panelowe (kwartalny PKB w poszczególnych pa«stwach UE w okresie 1995-2009) KMNK i R 11 / 45
Dane i postacie funkcyjne równa«skale pomiarowe skala nominalna (1 czarny, 2 biaªy, 3 zielony, ) skala porz dkowa (np skala Likerta: 1 zdecydowanie za, 2 za, 3 nie mam zdania, 4 przeciw, 5 zdecydowanie przeciw) skala ilorazowa (z ew ograniczeniami: liczby R, liczby R + ) Zmienne binarne 0 nie, 1 tak Zmienne licznikowe 1, 2, 3, 4, 5, 6 (np liczba telefonów odebranych w ci gu dnia; ile razy) KMNK i R 12 / 45
Dane i postacie funkcyjne równa«skale pomiarowe skala nominalna (1 czarny, 2 biaªy, 3 zielony, ) skala porz dkowa (np skala Likerta: 1 zdecydowanie za, 2 za, 3 nie mam zdania, 4 przeciw, 5 zdecydowanie przeciw) skala ilorazowa (z ew ograniczeniami: liczby R, liczby R + ) Zmienne binarne 0 nie, 1 tak Zmienne licznikowe 1, 2, 3, 4, 5, 6 (np liczba telefonów odebranych w ci gu dnia; ile razy) KMNK i R 12 / 45
Dane i postacie funkcyjne równa«skale pomiarowe skala nominalna (1 czarny, 2 biaªy, 3 zielony, ) skala porz dkowa (np skala Likerta: 1 zdecydowanie za, 2 za, 3 nie mam zdania, 4 przeciw, 5 zdecydowanie przeciw) skala ilorazowa (z ew ograniczeniami: liczby R, liczby R + ) Zmienne binarne 0 nie, 1 tak Zmienne licznikowe 1, 2, 3, 4, 5, 6 (np liczba telefonów odebranych w ci gu dnia; ile razy) KMNK i R 12 / 45
Dane i postacie funkcyjne równa«skale pomiarowe skala nominalna (1 czarny, 2 biaªy, 3 zielony, ) skala porz dkowa (np skala Likerta: 1 zdecydowanie za, 2 za, 3 nie mam zdania, 4 przeciw, 5 zdecydowanie przeciw) skala ilorazowa (z ew ograniczeniami: liczby R, liczby R + ) Zmienne binarne 0 nie, 1 tak Zmienne licznikowe 1, 2, 3, 4, 5, 6 (np liczba telefonów odebranych w ci gu dnia; ile razy) KMNK i R 12 / 45
Dane i postacie funkcyjne równa«skale pomiarowe skala nominalna (1 czarny, 2 biaªy, 3 zielony, ) skala porz dkowa (np skala Likerta: 1 zdecydowanie za, 2 za, 3 nie mam zdania, 4 przeciw, 5 zdecydowanie przeciw) skala ilorazowa (z ew ograniczeniami: liczby R, liczby R + ) Zmienne binarne 0 nie, 1 tak Zmienne licznikowe 1, 2, 3, 4, 5, 6 (np liczba telefonów odebranych w ci gu dnia; ile razy) KMNK i R 12 / 45
Dane i postacie funkcyjne równa«typ zmiennej obja±nianej a rodzaj modelu model regresji liniowej: skala ilorazowa logit/probit: zmienna zerojedynkowa uporz dkowany wielomianowy (ordered logit/probit): zmienna porz dkowa nieuporz dkowany wielomianowy (multinomial logit/probit): zmienna nominalna tobit: zmienna uci ta modele zmiennej licznikowej (count variable) KMNK i R 13 / 45
Dane i postacie funkcyjne równa«model regresji a posta funkcyjna model liniowy: y = β 0 + β 1 x 1 + β 2 x 2 + + ε model nieliniowy wzgl dem zmiennych: y = β 0 x β 1 1 x β 2 2 ε ln y = ln β 0 + β 1 ln x 1 + β 2 ln x 2 + + ln ε model nieliniowy wzgl dem parametrów: y = β 0 x β 1 x β 2 + ε 1 2 KMNK i R 14 / 45
Dane i postacie funkcyjne równa«model regresji a posta funkcyjna model liniowy: y = β 0 + β 1 x 1 + β 2 x 2 + + ε model nieliniowy wzgl dem zmiennych: y = β 0 x β 1 1 x β 2 2 ε ln y = ln β 0 + β 1 ln x 1 + β 2 ln x 2 + + ln ε model nieliniowy wzgl dem parametrów: y = β 0 x β 1 x β 2 + ε 1 2 KMNK i R 14 / 45
Dane i postacie funkcyjne równa«model regresji a posta funkcyjna model liniowy: y = β 0 + β 1 x 1 + β 2 x 2 + + ε model nieliniowy wzgl dem zmiennych: y = β 0 x β 1 1 x β 2 2 ε ln y = ln β 0 + β 1 ln x 1 + β 2 ln x 2 + + ln ε model nieliniowy wzgl dem parametrów: y = β 0 x β 1 x β 2 + ε 1 2 KMNK i R 14 / 45
Testy statystyczne resume Testy statystyczne: H 0 i H 1 testy statystyczne sªu» do werykacji rozmaitych hipotez zwi zanych z ocen jako±ci modelu ekonometrycznego hipoteza zerowa: H 0 : x = m hipoteza alternatywna dwustronna:h 1 : x m jednostronna:h 1 : x > m KMNK i R 15 / 45
Testy statystyczne resume Testy statystyczne: H 0 i H 1 testy statystyczne sªu» do werykacji rozmaitych hipotez zwi zanych z ocen jako±ci modelu ekonometrycznego hipoteza zerowa: H 0 : x = m hipoteza alternatywna dwustronna:h 1 : x m jednostronna:h 1 : x > m KMNK i R 15 / 45
Testy statystyczne resume Testy statystyczne: H 0 i H 1 testy statystyczne sªu» do werykacji rozmaitych hipotez zwi zanych z ocen jako±ci modelu ekonometrycznego hipoteza zerowa: H 0 : x = m hipoteza alternatywna dwustronna:h 1 : x m jednostronna:h 1 : x > m KMNK i R 15 / 45
Testy statystyczne resume Testy statystyczne: bª dy mo»liwe dwa rodzaje bª dów: bª d I rodzaju: odrzucenie prawdziwej hipotezy zerowej bª d II rodzaju: nieodrzucenie faªszywej hipotezy zerowej testujemy przy zaªo»eniu prawdziwo±ci H 0 ; niektóre testy s sªabe (niska moc testu), co oznacza,»e trudno im odrzuci hipotez zerow i prawdopodobie«stwo bª du II rodzaju jest wysokie dlatego mo»liwe 2 decyzje: odrzucamy H 0 nie odrzucamy H 0 (a nie: przyjmujemy H 0!), tzn próba statystyczna nie zawiera wystarczaj cych dowodów na to,»e zaªo»enie o prawdziwo±ci H 0 byªo bª dne KMNK i R 16 / 45
Testy statystyczne resume Testy statystyczne: bª dy mo»liwe dwa rodzaje bª dów: bª d I rodzaju: odrzucenie prawdziwej hipotezy zerowej bª d II rodzaju: nieodrzucenie faªszywej hipotezy zerowej testujemy przy zaªo»eniu prawdziwo±ci H 0 ; niektóre testy s sªabe (niska moc testu), co oznacza,»e trudno im odrzuci hipotez zerow i prawdopodobie«stwo bª du II rodzaju jest wysokie dlatego mo»liwe 2 decyzje: odrzucamy H 0 nie odrzucamy H 0 (a nie: przyjmujemy H 0!), tzn próba statystyczna nie zawiera wystarczaj cych dowodów na to,»e zaªo»enie o prawdziwo±ci H 0 byªo bª dne KMNK i R 16 / 45
Testy statystyczne resume Testy statystyczne: bª dy mo»liwe dwa rodzaje bª dów: bª d I rodzaju: odrzucenie prawdziwej hipotezy zerowej bª d II rodzaju: nieodrzucenie faªszywej hipotezy zerowej testujemy przy zaªo»eniu prawdziwo±ci H 0 ; niektóre testy s sªabe (niska moc testu), co oznacza,»e trudno im odrzuci hipotez zerow i prawdopodobie«stwo bª du II rodzaju jest wysokie dlatego mo»liwe 2 decyzje: odrzucamy H 0 nie odrzucamy H 0 (a nie: przyjmujemy H 0!), tzn próba statystyczna nie zawiera wystarczaj cych dowodów na to,»e zaªo»enie o prawdziwo±ci H 0 byªo bª dne KMNK i R 16 / 45
Testy statystyczne resume Testy statystyczne: decyzja trade-o mi dzy bª dem I i II rodzaju w praktyce: wybieramy maksymalne dopuszczalne prawdopodobie«stwo bª du I rodzaju: poziom istotno±ci (signicance level) α =0,10 α =0,05 α =0,01 porównujemy go z empirycznym poziomem istotno±ci (p-value) p > α: nie odrzucamy H 0 p < α: odrzucamy H 0 KMNK i R 17 / 45
Testy statystyczne resume Testy statystyczne: decyzja trade-o mi dzy bª dem I i II rodzaju w praktyce: wybieramy maksymalne dopuszczalne prawdopodobie«stwo bª du I rodzaju: poziom istotno±ci (signicance level) α =0,10 α =0,05 α =0,01 porównujemy go z empirycznym poziomem istotno±ci (p-value) p > α: nie odrzucamy H 0 p < α: odrzucamy H 0 KMNK i R 17 / 45
Testy statystyczne resume Testy statystyczne: decyzja trade-o mi dzy bª dem I i II rodzaju w praktyce: wybieramy maksymalne dopuszczalne prawdopodobie«stwo bª du I rodzaju: poziom istotno±ci (signicance level) α =0,10 α =0,05 α =0,01 porównujemy go z empirycznym poziomem istotno±ci (p-value) p > α: nie odrzucamy H 0 p < α: odrzucamy H 0 KMNK i R 17 / 45
Plan prezentacji 1 Informacje organizacyjne 2 Wprowadzenie do ekonometrii 3 Model regresji liniowej i estymator KMNK 4 Przykªad: satysfakcja kobiet i m»czyzn ze studiów 5 KMNK jako estymator: precyzja szacunku 6 Diagnostyka dopasowania do danych KMNK i R 18 / 45
Regresja liniowa i KMNK Regresja liniowa y i = β 0 + β 1 x 1,i + β 2 x 2,i + + β k x k,i + ε i = β 0 [ ] β 1 1 x1,i x 2,i x k,i β 2 + ε i = x i β + ε i β k Parametrów [ β 0 β 1 β 2 β k ] T nie znamy i musimy je oszacowa Sposób: dobierzmy je tak, by rozrzut ε i wokóª zera byª jak n najni»szy Rozrzut ten mo»na mierzy np ε 2 i KMNK i R 19 / 45 i=1
Regresja liniowa i KMNK Klasyczna metoda najmniejszych kwadratów (KMNK) ε 2 i i=1 S = n = n i=1 (y i β 0 β 1 x 1,i β 2 x 2,i β k x k,i ) 2 min β 0,β 1, Zapisuj c: y = Warunek minimalizacji: y 1 y 2 y n S β = 0 1 x 1,1 x 2,1 x k,1, X = 1 x 1,2 x 2,2 x k,2 1 x 1,n x 2,n x k,n otrzymujemy macierzowy wzór:, β = β 0 β 1 β 2 β k β = ( X T X ) 1 X T y KMNK i R 20 / 45
Regresja liniowa i KMNK Dlaczego taki wzór? S = n ε 2 i = ε T ε = (y Xβ) T (y Xβ) = i=1 = y T y β T X T y y T Xβ + β T X T Xβ = = y T y 2y T Xβ + β T X T Xβ przy czym ostatnia równo± wynika z tego,»e 2 i 3 element sumy przed ni s wzajemn transpozycj i jednocze±nie skalarem, wi c musz by równe S β = 0 yt y β + βt X T Xβ β = 0 Zgodnie z reguªami ró»niczkowania wyra»e«macierzowych: 2y T X + β T ( 2X T X ) = 0 β T ( X T X ) ( = y T X X T X ) β = X T y β = ( X T X ) 1 X T y 2yT Xβ β KMNK i R 21 / 45
Plan prezentacji 1 Informacje organizacyjne 2 Wprowadzenie do ekonometrii 3 Model regresji liniowej i estymator KMNK 4 Przykªad: satysfakcja kobiet i m»czyzn ze studiów 5 KMNK jako estymator: precyzja szacunku 6 Diagnostyka dopasowania do danych KMNK i R 22 / 45
Problem Przykªad: co determinuje satysfakcj ze studiów? W ankiecie padªy 3 pytania: satysfakcja ze studiów (0-100) ±rednia ocen pªe Zbiór danych w XLS: Zapisz jako - CSV Nast pnie wczytujemy zbiór CSV do R: KMNK i R 23 / 45
Wst pna eksploracja Pierwszy wykres nie sugeruje istnienia zale»no±ci KMNK i R 24 / 45
Wst pna eksploracja Jednak rozbicie na podpróby ju» tak KMNK i R 25 / 45
Analiza regresji Regresja na podpróbie kobiet (1) KMNK i R 26 / 45
Analiza regresji Regresja na podpróbie kobiet (2) KMNK i R 27 / 45
Analiza regresji Wyniki Wraz ze wzrostem ±redniej ocen o 1, satysfakcja ze studiów w populacji kobiet spada, ceteris paribus, ±rednio o 16,765 punktu [Umowna, cho w tym przypadku bezsensowna interpretacja staªej] Przy hipotetycznej ±redniej ocen 0, satysfakcja ze studiów w populacji kobiet wynosiªaby ±rednio 133,784 punktu KMNK i R 28 / 45
Plan prezentacji 1 Informacje organizacyjne 2 Wprowadzenie do ekonometrii 3 Model regresji liniowej i estymator KMNK 4 Przykªad: satysfakcja kobiet i m»czyzn ze studiów 5 KMNK jako estymator: precyzja szacunku 6 Diagnostyka dopasowania do danych KMNK i R 29 / 45
Precyzja szacunku w modelu regresji liniowej Precyzja szacunku parametrów (1) ˆβ to estymator prawdziwej warto±ci parametru β; jest funkcj losowo dobranej próby próby, a wi c i warto±ci ˆβ mog by ró»ne estymator jako zmienna losowa ma wariancj ˆβ = ˆβ 0 ˆβ 1 ˆβ 2 ( ) Var ˆβ = ˆβ ( k ) var ˆβ0 ( cov ˆβ0, ˆβ ) 1 ( cov ˆβ0, ˆβ ) 2 ( cov ˆβ0, ˆβ ) 1 ( ) var ˆβ1 ( cov ˆβ1, ˆβ ) 2 ( cov ˆβ0, ˆβ ) 2 ( cov ˆβ1, ˆβ ) 2 ( ) var ˆβ2 ( ) var ˆβ k KMNK i R 30 / 45
Precyzja szacunku w modelu regresji liniowej Precyzja szacunku parametrów (1) ˆβ to estymator prawdziwej warto±ci parametru β; jest funkcj losowo dobranej próby próby, a wi c i warto±ci ˆβ mog by ró»ne estymator jako zmienna losowa ma wariancj ˆβ = ˆβ 0 ˆβ 1 ˆβ 2 ( ) Var ˆβ = ˆβ ( k ) var ˆβ0 ( cov ˆβ0, ˆβ ) 1 ( cov ˆβ0, ˆβ ) 2 ( cov ˆβ0, ˆβ ) 1 ( ) var ˆβ1 ( cov ˆβ1, ˆβ ) 2 ( cov ˆβ0, ˆβ ) 2 ( cov ˆβ1, ˆβ ) 2 ( ) var ˆβ2 ( ) var ˆβ k KMNK i R 30 / 45
Precyzja szacunku w modelu regresji liniowej Precyzja szacunku parametrów (1) ˆβ to estymator prawdziwej warto±ci parametru β; jest funkcj losowo dobranej próby próby, a wi c i warto±ci ˆβ mog by ró»ne estymator jako zmienna losowa ma wariancj ˆβ = ˆβ 0 ˆβ 1 ˆβ 2 ( ) Var ˆβ = ˆβ ( k ) var ˆβ0 ( cov ˆβ0, ˆβ ) 1 ( cov ˆβ0, ˆβ ) 2 ( cov ˆβ0, ˆβ ) 1 ( ) var ˆβ1 ( cov ˆβ1, ˆβ ) 2 ( cov ˆβ0, ˆβ ) 2 ( cov ˆβ1, ˆβ ) 2 ( ) var ˆβ2 ( ) var ˆβ k KMNK i R 30 / 45
Precyzja szacunku w modelu regresji liniowej Estymator: po» dane wªasno±ci β = ( X T X ) 1 X T y to estymator (funkcja próby) pewnej prawdziwej, nieznanej warto±ci parametrów β (w populacji/procesie generuj cym dane) ) nieobci»ono± : E (ˆβ = β asymptotyczna nieobci»ono± : E (ˆβ ) n = β zgodno± : warto± estymatora ˆβ zbiega do β wraz ze wzrostem n efektywno± : najni»sza mo»liwa wariancja estymatora (wysoka precyzja) KMNK i R 31 / 45
Precyzja szacunku w modelu regresji liniowej Estymator: po» dane wªasno±ci β = ( X T X ) 1 X T y to estymator (funkcja próby) pewnej prawdziwej, nieznanej warto±ci parametrów β (w populacji/procesie generuj cym dane) ) nieobci»ono± : E (ˆβ = β asymptotyczna nieobci»ono± : E (ˆβ ) n = β zgodno± : warto± estymatora ˆβ zbiega do β wraz ze wzrostem n efektywno± : najni»sza mo»liwa wariancja estymatora (wysoka precyzja) KMNK i R 31 / 45
Precyzja szacunku w modelu regresji liniowej Estymator: po» dane wªasno±ci β = ( X T X ) 1 X T y to estymator (funkcja próby) pewnej prawdziwej, nieznanej warto±ci parametrów β (w populacji/procesie generuj cym dane) ) nieobci»ono± : E (ˆβ = β asymptotyczna nieobci»ono± : E (ˆβ ) n = β zgodno± : warto± estymatora ˆβ zbiega do β wraz ze wzrostem n efektywno± : najni»sza mo»liwa wariancja estymatora (wysoka precyzja) KMNK i R 31 / 45
Precyzja szacunku w modelu regresji liniowej Estymator: po» dane wªasno±ci β = ( X T X ) 1 X T y to estymator (funkcja próby) pewnej prawdziwej, nieznanej warto±ci parametrów β (w populacji/procesie generuj cym dane) ) nieobci»ono± : E (ˆβ = β asymptotyczna nieobci»ono± : E (ˆβ ) n = β zgodno± : warto± estymatora ˆβ zbiega do β wraz ze wzrostem n efektywno± : najni»sza mo»liwa wariancja estymatora (wysoka precyzja) KMNK i R 31 / 45
Precyzja szacunku w modelu regresji liniowej Twierdzenie Gaussa-Markowa Przy odpowiednich zaªo»eniach estymator KMNK jest zgodny, nieobci»ony i najefektywniejszy w klasie estymatorów liniowych KMNK i R 32 / 45
Precyzja szacunku w modelu regresji liniowej Precyzja szacunku parametrów (2) Wariancja skªadnika losowego (skalar): ˆσ 2 = 1 n (k+1) n ε 2 i i=1 Wariancja ( ) estymatora KMNK (macierz): Var ˆβ = ˆσ ( 2 X T X ) 1 [d i,j ] (k+1) (k+1) Bª dy ( ) szacunku parametrów: s ˆβ 0 = ( ) d 1,1 s ˆβ 1 = ( ) d 2,2 s ˆβ 2 = d 3,3 (ang standard errors, SE) Obliczanie bª du szacunku 1 oszacuj warto±ci parametrów, 2 oblicz warto±ci skªadnika losowego, 3 oszacuj wariancj skªadnika losowego, 4 oblicz macierz wariancji estymatora KMNK, 5 oblicz bª d szacunku poszczególnych parametrów jako pierwiastek z jej diagonalnych elementów KMNK i R 33 / 45
Precyzja szacunku w modelu regresji liniowej Precyzja szacunku parametrów (2) Wariancja skªadnika losowego (skalar): ˆσ 2 = 1 n (k+1) n ε 2 i i=1 Wariancja ( ) estymatora KMNK (macierz): Var ˆβ = ˆσ ( 2 X T X ) 1 [d i,j ] (k+1) (k+1) Bª dy ( ) szacunku parametrów: s ˆβ 0 = ( ) d 1,1 s ˆβ 1 = ( ) d 2,2 s ˆβ 2 = d 3,3 (ang standard errors, SE) Obliczanie bª du szacunku 1 oszacuj warto±ci parametrów, 2 oblicz warto±ci skªadnika losowego, 3 oszacuj wariancj skªadnika losowego, 4 oblicz macierz wariancji estymatora KMNK, 5 oblicz bª d szacunku poszczególnych parametrów jako pierwiastek z jej diagonalnych elementów KMNK i R 33 / 45
Precyzja szacunku w modelu regresji liniowej Precyzja szacunku parametrów (2) Wariancja skªadnika losowego (skalar): ˆσ 2 = 1 n (k+1) n ε 2 i i=1 Wariancja ( ) estymatora KMNK (macierz): Var ˆβ = ˆσ ( 2 X T X ) 1 [d i,j ] (k+1) (k+1) Bª dy ( ) szacunku parametrów: s ˆβ 0 = ( ) d 1,1 s ˆβ 1 = ( ) d 2,2 s ˆβ 2 = d 3,3 (ang standard errors, SE) Obliczanie bª du szacunku 1 oszacuj warto±ci parametrów, 2 oblicz warto±ci skªadnika losowego, 3 oszacuj wariancj skªadnika losowego, 4 oblicz macierz wariancji estymatora KMNK, 5 oblicz bª d szacunku poszczególnych parametrów jako pierwiastek z jej diagonalnych elementów KMNK i R 33 / 45
Precyzja szacunku w modelu regresji liniowej Precyzja szacunku parametrów (2) Wariancja skªadnika losowego (skalar): ˆσ 2 = 1 n (k+1) n ε 2 i i=1 Wariancja ( ) estymatora KMNK (macierz): Var ˆβ = ˆσ ( 2 X T X ) 1 [d i,j ] (k+1) (k+1) Bª dy ( ) szacunku parametrów: s ˆβ 0 = ( ) d 1,1 s ˆβ 1 = ( ) d 2,2 s ˆβ 2 = d 3,3 (ang standard errors, SE) Obliczanie bª du szacunku 1 oszacuj warto±ci parametrów, 2 oblicz warto±ci skªadnika losowego, 3 oszacuj wariancj skªadnika losowego, 4 oblicz macierz wariancji estymatora KMNK, 5 oblicz bª d szacunku poszczególnych parametrów jako pierwiastek z jej diagonalnych elementów KMNK i R 33 / 45
Precyzja szacunku: przykªad Obliczamy wektor reszt i jego statystyki opisowe KMNK i R 34 / 45
Precyzja szacunku: przykªad Szacujemy wariancj skªadnika losowego KMNK i R 35 / 45
Precyzja szacunku: przykªad Bª dy oszacowa«kmnk i R 36 / 45
Plan prezentacji 1 Informacje organizacyjne 2 Wprowadzenie do ekonometrii 3 Model regresji liniowej i estymator KMNK 4 Przykªad: satysfakcja kobiet i m»czyzn ze studiów 5 KMNK jako estymator: precyzja szacunku 6 Diagnostyka dopasowania do danych KMNK i R 37 / 45
Testy istotno±ci Testy istotno±ci zmiennych Test t-studenta H 0 : β i = 0, tzn i-ta zmienna obja±niaj ca nie wywiera istotnego wpªywu na zmienn obja±nian y H 1 : β i 0, tzn i-ta zmienna obja±niaj ca wywiera istotny wpªyw na zmienn obja±nian y Statystyka testowa: t = ˆβ i s( ˆβ ma rozkªad t (n k 1) 1) p-value<α odrzucamy H 0 p-value>α nie odrzucamy H 0 przy czym standardowo przyjmuje si α = 0, 01 albo α = 0, 05 albo α = 0, 1 KMNK i R 38 / 45
Testy istotno±ci Testy istotno±ci zmiennych R KMNK i R 39 / 45
Testy istotno±ci Przedziaªy ufno±ci Estymacja: punktowa np oszacowania KMNK β = ( X T X ) 1 X T y przedziaªowa podajemy przedziaª, do którego nale»y warto± parametru z okre±lonym wysokim prawdopodobie«stwem Prawdopodobie«stwo to nazywamy poziomem ufno±ci przedział ufności pole = poziom ufności βˆ oszacowanie punktowe Poªo»enie przedziaªu ufno±ci zale»y od oszacowania punktowego (zazwyczaj ±rodek) Szeroko± od poziomu ufno±ci i bª du szacunku KMNK i R 40 / 45
R-kwadrat Wspóªczynnik dopasowania R-kwadrat R 2 [0; 1] to udziaª zmienno±ci y t obja±nionej przez model w caªkowitej zmienno±ci y t : n (y i ȳ) 2 = n (ŷ i ȳ) 2 + n (y i ŷ i ) 2 R 2 = i=1 i=1 i=1 n (ŷ i ȳ) 2 i=1 n (y i ȳ) 2 i=1 KMNK i R 41 / 45
R-kwadrat Skorygowane R-kwadrat R 2 = }{{} R 2 k ( ) 1 R 2 n (k + 1) dopasowanie }{{} kara za nadmiar parametrów KMNK i R 42 / 45
R-kwadrat Obliczamy R-kwadrat KMNK i R 43 / 45
Test Walda Uogólniony test Walda Uogólniony test Walda H 0 : β 1 = β 2 = = β k = 0, tzn»adna zmienna obja±niaj ca nie wywiera istotnego wpªywu na zmienn obja±nian y H 1 : j β j 0, przynajmniej 1 zmienna obja±niaj ca wywiera istotny wpªyw na zmienn obja±nian y R Statystyka testowa: F = 2 /k (1 R 2 ma rozkªad )/(n k 1) F (k, n k 1) KMNK i R 44 / 45
Test Walda Test Walda wyniki KMNK i R 45 / 45