Analza regresj modele ekonometryczne
Klasyczny model regresj lnowej - przypadek jednej zmennej objaśnającej. Rozpatrzmy klasyczne zagadnene zależnośc pomędzy konsumpcją a dochodam. Uważa sę, że: - zależność ta jest jednokerunkowa, tzn. wzrost dochodów wywołuje wzrost konsumpcj odwrotne, -krańcowa skłonność do konsumpcj jest dodatna mnejsza od jednośc, -udzał konsumpcj w dochodze maleje wraz ze wzrostem dochodu. Powyższe założena sformułował po raz perwszy J. M. Keynes w pracy Ogólna teora zatrudnena, procentu penądza. Nadał on tym zależnoścom formę funkcj typu:» Y = f ( X ), gdze: Y oznacza wydatk na konsumpcję, X oznacza dochody.
Problemem jest znalezene postac tej funkcj a następne jej weryfkacja na podstawe danych emprycznych. Mamy węc funkcję Y = f (X), o której zakładamy, że: dy/dx(0,1) (tzw. krańcowość), d(y/x)/d(x) < 0 (malejący udzał konsumpcj w dochodze). Z powyższego otrzymujemy: d( Y )/ X dx dy ( ) dx X = X Y < 2 0 co po rozwązanu względem dy/dx daje ostateczne dy/ dx< Y / X Najprostszą funkcją spełnającą powyższe warunk jest funkcja lnowa: Y = α + β X problemem jest tylko uzyskane odpowedz na pytane czy opsuje ona rzeczywste sytuacje czy też ne?
Weryfkowane prawdzwośc powyższego twerdzena dotyczącego zależnośc pomędzy dochodam a wydatkam na konsumpcję odbywa sę w oparcu o dane statystyczne, które mogą być następującej postac: - szereg czasowe: lczby odpowadające wartoścom, jake przybrało rejestrowane zjawsko w kolejnych, jednakowo odległych momentach czasu, - szereg przekrojowe: dotyczą stanu obektów w tym samym momence (np. wydatk gospodarstw domowych na żywność w 1995 r., czy welkość produkcj poszczególnych wydzałów fabryk w wybranym kwartale), - szereg przekrojowo-czasowe.
Do weryfkacj modelu Keynesa użyto danych dotyczących konsumpcj w USA w latach 1920-1941 ( w cenach stałych z 1934 r. w mld $): Y (konsumpcja) 70 60 50 40 30 22 24 26 28 30 32 34 36 38 40 X dochody
Jedno z możlwych rozwązań to przyjęce założena o pewnych losowych wahanach w badanym zjawsku, tzn. akceptacja faktu, że jednym z parametrów równana jest zmanna losowa ε. Czyl Y = f (X, ε) tym samym, zależność pomędzy dochodam a konsumpcją ma charakter stochastyczny. Wprowadzając składnk losowy addytywne otrzymujemy: Yt = βo + β1 Xt +εt t = 1,...,T t oznacza, że mamy do czynena z szeregam czasowym. Wprowadzane składnka losowego wywołane jest (jak sę wydaje) przez szereg następujących przyczyn: - postępowane ludz jest ndetermnstyczne, - pomary zjawsk są nedokładne obarczone błędam, - sam model może być wadlwe zbudowany wtedy czynnk losowy kumuluje w sobe wszystke te błędy.
Model regresj lnowej. Ogólna postać modelu lnowego: y = f (x, ε) = βo + β1 x +ε gdze: y - zmenna objaśnana, x - zmenna objaśnająca, ε - składnk losowy, - oznacza numer kolejnej obserwacj.
Założena schematu Gaussa- Markowa I. Model jest nezmennczy ze względu na obserwacje: f1 = f2 = f3 =...= fl = f, czyl y = f (x, ε) II. Model jest lnowy względem parametrów. y = βo + β1 x +ε Funkcja ma być lnowa względem parametrów a ne zmennych, czyl można drogą neskomplkowanych przekształceń do lnowośc dojść. Np. tzw. funkcja potęgowa ma postać y = βoxβ1 z warunkam βo > 0. Poprzez logarytmowane otrzymujemy: ln y = αo + α1ln x gdze:βo = exp(αo), β1 = α1
c.d. III. Zmenna objaśnająca jest nelosowa, jej wartośc są ustalonym lczbam rzeczywstym, tzn. E ( y x ) = E ( y ) oraz D2 (y x ) = D2 (y ) Założene to może być omnęte jeżel zmenna objaśnająca x składnk losowe ε są nezależne lub neskorelowane, o rozkładach normalnych: cor(x1,ε ) =... = cor (xn, εn) = 0 IV. Składnk losowy ma rozkład normalny: ε : N (E(ε ), D(ε )) komentarz o normalnośc, tw. granczne tp. Potrzebne to jest do testowana hpotez z udzałem statystyk F-Snedecora czy t-studenta.
c.d. V. Występujące zakłócena reprezentuje składnk losowy ε o średnej 0 Wykorzystane przy otrzymywanu estymatorów neobcążonych. VI. Składnk losowy jest sferyczny, tzn.: a) ne jest autoskorelowany: cov( ε, ε ) = 0, cov( ε, ε ) = 0, j j j b) jest homoskedastyczny: D2( ε) = σ2 VII. Informacje z próbk są jedynym dostępnym nformacjam.
Schemat testowana: Ksążka: B. Gładysz & J. Merck Modelowane ekonometryczne http://www.oz.pwr.wroc.pl Strony pracownków» Merck» Ekonometryczne badane rynku» lub Ekonometra laboratorum
Metoda najmnejszych kwadratów Dane wejścowe: (x, y ) powązane w zwązek lnowy: Y = 0 1 β + β X + ε Model: ˆ = + Y b0 b1 X Zadane: oszacować parametry b 0 b 1 tak, żeby różnca pomędzy Y Yˆ była jak najmnejsza, tzn. n = 1 ( y yˆ ) 2 = n = 1 ( y b 0 b 1 x ) 2 mn
Model z weloma zmennym: 1 2 Dane wejścowe: ( x, x,..., x m, y ) powązane w zwązek lnowy: 1 m Y = β + β X +... + β X + ε 0 1 m Model: ˆ 1 2 b + b X + b X 0 1 2 Y = +... + b m X m Zadane: oszacować parametry b 0 b tak, żeby różnca pomędzy Y Yˆ była jak najmnejsza, tzn. n = 1 ( y ˆ y ) 2 mn
Współczynnk determnacj: = = = n n y y y y R 1 2 1 2 2 ) ( ) ˆ ( Współczynnk ten przyjmuje wartośc z przedzału [0, 1] określa w jakm stopnu model wyjaśna kształtowane sę zmennej objaśnanej Y.
Współczynnk zbeżnośc: 2 ϕ = 1 R 2 Współczynnk ten także przyjmuje wartośc z przedzału [0,1] wskazuje jaka część zmennośc zmennej objaśnanej Y ne jest objaśnana za pomocą modelu.
Wartośc współczynnka determnacj R2 blske 1 R2 blske 0 R2 blske 0
Wartośc, jake przyjmuje współczynnk determnacj R2 : - dla model opartych na szeregach czasowych 0.90-0.95 do.99, - dla pozostałych danych często dużo nższe.
R2 oblczać można zawsze (bez względu na postać modelu zastosowane metody estymacj) jednak nterpretować w kategorach waracj właścwych zmennych można wyłączne po spełnenu ponższych warunków: 1) Relacja pomędzy x a y w populacj generalnej mus być lnowa. Wówczas R2 odpowada na pytane jaka część zmennośc zmennej y zostało objaśnone przez zmenną objaśnającą. 2) Parametry muszą być estymowane przy pomocy MNK, naczej R2 przyjmuje dowolne wartośc rzeczywste ne daje sę nterpretować. 3) Model mus zawerać wyraz wolny. Inaczej R2 [-, 1].
Wyrównany współczynnk determnacj r a m 1 = 1 [( 1 r ) ] m 2 2 2
Analza resdualna. Używamy jej do oceny czy spełnone są założena homoscedadycznośc, normalnośc nezależnośc reszt. Rozpatrzmy różncę (reszt): ε Y Y = Ocena ona dobroć z jaką dopasowano model do danych. Poneważ jest ona zależna od welkośc próbk używa sę najczęścej "błędu standardowego" (resduum standardowego):
Resduum standardowe SR = gd ze: S YX ε 1 h 1 ( X X) h = + m m ( X ) m X 2 = 1 m = 1 2 2
Zachodzene homoscedastycznośc SR 0 X
Brak homoscedastycznośc SR X
Dagnostyka regresyjna: analza wpływów Dagnostyka ta służy do zarówno oceny dopasowana modelu do danych emprycznych jak do oceny potencjalnego efektu lub "wpływu" na model każdego z punktów w szczególnośc. Do tego celu używamy: 1) Elementów macerzy h, 2) Studentyzowanych resduów odrzucanych, t*, oraz 3) Statystyk odległośc Cooka, D.
Analza wpływów
Przykład 1. l.p. wynk testu średna studów l.p. wynk testu średna studów 1 688 3.72 11 567 3.07 2 647 3.44 12 542 2.86 3 652 3.21 13 551 2.91 4 608 3.29 14 573 2.79 5 680 3.91 15 536 3.00 6 617 3.28 16 639 3.55 7 557 3.02 17 619 3.47 8 599 3.13 18 694 3.60 9 616 3.45 19 718 3.88 10 594 3.33 20 759 3.76
Wykres zależnośc 3.85 3.50 3.15 2.80 560 600 640 680 720 760
Równane regresj Y = 0. 30 +. 00487 X Np. dla wartośc testu x=600 Y = 0. 30 +. 00487 600 = 3. 222
Determnacja: R2 = 1.7148 / 2.1631 =.793 Stąd, 79,3% zmennośc oceny końcowej może być wyjaśnone przez zmenność oceny testu wśród studentów. Współczynnk determnacj "wyrównany" 2 2 m 1 r = 1 [( 1 r ) ] a m 2 = 1 [( 1. 793) 19 ] 18 = 1. 219 =. 781 czyl, welkość próbk ne ma dużego wpływu na współczynnk determnacj.
Nektóre resdua test koń cowy X ocena studów Y... Resduum standaryzowane SR h Studentyzowane resdua odrzucane Odległo ść Cooka 652 3.21-1.76 0.061 7 1 9-1.87961 * 0.1 0 1 862 608 3.29 0.1 9 0.053011 0.1 8329 0.000994 680 3.91 2.01 0.094969 2.21 686* 0.211791 6 1 7 3.28-0.1 7 0.050462-0.1 6 1 70 0.000735 557 3.02 0.05 0.1 09508 0.04599 0.0001 38 551 2.91-0.51 0.1 20855-0.49437 0.01 7535 573 2.79-2.02 0.084087-2.22884* 0.1 86847 694 3.60-0.55 0.119676-0.53786 0.020472 7 1 8 3.88 0.59 0.1 74566 0.57408 0.0361 97 759 3.76-1.82 0.304964* -1.961 29* 0.728670*
Przykład modelu z dwema zmennym. Zamerzamy ustalć prognozę zuż yca oleju opałowego zuż ywanego w ogrzewanu meszkań w stycznu. W ybrano w tym celu m nej w ę cej jednakowe 1 5 domków zbudowanych w róż nych częścach kraju. Rozważ a ć moż na wele zmennych jako przypuszczalne mają cych wpływ na zuż yce oleju opałowego, jednak dla uproszczena przyjmujemy dwe nastę pują ce zmenne opsują ce - średną, dzenną temperaturę powetrza, merzoną w stopnach Fahrenheta, na zewną trz domu (X 1 ), - grubość materału zolacyjnego, merzonego w calach pod dachem domu (X 2 ).
Zużyce oleju=f(temperatura, zolacja) Obserwacja Mesęczne zużyce oleju opałowego (w galonach) Średna temperatura w deg F Grubość zolacj w calach 1 275,3 40 3 2 363,8 27 3 3 164,3 40 10 4 40,8 73 6 5 94,3 64 6 6 230,9 34 6 7 366,7 9 6 8 300,6 8 10 9 237,8 23 10 10 121,4 63 3 11 31,4 65 10 12 203,5 41 6 13 441,1 21 3 14 323,0 38 3 15 52,5 58 10
Regresja: ˆ Y = 562,151 5,43658X 20. 0123X 1 2
Predykcja zmennej zależnej. Możlwa jest predykcja zmennej objaśnanej (w ogranczonym zakrese) dl poszczególnych wartośc zmennych objaśnających. Np. dla wartośc średn temperatury 30 F 0 domu o zolacj o grubośc 6 cal otrzymujemy Y$ = 562, 151 5, 43658X 20, 0123X Y$ = 278, 9798 1 2
Testowane stotnośc zwązku pomędzy zmennym objaśnającym a zmenną objaśnaną. H H F : β = β = 0 : β β 0 0 1 2 1 1 2 pn, p 1 = MSR MSE Źródło df Suma kwadratów Warancja F Regresja 2 SSR = 228 014,6263 114 007,31315168,47 Błąd 15-2-1=12 SSE = 8 120,6030 676,71692 Total 15-1=14 SST = 236 135,2293
Mara zwązku w regresj welokrotnej 2 SSR 228 014,6263 ry, 12 = = =. 96561 SST 236 135,2293 lub dla współczynnka determnacj adjustowanego r 2 15 1 ( r 12 ) ( ) 2 m 1 = 1 [( 1 r ) 12 1 1 1 1 096561 14 096 m p 1 ] = 15 2 1 =, 12 =,,..., 2 adj Y p Y czyl w 96% wybrane zmenne wyjaśnają welkość konsumcj oleju grzewc
Model regresj krzywolnowej Zał ó ż my, ż e m odel w yjaś nają cy dane zjawsko m a charakter welom anu odpowednego stopna. Nech 2 Y = β + β X + β X + ε 0 1 1 1 1 1 gdze: β o = stał a β 1 = lnow y efekt w pł ywu na Y β 11 = krzyw olnow y efek t w pł ywu na Y ε = błąd losow y Y dla - tej obserw acj. Jest to podobne do m odelu z dwem a zm ennym objaś nają cym z tym, ż e druga zm enna jest kwadratem perwszej zm ennej. M oż lw e jest w ę c znalezene estym atorów odpowednch param etrów dalej znalezene estym atora zm ennej o bjaś nanej: Y$ = b + b X + b X 0 1 1 1 1 12
Centrowane modelu: Y$ = b ' + b ' ( X X ) + b (( X X ) 0 1 1 1 11 1 1 2
Przykład: Efekty sprzedaży ostrzy wymennych do golarek Sprzedaż Cena 1 42 79 1 5 1 79 1 63 79 1 68 79 1 76 79 9 1 99 1 00 99 1 07 99 115 99 1 26 99 77 119 86 119 95 119 1 00 119 1 06 119
Wykres: Y 150 100 To po wylczenu wartosc w modelu 50 79 99 119 X
Wydruk z komputera - program Mntab sales = 108-1.68 prcecen + 0.0465 prcensq Predctor Coef Stdev t-rato Constant 107.800 5.756 18.73 prcecen -1.6800 0.2035-8.26 prcensq 0.04650 0.01762 2.64
Wydruk z komputera - program Mntab (c.d.) s=12.87 R-sq = 86.2% R-sq(adj) = 83.9% Analyss of Varance SOURCE DF SS MS Regresson 2 12442.8 6221.4 Error 12 1987.6 165.6 Total 14 14430.4 Brak wartośc statystyk F oraz p-value Trzeba samemu
model krzywolnowy wygląda następująco: Yˆ = 107.8 1.68( X 2 1 X1) + 0.0465( X1 X1)
sprzedaż dla różnych pozomów cen: dla X 1 = 79 otrzymujemy: $Y = 107.8-1.68 (79-99) +.0465 (79-99) 2 = 160 dla X 1 = 99 otrzymujemy: $Y = 107.8-1.68 (99-99) +.0465 (99-99) 2 = 107.8 dla X 1 = 119 otrzymujemy: $Y = 107.8-1.68 (119-99) +.0465 (119-99) 2 = 92.8
Testowane stotnośc współczynnków H H F : β = β = 0 : β β 0 0 1 1 1 1 1 pm, p = MSR MSE Źródło df Suma kwadratów Warancja F Regresja p SSR = 12 442,8 6 221,4 37.57 (stopeń welomanu Błąd m-p-1 SSE = 1 987,6 165.6 Total m-1 SST = 14 430,4 Wartość krytyczna dla df 2,12 wynos 3.89, czyl hpotezę zerową odrzucamy - zwązek jest stotny.
współczynnk determnacj r 2 Y SSR 12 442.8 = = =, 12 SST 14430.4.862
współczynnk determnacj adjustowany r 2 15 1 ( r 12 ) ( ) 2 m 1 = 1 [( 1 r ) 12 1 1 1 1 0 862 14 0 839 m p 1 ] = 15 2 1 =, 12 =,,..., 2 adj Y p Y czyl w 84% wybrana zmenna wyjaśna welkość sprzedaży ostrzy przy pom modelu krzywolnowego.
Statgraph v.2+ - dobór modelu