Przykładowy model ekonometryczny Sebastian Michalski 1
Spis treści 1 Postać modelu 3 1.1 Dane.................................. 4 1. Graficzna prezentacja danych.................... 5 Dobór zmiennych objaśniających metodą Hellwig a 6 3 Oszacowanie parametrów strukturalnych 8 3.1 Interpretacja oszacowanych parametrów strukturalnych..... 8 3. Interpretacja błędów szacunku parametrów............ 8 4 Badanie własności koincydencji 9 5 Normalność rozkładu składnika loswego 9 5.1 Test Jarque-Bera........................... 9 6 Autokorelacja składnika losowego 10 6.1 Test Durbin a-watson a....................... 10 6. Test mnożnika Lagrange a...................... 11 7 Heteroskedastyczność składnika losowego 11 7.1 Test White a............................. 11 8 Liniowość modelu test liczby serii 1 9 Współliniowość zmiennych obajaśniających 13 10 Istotność zmiennych objaśniających test t-studenta 13 11 Współczynnik determinacji 14 11.1 Skorygowany współczynnik derterminacji............. 15 1 Prognozy 15 1.1 Prognoza zmiennej endogenicznej na podstawie modelu trendu linowego................................ 15 1. Prognoza zmiennej endogenicznej na podstawie modelu trendu wielomianowego............................ 16 1..1 Ocena ex ante prognozy... 16 1.. Prognoza przedziałowa.................... 17 1.3 Prognoza zmiennej endogenicznej na podstawie modelu ekonometrycznego (warunkowa)...................... 18 1.3.1 Prognoza zmiennych egzogenicznych na podstawie modeli trenduliniowego... 18 1.3. Prognoza zmiennych egzogenicznych na podstawie modeli trendu wielomianowego................... 1 1.3.3 Ocena ex post prognozy................... 1.4 Prognoza na podstawie modelu prostego wyrównania wykładniczego Brown a............................. 4
1 Postać modelu Y t X 1t X t X 3t Y t = α 0 + α 1 X 1t + α X t + α 3 X 3t + ɛ t, (1) wartość wyprodukowanych (przewiezionych) komputerów w USA w milionach USD w latach 199 1998, (ang. Electronic Computer Manufacturing: Value of Shipments: Millions of Dollars: Seasonally Adjusted) 1, wartość nowych zamówień na produkcję komputerów w USA w milionach USD w latach 199 1998, (ang. Electronic Computer Manufacturing: Value of Shipments: Millions of Dollars: Seasonally Adjusted), wartość wyprodukowanych (przewiezionych) nośników danych, pamięci masowych w USA w milionach USD w latach 199 1998, (ang. Computer Storage Device Manufacturing: Value of Shipments: Millions of Dollars: Seasonally Adjusted) 3, wartość wyprodukowanych (przewiezionych) półprzewodników w USA w milionach USD w latach 199 1998, (ang. Semiconductor and Related Device Manufacturing: Value of Shipments: Millions of Dollars: Seasonally Adjusted) 4, α j parametry strukturalne, j =0, 1,, 3, ɛ t składnik losowy. 1 http://www.economagic.com/em-cgi/data.exe/cenm3/a34avs http://www.economagic.com/em-cgi/data.exe/cenm3/a34ano 3 http://www.economagic.com/em-cgi/data.exe/cenm3/a34bvs 4 http://www.economagic.com/em-cgi/data.exe/cenm3/a34vgs 3
1.1 Dane Dane do modelu obejmują 73 obserwacje od lutego 199 do lutego 1998: t Y t X 1t X t X 3t t Y t X 1t X t X 3t 199 0 3151 301 833 557 1995 03 4651 4946 1000 4944 199 03 96 313 810 601 1995 04 4717 5061 987 5074 199 04 3371 306 933 697 1995 05 500 5035 996 533 199 05 3348 311 738 717 1995 06 4971 517 96 5610 199 06 3184 344 851 587 1995 07 4449 3874 10 557 199 07 3390 348 770 779 1995 08 4836 4636 960 5987 199 08 37 30 736 507 1995 09 5151 5115 949 5916 199 09 999 307 769 645 1995 10 5141 5116 995 5896 199 10 3195 3110 716 83 1995 11 598 5848 1015 5911 199 11 3160 935 789 705 1995 1 5178 494 1015 5967 199 1 3058 3375 780 918 1996 01 4383 444 837 5947 1993 01 3495 3355 883 440 1996 0 5359 573 1004 5663 1993 0 354 3378 743 84 1996 03 5137 5164 1006 6004 1993 03 339 3045 805 751 1996 04 4851 4767 997 5831 1993 04 318 3067 811 773 1996 05 4734 4791 1077 6017 1993 05 875 94 94 759 1996 06 4700 507 973 5864 1993 06 3033 999 885 30 1996 07 4564 4955 980 576 1993 07 3151 379 99 837 1996 08 4967 543 1045 5576 1993 08 351 3411 898 965 1996 09 5067 4784 1015 5701 1993 09 3305 3067 871 317 1996 10 4934 5343 1161 6365 1993 10 361 3311 930 831 1996 11 5154 4965 1077 6040 1993 11 373 3461 909 31 1996 1 5156 5376 1195 6090 1993 1 3633 3593 834 348 1997 01 5181 530 176 6057 1994 01 3496 3558 839 3439 1997 0 5138 5016 174 6354 1994 0 3633 364 85 3547 1997 03 5363 4945 103 7154 1994 03 3630 3706 851 3675 1997 04 5189 5157 186 681 1994 04 3850 4067 868 3816 1997 05 549 570 118 6471 1994 05 3770 3981 879 3830 1997 06 5788 5076 197 6648 1994 06 3947 3996 880 3894 1997 07 5590 5440 118 6314 1994 07 393 404 85 4081 1997 08 577 555 103 6688 1994 08 3931 4043 951 4051 1997 09 597 568 1350 6966 1994 09 4013 4411 966 4016 1997 10 554 535 131 631 1994 10 473 4489 884 411 1997 11 556 563 187 6483 1994 11 4570 454 946 490 1997 1 5868 5591 1419 6506 1994 1 449 460 950 478 1998 01 554 5585 1571 6105 1995 01 4337 454 796 467 1998 0 5570 5735 1496 6505 1995 0 4504 4680 1014 4716 4
1. Graficzna prezentacja danych 7000 Y x1 x x3 6000 5000 4000 3000 000 1000 0 10 0 30 40 50 60 70 6000 Y 6000 x1 5000 5000 4000 4000 3000 0 0 40 60 80 3000 0 0 40 60 80 1500 x 7000 x3 6000 150 5000 1000 4000 750 0 0 40 60 80 3000 0 0 40 60 80 5
Dobór zmiennych objaśniających metodą Hellwig a ------------------------------------------------------------ Correlation matrix ------------------------------------------------------------ y x1 x x3 y 1.0000 x1 0.96849 1.0000 x 0.848 0.78519 1.0000 x3 0.96741 0.94488 0.79939 1.0000 ------------------------------------------------------------ gdzie: R 0 R 0 = 0,968 0,84 0,967, R = 1 0, 785 0, 945 0, 785 1 0, 799 0, 945 0, 799 1, () =[r j ] macierz wspólczynników korelacji liniowej pomiędzy j. zmienną obajaśniającą a zmienną objaśnianą, j =1,,..., k, R =[r ij ] macierz wspólczynników korelacji liniowej pomiędzy i. a j. zmienną obajaśniającą, i =1,,..., k, j =1,,..., k, k liczba zmiennych objaśniających w modelu. Ilość możliwych podzbiorów ze zbioru zmiennych objaśniających X 1,X,X 3 (bez zbioru pustego): S = k 1= 3 1=7. (3) Te możliwe podzbiory to: numer podzbioru (s) podzbiór zbió indeksów zmiennych tworzących dany podzbiór (C s ) 1 {X 1 } 1 {X 3 {X 3 3 4 {X 1,X } 1, 5 {X 1,X 3 } 1,3 6 {X,X 3 },3 7 {X 1,X,X 3 } 1,,3 Pojemność indywidualną j. zmiennej s. podzbioru określamy jako: h sj = r j i C s r ij. (4) Pojemność integralna s. podzbioru to suma jego pojemności idywidualnych: H s = j C s h sj. (5) 6
Pojemność integralna i indywidualna dla zbioru jednoelementowego jest identyczna: (1) {X 1 }: h 11 = () {X }: h = (3) {X 3 }: h 33 = r 1 i {1} r i {} r 3 i {3} (0,968) = ri1 1 0, 937 = H 1, (0,84) = ri 1 0, 679 = H, (0,967) = ri3 1 0, 935 = H 3, oraz: (4) {X 1,X }: h 41 = h 4 = r i {1,} r 1 i {1,} H 4 =h 41 + h 4 =0, 905, (5) {X 1,X 3 }: h 51 = h 53 = r 3 i {1,3} (0,968) = ri1 1 + 0,785 0, 55, (0,84) = ri 0,785 + 1 0, 380, r 1 i {1,3} H 5 =h 51 + h 53 =0, 963, (6) {X,X 3 }: h 6 = h 63 = r 3 i {,3} (0,968) = ri1 1 + 0,945 0, 48, (0,967) = ri3 0,945 + 1 0, 481, r i {,3} H 6 =h 6 + h 63 =0, 897, (0,84) = ri 1 + 0,799 0, 377, (0,967) = ri3 0,799 + 1 0, 50, (7) {X 1,X,X 3 }: h 71 = r 1 i {1,,3} = (0,968) ri1 1 + 0,785 + 0,945 0, 343, h 7 = h 73 = r i {1,,3} = (0,84) ri 0,785 + 1 + 0,799 r 3 i {1,,3} = (0,967) ri3 0,945 + 0,799 + 1 H 7 =h 71 + h 7 + h 73 1. 0, 319, 0, 341, Zestawienie pojemności integralnych: s podzbiór H s 1 {X 1 } 0,937 {X 0,679 3 {X 3 0,935 4 {X 1,X } 0,905 5 {X 1,X 3 } 0,963 6 {X,X 3 } 0,8974 7 {X 1,X,X 3 } 1, 000 7
Wybieramy ten podzbiór, dla którego pojemność integralna jest największa: C opt =max{h s : s =1,,...,S = k 1} = C 7. (6) Zatem do modelu wchodzą zmienne: X 1,X,X 3. Można uniknąć licznia pojemności integralnych dla wszystkich podzbiorów: z możliwych podzbiorów należy wykluczyć te, które nie zawierają zmiennej najsilniej skorelowanej ze zmienną objaśnianą (w naszym przykładzie odrzucamy kombinacje bez zmiennej X 1 : s =, 3, 6). 3 Oszacowanie parametrów strukturalnych Pakiet PC-Give podaje wyniki: Variable Coefficient Std.Error t-value t-prob PartR^ Constant 493.30 15.46 3.36 0.0019 0.1317 x1 0.48675 0.068517 7.104 0.0000 0.44 x 0.49478 0.1790.761 0.0074 0.0995 x3 0.6531 0.04543 6.36 0.0000 0.3605 R^ = 0.9671 F(3,69) = 676.56 [0.0000] \sigma = 171.707 DW = 1.96 RSS = 03435.04 for 4 variables and 73 observations Oszacowany metodą najmniejszych kwadratów model przyjmuje zatem postać: Ŷ t = ˆα 0 + ˆα 1 X 1t + ˆα X 1t + ˆα 3 X 3t, (7) Ŷ t = 493, 30 + 0, 487X 1t +0, 495X t +0, 65X 3t, (8) (15, 46) (0, 069) (0, 179) (0, 043). (9) W nawiasach podano średnie błędy szacunku. 3.1 Interpretacja oszacowanych parametrów strukturalnych ˆα 1 =0, 487 wzrost wartości zmówień na produkację komputerów o l mln USD (ceteris paribus - przy pozostałych warunkach niezmienionych) wywoła wzrost produkcji komputerów średnio o 487 tys. USD, ˆα =0, 495 wzrost wartości produkcji nośników danych o 1 mln USD (ceteris paribus) wywoła wzrost produkcji komputerów średnio o 495 tys. USD, ˆα 3 = 0, 65 wzrost wartości wyprodukowanych półprzewodników o 1 mln USD (ceteris paribus) wywoła wzrost produkcji komputerów średnio o 65 tys. USD. 3. Interpretacja błędów szacunku parametrów S ˆα0 = 15, 46 szacując α 0 na poziomie 493,30 mylimy się średnio o ±15,46, S ˆα1 =0, 069 szacując α 1 na poziomie 0,487 mylimy się średnio o ±0,069, 8
S ˆα =0, 197 szacując α na poziomie 0,495 mylimy się średnio o ±0,197, S ˆα3 =0, 043 szacując α 3 na poziomie 0,65 mylimy się średnio o ±0,043. 4 Badanie własności koincydencji Model jest koincydentny, gdy spełniony jest warunek: sgn rj = sgn ˆα j, j =1,,...,k. 5 (10) sgn (r 1 =0, 968) = + oraz sgn (ˆα 1 =0, 487) = + sgn (r =0, 84) = + oraz sgn (ˆα =0, 495) = + sgn (r 3 =0, 967) = + oraz sgn (ˆα 3 =0, 65) = + Ponieważ dla wszystkich par znaki są zgodne, zatem model spełnia postulat koincydencji. 5 Normalność rozkładu składnika loswego 5.1 Test Jarque-Bera Po oszacowaniu modelu: Y t = α 0 + α 1 X 1t + α X t + α 3 X 3t + ɛ t, (11) obliczamy statystykę JB: JB = n 1 1 n e 3 t 6 n ( ) 3 + 1 1 n e 4 t t=1 1 n 4 n ( ) 4 3, n t=1 e t=1 1 n t n t=1 e t (1) która ma rozkład χ df =. Jeżeli JB < χ α=0,05; df = to: H 0 : ɛ t N(0,σ ) składnik losowy ma rozkład normalny, jeżeli JB > χ α=0,05; df = to: H 1 : ɛ t N(0,σ ) składnik losowy nie ma rozkładu normalnego. --------------------------------------- Normality test for Residual Sample size 73: 199 () to 1998 () --------------------------------------- Normality Chi^()= 0.05478 [0.9873] --------------------------------------- χ df = =0, 055 oraz α =0, 9873. Zatem dopiero przy prawie 99% poziomie istotności moglibyśmy odrzucić H 0, co znacznie przekracza 5% poziom błędu. Uznajemy więc, że w naszym modelu składnik losowy ma rozkład normalny. 5 Por. równania () oraz (7), (8) 9
6 Autokorelacja składnika losowego 6.1 Test Durbin a-watson a Test DW możemy stosować, gdy: (1) w modelu występuje wyraz wolny (α 0 0), () składnik losowy ma rozkład normalny (ɛ t N(0,σ )), (3) model nie ma postaci autoregresyjnej nie występuje opóźniona zmienna objaśniana jako zmienna objaśniająca. Składnik losowy ɛ t możemy przedstawić w postaci: gdzie: ɛ t = ρɛ t 1 + ξ t, ρ < 1, (13) ρ ξ t współczynnik autokorelacji, składnik losowy. Nieobciążonym estymatorem współczynnika ρ jest: ˆρ = n n t= e te t 1 t= e t n t= e t 1. (14) Statystykę DW obliczamy jako: DW = n t= (e t e t 1 ) n. (15) t=1 e t Pomiędzy DW aˆρ zachodzi związek: DW (1 ˆρ). (16) DW < DW > Proces weryfikacji: H 0 : ρ =0 H 0 : ρ =0 brak autokorelacji brak autokorelacji H 1 : ρ>0 H 1 : ρ<0 dodatnia autokorelacja ujemna autokorelacja H 1? H 0 H 0? H 1 d L d U 4 d U 4 d L R^ = 0.9671 F(3,69) = 676.56 [0.0000] \sigma = 171.707 DW = 1.96 RSS = 03435.04 for 4 variables and 73 observations 10
Zatem: H 1 : ρ>0, odczytane wartości krytyczne z tablic dla α =0, 05, n=73,k=3to: d L =1, 543, d U =1, 709. Ponieważ 1, 96 > 1, 709 (DW > d U ), zatem na postawie testu Durbin a-watson a nie możemy odrzucić H 0 o braku autokorelacji składnika losowego. 6. Test mnożnika Lagrange a Po oszacowaniu modelu: szacujemy model: Y t = α 0 + α 1 X 1t + α X t + α 3 X 3t + ɛ t, (17) e t = β 0 + β 1 X 1t + β X t + β 3 X 3t + β 4 e t 1 + ξ t (18) i obliczamy R. Obliczamy statystykę (n 1)R i odczytujemy z tablic χ α=0,05; df =1. Jeżeli (n 1)R <χ α=0,05; df =1 to: H 0 : ρ = 0 brak autokorelacji składnika losowego, jeżeli (n 1)R χ α=0,05; df =1 to: H 1 : ρ 0 autokorelacja składnika losowego. --------------------------------------------------------------------- Testing for Error Autocorrelation from lags 1 to 1 Chi^(1) = 0.01015 [0.9198] and F-form(1,68) = 0.0094563 [0.98] --------------------------------------------------------------------- χ df =1 =0, 010 oraz α =0, 9198. Zatem dopiero przy prawie 9% poziomie istotności moglibyśmy odrzucić H 0, co znacznie przekracza 5% poziom błędu. Uznajemy więc, że w naszym modelu nie występuje zjawisko autokorelacji składnika losowego. Możemy również odczytać wartości oszcowanch parametrów równania (13): --------------------------------------------------------------------- Autoregression for Residual: lags from 1 to 1 The present sample is: 199 (3) to 1998 () --------------------------------------------------------------------- Constant Lag 1 Coeff. -1.373 0.01 Std.Err 0.04 0.10 --------------------------------------------------------------------- ˆɛ t = 1, 373 + 0, 01ɛ t 1, co potwierdza niską wartość współczynnika autokorelacji. 7 Heteroskedastyczność składnika losowego 7.1 Test White a Po oszacowaniu modelu: Y t = α 0 + α 1 X 1t + α X t + α 3 X 3t + ɛ t, (19) 11
szacujemy model: lub: e t = β 0 + β 1 X 1t + β X t + β 3 X 3t + β 4 X 1t + β 5X t + β 6X 3t + ξ t, (0) e t = β 0+β 1 X 1t +β X t +β 3 X 3t +β 4 X 1t +β 5X t +β 6X 3t +β 7X 1t X t +β 8 X 1t X 3t +β 9 X t X 3t +ξ t (1) i obliczamy R. Obliczamy statystkę nr i odczytujemy z tablic: χ α=0,05; df =6 dla modelu (0), dla modelu (1). χ α=0,05; df =9 Jeżeli nr <χ α;df to: H 0 : σ i = σ składnik losowy jest homoskedastyczny, jeżeli nr >χ α;df to: H 1 : σ i σ składnik losowy jest heteroskedastyczny. ------------------------------------------------------------------ Testing for Heteroscedastic errors (squares) Chi^(6) = 7.11 [0.3098] and F-form(6,6) = 1.117 [0.369] ------------------------------------------------------------------ Testing for Heteroscedastic errors (squares and cross-products) Chi^(9) = 8.695 [0.4659] and F-form(9,59) = 0.88643 [0.547] ------------------------------------------------------------------ Czyli: χ df =6 =7, 11 oraz α =0, 3098, dla modelu (0), χ df =9 =8, 695 oraz α =0, 4659, dla modelu (1). W obu przypadkach krytyczny poziom istotności znacznie przekracza 5%. Uznajemy więc, że w naszym modelu składnik losowy jest homoskedastyczny. 8 Liniowość modelu test liczby serii H 0 H 1 : oszacowany model jest liniowy, : oszacowany model nie jest liniowy. poziom istotności: α = 0, 05, liczba serii: r=37 liczba reszt dodatnich: n 1 =35, liczba reszt ujemnych: n =38, poziom krytyczny odczytany z tablic: r =30. Przy 5% poziome istotności r>r, więc nie ma podstaw do odrzucenia H 0 o liniowości modelu. 1
9 Współliniowość zmiennych obajaśniających Dla k modeli: X 1t = α 1,0 + α 1, X t + α 1,3 X 3t +...+ α 1,k X kt + ɛ 1t, X t = α,0 + α,1 X 1t + α,3 X 3t +...+ α,k X kt + ɛ t,. X kt = α k,0 + α k,1 X 1t + α k, X t +...+ α k,k 1 X (k 1)t + ɛ kt, obliczamy współczynnik determinacji Rj oraz czynnik inflacji wariancji estymatora α j : 1 CIW j = 1 Rj. () Jeżeli: R j = 0 oraz CIW j = 1 brak współliniowości zmiennych, R j > 0orazCIW j > 1 przybliżona współliniowość zmiennych, CIW j > 10 współliniowość zmiennych trwale zakłócająca jakość modelu. Obliczenia: ˆX 1t = 1484, 8+0, 397X t +0, 59X 3t, R1 =0, 895 = CIW =9, 5, ˆX t = 46, 75 + 0, 058X 1t +0, 067X 3t, R =0, 647 = CIW =, 83, ˆX 3t = 494, 7+1, 373X 1t +1, 194X t, R3 =0, 901 = CIW =10, 1. Zatem w modelu zmienna X 3 powinna zostać usunięta. W celach czysto rachunkowych pozostawimy tą zmienną w modelu, przedstawiając jej wpływ na dalszą analizę. W programie STATISTICA możemy odczytać Rj przycisk Redundancy: wciskając po oszacowaniu 10 Istotność zmiennych objaśniających test t-studenta H 0 : α j =0 j. zmienna jest nieistotna w modelu, j =0, 1,,...,k, H 1 : α j 0 j. zmienna jest istotna w modelu, j =0, 1,,...,k. 13
Zmienna losowa: t ˆαj = ˆα j, (3) S ˆαj ma rokzkład t-studenta z n (k + 1) stopniami swobody. Statystyki t-studenta oraz krytyczne (nominalne) poziomy istotności dla poszczególnych zmiennych wynoszą odpowiednio: ------------------------- Variable t-value t-prob Constant 3.36 0.0019 x1 7.104 0.0000 x.761 0.0074 x3 6.36 0.0000 ------------------------- Z powyższych krytycznych poziomów istotności wynika, że wszystkie zmienne (+wyraz wolny) są statystycznie istotne dla poziomów istotności (odpowiednio): α 0 od 0, 19%, X 1 od 0, 00%, X od 0, 74%, X 3 od 0, 00%.. sposób: Statystyka t-studenta odczytana z tablic dla 5% poziomu istotności i df =73-(3+1)=69 stopni swobody wynosi: t α=0,05;df =69 = (4) i jest mniejsza od wartości statystyk t-studenta dla poszczególnych zmiennych, co prowadzi do wniosku o statystycznej istotności zmiennych. 11 Współczynnik determinacji Współczynnik determinacji możemy obliczyć korzystając ze wzorów: n R t=1 = (ŷ t ȳ) n n t=1 (y t ȳ) =1 t=1 (y t ŷ) n t=1 (y t ȳ) = (5) e T e =1 y T y nȳ =1 yt y ˆα T X T y y T y nȳ = (6) = R T 0 R 1 R 0 (7) R 0, 967: około 97% zmienności produkcji komputerów jest wyjaśniane przez zmienność zmiennych: (a) (b) (c) zamówienia na produkcję komputerów, produkcję nośników danych, produkcję półprzewodników. 14
11.1 Skorygowany współczynnik derterminacji R 0, 966. 1 Prognozy R = R Wprowadźmy oznaczenia dla okresu prognozowanego τ: τ = n +1,n+,...,n+ s = T. Zatem długość okresu prognozy wynosi: T n = s. k n (k +1) (1 R ), (8) 1.1 Prognoza zmiennej endogenicznej na podstawie modelu trendu linowego Szacujemy model postaci: Y t = α 0 + α 1 t + ɛ t, (9) otrzymując: na podstawie wyników: Ŷ t = 787, 3+41, 5t, (30) - Variable Coefficient Std.Error t-value t-prob PartR^ Constant 787.3 68.71 40.559 0.0000 0.9586 Trend 41.5 1.6140 5.77 0.0000 0.9031 - R^ = 0.90313 F(1,71) = 661.89 [0.0000] \sigma = 90.565 DW = 0.845 RSS = 5994401.909 for variables and 73 observations - Prognoza Y na okres τ=74: Y P 74 = 787, 3+41, 5 74 = 5859, 93. (31) Ponieważ w modelu występuje zjawisko autokorelacji składnika losowego (niskie DW), zatem aby dokonać prognozy punktowej zmiennej Y t należy skorygować powyższy wynik o ˆρe 73, gdzie: e 73 73. reszta modelu trendu obliczona jako: Y 73 Ŷ73, ˆρ współczynnik autokorelacji składnika losowego obliczony ze wzoru (16), e 73 = 5570 (787, 3+41, 5 73) = 48, 406, ˆρ =1 0,845 =0, 57. Zatem: ˆρe 73 = 143, 45, = 5859, 93 143, 45 = 5716, 5. Y P 74 15
Ze względu na dość kłopotliwy sposób obliczania wariancji predykcji (średniego błedu prognozy) w warunkach autokorelacji składnika losowego 6, można poszukać innej postaci trendu, która będzie pozbawiona tej niedogodności. 1. Prognoza zmiennej endogenicznej na podstawie modelu trendu wielomianowego Postać trendu wielomianowego dla zmiennej Y t : Y t = α 0 + α 1 t + α t +...+ α q t q + ɛ t, (3) Rząd q ustalamy na podstawie otrzymanego optymalnego modelu: Variable Coefficient Std.Error t-value t-prob PartR^ Constant 785.8 196.43 14.18 0.0000 0.759 t 38.5 70.960 3.361 0.0013 0.146 t -35.794 8.1443-4.395 0.0000 0.64 t3.0889 0.4080 5.10 0.0000 0.84 t4-0.053483 0.0099665-5.366 0.0000 0.3038 t5 0.0006735 0.00011668 5.377 0.0000 0.3046 t6 -.7638e-006 5.381e-007-5.76 0.0000 0.967 R^ = 0.956664 F(6,66) = 4.83 [0.0000] \sigma = 01.564 DW = 1.86 RSS = 681453.905 for 7 variables and 73 observations Zatem oszacowany model przyjmuje postać: Ŷ t = 785, 8+38, 5t 35, 79t +, 09t 3 0, 053 4 +0, 0006t 5 0, 000008t 6. (33) Podstawiając za t = 74 otrzymujemy 7 : = 539, 764608. Y P 74 Ponieważ DW wskazuje na brak autokorelacji składnika losowego (potwierdza to również poniższy test mnożnika Lagrange a), możemy przejść do analizy błędów ex ante prognozy. ------------------------------------------------------------------- Testing for Error Autocorrelation from lags 1 to 1 Chi^(1) = 0.8669 [0.593] and F-form(1,65) = 0.568 [0.6144] ------------------------------------------------------------------- 1..1 Ocena ex ante prognozy Średni błąd prognozy ex ante obliczamy jako: Sτ S P = + x T ˆD τ (ˆα)x τ = S 1+x T τ (XT X) 1 x τ, (34) gdzie 8 : S = e T e n (k +1), (35) 6 Zeliaś A., Teoria Prognozy, PWE, Warszawa 1997, s. 17 7 Precyzyjnych obliczeń dokonano w Excel. 8 W pakietach komputerowych S podawane jest najczęściej jako sigma. 16
x τ wektor prognozowanych wartości zmiennych objaśniających. S P 74=81,446. 9 Średni względny błąd prognozy ex ante: V τ = Sτ P Yτ P, (36) V 74 =0, 05. Zatem średni względny błąd ex ante prognozy na 74 okres wynosi 5,%. 1.. Prognoza przedziałowa Jeśli składnik losowy ma rozkład normalny to zmienna losowa: yτ y P τ u =, (37) ma rozkład t-studenta z n (k + 1) stopniami swobody. Przedział ufności prognozowanej zmiennej wyznaczamy jako: P ( yτ P t α,df Sτ P <y τ <yτ P + t α,dfs τ P ) =1 α. (38) Zatem dla α=0,05 oraz df =73 (6 + 1) = 66: P (539, 76 81, 45 <y 74 < 539, 76 + 81, 45) = 0, 95, P (489, 87 <y 74 < 5955, 66) = 0, 95. Przedział o końcówkach (489,87; 5955,66) pokrywa prognozowaną wartość Y 74 (na 1 okres do przodu) z prawdopodobieństwem 95%. S P τ 9 Obliczeń dokonano w Excel. 17
1.3 Prognoza zmiennej endogenicznej na podstawie modelu ekonometrycznego (warunkowa) Oszacowany model z równania (1) na postać: 10 Ŷ t = 493, 30 + 0, 487X 1t +0, 495X t +0, 65X 3t. (39) 1.3.1 Prognoza zmiennych egzogenicznych na podstawie modeli trendu liniowego Dokonujemy prognoz zmiennych egzogenicznych na τ = 74 okres na podstawie modeli trendu liniowego: X jt = α 0 + α 1 t + ɛ t, (40) otrzymując: - dla X1: Variable Coefficient Std.Error t-value t-prob PartR^ Constant 849.9 78.514 36.98 0.0000 0.9489 t 40.108 1.8440 1.751 0.0000 0.8695 R^ = 0.86951 F(1,71) = 473.1 [0.0000] \sigma = 331.974 DW = 0.999 RSS = 784670.687 for variables and 73 observations - dla X: Variable Coefficient Std.Error t-value t-prob PartR^ Constant 700.0 1.838 3.055 0.0000 0.9354 t 7.8513 0.5188 15.308 0.0000 0.7675 R^ = 0.767478 F(1,71) = 34.35 [0.0000] \sigma = 9.3348 DW = 0.816 RSS = 60535.737 for variables and 73 observations - dla X3: Variable Coefficient Std.Error t-value t-prob PartR^ Constant 089.1 94.34.144 0.0000 0.8735 t 68.914.157 31.103 0.0000 0.9316 R^ = 0.93164 F(1,71) = 967.38 [0.0000] \sigma = 398.895 DW = 0.485 RSS = 1197300.3 for variables and 73 observations - Dla każdego z trzech powyższych modeli DW jest zbyt niskie by pomyślnie przejść test autokorelacji składnika losowego. Potwierdza to również test mnożnika Lagrange a: -------------------------------------------------------------------- Testing for Error Autocorrelation from lags 1 to 1 -------------------------------------------------------------------- dla X1: Chi^(1) = 18.11 [0.0000] ** and F-form(1,70) = 3.66 [0.0000] ** -------------------------------------------------------------------- dla X: Chi^(1) = 3.135 [0.0000] ** and F-form(1,70) = 3.477 [0.0000] ** -------------------------------------------------------------------- dla X3: Chi^(1) = 40.745 [0.0000] ** and F-form(1,70) = 88.44 [0.0000] ** -------------------------------------------------------------------- Podsumowując: Modele trendu liniowego dla zmiennych egzogenicznych mają postać: ˆX 1t = 849, 9+40, 1t, 10 Por. równanie (8) 18
ˆX t = 700, 0 + 7, 85t, ˆX 3t = 089, 1+68, 91t. Każdy z nich obarczony jest autokorelacją składnika losowego. Prognozy punktowe na ich podstawie muszą być skorygowane o ˆρe 73 (jak w przypadku modelu trendu liniowego dla Y t ): dla X 1t : e 73 = 5735 (849, 9+40, 1 73) = 4, 77, ˆρ =1 0,999 =0, 5, ˆρe 73 = 1, 39, zatem: Y74 P = 849, 9+40, 1 74 1, 39 = 5796, 49, dla X t : e 73 = 1496 (700, 0 + 7, 85 73) =, 83, ˆρ =1 0,816 =0, 59, ˆρe 73 = 131, 47, zatem: Y P 74 = 700, 0 + 7, 85 74 + 131, 47 = 141, 49, dla X 3t : e 73 = 6505 (089, 1+68, 91 73) = 614, 75, ˆρ =1 0,485 =0, 76, ˆρe 73 = 467, 1, zatem: Y74 P = 089, 1+68, 91 74 467, 1 = 671, 45. Wektor prognozowanych zmiennych egzogenicznych wynosi: 1 x 74 = 5796,49 141,49. (41) 671,45 Podstawiając go do równania (39) otrzymujemy wartość punktowej prognozy warunkowej Y 74 : = 493, 30 + 0, 487 5796, 49 + 0, 495 141, 49 + 0, 65 671, 45 = 5796, 84. Y P 74 Ocena ex ante prognozy Korzystając z równania (34) obliczmy średni błąd prognozy ex ante: S = 171, 707, 11 S P 19 = 179, 61,1 Średni względny błąd prognozy ex ante: 11 PC-Give: po oszacowaniu regresji odczytujemy sigma. 1 Na podstawie obliczeń w Excel. 19
V 74 = 179,61 5796,84 =0, 031. Zatem średni względny błąd ex ante prognozy na 74 okres wynosi 3,1%. Prognoza przedziałowa Korzystając ze wzoru (38) obliczamy końcówki prognozy przedziałowej: P (5796, 84 179, 61 <y 74 < 5796, 84 + 179, 61) = 0, 95, P (5437, 6 <y 74 < 6156, 05) = 0, 95. Przedział o końcówkach (5437,6; 6156,05) pokrywa prognozowaną wartość Y 74 (na 1 okres do przodu) z prawdopodobieństwem 95% 13. Prognozę przedziałową można obliczyć przy pomocy programu STATISTI- CA, korzystając z opcji Compute prediction limits, podając wektor prognozowanych zmiennych egzogenicznych. Należy pamiętać, że STATISTICA nie bierze pod uwagę zjawiska autokorelacji składnika losowego - nie obliczy więc poprawnie przedziałów prognozy gdy autokorelacja występuje. Nieznaczne różnice w końcówkach wynikają z dokładniejszej wartości t Studenta w STATISTICE (t α=0,05; df =69 =1, 9949447960436). 13 Uwaga: Powinniśmy obliczyć końcówki prognozy ex ante dla każdej z prognoz punktowych dla zmiennych egzogenicznych, następnie lewe i prawe (oddzielnie) końcówki potraktować jako prognozowany wektor zmiennych egzogenicznych, obliczyć prognozy warunkowe, dla każdej z nich obliczyć końcówki prognozy i dopiero ich skrajne wartości potraktować jako prognozę przedziałową. 0
1.3. Prognoza zmiennych egzogenicznych na podstawie modeli trendu wielomianowego Postać trendu wielomianowego dla zmiennych X jt : X jt = α 0 + α 1 t + α t +...+ α q t q + ɛ t. (4) Rząd q ustalamy na podstawie otrzymanego optymalnego modelu: dla X1 Variable Coefficient Std.Error t-value t-prob PartR^ Constant 851.9 39.80 11.89 0.0000 0.6818 t1 171.71 86.630 1.98 0.0516 0.056 t -5.836 9.948 -.598 0.0115 0.098 t3 1.530 0.4981 3.07 0.0031 0.151 t4-0.03861 0.01167-3.174 0.003 0.134 t5 0.00043984 0.0001444 3.088 0.009 0.16 t6-1.8661e-006 6.3948e-007 -.918 0.0048 0.1143 R^ = 0.933351 F(6,66) = 154.04 [0.0000] \sigma = 46.075 DW = 1.94 RSS = 3996506.1 for 7 variables and 73 observations ====================================================================== dla X Variable Coefficient Std.Error t-value t-prob PartR^ Constant 995.45 87.673 11.354 0.0000 0.668 t1-119.85 51.30 -.339 0.04 0.0788 t.45 9.8433.78 0.061 0.0750 t3-1.9307 0.87550 -.05 0.0310 0.0706 t4 0.091006 0.041736.180 0.039 0.069 t5-0.00470 0.001137 -.181 0.039 0.069 t6 3.8397e-005 1.7519e-005.19 0.030 0.0698 t7-3.1684e-007 1.4367e-007 -.05 0.0310 0.0706 t8 1.0747e-009 4.8445e-010.18 0.0301 0.0714 R^ = 0.906386 F(8,64) = 77.458 [0.0000] \sigma = 61.7081 DW =.04 RSS = 43704.7817 for 9 variables and 73 observations ====================================================================== dla X3 Variable Coefficient Std.Error t-value t-prob PartR^ Constant 04.0 354.75 5.705 0.0000 0.3407 t1 560.6 51.81.6 0.096 0.079 t -153.37 59.530 -.576 0.013 0.0953 t3 19.066 6.6355.873 0.0055 0.1159 t4-1.61 0.40645-3.105 0.008 0.137 t5 0.048533 0.014714 3.99 0.0016 0.1473 t6-0.0011118 0.000368-3.446 0.0010 0.1586 t7 1.4914e-005 4.076e-006 3.545 0.0007 0.1663 t8-1.0797e-007.999e-008-3.600 0.0006 0.1706 t9 3.545e-010 8.9934e-011 3.619 0.0006 0.171 R^ = 0.983537 F(9,63) = 418.19 [0.0000] \sigma = 07.79 DW = 1.93 RSS = 70131.434 for 10 variables and 73 observations ====================================================================== Otrzymujemy zatem trzy modele, w których składnik losowy pozbawiony jest autokorelacji: ------- Testing for Error Autocorrelation from lags 1 to 1 ------- 1
dla X1: Chi^(1) = 0.06101 [0.803] and F-form(1,65) = 0.05534 [0.8148] dla X: Chi^(1) = 0.089631 [0.7646] and F-form(1,63) = 0.077448 [0.7817] dla X3: Chi^(1) = 0.07393 [0.7879] and F-form(1,6) = 0.061545 [0.8049] ------- Ostatecznie otrzymujemy: --------------------------------------------------- 851,854898199 851,8549 74 171,7147703116 1706,8930 5476-5,8363537988-141479,8734 4054 1,5301687837 60061,115 9986576-0,03860590-1158099,630 1900664 0,000439838 976003,7888 16406490176-0,0000018661-30647,1760 --------------------------------------------------- prognoza punktowa X1 5617,3395 =================================================== 995,446340096 995,4463 74-119,848844450-8868,8145 5476,450085310 1799,3467 4054-1,930708689-78374,4334 9986576 0,0910066508 78977,8518 1900664-0,004701630-5481307,979 16406490176 0,0000383974 6305097,493 1151807304-0,0000003168-38500,1410 89919474003776 0,0000000011 966371,5556 --------------------------------------------------- prognoza punktowa X 1668,617 =================================================== 03,915548567 03,9155 74 560,6594004983 41488,7956 5476-153,374961354-839881,0955 4054 19,0667711390 776313,680 9986576-1,61443714-37847388,1166 1900664 0,0485354937 107700581,958 16406490176-0,0011118794-18577817,978 1151807304 0,0000149146 18131660,851 89919474003776-0,0000001080-97086796,841 66540410775079400 0,0000000003 1656386,0580 --------------------------------------------------- prognoza punktowa X3 6570,7998 =================================================== Wektor prognozowanych zmiennych egzogenicznych wynosi: 1 x 74 = 5617,3395 1668,617. (43) 6570,7998 Podstawiając go do równania (39) otrzymujemy wartość punktowej prognozy warunkowej Y 74 : Y74 P = 493, 30 + 0, 487 5617, 3395 + 0, 495 1668, 617 + 0, 65 6570, 7998 = 5796, 16. 1.3.3 Ocena ex post prognozy Szacujemy model postaci: Y t = β 0 + β 1 X 1t + β X t + β 3 X 3t + η t, (44)
skracając liczbę obserwacji o 3. Te 3 obserwacje potraktujemy jako realizacje prognozy (ex post). Prognozy i realizacje podaje tabela: ---- Analysis of 1-step forecasts ---- Date Actual Forecast Y-Yhat Forecast SE t-value 1997 1 5868.00 5661.31 06.685 186.790 1.10651 1998 1 554.00 5639.77-97.7730 06.570-0.473316 1998 5570.00 5774.83-04.87 194.607-1.055 ---- Tests of parameter constancy over: 1997 (1) to 1998 () Forecast Chi^( 3)= 3.1988 [0.360] Chow F( 3, 66) = 1.0194 [0.3898] ---- (1) Średni błąd (ang. average error, AE lub mean error, ME): ME = 1 s T τ =n+1 () Średni błąd procentowy (ang. average percentage error, AP E lub mean percentage error, MPE): MPE = 1 s T τ =n+1 y τ y P τ y τ 100% = ( yτ yτ P ) = 31, 97. (45) ( ) yτ yτ P T τ =n+1 y 100% = 0, 64%. (46) τ T τ =n+1 (3) Średni absolutny błąd (ang. average absolute error, AAE lub mean absolute error, MAE): MAE = 1 s T τ =n+1 (4) Średni absolutny błąd procentowy (ang. average absolute percentage error, AAP E lub mean absolute percentage error, MAPE): MAPE = 1 s T τ =n+1 y τ yτ P y τ (5) Błąd średniokwadratowy (ang. mean square error, MSE): MSE = 1 s y τ yτ P = 169, 76. (47) T 100% = τ =n+1 y τ yτ P T τ =n+1 y 100% =, 999%. τ (48) T τ =n+1 ( yτ yτ P ) = 31410, 78. (49) 3
(6) Procentowy błąd średniokwadratowy (ang. mean square percentage error, MSPE): MSPE = 1 s T ( yτ yτ P y τ =n+1 τ ) 100% = ( yτ y P τ T τ =n+1 T τ =n+1 y τ ) 100% = 0, 098%. (50) (7) Pierwiastek błędu średniokwadratowego (ang. root mean square error, RMSE): RMSE = 1 T (y τ yτ s P ) = 177, 3. (51) τ =n+1 (8) Pierwiastek procentowego błędu średniokwadratowego (ang. root mean square percentage error, RMSPE): RMSP E = 1 T ( ) yτ y P T τ 100% = τ =n+1 (y τ yτ P ) s y T 100% = 3, 13%. τ =n+1 τ τ =n+1 y τ (5) (9) Współczynnik rozbieżności 1 (ang. inequality coefficient 1, IC1): IC1= 1 T s τ =n+1 (y τ yτ P ) 1 s T τ =n+1 yp τ 1 T + s τ =n+1 y τ =0, 0156. (53) (10) Współczynnik rozbieżności (ang. inequality coefficient, IC): 1 T s τ =n+1 IC= τ yτ P ) 1 T s τ =n+1 y τ =0, 031. (54) 1.4 Prognoza na podstawie modelu prostego wyrównania wykładniczego Brown a Dokonujemy wygładzenia szeregu czasowego zmiennej Y t na podstawie wzoru: gdzie: ŷ t+1 wartość wygładzona w czasie t +1, ŷ t wartość wygładzona w czasie t, y t wartość empiryczna Y w czasie t, α stała wygładzania, ŷ 1 = y 1. ŷ t+1 = αy t +(1 α)ŷ t, α [0, 1], (55) 4
Wartość prognozy obliczamy jako: gdzie: e t = y t ŷ t błądex post prognozy. ŷ t+1 =ŷ t + αe t, (56) Korzystając z programu STATISTICA wybieramy moduł Time series, Forecasting, wybieramy zmienną Y, następnie exponential smoothing and forecasting, następnie Automatic search for best parameters (), otrzymując wartość prognozy równą: ŷ 74 = 5579, 731, przy α =0, 648 14. Dobór α następuje na podstawie minimalnych błędów ocen prognozy ex post: Graficzną prezentację wyrównania wykładniczego przedstawia rysunek: 14...α >0,5 może świadczyć o obecności w danych trendu czasowego, efektów sezonowych czy cyklicznych. Warto wtedy rozważyć zastosowanie innej metody. Por.: Gajda J. B., Prognozowanie i symulacja a decyzje gospodarcze, C.H. BECK, Warszawa 001, s. 187 5