Wykłady ze statystyki i ekonometrii Janusz Górczyński Prognozowanie i symulacje w zadaniach Wyższa Szkoła Zarządzania i Marketingu Sochaczew 2009
Publikacja ta jest czwartą ozycją w serii wydawniczej Wykłady ze statystyki i ekonometrii. Dotychczas ukazały się dwa wydania ozycji Podstawy statystyki (wyd. I rok 1999, wyd. II orawione i uzuełnione rok 2000) oraz Podstawy ekonometrii w 2004 roku. Uzuełnieniem tych ozycji są Wybrane wzory i tablice statystyczne wydane w roku 2000 (wyd. I), 2001 (wyd. II orawione i uzuełnione) oraz 2006 (wyd. III orawione i uzuełnione). Wydanie I Materiały do druku zostały w całości rzygotowane rzez Autora ISBN: 978-83-88781-51-3 Wydawca: Wyższa Szkoła Zarządzania i Marketingu w Sochaczewie Projekt okładki i druk cyfrowy: Poligrahica, 95-050 Konstantynów Łódzki, ul. Dąbrowska 44 htt://www.centrumpoligrafii.l Arkuszy wydawniczych 10,0 Arkuszy drukarskich 10,0
3 Sis treści WSTĘP... 5 1. PROGNOZOWANIE POJĘCIA OGÓLNE... 7 1.1. METODY PROGNOSTYCZNE... 7 1.2. BŁĄD PROGNOZY... 8 2. REGRESJA LINIOWA... 11 2.1. ESTYMACJA MODELU... 11 2.2. BADANIE ISTOTNOŚCI... 12 2.3. DOKŁADNOŚĆ OCEN PARAMETRÓW MODELU... 15 2.4. BADANIE ZAŁOŻEŃ MODELU LINIOWEGO... 16 2.4.1. Założenie o zerowej wartości oczekiwanej reszt losowych... 16 2.4.2. Założenie o normalności składników losowych... 17 2.4.3. Założenie o nieskorelowaniu składników losowych... 18 2.5. PROGNOZOWANIE... 19 2.6 MODELE LINIOWE PRZYKŁADY... 21 2.6.1 Wydajność racy... 21 2.6.2. Wydajność racy, model otęgowy... 34 2.6.3. Czy trend zjawiska jest liniowy?... 38 2.6.4. Czy trend zjawiska jest wykładniczy?... 46 2.6.5. Problem estymacji funkcji logistycznej... 52 3. REGRESJA WIELOKROTNA... 57 3.1. ESTYMACJA PARAMETRÓW MODELU... 57 3.2. BADANIE ISTOTNOŚCI MODELU... 59 3.3. REGRESJA KROKOWA... 62 3.4. DOKŁADNOŚĆ OCEN PARAMETRÓW MODELU... 63 3.5. PROGNOZOWANIE W REGRESJI WIELOKROTNEJ... 64 3.6. REGRESJA WIELOKROTNA PRZYKŁADY... 66 3.6.1. Liniowa funkcja rodukcji... 66 3.6.2. Potęgowa funkcja rodukcji (Cobba-Douglasa)... 73 3.6.3. Zmienne dychotomiczne, szereg addytywny... 79 3.6.4. Zmienne dychotomiczne, szereg multilikatywny... 87
4 3.6.5. Model autoregresyjny, cena mleka... 100 3.6.6. Modelowanie wielkości skuu mleka. Zmienne dychotomiczne i zmienne oóźnione... 107 3.6.7. Kolejny rzykład wykorzystania zmiennych dychotomicznych i oóźnionych... 115 3.6.8. Modele harmonikowe, rognozowanie liczby bezrobotnych... 126 4. ZAWARTOŚĆ KRĄŻKA CD... 135 5. LITERATURA... 136
5 Wstę Przedmiot Prognozowanie i symulacje realizowany jest na wielu kierunkach studiów srawiając studentom tych kierunków ewne roblemy. Wynikają one między innymi z tego owodu, że rzekazywane w ramach rzedmiotu treści i oczekiwane umiejętności wymagają z jednej strony dość dużej wiedzy teoretycznej z zakresu statystyki i ekonometrii, a z drugiej strony raktycznej umiejętności wykonywania obliczeń statystycznych. Moim zamiarem jest rzedstawienie tych interesujących roblemów na wielu rzykładach, w tym na rzykładach raktycznych. Pierwsza część rezentowanego materiału zawiera teoretyczne wrowadzenie do metod regresyjnych: regresji liniowej, regresji wielokrotnej liniowej, regresji krokowej, regresji krzywoliniowej, badaniu istotności wyestymowanych modeli oraz ich wykorzystania do rognozowania. W zastosowaniach raktycznych niezbędne są jakieś narzędzia obliczeniowe, z uwagi na otencjalnych odbiorców tego skrytu będę korzystać wyłącznie z arkusza kalkulacyjnego Excel. Nic oczywiście nie stoi na rzeszkodzie wykorzystywaniu do celów obliczeniowych wysecjalizowanych akietów statystycznych (n. Statistica, SPSS, Statgrahics), ale dostę do nich może być trudniejszy. Dla ułatwienia obliczeń będę korzystać z trzech secjalnie rzygotowanych skoroszytów: StatystykaJG.xls Liniowa.xls TestSerii.xls Wszystkie trzy skoroszyty są dostęne w zakładce Download/Prognozowanie na stronie naszej Uczelni. 1 Każdy z tych skoroszytów zawiera mniej lub bardziej zaawansowane makroolecenia VBA 2. Skoroszyt StatystykaJG.xls jest najbardziej rozbudowany, a rocedury w nim zawarte ozwalają na wykonanie większości obliczeń statystycznych realizowanych w tyowych rogramach rzedmiotów statystyka, ekonometria czy rognozowanie. Procedury dostęne są orzez menu alikacji, a obsługa oszczególnych rocedur realizowana jest orzez formularze. Skoroszyty Liniowa.xls oraz TestSerii.xls są znacznie skromniejsze, a ich rola ograniczona jest do dwóch zagadnień: estymacji modelu liniowego oraz wykorzystaniu testu serii. Kolejna różnica związana jest ze sosobem wykonywania obliczeń, w tych dwóch skoroszytach obliczenia wykonywane są (głównie) orzez jawne formuły zaisane w komórkach arkusza. 1 htt://www.wszim-sochaczew.edu.l 2 Visual Basic for Alications, język rogramowania akietu Office
6 Na dołączonym do tej ozycji krążku CD wszystkie te trzy arkusze zostaną umieszczone, będzie tam także wersja PDF tej racy jak i liki arkusza z rzykładowymi danymi wykorzystywanymi w rzedstawionych rzykładach. W racy rzyjęto nastęującą konwencję zaisu: Nazwy skoroszytów i arkuszy są wyisywane czcionką Courier New, Formuły Excela wyisywane są czcionką Courier New, Nazwy oleceń menu, nazwy zakładek i oisy kontrolek formularzy są wyisywane ochyloną czcionką Times New Roman.
7 1. Prognozowanie ojęcia ogólne Prognozowanie (lub inaczej redykcja) jest oartym na naukowych odstawach rzewidywaniem kształtowania się zjawisk i rocesów w rzyszłości. Przedmiotem rognozowania jest rzebieg zjawisk i rocesów rzyrodniczych, sołecznych, demograficznych, gosodarczych, technicznych it. Jeżeli rognozowanie dotyczy rocesów i zjawisk zachodzących w gosodarce, to mówimy wtedy o rognozowaniu gosodarczym. Z terminem rognozowanie związany jest termin rognozy ( redykcji ). Prognozowanie jest rocesem wnioskowania o rzewidywanym kształtowaniu się zjawiska czy rocesu w rzyszłości, a rognoza (redykcja) jest konkretnym wynikiem rocesu rognozowania. Prognozowanie gosodarcze (ale nie tylko) jest utrudnione rzez secyficzne warunki, w jakich zachodzą rocesy gosodarcze, w tym ich uzależnienie od wielu różnorodnych czynników. Czynniki te, z uwagi na sosób oddziaływania obiektu rognozy, można odzielić na: czynniki egzogeniczne (zewnętrzne), czyli takie, na które obiekt rognozy nie ma wływu, a które owinny być uwzględnione w rognozowaniu z uwagi na ich ograniczający lub stymulujący wływ na rzebieg danego zjawiska (n. kurs walutowy na kształtowanie się obrotów danej firmy, rzebieg warunków ogodowych na lonowanie danej rośliny itd.); czynniki endogeniczne (wewnętrzne), czyli takie, na które obiekt rognozy ma wływ (n. wydajność racy, wielkość stosowanego nawożenia itd.). 1.1. Metody rognostyczne W każdym rocesie rognozowania można wyróżnić nastęujące etay: Zdefiniowanie roblemu rognostycznego, Zebranie danych statystycznych i ich wstęna analiza, Wybór metody rognozowania, Zbudowanie rognozy i ocena jej trafności. Istotnym elementem rocesu rognozowania jest wybór odowiedniej metody rognozowania, która determinuje sosób zbudowania rognoz. W zastosowaniach raktycznych najczęściej stosuje się metodę redykcji nieobciążonej, która srowadza się do wyznaczenia rognozy na oziomie wartości oczekiwanej zmiennej rognozowanej w danym unkcie.
8 Prognozowanie metodą redykcji nieobciążonej jest uzasadnione szczególnie wtedy, gdy można oczekiwać, że w unkcie rognozy owtórzą się te warunki, które obserwowano dla danych statystycznych wykorzystanych do zbudowania modelu rognostycznego. Jeżeli oczekiwanie takie nie jest urawnione, to w miejsce redykcji nieobciążonej można wybrać takie metody rognozowania jak największego rawdoodobieństwa czy też metoda minimalizacji oczekiwanej straty. W racy tej ograniczono się do wykorzystania metody redykcji nieobciążonej, jako najczęściej stosowanej w raktycznych rozwiązaniach. 1.2. Błąd rognozy Z uwagi na fakt, że zmienna objaśniana jest losowa naturalne jest wystęowanie różnic między rzeczywistą wartością zmiennej objaśnianej a jej rognozą wyznaczoną dla zadanej wartości zmiennej objaśniającej (lub zadanych wartości zmiennych objaśnianych) 3. Realne jest więc wystąienie błędu rognozy, częściej będziemy używać ojęcia błąd redykcji. Dwoma odstawowymi rodzajami mierników dokładności i trafności zbudowanych rognoz są: mierniki dokładności ex ante, mierniki dokładności ex ost. Mierniki dokładności ex ante służą do oceny oczekiwanych wielkości odchyleń rzeczywistych wartości zmiennej objaśnianej od ustalonej rognozy. Wartości tych mierników odawane są w momencie ustalenia rognozy, a wiec wtedy, gdy nie są jeszcze znane rzeczywiste wartości zmiennej objaśnianej. W rzykładach raktycznych będziemy wykorzystywać arkusze kalkulacyjne StatystykaJG.xls oraz Liniowa.xls, w obu arkuszach wyznaczane są średnie błędy redykcji unktowej ex ante, można je symbolicznie oznaczyć jako oznacza, że rzy rognozowaniu wartości S ˆ P y. Błąd ten ŷ oełniamy średnio błąd ± P. Średni błąd redykcji jest liczbą mianowaną, o jego odzieleniu rzez rognozę unktową otrzymamy względny średni błąd redykcji ex ante: S y ˆ ŷ 3 Prognozę tę nazywamy rognozą unktową, symbolicznie oznaczaną jako ŷ.
9 S V = yˆ yˆ 100%. Względny błąd rognozy ex ante informuje nas o tym, jaki duży (rocentowo) błąd oełniamy rzyjmując, że nieznana, rognozowana wartość będzie równa wyznaczonej rognozie unktowej ŷ. Średni błąd redykcji rzedziałowej wg wzoru: S P y ˆ wykorzystujemy także do zbudowania rognozy * y < yˆ t S P ; yˆ + t S P > z P = 1 α. α; v yˆ α; v yˆ Wyznaczony rzedział liczbowy okrywa, z rawdoodobieństwem 1 α, nieznaną * wartość zmiennej zależnej y w ustalonym unkcie rognozy. Ocena rawdziwości mierników ex ante może być zweryfikowana doiero o rzeczywistym zrealizowaniu się zmiennej objaśnianej w unkcie, dla którego była ostawiona rognoza. Jeżeli znamy rzeczywistą wartość zmiennej rognozowanej Y w wybranym unkcie, to błąd redykcji ex ost jest równy D = Y yˆ. Wielkość błędu absolutnego rognozy ex ost informuje nas o różnicy między rzeczywistą wartością zmiennej rognozowanej w danym unkcie a ostawioną rognozą. Podobnie jak w rzyadku błędu ex ante możemy wyznaczyć względny błąd rognozy ex ost z wzoru: D Y yˆ V = 100% = 100%. Y Y Jeżeli rognoza była budowana nie dla ojedynczego unktu, lecz dla ich ciągu, to można wyznaczyć średni błąd rognozy ex ost (absolutny i względny) z wzorów: 1 D = k k i = 1 ( Y i yˆ i 1 k Yi yˆ i V = k i = 1 Y i ) 100% Statystyczną oceną błędu rognozy ex ost w takiej sytuacji jest średni kwadratowy błąd rognozy wyznaczony z wzoru:
10 S = 1 k Y k i = i yˆ 1 i ) 2 (. Arkusze kalkulacyjne, które będziemy wykorzystywać w rezentowanych dalej rzykładach część z tych mierników dokładności rognoz wyznaczają, ale nie wszystkie. W miarę otrzeby można je samodzielnie doliczyć isząc stosunkowo rostą formułę Excela.
100 40000 35000 30000 25000 20000 15000 10000 5000 Y(t) Yteor(t) 0 0 10 20 30 40 50 60 70 80 3.6.5. Model autoregresyjny, cena mleka W skoroszycie Mleko.xls w arkuszu DaneWyjsciowe zawarte są miesięczne średnie ceny 1 hektolitra mleka oraz miesięczne wielkości skuu mleka w mln. litrów obserwowane na rzestrzeni lat 1993-2004. Poniżej okazany jest fragment tego arkusza wraz z wykresem szeregu czasowego cen mleka. Wykorzystamy fakt, że mamy do dysozycji szereg o dużej liczbie wyrazów (n=144) do zbudowania modelu tendencji z wykorzystaniem ierwszych 132 obserwacji, a ozostałe wyrazy (od t=133 do t=144) osłużą nam do wyznaczenia mierników błędu rognozy tyu ex ost.
101 Warto zauważyć, że w rozważanym szeregu czasowym wystęują trend liniowy oraz nieregularne wahania o trudnym do ustalenia okresie. Brak regularnych wahań okresowych wyklucza użycie zmiennych dychotomicznych, ozostaje nam możliwość rozszerzenia zbioru zmiennych objaśniających o zmienne oóźnione ceny mleka. Będziemy więc estymować model ostaci: y( t) = b0 + b1t + b2 y( t 1) + b3 ( t 2) +... + br + 1y( t r) gdzie y( t 1), y( t 2), y( t r) oznaczają ceny mleka oóźnione o 1, 2 czy ogólnie r miesięcy względem momentu czasu t. Wielkość oóźnienia r jest arbitralną decyzją osoby wykonującej estymację wynikającą z charakteru badanego zjawiska. Estymacja owyższego modelu rzy omocy rocedury Regresja wielokrotna ze skoroszytu StatystykaJG wymaga rzygotowania danych wejściowych do estymacji. W arkuszu CenaDaneOoznione wyznaczone zostały wartości oóźnione ceny mleka dla r = 12. Po utworzeniu zmiennych oóźnionych wstawiony został dodatkowy wiersz o wierszu 13 (t=12) w celu skoiowania wiersza ierwszego z etykietami nazw zmiennych. Obszar A14:N134 zostanie wykorzystany do estymacji modelu funkcji regresji formułowanego wcześniej w tym rzykładzie. Estymację modelu zaczynamy od otwarcia skoroszytu StatystykaJG amiętając o włączeniu makrooleceń. Po otwarciu tego liku rzechodzimy orzez asek zadań do skoroszytu z danymi wyjściowymi do estymacji modelu (może to być n. skoroszyt Mleko omawiany w tym rzykładzie). Z menu Regresja wywołujemy olecenie Regresja wielokrotna, w zakładce Dane wejściowe wskazujemy obszar A14:N134. Pozostawiamy jako miejsce zwrócenia wyników estymacji ocję nowego arkusza uaktywniając jednocześnie ole wyboru Predykcja.
102 W zakładce Grafika włączamy ierwsze ole wyboru, dzięki czemu będzie wykonany wykres wartości obserwowanych i teoretycznych cen mleka. W zakładce Badanie założeń uaktywniamy wszystkie trzy ola wyboru (badanie orawności doboru oszczególnych zmiennych, badanie normalności reszt losowych, badanie braku autokorelacji I stonia). Po dokonaniu tych ustawień rzyciskiem OK rzechodzimy do kolejnego okna dialogowego. W oknie wyboru zmiennych wybieramy jako zmienną zależną (objaśnianą) cenę mleka w momencie czasu t, czyli y (t). Pozostałe zmienne rzenosimy do rawej listy jako zmienne niezależne (objaśniające). Uaktywniamy jeszcze ole wyboru Zaamiętaj historię doboru modelu i rzyciskiem OK uruchamiamy ierwszy krok regresji wielokrotnej krokowej. Wyniki ierwszego kroku regresji krokowej okazują, że zaroonowany model funkcji regresji jest istotny statystycznie z bardzo dobrym doasowaniem do danych emirycznych wsółczynnik determinacji jest równy 99,69%. Jednocześnie testy szczegółowe dotyczące istotności oszczególnych zmiennych niezależnych okazują, że
103 część z nich może być z modelu usunięta jako niewiele wnosząca do wyjaśniania zachowania się zmiennej objaśnianej. W okazanej sytuacji rocedura regresji krokowej wskazała jako ierwszą do usunięcia zmienną oóźnioną y ( t 8), krytyczny oziom istotności dla weryfikacji hiotezy o istotności tej zmiennej jest największy sośród wszystkich innych, stąd wybór tej zmiennej do usunięcia. W dalszych krokach usuwamy jeszcze siedem innych zmiennych dochodząc ostatecznie, w dziewiątym kroku, do sytuacji okazanej oniżej. Jak widzimy w modelu ozostało jedynie ięć zmiennych, model jest oczywiście istotny statystycznie, a wszystkie zmienne są w nim niezbędne. Zauważmy także, że wsółczynnik determinacji zmniejszył się bardzo nieznacznie (z 99,69% na 99,68%), zmalał także średni kwadrat odchyleń dla zmienności resztowej (z 0,855 na 0,826).
104 Klik rzycisku Model jest dobrany uruchamia roces wyrowadzania wyników estymacji, w jego trakcie będziemy doytywani o wykonanie ewnych badań. Poniżej widok ierwszego z ytań tego tyu, oczywiście odowiadamy Tak, jeżeli chcemy, aby badanie, czy trend zjawiska może być oisany modelem liniowym zostało wykonane. W rzyadku zmiennych oóźnionych również odowiadamy ozytywnie, o udzieleniu ostatniej z nich rocedura wyrowadza komlet wyników estymacji do nowego arkusza. Poniżej widok fragmentu tego arkusza (nazwanego óźniej CenaModel132) okazującego wyniki badania założeń (o lekkim formatowaniu na otrzeby tej ublikacji). Jak widzimy wszystkie założenia są sełnione, dotyczy to zarówno orawności doboru modelu odnośnie wszystkich ięciu zmiennych, normalności reszt losowych jak
105 i braku autokorelacji. Oznacza to, że oceny arametrów modelu są nieobciążone, a sam model może być wykorzystany do wykonania rognoz. Poniżej inny fragment arkusza CenaModel132, okazane są wyniki estymacji arametrów modelu, błędy standardowe ocen arametrów, 95% rzedziały ufności dla rawdziwych wartości tych arametrów, wartości emiryczne testu t-studenta dla weryfikacji hiotez zerowych o tym, że dany arametr jest zerowy oraz krytyczne oziomy istotności dla tych hiotez. Po wyestymowaniu modelu możemy rzejść do wyznaczenia rognozowanych cen mleka w 2004 roku, czyli dla czasu od t=133 do t=144. Dodatkowo wyznaczymy także teoretyczne ceny mleka dla czasu od t=13 do t=132, wykorzystamy wyznaczone wartości dla rzygotowania wykresu cen obserwowanych i teoretycznych w funkcji czasu. Zaczynamy od rzygotowania w arkuszu CenaModel132 sójnego obszaru zawierającego dla wszystkich unktów czasu (od t=13 do t=144) wartości zmiennych objaśnianych, jeżeli takie istnieją (chodzi o zmienne oóźnione). Obok okazany jest fragment tego arkusza z tak rzygotowanymi danymi (D170:H302) Proszę zauważyć, że zmienna oóźniona y ( t 1) ma tylko jedną obserwację dla okresu rognozy (dla t=133), zmienna y ( i 2) dwie, a zmienna y ( t 11) jedenaście obserwacji.
106 Brakujące obserwacje tych zmiennych będą sukcesywnie uzuełniane w trakcie wyznaczania rognoz dla kolejnych unktów czasowych. Poniżej widok okna dialogowego rocedury Prognozowanie, wskazane są wszystkie otrzebne obszary danych oraz zaznaczone jest ole wyboru Zmienne oóźnione. Po uruchomieniu rocedury zostaniemy doytani o wielkość oóźnienia oszczególnych zmiennych oóźnionych (z wyjątkiem zmiennej y ( t 12) ), a nastęnie rocedura wyrowadzi wyniki rognoz na rawo od obszaru zmiennych objaśniających. Poniżej widok tego obszaru uzuełniony o absolutne (kolumna Q) i względne (kolumna R) błędy rognoz tyu ex ost, oraz o względne błędy redykcji tyu ex ante (kolumna P). Jak widzimy za ierwsze sześć miesięcy różnice między rognozowaną ceną mleka a rzeczywiście obserwowaną są bardzo małe, rzędu do 5%. W dalszych miesiącach błędy te rosną do rawie 7,2%. Warto także orównać względne błędy rognoz tyu ex ost i ex ante, za ierwsze 5-6 miesięcy błędy ex ost są niewiele większe od błędów szacunkowych ex ante.
107 120,00 100,00 y(t) Y teor. 80,00 60,00 40,00 20,00 0,00 0 20 40 60 80 100 120 140 160 3.6.6. Modelowanie wielkości skuu mleka. Zmienne dychotomiczne i zmienne oóźnione W skoroszycie Mleko.xls w arkuszu DaneWyjsciowe zawarte są miesięczne średnie ceny 1 hektolitra mleka oraz miesięczne wielkości skuu mleka w mln. litrów obserwowane na rzestrzeni lat 1993-2004. Poniżej okazany jest fragment tego arkusza wraz z wykresem szeregu czasowego skuu mleka. Z wykresu szeregu czasowego skuu mleka wynika, że oza trendem (liniowym lub krzywoliniowym) szereg zawiera wahania roczne z miesięcznymi odokresami cyklu