ANALIZA SZEREGÓW CZASOWYCH I PROGNOZOWANIE

Podobne dokumenty
PROGNOZOWANIE SPRZEDAŻY STUDIUM PRZYPADKU

4. Średnia i autoregresja zmiennej prognozowanej

3. Modele tendencji czasowej w prognozowaniu

5. Model sezonowości i autoregresji zmiennej prognozowanej

3. Analiza własności szeregu czasowego i wybór typu modelu

Wprowadzenie do analizy korelacji i regresji

7.4 Automatyczne stawianie prognoz

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Rozdział 8. Regresja. Definiowanie modelu

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Dopasowywanie modelu do danych

Analiza autokorelacji

Przykład 2. Stopa bezrobocia

Analiza regresji - weryfikacja założeń

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

MODELE LINIOWE. Dr Wioleta Drobik

Analiza sezonowości. Sezonowość może mieć charakter addytywny lub multiplikatywny

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

KORELACJE I REGRESJA LINIOWA

Regresja linearyzowalna

Analiza Statystyczna

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2017/2018

Co to jest analiza regresji?

Ekonometria. Zajęcia

Metody Ilościowe w Socjologii

Prognozowanie na podstawie modelu ekonometrycznego

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ćwiczenia IV

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2014/2015

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Testy nieparametryczne

Prognozowanie liczby pacjentów poradni ortopedycznej

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Zagadnienie 1: Prognozowanie za pomocą modeli liniowych i kwadratowych przy wykorzystaniu Analizy regresji wielorakiej w programie STATISTICA

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Statystyka matematyczna dla leśników

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Wykład 4: Statystyki opisowe (część 1)

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

166 Wstęp do statystyki matematycznej

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Ekonometria. Modele dynamiczne. Paweł Cibis 27 kwietnia 2006

Wprowadzenie do teorii prognozowania

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Analiza składowych głównych. Wprowadzenie

Metody Prognozowania

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Estymacja parametrów w modelu normalnym

Weryfikacja hipotez statystycznych

Analiza współzależności zjawisk

Ekonometria. Weryfikacja modelu. Paweł Cibis 12 maja 2007

Analiza zależności liniowych

Regresja i Korelacja

Statystyka. Wykład 13. Magdalena Alama-Bućko. 12 czerwca Magdalena Alama-Bućko Statystyka 12 czerwca / 30

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Analiza współzależności dwóch cech I

Grupowanie materiału statystycznego

POLITECHNIKA OPOLSKA

Arkadiusz Manikowski Zbigniew Tarapata. Prognozowanie i symulacja rozwoju przedsiębiorstw

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

PROGNOZOWANIE PRZYCHODÓW ZE SPRZEDAŻY

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Spis treści 3 SPIS TREŚCI

Sterowanie wielkością zamówienia w Excelu - cz. 3

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Ćwiczenie 5 PROGNOZOWANIE

Wykład 5: Analiza dynamiki szeregów czasowych

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Wykład 5: Statystyki opisowe (część 2)

Wprowadzenie do analizy dyskryminacyjnej

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada

ANALIZA DYNAMIKI DOCHODU KRAJOWEGO BRUTTO

Transkrypt:

ANALIZA SZEREGÓW CZASOWYCH I PROGNOZOWANIE Andrzej Sokołowski, Uniwersytet Ekonomiczny w Krakowie, StatSoft Polska Sp. z o.o. Wprowadzenie Analiza szeregów czasowych to jedna z części statystyki najczęściej stosowanych w praktyce gospodarczej. Zazwyczaj jej podstawowym celem jest uzyskanie możliwości prognozowania przebiegu zjawisk. Nie należy jednak nie doceniać dwóch innych celów analizy (czyli próby odpowiedzi na pytanie, jakie mechanizmy powodowały, że zjawisko przebiegało tak, a nie inaczej) oraz możliwości symulacji (to wymaga zbudowania modeli zawierających zmienne sterowalne; zmieniając ich poziom obserwujemy efekt). Szeregi czasowe, które obserwujemy w praktyce, są realizacjami pewnych procesów stochastycznych. Istnieje tu analogia do relacji pomiędzy populacją (zbiorowością generalną a próbą). Szereg czasowy jest próbą z procesu stochastycznego. Podobnie jak w klasycznym badaniu statystycznym chcemy poznać własności populacji na podstawie informacji z próby, tak tutaj na podstawie szeregu czasowego chcemy poznać właściwości mechanizmu, który go wygenerował, czyli procesu stochastycznego. Wybór metody analizy szeregu czasowego jest w dużej części zdeterminowany jednostką czasu, według której mierzono zjawisko. Mamy więc dane roczne, kwartalne, miesięczne, dekadowe, tygodniowe, dzienne, godzinowe, dane o wysokiej częstotliwości próbkowania, czy wreszcie dane ciągłe. Typowe elementy składowe procesu generującego szereg to trend, wahania okresowe (koniunkturalne, długookresowe, sezonowe, krótkookresowe), interwencje w proces (nagłe zmiany spowodowane czynnikami zewnętrznymi) oraz zawsze obecne wahania losowe. W większości analiz zakłada się, że wahania losowe są generowane przez rozkład normalny o wartości przeciętnej zero i stałej wariancji. Jeżeli składowe szeregu łączą się ze sobą poprzez dodawanie, to mamy do czynienia z modelem addytywnym, jeżeli łączą się poprzez mnożenie, to mamy model multiplikatywny. Poprzez logarytmowanie możemy go łatwo sprowadzić do postaci addytywnej. Oczywiście konkretny szereg czasowy nie musi mieć wszystkich tych elementów. Tak naprawdę to konieczny jest tylko jeden składnik losowy. Pewne składowe są naturalnie eliminowane z pola zainteresowań w zależności od jednostki miary czasu. W danych rocznych nie będziemy przecież poszukiwali wahań sezonowych czy dobowych. W toku budowy modelu możemy traktować szereg czasowy całościowo i próbować od razu modelować wszystkie jego składowe przykładem takiego podejścia jest wyrównywanie wykładnicze. Inne podejście przewiduje najpierw analizę trendu, ewentualnych Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 81

interwencji, potem wahań okresowych i na końcu reszt modelu całościowego, które są realizacją składnika losowego. Etapy analizy składników szeregu czasowego obejmują: identyfikację, pomiar, modelowanie, eliminowanie, prognozowanie. Dla każdego składnika szeregu czasowego mamy odpowiednie metody realizacji wymienionych etapów analizy. Zostaną one bliżej przedstawione w trakcie prezentacji dwóch przykładów. Przykład 1 Ten przykład poświęcony jest analizie danych rocznych. Mamy informacje dotyczące spożycia piwa w Polsce, średnio na głowę mieszkańca, w latach 1995-2007. Jednostką miary są litry. Ze względu na charakter danych jest oczywiste, że w tym szeregu czasowym mogą występować co najwyżej trzy składniki: trend, interwencje, składnik losowy. Praktycznie każdą analizę konkretnego szeregu rozpoczynamy od analizy wykresu ilustrującego przebieg zjawiska. Z menu Wykresy wybieramy Wykresy 2W, a następnie Wykresy liniowe (Zmienne). Po określeniu kolumny arkusza danych zawierającego badany szereg czasowy (u nas jest to Piwo) otrzymujemy następujący rysunek. 100 90 80 70 Piwo 60 50 40 30 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 82 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

Najprostsza metoda identyfikacji trendu to ocena wykresu. Tutaj nie podlega dyskusji, że w latach 1995-2007 występował w naszym kraju wyraźny, rosnący trend spożycia piwa. Stale zdobywało ono popularność. Jako pierwszy rozpatrzmy model, w którym występuje tylko trend i wahania losowe. Taki model ma postać f(.) to analityczna postać funkcji trendu. Jej wstępnego wyboru możemy dokonać już na wykresie. Przy definiowaniu Wykresu liniowego (Zmienne), na karcie Więcej wybieramy funkcję liniową. 100 Liniowy Piwo Piwo 6v*16c Piwo = 36,5385+4,2264*x 90 80 70 Piwo 60 50 40 30 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 83

Na pierwszy rzut oka wydaje się, że funkcja liniowa dobrze oddaje ogólny kierunek rozwoju zjawiska. Na tym etapie warto ocenić liczbę serii odchyleń. Seria to ciąg odchyleń o jednakowym znaku. W latach 1995-1996 szereg empiryczny jest pod trendem (odchylenia są ujemne) i to jest pierwsza seria, potem w latach 1997-2000 wykres empiryczny jest ponad funkcją trendu i to jest druga seria itd. Zwracamy uwagę na właściwe określenia pojęcia seria na pewno nie jest nim używane w MS Excel niewłaściwe tłumaczenie angielskiego series. Series to nie seria, tylko szereg. Polska seria, to w języku angielskim run. Wracając do serii odchyleń w naszym szeregu czasowym mamy ich 6. Nie jest to liczba zachwycająca na 13 obserwacji (najmniejsza możliwa liczba serii przy używaniu Metody Najmniejszych Kwadratów to 3). Formalnie nie można odrzucić hipotezy o losowości reszt, bo lewa wartość krytyczna w teście serii dla tego układu ma wartość 4. W tytule ostatniego wykresu mamy oszacowaną liniową funkcję trendu. To nie jest wystarczające do pełniej analizy. Trend liniowy o postaci oszacujemy w module Regresja wieloraka. Wykorzystamy w tym celu zmienną czasową t, która przyjmuje wartości kolejnych liczb naturalnych, począwszy od jedynki dla 1995 r. Po naciśnięciu kolejno OK oraz Podsumowanie: Wyniki regresji otrzymujemy 84 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

Zwracamy uwagę przede wszystkim na poziom p przy współczynniku kierunkowym trendu. Jeżeli jest on mniejszy od przyjętego poziomu istotności (0,05), to jest to statystyczny dowód na występowanie istotnego trendu. Nasz trend liniowy ma postać: Stwierdzamy, że w latach 1995-2007 średnioroczny przyrost spożycia piwa na jednego mieszkańca w Polsce wynosił 4,23 litra. Liniowa funkcja trendu w 98% opisuje zmiany, jakie zachodziły w spożyciu piwa. Średni błąd dopasowania (tu zwany błędem standardowym estymacji) wynosi 2,27 litra. O tyle przeciętnie różnią się wskazania funkcji trendu od rzeczywistego spożycia. W module Regresja wieloraka mamy szerokie możliwości analizy reszt. Na karcie Podstawowe widocznej po użyciu opcji Wykonaj analizę reszt (z karty Reszty, założenia predykcja) mamy Wykres normalności reszt. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 85

2,0 Wykres normalności reszt 1,5 1,0 Wartość normalna 0,5 0,0-0,5-1,0-1,5-2,0-5 -4-3 -2-1 0 1 2 3 4 5 Reszty Punkty na tym wykresie wydają się nie wykazywać większych, ukierunkowanych odchyleń od prostej. Formalnie hipotezę normalności rozkładu reszt możemy zweryfikować, wyświetlając reszty klawiszem Podsumowanie: Reszty i przewidywane. W kolumnie Reszty usuwamy wartości minimum, maksimum, średniej i mediany. Następnie w menu Dane ustalamy powyższy arkusz jako Arkusz wejściowy. Teraz z menu Statystyka wybieramy kolejno Statystyki podstawowe i tabele, Tabele liczności i kartę Normalność. Wybieramy test Shapiro-Wilka. 86 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

Wartość p jest bardzo duża i oczywiście nie ma podstaw do odrzucenia hipotezy o normalności rozkładu reszt. Wracamy do Analizy reszt. Na karcie Więcej znajdujemy Statystykę Durbina-Watsona. Dla n=13 i liniowej funkcji trendu wartości krytyczne dla testu na dodatnią autokorelację wynoszą 1,010 oraz 1,340. Ponieważ nasza empiryczna wartość statystyki testowej leży między tymi wartościami, więc test nie pozwala na rozstrzygnięcie, czy korelacja dodatnia występuje czy nie. Zbudujmy teraz prognozę spożycia piwa na lata 2009-2011. W Wynikach regresji wielorakiej na ostatniej karcie mamy możliwość wyliczenia prognozy punktowej wraz z przedziałem prognozy. W pojawiające się okno wpisujemy kolejne wartości zmiennej czasowej t dla roku 2009 jest to 14. Jeżeli nie zadowala nas mała liczba serii w odchyleniach od funkcji trendu, to możemy spróbować dopasować tzw. trend łamany. Koncepcja ta robi ostatnio karierę w epidemiologii pod nazwą joint-point regression (albo joinpoint regression). Oprogramowanie przygotowane w amerykańskim National Cancer Institute w ramach programu SEER (Surveillance Epidemiology and End Results) samo wyszukuje ewentualne punkty zwrotne trendu. My możemy oszacować trend łamany wprowadzając dwie interwencje do funkcji trendu. Na rysunku prezentującym szereg empiryczny widzimy, że w latach 2001 oraz 2004 nastąpiło dwukrotne przyhamowanie trendu obserwowanego w latach poprzednich. Te dwie interwencje oznaczamy dwiema zmiennymi zerojedynkowymi. Pierwsza I1 przyjmuje wartość zero do 2000 roku, a wartość 1 od 2001 roku do końca analizowanego Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 87

okresu. Druga zmienna I2 przyjmuje wartości zero do 2003 roku, a jeden od 2004. Tak więc zmienne te są równe zero na lewo od punktu zwrotnego, który wyznaczają, zaś jeden na prawo od punktu zwrotnego i w tym punkcie. Te dwie zmienne pozwalają nam założyć, że parametry funkcji trendu (wyraz wolny i współczynnik kierunkowy) mogą (choć nie muszą) ulegać zmianie w punktach zwrotnych. Równanie trendu liniowego łamanego w dwóch punktach ma teraz postać: Prosta idea tego wzoru jest taka, że w pierwszym punkcie zwrotnym wyjściowy wyraz wolny a 0 jest modyfikowany o a 1, zaś współczynnik kierunkowy b 0 jest modyfikowany o b 1. Podobna modyfikacja następuje w drugim punkcie zwrotnym. Powyższy wzór doprowadzamy do postaci Widać, że parametry tego modelu możemy oszacować jako parametry równania regresji z pięcioma zmiennymi objaśniającymi: I1, I2, t, I1t, I2t. Co bardzo ważne, poprzez weryfikację istotności takiego modelu możemy stwierdzić, czy parametry funkcji trendu naprawdę uległy korekcie w punktach, które podejrzewamy, że są punktami zwrotnymi funkcji trendu. Wyniki oszacowania modelu, o którym mówimy, są następujące Wartość p przy zmiennej I1 jest zbyt duża. Oznacza to, że w pierwszym punkcie zwrotnym nie uległ istotnej zmianie wyraz wolny trendu. Zgodnie z zasadami regresji krokowej zstępującej usuwamy tę zmienną z modelu. Ostateczny model trendu łamanego ma więc postać: 88 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

Zauważmy, że ten model ma niemal czterokrotnie mniejszy średni błąd dopasowania (0,6 litra) i rewelacyjny współczynnik determinacji (0,9987). 2,0 Wykres normalności reszt 1,5 1,0 Wartość normalna 0,5 0,0-0,5-1,0-1,5-2,0-1,2-1,0-0,8-0,6-0,4-0,2 0,0 0,2 0,4 0,6 0,8 Reszty Wykres nie ma już widocznych serii reszt, a na osi poziomej są błędy z przedziału tylko [-1;+0,8] litra. Wartość statystyki Durbina-Watsona wynosi Ponieważ współczynnik autokorelacji rzędu pierwszego jest ujemny, więc testujemy istotność autokorelacji ujemnej. Statystyką testową jest w takim przypadku wielkość 4-d, co w naszym przypadku wynosi 0,967. Liczba ta jest mniejsza od lewej wartości krytycznej przytoczonej uprzednio (1,010), co oznacza, że w szeregu reszt obserwujemy istotną autokorelację ujemną. Pozwala nam to zbudować model autokorelacji reszt. Najpierw jednak zinterpretujmy równanie trendu łamanego. Interesująca jest oczywiście tylko interpretacja współczynnika kierunkowego trendu. W latach 1995-2000 spożycie piwa na 1 mieszkańca przyrastało w Polsce średnio o 5,48 litra rocznie; w roku 2001 spadło o prawie pół litra, a potem do roku 2003 wzrastało już wolniej, bo o średnio 4,69 litra rocznie. W 2004 znów nastąpiło przyhamowanie trendu. Spożycie wzrosło tylko o niecałe pół litra, ale potem w kolejnych latach wzrastało średnio o 6,19 litra. Opisywany model tak dobrze pasuje do danych empirycznych, że obydwa wykresy niemal się pokrywają. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 89

100 90 80 70 60 50 40 Piwo Model TŁ 30 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Trudno uwierzyć, że dobroć dopasowania można jeszcze poprawić. Otóż możemy wykorzystać ujemną autokorelację składnika resztowego (jest to autokorelacja rzędu pierwszego) i oszacować następujący model: Model ten nie zawiera wyrazu wolnego, gdyż model wyjściowy był szacowany metodą najmniejszych kwadratów, co zapewnia, że średnia reszt jest równa zeru. W arkuszu danych trzeba wyliczyć wartości teoretyczne modelu trendu z interwencjami, następnie reszty oraz utworzyć kolumnę z resztami opóźnionymi o jeden rok. Przy szacowaniu tego modelu trzeba pamiętać o wybraniu opcji braku wyrazu wolnego. Otrzymujemy następujący wynik 90 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

Równanie autoregresji reszt ma więc postać Po dodaniu wartości teoretycznych powyższego modelu do trendu segmentowego otrzymujemy model ostateczny. Jego średni błąd dopasowania wynosi 0,48 litra, czyli tylko nieco mniej niż standardowa puszka. Na koniec porównajmy prognozy trendu liniowego z prognozami trendu segmentowego z uwzględnieniem autokorelacji reszt. Rok Prognoza z trendu liniowego Prognoza z trendu segmentowego 2008 95,7 99,6 2009 100,0 105,8 2010 104,2 112,0 Różnice w prognozach odzwierciedlają różne koncepcje leżące u podstaw obu modeli. W modelu trendu liniowego najważniejsza jest tendencja długookresowa, jej pewien średni efekt będący wypadkową trendów krótkookresowych i nagłych zahamowań. Drugi model próbuje te składowe opisać. W jego prognozie tkwi założenie, że utrzyma się trend zaobserwowany po 2004 roku. Niewątpliwie ciekawe byłoby też poszukiwanie przyczyn dwóch punktów zwrotnych, w latach 2001 i 2004. Tu ewentualnej odpowiedzi mogą udzielić tylko specjaliści z branży znający uwarunkowania i historię rynku piwa w Polsce. Przykład 2 Ten przykład to szereg czasowy danych dziennych. Jest to liczba wejść na stronę pewnego serwisu randkowego. Dane obejmują okres od 14 marca do 10 sierpnia 2005 roku. Najpierw odcinamy dane sierpniowe jako zbiór testowy. Okres uczący daje następujący wykres szeregu czasowego. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 91

2400 2200 2000 1800 Liczba logowań 1600 1400 1200 1000 800 600 1 7 13 25 37 49 61 73 85 19 31 43 55 67 79 91 97 109 121 133 103 115 127 139 Na wykresie zwracają uwagę przede wszystkim wyraźne wahanie okresowe jak łatwo zauważyć o okresie 7, czyli tygodniowe. Jeżeli chodzi o trend, to można by próbować podobnie jak w poprzednim przykładzie dopasować trend składający się z trzech segmentów liniowych. Pierwszy podokres do 56 wartości (8 maja), drugi do obserwacji 98 (19 czerwca) i trzeci potem. Jednak zastosujemy tu inne podejście, dopasowując trend paraboliczny. Jest on istotny statystycznie, ale ma niewielkie znaczenie w szeregu. Ten trend jest odpowiedzialny tylko za około 8 i pół procenta obserwowanej zmienności. To niewielkie znaczenie trendu w pewnym sensie usprawiedliwia policzenie funkcji autokorelacji na danych oryginalnych, bez eliminowania trendu. Większość zaawansowanych metod analizy szeregów czasowych znajduje się w części Szeregi czasowe i prognozowane (można ją znaleźć w Zaawansowanych modelach liniowych i nieliniowych). 92 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

Po zdefiniowaniu analizowanej zmiennej i naciśnięciu klawisza OK odnajdujemy kartę z Autokorelacją. Funkcja autokorelacji Liczba logowań: =v2-v4 (Błędy standardowe to oceny białego szumu) Opóźn Kor. S.E Q p 1 +,639,0839 58,01,0000 2 -,015,0836 58,04,0000 3 -,463,0833 88,90 0,000 4 -,476,0830 121,8 0,000 5 -,040,0827 122,0 0,000 6 +,571,0824 170,0 0,000 7 +,848,0821 276,9 0,000 8 +,524,0818 317,9 0,000 9 -,096,0814 319,2 0,000 10 -,527,0811 361,5 0,000 11 -,531,0808 404,7 0,000 12 -,118,0805 406,9 0,000 13 +,472,0802 441,4 0,000 14 +,741,0799 527,5 0,000 15 +,423,0795 555,9 0,000 0-1,0-0,5 0,0 0,5 1,0 Funkcja autokorelacji potwierdza występowanie cyklu tygodniowego. Jeżeli w procesie jest istotny cykl o stałym okresie, wówczas taki sam cykl obserwujemy w funkcji autokorelacji stąd duży współczynnik korelacji dla opóźnienia 14. Relatywnie duży współczynnik autokorelacji dla opóźnienia 1 to pokłosie niewyeliminowanego trendu. Dobrą ilustracją struktury cyklu tygodniowego jest rysunek średnich z przedziałami ufności. Z menu Wykresy wybieramy Wykresy średnia i błędy. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 93

2200 2000 1800 Liczba logowań 1600 1400 1200 1000 Średnia Średnia±0,95 Przedz. ufn. 1 2 3 4 5 6 7 Dzień tyg Widać, że internauci najintensywniej poszukują potencjalnego kandydata/kandydatki na randkę od środy do piątku. Sobota to raczej dni realizacji tych randek, a poniedziałek to zdecydowanie dzień odpoczynku po weekendzie. Podejmiemy teraz próbę budowy trzech modeli prognostycznych. 94 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

Model ze zmiennymi zerojedynkowymi Z poprzedniej analizy wiemy, że w analizowanym szeregu występuje trend paraboliczny oraz cykl tygodniowy. Cykl ten opiszemy przy pomocy zmiennych zerojedynkowych. Ponieważ najmniej logowań było w poniedziałek, dlatego ten dzień przyjmiemy jako punkt odniesienia. Sześć zmiennych zerojedynkowych odpowiada następnym dniom tygodnia. Wydaje się rozsądnym przypuszczenie, że w dni świąteczne przypadające w środku tygodnia oraz w Wielkim Tygodniu ten bardzo wyrazisty i gładki model cyklu tygodniowego może ulegać zakłóceniu. Dlatego wprowadzamy zmienne zerojedynkowe oznaczające takie dni. W module Regresja wieloraka szacujemy model liniowy zawierający te wszystkie zmienne zerojedynkowe, zmienną czasową oraz jej kwadrat. W modelu wstępnym tylko 1 maja wydaje się obniżać zwyczajową liczbę logowań przypadających w typową niedzielę (w 2005 roku 1 maja przypadał w niedzielę). Stosując zasady regresji krokowej, dochodzimy do następującego modelu ostatecznego (zob. rys. poniżej). Po wyeliminowaniu zmiennych nieistotnych znaczenie 1 maja spadło. Nie udało się więc udowodnić, jakoby specjalne dni wywierały istotny wpływ na zakłócenie cyklu tygodniowego. W naszym modelu zostawimy jednak zmienną 1 maja, ponieważ bardzo niewiele brakuje jej do istotności statystycznej na poziomie 0,05 (p=0,0543). Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 95

Wyrównywanie wykładnicze Podstawową metodę wyrównywania wykładniczego zapisuje się przy pomocy równania: y P t 1 y 1 t P y gdzie: jest prognozą szeregu na okres t, - stałą wygładzania z przedziału (0,1). Przedstawione równanie pokazuje, że aby wyznaczyć prognozę na kolejny okres, należy wziąć kombinację liniową ostatniej obserwacji oraz poprzedniej prognozy. W programie STATISTICA uwzględniono również bardziej skomplikowane modele uwzględniające trend i wahania okresowe. t 96 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

Wybór odpowiedniego modelu oznaczamy kropką i wybieramy Automatyczne poszukiwanie. Pokazujące się wyniki wyrównywania wykładniczego są bardzo rozbudowane. Szereg wygładzony dobrze pasuje do danych empirycznych. Średni absolutny błąd procentowy wynosi 4,4%. Model ARIMA Metodologia budowy modeli ARIMA została spopularyzowana przez Boxa i Jenkinsa w ich książce Time series analysis: Forecasting and control wydanej w 1970 roku (tłumaczenie w języku polskim ukazało się w 1983 roku: Analiza szeregów czasowych. Prognozowanie i sterowanie). W najbardziej ogólnym opisie: analizowany szereg należy najpierw sprowadzić do stacjonarności pod względem wartości przeciętnej i wariancji. W odniesieniu do wartości przeciętnej to doprowadzenie do stacjonarności uzyskuje się poprzez wyeliminowanie ewentualnego trendu na drodze różnicowania niesezonowego (jego krotność jest równa stopniowi trendu) oraz wahań okresowych poprzez dwukrotne różnicowanie sezonowe z opóźnieniem równym długości okresu. Po tych transformacjach staramy się opisać wartości szeregu w zależności od swoich poprzednich wartości (część autoregresyjna) oraz w zależności od historii błędów (część średniej ruchomej). W analizowanym przykładzie wybieramy dwukrotne różnicowanie niesezonowe oraz różnicowanie sezonowe (jednokrotne) z okresem 7. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 97

Na wstępie koncentrujemy się na niesezonowej części modelu. Poprzez kolejne podwyższanie rzędu autokorelacji i średniej ruchomej znajdujemy najbardziej skomplikowany model ARIMA (0,2,1). Funkcja autokorelacji reszt wskazuje, że komponenta okresowa nie została skutecznie wyeliminowana i trzeba podjąć próbę jej opisania modelem, który ma aktywną część sezonową (stąd niekiedy używana nazwa SARIMA). Funkcja autokorelacji Liczba logowań: ARIMA (0,2,1)(0,2,0) reszty ; (Błędy standardowe to oceny białego szumu) Opóźn Kor. S.E Q p 1 -,168,0891 3,54,0600 2 -,167,0887 7,09,0289 3 +,246,0883 14,83,0020 4 -,203,0880 20,14,0005 5 +,216,0876 26,20,0001 6 +,183,0872 30,60,0000 7 -,681,0869 92,01,0000 8 +,153,0865 95,14,0000 9 +,198,0861 100,4,0000 10 -,129,0857 102,7,0000 11 +,233,0853 110,1,0000 12 -,136,0850 112,7,0000 13 -,059,0846 113,2,0000 14 +,353,0842 130,7 0,000 15 -,064,0838 131,3 0,000 0-1,0-0,5 0,0 0,5 1,0 98 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

Znów poprzez stopniowe zwiększanie rzędu parametrów sezonowych znajdujemy optymalny model ARIMA(0,2,1)(1,2,1). Teraz funkcja autokorelacji reszt jest zadowalająca. Funkcja autokorelacji Liczba logowań: ARIMA (0,2,1)(1,2,1) reszty ; (Błędy standardowe to oceny białego szumu) Opóźn Kor. S.E Q p 1 -,182,0891 4,16,0413 2 -,110,0887 5,71,0576 3 +,150,0883 8,58,0355 4 +,003,0880 8,58,0726 5 +,044,0876 8,83,1160 6 +,126,0872 10,93,0906 7 -,038,0869 11,12,1336 8 +,036,0865 11,30,1856 9 +,067,0861 11,89,2194 10 -,034,0857 12,05,2819 11 +,166,0853 15,83,1477 12 -,069,0850 16,48,1701 13 +,108,0846 18,11,1536 14 -,048,0842 18,43,1878 15 +,051,0838 18,80,2229 0-1,0-0,5 0,0 0,5 1,0 Sprawdzamy jeszcze rozkład reszt. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 99

35 Histogram; zmienna: Liczba logowań ARIMA (0,2,1)(1,2,1) reszty ; Oczekiwana normalna 30 25 Liczba ob 20 15 10 5 0-700 -600-500 -400-300 -200-100 0 100 200 300 400 500 600 700 800 900 Górna granica (x<=granica) Teoretyczna krzywa normalna nieźle pasuje do rozkładu empirycznego. Teraz możemy wreszcie przystąpić do prognozowania. Na karcie Więcej określamy horyzont prognozy. Model dość zaskakująco przewiduje spadek liczby logowań w okresie prognozowanym. 100 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl

Prognoza; Model: (0,2,1)(1,2,1) Opóź. sezon.: 7 Dane: Liczba logowań 5000 4000 2000 3000 2000 1000 1000 0-1000 -2000-10 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 Obserw. Prognozuj Na zakończenie przykładu porównamy, jak spisują się trzy modele prognostyczne w okresie testowym. Na poniższym wykresie porównano prognozy z danymi rzeczywistymi. 2200 2000 1800 1600 1400 1200 1000 800 600 0 1 2 3 4 5 6 7 8 9 10 11 Dane rzeczywiste Model 0/1 Wyrównywanie wykładnicze ARIMA Prognozy modelu ARIMA są praktycznie do odrzucenia. Dobre prognozy dał tylko dla pierwszych trzech dni. W drugim prognozowanym tygodniu błąd już rośnie bardzo wyraźnie. Z oglądu rysunku najlepiej wygląda prognoza przygotowana z wykorzystaniem modelu wyrównywania wykładniczego. To spostrzeżenie potwierdzają wartości średniego absolutnego błędu procentowego (MAPE) wyliczonego dla okresu prognozowanego. Dla modelu ze zmiennymi zerojedynkowymi wyniósł on 3,79%, a dla modelu wyrównywania wykładniczego 2,96%. Copyright StatSoft Polska 2010, info@danewiedzasukces.pl 101

Metody przedstawione w obydwu przykładach nie są oczywiście jedynymi metodami analizy szeregów czasowych dostępnymi w środowisku STATISTICA. Program STATISTICA Data Miner oferuje szereg nowoczesnych metod możliwych do zastosowania przy analizie i prognozowaniu długich szeregów czasowych. Są to na przykład sieci neuronowe, metoda MARS, czy metoda SVM. Ponadto nawet te relatywnie proste metody można zautomatyzować, tworząc odpowiedni projekt w programie STATISTICA Data Miner. Takie rozwiązanie jest bezcenne, gdy prognozy mają być aktualizowane na bieżąco wraz z napływaniem nowych danych. Struktura modeli prognostycznych pozostaje taka sama, natomiast parametry modeli są aktualizowane na bieżąco. Oczywiście sama struktura modeli też niekiedy wymaga aktualizacji, ale ewentualną konieczność takiej aktualizacji można stwierdzić poprzez analizowanie długich ciągów błędów prognoz ex post. 102 Copyright StatSoft Polska 2010, info@danewiedzasukces.pl