Studia podyplomowe w zakresie przetwarzania, zarz¾adzania i statystycznej analizy danych Analiza szeregów czasowych 24.11.2013-2 godziny konwersatorium autor: Adam Kiersztyn 1 Poj ¾ecie szeregu czasowego Dane statystyczne zbierane sa¾ ka zdego dnia. Dane takie dotyczyć moga¾ ró znorakich dziedzin jak ilościowy opis produkcji rolnej buraka cukrowego w Polsce i migracji ludności w Europie, czy te z zmian cen kursu franka szwajcarskiego. Nie sa¾ to jedyne mo zliwe przyk ady danych poddawanych obróbce statystycznej. Do takich samych danych z punktu widzenia statystyka mo zemy zaliczyć aktywność źród a promieniowania czy b ¾ adzenie przypadkowe okruszka ciasta czekoladowego, który wpad nam w aśnie do kawy. Wszystkie powy zsze przyk ady maja¾ jedna¾ wspólna¾ cech¾e - wielkości, które mierzymy w ka zdym przypadku, je zeli tylko pouk adane sa¾ po kolei w czasie podpadaja¾ nam pod de nicj ¾e szeregu czasowego. W przypadku ekonometrii, czy szeroko poj ¾etych rynków nansowych i gospodarki, takie szeregi zwykle b ¾ed a¾ opisywać zmian ¾e wielkości jakiegoś instrumentu rynku. W tym przypadku Fizyka, Matematyka i Ekonometria zbudowa y i rozwin¾e y aparat s u z acy ¾ do analizy takich szeregów. W najogólniejszym z mo zliwych stwierdzeniu mo zna rzec, ze taka analiza daje szanse dla inwestora na prób ¾e przewidywania przysz ości na podstawie przesz ości. Przesz ość zawarta jest w danych, które zebrane sa¾ w szeregach czasowych. Przysz ość to tylko statystyczna predykcja mo zliwych zachowań badanego instrumentu rynku, oparta na mniej lub bardziej poprawnej analizie dost ¾epnych nam danych. Dane statystyczne mo zemy w ogólności podzielić na dane przekrojowe (cross sectional data) - wiele jednostek obserwowanych w jednej jednostce czasu, szeregi czasowe (time series data) - jedna jednostka czasowa obserwowana w wielu jednostkach czasu - to w aśnie tym rodzajem danych b ¾edziemy si¾e zajmować, dane panelowe (panel data, cross sectional time series data) - wiele jednostek czasowych obserwowanych w wielu jednostkach czasu. Na tym przedmiocie zajmiemy omówieniem w asności szeregów czasowych. W literaturze mo zna spotkać ró zne de nicje szeregu czasowego: - ciag ¾ obserwacji pokazujacy ¾ kszta towanie si¾e badanego zjawiska w kolejnych okresach czasu; - uporzadkowany ¾ chronologicznie zbiór wartości badanej cechy lub określonego zjawiska zaobserwowanych w ró znych momentach czasu - realizacja procesu stochastycznego, którego dziedzina¾ jest czas - pojedyncze obserwacje y t sa¾ realizacjami zmiennych losowych Y t. Proces stochastyczny 1
de niowany jest w tym przypadku jako ciag ¾ zmiennych losowych indeksowanych przez czas t, a szereg czasowy jest wtedy pojedyncza¾ realizacja¾ tego procesu. 2 Sk adowe szeregu czasowego Wśród sk adników szeregu czasowego zazwyczaj wyró znia si ¾e: - trend - wahania sezonowe - wahania cykliczne - wahania przypadkowe. W obrazowy sposób mo zna to przedstawić za pomoca¾ nast¾epujacego ¾ diagramu: Wyró znienie poszczególnych sk adowych nie jest sprawa¾ prosta, ¾ bowiem pomi ¾edzy poszczególnymi sk adnikami wyst ¾epuja¾ z o zone interakcje, ponadto mo ze zdarzyć si¾e tak, ze badanym przez Nas szeregu wyst¾epuja¾ sk adniki niejawne, których nie jesteśmy w stanie wyró znić. Przedstawimy teraz kilka przyk adów szeregów czasowych. 2
3 Przyk ady szeregów czasowych Najprostszym przyk adem szeregu czasowego jest obserwacja kolejnych rzutów moneta. ¾ Jeśli przyjmiemy, ze wyrzuceniu or a odpowiada wartość liczbowa 1, zaś wyrzuceniu reszki wartość liczbowa 0, to otrzymujemy przyk ad procesu dychotomicznego (zerojedynkowego, binarnego). Formalnie rozwa zamy ciag ¾ zmiennych losowych X t ; t = 1; 2; ::: o jednakowych rozk adach P [X t = 0] = P [X t = 1] = 1 2 : Poni zszy rysunek przedstawia¾ mo zliwa¾ realizacj ¾e takiego procesu. Rozwa zmy teraz inny typowy przyk ad szeregu czasowego. Na poni zszym rysunku przedstawiono liczb ¾e ludności USA w latach 1790-1980 3
Ludność USA w latach 1790 1980 250000000 200000000 150000000 100000000 Ludność USA w latach 1790 1980 50000000 0 1 3 5 7 9 11 13 15 17 19 Rozwa zmy teraz nieco bardziej skomplikowany przyk ad, w którym b ¾eda¾ ju z uwidocznione poszczególne wyró znione powy zej sk adowe szeregu czasowego. Na rysunku poni zej przedstawiono liczb ¾e sprzedawanych litrów paliwa na pewnej stacji benzynowej w jednym miesiacu. ¾ Poszczególnymi kolorami zaznaczono równie z sk adowe naszego szeregu czasowego. 4
4000 3500 3000 2500 2000 1500 1000 500 0 500 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 Poziom stały Trend Wahania okresowe Wahania sezonowe Wahania losowe Poziom sprzedaży paliwa 4 Formalne uj ¾ecie problemu Z formalnego punktu widzenia szereg czasowy jest realizacja¾ procesu stochastycznego, aby lepiej zrozumieć ta¾ zale zność musimy wprowadzić niezb ¾edne ( nie do końca formalne) de nicje. Proces stochastyczny jest to rodzina zmiennych losowych określonych na pewnej przestrzeni probabilistycznej (; F; P ) o wartościach w pewnej przestrzeni mierzalnej - najcz ¾eściej zbiorze liczb rzeczywistych. W badaniu szeregów czasowych bardzo istotna¾ rol¾e odgrywaja¾ poj¾ecia kowariancji, autokowariancji, korelacji oraz autokorelacji. Dla dwóch zmiennych losowych X i Y funkcja cov (X; Y ) = E [(X EX) (Y EY )] = E (XY ) EXEY 5
określa liniowa¾ zale zność pomi ¾edzy zmiennymi X i Y: Stopień wspó zale zności mo zna podać za pomoca¾ wspó czynnika korelacji Pearsona r XY = cov (X; Y ) X Y : Wartość wspó czynnika korelacji Pearsona nale zy do przedzia u [ 1; 1] : Im wi ¾eksza jest jego wartość bezwzgl ¾edna, tym silniejsza jest zale zność zmiennych losowych. Rozwa zmy proces losowy fx t ; t 2 T g, którego wszystkie sk adowe maja¾ skończone wariancje, wtedy autokowariancja procesu zde niowana jest wzorem X (t; s) = cov (X t ; X s ) = E (X t X s ) EX t EX s ; t; s 2 T: Analogicznie jak kowariancja, autokowariancja określa liniowa¾ zale zność pomi ¾edzy wartościami procesu w ró znych chwilach czasu. Jeśli oznaczymy przez odchylenie standardowe procesu w dowolnej chwili t 2 T;to mo zna wprowadzić poj ¾ecie autokorelacji procesu za pomoca¾ wzoru R X (t; s) = X (t; s) : 5 Rodzaje modeli matematycznych Pierwszym krokiem wykonywanym podczas analizy szeregu czasowego jest wizualizacja danych. Zazwyczaj juz na tym poziomie jesteśmy w stanie wyró znić trend, czy wahania sezonowe. Celem dekompozycji szeregu czasowego jest oszacowanie i wyró znienie cz ¾eści sk adowych szeregu. Wyró znia si ¾e dwa matematyczne modele szeregów czasowych - model addytywny oraz model multiplikatywny. Model addytywny mo zna wyrazić jako X t = T t + S t + C t + L t gdzie X t - dane pomiarowe T t - funkcja trendu S t - wahania sezonowe C t - wahania cykliczne Y t - wahania losowe, cz¾esto zwane szumem Model multiplikatywny przyjmuje postać gdzie X t - dane pomiarowe T t - funkcja trendu S t - wahania sezonowe C t - wahania cykliczne X t = T t S t C t L t 6
Y t - wahania losowe, cz¾esto zwane szumem Stosowane sa¾ równie z modele mieszane. Ponadto w wielu przypadkach funkcja trendu jest funkcja¾ sta ¾ a. 6 Estymacja trendu Jednym z kluczowych punktów analizy szeregów czasowych jest wyodr ¾ebnienie oraz opisania funkcji trendu. W niektórych, bardzo prostych przypadkach jesteśmy w stanie oszacować funkcj ¾e trendu na podstawie gra cznej reprezentacji naszego szeregu, jednak ze w przypadku bardziej skomplikowanych szeregów nie jesteśmy w stanie tego dokonać i musimy zastosować narz ¾edzia matematyczne. Narz ¾edzia matematyczne s u z ace ¾ do wyznaczenia trendu mo zna podzielić na dwie zasadnicze grupy: - metody "mechaniczne", wśród których nale zy wymienić średnie ruchome - metody analityczne. takie jak MNK Modele średniej ruchomej s u zyć moga¾ zarówno do wyg adzania szeregu czasowego jak i do prognozowania. Kolejne wartości prognoz wygas ych powstaja¾ poprzez obliczanie średniej arytmetycznej dla wybranej liczby elementów i tak np: dla średniej ruchomej trzyelementowej uśredniamy 3 poprzednie obserwacje. Innym sposobem jest obliczanie średnich dla trzech obserwacji w okresach t 1,t oraz t + 1 zaś prognoza obliczana jest dla momentu t. Sposób obliczania prognozy na podstawie modelu średniej ruchomej prostej mo zna wyrazić wzorem: X t = 1 k Xt 1 i=t gdzie X t jest prognoza¾ zmiennej X w chwili t k jest sta a wyg adzenia W tym miejscu pojawia si ¾e naturalne pytanie. Dla jakiej sta ej wyg adzania otrzymamy najlepszy wynik? Odpowiedzi na to pytanie pomaga nam udzielić nast¾epujaca ¾ miara " S 1 = n k t=k+1 k X i X t X t 2 # 1 2 : Spośród badanych średnich wygrywa ta, która posiada b ¾ ad najmniejszy czyli mo zna powiedzieć, i z jest najlepiej dopasowana do danych rzeczywistych szeregu. 7
Średnia ruchoma prosta ma wad¾e polegajac ¾ a¾ na tym, i z ka zda z przyj¾etych do wyg adzania obserwacji ma jednakowa¾ równa¾ 1 wag¾e, czyli taki sam udzia w szacunku prognozy. Lepiej jest nadawać wi ¾eksze wagi obserwacjom nowszym, które sa¾ świe zsze i maja¾ wi ¾ekszy wp yw na prognoz ¾e. Wnioskowanie takie, określamy terminem postarzania informacji a spe nia go model średniej ruchomej wa zonej, wed ug którego prognoz¾e oblicza si¾e wg wzoru: Średnia ruchoma prosta ma wad¾e polegajac ¾ a¾ na tym, i z ka zda z przyj¾etych do wyg adzania obserwacji ma jednakowa¾ równa¾ 1 wag¾e, czyli taki sam udzia w szacunku prognozy. Lepiej jest nadawać wi ¾eksze wagi obserwacjom nowszym, które sa¾ świe zsze i maja¾ wi ¾ekszy wp yw na prognoz ¾e. Wnioskowanie takie, określamy terminem postarzania informacji a spe nia go model średniej ruchomej wa zonej, wed ug którego prognoz¾e oblicza si¾e wg wzoru: X t = Xt 1 i=t gdzie w t sa¾ wagami spe niajacymi ¾ warunki k X t w t 0 w 1 w 2 : : : w n 1 w i = 1 Wśród metod analitycznych wyznaczania funkcji treny prym wiedzie metoda najmniejszych kwadratów. Zazwyczaj rozwa za si ¾e przypadek liniowej funkcji trendu, czyli wyznacza si¾e prosta¾ regresji. W ogólnym przypadku wyznaczanie prostej regresji ma nast ¾epujacy ¾ przebieg: zak adamy, ze w pewnym doświadczeniu obserwujemy pary (x 1 ; y 1 ) ; (x 2 ; y 2 ) ;...,(x n ; y n ) : Naszym celem jest wyznaczenie funkcji postaci minimalizujacej ¾ wartość SSE = y = ax + b (y i ax i b) 2 : Okazuje si¾e, ze rozwiazaniami ¾ tego zagadnienia sa¾ wartości a = x i X y i Y x i X 2 8
b = Y x i X y i Y x i X 2 W naszym przypadku obserwuje si ¾e proces w kolejnych chwilach czasu, zatem rozwa zamy punkty postaci (1; X 1 ) ; (2; X 2 ) ; : : : ; (n; X n ). Dla zobrazowania omówionych powy zej metod rozwa zmy przyk ad. Za ó zmy, ze dysponujemy 20 obserwacjami x i 12 14 15 18 17 11 18 17 19 20 21 22 25 24 22 23 24 26 28 30 Średnie kroczace ¾ o kroku 2 wynosza¾ wówczas X: x i 12 14 15 18 17 11 18 17 19 20 21 22 25 24 X i 13 14; 5 16; 5 17; 5 14 14; 5 17; 5 18 19; 5 20; 5 21; 5 23; 5 24; 5 22 23 23 22; 5 24 22 23 24 26 28 30 24; 5 23 22; 5 23; 5 25 27 29 Średnie ruchome dla k = 3 oraz k = 4 wynosza¾ odpowiednio x i 12 14 15 18 17 11 18 17 19 20 21 X i k = 2 13 14; 5 16; 5 17; 5 14 14; 5 17; 5 18 19; 5 20; 5 X i k = 3 13; (6) 15; (6) 16; (6) 15; (3) 15; (3) 15; (3) 18 18; (6) 20 X i k = 4 14; 75 16 15; 25 16 15; 75 16; 25 18; 5 19; 25 22 25 24 22 23 24 26 28 30 21; 5 23; 5 24; 5 23 22; 5 23; 5 25 27 29 21 22; (6) 23; (6) 23; (6) 23 23 24; (3) 26 28 20; 5 22 23 23; 25 23; 5 23; 25 23; 75 25; 25 27 Gra czna interpretacja tych wyników jest nast ¾epujaca ¾ 9
Dla tych samych danych postaramy si¾e za pomoca¾ MNK wyznaczyć prosta¾ regresji. Mamy zatem nast ¾epujace ¾ dane i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x i 12 14 15 18 17 11 18 17 19 20 21 22 25 24 22 23 24 26 28 30 dla których I = 10; 5 zaś X = 20; 3. W nast¾epnym kroku obliczmy ró znice i I, x i X oraz ich iloczyn. Wartości poszczególnych iloczynów sumujemy i otrzymujemy wartość 540: Musimy teraz jeszcze obliczyć wartość sumy 20X i I 2 = 665 Dysponujac ¾ tymi danymi mo zemy obliczyć wspó czynnik kierunkowy naszej prostej regresji a = 540 665 = 108 133 : Wspó czynnik przesuni¾ecia naszej prostej regresji ma wartość b = 20:3 108 133 10:5 = 11: 774: Poni zszy rysunek przedstawia interpretacja¾ gra czna¾ otrzymanych wyników 10
35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 dane model 11