Analiza szeregów czasowych: 6. Liniowe modele niestacjonarne P. F. Góra http://th-www.if.uj.edu.pl/zfs/gora/ semestr letni 2007/08
Warunki stacjonarności modelu AR(p) y n = β 1 y n 1 + β 2 y n 2 + + β p y n p + α 0 η n. (1) Proces (1) jest stacjonarny wtedy i tylko wtedy, gdy pierwiastki równania λ p β 1 λ p 1 β 2 λ p 2 β p = 0 (2) leża wewnatrz okręgu jednostkowego. Jeżeli któryś pierwiastek leży poza okręgiem jednostkowym, model wybucha. Co się dzieje, jeśli jakiś pierwiastek leży na okręgu jednostkowym? Model jest niestacjonarny, ale czy możemy jakoś sobie z tym poradzić? 6. Liniowe modele niestacjonarne 2
Trendy liniowe Rozważmy proces y n+1 = y n + αη n (3) Proces ten jest niestacjonarny, równanie (2) ma dla niego postać λ 1 = 0, ale szereg pierwszych różnic jest stacjonarny: jest stacjonarny! z (1) n y n+1 y n = αη n (4) Ogólnie, jeśli zbudowany ze współczynników procesu wielomian występujacy w równaniu (2) ma postać (λ 1)B p (λ), gdzie B p jest wielomianem stopnia p, majacym wszystkie pierwiastki wewnatrz okręgu jednostkowego, proces taki nazywamy procesem ARIMA(1,p,0). Proces taki ma (lokalny) trend liniowy. 6. Liniowe modele niestacjonarne 3
Trendy kwadratowe Podobnie, jeśli zbudowany ze współczynników procesu wielomian występujacy w równaniu (2) ma postać (λ 1) 2 B p (λ), gdzie B p jest wielomianem stopnia p, majacym wszystkie pierwiastki wewnatrz okręgu jednostkowego, proces taki nazywamy procesem ARIMA(2,p,0). Proces taki ma (lokalny) trend kwadratowy. Szereg jego drugich różnic jest stacjonarny. Przykład: y n+1 = 2y n y n 1 + α 0 η n (5a) z (1) n y n+1 y n = z (1) n 1 + α 0η n (5b) z (2) n z (1) n z (1) n 1 = α 0η n (5c) 6. Liniowe modele niestacjonarne 4
Przykład szeregu z trendem liniowym 10 0-10 -20-30 -40-50 -60-70 -80 time series first differences -90 0 64 128 192 256 320 384 448 512 Niestacjonarny szereg czasowy i stacjonarny szereg pierwszych różnic 6. Liniowe modele niestacjonarne 5
Przykład szeregu z trendem kwadratowym 6000 5000 4000 3000 2000 1000 time series 0 0 64 128 192 256 320 384 448 512 Niestacjonarny szereg czasowy 6. Liniowe modele niestacjonarne 6
40 30 20 10 0-10 -20 first differences second differences -30 0 64 128 192 256 320 384 448 512 Niestacjonarny szereg pierwszych różnic szeregu z poprzedniego rysunku i stacjonarny szereg drugich różnic 6. Liniowe modele niestacjonarne 7
Empiryczny sposób postępowania Jeśli domyślamy się, że badany szereg czasowy może mieć trend liniowy, badamy szereg jego pierwszych różnic. Jeśli szereg pierwszych różnic jest niestacjonarny, badamy szereg drugich różnic. W praktycznych zastosowaniach szeregi z trendami liniowymi i kwadratowymi na ogół wystarczaja, możemy się więc ograniczyć do badania pierwszych i drugich różnic. 6. Liniowe modele niestacjonarne 8
Przykład szeregu z trendem sześciennym (nierealistyczny) 400000 300000 200000 100000 0-100000 -200000 time series -300000 0 64 128 192 256 320 384 448 512 3000 30 2000 20 1000 10 0 0-1000 -10-2000 -20-3000 first differences -30-4000 -40 second differences third differences -5000 0 64 128 192 256 320 384 448 512-50 0 64 128 192 256 320 384 448 512 6. Liniowe modele niestacjonarne 9
Dopasowywanie modelu Z niestacjonarnego szeregu czasowego tworzymy stacjonarny szereg pierwszych, ewentualnie drugich różnic. Do stacjonarnego szeregu różnic dopasowujemy model ARMA(p,q). Wyjściowy szereg jest wówczas procesem typu ARIMA(p,d,q), gdzie d oznacza rzad różnicy, jaki był potrzebny do uzyskania szeregu stacjonarnego. I w nazwie ARIMA oznacza Integrated wycałkowany, czyli wysumowany. 6. Liniowe modele niestacjonarne 10
Przykład 1.0 0.5 0.0-0.5-1.0-1.5-2.0 0 128 256 384 512 640 768 896 1024 0.5 0.0-0.5 0 128 256 384 512 640 768 896 1024 Niestacjonarny szereg czasowy i stacjonarny szereg pierwszych różnic 6. Liniowe modele niestacjonarne 11
1 0.5 0-0.5-1 0 2 4 6 8 10 12 14 16 Funkcja korelacji ρ k i funkcja korelacji czastkowej ϕ kk dla szeregu pierwszych różnic z poprzedniego rysunku. Uznajemy, iż ϕ 33 0. 6. Liniowe modele niestacjonarne 12
Ponieważ ϕ 33 0, przyjmujemy, że szereg pierwszych różnic jest procesem AR(p = 2). Z równań Yule a-walkera obliczamy β 1 = 0.849523, β 2 = 0.165224. Wielomian określajacy stabilność szeregu pierwszych różnic dany jest przez λ 2 β 1 λ β 2, a wobec tego wielomian określajacy stabilność przecałkowanego procesu dany jest przez (λ 1)(λ 2 β 1 λ β 2 ), a zatem badany proces jest procesem ARIMA(2,1,0). Natężenie szumu szacujemy liczac pierwiastek z wariancji szeregu pierwszych różnic. Ostatecznie dla badanego procesu otrzymujemy y n+1 = 0.150477 y n + 0.684299 y n 1 + 0.165224 y n 2 + 0.189055 η n (6) Proces, którego użyto do wygenerowania tego przykładu, miał postać y n+1 = 0.166667 y n + 0.666667 y n 1 + 0.166667 y n 2 + 0.125000 η n 6. Liniowe modele niestacjonarne 13
Gdy szum jest silniejszy, sytuacja może się pogorszyć 12.0 10.0 8.0 6.0 4.0 2.0 0.0-2.0-4.0 64 128 192 256 320 384 448 512 576 640 704 768 832 896 960 1024 2.0 1.0 0.0-1.0-2.0 64 128 192 256 320 384 448 512 576 640 704 768 832 896 960 1024 Niestacjonarny szereg czasowy i stacjonarny szereg pierwszych różnic 6. Liniowe modele niestacjonarne 14
1 0.5 0-0.5-1 0 2 4 6 8 10 12 14 16 Funkcja korelacji ρ k i funkcja korelacji czastkowej ϕ kk dla szeregu pierwszych różnic z poprzedniego rysunku. 6. Liniowe modele niestacjonarne 15
W tym wypadku też moglibyśmy na oko uznać, że ϕ 33 0, a zatem, że szereg pierwszych różnic można opisać procesem AR(2). Ale czy istnieje jakieś kryterium pozwalajace rozstrzygnać o rzędzie modelu? 6. Liniowe modele niestacjonarne 16
Kryterium Akaike AIC Akaike Information Criterion Jest jasne, że jeśli do danych dopasowujemy różne model, dopasowanie będzie tym lepsze, im więcej swobodnych parametrów będziemy mieli do dyspozycji. Z drugiej strony modele ze zbyt duża liczba swobodnych parametrów sa uważane za niedobre. Powinniśmy więc jednocześnie nagradzać dobre dopasowanie i karać za zbyt wiele parametrów. Zakładamy, że błędy pochodza z rozkładu normalnego i że dopasowanie przeprowadzamy metoda najmniejszych kwadratów. 6. Liniowe modele niestacjonarne 17
AIC = ln Q + 2 p N (7) gdzie Q jest rezydualnym błędem: Przy dopasowywaniu modelu AR(p), Q = n z n p j=1 β j z n j gdzie {β j } p j=1 s a dopasowanymi parametrami dla procesu rzędu p. Im wyższe p, tym, potencjalnie, mniejsze Q, ale zarazem tym większy jest człon 2p/N. Dobieramy takie p, aby AIC było najmniejsze. Uwaga: gdyby błędy nie pochodziły z rozkładu normalnego, trzebaby przyjać inna definicję AIC. 2 (8) 6. Liniowe modele niestacjonarne 18
6.6 6.5 6.4 6.3 AIC 6.2 6.1 6 5.9 5.8 4 8 12 16 20 24 28 32 p Kryterium Akaike sugeruje użycie modelu AR(6). 6. Liniowe modele niestacjonarne 19
Dla n = 6 otrzymalibyśmy β 1 = 0.832051, β 2 = 0.181079, β 3 = 0.0407839, β 4 = 0.0650440, β 5 = 0.0504210, β 6 = 0.0310754, a zatem wyjściowy szereg byłby procesem ARIMA(6,1,0) o parametrach y n+1 = 0.167949 y n + 0.650972 y n 1 + 0.221863 y n 2 + 0.024260 y n 3 0.014620 y n 4 0.081496 y n 5 0.031075 y n 6 + 0.700224 η n (9) Dla porównania, przyjęcie p = 2 daje β 1 = 0.831124, β 2 = 0.189943 i dalej ARIMA(2,1,0): y n+1 = 0.168876 y n + 0.641181 y n 1 + 0.189943 y n 2 + 0.700224 η n (10) co jest nieco gorszym przybliżeniem idealnych parametrów użytych do wygenerowania szeregu. 6. Liniowe modele niestacjonarne 20
Kryterium Akaike w zwykłej metodzie najmniejszych kwadratów 6 dane generating function 5 4 3 y(x) 2 1 0-1 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x Punkty wygenerowane według wzoru y n = 0.125 x 3 n + 0.25 x2 n 2.5 x n + 3.0 + 0.5 η n (11) 6. Liniowe modele niestacjonarne 21
6 5 dane 1.00276 x 2-3.71561 x + 3.45878 AIC = 1.003000 0.116057 x 3 + 0.28466 x 2-2.51242 x + 3.01371 AIC = 0.743705-0.00220287 x 4 + 0.134231 x 3 + 0.235956 x 2-2.46613 x + 3.00285 AIC = 0.806068 4 3 y(x) 2 1 0-1 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x Wyniki dopasowania Dopasowane krzywe trzeciego i czwartego stopnia w skali rysunku nierozróżnialne 6. Liniowe modele niestacjonarne 22
Szeregi sezonowe Staramy się zidentyfikować okres, po czym tworzymy szereg odpowiednich różnic 3 szereg szereg 32-gich roznic 2 1 y n 0-1 -2-3 0 100 200 300 400 500 n Do stacjonarnego szeregu różnic dopasowujemy jakiś model ARMA 6. Liniowe modele niestacjonarne 23