WYKŁAD: Szeregi czasowe I Zaawansowane Metody Uczenia Maszynowego
Szereg czasowy (X t ) - ciąg zmiennych losowych indeksowany parametrem t (czas). Z reguły t N lub t Z. Dotąd rozpatrywaliśmy: (X t )- ciąg niezależnych zmiennych losowych o tym samym rozkładzie. Teraz dopuszczamy zależność między zmiennymi i różny rozkład zmiennych. Dwie podstawowe charakterystyki szeregu: jak zachowuje się wartość średnia w funkcji czasu? Jak zależność między dwiema zmiennymi X s i X t zależy od odcinka czasu, który upłynął między tymi zdarzeniami? Czy mamy do czynienia z efektem motyla (dlaeka przeszłość ma wpływ na teraźniejszość)?
Zależnóść między obserwcjami w szeregu czasowym i różnice rozkładów: podstawowe różnice w porównaniu z sytuacją iid. Wpływają one na postać estymatorów i procedury wnioskowania dla szeregów czasowych. Szeregi czasowe w R: obiekty klasy ts (time series) o strukturze: wartości szeregu czasowego, liczba obserwacji na jednostkę czasu, moment początku i końca obserwacji. Uwaga. Wiele podstawowych funkcji, jak acf i pacf, aby obiekt był klasy ts library(mass) USpop <- ts(data=scan("uspop.data"), start=1790, end=1990, frequency=0.1) # option frequency- no. of obs per time unit, # in this case unit=1 year, #frequency=0.1 means 1 observation every 10 years ts.plot(uspop, gpars=list(xlab="year", ylab="population", type="o"))
Population 0.0e+00 5.0e+07 1.0e+08 1.5e+08 2.0e+08 2.5e+08 1800 1850 1900 1950 Year Wielkość populacji USA w latach 1790-1990. Wyraźny wzrost w czasie i spowolnienie go w latach 1930-40 (wielki kryzys)
Przykłady szeregów czasowych Biały szum WN(0, σ 2 ) X t = ε t : ciąg niezależnych zmiennych losowych o średniej 0 i wariancji σ 2. EX t = 0 Cov(X t, X s ) = σ 2 I {t = s} = σ 2 I {t s = 0} = 0 ρ(x t, X s ) = Cov(X t, X t+h ) = I {t = s} (Var(X t )Var(X t+h )) 1/2 Siła zależności zależy tylko od t s! Proces średniej ruchomej rzędu 1: MA(1) ε t : WN(0, σ 2 ) X t = ε t + θε t 1 EX t = 0
Proces MA(1) Cov(X s, X t ) = 0 gdy t s > 0 Cov(X t, X t+1 ) = Cov(X t, X t 1 ) = Cov(ε t +θε t 1, ε t+1 +θε t ) = θσ 2 Cov(X t, X t ) = VarX t = E(ε t + θε t 1 ) 2 = σ 2 (1 + θ 2 ) Proces autoregresyjny rzędu 1 AR(1) X t = φx t 1 + ε t, gdzie φ < 1 i ε t : WN(0, σ 2 ), ε t : niezależny od X s, s t 1. Równanie (auto)regresji: X t - odpowiedź, X t 1 : predyktor.
Proces autoregresyjny rzędu 1 AR(1) X t = φx t 1 + ε t = φ(φx t 2 + ε t 1 ) + ε t = φ 2 X t 2 + φε t 1 + ε t = φ 2 (φx t 3 + ε t 2 ) + φε t 1 + ε t k = φ i ε t i + φ k+1 X t (k+1) (1) i=0 Jeśli EX 2 t C, to ostatni wyraz 0 ( φ < 1) i mamy przedstawienie X t = φ i ε t i i=0
Proces autoregresyjny rzędu 1 AR(1) Cov(X t, X t+1 ) = Cov(X t, φx t + ε t+1 ) = φvar(x t ). Analogicznie Cov(X t, X s ) = φ t s Var(X t ). We wszystkich trzech przypadkach Cov(X s, X t ) zależy od t s i średnia jest stała. To proces stacjonarny w szerszym sensie.
Procesy stacjonarne w szerszym sensie (X t ) stacjonarny w szerszym sensie, jeśli EX t = m dla każdego t; Cov(X s, X t ) = Cov(X s+h, X t+h ) = γ(t s) Cov(X s, X t ) jest funkcją różnicy momentów czasowych. Funkcja ACF (autokorelacji) ρ(h) = ρ(x t, X t+h ) = Cov(X t, X t+h ) γ(h) = (Var(X t )Var(X t+h )) 1/2 γ(0)
Własności funkcji kowariancji γ(h) γ(0) = Cov(X t, X t ) = Var(X t ) γ(h) = Cov(X t, X t+h ) = Cov(X t+h, X t ) = γ( h) Nieujemmna określoność funkcji γ( ): dla dowolnych a i,..., a k : k γ(i j)a i a j 0 i,j=1
Procesy stacjonarne w węższym sensie Własność silniejsza niż stacjonarność w węższym sensie. Proces (X t ) jest stacjonarny w węższym sensie, jeśli wektor losowy (X t1,..., X tk ) ma taki sam rozkład jak (X t1+h,..., X tk +h). W szczególności takie same rozkłady ma X s i X t, zatem pokrywają się ich średnie, oraz takie same rozkłady mają pary (X s, X s+h ) oraz (X t, X t+h ), zatem pokrywają się ich kowariacje: stacjonarność w w węższym sensie implikuje stacjonarność w w szerszym sensie
Sprowadzanie do stacjonarności Wiele szeregów niestacjonarnych: dla procesu X t = at + ε t, gdzie ε t : WN(0, σ 2 ). EX t = E(at + ε t ) = at Wartośc średnia X t zależy od t. Jak sprowadzić do stałej wartosci oczekiwanej? Różnicowanie Dla naszego przykładu (X t ) = X t X t 1 (X t ) = at + ε t (a(t 1) + ε t 1 ) = a + ε t ε t 1 Problem związany z różnicowaniem: zmienia się struktura błędu (ε t ε t ε t 1 )
Sprowadzanie do stacjonarności Podobnie dla trendu wielomianowego: mamy X t = a k t k + a k 1 t k 1 +... + a 0 + ε t E k (X t ) = E... (X t ) = a k k! Inna metoda: estymacja trendu i przez jego odjęcie doprowadzenie szeregu do przybliżonej stacjonarności.
Estymacja średniej i funkcji kowariancji (X t ): proces stacjonarny o średniej m. Podstawowe estymatory X t = ˆm = 1 t (X 1 +... + X t ) ˆγ(h) = 1 t h (X i t h X t )(X i+ h X t ) t=1 Dla oszacowania γ(h) zastępujemy wartość oczekiwaną w definicji przez średnią możliwych iloczynów (X t X n )(X t+ h X n ) dla wszystkich par (X t, X t+ h ) takich, że 1 t n, 1 t + h n. (X 1, X 1+ h }{{} ) (X n h }{{}, X n) 1 1 + h n h n
Jakość estymacji γ(h) przez ˆγ(h) zalezy od h : liczymy średnią z n h obserwacji. Dla h = n 1 mamy tylko jedną obserwację! W praktyce wybiera się h tak, aby h t/3 lub h t Czynnik 1/(t h ) w definicji ˆγ(h) zastępuje się często przez 1/t. Dostajemy wtedy funkcję nieujemnie określoną (tak samo jak γ(h)): estymator ma tę samą własność co obiekt, który estymujemy. Autokorelacja próbkowa definiowana w sposób naturalny ACF (h) = ˆρ(h) = ˆγ(h) ˆγ(0)
Rozkład ACF dla białego szumu (X t ) = (ε t ): biały szum (ciąg niezależnych zmiennych losowych). 0 < t 1 <... < t h N. Wtedy dla ρ(h) = (ˆρ(t 1 ),... ˆρ(t h )) i ρ(h) = (ρ(t 1 ),..., ρ(t h )) mamy n 1/2 ( ρ(h) ρ(h)) D N(0, I), Pas ufności dla H 0 : ρ(h) 0 CI 1 α (t k ) = (ˆρ(t k ) ± z 1 α/2 n )) k = 1,..., h Odrzucamy H 0 gdy 0 CI 1 α (t k ) w więcej niż αh przypadkach (dla więcej niż jednego dla h = 20 i α = 0.05) lub inaczej w tylu przypadkach ˆρ(t k ) z 1 α/2 n k = 1,..., h
Testy dla białego szumu Z twierdzenia o rozkładzie dla empirycznego współczynnika autokorelacji wynika, że h Q = n ˆρ(i) 2 D χ 2 h i=1 (suma kwadratów współrzędnych lewej strony zbiega do sumy kwadratów współrzędnych prawej strony). W praktyce używa się modyfikacji Ljunga-Boxa Q LB = n(n + 1) h i=1 ˆρ(i) 2 /(n i) D χ 2 h Obszar krytyczny w przypadku testowania hipotezy, ze proces jest białym szumem przy użyciu tej statystyki ma postać {Q LB > χ 2 h,1 α}
Prognoza liniowa X t : proces stacjonarny w szerszym sensie, EX t = 0. Interesuje nas optymalna prognoza liniowa X t+1 na podstawie X 1,..., X t, to znaczy taka kombinacja ā 1 X t + ā 2 X t 2 +... + ā t X 1, która jest rozwiązaniem problemu minimalizacji (ā 1, ā 2,..., ā t ) = argmin a1,...,a t E(X t+1 a 1 X t a 2 X t 2... t t X 1 ) 2 Kombinacja ā 1 X t + ā 2 X t 2 +... + ā t X 1 będąca rozwiązaniem problemu jest rzutem ortogonalnym elementu X t+1 na podprzestrzeń X = sp(x 1,..., X t ) rozpiętą na X 1,..., X t : ā 1 X t + ā 2 X t 2 +... + ā t X 1 = P X X t+1
Prognoza liniowa X t+1 X t+1 P X X t+1 P X X t+1 Podprzestrzeń X=sp(X 1,..., X t) Rysunek: Prognoza P X X t+1 jest prostopadłym rzutem X t+1
Równania prognozy liniowej Prostopadłość zmiennych losowych: X Y o średniej 0 EXY = 0. X t+1 P X X t+1 X j j = 1,..., t E(X t+1 ā 1 X t ā 2 X t 1... ā t X 1 )X j = 0 j = 1,..., t t EX t+1 X j = ā i EX t+1 i X j i=1 t γ(t + 1 j) = ā i γ(t + 1 i j) i=1 j := t + 1 j t γ(j) = a i γ(j i) j = 1,..., t i=1
Równania prognozy liniowej W postaci macierzowej γ = Γā, gdzie γ = (γ(1),..., γ(t)), ā = (a 1,..., a t ) a Γ = (γ(i j) i,j t. Jeśli Γ jest odwracalna (zmienne X 1,..., X t nie są liniowo zależne), to ā = Γ 1 γ (równania Yule a-walkera ). Ich odpowiedniki empiryczne ˆā = ˆΓ 1ˆγ, gdzie ˆΓ = (ˆγ(i j) i,j t, ˆγ = (ˆγ(1),..., ˆγ(t)). Uwaga Prognoza liniowa jest nieefektywna gdy zależność X t+1 od X 1,..., X t nie jest liniowa
Współczynnik korelacji częściowej Istotną rolę w identyfikacji szeregów czasowych odgrywa współczynnik korelacji częściowej PACF (partial autocorrelation coefficient) α(t) = ρ(x 1 P X X 1, X h+1 P X X t+1 ), gdzie P X X 1 jest rzutem prostopadłym elementu X 1 na X : przestrzeń rozpiętą na elementach X 2,... X t.
LIniowe procesy ARMA Trzy podstawowe klasy orcesów liniowych ( X t zależy liniowo od przeszłych obserwacji): Procesy średniej ruchomej rzędu q MA(q); Procesy autoregresyjne rzędu p AR(p) Procesy ARMA(p, q) (ogólnienie dwóch poprzednich klas) Proces średniej ruchomej rzędu q MA(q) (przefiltrowany biały szum) X t = ε t + θ 1 ε t 1 + θ 1 ε t 2 +... + θ q ε t q ε t - WN(0, σ 2 ). Proces stacjonarny i taki, że γ(h) = 0 dla h > q.
Liniowe procesy ARMA Proces autoregresyjne rzędu p AR(p) X t = φ 1 X t 1 + φ 2 X t 2 +... + φ p X t p + ε t, ε t - WN(0, σ 2 ) taki, że ε t jest niezależne od X s dla s < t. X t φ 1 X t 1 φ 2 X t 2 +... φ p X t p = ε t. Proces stacjonarny spełniający powyższe równanie istnieje, gdy φ(z) = 1 φ 1 z φ 2 z 2... φ p z p nie ma pierwiastków dla z C : z 1. Jak identyfikować procesy MA(q) i AR(p)?
Jak identyfikować procesy MA(q) i AR(p)? Proces stacjonarny i taki, że γ(h) = 0 dla h > q X t jest MA(q). Identyfikacja procesu na podstawie empirycznej funkcji ACF AR(p) ma własność: P X X t+1 = φ 1 X t+1 1 + φ 2 X t 1 +... + φ p X t+1 p, gdzie X = sp(x t,..., X t+1 s ). Stąd wynika, że PACF (h) = 0 dla h > p Identyfikacja procesu na podstawie empirycznej funkcji PACF