Prawdopodobieństwo i statystyka

Wykład XIII: Prognoza. 26 stycznia 2015 Wykład XIII: Prognoza.

Prognoza (predykcja) Przypuśćmy, że mamy dany ciąg liczb x 1, x 2,..., x n, stanowiących wyniki pomiaru pewnej zmiennej w czasie wielkości x, w chwilach t 1 < t 2 <... < t n. Inaczej mówiąc, mamy dany szereg czasowy. : Niech T > t n. Jaką wartość przyjmie badana wielkość w chwili T? Jeżeli x jest funkcją tylko czasu t, tzn. x k = f (t k ), k = 1, 2,..., t n, możemy próbować odgadnąć postać funkcji f, np. znajdując współczynniki wielomianu interpolacyjnego, lub amplitudę, częstość i przesunięcie sygnału sinusoidalnego, lub parametry przekształcenia S, którego kolejne iteracje S(t 0 ), S 2 (t 0 ),... S n (t 0 ) dają nam kolejne wartości x 1, x 2,..., x n. To jest jednak rzadka sytuacja. Na ogół musimy zakładać, że liczby x 1, x 2,..., x n są wartościami ciągu zmiennych losowych. Wykład XIII: Prognoza.

Pojęcie prognozy (predykcji) Prognoza (predykcja) Postawienie zagadnienia: znamy rozkład łączny zmiennych losowych X 1, X 2,..., X n, Y 1, Y 2,..., Y m, gdzie X 1, X 2,..., X n reprezentują przeszłość, a Y 1, Y 2,..., Y m - przyszłość. Na podstawie przeszłości chcemy ocenić wartości przyszłe w postaci funkcji f (X 1, X 2,..., X n ). Jako miarę jakości prognozy przyjmujemy błąd średniokwadratowy E (Y 1, Y 2,..., Y m ) T f (X 1, X 2,..., X n ) 2 m = E(Y i f i (X 1, X 2,..., X n )) 2. i=1 Pokażemy, że błąd średniokwadratowy jest minimalizowany przez f i (X 1, X 2,..., X n ) = E ( Y i (X 1, X 2,..., X n ) ), i = 1, 2,..., m. Wykład XIII: Prognoza.

Rozkłady warunkowe Rozkłady warunkowe Własności warunkowej wartości oczekiwanej jako rzut ortogonalny Niech Y i Z będą wektorami losowymi o wartościach w R m i R n, określonymi na tej samej przestrzeni probabilistycznej (Ω, F, P). Jeżeli P( Z = z) > 0, to rozkładem warunkowym wektora Y gdy Z = z nazywamy prawdopodobieństwo R m A P Y Z= z (A) = P( Y A Z = z) ( = P( Y A, Z = z) P( Z = z) Pytanie: jak określić rozkład warunkowy w ogólnym przypadku? Jeżeli P (Y,Z) jest absolutnie ciągły z gęstością p Y,Z (y, z), to można określić gęstość rozkładu P Y Z=z za pomocą wzoru p Y,Z (y,z) p Y Z=z (y) =, jeśli + py,z (u, z) du > 0 p Y,Z (u,z) du. 1I [0,1] (y), jeśli py,z (u, z) du = 0 ). Wykład XIII: Prognoza.

Rozkłady warunkowe Własności warunkowej wartości oczekiwanej jako rzut ortogonalny Definicja i własności warunkowej wartości oczekiwanej Mając dany rozkład warunkowy P Y Z= z ( ) określamy E( Y Z = z) := yp Y Z= z (d y), E( Y Z) := E( Y Z = ( )) Z. Jeżeli E U < + i E V < +, to E(αU + βv Z) = αe(u Z) + βe(v Z). Jeżeli E Y < + i h( Z) C, to E(h( Z) Y Z) = h( Z) E(Y Z). Wykład XIII: Prognoza.

Rozkłady warunkowe Własności warunkowej wartości oczekiwanej jako rzut ortogonalny jako rzut ortogonalny Jeżeli EY 2 < + i E(h( Z)) 2 < +, to E(h( Z) Y Z) = h( Z) E(Y Z). Jeżeli EY 2 <, to Var (Y ) = E(Y E(Y Z)) 2 + Var (E(Y Z)). Twierdzenie ( jako minimalizator) Niech EY 2 < + i Z przyjmuje wartości w R n. Wówczas E(Y Z) jest jedynym minimalizatorem funkcjonału h E(Y h( Z)) 2, gdy h przebiega zbiór {h : R n R 1 ; E(h( Z)) 2 < + }. Wykład XIII: Prognoza.

Rozkłady warunkowe Własności warunkowej wartości oczekiwanej jako rzut ortogonalny jako rzut ortogonalny - cd. Uwaga: w terminach przestrzeni Hilberta L 2 (Ω, F, P) warunkowa wartość oczekiwana jest rzutem ortogonalnym na podprzestrzeń funkcji postaci {h( Z)}, czyli funkcji σ( Z)-mierzalnych. W tym kontekście (niemal) oczywiste są następujące fakty: Jeżeli E Y < + i g : R n R m, to E ( E(Y Z) g( Z) ) = E(Y g( Z)). Jeżeli Z jest funkcją stałą, to E(Y Z) = EY. Co by było, gdybyśmy minimalizowali E Y h( Z)? Wykład XIII: Prognoza.

W zagadnieniu prognozy zmiennych Y 1, Y 2,..., Y m, na podstawie X 1, X 2,..., X n poszukujemy najlepszego przybliżenia zmiennych Y i w postaci f i (X 1, X 2,..., X n ), gdzie f i spełnia tylko ogólne warunki całkowalności, należy więc do bardzo szerokiej klasy funkcji. Z prognozą liniową mamy do czynienia, gdy poszukujemy najlepszego przybliżenia w klasie funkcji f i (X 1, X 2,..., X n ) = n α i,j X j, i = 1, 2,..., m. j=1 To na ogół dużo łatwiejsze zadanie! Uwaga: Istnieje ważna klasa szeregów czasowych, dla których oba pojęcia prognozy pokrywają się: są to procesy gaussowskie. Wykład XIII: Prognoza.

Definicja zmiennych losowych gaussowskich Mówimy, że zmienne losowe X 1, X 2,..., X n są gaussowskie, jeśli ich dowolna kombinacja liniowa α 1 X 1 + α 2 X 2 + + α n X n ma jednowymiarowy rozkład normalny, tzn. α 1 X 1 + α 2 X 2 + + α n X n N (m α, σ 2 α ), gdzie α = (α 1, α 2,..., α n ) T. Dopuszczamy przypadek σ 2 α = 0. Z definicji N (m, 0) = δ m. Rodziny gaussowskie Rodzinę zmiennych losowych {X i } i I nazywamy gaussowską, jeśli dla każdego skończonego podzbioru {i 1, i 2,..., i n } I zmienne X i1, X i2,..., X in są gaussowskie. Wykład XIII: Prognoza.

- cd. Biorąc α = (0,..., 0, 1, 0,..., 0)T, otrzymujemy rozkład normalny dla składowych X k N (m k, σk 2 ). W ogólności, m α = E(α 1 X 1 + α 2 X 2 + + α n X n ) = E α, X = α, E X. Podobnie σ 2 α = Var ( α, X ) = α, Cov ( X ) α. Twierdzenie (Transformacja liniowa zmiennych gaussowskich) Jeżeli wektor losowy X = (X 1, X 2,..., X n ) T ma składowe gaussowskie, przy czym E X = m i Cov (X ) = Σ) i jezeli A : R n R m jest odwzorowaniem liniowym, to składowe wektora A( X ) też są gaussowskie, przy czym EA( X ) = A( m), Cov (A( X )) = AΣA T. Wykład XIII: Prognoza.

Konstrukcja zmiennych gaussowskich Twierdzenie (Konstrukcja zmiennych gaussowskich) Jeżeli m R n i Σ jest macierzą n n, symetryczną i nieujemnie określoną, to istnieje wektor losowy X o składowych gaussowskich, który spełnia związki E X = m, Cov ( X ) = Σ. Twierdzenie (Charakterystyka rozkładu łącznego zmiennych gaussowskich) Rozkład łączny zmiennych losowych gaussowskich (X 1, X 2,..., X n ) (nazywany n-wymiarowym rozkładem normalnym) jest w pełni określony przez swoja wartość oczekiwaną m i macierz kowariancji Σ. Piszemy X N (m, Σ). Wykład XIII: Prognoza.

Niezależność zmiennych gaussowskich Twierdzenie (Absolutna ciągłość rozkładu normalnego) Rozkład normalny jest absolutnie ciągły dokładnie wtedy, gdy macierz Σ jest nieosobliwa (det(σ) 0). W takim przypadku gęstość zadana jest wzorem: p m,σ ( x) = 1 ( 1 exp ( 1 2π) d det Σ 2 x m, Σ 1 ( x m) ). Twierdzenie (Niezależność zmiennych gaussowskich) Zmienne gaussowskie X 1, X 2,..., X n są niezależne dokładnie wtedy, gdy są nieskorelowane: cov (X i, X j ) = 0, i, j = 1, 2,..., n, i j. Wykład XIII: Prognoza.

Prognoza dla zmiennych gaussowskich Twierdzenie (Prognoza dla zmiennych gaussowskich) Jeżeli zmienne X 1, X 2,..., X n, Y 1, Y 2,..., Y m są gaussowskie, to prognoza liniowa Y 1, Y 2,..., Y m na podstawie X 1, X 2,..., X n pokrywa się z pełną prognozą (tzn. przybliżeniem Y 1, Y 2,..., Y m za pomocą zmiennych postaci h(x 1, X 2,..., X n )). Uwaga: Jeżeli w schemacie prognozy X 1, X 2,..., X n, Y 1, Y 2,..., Y m zmienne są gaussowskie, to prognoza (liniowa) Y 1, Y 2,..., Y m na podstawie X 1, X 2,..., X n jest również wektorem o składowych gaussowskich. Jak określić wektor prognozy? Wykład XIII: Prognoza.