1 Wykład 4. Proste Prawa wielkich liczb, CTG i metody Monte Carlo 1.1 Rodzaje zbieżności ciagów zmiennych losowych Niech (Ω, F, P ) będzie przestrzenia probabilistyczna na której określony jest ciag {X n } zmiennych losowych. Mówimy, że ciag ten : 1. Zbiega z prawdopodobieństwem 1 do zmiennej losowej X, gdy P {ω : X n (ω) X(ω)} = 1 dla n. (piszemy X n X z p.1 lub p.(rawie) n.(apewno) ) n 2. Zbiega według prawdopodobieństwa do zmiennej losowej X gdy ε > 0 P {ω : X n (ω) X(ω) > ε} 0 dla n. (piszemy wówczas X n lub mod. P). X w/g p-twa (według prawdopodobieństwa) n 3. Zbiega według r-tej średniej do X (także z r-ta średnia, lub po prostu w L r )(r > 0), jeśli E X n X r 0, dla n. (r) L (piszemy wówczas X n X, lub X r n X, gdy n ). Uwaga: w przypadku r = 2, mówimy o zbieżności średnio-kwadratowej! 4. Zbiega słabo do X (według dystrybuanty, lub według rozkładu), gdy ciag F n (-dystrybuant X n ) zbiega do F (-dystrybuanty X) w każdym punkcie ciagłości dystrybuanty F. ( ) (piszemy wówczas X n X, n, gdzie w miejsce (*) możemy wstawić (sł.), (w), lub (D))! Twierdzenie 1 (Riesza) Każdy, zbieżny według prawdopodobieństwa, ciag zmiennych losowych zawiera podciag zbieżny prawie na pewno. Na odwrót, je sli jakís ciag zmiennych losowych ma następujac a własno sć: każdy jego podciag zawiera zbieżny prawie na pewno podciag, to sam ciag jest zbieżny według prawdopodobieństwa!!! Twierdzenia tego nie będziemy dowodzić. Ma ono ważne znaczenie teoretyczne. Dowód znajduje się np. w ksiażce Łojasiewicza. 1
1.1.1 Zależności między różnymi rodzajami zbieżności ciagów zmiennych losowych.: prawie na pewno z r-ta średnia w/g p-twa w/g dystrybuanty Ponadto, jeśli ciag zbiega w L r i r s to zbiega też w L s. Zatem ze zbieżności z r-ta średnia nie wynika prawie na pewno i na odwrót. Uwaga 2 Fakt, że zbieżno sć z r-ta srednia implikuje zbieżno sć według rozkładu wynika wprost z nierówno sci Czebyszewa: P ( X n X > ε) X n X r ε r. Uwaga 3 Fakt, że zbieżno sć według prawdopodobieństwa implikuje zbieżno sć słaba podany jest bez dowodu. Zbieżno sć według rozkładu do stałej okazuje się implikować zbieżno sć według prawdopodobieństwa do stałej! 2 Prawa wielkich liczb Niech {X n } n 1 będzie ciagiem zmiennych losowych posiadajacych wartości oczekiwane. Oznaczmy m n = EX n ; n 1. Definicja 4 Mówimy, że dla ciagu {X n } n 1 wielkich liczb (w skrócie SPWL MPWL), je sli zachodzi słabe (mocne) prawo N n=1 Y N = (X n m n ) 0; gdy N, N gdzie zbieżno sć jest według prawdopodobieństwa dla słabego i z prawdopodobieństwem 1 dla mocnego prawa wielkich liczb. Przykład 5 Jako pierwszy przykład zastosowania praw wielkich liczb rozważmy przykład pomiarów nieznanej wielko sci m. W wyniku n niezależnych, przeprowadzonych w takich samych warunkach pomiarów otrzymuje się wielko sci x 1, x 2,..., x n. Zakładamy następujacy model pomiarów: x i = m + ε i, Eε i = 0, i = 1, 2,..., n. Je sli zatem można założyć, że ciag pomiarów x i, i = 1, 2,..., n spełnia mocne prawo wielkich liczb, to ciag wielko sci { x 1+ +x n } n zbiega prawie na pewno n 1 do wielko sci Ex i = m. A więc żadanie, aby za przybliżenie mierzonej wielko sci brać srednia z otrzymanych pomiarów, ma sens. 2
Przykład 6 Inny bardziej nawet spektakularny przykład zastosowania praw wielkich liczb dotyczy szacowania ilo sci ryb w stawie. Przypu sćmy, że chcieliby smy otrzymać tę informację bez spuszczania wody, a tym samym bez zabijania pływajacych tam ryb. W tym celu wpuszczamy do stawu N znaczonych ryb ( moga to być ryby innego gatunku). Następnie dokonujemy n odłowień ze zwracaniem za każdym razem notujac, czy złowiona ryba była znaczona, czy nie. Niech M będzie nieznana ilo scia ryb w stawie. Niech ponadto: { 1 je sli w i-tym odłowieniu była znaczona ryba X i = 0 w przeciwnym przypadku.. N Zauważmy, że EX i = P (X i = 1) = N+M. Je sli można założyć, że ci ag {X i} i 1 spełnia prawo wielkich liczb, to dla dostatecznie dużego n mamy przybliżona równo sć n X i ilo sć złowionych znaczonych ryb = n n = frakcja znaczonych ryb N N + M, z której to przybliżonej równo sci można otrzymać oszacowanie wielko sci M. Uwaga 7 Rozważa się także tzw. uogólnione prawa wielkich liczb, czyli ciagi zmiennych losowych sumowalnych w odpowiednim sensie metoda Riesza. Dokładniej. mówimy, że dla ciagu {X n } n 1 zachodzi słabe ( mocne) uogólnione prawo wielkich liczb z wagami {α i } i 0, je sli Y N = N 1 i=0 α i (X i+1 m i+1 ) N 1 i=0 α 0, gdy N, i gdzie zbieżno sć jest według prawdopodobieństwa dla słabego i z prawdopodobieństwem 1 dla mocnego uogólnionego prawa wielkich liczb. Uwaga 8 Zgodnie z intencja tej ksiażki przedstawmy ciag zmiennych losowych {Y N } N 1 w postaci rekurencyjnej (iteracyjnej). Mianowicie mamy: Y N+1 = N N+1 Y N + 1 N+1 (X N+1 m N+1 ), lub w innych postaciach Y N+1 = (1 µ N ) Y N + µ N (X N+1 m N+1 ), (1) Y N+1 = Y N + µ N ((X N+1 m N+1 ) Y N ), (2) gdzie µ N = 1 N+1. W dalszej czę sci interesować nas będzie zbieżno sć ci agu {Y N} do zera, a także zbieżno sć szeregu N 1 µ N(X N+1 m N+1 ). Postać (1) będzie bardziej użyteczna przy badaniu zbieżno sci, natomiast (2) przy analizowaniu procedur aproksymacji stochastycznej, ponieważ dzięki niej widać zwiazki tych procedur aproksymacji stochastycznej z prawami wielkich liczb. Najprostsza wersja PWL i CTG dla ciagów i.i.d. 3
Twierdzenie 9 (Kolmogorow) Je sli {X n } n 1 sa niezależnymi zmiennymi losowymi o jednakowych rozkładach, to dla zachodzenia MPWL potrzeba i wystarcza, aby E X 1 <. Dowód. Opiera się na tw. o ódwrotnych martyngałach". Podamy później. Twierdzenie 10 Je sli {X n } n 1 sa niezależnymi zmiennymi losowymi o jednakowych rozkładach posiadajacych wariancję, to ciag zmiennych losowych n (X n EX 1 ) n var (X1 ) zbiega w/g rozkładu do zmiennej losowej N (0, 1). Dowód. Niech ( ϕ (t) będzie ) funkcja charakterystyczna zmiennej X 1 EX 1. Wówczas ϕ n n t jest f. charakterystyczna (Xn EX1). Skoro istnieje wariancja mamy ϕ (t) = 1 + var (x 1 ) t 2 /2 + o ( t 2) ( n var(x1) n var(x1), czyli ϕ t/ ) n var (X 1 ) = 1 + t2 2n + o ( t 2 /n ) ( (. Zatem log ϕ t/ )) n var (X 1 ) = t 2 /2 + o ( t 2 /n ). A ( ( więc n log ϕ t/ )) n var (X 1 ) > t 2 /2. 2.1 Metody Monte Carlo Metodami Monte Carlo nazywa się wykorzystywanie metod probabilistycznych do szacowania stałych fizycznych, całek, rozwiazań równań liniowych, różniczkowych czy całkowych, czy po prostu symulacji różnych zjawisk fizycznych. My ograniczymy się do szacowania całek czy sumowania szeregów. Idea tych obliczeń jest b. prosta. Opiera się na spojrzeniu na całkę np. I = f (x) dx, czy szereg V S = jak na wartość oczekiwana pewnej zmiennej losowej. Przy czym x w definicji całki I może być wektorem a V podzbiorem R n. A następnie wykorzystaniu prawa wielkich liczb w wersji Kołmogorowa: Do skonstruowania estymatora całki w postaci Î n (Ŝn) = 1 n n k=1 c i x k def = x n gdzie (x 1, x 2,... x n ) jest próba losowa z populacji zmiennych losowych majacych za wartość oczekiwana właśnie wartość interesujacej nas całki czy sumy szeregu. 4
Jak zwykle w teorii estymacji wraz z wartościa estymatora wyznacza się też wartość estymatora wariancji estymatora, czyli ( ) s 2 n = 1 1 n (x k x n ) 2. n n 1 k=1 Majac s 2 n wyznacza się przedziałufności postaci ( x n 2s n, x n + 2s n, ) badź bł ad oszacowania 2s n na poziomie istotności 95%. Przykład 11 Wyznaczyć całkę i) 1 1 1 x4, ii) π/2 5 0 sin xdx iii) dx 4 x 8 +1 lub obliczyć sumę szeregu: iv) k=1 (.999)k3 v) i= i5 (.98) i(i 1)/2. W przykładzie pierwszym generujemy ci ag U 1,... i.i.d. z rozkładu jednostajnego U (0, 1) a nasza zmienna X jest 2 1 U 4, w drugim generujemy ciag V 1, V 2,... i.i.d. o rozkładach U (0, π/2) i kładziemy X = 5 π 2 sin V, w trzecim np. rozważamy ciag W 1, W 2,... o rozkładach Laplace a (czyli z gęsto scia 1 2 exp ( x )) i za X bierzemy 2 exp ( W ) / 4 W 8 + 1, w czwartym np. rozważamy zmienne G 1, G 2,... i.i.d. o rozkładzie geometrycznym np. Geom(.9) a za X przyjmujemy 10(.999) G3 /(.9) G w piatym np. rozważamy zmienne H o rozkładzie P (H = i) =.05(.9) i dla i > 0 i P (H = 0) =.1 za s za X bierzemy 20H 5 (.98) H(H 1)/2 /(.9) H dla H 0 i 0 dla H = 0. 2.1.1 Sposoby zmniejszania wariancji estymatorów czyli zwiększania dokładności obliczeń 1. Metoda zmiennej ważonej. Polega ona na rozważeniu zmiennej losowej Y o gęstości (łatwo generowanej) g i rozpatrywaniu całki jako wartości oczekiwanej zmiennej h (Y ) = f (Y ) /g (Y ). Często ale nie zawsze skuteczna! Ogólna wskazówka iloraz f (y) /g (y) winien mieć wykres zbliżony do stalej! 2. Metoda zmiennych kontrolnych. Polega ona na dobraniu takiej funkcji g aby po pierwsze całka I 1 = g (x) dx była łatwo wyznaczalna a następnie V oszacowaniu całki I 2 = V (f(x) g (x))dx. Do obliczanie a całki I 2 można stosować inne metody polepszania dokładności. Ogólna wskazówka różnica f (y) g (y) winien mieć wykres zbliżony do stalej! 3. Metoda warstwowania. Główna idea polega na podzieleniu całego obszaru całkowanie V na podobszary (warstwy) tak aby funkcja podcałkowa była mniej więcej stała na poszczególnych podobszarach i szacowaniu całki jako sumy całek po podobszarach. Bł ad oszacowania jest równy sumie błędów oszacowań w poszczególnych obszarach. 5
4. Metoda zmiennych antytetycznych. Powiedzmy, że dysponujemy dwoma nieobciażonymi estymatorami f 1 (ξ) i f 2 (η) pewnej całki, przy czym zmienne ξ i η sa pewnymi zmiennymi losowymi. Wówczas oczywiście estymator Î = 1 2 (f 1 + f 2 ) jest też nieobciażonym estymatorem całki. Wariancja estymatora Î jest oczywiście równa ( ) σ 2 Î = 1 4 σ2 (f 1 ) + 1 4 σ2 (f 2 ) + 1 2 cov (f 1, f 2 ). Jeśli ) cov (f 1, f 2 ) < 0 i cov (f 1, f 2 ) jest stosunkowo duże, to wariancja σ (Î 2 może być znacznie mniejsza niż każda z wariancji σ 2 (f 1 ) i σ 2 (f 2 ). Idea ta może być uogólniona na wiele sposobów. Niech F m (ξ 1,..., ξ m ) = 1 m m f i (ξ i ) będzie nieobciażonym estymatorem całki. Jego wariancja jest równa σ 2 (F m ) = 1 m m 2 σ 2 (f i (ξ i )) + 2 m 2 cov (f i, f j ), i<j Jeśli drugi składnik jest ujemny i duży co do wartości bezwzględnej, to wariancja σ 2 (F m ) może być mniejsza od każdej z wariancji σ 2 (f i (ξ i )). jak wybrać zmienne losowe ξ 1,..., ξ m, aby wariancja była najmniejsza. Rozważa się w literaturze np. takie estymatory (a) f (2) (x) = (f (x) + f (1 x)) /2; (b) f (3) (x) = (f (x/2) + f ((1 + x) /2) + f ((2 x) /2) + f ((1 x) /2)) /3 (f (x) + f (1 x)) /6 6