Rachunek Prawdopodobieństwa 3 Rafał Latała 3 marca 205 Poniższe notatki powstały na podstawie wykładu monograficznego z Rachunku Prawdopodobieństwa 3, prowadzonego w semestrze zimowym 204/5. Celem wykładu było przedstawienie faktów dotyczących sum niezależnych zmiennych losowych, które znajdują się w szeroko pojętym kanonie współczesnej probabilistyki, a dla których zabrakło miejsca w kursowych wykładach z rachunku prawdopodobieństwa. Główny nacisk starano się położyć na przypadek jednowymiarowy, ale pewna część wyników dotyczy sum wektorów losowych. Oczywiście w semestralnym wykładzie nie sposób zmieścić za wielu tematów. Ich wybór był po części kwestią gustu i zainteresowań badawczych prowadzącego, po części chęcią niepowielania materiału wykładów prowadzonych na Wydziale MIM UW w ostatnim czasie. Dlatego zabrakło tu tak ważnych pojęć jak rozkłady stabilne i nieskończenie podzielne, twierdzenia graniczne i obszary przyciągania, zasada niezmienniczości Donskera. Czytelników zainteresowanych tymi zagadnieniami oraz pogłębieniem wiedzy w tych tu zawartych pozostaje odesłać do monografii [3, 8]. Ze swej strony pragnę gorąco polecić znakomitą książkę Kallenberga [5]. Wyniki dotyczące sum wektorów losowych o wartościach w przestrzeni Banacha można znaleźć w monografii Ledoux i Talagranda [7], a wyczerpujące wprowadzenie w tematykę wielkich odchyleń w książce Dembo i Zeitouniego [2]. U słuchaczy wykładu zakładano dobrą znajomość dwusemestralnego, kursowego wykładu z rachunku prawdopodobieństwa. Wszystkie potrzebne fakty można znaleźć w doskonałych podręcznikach Jakubowskiego i Sztencla [4] oraz Billingsleya []. Pani Marcie Strzeleckiej i panu Krzysztofowi Ciosmakowi dziękuję za wychwycenie licznych usterek we wcześniejszych wersjach skryptu. Przepraszam za wszystkie nieścisłości i omyłki mogące nadal pojawiać się w tekście i jednocześnie zwracam się z prośbą do Czytelników, którzy zauważyli błędy lub mają jakieś inne uwagi na temat notatek o kontakt mailowy na adres rlatala@mimuw.edu.pl z podaniem wersji notatek daty do której chcą się ustosunkować.
Spis treści Wielkie Odchylenia 3. Podstawowe definicje. Nierówność Chernoffa.................. 4.2 Oszacowania z dołu................................ 6.3 Twierdzenie Cramera na R........................... 9.4 Twierdzenie Cramera na R d........................... 2 2 Nierówności Wykładnicze. 7 2. Nierówności dla ograniczonych przyrostów................... 7 2.2 Nierówności typu Bernsteina.......................... 8 2.3 Nierówność Bennetta............................... 23 3 Nierówności maksymalne 24 3. Nierówności Levy ego i Levy ego-ottavianiego................. 25 3.2 Nierówności dla sum zmiennych o jednakowym rozkładzie.......... 28 4 Mocne prawa wielkich liczb 30 4. Prawo Wielkich Liczb Kołmogorowa...................... 30 4.2 Prawo Wielkich Liczb Marcinkiewicza-Zygmunda............... 30 4.3 Przypadek niejednakowych rozkładów...................... 33 5 Prawo Iterowanego Logarytmu 34 5. Przypadek jednowymiarowy........................... 34 5.2 Zbiór graniczny.................................. 40 5.3 Przypadek wektorowy.............................. 4 6 Błądzenia losowe 45 6. Twierdzenie Hewitta-Savage a. Mocna własność Markowa........... 46 6.2 Błądzenia chwilowe i powracające........................ 47 6.3 Punkty drabinowe. Faktoryzacja Wienera-Hopfa............... 53 7 Elementy teorii odnowienia 58 7. Stacjonarne procesy odnowienia......................... 59 7.2 Twierdzenie odnowienia............................. 6 7.3 Równanie odnowienia. Asymptotyka rozwiązania............... 66 7.4 Rozkłady arytmetyczne............................. 67 2
Wielkie Odchylenia W tej części, jeśli nie napiszemy inaczej będziemy zakładać, że X, X, X 2,... jest ciągiem niezależnych zmiennych losowym o jednakowym rozkładzie. Definiujemy S n := X + X 2 +... + X n, Sn := S n n. Ze słabego prawa wielkich liczb wiemy, że P S n EX > ε 0 przy n. Możemy zapytać jak szybka jest zbieżność. Z nierówności Czebyszewa dostajemy P S n EX > ε VarX nε 2. Jednak oszacowanie to jest dalekie od optymalnego dla porządnych zmiennych X. Przykładowo, gdy X N 0,, to S n N 0, /n X/ n, zatem wykorzystując oszacowanie z poniżej sformułowanego Faktu., Fakt.. Dla dowolnego t > 0, P S n ε = 2PX ε n t t 3 e t2 /2 t 2 2πnε exp nε 2 /2. e s2 /2 ds t e t2 /2. Dowód. Mamy s exp s 2 /2 = +s 2 exp s 2 /2 oraz s s 3 exp s 2 /2 = 3s 4 exp s 2 /2, stąd t t 3 e t2 /2 = t 3s 4 e s2 /2 ds t t e s2 /2 ds + s 2 e s2 /2 ds = t e t2 /2. Nasuwają się zatem następujące pytania: Czy oszacowanie P S n EX > ε rzędu exp nfε zachodzi dla szerszej klasy zmiennych losowych? 2 Czy istnieje granica lim n log P S n A dla ogólnej klasy zmiennych X i zbiorów A? Na te pytania poszukamy odpowiedzi w kolejnych sekcjach. 3
. Podstawowe definicje. Nierówność Chernoffa Definicja.2. Funkcję tworzącą momenty transformatę Laplace a zmiennej X definiujemy wzorem M X t := Ee tx, t R. Przykłady. a Dla X N a, σ 2, M X t = expat + σ 2 t 2 /2. b Dla X = g 3, gdzie g N 0,, M X t = dla t 0 i M X 0 =. Zachodzi oczywisty fakt. Fakt.3. Jeśli X i Y są niezależnymi zmiennymi losowymi, to M X+Y szczególności, M Sn = M X n. Łatwe szacowanie z nierówności Czebyszewa daje dla s > 0, P S n s = PtS n stn e snt Ee tsn = e snt M X t n = exp nst log M X t. = M X M Y. W Biorąc infimum prawej strony po wszystkich t > 0 dostajemy P S n s exp n supst log M X t. t 0 Motywuje to następującą definicję Definicja.4. Dla zmiennej losowej X określamy oraz Λ X t := log M X t, D ΛX := {t R: Λ X t < } Λ Xs := sup{st Λ X t: t R}. Przykłady a Dla X N a, σ 2, Λ X t = at + σ 2 t 2 /2, D ΛX = R oraz Λ X t = t a2 /2σ 2. b Dla X = g 3, g N 0,, D ΛX = {0} oraz Λ X 0. c Dla X Binn, p, D ΛX = R, Λ X t = n logpe t + p oraz Λ Xt = t log t n t np + n t log n p n log p dla t = n, dla t 0, n, n log p dla t = 0, dla t / [0, n]. d Dla X Poissλ, D ΛX = R, Λ X t = λe t oraz t logt/λ t + λ dla t > 0, Λ Xt = λ dla t = 0, dla t < 0. 4
e Dla X Expλ, D ΛX =, λ, Λ X t = logλ/λ t dla t < λ oraz { Λ λt logλt dla t > 0, Xt = dla t 0. Λ X t = λt logλt. Lemat.5. Funkcje Λ X : R, ] oraz Λ X : R [0, ] są wypukłe. Dowód. Wypukłość funkcji Λ X wynika z nierówności Höldera. Funkcja Λ X jest wypukła jako supremum funkcji wypukłych liniowych. Ponadto Λ X t 0t Λ X0 = 0. Przed sformułowaniem kolejnego lematu przypomnijmy konwencję, że wartość oczekiwana X da się określić za pomocą wzoru EX := EX + EX, jeśli tylko EX + < lub EX <. Lemat.6. i Jeśli D ΛX = {0}, to Λ X 0. Jeśli Λ Xt < dla pewnego t > 0, to EX + <, a jeśli Λ X t < dla pewnego t < 0, to EX <. ii Jeśli EX + < lub EX <, to st Λ X t 0 dla s EX, t 0 lub s EX, t 0. W szczególności, Λ Xs = sup{st Λ X t: t 0} dla s EX 2 oraz Λ Xs = sup{st Λ X t: t 0} dla s EX. iii Jeśli E X <, to Λ X EX = 0. Ponadto, dla dowolnego X, inf t Λ X t = 0. Dowód. i Dla t > 0 mamy e tx tx +, więc skończoność Ee tx implikuje EX + <. Podobnie dla t < 0, e tx > tx, a zatem EX <, jeśli Ee tx <. ii Z nierówności Jensena, Λ X t = log Ee tx E log e tx = tex, zatem st Λ X t s EXt 0 dla s EX, t 0 lub s EX, t 0. iii Jeśli E X <, to z udowodnionego wyżej oszacowania Λ X t tex i 0 Λ XEX suptex tex = 0. t Przypadek E X = podzielimy na trzy podprzypadki: a EX + = EX =. Wówczas D ΛX = {0} i Λ X 0. b EX + < = EX, tzn. EX =. Dla s R dostajemy ostatnia równość wynika z 2 log PX s inf log E exptx s = inf Λ Xt ts = Λ Xs, t 0 t 0 czyli 0 Λ X s log PX s 0 przy s. c EX + = > EX. Jak w b dowodzimy, że Λ X s 0 przy s. 5
Twierdzenie.7 Nierówność Chernoffa. Jeśli EX + < lub EX <, to P S n s exp nλ Xs dla s EX oraz P S n s exp nλ Xs dla s EX. Dowód. Pierwsza nierówność wynika z i Lematu.6 ii. Drugą nierówność dowodzimy analogicznie. Przykłady. a Dla X N a, σ 2 nierówność Chernoffa daje P S n t exp nt a2 2σ 2 dla t a oraz P S n t exp nt a2 2σ 2 dla t a. W rzeczywistości mamy S n N a, σ 2 /n a + σg/ n, gdzie g N 0,, zatem np dla t > a P S n σ nt a2 n t = P g t a exp σ 2πnt a 2σ 2. b Dla X = g 3, g N 0,, nierówność Chernoffa daje tylko trywialne oszacowanie P S n t. c Jeśli PX = = p = PX = 0, to S n Binn, p i Twierdzenie.7 implikuje klasyczne oszacowanie Chernoffa dla ogonów rozkładu dwumianowego:.2 Oszacowania z dołu p nt p n t PBinn, p nt dla t p. t t Widzieliśmy, że bez dodatkowych założeń nie możemy liczyć na odwrócenie nierówności Chernoffa. Daje się to jednak w pewnym stopniu zrobić przy założeniach o skończoności funkcji tworzącej momenty. Dlatego w tej części będziemy zazwyczaj dodatkowo zakładać, że Ee tx < dla wszystkich t R. 3 Lemat.8. Przy założeniu 3 funkcja M X przedłuża się do funkcji analitycznej na całej płaszczyźnie zespolonej. Ponadto M n X t = EXn e tx dla n =, 2,.... 6
Dowód. Funkcja fz := E expzx jest dobrze określona dla z C, bo E expzx = E exprezx <. Oczywiście f jest przedłużeniem M X, nietrudno też wykazać korzystając z twierdzenia Lebesgue a o zbiezności zmajoryzowanej, że f jest różniczkowalna i f z = EX expzx. Podobnie indukcyjnie dowodzimy, że f n z = EX n expzx. Definicja.9. Dla t R definiujemy miarę probabilistyczną µ t na R wzorem dµ t x = M X t e tx dµ X x, tzn. µ t A = M X t EetX {X A}. Uwaga.0. Dla dowolnej funkcji f całkowalnej względem µ t mamy E µt f := fx dµ t x = M X t EfXetX. Lemat.. Miara probabilistyczna µ t spełnia warunki E µt x = xdµ t x = Λ Xt, Var µt x = R R R x 2 dµ t x R 2 xdµ t x = Λ Xt. Dowód. Zauważmy, że z Lematu.8, M n X t = M XtE µt x n, więc oraz Λ Xt = M X t M Xt = E µt x Λ Xt = M X t M Xt M X t 2 M Xt 2 = E µt x 2 E µt x 2 = Var µt x. Określmy α := essinfx = inf{t: PX < t > 0}, β := esssupx = sup{t: PX > t > 0}. Oczywiście PX [α, β] =. Lemat.2. Dla dowolnej zmiennej losowej X, Λ Xt = dla t / [α, β], PX = α = exp Λ Xα, jeśli α >, PX = β = exp Λ Xβ, jeśli β <. 7
Dowód. Dla t 0 mamy PtX αt =, stąd Λ X t αt i dla s < α, Λ Xs sup{st αt: t 0} =. Podobnie, dla t 0, PtX βt =, zatem Λ X t βt i dla s > β, Λ Xs sup{st βt: t 0} =. Dla dowolnego t R, Λ X t loge tβ PX = β, czyli PX = β inf t exp tβ + Λ X t = exp suptβ Λ X t = exp Λ Xβ. t Z drugiej strony, na mocy twierdzenia Lebesgue a o zbieżności zmajoryzowanej, exp Λ Xβ expλ X t tβ = E exptx β PX = β dla t. Zatem PX = β = exp Λ X β. Tożsamość PX = α = exp Λ X α dowodzimy analogicznie. Lemat.3. Załóżmy, że zachodzi warunek 3 oraz α < β. Wówczas Λ X jest funkcją ściśle rosnącą z R na α, β. Przekształcenie Θ := Λ X : α, β R spełnia Λ Xs = sθs Λ X Θs dla s α, β. Dowód. Miara µ X jest niezdegenerowana, tzn. µ X {x} dla x R, więc miary µ t też są niezdegenerowane. Zatem Var µt x > 0 i z Lematu., Λ X t > 0 czyli Λ X jest ściśle rosnąca i funkcja Θ = Λ X jest dobrze określona na Λ X R. Oczywiście dla dowolnego t, β Λ α Xt = xetx dµ X x β α, β, α etx dµ X x więc Λ X R α, β. Wykażemy, że zachodzi też odwrotna inkluzja. Ustalmy t [EX, β oraz u t, β. Dla dowolnego s 0, zatem Λ X s loge su PX u = su + log PX u, st Λ X s st u log PX u < 0 dla s > log PX u. u t Z Lematu.6 ii, st Λ X s 0 dla s 0, zatem supremum funkcji fs = st Λ X s jest osiągane w pewnym punkcie s 0 [0, u t log PX u]. W szczególności f s 0 = 0 czyli t = Λ X s 0. Wykazaliśmy więc, że Λ R [EX, β oraz Λ X t = tθt Λ XΘt dla t [EX, β. Przypadek t α, EX] rozważamy analogicznie. 8
Twierdzenie.4. Załóżmy, że zachodzi 3. Wówczas dla a α, β oraz ε > 0, gdzie Θ := Λ X. P S n a < ε Λ X Θa nε 2 exp nλ Xa + ε Θa, Dowód. Zdefiniujmy t := Θa, wówczas z Lematu.3, Λ X a = at Λ Xt. Niech Y, Y,..., Y n będą niezależnymi zmiennymi losowymi o rozkładzie zadanym przez miarę probabilistyczną µ t. Na mocy Lematu., EY = Λ X t = a i VarY = Λ X t. Zauważmy, że dla dowolnej nieujemnej funkcji mierzalnej f na R n, ] EfY,..., Y n = M X t n E [fx,..., X n e tsn. Zatem n P Y i a n < ε = M X t n Ee tsn { Sn a <ε} M X t n e nta+ t ε P S n a < ε. Z nierówności Czebyszewa n P Y i a n ε zatem VarY nε 2 = Λ X t nε 2, P S n n a < ε P Y i a n < ε exp nta Λ X t + t ε Λ X t nε 2 exp nλ Xa + t ε..3 Twierdzenie Cramera na R Jesteśmy wreszcie gotowi do sformułowania twierdzenia o wielkich odchyleniach w przypadku jednowymiarowym. W odróżnieniu od poprzedniego paragrafu nie stawiamy żadnych wstępnych założeń o rozkładzie X. Twierdzenie.5 Prawo Wielkich Odchyleń Cramera. i Dla dowolnego zbioru domkniętego F R, lim sup n log P S n F inf x F Λ Xx. 9
ii Dla dowolnego zbioru otwartego G R, lim inf iii Dla dowolnego zbioru Γ BR, n log P S n G inf x G Λ Xx. inf x intγ Λ Xx lim inf n log P S n Γ lim sup n log P S n Γ inf x clγ Λ Xx. Dowód. i Niech I F := inf x F Λ X x. Jeśli I F = 0, to teza jest oczywista, możemy zatem zakładać, że I F > 0. Wtedy D ΛX {0}, czyli EX + < lub EX <. Rozważymy trzy przypadki. a E X <. Ponieważ Λ X EX = 0 więc EX / F. Niech a, b będzie składową R \ F zawierającą EX. Jeśli a >, to a F, Λ X a I F, podobnie jeśli b <, to b F, Λ X b I F. Mamy zatem z nierówności Chernoffa, P S n F P S n a + P S n b e nλ X a + e nλ X b 2e ni F, skąd n log P S n F I F + n log 2 I F przy n. b EX =, wówczas Λ X na mocy 2 jest niemalejąca, ponadto Λ X x 0 przy x. Zatem warunek I F > 0 implikuje b = inf F >. Z domkniętości b F, czyli Λ X b I F oraz P S n F P S n b e nλ X b e ni F. c EX =. Rozumujemy analogicznie jak w b. ii Musimy wykazać, że warunek x G implikuje lim inf n log P S n G Λ X x. Zmienna Y = X x spełnia Λ Y t = Λ X t xt, Λ Y s = Λ X s + x. Zatem rozpatrując X x i G x zamiast X i G widzimy, że możemy zakładać, iż x = 0. Z otwartości G, mamy δ, δ G dla pewnego δ > 0. Wystarczy zatem wykazać lim inf n log P S n δ, δ Λ X0 = inf t R Λ Xt. 4 Dowód 4 rozbijemy na kilka przypadków. Przypadek I. X 0 p.n. Mamy wówczas z twierdzenia Lebesgue a o zbieżności zmajoryzowanej, inf t Λ X t lim Λ Xt = log lim t t EetX = log E lim t etx = log PX = 0. Ponadto P S n δ, δ P S n = 0 = PX = 0 n i natychmiast dostajemy 4. Przypadek II. X 0 p.n. Dowodzimy w taki sam sposób jak w przypadku I. 0
Przypadek III. essinfx < 0 < esssupx oraz D ΛX = R. Z Twierdzenia.4 z a = 0 dostajemy dla 0 < ε < δ, lim inf n log P S n δ, δ lim inf n log P S n ε Λ X0 ε Θ0. Biorąc ε 0+ dostajemy 4. Przypadek IV. essinfx < 0 < esssupx i X dowolne. Wybierzmy M > 0 na tyle duże by PX [ M, 0, PX 0, M] > 0. Niech Y będzie miało taki rozkład jak zmienna X pod warunkiem X M, tzn. PY A = PX A, X M/P X M, zaś Y, Y 2,... będą niezależnymi kopiami Y oraz T n = Y +... + Y n /n. Zauważmy, że dla dowolnej funkcji mierzalnej f : R n [0, mamy W szczególności, EfX,..., X n EfX,..., X n { X M,..., X n M} = P X M n EfY,..., Y n. P S n δ, δ P X M n P T n δ, δ. Zmienna Y jest ograniczona, więc na mocy przypadku III, lim inf n log P S n δ, δ log P X M + lim inf log P X M + inf t n log P T n δ, δ Λ Y t = inf t Λ M t, gdzie Λ M t := log Ee tx { X M}. Zauważmy, że funkcja Λ M rośnie po M, więc inf t Λ M t zbiega przy M do pewnego a. Wykazaliśmy, że lim inf n log P S n δ, δ a, więc wystarczy wykazać, że a inf t Λ X t. Rozpatrzmy zbiory K M := {t: Λ M t a}. Funkcja Λ M t zbiega do nieskończoności przy t, więc zbiory K M tworzą zstępującą rodzinę zbiorów zwartych, ponadto są one niepuste, bo a inf Λ M = Λ M t M dla pewnego t M. Istnieje więc punkt t 0 należący do przecięcia wszystkich K M, ale wtedy Λ M t 0 a dla wszystkich M czyli, z twierdzenia Lebesgue a o zbieżności monotonicznej, Λ X t 0 = lim M Λ M t 0 a. Punkt iii wynika z i i ii.
Uwaga.6. Analiza pierwszej części dowodu pokazuje, że wykazaliśmy P S n Γ 2 exp n inf x clγ Λ Xx.4 Twierdzenie Cramera na R d dla dowolnego Γ BR. W tej części będziemy zakładać, że X, X,... są niezależnymi d-wymiarowymi wektorami losowymi o jednakowym rozkładzie. Definicja.7. Dla d-wymiarowego wektora losowego X określamy dla t R d, M X t := Ee t,x, Λ X t := log M X t oraz dla s R d, Λ Xs := sup{ s, t Λ X t: t R d }. S j n Współrzędne wektorów X odp. X i będziemy oznaczać X j odp. X j i i definiujemy := n n X j i. Będziemy zakładać, że Lemat.8. Przy założeniu warunku 5, i Funkcja Λ X : R d R jest wypukła, klasy C oraz M X t < dla wszystkich t R d. 5 t i M X t = EX i e t,x. ii Funkcja Λ X : Rd [0, ] jest wypukła. iii Jeśli s = Λ X t dla pewnych s, t R d, to Λ X s = t, s Λt. Dowód. i Wypukłość Λ X wynika z nierówności Höldera jak w przypadku jednowymiarowym. By udowodnić gładkość, indukcyjnie po α = α +... + α d, dowodzimy, że dla α Z d +, α t α α d t α M d X t = EX α X d α d e t,x. d ii Funkcja Λ X jest wypukła jako supremum funkcji liniowych. Nieujemność Λ X wynika z szacowania Λ X t 0, t Λ X0 = 0. iii Ustalmy u R d i określmy gh := h u t, s Λ X t + hu t + t, s, h R. 2
Wypukłość Λ X implikuje wklęsłość g, zatem gh g0 g g0 lim = u t, s u t, Λ X t = 0. h 0+ h Dostaliśmy więc g g0, czyli u, s Λ X u t, s Λ X t, co po wzięciu supremum po u R d daje tezę. Twierdzenie.9. Załóżmy, że M X t < dla wszystkich t R d. Wówczas i Dla dowolnego zbioru domkniętego F R d, lim sup ii Dla dowolnego zbioru otwartego G R d, lim inf iii Dla dowolnego zbioru Γ BR d, n log P S n F inf x F Λ Xx. n log P S n G inf x G Λ Xx. inf x intγ Λ Xx lim inf n log P S n Γ lim sup n log P S n Γ inf x clγ Λ Xx. Dowód. i Zauważmy, że 2δ inf s F Λ X s M inf s F Λ X s przy δ 0+, M, więc wystarczy iż wykażemy lim sup n log P S n F 2δ inf s F Λ Xs M dla δ > 0, M <. 6 Ustalmy δ > 0 i M <, dowód 6 podzielimy na dwa kroki. Krok I. F R d zwarty. Dla s F niech t s R d będzie takie, że s, t s Λ X t s Λ Xs M δ oraz r s > 0 takie, że r s t s δ. Przez Bs, r będziemy oznaczać kulę otwartą o środku w s i promieniu r. Zauważmy, że dla dowolnego zbioru Γ BR d, P S n Γ = E { Sn Γ} t, E exp S n inf t, x. x Γ Ponadto inf t s, x = t s, s + inf t s, x s = t s, s r s t s t s, s δ. x Bs,r s x Bs,r s 3
Zatem P S n Bs, r s E expn t s, S n exp inf n t s, x x Bs,r s expnλ X t s t s, s + δ expn2δ Λ Xs M. Zbiór F jest zwarty więc istnieje skończony podzbiór S F taki, że F s S Bs, r s i wówczas P S n F P S n Bs, r s expn2δ Λ Xs M, s S s S zatem lim sup n log P S n F 2δ min s S Λ Xs M 2δ inf s F Λ Xs M. Krok II. F dowolny domknięty. Dla ρ > 0 niech K ρ := [ ρ, ρ] d. Jeśli ρ > max j E X j, to z nierówności Chernoffa, P S d d j n / K ρ P S n > ρ exp nλ X ρ + exp nλ j X ρ. j j= j= Ponieważ Λ s przy s, więc dla odpowiednio dużego ρ, P S X j n exp nm, czyli / K ρ P S n F P S n F K ρ + P S n / K ρ P S n F K ρ + exp nm. Zbiór F K ρ jest zwarty, więc na mocy Kroku I, lim sup n log P S n F K ρ 2δ inf Λ s F K ρ Xs M, a ponieważ 2δ inf s F Kρ Λ X s M > M, więc lim sup n log P S n F 2δ inf Λ s F K ρ Xs M 2δ inf s F Λ Xs M. ii Wystarczy iż wykażemy, że lim inf n log P S n G Λ X s dla dowolnego s G. Ponieważ Bs, δ G dla pewnego δ > 0, więc musimy jedynie wykazać, że lim inf Dowód przeprowadzimy w dwóch krokach. n log P S n Bs, δ Λ Xs dla δ > 0. 4
Krok I. s = Λ X t dla pewnego t R d. Na mocy Lematu.8 mamy wówczas Λ X s = t, s Λ Xt. Określmy miarę probabilistyczną µ t na R d wzorem dµ t x := M X t e x,t dµ X x, czyli dµ X x = exp x, t + Λ X tdµ t x. Niech Y, Y, Y 2,... będą niezależnymi wektorami losowymi o rozkładzie µ t, T n := Y +... + Y n oraz T n := T n /n. Dla dowolnej nieujemnej funkcji mierzalnej f na R d mamy zatem EfX,..., X n = expnλ X tefy,..., Y n exp t, T n, Mamy jednak P S n Bs, δ = expnλ X te exp t, T n { Tn Bs,δ} EY = czyli ze słabego prawa wielkich liczb, lim inf = exp n t, s Λ X te exp n t, T n s { Tn s <δ} exp nλ Xs nδ t P T n s < δ. M X t EXe t,x = M Xt = Λ X t = s, M X t n log P S n Bs, δ Λ Xs δ t + lim inf n log P T n s < δ = Λ Xs δ t. Z monotoniczności δ P S n Bs, δ otrzymujemy lim inf n log P S n Bs, δ lim lim inf δ 0+ n log P S n Bs, δ Λ Xs. Krok II. X dowolna zmienna spełniająca 5. Niech G, G, G 2,... oznaczają niezależne kanoniczne d-wymiarowe wektory gaussowskie tzn. współrzędne G i są niezależnymi zmiennymi N 0,, niezależne od X, X, X 2,.... Ustalmy M > 0 i zdefinujmy Y := X + M G, Y i := X i + M G i, R n := G +... G n n M Wówczas M Y t = M X tm G t/ M = M X t exp t 2 /2M, czyli Λ Y t = Λ X t + t 2 /2M Λ X t oraz Λ Y s Λ X s dla wszystkich s. Z nierówności Jensena, Λ Xt = log E exp t, X E t, X, czyli Λ Y t t 2 /2M + t, EX oraz s, t Λ Y t t 2 /2M + t, s EX przy t, 5
a więc funkcja t s, t Λ Y t osiąga swoje supremum. Zatem istnieje t takie, że s = Λ Y t. Mamy Y +... Y n = n S n + R n, na mocy przypadku I otrzymujemy lim inf n log P S n + R n Bs, δ/2 Λ Y s Λ Xs. Zmienna R n ma ten sam rozkład, co G/ nm, więc P R n δ = P G nm δ 2 2 d j= P G j nm δ 2d exp nmδ2 2d 8d 2, gdzie ostatnie szacowanie wynika stąd, że G j N 0, dla j d. Jeśli przyjmiemy M := 8δ 2 d 2 Λ X s +, to dostaniemy P R n δ 2d exp nλ Xs + 2 2 P S n + R n B s, δ 2 dla dostatecznie dużych n. Zatem dla dużych n, czyli lim inf P S n Bs, δ P S n + R n B 2 P S n + R n B s, δ 2 s, δ 2 P, R n δ 2 n log P S n Bs, δ lim inf n log P S n + R n Bs, δ/2 Λ Xs. iii jest oczywiście natychmiastową konsekwencją i i ii. Uwaga.20. Twierdzenie.9 zachodzi przy słabszym założeniu, że M X jest skończone w pewnym otoczeniu zera. W przeciwieństwie do przypadku jednowymiarowego, nie jest ono jednak prawdziwe dla dowolnych zmiennych X, bez dodatkowych założeń o skończoności M X. 6
2 Nierówności Wykładnicze. Nierówność Chernoffa pokazuje, że jeśli S = n X i oraz zmienne X i są niezależne o jednakowym rozkładzie, to PS s exp nλ X s/n. Jednak stosowanie tej nierówności w praktyce natrafia na pewne ograniczenia: i Nie zawsze da się dokładnie obliczyć Λ X, a co za tym idzie Λ X ; ii Założenie o jednakowym rozkładzie X i bywa często niewygodne. By te trudności obejść zauważmy, że dowód nierówności Chernoffa pokazuje, że PS s exp sup t>0 st Λ S t dla s > 0. Ponadto, jeśli będziemy umieli oszacować dla wszystkich i, Λ Xi z góry, to da nam to górne ograniczenie dla Λ S = n Λ Xi i za pośrednictwem powyższej nierówności ograniczymy też PS s. Metodę tę bedziemy stosować w kolejnych paragrafach. Szacowania PS s z dołu są z reguły dużo trudniejsze, co już wcześniej widzieliśmy przy próbie odwrócenia nierówności Chernoffa. 2. Nierówności dla ograniczonych przyrostów W tym paragrafie pokażemy jakie szacowania można wyprowadzić, jeśli potrafimy oszacować poszczególne zmienne z góry. Lemat 2.. Załóżmy, że X jest ograniczoną zmienną losową o średniej zero oraz X d <. Wówczas M X t exp 2 d2 t 2 dla wszystkich t. Dowód. Ponieważ Λ X t = Λ X/d dt możemy zakładać, że d =. Dla x mamy x +x 2 t + 2 t = tx, więc z wypukłości expx, e tx x 2 Zatem, jeśli X, to e t + + x e t = cosht + x sinht dla x. 2 E exptx cosht + sinhtex = cosht expt 2 /2. Twierdzenie 2.2. Załóżmy, że X i są ograniczonymi, niezależnymi zmiennymi losowymi o średniej zero oraz X i d i <. Wówczas n t 2 n E exp t X i exp d 2 i 2 7 dla t R
oraz n s 2 P X i s exp 2 n d 2 i dla s 0. Dowód. Pierwsza nierówność wynika natychmiast z Lematu 2.. By uzyskać drugą szacujemy dla S = n X i, PS s exp supst Λ S t exp sup st t2 n d 2 i t>0 t>0 2 = exp s 2 2 n d 2 i. Wniosek 2.3. Załóżmy, że ε i jest ciągiem Bernouliego, tzn. ciągiem niezależnych zmiennych losowych takim, że Pε i = ± = /2. Wówczas dla dowolnego ciągu a i spełniającego i a2 i < zachodzi P a i ε i s exp s2 2. i a2 i i Dowód. Prosty argument graniczny pokazuje, że wystarczy rozważać przypadek skończony, który jest natychmiastowym wnioskiem z Twierdzenia 2.2. Uwaga 2.4. Można udowodnić znacznie ogólniejsze twierdzenie nierówność Azumy. Dla dowolnego martyngału M k, F k n k= takiego, że M k M k d k < zachodzi PM n M 0 s exp 2.2 Nierówności typu Bernsteina s 2 2 n d 2 i dla s 0. Nierówności z poprzedniego paragrafu są mało precyzyjne działają dobrze tylko, gdy wariancja zmiennych jest zbliżona do kwadratu ich normy supremum. Jest to związane z tym, że w założeniach występowała tylko norma L. W tym paragrafie pokażemy jak można jednocześnie wykorzystywać znajomość wariancji i normy supremum. Lemat 2.5. Załóżmy, że X jest zmienną losową o średniej zero taką, że istnieją σ 2, M < spełniające warunek E X k k! 2 σ2 M k 2 dla k = 2, 3,.... Wówczas σ 2 t 2 Λ X t dla M t <. 2 M t 8
Dowód. Liczymy M X t = k=0 = + t k k! EXk + σ 2 t 2 exp 2 M t t k 2 σ2 M k 2 = + t2 σ 2 t M k 2 2 k=2 k=2 σ 2 t 2. 2 M t Twierdzenie 2.6 Nierówność Bernsteina. Załóżmy, że X i są niezależnymi zmiennymi losowymi o średniej zero, zaś σi 2, M < są takie, że Wówczas oraz dla s > 0, E X i k k! 2 σ2 i M k 2 dla i, k 2. 7 n t 2 n E exp t X i exp σ 2 i 2 M t dla M t < n s 2 P X i s exp 2 n σi 2 + 2Ms, n s 2 P X i s 2 exp 2 n σi 2 + 2Ms. Dowód. Niech S := n X i, σ 2 := n σi 2, wówczas Λ S = i Λ X i i pierwsze oszacowanie wynika z Lematu 2.5. Dalej szacujemy t 2 σ 2 PS s exp supst Λ S t exp sup st t>0 0<t<M 2 Mt exp s 2 2σ 2 + 2Ms, gdzie ostatnią nierówność dostajemy przyjmując t = sσ 2 +Ms. Ponieważ zmienne X i spełniają te same założenia co X i, więc dostajemy dla s < 0, PS s = P S s exp s 2 2σ 2 + 2Ms i z tożsamości P S s = PS s + PS s wynika ostatnia część tezy. 9
Uwaga 2.7. Na mocy centralnego twierdzenia granicznego oraz Faktu. nie możemy się spodziewać lepszego oszacowania niż exp s 2 /2σ 2. Ponadto zmienne X i o rozkładzie symetrycznym wykładniczym z parametrem tzn. zmienne z gęstością exp x /2 spełniają E X i k = k!, czyli dla takich zmiennych zachodzą założenia Twierdzenia 2.6 z σ 2 i = 2, M =. Pokazuje to, że nie możemy uzyskać szacowania lepszego niż exp s/m przy s. Wniosek 2.8. Załóżmy, że X i są ograniczonymi, niezależnymi zmiennymi losowymi o średniej zero, wówczas dla s > 0, n s 2 P X i s exp 2σ 2, + 2as/3 gdzie σ 2 = Var n X i = n EX 2 i oraz a = max i X i. Dowód. Mamy dla k 2, E X i k a k 2 EX 2 i k! 2 a 3 k 2 EX 2 i, zatem warunek 7 jest spełniony z M = a/3 oraz σ i = EX 2 i. Uwaga 2.9. Nierówność Bernsteina pokazuje, iż jeśli s max i X i 3ε i EX2 i, to n s 2 P X i s exp 2 + εσ 2. Kolejny wynik pokazuje jak odwrócić szacowanie z powyższej uwagi. Twierdzenie 2.0 Odwrotna nierówność wykładnicza Kołmogorowa. Dla ε > 0 istnieją stałe Kε i δε takie, że dla ograniczonych, niezależnych zmiennych losowych X i o średniej zero, s > 0 oraz σ 2 := Var n X i zachodzi oszacowanie o ile n P X i s exp + ε s2 2σ 2, s max X i δεσ 2 oraz s Kεσ. i Dowód. Ustalmy ε > 0 i niech u = uε będzie taką liczbą dodatnią dla której Φu 2 exp + εu 2 /2. Wybranie u jest możliwe na podstawie np. oszacowań Faktu.. 20
Krok I. Istnieje stała γ = γε taka, że jeśli ograniczone niezależne zmienne losowe X i o sredniej zero spełniają k /2 max X i γε EXi 2, i k to k k /2 P X i u EXi 2 2 Φu exp + ε u2. 2 Oczywiście wystarczy rozpatrywać przypadek k EXi 2 =. Załóżmy, że takie γ nie istnieje. Wówczas dla każdego n istnieją niezależne zmienne losowe X n,, X n,2,..., X n,kn o średniej zero takie, że X n,i n, k n EXn,i 2 = oraz P k n X n,i u < Φu. 2 Łatwo sprawdzić, że układ trójkątny X n,i n,i spełnia warunek Lindeberga, więc na mocy centralnego twierdzenia granicznego, lim P k n X n,i u = Φu, co daje sprzeczność z poprzednią nierównością. Zatem teza Kroku I została wykazana. Krok II. Dowód twierdzenia. Bez straty ogólności możemy zakładać, że n EXi 2 =. Zdefiniujmy n 0 = 0 oraz indukcyjnie { m n j := inf m: EXi 2 u 2 } s 2. + ε i=n j + Konstrukcję przerywamy na takim n k dla którego n i=n k + EX 2 i < wtedy oczywiście k u 2 s 2 + ε. Określmy u 2 s 2 + ε, oraz S j := n j i=n j + S k := X i dla j =,..., k n i=n k + X i. 2
Wówczas S +... + S k = n X i oraz VarS j u 2 /s 2 + ε dla j k. Ponadto max X i s δε γvars j /2, i jeśli δε uγ + ε /4. Zatem na mocy kroku I, oraz P S j u 2 s 4 P S j uvars j /2 exp + ε u 2 P S k s 4 + ε k j= P S j exp + εs 2 /2. Oszacujmy k z dołu. Mamy dla j =,..., k, co daje czyli n j i=n j + EX 2 i n k n j n = EXi 2 = EXi 2 + j= i=n j + i=n k + u 2 s 4 exp + ε + ε u2. 2 k + ε u2 2 u 2 s 2 + ε + EX2 n j u 2 s 2 + δ 2 ε, + ε EXi 2 k u 2 s 2 + δ 2 ε + + ε k s2 + ε u 2 u 2 + s2 + εδ 2 4 ε u 2 + ε, o ile δε jest odpowiednio małe, a Kε odpowiednio duże. I wtedy u 2 PS s P S k s 4 exp + ε s2. + ε 2 u 2 s 2 + ε, Uwaga 2.. Nierówność z powyższego twierdzenia można też równoważnie sformułować jako istnienie stałych δ ε > 0 i K ε < takich, że o ile n P X i s K ε exp + ε s2 2σ 2, maxs, σ max X δ εσ 2. i 22
2.3 Nierówność Bennetta Szacowanie podane we Wniosku 2.8 jest, z uwagi na centralne twierdzenie graniczne, bliskie optymalnego dla s małych. Jednak dla s dużych można je poprawić o czynnik logarytmiczy. Lemat 2.2. Załóżmy, że X jest zmienną losową o średniej zero, wariancji σ 2 X i a. Wówczas Dowód. Liczymy Λ X t σ2 a 2 eta ta dla t 0. Ee tx t k EX k = + tex + + σ 2 t k a k 2 k! k! k=2 k=2 i teza wynika natychmiast z nierówności ln + x x. = + σ2 a 2 eta ta oraz Twierdzenie 2.3 nierówność Bennetta. Załóżmy, że X i są ograniczonymi niezależnymi zmiennymi losowymi o średniej zero, σ 2 = Var n X i = n EXi 2 oraz a max i X i. Wówczas dla t > 0, n σ 2 E exp t X i exp a 2 eta ta oraz dla s > 0, n P X i s exp gdzie σ2 sa a 2 h σ 2 exp s 2a ln hx := + x ln + x x. + sa Dowód. Pierwsza część wynika natychmiast z Lematu 2.2. By pokazać drugą zauważamy, że dla S = n X i, PS s exp sup st Λ S t exp sup st σ2 t>0 t>0 a 2 eta ta. Prosty rachunek pokazuje, że powyższe supremum jest osiągane w punkcie t = a ln + as σ 2 i wynosi σ 2 [ a 2 + sa σ 2 ln + sa σ 2 sa ] σ 2 = σ2 sa a 2 h σ 2 gdzie ostatnie oszacowanie wynika z poniższego lematu. 23 σ 2, s 2a ln + sa σ 2,
Lemat 2.4. Dla dowolnego x 0, + x ln + x x x ln + x. 2 Dowód. Niech fx = + x ln + x x x/2 ln + x = + x/2 ln + x x. Liczymy f x = ln + x x + x /2, f x = x + x 2, zatem f0 = f 0 = 0 oraz f x 0 dla x 0. Uwaga 2.5. Jeśli PY n,i = = PY n,i = 0 = /n oraz Y n,i są niezależne, to rozkład n Y i,n zbiega do rozkładu Poissona z parametrem. Biorąc X n,i = Y n,i /n mamy n EX 2 i,n oraz max i X i,n. To pokazuje, że przy założeniach Twierdzenia 2.3 nie można uzyskać przy s oszacowania lepszego rzędu niż s ln s. Uwaga 2.6. Nierówność Bennetta ma swoją wersję martyngałową. Mianowicie, dla martyngału M k, F k n k=0 spełniającego warunki i zachodzi nierówność max M k M k a k n EM k M k 2 F k σ 2, k= PM n M 0 s exp 3 Nierówności maksymalne σ2 sa a 2 h σ 2 exp s 2a ln + sa Przy dowodzeniu twierdzeń granicznych przydają się nierówności pozwalające szacować ogon maksimum sum zmiennych losowych przez ogony pojedynczych sum. Nierówności takie omówimy w bieżącym rozdziale. Będziemy zakładać, że F, jest ośrodkową przestrzenią Banacha, a X i są wektorami losowymi o wartościach w F. Tradycyjnie definiujemy n S n := X i. Uwaga 3.. Założenie ośrodkowości przestrzeni Banacha F ma charakter techniczny implikuje, że suma funkcji mierzalnych o wartościach w F jest mierzalna. Jeśli interesuje nas tylko zachowanie normy zmiennych losowych, to możemy zakładać słabszy warunek mianowicie, że norma w F da się przedstawić jako supremum przeliczalnej liczby funkcjonałów, wtedy norma sumy funkcji mierzalnych jest mierzalna. σ 2. 24
3. Nierówności Levy ego i Levy ego-ottavianiego Twierdzenie 3.2 Nierówność Levy ego. Załóżmy, że X i są niezależnymi symetrycznymi wektorami losowymi w F. Wówczas dla t 0, P max S k t 2P S n t. k n Dowód. Niech A k := { S < t,..., S k < t, S k t}, k n. Zauważmy, że dla dowolnych x, y F, zatem max{ x + y, x y } 2 x + y + x y x, 2 A k A k { S k + S n S k t} A k { S k S n S k t}. Łączny rozkład zmiennych S, S 2,..., S k, S n S k jest taki sam jak łączny rozkład zmiennych S, S 2,..., S k, S n S k, więc oba zbiory po prawej stronie powyższej inkluzji mają jednakowe prawdopodobieństwo, zatem PA k 2PA k { S n t}, czyli P max S k t = k n n PA k 2 k= n PA k { S n t} 2P S n t. k= Wniosek 3.3. Załóżmy, że zmienne X i są niezależne i symetryczne oraz a i. Wówczas n P a i X i t 2P S n t. Dowód. Możemy zakładać, że a a 2... a n 0, wówczas n n a i X i = a n S n + a k a k+ S k, stąd łatwo wynika, że n a i X i max k n S k i teza wniosku wynika z nierówności Levy ego. k= 25
Uwaga 3.4. Jeśli założenia Wniosku 3.3 są spełnione, to dla dowolnej funkcji wypukłej f : F R +, n n Ef a i X i Ef X i, w szczególności dla p, n p n p E a i X i E X i. Nie jest jednak prawdą, że nierówność z Wniosku 3.3 zachodzi ze stałą. Przejdźmy teraz do przypadku niesymetrycznego. Lemat 3.5. Dla dowolnych niezależnych zmiennych losowych X i oraz t, u 0, P max S P S n t k t + u k n max k n P S n S k u, 8 o ile P S n S k u < dla k n. Dowód. Zdefiniujmy A k := { S < t + u,..., S k < t + u, S k t + u}, k n. Zbiory A k są parami rozłączne oraz n { } A := A k = max S k t + u. k n k= Zauważmy, że S n S k S n S k, zatem wykorzystując założenie o niezależności, P S n S k < upa k = PA k { S n S k < u} PA k { S n t}. Otrzymujemy min P S n S k < upa k n n P S n S k < upa k k= n k= PA k { S n t} P S n t, co po podzieleniu stronami przez min k n P S n S k < u = max k n P S n S k u daje tezę lematu. Twierdzenie 3.6 Nierówność Levy ego-ottavianiego. Załóżmy, że X i są niezależnymi wektorami losowymi w F. Wówczas dla t 0, P max S k 3t 3 max P S k t. 9 k n k n 26
Dowód. Szacujemy zatem P S n S k 2t P S n t + P S k t 2 max k n P S k t, max P S n S k 2t 2 max P S k t. k n k n Oczywiście, by udowodnić 9 możemy założyć, że max k n P S k t < /3. Kładąc u = 2t w 8 dostajemy P max S k 3t k n P S n t max k n P S n S k 2t P S n t 2 max k n P S k t 3P S n t. Uwaga 3.7. Nierówność 9 można nieco polepszyć. Zbigniew Szewczak wykazał niedawno, że P max S k 3t 2 max P S k t. k n k n Dowód. Ustalmy t, u 0 i określmy dla k n, B k := { S n S n j < t + u dla j k, S n S n k t + u}. Wówczas zbiory B k są rozłączne oraz n { } { } B k = max S n S n k t + u = max S n S k t + u. k n 0 k<n k= Nierówność trójkąta implikuje, że { S n < t, S n S n k t + u} { S n k u}, ponadto zdarzenie B k jest niezależne od zmiennej S n k, stąd P max S n S k t + u, S n < t 0 k<n = n PB k { S n < t} k= n PB k { S n k u} = k= max k<n P S n k u n k= n PB k P S n k u k= PB k max k<n P S n k u. Powyższa nierówność oraz zawieranie { } { } max S k 2t + u { S n t} max S n S k t + u, S n < t k n 0 k<n 27
implikują P max S k 2t + u P S n t + max P S n k u. k n k<n Biorąc u = t dostajemy tezę. 3.2 Nierówności dla sum zmiennych o jednakowym rozkładzie W tym paragrafie będziemy dodatkowo zakładać, że Niezależne zmienne X i o wartościach w F mają jednakowy rozkład. 0 Dla wektora losowego X o wartościach w F i s > 0 określmy Lemat 3.8. Jeśli X i Y są niezależne, to Dowód. Dla dowolego x F dostajemy AX, t = inf P X x t. x F AX + Y, t AX, t dla t 0. P X + Y x t = E Y P X X x Y t E Y AX, t = AX, t. Lemat 3.9. Załóżmy, że zachodzi 0 oraz P S n t < /4. Wówczas max P S k 5t P S n t. k n Dowód. Ustalmy liczbę α taką, że /4 > α > P S n t. Wówczas oczywiście AS n, t < α, czyli na mocy Lematu 3.8, AS k, t < α dla k =,..., n. Możemy zatem wybrać x,..., x n F dla których P S k x k t < α, k =,..., n. Wybierzmy i n takie, że x i = max j n x j. Wiemy, że P S i x i t < α oraz P S n t < α, stąd P S n i + x i 2t = P S n S i x i 2t P S i x i t + P S n t < 2α. Rozpatrzymy trzy przypadki. Przypadek I. i = n i. Mamy P{ S i x i t} { S n i + x i 2t} < α + 2α <, 28
więc istnieje zdarzenie elementarne ω dla którego S i ω x i < t oraz S i ω + x i = S n i ω + x i < 2t. Na mocy nierówności trójkąta dostajemy 2x i 3t. Przypadek II. i > n i. Mamy Zatem P S 2i n 2x i 3t = P S i x i S i S 2i n + x i 3t P S i x i t + P S i S 2i n + x i 2t < α + P S n i + x i 2t < 3α. P{ S 2i n 2x i 3t} { S 2i n x 2i n t} < 4α <, czyli istnieje ω takie, że S 2i n ω 2x i < 3t oraz S 2i n ω x 2i n < t. Zatem x 2i n 2x i < 4t. Stąd x i x 2i n 2 x i 4t, czyli w tym przypadku x i 4t. Przypadek III. i < n i. Dostajemy P S n 2i + 2x i 3t = P S n i + x i S n i S n 2i x i 3t P S n i + x i 2t + P S n i S n 2i x i t < 2α + P S i x i t < 3α. Tak samo jak w poprzednim przypadku pokazujemy, że x n 2i + 2x i 4t oraz x i 4t. Udowodniliśmy zatem, że max j n x j 4t, stąd max P S k 5t max P S k x k t < α, k n k n co, z dowolności α P S n t, /4, dowodzi tezy. Twierdzenie 3.0 Montgomery-Smith. Przy założeniu 0, P max S k 6t 4P S n t dla t 0. k n Dowód. Oczywiście możemy zakładać, że P S n t < /4. Wówczas na mocy Lematu 3.9, max k n P S k 5t P S n t < /4. Z nierówności 8 z u = 5t, P max S P S n t k 6t k n max k n P S n S k 5t P S n t = max k n P S n k 5t 4 3 P S n t. Wniosek 3.. Załóżmy, że zachodzi 0 oraz 0 a i. Wówczas n P a i X i 6t 4P S n t dla t 0. Dowód. Możemy zakładać, że a a 2... a n i wtedy, tak jak we Wniosku 3.3, dostajemy n a i X i max k n S k i teza łatwo wynika z Twierdzenia 3.0. 29
4 Mocne prawa wielkich liczb W trakcie tego wykładu, jeśli nie powiemy inaczej, będziemy zakładali, że X, X, X 2,... są niezależnymi zmiennymi losowymi o wartościach w ośrodkowej przestrzeni Banacha F,. Tradycyjnie też S n = X +... + X n. 4. Prawo Wielkich Liczb Kołmogorowa Okazuje się, że przeniesienie tradycyjnego sformułowania mocnego prawa wielkich na przypadek przestrzeni Banacha jest łatwe. Dzieje się tak dzięki następującemu lematowi. Lemat 4.. Załóżmy, że X jest zmienną losową o wartościach w ośrodkowej przestrzeni Banacha F taką, że E X <. Wówczas dla dowolnego ε > 0 istnieje funkcja ϕ: F F, przyjmująca tylko skończenie wiele wartości, taka, że E X ϕx ε. Dowód pozostawiamy jako proste ćwiczenie. Twierdzenie 4.2. Jeśli E X <, to lim S n n = EX p.n.. Dowód. Na mocy klasycznego Prawa Wielkich Liczb twierdzenie zachodzi dla F = R, a więc również dla F = R k. Stąd łatwo pokazujemy tezę dla zmiennych przyjmujących wartości w pewnej skończenie wymiarowej podprzestrzeni F. Przejdźmy do dowodu twierdzenia w ogólnym przypadku. Oczywiście możemy zakładać, że EX = 0. Niech ε > 0 wówczas, na mocy Lematu 4., istnieją niezależne zmienne losowe o jednakowym rozkładzie Y i = ϕx i, przyjmujące tylko skończenie wiele wartości, spełniające E X i Y i ε. Niech T n := Y +... + Y n, wówczas lim sup S n n n X i Y i + lim sup n T n lim sup n EX + 2E X Y 2ε. Z dowolności ε > 0 dostajemy tezę. 4.2 Prawo Wielkich Liczb Marcinkiewicza-Zygmunda = EY + E X Y Okazuje się, że dla regularnych przestrzeni Banacha tradycyjne prawo wielkich liczb da się uogólnić. Zacznijmy od dwóch prostych lematów. Lemat 4.3. Jeśli E X p =, to lim sup S n n /p Dowód. Niech A := { ω : lim sup S n ω n /p = p.n.. } <. 30
Dla ω A, dostajemy X n ω S n ω + S n ω Cωn /p dla n i pewnego Cω <. Zatem A k= A k, gdzie A k := { X n kn /p dla n =, 2,...}. Jeśli PA k > 0, to Plim sup{ X n > kn /p } <, czyli na mocy Lematu Borela- Cantelliego, X > P X n > kn /p p = P k n= n= p Zatem PA k = 0 dla wszystkich k, czyli PA = 0. > n E X p k p. Lemat 4.4. Załóżmy, że ciąg normujący liczb dodatnich γ n n spełnia warunek Wówczas, jeśli to lim S n γ n = 0 p.n.. γ 2l Cγ k dla l < k 2l. P S 2 n εγ 2 n < dla wszystkich ε > 0, n= Dowód. Szacujemy dla ε > 0, S m P sup ε P sup S m ε m>2 k γ m n=k 2 n <m 2 n C γ 2 n 4P S 2 n ε 6C γ 2 n 0 przy k, n=k gdzie ostatnia nierówność wynika z Twierdzenia 3.0. Twierdzenie 4.5 Prawo wielkich liczb Marcinkiewicza-Zygmunda. Załóżmy, że F jest ośrodkową przestrzenią Hilberta oraz 0 < p < 2. Wówczas następujące warunki są równoważne. S i lim n = 0 p.n. n /p ii E X p < oraz jeśli p, to EX = 0. Dowód. ii i. Wpierw udowodnimy, że warunek ii implikuje [ ] lim n /p E X { X n /p } = 0. 3
Dla p, wobec EX = 0 szacujemy ] n /p E [X [ { X n /p } = n /p E X { X >n }] [ /p ] E X n /p p { X >n /p } [ ] E X p { X >n /p } 0 przy n, na mocy skończoności E X p. Dla 0 < p < dostajemy dla dowolnego m, [ ] ] [ ] n /p E X { X n /p } n /p E [ X { X m} + E X n /p p {m< X n /p } ] ] n /p E [ X { X m} + E [ X p { X >m} =: I + II. Składnik II można zrobić dowolnie małym dobierając odpowiednio duże m, zaś przy ustalonym m, składnik I dąży do zera przy n dążacym do nieskończoności. Czyli zostało wykazane. Na mocy Lematu 4.4, by wykazać i wystarczy, iż udowodnimy P S 2 n 2ε2 n/p < dla ε > 0. n Z wynika, że 2 n E[X { X 2 n/p } ] ε2n/p dla dużych n, więc wystarczy, iż udowodnimy, że [ S2 P n 2 n E X { X 2 }] ε2 n/p n/p <. Określmy wówczas P S2 n 2 n E Mamy oraz n S 2 n := 2 n X i { Xi 2 n/p }, [ X { X <2 n/p }] ε2 n/p P S 2 n S 2 n + P S 2 n E S 2 n ε2 n/p 2 n P X > 2 n/p + ε 2 2 2n/p E S 2 n E S 2 n 2. 2 n P X > 2 n/p = 2 n P X p > 2 n 2E X p < n= n= 2 2n/p E S 2 n E S [ ] 2 n 2 2 n 2/p E X 2 { X 2 n/p } n= n= [ ] = E X 2 n= 2 n 2/p { X p 2 n } C p E[ X 2 X p 2/p ] = C p E X p <. 32
i ii. Z Lematu 4.3, dostajemy E X p <. W szczególności, gdy p, to E X < i na mocy zwykłego Mocnego Prawa Wielkich Liczb albo udowodnionej już implikacji ii i z p = zastosowanej do S n nex, Sn n EX. Stąd EX = 0. Uwaga 4.6. Dla p 2 jeśli PX 0 > 0, to lim sup = p.n.. Istotnie, tak n /p jest na mocy Lematu 4.3, jeśli EX 2 =. W przypadku zaś, gdy EX 2 <, to implikacja łatwo wynika z centralnego twierdzenia granicznego. Uwaga 4.7. Dokładna analiza dowodu Twierdzenia 4.5 pokazuje, że implikacja i ii zachodzi dla dowolnych ośrodkowych przestrzeni Banacha F. Jedyną własnością F, którą potrzebujemy do dowodu implikacji ii i, jest nierówność n 2 n E Z i C E Z i 2 dla niezależnych, ograniczonych zmiennych losowych Z i o wartościach w F i średniej 0. Przestrzenie z taką własnością nazywamy przestrzeniami typu 2 należą do nich np. przestrzenie L p, 2 p <. 4.3 Przypadek niejednakowych rozkładów. W poprzednich twierdzeniach zakładaliśmy wspólny rozkład zmiennych X i. Jest wiele sformułowań mocnego prawa wielkich liczb, które nie zakładają tego warunku udowodnimy jedno z nich, sformułowane dla p = 2 przez Kołmogorowa, a dla p 2 przez Brunka. Twierdzenie 4.8 Mocne Prawo Wielkich Liczb Brunka. Załóżmy, że p 2 oraz X i są niezależnymi zmiennymi losowymi o średniej zero takimi, że E X i p <. ip/2+ Wówczas zachodzi mocne prawo wielkich liczb, tzn. S n /n 0 p.n.. Dowód. Niech X i będzie niezależną kopią ciągu X i oraz Y i = X i X i. Ponadto przez ε i oznaczmy niezależny od Y i ciąg Bernoulliego, tzn. ciąg niezależnych zmiennych losowych taki, że Pε i = ± = /2. Mamy n p n n p E X i E X i X i n p n p = E Y i = E Y E ε ε i Y i n p/2 n E Y C p Y i 2 C p E n p/2 Y i p 2 p C p n p/2 n E X i p, S n 33
gdzie kolejne nierówności wynikają z nierówności Jensena, nierówności Chinczyna, nierówności Höldera oraz oszacowania Y i p X i p + X i p = 2 X i p. Stąd, na mocy Twierdzenia 3.6, P max S k t k n gdzie C p = 2 p 3 p+ C p. Zatem S k P max k 2 l k ε j=l 3 max k n P S k t/3 3 max k n t/3 p E S k p C pt p n p/2 P n E X i p, S k max 2 j <k 2 j k ε j=l 2 j C p2 j ε p 2 j p/2 E X i p j=l = C p2/ε p E X i p j l : 2 j i 2 j p/2+ P max S k 2 j ε k 2 j C p ε p E X i p max{i, 2 l 0 przy l. } p/2+ Uwaga 4.9. Twierdzenie Brunka z tym samym dowodem zachodzi też dla przestrzeni Hilberta oraz ogólniej dla przestrzeni Banacha typu 2. 5 Prawo Iterowanego Logarytmu Podczas tego wykładu będziemy najczęściej zakładać, że X, X, X 2,... są niezależnymi zmiennymi losowymi o jednakowym rozkładzie o średniej zero i skończonej, niezerowej wariancji σ 2. Na mocy Centralnego Twierdzenia Granicznego n /2 S n zbiega wówczas według rozkładu do zmiennej gaussowskiej N 0, σ 2. Jednak, jak widzieliśmy w czasie poprzedniego wykładu, z prawdopodobieństwem jeden lim sup n /2 S n =. Można więc zapytać jak duże musi być a n by lim sup S n /a n < p.n.. 5. Przypadek jednowymiarowy Twierdzenie 5. Prawo Iterowanego Logarytmu Hartmana i Wintnera. Dla niezależnych zmiennych losowych o jednakowym rozkładzie ze średnią zero i wariancją σ 2 zachodzi lim sup S n 2n ln ln n = lim inf S n 2n ln ln n = σ p.n.. 34
Dowód twierdzenia podzielimy na szereg prostszych lematów. Dla uproszczenia notacji przyjmiemy γx := 2x ln lnx 0. Lemat 5.2. Dla dowolnego t > 0, P max S k t + σ 2n 2P S n t. k n Dowód. Z Lematu 3.5 dostajemy P max S k t + σ 2n k n Na mocy nierówności Czebyszewa, P S n S k σ 2n VarS n S k 2nσ 2 P S n t max k n P S n S k σ 2n. = n kσ2 2nσ 2 2. Lemat 5.3. Załóżmy, że dla β >, a > 0 zachodzi warunek P S β n aγβ n <. n= Wówczas lim sup S n 2n ln ln n aβ /2 p.n.. Dowód. Ustalmy c > aβ /2 i oszacujmy, S n S P sup n > c P max > c n>β m 2n ln ln n β k=m k <n β k 2n ln ln n P max S n > cγβ k. n β k=m k Zauważmy, że dla dostatecznie dużych k, cγβ k aγβ k + σ2β k /2, czyli na mocy Lematu 5.2, P max S n > cγβ k P max S n > aγβ k + σ 2β k n β k n β k Stąd, lim P m 2P S β k aγβ k. S n sup > c n>β m 2n ln ln n dla dowolnego c > aβ /2 i łatwo otrzymujemy tezę. 35 = 0
Lemat 5.4. Mamy lim sup S n 2n ln ln n 4 2σ p.n.. Dowód. Załóżmy najpierw, że zmienne X i są symetryczne i niech ε i będzie ciągiem Bernoulliego niezależnym od X i. Wówczas ciąg X i ma ten sam rozkład co ε i X i, zatem n P S n t = P ε i X i t. Z Wniosku 2.3 otrzymujemy dla t, α > 0, n P S n t P Xi 2 α + 2 exp t2. 2α Niech T n = n Xi 2. Na mocy Mocnego Prawa Wielkich Liczb T n/n σ 2 p.n., czyli również 2 n T 2 n+ T 2 n σ 2 p.n.. Zatem na mocy Lematu Borela-Cantelliego, 2 n > P2 n T 2 n+ T 2 n 2σ 2 = P Xi 2 2 n+ σ 2. Szacujemy, n= P S 2 n aγ2 n σ P P 2 n 2 n n= X 2 i 2 n+ σ 2 + 2 exp X 2 i 2 n+ σ 2 + 2n ln 2 a2 /2. a2 σ 2 2 n+ ln ln 2 n 2 n+2 σ 2 Stąd dla symetrycznych zmiennych losowych, P S 2 n 2γ2 n σ <. 2 n W przypadku gdy X i są dowolne oznaczmy przez X i niezależną kopię X i oraz niech S n := n X i. Na mocy nierówności Czebyszewa, P S n > 2nσ /2, więc z niezależności, P S n t 2P S n t, S n 2nσ 2P S n S n t 2nσ. Zatem dla dużych n, P S n 4γnσ 2P S n S n 2 2γnσ. Zauważmy, że S n S n = n Y i, gdzie Y i = X i X i są niezależnymi, symetrycznymi zmiennymi losowymi o jednakowym rozkładzie z wariancją 2σ 2, czyli na mocy 2, P S 2 n 4γ2 n σ 2 P S 2 n S 2 n 2γ2n σ Y <. n>n 0 n>n 0 Możemy więc stosować Lemat 5.3 z a = 4σ i β = 2. 36
Lemat 5.5. Jeśli zmienne X i są ograniczone, to lim sup S n 2n ln ln n σ p.n.. Dowód. Załóżmy, że X a, wówczas na mocy nierówności Bernsteina Wniosek 2.8, P S n t 2 exp t 2 2nσ 2 + 2at/3 Zatem dla β > i ε > 0 oraz dostatecznie duzych n, P S β n + εσγβ n + ε 2 σ 2 2β n ln ln β n 2 exp 2 β n σ 2 + 2a + εσ 2β n ln ln β n /3 2 exp + ε ln ln β n = 2n ln β +ε. Możemy więc stosować Lemat 5.3 z a = + εσ i dostajemy lim sup Z dowolności β > i ε > 0 wynika teza. S n 2n ln ln n + ε βσ p.n.. Wniosek 5.6. Dla dowolnych zmiennych o średniej 0 i wariancji σ 2,. lim sup S n 2n ln ln n σ p.n.. Dowód. Ustalmy M > 0 i rozłóżmy X i = Y i + Z i, gdzie Y i := X i { Xi M} EX i { Xi M}, Z i := X i { Xi >M} EX i { Xi >M}. Określmy T n := Y +... + Y n, R n := Z +... + Z n. Na mocy Lematów 5.4 i 5.5, lim sup S n 2n ln ln n lim sup T n 2n ln ln n + lim sup R n 2n ln ln n σ Y + 4 2σ Z p.n.. Mamy jednak σ 2 Y EX2 { X M} EX 2 = σ 2 oraz σ 2 Z EX2 { X >M} 0 przy M. Lemat 5.7. Załóżmy, że dla liczby naturalnej C > oraz a > 0 zachodzi Wówczas lim sup PS C n C n aγcn C n =. n S n 2n ln ln n a C /2 σc /2 p.n. 37
Dowód. Zdarzenia {S C n S C n aγc n C n }, n =, 2,... są niezależne, zatem na mocy Lematu Borela-Cantelliego, = Plim sup{s C n S C n aγc n C n S C n S } P lim sup C n γc n C n a. Stąd na podstawie Wniosku 5.6, lim sup S C n γc n lim sup lim sup S C n S C n γc n C n lim γc n C n γc n S C n γc n lim γc n γc n a C /2 σc /2 p.n.. Lemat 5.8. Jeśli zmienne X i są ograniczone, to lim sup S n 2n ln ln n σ p.n.. Dowód. Oszacujemy PS n +ε /2 γnσ stosując odwrotną nierówność wykładniczą Kołmogorowa Twierdzenie 2.0 z s = + ε /2 γnσ i nσ 2 zamiast σ 2. Zauważmy, że dla dużych n nε jego założenia są spełnione, bo oraz Zatem dla n nε, Zatem n s max X i X γnσ δεnσ 2 i s = + ε /2 γnσ Kε nσ. P S n + ε /2 γnσ exp + ε + ε γ 2 nσ 2 2nσ 2 = ln n. P S C n C n + ε /2 σγc n C n Czyli, na mocy Lematu 5.7, n nε lnc C n =. lim sup S n 2n ln ln n + ε /2 σ C /2 σc /2 p.n.. Biorąc C oraz ε 0+ dostajemy tezę. 38
Wniosek 5.9. Dla dowolnych zmiennych o średniej 0 i wariancji σ 2, lim sup S n 2n ln ln n σ p.n.. Dowód. Jak w dowodzie Wniosku 5.6 dla M > 0 rozkładamy X i = Y i +Z i oraz S n = R n +T n i szacujemy używając Lematu 5.8 w Wniosku 5.6, lim sup S n 2n ln ln n lim sup T n 2n ln ln n lim sup R n 2n ln ln n σ Y σ Z p.n.. By zakończyć dowód wystarczy zauważyć, że σ Y σ oraz σ Z 0 przy M. Dowód Twierdzenia 5... Wnioski 5.6 i 5.9 implikują lim sup S n 2n ln ln n = σ p.n.. Ponieważ S n = n X i, więc lim inf S n 2n ln ln n = lim sup S n 2n ln ln n = σ X = σ p.n.. Okazuje się, że jeśli spełnione jest prawo iterowanego logarytmu, to zmienna musi mieć średnią zero i skończoną wariancję. Twierdzenie 5.0. Załóżmy, że wówczas EX = 0 oraz EX 2 <. S n P lim sup < > 0, 2n ln ln n Dowód. Na mocy założeń istnieje M < takie, że S n P lim sup M > 0, 2n ln ln n ale na mocy prawa 0-, powyższe prawdopodobieństwo wynosi 0 lub. Stąd lim sup S n 2n ln ln n M p.n.. Załóżmy najpierw dodatkowo, że zmienne X i są symetryczne. Dla t > 0 zdefinujmy X t n := X n { Xn t} X n { Xn >t} 39
oraz S t n := n X t i. Zmienne Xt n mają ten sam rozkład co zmienne X n, zatem lim sup S t n 2n ln ln n M p.n., czyli lim sup S n + S t n 2n ln ln n 2M Ale S n + Sn t = n 2X i { Xi t}. Zmienne X i { Xi t} mają średnią zero i skończoną wariancję, więc na mocy Twierdzenia 5., p.n.. lim sup S n + S t n 2n ln ln n = Var2X { X t} /2 = 2EX 2 { X t} /2 p.n. Stąd EX 2 I { X t} 2M 2 i z dowolności t > 0 dostajemy EX 2 <. W przypadku, gdy rozkład X i nie jest symetryczny, niech X n będzie niezależną kopią X n, S n = n X i. Wówczas lim sup S n S n 2n ln ln n 2M p.n.. Mamy jednak S n S n = n X i X i, stąd na mocy rozważanego wcześniej przypadku, EX X 2 <, a więc również EX 2 <. By zakończyć dowód zauważmy, że na mocy mocnego prawa wielkich liczb S n EX = lim n = lim sup S n 2n ln ln n lim 2n ln ln n n = 0. 5.2 Zbiór graniczny S Okazuje się, że nie tylko jesteśmy w stanie podać granicę górną i dolną ciągu 2n n ln ln n, ale również określić zbiór wszystkich możliwych granic jego podciągów. Wprowadźmy najpierw definicję. Definicja 5.. Dla ciągu liczbowego lub ogólniej ciągu o wartościach w przestrzeni metrycznej a n przez Ca n oznaczamy zbiór wszystkich punktów skupienia ciągu a n, czyli x Ca n nk a nk x. Twierdzenie 5.2. Załóżmy, że EX = 0 oraz EX 2 = σ 2 <. Wówczas S i dist 2n n ln ln n, [ σ, σ] 0 p.n., S n ii C 2n ln ln n = [ σ, σ] p.n.. 40
Dowód opiera się na następującym prostym lemacie. Lemat 5.3. Załóżmy, że a n jest ciągiem liczbowym takim, że b = lim inf a n >, c = lim sup a n < oraz lim a n+ a n = 0. Wówczas i dista n, [b, c] 0, ii Ca n = [b, c]. Dowód. i Z definicji granicy dolnej i górnej wynika, że dla ε > 0 dla dostatecznie dużych n, b ε x n c + ε, co pociąga dista n, [b, c] < ε. ii Oczywiście {b, c} Ca n, ustalmy d b, c. Możemy skonstruować podciąg n k taki, że a n2k < d < a n2k. Zdefiniujmy m k := sup{n n 2k : a n d}, wówczas a mk d < a mk +, zatem d a mk a mk + a mk 0, czyli d Ca n. Dowód Twierdzenia 5.2.. Na mocy Lematu 5.3 oraz Twierdzenia 5. wystarczy wykazać, że Sn lim γn S n = 0 p.n., γn gdzie γn := 2n ln ln n. Zauważmy, że γn γn lim sup S n γn = σ < p.n., więc wystarczy udowodnić, że = oγn oraz Szacujemy, lim X n γn = 0 p.n.. P X n εγn = E { X εγn} E n n n E n { X ε 2n} {2n X 2 ε 2 } E X 2 2ε 2 <, zatem na podstawie Lematu Borela-Cantelliego, lim sup Xn γn ε p.n.. 5.3 Przypadek wektorowy W tej części będziemy rozważać Prawo Iterowanego Logarytmu dla wektorów losowych. Dla x R d przez x będziemy oznaczać euklidesową długość wektora x. Twierdzenie 5.4. Załóżmy, że X, X,... są niezależnymi wektorami losowymi o jednakowym rozkładzie o wartościach w R d. Jeśli EX = 0 oraz E X 2 <, to lim sup S n = supe X, t 2 /2 = sup Ct, t /2 2n ln ln n t t gdzie C oznacza macierz kowariancji X. 4 p.n.,