Projekt pn. Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki Statystyka i eksploracja danych Repetytorium z teorii prawdopodobieństwa Adam Jakubowski UMK Toruń 2011 Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Spis treści Wstęp 1 1 Charakterystyki zmiennych losowych 3 Słowniczek teorii prawdopodobieństwa................ 3 Rozkład i dystrybuanta zmiennej losowej................ 4 Wartość oczekiwana zmiennej losowej.................. 5 Charakterystyki liczbowe zmiennych losowych............ 6 Mediana i kwantyle.............................. 6 2 Klasyfikacja rozkładów na prostej 7 Rozkłady dyskretne.............................. 7 Rozkłady absolutnie ciągłe......................... 7 Przykłady.................................... 8 3 Rozkłady wielowymiarowe 11 Wektory losowe................................ 11 Rozkłady łączne a rozkłady brzegowe.................. 12 4 Niezależność stochastyczna 13 Niezależność................................... 13 Kryteria niezależności............................ 13 Niezależność zdarzeń............................. 14 Całka iloczynu niezależnych zmiennych losowych.......... 15 5 Charakterystyki wektorów losowych 17 Korelacja.................................... 17 Wartość oczekiwana i macierz kowariancji............... 18 i
ii Spis treści 6 Istnienie procesów stochastycznych 21 Schemat Bernoullego............................. 21 Funkcje Rademachera............................. 21 Rozwinięcia dwójkowe............................. 21 Idea ogólna................................... 22 7 Prawa wielkich liczb 23 Słabe prawo wielkich liczb Markowa................... 23 Mocne prawo wielkich liczb......................... 24 8 Centralne twierdzenie graniczne 25 Twierdzenie de Moivre a-laplace a.................... 25 Centralne twierdzenie graniczne..................... 25 9 O przestrzeniach Hilberta 27 Przestrzenie prehilbertowskie....................... 27 Twierdzenia o rzucie ortogonalnym................... 28 Literatura 31
Wstęp Suplement do wykładu Statystyka i eksploracja danych gromadzi podstawowe definicje i rezultaty z teorii prawdopodobieństwa, w zakresie niezbędnym do zrozumienia treści przekazywanych podczas wykładu. Materiał zawarty w Suplemencie będzie omawiany i ilustrowany przykładami rachunkowymi i liczbowymi oraz zadaniami podczas zajęć wyrównawczych prowadzonych równolegle do wykładu w semestrze zimowym. W trakcie egzaminu milcząco będę zakładał, że zdający ten materiał znają. Tylko w ten sposób będzie możliwe zrealizowanie bardziej ambitnego programu przedmiotu Statystyka i eksploracja danych. Adam Jakubowski 1
2 Wstęp
1. Charakterystyki zmiennych losowych Słowniczek teorii prawdopodobieństwa 1.1 Definicja Przestrzenią probabilistyczną nazywamy trójkę (Ω, F, P ), gdzie Ω jest zbiorem zdarzeń elementarnych (inaczej: elementy ω zbioru Ω nazywamy zdarzeniami elementarnymi). F jest σ-algebrą podzbiorów zbioru Ω. Elementy F nazywamy zdarzeniami. P : F [0, 1] jest prawdopodobieństwem na (Ω, F). 1.2 Uwaga Stwierdzenie F jest σ-algebrą oznacza, że: 1. F, Ω F. 2. Jeżeli A F, to również A c F. 3. Jeżeli A 1, A 2,... F, to j=1 A j F. 1.3 Uwaga Stwierdzenie P : F [0, 1] jest prawdopodobieństwem oznacza, że: 1. P (Ω) = 1. 2. Jeżeli A 1, A 2,..., są parami rozłączne, to P ( A j ) = P (A j ). j=1 j=1 (prawdopodobieństwo jest σ- addytywne). 1.4 Definicja Zmienną losową na przestrzeni probabilistycznej (Ω, F, P ) nazywamy funkcję X : Ω IR 1 o własności X 1 ((, u]) F, u IR 1. 3
4 1. Charakterystyki zmiennych losowych 1.5 Uwaga Będziemy używać równoważnych zapisów X 1 ((, u]) = {ω ; X(ω) (, u]} = {ω ; X(ω) u} = {X u}. 1.6 Uwaga Jeżeli X jest zmienną losową na (Ω, F, P ), to określone są prawdopodobieństwa P (X > u) = P ({ω ; X(ω) > u}), u IR 1, a także prawdopodobieństwa P (X u) = P ({ω ; X(ω) u}), u IR 1, Rozkład i dystrybuanta zmiennej losowej 1.7 Definicja Rozkładem zmiennej losowej X nazywamy prawdopodobieństwo P X na IR 1 zadane na odcinkach wzorem P X ((a, b]) := P (a < X b) = P ({ω ; X(ω) (a, b]}). 1.8 Uwaga P X ((a, b]) = P X ((, b]) P X ((, a]). 1.9 Definicja Dystrybuantą zmiennej losowej X nazywamy funkcję F X : IR 1 [0, 1] zadaną wzorem F X (x) = P (X x), x IR 1. 1.10 Uwaga Dystrybuanta zmiennej losowej jest w istocie funkcją rozkładu zmiennej losowej. Dlatego wystarczy badać tylko dystrybuanty rozkładów na IR 1. 1.11 Definicja Prawdopodobieństwa na IR 1 nazywamy rozkładami (lub rozkładami prawdopodobieństwa) na IR 1. 1.12 Definicja Dystrybuantą rozkładu (prawdopodobieństwa) µ na IR 1 nazywamy funkcję F µ : IR 1 [0, 1] zadaną wzorem F µ (x) = µ((, x]), x IR 1. 1.13 Uwaga Jeżeli µ jest rozkładem na IR 1, to fakt, że zmienna losowa X ma rozkład µ zapisujemy często w postaci X µ. 1.14 Twierdzenie Niech µ i ν będą rozkładami na IR 1. Jeżeli F µ = F ν, to µ = ν.
Wartość oczekiwana zmiennej losowej 5 1.15 Twierdzenie Niech µ będzie rozkładem na IR 1. Dystrybuanta F µ ma następujące własności: 1. F µ jest funkcją niemalejącą; 2. F µ jest prawostronnie ciągła; 3. lim x F µ (x) = 0, lim x + F µ (x) = 1. 1.16 Definicja Dystrybuantą nazywamy funkcję F : IR 1 [0, 1] spełniającą warunki 1.-3. z poprzedniego twierdzenia. 1.17 Twierdzenie Niech F będzie dystrybuantą. Istnieje dokładnie jeden rozkład µ na IR 1 taki, że F = F µ. Wartość oczekiwana zmiennej losowej 1.18 Definicja Wartością oczekiwaną nieujemnej zmiennej losowej X nazywamy całkę EX := + 0 P (X > u) du [0, + ]. 1.19 Uwaga Niech f będzie funkcją o wartościach rzeczywistych. Częścią dodatnią f + (ujemną f ) funkcji f nazywamy złożenie tej funkcji z funkcją h + (x) = 0 x (z funkcją h (x) = 0 ( x)). 1.20 Definicja Niech X będzie zmienna losową i niech EX + < + i EX < + (tzn. X jest całkowalna). Wartością oczekiwaną zmiennej losowej X nazywamy (całkę) EX := EX + EX (, + ). 1.21 Twierdzenie Wartość oczekiwana nieujemnych zmiennych losowych ma następujące własności. 1. Jeżeli 0 X Y, to EX EY. 2. Jeżeli X 0, to EX = 0 wtedy i tylko wtedy, gdy P (X > 0) = 0. 3. Jeżeli X, Y 0 i a, b IR +, to E(aX + by ) = aex + bey. 1.22 Twierdzenie Wartość oczekiwana całkowalnych zmiennych losowych ma następujące własności.
6 1. Charakterystyki zmiennych losowych 1. Jeżeli X jest całkowalna, to P ( X = + ) = 0. 2. Jeżeli X, Y są całkowalne i a, b IR 1, to całkowalna jest zmienna ax + by i ma miejsce równość E(aX + by ) = aex + bey. Charakterystyki liczbowe zmiennych losowych 1.23 Definicja Momentem absolutnym rzędu p > 0 zmiennej losowej X nazywamy liczbę m p = m p (X) = E X p. 1.24 Definicja Wariancją całkowalnej z kwadratem zmiennej losowej X nazywamy liczbę D 2 (X) = Var (X) := E(X EX) 2 = EX 2 (EX) 2. 1.25 Definicja Odchyleniem standardowym całkowalnej z kwadratem zmiennej losowej X nazywamy liczbę D(X) := Var (X) = E(X EX) 2. Mediana i kwantyle 1.26 Definicja Medianą zmiennej losowej X (właściwie: rozkładu zmiennej losowej) nazywamy taką liczbę x 1/2, że P (X x 1/2 ) 1/2, P (X x 1/2 ) 1/2. 1.27 Definicja Kwantylem rzędu p, p (0, 1), rozkładu zmiennej losowej X nazywamy taką liczbę x p, że P (X x p ) p, P (X x p ) 1 p. 1.28 Zadanie Przypuśćmy, że znamy dystrybuantę F X zmiennej losowej X. Jak znaleźć medianę i kwantyle tej zmiennej?
2. Klasyfikacja rozkładów na prostej Rozkłady dyskretne 2.1 Definicja Zmienna losowa X ma rozkład dyskretny, jeśli istnieją liczby x 1, x 2,... IR 1 i prawdopodobieństwa p 1, p 2,... 0, j=1 p j = 1, takie, że P (X = x j ) = p j, j = 1, 2,.... 2.2 Fakt Jeżeli X ma rozkład dyskretny, to dla dowolnej funkcji f : IR 1 IR 1 Ef(X) = f(x i )P (X = x i ) = f(x i )p i, i=1 i=1 przy czym całka istnieje dokładnie wtedy, gdy i=1 f(x i ) p i < +. 2.3 Fakt P X {x} = P (X = x) > 0 wtedy i tylko wtedy, gdy dystrybuanta F X ma skok w punkcie x i F X (x) F X (x ) = P (X = x). Dowód. Rozkłady absolutnie ciągłe 2.4 Definicja Zmienna losowa X ma rozkład absolutnie ciągły o gęstości p(x), jeśli dla każdych a < b P (a < X b) = b (Wtedy p(x) 0 l-prawie wszędzie i p(x) dx = 1). a p(x) dx. 2.5 Fakt Gęstość rozkładu absolutnie ciągłego jest wyznaczona jednoznacznie z dokładnością do równości l-prawie wszędzie. 2.6 Uwaga Można pokazać, że każda dystrybuanta F jest prawie wszędzie różniczkowalna i pochodna F (określona l-prawie wszędzie) spełnia warunek F (x) F (x) dx. (,x] 7
8 2. Klasyfikacja rozkładów na prostej Może się więc zdarzyć, że IR 1 F (x) dx < 1 (przykład!). Jeżeli IR 1 F (x) dx = 1, to rozkład odpowiadający dystrybuancie F jest absolutnie ciągły z gęstością p(x) = F (x). 2.7 Fakt Jeżeli X ma rozkład absolutnie ciągły o gęstości p(x), to dla dowolnej funkcji borelowskiej f : IR 1 IR 1 Ef(X) = + f(x)p(x) dx, przy czym całka istnieje dokładnie wtedy, gdy + f(x) p(x) dx < +. Przykłady 2.8 Przykłady rozkładów dyskretnych. 1. Rozkład zdegenerowany w punkcie C IR 1 albo miara delta Diraca δ C : 2. Rozkład 0 1 lub Bernoullego: 3. Rozkład dwumianowy: 4. Rozkład Poissona: P (X = k) = 5. Rozkład geometryczny: P (X = C) = 1. P (X = 1) = p = 1 P (X = 0). ( ) N p k (1 p) N k, k = 0, 1, 2,..., N. k P (X = k) = e λ λk, k = 0, 1, 2,.... k! P (X = k) = p(1 p) k 1, k = 1, 2,.... 2.9 Przykłady rozkładów absolutnie ciągłych. 1. Rozkład jednostajny na odcinku (a, b): p(x) = 1 b a I (a,b)(x).
Przykłady 9 2. Rozkład normalny N (m, σ 2 ) z parametrami m IR 1 i σ 2 > 0: p(x) = 1 2πσ e (x m)2 2σ 2. 3. Rozkład wykładniczy z parametrem λ > 0. p(x) = λe λx I (0,+ ) (x). 4. Rozkłady gamma z parametrami α, λ > 0: p(x) = αλ Γ(λ) xλ 1 e αx I (0,+ ) (x). 5. Rozkład χ 2 z n stopniami swobody (χ 2 n), to rozkład gamma z parametrami α = n/2, λ = 1/2. 2.10 Zadanie Pokazać, że jeśli X N (0, 1), to X 2 χ 2 1. 2.11 Zadanie Niech zmienna losowa X ma rozkład absolutnie ciągły o gęstości p(x). Jakie warunki musi spełniać funkcja f : IR 1 IR 1, aby zmienna losowa f(x) miała rozkład absolutnie ciągły? Znaleźć postać gęstości. 2.12 Zadanie Znaleźć wartości oczekiwane i wariancje rozkładów wymienionych w przykładach 2.8 i 2.9.
10 2. Klasyfikacja rozkładów na prostej
3. Rozkłady wielowymiarowe Wektory losowe 3.1 Definicja Wektorem losowym nazywamy odwzorowanie X = (X 1, X 2,..., X d ) T : (Ω, F, P ) IR d, którego składowe X 1, X 2,..., X d są zmiennymi losowymi. 3.2 Definicja Rozkład P X wektora losowego X, to prawdopodobieństwo na IR d zadane wzorem P X ((a 1, b 1 ] (a 2, b 2 ]... (a d, b d ]) = = P (a 1 < X 1 b 1, a 2 < X 2 b 2,..., a d < X d b d ). 3.3 Uwaga Podobnie jak w przypadku jednowymiarowym, znajomość rozkładu wektora losowego pozwala obliczać wartości oczekiwane funkcji od wektora losowego Ef( X). 3.4 Definicja 1. Wektor losowy X ma rozkład dyskretny, jeśli istnieją x 1, x 2,... IR d i prawdopodobieństwa p 1, p 2,... 0, j=1 p j = 1, takie, że P ( X = x j ) = p j, j = 1, 2,.... 2. Wektor losowy X ma rozkład absolutnie ciągły o gęstości p(x), jeśli dla każdego A postaci (a 1, b 1 ] (a 2, b 2 ]... (a d, b d ] P ( X A) = A p(x) dx. (Wtedy p(x) 0 l d -prawie wszędzie i p(x) dx = 1). 11
12 3. Rozkłady wielowymiarowe Rozkłady łączne a rozkłady brzegowe 3.5 Definicja Rozkład P X wektora losowego X = (X 1, X 2,..., X d ) T nazywamy rozkładem łącznym zmiennych losowych X 1, X 2,..., X d. Rozkłady (jednowymiarowe) P X1, P X2,..., P Xd składowych wektora losowego nazywamy rozkładami brzegowymi rozkładu P X. 3.6 Uwaga Na ogół rozkłady brzegowe nie determinują rozkładu łącznego, tzn. istnieje wiele rozkładów na IR d o tych samych rozkładach brzegowych (przykład!).
4. Niezależność stochastyczna Niezależność 4.1 Definicja Zmienne losowe X 1, X 2,..., X d są niezależne (lub stochastycznie niezależne), jeśli Ef 1 (X 1 )f 2 (X 2 ) f d (X d ) = Ef 1 (X 1 ) Ef 2 (X 2 ) Ef d (X d ). dla dowolnego układu f 1, f 2,..., f d funkcji ograniczonych na IR 1 i takich, że f 1 (X 1 ), f 2 (X 2 ),..., f d (X d ) są zmiennymi losowymi. Rodzina zmiennych losowych {X i } i II jest niezależna, jeśli każda jej skończona podrodzina składa się ze zmiennych losowych niezależnych. 4.2 Twierdzenie Niech X 1, X 2,..., X d będą zmiennymi losowymi określonymi na tej samej przestrzeni probabilistycznej (Ω, F, P ). Następujące warunki są równoważne: (i) Zmienne X 1, X 2,..., X d są niezależne. (ii) Dla dowolnych liczb x 1, x 2,..., x d ma miejsce równość P (X 1 x 1, X 2 x 2,..., X d x d ) = P (X 1 x 1 )P (X 2 x 2 ) P (X d x d ). Kryteria niezależności 4.3 Definicja Dystrybuantą wektora losowego X nazywamy funkcję IR d x = (x 1, x 2,..., x d ) T F X (x) = P (X 1 x 1, X 2 x 2,..., X d x d ). 4.4 Uwaga Na mocy warunku (ii) twierdzenia 4.2, zmienne losowe są niezależne dokładnie wtedy, gdy dystrybuanta ich rozkładu łącznego jest iloczynem dystrybuant rozkładów brzegowych. W dalszym ciągu nie będziemy jednak zajmować się dystrybuantami rozkładów na IR d, gdyż są one znacznie mniej wygodnym narzędziem niż dystrybuanty na IR 1. 13
14 4. Niezależność stochastyczna 4.5 Fakt Jeżeli zmienne losowe X 1, X 2,..., X d są niezależne, to dla (prawie) dowolnych funkcji g 1, g 2,..., g d, zmienne losowe też są niezależne. g 1 (X 1 ), g 2 (X 2 ),..., g d (X d ) 4.6 Twierdzenie Niech rozkłady zmiennych X 1, X 2,..., X d będą dyskretne. Zmienne losowe X 1, X 2,..., X d są niezależne dokładnie wtedy, gdy dla dowolnych x 1, x 2,..., x d IR 1 ma miejsce związek P (X 1 = x 1, X 2 = x 2,..., X d = x d ) = P (X 1 = x 1 )P (X 2 = x 2 ) P (X d = x d ). 4.7 Twierdzenie Niech rozkłady zmiennych X 1, X 2,..., X d będą absolutnie ciągłe z gęstościami p 1 (x), p 2 (x),..., p d (x). Zmienne losowe X 1, X 2,..., X d są niezależne dokładnie wtedy, gdy rozkład łączny tych zmiennych jest absolutnie ciągły i jego gęstość ma postać p X (x 1, x 2,..., x d ) = p 1 (x 1 )p 2 (x 2 ) p d (x d ). Niezależność zdarzeń 4.8 Definicja Rodzina zdarzeń {A i } i II jest niezależna, jeśli funkcje charakterystyczne {I Ai } i II tych zdarzeń są niezależne. 4.9 Twierdzenie Zdarzenia {A i } i II są niezależne dokładnie wtedy, gdy dla dowolnego skończonego podzbioru II 0 II ( ) P A i = Π i II0 P (A i ). i II 0 4.10 Definicja Zmienne losowe {X i } i II są niezależne parami, jeśli dla każdych i, j II, i j, zmienne X i i X j są niezależne. Podobnie, zdarzenia {A i } i II sa niezależne parami, jeśli każde dwa zdarzenia A i i A j, i j są niezależne. 4.11 Zadanie Podać przykład zdarzeń niezależnych parami, ale zależnych zespołowo (np. przykład Bernsteina).
Całka iloczynu niezależnych zmiennych losowych 15 Całka iloczynu niezależnych zmiennych losowych 4.12 Twierdzenie (O mnożeniu wartości oczekiwanych) Jeżeli zmienne losowe X i Y są niezależne i całkowalne, to iloczyn XY jest całkowalną zmienną losową i Dowód. EXY = EX EY. 4.13 Uwaga Bez założenia o niezależności warunek dostateczny dla całkowalności iloczynu XY odwołuje się do tzw. nierówności Höldera. 4.14 Wniosek Niech X 1, X 2,..., X d będą niezależne. Jeżeli funkcje f i sa takie, że E f i (X i ) < +, i = 1, 2,..., d, to Ef 1 (X 1 )f 2 (X 2 ) f d (X d ) = Ef 1 (X 1 ) Ef 2 (X 2 ) Ef d (X d ).
16 4. Niezależność stochastyczna
5. Charakterystyki wektorów losowych Korelacja 5.1 Definicja Kowariancją zmiennych losowych X i Y nazywamy liczbę cov (X, Y ) := E(X EX)(Y EY ) = EXY EX EY. 5.2 Definicja Zmienne losowe X i Y są nieskorelowane, jeśli cov (X, Y ) = 0. 5.3 Uwaga Kowariancja istnieje, jeśli X i Y są całkowalne z kwadratem. Jeżeli X i Y są całkowalne i niezależne, to kowariancja istnieje i jest równa 0. Niezależne i całkowalne zmienne losowe są więc nieskorelowane. Istnieją jednak nieskorelowane zmienne losowe, które są zależne (przykład!). 5.4 Fakt Niech całkowalne z kwadratem zmienne losowe X 1, X 2,..., X n będą nieskorelowane. Wówczas Var (X 1 + X 2 + + X n ) = Var (X 1 ) + Var (X 2 ) + + Var (X n ). W szczególności, powyższy wzór ma miejsce dla całkowalnych z kwadratem, parami niezależnych zmiennych losowych. 5.5 Definicja Współczynnikiem korelacji całkowalnych z kwadratem zmiennych losowych X i y nazywamy liczbę cov (X, Y ) jeśli D(X) D(Y ) 0, r(x, Y ) = D(X)D(Y ) 1 jeśli D(X) D(Y ) = 0. Niektórzy autorzy oznaczają współczynnik korelacji symbolem ρ(x, Y ). 17
18 5. Charakterystyki wektorów losowych 5.6 Fakt 1. 1 r(x, Y ) 1. 2. r(x, Y ) = 0 wtedy i tylko wtedy, gdy X i Y są nieskorelowane. 3. r(x, Y ) = 1 wtedy i tylko wtedy, gdy istnieją stałe α, β IR 1 takie, że X = βy +α lub Y = βx + α. Wartość oczekiwana i macierz kowariancji 5.7 Definicja Niech X = (X 1, X 2,..., X d ) T będzie wektorem losowym. 1. Niech każda składowa wektora X będzie całkowalna (równoważnie: E X < + ). Wartością oczekiwaną wektora X nazywamy wektor wartości oczekiwanych jego składowych: E X = (EX 1, EX 2,..., EX d ) T. 2. Niech każda składowa wektora X będzie całkowalna z kwadratem (równoważnie: E X 2, + ). Macierzą kowariancji wektora X nazywamy macierz o współczynnikach σ jk = cov (X j, X k ). Macierz kowariancji oznaczać będziemy symbolem Cov ( X). Ten sam symbol używany będzie również dla oznaczenia operatora kowariancji zadawanego w oczywisty sposób przez macierz kowariancji. W napisie x, Cov ( X)y mamy więc do czynienia z operatorem kowariancji, a w napisie x T Cov ( X)y z macierzą kowariancji. 3. Wariancją wektora X nazywamy liczbę Var ( X) := E X EX d 2 = Var (X j ). j=1 5.8 Twierdzenie Niech E X < +. Wartość oczekiwana wektora X to jedyny wektor m IR d taki, że E x, X = x, m, x IR d. 5.9 Twierdzenie Niech E X 2 < +. Macierz kowariancji wektora X jest jedyną symetryczną macierzą Σ wymiaru d d wyznaczoną przez formę kwadratową E x, X E X 2 = Var ( x, X ) = x, Σ x, x IR d.
Wartość oczekiwana i macierz kowariancji 19 Cov ( X) jest więc jedyną macierzą Σ spełniającą związek E x, X E X y, X E X = cov ( x, X, y, X ) = x, Σ y, x, y IR d. 5.10 Twierdzenie Macierz kowariancji wektora losowego X jest symetryczna i nieujemnie określona. Na odwrót, dla dowolnej symetrycznej i nieujemnie określonej macierzy Σ rozmiaru d d istnieje d-wymiarowy wektor losowy X taki, że Cov ( X) = Σ.
20 5. Charakterystyki wektorów losowych
6. Istnienie procesów stochastycznych Schemat Bernoullego 6.1 Definicja Schematem Bernoullego z prawdopodobieństwem sukcesu p (0, 1) nazywamy ciąg X 1, X 2,... niezależnych zmiennych losowych o jednakowym rozkładzie P (X n = 1) = p = 1 P (X n = 0). Łatwo jest skonstruować skończony schemat Bernoullego (nie wykraczając poza dyskretne przestrzenie probabilistyczne). Nie jest jednak oczywiste, czy istnieją nieskończone schematy Bernoullego. Oto dwa klasyczne przykłady dające twierdzącą odpowiedź na to pytanie. Funkcje Rademachera 6.2 Przykład Niech Niech Ω = [0, 1], F = B 1 [0, 1] i niech P będzie miarą Lebesgue a l obciętą do [0, 1] (tzw. standardowa przestrzeń probabilistyczna). Funkcje Rademachera określamy wzorem: r n (ω) = sign (sin 2πnω), n = 1, 2,.... Są one niezależne (jak to sprawdzić?). Wzór X n (ω) = 1 2 (r n(ω) + 1) zadaje schemat Bernoullego z prawdopodobieństwem sukcesu p = 1/2. Rozwinięcia dwójkowe 6.3 Przykład Niech (Ω, F, P ) będą jak wyżej. Dla ω [0, 1] niech X n (ω) będzie n-tą cyfrą rozwinięcia dwójkowego liczby ω: ω = X n (ω)2 n. n=1 Dla poprawności definicji przyjmujemy dodatkowo umowę, że liczby dwójkowowymierne zapisujemy z użyciem nieskończonej liczby jedynek, czyli n=1 X n (ω) = dla wszystkich ω prócz 0. 21
22 6. Istnienie procesów stochastycznych Idea ogólna 6.4 Twierdzenie (Kołmogorowa o istnieniu procesu stochastycznego) Niech dla każdego n IN ν n będzie rozkładem na IR n. Jeżeli rozkłady ν n są zgodne, tzn. ν n+1 (Π n+1 n ) 1 = ν n, n IN, (gdzie Π n+1 n : IR n+1 IR n jest naturalnym rzutem na pierwszych n współrzędnych), to istnieje przestrzeń probabilistyczna (Ω, F, P ) oraz zmienne losowe X 1, X 2,..., określone na tej przestrzeni i takie, że dla każdego n IN P (X1,X 2,...,X n) = ν n. 6.5 Wniosek Dla każdego ciągu {µ j } j IN rozkładów na IR 1 istnieje ciąg niezależnych zmiennych losowych X 1, X 2,..., takich że rozkład X j jest równy µ j (X j µ j ).
7. Prawa wielkich liczb Słabe prawo wielkich liczb Markowa 7.1 Definicja Mówimy,że ciąg zmiennych losowych X 1, X 2,... spełnia słabe prawo wielkich liczb, jeśli istnieje stała C taka, że według prawdopodobieństwa X 1 + X 2 + + X n n P C, gdy n +. Stwierdzenie według prawdopodobieństwa oznacza, że dla każdego ε > 0 ( ) X 1 + X 2 + + X n P C n > ε 0, gdy n +. Mocne prawo wielkich liczb jest spełnione, jeśli dla pewnej stałej C X 1 + X 2 + + X n n C, Stwierdzenie P -prawie na pewno oznacza, że P P prawie na pewno. { ω ; X } 1(ω) + X 2 (ω) + + X n (ω) C = 1. n 7.2 Twierdzenie (Słabe prawo wielkich liczb Markowa) Niech X 1, X 2,... będzie ciągiem nieskorelowanych zmiennych losowych o wspólnie ograniczonych wariancjach: sup D 2 (X k ) M < +. k Wówczas (X 1 EX 1 ) + (X 2 EX 2 ) +... (X n EX n ) n P 0. 7.3 Wniosek (Słabe prawo wielkich liczb - Jakub Bernoulli, 1713) Niech X 1, X 2,... będzie schematem Bernoullego z prawdopodobieństwem sukcesu p. Wówczas X 1 + X 2 + + X n n P p, gdy n +. 23
24 7. Prawa wielkich liczb 7.4 Wniosek Wielomiany Bernsteina ciągłej funkcji f : [0, 1] IR 1, określone wzorem w n (x) = jednostajnie zbiegają do f. ( ) n n f( k n ) x k (1 x) n k, k k=0 Mocne prawo wielkich liczb 7.5 Twierdzenie (Mocne prawo wielkich liczb dla schematu Bernoullego) Niech X 1, X 2,... będzie schematem Bernoullego z prawdopodobieństwem sukcesu p. Wówczas P -prawie wszędzie X 1 + X 2 + + X n n p, gdy n +. 7.6 Zadanie Wyjaśnić związek mocnego prawa wielkich liczb dla schematu Bernoullego z interpretacją częstościową prawdopodobieństwa. 7.7 Twierdzenie (Mocne prawo wielkich liczb, Chińczyn, Kołmogorow, Etemadi) Niech X 1, X 2,... będzie ciągiem parami niezależnych zmiennych losowych o jednakowych rozkładach. Jeżeli E X 1 < +, to P -prawie wszędzie Na odwrót, jeśli X 1 + X 2 + + X n n EX 1. P ( lim sup n X 1 + X 2 + + X n n < + ) > 0, to E X 1 < + i średnie są zbieżne prawie wszędzie do EX 1. 7.8 Zadanie Czy średnia z pomiarów jest lepszym przybliżeniem mierzonej wielkości od pojedynczego pomiaru?
8. Centralne twierdzenie graniczne Twierdzenie de Moivre a-laplace a 8.1 Twierdzenie (de Moivre-Laplace) Nich X 1, X 2,..., będzie schematem Bernoullego z prawdopodobieństwem sukcesu p (0, 1). Wówczas dla dowolnych a < b, gdy n +, ( P a < X ) 1 + X 2 + + X n np < b 1 b e (1/2)u2 du. np(1 p) 2π 8.2 Uwaga Teza powyższego twierdzenia oznacza, że liczba sukcesów S n w schemacie Bernoullego scentrowana przez np = ES n i unormowana przez np(1 p = Var (S n ) zmierza według rozkładu do standardowego rozkładu normalnego. Centralne twierdzenie graniczne 8.3 Twierdzenie (P. L evy) Niech X 1, X 2,..., będzie ciągiem niezależnych zmiennych losowych o jednakowych rozkładach i skończonej i niezerowej wariancji: 0 < Var (X k ) < +. Wówczas dla dowolnych a < b, gdy n +, ( P a < X ) 1 + X 2 + + X n nex 1 < b 1 b e (1/2)u2 du. nvar (X1 ) 2π a a 25
26 8. Centralne twierdzenie graniczne
9. O przestrzeniach Hilberta Przestrzenie prehilbertowskie 9.1 Definicja Niech E będzie przestrzenią liniową. Formę, : E E IR 1 (lub C) nazywamy iloczynem skalarnym, jeśli spełnione są następujące warunki: IS1) x + y, z = x, z + y, z, x, y, z E. IS2) αx, z = α x, z, α IR 1 (C), x, z E. IS3) y, x = x, y, x, y E. IS4) x, x 0, x E, oraz x, x = 0 dokładnie wtedy, gdy x = 0. 9.2 Definicja Przestrzenią prehilbertowską nazywamy przestrzeń liniową z iloczynem skalarnym,. 9.3 Fakt W przestrzeni prehilbertowskiej E mają miejsce następujące związki: 1. Wzór x = x, x zadaje normę na E, tzn. spełnione są związki x + y x + y ; αx = α x ; Jeśli x = 0, to x = 0. 2. Zachodzi tożsamość równoległoboku: 3. Zachodzi nierówność Schwartza: x + y 2 + x y 2 = 2( x 2 + y 2 ), x, y E. x, y x y, x, y E. 27
28 9. O przestrzeniach Hilberta 4. Zachodzą wzory polaryzacyjne: x, y E, x, y = 1 ( x + y 2 x y 2), nad IR 1, 4 x, y = 1 ( x + y 2 x y 2 + i x + iy 2 i x iy 2), nad C. 4 9.4 Wniosek Z nierówności Schwartza wynika, że iloczyn skalarny jest ciągłą funkcją obu argumentów. 9.5 Definicja Niech x, y E. Kąt θ, θ [0, π) miedzy wektorami określony jest dla x, y 0 wzorem x, y cos θ = x y, a jeśli x = 0 lub y = 0, to z definicji θ = 0. Mówimy, że wektory x i y są ortogonalne, jeśli x, y = 0 (czyli θ = 0). 9.6 Twierdzenie (Pitagorasa) Jeżeli wektory x 1, x 2,..., x n E są parami ortogonalne (tzn. x i, x j = 0 dla i j), to x 1 + x 2 +... + x n 2 = x 1 2 + x 2 2 +... + x n 2. 9.7 Uwaga W przypadku przestrzeni nad IR 1 x 1 + x 2 2 = x 1 2 + x 2 2 pociąga ortogonalność: x, y = 0. W przypadku przestrzeni nad C tak nie jest (przykład?). Twierdzenia o rzucie ortogonalnym 9.8 Definicja Przestrzeń prehilbertowską H nazywamy przestrzenią Hilberta, jeśli jest zupełna w metryce d(x, y) = x y = x y, x y. 9.9 Twierdzenie (O rzucie na zbiór wypukły) Niech H będzie przestrzenią Hilberta, a C H niech będzie jej podzbiorem wypukłym i domkniętym. Dla każdego x H istnieje dokładnie jeden wektor x C C taki, że x x C = inf x u =: d(x, C). u C 9.10 Twierdzenie (O rzucie na podprzestrzeń domkniętą) Niech V będzie domkniętą podprzestrzenią przestrzeni Hilberta H. Dla każdego x H istnieje dokładnie jeden wektor x V V taki, że x x V = d(x, V).
Twierdzenia o rzucie ortogonalnym 29 i Wektor x V jest jedynym wektorem z spełniającym jednocześnie dwa warunki: z V x z, u = 0, u V. 9.11 Definicja Niech V H będzie podprzestrzenią domkniętą. Odwzorowanie x x V nazywamy rzutem ortogonalnym na V i oznaczamy Π V. 9.12 Fakt Rzut ortogonalny Π V jest odwzorowaniem liniowym. 9.13 Twierdzenie (O rozkładzie ortogonalnym) Niech V będzie domkniętą podprzestrzenią przestrzeni Hilberta H. Dla każdego x H istnieje dokładnie jeden rozkład gdzie x V i x V. x = x + x, 9.14 Uwaga Symbolicznie powyższy rozkład zapisujemy w sposób następujący: H = V V, gdzie V = {y H ; y, u = 0, u V}.
30 9. O przestrzeniach Hilberta
Literatura 1. A.A. Borowkow, Rachunek prawdopodobieństwa, PWN, Warszawa 1975. 2. J. Jakubowski i R. Sztencel, Wstęp do teorii prawdopodobieństwa, Wyd. II, Script, Warszawa 2001, www.script.com.pl 31