Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe Nierówność Czebyszewa Niech X będzie zmienną losową o skończonej wariancji V ar(x). Wtedy wartość oczekiwana E(X) też jest skończona i dla każdego t > 0 zachodzi nierówność: Równoważnie: P ( X E(X) > t) V ar(x) t 2. P ( X E(X) t) V ar(x) t 2. Zastosowanie nierówności Czebyszewa Chcemy wykonać 0 000 rzutów symetryczną moneta. Jakie jest prawdopodobieństwo tego, że liczba uzyskanych orłów będzie zawarta w przedziale: [4000, 6000]? [40, 50]? [4900, 500]? [49, 5]? Rozwiązanie Liczba orłów w 0 000 rzutów ma rozkład Bernoulliego z parametrami p = 2 Stąd oraz n = 0 000. Zatem,00000000000000 ( ) ( ) 0 000 0 000 P (S 0 000 = k) = = p k. k 2 P (4000 S 0 000 6000) = 6000 k=4000 (4 zer) wynik programu Mathematica p k = W przypadku przedziału [40, 50] wynik taki sam. W przypadku przedziału [4900, 500] 0,95557420095392. W przypadku przedziału [49, ] 0,687479048932. W przypadku przedziału [48, 5] 0,99738926209332. A gdy nie mamy komputera? Zastosujemy nierówność Czebyszewa dla E(S n ) = np = 00, V ar(s n ) = np( p) = 20. P (4000 S 0 000 6000) = = P ( S 0 000 00 000) 20 000 2 = 25 = 0, 9975. 0000
P (40 S 0 000 50) = = P ( S 0 000 00 0) 20 0 2 = = 0, 99. 00 P (4900 S 0 000 500) = = P ( S 0 000 00 00) 20 00 2 = = 0, 75. 4 Czy to przypadek? Powróćmy do obliczeń dokładnych: dla odchylenia liczby orłów od średniej 00: o ± dostaliśmy prawdopodobieństwo 0,687479048932; o ±00 dostaliśmy prawdopodobieństwo 0,95557420095392; o ± dostaliśmy prawdopodobieństwo 0,99738926209332. Podobne liczby już spotkaliśmy. Kiedy? Tutaj mamy σ = 20 =. Deska Galtona Przy doświadczeniu z deską Galtona Słupki wskazujące częstości kul w kolejnych przegródkach układały się w kształcie krzywej Gaussa. Tak jest nie tylko dla monety z p = 2, ale ogólnie w przypadku schematu Bernoulliego (po odpowiednim unormowaniu). Odkryto to w XVIII wieku. Twierdzenie de Moivre a Laplace a Jeżeli S n oznacza liczbę sukcesów w schemacie Bernoulliego z parametrami n oraz p (0, ), to dla dowolnych a < b mamy lim P n ( a < S ) n np b < b = e x2 2 dx = Φ(b) Φ(a). np( p) a 2π Zastosowanie do zadania. W zadaniu mieliśmy n = 0 000, p = 2, skąd E(S 0 000) = 00 i np( p) =. Zatem twierdzenie de Moivre a Laplace a mówi, że P (4000 S 0 000 6000) = ( 4000 00 = P S ) 0 000 00 6000 00 ( P ( 20 Z 20) = Podobnie P (4900 S 0 000 500) = ( 4900 00 = P S ) 0 000 00 500 00 ( P ( 2 Z 2) = 0, 95... 2
P (49 S 0 000 ) = ( 49 00 = P S ) 0 000 00 00 ( P ( Z ) = 0, 68... Kiedy wolno stosować twierdzenie de Moivre a Laplace a? Zauważmy, że równość mamy dopiero w granicy! Okazuje się jednak, że zbieżność jest zwykle tak szybka, iż dla n > 30 mamy całkiem niezłe przybliżenia. Centralne Twierdzenie Graniczne Jeżeli X, X 2,..., X n,... są niezależnymi zmiennymi losowymi o jednakowym rozkładzie, o średniej E(X ) i wariancji σ 2 to dla dowolnych a < b mamy Co znaczy w praktyce CTG? ( lim P a < X +... + X n ne(x ) n σ n b a 2π e x2 2 dx = Φ(b) Φ(a). ) < b = CTG mówi, że gdy dodajemy dużo niezależnych zmiennych o jednakowym rozkładzie, to odpowiednio unormowana suma ma w przybliżeniu rozkład normalny. Twierdzenie wyjaśna więc, dlaczego rozkład normalny jest tak powszechny (jest normalny ). Na przykład, na błąd pomiaru wpływ ma wiele niezleżnych czynników, które się sumują. Na wzrost człowieka też. A na wagę człowieka? Wektor losowy Załóżmy, że dane są dwie zmienne losowe X i Y oraz ich łączny rozkład, to znaczy opisane są wartości obu zmiennych i prawdopodobieństwa z jakimi te wartości są przyjmowane: po wszystkich możliwych x i, y j oraz i, j P (X = x i, Y = y j ) = p ij Wektor losowy Takie zmienne możemy zapisać w postaci wektora o dwóch współrzędnych (X, Y ): P ((X, Y ) = (x i, y j )) = p ij. Wektor losowy Gdy wektor (X, Y ) przyjmuje tylko skończenie wiele wartości, to jego rozkład wygodnie jest przedstawić za pomocą tabelki: Y \ X 0 2 3
Jakie liczby mogą pojawić się w pustych miejscach tabelki? Wektor losowy Załóżmy, że dany jest wektor (X, Y ) i jego rozkład Y \ X 0 2 0, 2 0, 0, 0, 0, 3 0, 2 Jakie wartości przyjmuje X, a jakie Y? Z jakimi prawdopodobieństwami? Zadanie: Opisać rozkłady zmiennych X i Y. Rozwiązanie Y \ X 0 2 0, 2 0, 0, 0, 0, 3 0, 2 Rozkład zmiennej X możemy przedstawić w tabelce: x i 0 2 p i 0, 3 0, 4 0, 3 Rozkłady brzegowe Rozkład pojedynczej zmiennej X (lub Y ) nazywamy rozkładem brzegowym wektora (X, Y ). W rozważanym zadaniu mamy Dla zmiennej X: Dla zmiennej Y : x i 0 2 p i 0, 3 0, 4 0, 3 y j p j 0, 4 0, 6 Obliczenia dla rozkładów brzegowych Znając rozkłady brzegowe wektora (X, Y ), to znaczy rozkłady zmiennych X oraz Y, możemy obliczyć ich: wartości oczekiwane, wariancje, inne parametry. Ponieważ x i 0 2 p i 0, 3 0, 4 0, 3, więc E(X) = 0 0, 3 + 0, 4 + 2 0, 3 =, V ar(x) = (0 ) 2 0, 3 + ( ) 2 0, 4 + (2 ) 2 0, 3 = 0, 3 + 0, 3 = 0, 6. Podobnie liczymy E(Y ) =... oraz V ar(y ) =... Rozkład sumy X + Y Gdy dany jest rozkład łączny (X, Y ), to możemy łatwo obliczyć rozkłady 4
sumy X + Y, różnicy X Y, iloczynu XY, ilorazu X/Y (o ile mianownik nie zeruje się). W naszym przykładzie X + Y przyjmuje wartości, 0,, 2, 3 z prawdopodobieństwami... Niezależność zmiennych Znając rozkład wektora (X, Y ) czyli rozkład łączny pary X, Y, możemy badać niezależność zmiennych X i Y. Czy zmienne, opisane w tabelce są niezależne? Jak łatwo poznać z tabelki, czy zmienne są niezależne? Czy X i Y są niezależne? Przypomnijmy definicję niezależności zmiennych o rozkładach dyskretnych: X i Y są niezależne, gdy dla wszystkich możliwych wartości x i, y j, jakie te zmienne przyjmują zachodzi równość Czy nasze zmienne X, Y mają tę własność? P (X = x i, Y = y j ) = P (X = x i ) P (Y = y j ). Sprawdźmy: P ((X, Y ) = (0, )) = 0, 2 P (X = 0) P (Y = ) = 0, 3 0, 4 = 0, 2. Te zmienne są zależne! Niezależność zmiennych zadanych tabelką Zmienne X i Y są niezależne, gdy rozkład łączny jest produktem rozkładów brzegowych, to znaczy prawdopodobieństwa w tabelce są iloczynami odpowiednich prawdopodobieństw brzegowych. Jakie liczby należy wpisać w tabelkę, aby dla X i Y o zadanych rozkładach brzegowych zmienne te były niezależne? Rozkład wektora losowego (X, Y, Z) W przypadku wektorów o większej liczbie współrzędnych wszystkie rachunki są analogiczne, ale dłuższe. A rozkład wektora (X, Y, Z) powinien być zadany tabelką trójwymiarową. Kowariancja Miarą zależności zmiennych jest ich kowariancja Wiemy już, jak obliczyć E(X) i E(Y ). cov(x, Y ) = E(XY ) E(X)E(Y ). Znając rozkład wektora (X, Y ) (czyli wartości w tabelce), możemy obliczyć E(XY ): 5
E(XY ) = i,j x i y j p ij. W naszym zadaniu E(XY ) = = 0 + ( ) 0, + 2 ( ) 0, + 0 + 0, 3 + 2 0, 2 = 0, 4, skąd cov(x, Y ) = 0, 4 0, 2 = 0, 2. Współczynnik korelacji Ponieważ kowariancja może być bardzo duża, więc normuje się ją, dzieląc przez pierwiastek z iloczynu wariancji: W naszym zadaniu ρ XY = cov(x, Y ) E(XY ) E(X)E(Y ) =. V ar(x)v ar(y ) V ar(x)v ar(y ) ρ XY =... Współczynnik korelacji jest zawarty pomiędzy i : ρ xy. Gdy ρ XY = ±, to zmienne są bardzo silnie zależne: albo Y = ax + b albo X = AY + B. Gdy zmienne X i Y są niezależne, to cov(x, Y ) = 0, ale nie na odwrót! 6