Wykład 4 Rozkłady i ich dystrybuanty Dwa typy zmiennych losowych Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x, x 2,...}, to mówimy, że jest to zmienna dyskretna. Jeśli wszystkich wartości zmiennej NIE MOŻNA wypisać w postaci ciągu, to mówimy, że jest to zmienna ciągła. Tak jest zawsze, gdy zbiór wartości zawiera jakiś przedział (a, b). Rozkład zmiennej losowej dyskretnej Rozkład takiej zmiennej to opis jej możliwych wartości i prawdopodobieństw, z jakimi te wartości zmienna przyjmuje. X = wynik rzutu symetryczną kostką Wartości, jakie może przyjąć X to, 2, 3, 4, 5 i. Prawdopodobieństwo każdej z tych wartości jest równe. Wygodnie jest podać ten rozkład w tabelce: x k 2 3 4 5 p k Wartość średnia zmiennej losowej Jeżeli P (X = x k ) = p k, k = 0,, 2, 3,..., to wartość średnia (wartość oczekiwana) zmiennej X E(X) = k x k p k. Intuicja: na prostej rozmieszczamy masy p i w punktach x i, i = 0,, 2... Wartość średnia to środek ciężkości tego układu (może nie istnieć!) Jaka jest wartość średnia (wartość oczekiwana) liczby oczek w jednym rzucie kostką? Wariancja zmiennej losowej Jeżeli P (X = x k ) = p k, wariancja zmiennej X k = 0,, 2, 3,..., to V ar(x) = k (x k E(X)) 2 p k. Wariancję oznacza się też symbolem D 2 (X). Wariancja mierzy rozrzut wyników średnie odchylenie od wartości średniej. Wariancję można też obliczyć ze wzoru V ar(x) = k x 2 k p k (E(X)) 2.
Rozkłady ciągłe (z gęstością) Jeśli dana jest taka funkcja f : R [0, ), że f(x) dx =, to f nazywamy gęstością rozkładu zmiennej X i obliczamy prawdopodobieństwa P (a < X < b) = b a f(x) dx. Przykłady gęstości Rozkład jednostajny na odcinku [a, b] f(x) = b a, gdy x [a, b], 0, gdy x / [a, b]. Przykłady gęstości Rozkład normalny z parametrami m R i σ > 0 f(x) = 2π σ e (x m)2 2σ 2, x R Przykłady gęstości Rozkład wykładniczy z parametrem λ > 0 0, gdy x < 0, f(x) = λe λx, gdy x 0. Wartość średnia Gdy rozkład ma gęstość f(x), to E(X) = x f(x) dx, gdy całka jest zbieżna. Gdy całka nie jest zbieżna, to E(X) nie istnieje. Wariancja Gdy rozkład ma gęstość f(x), to D 2 (X) = (x E(X)) 2 f(x) dx, gdy całka zbieżna. Gdy całka nie jest zbieżna, to D 2 (X) nie istnieje. Wariancję można też liczyć ze wzoru D 2 (X) = Jak opisać cały rozkład jedną funkcją? x 2 f(x) dx (E(X)) 2. 2
Przypuśćmy, że na prostej rozłożyliśmy masę jednostkową. Aby znać masę każdego odcinka, wystarczy znać masę każdej półprostej (, t) dla wszystkich t R, bo wtedy m(a, b) = m(, b) m(, a]. Analogicznie: aby znać rozkład zmiennej X, musimy umieć obliczyć P (a < X < b) dla dowolnych a < b. W tym celu wystarczy znać P ( < X < t) dla wszystkich t R, bo wtedy P (a < X < b) = P ( < X < b) P ( < X a). Dystrybuanta rozkładu Niech X będzie zmienną losową. Funkcję zmiennej t R określoną wzorem P (X < t) nazywamy dystrybuantą rozkładu zmiennej X. Jeżeli X jest stała, to znaczy X c, wtedy { 0, gdy t c,, gdy t > c, Jeżeli X ma rozkład dwupunktowy, to znaczy dla pewnych x < x 2 { x z prawdopodobieństwem p, X = x 2 z prawdopodobieństwem p, wtedy dystrybuantą jest funkcja 0, gdy t x, p, gdy x < t x 2,, gdy t > x 2, Jeżeli S n ma rozkład Bernoulliego z parametrami n oraz p, to 0, gdy t 0,..., gdy 0 < t,..., gdy < t 2,......, gdy t > n. Jeżeli X ma rozkład jednostajny na odcinku [a, b], to 0, gdy t a, t a b a, gdy a < t b,, gdy t > b. 3
Jeżeli X ma standardowy rozkład normalny, to znaczy z parametrami m = 0 i σ =, wówczas t 2π e x2 /2 dx. Ta pierwotna nie jest funkcją elementarną, więc trzeba było: nadać jej nazwę (oznaczenie) oraz stablicować wartości. Nazwano ją Φ(t), tablice jej wartości dla t [0, 3] można znaleźć w większości podręczników do statystyki lub w internecie, np. http://neyman.im.pwr.wroc.pl/ szajow/sas/node40.html Własności dystrybuanty Każda dystybuanta F : R R ma następujące trzy własności: F jest funkcją niemalejącą. F jest funkcją lewostronnie ciągłą (bo w definicji przyjęliśmy P (X < t)). lim t F (t) = 0, lim t F (t) =. Jak rozpoznać dystrybuantę? Jeśli dana jest funkcja F : R R, która jest niemalejąca, lewostronnie ciągła i ma granice: 0 w oraz w, to jest ona dystrybuantą rozkładu pewnej zmiennej losowej. Zadanie Dla jakich stałych a oraz b funkcja 0, dla t 0, F (t) = at + b, dla 0 < t,, dla t >, jest dystrybuantą? Rozwiązanie: Granice są już takie, jak trzeba. Tak określona funkcja jest lewostronnie ciagła. Dla jakich a, b jest niemalejąca? Oczywiście a 0. Nie może maleć w otoczeniu zera, więc b 0. Nie może maleć w otoczeniu jedynki, więc a + b. Kiedy rozkład jest ciągły tzn. ma gęstość? Dana jest dystrybuanta F (t). Jak poznać, czy ten rozkład ma gęstość? Dystrybuanta rozkładu z gęstością to całka z tej gęstości, więc 4
gęstość to pochodna dystrybuanty. Gdy na przykład F (t) = π arctg x + 2, to gęstość jest równa F (t) = π Kiedy rozkład jest ciągły? +t 2. Gdy dystrybuanta F X (t) ma pochodną (poza co najwyżej skończoną liczbą punktów), ta pochodna jest nieujemna i całka po całej prostej z tej pochodnej jest równa, to ta pochodna jest gęstością rozkładu. Wówczas Kiedy rozkład jest dyskretny? P (a < X < b) = b a F X(t)dt. Gdy dystrybuanta jest funkcją stałą na przedziałach, a rośnie tylko w punktach skoków, to jest dystrybuantą zmiennej X o rozkładzie dyskretnym. Jeśli x i jest punktem skoku dystrybuanty, to P (X = x i )= wysokość skoku dystrybuanty w tym punkcie. Parametry rozkładu normalnego Przypuśćmy, że zmienna losowa X ma rozkład normalny z parametrami m R oraz σ > 0, tzn. rozkład o gęstości f(x) = 2π σ e (x m)2 2σ 2. E(X) =? V ar(x) =? E(X) = m V ar(x) = σ 2 Mediana Przypuśćmy, że dana jest zmienna losowa X. Medianą zmiennej X nazywamy każdą taką liczbę m, dla której zachodzą nierówności: P ( < X m) 2, P (m X < ) 2. Mediana m dzieli rozkład na połowy tzn. na lewo od m jest co najmniej połowa prawdopodobieństwa i na prawo od m jest co najmniej połowa prawdopodobieństwa. Jak obliczać medianę za pomoca dystrybuanty? Dlaczego definicja formalna jest tak skomplikowana? Kwantyle i kwartyle Przypuśćmy, że dana jest zmienna losowa X. 5
Kwantylem rzędu p nazywamy każdą taką liczbę x p, dla której zachodzą nierówności: P ( < X x p ) p, P (x p X < ) p. To znaczy na lewo od x p jest co najmniej p, a na prawo co najmniej p całego prawdopodobieństwa. Kwartyle to kwantyle rzędu 4, 2, 3 4 oraz 4 4. Mediana to kwantyl rzędu 2. Jak liczyć kwartyle (kwantyle) za pomocą dystrybuanty?