Wykład 4. Rozkłady i ich dystrybuanty 6 marca 2007 Jak opisać cały rozkład jedną funkcją? Aby znać rozkład zmiennej X, musimy umieć obliczyć P (a < X < b) dla dowolnych a < b. W tym celu wystarczy znać P ( < X < t) dla wszystkich t R, bo wtedy P (a < X < b) = P ( < X < b) P ( < X a). Dystrybuanta rozkładu Niech X będzie zmienną losową. Funkcję zmiennej t R określoną wzorem nazywamy dystrybuantą rozkładu zmiennej X. Przykłady dystrybuant Jeżeli X jest stała, to znaczy X c, wtedy P (X < t) { 0, gdy t c,, gdy t > c, Jeżeli X ma rozkład dwupunktowy, to znaczy dla pewnych x < x 2 { x z prawdopodobieństwem p, X = x 2 z prawdopodobieństwem p, wtedy dystrybuantą jest funkcja 0, gdy t x, p, gdy x < t x 2,, gdy t > x 2, Jeżeli S n ma rozkład Bernoulliego z parametrami n oraz p, to 0, gdy t 0,..., gdy 0 < t,..., gdy < t 2,......, gdy t > n. Jeżeli X ma rozkład jednostajny na odcinku [a, b], to 0, gdy t a, t a b a, gdy a < t b,, gdy t > b.
Jeżeli X ma standardowy rozkład normalny, to znaczy z parametrami m = 0 i =, wówczas t 2π e x2 /2 dx. Ta pierwotna nie jest funkcją elementarną, więc trzeba było: nadać jej nazwę (oznaczenie) oraz stablicować wartości. Nazwano ją Φ(t), tablice jej wartości dla t [0, 3] można znaleźć w większości podręczników do statystyki lub w internecie, oraz na mojej stronie w pliku dystrybuanta-rozkladu-normalnego.pdf Własności dystrybuanty Każda dystybuanta F : R R ma następujące trzy własności: F jest funkcją niemalejącą. F jest funkcją lewostronnie ciągłą (bo w definicji przyjęliśmy P (X < t)). lim t F (t) = 0, lim t F (t) =. Jak rozpoznać dystrybuantę? Jeśli dana jest funkcja F : R R, która jest niemalejąca, lewostronnie ciągła i ma granice: 0 w oraz w, to jest ona dystrybuantą jakiejś zmiennej losowej. Zadanie Dla jakich stałych a oraz b funkcja 0, dla t 0, F (t) = at + b, dla 0 < t,, dla t >, jest dystrybuantą? Rozwiązanie: Granice są już takie, jak trzeba. Tak określona funkcja jest lewostronnie ciagła. Dla jakich a, b jest niemalejąca? Oczywiście a 0. Nie może maleć w otoczeniu zera, więc b 0. Nie może maleć w otoczeniu jedynki, więc a + b. 2
Kiedy rozkład jest ciągły tzn. ma gęstość? Dana jest dystrybuanta F (t). Jak poznać, czy ten rozkład ma gęstość? Dystrybuanta rozkładu z gęstością to całka z tej gęstości, więc gęstość to pochodna dystrybuanty. Gdy na przykład F (t) = π arctg x + 2, to gęstość jest równa F (t) = π +t 2. Kiedy rozkład jest ciągły? Gdy dystrybuanta F X (t) ma pochodną (poza co najwyżej skończoną liczbą punktów), ta pochodna jest nieujemna i całka po całej prostej z tej pochodnej jest równa, to ta pochodna jest gęstością rozkładu. Wówczas P (a < X < b) = b a F X(t)dt. Kiedy rozkład jest dyskretny? Gdy dystrybuanta jest funkcją stałą na przedziałach, a rośnie tylko w punktach skoków, to jest dystrybuantą zmiennej X o rozkładzie dyskretnym. Jeśli x i jest punktem skoku dystrybuanty, to P (X = x i )= wysokość skoku dystrybuanty w tym punkcie. Parametry rozkładu normalnego Przypuśćmy, że zmienna losowa X ma rozkład normalny z parametrami m R oraz > 0, tzn. rozkład o gęstości f(x) = 2π e (x m)2 2 2. E(X) = m V ar(x) = 2 Mediana Przypuśćmy, że dana jest zmienna losowa X. Medianą zmiennej X nazywamy każdą taką liczbę m, dla której zachodzą nierówności: P ( < X m) 2, P (m X < ) 2. Mediana m dzieli rozkład na połowy tzn. na lewo od m jest co najmniej połowa prawdopodobieństwa i 3
na prawo od m jest co najmniej połowa prawdopodobieństwa. Jak obliczać medianę za pomoca dystrybuanty? Dlaczego definicja formalna jest tak skomplikowana? Kwantyle i kwartyle Przypuśćmy, że dana jest zmienna losowa X. Kwantylem rzędu p nazywamy każdą taką liczbę x p, dla której zachodzą nierówności: P ( < X x p ) p, P (x p X < ) p. To znaczy na lewo od x p jest co najmniej p, a na prawo co najmniej p całego prawdopodobieństwa. Kwartyle to kwantyle rzędu 4, 2, 3 4 oraz 4 4. Mediana to kwantyl rzędu 2. Jak liczyć kwartyle (kwantyle) za pomocą dystrybuanty? Własności wartości oczekiwanej i wariancji Niech X i Y będą zmiennymi losowymi i niech a, b R. Wtedy E(aX) = ae(x), E(X + b) = E(X) + b, Ogólnie: E(aX + by ) = ae(x) + be(y ), V ar(ax) = a 2 V ar(x), V ar(x + b) = V ar(x), V ar(ax + by ) =? UWAGA: potrzebne są dodatkowe założenia! Standaryzacja Załóżmy, że E(X) = m, a V ar(x) = 2. Wtedy E(X m) = E(X) m = 0, ( ) X m V ar = 2 V ar(x m) = 2 2 =. Zadanie Przypuśćmy, że zmienna losowa X ma rozkład N(m, 2 ). Korzystając z tablic standardowego rozkładu normalnego, obliczyć: P (X m), P ( X m ), P ( X m 2), P ( X m 3). 4
Rozwiązanie Musimy tak przekształcić zmienną X, aby miała rozkład standardowy N(0, ). W tym celu odejmujemy średnią m i dzielimy przez dyspersję (czyli pierwiastek z wariancji 2 ). Jeśli X ma rozkład N(m, 2 ), to zmienna losowa ma rozkład N(0, ) Z = X m i wartości jej dystrybuanty znajdziemy w tablicach. ( X m P (X m) = P czy w tym przypadku potrzebne są tablice? m m ) = P (Z 0) =? Korzystmy z symetrii rozkładu (popatrzmy na rysunek funkcji gęstości!) P (Z 0) = 2. A ile wynosi P (Z < 0)? ( X m P ( X m ) = P ) = P ( Z ) = P ( Z ) = Φ() Φ( ). Większość tablic podaje tylko wartości dystrybuanty dla t [0, 3]. Znów korzystamy z symetrii rozkładu: Φ( ) = Φ(), więc Φ() Φ( ) = 2Φ() = 2 0, 84 0, 68. Licząc analogicznie, otrzymujemy P ( X m 2) = P ( 2 Z 2) = 2Φ(2) = 2 0, 977 0, 95, P ( X m 3) = P ( 3 Z 3) = 2Φ(3) = 2 0, 998650 0, 997, Ten ostatni wynik nazywamy regułą trzech sigm: Zmienna o rozkładzie normalnym odchyla się od swojej średniej praktycznie co najwyżej o ±3. Czy istnieje reguła trzech sigm dla innych rozkładów? Rozkład normalny bardzo przydatne wzory Niech Z będzie zmienną o rozkładzie N(0, ), czyli o dystrybuancie Φ. Wtedy Φ( t) =? P (Z > t) =? P (a < Z < b) =? P ( Z >, 96) =? 5