Rozkłady zmiennych losowych
Wprowadzenie Badamy pewną zbiorowość czyli populację pod względem występowania jakiejś cechy. Pobieramy próbę i na podstawie tej próby wyznaczamy pewne charakterystyki. Jeśli próba jest duża tworzymy szereg rozdzielczy zawierający wartości badanej cechy oraz liczność i obliczaną na tej podstawie, częstość występowania badanej cechy a zatem i prawdopodobieństwo występowania badanej cechy co oznacza, że cechę tą możemy nazywać zmienną losową.
Histogram utworzony na podstawie tego szeregu to rozkład empiryczny badanej cechy. Jeśli np. rzucamy kostką a zmienną losową jest liczba wyrzuconych oczek to (jeśli kostka jest symetryczna) prawdopodobieństwo wyrzucenia każdej z liczb 1 6 jest takie samo, zatem w histogramie wszystkie słupki będą takie same.
Weźmy inny przypadek. Populację tworzą klienci pewnego sklepu z odzieżą. Badamy preferencje klientów dotyczącą wybranego koloru. Do wyboru jest 10 kolorów. Jeśli okaże się, że klienci wybierają wszystkie kolory z takim samym prawdopodobieństwem czyli 1/10, oznacza to, że rozkład jest rozkładem równomiernym.
Rozkład równomierny to rozkład, w którym wszystkie prawdopodobieństwa są jednakowe.
Jeśli natomiast będziemy badać płeć osoby, która robi zakupy w tym sklepie może się okazać, że znacznie częściej jest to kobieta niż mężczyzna. Badaną cechą a więc zmienną losową jest płeć. Zmienna ta może przyjmować dwie wartości. Definiujemy zmienną losową X(Kobieta)=1, X(mężczyzna)=2 Możemy obliczyć częstość czyli prawdopodobieństwo pojawiania się kobiety i mężczyzny. Taka zmienna ma rozkład zero-jedynkowy.
Rozkład zero-jedynkowy. Zmienna losowa X ma rozkład zerojedynkowy, jeśli przyjmuje 2 wartości i jej funkcja prawdopodobieństwa jest następująca: P(X = 0) = p P(X = 1) = 1-p = q (0<p <1) x i 0 1 p i p 1-p
Rozkład zero-jedynkowy. Wartość oczekiwana = p Wariancja D 2 (X) = p(1-p)
Z rozkładem zero-jedynkowym mamy do czynienia, jeśli badamy wadliwość wyrobu (dobry, zły), awaryjność maszyn: zepsuje się lub nie itd. Przypuśćmy, że badamy awaryjność 4 maszyn. Cecha ta ma dla każdej maszyny rozkład zerojedynkowy i można obliczyć, że prawdopodobieństwo, że maszyna w danym dniu zepsuje się wynosi np. 0,05. Nas interesuje, ile spośród tych 4 maszyn ulegnie awarii w danym dniu. Mamy zatem obliczyć, jakie jest prawdopodobieństwo, że w danym dniu awarii ulegnie 0, 1, 2, 3, 4 maszyn.
Zmienną losową jest zatem liczba maszyn, które ulegną awarii w danym dniu. Zmienna ta ma rozkład dwumianowy.
Rozkład dwumianowy- Bernoulliego Zmienna losowa X ma rozkład dwumianowy, jeśli przyjmuje wartości k = 0, 1,,..., n z prawdopodobieństwami określonymi wzorem P(X k) n p k k (1 p) nk
Wartość oczekiwana i wariancja P(X i =1)=p, P(X i = 0) = (1-p) x i 1 2... n p i n p(1 1 n1 2 n2 p) n p 2 (1 p)
Wartość oczekiwana E( X ) n i1 x i p i np
Wariancja rozkładu dwumianowego D 2 ( X ) np(1 p)
Rozkład Poissona Zmienna losowa X przyjmująca wartości k = 0, 1, 2.. ma rozkład Poissona o parametrze, jeśli jej funkcja prawdopodobieństwa opisana jest wzorem: P(X k) e k! dla k = 0, 1,..., gdzie jest dodatnia stałą, > 0. Stwierdzono, że rozkład Poissona ma liczba usterek w produkowanych urządzeniach liczba skaz na określonej powierzchni materiału, liczba cząsteczek emitowana przez substancję radioaktywną w krótkim okresie, liczba błędów drukarskich na jednej stronie, wadliwość produkcji awaryjność maszyn. k
Rozkład Poissona. Wartość oczekiwana i wariancja E(X) = D 2 (X) = Znając zatem wartość oczekiwaną czyli wartość średnią z próby, możemy obliczyć funkcję prawdopodobieństwa tego rozkładu.
Rozkłady zmiennej losowej ciągłej
Rozkład prostokątny Zmienna losowa ciągła ma rozkład prostokątny, jeśli jej funkcja gęstości określona jest następująco: f (x) b 0 1 a x a x a lub b x b
Funkcja gęstości w rozkładzie prostokątnym
Wartość oczekiwana E(X) a 2 b Wariancja (b a) D 2 (X) 12 2
Rozkład normalny Zmienna losowa X ma rozkład normalny o parametrach m i, co w skrócie zapisuje się X : N(m, ), jeśli jej funkcja gęstości ma następującą postać: f (x) 1 e (xm) 2 2 2 2 - < x <, > 0
Wykres funkcji gęstości
Dystrybuanta F(x) 1 2 x e (tm) 2 2 2 dt
Wartość oczekiwana E( X ) m
Wariancja D 2 ( X ) 2
Przykład Waga mężczyzn w pewnej populacji ma rozkład N(70,6). Oznacza to, że waga mężczyzn jest zmienną losową o rozkładzie normalnym ze średnią m = 70 kg i odchyleniu standardowym = 6 kg.
75 P( 70 X 75) f ( x) dx 70
P(70 < X <=75)=F(75) F(70)
Obliczenie prawdopodobieństwa, że zmienna losowa o rozkładzie normalnym N(m,) przyjmuje wartość z danego przedziału jest raczej skomplikowane, dlatego zmienną losową o rozkładzie N(m,) standaryzuje się czyli przekształca tak, by otrzymać zmienną o standardowym rozkładzie normalnym N(0,1). Umożliwiło to opracowanie tablic statystycznych z których można odczytać wartości dystrybuanty standardowego rozkładu normalnego.
Standardowy rozkład normalny Rozkład normalny ze średnią m = 0 oraz odchyleniem standardowym = 1 nazywamy standardowym rozkładem normalnym i oznaczamy N(0,1).
Zmienna losowa standaryzowana. Niech X będzie zmienną losową o wartości oczekiwanej E(X) i odchyleniu standardowym D(X). Zmienną losową standaryzowaną U jest: U X E(X) D(X)
Parametry zmiennej losowej standaryzowanej E(U) =0 D 2 (U) =1
Standardowy rozkład normalny Zmienną losową mającą standardowy rozkład normalny oznacza się przez U, Funkcja gęstości: (u), Dystrybuanta : (u).
Reguła 3 sigm P( X m ) 0, 68 P( X m 2) 0, 95 P( X m 3) 0, 997
Reguła 3 sigm 99,7% obserwacji, czyli praktycznie niemal wszystkie obserwacje dokonywane na zmiennej losowej o rozkładzie normalnym mieszczą się w przedziale (m 3, m+3). Za niewiarygodne uznaje się obserwacje, których wartość różni się od średniej o więcej niż o 3 odchylenia standardowe.