W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe przyjmujące nieprzeliczalnie wiele wartości. Jak już wcześniej wspomnieliśmy rozkłady zmiennych losowych typu skokowego najczęściej zadawane są poprzez podanie prawdopodobieństwa wystąpienia każdej z przyjmowanych przez zmienną wartości. Najczęściej przyjmuje on formę tabeli. Omówimy teraz wybrane najważniejsze typy rozkładów i najważniejsze ich własności. Zanim jednak do tego przejdziemy wprowadzimy najważniejsze pojęcia związane ze zmiennymi losowymi. Wartością oczekiwaną zmiennej losowej typu skokowego nazywamy liczbę zdefiniowaną wzorem gdzie zmiennej losowej. oznacza prawdopodobieństwo wystąpienia danej wartości Wartość oczekiwana nosi również nazwę wartości przeciętnej, wartości średniej, jak również jest znana pod nazwą pierwszy moment. Wśród licznych własności wartości oczekiwanych należy wymienić:, gdzie C jest dowolną liczbą rzeczywistą; (przykład) gdzie a jest dowolną liczbą rzeczywistą; (przykład) dla dowolnych rzeczywistych a,b; (przykład) dla dowolnych zmiennych losowych X,Y; (przykład)
Zagadka: Czy Uogólnieniem pojęcia pierwszego momentu rzędu 1, jest moment rzędu k zadany w przypadku zmiennych losowych typu skokowego wzorem Poza momentami rzędu k rozważane są również moment centralne rzędu k dane wzorem Szczególnym przypadkiem jest tutaj moment centralny rzędu 2-giego znany w literaturze pod nazwą wariancji. Wartość ta opisuje średni kwadrat odległości poszczególnych wartości przyjmowanych przez zmienną losową od jej wartości przeciętnej. Do najważniejszych własności wariancji należy zaliczyć (sprawdzić) dla dowolnej zmiennej losowej stała, tzn. czyli gdy zmienna losowa jest jeśli zmienne losowe są niezależne
Dystrybuantą zmiennej losowej X nazywamy funkcję rzeczywistą F określoną poprzez zależność Bezpośrednio z definicji wynika, że dystrybuanta jest funkcją niemalejącą, lewostronnie ciągła, w nieskończoności dąży do jedności, zaś w minus nieskończoności dąży do 0. Uwaga. Czasami można spotkać nieco inna definicję, a mianowicie w taki wypadku funkcja jest prawostronnie ciągła, pozostałe własności pozostają bez zmian. Kwartylem rzędu nazywamy liczbę, dla której spełniona jest zależność { } W statystyce szczególną rolę odgrywają centyle (setne części), decyle (dziesiąte części) oraz kwartyle ( czwarte części). Drugi kwartyl nosi nazwę Mediany. Medianą będziemy nazywać każdą liczbę spełniającą warunki Jak łatwo spostrzec medianą jest każda liczba, dla której wartość dystrybuanty zmiennej losowej jest równa 0,5.
Dominantą (modą) zmiennej losowej X typu skokowego nazywamy, tą wartość zmiennej losowej, która jest przyjmowana z najwyższym prawdopodobieństwem. Graficzna reprezentacja rozkładu w formie wykresu słupkowego nosi nazwę histogramu. Rozkład dwupunktowy: zero-jedynkowy Mówimy, że zmienna losowa X typu skokowego ma rozkład zero-jedynkowy z parametrem jeżeli jej funkcja prawdopodobieństwa ma postać x i 0 1 p i q p q=1-p. Zmienna ta ma tylko dwa punkty skokowe x 1 =0 oraz x 2 =1. Wartość przeciętna, wariancja oraz moment centralny rzędu 3 przyjmują odpowiednio wartości: Zmienna losowa o rozkładzie zero-jedynkowym jest związana z doświadczeniem losowym, w którym wyniki są dwojakiego rodzaju: jako mające interesującą nas cechę wtedy kodujemy jako 1, w pozostałych przypadkach jako zero.
Rozkład dwumianowy. Mówimy, że zmienna losowa X typu skokowego ma rozkład dwumianowy (binomialny, Bernoulliego) z parametrami jeżeli jej funkcja prawdopodobieństwa ma postać gdzie q=1-p. Przyjmuje więc ona z dodatnimi prawdopodobieństwami n+1 wartości: 0, 1, 2,,n. Wśród nich są jedna lub dwie wartości najbardziej prawdopodobne: gdy (n+1)p jest liczbą całkowitą, wtedy tymi wartościami są liczby k = (n+1)p-1 k=(n+1)p jeżeli (n+1)p nie jest liczbą całkowitą, to istnieje jedna najbardziej prawdopodobna wartość dana wzorem k= [(n+1)p] gdzie [x] oznacza całość z liczby x. Wartość przeciętna, wariancja oraz trzeci moment centralny wynoszą: Zmienna losowa X o rozkładzie dwumianowym z parametrami można interpretować jako możliwą liczbę sukcesów (czyli realizacji pewnego doświadczenia A) w dowolnej kolejności w n
doświadczeniach schematu Bernoulliego: przeprowadzonych zgodnie z warunkami 1. doświadczenia są niezależne 2. prawdopodobieństwo obserwowanego w poszczególnych doświadczeniach zdarzenia A są jednakowe w każdym doświadczeniu. Zmienna losowa X o rozkładzie dwumianowym wiąże się ze zmiennymi losowymi o rozkładzie Poissona, normalnym oraz ze zmienną losową o rozkładzie zero-jedynkowym w następujący sposób: gdy n=1 wtedy zmienna losowa o rozkładzie dwumianowym staje się zmienną losową o rozkładzie zero-jedynkowym. jeżeli n>1, to zmienna losowa X o rozkładzie dwumianowym z parametrami jest sumą niezależnych zmiennych losowych o rozkładach zero-jedynkowych z parametrem p. Dla rozkładu dwumianowego zachodzi twierdzenie o dodawaniu względem parametru n: Jeżeli zmienna losowa X 1 na rozkład dwumianowy z parametrami i X 2 jest zmienną losową o rozkładzie dwumianowym z parametrami oraz zmienne losowe X 1 i X 2 są niezależne, to również zmienna losowa X 1 +X 2 jest zmienną losową o rozkładzie dwumianowym z parametrami ( ).
0,3 0,25 0,2 0,15 0,1 0,3 0,4 0,5 0,6 0,7 0,05 0 1 2 3 4 5 6 7 8 9 10 11 Jak łatwo zauważyć przy wartości parametru p=0,5 histogram jest symetryczny względem środkowej wartości. Ponadto w przypadku parametrów symetrycznych względem 0,5 histogramy są symetryczne względem siebie i wartości środkowej. Rozkład Poissona. Mówimy, że zmienna losowa X ma rozkład Poissona z parametrem jeśli jej funkcja prawdopodobieństwa ma postać Przyjmuje więc ona z dodatnimi prawdopodobieństwami przeliczalną liczbę wartości. Zauważmy, że ułamek jest (k+1)-szym wyrazem rozwinięcia
funkcji w szereg Maclaurina. Jej wartość oczekiwana, wariancja i moment centralny rzędu 3 wynoszą odpowiednio: Rozkład Poissona jest związany z rozkładem dwumianowym następującym twierdzeniem: Jeżeli X 1, X 2,, X n, jest ciągiem zmiennych losowych o rozkładzie dwumianowym odpowiednio z parametrami oraz to Porównajmy graficznie histogramy rozkładu dwuminowego z parametrami (100; 0,01) oraz rozkładu Poissona z parametrem 0,4 0,35 0,3 0,25 0,2 0,15 p=0,001 λ=1 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9
Zmienne losowe ciągłe: W przypadku zmiennych losowych typu ciągłego należy zastąpić odpowiednie sumy całkami. Dokładny sposób wyznaczania wartości oczekiwanej, wariancji itp. prześledzimy na przykładzie zmiennej losowej o rozkładzie jednostajnym na odcinku. Przykłady rozkładów typu ciągłego: Rozkład równomierny (jednostajny na odcinku ). Mówimy, że zmienna losowa X ma rozkład równomierny ( jednostajny, prostokątny) skoncentrowany na przedziale jeżeli jej gęstość prawdopodobieństwa dana jest wzorem { W przypadku zmiennych losowych ciągłych dystrybuantę wyznaczamy za pomocą wzoru W przypadku zmiennej losowej o rozkładzie jednostajnym dystrybuanta ma postać
{ Dla tego rozkładu Sprawdzimy teraz poprawność tych wzorów i przećwiczymy obliczanie charakterystyk liczbowych na kilku prostych przykładach. Rozkład wykładniczy z parametrem λ>0 Mówimy, że zmienna losowa X ma rozkład wykładniczy z parametrem λ>0, jeżeli jej funkcja gęstości f ma postać { Łatwo obliczyć, że EX= λ, D 2 X= λ 2.
Zmienna losowa o rozkładzie wykładniczym opisuje wiele często spotykanych zjawisk, np.: przyjmuje się często, że czas bezawaryjnej pracy T badanego elementu (tzw. czas życia elementu) ma rozkład wykładniczy, wówczas nazywamy niezawodnością elementu, zaś intensywnością awarii. jeżeli liczba zgłoszeń w centrali telefonicznej w przedziale casu o dowolnym początku i ustalonym jest zmienną losową K o rozkładzie Poissona o wartości przeciętnej wprost proporcjonalnej do długości przedziału oraz liczba zgłoszeń zachodzących w rozłącznych przedziałach czasu są niezależne, to czas pomiędzy dwoma kolejnymi zgłoszeniami jest zmienną losową o rozkładzie wykładniczym. Rozkład normalny z parametrami Najważniejszym i najczęściej w zastosowaniach rozkładem typu ciągłego jest rozkład normalny (gaussowski). Mówimy, że zmienna losowa X ma rozkład normalny o parametrach, przy czym, jeżeli jej gęstość prawdopodobieństwa określona jest wzorem ( )
gdzie są odpowiednio parametrami przesunięcia i skali tego rozkładu. Rozkład normalny o parametrach oznaczamy symbolem Można pokazać, że dla zmiennej losowej o rozkładzie normalnym istnieją skończone momenty dowolnego rzędu, więc wobec symetrii gęstości względem jest oczywiste, że wartość przeciętna, mediana i moda są równe Wszystkie momenty centralne nieparzystego rzędu większego od jedności są równe zeru, zaś momenty centralne rzędu parzystego określa się wzorem: W szczególnym przypadku wariancja Jeśli zmienna losowa X ma rozkład, to standaryzowana zmienna losowa ma rozkład ( ) zwany standardowym rozkładem normalnym. Gęstością tego rozkładu jest funkcja Dystrybuanta tego rozkładu zadana jest wzorem i jest stablicowana. Z symetrii gęstości względem osi Oy wynika następująca zależność:
Reguła 3 sigm Dla rozkładu normalnego lub zbliżonego do rozkładu normalnego: 68,27% wartości cechy znajduje się w zakresie od 95,45% wartości cechy znajduje się w zakresie od 99,73% wartości cechy znajduje się w zakresie od do do do Dla innych rozkładów nie można dokonać tak precyzyjnego oszacowania.
Rozkład Jest to rozkład zmiennej losowej, która jest sumą k kwadratów niezależnych zmiennych losowych o rozkładzie naturalnym. Liczbę naturalną k nazywamy liczbą stopni swobody rozkładu zmiennej losowej. Rozkład t-studenta Rozkład Studenta (rozkład t lub rozkład t-studenta) ciągły rozkład prawdopodobieństwa stosowany często w statystyce w procedurach testowania hipotez statystycznych i przy ocenie niepewności pomiaru. Przy opracowaniu wyników pomiarów często powstaje zagadnienie oszacowania przedziału, w którym leży, z określonym prawdopodobieństwem, rzeczywista wartość mierzona, jeśli dysponujemy tylko wynikami n pomiarów, dla których możemy
wyznaczyć takie parametry, jak średnia i odchylenie standardowe lub wariancja ( z próby ), nie znamy natomiast odchylenia standardowego w populacji. Zagadnienie to rozwiązał w 1908 r. William Sealy Gosset (pseudonim Student) podając funkcję zależną od wyników pomiarów, a niezależną od σ. Rozkład t-student z n stopniami swobody jest rozkładem zmiennej losowej T postaci: gdzie U jest zmienną losową mającą standardowy rozkład normalny Z jest zmienną losową o rozkładzie o n stopniach swobody U i Z są niezależne