Biostatystyka, # 3 /Weterynaria I/ dr n. mat. Zdzisław Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, p. 221 bud. CIW, e-mail: zdzislaw.otachel@up.lublin.pl materiały: http://kzmi.up.lublin.pl/ zotachel/wet konsultacje: poniedziałek 11.30-13.30, wtorek 10.00-12.00 Lublin, 2019
Pojęcie zmiennej losowej Definicja 1 Zmienna losowa to przyporządkowanie liczby każdemu zdarzeniu elementarnemu. Zmienne losowe będziemy oznaczać X, Y, Z,..., a ich wartości odpowiednio x, y, z,.... Dla każdej zmiennej losowej X i dowolnych liczb rzeczywistych a b podzbiory przestrzeni Ω: {ω Ω : X a}, {ω Ω : a < X b}, {ω Ω : X = a}, itp. są zdarzeniami. Przykład 1 Zmienną losową jest eksperyment, który polega na wylosowaniu obiektu z ustalonej populacji i pomiarze określonej cechy. W tym sensie każdą statystycznie badaną cechę można utożsamić ze zmienną losową.
Podział zmiennych losowych Zmienne losowe, tak jak cechy w populacjach, podzielimy na dwie kategorie: skokowe - przyjmujące przeliczalną liczbę wartości, ciągłe - przyjmujące wszystkie wartości z pewnego przedziału liczbowego. Nietrudno zauważyć, że zmienna losowa ciągła może być określona tylko na nieskończonej przestrzeni zdarzeń elementarnych.
Rozkład zmiennej losowej skokowej Niech wszystkimi wartościami zm. l. X będą liczby x i, a p i będą prawdopodobieństwami zdarzeń {ω Ω : X = x i }. Definicja 2 Funkcją rozkładu prawdopodobieństwa zm. l. X (krótko: rozkładem prawd. zm. l.) nazywamy przyporządkowanie: x i p i = P(X = x i ), i = 1, 2,.... Zdarzenia {ω Ω : X = x i } = {X = x i } są rozłączne i sumują się do Ω, zatem i p i = 1. W przypadku skończonym rozkład prawdopodobieństwa zm. l. X można opisać za pomocą tabeli: x i p i = P(X = x i ) x 1 p 1 x 2 p 2. x n. p n
Rozkład zerojedynkowy (dwupunktowy) Zmienna losowa o tym rozkładzie przyjmuje tylko dwie wartości (umownie) 1 i 0 z prawdopodobieństwami p i q, p + q = 1. Niech, (Ω, S, P) przestrzenią prawdopodobieństwa związaną z pewnym eksperymentem losowym, a A S - zdarzeniem o prawdopodobieństwie p = P(A). Zmienna losowa X = { 1, A zaszło, 0, A nie zaszło ma rozkład dwupunktowy. Rozkład tego typu pojawia się, gdy elementy pewnej populacji klasyfikujemy dychotomicznie: zdrowe/chore, męski/żeński, dobry/zły, itp.
Rozkład Bernoulliego (dwumianowy) Zmienna losowa X ma rozkład Bernoulliego z parametrami n i p (n - liczba całkowita dodatnia, p jest liczbą z przedziału [0, 1]), jeżeli przyjmuje wartości k = 0, 1, 2,..., n z prawdopodobieństwem: P n,p (k) = ( n k) p k (1 p) n k. Jeżeli doświadczenie jest schematem n prób Bernoulliego z prawdopodobieństwem sukcesu p, to zmienna losowa X określona jako ilość sukcesów w tym doświadczeniu ma rozkład Bernoulliego. Niech { 1, sukces w i tej próbie, X i = 0, porażka w i tej próbie. Wtedy X = X 1 + X 2 + + X n. Na podstawie dwumianowego wzoru Newtona: P n,p (0) + P n,p (1) + + P n,p (n) = ( n 0)p 0 (1 p) n + ( n 1)p 1 (1 p) n 1 + + ( n n)p n (1 p) 0 = 1.
Rozkład Poissona Zmienna losowa X ma rozkład Poissona z parametrem λ 0, jeżeli przyjmuje wartości k = 0, 1, 2,... z prawdopodobieństwami: λ λk p(k) = P(X = k) = e, k = 0, 1, 2,.... k! e - stała Eulera - liczba niewymierna, e 2, 718281828459050.... Przykład 2 e λ = 1 + λ + λ2 2 + λ3 6 + = Doświadczenie polegało na rejestrowaniu ilości (k) cząstek - produktów rozpadu radioaktywnego, w interwale czasowym równym 7, 5 s. Przeprowadzono N = 2608 takich niezależnych doświadczeń. Dane liczbowe zebrane są w następującej tabeli, gdzie n k jest ilością interwałów, w których licznik zarejestrował k = 0, 1, 2,... cząstek, p(k) jest prawdopodobieństwem z rozkładu Poissona dla λ = 3, 85 = 1 10 N k=0 kn k: n=0 λ n n!
n k n k k N p(k) 0 57 0,022 0,021 1 203 0,078 0,081 2 383 0,147 0,156 3 525 0,201 0,201 4 532 0,204 0,195 5 408 0,156 0,151 6 273 0,105 0,097 7 139 0,053 0,054 8 45 0,017 0,026 9 27 0,010 0,014 10 16 0,006 0,007 N = 2608 0,999 1,000
Problem polegający na dopasowaniu rozkładu teoretycznego do obserwowanego rozkładu empirycznego jest kluczowym zagadnieniem statystyki matematycznej.
Twierdzenie Poissona Rozkład Poissona stanowi przybliżenie rozkładu Bernoulliego w przypadku, gdy liczba prób n jest duża ( w praktyce większa niż 30), prawdopodobieństwo sukcesu p jest małe (mniejsze niż 1/10), a wartość iloczynu np jest przeciętna (z przedziału [1, 10]). Dokładniej: P n,p (X = k) = ( n k)p k (1 p) n k e np (np)k, k = 0, 1, 2,.... k!
Porównanie prawdopodobieństw Poissona i Bernoulliego
Dystrybuanta zmiennej losowej Niech u oznacza liczbę rzeczywistą, a X zmienną losową (skokową lub ciągłą). Dla każdego u zbiór {X u} jest zdarzeniem. Definicja 3 Dystrybuantą zmiennej losowej X nazywamy rzeczywistą funkcję F określoną na zbiorze liczb rzeczywistych w następujący sposób: F (u) = P(X u).
Własności dystrybuanty 0 F (u) 1, dla każdej liczby rzeczywistej u, F (u) 0, gdy u oraz F (u) 1, gdy u, Dystrybuanta jest funkcją niemalejącą, tzn. u 1 u 2 implikuje F (u 1 ) F (u 2 ) dla dowolnych liczb u 1, u 2, P(a < X b) = F (b) F (a). Ostatnia własność jest szczególnie ważna, znając dystrybuantę zmiennej losowej X jesteśmy w stanie obliczać prawdopodobieństwa zdarzeń określanych za pomocą relacji niewiększości, więc praktycznie wszystkich zdarzeń. W tym sensie znajomość dystrybuanty jest równoważna znajomości rozkładu prawdopodobieństwa. Dla zmiennych losowych ciągłych jest to jedna z dwóch równoważnych możliwości opisu rozkładu prawdopodobieństwa.
Dystrybuanta zmiennej losowej skokowej Jeżeli (x i, p i ) jest rozkładem zmiennej losowej X to jej dystrybuanta jest funkcją schodową niemalejącą (tzn. funkcją sklejoną z części funkcji stałych), która ma w punktach o odciętych x i stopnie o wysokości p i.
Rozkład prawdopodobieństwa zmiennej losowej ciągłej Jedną z cech wyróżniających takie rozkłady jest fakt, że prawdopodobieństwo przyjęcia przez zmienną losową ciągłą konkretnej wartości jest równe zero. Rozkład zmiennej losowej ciągłej możemy opisać poprzez podanie jej dystrybuanty. Dystrybuanta zmiennej losowej ciągłej jest ciągłą funkcją niemalejącą.
Gęstość prawdopodobieństwa zmiennej losowej ciągłej Niech F (u) = P(X u) będzie dystrybuantą ciągłej zmiennej losowej X. Niech f (x) będzie taką funkcją, że dla dowolnej liczby u: P(X u) = u f (x)dx = F (u). Tak określoną funkcję f (x) na zbiorze wszystkich liczb rzeczywistych x nazywamy funkcją gęstości prawdopodobieństwa zmiennej losowej (ciągłej) X. Geometrycznie:
Własności gęstości prawdopodobieństwa Przyjmuje tylko nieujemne wartości, tzn. f (x) 0, + f (x)dx = 1, geometrycznie oznacza to, że pole figury na płaszczyźnie z prostokątnym układem współrzędnych ograniczone osią odciętych x i wykresem funkcji y = f (x) jest równe 1 (jest to prawdopodobieństwo zdarzenia pewnego {X < + }).
Własności gęstości prawdopodobieństwa - cd. Pochodna dystrybuanty jest równa funkcji gęstości prawdopodobieństwa, tzn. F (x) = f (x), prawdopodobieństwa zdarzeń geometrycznie interpretuje się jako pola figur ograniczonych osią odciętych x i wykresem funkcji gęstości prawdopodobieństwa f (x): P 1 = P(X < a) = F (a), P 2 = P(b < X < c) = F (c) F (b), P 3 = P(X > d) = 1 F (d).
Rozkład jednostajny Zmienna losowa ma rozkład jednostajny na przedziale [a, b], a < b, jeżeli funkcja gęstości prawdopodobieństwa ma postać: f (x) = { 1 b a, a x b 0, poza. X [a, b] ma rozkład jednostajny wtedy i tylko wtedy, gdy P(α < X < β) = β α, [α, β] [a, b], b a tzn. prawdopodobieństwo liczymy zgodnie ze modelem prawdopodobieństwa geometrycznego. Ilość zaobserwowanych wartości zmiennej losowej w przedziale [α, β] jest proporcjonalna do długości przedziału. Np., w Excelu, wartości funkcji LOS() są generowane zgodnie z rozkładem jednostajnym na przedziale [0, 1].
Parametry rozkładów prawdopodobieństwa Rozkładom prawdopodobieństwa przypisuje się parametry liczbowe, które je charakteryzują. Umożliwia to m.in. porównywanie rozkładów prawdopodobieństwa dla różnych cech. Dla zmiennej losowej X, najważniejsze z takich parametrów to wartość oczekiwana wartość średnia (ozn. EX ), wariancja (ozn. VarX ), momenty. Wokół wartości oczekiwanej skupiają się wartości przyjmowane przez zmienna losową, natomiast wariancja jest miarą rozproszenia tych wartości wokół średniej. Jeżeli doświadczenie polega na obserwowaniu wartości zmiennej losowej (cechy) X, to średnia (arytmetyczna) tych obserwacji x stanowi przybliżenie wartości oczekiwanej EX, natomiast wariancja S 2 x obserwacji przybliża wariancję rozkładu zmiennej losowej - VarX. Przybliżenia są tym lepsze im więcej obserwacji użyto do wyznaczenia charakterystyk.
Wartość oczekiwana i momenty Jeżeli X jest zmienną losową przyjmującą wartości x 1, x 2,... z prawdopodobieństwami p 1, p 2,..., to EX = i x i p i, o ile istnieje wartość tej sumy. Jeżeli X jest zmienna losową ciągłą z funkcją gęstości f, to EX = xf (x)dx, o ile istnieje wartość tej całki. Dla zm. los. X i liczby naturalnej k wartości m k = EX k, M k = E(X EX ) k nazywamy odpowiednio momentem zwykłym i momentem centralnym k-tego rzędu.
Interpretacja geometryczna całki
Wariancja i odchylenie standardowe Moment centralny 2-go rzędu nazywamy wariancją. Pierwiastek z wariancji VarX nazywamy odchyleniem standardowym rozkładu zm. los. X. Czasami wariancję zmiennej losowej X bedziemy oznaczać D 2 X, a odchylenie standardowe DX. Z istnienia r-tego momentu zmiennej losowej wynika istnienie wszystkich momentów rzędu l < r. W szczególności, istnienie 2-go momentu zwykłego implikuje istnienie wartości oczekiwanej i wariancji. VarX = 0 X ma rozkład jednopunktowy. Rozkład jednopunktowy (deterministyczny) ma zmienna losowa przyjmująca jedną wartość z prawdopodobieństwem 1.