Biostatystyka, # 2 /Weterynaria I/ dr n. mat. Zdzisław Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Akademicka 15, p.211a bud. Agro II, e-mail: zdzislaw.otachel@up.lublin.pl materiały: http://kzmi.up.lublin.pl/ zotachel/wet konsultacje: wtorek 10.00-12.00, środa 10.00-12.00 Lublin, 2017
Elementy rachunku prawdopodobieństwa
Rys historyczny Rachunek prawdopodobieństwa jest działem matematyki zajmującym się badaniem praw rządzących zjawiskami losowymi (przypadkowymi) i tworzeniem modeli matematycznych nadających się do opisu takich zjawisk. Pierwsze problemy rachunku prawdopodobieństwa dotyczyły gier hazardowych m.in. gry w kości, znanej od starożytności. Matematyczne zainteresowanie tą grą po raz pierwszy wykazali matematycy francuscy B. Pascal i P. Fermat w połowie XVII w. W XVIII i XIX w. zaczęto stosować rachunek prawdopodobieństwa w zagadnieniach demograficznych i ubezpieczeniowych, a szwajcarski matematyk J. Bernoulli dowiódł tzw. prawa wielkich liczb zwanego dzisiaj jego nazwiskiem. Twierdzenie to otworzyło możliwość zastosowania rachunku prawdopodobieństwa do statystyki. Inne ważne osiągnięcia pochodzą od francuskich probabilistów A. Moivre a, P. Laplace a, S. Poissona, natomiast niemiecki matematyk K. Gauss opracował teorię przypadkowych błędów obserwacji.
W drugiej połowie XIX w. rosyjski matematyk P.L. Czebyszew dowodzi następnego prawa wielkich liczb (prawa Czebyszewa) i tworzy petersburską szkołę rachunku prawdopodobieństwa. W 1827 r. angielski botanik R. Brown zauważył, że drobiny nierozpuszczalne w cieczy poruszają się w sposób chaotyczny (ruchy Browna). Wyjaśnienie tego faktu zostało podane dużo później na gruncie rachunku prawdopodobieństwa (A. Einstein i M. Smoluchowski, 1905 r.) Mimo intensywnego rozwoju rachunek prawdopodobieństwa stał się teorią matematyczną dopiero w 1933 r., kiedy to rosyjski matematyk A.N. Kołmogorow sformułował aksjomatyczną definicję prawdopodobieństwa.
Wprowadzenie Rachunek prawdopodobieństwa zajmuje się badaniem zjawisk przypadkowych. W praktyce każdy proces czy doświadczenie jest losowe, bo zależy od wielu przyczyn, z których tylko część udaje się kontrolować. Dwa doświadczenia uznamy za identyczne, jeśli mają te same zbiory kontrolowanych przyczyn. Wyniki doświadczeń nazywamy zdarzeniami. Zjawiska polegające na przeprowadzaniu lub przebieganiu dużej liczby tych samych doświadczeń nazywamy zjawiskami masowymi. Takie zjawisko nie zależy od indywidualnych własności obiektu. Zjawiska masowe mają swoje prawidłowości. Jeżeli przeprowadzamy N razy to samo doświadczenie i n razy zaszło zdarzenie A, to stosunek n/n nazywamy częstością zdarzenia A w tym doświadczeniu. W zjawiskach masowych częstości zdarzeń mają własność skupiania się (wraz ze wzrostem N) wokół tej samej liczby zależnej od zdarzenia. Dla ustalonego zdarzenia A oznaczymy ją przez P(A) i nazwiemy prawdopodobieństwem tego zdarzenia. Jest to treść tzw. statystycznej definicji prawdopodobieństwa
W tabeli podane są częstości otrzymania orła w przeprowadzonej jeden raz serii 10000 rzutów monetą. Liczba rzutów N Liczba n pojawień się orła Częstość n/n 200 116 0,5800 300 153 0,5100 500 251 0,5020 1000 504 0,5040 2000 1002 0,5010 5000 2529 0,5058 10000 4982 0,4982
Widać, że n/n 1/2, gdy N nieograniczenie rośnie. Na początku XVIII w. Bernoulli udowodnił, że przy dużej liczbie doświadczeń, z praktyczną pewnością, częstość względna zdarzenia n/n różni się mało od prawdopodobieństwa tego zdarzenia.
Pojęcia podstawowe Doświadczenie losowe proces przyrodniczy lub zaplanowany eksperyment, którego wyniku nie można przewidzieć, natomiast znany jest zbiór wszystkich wyników. Przykład 1 Doświadczeniem losowym jest wylosowanie obiektu z ustalonej populacji i dokonanie pomiaru interesującej nas 1 cechy, 2 cech, 3 cech itd. W praktyce, wynikami eksperymentów losowych będą więc liczby, pary liczb, trójki liczb rzeczywistych itd. Zdarzenie elementarne pojedyńczy wynik eksperymentu losowego. Przestrzeń zdarzeń elementarnych zbiór wszystkich zdarzeń elementarnych. Zdarzenie losowe (w skrócie: zdarzenie) zbiór złożony ze zdarzeń elementarnych, najczęściej opisany przez spełnienie pewnych warunków. Uwaga: nie każdy podzbiór przestrzeni zdarzeń elementarnych musi być zdarzeniem losowym.
Oznaczenia i nomenklatura D doświadczenie losowe (eksperyment); Ω - przestrzeń zdarzeń elementarnych; ω - zdarzenie elementarne; Ω = {ω 1, ω 2..., ω n } przestrzeń zdarzeń elementarnych składająca się z n możliwych wyników : ω 1, ω 2..., ω n ; A, B, C,... - zdarzenia losowe; zapis ω A (mat.: ω jest elementem zbioru A) czytamy: zdarzenie elementarne ω sprzyja zdarzeniu A, tzn. jeżeli w wyniku eksperymentu losowego dostaniemy wynik ω, to powiemy zaszło zdarzenie A.
Klasa zdarzeń losowych Klasę zdarzeń losowych oznaczymy przez S. Ω S, zdarzenie pewne, zachodzi zawsze; S, zdarzenie niemożliwe, nigdy nie zachodzi; jeżeli A i S, to C = A 1 A 2 S, zdarzenie C nazywamy sumą (alternatywą) zdarzeń A i, C zachodzi, gdy zachodzi co najmniej jedno ze zdarzeń A i ; jeżeli A i S, to D = A A 2 S, zdarzenie D nazywamy iloczynem (koniunkcją) zdarzeń A i, D zachodzi, gdy zachodzi każde ze zdarzenie A i ; jeżeli A S, to A := Ω \ A S, zdarzenie A nazywamy zdarzeniem przeciwnym do zdarzenia A, A zachodzi, gdy nie zachodzi zdarzenie A; w szczególności: jeżeli A, B S, to E = A \ B S, zdarzenie E nazywamy różnicą zdarzeń A i B, E zachodzi, gdy zachodzi zdarzenie A i nie zachodzi zdarzenie B. Klasę S nazywamy σ-ciałem zdarzeń.
Klasyczna definicja prawdopodobieństwa Definicja 1 (Pierre Simon de Laplace, 1812) Jeżeli przestrzeń zdarzeń elementarnych jest zbiorem skończonym, złożonym z N zdarzeń elementarnych, to P(A) = n N, n jest ilością zdarzeń elementarnych sprzyjających zdarzeniu A.
Przykład 2 1. Prawdopodobieństwo wyrzucenia orła przy jednokrotnym rzucie monetą: 1/2; 2. Prawdopodobieństwo wyrzucenia co najmniej 3 oczek przy jednokrotnym rzucie sześcienną kostką do gry: 4/6; 3. Prawdopodobieństwo wylosowania figury z talii 52 kart do gry: 16/52. 4. Prawdopodobieństwo głównej wygranej w totka : 1/( 49 6) = 1/13983836.
Geometryczna definicja prawdopodobieństwa Definicja 2 Dla liczby naturalnej p przez R p oznaczymy zbiór wszystkich p-elementowych ciągów (x 1, x 2,..., x p ), gdzie x i to liczby rzeczywiste. Niech A Ω R p. Prawdopodobieństwo tego, że dowolny punkt należący do Ω będzie należał również do A wynosi: m p (A) m p (Ω), gdzie m p jest miarą na przestrzeni R p, w szczególności m 1 jest miarą długości na prostej, m 2 - polem figury płaskiej, a m 3 - objętością bryły w przestrzeni.
Przykład 3 Na ulicy znajdują się 2 bankomaty. Każdy z nich wymaga obsługi (jest niesprawny) przez 30min na dobę. Moment rozpoczęcia obsługi jest losowy. Jakie jest prawdopodobieństwo, że urządzenia będą niesprawne w tej samej chwili (- konflikt)? x - moment rozpoczęcia obsługi 1-go bankomatu, y - moment rozpoczęcia obsługi 2-go bankomatu, Ω = {0 x, y 24}, m 2 (Ω) = 24 2, A - konflikt, A = {(x, y) : 0 x, y 24, x y 0, 5}, m 2 (A) = 24 2 23, 5 2. Stąd m ( 2 2(A) m 2 (Ω) = 1 47 48) 4, 12%.
Aksjomatyczna definicja prawdopodobieństwa Definicja 3 (Andrej Nikołajewicz Kołmogorow, 1933) Niech będzie dana przestrzeń zdarzeń elementarnych Ω i σ-ciało zdarzeń losowych S. Prawdopodobieństwem (miarą/rozkładem prawdopodobieństwa) nazywamy rzeczywistą funkcję P określona na klasie zdarzeń S spełniającą aksjomaty: Aksjomat I 0 P(A), A S Aksjomat II P(Ω) = 1, Aksjomat III P(A 1 A 2... ) = P(A 1 ) + P(A 2 ) +... dla dowolnych zdarzeń A i wykluczających się parami, tj. A i S, A i A j =, i j. Trójkę (Ω, S, P) nazywamy przestrzenią probabilistyczną. Definicja aksjomatyczna określa jak zbudować matematyczny model prawdopodobieństwa dla zdarzeń w rozpatrywanym doświadczeniu, analiza statystyczna - który z dopuszczalnych modeli wybrać.
Własności prawdopodobieństwa Niech (Ω, S, P) będzie przestrzenią probabilistyczną i A, B, C S. 0 P(A) 1; P( ) = 0, P(A ) = 1 P(A); Jeżeli A pociąga B (A B), to P(A) P(B) oraz P(B \ A) = P(B) P(A); P(A B) = P(A) + P(B) P(A B), P(A B C) = P(A) + P(B) + P(C) P(A B) P(B C) P(A C) + P(A B B C). Zauważmy, że jeżeli utożsamimy przestrzeń zdarzeń elementarnych Ω z figurą na płaszczyźnie o polu 1, to prawdopodobieństwo ma analogiczne własności jak pole figur będących częścią tej przestrzeni.
Informacja a prawdopodobieństwo Informacja o zajściu zdarzenia B ma wpływ na wartość obliczanego prawdopodobieństwa zdarzenia A. Przykład 4 D polega na jednokrotnym rzucie sześcienną kostką do gry. Zdarzenie A to parzysta liczba oczek, P(A) = 1/2 wg. klasycznej definicji. Przypuśćmy, że eksperymentator wykonał doświadczenie D w zamkniętym pokoju, po czym przekazał nam informację B wypadło więcej niż 3 oczka. Jest to nowy eksperymet losowy. Oznaczymy go D B zajście zdarzenia A w tym eksperymencie oznaczymy A/B. Zdarzeniu A/B sprzyja 2 spośród 3 możliwych wyników, stąd P(A/B) = 2/3. Z drugiej strony: P(B) = 1/2, P(A B) = 2/6, stąd P(A/B) = 2/3 = 2/6 1/2 = P(A B) P(B).
Prawdopodobieństwo warunkowe Definicja 4 Niech (Ω, S, P) będzie przestrzenią probabilistyczną związaną z eksperymentem D, B S, P(B) > 0. Prawdopodobieństwo zdarzeń w eksperymencie D B, zwane prawdopodobieństwem warunkowym, określa wzór: P(A/B) = P(A B), A S. P(B) Zdarzenie B będzie nazywane warunkiem.
Zdarzenia niezależne Jeżeli zajście jakiegoś zdarzenia nie zmienia prawdopodobieństwa zajścia innego, to o takich zdarzeniach mówi się, że są to zdarzenia niezależne. Zdarzenia A i B z poprzedniego przykładu takie nie są. Bardziej ściśle: Definicja 5 Zdarzenia A i B są niezależne, jeżeli P(A B) = P(A) P(B). Jeżeli A i B są niezależne, to przy założeniu P(A) 0 i P(B) 0 otrzymujemy: P(A/B) = P(A), P(B/A) = P(B).
Prawdopodobieństwo całkowite - przykład O pewnej populacji Π złożonej z osobników żeńskich (F ) i męskich (M) w proporcji k/m wiadomo, że cechę D wykazuje p% osobników żeńskich i q% osobników męskich. Jakie jest prawdopodobieństwo, że wybierając losowo osobnika z tej populacji trafimy na tego z cechą D? Ω = Π. Zakładamy, że zdarzenia F i M są przeciwne, tzn. F M = Ω, F M =. Na podstawie danych informacji: P(F ) = k k + m, P(M) = m k + m, P(D/F ) = p 100, P(D/M) = q 100. Mamy: D = D F D M. Skoro P(D) jest udziałem podzbioru D w populacji Π, to P(D) = 100 p k k + m + 100 q m k + m = P(D/F ) P(F )+P(D/M) P(M).
Wzór na prawdopodobieństwo całkowite Bardziej ogólnie: Niech H 1, H 2,..., H n będzie układem zdarzeń wykluczających się parami, których suma jest zdarzeniem pewnym tj.: H i H j =, i j, H 1 H 2 H n = Ω. Wtedy dla dowolnego zdarzenia A: P(A) = P(A/H 1 ) P(H 1 ) + + P(A/H n ) P(H n ).
Wzór Bayesa Załóżmy, że zdarzenie A może zaistnieć wtedy i tylko wtedy, gdy zaistnieje jedno z jedynie możliwych i wzajemnie wykluczających się zdarzeń H 1, H 2,..., H n tj.: H i H j =, i j, H 1 H 2 H n = Ω. Nazwijmy zdarzenie A skutkiem, a zdarzenia H 1, H 2,..., H n przyczynami. W wyniku zaistnienia jednej z przyczyn zaobserwowaliśmy zajście skutku A. Znając a priori prawdopodobieństwa zaistnienia przyczyn - P(H i ) i prawdopodobieństwa zaistnienia skutku A w wyniku działania przyczyny H i - P(A/H i ) chcemy znać odpowiedź na pytanie: jakie jest prawdopodobieństwo, że to przyczyna H i doprowadziła do skutku A. Odpowiedź daje wzór Bayesa: P(H i /A) = P(A/H i ) P(H i ) P(A/H 1 ) P(H 1 ) + + P(A/H n ) P(H n ).
Schemat Bernoulliego Mówimy, że ciąg (seria) niezależnych doświadczeń jest schematem Bernoulliego, jeżeli: każde doświadczenie (zwane próbą) może zakończyć się jednym z wyników: zdarzeniem A zwanym sukcesem, lub zdarzeniem przeciwnym A porażką, prawdopodobieństwo sukcesu w pojedynczym doświadczeniu jest stałe i równe p. Wtedy prawdopodobieństwo, że schemacie n prób Bernoulliego sukces pojawi się dokładnie k razy, określa wzór: P n,k = ( n k)p k (1 p) n k, k = 0, 1, 2,..., n, gdzie: ( n k ) = n! k!(n k)! jest symbolem Newtona, a n! = 1 2 n (n!: czytamy n silnia) przy czym 0! = 1.
Przykład schematu Bernoulliego Schematem Bernoulliego jest obserwacja płci kolejnego szczeniaka w miocie. Zakładając, że prawdopodobieństwo urodzenia szczeniaka rodzaju męskiego przez sukę wynosi p=1/2, możemy wyznaczyć np. prawdopodobieństwo, że w miocie n = 6 szczeniąt będzie k = 4 pieski: ( 6 4)(1/2) 4 (1/2) 2 = 6 5 1 2 1 16 1 4 = 15 64 23%.