Wykład 3: Prawdopodobieństwopodstawowe pojęcia i modele Często modelujemy zmienność używając rachunku prawdopodobieństwa. Prawdopodobieństwo opadów deszczu wynosi 80%. (zinterpretuj) Prawdopodobieństwo urodzenia dziewczynki wynosi 0,49. (zinterpretuj) Prawdopodobieństwo dotyczy zdarzeń=zbiorów A, B, C zdarzenia (tzw. losowe) P(A) prawdopodobieństwo zdarzenia E 0 P(A) 1 S przestrzeń probabilistyczna (zbiór wszystkich możliwych wyników eksperymentu-zdarzeń elementarnych) P(S)= (?) Działania na zbiorach i własności prawdopodobieństwa A B A B A B P(A B) P(A) P(B) Diagramy Venna A A \ B A B B B \ A AB Uwagi: W praktyce prawdopodobieństwo często ustalamy jako częstość/proporcję grupy posiadającą interesującą nas własność. Przykład: Na 45-ciu studentów, 15-tu dostało 5.0 z egzaminu. Jakie jest prawdopodobieństwo tego, że losując studenta z tej grupy trafimy na takiego, który dostał 5.0 z egzaminu? Prawdopodobieństwo klasyczne Założenie wszystkie możliwe (elementarne) wyniki eksperymentu są jednakowo prawdopodobne (tu: prawdopodobieństwo wylosowania każdego studenta jest takie samo). N liczba możliwych wyników eksperymentu (tu N=?) x liczba tych wyników, które spełniają/sprzyjają zdarzeniu E (tu E= Dostał/a 5.0 z egzaminu, x=?) P(E)=x/N (tu P(E)=?) 1
Interpretacja częstościowa prawdopodobieństwa Gdy liczba niezależnych powtórzeń eksperymentu dąży do nieskończoności, to względna częstość występowania zdarzenia E dąży do P(E). Jest to tzw. prawo wielkich liczb. Przykłady zdarzeń E = wyrzucenie orła w rzucie symetryczną monetą : P(E) = E = wyrzucenie 4 w rzucie symetryczną kostką : P(E) = E = otrzymam 1 lub 6 w rzucie kostką : P(E) = Przykład: Ania i Basia rzucają monetą. E = obie dostaną orła. P(E) = Uzasadnienie: A dostanie i B dostanie A dostanie i B dostanie A dostanie i B dostanie A dostanie i B dostanie Te cztery zdarzenia są jednakowo prawdopodobne (P(E)=P()=P()=P()=P()=? ) Prawdopodobieństwo, że dostaniemy dokładnie jednego orła (Ania albo Basia) = Przykład: Krzyżówka dwóch heterozygot Genotyp obu rodziców : Aa Dzieci: P(AA) = (?) Pr(Aa albo aa) = (?) P(aa) = (?) Jeżeli liczba dzieci będzie bardzo duża, to frakcja heterozygot będzie bliska (?) Przypomnienie: frakcja w próbie aproksymuje frakcję w populacji. Niezależność 0.5 Zdarzenie P-stwo Definicja: Zdarzenia A i B są niezależne, gdy 0.5 P ( A B ) P ( A) P ( B ) 0.5 Przykład: Dwa rzuty monetą. A=otrzymano orła w pierwszym rzucie B=otrzymano orła w drugim rzucie P(A i B) =... 0.5 0.5 0.5 2
Prawdopodobieństwo warunkowe P(A B) prawdopodobieństwo zajścia zdarzenia A pod warunkiem, że zajdzie zdarzenie B. Definicja matematyczna: P ( A B ) P ( A B ) P ( A B ) P ( B ) P ( B ) P ( A B ) Przykład: Przypuśćmy, że 2% populacji zarażone jest wirusem HIV, a test do wykrywania obecności wirusa HIV ma następujące własności: Jeżeli się ma HIV, to prawdopodobieństwo jego wykrycia wynosi 0.997 (prawdziwy dodatni wynik testu, czułość). Gdy się nie ma HIV, to prawdopodobieństwo właściwej diagnozy wynosi 0.985 (prawdziwy ujemny wynik testu, specyficzność). Zdarzenie P-stwo Zdarzenia (oznaczenia): Test + Prawdziwy + A wybrany losowo człowiek jest chory B test wykazuje obecność wirusa P(A)= P(B A)= A - wybrany losowo człowiek jest zdrowy B -test nie wykazuje obecności wirusa P(B A )= HIV + HIV Test - Test + Test - Fałszywy - Fałszywy + Prawdziwy - Jakie jest p-stwo, że u losowo wybranej osoby test wykaże obecność wirusa? Jakie jest p-stwo, że osoba, u której test wskazał obecność wirusa, jest faktycznie zakażona? 3
Wzór Bayesa Wpływ rozkładu a priori: P ( A B ) P ( B A) P ( A) P ( B ) Załóżmy teraz, że w pewnej populacji: 30% ludzi ma HIV, test do wykrywania HIV ma czułość 99.7% i specyficzność 98.5% (jak przedtem). Jakie jest prawdopodobieństwo, że osoba z dodatnim wynikiem testu ma HIV? Zdarzenie P-stwo Test + Prawdziwy + P-stwo, że osoba z dodatnim wynikiem testu jest (faktycznie) chora wynosi: HIV + Test - Fałszywy - P ( HIV test ) P ( HIV oraz test ) P ( test ) Test + Fałszywy + HIV Test - Prawdziwy - Zmienna (tzw.) losowa: Zmienna losowa dyskretna Wartość zależna od wyniku eksperymentu. Przykład: Liczba orłów uzyskanych w jednym rzucie monetą. Zbiór wartości, które może przyjąć zmienna losowa dyskretna jest skończony lub przeliczalny. Możliwe wartości będziemy oznaczali x 1,x 2, ozkład zmiennej dyskretnej X określamy podając prawdopodobieństwa p i =P(X=x i ). Np. w rzucie symetryczną kostką liczba oczek X ma rozkład P(X=i)=, i=1,...6. 4
Ciągła zmienna losowa Prawdopodobieństwo przyjęcia każdej ustalonej wartości wynosi zero, np. P(X=3.14159265358979323)=0 Zmienne losowe ciągłe rozważane na tym kursie będą zawsze opisane funkcją gęstości f(x). Dystrybuanta zmiennej X: Dla liczby definiujemy F X x) Własności: F X (x) jest funkcją niemalejącą, ciągłą z prawej strony, oraz lim lim x x x ( P( X x) F( x) F( x) Funkcje gęstość rozkładu prawdopodobieństwa Heurystyka: histogram z dużą liczbą klas: Jeżeli mamy liczbowe dane ciągłe, to więcej klas + dużo danych = bardziej regularny histogram Gęstość rozkładu prawdopodobieństwa Gdy rozmiar próby dąży do nieskończoności a szerokość klas do zera, histogram zbiega do wykresu gęstości rozkładu zmiennej. Podobnie jak dla histogramu, pole pod wykresem gęstości (całka) jest frakcją osobników wpadających do danego przedziału (czyli prawdopodobieństwem tego, że losowo wybrany osobnik jest w danym przedziale). 5
Gęstość (funkcja gęstości) Gęstość, f, rozkładu prawdopodobieństwa to każda funkcja, która spełnia następujące dwa warunki: f(x) 0 dla wszystkich x. Całkowite pole pod wykresem f(x) wynosi 1: f ( x) dx 1 Przykłady rozkładów ciągłych ozkład jednostajny na odcinku [a,b] f(x)= ozkład wykładniczy z parametrem λ>0 f(x)= ozkład normalny, f(x)= ozkład zaproponowany przez salę: f(x)= ozkłady (ciągłe): podstawowa zależność Narysuj dystrybuantę dyskretnej zmiennej losowej X takiej, że P(X=0)=1/3 oraz P(X=1)=2/3. ozkłady (absolutnie) ciągłe dane są przez: P ( X ( a, b)) f ( x) dx Niech Y ma rozkład jednostajny na odcinku [0,1]. P(Y>0.3)=? P(Y<0.3)=? P(Y=0.3)=? b a Narysuj dystrybuantę rozkładu jednostajnego na odcinku [a,b]. Wartość oczekiwana i wariancja (wzory). Zmienna losowa dyskretna x :=E(X)= x i P(X= x i )=x i p i Var(X)= (x i - x ) 2 P(X= x i ) = x i2 p i - x 2 Przykład 1 (rzut monetą, X=1, gdy orzeł, X=0, gdy reszka) E(X)= Var(X)= Przykład 2 (X=wynik rzutu kostką) E(X)= Var(X)= 6
ozkład dwupunktowy z parametrem P(Y=1)=p, P(Y=0)=1-p. blicz: EY= VarY= 0p1 EX Var(X) Wartość oczekiwana i wariancja, cd. Zmienna losowa ciągła x f(x) dx - 2 (x - EX) f(x) dx 2 2 x f(x)dx (EX) Wartość oczekiwana jest środkiem ciężkości figury określonej przez krzywą gęstości. Przykład: rozkład jednostajny na [a,b]. Przykład: rozkład wykładniczy z paramerem λ>0: Własności wartości oczekiwanej i wariancji E(aX+b)=aEX+b Var(aX+b)=a 2 Var(X) 7
Dla dwóch zmiennych losowych X i Y: E(X+Y)=EX+EY E(X-Y)=EX-EY E(aX+bY+c)= Niezależność zmiennych losowych: Jeżeli zmienne X i Y są niezależne, to P( X A, Y B) P( X A) P( Y B) Przykład1: Wybieramy (losowo) liczbę dwucyfrową; X:=liczba dziesiątek, Y:=liczba jedności, A={1, 2}, B={3, 4, 5}. Niezależność zmiennych losowych, cd. Przykład 2: Wybieramy (losowo) liczbę z zakresu 12,...,101; X:=cyfra dziesiątek, Y:=cyfra jedności, A={1, 2}, B={3, 4, 5}. Jeżeli X i Y są niezależne, to E(XY)=E(X) E(Y) i Var(X+Y)=Var(X)+Var(Y). Przykład 3: Liczby oczek, X, Y, w dwóch kolejnych rzutach kostką. Ćwiczenia: X i Y niezależne, to Var(X-Y)= Schemat Bernoulliego i rozkład dwumianowy Anita, Beata i Celina rzucają monetą i uzyskują łączną liczbę orłów Y. Podaj rozkład zmiennej Y Var(X+X)= A B C P-stwo Zdarzenie 3 (0) 2 (1) 1 (2) 0 (3) P-stwo 8
Histogram rozkładu w populacji. Populacja = wszystkie rzuty trzema monetami Pr(Y=y) 0,4 0,3 0,2 0,1 0 ozkład dwumianowy (n=3,p=0.5) 0 1 2 3 y Schemat Bernoulliego: n niezależnych powtórzeń tego samego eksperymentu dwa możliwe wyniki w każdej próbie - ``sukces i ``porażka (np. i, albo 1 i 0) w każdej próbie p-stwo sukcesu wynosi p ozkład dwumianowy: Y = łączna liczba sukcesów w schemacie Bernoulliego Przykłady: liczba orłów na 5 rzutów, liczba wyzdrowień wśród 10 pacjentów poddanych pewnej kuracji ozkład dwumianowy (wzór): P( Y n y) p y n gdzie y y 0,1,..., n y (1 p) n!, y!( n y)! n y, Niektóre własności symbolu Newtona Liczba możliwych ciągów y sukcesów i n-y porażek n n = = 0 n n n = = 1 n 1 gólnie n n y n y n y 3 0 W przykładzie A, B, C mamy p=1/2; P( Y 0) 3 1 P( Y 1) 3 2 P( Y 2) Uwaga: ozkład dwumianowy jest symetryczny dla p=1/2. 3 3 P( Y 3) Przykład: Efekt uboczny lekarstwa 20% ludzi dostaje nudności po zażyciu pewnego lekarstwa Lekarz przepisał lekarstwo czterem nowym pacjentom Y liczba pacjentów w naszej próbie, którzy dostali nudności Podaj rozkład zmiennej Y 9
ozwiązanie: Dalsze pytania: P(co najmniej dwóch dostanie nudności) = P(co najwyżej jeden dostanie nudności) = Parametry rozkładu dwumianowego: EY = np Przykład: Jeden na ośmiu dorosłych mężczyzn ma podniesiony poziom cholesterolu. Losowo wybieramy 10 mężczyzn z populacji. Jakie jest p-stwo, że (dokładnie) 2 spośród nich ma podniesiony poziom cholesterolu? Var Y=np(1-p) Jakie jest p-stwo, że co najmniej jeden z nich ma podniesiony poziom cholesterolu? Ilu średnio mężczyzn na dziesięciu ma podwyższony poziom cholesterolu? ozkład normalny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych Przykłady: Błąd pomiarowy Wzrost, wydajność Temperatura ciała Zawartość różnych składników we krwi 10
Funkcja gęstości: Y ~ N(,) - wartość oczekiwana, - odchylenie standardowe f 1 ( y) e 2 ( y ) 2 2 2 Standardowy rozkład normalny: N(0,1) Parametry: =0,=1 Do oznaczenia zmiennej losowej o rozkładzie N(0,1) będziemy używali litery Z Dystrybuanta rozkładu normalnego N(0,1): Φ(0)= (?) Φ(z)=P(Z < z). Tablica dystrybuanty Φ(z) (z Introduction to the Practice of Statistics, Moore, McCabe) Korzystanie z Tablic P(Z < 0.95) = P(Z <= 0.95) = P(Z > 0.75) = P(Z < - 1.5)= P(1.12 < Z < 2.24)= P(Z>1.96)= Pożyteczne wzory: Φ(-z) = P(Z > z) = P(z 1 < Z < z 2 ) = Ćwiczenie: Pr( Z > 1.96) = 11
Dowolny rozkład normalny: N(, ) Standaryzacja: Załóżmy, że poziom cholesterolu w pewnej populacji ma rozkład normalny o średniej = 220 i odchyleniu std. = 40. Y ma rozkład N(220, 40) Jaka część populacji ma poziom cholesterolu powyżej 240? Y ~ N(,) (Y-)/ ma rozkład normalny! znaczmy Z= (Y-)/. Mamy: EZ= Var(Z)= Zatem Z~ N(0,1)! Przykład cd. P (Y > 240)=... tj. P(Y>y), gdzie y=240. znaczamy z = (y-)/ = (240-220)/40 = 0.5. P(Y > 240) = P(Z > 0.5)= Jakie jest p-stwo, że u losowo wybranej osoby cholesterol będzie pomiędzy 200 a 260? blicz P(Y < 170) y1 = 200; z1 = (200-220)/40 = -0.5; y2 = 260; z2 = (260-220)/40 = 1.0; P(200 < Y < 260) = P(-0.5 < Z < 1.0) = 12
eguła 68% 95% 99.7% (reguła 3 ) Jeżeli zmienna X ma rozkład normalny, to P(-<X<+)= P(-2<X<+2)= P(-3<X<+3)= Kwantyle Kwantyle rozkładu N(0,1) W jakim punkcie y dystrybuanta osiąga zadaną wartość p? Przykłady: Mediana to kwantyl rzędu 50%. Trzeci kwartyl to kwantyl rzędu 75%. z 0.1 = z 0.9 = Kwantyle Y~N(μ, σ) y p = μ+σz p Znajdź trzeci kwartyl rozkładu poziomu cholesterolu. Znajdź kwantyl rzędu 0.1 dla rozkładu poziomu cholesterolu. 13
cena normalności Znaczna część procedur statystycznych, które poznamy w dalszej części kursu wymaga założenia, że próba pochodzi z populacji o rozkładzie normalnym. Założenie to można sprawdzać to przez pewne proste (orientacyjne) obliczenia lub rysując wykres kwantyl-kwantyl... eguła 3 Policzmy procent obserwacji, które znajdują się w odległości 1s, 2s and 3s od y. Przykład: poziomy serum CK n = 36, y = 98.28 i s = 40.38. 26/36 = 72% obserwacji jest w przedziale y 1s 34/36 = 94% obserwacji jest w przedziale y 2s 36/36 = 100% obserwacji jest w przedziale y 3s To w przybliżeniu odpowiada wartościom dla rozkładu normalnego. K. Wykres kwantyl-kwantyl (QQ plot) Data :61.0 62.5 63.0 64.0 64.5 65.0 66.5 67.0 68.0 68.5 70.5 a 62 64 66 68 70-1 0 1 Quantiles of Standard Normal 14