W ykład 4: Z m ienna losow a Wartość zależna od wyniku eksperymentu. Przykład: Liczba orłów uzyskanych w jednym rzucie monetą. Zmienna losowa dyskretna Zbiór wartości, które może przyjąć zmienna losowa dyskretna jest skończony lub przeliczalny. Możliwe wartości będziemy oznaczali x 1,x, ozkład zmiennej dyskretnej X określamy podając prawdopodobieństwa p i =P(X=x i ). Np. w rzucie symetryczną kostką liczba oczek X ma rozkład P(X=i)=, i=1,...6. Ciągła zmienna losowa Prawdopodobieństwo przyjęcia każdej ustalonej wartości wynosi zero, np. P(X=3.141596535897933)=0 Na tym kursie będziemy rozważać tylko zmienne losowe ciągłe opisane funkcją gęstości f(x). Dystrybuanta zmiennej X: Dla liczby definiujemy F X x) = Własności: F X (x) jest funkcją niemalejącą, ciągłą z prawej strony, oraz lim lim x x x ( P( X x) F( x) = F( x) = Narysuj dystrybuantę dyskretnej zmiennej losowej X takiej, że P(X=0)=1/3 oraz P(X=1)=/3. Narysuj dystrybuantę rozkładu jednostajnego na odcinku [a,b]. 1
Wartość oczekiwana i wariancja (wzory). Z mienna losow a dyskretna µ x :=E(X)= Σx i P(X= x i )=Σx i p i Var(X)= Σ(x i - µ x ) P(X= x i ) = Σx i p i - µ x Przykład 1 (rzut monetą, X=1, gdy orzeł, X=0, gdy reszka) E(X)= Var(X)= Przykład (X=wynik rzutu kostką) E(X)= Var(X)= ozkład dwupunktowy z parametrem P(Y=1)=p, P(Y=0)=1-p. blicz: EY= VarY= 0 p 1 Wartość oczekiwana i wariancja, cd. Z m ienna losow a ciągła Wartość oczekiwana jest środkiem ciężkości figury określonej przez krzywą gęstości. EX = Var(X) = x f(x) dx - (x - EX) f(x) dx = x f(x)dx (EX) Przykład: rozkład jednostajny na [0,1]. Własności wartości oczekiwanej i wariancji E(aX+b)=aEX+b Var(aX+b)=a Var(X)
Dla dwóch zmiennych losowych X i Y: E(X+Y)=EX+EY E(X-Y)=EX-EY E(aX+bY+c)= Niezależność zmiennych losowych: Jeżeli zmienne X i Y są niezależne to dla każdej pary zdarzeń A i B P( X A, Y B) = P( X A) P( Y B) Przykład1: Wybieramy (losowo) liczbę dwucyfrową; X:=liczba dziesiątek, Y:=liczba jedności, A={1, }, B={3, 4, 5}. Niezależność zmiennych losowych, cd. Przykład : Wybieramy (losowo) liczbę z zakresu 1,...,101; X:=cyfra dziesiątek, Y:=cyfra jedności, A={1, }, B={3, 4, 5}. Jeżeli X i Y są niezależne, to E(XY)=E(X) E(Y) i Var(X+Y)=Var(X)+Var(Y). Przykład 3: Liczby oczek, X, Y, w dwóch kolejnych rzutach kostką. Ćwiczenia: X i Y niezależne Var(X-Y)= Schemat Bernoulliego i rozkład dwumianowy Anita, Beata i Krystyna rzucają monetą i podają łączną liczbę orłów,y. Podaj rozkład zmiennej Y Var(X+X)= A B K P-stwo Zdarzenie 3 (0) (1) 1 () 0 (3) P-stwo 3
Histogram rozkładu w populacji. Populacja = wszystkie rzuty trzema monetami Pr(Y=y) 0,4 0,3 0, 0,1 0 ozkład dwumianowy (n=3,p=0.5) 0 1 3 y Schemat Bernoulliego: n niezależnych powtórzeń tego samego eksperymentu dwa możliwe wyniki w każdej próbie - ``sukces i ``porażka (np. i, albo 1 i 0) w każdej próbie p-stwo sukcesu wynosi p ozkład dwumianowy: Y = łączna liczba sukcesów w schemacie Bernoulliego Przykłady: liczba orłów na 5 rzutów, liczba wyzdrowień wśród 10 pacjentów poddanych pewnej kuracji ozkład dwumianowy: P( Y = n y) = p y n gdzie = y y = 0,1,..., n y (1 p) n!, y!( n y)! n y, n Niektóre własności symbolu Newtona y Liczba możliwych ciągów y sukcesów i n-y porażek n n = = 0 n n n = = n 1 1 gólnie n n = y n y 3 = 0 P( Y = 0) = W przykładzie p=1/; 3 = 1 P( Y = 1) = 3 = P( Y = ) = Uwaga: ozkład dwumianowy jest symetryczny dla p=1/. 3 = 3 P( Y = 3) = Funkcje w pbinom(x,n,p) dystrybuanta w punkcie x dbinom(x,n,p) P(X=x) qbinom(q,n,p) kwantyl rzędu q - najmniejsza wartość x taka, że F(x) >= q, gdzie F jest dystrybuantą rbinom(m,n,p) generator losowy, m-liczba obserwacji 4
Przykład: Efekt uboczny lekarstwa 0% ludzi dostaje nudności po zażyciu pewnego lekarstwa Lekarz przepisał lekarstwo czterem nowym pacjentom Y liczba pacjentów w naszej próbie, którzy dostali nudności Podaj rozkład zmiennej Y P(co najmniej dwóch dostanie nudności) = P(co najwyżej jeden dostanie nudności) = Parametry rozkładu dwumianowego EY = np Przykład Jeden na ośmiu dorosłych mężczyzn ma podniesiony poziom cholesterolu. Losowo wybieramy 10 mężczyzn z populacji. Jakie jest p-stwo, że (dokładnie) spośród nich ma podniesiony poziom cholesterolu? Var Y=np(1-p) ozkład norm alny Jakie jest p-stwo, że co najmniej jeden z nich ma podniesiony poziom cholesterolu? Ilu średnio mężczyzn na dziesięciu ma podwyższony poziom cholesterolu? Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych Przykłady: Błąd pomiarowy Wzrost, wydajność Temperatura ciała Zawartość różnych składników we krwi 5
Funkcja gęstości Y ~ N(µ,σ) µ - wartość oczekiwana, σ - odchylenie standardowe f 1 ( y) = e σ π ( y µ ) σ Standardow y rozkład normalny N(0,1) Parametry: µ =0,σ=1 Do oznaczenia zmiennej losowej o rozkładzie N(0,1) będziemy używali litery Z Dystrybuanta rozkładu normalnego N(0,1): Test: Φ(0)= Φ(x)=P(Z < x). Tablica dystrybuanty Φ(x) (z Introduction to the Practice of Statistics, Moore, McCabe) Funkcja w pnorm(x) P(Z < 0.95) = P(Z <= 0.95) = P(Z > 0.75) = P(Z < - 1.5)= P(1.1 < Z <.4)= P(Z>1.96)= Pożyteczne wzory Φ(-x) = P(Z > z) = P(z 1 < Z < z ) = blicz: Pr( Z > 1.96) = 6
Dowolny rozkład normalny: N(µ, σ) Załóżmy, że poziomy cholesterolu w pewnej populacji mają rozkład normalny o średniej µ = 0 i odchyleniu standardowym σ = 40. Y ma rozkład N(0, 40) Jaka część populacji ma poziom cholesterolu powyżej 40? Y ~ N(µ,σ) Standardyzacja (Y-µ)/σ ma rozkład normalny! znaczmy Z= (Y-µ)/σ. Mamy: EZ= Var(Z)= Zatem Z~ N(0,1)! Przykład cd. P (Y > 40)=? P(Y>y), gdzie y=40. znaczamy z = (y-µ)/σ = (40-0)/40 = 0.5. P(Y > 40) = P(Z > 0.5)= Funkcja w : P(Y<t)=pnorm(t,mean,sd) Jakie jest p-stwo, że u losowo wybranej osoby cholesterol będzie pomiędzy 00 a 60? blicz P(Y < 170) P(00 < Y < 60) = 7
eguła 68% 95% 99.7% (reguła 3σ ) Jeżeli zmienna X ma rozkład normalny, to P(µ-σ<X<µ+σ)= P(µ-σ<X<µ+σ)= P(µ-3σ<X<µ+3σ)= Kwantyle W jakim punkcie y dystrybuanta osiąga zadaną wartość p? Przykłady: Mediana to kwantyl rzędu 50%. Trzeci kwartyl to kwantyl rzędu 75%? Funkcja w qnorm(q, mean,sd) Znajdź trzeci kwartyl rozkładu opisującego poziom cholesterolu. Znajdź kwantyl rzędu 0.1 dla rozkładu poziomów cholesterolu. cena normalności Znaczna część procedur statystycznych, które poznamy w dalszej części kursu wymaga założenia, że próba pochodzi z populacji o rozkładzie normalnym. Założenie to można sprawdzać np. wykonując proste obliczenia lub rysując wykres kwantyl-kwantyl. eguła 3σ Policzmy procent obserwacji, które znajdują się w odległości ± 1s, ± s and ± 3s od y. Przykład: poziomy serum CK n = 36, y = 98.8 i s = 40.38. 6/36 = 7% obserwacji jest w przedziale y ± 1s 34/36 = 94% obserwacji jest w przedziale y ± s 36/36 = 100% obserwacji jest w przedziale y ± 3s To w przybliżeniu odpowiada wartościom dla rozkładu normalnego. K. 8
a Wykres kwantyl-kwantyl (QQ plot) [qqnorm, qqline w ] Data :61.0 6.5 63.0 64.0 64.5 65.0 66.5 67.0 68.0 68.5 70.5 6 64 66 68 70-1 0 1 Quantiles of Standard Normal Korekta na ciągłość Niekiedy używamy rozkładu normalnego dla opisu rozkładu danych, które nie są ciągłe. Powody: Dyskretyzacja pomiarów Niektóre rozkłady dyskretne można dobrze przybliżać rozkładem normalnym (np. rozkład dwumianowy) Korektę można zaniedbać, gdy zbiór możliwych do uzyskania wartości jest duży i rozmiar próby jest duży. Przykład: wyniki testu. Załóżmy, że µ = 100 i σ = 16. Wynik to liczba całkowita nie pochodzi z rozkładu ciągłego. Jak użyć rozkładu normalnego? Przypisujemy liczbie całkowitej y p-stwo odcinka od y-.5 do y+.5 Przybliżenie rozkładu dw um ianow ego rozkładem norm alnym Jakie jest p-stwo, że losowo wybrany student uzyska(ł) wynik pomiędzy 10 a 140 punktów. Po co? Gdy n jest duże, to mamy bardzo dużo możliwych wartości Y. Gdy n jest duże, to symbole Newtona są trudne do wyliczenia. Przybliżenie działa tym lepiej, im p jest bliższe 0.5, i im większe jest n. 9
ozkład dwumianowy z parametrami n i p przybliżamy rozkładem normalnym z parametrami µ=np i σ= np(1 p). Przybliżenie jest dość dobre, gdy np 5 i n(1-p) 5 Przybliżenie jest dość dokładne w centrum rozkładu i (względnie) gorsze w ogonach. Przykład Załóżmy, że Y ma rozkład dwumianowy z n=40 i p=0.5. Wtedy µ = np = i σ =. Sprawdzamy wielkość np oraz n(1-p). bliczmy p-stwo, że Y jest pomiędzy 10 i 15 (włącznie). P(10 Y 15)= Wynik dokładny = ozkłady próbkowe ozważmy populację o pewnym rozkładzie, np.: norm alnym N(µ, σ), lub dw upunktow ym, np. P(Y=sukces)=p, P(Y=porażka)=1-p Parametry populacji: µ i σ, lub p. Bierzemy próbę o rozmiarze n z populacji. Wynik: y 1, y n, lub y = sumaryczna liczba sukcesów. bliczamy estymatory y i s, lub Gdy n jest duże, estymatory są na ogół bliskie parametrom które estymują. ozkłady próbkowe, cd. Jak bardzo estymatory mogą sią różnić od prawdziwych parametrów? Co się stanie, jeżeli wylosujemy inną próbę? trzymamy inne wartości y i s, lub Interesuje nas rozkład (próbkowy) y,s,. Meta-eksperyment Wyobraźmy sobie, że powtarzamy eksperyment wiele razy Interesuje nas rozkład wszystkich możliwych do uzyskania wartości y, s lub. Taki rozkład będziemy nazywali rozkładem próbkowym estymatora. Zwykle próbkujemy tylko raz. ozkłady próbkowe można obliczyć teoretycznie. 10
ozkład próbkowy estymatora dla p w rozkładzie dwupunktowym Y = liczba sukcesów w n próbach y = zaobserwowana liczba sukcesów = Y/n jest estymatorem p Przykład: Producent ocenia, że % jego wyrobów jest wadliwych. Wyroby te paczkuje się po 40 w jednym opakowaniu. Y = liczba wadliwych wyrobów w losowo wybranej paczce. Y ma rozkład... Niech = Y/40 = frakcja elementów wadliwych. P( = r ) = Gdybyśmy otworzyli tysiące paczek, to rozkład frakcji liczby wadliwych elementów w paczce byłby zgodny z rozkładem wyliczonym na poprzedniej stronie. ozkład wyznaczamy przy pomocy (dwumianowego) rozkładu Y! ˆ = = = = = 0 40 Pr( p 0) Pr( Y 0) (1)(.0) (.98) 0.45 pˆ = = Y = = = 1 39 Pr( 0.05) Pr( 1) (40)(.0) (.98) 0.36 pˆ = = Y = = = 38 Pr( 0.05) Pr( ) (780)(.0) (.98) 0.14 pˆ = = Y = = = 3 37 Pr( 0.075) Pr( 3) (9880)(.0) (.98) 0.04 Pr( pˆ 0.1) = Pr( Y 4) 0.01 Prawdziwa wartość p jest 0.0 i nie jest nawet możliwa do zaobserwowania w pojedynczym eksperymencie, ale na ogół otrzymamy wartości bliskie 0.0. P-stwo, że = 0.05 wynosi 36%. P-stwo, że nasza ocena będzie różnić się nie więcej niż o 0.03 od prawdziwej wartości wynosi:... Zatem, jeżeli znajdziemy 3 lub więcej wyrobów wadliwych w jednej paczce mamy podstawy, żeby kwestionować twierdzenie producenta o p! Przykład n=40 i p = 0.0. Jakie jest p-stwo, że estymator częstości przekracza dwukrotnie (lub więcej) prawdziwą wartość? Zależność od rozmiaru próby Y ma rozkład Bernoulliego (n,p) µ Y =np Var (Y)=np(1-p) = µ = Var ( )= 11
Gdy n rośnie, to wariancja... i estymator staje się bardziej... Przykład; p=0.3. ozkład n 10 0 40 80 500 (gdy p=0.3) P(0.5 0.35) 0.5 0.535 0.61 0.78 0.987 1