Twierdzenie 1. Je»eli X 1, X 2,..., X n jet ci giem niezale»nych zmiennych loowych o jednakowym rozkªadzie normalnym N(m, σ), to zmienna loowa: ma rozkªad normalny N(m, σ n ). X := 1 n Przykªad: 1. Wiadomo,»e wzrot (w cm) m»czyzn z rocznika 1989 ma rozkªad normalny N(177; 5). Wyloowano 16 kart zdrowia oób z z tego rocznika. Jakie jet prawdopodobie«two,»e ±rednia wzrotu obliczona na podtawie tych kart b dzie zawiera i w przedziale (176, 178)? Znamy tylko odchylenie tandardowe σ = 5 i chcemy ozacowa nieznan ±redni. Loowa próba 16-tu kart daªa ±redni X = 177. Zbudowa ymetryczny wzgl dem X przedziaª, w którym, z prawdopodobie«twem 0, 95, zawiera i nieznana ±rednia ogóªu m»czyzn z rocznika 1989. Populacja generalna - zbiór dowolnych obiektów nieidentycznych ze wzgl du na badan cech X (zmienn loowa X przyporz dkowuje loowemu obiektowi warto± cechy). Próba prota - loowo wybrany podzbiór populacji generalnej dot pny bezpo±redniej oberwacji ze wzgl du na badan cech (ci g niezale»nych X 1, X 2,..., X n zmiennych loowych o tym amym rozkªadzie co populacja generalna). Statytyka - dowolna funkcja próby protej Z = f(x 1, X 2,..., X n ). Etymator - tatytyka θ n ªu» ca do ozacowania warto±ci parametru θ rozkªadu populacji generalnej (zmiennej loowej). Etymator nazywamy zgodnym (zbie»nym tochatycznie) gdy dla dowolnego ε > 0 zachodzi: X i lim P ( θ n θ < ε) = 1. n Etymator nazywamy nieobci»onym gdy a aymptotycznie nieobci»onym gdy tzn. obci»enie E( θ n ) = θ lim E( θ n ) θ = 0 n E( θ n ) θ d»y do 0 wraz ze wzrotem liczebno±ci próby. 1
Najwa»niejze etymatory rednia z próby X := 1 n jet zgodnym i nieobci»onym etymatorem warto±ci oczekiwanej. Wariancja z próby 2 = 1 (X i X) 2 n jet zgodnym i aymptotycznie nieobci»onym etymatorem wariancji. ŝ 2 = 1 n 1 X i (X i X) 2 jet zgodnym i nieobci»onym etymatorem wariancji. Rozkªady prawdopodobie«twa tatytyk Denicja 1. Rozkªad χ 2 n (chi kwadrat) Pearona o n topniach wobody, to rozkªad tatytyki: χ 2 n = X 2 1 + X 2 2 +... + X 2 n gdzie X 1, X 2,..., X n niezale»nymi zmiennymi i jednakowym rozkªadzie normalnym N(0, 1). Denicja 2. Rozkªad t Studenta o n topniach wobody, to rozkªad tatytyki: t = t n = X χ 2 n /n gdzie X ma rozkªad normalny N(0, 1) i zmienne X i χ 2 n niezale»ne. Uwaga 1. Rozkªady χ 2 n i t-studenta aymptotycznie normalne. Dokªadniej: przy n, 2χ 2 n N( 2n 1, 1) i t n N(0, 1).W praktyce dla n 30 korzytamy z przybli»e«rozkªadem normalnym. Tablice podaj dla danej ilo±ci wobody kwantyle b d¹ warto±ci krytyczne. Przedziaªy ufno±ci dla ±redniej Na podtawie wyników próby protej chcemy ozacowa nieznan warto± oczekiwan badanej cechy buduj c przedziaª, który pokrywa t warto± z du»ym prawdopodobie«twem 1 α nazywanym poziomem ufno±ci. I model: Populacja generalna ma rozkªad normalny o znanym odchyleniu tandardowym σ. Statytyka ma rozkªad N(0, 1). U = X m n σ 2
σ σ P (X u α < m < X + u α ) = 1 α n n gdzie n jet liczebno±ci próby u α jet kwantylem rz du 1 1 2 α rozkªadu N(0, 1) (tzn. P U > u α = α). II model: Populacja generalna ma rozkªad normalny o nieznanym odchyleniu tandardowym. Liczebno± próby jet maªa (n 30). Statytyka t = X m X m n 1 = n ŝ ma rozkªad t Studenta o n 1 topniach wobody. P (X t α < m < X + t α ) = 1 α n 1 n 1 gdzie t α jet kwantylem rz du 1 1 2α rozkªadu t Studenta o n 1 topniach wobody (tzn. P t > t α = α). III model: Populacja generalna ma dowolny rozkªad o ko«czonej ±redniej i wariancji. Próba jet du»a (n > 30) Statytyka ma rozkªad N(0, 1). U = X m n P (X u α < m < X + u α ) = 1 α n n gdzie n jet liczebno±ci próby u α jet kwantylem rz du 1 1 2 α rozkªadu N(0, 1) (tzn. P U > u α = α). Szereg rozdzielczy: Uporz dkowanie wyników du»ej próby przez podziaª zakreu zmienno±ci oberwowanej cechy na przedziaªy tej amej dªugo±ci, tzw. przedziaªy klaowe, które lewotronnie domkni te. Zamiat dokªadnych pojedynczych wyników podane ilo±ci wyników, których warto±ci miezcz i w danym przedziale, tzw. liczebno±ci przedziaªów n i. Etymatory ±redniej i wariancji wyznaczone na podtawie zeregu rozdzielczego: X := 1 n k x i n i 2 = 1 n k (x i X) 2 n i 3
gdzie k jet ilo±ci przedziaªów, x i ±rodkami przedziaªów, n = liczebno±ci próby. k n i jet ª czn Przykªad: 2. W pewnym do±wiadczeniu farmakologicznym bada i utlenianie tkankowe w troby królików. Dokonano 40 pomiarów tego utleniania i otrzymane wyniki przedtawiono w zeregu rozdzielczym (podana jet ilo± tlenu zu»ytego w ci gu jednej godziny przez 100 mg wilgotnej tkanki). ilo± zu»ytego tlenu liczba pomiarów 15 25 4 25 35 6 35 45 12 45 55 9 55 65 6 65 75 3 Przyjmuj c wpóªczynnik ufno±ci 0,95 ozacowa metod przedziaªow ±redni ilo± zu»ywanego tlenu. Przykªad: 3. 10 wyloowanych zgªoze«kandydatek tartuj cych w konkurie Mi Polonia daªo nat puj ce wynik wzrotu (w cm): 171, 172, 179, 170, 180, 176, 176, 175, 172, 169. Przyjmuj c wpóªczynnik ufno±ci 0,9 ozacowa ±redni wzrotu wzytkich kandydatek. Wyznaczanie liczebno±ci próby niezb dnej do uzykania zadanej dokªadno±ci ozacowania ±redniej. Zakªadamy,»e poªowa dªugo±ci przedziaªu, nie mo»e przekroczy warto±ci d. n > u2 ασ 2 d 2 n > t2 αŝ 2 d 2 (n > 1 + t2 α 2 d 2 ) odpowiednio dla rozkªadu normalnego i t-studenta. Ile kart zgªoze«nale»y doloowa w otatnim przykªadzie by uzyka przedziaª o dªugo±ci 2 cm? Przedziaªy ufno±ci dla wariancji (i odchylenia tandardowego) Dla populacji generalnej o rozkªadzie normalnym N(m, σ) z nieznanymi parametrami zacujemy warto± wariancji na podtawie wyników n-elementowej próby protej. I model: Próba maªa (n 30). Statytyka χ 2 = n2 σ 2 4
środek liczebność n i x i (x i -X) 2 (x i -X) 2 n i 20 4 80 576 2304 30 6 180 196 1176 40 12 480 16 192 50 9 450 36 324 60 6 360 256 1536 70 3 210 676 2028 umy 40 1760 7560 średnia wariancja kwantyl 44 189 1,96 39,739535 < m < 48,26 11,276627 < < 17,606 5
x i (x i -X) 2 171 9 172 4 179 25 średnia wariancja kwantyl 170 16 174 12,8 1,83 180 36 176 4 171,8176 < m < 176,1824 176 4 d = 2,182402 175 1 172 4 169 25 1740 128 6
ma rozkªad χ 2 Pearona o n 1 topniach wobody. Dla zaªo»onego poziomu ufno±ci 1 α odczytujemy z tablic rozkªadu χ 2 kwantyle c 1 i c 2 odpowiednio rz du 1 2 α i 1 1 2 α. Wówcza: ( n 2 ) P < σ 2 < n2 = 1 α. c 2 c 1 II model: Próba du»a n > 30. Korzytamy ze zbie»no±ci tatytyki 2χ 2 n 2n 1 N(0, 1) i dotajemy ( P 1 + u < σ < α 2n 1 u α 2n ) = 1 α gdzie u α jet kwantylem rz du 1 1 2α rozkªadu N(0, 1). Przykªad: 4. W przykªadzie z utlenianiem w troby królika wyznaczy przedziaª ufno±ci dla odchylenia tandardowego. Przyj poziom ufno±ci 1 α = 0, 95. Przykªad: 5. Pewien automat w fabryce czekolady wytwarza tabliczki czekolady o nominalnej wadze 200 g. Wiadomo,»e rozkªad wagi produkowanych tabliczek jet normalny N(m, 5). Kontrola techniczna pobraªa, prób 16 tabliczek i otrzymaªa ich ±redni wag 195 g. Czy mo»na twierdzi,»e automat rozregulowaª i i produkuje tabliczki o mniejzej ni» powinien wadze? Potawi i zwerykowa odpowiedni hipotez tatytyczn. Przyj poziom itotno±ci α = 0, 05. Parametryczne tety itotno±ci Stawiamy hipotez dotycz c warto±ci parametru rozkªadu (±redniej lub wariancji), tzw. hipotez zerow H 0 przeciw pewnej hipotezie alternatywnej (H 1 ). Przykªadowo: H 0 : m = m 0. Przy zaªo»eniu prawdziwo±ci hipotezy H 0 znany jet rozkªad odpowiedniej tatytyki. W oparciu o to zaªo»enia budujemy tzw. obzar krytyczny czyli obzar, w którym warto± tatytyki mo»e znale¹ i z maªym utalonym wcze±niej prawdopodobie«twem α nazywanym poziomem itotno±ci. Zwykle przyjmuje i α = 0, 05 lub 0, 01 Je±li wyznaczona na podtawie wyników próby warto± tatytyki wpadnie w obzar krytyczny, to H 0 odrzucamy na korzy± H 1. Je±li warto± tatytyki, nie znajdzie i w obzarze krytycznym, to twierdzamy,»e nie ma podtaw do odrzucenia H 0. Bª d pierwzego rodzaju polega na odrzuceniu hipotezy prawdziwej. 7
Prawdopodobie«two popeªnienia bª du pierwzego rodzaju, to poziom itotno±ci α. Bª d drugiego rodzaju polega na przyj ciu hipotezy faªzywej. Je±li nie twierdzimy prawdziwo±ci H 0 tylko,»e nie ma podtaw do jej odrzucenia, to unikamy bª du drugiego rodzaju. Kztaªt obzaru krytycznego zale»y od przyj tej hipotezy alternatywnej H 1. H 1 : m m 0 obzar dwutronny obejmuje warto±ci mniejze od kwantyla rz du 1 2 α i wi kze od kwantyla rz du 1 1 2 α. H 1 : m > m 0 obzar prawotronny obejmuje warto±ci wi kze od kwantyla rz du 1 α. H 1 : m < m 0 obzar lewotrony obejmuje warto±ci mniejze od kwantyla rz du α. Tety itotno±ci dla ±redniej (H 0 : m = m 0 ) I model: Populacja generalna ma rozkªad normalny o znanym odchyleniu tandardowym σ. Statytyka: ma rozkªad N(0, 1). U = X m 0 n σ II model: Populacja generalna ma rozkªad normalny o nieznanym odchyleniu tandardowym. Liczebno± próby jet maªa (n 30). Statytyka: t = X m 0 X m n 1 = n ŝ ma rozkªad t Studenta o n 1 topniach wobody. III model: Populacja generalna ma dowolny rozkªad o ko«czonej ±redniej i wariancji. Próba jet du»a (n > 30). Statytyka ma rozkªad N(0, 1). U = X m 0 n 8
Tety itotno±ci dla dwóch ±rednich (H 0 : m 1 = m 2 ) Porównujemy dwie populacja generalne o rozkªadach N(m 1, σ 1 ), N(m 2, σ 2 ). Loujemy prób liczebno±ci n 1 z pierwzej i liczebno±ci n 2 z drugiej populacji. Zakªadamy prawdziwo± hipotezy H 0. I model: Odchylenia tandardowe σ 1, σ 2 znane. Statytyka: ma rozkªad N(0, 1). u = X 1 X 2 σ1 2 + σ2 2 n 1 n 2 II model: Odchylenia tandardowe σ 1, σ 2 nieznane ale równe (zakªadamy,»e σ 1 = σ 2 ). Liczebno±ci prób maªe. Statytyka: X 1 X 2 t = n 1 2 1 + n 2 2 2 n 1 + n 2 2 ( 1 + 1 ) n 1 n 2 ma rozkªad t Studenta o n 1 + n 2 2 topniach wobody. III model: Próby du»e. Statytyka ma rozkªad N(0, 1). u = X 1 X 2 2 1 + 2 2 n 1 n 2 Uwaga 2. W niektórych ytuacjach zamiat tetu porównania dwóch ±rednich mo»na zatoowa tet dla ró»nicy zmiennych loowych i werykowa hipotez H 0 : m = 0 dla tak okre±lonej zmiennej. Typowa ytuacja: oba pomiary dotycz tych amych oobników np. przed operacj i po. Przykªad: 6. Zmierzono cza reakcji na pewien bodzie u 8 kierowców badanych w pracowni pychotechnicznej przed i 15 minut po wypiciu 100 g wódki. Wyniki (w ekundach) byªy nat puj ce: przed 0,22 0,18 0,16 0,19 0,20 0,23 0,17 0,25 po 0,28 0,25 0,20 0,30 0,19 0,26 0,28 0,24 Czy mo»na twierdzi,»e wódka zwi kza cza reakcji na bodziec? Przyj poziom itotno±ci α = 0, 05. Zatoowa tet ró»nic. 9
xi yi zi=yi-xi (zi-śr.)^2 0,22 0,28 0,06 0,0001 0,18 0,25 0,07 0,0004 0,16 0,2 0,04 1E-04 0,19 0,3 0,11 0,0036 0,2 0,19-0,01 0,0036 0,23 0,26 0,03 0,0004 0,17 0,28 0,11 0,0036 0,25 0,24-0,01 0,0036 0,4 0,0154 średnia= 0,05 0,001925 wariancja 0,043874822 odchylenie t= 3,0151134 kierowcy poziom itotn.= 0,05 kwantyl 1,89 10
Tety dla wariancji i odchylenia tandardowego Stawiamy hipotez o warto±ci nieznanej wariancji (odchylenia tandardowego) populacji o rozkªadzie normalnym: I model: Próba maªa. Statytyka H 0 : σ 2 = σ 2 0 (σ = σ 0 ). χ 2 = n2 σ 2 0 ma rozkªad χ 2 o n 1 topniach wobody. II model: Próba du»a. Korzytamy z przybli»enia rozkªadem normalnym. Statytyka u = 2χ 2 2n 1 ma rozkªad N(0, 1). 1. Oczywi±cie jak zwykle tatytyki maj podane rozkªady przy zaªo»eniu prawdziwo±ci H 0. Zmienne loowe dwuwymiarowe Je±li X, Y zmiennymi okre±lonymi na tej amej przetrzeni probabilitycznej, to par (X, Y ) nazywamy zmienn loow dwuwymiarow. Dytrybuant zmiennej (X, Y ) nazywamy funkcj (dwóch zmiennych!) F : R 2 [0, 1] okre±lon wzorem F (x, y) = P (X < x Y < y). Dla typu kokowego rozkªad zmiennej (X, Y ) okre±lamy podaj c zbiory {x 1, x 2,..., x m }, {y 1, y 2,..., y n } i prawdopodobie«twa p ik := P (X = x i, Y = y k ). Rozkªady brzegowe, to znaczy rozkªady zmiennych X i Y wyznaczamy nat puj co: m p i := P (X = x i ) = p ik, p k := P (Y = y k ) = k=1 Tabela rozkªadu zmiennej dwuwymiarowej typu kokowego Y X x 1 x 2 x m y 1 p 11 p 21 p m1 p 1 y 2 p 12 p 22 p m2 p 2........ y n p 1n p 2n p mn p n p 1 p 2 p m 1 p ik 11
Denicja 3. Kowariancj zmiennej loowej dwuwymiarowej nazywamy parametr Cov(X, Y ) := E((X E(X)(Y E(Y )) = E(XY ) E(X)E(Y ). Wpóªczynnikiem korelacji nazywamy ρ(x, Y ) = Cov(X, Y ) D(X)D(Y ). Kowariancja dla zmiennych typu kokowego Cov(X, Y ) = i,k (x i m X )(y k m Y )p ik = i,k x i y k p ik m X m Y gdzie m X = E(X) = m x i p i ; m Y = E(Y ) = y k p k wyznaczane z rozkªadów brzegowych (podobnie jak odchylenia tandardowe, które potrzebne do wyznaczenia wpóªczynnika korelacji). Kowariancja i wpóªczynnik korelacji miar zale»no±ci liniowej mi dzy zmiennymi X, Y. ρ(x, Y ) 1, je»eli X, Y niezale»ne, to ρ(x, Y ) = 0, ρ = 1 wtedy i tylko wtedy, gdy itniej takie taªe a, b,»e P (Y = ax + b) = 1. Przykªad: 7. Do±wiadczenie polega na 3-krotnym rzucie monet. Zmienna X liczy ilo± orªów w tym do±wiadczeniu, a zmienna Y przyjmuje warto± 1 gdy orªów jet wi cej i 0 gdy wi cej jet rezek. Okre±li rozkªad zmiennej dwuwymiarowej (X, Y ). Wyznaczy wpóªczynnik korelacji. Etymator wpóªczynnika korelacji: (x i X)(y i Y ) x i y i 1 n x i y i n r = = n (x i X) 2 (y i Y ) 2 ( x 2 i 1 n n ( x i ) 2 )( yi 2 1 n n ( y i ) 2 ) k=1 12
Werykacja hipotezy o i itnieniu korelacji H 0 : ρ = 0 (zmienne nie korelowane) H 1 : ρ 0 zmienne korelowane lub H 1 : ρ > 0 itnieje dodatnia korelacja mi dzy X i Y lub H 1 : ρ < 0 itnieje ujemna korelacja mi dzy X i Y. Przy zaªo»eniu prawdziwo±ci H 0 tatytyka t = r 1 r 2 n 2 ma rozkªad t-studenta o n 2 topniach wobody. W przypadku odrzucenia hipotezy o braku korelacji wyznacza i zwykle prot regreji drugiego rodzaju. Regreja Denicja 4. Prot regreji lub regrej drugiego rodzaju nazywamy funkcj liniow y = ax + b, dla której wyra»enie E(Y ax b) 2 oi ga warto± najmniejz. Wykre tej funkcji nazywamy prot regreji. Twierdzenie 2. Wpóªczynniki protej regreji wyra»aj i wzorami: a = cov(x, Y ) σ 2 X = ρ σ Y σ X b = E(Y ) ae(x), a ich etymatory odpowiednio a = cov(x, Y ) 2 X = ρ Y X b = Y ax. Przykªad: 8. Wyloowano 10 par zawieraj cych zwi zek maª»e«ki i otrzymano dla nich dane o wieku ( w latach) kobiety i m»czyzny: wiek kobiety 23 24 29 27 33 29 19 22 21 23 wiek m»czyzny 27 28 30 30 35 41 22 25 26 26 Na poziomie itotno±ci α = 0, 05 zwerykowa hipotez,»e itnieje dodatnia korelacja mi dzy wiekiem oób zawieraj cych maª»e«two.wyznaczy prot regreji. 13
x i y i ax i +b (x i -X) 2 (y i -Y) 2 (xi-x)(yi-y) 23 27 26,89 4 4 4 24 28 27,95 1 1 1 29 30 33,21 16 1 4 n = 10 27 30 31,11 4 1 2 X= 25 33 35 37,42 64 36 48 Y= 29 29 41 33,21 16 144 48 19 22 22,68 36 49 42 r = 0,8355 22 25 25,84 9 16 12 t = 4,30063 21 26 24,79 16 9 12 kwantyl 1,86 23 26 26,89 4 9 6 a = 1,052941 250 290 290,00 170 270 179 b = 2,676471 14
wiek mężczyzny 45 40 35 30 25 20 18 23 28 33 wiek kobiety 15