Statystyka matematyczna - ZSTA LMO Šukasz Smaga Wydziaª Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza w Poznaniu Wykªad 4 Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 1 / 18
Wykªad 4 - zagadnienia test znaków dla jednej próby zastosowanie testu znaków w problemie jednorodno±ci dwóch prób zale»nych rangi testy oparte na rangach test W Wilcoxona test U Manna-Whitneya Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 2 / 18
Test znaków dla jednej próby Zaªó»my,»e X = (X 1, X 2,..., X n ) jest prób prost z populacji o rozkªadzie opisanym ci gª dystrybuant F. Werykujemy hipotez zerow dotycz c kwantyla z rozkªadu o dystrybuancie F. Dokªadniej: H 0 : F 1 (p) = a przeciwko ró»nym hipotezom alternatywnym, gdzie p (0, 1) i a R s ustalone. Na przykªad dla p = 1 2 otrzymujemy median (F 1 ( 1 2 ) = Me), dla p = 1 4 otrzymujemy pierwszy kwartyl (F 1 ( 1 4 ) = Q 1), dla p = 3 4 otrzymujemy trzeci kwartyl (F 1 ( 3 4 ) = Q 3). Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 3 / 18
Test znaków dla jednej próby Znakujemy prób X, tzn. konstruujemy prób Y = (Y 1, Y 2,..., Y n ), gdzie { 1, dla Xi > a, Y i = 0, dla X i < a. Poniewa» dystrybuanta F jest ci gªa, P(X i = a) = 0. Jednak, gdyby x i = a, to obserwacj x i usuwamy z próbki x. Statystyka testowa testu znaków ma posta n S(X) = Y i. i=1 H 1 : F 1 (p) a F 1 (p) < a F 1 (p) > a Obszar krytyczny B = {x : S(x) < k α lub S(x) > n k α }, k α -najwi ksze B = {x : S(x) < k α }, k α -najwi ksze B = {x : S(x) > k α }, k α -najmniejsze Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 4 / 18
Test znaków dla jednej próby Warto± k α wybieramy na podstawie warunku P 0 (X B) α korzystaj c z faktu,»e przy prawdziwo±ci hipotezy zerowej S b(n, 1 p). Przy du»ej liczebno±ci próby, wyznaczamy k α za pomoc rozkªadu granicznego podanego w nast puj cym twierdzeniu. Twierdzenie 1 Przy prawdziwo±ci hipotezy zerowej S n(1 p) np(1 p) d N (0, 1). Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 5 / 18
Zastosowanie testu znaków w problemie dwóch prób zale»nych Zaªó»my,»e X = (X 1, X 2,..., X n ), Y = (Y 1, Y 2,..., Y n ) s zale»nymi próbami prostymi z populacji o rozkªadach, których dystrybuanty F 1 i F 2 s ci gªe. Werykujemy ukªad hipotez H 0 : F 1 = F 2, H 1 : F 1 F 2. (1) Niech Z = (Z 1, Z 2,..., Z n ), gdzie Z i = Y i X i, i = 1, 2,..., n. Przy prawdziwo±ci hipotezy zerowej P 0 (Y i > X i ) = P 0 (Y i X i > 0) = P 0 (Z i > 0) = 1 2. St d gdy H 0 : F 1 = F 2, to H Z 1 0 : Me(Z) = 0 (FZ ( 1 2 ) = 0), gdzie Z Z i. Zatem w celu werykacji ukªadu hipotez (1) mo»emy wykorzysta test znaków zastosowany do próby Z i ukªadu hipotez H 0 : F 1 Z ( 1 2 ) = 0, H 1 : F 1 Z ( 1 2 ) 0. Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 6 / 18
Rangi Zaªó»my,»e X = (X 1, X 2,..., X n ) jest prób prost z populacji o rozkªadzie opisanym ci gª dystrybuant F. Rangujemy prób X, tzn. konstruujemy prób R = (R 1, R 2,..., R n ), gdzie R i = ranga(x i ). Przykªad 1 Niech x = (4, 7, 1, 5). Zatem x 1 = 4, x 2 = 7, x 3 = 1, x 4 = 5 oraz x (1) = 1, x (2) = 4, x (3) = 5, x (4) = 7. St d r = (2, 4, 1, 3). Z ci gªo±ci dystrybuanty F wynika,»e obserwacje x i, i = 1, 2,..., n powinny by parami ró»ne. Jednak, gdyby x i = x j, i j i wtedy x (k) = x (k+1) dla pewnego k, to obserwacjom x i i x j przypisujemy rangi k+(k+1) 2 = k + 1 2. Przykªad 2 Gdy x = (5, 7, 1, 5), x (1) = 1, x (2) = x (3) = 5, x (4) = 7 i r = (2.5, 4, 1, 2.5). Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 7 / 18
Rangi W takim ukªadzie suma rang nie zmienia si i zale»y tylko od liczby obserwacji. Jednak nie tylko suma rang jest staªa o czym mówi poni»szy lemat. Lemat 1 R = 1 n n i=1 R i = n + 1 2, S2 R = 1 n 1 n (R i R) 2 = i=1 n(n + 1) 12 Zatem R i SR 2 s staªe, wi c nie mo»na przy ich pomocy przeprowadzi»adnego wnioskowania. Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 8 / 18
Test W Wilcoxona Zaªó»my,»e X = (X 1, X 2,..., X n1 ), Y = (Y 1, Y 2,..., Y n2 ) s niezale»nymi próbami prostymi z populacji o rozkªadach, których dystrybuanty F µ1 i F µ2 s ci gªe oraz speªniaj warunek dla pewnej ci gªej dystrybuanty F. F µ (x) = F (x µ) Parametr µ nazywa si parametrem poªo»enia. Przykªadowo jest nim mediana w rozkªadzie normalnym, Laplace'a oraz Cauchy'ego. Werykujemy hipotez zerow H 0 : µ 1 = µ 2 przeciwko ró»nym hipotezom alternatywnym. Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 9 / 18
Test W Wilcoxona Rangujemy poª czon prób (X, Y) = (X 1,..., X n1, Y 1,..., Y n2 ), uzyskuj c próby R = (R 1, R 2,..., R n1 ) - rangi x-ów, S = (S 1, S 2,..., S n2 ) - rangi y-ów. Statystyka testowa testu W Wilcoxona (statystyka W Wilcoxona): n 2 W (X, Y) = S i. Przy prawdziwo±ci hipotezy zerowej, wszystkie ukªady rang s równo prawdopodobne. Oznacza to,»e rozkªad statystyki W Wilcoxona nie zale»y od dystrybuanty F przy prawdziwo±ci hipotezy zerowej. Liczba wszystkich ukªadów rang w poª czonej próbie wynosi ( n 1 +n 2 n 1 ) = ( n1 +n 2 n 2 ) = (n 1 +n 2 )! n 1!n 2!. H 1 : Obszar krytyczny i=1 µ 1 > µ 2 B = {(x, y) : W (x, y) k α }, k α -najwi ksze µ 1 < µ 2 B = {(x, y) : W (x, y) k α }, k α -najmniejsze Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 10 / 18
Test W Wilcoxona - przykªad Przykªad 3 Niech X = (X 1, X 2, X 3 ), Y = (Y 1, Y 2 ) b d dwiema niezale»nymi próbami prostymi z populacji o ci gªych dystrybuantach F µ1 i F µ2 odpowiednio, gdzie µ 1, µ 2 R s nieznanymi parametrami oraz dystrybuanta F µ speªnia warunek F µ (x) = F (x µ) dla pewnej ci gªej dystrybuanty F. Za pomoc testu Wilcoxona, werykujemy hipotez H 0 : µ 1 = µ 2 przy alternatywie H 1 : µ 1 > µ 2. 1 Wyznacz obszar krytyczny testu W Wilcoxona przy α = 0,1. 2 Wykonaj wyprowadzony test na nast puj cych danych x = (1, 3, 8) oraz y = (2, 7). Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 11 / 18
Test W Wilcoxona - przykªad Wyznaczamy rozkªad statystyki W przy prawdziwo±ci hipotezy zerowej. Liczba ukªadów rang w poª czonej próbie wynosi (3+2)! 3!2! = 10. Wszystkie ukªady rang i odpowiadaj ce im warto±ci statystyki W Wilcoxona przedstawia tabela: Ukªad rang w rrrss 9 rrsrs 8 rrssr 7 rsrrs 7 rsrsr 6 rssrr 5 srrrs 6 srrsr 5 srsrr 4 ssrrr 3 Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 12 / 18
Test W Wilcoxona - przykªad Zatem rozkªad statystyki W Wilcoxona przy prawdziwo±ci hipotezy zerowej przedstawia poni»sza tabela: w 3 4 5 6 7 8 9 P 0 (W = w) 1 10 1 10 Wyznaczamy staª k α, pojawiaj c si w obszarze krytycznym, na podstawie warunku 2 10 2 10 2 10 1 10 P 0 ((X, Y) B) = P 0 (W k α ) α. Skoro α = 0,1 i P 0 (W 3) = P 0 (W = 3) = 0,1, to k α = 3 i obszar krytyczny testu W Wilcoxona ma posta : B = {(x, y) : W (x, y) 3}. 1 10 Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 13 / 18
Test W Wilcoxona - przykªad Dla danych x = (1, 3, 8) oraz y = (2, 7) mamy: xy (1) = 1, xy (2) = 2, xy (3) = 3, xy (4) = 7, xy (5) = 8, a st d Zatem r = (1, 3, 5), s = (2, 4). W (x, y) = 2 + 4 = 6. Skoro W (x, y) = 6 > 3 = k α, to nie ma podstaw do odrzucenia H 0. Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 14 / 18
Test W Wilcoxona Twierdzenie 2 Gdy w statystyce testowej testu t-studenta dla dwóch prób niezale»nych zmienne X i i Y j zast pimy przez ich rangi R i i S j, i = 1,..., n 1, j = 1,..., n 2, uzyskane wyra»enie b dzie ±ci±le monotoniczn funkcj statystyki W Wilcoxona. T (X, Y) = X Ȳ n1 n 2 (n1 1)SX 2+(n 2 1)SY 2 n 1 + n 2 T W (R, S) = n 1 +n 2 2 R S n1 n 2 n 1 + n 2 = (n1 1)S 2 R +(n 2 1)S 2 S n 1 +n 2 2 1 n 1 (a W ) 1 n 2 W 2(n1 +n 2 ) 1 3 a 1 n 1 (a W ) 2 1 n 2 W 2 n 1 n 2 (n 1 + n 2 2) n 1 + n 2, gdzie a = (n 1 + n 2 )(n 1 + n 2 + 1)/2. Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 15 / 18
Test U Manna-Whitneya Przyjmujemy takie same zaªo»enia i rozwa»amy te same hipotezy jak w te±cie W Wilcoxona. Statystyka U Manna-Whitneya jest postaci: n 2 n 1 U = I (X i < Y j ), j=1 i=1 gdzie I (x i < y j ) = { 1, gdy xi < y j, 0, gdy x i y j. Lemat 2 Je»eli W oznacza statystyk Wilcoxona, to U = W 1 2 n 2(n 2 + 1). Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 16 / 18
Test U Manna-Whitneya Twierdzenie 3 Przy prawdziwo±ci hipotezy zerowej Z = U E 0(U) Var0 (U) d N(0, 1), gdzie E 0 (U) = n 1n 2 2, Var 0(U) = n 1n 2 (n 1 + n 2 + 1). 12 Zauwa»my,»e (przy H 1 : µ 1 < µ 2 ) B = {(x, y) : W (x, y) k α } = {(x, y) : U(x, y) k U α } = {(x, y) : Z(x, y) k Z α }. Z powy»szego twierdzenia otrzymujemy,»e przy du»ej liczbie obserwacji mo»emy przyj k Z α = z(1 α). Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 17 / 18
Test U Manna-Whitneya Zatem przy du»ych próbach mo»emy korzysta z nast puj cych postaci obszarów krytycznych: H 1 : Obszar krytyczny µ 1 > µ 2 B = {(x, y) : Z(x, y) z(1 α)} µ 1 < µ 2 B = {(x, y) : Z(x, y) z(1 α)} Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 18 / 18