Wykład 9 Testy rangowe w problemie dwóch prób Wrocław, 18 kwietnia 2018
Test rangowy Testem rangowym nazywamy test, w którym statystyka testowa jest konstruowana w oparciu o rangi współrzędnych wektora obserwacji. Przez test rangowy w zagadnieniach dwóch prób rozumie się test, w którym statystyka testowa zależy jedynie od rang współrzędnych jednej próby. Rangą nazywa się numer kolejny zmiennej losowej z próby po uporządkowaniu tych zmiennych według ich wartości, zwykle w porządku rosnącym. Zastąpienie zmiennych losowych poprzez obliczone dla nich rangi jest operacją zwaną rangowaniem.
Rangi - Przykład Niech będzie dany wektor zmiennych losowych o wartościach równych odpowiednio: (5, 10, 3, 15, 8, 4, 2, 29) wówczas wektor rang jest postaci: (4, 6, 2, 7, 5, 3, 1, 8).
Rangi - Przykład Niech będzie dany wektor zmiennych losowych o wartościach równych odpowiednio: (4, 5, 4, 1, 7, 4, 7, 9) wówczas wektor (średnich) rang jest postaci: (3, 5, 3, 1, 6.5, 3, 6.5, 8).
Porządek stochastyczny Niech X i Y będą zmiennymi losowymi o rozkładach F i G odpowiednio, powiemy, że zmienna losowa X jest mniejsza od zmiennej losowej Y w porządku stochastycznym zwykłym (ozn. X st Y lub równoważnie F st G), jeżeli dla każdego t R zachodzi F (t) G(t).
Test Wilcoxona Manna Withneya Test Wilcoxona Manna Withneya test jednorodności nieparametryczny odpowiednik testu t-studenta dla prób niezależnych stosowany w sytuacji gdy nie jest spełnione założenie normalności rozkładów. Uwaga! Jeżeli jest spełnione założenie normalności rozkładów preferuje się stosowanie testu t-studenta ponieważ jest on bardziej efektywny i powinien dawać mniejsze prawdopodobieństwo popełnienia błędu pierwszego rodzaju.
Test Wilcoxona Manna Withneya Niech X = (X 1, X 2,..., X n ) oraz Y = (Y 1, Y 2,..., Y m ) będą próbami losowymi, niezależnymi, pochodzącymi z dwóch populacji o rozkładach określonych przez dystrybuanty typu ciągłego oznaczanych przez F i G odpowiednio. Testujemy hipotezę: Przy możliwych alternatywach: H 0 : F = G H 1 : F st G i F G H 2 : F st G i F G H 3 : F st G lub F st G i w obu przypadkach F G
Test Wilcoxona Manna Withneya Będziemy traktować zmienne losowe X 1, X 2,..., X n, Y 1, Y 2,..., Y m jako elementy jednej (połączonej) próby losowej. Oznaczmy przez: R 1 < R 2 < < R n i S 1 < S 2 < < S m rangi wektorów X i Y, odpowiednio, w próbie połączonej. Przykład Niech x = (3, 9, 11, 6) oraz y = (1, 15, 8, 5, 7). Wówczas w oparciu o próbę połączoną z = (x, y) = (3, 9, 11, 6, 1, 15, 8, 5, 7) wyznaczamy wektory rang: R = (2, 7, 8, 4) S = (1, 9, 6, 3, 5)
Test Wilcoxona Manna Withneya Statystyka testowa, zwana statystyką Wilcoxona jest postaci: m W = S j j=1 Test oparty na tej statystyce odrzuca H 0, gdy statystyka W (czyli suma rang zmiennych losowych, współrzędnych próby Y, jest odpowiednio duża)
Test Wilcoxona Manna Withneya Niekiedy wygodniej posługiwać się jest testem równoważnym, opartym na, tzw statystyce Manna-Withneya postaci: gdzie n m V = V ij, i=1 j=1 { 1, gdy Xi < Y V ij = j 0, gdy X i Y j Wartością statystyki V jest liczba tych par (x i, y i ), dla których x i poprzedza y i w uporządkowanym ciągu wartości obu prób, i = 1, 2,..., n, j = 1, 2,..., m.
Test Wilcoxona Manna Withneya Statystyki V i W są powiązane zależnością: V = W m(m + 1) 2 Analogicznie rozważa się statystykę U - Manna - Withneya, określającą liczbę tych par (x i, y i ), dla których y i poprzedza x i, postaci n n(n + 1) U = R i 2 i=1 Zachodzi następująca zależność: V + U = nm
Test Wilcoxona Manna Withneya Obszar odrzucenia hipotezy zerowej Zbiór krytyczny dla testu opartego na statystyce U przyjmuje postać (w zależności od alternatywy): C 1 : [0, U α (n, m)] dla alternatywy H 1 C 2 : [nm U α (n, m), nm] dla alternatywy H 2 C 3 : [0, U α/2 (n, m)] [nm U α/2 (n, m), nm] dla alternatywy H 3, gdzie U α (n, m) oznacza odpowiedni kwantyl rozkładu U-Manna-Withneya rzędu α
Test Wilcoxona Manna Withneya Przy prawdziwości hipotezy H 0 : EV = nm 2 oraz nm(n + m + 1) Var(V ) =, 12 a następnie, z twierdzenia Hoeffdinga, statystyska Z = V nm 2 nm(n+m+1) 12 ma asymptotycznie rozkład normalny N(0, 1).
Test Wilcoxona Manna Withneya W przypadku małych prób n, m 16 opieramy swoje wnioskowanie na statystyce Wilcoxona lub Manna-Withneya. Dla dużych prób możemy korzystać z przybliżenia rozkładem normalnym (statystyka Z ). Przybliżenie jest już wystarczająco dokładne, gdy n, m 4 oraz n + m 20
Test Wilcoxona Manna Withneya Uwaga praktyczna (Magiera): Aby obliczyć wartość statystyki V, można postąpić następująco: 1 porządkujemy rosnąco wszystkie wartości x 1, x 2,..., x n, y 1, y 2,..., y m otrzymując nowy wektor z 1 < z 2... z n+m
Test Wilcoxona Manna Withneya Uwaga praktyczna (Magiera): Aby obliczyć wartość statystyki V, można postąpić następująco: 1 porządkujemy rosnąco wszystkie wartości x 1, x 2,..., x n, y 1, y 2,..., y m otrzymując nowy wektor z 1 < z 2... z n+m 2 tym z k, które są elementami x-owej próby przypisujemy wartości 0 3 tym z k, które są elementami y-owej próby przypisujemy wartości 1 4 dla każdego zera liczymy ilość jedynek, które je poprzedzają 5 wartość statystyki testowej jest sumą liczb otrzymanych w punkcie (4)
Test rang znakowanych Wilcoxona test jednorodności rozkładów nieparametryczny odpowiednik testu t-studenta dla prób zależnych brak normalności rozkładów
Test rang znakowanych Wilcoxona Z = (X, Y ) wektor losowy, którego współrzędne X i Y są typu ciągłego, D = Y X - zmienna losowa o dystrybuancie F D. Niech ((X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n )) będzie ciągiem niezależnych par obserwacji, rozmiaru n oraz D i = Y i X i. Testujemy hipotezę: Przy możliwych alternatywach: H 0 : D = st D H 1 : D st D i D D H 2 : D st D i D D H 3 : D st D lub D st D i w obu przypadkach D D
Test rang znakowanych Wilcoxona Statystyka testowa, nazywana statystyką Wilcoxona postaci W = 1 2 n r(d i ) + i=1 n(n + 1) 4 k = r(d j + ), j=1 gdzie r(d i ) oznacza rangę znakowaną. Rangą znakowaną r(d i ) nazywamy rangę wartości bezwzględnej D i opatrzoną znakiem różnicy X i Y i.
Test rang znakowanych Wilcoxona Przykład 9.2 Niech będą dane: X i 2 11 4 5 8 10 3 13 Y i 1 4 7 10 20 8 11 9 Wówczas D i = (1, 7, 3, 5, 12, 2, 8, 4), a następnie wektor rang dla D i jest postaci: (1, 6, 3, 5, 8, 2, 7, 4). Stąd wektor rang znakowanych: r(d i ) = (1, 6, 3, 5, 8, 2, 7, 4).
Test rang znakowanych Wilcoxona Dla małych prób (n 15) obszar krytyczny wyznacza się w oparciu o wartości kwantyli rozkładu Wilcoxona. W przypadku gdy n > 16 obszar krytyczny wyznacza się w oparciu o statystykę Z = W n(n+1) 4 n(n+1)(2n+1) 24, która przy prawdziwości H 0 ma asymptotycznie rozkład normalny N(0, 1).
Test rang znakowanych Wilcoxona Przypadek nieciągły n - liczba różnic D i różnych od zera w przypadku, gdy różne moduły różnic D i oraz D j mają tą samą wartość stosujemy dla nich średnie rangi
Przykład 9.3 Grupie 10 losowo wybranych kobiet dano do porównania dwie herbaty odchudzające A i B. Oceniały one te herbaty, biorąc pod uwagę kilka czynników (ocenianych oddzielnie) w sumarycznej skali 1-30. Firma produkująca herbatę A, przeprowadzając te badania zdecyduje się wpuścić swoją nową herbatę na rynek jeśli jej wyniki będą lepsze od herbaty B. Na podstawie poniższych wyników ocenić czy na poziomie istotności 0.05 herbata zostanie wpuszczona na rynek: A 11 25 27 11 28 29 17 23 29 9 B 5 11 25 29 13 27 27 26 5 7
Przykład 9.3 Rozważmy ten sam problem co w przykładzie 8.1. Testujemy hipotezę: Przy alternatywie: Wektor różnic jest postaci: H 0 : D = st D H 1 : D st D i D D D = (6, 14, 2, 18, 15, 2, 10, 3, 24, 2)
Przykład 9.3 Wektor modułów różnic jest postaci: (6, 14, 2, 18, 15, 2, 10, 3, 24, 2), a następnie rangi dla D i (5, 7, 2, 9, 8, 2, 6, 4, 10, 2). Mając na uwadze znaki różnic (+, +, +,, +, +,,, +, +), obliczamy wartość statystyki testowej W = 1 2 10 i=1 r(d i ) + 10(10 + 1) 4 7 = r(d j + ) = 36 j=1
Przykład 9.3 -pakiet R A <-c (11,25,27,11,28,29,17,23,29,9) B <-c (5,11,25,29,13,27,27,26,5,7) wilcox. test (A,B, paired =T, alternative = greater ) Wilcoxon signed rank test with continuity correction data: A and B V = 36, p-value = 0.2068 alternative hypothesis: true location shift is greater than 0
Literatura: Bartoszewicz J.,Wykłady ze statystyki matematycznej, PWN, Warszawa 1989. Koronacki J. i Mielniczuk J., Statystyka, dla studentów kierunków technicznych i przyrodniczych, WNT, 2001 Krysicki W., Bartos J., Dyczka W., Krówlikowska K., Wasilewski M., Rachunek Prawdopodobieństwa i Statystyka Matematyczna w Zadaniach, część II, PWN, 2012 Magiera M, Modele i metody statystyki matematycznej, część II, wnioskowanie statystyczne, Wrocław, 2007