PRZYKŁADY TESTÓW NIEPARAMETRYCZNYCH. Test zgodności χ 2. Ten test służy testowaniu hipotezy, czy rozważana zmienna ma pewien ustalony rozkład, czy też jej rozkład różni się od tego ustalonego. Tym testem przede wszystkim testujemy takie hipotezy w przypadku, gdy rozkłady są dyskretne. Niech X,..., X n będzie próbką z rozkładu dyskretnego postaci {(x i, p i ), i =,..., k}, przy czym wartości {x i } są znane, a wartości {p i } nie są znane. Niech {p 0 i } będzie pewnym zadanym naborem liczb dodatnich, k i= p0 i =. Testujemy hipotezę H 0 : p i = p 0 i, i =,..., k, przeciwko hipotezie H : {p i } są inne. Niech w próbce zaobserwowaliśmy n razy wartość x, n 2 razy wartość x 2,......, n k razy wartość x k, przy czym n... n k = n. Statystyka testowa ma postać k (n i np 0 k i )2 np 0 = n i i= i= (n i /n p 0 i )2 p 0. i Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k ).
Liczby {n i } występowania poszczególnych wartości {x i } w próbie pochodzą z obserwacji, natomiast liczby {np 0 i } interpretujemy jako oczekiwane wartości występowania poszczególnych wartości {x i } w próbie, gdyby rozkład rzeczywiście był taki, jak określa to hipoteza H 0. Zatem, gdy H 0 jest prawdziwa, liczniki składników we wzorze na statystykę testową są małe, więc duże wartości tej statystyki przemawiają przeciwko hipotezie H 0. Obszar krytyczny ma postać: K = (χ 2 α,k, ). Przybliżenie rozkładem chi-kwadrat uznajemy za dopuszczalne, gdy np 0 i 5, i =,..., k, a za dobre gdy 0, i =,..., k. np 0 i Przykład. W wyborach prezydenckich uczestniczy czterech kandydatów. W wyniku sondażu przeprowadzonego przez ośrodek badania opinii publicznej wśród 00 losowo wybranych pełnoletnich Polaków uzyskano następujące wyniki: Kandydat 2 3 4 Liczba wskazań 70 38 498 394 Na ich podstawie przetestować hipotezę, że kolejnych kandydatów popiera odpowiednio 5%, 3%, 45%, 37% wyborców przeciw hipotezie, że poparcie dla kandydatów jest inne. Przyjąć poziom istotności testu równy 0,05. 2
Hipotezy: H 0 : (p, p 2, p 3, p 4 ) = (0,5, 0,03, 0,45, 0,37), H : (p, p 2, p 3, p 4 ) (0,5, 0,03, 0,45, 0,37). Mamy np 0 i 0, i =, 2, 3, 4. Wartość statystyki testowej wynosi (70 00 0,5) 2 00 0,5 (38 00 0,03)2 00 0,03 (498 00 0,45)2 (394 00 0,37)2,506. 00 0,45 00 0,37 Ponieważ χ 2 0,95,3 = 7,85, nie ma podstaw do odrzucenia H 0. 2. Adaptacja testu zgodności χ 2 do rozkładów absolutnie ciągłych. Niech F będzie dystrybuantą rozkładu, występującego w hipotezie H 0, czyli H 0 : próbka pochodzi z rozkładu o dystrybuancie F ; H : próbka pochodzi z innego rozkładu. Niech n będzie duże. Wybierając k N i liczby a < a 2 <... < a k, dzielimy zbiór {x R : 0 < F (x) < } na k rozłącznych przedziałów (na początku i końcu mogą być półproste). Określamy: p 0 i = F (a ) dla i = F (a i ) F (a i ) dla i = 2,..., k F (a k ) dla i = k. Na podstawie próbki wyliczamy wartości {n i }, gdzie n j 3
to liczba obserwacji, które wpadły do j-go przedziału, j =,..., k. Dalej stosujemy test zgodności χ 2. Przy stosowaniu tego testu mamy pewne opcje do wyboru: liczba k N oraz nabór liczb {a i }. Liczby {a i } zazwyczaj staramy się wybrać tak, by p 0 i /k, natomiast k tak, by n/k 0. Przykład 2. Z populacji generalnej pobrano próbę o liczności n = 50 : 3,6; 5,0; 4,0; 4,7; 5,2; 5,9; 4,5; 5,3; 5,5; 3,9; 5,6; 3,5; 5,4; 5,2; 4,; 5,0; 3,; 5,8; 4,8; 4,4; 4,6; 5,; 4,7; 3,0; 5,5; 6,; 3,8; 4,9; 5,6; 6,; 5,9; 4,2; 6,4; 5,3; 4,5; 4,9; 4,0; 5,2; 3,3; 5,4; 4,7; 6,4; 5,; 4,3; 5,2; 6,2; 4,4; 4,3; 5,8; 3,7. Na poziomie istotności 0,05 przetestować hipotezę H 0, że próba pochodzi z rozkładu N (5; 0,8) przeciw hipotezie H, że rozkład jest inny. Przyjmijmy k = 5 i wybierzmy: a = 4,25; a 2 = 4,75; a 3 = 5,25; a 4 = 5,75. Ponieważ F (x) = Φ( x 5 0,8 ), to F (a ) 0,2, F (a 2 ) 0,39, F (a 3 ) 0,6, F (a 4 ) 0,8, skąd p 0 = p 0 5 0,20, p 0 2 = p 0 4 0,9, p 0 3 0,22. ( ; 4,25] (4,25; 4,75] (4,75; 5,25] (5,25; 5,75] (5,75; ) 2 0 8 9 4
Wartość statystyki testowej wynosi (2 50 0,2) 2 50 0,2 (0 50 0,9)2 50 0,9 ( 50 0,22)2 50 0,22 (8 50 0,9)2 (9 50 0,2)2 0,763. 50 0,9 50 0,2 Ponieważ χ 2 0,95,4 = 9,488, nie ma podstaw do odrzucenia H 0. 3. Test Kołmogorowa-Smirnowa. H 0 : próbka pochodzi z rozkładu o dystrybuancie F ; H : próbka pochodzi z innego rozkładu. Jeśli H 0 jest prawdziwa, to zgodnie z Twierdzeniem Gliwienki-Cantellego (patrz temat Rozkład empiryczny. Dystrybuanta empiryczna) zachodzi sup x R F n (x) F (x) 0, n, z prawdopodobieństwem. Dlatego duże wartości statystyki D n (X,..., X n ) = sup F n (x) F (x), x R zwanej statystyką Kołmogorowa, przemawiają przeciwko hipotezie H 0. Lemat. Jeśli X, X 2,..., X n to niezależne zmienne lo- 5
sowe o tym samym rozkładzie z dystrybuantą F, to n D n (X,..., X n ) = sup u (0,) [0,u] (U i ) u n, gdzie U =F (X ),..., U n =F (X n ) to niezależne zmienne losowe o tym samym rozkładzie jednostajnym na [0, ]. Dowód przeprowadzimy dla prostszego przypadku, gdy F jest funkcją rosnącą (wtedy istnieje funkcja odwrotna F : (0, ) R). Zauważmy, że F (X ),..., F (X n ) są niezależnymi zmiennymi losowymi o tym samym rozkładzie jednostajnym na [0, ]. Istotnie, dla x (0, ) i= P (F (X i ) x) = P (X i F (x)) = x (jest oczywiste, że P (F (X i ) x) = 0 dla x 0 oraz P (F (X i ) x) = dla x ). Zatem n sup x R (,x] (X i ) F (x) n = i= n sup x R [0,F (x)] (F (X i )) F (x) n = i= n [0,u] (U i ) u n. sup u (0,) i= 6
Obszar krytyczny ma postać: K = (d α,n, ], gdzie wartość d α,n odczytujemy z tablic kwantyli rozkładu statystyki Kołmogorowa. W praktyce postępujemy następująco: wyliczamy D n = max i i n n F (X i:n), D n = max i n F (X i:n) i n i kładziemy D n (X,..., X n ) = max{d n, D n }. Przykład 3. W czasie ostatniej dekady maksymalny zaobserwowany poziom wody w rzece (w metrach) w czerwcu wynosił Rok 06 07 08 09 0 2 3 4 5 Poziom,98 2,09,9 2,9,75 2,20 2,40,68 2,38 2,0 Na poziomie istotności 0,05 przetestować hipotezę H 0, że maksymalny poziom wody w rzece w czerwcu ma rozkład N (2; 0,6) przeciw hipotezie H, że rozkład jest inny. Mamy F (x) = Φ( x 2 0,4 ) oraz i x i:0 i 0 i 0 x i:0 2 i 0,4 F (x i:0 ) 0 F (x i:0) F (x i:0 ) i 0,68 0,0 0, 0,80 0,29 0,9 0,29 2,75 0, 0,2 0,62 0,2709 0,0709 0,709 3,9 0,2 0,3 0,22 0,468 0,68 0,268 4,98 0,3 0,4 0,06 0,476 0,076 0,76 5 2,0 0,4 0,5 0,03 0,520 0,020 0,20 6 2,09 0,5 0,6 0,2 0,5832 0,068 0,0832 7 2,9 0,6 0,7 0,47 0,6808 0,092 0,0808 8 2,20 0,7 0,8 0,50 0,695 0,085 0,0085 9 2,38 0,8 0,9 0,94 0,8264 0,0736 0,0264 0 2,40 0,9,0,00 0,843 0,587 0,0587 7
Z ostatnich dwóch kolumn odczytujemy, że D 0 (x,..., x 0 ) = max{d 0, D 0 } = = max{0,587; 0,268} = 0,268. Ponieważ d 0,95,0 = 0,409, nie mamy podstaw do odrzucenia hipotezy H 0. W przypadku, gdy n jest duże, opieramy rozumowania na następującym twierdzeniu granicznym Kołmogorowa. Twierdzenie. Statystyka nd n (X,..., X n ) zbiega według rozkładu, gdy n, do zmiennej losowej o dystrybuancie K(x) = k Z( ) k e 2k2 x 2 (0, ) (x), x R. Zatem dla dużych wartości n (n > 00) jako statystykę testową stosujemy nd n (X,..., X n ), a obszar krytyczny ma postać: K = (d α, ), gdzie wartość d α odczytujemy z tablic kwantyli powyższego rozkładu granicznego. 4. Test niezależności χ 2. Niech mamy dwie zmienne X i Y, każda z których przyjmuje tylko skończoną liczbę wartości: powiedzmy, 8
X przyjmuje wartości x,..., x k, a Y wartości y,..., y m. Testujemy tutaj hipotezę H 0 : zmienne X i Y są niezależne przeciwko hipotezie H : X i Y są zależne. Statystyka testowa ma postać: k m (n ij n 0 ij )2, i= j= gdzie n ij to liczba wystąpień obserwacji (x i, y j ) w próbie, natomiast m s= n is k n 0 ij = n 0 ij n l= n lj Gdy n jest dostatecznie duże, to rozkład tej statystyki w przybliżeniu jest rozkładem χ 2 ((k )(m )). Obszar krytyczny ma postać: K = (χ 2 α,(k )(m ), ). Dla poprawnego stosowania testu zazwyczaj zaleca się, aby spełnione były nierówności: n 0 ij 0, i =,..., k; j =,..., m. Przykład 4. Rzecznik pewnej partii (oznaczmy ją A) twierdzi, że wśród zwolenników tej partii, miłośnicy muzyki disco-polo, rockowej i symfonicznej występują mniej więcej w tych samych proporcjach, co w całej populacji wyborców (co by mówiło o niezależności dwóch 9.
cech wyborcy: stosunku do partii A i preferencji muzycznych). Przeprowadzono sondaż. Wśród wylosowanych 00 wyborców wyniki badania były następujące: Popieram A Nie popieram A Razem Słucham disco-polo 25 0 35 Słucham muzyki rockowej 20 20 40 Słucham muzyki symfonicznej 5 0 25 Razem 60 40 00 Hipoteza H 0 : cechy są niezależne, hipoteza H : cechy są zależne. Przyjmijmy poziom istotności testu równy 0,05. Wartość statystyki testowej wynosi (k = 2, m = 3) (25 60 35/00) 2 60 35/00 (5 60 25/00)2 60 25/00 (20 40 40/00)2 40 40/00 (20 60 40/00)2 60 40/00 (0 40 35/00)2 40 35/00 (0 40 25/00)2 40 25/00 3,57. Ponieważ χ 2 0,95,2 = 5,99, nie ma podstaw do odrzucenia H 0. 0