Wykład 11 Testowanie jednorodności Wrocław, 17 maja 2018
Test χ 2 jednorodności Niech X i, i = 1, 2,..., k będą niezależnymi zmiennymi losowymi typu dyskretnego przyjmującymi wartości z 1, z 2,..., z l, z prawdopodobieństwem: p ij = P(X i = z j ), gdzie i = 1, 2,..., l, j = 1, 2,..., k oraz k j=1 p ij = 1 dla wszystkich i. Testujemy hipotezę: H 0 : p 1j = p 2j = = p kj, H 1 : p ij p i j, dla wszystkich j = 1, 2,..., k dla co najmniej jednego j Hipoteza zerowa jest równoważna stwierdzeniu, że zmienne losowe X i, i = 1, 2,..., k mają jednakowy rozkład.
Test χ 2 jednorodności Statystyka testowa jest postaci: χ 2 = ( l k N ij N ) 2 i. N.j n, N i. N.j i=1 j=1 n gdzie N ij jest losową liczbą pojawień się obserwacji z j w próbie X i = (X i1, X i2,..., X ini ) rozmiaru n i pochodzącej z rozkładu zmiennej X i. N i. = k j=1 N ij oraz N.j = l i=1 N ij, n = k j=1 li=1 N ij Przy prawdziwości H 0 statystyka χ ma rozkład Chi kwadrat z (k-1)(l-1) stopniami swobody. Zbiór krytyczny postaci: C = [χ 2 (1 α, (k 1)(l 1)), )
Tablica kontyngencji w teście χ 2 jednorodności z 1 z 2... z l X 1 N 11 N 12... N 1k N 1 X 2 N 21 N 22... N 2k N 2..... X l N l1 N l2... N lk N l N 1 N 2... N k n
Przykład 11.1 W pięciu sklepach pewnej sieci przebadano zapotrzebowanie na jogurty o różnych smakach. To zapotrzebowanie wynosiło (w kolejności od sklepu 1 5) dla jogurtów truskawkowych: 15, 61, 37, 18, 39, brzoskwiniowych 18, 45, 29, 16, 28 i jagodowych 10, 51, 46, 25, 35. Na poziomie istotności α = 0.01 sprawdzić czy we wszystkich sklepach tej sieci jest takie samo zapotrzebowanie na różne typy jogurtów. Testujemy hipotezę H 0 : p 1j = p 2j = = p 5j, dla wszystkich j = 1, 2, 3 H 1 : p ij p i j, dla co najmniej jednego j
Przykład 11.1 - c.d. Tablica kontyngencji przedstawia się następująco: sklep truskawkowy brzoskwiniowy jagodowy 1 15 18 10 N 1 = 43 2 61 45 51 N 2 = 157 3 37 29 46 N 3 = 112 4 18 16 25 N 4 = 59 5 39 28 35 N 5 = 102 N 1 = 170 N 2 = 136 N 3 167 n = 473
Przykład 11.1 - c.d. Statystyka testowa przyjmuje wartość: χ 2 = ( l k N ij N ) 2 i. N.j n N i. N.j i=1 j=1 n = 8.324. Wartość kwantyla to χ 2 0.95 (8) = 15.5
Przykład 11.1 - c.d. Statystyka testowa przyjmuje wartość: χ 2 = ( l k N ij N ) 2 i. N.j n N i. N.j i=1 j=1 n = 8.324. Wartość kwantyla to χ 2 0.95 (8) = 15.5 > χ2, a zatem rozkład zapotrzebowania na jogurty różnych smaków jest taki sam we wszystkich sklepach tej sieci.
Test χ 2 niezależności Niech (X, Y ) będzie dwuwymiarowym wektorem losowym typu dyskretnego. Oznaczamy przez p ij = P(X = x i, Y = y j ), i = 1, 2,..., l, j = 1, 2,..., k, natomiast rozkłady brzegowe przez p i = P(X = x i ) = l j=1 p ij oraz p j = P(Y = y i ) = l i=1 p ij. Niech ((X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n )) oznacza próbę niezależnych par zmiennych losowych pochodzącą z rozkładu zmiennej (X, Y ). Testujemy hipotezę: H 0 : p ij = p i p j, dla wszystkich i = 1, 2,... l, j = 1, 2,..., k H 1 : p ij p i p j, dla co najmniej jednej pary (i, j) Równoważnie problem testowania hipotez możemy zapisać jako: H 0 : cechy są niezależne H 1 : cechy są zależne
Test χ 2 niezależności Statystyka testowa jest postaci: χ 2 = ( l k N ij N ) 2 i. N.j n, N i. N.j i=1 j=1 n gdzie l - liczba klas dla cechy pierwszej, k - liczba klas dla cechy drugiej, n - liczba wszystkich obserwacji, N ij liczba występowania obserwacji (x i, x j ), N i. = k j=1 N ij, N.j = l i=1 N ij. Przy H 0 statystyka χ 2 ma rozkład chi kwadrat z (k-1)(l-1) stopniami swobody. Zbiór krytyczny postaci: C = [χ 2 (1 α, (k 1)(l 1)), )
Przykład 11.2 Wśród 800 losowo wybranych osób, przeprowadzono ankietę, w które mieli odpowiedzieć czy wolą pić wino czy piwo. Otrzymując następujące wyniki: wino piwo kobiety 215 180 mężczyźni 101 304 Na poziomie istotności 0.05 zweryfikować czy rodzaj wybieranego alkoholu zależy od płci.
Przykład 11.2 - c.d. Wartości obserwowane Wartości oczekiwane wino piwo N i kobiety 215 180 395 mężczyźni 101 304 404 N j 316 484 800 wino piwo 395 316 kobiety 800 395 mężczyźni 404 316 484 800
Przykład 11.2 - c.d. Wartości obserwowane Wartości oczekiwane wino piwo N i kobiety 215 180 395 mężczyźni 101 304 404 N j 316 484 800 wino piwo 395 484 kobiety 156.025 800 395 mężczyźni 404 316 484 800
Przykład 11.2 - c.d. Wartości obserwowane Wartości oczekiwane wino piwo N i kobiety 215 180 395 mężczyźni 101 304 404 N j 316 484 800 wino piwo kobiety 156.025 238.975 395 mężczyźni 159.975 245.025 404 316 484 800
Przykład 11.2 - c.d. Statystyka testowa: χ 2 = (215 156.025)2 156.025 + (180 238.975)2 238.975 + (101 159.975)2 159.975 (304 245.025)2 + 245.025 = 72.78 Kwantyl χ 2 0.95 (1) = 3.84. Odrzucamy hipotezę zerową, rodzaj wybieranego alkoholu zdecydowanie zależy od płci respondenta.
Test McNemary test jednorodności rozkładów dla prób powiązanych stosowany dla zmiennych dychotomicznych tablica kontyngencji B B A n 11 n 12 A n 21 n 22
Test McNemary Niech (X, Y ) będzie dwuwymiarowym wektorem losowym, dla którego zmienne X i Y są typu dychotomicznego i przyjmują wyłącznie wartości { 1, +1} Problem testowania hipotez możemy zapisać jako: H 0 : cechy są niezależne H 1 : cechy są zależne
Test McNemar Statystyka testowa postaci χ 2 = (n 12 n 21 ) 2 n 12 + n 21, przy prawdziwości H 0 ma rozkład chi kwadrat z jednym stopniem swobody rzędu 1 α Obszar odrzucenia hipotezy zerowej jest postaci C : [χ 2 1 α(1), )
Przykład 11.3 Od 50 chorych pobrano po 2 próbki, po czym badano dla tych próbek wzrost baktrii Mycobacterium tuberculosis na dwóch różnych pożywkach. Ocenić na poziomie istotności 0.05 czy wzrost bakterii jest zależny od rodzaju pożywki? pożywka I wzrost brak wzrostu pożywka II wzrost n 11 n 12 brak wzrostu n 21 n 22
Przykład 11.3 - c.d. Testujemy hipotezę: H 0 : rodzaj pożywki nie wpływa na wzrost bakterii Przy alternatywie: H 1 : rodzaj pożywki wpływa na wzrost bakterii Wartość statystyki testowej: χ 2 = (n 12 n 21 ) 2 (12 5)2 = n 12 + n 21 12 + 5 = 2.88 Obszar krytyczny jest postaci C : [3.84, ) Zatem rodzaj pożywki wpływa na wzrost bakterii.
Testy Jednorodności i niezależności Testem jednorodności nazywamy test statystyczny do weryfikacji następujących hipotez 1 dystrybuanty wielu obserwowalnych zmiennych losowych typu ciągłego są takie same (test Wilcoxona - Manna - Withneya, test rang znakowanych Wilcoxona, test znaków, test medianowy, test Kołmogorowa - Smirnova, test Kruskala - Wallisa) 2 dystrybuanty wielu obserwowalnych zmiennych typu dyskretnego są takie same (test χ-kwadrat jednorodności, test Fishera, test McNemary) 3 wartości oczekiwane wielu obserwowalnych zmiennych z rozkładu normalnego są takie same (test Cochrana-Coxa, analiza wariancji) 4 wariancje wielu obserwowalnych zmiennych typu ciągłego są takie same (test Bartletta, test Cochrana, test Hartleya)
Literatura: Bartoszewicz J.,Wykłady ze statystyki matematycznej, PWN, Warszawa 1989. Koronacki J. i Mielniczuk J., Statystyka, dla studentów kierunków technicznych i przyrodniczych, WNT, 2001 Krysicki W., Bartos J., Dyczka W., Krówlikowska K., Wasilewski M., Rachunek Prawdopodobieństwa i Statystyka Matematyczna w Zadaniach, część II, PWN, 2012 Magiera M, Modele i metody statystyki matematycznej, część II, wnioskowanie statystyczne, Wrocław, 2007