Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich Magdalena Frąszczak Wrocław, 22.03.2017r
Problem Behrensa Fishera Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu normalnego N (µ X, σ 2 X ), a Y = (Y 1, Y 2,..., Y m ) będzie próbą z rozkładu normalnego N (µ Y, σ 2 Y ) oraz σ2 X σ2 Y.
Problem Behrensa Fishera Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu normalnego N (µ X, σ 2 X ), a Y = (Y 1, Y 2,..., Y m ) będzie próbą z rozkładu normalnego N (µ Y, σ 2 Y ) oraz σ2 X σ2 Y. Testujemy hipotezę H 0 : µ X = µ Y przy alternatywie H 1 : µ X µ Y
Problem Behrensa Fishera Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu normalnego N (µ X, σ 2 X ), a Y = (Y 1, Y 2,..., Y m ) będzie próbą z rozkładu normalnego N (µ Y, σ 2 Y ) oraz σ2 X σ2 Y. Testujemy hipotezę H 0 : µ X = µ Y przy alternatywie H 1 : µ X µ Y Nie znaleziono dotychczas dokładnego rozwiązania tego problemu, istnieją jedynie rozwiązania przybliżone
Test Cochrana Coxa Statystyka testowa przyjmuje postać: C = S 2 X n X Ȳ + S2 Y m
Test Cochrana Coxa Statystyka testowa przyjmuje postać: C = S 2 X n X Ȳ + S2 Y m Przy założeniu H 0 rozkład statystyki C zależy od nieznanego stosunku σ X /σ Y.
Test Cochrana Coxa Statystyka testowa przyjmuje postać: C = S 2 X n X Ȳ + S2 Y m Przy założeniu H 0 rozkład statystyki C zależy od nieznanego stosunku σ X /σ Y. Dla danych n i m można znaleźć przybliżoną wartość c p (n, m) kwantyla rzędu p rozkładu zmiennej C
Test Cochrana Coxa Statystyka testowa przyjmuje postać: C = S 2 X n X Ȳ + S2 Y m Przy założeniu H 0 rozkład statystyki C zależy od nieznanego stosunku σ X /σ Y. Dla danych n i m można znaleźć przybliżoną wartość c p (n, m) kwantyla rzędu p rozkładu zmiennej C c p (n, m) = s 2 X n t p (n 1) + s2 Y m t p (m 1) s 2 X n + s2 Y m, gdzie sx 2, s2 Y oznaczają wartości wariancji z próby.
Test Cochrana Coxa Obszar krytyczny jest postaci: (, c 1 α/2 (n, m)] [c 1 α/2 (n, m), )
Test Welch Aspin Statystyka testowa przyjmuje postać: T = S 2 X n X Ȳ + S2 Y m
Test Welch Aspin Statystyka testowa przyjmuje postać: T = S 2 X n X Ȳ + S2 Y m Przy założeniu H 0 statystyka T ma rozkład studenta z liczbą stopni swobody przybliżoną równaniem: ( s 2 Xn + s2 Ym ) 2 df W = (s 2 X /n)2 n 1 + (s2 Y /m)2 m 1,
Przykład 5.1 W dwóch różnych sklepach tej samej sieci spytano pracowników o ich wiek, w celu sprawdzenia hipotezy, że w obu sklepach średni wiek praconików jest podobny. Pracownicy pierwszego sklepu tej sieci mają: 30, 27, 38, 35, 41, 27, 32, 35, 37, 39, 45 lat, a drugiego 30, 32, 33, 29, 31, 34, 33, 35, 37.
Przykład 5.1 W dwóch różnych sklepach tej samej sieci spytano pracowników o ich wiek, w celu sprawdzenia hipotezy, że w obu sklepach średni wiek praconików jest podobny. Pracownicy pierwszego sklepu tej sieci mają: 30, 27, 38, 35, 41, 27, 32, 35, 37, 39, 45 lat, a drugiego 30, 32, 33, 29, 31, 34, 33, 35, 37. Próby niezależne Test dla równości średnich Sprawdzenie założeń testu studenta: normalność danych, jednorodność wariancji
Przykład 5.1 - cd. Przetestujemy normalność obu prób korzystając z testu Shapiro-Wilka: H 0 : Rozkład wieku pracowników pierwszego/drugiego sklepu jest rozkładem normalnym. H 1 : Rozkład wieku pracowników pierwszego/drugiego sklepu nie jest rozkładem normalnym.
Przykład 5.1 - cd. Przetestujemy normalność obu prób korzystając z testu Shapiro-Wilka: H 0 : Rozkład wieku pracowników pierwszego/drugiego sklepu jest rozkładem normalnym. H 1 : Rozkład wieku pracowników pierwszego/drugiego sklepu nie jest rozkładem normalnym. Statystyki testowe przyjmują odpowiednio wartości: W X = 0.96 dla pierwszego sklepu W Y = 0.98 dla drugiego sklepu.
Przykład 5.1 - cd. Przyjmujemy poziom istotności α = 0.01, kwantyle rozkładu statystyki W są odpowiednio równe: w(0.01, 11) = 0.79 oraz w(0.01, 9) = 0.764.
Przykład 5.1 - cd. Przyjmujemy poziom istotności α = 0.01, kwantyle rozkładu statystyki W są odpowiednio równe: w(0.01, 11) = 0.79 oraz w(0.01, 9) = 0.764. W przypadku testu Shapiro-Wilka obszar odrzucenia hipotezy zerowej jest obszarem lewostronnym, tzn odrzucamy H 0, gdy wartości statystyki W < w(α, n). W naszym przypadku zarówno jak i W X = 0.96 > 0.79 = w(0.01, 11) W Y = 0.98 > 0.76 = w(0.01, 9), a zatem obie próby pochodzą z rozkładu normalnego.
Przykład 5.1 - cd. Test jednorodności wariancji: H 0 : σ 2 X = σ 2 Y przy alternatywie: H 1 : σ 2 X σ 2 Y
Przykład 5.1 - cd. Test jednorodności wariancji: H 0 : σx 2 = σy 2 przy alternatywie: H 1 : σx 2 σy 2 Wartość statystyki testowej: F = S 2 X S 2 Y = 29.72 5.55 = 5.23
Przykład 5.1 - cd. Test jednorodności wariancji: H 0 : σx 2 = σy 2 przy alternatywie: H 1 : σx 2 σy 2 Wartość statystyki testowej: F = S 2 X S 2 Y = 29.72 5.55 = 5.23 Przyjmijmy α = 0.05, Obszar krytyczny jest postaci (0, f 0.025 (10, 8)] [f 0.975 (10, 8), ) = (0, 0.259] [4.295, ).
Przykład 5.1 - cd. Test jednorodności wariancji: H 0 : σx 2 = σy 2 przy alternatywie: H 1 : σx 2 σy 2 Wartość statystyki testowej: F = S 2 X S 2 Y = 29.72 5.55 = 5.23 Przyjmijmy α = 0.05, Obszar krytyczny jest postaci (0, f 0.025 (10, 8)] [f 0.975 (10, 8), ) = (0, 0.259] [4.295, ). Odrzucamy hipotezę o jednorodności wariancji.
Przykład 5.1 - cd. Obie niezależne próby danych pochodzą z rozkładu normalnego Brak jednorodności wariancji Testujemy przy alternatywie: H 0 : µ X = µ Y H 1 : µ X µ Y
Przykład 5.1 - cd. Obie niezależne próby danych pochodzą z rozkładu normalnego Brak jednorodności wariancji Testujemy przy alternatywie: H 0 : µ X = µ Y H 1 : µ X µ Y Problem Behrensa Fishera
Test Cochrana Coxa Statystyka testowa: C = Przykład 5.1 - cd. X Ȳ 35.09 32.66 = S 2 X 11 + S2 Y 32.69 9 11 + 6.25 9 Niech α = 0.01. Obszar krytyczny jest postaci: = 1.26 (, c 0.995 (11, 9)] [c 0.995 (11, 9), )
Test Cochrana Coxa Statystyka testowa: C = Przykład 5.1 - cd. X Ȳ 35.09 32.66 = S 2 X 11 + S2 Y 32.69 9 11 + 6.25 9 Niech α = 0.01. Obszar krytyczny jest postaci: = 1.26 (, c 0.995 (11, 9)] [c 0.995 (11, 9), ) Wyznaczymy wartość c 0.995 (11, 9). c 0.995 (11, 9) = s X 2 11 t 0.995 (10)+ s2 Y 9 t 0.995 (8) = s X 2 11 + s2 Y 9 = 32.69 11 6.25 3.16+ 9 3.35 32.69 11 + 6.25 9 = 3.2
Przykład 5.1 - cd. Test Cochrana Coxa Wartość statystyki testowej C = 1.26 nie mieści się w zbiorze C : (, 3.2] [3.2, ), stąd nie mamy podstaw do odrzucenia hipotezy o równości średniego wieku pracowników w obu sklepach.
Przykład 5.1 - cd. Test Welch Aspin Statystyka testowa: T = X Ȳ 35.09 32.66 = = 1.26 S 2 X 11 + S2 Y 32.69 9 11 + 6.25 9
Przykład 5.1 - cd. Test Welch Aspin Statystyka testowa: T = X Ȳ 35.09 32.66 = S 2 X 11 + S2 Y 32.69 9 11 + 6.25 9 Wyznaczmy liczbę stopni swobody ( ) 2 sx 2 11 + s2 Y 9 df W = = (sx 2 /11)2 10 + (s2 Y /9)2 8 = 1.26 ( ) 2 32.69 11 + 6.25 9 (32.69/11) 2 10 + (6.25/9)2 8 = 14.24
Przykład 5.1 - cd. Test Welch Aspin Statystyka testowa: T = X Ȳ 35.09 32.66 = S 2 X 11 + S2 Y 32.69 9 11 + 6.25 9 Wyznaczmy liczbę stopni swobody ( ) 2 sx 2 11 + s2 Y 9 df W = = (sx 2 /11)2 10 + (s2 Y /9)2 8 = 1.26 ( ) 2 32.69 11 + 6.25 9 (32.69/11) 2 10 + (6.25/9)2 8 = 14.24 Kwantyl rozkładu studenta rzędu 0.995 z 14.24 stopniami swobody jest równy t 0.995 (14.24) = 2.96, a zatem obszar krytyczny jest postaci C : (, 2.96] [2.96, ).
Przykład 5.1 - cd. Test Welch Aspin Statystyka testowa: T = X Ȳ 35.09 32.66 = S 2 X 11 + S2 Y 32.69 9 11 + 6.25 9 Wyznaczmy liczbę stopni swobody ( ) 2 sx 2 11 + s2 Y 9 df W = = (sx 2 /11)2 10 + (s2 Y /9)2 8 = 1.26 ( ) 2 32.69 11 + 6.25 9 (32.69/11) 2 10 + (6.25/9)2 8 = 14.24 Kwantyl rozkładu studenta rzędu 0.995 z 14.24 stopniami swobody jest równy t 0.995 (14.24) = 2.96, a zatem obszar krytyczny jest postaci C : (, 2.96] [2.96, ). Nie mamy podstaw do odrzucenia hipotezy zerowej.
Przykład 5.1 - pakiet R x <-c (30,27,38,35,41,27,32,35,37,39,45) y <-c (30,32,33,29,31,34,33,35,37)
Przykład 5.1 - pakiet R x <-c (30,27,38,35,41,27,32,35,37,39,45) y <-c (30,32,33,29,31,34,33,35,37) shapiro. test (x) Shapiro-Wilk normality test data: x W = 0.9643, p-value = 0.8237 shapiro. test (y) Shapiro-Wilk normality test data: y W = 0.9857, p-value = 0.9871
Przykład 5.1 - pakiet R var. test (x,y) F test to compare two variances data: x and y F = 5.2305, num df = 10, denom df = 8, p-value = 0.02778 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 1.217786 20.163182 sample estimates: ratio of variances 5.230545
Przykład - pakiet R t. test (x,y) Welch Two Sample t-test data: x and y t = 1.2661, df = 14.247, p-value = 0.2258 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -1.675861 6.524346 sample estimates: mean of x mean of y 35.09091 32.66667
Literatura: Bartoszewicz J.,Wykłady ze statystyki matematycznej, PWN, Warszawa 1989. Koronacki J. i Mielniczuk J., Statystyka, dla studentów kierunków technicznych i przyrodniczych, WNT, 2001 Magiera M, Modele i metody statystyki matematycznej, część II, wnioskowanie statystyczne, Wrocław, 2007