Elementy statystyki STA - Wykład 5

STA - Wykład 5 Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza 1

ANOVA 2

Model jednoczynnikowej analizy wariancji Na model jednoczynnikowej analizy wariancji możemy traktować jako uogólnienie modelu dwóch prób prostych niezależnych o jednakowych wariancjach, na przypadek k, (k > 2) prób niezależnych. gdzie X ij = µ i + ε ij, j = 1,..., n i, i = 1, 2,... k X ij j-ta obserwacja badanej cechy X w i-tej grupie, µ i wartość oczekiwana (średnia, "prawdziwa" wartość) badanej cechy X w i-tej grupie, ε ij błędy. 3

Założenia O błędach zakładamy, że: sa niezależne (dokładnie: sa niezależnymi zmiennymi losowymi), maja wartość oczekiwana równa zero (nie ma błędu systematycznego), tzn. E(ε ij ) = 0, j = 1,..., n i, i = 1, 2,... k, maja jednakowa, stała i niezerowa wariancję, tzn. Var(ε ij ) = σ 2, j = 1,..., n i, i = 1, 2... k. Uwaga: Model ma k + 1 parametrów: µ 1,... µ k i σ 2. 4

Test ANOVA dla k prób niezależnych Rozważamy model jednoczynnikowej analizy wariancji z dodatkowym założeniem normalności rozkładów błędów. Hipoteza zerowa: wartości oczekiwane (średnie) badanej cechy w k grupach nie różnia się istotnie: H 0 : µ 1 = µ 2 = = µ k. Hipoteza alternatywna: co najmniej dla jednej pary grup, wartości oczekiwane (średnie) badanej cechy różnia się istotnie: H 1 : H 0. 5

Jednoczynnikowa ANOVA Wartość statystyki testowej obliczamy ze wzoru: F = SSA k 1 / SSE n k, gdzie SSA = k n i ( x i x) 2, SSE = i=1 k n i (x ij x i ) 2, i=1 j=1 x i = 1 n i n i j=1 x ij, x = 1 n k n i x ij, n = i=1 j=1 k n i. Przy braku istotnych różnic statystyka ta ma rozkład F z k 1 i n k stopniami swobody. i=1 6

Tabela analizy wariancji Tradycyjnie wyniki analizy wariancji przedstawiamy w postaci tabeli. Źródło Suma Liczba stopni Średnie Statystyka zmienności kwadratów swobody kwadraty testowa Pomiędzy grupami SSA k 1 MSA F Wewnatrz grup SSE n k MSE Całość SST n 1 MST MSA = SSA/(k 1), MSE = SSE/(n k), MST = SST /(n 1). 7

Test Bartletta Założenie jednorodności wariancji błędów możemy zweryfikować testem Bartletta (przy dodatkowym założeniu normalności rozkładu błędów). Hipoteza zerowa: H 0 : σ 2 1 = σ 2 2 = = σ 2 k Hipoteza alternatywna: H 1 : H 0 Statystyka testowa: gdzie B = 1 k C (n k) ln MSE (n i 1) ln Si 2, C = 1 + i=1 1 [ k 1 3(k 1) n i 1 1 ]. n k i 1 Rozkład statystyki testowej: B H0 χ 2 (k 1), (graniczny) 8

Jednoczynnikowa ANOVA układy doświadczalne Na test jednoczynnikowej analizy wariancji możemy patrzeć jak na badanie istotności wpływu czynnika A na majac a charakter ilościowy i ciagły cechę X. Czynnik występuje na k poziomach które oznaczamy A 1, A 2,..., A k. Poziomy czynnika A nazywamy obiektami doświadczalnymi. Obiekty doświadczalne sa kontrolowane przez eksperymentatora, przy czym każdy z nich jest zwiazany z pewna liczba tzw. jednostek doświadczalnych. Liczba jednostek doświadczalnych zwiazana z określonym obiektem nazywana jest liczba replikacji tego obiektu. Kojarz ac różne obiekty z jednostkami doświadczalnymi, eksperymentator kreuje różne populacje, które pragnie porównać na podstawie obserwacji badanej w doświadczeniu cechy X. 9

Układ całkowicie losowy Model jednoczynnikowej analizy wariancji zwiazany jest z układem doświadczalnym zwanym "układem całkowicie losowym". W eksperymencie badamy jaki wpływ na badana cechę populacji X ma "czynnik" A. Czynnik A posiada k poziomów A 1, A 2,..., A k. Każdy poziom czynnika jest obiektem doświadczalnym. Z i-tym obiektem zwiazanych jest n i jednostek doświadczalnych. Model dla układu całkowicie losowego zapisujemy w postaci: X ij = µ + α i + ε ij, gdzie µ średnia ogólna, α i efekt i tego obiektu, k i=1 α i = 0, ε ij błędy. j = 1,..., n i, i = 1, 2,... k Uwaga: Założenia dotyczace błędów sa identyczne jak w modelu jednoczynnikowej analizy wariancji. 10

Hipoteza zerowa: czynnik A ma istotny wpływ na cechę X: H 0 : α 1 = α 2 = = α k. Hipoteza alternatywna: czynnik A nie ma istotnego wpływu na cechę X: H 1 : H 0. Statystyka testowa: F = SSA k 1 / SSE n k SSA = k n i ( X i. X.. ) 2, SSE = i=1 k n i (X ij X i. ) 2, i=1 j=1 X i. = 1 n i n i j=1 X ij, X.. = 1 n k n i k X ij, n = n i. i=1 j=1 i=1 Rozkład statystyki testowej: F H0 F(k 1, n k) 11

Tabela analizy wariancji Tradycyjnie wyniki analizy wariancji przedstawiamy w postaci tabeli. Źródło Suma Liczba stopni Średnie Statystyka zmienności kwadratów swobody kwadraty testowa Obiekty SSA k 1 MSA F Bład SSE n k MSE Całość SST n 1 MST MSA = SSA/(k 1), MSE = SSE/(n k), MST = SST /(n 1). 12

ANOVA Analysis of Variance Sir Ronald A. Fisher (1890-1962) 13

Porównania wielokrotne (post hoc) Procedury porównań wielokrotnych stosujemy wtedy, gdy zostanie odrzucona hipoteza zerowa w teście analizy wariancji!!! Procedura LSD Fishera. Polega na testowaniu, dla każdej pary (i, j), i, j = 1, 2,..., k, i j, oddzielnie hipotezy zerowej: H 0 : µ i = µ j, przeciwko hipotezie alternatywnej H 1 : µ i µ j. Statystyka testowa: t = X i. X j. MSE ni n j n i + n j. Rozkład statystyki testowej: t H0 t(n k) 14

Porównania wielokrotne (post hoc) Procedura HSD Tukey a. Niech n 1 = n 2 = = n k = m. Polega na testowaniu, jednocześnie dla wszystkich par (i, j), i, j = 1, 2,..., k, i j, hipotez zerowych: H 0 : µ i = µ j, przeciwko hipotezom alternatywnym Statystyka testowa: H 1 : µ i µ j. q = X i. X j. m. MSE Rozkład statystyki testowej: q H0 q(k, k(m 1)) 15

HSD Honestly Significant Difference John Wilder Tukey (1915-2000) 16

Układ losowych bloków kompletnych W celu wyeliminowania niejednorodności jednostek eksperymentalnych możemy pogrupować je w bloki. Grupowanie to podporzadkowane jest zasadzie, zgodnie z która naturalna zmienność jednostek wewnatrz każdego bloku powinna być możliwie najmniejsza, podczas gdy zmienność jednostek pochodzacych z różnych bloków może być duża. W ten sposób stwarzamy porównywanym obiektom bardziej wyrównane warunki i równocześnie ograniczamy w doświadczeniu wpływ naturalnej zmienności jednostek eksperymentalnych na wielkość wariancji błędu. 17

Układ losowych bloków kompletnych Model dla układu losowych bloków kompletnych zapisujemy w postaci: X ij = µ + α i + β j + ε ij, i = 1,..., k, j = 1,..., b, gdzie µ średnia ogólna, α i efekt i tego obiektu, k i=1 α i = 0, β j efekt j tego bloku, b j=1 β j = 0, ε ij błędy. Uwaga: Założenia dotyczace błędów sa identyczne jak w modelu jednoczynnikowej analizy wariancji. 18

Hipoteza zerowa: czynnik A ma istotny wpływ na cechę X: H 0 : α 1 = α 2 = = α k. Hipoteza alternatywna: czynnik A nie ma istotnego wpływu na cechę X: H 1 : H 0. Statystyka testowa: F = SSA/ SSE b 1 k SSA = b ( X i. X.. ) 2, SSE = i=1 k b (X ij X i. X.j + X.. ) 2, i=1 j=1 X i. = 1 b X ij, X.j = 1 k b j=1 k X ij, X.. = 1 n i=1 k b X ij, n = kb. i=1 j=1 Rozkład statystyki testowej: F H0 F(k 1, (k 1)(b 1)) 19

Tabela analizy wariancji Źródło Suma Liczba stopni Średnie Statystyka zmienności kwadratów swobody kwadraty testowa Obiekty SSA k 1 MSA F Bloki SSB b 1 MSB Bład SSE (k 1)(b 1) MSE Całość SST kb 1 MST MSA = SSA/(k 1), MSB = SSB/(b 1), MSE = SSE/(k 1)(b 1), MST = SST /(kb 1). 20

R Funkcje zwiazane z analiza wariancji ): aov procedura główna, bartlett.test test Bartletta, LSD.test(agricolae) procedura LSD Fishera, HSD.test(agricolae) procedura HSD Tukeya. 21