Porównanie wielu rozkładów normalnych Założenia:. X i N(µ i, σi 2 ), i =,..., k 2. X,..., X k są niezależne Czy µ = = µ k? Czy σ 2 = = σ 2 k? Próby: X i,..., X ini, i =,..., k X i, varx i, s 2 i = varx i n i ; i =,..., k W Z Statystyka 6.
H 0 : µ = = µ k Założenie σ 2 = = σ 2 k Test F (poziom istotności α) Statystyka testowa F emp = S2 a S 2 e S 2 a = k k n i ( X i X) 2 i= S 2 e = N k k n i (X ij X i ) 2 i= j= X i = n i n i j= X ij, X = N k i= n i j= X ij N = k i= n i W Z Statystyka 6.2
Jeżeli F emp > F (α; k, N k), to hipotezę H 0 : µ = = µ k odrzucamy. Wniosek praktyczny: przynajmniej jedna ze średnich µ,..., µ k jest inna od pozostałych Model analizy wariancji X ij = µ i + ε ij Błąd losowy ε ij N(0, σ 2 ) Przykłady Plenność kilku odmian pewnej rośliny uprawnej Wydajność pracowników kilku zakładów pracy Zarobki kilku grup społecznych Czynnik: odmiana, zakład, grupa Poziomy czynnika: badane odmiany, badane zakłady, badane grupy W Z Statystyka 6.3
Model analizy wariancji X ij = µ + a i + ε ij a i efekt i tego poziomu czynnika: k i= a i = 0 H 0 : a = = a k = 0, H 0 : Tabela analizy wariancji k a 2 i = 0 i= Źródło Stopnie Sumy Średnie F emp zmienności swobody kwadratów kwadraty Czynnik k vara S 2 a = vara k Błąd losowy N k vare S 2 e = vare N k Ogółem N vart S2 a/s 2 e vara = k n i ( X i X) 2, vare = i= k n i (X ij X i ) 2, i= j= k n i vart = (X ij X) 2, i= j= vara + vare = vart W Z Statystyka 6.4
Grupy jednorodne podzbiory średnich, które można uznać za takie same Procedury porównań wielokrotnych postępowanie statystyczne zmierzające do podzielenia zbioru średnich na grupy jednorodne Procedury: Tukeya, Scheffégo, Bonfferroniego, Duncana, Newmana Kuelsa i inne. Ogólna idea procedur porównań wielokrotnych (n = = n k ) N IR najmniejsza istotna różnica Jeżeli X i X j < NIR, to uznajemy, że µ i = µ j. Jeżeli X i X j < NIR X i X l < NIR X l X j < NIR, to uznajemy, że µ i = µ j = µ l. Badając w ten sposób wszystkie pary średnich próbkowych otrzymujemy podział zbioru średnich na grupy jednorodne. W Z Statystyka 6.5
Procedura Tukeya Założenie: n = = n k = n NIR = t(α; k, N k)s e n t(α; k, N k) wartość krytyczna studentyzowanego rozstępu Przypadek nierównolicznych prób Jedna z modyfikacji procedury Tukeya NIR ij = t(α; k, N k)s e 2 ( n i + n j ) W Z Statystyka 6.6
Przykład. Przeprowadzić analizę porównawczą wyników punktowych klasówki w grupach studenckich. Populacje Możemy wyodrębnić dziesięć populacji indeksowanych numerami grup studenckich Cecha X Ilość punktów uzyskanych na klasówce Założenia cecha X ma w i tej populacji rozkład N(µ i, σ 2 i ) (i =,..., 0) σ 2 = = σ 2 0 Formalizacja weryfikacja hpotezy H 0 : µ = = µ 0 Techniki statystyczna Jednoczynnikowa analiza wariancji Porównania szczegółowe Poziom istotności 0.05 W Z Statystyka 6.7
Obliczenia i n i xi x 2 i 30 8.230.375950 2 30 6.672 9.596790 3 30 4.292 7.087458 4 30 8.879 2.069655 5 30 8.200.355982 6 30 9.568 3.72884 7 30 6.522 9.420960 8 30 9.34 2.54874 9 30 8.548.945964 0 30 6.52 9.304785 300 76.566 07.845302 i n i x i n i ( x i x) 2 varx i 30 0.607667 0.00960 0.29887 2 30 0.555733 0.03235 0.33604 3 30 0.476400 0.37735 0.278749 4 30 0.629300 0.049809 0.8900 5 30 0.606667 0.009843 0.34649 6 30 0.652267 0.2782 0.409330 7 30 0.550733 0.0429 0.32744 8 30 0.637800 0.072757 0.3209 9 30 0.68267 0.026486 0.478354 0 30 0.550700 0.042986 0.206670 N =300 x=0.588553 vara=0.78799 vare=3.39595 vart = 07.845302 76.566 2 /300 = 3.926794 W Z Statystyka 6.8
Tabela analizy wariancji Źródło Stopnie Sumy Średnie Femp zmienności swobody kwadratów kwadraty Grupa 9 0.78799 0.087467 8.079 Błąd losowy 290 3.39595 0.00826 Ogółem 299 3.926794 Wartość krytyczna F (0.05; 9, 290) =.92 Odpowiedź: hipotezę H 0 : µ = = µ 0 odrzucamy Wniosek: przynajmniej jedna grupa uzyskała inną średnią liczbę punktów niż pozostałe W Z Statystyka 6.9
Wyznaczenie grup jednorodnych Procedura Tukeya (α = 0.05) Wartość krytyczna: t(0.05; 0, 290) = 4.474 NIR = 4.474 0.00826 30 = 0.084990 i x i 3 0.476400 0 0.550700 7 0.550733 2 0.555733 5 0.606667 0.607667 9 0.68267 4 0.629300 8 0.637800 6 0.652267 W Z Statystyka 6.0
2 3 4 5 6 7 8 9 0. 2 3 4 5 6 7 8 9 0.......... W Z Statystyka 6.
Porównanie wariancji Cecha X i ma rozkład normalny N(µ i, σi 2) Średnie µ i oraz wariancje σi 2 są nieznane H 0 : σ 2 = = σ 2 k Test Bartletta (poziom istotności α) Statystyka testowa M = (N k) ln ( N k k k (n i )Si 2 i= ) i= (n i ) ln S 2 i S 2 i = n i n i j= (X ij X i ) 2 Jeżeli M > m(α), to H 0 : σ 2 = = σ 2 k odrzucamy. W Z Statystyka 6.2
m(α) = c c [(c c 3 )m (α; k, c ) + (c 3 c)m 2 (α; k, c )] c = k i= n i N k c 3 = k i= (n i ) 3 (N k) 3, c = c 3 /k 2, m (α; k, c ), m 2 (α; k, c ) są stablicowane Jeżeli wszystkie n i > 4, to statystyka testowa M + c /(3(k )) ma w przybliżeniu rozkład chi kwadrat z k stopniami swobody. Jeżeli c = 0, to m (α; k, c ) = m 2 (α; k, c ) = χ 2 (α; k ) W Z Statystyka 6.3
Przypadek n = = n k = n Test Cochrana (poziom istotności α) Statystyka testowa G = S 2 max S 2 + + S2 k S 2 max = max{s 2,..., S 2 k} Jeżeli G > g(α; k, n), to H 0 : σ 2 = = σ 2 k odrzucamy Wartości krytyczne g(α; k, n) są podane w tablicach W Z Statystyka 6.4
Przypadek n = = n k = n Test Hartleya (poziom istotności α) Statystyka testowa F max = S2 max S 2 min S 2 min = min{s 2,..., S 2 k} Jeżeli F max > f max (α; k, n), to H 0 : σ 2 = = σ 2 k odrzucamy Wartości krytyczne f max (α; k, n) są podane w tablicach W Z Statystyka 6.5
Przykład. W celu porównania zróżnicowania cen targowiskowych na jaja w czterech województwach w Polsce z każdego województwa wylosowano pewne ilości targowisk i zanotowano przeciętne ceny jaj na tych targowiskach. Po odpowiednich przeliczeniach uzyskano nastepujące wyniki Województwo Liczba targowisk n i Wariancja s 2 i 8 900 2 6 400 3 5 400 4 7 600 Czy można na tej podstawie uznać, że zróżnicowanie cen w badanych województwach jest takie same? Populacje Są cztery populacje: targowiska w badanych województwach Cecha X przeciętna cena jaj na targowisku Założenie cecha w i tej populacji ma rozkład N(µ i, σ 2 i ) (i =, 2, 3, 4) W Z Statystyka 6.6
Formalizacja Miernikiem zróżnicowania cechy jest jej wariancja. Zatem problem analizy porównawczej zróżnicowania cen można zapisać jako zagadnienie weryfikacji hipotezy H 0 : σ 2 = = σ 2 4 Technika statystyczna Test Bartletta (poziom istoności α = 0.05) Obliczenia n i (n i )s 2 i (n i )lns 2 i /(n i ) /(n i ) 3 8 6300 47.668 0.429 0.0029 2 6 2000 29.9573 0.2000 0.0080 3 5 600 23.9659 0.2500 0.056 4 7 9600 44.2666 0.667 0.0046 Razem 26 9500 45.8065 0.7595 0.032 M = (26 4) ln ( ) 9500 26 4 45.8065 = 3.503 c = 0.7595 c 3 = 0.032 (26 4) = 0.74 (26 4) 3 = 0.03 c = 0.743 4 2 = 0.0228 W Z Statystyka 6.7
Wartość krytyczna m(0.05) = m (0.05; 4, 0.74) = 8.4630 m 2 (0.05; 4, 0.74) = 8.0972 (0.74 0.03)8.4630+(0.03 0.0228)8.0972 0.74 0.0228 = 8.4586 Odpowiedź: nie ma podstaw do odrzucenia weryfikowanej hipotezy Wniosek: zróżnicowanie cen targowiskowych w badanych województwach można uznać za takie same. W Z Statystyka 6.8