Analiza wariancji Źródło: Aczel A. D. Statystyka w zarządzaniu
Analiza wariancji jednoczynnikowa
Populacja Pole trójkąty 1 4 5 3 7 4 8 kwadraty 1 10 11 3 1 4 13 kółka 1 1 3 3
Populacja Pole trójkąty 1 4 5 3 7 4 8 SUMA 4 Średnia 6 kwadraty 1 10 11 3 1 4 13 SUMA Średnia kółka 1 1 3 3 SUMA Średnia
Średnie w populacjach Populacja Pole trójkaty 1 4 5 3 7 4 8 SUMA 4 Średnia 6 kwadraty 1 10 11 3 1 4 13 SUMA 46 Średnia 11,5 kółka 1 1 3 3 SUMA 6 Średnia
Wariancje w populacjach Populacja Pole trójkaty 1 4-4 5-1 1 3 7 1 1 4 8 4 SUMA 4 10 Średnia 6 3,333 MAX kwadraty 1 10-1,5,5 11-0,5 0,5 3 1 0,5 0,5 4 13 1,5,5 SUMA 46 5 Średnia 11,5 1,667 kółka 1 1-1 1 0 0 3 3 1 1 SUMA 6 Średnia x x ( x x) 1 MIN
Test Bartlett a równości wariancji ( ) ZAŁ.: k populacji o rozkładach normalnych N µ, δ Liczność prób: n i, i =1,,..., k i i H 0... H1 : : δ 1 = δ = = δ k Nie wszystkie wariancje są równe.
Χ =,303 ( ) k ( ) n k log sˆ n i 1 log sˆ i c i= 1 -rozkład Χ ( k 1) gdzie: n = n i= 1 n i sˆ = n 1 k k i= 1 ( n 1) ˆ i s i k ( ) k = + + 1 1 1 c 1 3 k 1 i= 1 ni 1 n k c = = 1+ 3 1 k + 1 ( n k ) gdy n =... nk,
Obszar krytyczny testu:
Test Bartlett a równości wariancji ( ) ZAŁ.: k populacji o rozkładach normalnych N µ, δ Liczność prób: n i, i =1,,..., k i i H 0... H1 : : δ 1 = δ = = δ k Nie wszystkie wariancje są równe. Χ =,303 c k ( n k) log sˆ ( 1) log ˆ = 0, 68 i= 1 n i s i 0,68 < Χ 0 =,05 ( ) 5, 99 Nie ma podstaw do odrzucenia hipotezy o równości wariancji. H 0
Analiza wariancji jednoczynnikowa H 0 : µ 1 = µ =... = µ r H1 : Nie wszystkie średnie są równe. F = MSTr MSE -rozkład F-Snedecora o (r-1,n-r) stopniach swobody gdzie: MSTr MSE - średnie odchylenie kwadratowe między populacjami - średnie odchylenie kwadratowe błędu losowego Obszar krytyczny testu:
Średnia w populacji (i) x i = n i j n x i ij Średnia z całej próby x r i= = 1 n i j n x ij
Suma odchyleń kwadratowych od średnich w populacjach SSE = r n ( i x ) ij xi i= 1 j= 1 Średnie odchylenie kwadratowe od średnich w populacjach MSE = = r i= 1 SSE n r Suma odchyleń kwadratowych między populacjami SSTr MSTr n i ( x x ) Średnie odchylenie kwadratowe od średnich między populacjami i SSTr = r 1
Populacja Pole ij x i ij x i x i trójkaty 1 4-4 6 0,86 5-1 1 6 0,86 3 7 1 1 6 0,86 4 8 4 6 0,86 kwadraty 1 10-1,5,5 11,5 1,076 11-0,5 0,5 11,5 1,076 3 1 0,5 0,5 11,5 1,076 4 13 1,5,5 11,5 1,076 kółka 1 1-1 1 4,099 0 0 4,099 3 3 1 1 4,099 SUMA 76 SSE= 17 SSTr 159,909 średnia n=11 6,909 SSE 17 MSE = = 159,9 = = 79, 95 n r 8 = SSTr r x x ( x ) ( ) x i x MSTr = MSE 79,95,15 MSSTr F = = 37, 6 1
Analiza wariancji jednoczynnikowa H1 H : µ = = 0 : 1 µ µ 3 Nie wszystkie średnie są równe. F MSTr = MSE = 79,95,15 = 37,6 Poziom istotności testu α = 0, 05 Wartość krytyczna F (3-1,11-3)=4,46 0,05 37,6 > 4,46 -> odrzucamy hipotezę o równości średnich
Test Tuckeya jednorodności dla jednakowych liczebności w grupach Statystyka testowa dla różnic studentyzowanych T ( r, n r) α = q α MSE n i Wnioskowanie: x i x j > < T T α α ( r, n r) ( r, n r) średnie średnie rózne równe
Test Tuckeya jednorodności dla różnych liczebności w grupach Statystyka testowa dla różnic studentyzowanych T ( r, n r) α = q α MSE ( n i ) min Wnioskowanie: x i x j > < T T α α ( ) r, n r ( r, n r) średnie średnie rózne równe
Test Tuckeya jednorodności dla różnych liczebności w grupach Statystyka testowa dla różnic studentyzowanych T α Wnioskowanie: ( r, n r ) = q α MSE 1 1 + n i n j x i x j > < T T α α ( ) r, n r ( r, n r) średnie średnie rózne równe
Test Tuckeya jednorodności dla jednakowych liczebności w grupach Statystyka testowa dla różnic studentyzowanych T α MSE,15 ( r, n r) = q = 4,04 = 3, 4 α n i 3 Wnioskowanie: x x x ko ko kw x xt x kw t = 9,5 > 3,4 pola rózne = 4 > 3,4 pola rózne = 5,5 > 3,4 pola rózne
Test Tuckeya jednorodności
Analiza wariancji dwuczynnikowa (z n powtórzeniami)
LOKALIZACJA (A) MARKA (B) I II III Centrum 41 31 35 39 8 3 43 33 36 Peryferia 7 19 7 31 3 6 3 5 Źródło: Mercik J., Szmigiel Cz. Ekonometria Cena produktu w zależności od lokalizacji sklepu i firmy produkcyjnej
Test Hartley a równości wariancji ZAŁ.: k populacji o rozkładach normalnych Liczność prób: n1 = n =... = nk = n 5 N ( µ, δ ) i i H 0... H1 : : δ 1 = δ = = δ k Nie wszystkie wariancje są równe. H = Sˆ Sˆ max min -rozkład H (n,k-1 ) Obszar krytyczny testu:
wariancje sˆi LOKALIZACJA (A) FIRMA (B) I II III Centrum 4 6,33 4,33 Peryferia 7 4,33 4 H H1 0 : δ 11 = δ1 = δ13 = δ 1 = δ = δ 3 : Nie wszystkie wariancje są równe. H = S S 7 4 max = = min 1,75 Wartość krytyczna H (6,3-1)=66 0,05 1,75 < 66 -> nie ma postaw do odrzucenia hipotezy o równości wariancji UWAGA: n<5!
Test Bartlett a równości wariancji ( ) ZAŁ.: k populacji o rozkładach normalnych N µ, δ Liczność prób: n i, i =1,,..., k i i H 0... H1 : : δ 1 = δ = = δ k Nie wszystkie wariancje są równe.
Χ =,303 ( ) k ( ) n k log sˆ n i 1 log sˆ i c i= 1 -rozkład Χ ( k 1) gdzie: n = n i= 1 n i sˆ = n 1 k k i= 1 ( n 1) ˆ i s i k ( ) k = + + 1 1 1 c 1 3 k 1 i= 1 ni 1 n k c = = 1+ 3 1 k + 1 ( n k ) gdy n =... nk,
LOKALIZACJA (A) FIRMA (B) I II III Centrum 4 6,33333 4,33333 Peryferia 7 4,33333 4 wariancje sˆi k 1 = n k ( n i 1) sˆ = 4, 99 ˆ i i= 1 s Χ =,303 c k ( n k) log sˆ ( 1) log ˆ = 1, 03 i= 1 n i s i < Χ 0 =,05 ( 5) 11, 07 Nie ma podstaw do odrzucenia hipotezy o równości wariancji. H 0
Obszar krytyczny testu:
ANALAZA WARIANCJI DWUCZYNNIKOWA a liczba poziomów czynnika A, b liczba poziomów czynnika B, n liczba obserwacji w klasie. xijk k - ta obserwacja dla poziomu i czynnika A oraz poziomu j czynnika B
Wpływ czynnika A na wartość oczekiwaną badanej cechy. H 0... µ H 1 : µ 1.. = µ.. = = a.. : Nie wszystkie powyższe równości zachodzą. Wpływ czynnika B na wartość oczekiwaną badanej cechy. H 0... µ H1 : : µ.1. = µ.. = =. b. Nie wszystkie powyższe równości zachodzą. Łączny wpływ czynników A i B na wartość oczekiwaną badanej cechy. H : µ 0 11. = µ 1. =... = µ ab. = 0 H1 : Nie wszystkie powyższe równości zachodzą.
X = a i b j n k abn X ijk - wartość średnia dla wszystkich obserwacji, X i.. = b j n k bn X ijk - wartość średnia dla poziomu i czynnika A, X. j. = a i n k an X ijk - wartość średnia dla poziomu j czynnika B, X ij. = n k X n ijk - wartość średnia dla poziomu i czynnika A oraz dla poziomu j czynnika B.
LOKALIZACJA (A) MARKA (B) I II III Centrum 41 31 35 39 8 3 43 33 36 41,00 30,67 34,33 35,33 Peryferia 7 19 7 31 3 6 3 5 8,00 1,33 5,00 4,78 34,50 6,00 9,67 30,06
SST = SSA+ SSB + SSAB + SSE gdzie: SST = a b n i= 1 j= 1 k= 1 ( ) X X ijk - łączna suma kwadratów odchyleń, SSA = bn ( a ) X i.. X i= 1 - suma kwadratów odchyleń dla czynnika A, SSB = an ( b ) X. j. X j= 1 - suma kwadratów odchyleń dla czynnika B, SSAB = n a b ( X ij. X i.. X. j. + X ) i= 1 j= 1 - suma kwadratów odchyleń dla interakcji AxB, SSE = a b n ( X ) ijk X ij. i= 1 j= 1 k= 1 - suma kwadratów odchyleń dla błędu.
SST SSA 3 3 = i= 1 j= 1 k= 1 a = bn i= 1 ( ) X ijk X = ( 41 30,05) + ( 31 30,05) +... + ( 5 30,05) = 79, 94 ( ) [( ) ( ) ] X i X = 3 3 35,33 30,05 + 4,78 30,05 501, 39.. = SSB = an b j= 1 ( ) X X = [ ( ) + ( ) + ( ) ] 3 34,50 30,05 6,00 30,05 9,67 30,. j. 05 = 3 SSAB a b = n i= 1 j= 1 ( ) X X X + X = ij. i.. [( ) ( ) ] 41,00 35,33 34,50 + 30,05 +... + 5,00 4,78 9,67 + 30,05 = 13, 44. j. SSE 3 3 = ( ) X ijk X ij. = ( 41 41) + ( 39 41) +.. + ( 5 5) = 60 i= 1 j= 1 k = 1
Źródło zmienności Suma kwadratów odchyleń Liczba stopni swobody Średnie odchylenie kwadratowe Wartość statystyki F-Snedecora Czynnik A SSA a-1 Czynnik B SSB b-1 Interakcja SSAB (a-1)(b-1) Błąd SSE ab(n-1) SSA MSA = a 1 SSB MSB = b 1 MSAB = SSE MSE = ab SSAB ( a 1)( b 1) ( n 1) MSA F = MSE F = F = MSB MSE MSAB MSE Suma SST abn-1
Źródło zmienności Lokalizacja (A) Suma kwadratów odchyleń Liczba stopni swobody Średnie odchylenie kwadratowe Statystyka F- Snedecora Istotnoś ć F 501,39 1 501,39 100,8 ~0,000 Marka (B) 18,11 109,06 1,81 0,0001 Interakcja 13,44 6,7 1,34 0,973 Błąd 60 1 5 Całkowita 79,94 17
Obszar krytyczny.
Łączny wpływ lokalizacji i marki (A x B) na wartość oczekiwaną ceny. H : µ = µ = = µ... 0 11. 1. 3. H 1 : Nie wszystkie powyższe równości zachodzą. F = 1, 34 <,05 (,1 ) 3, 89 F 0 = Nie ma podstaw do odrzucenia hipotezy H 0 o braku łącznego wpływu lokalizacji i marki na cenę.
45,00 40,00 35,00 30,00 5,00 0,00 15,00 10,00 5,00 0,00 I II III Centrum Peryferia średnia
H µ = H 1 : 1.. µ.. Wpływ lokalizacji (A) na wartość oczekiwaną ceny. 0 : 1.. µ.. F = 100, 8 > F ( 1,1 ) = 4, 75 0,05 Odrzucamy hipotezę H 0 na korzyść hipotezy Lokalizacja sklepu ma wpływ na cenę. H 1
Wpływ marki (B) na wartość oczekiwaną ceny. H : µ = µ = µ 0.1....3. H : 1 zachodzą. Nie wszystkie powyższe równości F = 1, 8 > F (,1 ) = 3, 89 0,05 H H1 Odrzucamy hipotezę 0 na korzyść hipotezy Marka ma wpływ na cenę.
45,00 40,00 35,00 30,00 5,00 0,00 15,00 10,00 5,00 0,00 Centrum Peryferia I II III średnia
Obliczenia w Excelu
Analiza wariancji dwuczynnikowa PRZYKŁAD INTERAKCJI
POLE FIGURA KOLOR (A) (B) 4 trójkąt czerwony 5 trójkąt czerwony 7 trójkąt czarny 8 trójkąt czarny 10 kwadrat czarny 11 kwadrat czarny 1 kwadrat czerwony 13 kwadrat czerwony 1 koło czerwony koło czerwony 3 koło czarny
Table of Least Squares Means for Col_1 with 95,0 Percent Confidence Intervals ------------------------------------------------------------------------------ Stnd. Lower Upper Level Count Mean Error Limit Limit ------------------------------------------------------------------------------ GRAND MEAN 11 6,58333 Col_ ko³o 3,5 0,433013 1,1369 3,3631 kwadrat 4 11,5 0,353553 10,591 1,4088 trójk¹t 4 6,0 0,353553 5,09116 6,90884 Col_3 czarny 5 7,0 0,333333 6,14314 7,85686 czerwony 6 6,16667 0,88675 5,446 6,90873 Col_ by Col_3 ko³o czarny 1 3,0 0,707107 1,183 4,81768 ko³o czerwony 1,5 0,5 0,14706,7859 kwadrat czarny 10,5 0,5 9,1471 11,7853 kwadrat czerwony 1,5 0,5 11,147 13,7853 trójk¹t czarny 7,5 0,5 6,1471 8,7859 trójk¹t czerwony 4,5 0,5 3,1471 5,7859 ------------------------------------------------------------------------------ The StatAdvisor --------------- This table shows the mean Col_1 for each level of the factors. It also shows the standard error of each mean, which is a measure of its sampling variability. The rightmost two columns show 95,0% confidence intervals for each of the means. You can display these means and intervals by selecting Means Plot from the list of Graphical Options.
Analysis of Variance for Col_1 - Type III Sums of Squares -------------------------------------------------------------------------------- Source Sum of Squares Df Mean Square F-Ratio P-Value -------------------------------------------------------------------------------- MAIN EFFECTS A:Col_ 145,0 7,5 145,00 0,0000 B:Col_3 1,78571 1 1,78571 3,57 0,1174 INTERACTIONS AB 13,0 6,5 13,00 0,0104 RESIDUAL,5 5 0,5 -------------------------------------------------------------------------------- TOTAL (CORRECTED) 176,909 10 -------------------------------------------------------------------------------- All F-ratios are based on the residual mean square error. The StatAdvisor --------------- The ANOVA table decomposes the variability of Col_1 into contributions due to various factors. Since Type III sums of squares (the default) have been chosen, the contribution of each factor is measured having removed the effects of all other factors. The P-values test the statistical significance of each of the factors. Since P-values are less than 0,05, these factors have a statistically significant effect on Col_1 at the 95,0% confidence level.
Interaction Plot 15 1 Col_3 czarny czerwony Col_1 9 6 3 0 ko³o kwadrat trójk¹t Col_
ANOVA dla danych zblokowanych w kwadrat łaciński Dzień tygodnia Sklep 1 3 4 5 Poniedziałek B C A D E Wtorek A D C E B Środa C E B A D Czwartek D B C E A Piątek E A D B C Źródło: Aczel A. D. Statystyka w zarządzaniuc Rodzaj reklamy
ANOVA dla danych zblokowanych
DANE ZBLOKOWANE W KWADRAT ŁACIŃSKI Dzień tygodnia Sklep S1 S S3 S4 S5 Poniedziałek B C A D E Wtorek A D C E B Środa C E B A D Czwartek D B E C A Piątek E A D B C Źródło: Aczel A. D. Statystyka w zarządzaniuc Rodzaj reklamy
Dzień tygodnia Sklep S1 S S3 S4 S5 Poniedziałek B=5 C=4 A=6 D=4 E=3 Wtorek A=7 D=3 C=5 E= B=4 Środa C=4 E=3 B=4 A=8 D=4 Czwartek D=3 B=5 E=4 C=5 A=7 Piątek E=3 A=7 D=3 B=6 C=5 Sprzedaż
Dzień tygodnia Sklep Sprzedaż w dniach tygodnia S1 S S3 S4 S5 SUMA Poniedziałek 5 4 6 4 3 Wtorek 7 3 5 4 1 Środa 4 3 4 8 4 3 Czwartek 3 5 4 5 7 4 Piątek 3 7 3 6 5 4 Sprzedaż w sklepach (SUMA) 5 3 114 Sprzedaż ogółem
Dzień tygodnia Sklep S1 S S3 S4 S5 Poniedziałek B=5 C=4 A=6 D=4 E=3 Wtorek A=7 D=3 C=5 E= B=4 Środa C=4 E=3 B=4 A=8 D=4 Czwartek D=3 B=5 E=4 C=5 A=7 Piątek E=3 A=7 D=3 B=6 C=5 REKLAMA Sklep S1 S S3 S4 S5 SUMA A 7 7 6 8 7 35 B 5 5 4 6 4 4 C 4 4 5 5 5 3 D 3 3 3 4 4 17 E 3 3 4 3 15
H : µ = µ =... = µ 0 H1 : A B E Nie wszystkie powyższe równości zachodzą. - sprzedaż nie zależy od rodzaju reklamy - sprzedaż zależy od rodzaju reklamy
Źródło zmienności Suma kwadratów odchyleń Liczba stopni swobody Średnie odchylenie kwadratowe Wartość statystyki F-Snedecora Bloki -wiersze SSRB r-1 MSRB Bloki - kolumny SSCB r-1 MSCB Zabiegi SSTr r-1 MSTr F=MSTR/MSE Błąd losowy SSE (r-1)(r-) MSE Suma SST r -1
OBLICZENIA SST= (suma kwadratów wszystkich liczb w tablicy) (suma wszystkich liczb w tablicy)^/r^ SSRB = suma kwadratów sum w wierszach/r (suma wszystkich liczb w tablicy)^/r^ SSCB = suma kwadratów sum w kolumnach/r (suma wszystkich liczb w tablicy)^/r^ SSTr = suma kwadratów sum efektów zabiegów/r (suma wszystkich liczb w tablicy)^/r^ SSE = SST SSRB SSCB - SSTr
Analiza wariancji dla danych zblokowanych w kwadratach łacińskich H 0 : µ 1 = µ =... = µ r H1 : Nie wszystkie średnie są równe. F = MSTr MSE -rozkład F-Snedecora o (r-1,(r-1)(r-)) stopniach swobody gdzie: MSTr MSE - średnie odchylenie kwadratowe względem zabiegów - średnie odchylenie kwadratowe błędu losowego Obszar krytyczny testu:
PODSUMOWANIE Licznik Suma Średnia Wariancja Poniedziałek 5 4,4 1,3 Wtorek 5 1 4, 3,7 Środa 5 3 4,6 3,8 Czwartek 5 4 4,8, Piątek 5 4 4,8 3, S1 5 4,4,8 S 5 4,4,8 S3 5 4,4 1,3 S4 5 5 5 5 S5 5 3 4,6,3
ANALIZA WARIANCJI Źródło wariancji SS df MS F Wartość-p Test F Bloki wiersze dni tygodnia 1,36 4 0,34 Bloki kolumny sklepy 1,36 4 0,34 Zabiegi reklama 48,96 4 1,4,67 1,60483E-05 3,59167 Błąd 6,48 1 3,465 Razem 58,16 4
H : µ = µ = µ = = µ 0 H1 : A B C D Nie wszystkie średnie są równe. E F MSTr = MSE = 1,4 3,465 =,67 Poziom istotności testu α = 0, 05 Wartość krytyczna F (5-1,(5-1)(5-))=3,6 0,05,67 > 3,6 -> odrzucamy hipotezę o równości średnich
Analiza wariancji ulosowiony, całkowicie zblokowany plan eksperymentu H 0 : µ 1 = µ =... = µ r H1 : Nie wszystkie średnie są równe. F = MSTr MSE -rozkład F-Snedecora o (r-1,(r-1)(r-)) stopniach swobody gdzie: MSTr MSE - średnie odchylenie kwadratowe względem zabiegów - średnie odchylenie kwadratowe błędu losowego Obszar krytyczny testu:
Źródło zmienności Suma kwadratów odchyleń Liczba stopni swobody Średnie odchylenie kwadratowe Wartość statystyki F-Snedecora Bloki SSBL n-1 MSRB Zabiegi SSTr r-1 MSTr F=MSTR/MSE Błąd losowy SSE (n-1)(r-1) MSE Suma SST nr-1
H0: Nie ma różnicy w przeciętnej ocenie aktorek w opinii społecznej Losowy porządek prezentacji aktorek pierwszy wybrany widz Aktorka B Aktorka C Aktorka A drugi wybrany widz Aktorka C Aktorka B Aktorka A trzeci wybrany widz Aktorka A Aktorka C Aktorka B czwarty wybrany widz Aktorka B Aktorka A Aktorka C