Analizy wariancji ANOVA (analysis of variance)

Analizy wariancji ANOVA (analysis of variance) jest to metoda równoczesnego badania istotności różnic między wieloma średnimi z prób pochodzących z wielu populacji (grup).

Model jednoczynnikowy analiza wariancji z klasyfikacją pojedynczą Jednoczynnikowa ANOVA. Jest to technika badania wyników (doświadczeń, obserwacji), które zależą od jednego czynnika np. metody leczenia, metody produkcji, rodzaju zastosowanych materiałów itp. Czynniki te nazywane są: predyktorami jakościowymi czynnikami grupującymi, lub klasyfikacyjnymi.

ANOVA Założenia: Danych jest k populacji o rozkładzie normalnym N(m i, i ). Zakłada się, że wariancje wszystkich k populacji są równe tzn. 1 2 = 2 2 =... n 2 (lecz nie muszą być znane). Z każdej z tych populacji wylosowano niezależne próby o liczebnościach wynoszących odpowiednio n i. Wyniki prób oznaczone są przez x ij.

Hipotezy H 0 : m 1 = m 2 =... = m r (średnie we wszystkich populacjach są identyczne) H 1 : m i m j dla co najmniej jednej pary wskaźników i, j.

Obliczamy średnią x~ dla wszystkich grup - ze wszystkich wartości x i,j k i n i x~ 1 x i n ij n i 1 j 1 k i 1 n i

1. Dla poszczególnych prób oblicza się średnie dla każdej grupy x i 1 n i n i j 1 x ij

Międzygrupowa suma kwadratów Sumy kwadratów odchyleń średnich poszczególnych grup od średniej globalnej Jest miarą całkowitego zróżnicowania średnich - zmienność międzygrupowa. SS m k i 1 ( x i ~ x ) 2 n i

Zmienność wewnątrz grup Zmienność wynikająca z błędu, czyli tej części odchylenia standardowego, której nie możemy przypisać różnicy między grupami SS b k n i i 1 j 1 ( x ij x i 2 )

Tablica analizy wariancji ANOVA Źródło Zmienności Suma kwadratów (SS) Stopnie swobody (df) Wariancja (MS) F Między populacja mi (grupami) SS m k-1 sˆ 2 1 SS m k 1 ŝ ŝ 2 1 2 2 Wewnątrz grup SS b n-k sˆ 2 2 SS n b k

Z tablic rozkładu F Fishera (Snedecora) odczytuje się wartość krytyczną F dla ustalonego poziomu istotności oraz dla odpowiedniej liczby k-1 oraz n-k stopni swobody. Obszar krytyczny prawostronny wyznaczony przez relację P( F F ) = Jeśli F < F oznacza to, że nie ma podstaw do odrzucenia hipotezy zerowej czyli wartości średnie badanych populacji są takie same.

ANOVA w Statistica Dane Zmn1 Zmn2 1 1 9.1 2 1 8.9 3 1 8.4 4 1 12.8 5 1 8.7 6 1 9.2 7 1 7.6 8 1 8.6 9 1 8.9 10 1 7.9 11 2 10 12 2 10.2 13 2 9.8 14 2 11.6 15 2 9.5 16 2 9.2 17 2 8.6 18 2 10.3 19 2 9.4 20 2 8.5

ANOVA w Statistica

Definicja zmiennych

Kody zmiennych grupujących

Pojedyncze tabele

Analiza średnich i odchyleń Przed rozpoczęciem właściwej analizy należy: wyświetlić wartości średnich i odchyleń standardowych w poszczególnych podgrupach - Tabele statystyk, utworzyć Wykresy interakcji, wykresy ramkawąsy, Sprawdzić założenia

Tabela statystyk Dla metody 4 - średnia różni się znacznie od średniej dla pozostałych metod.

Założenia AVOVY 1. Mierzalność zmiennych losowych 2. Normalność zmiennych losowych w każdej z rozważanych k populacji 3. Niezależnośc zmiennych losowych 4. Jednorodność wariancji w grupach.

Testy normalności rozkładu Test chi-kwadrat Test W Shapiro i Wilka Test Kołmogorowa i Smirnowa Test zgodności chi-kwadrat Pearsona Wykres normalności Wykresy ramka-wąsy

Test W Shapiro i Wilka Test Shapiro-Wilka jest preferowanym testem normalności ze względu na jego dużą moc w porównaniu z innymi testami. Można go stosować do małych prób.

Test Kołmogorowa i Smirnowa Test ten opiera się na porównaniu procentów skumulowanych zaobserwowanych z oczekiwanymi. Jako wartość testu podawana jest maksymalna różnica bezwzględna pomiędzy zaobserwowanymi i oczekiwanymi procentami skumulowanymi. Test ten wymaga znajomości parametrów rozkładu (średniej i odchylenia standardowego całej populacji). Gdy ich nie znamy, a tak jest najczęściej, stosujemy test Kołmogorowa i Smirnowa z poprawką Lillieforsa

Wykresy normalności Wybrana zmienna jest wykreślona na wykresie rozrzutu względem wartości "oczekiwanych dla rozkładu normalnego". Jeśli obserwowane dane podlegają rozkładowi normalnemu, wtedy wszystkie wartości powinny układać się wzdłuż linii prostej (tutaj dystrybuanta rozkładu normalnego). Jeśli nie podlegają rozkładowi normalnemu, wówczas będą odchylać się od prostej.

2.0 Wykres normalności Zmn1 (Arkusz3 2v*10c) 1.5 1.0 Oczekiwana normalna 0.5 0.0-0.5-1.0-1.5-2.0 180 200 220 240 260 280 300 Wartość obserwowana

Wykresy ramkowe 1. Mediana/kwartyle/rozstęp : punkt centralny - mediana, ramka - kwartyle, wąsy - rozstęp 2. Średnia/Bł.std/Odch.std: punkt centralny - średnia, ramka - błąd standardowy, wąsy - odchylenie standardowe 3. Średnia/Odch.Std/1.96*odch.std.: punkt centralny - średnia, ramka - odchylenie standardowe, wąsy - 95% przedział ufności dla poszczególnych obserwacji wokół średniej 4. Średnia/ Bł.std /1.96* Bł.std.: punkt centralny - średnia, ramka - błąd standardowy, wąsy - 95% przedział ufności dla wartości średniej

270 Wykres ramka-wąsy Zmn1 wzglzmn2 260 250 240 230 220 210 200 190 180 170 Zmn1 Zmn2 Średnia ±Błąd std ±1.96*Błąd std

320 Wykres ram ka-wąsy Zmn1 wzglzmn2 300 280 260 240 220 200 180 160 140 Zmn1 Zmn2 Mediana 25%-75% Min.-Maks. Interpretacja: niesymetryczne położenie mediany zmiennej Zmn1" wskazujące na asymetrię prawostronną. Asymetria taka wyklucza rozkład normalny. Rozkład normalny jest bowiem idealnie symetryczny.

280 Wykres ramka-wąsy Zmn1 wzglzmn2 260 240 220 200 180 160 140 Zmn1 Zmn2 Średnia ±Błąd std ±Odch.std

270 Wykres ramka-wąsy Zmn1 wzglzmn2 260 250 240 230 220 210 200 190 180 170 Zmn1 Zmn2 Średnia ±Błąd std ±1.96*Błąd std Interpretacja: Ponieważ przedziały ufności zachodzą na siebie, średnie nie różnią się istotnie

320 Wykres ramka-wąsy: 300 280 260 240 Zmn2 220 200 180 160 140 120 100 1 2 Zmn1 Średnia ±Błąd std ±1.96*Błąd std Interpretacja: wąsy ramek nie zachodzą na siebie, zatem można odrzucić hipotezę o równości średnich

Punkty odstające 32 Wykres ramka-wąsy (testt-studenta - ozon.sta 2v*12c) 30 28 26 24 22 20 18 16 14 12 Zmn1 Średnia = 15.8333 ±Błąd std = (14.4636, 17.2031) ±1.96*Błąd std = (13.1486, 18.5181) Ekstremalne

Jednorodność wariancji Test F Test Levene a Test Browna-Forsya tha

Sprawdzenie warunków

Test Levene a

Wyniki analizy wariancji Możemy odrzucić hipotezę o równości średnich, i to na poziomie równym 0,017.

Wykres interakcji 13 W ykres średnich i przedz. ufności (95.00% ) Zmn2 12 11 W artości 10 9 8 7 1 2 3 4 Zmn1

Wykres interakcji Na tym wykresie liniowym mamy przedstawione punkty odpowiadające wartościom średnich w poszczególnych podgrupach. Wykres ten potwierdza wniosek o odrzuceniu hipotezy zerowej.

Testy post-hoc Jeżeli analiza wariancji wykaże istotności różnic między rozpatrywanymi średnimi, to należy wtedy koniecznie przeprowadzić dokładniejsze badania różnic między średnimi z poszczególnych grup. Wykorzystujemy do tego celu specjalne testy post-hoc zwane też testami wielokrotnych porównań.

Przykład 2. Badano zawartość kofeiny w 4 gatunkach kawy zielonej (% wagi). Kawa arabica Kawa robusta Kawa kongijska Kawa liberyjska 1,46 1,52 1,54 1,52 1,51 1,48 1,49 1,53 1,52 1,50 1,48 1,47 1,50 1,49 1,53 1,48 1,52 1,52 1,51 1,51

Gatunek Kofeina 1 Arabica 1,46 2 Arabica 1,51 3 Arabica 1,52 4 Arabica 1,50 5 Arabica 1,52 6 Robusta 1,52 7 Robusta 1,48 8 Robusta 1,50 9 Robusta 1,49 10 Robusta 1,52 11 Kongijska 1,54 12 Kongijska 1,49 13 Kongijska 1,48 14 Kongijska 1,53 15 Kongijska 1,51 16 Liberyjska 1,52 17 Liberyjska 1,53 18 Liberyjska 1,47 19 Liberyjska 1,48 20 Liberyjska 1,51

1. Tabele statystyk. Analiza danych

Analiza przedziałów ufności dla średnich - skategoryzowane wykresy ramka-wąsy 109 Skategor. wykres ramka-wąsy: Kofeina 108 107 106 Kofeina 105 104 103 102 101 100 Arabica Robusta Gatunek Kongijska Liberyjska Średnia ±Błąd std ±1.96*Błąd std

Wykresy interakcji analiza średnich i przedziałów ufności 112 Wykres średnich i przedz. ufności (95.00%) Kofeina 110 108 Wartości 106 104 102 100 98 Arabica Robusta Kongijska Liberyjska Gatunek Kofeina

2. Normalność rozkładu Skategoryzowane wykresy ramka-wąsy 110 Skategor. wykres ramka-wąsy: Kofeina 109 108 107 106 Kofeina 105 104 103 102 101 100 Arabica Robusta Gatunek Kongijska Liberyjska Mediana 25%-75% Min.-Maks.

Skategoryzowane histogramy 3 Histogram: Kofeina Gatunek: Arabica Kofeina = 5*1*normal(x; 103.2; 2.2804) Gatunek: Robusta Kofeina = 5*1*normal(x; 102.2; 1.3038) Gatunek: Kongijska Kofeina = 5*1*normal(x; 105.4; 2.4083) Gatunek: Liberyjska Kofeina = 5*1*normal(x; 105.2; 3.5637) 2 1 Liczba obs. 0 3 1,52 1,48 1,50 1,46 1,54 1,49 1,51 Gatunek: Arabica 1,53 1,47 1,52 1,48 1,50 1,46 1,54 1,49 1,51 Gatunek: Robusta 1,53 1,47 2 1 0 1,52 1,48 1,50 1,49 1,46 1,51 1,54 1,53 1,47 1,52 1,48 1,50 1,49 1,46 1,51 1,54 1,47 1,53 Gatunek: Kongijska Kofeina Gatunek: Liberyjska

Skategoryzowane wykresy normalności Oczekiwana normalna Wykres prawdopodob Kofeina 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0-0.2-0.4-0.6-0.8-1.0-1.2-1.4 100 101 102 103 104 105 106 107 108 109 110 100 101 102 103 104 105 106 107 108 109 110 Oczekiwana normalna Gatunek: Arabica 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0-0.2-0.4-0.6-0.8-1.0-1.2-1.4 100 101 102 103 104 105 106 107 108 109 110 Gatunek: Robusta 100 101 102 103 104 105 106 107 108 109 110 Gatunek: Kongijska Gatunek: Liberyjska

Test Levene a Badanie jednorodności wariancji

Test Browna-Forsythe a

Analiza wariancji Ponieważ p > alfa, zatem nie ma podstaw do odrzucenia hipotezy zerowej o równości średnich. Badania są zakończone.