Wykład: Założenia analizy wariancji. Analiza wariancji złożona i testy wielokrotnych porównań. Założenia analizy wariancji: Niezależność zmiennych objaśniających (czynników). Homogeniczność wariancji (równość wariancji): porównywane grupy nie różnią się zmiennością. Jeśli nie ma homogeniczności, to możliwe są logarytmiczne transformacje zmiennych lub też usunięcie grupy, która pod względem zmienności wyraźnie odstaje od pozostałych. Normalność: Rozkład cechy w każdej z grup winien być normalny. W praktyce często badamy czy czynnik losowy, tj. e ij posiada rozkład normalny. W celu sprawdzenia tego założenia, od każdego pomiaru odejmujemy średnią wartość grupy, z której ten pomiar pochodzi, a następnie badamy rozkład tychże różnic. Jeśli reszty nie mają rozkładu normalnego, to zaleca się transformacje zmiennych. Model liniowy analizy wariancji: Każda obserwacja przedstawiana jest jako suma efektów czynników, jakie zostały uwzględnione w analizie zmienności. Y ij =µ + α i + e ij Czynnik stały (modele stałe): Z reguły liczba poziomów czynnika stałego jest niewielka. W badaniach uwzględniamy z góry określone poziomy czynnika. Wnioski odnosimy wyłącznie do tych poziomów czynnika, które zostały uwzględnione w analizie. Przykładem czynnika stałego może być: płeć, grupa żywieniowa, rasa, rok badań, stado, sezon doju próbnego. Czynnik losowy (modele losowe): Liczba poziomów czynnika losowego jest zwykle duża. Badaniom poddany jest losowy podzbiór wszystkich poziomów czynnika. Nasze wnioski odnosimy do wszystkich poziomów czynnika, nawet tych, które nie zostały uwzględnione w eksperymencie, np. twierdzimy, że rasa wpływ na udział tłuszczu w mleko. Przykładem czynnika losowego jest efekt matki, ojca, grupy genetycznej, rasy. Różnica między czynnikami stałymi oraz losowymi jest dość płynna, w dużej mierze zależy od postawionego do rozwiązania problemu. Model I analizy wariancji Y ij =µ + α i + e ij gdzie: Obs NrZwierzecia KgMleka Reszty Predykcja 1 409634790 3075.9-1463.26 4539.16 2 409634662 3355.3-1183.86 4539.16 3 409633917 3658-881.16 4539.16 4 509090241 3821.2-717.96 4539.16 5 509013003 4474.4-64.76 4539.16 14 409633917 3312-1105.28 4417.28 15 409634662 3549.8-867.48 4417.28 16 409634790 3593.9-823.38 4417.28 17 509083260 3743.6-673.68 4417.28 18 509127404 3765.4-651.88 4417.28 Y ij wartość cechy u j-tego obiektu pochodzącego z i-tej grupy, µ - średnia ogólna, obliczona dla całej populacji, α i - stały efekt i-tej grupy, tj. różnica między średnią dla i-tej grupy i dla całej populacji. Można ten efekt traktować jako przewagę i-tej grupy nad przeciętną dla całej populacji. Autor: Dariusz Piwczyński 1
e ij błąd losowy, resztowy. Błąd losowy jest odchyleniem danej obserwacji od średniej grupy, z jakiej ona pochodzi. Spowodowany jest zmiennością przypadkową, a ta dotyczy konkretnej obserwacji. Błąd jest to taka część obserwowanej zmienności, która nie jest wytłumaczona za pomocą modelu. Model II analizy wariancji Y ij =µ + A i + e ij gdzie: A i - losowy efekt i-tej grupy, tj. różnica między średnią dla i-tej grupy i dla całej populacji, Model dwuczynnikowy z interakcją. Analiza wariancji w układzie krzyżowym. Y ijk =µ + α i + β j + (αβ) ij + e ijk gdzie: (αβ) ij efekt interakcji pomiędzy czynnikami (poprawka ze względu na interakcję). Zaleca się, aby z modelu wyeliminować takie interakcje, które są nieistotne statystycznie. Zwiększa się tym samym siłę działania czynników głównych. Jest to tym bardziej uzasadnione, jeśli: liczba stopni swobody dla błędu jest mniejsza aniżeli 5 oraz średni kwadrat odchyleń dla interakcji podzielony przez wariancję błędu jest mniejszy aniżeli 2. Interakcja, czyli współdziałanie czynników ze sobą. Jeśli interakcja jest istotna, to nie możemy porównywać średnich dla czynników głównych, konieczne jest wtedy indywidualne porównanie poszczególnych podgrup, np. strefa odległości 1 zakładu azotowego ze strefą odległości 1 w cementowni. Autor: Dariusz Piwczyński 2
Model dwuczynnikowy, analiza wariancji w układzie hierarchicznym. Jest to sytuacja, w której określone poziomy czynnika rozważane są w obrębie czynnika nadrzędnego. np. kozioł czy też tryk kryje samice w wyłącznie w wybranych stadach. Y ijk =µ + α i + β ij + e ijk gdzie: α i efekt stada, β ij czynnik zagnieżdżony, tj. wpływ ojca. Autor: Dariusz Piwczyński 3
Przykład: Samce A i B kryły samice w następującym stadach: Stado 1 Stado 2 Stado 3 A B A B Wynik analizy wariancji dwuczynnikowej z interakcją (SAS) Zmienna zależna: ngat Źródło St. sw. Suma kwadratów Średnia kwadratów Wartość F Pr > F Model 23 8289.47088 360.41178 38.46 <.0001 Błąd 933 8743.15608 9.37101 Razem skorygowane 956 17032.62696 R-kwadrat Wsp. war. Pierwiastek MSE Średnia ngat 0.486682 21.72956 3.061211 14.08777 Źródło St. Sw. Type III Suma kw. Średnia kwadratów Wartość F Pr > F Zaklad 5 3094.331294 618.866259 66.04 <.0001 Strefa 3 3371.342609 1123.780870 119.92 <.0001 Zaklad*Strefa 15 1782.901984 118.860132 12.68 <.0001 Dependent Variable: ngat ngat, po angielsku Source DF Sum of Squares Mean Square F Value Pr > F Model 23 8289.47088 360.41178 38.46 <.0001 Error 933 8743.15608 9.37101 Corrected Total 956 17032.62696 R-Square Coeff Var Root MSE ngat Mean 0.486682 21.72956 3.061211 14.08777 Source DF Type III SS Mean Square F Value Pr > F Zaklad 5 3094.331294 618.866259 66.04 <.0001 Autor: Dariusz Piwczyński 4
Source DF Type III SS Mean Square F Value Pr > F Strefa 3 3371.342609 1123.780870 119.92 <.0001 Zaklad*Strefa 15 1782.901984 118.860132 12.68 <.0001 W sytuacji, gdy wyniki analizy wariancji dają podstawę do odrzucenia hipotezy zerowej, wykonujemy tzw. testy niezaplanowane, zwane inaczej testami a posteriori. Niedopuszczalne jest stosowanie testu t-studenta w przypadku większej liczby porównywanych średnich (więcej niż 2), gdyż drastycznie rośnie błąd I rodzaju dla całego doświadczenia. Przy jednej parze błąd ten wynosić może 0,05, ale przy 4 średnich (6 możliwych porównań) prawdopodobieństwo, że się pomylimy wynosi: 1-0,95 6, czyli aż 0.26. Testy wielokrotnych porównań możemy je podzielić na 3 grupy: Analiza kontrastów (test Scheffego) Testy oparte na studentyzowanym rozstępie umożliwiające grupowanie średniach (NIR, Newmana-Keulsa, Tukey, Duncan,) Wnioskowanie na podstawie przedziałów ufności (test Scheffego, Benferroniego, test Dunneta) Testy wielokrotnych porównań wykonujemy wtedy, gdy na podstawie analizy wariancji stwierdzimy, iż czynnik wpływa istotnie na badaną cechę!!!! Autor: Dariusz Piwczyński 5
Grupy jednorodne: są to takie grupy średnich, które nie różnią się statystycznie ze sobą. Procedury, które zmierzają do wyróżnienia grup jednorodnych nazywają się procedurami porównań wielokrotnych, procedurami jednoczesnego wnioskowania lub post-hoc. Testy te wykorzystujemy przy analizie wariancji wykonywanej w ramach Modelu I. Test Duncana jest oparty na studentyzowanym rozstępie. Poziom istotności dla całego doświadczenia wynosi 1-(1-α) n-1. W sytuacji, gdy n rośnie do nieskończoności poziom ten rośnie do jedności. W związku z czym, przy dużej liczbie porównywanych średnich prawdopodobieństwo popełnienia błędu drastycznie rośnie. Test ten stosowany jest raczej jako test towarzyszący innym testom. Test Duncana umożliwia tworzenie grup jednorodnych, czyli takich, pomiędzy którymi nie występują różnice istotne statystycznie na podstawie prób niezależnych. Kolejność działań przy wykonywaniu testu Duncana: 1. Porządkujemy rosnąco ciąg uzyskanych średnich arytmetycznych 2. Wybieramy parę średnich do porównania 3. Odczytujemy z tabel testu Duncana wartości krytyczne. Uzależnione są one od poziomu istotności, liczby stopni swobody oraz typu rozstępu. Typ rozstępu - liczba wartości średnich zawartych w jednym ciągu pomiędzy porównywanymi średnimi. 4. Wyliczamy tzw. istotny obszar zmienności: D*Sd D odczytujemy w zależności od liczby stopni swobody (zmienność wewnątrzgrupowa) oraz typu rozstępu. S d = 2S n 2 w gr S 2 w wariancja dla zmienności wewnątrzgrupowej; n gr przeciętna liczebność grupy = 2 1 ni ngr * ni k 1 ni k liczba grup doświadczalnych, n i liczebność grupy Jeżeli x i - x j S d *D 0,05 to różnica pomiędzy średnimi jest istotna statystycznie; Jeżeli x i - x j S d *D 0,01 to różnica pomiędzy średnimi jest wysoko istotna statystycznie; Jeżeli x i - x j < S d *D 0,05 to różnica pomiędzy średnimi jest nieistotna statystycznie. Test NIR [test najmniejszych istotnych różnic] (LSD [least significant differences]). Jest najstarszym historycznie testem wielokrotnych porównań. Zaproponowany przez Fishera w 1949. Jego idea polega na wyznaczeniu tzw. najmniejszych istotnych różnic i porównaniu ich z różnicami średnich. Jest to test najmniej odporny na wzrost liczby wielokrotnych porównań, ponieważ poziom istotności odnosi się do pojedynczego porównania. W takim przypadku bardzo szybko wzrasta poziom istotności całego eksperymentu. Wobec powyższych test NIR stosowany jest jako test towarzyszący innym testom. Jeśli bezwzględna wartość różnicy średnich z próby jest większa aniżeli tzw. najmniejsza istotna różnica (NIR), to możemy stwierdzić, iż jest ona istotna statystycznie. Test Tukeya jest oparty o studentyzowany rozkład. Jest to test najbardziej polecany do porównania par średnich. Pozwala on wyznaczać grupy średnich jednorodnych. Występuje w dwóch odmianach: równa liczebność próbek, nierówna liczebność próbek (test Spjotvolla i Stolinea). Test Tukea jest bardziej konserwatywny aniżeli NIR, lecz mniej niż test Scheffego. Błąd pierwszego rodzaju jest przy tym teście mniejszy aniżeli w przypadku NIR, Duncan,a ponadto gwarantuje on jednakowy poziom istotności dla wszystkich porównywanych par. Autor: Dariusz Piwczyński 6
Test Scheffe jest testem najbardziej konserwatywnym, co oznacza, że rzadziej będziemy odrzucać pojedyncze porównania niż w przypadku innych testów. Test Scheffe zapewnia łączny poziom istotności dla wszystkich porównywanych par. Test ten doskonale nadaje się nie tylko do porównania par cech, ale również uwzględnia wszelkie kontrasty. To test najbardziej zachowawczy, gdyż błąd pierwszego rodzaju jest najmniejszy. Analizę wariancji możemy wykonać w SAS za pomocą procedur ANOVA oraz GLM. ANOVA Analysis of variance (Analiza wariancji) General Linear Models (Ogólne modele liniowe) Procedura anova w przypadku klasyfikacji pojedynczej (analiza jednoczynnikowa) oraz w przypadku układów ortogonalnych daje identyczne rezultaty, jak GLM. GLM zalecana jest w odniesieniu do klasyfikacji wieloczynnikowej, o niejednakowej wielkości grup doświadczalnych. Przykład użycia procedury anova (glm): proc anova data=biblioteka.tabela; class czynnik; model cecha = czynnik; means czynnik/ tukey; run;quit; Objaśnienia: class - nazwy czynników doświadczalnych/ model - tworzymy model analizy, zmienne zależne = zmienne niezależne (czynniki) means - wskazujemy dla jakich grup mają być wyliczone średnie i jakie testy użyte do weryfikacji różnic Autor: Dariusz Piwczyński 7
Jak czytać istotności? System SAS 17:24 Monday, April 19, 2004 65 The ANOVA Procedure Test zakresu studentyzowanego Tukeya (HSD) dla pr_tloszac UWAGA: Ten test sprawdza wartość błędu rodzaju I eksperymentalnie. Alpha 0.01 Niepoprawne stopnie swobody 58 Kwadrat błędu średniej 11.11895 Wartość krytyczna zakresu studentyzowanego 4.60093 Porównania znaczące na poziomie 0.01 są wskazywane przez '***'. Poniżej znajduje się efekt działania opcji CLDIFF. Porównywane grupy dobrane są parami, przy każdej różnicy średnich znajduje się jej przedział ufności oraz informacja czy różnica jest istotna statystycznie. Jak dowodzą rezultaty testu Tukey, jagnięta rasy merynos polski różnią się wysoko istotnie z pozostałymi grupami genotypowymi. Nie stwierdzono różnic istotnych statystycznie między grupami jagniąt z udziałem rasy suffolk, stanowią one grupę jednorodną. Difference Jednoczesny gen Between 99% Confidence Comparison Means Limits su - R3 1.108-2.377 4.593 su - R2 2.622-1.171 6.414 su - mp 6.308 1.698 10.918 *** R3 - su -1.108-4.593 2.377 R3 - R2 1.514-2.154 5.181 R3 - mp 5.200 0.693 9.707 *** R2 - su -2.622-6.414 1.171 R2 - R3-1.514-5.181 2.154 R2 - mp 3.686-1.063 8.436 mp - su -6.308-10.918-1.698 *** mp - R3-5.200-9.707-0.693 *** mp - R2-3.686-8.436 1.063 Różnice wysoko istotne statystycznie istnieją między grupami: su i mp oraz R3 i mp. The ANOVA Procedure Test zakresu studentyzowanego Tukeya (HSD) dla pr_tloszac UWAGA: Ten test sprawdza wartość błędu rodzaju I eksperymentalnie, lecz ma wyższą wartość błędu rodzaju II niż REGWQ. Alpha 0.01 Niepoprawne stopnie swobody 58 Kwadrat błędu średniej 11.11895 Wartość krytyczna zakresu studentyzowanego 4.60093 Różnica minimalnie znacząca 4.1653 Średnia harmoniczna rozmiarów komórek 13.56662 UWAGA: Rozmiary komórek nie są równe. Means with the same letter are not significantly different. Poniżej znajduje się efekt działania opcji LINES. Porównywane grupy uporządkowane są malejąco. Średnie, przy których znajduje się ta sama litera stanowią, tzw. grupę średnich jednorodnych, tzn. które nie różnią się ze sobą. Porównaj z wynikami istotności różnic powyżej. Bezwzględnie należy zwrócić uwagę, iż wzrost w genotypie jagniąt udziału rasy suffolk korzystnie wpływa na procentowy udział wyrębów wartościowych w tuszy zwierząt. Tukey Grouping Mean N gen Autor: Dariusz Piwczyński 8
A 19.976 18 su A A 18.868 21 R3 A B A 17.354 15 R2 B B 13.668 8 mp Różnice wysoko istotne statystycznie istnieją między grupami: su i mp oraz R3 i mp, ponieważ grupy te oznaczone są różnymi literami lub też Średnie, przy których znajduje się te same litery stanowią grupę średnich, które nie różnią się ze sobą. Litera A znajduje się przy średnich grup su, R3 i mp, czyli te grupy nie różnią się ze sobą statystycznie. Litera B znajdująca się przy grupach R2 i su również znaczy, że nie ma między nimi różnicy istotnej. Autor: Dariusz Piwczyński 9