Plan wykładu: 1. Wariancje wewnątrz grup i między grupami do czego prowadzi ich ocena 2. Rozkład F 3. Analiza wariancji jako metoda badań założenia, etapy postępowania 4. Dwie klasyfikacje a dwa modele analizy wariancji 5. Klasyfikacja prosta - przykłady zastosowania (a) badanie istotności różnic między grupami (b) testy a posteriori dla par grup 6. Nieparametryczne testy-odpowiedniki analizy wariancji
Przykład 1. (A. Łomnicki)
średnia 202.5 ogólna suma kwadratów ogólna liczba stopni swobody df=35 ogólne oszacowanie wariancji s 2 =31.57 wewnątrzgrupowa suma kwadratów w-grupowa liczba stopni swobody df=32 w-grupowe oszacowanie wariancji s 2 =31.08 międzygrupowa suma kwadratów m-grupowa liczba stopni swobody df=3 m-grupowe oszacowanie wariancji s 2 =4.09x9=36.84
średnia 202.5 203.5 ogólna suma kwadratów ogólna liczba stopni swobody df=35 ogólne oszacowanie wariancji s 2 =31.57 wewnątrzgrupowa suma kwadratów w-grupowa liczba stopni swobody df=32 w-grupowe oszacowanie wariancji s 2 =31.08 s 2 =31.08 międzygrupowa suma kwadratów m-grupowa liczba stopni swobody df=3 m-grupowe oszacowanie wariancji s 2 =4.09x9=36.84 s 2 =20.91x9=188.19
wniosek: Porównanie wariancji między grupami z wariancją wewnątrzgrupową pozwala na ustalenie, czy mamy do czynienia z grupami pochodzącymi z tej samej populacji, czy też z różnych populacji rozkład F (Fishera- Snedocora)
F=36.84/31.08 = 1.185
F=188.18/31.08 = 6.055
wniosek z przypadku pierwszego: Grupy nie różnią się między sobą, co oznacza, że zostały wybrane losowo z tej samej populacji wniosek z przypadku drugiego (dane zmodyfikowane): Grupy różnią się między sobą, co oznacza, że pochodzą z różnych populacji
Analiza wariancji (Anova, Anawa) jest podstawowym testem wnioskowania statystycznego powalającym ustalić wpływ określonego czynnika (zmiennej) lub kilku czynników (zmiennych) na wyniki obserwacji jeden czynnik - klasyfikacja pojedyncza, Anova I wiele czynników - klasyfikacja wielokrotna, Anova II Założenia analizy wariancji dla klasyfikacji pojedynczej: 1. analizowana zmienna jest mierzalna 2. rozważanych k niezależnych populacji ma rozkłady normalne N( i, i ), gdzie i = 1,2,...k 3. rozkłady te mają jednakową wariancję (są homogenne), tzn. nie różnią się zmiennością, której wskaźnikiem jest wariancja Z każdej populacji losujemy próbę n i elementową.
Etapy postępowania: 1. weryfikacja hipotezy o równości wariancji 2. weryfikacja hipotezy zerowej o równości średnich na określonym poziomie istotności, H 0 wszystkie średnie równe, H 1 - co najmniej dwie średnie różnią się między sobą k prób, dających w sumie n obserwacji i numeruje grupy, i: 1, 2,...k j numeruje obserwacje w grupie, j: 1, 2,...n i x ij = + j + E ij gdzie oznacza ogólną średnią z populacji generalnej, j jest wpływem i-tego czynnika eksperymentalnego, E ij jest odchyleniem losowym o rozkładzie normalnym ze średnia zero i wariancją 2 (homogeniczność wariancji). Jeśli j opisuje wpływ czynnika biologicznego będącego pod naszą kontrolą model I rodzaju. Jeśli j opisuje zmienną losową, na którą nie mamy wpływu model II rodzaju.
Podstawą analizy wariancji jest możliwość rozbicia sumy kwadratów wariancji całkowitej na dwa składniki: wewnątrzgrupową sumę kwadratów i międzygrupową sumę kwadratów odchylenia spowodowane przypadkowymi wpływami wewnątrz grup odchylenia mające charakter systematycznych różnic między grupami ogólna (całkowita) suma kwadratów wewnątrzgrupowa = + suma kwadratów międzygrupowa suma kwadratów
ogólne (całkowite) df = n - 1 wewnątrzgrupowe = + df = n - k międzygrupowe df = k - 1 ŚK pomiędzy grupami = SK pomiędzy grupami / df grup ŚK reszty = SK reszty / df reszt
Przykład 2. (A. Stanisz)
F= 3.85917
Test NIR (najmniejszych istotnych różnic) Fishera
Wartości krytyczne rozkładu t dla różnych poziomów istotności
Test Duncana
Przykład 3. (A. Łomnicki)
TestTukeya (metoda T)
obserwowane zmienne losowe mają rozkłady normalne tak wariancje nieznane wariancje znane nie duże próby (N 1, N 2 >50) tak nie wariancje równe wariancje nierówne test T test test U test Z testy Cochrana-Coxa nieparametryczne
Testy nieparametryczne 1. Dla dwóch próbek niezależnych (odpowiedniki testu t- Studenta dla zmiennych niepowiązanych): a) test serii Walda- Wolfowitza b) test U Manna- Whitneya c) test Kołmogorowa- Smirnowa 2. Dla dwóch próbek zależnych (odpowiedniki testu t- Studenta dla zmiennych powiązanych): a) test znaków b) test kolejności par Wilcoxona c) test McNemary 3. Dla n próbek jako odpowiednik nieparametrycznej analizy wariancji: a) test Kruskala- Wallisa b) test Friedmana c) test Q Cochrana 4. Korelacji: a) test R Spermana b) test Tau Kendalla c) test 2 (chi-kwadrat) 5. Zgodności: a) test 2 (chi-kwadrat) b) test Kołmogorowa- Smirnowa
P F = 1.125 F 0.025 = 4.10 F < F 0.025
Niemarametryczne odpowiedniki dla dwóch próbek niezależnych: a) test serii Walda- Wolfowitza b) test U Manna- Whitneya c) test Kołmogorowa- Smirnowa Przykład (A. Łomnicki)
wniosek: H 0 przyjąć
Ad 3. Dla n próbek (nieparametryczne odpowiedniki analizy wariancji): a) test Kruskala- Wallisa b) test Friedmana c) test Q Cochrana Przykład (A. Stanisz)
wniosek: H 0 odrzucić
X 2 =7,841
P Zastosowanie testu Kruskala- Wallisa Przykład wg. A Łomnickiego (analiza wariancji klasyfikacja prosta) dotyczący przeżywalności chrząszczy mącznych na czterech różnych pożywkach wniosek: H 0 odrzucić
po obliczeniach: H = 7.477
poprawka na rangi wiązane po uwzględnieniu poprawki D =0.99097 mamy H = H(poprzednie)/D = 7.545 wniosek: H 0 przyjąć
Prezentowane ilustracje oparto na materiałach pochodzących z następujących podręczników: 1. Gondko R., Zgirski A., Adamska M. Biostatystyka w zadaniach. Wyd. Uniwersytetu Łódzkiego, Łódź 1994 2. Kala R., Statystyka dla przyrodników, Wyd. Akademii Rolniczej, Poznań 2002 3. Krysicki W. i inni. Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach. Cz.II. Statystyka matematyczna, 4. Wydawnictwo Naukowe PWN, Warszawa 2000 5. Łomnicki A., Wprowadzenie do statystyki dla przyrodników, Wyd. Naukowe PWN, Warszawa 1995 6. Stanisz A., Przystępny kurs statystyki, StatSoft, Kraków 1998