1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

Zjazd 7. SGGW, dn. 28.11.10 r. Matematyka i statystyka matematyczna Tematy 1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe nna Rajfura 1

Zagadnienia Przykład porównania wielu obiektów w doświadczeniu Idea analizy porównania wielu obiektów Terminologia doświadczenia jednoczynnikowego Metoda analizy statystycznej analiza wariancji Procedury porównań szczegółowych 2

Przykład Porównywano pięć odmian pszenicy ozimej O1, O2, O3, O4, O5 pod względem plonowania. Uzyskano wyniki o wysokości plonu w kg z poletka. Komentarz o powtórzeniach 3

Wyniki wysokości plonowania W tabeli zestawiono uzyskane wysokości plonowania (w kg z poletka): Plony Odmiana poletko 1 poletko 2 poletko 3 poletko 4 O1 1,47 1,41 1,40 1,43 O2 1,10 1,15 1,30 1,17 O3 1,41 1,32 1,28 1,33 O4 1,19 1,25 1,26 1,21 O5 1,20 1,35 1,25 1,28 4

Idea porównania pięciu obiektów Cecha X plonowanie pszenicy cecha X 1 plonowanie pszenicy odmiany O1, cecha X 2 plonowanie pszenicy odmiany O2, itd. 5

Idea porównania pięciu obiektów cd. Cecha X i plonowanie pszenicy odmiany Oi, i = 1, 2,..., 5 Modelem dla kaŝdej cechy jest zmienna losowa o rozkładzie normalnym. ZałoŜenia: X i ~ N (µ i, σ 2 ), i = 1, 2,..., 5 X 1, X 2,..., X 5 niezaleŝne zmienne losowe 6

Idea porównania pięciu obiektów cd. Jak zinterpretować wysokość plonowania odmian przy połoŝeniu krzywych Gaussa w tym przypadku? X 1 X 2 X 3 X 5 X 4 µ 1 µ 2 µ 3 µ 5 µ 4 wartości cechy 7

Idea porównania pięciu obiektów cd. Jak zinterpretować wysokość plonowania odmian przy połoŝeniu krzywych Gaussa w tym przypadku? X 1 =X 2 X 3 =X 4 =X 5 µ 1 = µ 2 µ 3 = µ 4 = µ 5 wartości cechy 8

Zapis hipotezy zerowej Pytanie Czy badane odmiany plonują na podobnym poziomie? µ 1 = µ 2 = µ 3 = µ 4 = µ 5? Hipoteza zerowa H 0 : µ 1 = µ 2 = µ 3 = µ 4 = µ 5 9

Interpretacja hipotezy zerowej Hipoteza zerowa H 0 : µ 1 = µ 2 = µ 3 = µ 4 = µ 5 Hipoteza o braku zróŝnicowania między pięcioma badanymi odmianami pod względem plonowania. Dygresja 10

Terminologia i oznaczenia W doświadczeniach czynnikowych: Problem badany w doświadczeniu porównanie plonowania odmian pszenicy ozimej O1, O2,..., O5 badanie wpływu odmiany na wysokość plonu 11

Terminologia i oznaczenia cd. Cecha mierzona w doświadczeniu X wielkość plonu z poletka Badany czynnik A odmiana Problem badany w doświadczeniu wpływ czynnika A na wartość cechy X. 12

Uwagi 1. Czy na wysokość plonowania wpływa odmiana? czynnik A 2. Czy na wysokość plonowania wpływa odmiana oraz nawoŝenie? czynnik A czynnik B 3. Czy na wysokość plonowania wpływa odmiana, nawoŝenie oraz termin siewu? czynnik A czynnik B czynnik C 13

Uwagi cd. Ogólniej MoŜna badać wpływ jednego czynnika (A), dwóch (A, B), trzech (A, B, C) lub większej liczby czynników na wartość mierzonej cechy. 14

Terminologia cd. Czynnik odmiana Obiekty (poziomy czynnika A) poszczególne odmiany O1, O2,... ; w tym doświadczeniu porównujemy 5 odmian, czyli 5 obiektów (5 poziomów czynnika A); a liczba poziomów czynnika A, a = 5. 15

Terminologia cd. Powtórzenia kaŝda z odmian występuje na czterech poletkach, czyli w czterech powtórzeniach; liczba powtórzeń n = 4. 16

Terminologia cd. Jednostki doświadczalne poletka; liczba jednostek doświadczalnych N = 20; N = a n, gdy liczba powtórzeń jest jednakowa dla kaŝdego poziomu czynnika A; N = n 1 + n 2 +... + n a, gdy liczby powtórzeń nie są jednakowe dla poziomów czynnika A). 17

Terminologia cd. Układ doświadczalny (plan doświadczenia) opisuje sposób rozmieszczenia jednostek doświadczalnych na powierzchni doświadczalnej. Układ całkowicie losowy - losowe przyporządkowanie obiektów do jednostek doświadczalnych. 18

Przykład cd. W celu porównania średnich wartości cechy X dla pięciu obiektów, załoŝono doświadczenie w układzie całkowicie losowym w czterech powtórzeniach. Obiekty (poziomy czynnika A) Wartości cechy X powt 1 powt 2 powt 3 powt4 O1 1,47 1,41 1,40 1,43 O2 1,10 1,15 1,30 1,17 O3 1,41 1,32 1,28 1,33 O4 1,19 1,25 1,26 1,21 O5 1,20 1,35 1,25 1,28 19

Terminologia cd. Jednokierunkowa klasyfikacja danych wyniki pomiaru cechy uzyskane w doświadczeniu przedstawione w tabeli. Jednokierunkowa bo doświadczenie jest jednoczynnikowe. 20

Jednokierunkowa klasyfikacja danych Poziomy Nr powtórzenia czynnika A 1 2... n A 1 x 11 x 12... x 1n 1 A 2 x 21 x 22... x 2 n 2 M... A a x a1 a2 x... x a na x wartość cechy X dla i tego obiektu ij w j-tym powtórzeniu (plon dla i tej odmiany na j-tym poletku); i=1, 2,..., a; j=1, 2,..., n. 21

Przykład cd. Pytania 1. Czy wszystkie badane odmiany plonują na podobnym poziomie? 2. Jeśli nie wszystkie, to które odmiany plonują podobnie? 22

Sformułowanie problemu i analiza Cecha X badana w a populacjach: X 1, X 2,..., X a a > 2 ZałoŜenia X i ~ N (µ i, σ 2 ), i = 1, 2,..., a X 1, X 2,..., X a cechy (zmienne losowe) niezaleŝne 23

Sformułowanie problemu i analiza cd. Hipoteza H 0 : µ 1 = µ 2 =... = µ a poziom istotności α (w przykładzie α = 0,05); metoda weryfikacji analiza wariancji (jednoczynnikowa analizy wariancji); test statystyczny F 24

Tabela analizy wariancji (ANOVA TABLE) Źródła zmienności cechy X Source Sumy kwadratów Sum of Squares SS Stopnie swobody Df (degrees of freedom) Średni kwadrat Mean Square MS F emp F-Ratio wartość p p-value Czynnik A (odmiana) Between groups Błąd losowy Within groups SS A Df A = a - 1 SS E Df E = N - a MS = A MS = E SS Df SS Df A E A E MS MS A E Całkowita Total SS T N - 1 F kryt = F α, a - 1, N - a Wzory na sumy kwadratów 25

Zestawienia obliczeń Poziomy czynnika A Nr powtórzenia (nr poletka) (odmiany) 1 2... n średnie obiektowe A 1 x 11 x 12... 1 1 x x1 = n1 1n 1 n j = 1 x 1 j A 2 x 21 x 22... 2 1 x x 2 = n 2 2 n 2 n j = 1 x 2 j M... A a x a1 x a2... a 1 x = n a a n a n x a x j = 1 a j i-ta średnia obiektowa SS A =..., SS T =..., SS E =..., 1 x i = x n i n i j= 1 ij 1, średnia ogólna x = N a n i i= 1 j= 1 x ij 26

Tabela ANOVA dla przykładu Źródła zmienności cechy X Sumy kwadratów SS Stopnie swobody Df Średni kwadrat MS F emp wartość p Czynnik A (odmiana) 0149, 4 0,149 4 = 0, 0372 0, 0373 0, 0033 = 11, 27 0,0002 Błąd losowy 0, 049 15 0,049 15 = 0, 0033 Całkowita 0,198 19 27

Wartości krytyczne rozkładu F Snedecora X ~ F ν1, ν2 - X zmienna losowa o rozkładzie F- Snedecora z liczbami stopni swobody (ν1, ν2) poziom istotności α =0,05, F α, ν1, ν2 - wartość krytyczna - liczba taka, Ŝe P(X > F α, ν1, ν2 ) = α v1 v2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 161,446 199,499 215,707 224,583 230,160 233,988 236,767 238,884 240,543 241,882 242,981 243,905 244,690 245,363 245,949 2 18,513 19,000 19,164 19,247 19,296 19,329 19,353 19,371 19,385 19,396 19,405 19,412 19,419 19,424 19,429 : 9 5,117 4,256 3,863 3,633 3,482 3,374 3,293 3,230 3,179 3,137 3,102 3,073 3,048 3,025 3,006 10 4,965 4,103 3,708 3,478 3,326 3,217 3,135 3,072 3,020 2,978 2,943 2,913 2,887 2,865 2,845 11 4,844 3,982 3,587 3,357 3,204 3,095 3,012 2,948 2,896 2,854 2,818 2,788 2,761 2,739 2,719 12 4,747 3,885 3,490 3,259 3,106 2,996 2,913 2,849 2,796 2,753 2,717 2,687 2,660 2,637 2,617 13 4,667 3,806 3,411 3,179 3,025 2,915 2,832 2,767 2,714 2,671 2,635 2,604 2,577 2,554 2,533 14 4,600 3,739 3,344 3,112 2,958 2,848 2,764 2,699 2,646 2,602 2,565 2,534 2,507 2,484 2,463 15 4,543 3,682 3,287 3,056 2,901 2,790 2,707 2,641 2,588 2,544 2,507 2,475 2,448 2,424 2,403 W przykładzie: F kryt = F α, a-1, N-a = F 0,05, 4, 15 = 3,056 F emp = 11,27 28

Wnioskowanie Wnioskowanie 1 Jeśli F emp > F kryt, to H 0 odrzucamy, w przeciwnym przypadku H 0 nie moŝna odrzucić. Wnioskowanie 2 Jeśli wartość p < α, to H 0 odrzucamy, w przeciwnym przypadku H 0 nie moŝna odrzucić. 29

Wnioskowanie w przykładzie F emp = 11,27 F kryt = F 0,05, 4, 15 = 3,056 F emp > F kryt, więc H 0 odrzucamy 30

Terminologia cd. Gdy odrzucimy hipotezę H 0, to mówimy: stwierdzono statystycznie istotny wpływ czynnika A na badaną cechę albo: czynnik A wpływa istotnie róŝnicująco na badaną cechę. 31

Terminologia cd. Gdy nie odrzucimy hipotezy H 0, to mówimy: nie stwierdzono statystycznie istotnego wpływu czynnika A na badaną cechę albo: czynnik A nie wpływa istotnie róŝnicująco na badaną cechę. 32

Wniosek merytoryczny W przykładzie stwierdzono statystycznie istotne zróŝnicowanie odmian pszenicy ze względu na wysokość plonu. Po odrzuceniu hipotezy zerowej stosuje się porównania szczegółowe. 33

Wyniki z pakietu statystycznego ANOVA Table Analysis of Variance ----------------------------------------------------------------------------- Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------- Between groups 0,14927 4 0,0373175 11,51 0,0002 Within groups 0,04865 15 0,00324333 ----------------------------------------------------------------------------- Total (Corr.) 0,19792 19 1,5 Means and 95,0 Percent Tukey HSD Intervals 1,4 Plony 1,3 1,2 1,1 1 2 3 4 5 odmiany 34

Porównania szczegółowe - idea X 1 X 2 X 3 X 5 X 4 µ 1 µ 2 µ 3 µ 5 µ 4 wartości cechy X 1 = X 2 = X 5 X 3 = X 4 µ 1 = µ 2 = µ 5 µ 3 = µ 4 wartości cechy 35

Obliczenia Means and 95,0 Percent LSD Intervals 1,5 1,4 plon 1,3 1,2 1,1 O1 O2 O3 O4 O5 odmiana Obliczenia na tablicy 36

Wartości krytyczne rozkładu Studenta X ~ t ν - X zmienna losowa o rozkładzie t-studenta z liczbą stopni swobody v, α - poziom istotności, t α, ν - wartość krytyczna - liczba taka, Ŝe P( X > t α, ν ) = α ν \ α 0,400 0,300 0,200 0,100 0,050 0,025 0,025 0,010 0,005 0,001 1 1,37641,96263,07776,3137 12,7062 25,4519 25,451963,6559127,3211636,5776 2 1,06071,38621,88562,9200 4,3027 6,2054 6,2054 9,9250 14,0892 31,5998 : 13 0,87021,07951,35021,7709 2,1604 2,5326 2,5326 3,0123 3,3725 4,2209 14 0,86811,07631,34501,7613 2,1448 2,5096 2,5096 2,9768 3,3257 4,1403 15 0,8662 1,0735 1,3406 1,7531 2,1315 2,4899 2,4899 2,9467 3,2860 4,0728 16 0,86471,07111,33681,7459 2,1199 2,4729 2,4729 2,9208 3,2520 4,0149 17 0,86331,06901,33341,7396 2,1098 2,4581 2,4581 2,8982 3,2224 3,9651 18 0,86201,06721,33041,7341 2,1009 2,4450 2,4450 2,8784 3,1966 3,9217 37

Wyniki z pakietu statystycznego Multiple Range Tests for plon by odmiana ------------------------------------------------------------------------------- Method: 95,0 percent LSD odmiana Count Mean Homogeneous Groups ------------------------------------------------------------------------------- O2 4 1,18 X O4 4 1,2275 XX O5 4 1,27 XX O3 4 1,335 X O1 4 1,4275 X 38

Procedury porównań szczegółowych Procedury te słuŝą do wydzielania grup jednorodnych, czyli grup obiektów nie róŝniących się między sobą. procedura Studenta procedura Tukeya Newmana-Keulsa 39

Procedura Studenta NIR - Najmniejsza Istotna RóŜnica (LSD, ang. Least Significant Difference) Procedura oparta na teście t-studenta NIR = t s α, Df r E s MS, r n = 2 E, t α, Df E -wartość kryt. rozkładu Studenta, s r -standardowy błąd róŝnicy średnich obiektowych, MSE -średni kwadrat dla błędu z tab. ANOVA 40

NIR Studenta w przykładzie MS E = 0,0033; n = 4, to s r = 0,0406; Df E = 15, t α, DfE = t 0,05, 15 = 2,1315 NIR = 2,1315 0,0406 = 0,087 41

Procedura Tukeya gdzie: T = q s s = MS α, Df,a x x n, NIR E E, q α, DfE,a - wartość krytyczna studentyzowanego rozstępu; a liczba średnich w całym doświadczeniu; s x - standardowy błąd średniej obiektowej z próby. 42

NIR Tukeya w przykładzie Df E = 15, a = 5, to q α, DfE, a = q 0,05, 15, 5 = 4,367; MS E = 0,0033, n = 4, to s x = 0,0287 ; NIR T = 4,367 0,0287 = 0,125. Obliczenia 43

Wyniki z pakietu statystycznego Multiple Range Tests for plon by odmiana ---------------------------------------------------------------------- Method: 95,0 percent Tukey HSD odmiana Count Mean Homogeneous Groups ---------------------------------------------------------------------- O2 4 1,18 X O4 4 1,2275 XX O5 4 1,27 XX O3 4 1,335 XX O1 4 1,4275 X ---------------------------------------------------------------------- 44

Wyniki z pakietu statystycznego 1,5 Means and 95,0 Percent Tukey HSD Intervals 1,4 Plony 1,3 1,2 1,1 1 2 3 4 5 odmiany 45

Procedura Newmana-Keulsa* NK = q s MS α, Df,k x, x n NIR E s = E, gdzie: q α, DfE,k - wartość krytyczna studentyzowanego rozstępu; k liczba średnich w grupie, s x - standardowy błąd średniej obiektowej z próby. 46

NIR-y Newmana-Keulsa w przykładzie* W przykładzie: s x = 0,0287, Df E = 15; q α, DfE, 2 = q 0,05, 15, 2 = 3,014, to NIR NK2 = 3,014 0,0287 = 0,087; q α, DfE, 3 = q 0,05, 15, 3 = 3,674, to NIR NK3 = 3,674 0,0287 = 0,105; q α, DfE, 4 = q 0,05, 15, 4 = 4,076, to NIR NK4 = 4,076 0,0287 = 0,117 47

Wyniki z pakietu statystycznego* Multiple Range Tests for plon by odmiana ------------------------------------------------------------------------ Method: 95,0 percent Student-Newman-Keuls odmiana Count Mean Homogeneous Groups ------------------------------------------------------------------------ O2 4 1,18 X O4 4 1,2275 X O5 4 1,27 XX O3 4 1,335 X O1 4 1,4275 X ------------------------------------------------------------------------ 48

Procedura Duncana* D = t D s α,df,k r, s MS r n NIR E = 2 E, gdzie: s r - standardowy błąd róŝnicy średnich obiektowych, t D α Df, E,k - wartość krytyczna wielokrotnego testu Duncana; k liczba średnich w grupie 49