Planowanie i analiza doświadczeń typu 2 (k p) w 2 r blokach Stanisław Jaworski,Wojciech Zieliński Streszczenie. W pracy przedstawiono metodę planowania i analizy eksperymentów typu 2 k p w 2 r blokach. Metoda planowania polega na odpowiednim zadaniu zbioru efektów nieestymowalnych, na podstawie którego tworzony jest plan eksperymentu. Analiza wykorzystuje wykres probabilistyczny typu chi-kwadrat. Planowanie i analizę zilustrowano na przykładzie doświadczenia z burakiem cukrowym. 1. Wstęp Jednymi z częściej stosowanymi w praktyce doświadczeniami są eksperymenty, w których czynniki mogą występować tylko na dwóch poziomach: niskim lub wysokim. Jeżeli mamy k czynników, to takie doświadczenie oznaczane jest symbolem 2 k. Jak nietrudno zauważyć, by móc oszacować wszystkie efekty występujące w takim modelu (efekty główne, współdziałania oraz wariancję błędu doświadczalnego) należałoby mieć co najmniej 2 k + 1 obserwacji. Niestety, bardzo często nie jest możliwe zebranie takiej ilości danych. Ponadto podana wyżej liczba obserwacji jest minimalną liczbą przy założeniu, Że obiekty doświadczalne są wyrównane. Jeżeli jednak tak nie jest i pojawia się konieczność grupowania obiektów w blokach, to minimalna liczba obserwacji drastycznie wzrasta. Zrodziło to potrzebę stworzenia metod planowania i analizy doświadczeń omawianego typu w przypadku, gdy możemy zebrać mniej obserwacji niż trzeba. Teoria planowania doświadczeń czynnikowych jest bardzo dobrze rozwinięta. Podstawowym założeniem, jakie leży u podstaw konstrukcji planów doświadczeń jest jednakowa precyzja estymacji efektów pojawiających się w modelu tego doświadczenia. Dokładniej, estymatory efektów tego samego rzędu (efektów głównych, współdzialań] pierwszego rzędu, drugiego rzędu, itd.) powinny mieć taką samą wariancję oraz estymatory te powinny być nieskorelowane. Okazuje się, że w przypadku, gdy mamy do dyspozycji mniej jednostek doświadczalnych niż estymowanych efektów, to musimy zrezygnować z estymacji niektórych z tych efektów. W literaturze (Federer 1955, Montgomery 1976) podane są różne sposoby konstrukcji planów, ale z reguły efekty nieestymowalne są konsekwencją wyboru planu doświadczenia. Celem niniejszej pracy jest konstrukcja oraz analiza doświadczeń przy zadanych zbiorach efektów nieestymowalnych, a także komputeryzacja tak postawionego problemu (dostępne pakiety statystyczne dają zazwyczaj jakieś plany). 2. Plan doświadczenia Rozważamy doświadczenie z k czynnikami A 1,..., A k. Chcemy przeprowadzić to doświadczenie na 2 k p jednostkach rozłożonych w 2 r blokach. Chcemy skonstruować taki plan, by efekty poszczególnych rzędów były oszacowane z taką samą precyzją. Rozważmy przypadek, gdy r = 0, tzn. jednostki doświadczalne rozłożone są w jednym bloku. Przy redukcji eksperymentu typu 2 k do 2 k p (p 0) jednostek doświadczalnych możemy estymować, z dokładnością do znaku, jedynie 2 k p 1 liniowych kombinacji efektów z wagami ±1 składających się z 2 p składników. Przykład. Chcemy przeprowadzić doświadczenie typu 2 2, to znaczy mamy dwa czynniki A oraz B. Każdy z tych czynników stosujemy na jednym z dwóch poziomów: niskim (a, b) lub wysokim (A, B). Minimalna liczba obserwacji wynosi cztery: Nr. obiektu: 1 2 3 4 Zabieg: ab ab Ab AB Obserwacja: y 1 y 2 y 3 y 4 Wprowadzając średnią ogólną µ, standardowe restrykcje a+a = 0, b+b = 0 oraz odpowiednie restrykcje dla współdziałań ab, ab, Ab, AB nasze doświadczenie możemy zapisać w języku modeli liniowych w następujący sposób: y 1 +1 1 1 +1 y 2 +1 +1 1 1 = y 3 +1 1 +1 1 y 4 +1 +1 +1 +1 1 µ A B AB + ε 1 ε 2 ε 3 ε 4.
Ponieważ macierz planowania eksperymentu ma rząd cztery, więc w tym doświadczeniu estymowalne są wszystkie parametry poza wariancją błędu. Jak łatwo sprawdzić, estymatory najmniejszych kwadratów w tym modelu mają jednakowe wariancje oraz są nieskorelowane. Przypuśćmy, że dysponujemy mniejszą niż cztery liczbą jednostek. By zachować warunek nieskorelowania estymatorów musimy wybrać dwie jednostki doświadczalne. Zauważmy, że mamy sześć takich możliwości. Ograniczenie się jednak do dwóch jednostek powoduje, że estymowalne są tylko pewne kombinacje liniowe parametrów (wnika to z twierdzenia o estymowalności funkcji liniowych parametrów modeli liniowych). W poniższej tabelce podane są wszystkie możliwe doświadczenia i estymowalne kombinacje liniowe. Doświadczenie Obiekty Estymowalne kombinacje l 1, 2 µ A B AB 2 1, 3 µ B A AB 3 1, 4 µ + AB A + B 4 2, 3 µ AB A B 5 2, 4 µ + B A + AB 6 3, 4 µ + A B + AB W zależności od naszych potrzeb wybieramy tylko jedno z tych doświadczeń. Takie doświadczenie nazywamy doświadczeniem 2 2 1. W teorii doświadczeń czynnikowych zazwyczaj stosuje się jedno oznaczenie na czynnik i parametr związany z tym czynnikiem. Będziemy więc mówić o czynnikach A 1,..., A k i efektach A 1,..., A k, A 1 A 2, A 1 A 3,... mając na myśli odpowiednie parametry. Rozważmy teraz przypadek, gdy jednostki doświadczalne pogrupowane są w r > 0 bloków. W modelu pojawia się więc jeszcze jeden parametr Γ, zwany efektem blokowym. Jeżeli dysponujemy tylko co najwyżej 2 k jednostkami, to w sposób oczywisty pojawi nam się uwikłanie niektórych efektów z blokami. Podobnie jak w powyższym przykładzie estymowalność efektów uzależniona jest od wyboru efektu uwikłanego z blokami. W sytuacji, gdy mamy do dyspozycji 2 k p jednostek, to uwikłane z blokami będą niektóre z estymowalnych kombinacji liniowych. Wyboru estymowalnych kombinacji liniowych dokonujemy poprzez ustalenie p; efektów nieestymowalnych z powodu redukcji eksperymentu do mniejszej liczby jednostek oraz r efektów uwikłanych z blokami. Przykład. Planujemy doświadczenie typu 2 3 z czynnikami A, B, C. Pełne doświadczenie przebiega w następujący sposób Nr. obiektu: 1 2 3 4 5 6 7 8 Zabieg: abc abc abc abc Abc AbC ABc ABC Obserwacja: y 1 y 2 y 3 y 4 y 5 y 6 y 7 y 8 Przypuśćmy teraz, że mamy cztery jednostki doświadczalne (p = 1) zebrane w dwóch blokach (r = 1). Oto niektóre z możliwości zaplanowania doświadczenia Plan Obiekty Estymowalne kombinacje blok1 blok2 liniowe parametrów 1 1, 2 3, 4 I A AB B Γ C AC BC ABC 2 1, 2 3, 5 AC + BC C ABC I A B + AB Γ I AB C + ABC + Γ B A + AC BC 3 1, 2 3, 6 AC + BC C ABC I A B + AB Γ I AB + AC + BC + Γ A B + C ABC 4 1, 6 4, 7 A BC C AB 5 2, 5 3, 8 A + BC C + AB 6 1, 5 7, 8 AC + BC C + ABC Parametr Γ oznacza efekt blokowy, zaś parametr I oznacza średnią ogólną. O doświadczeniu pierwszym powiemy, że efekt A oraz kombinacja liniowa AB B nie są estymowalne odpowiednio z powodu redukcji eksperymentu i blokowania. Efekt A jest uwikłany ze średnią ogólną, a kombinacja liniowa AB B jest 2
uwikłana z efektem blokowym. Kombinacji liniowych efektów ze średnią ogólną oraz z efektem blokowym nie uwzględniamy w zbiorze kombinacji estymowalnych. O efektach występujących w tego typu kombinacjach mówimy, że generują redukcje oraz podział na bloki. Poniżej podane są przykładowe plany wraz z odpowiednimi efektami generującymi. Plan Obiekty Estymowalne kombinacje Efekty generujące blok1 blok2 liniowe parametrów redukcję bloki 1 1, 2 3, 4 C AC BC ABC A B 4 1, 6 4, 7 A BC C AB ABC B 5 2, 5 3, 8 A + BC C + AB ABC B 6 1, 5 7, 8 AC + BC C + ABC AB B Wyboru odpowiedniego planu doświadczenia dokonujemy na podstawie dwóch efektów podanych w ostatnich kolumnach powyższej tabeli. Efekty generujące wyznaczają z dokładnością do wag estymowalne kombinacje liniowe efektów. Podamy teraz opis planowania doświadczenia 2 k p w 2 r blokach. Bardziej szczegółowy opis znajduje się w pracy Jaworskiego i Zielińskiego (1994). Planowanie rozpoczynamy od wyboru efektów generujących redukcje eksperymentu oraz od wyboru efektów generujących podział na bloki. Każda jednostka doświadczalna oraz każdy efekt może być reprezentowany przez wektor z przestrzeni {0, 1} k. Na przykład efekt A 1 A 4 jest reprezentowany przez wektor (1, 0, 0, 1, 0,..., 0). Niech L = ({0, 1} k,, ) będzie przestrzenią liniową nad ciałem liczb Z 2. Dodawanie zdefiniowane jest jako dodawanie po współrzędnych modulo 2. Dla danego wektora a {0, 1} t, 0 < t < k, oraz wektorów w i {0, 1} k, i = 1,..., t, zdefiniujmy następujący zbiór Z t a,w 1,...,w t = { v {0, 1} k : ( a, w 1,..., a, w t ) = a }, gdzie, oznacza naturalny iloczyn skalarny w przestrzeni L. Dla ustalonych t oraz wektorów w 1,..., w t zbiory Za,w t 1,...,w t tworzą podział zbioru {0, 1} k. Odpowiednio do potrzeb merytorycznych eksperymentu wybieramy p + r liniowo niezależnych wektorów z przestrzeni L oraz, jeżeli p > 0, jeden wektor z przestrzeni {0, 1} p. Niech f 1, f 2,..., f p, b 1, b 2,..., b r {0, 1} k oraz a 0 {0, 1} p będą wybranymi przez nas wektorami. Wektory te determinują wybór 2 k p jednostek doświadczalnych i rozlokowanie ich do 2 r równolicznych bloków. Konkretnie, plan eksperymentu 2 k na 2 k p jednostkach doświadczalnych rozłożonych w 2 r blokach ma postać: { Za,b r 1,...,b r Z p a 0,f 1,...,f p : a {0, 1} r}. Konsekwencją takiego wyboru jest estymowalność tylko pewnych kombinacji liniowych. Określmy następujące odwzorowanie: {0, 1} k v KL(v) = k E(v h) g( α h, a ) g h H gdzie a 0 {0, 1} p, h = (h 1,..., h k ) H = Lin{f 1,..., f p }, g : Z 2 m g(m) = 1 2m { 1, 1}. Wektor α h = (α h1,..., α hp ) jest takim wektorem, że h = p i=1 (α hi f i ). Z niezależności wektorów f i, i = 1,..., p wynika jednoznaczność wektora α h. Niech G = Lin{b 1,..., b r } będzie przestrzenią liniową rozpiętą na wektorach b 1,..., b r. Jedynymi estymowalnymi kombinacjami liniowymi efektów są kombinacje liniowe ze zbioru: KL = { KL(v) : v {0, 1} k \ {G H} }. Przestrzenie liniowe H oraz G (z wyłączeniem wektorów zerowych) reprezentują efekty, które nie wchodzą w skład estymowalnych kombinacji liniowych efektów odpowiednio z powodu redukcji doświadczenia ( oraz k ) blokowania. Funkcja g odpowiada za wagi ±1, które zapisane są w postaci iloczynu g( α h, a ) g j=1 h j. Zależą więc od wektora a 0. 3 j=1 h j,
Przykład. Planujemy doświadczenie 2 4 2 w jednym (r = 0) bloku z czynnikami A, B, C, D. Jako efekty generujące redukcję eksperymentu wybieramy AB oraz CD, tzn, wybieramy następujące wektory f 1 oraz f 2 : f 1 = (1, 1, 0, 0) oraz f 2 = (0, 0, 1, 1). Wówczas zbiorem efektów, które nie wchodzą w skład estymowalnych kombinacji liniowych efektów jest Lin{f 1, f 2 } \ {(0, 0, 0, 0)} = {AB, CD, ABCD}. W zależności od wyboru wektora a 0 mamy cztery możliwe plany doświadczenia: Plan Obiekt W ektor P rzykladowa estymowalna 1 2 3 4 a 0 kombinacja liniowa I abcd abcd ABcd ABCD (0, 0) A + B + ACD + BCD II abcd ABcD abcd ABCd (0, 1) A + B ACD BCD III AbCD abcd abcd Abcd (1, 0) A B + ACD BCD IV AbcD abcd abcd AbCd (1, 1) A B ACD + BCD 3. Analiza statystyczna Ze względu na małą liczbę obserwacji oszacowanie wariancji błędu losowego będzie zawierało w sobie oszacowania niektórych, wybranych przez nas, efektów. Powinny to być oszacowania efektów nieistotnych. W przeciwnym razie estymator wariancji błędu losowego będzie obciążony wartością średnią niezerowego efektu. Ponieważ określenie a priori, które efekty są nieistotne z reguły nie jest możliwe, to określenie nieistotnych efektów dokonywane jest a posteriori. Można to zrobić wykorzystując wykres probabilistyczny. Na osi pionowej wykresu zaznaczane są sumy kwadratów S (j) (S (1) S (l) ) wybranych efektów. Na osi poziomej j q l 2a+1, zaznaczane są kwantyle centralnego rozkładu chi-kwadrat z jednym stopniem swobody rzędu a j = j = 1,..., l (0 < a < 0.5). Sposób wyznaczania kwantyli podany jest w pracy Wagnera (1990). Dla efektów nieistotnych sumy kwadratów mają centralny rozkład chi-kwadrat z jednym stopniem swobody i punkty na wykresie powinny być mniej więcej współliniowe. Punkty odbiegające od linii prostej świadczą o tym, iż odpowiednie sumy kwadratów mają niecentralny rozkład chi-kwadrat, a to oznacza, iż odpowiednich efektów nie można uznać za nieistotne. Do oszacowania wariancji błędu losowego włączamy współliniowe sumy kwadratów. W celu podania jawnego wzoru na sumy kwadratów kombinacji liniowych określamy następujące odwzorowanie: {0, 1} w C D (w) = Y (v)g( 1 v, w ), v D gdzie D {0, 1} k, Y (v) obserwacja na jednostce eksperymentalnej v, 1 - wektor składający się z jedynek. Wówczas suma kwadratów dla kombinacji liniowej efektów KL(v) ma następującą postać: SS KL(v) = [ ] 2 C Z p (v) a 0,f 1,...,fp 2 k p. Jeżeli Y (v) N(m v, σ 2 ) oraz kombinacja liniowa KL(v) jest nieistotna, to suma kwadratów SS KL(v) ma rozkład chi-kwadrat z jednym stopniem swobody. Sumy kwadratów kombinacji liniowych efektów SS KL(v) spełniają następujący warunek: dla v 1, v 2 L takich,że v 1 v 2 H zachodzi SS KL(v1) = SS KL(v2). Koncentrujemy naszą uwagę na takich wektorach v 1,..., v m, gdzie m jest pewną liczbą, że vi v j SS KL(vi ) SS KL(vj ). Bez względu na wybór wektorów f 1,..., f p, przy p > 0, zawsze m = 2 k p 1. Ponieważ istotność pewnych kombinacji liniowych będziemy chcieli zbadać przy pomocy testu, a nie wykresu probabilistycznego, ich sumy 4
kwadratów nie będą brane pod uwagę przy konstrukcji wykresu probabilistycznego. Powiedzmy, że będą to kombinacje ze zbioru: {KL(v i ) : i = l + 1,..., m; l < m}. Zatem do wykresu zostaną wzięte sumy kwadratów z następującego zbioru: { SSKL(vi) : i = 1,..., l }. 4. Przykład liczbowy Badaczy interesował wpływ na plon korzenia buraka (cecha Y ) siedmiu następujących czynników: dokarmianie dolistne (A), dawka (B), termin siewu (C), termin stosowania nawożenia azotowego (D), termin zbioru (E), podział dawki nawożenia azotowego (F ) oraz obsada (G). Eksperyment 2 7 należało zaplanować w 2 3 blokach w jednym powtórzeniu. Jako efekty uwikłane z blokami wybrano ABC, DEF, AF G, tzn. wybrano wektory b 1 = (1, 1, 1, 0, 0, 0, 0), b 2 = (0, 0, 0, 1, 1, 1, 0) oraz b 3 = (1, 0, 0, 0, 0, 1, 1, 0). Efekty uwikłane z blokami tworzą zbiór Lin{b 1, b 2, b 3 } \ 0 = {ABC, DEF, AF G, ADEG, BCF G, BCDEG, ABCDEF }. Wektory b i, i = l, 2, 3 zostały tak dobrane, aby uwikłane z blokami efekty były interakcjami możliwie wysokiego rzędu. Wektory b i, i = 1, 2, 3, determinują następujący plan doświadczenia (obecność litery wskazuje na wysoki poziom czynnika): Obiekt Blok I II III IV V V I V II V III l de cd acf abcdf g beg g bcdg ag 2 acdeg abcdef abdef bdf cdef df bcf bdf g 3 (1) bdef g abeg cdeg cdg abef g abc abcdf 4 abdeg ce abf abcde abce ab acdef g b 5 df g bf g bcf g a abcdef g ef bceg adeg 6 abdf cf g aceg cef bf bcdf ace cef g 7 acg be e abcef g bdef bcef abdef g cdf g 8 acef af acdef adf g af g abde f abcg 9 abg abcdg def g abc adef g bcdeg abf g c 10 bcef g adg bcdef g cg ad acdf g dg abcdeg 11 ef g adef bcd aef g ceg bcg bcdef adf 12 acdf cdef g d ade bdg acef g acd abcef 13 bcdf g abcf abdg bef ae deg def bef g 14 abef bd f g bdeg cf ac eg aef 15 bcde abceg bce cdf abcd acde acf g bde 16 bc aeg acdg bg abcf g abdf g abd cde Na podstawie uzyskanych wyników wyznaczono sumy kwadratów dla efektów. Skonstruowano następujący wykres probabilistyczny, do którego użyto sum kwadratów dla interakcji rzędu większego niż trzy: Punkty na prawo od narysowanej pionowej prostej odpowiadają efektom, których oszacowania nie powinny składać się na oszacowanie wariancji błędu losowego. Są to efekty: ABCE ABCG ABDG ADEF G ACF G ABEG ABCDEF G ADF G AC DEF ABCEF G ABC D ACDF G ABDEF G Po odrzuceniu sum kwadratów dla tych efektów ponownie skonstruowano wykres probabilistyczny. Po kilkukrotnym zastosowaniu tej procedury na oszacowanie błędu losowego złożyły się oszacowania następujących efektów: DCDG ABDE BCEG CDEF G ABDEF DEF G BDEF G BCEF ACEG BEF G ACDEF G ABEF G BDEF BCDF G ACDF ACEF BCDF BCDEF G ABDF G ABF G BCDEF CDEG CDEF ABDF ABCDEG BCEF G ACDG ABCDG BDEG BDF G AEF G ACEF G ABCDE CEF G ABCF G ABCF BCDE CDF G ABDEG ACDE ADEF 5
Otrzymano następujące wyniki dla efektów głównych: oznacza istotność efektu na poziomie istotności 0.05 Źródło zmienności St.sw. Średni kwadrat F A 1 11514.03 4.22 B 1 17353.85 6.36 C 1 65395.36 23.96 D 1 101.89 0.04 E 1 72513.84 26.57 F 1 992.35 0.36 G 1 11631.94 4.26 Bd 41 2729.139 Literatura cytowana FEDERER W.T., (1955) Experimental Design, The Macmillan Company, New York. JAWORSKI S., ZIELIŃSKI W., (1994) Planowanie eksperymentu 2 (k p) w 2 r blokach, Algorytmy Biometryczne i Statystyczne, w druku. MONTGOMERY D.C., (1976) Design and Analysis of Experiments, John Wiley & Sons, New York. WAGNER W., (1990) Zastosowanie wykresów probabilistycznych w jednozmiennej analizie wariancji, Listy Biometryczne, 27, 47-60 6