ZESZYTY PROBLEMOWE POSTĘPÓW NAUK ROLNICZYCH 2007 z. 517: 21-41 METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ DLA CECH ILOŚCIOWYCH W KOLEKCJACH ROŚLINNYCH ZASOBÓW GENOWYCH Wiesław Mądry Katedra Biometrii, Szkoła Główna Gospodarstwa Wiejskiego w Warszawie 1. Wstęp Na skutek dąŝenia do duŝej specjalizacji odmian, ostatnie 30 lat hodowli doprowadziło jednocześnie do poprawy produktywności roślin uprawnych oraz zuboŝenia (erozji) ich róŝnorodności genetycznej i fenotypowej [PROSPERI i in. 2006]. Taki stan jest niebezpieczny dla zapewnienia zrównowaŝonego funkcjonowania i rozwoju rolnictwa oraz całej gospodarki w skali lokalnej i globalnej. Uznaje się, Ŝe działania na rzecz zachowania istniejącego obecnie bogactwa genetycznego w przyrodzie i rolnictwie naleŝy do największych zadań dzisiejszej nauki. Najlepszym sposobem ochrony i zachowania dla przyszłości tej róŝnorodności biologicznej w obrębie gatunków roślin uprawnych, która jeszcze istnieje na Ziemi, jest efektywne gromadzenie zasobów genetycznych w postaci kolekcji, nazywanych teŝ bankami genów [FRANKEL i in. 1995; EVENSON i in. 1998; DELACY i in. 2000; GUTIÉRREZ i in. 2003; MOHAMMADI, PRASANNA 2003; ŽÁKOVÁ, BENKOVÁ 2006]. Na świecie powstało dotychczas, i wciąŝ powstaje, wiele krajowych i międzynarodowych kolekcji zasobów genowych w obrębie róŝnych gatunków roślin uprawnych i spokrewnionych z nimi. Obiekty (ang. accessions) gromadzone w kolekcjach zasobów genowych roślin uprawnych mogą być liniami wsobnymi, mutantami, klonami, populacjami roślin obcopylnych, odmianami miejscowymi lub ekotypami jednego gatunku lub wielu gatunków spokrewnionych [PECETTI i in. 1992; CLEMENTS, COWLING 1994; EVENSON i in. 1998; ASSEFA i in. 1999, 2000, 2001a, 2001b, 2003; BERDAHL i in. 1999; REBOURG i in. 2001; MASSA i in. 2004; UPADHYAYA i in. 2005; BEKELE i in. 2006]. Zwykle takie obiekty pochodzą z róŝnych krajów i rejonów. RóŜnorodność biologiczna (bioróŝnorodność) obiektów pod względem jakościowych i ilościowych cech fenotypowych w kolekcji roślinnych zasobów genowych jest nazywana róŝnorodnością lub zmiennością fenotypową [JARADAT 1991; PECETTI i in. 1992; FLORES i in. 1997; HARCH i in. 1997; JAHUFER i in. 1997; ASSEFA i in. 1999, 2000, 2001a, 2001b, 2003; AYANA, BEKELE 1999; CASLER, VAN SANTEN 2000, DELACY i in. 2000; ALEMAYEHU, BECKER 2002; MOHAMMADI, PRASANNA 2003; ZIZUMBO-VILLARREAL i in. 2005; BEKELE i in. 2006;
22 W. Mądry PROSPERI i in. 2006], dla odróŝnienia jej od róŝnorodności (zmienności) genetycznej określonej na podstawie markerów DNA [EVENSON i in. 1998; FRANCO i in. 2001; REBOURG i in. 2001; MOHAMADI, PRASANNA 2003; ROTONDI i in. 2003]. W języku naukowym i zawodowym pojęcia róŝnorodność genetyczna lub fenotypowa i zmienność genetyczna lub fenotypowa są zwykle uŝywane wymiennie. Oceny róŝnorodności fenotypowej oraz genetycznej (na podstawie markerów DNA) obiektów w kolekcjach stanowią komplementarne składniki charakterystyki ich bioróŝnorodności. Są one niezbędne głównie do 1) efektywnego gromadzenia obiektów, które wymaga identyfikacji obiektów nadmiernych w celu tworzenia kolekcji podstawowych, czyli reprezentatywnych (ang. core collection), 2) redukcji kosztów utrzymania kolekcji, 3) ich efektywnego wykorzystania w podstawowych i stosowanych badaniach genetycznych oraz hodowli twórczej [MĄDRY 1993; FRANKEL i in. 1995; JAHUFER i in. 1997; ORTIZ i in. 1998; ASSEFA i in. 1999, 2001a, 2003; DELACY i in. 2000; FRANCO i in. 2001; REBOURG i in. 2001; MOHA- MMADI, PRASANNA 2003; CROSSA, FRANCO 2004; LI i in. 2004; UPADHYAYA i in. 2005; BEKELE i in. 2006; PROSPERI i in. 2006; XU i in. 2006]. Znaczenie oceny bioróŝnorodności w kolekcjach zasobów genowych roślin stale rośnie w miarę zwiększania liczebności obiektów. RóŜnorodność fenotypowa w kolekcji roślinnych zasobów genowych jest oceniana głównie dla waŝnych cech ilościowych ciągłych lub skokowych quasi ciągłych (z licznym, chociaŝ skończonym, zbiorem przyjmowanych wartości). Do takich cech naleŝy plon rolniczy na roślinie lub jednostce powierzchni i związane z nim plonotwórcze cechy morfologiczne, fizjologiczne i fenologiczne oraz inne cechy rolnicze, określające adaptację roślin do róŝnych warunków środowiskowych, zwłaszcza ich odporność na choroby i szkodniki roślin oraz stresy środowiskowe, czyli suszę i inne ekstremalne warunki pogodowe [JARADAT 1991; PECETTI i in. 1992; MĄDRY 1993; JAHUFER i in. 1997; ASSEFA i in. 1999, 2001a, 2001b, 2003; CASLER, VAN SANTEN 2000; ROJAS i in. 2000; SCHLÖSSER i in. 2000; DE GIORGIO, POLIGNANO 2001; FRANCO i in. 2001; VAYLAY, VAN SANTEN 2002; GUTIÉRREZ i in. 2003; KUBICKA i in. 2004; NAGHAVI, JAHANSOUZ 2005; NOFFSINGER, VAN SANTEN 2005; UPADHYAYA i in. 2005, 2007; PROSPERI i in. 2006; UKALSKA i in. 2006]. Właściwa ocena zróŝnicowania fenotypowego obiektów w kolekcji zasobów genowych, przydatna do realizacji wymienionych wyŝej celów, powinna być oparta na efektach (wartościach) genotypowych obiektów (patrz rozdział 2, modele 2, 3 i 4) dla rozpatrywanych cech ilościowych. Tak określoną zmienność fenotypową obiektów nazywa się zmiennością genotypową albo genetyczną dla badanych cech ilościowych [Dudley, Moll 1969; ROJAS i in. 2000; ALEMAYEHU, BECKER 2002; VAYLAY, VAN SANTEN 2002; JARADAT i in. 2003; MOHAMMADI, PRASANNA 2003; DE RON i in. 2004; KUBICKA i in. 2004; SIECZKO i in. 2004; YEATER i in. 2004]. Do badania róŝnorodności fenotypowej dla cech ilościowych w roślinnych bankach genów, z uwzględnieniem zmienności genotypowej tych cech, potrzebne są dane empiryczne z obserwacji wielu roślin w obrębie obiektów w jednym lub wielu latach (dotyczy to głównie kolekcji in situ) albo z doświadczeń polowych, wykonanych w jednym środowisku (miejscowości, roku) lub w serii doświadczeń w wielu środowiskach (latach, miejscowościach lub kombinacjach miejscowości i lat badań) dla kolekcji ex situ
METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ... 23 [ASSEFA i in. 1999, 2000, 2001a, 2001b; 2003; ANNICCHIARICO i in. 2000; CASLER, VAN SANTEN 2000; DELACY i in. 2000; REBOURG i in. 2001; ALEMAYEHU, BECKER 2002; DE RON i in. 2004; LI i in. 2004; UPADHYAYA i in. 2005; ZIZUMBO-VILLARREAL i in. 2005; XU i in. 2006; ŽÁKOVÁ, BENKOVÁ 2006]. Ze względu na wymogi wnioskowania statystycznego, doświadczenia polowe wykonywane tylko w jednym środowisku powinny być planowane w układzie całkowicie losowym, losowanych bloków, bloków niekompletnych lub układzie wzorcowym. Jeśli badacz decyduje się na serię doświadczeń, to doświadczenia pojedyncze w kaŝdym środowisku mogą być zakładane w jednym powtórzeniu. Taka metodyka jest stosowana w ocenie zmienności fenotypowej w polskich kolekcjach roślinnych zasobów genowych [MĄDRY 1993; KUBICKA i in. 2004; SIECZKO i in. 2004; UKALSKA i in. 2007a, 2007b] oraz w kolekcjach zagranicznych [HARTUNG, PIEPHO 2005; HOOKS i in. 2006]. Zakłada się, Ŝe badania nad ilościową róŝnorodnością fenotypową w kolekcji roślinnych zasobów genowych dla jednego gatunku powinny prowadzić do 1) oceny zmienności obiektów ze względu na róŝne cechy oraz ich uwarunkowanie genetyczne i środowiskowe, 2) wielocechowej klasyfikacji obiektów oraz 3) oceny zróŝnicowania (relacji) między obiektami i wydzielonymi grupami obiektów. W tych badaniach stosuje się statystyczne metody jednocechowe (jednowymiarowe) i wieleocechowe (wielowymiarowe). Pozwalają one na komplementarne i wieloaspektowe wnioskowanie, dlatego więc są często stosowane jednocześnie w pracach nad oceną zmienności w kolekcjach genowych roślin [PECETTI i in. 1992; MĄDRY 1993; FLORES i in. 1997; CASLER, VAN SANTEN 2000; ASSEFA i in. 2001b; REBOURG i in. 2001; ALEMAYEHU, BECKER 2002; DE RON i in. 2004; SIECZKO i in. 2004; NAGHAVI, JAHANSOUZ 2005; UPADHYAYA i in. 2005; BEKELE i in. 2006; UKALSKA i in. 2007a, 2007b]. Celem tej pracy jest krótka charakterystyka najwaŝniejszych jedno- i wielocechowych metod statystycznych, stosowanych do wiarygodnej i wyczerpującej oceny róŝnorodności fenotypowej obiektów w kolekcjach zasobów genowych roślin uprawnych pod względem cech ilościowych ciągłych i podobnych do nich oraz dyskusja nad dorobkiem metodycznym w zakresie wyboru, stosowania i oceny przydatności tych narzędzi, uwzględniając takŝe pakiet komputerowy SAS [LITTELL 2006; KHATTREE, NAIK 2000; SAS/STAT 2002]. Modele analizy wariancji 2. Jednocechowa analiza róŝnorodności Wartość fenotypową osobnika dla cechy ilościowej ciągłej lub quasi-ciągłej, P, w róŝnorodnych warunkach środowiskowych, traktuje się jako rezultat ekspresji jego genotypu oraz działania wszechstronnie pojętych warunków środowiskowych. Przedstawia się ją matematycznie za pomocą sumy wartości genotypowej osobnika, G, i efektu środowiskowego, E, przyjmując następujący model matematyczny [DUDLEY, MOLL 1969; FALCONER, MACKAY 1996; MUSZYŃSKI i in. 2000]: P = G + E (1)
24 W. Mądry Model ten jest inspiracją do tworzenia liniowych modeli statystycznych (modeli analizy wariancji, ANOVA) dla danych z obserwacji wymienionych cech na obiektach kolekcji zasobów genowych roślin, badanych w odpowiednich doświadczeniach (ex situ) lub w warunkach występowania (in situ). Przedstawimy podejścia statystyczne do jednocechowej analizy zmienności obiektów w kolekcjach roślinnych zasobów genowych na podstawie danych z trzech rodzajów doświadczeń planowanych lub obserwacji poza doświadczalnej. Skupimy się na modelach analizy wariancji dla tych przypadków i metodach estymacji komponentów wariancyjnych. Zakładamy, Ŝe badane obiekty w kolekcji są próbą reprezentatywną (losową) wybraną z potencjalnie nieskończenie licznej populacji obiektów genetycznych danego gatunku roślin, przydatnych w danej szerokości geograficznej. Takie załoŝenie przyjmuje się zwykle w badaniach ilościowej róŝnorodności fenotypowej w kolekcjach zasobów genowych roślin [JAHUFER i in. 1997; HARTUNG, PIEPHO 2005; HOOKS i in. 2006]. Model analizy wariancji dla danych z doświadczenia pojedynczego (w jednym środowisku) w układzie całkowicie losowym lub z obserwacji obiektów in situ na jednostkach (zwykle roślinach), ma postać [DELACY i in. 1996b; MUSZYŃSKI i in. 2000; LI i in. 2004]: x ik = m + g i + _ ik (2) gdzie: x ik jest obserwacją cechy ilościowej dla i-tego obiektu (i=1,...,i) na k-tej (k=1,...,n i ) jednostce (roślinie, poletku), m jest średnią ogólną, g i jest efektem genotypowym i-tego obiektu, m+g i =G i jest wartością genotypową i-tego obiektu, _ ik jest resztą, czyli błędem losowym (efektem środowiskowym, gdy obiekty w kolekcji są liniami czystymi lub klonami lub efektem środowiskowym połączonym z efektem genetycznym, gdy obiekty są zbiorowością róŝnych genotypów) na k-tej jednostce doświadczalnej. Jeśli doświadczenie pojedyncze jest załoŝone w układzie blokowym (losowanych bloków lub bloków niekompletnych), to model analizy wariancji dla danych ma postać: x ik = m + g i + r k + _ ik (3) gdzie: r k jest efektem k-tego (k=1,..., K) bloku, pozostałe parametry są zdefiniowane tak, jak w modelu (2). Przyjęto, Ŝe badane obiekty w kolekcji są próbą reprezentatywną z licznej populacji zasobów genowych gatunku, zatem modele (2) i (3) są losowe, tzn. wszystkie parametry, oprócz średniej m są zmiennymi losowymi o niezaleŝnych rozkładach normalnych ze średnimi równymi zero i jednakowymi wariancjami. ZałoŜenia te zapiszemy następująco [SEARLE 1987; DELACY i in. 1996b; LI i in. 2004]: g i ~ N(0, σ), r k ~ N(0, σ), _ ik ~ N(0, σ). Symbole σ, σ, σ oznaczają odpowiednio wariancję genotypową, wariancję blokową i wariancję reszt (błędu). Dla danych z serii doświadczeń z obiektami reprezentatywnymi dla licznej
METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ... 25 populacji obiektów genetycznych gatunku, ocenianych w układzie blokowym, w której środowiska (lata, miejscowości lub kombinacji miejscowości w roku) są reprezentatywne dla rozwaŝanej populacji takich środowisk, losowy model analizy wariancji ma postać [DELACY i in. 1996b; COOPER i in. 1997; ASSEFA i in. 2000, 2001b; REBOURG i in. 2001; ALEMAYEHU, BECKER 2002; BOLAŃOS AGUILAR i in. 2002; HOLLAND, CERVANTES-MARTINEZ 2003; XU i in. 2006; ŽÁKOVÁ, BENKOVÁ 2006]: x ijk = m + e j + r(e) jk + g i + ge ij + _ ijk (4) gdzie: x ijk jest obserwacją cechy ilościowej dla i-tego obiektu (i=1,...,i) w j- tym środowisku (j=1,...,j) na k-tej (k=1,...,n) jednostce (poletku), m jest średnią ogólną, e j jest efektem głównym j-tego środowiska, r(e) jk jest efektem k-tego bloku w j-tym środowisku, g i jest głównym efektem genotypowym i-tego obiektu, m+g i =G i jest wartością genotypową i-tego obiektu, ge ij jest efektem interakcji i-tego genotypu z j-tym środowiskiem, _ ijk jest błędem doświadczalnym, związanym z i-tym obiektem, j-tym środowiskiem oraz k-tą jednostką. Zakładamy, Ŝe wszystkie parametry modelu (4), oprócz średniej m, są zmiennymi losowymi o niezaleŝnych rozkładach normalnych ze średnimi równymi zero i jednakowymi wariancjami, czyli [DELACY i in. 1996b; COOPER i in. 1997; XU i in. 2006]: e j ~ N(0, σ), r(e) jk ~ N(0, σ), g i ~ N(0, σ), ge ij ~ N(0, σ), _ iik ~ N(0, σ). Symbole σ, σ, σ, σ, σ oznaczają odpowiednio wariancję środowiskową, wariancję blokową, wariancję genotypową, wariancję interakcyjną i wariancję reszt (błędu). Wariancje róŝnych efektów w modelach (2)-(4), nazywane komponentami wariancyjnymi. JeŜeli w serii doświadczeń, obiekty są oceniane w jednym powtórzeniu w kaŝdym środowisku, to właściwym modelem danych jest model (3), stosowany przez MĄDREGO [1993], KUBICKĄ i in. [2004], SIECZKĘ i in. [2004], HARTUNG i PIEPHO [2005] oraz UKALSKĄ i in. [2006, 2007a, 2007b]. Estymacja komponentów wariancyjnych Jednocechowa analiza zmienności obiektów w kolekcji polega na estymacji niektórych z wymienionych komponentów wariancyjnych na podstawie danych empirycznych i sprawdzaniu ich istotności. W modelach (2) i (3) estymuje się wariancję genotypową oraz wariancję błędu, zaś na podstawie modelu (4), wariancję genotypową, wariancję interakcyjną oraz wariancję błędu. Estymacja tych komponentów wariancyjnych moŝe być wykonana za pomocą metody analizy wariancji, która daje estymatory optymalne na podstawie danych zrównowaŝonych, czyli z jednakową liczbą obserwacji w kaŝdej podklasie zgodnie z przyjętymi modelami [SEARLE 1987; SEARLE i in. 1992; MUSZYŃSKI i in. 2000]. W takich przypadkach moŝna zastosować proste algorytmy, podawane w podręcznikach doświadczalnictwa i biometrii [SEARLE 1987; SEARLE i in. 1992; MUSZYŃSKI i in. 2000]. Polecane są takŝe dwie procedury pakietu SAS, tj. VARCOMP lub MIXED [SAS/STAT 2002; HOLLAND, CERVANTES-
26 W. Mądry MARTINEZ 2003]. Algorytmy estymatorów ANOVA dla komponentów wariancyjnych w modelu (4) na podstawie danych zrównowaŝonych są podane przez ANNICCHIARICO [2002] w jego w podręczniku w rozdziale 4. JeŜeli jednak dane są niezrównowaŝone, czyli niekompletne, co zdarza się często w badaniach kolekcji zasobów genowych, to optymalna estymacja rozwaŝanych komponentów wariancyjnych we wszystkich podanych modelach moŝe być wykonana za pomocą metody największej wiarygodności z restrykcją, nazywanej w skrócie metodą REML, która jest bardzo efektywna i elastyczna [SEARLE 1987; SEARLE i in. 1992; HOLLAND, CERVANTES- MARTINEZ 2003; LITTELL i in. 2006]. Jest ona dostępna numerycznie w procedurze MIXED pakietu SAS [SAS/STAT 2002; HOLLAND, CERVANTES-MARTINEZ 2003; LITTELL i in. 2006]. W modelu (4) z tej procedury korzystali XU i in. [2006] dla danych zrównowaŝonych, zaś COOPER i in. [1997] dla danych niezrównowaŝonych. Z metody REML i procedury MIXED do estymacji komponentów wariancyjnych w innych modelach dla oceny zmienności zasobów genowych roślin, na podstawie danych niezrównowaŝonych, korzystali JAHUFER i in. [1997]; COOPER i in. [2001]; BERTERO i in. [2004]; UKALSKA i in. [2006; 2007b] oraz DE LA VEGA i in. [2007]. Estymacja komponentów wariancyjnych metodą REML w róŝnych modelach, na podstawie niezrównowaŝonych danych z serii doświadczeń genetycznych, moŝe być ułatwiona za pomocą podejścia dwustopniowego [PIEPHO, MÖHRING 2005; MĄDRY i in. 2006]. Odziedziczalność w wąskim sensie (powtarzalność) średnich fenotypowych obiektów Na podstawie ocen wymienionych komponentów wariancyjnych wyznacza się wskaźniki odziedziczalności w wąskim sensie lub powtarzalności średnich fenotypowych dla genotypów, h. Wskaźnik odziedziczalności w wąskim sensie, h 2, dla średnich fenotypowych obiektów (średnich obiektowych), ocenianych w jednym środowisku, ma postać [[DUDLEY, MOLL 1969; DELACY i in. 1996b; MUSZYŃSKI i in. 2000; HOLLAND, CERVANTES-MARTINEZ 2003]: h 2 1 ˆ σ 2 g 2 g 2 ˆ σ ε = (5) ˆ σ + n Natomiast wskaźnik h dla średnich obiektowych, ocenianych w serii doświadczeń w J środowiskach i w n powtórzeniach, ma postać [DELACY i in. 1996b; COOPER i in. 1997; HENNINGER i in. 2000; REBOURG i in. 2001; ALEMAYEHU, BECKER 2002; BOLAŃOS-AGUILAR i in. 2002; HOLLAND, CERVANTES-MARTINEZ 2003; UPADHYAYA i in. 2005]:
METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ... 27 h 2 2 ˆ σ 2 g ˆ σ ˆ σ + J 2 g = (6) 2 ge 2 ˆ σ + ε nj gdzie,, (2)-(4). są ocenami komponentów wariancyjnych w modelach Wskaźniki odziedziczalności w wąskim sensie (5) i (6) są ocenami współczynnika regresji liniowej nieobserwowalnej wartości genotypowych obiektów od ich obserwowalnych średnich fenotypowych w obrębie danej puli genowej (tutaj kolekcji zasobów genowych) i populacji środowisk. Zatem stanowią one miary zgodności średnich fenotypowych i wartości genotypowych w danej populacji genetycznej i środowiskowej [DELACY i in. 1996b; MUSZYŃSKI i in. 2000; HOLLAND, CERVANTES-MARTINEZ 2003]. Wskaźnik powtarzalności średnich obiektowych (6) jest takŝe interpretowany jako miara szansy stwierdzenia tej samej róŝnicy średnich fenotypowych między obiektami w innych seriach doświadczeń lub w masowej praktyce rolniczej [COOPER i in. 2001]. Zatem, im większa wartość wskaźnika powtarzalności (5) lub (6), tym średnie fenotypowe obiektów są bliŝsze ich wartościom genotypowym, określającym prawdziwe efekty genotypowe obiektów dla danej cechy. W analizie danych według modeli losowych (2)-(4) waŝna jest takŝe estymacja losowych efektów genotypowych, g i,, lub wartości genotypowych, G i, obiektów dla kaŝdej cechy. Estymatory tych parametrów są wykorzystywane w wielocechowych analizach róŝnorodności genotypowej obiektów. Na podstawie danych zrównowaŝonych, parametry te moŝna oceniać optymalnie za pomocą średnich arytmetycznych z powtórzeń lub z powtórzeń i środowisk, czyli wspominanych wyŝej średnich fenotypowych dla obiektów. Prawie optymalnymi estymatorami tych parametrów (asymptotycznie nieobciąŝonymi i najefektywniejszymi) dla danych niezrównowaŝonych są najlepsze nieobciąŝone liniowe predyktory (ang. the best linear unbiased predictor), nazywane w skrócie BLUP [SEARLE 1987; ROBINSON 1991; SEARLE i in. 1992; HARTUNG, PIEPHO 2005; HOOKS i in. 2006; LITTELL i in. 2006; DE LA VEGA i in. 2007]. Estymatory typu BLUP dla efektów losowych (tutaj efektów genotypowych) w róŝnych modelach losowych i mieszanych moŝna obliczać za pomocą metody REML, korzystając z procedury MIXED pakietu SAS, która jest szczególnie efektywna i polecana dla modeli (3) i (4). Im większa wartość wskaźnika powtarzalności (5) lub (6) dla danej cechy, tym estymatory BLUP są dokładniejszą oceną wartości genotypowych porównywanych obiektów. 3. Wielocechowa analiza róŝnorodności ChociaŜ metody jednocechowe, opisane w poprzednim rozdziale, są pomocne w ocenie róŝnorodności fenotypowej (genotypowej) obiektów w kolekcji zasobów genowych, to jednak mają one znaczne wady, poniewaŝ nie pozwalają ocenić efektywnie i przejrzyście zróŝnicowania obiektów pod względem jednocześnie wielu, z natury
28 W. Mądry wzajemnie skorelowanych, cech [CAMUSSI i in. 1985; MĄDRY 1993; JAHUFER i in. 1997]. Dlatego teŝ statystyczne metody wielocechowe, które pozwalają analizować róŝnorodność obiektów pod względem jednocześnie wielu cech, są powszechnie stosowane w ocenie róŝnorodności fenotypowej i molekularnej w kolekcjach roślinnych zasobów genowych [SNEATH, SOKAL 1973; MĄDRY 1993; MOHAMMADI, PRASANNA 2003; CROSSA, FRANCO 2004]. Dostarczają one takich informacji i wiedzy o relacjach fenotypowych i molekularnych obiektów, które nie są dostępne i nie mieszczą się w wyobraźni badacza, stosującego tylko metody jednocechowe. Zwykle badacze róŝnorodności fenotypowej w kolekcji zasobów genowych stosują jednocześnie zarówno wielocechowe metody klasyfikacji, czyli grupowania obiektów (ang. clustering methods), jak i metody analizy zróŝnicowania (relacji) obiektów (ang. ordination methods). W ten sposób uzyskuje się komplementarną ocenę róŝnorodności fenotypowej w kolekcji, obejmującą zarówno podział obiektów (klasyfikację) na grupy homogeniczne, czyli wewnętrznie podobne pod względem jednocześnie wszystkich badanych cech, jak i globalną syntezę wielocechowej zmienności obiektów oraz czytelną ilustrację relacji wielocechowych (zróŝnicowania) między badanymi obiektami i wydzielonymi grupami tych obiektów [LEE, KALTSIKES 1973; SNEATH, SOKAL 1973; WILLIAMS 1976; JARADAT 1991; CLEMENTS, COWLING 1994; FLORES i in. 1997; HARCH i in. 1997; JAHUFER i in. 1997; BERDAHL i in. 1999; CASLER, VAN SANTEN 2000; ROJAS i in. 2000; ASSEFA i in. 1999; 2001a; 2003; DELACY i in. 2000; JARADAT i in. 2003; MOHAMMADI, PRASANNA 2003; NAGHAVI, JAHANSOUZ 2005; PROSPERI i in. 2006]. Takie dwustopniowe podejście do wielocechowej oceny zmienności obiektów zostało nazwane w języku angielskim pattern analysis, które dotychczas nie ma odpowiednika polskiego. W następnych rozdziałach przedstawimy metody klasyfikacji obiektów oraz metody zróŝnicowania (relacji) obiektów i wydzielonych grup. 3.1. Grupowanie (klasyfikacja) obiektów za pomocą analizy skupień Analiza skupień stanowi grupę metod wielocechowych, których zadaniem jest grupować obiekty na podstawie wielu atrybutów (zmiennych, cech) w taki sposób, aby obiekty z odpowiednio podobnymi wartościami tych atrybutów znalazły się w poszczególnych grupach, zwanych skupieniami (ang. clusters) [SNEATH, SOKAL 1973; MARDIA i in. 1979; SEBER 1984, 2004; KRZANOWSKI 1988; JOHNSON, WICHERN 2002; CROSSA, FRANCO 2004]. Zatem wydzielone grupy obiektów powinny odznaczać się duŝą wewnętrzną jednorodnością, zaś duŝym zróŝnicowaniem między sobą. Zatem na odpowiednim wykresie geometrycznym dwu- lub trójwymiarowym, obiekty (punkty dla obiektów) w grupach powinny być połoŝone blisko siebie, zaś obiekty z róŝnych grup powinny znajdować się stosunkowo daleko od siebie. W klasyfikacji materiałów hodowlanych, w tym takŝe obiektów w kolekcji roślinnych zasobów genowych, opartej na cechach fenotypowych (ilościowych i jakościowych) stosuje się metody analizy skupień, wykorzystujące róŝne odległości między obiektami, tzn. między średnimi arytmetycznymi lub ocenami typu BLUP dla poszczególnych cech obiektów [MĄDRY 1993; JAHUFER i in. 1997; FRANCO i in. 2001; MOHAMMADI, PRASANNA 2003; CROSSA, FRANCO 2004; LI i in. 2004; DE LA VEGA i in. 2007]. Dla cech ilościowych ciągłych, quasi-ciągłych (skokowych z duŝą
METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ... 29 liczbą wartości) lub skokowych, pochodzących z bonitacji cech ciągłych stosuje się przewaŝnie odległość euklidesową lub kwadrat odległości euklidesowej na standaryzowanych danych (średnich lub ocenach typu BLUP) dla róŝnych cech za pomocą transformacji Z [BERDAHL i in. 1999; FRANCO i in. 2001; MOHAMADI, PRASANNA 2003; HOOKS I IN. 2006; PROSPERI i in. 2006; ŽÁKOVÁ, BENKOVÁ 2006; DE LA VEGA i in. 2007; UPADHYAYA i in. 2007]. Niektórzy autorzy [CLEMENTS, COWLING 1994; BEKELE i in. 2006] stosują standaryzację kaŝdej cechy opartą na rozstępie danych dla obiektów, zamiast odchylenia standardowego. PoniewaŜ rozstęp jest parametrem statystycznym wraŝliwym na obserwacje odstające, nie powinno się go stosować do standaryzacji cech w badaniach wielocechowej zmienności obiektów biologicznych. Warto podkreślić, Ŝe odległość euklidesową lub kwadrat odległości euklidesowej stosuje się wówczas, gdy zmienność wielocechowa (relacje) obiektów jest oceniana za pomocą analizy składowych głównych, jako metody komplementarnej w stosunku do metod analizy skupień. Uzasadnienie stosowania standaryzacji Z przy stosowaniu wymienionych dwóch odległości między obiektami jest następująca. Cechy roślin, obserwowane przy ocenie zmienności obiektów w kolekcji zasobów genowych, są mierzone w róŝnych skalach. Aby usunąć efekt skali obserwowanych cech, polegający na nie w pełni symptomatycznym (miarodajnym) zróŝnicowaniu między-obiektowej wariancji tych cech, nie odzwierciedlającym ich rzeczywistej i porównywalnej zmienności między-obiektowej dotyczy to równieŝ cech mierzonych w tej samej skali), wykonuje się standaryzację danych dla średnich arytmetycznych lub ocen typu BLUP, dotyczących poszczególnych cech obiektów. W ocenie zmienności zasobów genowych roślin najczęściej stosowana jest standaryzacja Z, wykorzystująca między-obiektowe odchylenie standardowe [SNEATH; SOKAL 1973; AYANA, BEKELE 1999; MOHAMMADI, PRASANNA 2003; CROSSA, FRANCO 2004; ŽÁKOVÁ, BENKOVÁ 2006; UPADHYAYA i in. 2007]. Standaryzacja Z polega na obliczeniu nowych danych dla obiektów, oznaczonych przez Z, poprzez odjęcie od wartości obiektowej (średniej lub oceny BLUP) dla danej cechy w skali oryginalnej, jej średniej z wszystkich obiektów i podzieleniu przez jej między-obiektowe odchylenie standardowe. Wartości obiektowe kaŝdej cechy standaryzowanej typu Z mają średnią zerową i jednostkowe odchylenie standardowe. Zatem, wagi i udziały wszystkich cech standaryzowanych w zmienności wielocechowej obiektów nie są zniekształcone przez zróŝnicowane wariancje, nie świadczące o porównywalnym natęŝeniu zmienności kaŝdej z cech. Przedstawione tutaj uwagi o standaryzacji Z są takŝe przydatne w rozdziale 3.2.1, dotyczącym analizy składowych głównych. Odległości euklidesowe mogą być oceniane takŝe na podstawie wartości kilku pierwszych składowych głównych, obliczonych dla obiektów, w celu zmniejszenia tzw. szumu, czyli losowego błędu oceny średnich obiektowych lub ich estymatorów typu BLUP [CASLER, VAN SANTEN 2000; PROSPERI i in. 2006; UPADHYAYA i in. 2007]. Drugą miarą wielocechowego zróŝnicowania obiektów, uŝywaną w klasyfikacji obiektów w kolekcji zasobów genowych roślin jest odległość Mahalanobisa na oryginalnych danych dla róŝnych cech [MARDIA i in. 1979; KRZANOWSKI 1988; MĄDRY 1993]. Odległość Mahalanobisa określa wielocechową róŝnicę między dwoma obiektami w postaci sumy kwadratów róŝnic średnich obiektowych (lub ocen wartości
30 W. Mądry genotypowych za pomocą BLUP) dla rozpatrywanych cech w jednostkach ich odchylenia standardowego błędu losowego (w modelu 2, 3 lub 4) albo efektów interakcyjnych (w modelu 4), z jednoczesnym uwzględnieniem kowariancji cech dla wymienionych reszt losowych. Zatem, w przeciwieństwie do odległości euklidesowej lub jej kwadratu, odległość Mahalanobisa uwzględnia naturalne wagi, określające znaczenie poszczególnych cech w zróŝnicowaniu wielocechowym obiektów. MoŜe być ona wyznaczana na podstawie danych z doświadczeń, w których ocenia się obiekty w wielu powtórzeniach w jednym środowisku, lub w wielu środowiskach. Ponadto bardzo poŝądane jest, aby takie dane były kompletne, czyli zrównowaŝone, a więc pochodziły z jednakowej liczby jednostek dla kaŝdego obiektu i kaŝdej cechy. Jest ona wybierana w takim podejściu metodycznym, w którym do oceny zróŝnicowania (zmienności) i relacji obiektów stosowana jest analiza zmiennych kanonicznych, zamiast analizy składowych głównych [LEE, KALTSIKES 1973; CAMUSSI i in. 1985; PECETTI i in. 1992; MĄDRY 1993; CARDI 1998; VAYLAY, VAN SANTEN 2002; MOHAMMADI, PRASANNA 2003; LI i in. 2004; MASSA i in. 2004; NOFFSINGER, VAN SANTEN 2005; XU i in. 2006]. Nie ma jednoznaczne ugruntowanego poglądu wśród biologów, zwłaszcza badaczy zmienności fenotypowej w kolekcjach roślinnych zasobów genowych, w odniesieniu do preferencji wymienionych rodzajów odległości, tj. euklidesowej i Mahalanobisa. Wiele zalet wskazuje za preferencją odległości Mahalanobisa, która w sposób bardziej umiarkowany odzwierciedla wielocechowe zróŝnicowanie obiektów dla cech w róŝnych skalach, unikając dość sztucznej skali zmiennej standaryzowanej Z, w której wszystkie badane cechy mają jednakową wariancję między-obiektową, równą jeden. Stosując odległość euklidesową w skali zmiennej Z dla wszystkich cech, traci się moŝliwość odzwierciedlenia znaczenia róŝnej faktycznie wariancji między-obiektowej poszczególnych cech w obrazie zróŝnicowania wielocechowego obiektów. Tej wady jest pozbawiona odległość Mahalanobisa. Niektórzy badacze zauwaŝają zdecydowanie, Ŝe odległość Mahalanobisa lepiej odzwierciedla zróŝnicowanie wielocechowe między obiektami w kolekcji zasobów genowych roślin, niŝ odległość euklidesowa lub jej kwadrat na cechach zarówno standaryzowanych (transformacja Z), jak i oryginalnych [MĄDRY 1993; MOHAMMADI, PRASANNA 2003; LI i in. 2004; XU i in. 2006]. Jednak prostota pojęciowa i proceduralna sprawia, Ŝe odległość euklidesowa lub jej kwadrat są znacznie częściej uŝywane do badań róŝnorodności fenotypowej w kolekcjach roślinnych zasobów genowych, niŝ odległość Mahalanobisa. Według sposobu grupowania obiektów wyróŝnia się metody hierarchiczne i niehierarchiczne [SNEATH, SOKAL 1973; MARDIA i in. 1979; SEBER 1984; KRZANOWSKI 1988; JOHNSON, WICHERN 2002; MOHAMMADI, PRASANNA 2003; CROSSA, FRANCO 2004]. Pierwsze z nich są najczęściej uŝywane w ocenie zmienności fenotypowej i molekularnej w kolekcjach zasobów genowych [MOHAMMADI, PRASANNA 2003; CROSSA, FRANCO 2004]. Polegają one na tworzeniu w kolejnych krokach aglomeracji, grup (skupień) coraz mniej wewnętrznie podobnych, zaś coraz bardziej zróŝnicowanych między sobą. Proces aglomeracji zaczyna się od tylu skupień, ile jest klasyfikowanych obiektów, a kończy na jednym skupieniu, zawierającym wszystkie badane obiekty. Grupy obiektów utworzone w poszczególnych krokach aglomeracji są przedstawiane w postaci graficznej, zwanej dendrogramem. W rozwaŝanych tutaj badaniach stosuje się najczęściej dwie hierarchiczne metody analizy skupień, tj. metodę
METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ... 31 średniej odległości między obiektami w skupieniach (ang. unweighted pair group method using arithmetic averages, UPGMA) i metodę Warda [WARD 1963; FRANCO i in. 1997; HARCH i in. 1997; JAHUFER i in. 1997; BERDAHL i in. 1999; CASLER, VAN SANTEN 2000; DELACY i in. 2000; SCHLÖSSER i in. 2000; ASSEFA i in. 1999, 2001a, 2003; FRANCO i in. 2001; JARADAT i in. 2003; MOHAMMADI, PRASANNA 2003; CROSSA, FRANCO 2004; CROSSA i in. 2002; MASSA i in. 2004; UPADHYAYA i in. 2005, 2007; ZIZUMBO-VILLARREAL i in. 2005; PROSPERI i in. 2006; ŽÁKOVÁ, BENKOVÁ 2006; DE LA VEGA i in. 2007]. Obie metody róŝnią się kryterium tworzenia nowych skupień w kolejnych krokach aglomeracji. W metodzie UPGMA odległość między dwoma skupieniami oblicza się jako średnią odległość między wszystkimi parami obiektów naleŝących do dwóch róŝnych skupień. Natomiast w metodzie Warda do oceny odległości między skupieniami wykorzystuje się podejście analizy wariancji. Polega ona na minimalizacji sumy kwadratów odchyleń odległości obiektów w obrębie dowolnych dwóch skupień, które mogą zostać uformowane na kaŝdym etapie aglomeracji. MILLIGAN i COOPER [1985] przeprowadzili badania symulacyjne nad efektywnością wielu hierarchicznych metod analizy skupień przy róŝnych miarach odległości międy obiektami. Stwierdzili oni, Ŝe metody UPGMA i Warda stwarzają generalnie największą szansę poprawnej klasyfikacji grup obiektów wielocechowo jednorodnych, czyli o jednakowych wartościach genotypowych dla rozwaŝanych cech. Metoda Warda posiada własność szczególnie silnego grupowania obiektów, przez co umoŝliwia ona tworzenie relatywnie mało licznych i zwięzłych grup w kaŝdym kroku aglomeracji [DELACY i in. 1996a; CROSSA i in. 2002; CROSSA, FRANCO 2004]. Klasyczne metody analizy skupień (włączając obie wymienione metody) są procedurami geometrycznymi, nie zawierającymi w swym podstawowym pomyśle kryteriów statystycznego wnioskowania o zróŝnicowaniu skupień na kaŝdym etapie aglomeracji. Zatem określenie poziomu podobieństwa skupień, przy którym przecina się dendrogram i otrzymuje wydzielone grupy, zawierające obiekty zawieszone na przeciętych gałęziach, odbywa się w praktyce zazwyczaj w sposób arbitralny. Badacze opierają się na wiedzy biologicznej o badanym materiale i rozsądnym kompromisie między antagonistycznymi celami, którymi są z jednej strony uzyskanie duŝego zróŝnicowania skupień, z drugiej zaś strony, mała liczby wydzielonych skupień. Przykładem takiego myślenia jest rozwiązanie zaproponowane przez CASLERA i VAN SANTENA [2000] oraz ASSEFA i in. [2001a, 2001b, 2003], którzy przecięli dendrogram, otrzymany za pomocą metody Warda, na poziomie podobieństwa, przy którym wydzielone skupienia wyjaśniały 70 lub 75%, zaś obiekty w obrębie skupień odpowiednio 30 lub 25% ogólnej sumy kwadratów dla odległości euklidesowych między obiektami. Statystycy próbują opracować kryteria obiektywizujące decyzję o liczbie wydzielonych grup obiektów. Chodzi o takie kryteria przecięcia dendrogramu, aby szansa poprawnej klasyfikacji grup obiektów była jak największa [CALIŃSKI, HARABASZ 1974; MILLIGAN, COOPER 1985; FRANCO i in. 1997; GUTIERREZ i in. 2003; MOHAMMADI, PRASANNA 2003; CROSSA, FRANCO 2004]. Takimi uznanymi kryteriami są: statystyka pseudo F i statystyka pseudo t 2 [CALIŃSKI, HARABASZ 1974; MILLIGAN, COOPER 1985]. Są one dostępne numerycznie w pakiecie SAS [2002] i współpracują z róŝnymi metodami analizy skupień w procedurach CLUSTER oraz FASTCLUS
32 W. Mądry [FRANCO i in. 1997; HARCH i in. 1997; AYANA, BEKELE 1999; KHATTREE, NAIK 2000; SCHLÖSSER i in. 2000; CROSSA, FRANCO 2004; PROSPERI i in. 2006; UKALSKA i in. 2007b]. 3.2. Analiza zróŝnicowania i relacji obiektów oraz wydzielonych grup obiektów 3.2.1. Analiza składowych głównych Standardową metodą wielocechowej analizy zróŝnicowania (relacji) obiektów w kolekcji zasobów genowych jest analiza składowych głównych (ang. principal component analysis, PCA), stosowana na średnich fenotypowych lub BLUP-ach dla badanych cech obiektów, które zostały standaryzowane za pomocą transformacji Z [COOPER i in. 1997, 2001; JAHUFER i in. 1997; LI i in. 2000; BERTERO i in. 2004; SINEBO i in. 2004; HOOKS i in. 2006; XU i in. 2006; DE LA VEGA i in. 2007; UKALSKA i in. 2007a]. Wspomniane BLUP-y do oceny wartości genotypowych obiektów były stosowane dla danych niezrównowaŝonych. Analiza składowych głównych polega na utworzeniu takich wzajemnie nieskorelowanych liniowych funkcji cech oryginalnych (zwanych składowymi głównymi), z których pierwsza, druga, trzecia, itd., wyjaśniają największą moŝliwą cześć wielocechowej (ogólnej) zmienności (wariancji) badanych obiektów, czyli ogólnej zmienności odległości euklidesowych między badanymi obiektami [MARDIA i in. 1979; SEBER 1984, 2004; KRZANOWSKI 1988; MĄDRY 1993; JOHNSON, WICHERN 2002]. Ta metoda pozwala wykryć rodzaje współzmienności (korelacji) cech w obrębie danego zbioru obiektów w kolekcji. Zatem pozwala ona syntetycznie ująć całą zmienność wielocechową pomiędzy obiektami. Jest ona zatem narzędziem do określenia udziału badanych cech w ogólnej (wielocechowej) zmienności między obiektami w kolekcji. Pozwala ona wykryć cechy o największym wkładzie (udziale, znaczeniu) do wielocechowej zmienności między obiektami. Takie cechy uznaje się za najwaŝniejsze w ogólnej zmienności obiektów [FLORES i in. 1997; ASSEFA i in. 1999; 2003; ALEMAYEHU, BECKER 2002; JARADAT i in. 2003; NAGHAVI, JAHANSOUZ 2005; UPADHYAYA i in. 2005; ZIZUMBO- VILLARREAL i in. 2005]. Wyniki analizy składowych głównych przedstawia się zwykle graficznie za pomocą tzw. wykresu podwójnego (ang. biplot) w układzie współrzędnych dla dwóch lub trzech pierwszych składowych głównych [DELACY i in. 2000; JOHNSON, WICHERN 2002; DE LA VEGA i in. 2007]. Na takim wykresie przedstawia się obiekty w postaci punktów o współrzędnych wymienionych składowych głównych oraz cechy oryginalne w postaci wektorów od początku układu współrzędnych do punktów o współrzędnych stanowiących współczynniki korelacji prostej między daną składową główną a cechą oryginalną (rys. 1). Wykres taki obrazuje w przybliŝeniu (tym lepszym, im więcej ogólnej zmienności między-obiektowej jest wyjaśnione przez pierwsze dwie lub trzy pierwsze składowe główne) relacje (zróŝnicowanie) wielocechowe obiektów, zarówno w kategoriach odległości euklidesowej lub jej kwadratu, jak i w kategoriach najwaŝniejszych cech (najsilniej skorelowanych z tymi pierwszymi składowymi głównymi. I tak, obiekty o wartościach składowych głównych bliskich początku układu (0,0) odznaczają się wartościami genotypowymi dla wszystkich badanych cech, zbliŝonych do ich średnich w całej kolekcji. Natomiast obiekty leŝące blisko siebie mają podobne wartości genotypowe dla badanych cech (zwłaszcza tych najwaŝniejszych w zmienności wielocechowej).
drugi stopień składowych głównych 2nd principal component (30%) drugi stopień składowych głównych 2nd principal component (30%) METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ... Wykres podwójny prezentuje takŝe graficznie strukturę korelacji cech. Kąty ostre między wektorami dla dwóch cech wskazują na korelacje dodatnie między nimi, kąty zbliŝone do prostych wskazują na słabą korelację lub jej brak, natomiast kąty rozwarte wskazują korelacje ujemne między cechami. 33 Rys. 1. Wykres podwójny (biplot) dwóch pierwszych składowych głównych dla czterech cech obiektów hodowlanych słonecznika, oparty na ocenach BLUP efektów genotypowych na podstawie danych z serii doświadczeń [DE LA VEGA i in. 2007] Fig. 1. The biplot of two first principal component, for four traits of sunflower breeding objects based on the BLUP evaluation of genotype effects on the basis of data from a series of experiments [DE LA VEGA i in. 2007] Analiza składowych głównych jest dobrze oprogramowana w róŝnych pakietach statystycznych. Wielu badaczy kolekcji zasobów genowych korzysta z procedury PRINCOMP w pakiecie SAS [REZAI, FREY 1990; FLORES i in. 1997; KHATTREE, NAIK 2000; ZIZUMBO-VILLARREAL i in. 2005; PROSPERI i in. 2006; UKALSKA i in. 2007a]. 3.2.2. Analiza zmiennych kanonicznych Analiza zmiennych kanonicznych (ang. canonical variate analysis, CVA) jest metodą podobną do analizy składowych głównych. Jest ona dostosowana do analizy zróŝnicowania dowolnych obiektów eksperymentalnych na podstawie sklasyfikowanych danych (raczej kompletnych) dla rozpatrywanych cech. MoŜe być więc ona stosowana do analizy kompletnych i niekompletnych danych dla obiektów w kolekcjach, opisanych za pomocą modeli (2)-(4) oraz danych dla grup obiektów genetycznych, utworzonych a priori (np. według pochodzenia geograficznego) lub wydzielonych grup obiektów. W analizie danych za pomocą tej metody dla pojedynczych obiektów, jednostkami
34 W. Mądry doświadczalnymi (modele 2-4), są rośliny, poletka lub środowiska [PECETTI i in. 1992; ARIYO 1993; MĄDRY 1993; CARDI 1998; VAYLAY, VAN SANTEN 2002; MASSA i in. 2004; YEATER i in. 2004; NOFFSINGER, VAN SANTEN 2005]. Natomiast w analizie danych dla grup obiektów, jednostkami są same obiekty [REZAI, FREY 1990; JARADAT 1991; CLEMENTS, COWLING 1994; FLORES i in. 1997; ROJAS i in. 2000; DE GIORGIO, POLIGNANO 2001; CROSSA i in. 2002; ASSEFA i in. 2003; GUTIÉRREZ i in. 2003; JARADAT i in. 2003; JAYNES i in. 2003; ZIZUMBO-VILLARREAL i in. 2005; UKALSKA i in. 2007b]. Analiza zmiennych kanonicznych polega na utworzeniu takich wzajemnie nieskorelowanych liniowych funkcji cech oryginalnych (zwanych zmiennych kanonicznymi), z których pierwsza, druga trzecia, itd., wyjaśnia największą moŝliwą cześć ogólnej zmienności odległości Mahalanobisa między pierwotnymi (oryginalnymi) obiektami lub ich wtórnymi zbiorowościami [MARDIA i in. 1979; SEBER 1984, 2004; CAMUSSI i in. 1985; KRZANOWSKI 1988; MĄDRY 1993]. Była ona stosowana jako alternatywna (względem analizy składowych głównych, PCA) metoda do analizy zmienności i relacji wielocechowych obiektów w kolekcjach roślinnych zasobów genowych, mierzonych za pomocą odległości Mahalanobisa [LEE, KALTSIKES 1973; PECETTI i in. 1992; ARIYO 1993; MĄDRY 1993; CARDI 1998; VAYLAY, VAN SANTEN 2002; MASSA i in. 2004; YEATER i in. 2004; NOFFSINGER, VAN SANTEN 2005] oraz do oceny relacji i zróŝnicowania wydzielonych grup obiektów za pomocą analizy skupień [REZAI, FREY 1990; JARADAT 1991; CLEMENTS, COWLING 1994; FLORES i in. 1997; ROJAS i in. 2000; DE GIORGIO, POLIGNANO 2001; CROSSA i in. 2002; ASSEFA i in. 2003; GUTIÉRREZ i in. 2003; JARADAT i in. 2003; JAYNES i in. 2003; ZIZUMBO-VILLARREAL i in. 2005; UKALSKA i in. 2007b]. Celem stosowania analizy zmiennych kanonicznych na skupieniach i innych grupach obiektów określonych a priori, jest wykrycie tych cech, które mają największą moc dyskryminacyjną (są najwaŝniejsze) w zróŝnicowaniu wymienionych grup obiektów w kolekcji. Drugim celem tej metody jest przybliŝona ilustracja (tym lepsza, im więcej ogólnej zmienności odległości Mahalanobisa między obiektami lub ich grupami jest wyjaśnione przez pierwsze dwie lub trzy zmienne kanoniczne) relacji i zróŝnicowania obiektów lub ich grup, zarówno w kategoriach odległości Mahalanobisa, jak i w kategoriach najwaŝniejszych cech dyskryminujących (najsilniej skorelowanych z tymi pierwszymi zmienne kanonicznymi). Analiza zmiennych kanonicznych jest dobrze oprogramowana w procedurze CANDISC pakietu SAS [KHATTREE, NAIK 2000] i była stosowana przez wielu badaczy [REZAI, FREY 1990; FLORES i in. 1997; CROSSA i in. 2002; VAYLAY, VAN SANTEN 2002; GUTIÉRREZ i in. 2003; JARADAT i in. 2003; JAYNES i in. 2003; MASSA i in. 2004; YEATER i in. 2004; NOFFSINGER, VAN SANTEN 2005; ZIZUMBO-VILLARREAL i in. 2005; UKALSKA i in. 2007b]. Niektórzy badacze stosują najpierw analizę składowych głównych, aby określić konfigurację obiektów (rozkład zmienności wielocechowej na wykresie 2-wymiarowym) i ich zróŝnicowanie oraz wykryć cechy o największej mocy dyskryminacyjnej dla obiektów. Później jest stosowana analiza skupień. Inni autorzy najpierw zajmują się klasyfikacją obiektów, później zaś badają zmienność obiektów, zaznaczając wydzielone grupy (skupienia) obiektów oraz oceniając ich wielocechowe zróŝnicowanie i relacje. To podejście metodyczne jest standardowo stosowane przez badaczy kolekcji zasobów
METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ... 35 genowych roślin. Moja propozycja w tej kwestii jest następująca. Proponuję najpierw wykonywać analizę składowych głównych do oceny zmienności obiektów, później zaś przeprowadzić klasyfikację obiektów i badanie relacji pomiędzy grupami, za pomocą analizy zmiennych kanonicznych. Taka propozycja została juŝ zastosowana w kilku pracach [CLEMENTS, COWLING 1994; FLORES i in. 1997; ROJAS i in. 2000; DE GIORGIO, POLIGNANO 2001; CROSSA i in. 2002; ASSEFA i in. 2003; GUTIÉRREZ i in. 2003; JARADAT i in. 2003; JAYNES i in. 2003; ZIZUMBO-VILLARREAL i in. 2005; UKALSKA i in. 2007a, 2007b]. Podsumowanie W pracy przedstawiono idee, standardy i dotychczasowy dorobek praktyczny w zakresie metodyki statystycznej, przydatnej do kompleksowej i wielostronnej analizy róŝnorodności fenotypowej cech ilościowych w kolekcjach roślinnych zasobów genowych. Są one adresowane głównie do badaczy zmienności obiektów, zgromadzonych zasobów genowych w Polsce, jako uŝytkowników tych metod. Zastosowanie tylko niektórych spośród omawianych tu podejść i metod analitycznych w pracach empirycznych nad zmiennością fenotypową w kolekcjach zasobów genowych roślin prowadzi zwykle do zuboŝenia kompleksowego opisu tej róŝnorodności. Badacz, decydujący się na wybór określonych metod jedno- i wielocechowych, powinien mieć na uwadze to, Ŝe nie ma jednego poprawnego sposobu opisu rzeczywistości i rozwiązania praktycznych problemów dotyczących oceny i klasyfikowania zmienności kolekcji genotypów, bo wszystkie metody są ukierunkowane na pewien rodzaj wnioskowania. Jedne pozwalają ocenić dobrze i wiarygodnie zmienność obiektów pod względem kaŝdej cechy oddzielnie (metody jednocechowe), inne zaś są efektywne i nieodzowne do wielocechowego (łącznego dla wielu cech) badania zmienności obiektów i ich klasyfikacji. Poprawność wyboru i zastosowania metod jednoi wielocechowych oraz efektywność wnioskowania zaleŝy od wiedzy oraz umiejętności badacza i interpretatora w zakresie biometrii i doświadczalnictwa. Zadania numeryczne przy zastosowaniu metod, podawanych w pracy, nie są obecnie wysokim progiem do pokonania, z racji na dostępność wydajnych pakietów statystycznych i rozwijającą się intensywnie kadrę informatyczną. Posługiwanie się tymi pakietami bez dobrego przygotowania metodycznego w podanym wyŝej sensie moŝe prowadzić do niewłaściwego wykorzystania danych empirycznych i niewiarygodnej i/lub nie wyczerpującej oceny rozpatrywanej zmienności. Literatura ALEMAYEHU N., BECKER H. 2002. Genotypic diversity and patterns of variation in a germplasm material of Ethiopian mustard (Brassica carinata A. Braun). Genet. Res. Crop Evol. 49: 573-582. ANNICCHIARICO P. 2002. Genotype x Environment Interactions - Challenges and Opportunities for Plant Breeding and Cultivar Recommendations. FAO Plant Production and Protection Paper - 174, Rome: 115 ss.
36 W. Mądry ANNICCHIARICO P., PECETTI L., BOGGINI G., DOUST M.A. 2000. Repeatability of large-scale germplasm evaluation results in durum wheat. Crop Sci. 40: 1810-1814. ARIYO O.J. 1993. Genetic diversity in West African okra (Abelmoschus caillei) (A. Chev.) Stevels - Multivariate analysis of morphological and agronomic characteristics. Genetic Resources and Crop Evolution 40: 25-32. ASSEFA K., KETEMA S., TEFERA H., NGUYEN H., BLUM A., AYELE M., BAI G., SIMANE B., KEFYALEW T. 1999. Diversity among germplasm lines of the Ethiopian cereal tef [Eragrostis tef (Zucc.) Trotter]. Euphytica 106: 87-97. ASSEFA K., SEYFU K., TEFERA H., KEFYALEW T., CHUNDERA F. 2000. Trait diversity, heritability and genetic advance in selected germplasm lines of tef [Emgmstis tef (Zucc.)Trotter]. Hereditas 133: 29-37. ASSEFA K., TEFERA H., ARNULF M., KEFYALEW T., HUNDERA F. 2001a. Quantitative trait diversity in tef [Eragrostis tef (Zucc.) Trotter] germplasm from Central and Northern Ethiopia. Genetic Resources and Crop Evolution 48: 53-61. ASSEFA K., TEFERA H., ARNULF M., KEFYALEW T., HUNDERA F. 2001b. Variability, heritability and genetic advance in pheno-morphic and agronomic traits of tef [Eragrostis Tef (Zucc.) Trotter] germplasm from eight regions of Ethiopia. Hereditas 134: 103-113. ASSEFA K., MERKER A., TEFERA H. 2003. Multivariate analysis of diversity of tef (Eragrostis tef (Zucc.) Trotter) germplasm from western and southern Ethiopia. Hereditas 138: 228-236. AYANA A., BEKELE E. 1999. Multivariate analysis of morphological variation in sorghum (Sorghum bicolor (L.) Moench) germplasm from Ethiopia and Eritrea. Genet. Res. Crop Evol. 46: 273-284. BEKELE F.L., BEKELE I., BUTLER D.R., BIDAISEE G.G. 2006. Patterns of morphological variation in a sample of cacao (Theobroma Cacao L.) germplasm from the International Cocoa Genebank, Trinidad. Genet. Res. Crop Evol. 53: 933-948. BERDAHL J.D., MAYLAND H.F., ASAY K.H., JEFFERSON P.G. 1999. Variation in agronomic and morphological traits among Russian wildrye accessions. Crop Sci. 39: 1890-1895. BERTERO H.D., DE LA VEGA A.J., CORREA G., JACOBSEN S.E., MUJICA A. 2004. Genotype and genotype-by-environment interaction effects for grain yield and grain size of quinoa (Chenopodium quinoa Willd.) as revealed by pattern analysis of international multienvironment trials. Field Crops Research 89: 299-318. BOLAŃOS-AGUILAR E.-D., HUYGHE C., ECALLE C., HACQUET J., JULIER B. 2002. Effect of cultivar and environment on seed yield in alfalfa. Crop Sci. 42: 45-50. CALIŃSKI T., HARABASZ J. 1974. A dendrite method for cluster analysis. Comm. Stat. 3: 1-27. CAMUSSI A., OTTAVIANO E., CALIŃSKI T., KACZMAREK Z. 1985. Genetic distances based on quantitative traits. Genetics 111: 945-962. CARDI T. 1998. Multivariate analysis of variation among Solanum commersonii (+) S. tuberosum somatic hybrids with different ploidy levels. Euphytica 99: 35-41. CASLER M.D., VAN SANTEN E. 2000. Patterns of variation in a collection of meadow fescue
METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ... 37 accessions. Crop Sci. 40: 248-255. CLEMENTS J.C., COWLING W.A. 1994. Patterns of morphological diversity in relation to geographical origins of wild Lupinus angustifolius from Aegean region. Genetic Resources and Crop Evolution 41: 109-122. COOPER M., STUCKER R.E., DE LACY I.H., HARCH B.D. 1997. Wheat breeding nurseries, target environments, and indirect selection for grain yield. Theoret. Appl. Gen. 37: 1168-1176. COOPER M., WOODRUFF D.R., PHILLIPS I.G., BASFORD K.E., GILMOUR A.R. 2001. Genotype-bymanagement interactions for grain yield and grain protein concentration of wheat. Field Crops Research 69: 47-67. CROSSA J., BELLON M.R., FRANCO J. 2002. Quantitative method for classifying farmers using socioeconomic variables, w: Quantitative analysis of data from participatory methods in plant breeding. Bellon M.R., Reeves J. (Eds), CIMMYT, Mexico: 113-127. CROSSA J., FRANCO J. 2004. Statistical methods for classifying genotypes. Euphytica 137: 19-37. DE GIORGIO D., POLIGNANO G.B. 2001. Evaluating the biodiversity of almond cultivars from a germplasm collection field in southern Italy, w: Sustaining the global farm. Scott D.E., Mohtar R.H. (Eds), Steinhardt G.C. Purdue University: 305-311. DE LA VEGA A.J., DELACY I.H., CHAPMAN S.C. 2007. Changes in agronomic traits of sunflower hybrids over 20 years of breeding in central Argentina. Field Crops Research 100: 73-81. DELACY I.H., BASFORD K.E., COOPER M., FOX P.N. 1996a. Retrospective analysis of historical data sets from multi-environment trials-theoretical development, w: Plant adaptation and crop improvement. Cooper M., Hammer G.L (Eds), CAB International, Wallingford, UK: 243-267. DELACY I.H., BASFORD K.E., COOPER M., BULL J.K, MCLAREN C.G. 1996b. Analysis of multienvironment trials - an historical perspective, w: Plant adaptation and crop improvement. Cooper M., Hammer G.L (Eds), CAB International, Wallingford, UK: 39-123. DELACY I.H., SKOVMAND B., HUERTA J. 2000. Characterization of Mexican wheat landraces using agronomically useful attributes. Genetic Resources and Crop Evolution 47: 591-602. DE RON A.M., CASQUERO P.A., GONZÁLEZ A.M., SANTALLA M. 2004. Environmental and genotypic effects on pod characteristics related to common bean quality. J. Agron. Crop Sci. 190: 248-255. DUDLEY J.W., MOLL R.H. 1969. Interpretation and use of estimates of heritability and genetic variances in plant breeding. Crop. Sci. 9: 257-262. EVENSON R.E., GOLLIN D., SANTANIELLO V. 1998. Agricultural values of plant genetic resources. CABI Publishing, Wallinglord, UK: 285 ss. FALCONER D.S., MACKAY T.F.C. 1996. Introduction to quantitative genetics. 4th. ed. Longman, Essex, England: 284 ss. FLORES F., GUTIERREZ J.C., LOPEZ J., MORENO M.T., CUBERTO J.I. 1997. Multivariate analysis approach to evaluate a germplasm collection of Hedysarum coronarium L. Genetic