METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ DLA CECH ILOŚCIOWYCH W KOLEKCJACH ROŚLINNYCH ZASOBÓW GENOWYCH
|
|
- Kajetan Mucha
- 6 lat temu
- Przeglądów:
Transkrypt
1 ZESZYTY PROBLEMOWE POSTĘPÓW NAUK ROLNICZYCH 2007 z. 517: METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ DLA CECH ILOŚCIOWYCH W KOLEKCJACH ROŚLINNYCH ZASOBÓW GENOWYCH Wiesław Mądry Katedra Biometrii, Szkoła Główna Gospodarstwa Wiejskiego w Warszawie 1. Wstęp Na skutek dąŝenia do duŝej specjalizacji odmian, ostatnie 30 lat hodowli doprowadziło jednocześnie do poprawy produktywności roślin uprawnych oraz zuboŝenia (erozji) ich róŝnorodności genetycznej i fenotypowej [PROSPERI i in. 2006]. Taki stan jest niebezpieczny dla zapewnienia zrównowaŝonego funkcjonowania i rozwoju rolnictwa oraz całej gospodarki w skali lokalnej i globalnej. Uznaje się, Ŝe działania na rzecz zachowania istniejącego obecnie bogactwa genetycznego w przyrodzie i rolnictwie naleŝy do największych zadań dzisiejszej nauki. Najlepszym sposobem ochrony i zachowania dla przyszłości tej róŝnorodności biologicznej w obrębie gatunków roślin uprawnych, która jeszcze istnieje na Ziemi, jest efektywne gromadzenie zasobów genetycznych w postaci kolekcji, nazywanych teŝ bankami genów [FRANKEL i in. 1995; EVENSON i in. 1998; DELACY i in. 2000; GUTIÉRREZ i in. 2003; MOHAMMADI, PRASANNA 2003; ŽÁKOVÁ, BENKOVÁ 2006]. Na świecie powstało dotychczas, i wciąŝ powstaje, wiele krajowych i międzynarodowych kolekcji zasobów genowych w obrębie róŝnych gatunków roślin uprawnych i spokrewnionych z nimi. Obiekty (ang. accessions) gromadzone w kolekcjach zasobów genowych roślin uprawnych mogą być liniami wsobnymi, mutantami, klonami, populacjami roślin obcopylnych, odmianami miejscowymi lub ekotypami jednego gatunku lub wielu gatunków spokrewnionych [PECETTI i in. 1992; CLEMENTS, COWLING 1994; EVENSON i in. 1998; ASSEFA i in. 1999, 2000, 2001a, 2001b, 2003; BERDAHL i in. 1999; REBOURG i in. 2001; MASSA i in. 2004; UPADHYAYA i in. 2005; BEKELE i in. 2006]. Zwykle takie obiekty pochodzą z róŝnych krajów i rejonów. RóŜnorodność biologiczna (bioróŝnorodność) obiektów pod względem jakościowych i ilościowych cech fenotypowych w kolekcji roślinnych zasobów genowych jest nazywana róŝnorodnością lub zmiennością fenotypową [JARADAT 1991; PECETTI i in. 1992; FLORES i in. 1997; HARCH i in. 1997; JAHUFER i in. 1997; ASSEFA i in. 1999, 2000, 2001a, 2001b, 2003; AYANA, BEKELE 1999; CASLER, VAN SANTEN 2000, DELACY i in. 2000; ALEMAYEHU, BECKER 2002; MOHAMMADI, PRASANNA 2003; ZIZUMBO-VILLARREAL i in. 2005; BEKELE i in. 2006;
2 22 W. Mądry PROSPERI i in. 2006], dla odróŝnienia jej od róŝnorodności (zmienności) genetycznej określonej na podstawie markerów DNA [EVENSON i in. 1998; FRANCO i in. 2001; REBOURG i in. 2001; MOHAMADI, PRASANNA 2003; ROTONDI i in. 2003]. W języku naukowym i zawodowym pojęcia róŝnorodność genetyczna lub fenotypowa i zmienność genetyczna lub fenotypowa są zwykle uŝywane wymiennie. Oceny róŝnorodności fenotypowej oraz genetycznej (na podstawie markerów DNA) obiektów w kolekcjach stanowią komplementarne składniki charakterystyki ich bioróŝnorodności. Są one niezbędne głównie do 1) efektywnego gromadzenia obiektów, które wymaga identyfikacji obiektów nadmiernych w celu tworzenia kolekcji podstawowych, czyli reprezentatywnych (ang. core collection), 2) redukcji kosztów utrzymania kolekcji, 3) ich efektywnego wykorzystania w podstawowych i stosowanych badaniach genetycznych oraz hodowli twórczej [MĄDRY 1993; FRANKEL i in. 1995; JAHUFER i in. 1997; ORTIZ i in. 1998; ASSEFA i in. 1999, 2001a, 2003; DELACY i in. 2000; FRANCO i in. 2001; REBOURG i in. 2001; MOHA- MMADI, PRASANNA 2003; CROSSA, FRANCO 2004; LI i in. 2004; UPADHYAYA i in. 2005; BEKELE i in. 2006; PROSPERI i in. 2006; XU i in. 2006]. Znaczenie oceny bioróŝnorodności w kolekcjach zasobów genowych roślin stale rośnie w miarę zwiększania liczebności obiektów. RóŜnorodność fenotypowa w kolekcji roślinnych zasobów genowych jest oceniana głównie dla waŝnych cech ilościowych ciągłych lub skokowych quasi ciągłych (z licznym, chociaŝ skończonym, zbiorem przyjmowanych wartości). Do takich cech naleŝy plon rolniczy na roślinie lub jednostce powierzchni i związane z nim plonotwórcze cechy morfologiczne, fizjologiczne i fenologiczne oraz inne cechy rolnicze, określające adaptację roślin do róŝnych warunków środowiskowych, zwłaszcza ich odporność na choroby i szkodniki roślin oraz stresy środowiskowe, czyli suszę i inne ekstremalne warunki pogodowe [JARADAT 1991; PECETTI i in. 1992; MĄDRY 1993; JAHUFER i in. 1997; ASSEFA i in. 1999, 2001a, 2001b, 2003; CASLER, VAN SANTEN 2000; ROJAS i in. 2000; SCHLÖSSER i in. 2000; DE GIORGIO, POLIGNANO 2001; FRANCO i in. 2001; VAYLAY, VAN SANTEN 2002; GUTIÉRREZ i in. 2003; KUBICKA i in. 2004; NAGHAVI, JAHANSOUZ 2005; NOFFSINGER, VAN SANTEN 2005; UPADHYAYA i in. 2005, 2007; PROSPERI i in. 2006; UKALSKA i in. 2006]. Właściwa ocena zróŝnicowania fenotypowego obiektów w kolekcji zasobów genowych, przydatna do realizacji wymienionych wyŝej celów, powinna być oparta na efektach (wartościach) genotypowych obiektów (patrz rozdział 2, modele 2, 3 i 4) dla rozpatrywanych cech ilościowych. Tak określoną zmienność fenotypową obiektów nazywa się zmiennością genotypową albo genetyczną dla badanych cech ilościowych [Dudley, Moll 1969; ROJAS i in. 2000; ALEMAYEHU, BECKER 2002; VAYLAY, VAN SANTEN 2002; JARADAT i in. 2003; MOHAMMADI, PRASANNA 2003; DE RON i in. 2004; KUBICKA i in. 2004; SIECZKO i in. 2004; YEATER i in. 2004]. Do badania róŝnorodności fenotypowej dla cech ilościowych w roślinnych bankach genów, z uwzględnieniem zmienności genotypowej tych cech, potrzebne są dane empiryczne z obserwacji wielu roślin w obrębie obiektów w jednym lub wielu latach (dotyczy to głównie kolekcji in situ) albo z doświadczeń polowych, wykonanych w jednym środowisku (miejscowości, roku) lub w serii doświadczeń w wielu środowiskach (latach, miejscowościach lub kombinacjach miejscowości i lat badań) dla kolekcji ex situ
3 METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ [ASSEFA i in. 1999, 2000, 2001a, 2001b; 2003; ANNICCHIARICO i in. 2000; CASLER, VAN SANTEN 2000; DELACY i in. 2000; REBOURG i in. 2001; ALEMAYEHU, BECKER 2002; DE RON i in. 2004; LI i in. 2004; UPADHYAYA i in. 2005; ZIZUMBO-VILLARREAL i in. 2005; XU i in. 2006; ŽÁKOVÁ, BENKOVÁ 2006]. Ze względu na wymogi wnioskowania statystycznego, doświadczenia polowe wykonywane tylko w jednym środowisku powinny być planowane w układzie całkowicie losowym, losowanych bloków, bloków niekompletnych lub układzie wzorcowym. Jeśli badacz decyduje się na serię doświadczeń, to doświadczenia pojedyncze w kaŝdym środowisku mogą być zakładane w jednym powtórzeniu. Taka metodyka jest stosowana w ocenie zmienności fenotypowej w polskich kolekcjach roślinnych zasobów genowych [MĄDRY 1993; KUBICKA i in. 2004; SIECZKO i in. 2004; UKALSKA i in. 2007a, 2007b] oraz w kolekcjach zagranicznych [HARTUNG, PIEPHO 2005; HOOKS i in. 2006]. Zakłada się, Ŝe badania nad ilościową róŝnorodnością fenotypową w kolekcji roślinnych zasobów genowych dla jednego gatunku powinny prowadzić do 1) oceny zmienności obiektów ze względu na róŝne cechy oraz ich uwarunkowanie genetyczne i środowiskowe, 2) wielocechowej klasyfikacji obiektów oraz 3) oceny zróŝnicowania (relacji) między obiektami i wydzielonymi grupami obiektów. W tych badaniach stosuje się statystyczne metody jednocechowe (jednowymiarowe) i wieleocechowe (wielowymiarowe). Pozwalają one na komplementarne i wieloaspektowe wnioskowanie, dlatego więc są często stosowane jednocześnie w pracach nad oceną zmienności w kolekcjach genowych roślin [PECETTI i in. 1992; MĄDRY 1993; FLORES i in. 1997; CASLER, VAN SANTEN 2000; ASSEFA i in. 2001b; REBOURG i in. 2001; ALEMAYEHU, BECKER 2002; DE RON i in. 2004; SIECZKO i in. 2004; NAGHAVI, JAHANSOUZ 2005; UPADHYAYA i in. 2005; BEKELE i in. 2006; UKALSKA i in. 2007a, 2007b]. Celem tej pracy jest krótka charakterystyka najwaŝniejszych jedno- i wielocechowych metod statystycznych, stosowanych do wiarygodnej i wyczerpującej oceny róŝnorodności fenotypowej obiektów w kolekcjach zasobów genowych roślin uprawnych pod względem cech ilościowych ciągłych i podobnych do nich oraz dyskusja nad dorobkiem metodycznym w zakresie wyboru, stosowania i oceny przydatności tych narzędzi, uwzględniając takŝe pakiet komputerowy SAS [LITTELL 2006; KHATTREE, NAIK 2000; SAS/STAT 2002]. Modele analizy wariancji 2. Jednocechowa analiza róŝnorodności Wartość fenotypową osobnika dla cechy ilościowej ciągłej lub quasi-ciągłej, P, w róŝnorodnych warunkach środowiskowych, traktuje się jako rezultat ekspresji jego genotypu oraz działania wszechstronnie pojętych warunków środowiskowych. Przedstawia się ją matematycznie za pomocą sumy wartości genotypowej osobnika, G, i efektu środowiskowego, E, przyjmując następujący model matematyczny [DUDLEY, MOLL 1969; FALCONER, MACKAY 1996; MUSZYŃSKI i in. 2000]: P = G + E (1)
4 24 W. Mądry Model ten jest inspiracją do tworzenia liniowych modeli statystycznych (modeli analizy wariancji, ANOVA) dla danych z obserwacji wymienionych cech na obiektach kolekcji zasobów genowych roślin, badanych w odpowiednich doświadczeniach (ex situ) lub w warunkach występowania (in situ). Przedstawimy podejścia statystyczne do jednocechowej analizy zmienności obiektów w kolekcjach roślinnych zasobów genowych na podstawie danych z trzech rodzajów doświadczeń planowanych lub obserwacji poza doświadczalnej. Skupimy się na modelach analizy wariancji dla tych przypadków i metodach estymacji komponentów wariancyjnych. Zakładamy, Ŝe badane obiekty w kolekcji są próbą reprezentatywną (losową) wybraną z potencjalnie nieskończenie licznej populacji obiektów genetycznych danego gatunku roślin, przydatnych w danej szerokości geograficznej. Takie załoŝenie przyjmuje się zwykle w badaniach ilościowej róŝnorodności fenotypowej w kolekcjach zasobów genowych roślin [JAHUFER i in. 1997; HARTUNG, PIEPHO 2005; HOOKS i in. 2006]. Model analizy wariancji dla danych z doświadczenia pojedynczego (w jednym środowisku) w układzie całkowicie losowym lub z obserwacji obiektów in situ na jednostkach (zwykle roślinach), ma postać [DELACY i in. 1996b; MUSZYŃSKI i in. 2000; LI i in. 2004]: x ik = m + g i + _ ik (2) gdzie: x ik jest obserwacją cechy ilościowej dla i-tego obiektu (i=1,...,i) na k-tej (k=1,...,n i ) jednostce (roślinie, poletku), m jest średnią ogólną, g i jest efektem genotypowym i-tego obiektu, m+g i =G i jest wartością genotypową i-tego obiektu, _ ik jest resztą, czyli błędem losowym (efektem środowiskowym, gdy obiekty w kolekcji są liniami czystymi lub klonami lub efektem środowiskowym połączonym z efektem genetycznym, gdy obiekty są zbiorowością róŝnych genotypów) na k-tej jednostce doświadczalnej. Jeśli doświadczenie pojedyncze jest załoŝone w układzie blokowym (losowanych bloków lub bloków niekompletnych), to model analizy wariancji dla danych ma postać: x ik = m + g i + r k + _ ik (3) gdzie: r k jest efektem k-tego (k=1,..., K) bloku, pozostałe parametry są zdefiniowane tak, jak w modelu (2). Przyjęto, Ŝe badane obiekty w kolekcji są próbą reprezentatywną z licznej populacji zasobów genowych gatunku, zatem modele (2) i (3) są losowe, tzn. wszystkie parametry, oprócz średniej m są zmiennymi losowymi o niezaleŝnych rozkładach normalnych ze średnimi równymi zero i jednakowymi wariancjami. ZałoŜenia te zapiszemy następująco [SEARLE 1987; DELACY i in. 1996b; LI i in. 2004]: g i ~ N(0, σ), r k ~ N(0, σ), _ ik ~ N(0, σ). Symbole σ, σ, σ oznaczają odpowiednio wariancję genotypową, wariancję blokową i wariancję reszt (błędu). Dla danych z serii doświadczeń z obiektami reprezentatywnymi dla licznej
5 METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ populacji obiektów genetycznych gatunku, ocenianych w układzie blokowym, w której środowiska (lata, miejscowości lub kombinacji miejscowości w roku) są reprezentatywne dla rozwaŝanej populacji takich środowisk, losowy model analizy wariancji ma postać [DELACY i in. 1996b; COOPER i in. 1997; ASSEFA i in. 2000, 2001b; REBOURG i in. 2001; ALEMAYEHU, BECKER 2002; BOLAŃOS AGUILAR i in. 2002; HOLLAND, CERVANTES-MARTINEZ 2003; XU i in. 2006; ŽÁKOVÁ, BENKOVÁ 2006]: x ijk = m + e j + r(e) jk + g i + ge ij + _ ijk (4) gdzie: x ijk jest obserwacją cechy ilościowej dla i-tego obiektu (i=1,...,i) w j- tym środowisku (j=1,...,j) na k-tej (k=1,...,n) jednostce (poletku), m jest średnią ogólną, e j jest efektem głównym j-tego środowiska, r(e) jk jest efektem k-tego bloku w j-tym środowisku, g i jest głównym efektem genotypowym i-tego obiektu, m+g i =G i jest wartością genotypową i-tego obiektu, ge ij jest efektem interakcji i-tego genotypu z j-tym środowiskiem, _ ijk jest błędem doświadczalnym, związanym z i-tym obiektem, j-tym środowiskiem oraz k-tą jednostką. Zakładamy, Ŝe wszystkie parametry modelu (4), oprócz średniej m, są zmiennymi losowymi o niezaleŝnych rozkładach normalnych ze średnimi równymi zero i jednakowymi wariancjami, czyli [DELACY i in. 1996b; COOPER i in. 1997; XU i in. 2006]: e j ~ N(0, σ), r(e) jk ~ N(0, σ), g i ~ N(0, σ), ge ij ~ N(0, σ), _ iik ~ N(0, σ). Symbole σ, σ, σ, σ, σ oznaczają odpowiednio wariancję środowiskową, wariancję blokową, wariancję genotypową, wariancję interakcyjną i wariancję reszt (błędu). Wariancje róŝnych efektów w modelach (2)-(4), nazywane komponentami wariancyjnymi. JeŜeli w serii doświadczeń, obiekty są oceniane w jednym powtórzeniu w kaŝdym środowisku, to właściwym modelem danych jest model (3), stosowany przez MĄDREGO [1993], KUBICKĄ i in. [2004], SIECZKĘ i in. [2004], HARTUNG i PIEPHO [2005] oraz UKALSKĄ i in. [2006, 2007a, 2007b]. Estymacja komponentów wariancyjnych Jednocechowa analiza zmienności obiektów w kolekcji polega na estymacji niektórych z wymienionych komponentów wariancyjnych na podstawie danych empirycznych i sprawdzaniu ich istotności. W modelach (2) i (3) estymuje się wariancję genotypową oraz wariancję błędu, zaś na podstawie modelu (4), wariancję genotypową, wariancję interakcyjną oraz wariancję błędu. Estymacja tych komponentów wariancyjnych moŝe być wykonana za pomocą metody analizy wariancji, która daje estymatory optymalne na podstawie danych zrównowaŝonych, czyli z jednakową liczbą obserwacji w kaŝdej podklasie zgodnie z przyjętymi modelami [SEARLE 1987; SEARLE i in. 1992; MUSZYŃSKI i in. 2000]. W takich przypadkach moŝna zastosować proste algorytmy, podawane w podręcznikach doświadczalnictwa i biometrii [SEARLE 1987; SEARLE i in. 1992; MUSZYŃSKI i in. 2000]. Polecane są takŝe dwie procedury pakietu SAS, tj. VARCOMP lub MIXED [SAS/STAT 2002; HOLLAND, CERVANTES-
6 26 W. Mądry MARTINEZ 2003]. Algorytmy estymatorów ANOVA dla komponentów wariancyjnych w modelu (4) na podstawie danych zrównowaŝonych są podane przez ANNICCHIARICO [2002] w jego w podręczniku w rozdziale 4. JeŜeli jednak dane są niezrównowaŝone, czyli niekompletne, co zdarza się często w badaniach kolekcji zasobów genowych, to optymalna estymacja rozwaŝanych komponentów wariancyjnych we wszystkich podanych modelach moŝe być wykonana za pomocą metody największej wiarygodności z restrykcją, nazywanej w skrócie metodą REML, która jest bardzo efektywna i elastyczna [SEARLE 1987; SEARLE i in. 1992; HOLLAND, CERVANTES- MARTINEZ 2003; LITTELL i in. 2006]. Jest ona dostępna numerycznie w procedurze MIXED pakietu SAS [SAS/STAT 2002; HOLLAND, CERVANTES-MARTINEZ 2003; LITTELL i in. 2006]. W modelu (4) z tej procedury korzystali XU i in. [2006] dla danych zrównowaŝonych, zaś COOPER i in. [1997] dla danych niezrównowaŝonych. Z metody REML i procedury MIXED do estymacji komponentów wariancyjnych w innych modelach dla oceny zmienności zasobów genowych roślin, na podstawie danych niezrównowaŝonych, korzystali JAHUFER i in. [1997]; COOPER i in. [2001]; BERTERO i in. [2004]; UKALSKA i in. [2006; 2007b] oraz DE LA VEGA i in. [2007]. Estymacja komponentów wariancyjnych metodą REML w róŝnych modelach, na podstawie niezrównowaŝonych danych z serii doświadczeń genetycznych, moŝe być ułatwiona za pomocą podejścia dwustopniowego [PIEPHO, MÖHRING 2005; MĄDRY i in. 2006]. Odziedziczalność w wąskim sensie (powtarzalność) średnich fenotypowych obiektów Na podstawie ocen wymienionych komponentów wariancyjnych wyznacza się wskaźniki odziedziczalności w wąskim sensie lub powtarzalności średnich fenotypowych dla genotypów, h. Wskaźnik odziedziczalności w wąskim sensie, h 2, dla średnich fenotypowych obiektów (średnich obiektowych), ocenianych w jednym środowisku, ma postać [[DUDLEY, MOLL 1969; DELACY i in. 1996b; MUSZYŃSKI i in. 2000; HOLLAND, CERVANTES-MARTINEZ 2003]: h 2 1 ˆ σ 2 g 2 g 2 ˆ σ ε = (5) ˆ σ + n Natomiast wskaźnik h dla średnich obiektowych, ocenianych w serii doświadczeń w J środowiskach i w n powtórzeniach, ma postać [DELACY i in. 1996b; COOPER i in. 1997; HENNINGER i in. 2000; REBOURG i in. 2001; ALEMAYEHU, BECKER 2002; BOLAŃOS-AGUILAR i in. 2002; HOLLAND, CERVANTES-MARTINEZ 2003; UPADHYAYA i in. 2005]:
7 METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ h 2 2 ˆ σ 2 g ˆ σ ˆ σ + J 2 g = (6) 2 ge 2 ˆ σ + ε nj gdzie,, (2)-(4). są ocenami komponentów wariancyjnych w modelach Wskaźniki odziedziczalności w wąskim sensie (5) i (6) są ocenami współczynnika regresji liniowej nieobserwowalnej wartości genotypowych obiektów od ich obserwowalnych średnich fenotypowych w obrębie danej puli genowej (tutaj kolekcji zasobów genowych) i populacji środowisk. Zatem stanowią one miary zgodności średnich fenotypowych i wartości genotypowych w danej populacji genetycznej i środowiskowej [DELACY i in. 1996b; MUSZYŃSKI i in. 2000; HOLLAND, CERVANTES-MARTINEZ 2003]. Wskaźnik powtarzalności średnich obiektowych (6) jest takŝe interpretowany jako miara szansy stwierdzenia tej samej róŝnicy średnich fenotypowych między obiektami w innych seriach doświadczeń lub w masowej praktyce rolniczej [COOPER i in. 2001]. Zatem, im większa wartość wskaźnika powtarzalności (5) lub (6), tym średnie fenotypowe obiektów są bliŝsze ich wartościom genotypowym, określającym prawdziwe efekty genotypowe obiektów dla danej cechy. W analizie danych według modeli losowych (2)-(4) waŝna jest takŝe estymacja losowych efektów genotypowych, g i,, lub wartości genotypowych, G i, obiektów dla kaŝdej cechy. Estymatory tych parametrów są wykorzystywane w wielocechowych analizach róŝnorodności genotypowej obiektów. Na podstawie danych zrównowaŝonych, parametry te moŝna oceniać optymalnie za pomocą średnich arytmetycznych z powtórzeń lub z powtórzeń i środowisk, czyli wspominanych wyŝej średnich fenotypowych dla obiektów. Prawie optymalnymi estymatorami tych parametrów (asymptotycznie nieobciąŝonymi i najefektywniejszymi) dla danych niezrównowaŝonych są najlepsze nieobciąŝone liniowe predyktory (ang. the best linear unbiased predictor), nazywane w skrócie BLUP [SEARLE 1987; ROBINSON 1991; SEARLE i in. 1992; HARTUNG, PIEPHO 2005; HOOKS i in. 2006; LITTELL i in. 2006; DE LA VEGA i in. 2007]. Estymatory typu BLUP dla efektów losowych (tutaj efektów genotypowych) w róŝnych modelach losowych i mieszanych moŝna obliczać za pomocą metody REML, korzystając z procedury MIXED pakietu SAS, która jest szczególnie efektywna i polecana dla modeli (3) i (4). Im większa wartość wskaźnika powtarzalności (5) lub (6) dla danej cechy, tym estymatory BLUP są dokładniejszą oceną wartości genotypowych porównywanych obiektów. 3. Wielocechowa analiza róŝnorodności ChociaŜ metody jednocechowe, opisane w poprzednim rozdziale, są pomocne w ocenie róŝnorodności fenotypowej (genotypowej) obiektów w kolekcji zasobów genowych, to jednak mają one znaczne wady, poniewaŝ nie pozwalają ocenić efektywnie i przejrzyście zróŝnicowania obiektów pod względem jednocześnie wielu, z natury
8 28 W. Mądry wzajemnie skorelowanych, cech [CAMUSSI i in. 1985; MĄDRY 1993; JAHUFER i in. 1997]. Dlatego teŝ statystyczne metody wielocechowe, które pozwalają analizować róŝnorodność obiektów pod względem jednocześnie wielu cech, są powszechnie stosowane w ocenie róŝnorodności fenotypowej i molekularnej w kolekcjach roślinnych zasobów genowych [SNEATH, SOKAL 1973; MĄDRY 1993; MOHAMMADI, PRASANNA 2003; CROSSA, FRANCO 2004]. Dostarczają one takich informacji i wiedzy o relacjach fenotypowych i molekularnych obiektów, które nie są dostępne i nie mieszczą się w wyobraźni badacza, stosującego tylko metody jednocechowe. Zwykle badacze róŝnorodności fenotypowej w kolekcji zasobów genowych stosują jednocześnie zarówno wielocechowe metody klasyfikacji, czyli grupowania obiektów (ang. clustering methods), jak i metody analizy zróŝnicowania (relacji) obiektów (ang. ordination methods). W ten sposób uzyskuje się komplementarną ocenę róŝnorodności fenotypowej w kolekcji, obejmującą zarówno podział obiektów (klasyfikację) na grupy homogeniczne, czyli wewnętrznie podobne pod względem jednocześnie wszystkich badanych cech, jak i globalną syntezę wielocechowej zmienności obiektów oraz czytelną ilustrację relacji wielocechowych (zróŝnicowania) między badanymi obiektami i wydzielonymi grupami tych obiektów [LEE, KALTSIKES 1973; SNEATH, SOKAL 1973; WILLIAMS 1976; JARADAT 1991; CLEMENTS, COWLING 1994; FLORES i in. 1997; HARCH i in. 1997; JAHUFER i in. 1997; BERDAHL i in. 1999; CASLER, VAN SANTEN 2000; ROJAS i in. 2000; ASSEFA i in. 1999; 2001a; 2003; DELACY i in. 2000; JARADAT i in. 2003; MOHAMMADI, PRASANNA 2003; NAGHAVI, JAHANSOUZ 2005; PROSPERI i in. 2006]. Takie dwustopniowe podejście do wielocechowej oceny zmienności obiektów zostało nazwane w języku angielskim pattern analysis, które dotychczas nie ma odpowiednika polskiego. W następnych rozdziałach przedstawimy metody klasyfikacji obiektów oraz metody zróŝnicowania (relacji) obiektów i wydzielonych grup Grupowanie (klasyfikacja) obiektów za pomocą analizy skupień Analiza skupień stanowi grupę metod wielocechowych, których zadaniem jest grupować obiekty na podstawie wielu atrybutów (zmiennych, cech) w taki sposób, aby obiekty z odpowiednio podobnymi wartościami tych atrybutów znalazły się w poszczególnych grupach, zwanych skupieniami (ang. clusters) [SNEATH, SOKAL 1973; MARDIA i in. 1979; SEBER 1984, 2004; KRZANOWSKI 1988; JOHNSON, WICHERN 2002; CROSSA, FRANCO 2004]. Zatem wydzielone grupy obiektów powinny odznaczać się duŝą wewnętrzną jednorodnością, zaś duŝym zróŝnicowaniem między sobą. Zatem na odpowiednim wykresie geometrycznym dwu- lub trójwymiarowym, obiekty (punkty dla obiektów) w grupach powinny być połoŝone blisko siebie, zaś obiekty z róŝnych grup powinny znajdować się stosunkowo daleko od siebie. W klasyfikacji materiałów hodowlanych, w tym takŝe obiektów w kolekcji roślinnych zasobów genowych, opartej na cechach fenotypowych (ilościowych i jakościowych) stosuje się metody analizy skupień, wykorzystujące róŝne odległości między obiektami, tzn. między średnimi arytmetycznymi lub ocenami typu BLUP dla poszczególnych cech obiektów [MĄDRY 1993; JAHUFER i in. 1997; FRANCO i in. 2001; MOHAMMADI, PRASANNA 2003; CROSSA, FRANCO 2004; LI i in. 2004; DE LA VEGA i in. 2007]. Dla cech ilościowych ciągłych, quasi-ciągłych (skokowych z duŝą
9 METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ liczbą wartości) lub skokowych, pochodzących z bonitacji cech ciągłych stosuje się przewaŝnie odległość euklidesową lub kwadrat odległości euklidesowej na standaryzowanych danych (średnich lub ocenach typu BLUP) dla róŝnych cech za pomocą transformacji Z [BERDAHL i in. 1999; FRANCO i in. 2001; MOHAMADI, PRASANNA 2003; HOOKS I IN. 2006; PROSPERI i in. 2006; ŽÁKOVÁ, BENKOVÁ 2006; DE LA VEGA i in. 2007; UPADHYAYA i in. 2007]. Niektórzy autorzy [CLEMENTS, COWLING 1994; BEKELE i in. 2006] stosują standaryzację kaŝdej cechy opartą na rozstępie danych dla obiektów, zamiast odchylenia standardowego. PoniewaŜ rozstęp jest parametrem statystycznym wraŝliwym na obserwacje odstające, nie powinno się go stosować do standaryzacji cech w badaniach wielocechowej zmienności obiektów biologicznych. Warto podkreślić, Ŝe odległość euklidesową lub kwadrat odległości euklidesowej stosuje się wówczas, gdy zmienność wielocechowa (relacje) obiektów jest oceniana za pomocą analizy składowych głównych, jako metody komplementarnej w stosunku do metod analizy skupień. Uzasadnienie stosowania standaryzacji Z przy stosowaniu wymienionych dwóch odległości między obiektami jest następująca. Cechy roślin, obserwowane przy ocenie zmienności obiektów w kolekcji zasobów genowych, są mierzone w róŝnych skalach. Aby usunąć efekt skali obserwowanych cech, polegający na nie w pełni symptomatycznym (miarodajnym) zróŝnicowaniu między-obiektowej wariancji tych cech, nie odzwierciedlającym ich rzeczywistej i porównywalnej zmienności między-obiektowej dotyczy to równieŝ cech mierzonych w tej samej skali), wykonuje się standaryzację danych dla średnich arytmetycznych lub ocen typu BLUP, dotyczących poszczególnych cech obiektów. W ocenie zmienności zasobów genowych roślin najczęściej stosowana jest standaryzacja Z, wykorzystująca między-obiektowe odchylenie standardowe [SNEATH; SOKAL 1973; AYANA, BEKELE 1999; MOHAMMADI, PRASANNA 2003; CROSSA, FRANCO 2004; ŽÁKOVÁ, BENKOVÁ 2006; UPADHYAYA i in. 2007]. Standaryzacja Z polega na obliczeniu nowych danych dla obiektów, oznaczonych przez Z, poprzez odjęcie od wartości obiektowej (średniej lub oceny BLUP) dla danej cechy w skali oryginalnej, jej średniej z wszystkich obiektów i podzieleniu przez jej między-obiektowe odchylenie standardowe. Wartości obiektowe kaŝdej cechy standaryzowanej typu Z mają średnią zerową i jednostkowe odchylenie standardowe. Zatem, wagi i udziały wszystkich cech standaryzowanych w zmienności wielocechowej obiektów nie są zniekształcone przez zróŝnicowane wariancje, nie świadczące o porównywalnym natęŝeniu zmienności kaŝdej z cech. Przedstawione tutaj uwagi o standaryzacji Z są takŝe przydatne w rozdziale 3.2.1, dotyczącym analizy składowych głównych. Odległości euklidesowe mogą być oceniane takŝe na podstawie wartości kilku pierwszych składowych głównych, obliczonych dla obiektów, w celu zmniejszenia tzw. szumu, czyli losowego błędu oceny średnich obiektowych lub ich estymatorów typu BLUP [CASLER, VAN SANTEN 2000; PROSPERI i in. 2006; UPADHYAYA i in. 2007]. Drugą miarą wielocechowego zróŝnicowania obiektów, uŝywaną w klasyfikacji obiektów w kolekcji zasobów genowych roślin jest odległość Mahalanobisa na oryginalnych danych dla róŝnych cech [MARDIA i in. 1979; KRZANOWSKI 1988; MĄDRY 1993]. Odległość Mahalanobisa określa wielocechową róŝnicę między dwoma obiektami w postaci sumy kwadratów róŝnic średnich obiektowych (lub ocen wartości
10 30 W. Mądry genotypowych za pomocą BLUP) dla rozpatrywanych cech w jednostkach ich odchylenia standardowego błędu losowego (w modelu 2, 3 lub 4) albo efektów interakcyjnych (w modelu 4), z jednoczesnym uwzględnieniem kowariancji cech dla wymienionych reszt losowych. Zatem, w przeciwieństwie do odległości euklidesowej lub jej kwadratu, odległość Mahalanobisa uwzględnia naturalne wagi, określające znaczenie poszczególnych cech w zróŝnicowaniu wielocechowym obiektów. MoŜe być ona wyznaczana na podstawie danych z doświadczeń, w których ocenia się obiekty w wielu powtórzeniach w jednym środowisku, lub w wielu środowiskach. Ponadto bardzo poŝądane jest, aby takie dane były kompletne, czyli zrównowaŝone, a więc pochodziły z jednakowej liczby jednostek dla kaŝdego obiektu i kaŝdej cechy. Jest ona wybierana w takim podejściu metodycznym, w którym do oceny zróŝnicowania (zmienności) i relacji obiektów stosowana jest analiza zmiennych kanonicznych, zamiast analizy składowych głównych [LEE, KALTSIKES 1973; CAMUSSI i in. 1985; PECETTI i in. 1992; MĄDRY 1993; CARDI 1998; VAYLAY, VAN SANTEN 2002; MOHAMMADI, PRASANNA 2003; LI i in. 2004; MASSA i in. 2004; NOFFSINGER, VAN SANTEN 2005; XU i in. 2006]. Nie ma jednoznaczne ugruntowanego poglądu wśród biologów, zwłaszcza badaczy zmienności fenotypowej w kolekcjach roślinnych zasobów genowych, w odniesieniu do preferencji wymienionych rodzajów odległości, tj. euklidesowej i Mahalanobisa. Wiele zalet wskazuje za preferencją odległości Mahalanobisa, która w sposób bardziej umiarkowany odzwierciedla wielocechowe zróŝnicowanie obiektów dla cech w róŝnych skalach, unikając dość sztucznej skali zmiennej standaryzowanej Z, w której wszystkie badane cechy mają jednakową wariancję między-obiektową, równą jeden. Stosując odległość euklidesową w skali zmiennej Z dla wszystkich cech, traci się moŝliwość odzwierciedlenia znaczenia róŝnej faktycznie wariancji między-obiektowej poszczególnych cech w obrazie zróŝnicowania wielocechowego obiektów. Tej wady jest pozbawiona odległość Mahalanobisa. Niektórzy badacze zauwaŝają zdecydowanie, Ŝe odległość Mahalanobisa lepiej odzwierciedla zróŝnicowanie wielocechowe między obiektami w kolekcji zasobów genowych roślin, niŝ odległość euklidesowa lub jej kwadrat na cechach zarówno standaryzowanych (transformacja Z), jak i oryginalnych [MĄDRY 1993; MOHAMMADI, PRASANNA 2003; LI i in. 2004; XU i in. 2006]. Jednak prostota pojęciowa i proceduralna sprawia, Ŝe odległość euklidesowa lub jej kwadrat są znacznie częściej uŝywane do badań róŝnorodności fenotypowej w kolekcjach roślinnych zasobów genowych, niŝ odległość Mahalanobisa. Według sposobu grupowania obiektów wyróŝnia się metody hierarchiczne i niehierarchiczne [SNEATH, SOKAL 1973; MARDIA i in. 1979; SEBER 1984; KRZANOWSKI 1988; JOHNSON, WICHERN 2002; MOHAMMADI, PRASANNA 2003; CROSSA, FRANCO 2004]. Pierwsze z nich są najczęściej uŝywane w ocenie zmienności fenotypowej i molekularnej w kolekcjach zasobów genowych [MOHAMMADI, PRASANNA 2003; CROSSA, FRANCO 2004]. Polegają one na tworzeniu w kolejnych krokach aglomeracji, grup (skupień) coraz mniej wewnętrznie podobnych, zaś coraz bardziej zróŝnicowanych między sobą. Proces aglomeracji zaczyna się od tylu skupień, ile jest klasyfikowanych obiektów, a kończy na jednym skupieniu, zawierającym wszystkie badane obiekty. Grupy obiektów utworzone w poszczególnych krokach aglomeracji są przedstawiane w postaci graficznej, zwanej dendrogramem. W rozwaŝanych tutaj badaniach stosuje się najczęściej dwie hierarchiczne metody analizy skupień, tj. metodę
11 METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ średniej odległości między obiektami w skupieniach (ang. unweighted pair group method using arithmetic averages, UPGMA) i metodę Warda [WARD 1963; FRANCO i in. 1997; HARCH i in. 1997; JAHUFER i in. 1997; BERDAHL i in. 1999; CASLER, VAN SANTEN 2000; DELACY i in. 2000; SCHLÖSSER i in. 2000; ASSEFA i in. 1999, 2001a, 2003; FRANCO i in. 2001; JARADAT i in. 2003; MOHAMMADI, PRASANNA 2003; CROSSA, FRANCO 2004; CROSSA i in. 2002; MASSA i in. 2004; UPADHYAYA i in. 2005, 2007; ZIZUMBO-VILLARREAL i in. 2005; PROSPERI i in. 2006; ŽÁKOVÁ, BENKOVÁ 2006; DE LA VEGA i in. 2007]. Obie metody róŝnią się kryterium tworzenia nowych skupień w kolejnych krokach aglomeracji. W metodzie UPGMA odległość między dwoma skupieniami oblicza się jako średnią odległość między wszystkimi parami obiektów naleŝących do dwóch róŝnych skupień. Natomiast w metodzie Warda do oceny odległości między skupieniami wykorzystuje się podejście analizy wariancji. Polega ona na minimalizacji sumy kwadratów odchyleń odległości obiektów w obrębie dowolnych dwóch skupień, które mogą zostać uformowane na kaŝdym etapie aglomeracji. MILLIGAN i COOPER [1985] przeprowadzili badania symulacyjne nad efektywnością wielu hierarchicznych metod analizy skupień przy róŝnych miarach odległości międy obiektami. Stwierdzili oni, Ŝe metody UPGMA i Warda stwarzają generalnie największą szansę poprawnej klasyfikacji grup obiektów wielocechowo jednorodnych, czyli o jednakowych wartościach genotypowych dla rozwaŝanych cech. Metoda Warda posiada własność szczególnie silnego grupowania obiektów, przez co umoŝliwia ona tworzenie relatywnie mało licznych i zwięzłych grup w kaŝdym kroku aglomeracji [DELACY i in. 1996a; CROSSA i in. 2002; CROSSA, FRANCO 2004]. Klasyczne metody analizy skupień (włączając obie wymienione metody) są procedurami geometrycznymi, nie zawierającymi w swym podstawowym pomyśle kryteriów statystycznego wnioskowania o zróŝnicowaniu skupień na kaŝdym etapie aglomeracji. Zatem określenie poziomu podobieństwa skupień, przy którym przecina się dendrogram i otrzymuje wydzielone grupy, zawierające obiekty zawieszone na przeciętych gałęziach, odbywa się w praktyce zazwyczaj w sposób arbitralny. Badacze opierają się na wiedzy biologicznej o badanym materiale i rozsądnym kompromisie między antagonistycznymi celami, którymi są z jednej strony uzyskanie duŝego zróŝnicowania skupień, z drugiej zaś strony, mała liczby wydzielonych skupień. Przykładem takiego myślenia jest rozwiązanie zaproponowane przez CASLERA i VAN SANTENA [2000] oraz ASSEFA i in. [2001a, 2001b, 2003], którzy przecięli dendrogram, otrzymany za pomocą metody Warda, na poziomie podobieństwa, przy którym wydzielone skupienia wyjaśniały 70 lub 75%, zaś obiekty w obrębie skupień odpowiednio 30 lub 25% ogólnej sumy kwadratów dla odległości euklidesowych między obiektami. Statystycy próbują opracować kryteria obiektywizujące decyzję o liczbie wydzielonych grup obiektów. Chodzi o takie kryteria przecięcia dendrogramu, aby szansa poprawnej klasyfikacji grup obiektów była jak największa [CALIŃSKI, HARABASZ 1974; MILLIGAN, COOPER 1985; FRANCO i in. 1997; GUTIERREZ i in. 2003; MOHAMMADI, PRASANNA 2003; CROSSA, FRANCO 2004]. Takimi uznanymi kryteriami są: statystyka pseudo F i statystyka pseudo t 2 [CALIŃSKI, HARABASZ 1974; MILLIGAN, COOPER 1985]. Są one dostępne numerycznie w pakiecie SAS [2002] i współpracują z róŝnymi metodami analizy skupień w procedurach CLUSTER oraz FASTCLUS
12 32 W. Mądry [FRANCO i in. 1997; HARCH i in. 1997; AYANA, BEKELE 1999; KHATTREE, NAIK 2000; SCHLÖSSER i in. 2000; CROSSA, FRANCO 2004; PROSPERI i in. 2006; UKALSKA i in. 2007b] Analiza zróŝnicowania i relacji obiektów oraz wydzielonych grup obiektów Analiza składowych głównych Standardową metodą wielocechowej analizy zróŝnicowania (relacji) obiektów w kolekcji zasobów genowych jest analiza składowych głównych (ang. principal component analysis, PCA), stosowana na średnich fenotypowych lub BLUP-ach dla badanych cech obiektów, które zostały standaryzowane za pomocą transformacji Z [COOPER i in. 1997, 2001; JAHUFER i in. 1997; LI i in. 2000; BERTERO i in. 2004; SINEBO i in. 2004; HOOKS i in. 2006; XU i in. 2006; DE LA VEGA i in. 2007; UKALSKA i in. 2007a]. Wspomniane BLUP-y do oceny wartości genotypowych obiektów były stosowane dla danych niezrównowaŝonych. Analiza składowych głównych polega na utworzeniu takich wzajemnie nieskorelowanych liniowych funkcji cech oryginalnych (zwanych składowymi głównymi), z których pierwsza, druga, trzecia, itd., wyjaśniają największą moŝliwą cześć wielocechowej (ogólnej) zmienności (wariancji) badanych obiektów, czyli ogólnej zmienności odległości euklidesowych między badanymi obiektami [MARDIA i in. 1979; SEBER 1984, 2004; KRZANOWSKI 1988; MĄDRY 1993; JOHNSON, WICHERN 2002]. Ta metoda pozwala wykryć rodzaje współzmienności (korelacji) cech w obrębie danego zbioru obiektów w kolekcji. Zatem pozwala ona syntetycznie ująć całą zmienność wielocechową pomiędzy obiektami. Jest ona zatem narzędziem do określenia udziału badanych cech w ogólnej (wielocechowej) zmienności między obiektami w kolekcji. Pozwala ona wykryć cechy o największym wkładzie (udziale, znaczeniu) do wielocechowej zmienności między obiektami. Takie cechy uznaje się za najwaŝniejsze w ogólnej zmienności obiektów [FLORES i in. 1997; ASSEFA i in. 1999; 2003; ALEMAYEHU, BECKER 2002; JARADAT i in. 2003; NAGHAVI, JAHANSOUZ 2005; UPADHYAYA i in. 2005; ZIZUMBO- VILLARREAL i in. 2005]. Wyniki analizy składowych głównych przedstawia się zwykle graficznie za pomocą tzw. wykresu podwójnego (ang. biplot) w układzie współrzędnych dla dwóch lub trzech pierwszych składowych głównych [DELACY i in. 2000; JOHNSON, WICHERN 2002; DE LA VEGA i in. 2007]. Na takim wykresie przedstawia się obiekty w postaci punktów o współrzędnych wymienionych składowych głównych oraz cechy oryginalne w postaci wektorów od początku układu współrzędnych do punktów o współrzędnych stanowiących współczynniki korelacji prostej między daną składową główną a cechą oryginalną (rys. 1). Wykres taki obrazuje w przybliŝeniu (tym lepszym, im więcej ogólnej zmienności między-obiektowej jest wyjaśnione przez pierwsze dwie lub trzy pierwsze składowe główne) relacje (zróŝnicowanie) wielocechowe obiektów, zarówno w kategoriach odległości euklidesowej lub jej kwadratu, jak i w kategoriach najwaŝniejszych cech (najsilniej skorelowanych z tymi pierwszymi składowymi głównymi. I tak, obiekty o wartościach składowych głównych bliskich początku układu (0,0) odznaczają się wartościami genotypowymi dla wszystkich badanych cech, zbliŝonych do ich średnich w całej kolekcji. Natomiast obiekty leŝące blisko siebie mają podobne wartości genotypowe dla badanych cech (zwłaszcza tych najwaŝniejszych w zmienności wielocechowej).
13 drugi stopień składowych głównych 2nd principal component (30%) drugi stopień składowych głównych 2nd principal component (30%) METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ... Wykres podwójny prezentuje takŝe graficznie strukturę korelacji cech. Kąty ostre między wektorami dla dwóch cech wskazują na korelacje dodatnie między nimi, kąty zbliŝone do prostych wskazują na słabą korelację lub jej brak, natomiast kąty rozwarte wskazują korelacje ujemne między cechami. 33 Rys. 1. Wykres podwójny (biplot) dwóch pierwszych składowych głównych dla czterech cech obiektów hodowlanych słonecznika, oparty na ocenach BLUP efektów genotypowych na podstawie danych z serii doświadczeń [DE LA VEGA i in. 2007] Fig. 1. The biplot of two first principal component, for four traits of sunflower breeding objects based on the BLUP evaluation of genotype effects on the basis of data from a series of experiments [DE LA VEGA i in. 2007] Analiza składowych głównych jest dobrze oprogramowana w róŝnych pakietach statystycznych. Wielu badaczy kolekcji zasobów genowych korzysta z procedury PRINCOMP w pakiecie SAS [REZAI, FREY 1990; FLORES i in. 1997; KHATTREE, NAIK 2000; ZIZUMBO-VILLARREAL i in. 2005; PROSPERI i in. 2006; UKALSKA i in. 2007a] Analiza zmiennych kanonicznych Analiza zmiennych kanonicznych (ang. canonical variate analysis, CVA) jest metodą podobną do analizy składowych głównych. Jest ona dostosowana do analizy zróŝnicowania dowolnych obiektów eksperymentalnych na podstawie sklasyfikowanych danych (raczej kompletnych) dla rozpatrywanych cech. MoŜe być więc ona stosowana do analizy kompletnych i niekompletnych danych dla obiektów w kolekcjach, opisanych za pomocą modeli (2)-(4) oraz danych dla grup obiektów genetycznych, utworzonych a priori (np. według pochodzenia geograficznego) lub wydzielonych grup obiektów. W analizie danych za pomocą tej metody dla pojedynczych obiektów, jednostkami
14 34 W. Mądry doświadczalnymi (modele 2-4), są rośliny, poletka lub środowiska [PECETTI i in. 1992; ARIYO 1993; MĄDRY 1993; CARDI 1998; VAYLAY, VAN SANTEN 2002; MASSA i in. 2004; YEATER i in. 2004; NOFFSINGER, VAN SANTEN 2005]. Natomiast w analizie danych dla grup obiektów, jednostkami są same obiekty [REZAI, FREY 1990; JARADAT 1991; CLEMENTS, COWLING 1994; FLORES i in. 1997; ROJAS i in. 2000; DE GIORGIO, POLIGNANO 2001; CROSSA i in. 2002; ASSEFA i in. 2003; GUTIÉRREZ i in. 2003; JARADAT i in. 2003; JAYNES i in. 2003; ZIZUMBO-VILLARREAL i in. 2005; UKALSKA i in. 2007b]. Analiza zmiennych kanonicznych polega na utworzeniu takich wzajemnie nieskorelowanych liniowych funkcji cech oryginalnych (zwanych zmiennych kanonicznymi), z których pierwsza, druga trzecia, itd., wyjaśnia największą moŝliwą cześć ogólnej zmienności odległości Mahalanobisa między pierwotnymi (oryginalnymi) obiektami lub ich wtórnymi zbiorowościami [MARDIA i in. 1979; SEBER 1984, 2004; CAMUSSI i in. 1985; KRZANOWSKI 1988; MĄDRY 1993]. Była ona stosowana jako alternatywna (względem analizy składowych głównych, PCA) metoda do analizy zmienności i relacji wielocechowych obiektów w kolekcjach roślinnych zasobów genowych, mierzonych za pomocą odległości Mahalanobisa [LEE, KALTSIKES 1973; PECETTI i in. 1992; ARIYO 1993; MĄDRY 1993; CARDI 1998; VAYLAY, VAN SANTEN 2002; MASSA i in. 2004; YEATER i in. 2004; NOFFSINGER, VAN SANTEN 2005] oraz do oceny relacji i zróŝnicowania wydzielonych grup obiektów za pomocą analizy skupień [REZAI, FREY 1990; JARADAT 1991; CLEMENTS, COWLING 1994; FLORES i in. 1997; ROJAS i in. 2000; DE GIORGIO, POLIGNANO 2001; CROSSA i in. 2002; ASSEFA i in. 2003; GUTIÉRREZ i in. 2003; JARADAT i in. 2003; JAYNES i in. 2003; ZIZUMBO-VILLARREAL i in. 2005; UKALSKA i in. 2007b]. Celem stosowania analizy zmiennych kanonicznych na skupieniach i innych grupach obiektów określonych a priori, jest wykrycie tych cech, które mają największą moc dyskryminacyjną (są najwaŝniejsze) w zróŝnicowaniu wymienionych grup obiektów w kolekcji. Drugim celem tej metody jest przybliŝona ilustracja (tym lepsza, im więcej ogólnej zmienności odległości Mahalanobisa między obiektami lub ich grupami jest wyjaśnione przez pierwsze dwie lub trzy zmienne kanoniczne) relacji i zróŝnicowania obiektów lub ich grup, zarówno w kategoriach odległości Mahalanobisa, jak i w kategoriach najwaŝniejszych cech dyskryminujących (najsilniej skorelowanych z tymi pierwszymi zmienne kanonicznymi). Analiza zmiennych kanonicznych jest dobrze oprogramowana w procedurze CANDISC pakietu SAS [KHATTREE, NAIK 2000] i była stosowana przez wielu badaczy [REZAI, FREY 1990; FLORES i in. 1997; CROSSA i in. 2002; VAYLAY, VAN SANTEN 2002; GUTIÉRREZ i in. 2003; JARADAT i in. 2003; JAYNES i in. 2003; MASSA i in. 2004; YEATER i in. 2004; NOFFSINGER, VAN SANTEN 2005; ZIZUMBO-VILLARREAL i in. 2005; UKALSKA i in. 2007b]. Niektórzy badacze stosują najpierw analizę składowych głównych, aby określić konfigurację obiektów (rozkład zmienności wielocechowej na wykresie 2-wymiarowym) i ich zróŝnicowanie oraz wykryć cechy o największej mocy dyskryminacyjnej dla obiektów. Później jest stosowana analiza skupień. Inni autorzy najpierw zajmują się klasyfikacją obiektów, później zaś badają zmienność obiektów, zaznaczając wydzielone grupy (skupienia) obiektów oraz oceniając ich wielocechowe zróŝnicowanie i relacje. To podejście metodyczne jest standardowo stosowane przez badaczy kolekcji zasobów
15 METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ genowych roślin. Moja propozycja w tej kwestii jest następująca. Proponuję najpierw wykonywać analizę składowych głównych do oceny zmienności obiektów, później zaś przeprowadzić klasyfikację obiektów i badanie relacji pomiędzy grupami, za pomocą analizy zmiennych kanonicznych. Taka propozycja została juŝ zastosowana w kilku pracach [CLEMENTS, COWLING 1994; FLORES i in. 1997; ROJAS i in. 2000; DE GIORGIO, POLIGNANO 2001; CROSSA i in. 2002; ASSEFA i in. 2003; GUTIÉRREZ i in. 2003; JARADAT i in. 2003; JAYNES i in. 2003; ZIZUMBO-VILLARREAL i in. 2005; UKALSKA i in. 2007a, 2007b]. Podsumowanie W pracy przedstawiono idee, standardy i dotychczasowy dorobek praktyczny w zakresie metodyki statystycznej, przydatnej do kompleksowej i wielostronnej analizy róŝnorodności fenotypowej cech ilościowych w kolekcjach roślinnych zasobów genowych. Są one adresowane głównie do badaczy zmienności obiektów, zgromadzonych zasobów genowych w Polsce, jako uŝytkowników tych metod. Zastosowanie tylko niektórych spośród omawianych tu podejść i metod analitycznych w pracach empirycznych nad zmiennością fenotypową w kolekcjach zasobów genowych roślin prowadzi zwykle do zuboŝenia kompleksowego opisu tej róŝnorodności. Badacz, decydujący się na wybór określonych metod jedno- i wielocechowych, powinien mieć na uwadze to, Ŝe nie ma jednego poprawnego sposobu opisu rzeczywistości i rozwiązania praktycznych problemów dotyczących oceny i klasyfikowania zmienności kolekcji genotypów, bo wszystkie metody są ukierunkowane na pewien rodzaj wnioskowania. Jedne pozwalają ocenić dobrze i wiarygodnie zmienność obiektów pod względem kaŝdej cechy oddzielnie (metody jednocechowe), inne zaś są efektywne i nieodzowne do wielocechowego (łącznego dla wielu cech) badania zmienności obiektów i ich klasyfikacji. Poprawność wyboru i zastosowania metod jednoi wielocechowych oraz efektywność wnioskowania zaleŝy od wiedzy oraz umiejętności badacza i interpretatora w zakresie biometrii i doświadczalnictwa. Zadania numeryczne przy zastosowaniu metod, podawanych w pracy, nie są obecnie wysokim progiem do pokonania, z racji na dostępność wydajnych pakietów statystycznych i rozwijającą się intensywnie kadrę informatyczną. Posługiwanie się tymi pakietami bez dobrego przygotowania metodycznego w podanym wyŝej sensie moŝe prowadzić do niewłaściwego wykorzystania danych empirycznych i niewiarygodnej i/lub nie wyczerpującej oceny rozpatrywanej zmienności. Literatura ALEMAYEHU N., BECKER H Genotypic diversity and patterns of variation in a germplasm material of Ethiopian mustard (Brassica carinata A. Braun). Genet. Res. Crop Evol. 49: ANNICCHIARICO P Genotype x Environment Interactions - Challenges and Opportunities for Plant Breeding and Cultivar Recommendations. FAO Plant Production and Protection Paper - 174, Rome: 115 ss.
16 36 W. Mądry ANNICCHIARICO P., PECETTI L., BOGGINI G., DOUST M.A Repeatability of large-scale germplasm evaluation results in durum wheat. Crop Sci. 40: ARIYO O.J Genetic diversity in West African okra (Abelmoschus caillei) (A. Chev.) Stevels - Multivariate analysis of morphological and agronomic characteristics. Genetic Resources and Crop Evolution 40: ASSEFA K., KETEMA S., TEFERA H., NGUYEN H., BLUM A., AYELE M., BAI G., SIMANE B., KEFYALEW T Diversity among germplasm lines of the Ethiopian cereal tef [Eragrostis tef (Zucc.) Trotter]. Euphytica 106: ASSEFA K., SEYFU K., TEFERA H., KEFYALEW T., CHUNDERA F Trait diversity, heritability and genetic advance in selected germplasm lines of tef [Emgmstis tef (Zucc.)Trotter]. Hereditas 133: ASSEFA K., TEFERA H., ARNULF M., KEFYALEW T., HUNDERA F. 2001a. Quantitative trait diversity in tef [Eragrostis tef (Zucc.) Trotter] germplasm from Central and Northern Ethiopia. Genetic Resources and Crop Evolution 48: ASSEFA K., TEFERA H., ARNULF M., KEFYALEW T., HUNDERA F. 2001b. Variability, heritability and genetic advance in pheno-morphic and agronomic traits of tef [Eragrostis Tef (Zucc.) Trotter] germplasm from eight regions of Ethiopia. Hereditas 134: ASSEFA K., MERKER A., TEFERA H Multivariate analysis of diversity of tef (Eragrostis tef (Zucc.) Trotter) germplasm from western and southern Ethiopia. Hereditas 138: AYANA A., BEKELE E Multivariate analysis of morphological variation in sorghum (Sorghum bicolor (L.) Moench) germplasm from Ethiopia and Eritrea. Genet. Res. Crop Evol. 46: BEKELE F.L., BEKELE I., BUTLER D.R., BIDAISEE G.G Patterns of morphological variation in a sample of cacao (Theobroma Cacao L.) germplasm from the International Cocoa Genebank, Trinidad. Genet. Res. Crop Evol. 53: BERDAHL J.D., MAYLAND H.F., ASAY K.H., JEFFERSON P.G Variation in agronomic and morphological traits among Russian wildrye accessions. Crop Sci. 39: BERTERO H.D., DE LA VEGA A.J., CORREA G., JACOBSEN S.E., MUJICA A Genotype and genotype-by-environment interaction effects for grain yield and grain size of quinoa (Chenopodium quinoa Willd.) as revealed by pattern analysis of international multienvironment trials. Field Crops Research 89: BOLAŃOS-AGUILAR E.-D., HUYGHE C., ECALLE C., HACQUET J., JULIER B Effect of cultivar and environment on seed yield in alfalfa. Crop Sci. 42: CALIŃSKI T., HARABASZ J A dendrite method for cluster analysis. Comm. Stat. 3: CAMUSSI A., OTTAVIANO E., CALIŃSKI T., KACZMAREK Z Genetic distances based on quantitative traits. Genetics 111: CARDI T Multivariate analysis of variation among Solanum commersonii (+) S. tuberosum somatic hybrids with different ploidy levels. Euphytica 99: CASLER M.D., VAN SANTEN E Patterns of variation in a collection of meadow fescue
17 METODY STATYSTYCZNE DO OCENY RÓśNORODNOŚCI FENOTYPOWEJ accessions. Crop Sci. 40: CLEMENTS J.C., COWLING W.A Patterns of morphological diversity in relation to geographical origins of wild Lupinus angustifolius from Aegean region. Genetic Resources and Crop Evolution 41: COOPER M., STUCKER R.E., DE LACY I.H., HARCH B.D Wheat breeding nurseries, target environments, and indirect selection for grain yield. Theoret. Appl. Gen. 37: COOPER M., WOODRUFF D.R., PHILLIPS I.G., BASFORD K.E., GILMOUR A.R Genotype-bymanagement interactions for grain yield and grain protein concentration of wheat. Field Crops Research 69: CROSSA J., BELLON M.R., FRANCO J Quantitative method for classifying farmers using socioeconomic variables, w: Quantitative analysis of data from participatory methods in plant breeding. Bellon M.R., Reeves J. (Eds), CIMMYT, Mexico: CROSSA J., FRANCO J Statistical methods for classifying genotypes. Euphytica 137: DE GIORGIO D., POLIGNANO G.B Evaluating the biodiversity of almond cultivars from a germplasm collection field in southern Italy, w: Sustaining the global farm. Scott D.E., Mohtar R.H. (Eds), Steinhardt G.C. Purdue University: DE LA VEGA A.J., DELACY I.H., CHAPMAN S.C Changes in agronomic traits of sunflower hybrids over 20 years of breeding in central Argentina. Field Crops Research 100: DELACY I.H., BASFORD K.E., COOPER M., FOX P.N. 1996a. Retrospective analysis of historical data sets from multi-environment trials-theoretical development, w: Plant adaptation and crop improvement. Cooper M., Hammer G.L (Eds), CAB International, Wallingford, UK: DELACY I.H., BASFORD K.E., COOPER M., BULL J.K, MCLAREN C.G. 1996b. Analysis of multienvironment trials - an historical perspective, w: Plant adaptation and crop improvement. Cooper M., Hammer G.L (Eds), CAB International, Wallingford, UK: DELACY I.H., SKOVMAND B., HUERTA J Characterization of Mexican wheat landraces using agronomically useful attributes. Genetic Resources and Crop Evolution 47: DE RON A.M., CASQUERO P.A., GONZÁLEZ A.M., SANTALLA M Environmental and genotypic effects on pod characteristics related to common bean quality. J. Agron. Crop Sci. 190: DUDLEY J.W., MOLL R.H Interpretation and use of estimates of heritability and genetic variances in plant breeding. Crop. Sci. 9: EVENSON R.E., GOLLIN D., SANTANIELLO V Agricultural values of plant genetic resources. CABI Publishing, Wallinglord, UK: 285 ss. FALCONER D.S., MACKAY T.F.C Introduction to quantitative genetics. 4th. ed. Longman, Essex, England: 284 ss. FLORES F., GUTIERREZ J.C., LOPEZ J., MORENO M.T., CUBERTO J.I Multivariate analysis approach to evaluate a germplasm collection of Hedysarum coronarium L. Genetic
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin Henryk Bujak e-mail: h.bujak@ihar.edu.pl Ocena różnorodności fenotypowej Różnorodność fenotypowa kolekcji roślinnych zasobów
WIELOWYMIAROWA OCENA ZMIENNOŚCI FENOTYPOWEJ W KOLEKCJI ZASOBÓW GENOWYCH PSZENśYTA JAREGO
ZESZYTY PROBLEMOWE POSTĘPÓW NAUK ROLNICZYCH 2007 z. 517: 767-774 WIELOWYMIAROWA OCENA ZMIENNOŚCI FENOTYPOWEJ W KOLEKCJI ZASOBÓW GENOWYCH PSZENśYTA JAREGO Krzysztof Ukalski Ukalska 1 1, Wanda Kociuba 2,
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
STATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Wielowymiarowa analiza zmienności genotypowej cech rolniczych w kolekcji zasobów genowych kupkówki pospolitej (Dactylis glomerata L.
NR 263 BIULETYN INSTYTUTU HODOWLI I AKLIMATYZACJI ROŚLIN 2012 MARCIN STUDNICKI 1 WIESŁAW MĄDRY 1 JAN SCHMIDT 2 1 Katedra Doświadczalnictwa i Bioinformatyki SGGW w Warszawie 2 Ogród Botaniczny Instytutu
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Szacowanie wartości hodowlanej. Zarządzanie populacjami
Szacowanie wartości hodowlanej Zarządzanie populacjami wartość hodowlana = wartość cechy? Tak! Przy h 2 =1 ? wybitny ojciec = wybitne dzieci Tak, gdy cecha wysokoodziedziczalna. Wartość hodowlana genetycznie
STATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Test niezależności chi-kwadrat (χ 2 ) Cel: ocena występowania zależności między dwiema cechami jakościowymi/skategoryzowanymi X- pierwsza cecha; Y druga cecha Przykłady
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
W1. Wprowadzenie. Statystyka opisowa
W1. Wprowadzenie. Statystyka opisowa dr hab. Jerzy Nakielski Zakład Biofizyki i Morfogenezy Roślin Plan wykładu: 1. O co chodzi w statystyce 2. Etapy badania statystycznego 3. Zmienna losowa, rozkład
Ocena wartości hodowlanej. Dr Agnieszka Suchecka
Ocena wartości hodowlanej Dr Agnieszka Suchecka Wartość hodowlana genetycznie uwarunkowane możliwości zwierzęcia do ujawnienia określonej produkcyjności oraz zdolność przekazywania ich potomstwu (wartość
Skalowanie wielowymiarowe idea
Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy
CECHY ILOŚCIOWE PARAMETRY GENETYCZNE
CECHY ILOŚCIOWE PARAMETRY GENETYCZNE Zarządzanie populacjami zwierząt, ćwiczenia V Dr Wioleta Drobik Rodzaje cech Jakościowe o prostym dziedziczeniu uwarunkowane zwykle przez kilka genów Słaba podatność
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Definicja pochodnej cząstkowej
1 z 8 gdzie punkt wewnętrzny Definicja pochodnej cząstkowej JeŜeli iloraz ma granicę dla to granicę tę nazywamy pochodną cząstkową funkcji względem w punkcie. Oznaczenia: Pochodną cząstkową funkcji względem
1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe
Zjazd 7. SGGW, dn. 28.11.10 r. Matematyka i statystyka matematyczna Tematy 1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe nna Rajfura 1 Zagadnienia Przykład porównania wielu obiektów w
Prawdopodobieństwo i statystyka
Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.
Matematyka i statystyka matematyczna dla rolników w SGGW
Było: Testowanie hipotez (ogólnie): stawiamy hipotezę, wybieramy funkcję testową f (test statystyczny), przyjmujemy poziom istotności α; tym samym wyznaczamy obszar krytyczny testu (wartość krytyczną funkcji
Statystyka i eksploracja danych
Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Wielowymiarowe wydzielanie fenotypowo podobnych grup obiektów w kolekcji roboczej pszenicy ozimej (Triticum aestivum L.)
NR 253 BIULETYN INSTYTUTU HODOWLI I AKLIMATYZACJI ROŚLIN 2009 JOANNA UKALSKA 1 KRZYSZTOF UKALSKI 1 TADEUSZ ŚMIAŁOWSKI 2 1 Zakład Biometrii, Katedra Ekonometrii i Statystyki, Szkoła Główna Gospodarstwa
Wielowymiarowe metody statystyczne w badaniach cech morfologicznych żyta ozimego
Wielowymiarowe metody statystyczne w badaniach cech morfologicznych żyta ozimego Helena Kubicka-Matusiewicz 1, Agnieszka Pyza 1, Leszek Sieczko 2 1) Polska Akademia Nauk, Ogród Botaniczny - Centrum Zachowania
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 Inne układy doświadczalne 1) Układ losowanych bloków Stosujemy, gdy podejrzewamy, że może występować systematyczna zmienność między powtórzeniami np. - zmienność
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Analiza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
KORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Zarządzanie populacjami zwierząt. Parametry genetyczne cech
Zarządzanie populacjami zwierząt Parametry genetyczne cech Teoria ścieżki zależność przyczynowo-skutkowa X p 01 Z Y p 02 p 01 2 + p 02 2 = 1 współczynniki ścieżek miary związku między przyczyną a skutkiem
Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia
Doświadczalnictwo leśne Wydział Leśny SGGW Studia II stopnia Treści i efekty kształcenia Treści: Statystyka matematyczna, planowanie eksperymentu Efekty kształcenia: student potrafi opisywać zjawiska za
Wykład 10 Skalowanie wielowymiarowe
Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów
KARTA KURSU. Kod Punktacja ECTS* 1
KARTA KURSU Nazwa Nazwa w j. ang. Wprowadzenie do statystyki Introduction to statistics Kod Punktacja ECTS* 1 Koordynator Prof. dr hab. Jerzy Wołek Zespół dydaktyczny Prof. dr hab. Jerzy Wołek doktoranci
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1
Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT Anna Rajfura 1 Przykład W celu porównania skuteczności wybranych herbicydów: A, B, C sprawdzano, czy masa chwastów na poletku zaleŝy
Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia
Doświadczalnictwo leśne Wydział Leśny SGGW Studia II stopnia Metody nieparametryczne Do tej pory omawialiśmy metody odpowiednie do opracowywania danych ilościowych, mierzalnych W kaŝdym przypadku zakładaliśmy
Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE
WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE Było: Przykład. W doświadczeniu polowym załoŝonym w układzie całkowicie losowym w czterech powtórzeniach porównano
Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla
Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności
STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie
STATYSTYKA OD PODSTAW Z SYSTEMEM SAS wersja 9.2 i 9.3 Szkoła Główna Handlowa w Warszawie Spis treści Wprowadzenie... 6 1. Podstawowe informacje o systemie SAS... 9 1.1. Informacje ogólne... 9 1.2. Analityka...
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Metody sprawdzania założeń w analizie wariancji: -Sprawdzanie równości (jednorodności) wariancji testy: - Cochrana - Hartleya - Bartletta -Sprawdzanie zgodności
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
Statystyka opisowa. Wykład I. Elementy statystyki opisowej
Statystyka opisowa. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Elementy statystyku opisowej 1 Elementy statystyku opisowej 2 3 Elementy statystyku opisowej Definicja Statystyka jest to nauka o
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Typowe błędy w analizie rynku nieruchomości przy uŝyciu metod statystycznych
Typowe błędy w analizie rynku nieruchomości przy uŝyciu metod statystycznych Sebastian Kokot XXI Krajowa Konferencja Rzeczoznawców Majątkowych, Międzyzdroje 2012 Rzetelnie wykonana analiza rynku nieruchomości
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
POWSZECHNE KRAJOWE ZASADY WYCENY (PKZW)
POWSZECHNE KRAJOWE ZASADY WYCENY (PKZW) NOTA INTERPETACYJNA NR 1 NI 1 ZASTOSOWANIE PODEJŚCIA PORÓWNAWCZEGO W WYCENIE NIERUCHOMOŚCI 1. WPROWADZENIE...2 2. PRZEDMIOT I ZAKRES STOSOWANIA NOTY...2 3. ZAŁOśENIA
Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień
Idea jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień. Obiekty należące do danego skupienia
Modelowanie danych hodowlanych
Modelowanie danych hodowlanych 1. Wykład wstępny. Algebra macierzowa 3. Wykorzystanie różnych źródeł informacji w predykcji wartości hodowlanej 4. Kowariancja genetyczna pomiędzy spokrewnionymi osobnikami
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp
tel.: +48 662 635 712 Liczba stron: 15 Data: 20.07.2010r OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA z wykorzystaniem programu obliczeniowego Q maxp DŁUGIE
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza
Analiza głównych składowych- redukcja wymiaru, wykł. 12
Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji
Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji
STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa
STATYSTYKA MATEMATYCZNA rachunek prawdopodobieństwa treść Zdarzenia losowe pojęcie prawdopodobieństwa prawo wielkich liczb zmienne losowe rozkłady teoretyczne zmiennych losowych Zanim zajmiemy się wnioskowaniem
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres
Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
POLITECHNIKA OPOLSKA
POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych
KLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
Analiza regresji - weryfikacja założeń
Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.
Statystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Wielocechowa analiza wyników doświadczeń wstępnych z żytem ozimym
NR 260/261 BIULETYN INSTYTUTU HODOWLI I AKLIMATYZACJI ROŚLIN 2011 KRZYSZTOF UKALSKI 1 TADEUSZ ŚMIAŁOWSKI 2 1 Katedra Ekonometrii i Statystyki, Zakład Biometrii Szkoła Główna Gospodarstwa Wiejskiego w Warszawie
Badania eksperymentalne
Badania eksperymentalne Analiza CONJOINT mgr Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Najpopularniejsze sposoby oceny wyników eksperymentu w schematach
Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
ANALIZA HIERARCHICZNA PROBLEMU W SZACOWANIU RYZYKA PROJEKTU INFORMATYCZNEGO METODĄ PUNKTOWĄ. Joanna Bryndza
ANALIZA HIERARCHICZNA PROBLEMU W SZACOWANIU RYZYKA PROJEKTU INFORMATYCZNEGO METODĄ PUNKTOWĄ Joanna Bryndza Wprowadzenie Jednym z kluczowych problemów w szacowaniu poziomu ryzyka przedsięwzięcia informatycznego
TRANSFORMACJE I JAKOŚĆ DANYCH
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING TRANSFORMACJE I JAKOŚĆ DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Statystyka i Analiza Danych
Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki -
weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)
PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na
Przykład 2. Stopa bezrobocia
Przykład 2 Stopa bezrobocia Stopa bezrobocia. Komentarz: model ekonometryczny stopy bezrobocia w Polsce jest modelem nieliniowym autoregresyjnym. Podobnie jak model podaŝy pieniądza zbudowany został w
Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu
Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)
LABORATORIUM Z FIZYKI
LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI I PRACOWNIA FIZYCZNA C w Gliwicach Gliwice, ul. Konarskiego 22, pokoje 52-54 Regulamin pracowni i organizacja zajęć Sprawozdanie (strona tytułowa, karta pomiarowa)
Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady
Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń 1. Problem ozwaŝamy zjawisko (model): Y = β 1 X 1 X +...+ β k X k +Z Ηβ = w r Hipoteza alternatywna: Ηβ w r
Podstawy teoretyczne znaczenia efektów genotypowych i interakcyjnych w hodowli roślin na przykładzie pszenicy ozimej
NR 40/41 BIULETYN INSTYTUTU HODOWLI I AKLIMATYZACJI ROŚLIN 006 WIESŁAW MĄDRY 1 MIKE TALBOT KRZYSZTOF UKALSKI 1 TADEUSZ DRZAZGA 3 MARZENA IWAŃSKA 1 1 Katedra Biometrii SGGW, Warszawa Biomathematics and
ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel
ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA dr inż. Aleksander Astel Gdańsk, 22.12.2004 CHEMOMETRIA dziedzina nauki i techniki zajmująca się wydobywaniem użytecznej informacji z wielowymiarowych
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss
Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.
Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych. Statystyka zajmuje się prawidłowościami zaistniałych zdarzeń. Teoria prawdopodobieństwa dotyczy przewidywania, jak często mogą zajść
Przykład 1. (A. Łomnicki)
Plan wykładu: 1. Wariancje wewnątrz grup i między grupami do czego prowadzi ich ocena 2. Rozkład F 3. Analiza wariancji jako metoda badań założenia, etapy postępowania 4. Dwie klasyfikacje a dwa modele
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Techniki grupowania danych w środowisku Matlab
Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe
Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).
Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych
INFORMATYKA W SELEKCJI
INFORMATYKA W SELEKCJI INFORMATYKA W SELEKCJI - zagadnienia 1. Dane w pracy hodowlanej praca z dużym zbiorem danych (Excel) 2. Podstawy pracy z relacyjną bazą danych w programie MS Access 3. Systemy statystyczne
Propensity Score Matching
Zajęcia 2 Plan dzisiejszych zajęć 1 Doświadczenia Idealne doświadczenie Nie-idealne doświadczenia 2 Idealne doświadczenie Nie-idealne doświadczenia Plan idealnego doświadczenia (eksperymentu) Plan doświadczenia
Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;
LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny
Drzewa Decyzyjne, cz.2
Drzewa Decyzyjne, cz.2 Inteligentne Systemy Decyzyjne Katedra Systemów Multimedialnych WETI, PG Opracowanie: dr inŝ. Piotr Szczuko Podsumowanie poprzedniego wykładu Cel: przewidywanie wyniku (określania
Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna
W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.
W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. dr hab. Jerzy Nakielski Katedra Biofizyki i Morfogenezy Roślin Plan wykładu: 1. Etapy wnioskowania statystycznego 2. Hipotezy statystyczne,
ANALIZA CZYNNIKOWA Przykład 1
ANALIZA CZYNNIKOWA... stanowi zespół metod i procedur statystycznych pozwalających na badanie wzajemnych relacji między dużą liczbą zmiennych i wykrywanie ukrytych uwarunkowań, ktore wyjaśniają ich występowanie.
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y).
Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii
SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane
INFORMATYKA W SELEKCJI
INFORMATYKA W SELEKCJI INFORMATYKA W SELEKCJI - zagadnienia 1. Dane w pracy hodowlanej praca z dużym zbiorem danych (Excel) 2. Podstawy pracy z relacyjną bazą danych w programie MS Access 3. Systemy statystyczne
Analiza wariancji. dr Janusz Górczyński
Analiza wariancji dr Janusz Górczyński Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik
Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej
Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której