Wielowymiarowe metody statystyczne w badaniach cech morfologicznych żyta ozimego Helena Kubicka-Matusiewicz 1, Agnieszka Pyza 1, Leszek Sieczko 2 1) Polska Akademia Nauk, Ogród Botaniczny - Centrum Zachowania Różnorodności Biologicznej w Powsinie, Warszawa 2) Katedra Doświadczalnictwa i Bioinformatykii, Szkoła Główna Gospodarstwa Wiejskiego w Warszawie
Wstęp Duży udział gleb lekkich i kwaśnych w Polsce, stanowiący 52% gruntów ornych (Sapek 2004) sprawia, że żyto charakteryzujące się niewielkimi wymaganiami, należy do roślin zbożowych o dużym znaczeniu gospodarczym. Wyróżnia się tolerancją na zakwaszenie gleby, prowadzi oszczędną gospodarkę wodną oraz jest niezastąpione w uprawie na glebach kompleksów żytnich (Jasińska i Kostecki 2003). Gatunek ten jest uprawiany głównie w Europie, aczkolwiek w ostatnich latach obserwuje się wzrost zainteresowania uprawą żyta w Stanach Zjednoczonych.
Wstęp Hodowla nowych odmian żyta o zmienionym składzie jakościowym ziarna i wysokiej produktywności, jest możliwa, dzięki wprowadzaniu do uprawy odmian mieszańcowych. Odmiany heterozyjne żyta zyskują coraz większą popularność, ponieważ plonują około 20% wyżej w porównaniu z odmianami populacyjnymi. W Niemczech zajmują ponad 60% areału uprawy żyta, w Polsce ok. 50% i obserwuje się tendencję wzrostową (Rudzki 2014). Komponentami rodzicielskimi do hodowli odmian heterozyjnych są linie wsobne (Kubicka i wsp. 2004). Wielu badaczy (Kadłubiec i wsp. 2000, Betran i wsp. 2003, Mahammady i Prasanna 2003, Person i wsp. 2006, Śmiałowski 2007) uważa, że w procesie tworzenia teoretycznych podstaw do praktycznego wykorzystania linii wsobnych w hodowli kukurydzy oraz żyta, ważna jest ocena ich podobieństwa genetycznego, ponieważ efekty genetyczne rodzicielskich linii wsobnych, ujawniające się w postaci heterozji ważnych cech agronomicznych, zależą od ich zróżnicowania genetycznego.
Wstęp Spośród gatunków roślin uprawnych, zboża zajmują największą powierzchnię gruntów ornych na świecie. Świadomość narastających zagrożeń spowodowanych zanieczyszczeniem środowiska poprzez rozwój przemysłu i intensyfikację rolnictwa oraz zmiana klimatu, skłania do zabezpieczenia ich zasobów genowych. W Polskiej Akademii Nauk Ogrodzie Botanicznym Centrum Zachowania Różnorodności Biologicznej w Powsinie od wielu lat gromadzone są obiekty z rodzaju Secale, w tym formy lokalne, odmiany, linie wsobne i dzikie gatunki. Zgromadzone obiekty mają wyższą wartość poznawczą dla badaczy i hodowców, gdy są wszechstronnie zwaloryzowane.
Cele Celem pracy była ocena zróżnicowania genetycznego wybranych linii wsobnych pokolenia S 30 i mieszańców F 1 żyta ozimego w porównaniu z uprawianą odmianą Dańkowskie Złote przy zastosowaniu wielowymiarowych metod statystycznych.
Cele praktyczne Wielowymiarowa ocena zróżnicowania badanych obiektów żyta ozimego za pomocą metod statystycznych, pozwoli wyselekcjonować najlepsze komponenty rodzicielskie - linie wsobne do hodowli odmian mieszańcowych.
Materiał Badane obiekty żyta obserwowano pod względem 15 cech morfologicznych (długość źdźbła i kłosa, liczba pięterek i ziaren w kłosie, masa ziaren w kłosie i masa tysiąca ziarniaków, długość i szerokość liści poniżej kłosa: pierwszego, drugiego i trzeciego, powierzchnia liści na źdźbło i roślinę oraz krzewistość. Pomiary wykonano na trzech źdźbłach dziesięciu roślin analizowanych obiektów żyta podczas trzyletnich doświadczeń polowych przeprowadzonych w Polskiej Akademii Nauk Ogrodzie Botanicznym Centrum Zachowania Różnorodności Biologicznej w Powsinie.
Metody statystyczne Dla lepszego zobrazowania podobieństwa wielocechowego badanych obiektów zastosowano klasyfikację przynależności do grup jednorodnych. Analizy wykonano na średnich z trzech lat (2007-2009). Wyjątkiem były mieszańce F 1, gdzie dane zebrane były tylko w pierwszym roku badań. Do redukcji wymiarów przestrzeni opisującej obiekty oraz do określenia związków pomiędzy badanymi cechami użyto analizy składowych głównych (PCA).
Metody statystyczne Analiza Składowych Głównych (PCA) Definicja. i-ta składowa główna to zmienna losowa będąca taką unormowaną kombinacją liniową wektora losowego, że jest nieskorelowana z poprzednimi (i-1) składowymi głównymi oraz ma maksymalną wariancję.
Metody statystyczne Analiza Składowych Głównych (PCA) Zmienność cech X można wyrazić za pomocą zmienności składowych głównych. i p 1 var x i i p 1 var z i 1 p z których każda równa się odpowiedniej wartości własnej macierzy kowariancji
Metody statystyczne Analiza Składowych Głównych (PCA) Obiekty przedstawić można jako punkty w przestrzeni obserwowanych cech (czyli w przestrzeni 15-wymiarowej). Ta sama przestrzeń jest rozpinana przez wszystkie składowe główne. Redukcja wymiarów do pierwszych kilku (2 lub 3) składowych głównych rozpina tak podprzestrzeń, że rzuty obiektów mają w niej największą wariancję.
Metody statystyczne Analiza Składowych Głównych (PCA) Redukcja wymiarów Jeżeli dla pewnego k p wskaźnik 1 k 1 k p jest dostatecznie bliski jedności, to można zastąpić zmienne x,, składowymi głównymi z 1,,, które wyjaśniają 1 x p zk k 100% całkowitej zmienności danych
Metody statystyczne Analiza Składowych Głównych (PCA) Estymacja W praktycznych zagadnieniach macierz kowariancji nieznana. Jeśli dysponujemy n-elementową próbą {x t }, t 1,..., n; n, pochodzącą p z rozkładu N p ( μ, Σ), gdzie jest dodatnio określona, to zamiast macierzy możemy użyć jej nieobciążonej oceny S 1 n n 1 t 1 ( x t x)( x t, gdzie x) x 1 n n t 1 x t jest
Metody statystyczne Podobieństwo fenotypowe określano za pomocą kwadratu odległości euklidesowej, gdzie odległość między obiektami x i y, opisana jest jako suma kwadratów różnic pomiędzy i-tymi cechami. Odległości pomiędzy obiektami wyznaczono na danych zestandaryzowanych na podstawie zestawu badanych cech. Rozpatrywane obiekty podzielono za pomocą hierarchicznej analizy skupień metodą Warda na grupy, zawierające obiekty o dużym podobieństwie fenotypowym.
Metody statystyczne Kwadrat odległości euklidesowej Metoda Warda d(x, y) i (x 2 i yi) n 2 n 2 i 1 A A j 1 B B A B d A,B d O, x d O, x i j 5 4 3 2 1 Rys. 1. Schemat aglomeracji metody Warda 0 0 1 2 3 4 5 6
Wyniki Przeprowadzona analiza składowych głównych pozwoliła na wydzielenie dwóch pierwszych składowych, które sumarycznie wyjaśniały 82,6% całkowitej zmienności. Analizując składowe otrzymano pierwszą składową, która wyjaśniała 43,4% ogólnej zmienności, zaś druga składowa 39,2%. Ze składową pierwszą skorelowane były takie cechy jak: długość kłosa, liczba pięterek w kłosie, długość oraz szerokość badanych trzech liści, powierzchnia liści na źdźbło. Z drugą składową skorelowane były następujące cechy: długość źdźbła, liczba ziarniaków w kłosie, masa ziarniaków w kłosie, masę 1000 ziarniaków, krzewistość, powierzchnia liści na roślinę.
Numery linii, mieszańców F1 i odmian oraz ich nazwy: Wyniki 8 - M15, 9 - L103, 7 L299, 1 10-68k, 1 - mk, 3 - kn, 5 - L79, 2 - MK, 6 - jeż, 4 - KN, 14 - DZ, 11 - F1 (L103 X 68k), 13 - F1 (M15 X 68k), 12 - F1 (M15 X L103) 3 2 4 5 Rys. 2. Dendrogram podziału 14 genotypów na 5 grup z użyciem metody Warda i kwadratu odległości Euklidesowej
Rys. 3. Wykres pierwszych dwóch składowych z zaznaczeniem badanych genotypów z podziałem na 5 grup Wyniki Kody zmiennych: wysokość roślin (PH), długość kłosa (SL), liczba węzłów na osadce kłosowej (NNSR), liczba ziarniaków w kłosie (NKS), masa ziarniaków w kłosie (WKS), masa 1000 ziarniaków (TWK), długość liścia flagowego (LFL), długość liścia podflagowego (LSL), długość liścia 3-go (LTL), szerokość liścia flagowego (WFL), szerokość liścia podflagowego (WSL), szerokość liścia 3-go (WTL), powierzchnia liści na źdźbło (ALS), krzewistość (NSP), powierzchnia liści na roślinę (ALP). Numery linii, mieszańców F1 i odmian oraz ich nazwy: 1 - mk, 2 - MK, 3 - kn, 4 - KN, 5 - L79, 6 - jeż, 7 - L299, 8 - M15, 9 - L103, 10-68k, 11 - F1 (L103 X 68k), 12 - F1 (M15 X L103), 13 - F1 (M15 X 68k), 14 - DZ,
8 - M15, 9 - L103, 7 L299, 10-68k, 1 - mk, 3 - kn, 5 - L79, 2 - MK, 6 - jeż, 4 - KN, 14 - DZ, 11 - F1 (L103 X 68k), 13 - F1 (M15 X 68k), 12 - F1 (M15 X L103) Kody zmiennych: wysokość roślin (PH), długość kłosa (SL), l. węzłów na osadce kł. (NNSR), liczba ziarniaków w kłosie (NKS), masa ziarniaków w kłosie (WKS), masa 1000 ziarniaków (TWK), długość liścia flagowego (LFL), dł. liścia podflagowego (LSL), długość liścia 3-go (LTL), szerokość liścia flagowego (WFL), szer. liścia podflagowego (WSL), szerokość liścia 3-go (WTL), pow. liści na źdźbło (ALS), krzewistość (NSP), pow.a liści na roślinę (ALP). grup 1 n=5 grup 2 n=2 grup 3 n=2 grup 4 n=2 grup 5 n=3 all N=14 PH 78,34 75,79 71,28 143,92 151,22 101,95 SL 83,62 121,41 71,59 91,82 76,78 87,01 NNSR 14,57 19,69 12,70 15,99 17,64 15,89 NKS 19,51 34,37 8,96 46,97 52,50 31,12 WKS 0,36 0,74 0,11 1,53 1,75 0,84 TWK 16,36 17,90 9,49 33,19 33,36 21,65 LFL 122,40 146,14 67,05 125,02 157,00 125,67 LSL 188,01 214,00 124,60 189,98 234,57 192,92 LTL 172,28 197,06 137,53 191,34 217,43 183,25 WFL 10,59 14,55 7,52 11,15 13,82 11,49 WSL 13,70 18,46 10,00 15,51 17,63 14,95 WTL 12,96 17,41 10,29 16,00 16,88 14,49 ASL 0,47 0,93 0,32 0,71 0,89 0,64 NSP 7,47 6,74 4,32 8,61 16,77 9,07 ALP 2,69 6,33 1,36 6,21 14,89 6,14
8 - M15, 9 - L103, 7 L299, 10-68k, 1 - mk, 3 - kn, 5 - L79, 2 - MK, 6 - jeż, 4 - KN, 14 - DZ, 11 - F1 (L103 X 68k), 13 - F1 (M15 X 68k), 12 - F1 (M15 X L103) Kody zmiennych: wysokość roślin (PH), długość kłosa (SL), l. węzłów na osadce kł. (NNSR), liczba ziarniaków w kłosie (NKS), masa ziarniaków w kłosie (WKS), masa 1000 ziarniaków (TWK), długość liścia flagowego (LFL), dł. liścia podflagowego (LSL), długość liścia 3-go (LTL), szerokość liścia flagowego (WFL), szer. liścia podflagowego (WSL), szerokość liścia 3-go (WTL), pow. liści na źdźbło (ALS), krzewistość (NSP), pow.a liści na roślinę (ALP). grup 1 n=5 grup 2 n=2 grup 3 n=2 grup 4 n=2 grup 5 n=3 all N=14 PH 78,34 75,79 71,28 143,92 151,22 101,95 SL 83,62 121,41 71,59 91,82 76,78 87,01 NNSR 14,57 19,69 12,70 15,99 17,64 15,89 NKS 19,51 34,37 8,96 46,97 52,50 31,12 WKS 0,36 0,74 0,11 1,53 1,75 0,84 TWK 16,36 17,90 9,49 33,19 33,36 21,65 LFL 122,40 146,14 67,05 125,02 157,00 125,67 LSL 188,01 214,00 124,60 189,98 234,57 192,92 LTL 172,28 197,06 137,53 191,34 217,43 183,25 WFL 10,59 14,55 7,52 11,15 13,82 11,49 WSL 13,70 18,46 10,00 15,51 17,63 14,95 WTL 12,96 17,41 10,29 16,00 16,88 14,49 ASL 0,47 0,93 0,32 0,71 0,89 0,64 NSP 7,47 6,74 4,32 8,61 16,77 9,07 ALP 2,69 6,33 1,36 6,21 14,89 6,14
8 - M15, 9 - L103, 7 L299, 10-68k, 1 - mk, 3 - kn, 5 - L79, 2 - MK, 6 - jeż, 4 - KN, 14 - DZ, 11 - F1 (L103 X 68k), 13 - F1 (M15 X 68k), 12 - F1 (M15 X L103) Kody zmiennych: wysokość roślin (PH), długość kłosa (SL), l. węzłów na osadce kł. (NNSR), liczba ziarniaków w kłosie (NKS), masa ziarniaków w kłosie (WKS), masa 1000 ziarniaków (TWK), długość liścia flagowego (LFL), dł. liścia podflagowego (LSL), długość liścia 3-go (LTL), szerokość liścia flagowego (WFL), szer. liścia podflagowego (WSL), szerokość liścia 3-go (WTL), pow. liści na źdźbło (ALS), krzewistość (NSP), pow.a liści na roślinę (ALP). grup 1 n=5 grup 2 n=2 grup 3 n=2 grup 4 n=2 grup 5 n=3 all N=14 PH 78,34 75,79 71,28 143,92 151,22 101,95 SL 83,62 121,41 71,59 91,82 76,78 87,01 NNSR 14,57 19,69 12,70 15,99 17,64 15,89 NKS 19,51 34,37 8,96 46,97 52,50 31,12 WKS 0,36 0,74 0,11 1,53 1,75 0,84 TWK 16,36 17,90 9,49 33,19 33,36 21,65 LFL 122,40 146,14 67,05 125,02 157,00 125,67 LSL 188,01 214,00 124,60 189,98 234,57 192,92 LTL 172,28 197,06 137,53 191,34 217,43 183,25 WFL 10,59 14,55 7,52 11,15 13,82 11,49 WSL 13,70 18,46 10,00 15,51 17,63 14,95 WTL 12,96 17,41 10,29 16,00 16,88 14,49 ASL 0,47 0,93 0,32 0,71 0,89 0,64 NSP 7,47 6,74 4,32 8,61 16,77 9,07 ALP 2,69 6,33 1,36 6,21 14,89 6,14
Podsumowanie Komplementarności użytych metod (PCA i CA) oddaje rysunek 3, składające się z wykresu ładunków składowych głównych i rozmieszczonych w dwóch wymiarach badanych zmiennych oraz zostały naniesione obiekty na podstawie wartości korelacji z poszczególnymi składowymi. Dodatkowym elementem jest oznaczenie 5 grup jednorodnych uzyskanych w wyniku podziału za pomocą hierarchicznej analizy skupień. Odczytując położenie grup w przestrzeni pierwszych dwóch składowych możemy jednocześnie dowiedzieć się o najmocniej skorelowanych z nią badanych cechach. Pierwsze dwie składowe wyjaśniają ponad 80% ogólnej zmienności jest tak, więc tracąc z opisu kilkanaście procent zmienności możemy sprowadzić opis badanych obiektów do dwóch wymiarów.
Wnioski 1. Zastosowanie wielowymiarowych metod statystycznych do oceny zmienności 10 linii wsobnych, 3 mieszańców oraz odmiany Dańkowskie Złote żyta ozimego pod kątem 15 cech agronomicznych i morfologicznych umożliwiło w bardzo przejrzysty i czytelny sposób zidentyfikować obiekty wraz z informacją o przybliżonych wartościach ich pierwotnych cech. 2. Wydzielono 5 grup jednorodnych, w jednej z nich znalazły się mieszance. Oceniane mieszańce pokolenia F 1 charakteryzowały się najwyższymi wartościami badanych cech morfologicznych. 3. Podejście to pozwala to na efektywniejsze zarządzanie kolekcją, a także ułatwia wybór form rodzicielskich, które mogą być wykorzystane w praktycznej hodowli.
Dziękuję za uwagę Leszek_Sieczko@sggw.pl