INFORMATYKA W SELEKCJI
INFORMATYKA W SELEKCJI - zagadnienia 1. Dane w pracy hodowlanej praca z dużym zbiorem danych (Excel) 2. Podstawy pracy z relacyjną bazą danych w programie MS Access 3. Systemy statystyczne na przykładzie pakietu SAS i bezpłatnego pakietu R Z pomocą narzędzi programów Excel, SAS, R: 4. Wykorzystanie zależności zmiennych w selekcji regresja 5. Analiza wariancji z modelem stałym i losowym (ocena h 2 ) 6. Ocena wartości hodowlanej z modelem mieszanym 7. Ocena efektów selekcji (m.in. trendu genetycznego)
METODY HODOWLANE INFORMATYKA W SELEKCJI I. SZACOWANIE PARAMETRÓW GENETYCZNYCH II. OCENA WARTOŚCI HODOWLANEJ III. SELEKCJA Miarą skuteczności selekcji jest POSTĘP HODOWLANY Oczekiwany postęp hodowlany wynika ze wzoru: G R s G
SELEKCJA I POSTĘP HODOWLANY Pokolenie wyjściowe P 0 Wybrani rodzice Genetyczna wyższość wybranych rodziców nad P 0 Średni wiek w chwili urodzenia potomka* Pokolenie następne P 1 BUHAJE KROWY Ojcowie buhajów Ojcowie krów Matki buhajów Matki krów I BB I BK I KB I KK T BB T BK T KB T KK Buhaje Krowy Postęp hodowlany może być przekazywany wieloma ścieżkami selekcyjnymi: G' I T BB BB I T BK BK I T KB KB I T KK KK * T to tzw. odstęp pokoleń
SELEKCJA I POSTĘP HODOWLANY Oczekiwany postęp hodowlany na każdej ścieżce obliczamy wg wzoru: G r R s G I KK R KK s KK G I BK R BK s BK G I KB R KB s KB G I BB R BB s BB G Obliczenia oparte są na założeniach programu hodowlanego, wymagają znajomości wartości parametrów genetycznych i organizacyjnych populacji Oczekiwany postęp hodowlany w populacji wynosi: G' I T BB BB I T BK BK I T KB KB I T KK KK
SELEKCJA I POSTĘP HODOWLANY Podsumowanie: Selekcja to wybór zwierząt na rodziców następnych pokoleń hodowlanych Selekcja będzie skuteczna jeśli spowoduje postęp hodowlany Wielkość postępu hodowlanego zależy od dokładności oceny wartości hodowlanej, intensywności selekcji i zmienności genetycznej cechy Znając te wielkości można oszacować oczekiwany postęp hodowlany Zrealizowany postęp hodowlany można ocenić po pewnym okresie prowadzenia programu hodowlanego Oblicza się go jako współczynnik regresji wartości hodowlanej kolejnych roczników populacji względem czasu Zrealizowany postęp hodowlany to inaczej trend genetyczny
Skutek efektywnej selekcji TREND GENETYCZNY Dokładna ocena buhajów Trafny wybór na ojców Z roku na rok rośnie średnia wartość hodowlana populacji pojawia się trend genetyczny Potomstwo lepsze genetycznie Trzeba dopasować model y ijk h i s j e ijk y ijkl h i a j s jk e ijkl a j efekt roku urodzenia buhaja (de facto: średnia wartość hodowlana buhajów urodzonych w roku j) Oceny dodatkowych efektów genetycznych umożliwia metoda BLUP
INFORMATYKA W SELEKCJI - TREND GENETYCZNY Wyniki oceny metodą BLUP z modelem, uwzględniającym grupy genetyczne, utworzone ze względu na rok urodzenia ocenianych zwierząt Aby ocenić trend genetyczny oblicza się współczynnik regresji ocen efektów grup genetycznych na czas
INFORMATYKA W SELEKCJI - TREND GENETYCZNY Mleko - trend genetyczny 4000 3900 3800 3700 3600 3500 3400 y = 4,4026x + 3715,8 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 Mleko - wartość hodowlana Rocznik (grupa genetyczna) W podobny sposób ocenia się trendy środowiskowe dla konkretnych efektów, np. stada-roku, ujętych w modelu (oblicza się współczynniki regresji ocen tych efektów względem czasu)
INFORMATYKA W SELEKCJI Dodatek specjalny - WIZUALIZACJA Wykresy Graficzne przedstawienie danych i wyników Identyfikacja błędów (dane odstające) Określenie rozkładu empirycznego (histogram, box-plot) Wizualna ocena dopasowania linii regresji Prezentacja wyników analizy wariancji (box-plot) itp.
INFORMATYKA W SELEKCJI HISTOGRAM - ilustruje rozkład empiryczny 0,25 0,2 0,15 EXCEL? 0,1 0,05 0 1 2 3 4 5 6 7 8 9 10 PRÓBA: konstruuje się szereg rozdzielczy (klasy wartości) rozkład przedstawia częstości wartości w klasach może być skośny mogą być braki wartości
INFORMATYKA W SELEKCJI BOX-PLOT - na jednym rysunku informacje dotyczące położenia, rozproszenia i kształtu rozkładu empirycznego cechy
INFORMATYKA W SELEKCJI Współczynniki korelacji Pearsona i Spearmana przy zależności liniowej, nieliniowej i danych odstających (kwartet Anscombe a) r xy = 0,816 xy = 0,818 r xy = 0,816 xy = 0,691 r xy = 0,816 xy = 0,991 r xy = 0,816 xy = 0,500
INFORMATYKA W SELEKCJI Wizualna ocena dopasowania regresji y 3 0, 5x Niedopasowanie widać gołym okiem
INFORMATYKA W SELEKCJI Wizualizacja danych w pakiecie SAS
SAS PROCEDURY UMOŻLIWIAJĄCE WIZUALIZACJĘ DANYCH univariate chart plot Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA UNIVARIATE /* wczytywanie danych */ data jagnieta ; infile I:/informatyka/dane.txt ; input nr masac wiek ; run ; /* wizualizacja 1 */ proc univariate data=jagnieta ; var masac wiek ; histogram ; run ; WYKRES Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA UNIVARIATE /* wizualizacja 2 */ proc univariate data=jagnieta ; var masac wiek ; histogram masac / midpoints=10 to 50 by 4 ; histogram wiek / midpoints=20 to 50 by 2 ; run ; WYKRES O ZDEFINIOWANEJ SZEROKOŚCI KOLUMN Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA UNIVARIATE /* wizualizacja 3 */ proc univariate data=jagnieta ; var masac wiek ; histogram masac / normal (color=red mu=30 sigma=5 fill) midpoints=10 to 50 by 4 ; histogram wiek / normal (color=red mu=35 sigma=5 fill) midpoints=20 to 50 by 2 ; run ; ZDEFINIOWANA SZEROKOŚĆ KOLUMN ROZKŁAD NORMALNY O DANYM KOLORZE LINII, ŚREDNIEJ I ODCHYLENIU STANDARDOWYM Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA CHART /* wizualizacja 4 */ proc chart data=jagnieta ; vbar wiek ; title 'wiek jagniat' ; run ; WYKRES KOLUMNOWY DLA WIEKU /* wizualizacja 5 */ proc chart data=jagnieta ; block masac ; title 'masa ciala jagniat' ; run ; WYKRES 3-WYMIAROWY DLA MASY CIALA Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA CHART /* wizualizacja 6 */ proc chart data=jagnieta ; vbar wiek / type=percent ; title 'wiek jagniat w %' ; run ; WYKRES KOLUMNOWY DLA WIEKU PRZEDSTAWIONEGO W % /* wizualizacja 7 */ proc chart data=jagnieta ; block masac / type=cfreq ; title 'ciala jagniat kumulowana frekwencja' ; run ; WYKRES 3-WYMIAROWY DLA KUMULOWANEJ FREKWENCJI MASY CIALA Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA PLOT /* wizualizacja 10 */ proc plot data=jagnieta ; plot masac*wiek='*' ; title 'masa ciala i wiek jagniat' ; run ; WYKRES PUNKTOWY DLA WIEKU I MASY CIAŁA Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA PLOT /* wizualizacja 11 */ proc plot data=jagnieta ; plot masac*wiek='*' $ nr ; title 'masa ciala i wiek jagniat' ; run ; WYKRES PUNKTOWY DLA WIEKU I MASY CIAŁA Z NUMERAMI OBSERWACJI Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA PLOT /* wizualizacja 12 */ proc plot data=jagnieta ; plot wiek*nr='*' ; plot masac*nr='o' ; plot wiek*nr='*' masac*nr='o' / overlay ; title 'wykres dla zbioru danych jagniat' ; title2 'masa ciala i wiek' ; run ; ROZŁĄCZNE I WSPÓLNE WYKRESY DLA WIEKU I MASY CIAŁA Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA PLOT /* wizualizacja 12 */ options nodate pageno=1 linesize=100 pagesize=50; proc plot data=jagnieta ; plot wiek*nr='*' ; plot masac*nr='o' ; plot wiek*nr='*' masac*nr='o' / overlay ; title 'wykres dla zbioru danych jagniat' ; title2 'masa ciala i wiek' ; run ; DEFINIOWANIE WIELKOŚCI WYKRESU Oprac. na podst. wykładu dra T. Suchockiego 2012
PROCEDURA REG PROGRAM UZUPEŁNIENIA /* dopasowanie prostej regresji */ proc reg data=tluszcz ; model ztl=masac ; plot ztl*masac ; run ; Oprac. na podst. wykładu dra T. Suchockiego 2012
Wizualizacja danych w pakiecie R INFORMATYKA W SELEKCJI
R - TWORZENIE WYKRESÓW zastosowanie pętli #wykres zaleznosci wzrostu od masy plot(animals$wzrost,animals$masa,xlab="wzrost",ylab= "masa",main="wykres rozrzutu") #histogram masy i wzrostu hist(animals$wzrost,prob=t,nclass=7,ylim=c(0,0.1), xlab="masa",ylab= czestotliwosc",main="histogram") lines(density(animals$wzrost,kernel=c("gaussian")), col="red") hist(animals$masa,prob=t,nclass=7,ylim=c(0,0.05), xlab="masa",ylab="czestotliwosc",main="histogram") lines(density(animals$masa),col="red") Oprac. na podst. wykładu dra T. Suchockiego 2012
ANALIZA DANYCH # jednoczynnikowa analiza wariancji a <- (aov(zbial~dod)) summary(a) print(model.tables(a,"means"),digits=3) boxplot(zbial~dod) jednoczynnikowa analiza wariancji wyniki w formie liczbowej wykres Oprac. na podst. wykładu dra T. Suchockiego 2012
WYNIKI Tables of means Grand mean 3.029444 dod 1 2 3 2.60 3.50 2.99 średnia ogólna średnie zawartości białka w grupach żywieniowych Oprac. na podst. wykładu dra T. Suchockiego 2012
WYKRES - 5 number data summary boxplot maksimum 3 kwartyl: 75% danych mediana: 50% danych 1 kwartyl: 25% danych minimum obserwacja odstająca Oprac. na podst. wykładu dra T. Suchockiego 2012
INFORMATYKA W SELEKCJI EXCEL? szeroki wybór wbudowanej grafiki z możliwością modyfikacji Na przykład wykresu box-plot nie ma w ofercie Excela Ale łatwo można go stworzyć Na ćwiczeniach zajmiemy się oceną trendów genetycznych. Wyniki przedstawimy na wykresach. ZAPRASZAM!