INFORMATYKA W SELEKCJI



Podobne dokumenty
INFORMATYKA W SELEKCJI

Informatyka w selekcji - Wykªad 4

Pozyskiwanie wiedzy z danych

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

PAKIETY STATYSTYCZNE

PAKIETY STATYSTYCZNE

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Szacowanie wartości hodowlanej. Zarządzanie populacjami

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

KORELACJE I REGRESJA LINIOWA

METODY STATYSTYCZNE W BIOLOGII

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Statystyczne metody analizy danych. Agnieszka Nowak - Brzezińska

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Próba własności i parametry

STATYSTYKA MATEMATYCZNA

Estymacja punktowa i przedziałowa

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Wykład 5: Statystyki opisowe (część 2)

Wykład 4: Statystyki opisowe (część 1)

Z-LOG-033I Statystyka Statistics

PDF created with FinePrint pdffactory Pro trial version

Statystyki opisowe i szeregi rozdzielcze

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Z-0033z Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki. Stacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

Z-LOGN1-006 Statystyka Statistics

1 Podstawy rachunku prawdopodobieństwa

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Z-ZIPN1-004 Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki Niestacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski wersja /13:40

wolne wolne wolne wolne

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

MODELE LINIOWE. Dr Wioleta Drobik

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Wykład 3. Rozkład normalny

Statystyka Matematyczna Anna Janicka

Wprowadzenie do analizy korelacji i regresji

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Ocena wartości hodowlanej buhajów rasy simentalskiej. Sierpień

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

STATYSTYKA MATEMATYCZNA

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Statystyka matematyczna i ekonometria

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Ocena wartości hodowlanej buhajów rasy simentalskiej

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

INFORMATYKA W SELEKCJI

Zawartość. Zawartość

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

You created this PDF from an application that is not licensed to print to novapdf printer (

S t a t y s t y k a, część 3. Michał Żmihorski

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide.

S YLABUS MODUŁU (PRZEDMIOTU) I nformacje ogólne. Nie dotyczy

MATEMATYKA3 Mathematics3. Elektrotechnika. I stopień ogólnoakademicki. studia stacjonarne. Katedra Matematyki dr Zdzisław Piasta

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

4.2. Statystyczne opracowanie zebranego materiału

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Analiza współzależności zjawisk

Badanie normalności rozkładu

W tym celu korzystam z programu do grafiki wektorowej Inkscape 0.46.

I. OGÓLNE INFORMACJE PODSTAWOWE O PRZEDMIOCIE. Nie dotyczy. podstawowy i kierunkowy

Nowoczesne techniki matematyczne, statystyczne i informatyczne

Rozkłady zmiennych losowych

Matematyka stosowana w geomatyce Nazwa modułu w języku angielskim Applied Mathematics in Geomatics Obowiązuje od roku akademickiego 2012/2013

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Podstawowa charakterystyka statystyczna

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

PAKIETY STATYSTYCZNE

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Z poprzedniego wykładu

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

CECHY ILOŚCIOWE PARAMETRY GENETYCZNE

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Transkrypt:

INFORMATYKA W SELEKCJI

INFORMATYKA W SELEKCJI - zagadnienia 1. Dane w pracy hodowlanej praca z dużym zbiorem danych (Excel) 2. Podstawy pracy z relacyjną bazą danych w programie MS Access 3. Systemy statystyczne na przykładzie pakietu SAS i bezpłatnego pakietu R Z pomocą narzędzi programów Excel, SAS, R: 4. Wykorzystanie zależności zmiennych w selekcji regresja 5. Analiza wariancji z modelem stałym i losowym (ocena h 2 ) 6. Ocena wartości hodowlanej z modelem mieszanym 7. Ocena efektów selekcji (m.in. trendu genetycznego)

METODY HODOWLANE INFORMATYKA W SELEKCJI I. SZACOWANIE PARAMETRÓW GENETYCZNYCH II. OCENA WARTOŚCI HODOWLANEJ III. SELEKCJA Miarą skuteczności selekcji jest POSTĘP HODOWLANY Oczekiwany postęp hodowlany wynika ze wzoru: G R s G

SELEKCJA I POSTĘP HODOWLANY Pokolenie wyjściowe P 0 Wybrani rodzice Genetyczna wyższość wybranych rodziców nad P 0 Średni wiek w chwili urodzenia potomka* Pokolenie następne P 1 BUHAJE KROWY Ojcowie buhajów Ojcowie krów Matki buhajów Matki krów I BB I BK I KB I KK T BB T BK T KB T KK Buhaje Krowy Postęp hodowlany może być przekazywany wieloma ścieżkami selekcyjnymi: G' I T BB BB I T BK BK I T KB KB I T KK KK * T to tzw. odstęp pokoleń

SELEKCJA I POSTĘP HODOWLANY Oczekiwany postęp hodowlany na każdej ścieżce obliczamy wg wzoru: G r R s G I KK R KK s KK G I BK R BK s BK G I KB R KB s KB G I BB R BB s BB G Obliczenia oparte są na założeniach programu hodowlanego, wymagają znajomości wartości parametrów genetycznych i organizacyjnych populacji Oczekiwany postęp hodowlany w populacji wynosi: G' I T BB BB I T BK BK I T KB KB I T KK KK

SELEKCJA I POSTĘP HODOWLANY Podsumowanie: Selekcja to wybór zwierząt na rodziców następnych pokoleń hodowlanych Selekcja będzie skuteczna jeśli spowoduje postęp hodowlany Wielkość postępu hodowlanego zależy od dokładności oceny wartości hodowlanej, intensywności selekcji i zmienności genetycznej cechy Znając te wielkości można oszacować oczekiwany postęp hodowlany Zrealizowany postęp hodowlany można ocenić po pewnym okresie prowadzenia programu hodowlanego Oblicza się go jako współczynnik regresji wartości hodowlanej kolejnych roczników populacji względem czasu Zrealizowany postęp hodowlany to inaczej trend genetyczny

Skutek efektywnej selekcji TREND GENETYCZNY Dokładna ocena buhajów Trafny wybór na ojców Z roku na rok rośnie średnia wartość hodowlana populacji pojawia się trend genetyczny Potomstwo lepsze genetycznie Trzeba dopasować model y ijk h i s j e ijk y ijkl h i a j s jk e ijkl a j efekt roku urodzenia buhaja (de facto: średnia wartość hodowlana buhajów urodzonych w roku j) Oceny dodatkowych efektów genetycznych umożliwia metoda BLUP

INFORMATYKA W SELEKCJI - TREND GENETYCZNY Wyniki oceny metodą BLUP z modelem, uwzględniającym grupy genetyczne, utworzone ze względu na rok urodzenia ocenianych zwierząt Aby ocenić trend genetyczny oblicza się współczynnik regresji ocen efektów grup genetycznych na czas

INFORMATYKA W SELEKCJI - TREND GENETYCZNY Mleko - trend genetyczny 4000 3900 3800 3700 3600 3500 3400 y = 4,4026x + 3715,8 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 Mleko - wartość hodowlana Rocznik (grupa genetyczna) W podobny sposób ocenia się trendy środowiskowe dla konkretnych efektów, np. stada-roku, ujętych w modelu (oblicza się współczynniki regresji ocen tych efektów względem czasu)

INFORMATYKA W SELEKCJI Dodatek specjalny - WIZUALIZACJA Wykresy Graficzne przedstawienie danych i wyników Identyfikacja błędów (dane odstające) Określenie rozkładu empirycznego (histogram, box-plot) Wizualna ocena dopasowania linii regresji Prezentacja wyników analizy wariancji (box-plot) itp.

INFORMATYKA W SELEKCJI HISTOGRAM - ilustruje rozkład empiryczny 0,25 0,2 0,15 EXCEL? 0,1 0,05 0 1 2 3 4 5 6 7 8 9 10 PRÓBA: konstruuje się szereg rozdzielczy (klasy wartości) rozkład przedstawia częstości wartości w klasach może być skośny mogą być braki wartości

INFORMATYKA W SELEKCJI BOX-PLOT - na jednym rysunku informacje dotyczące położenia, rozproszenia i kształtu rozkładu empirycznego cechy

INFORMATYKA W SELEKCJI Współczynniki korelacji Pearsona i Spearmana przy zależności liniowej, nieliniowej i danych odstających (kwartet Anscombe a) r xy = 0,816 xy = 0,818 r xy = 0,816 xy = 0,691 r xy = 0,816 xy = 0,991 r xy = 0,816 xy = 0,500

INFORMATYKA W SELEKCJI Wizualna ocena dopasowania regresji y 3 0, 5x Niedopasowanie widać gołym okiem

INFORMATYKA W SELEKCJI Wizualizacja danych w pakiecie SAS

SAS PROCEDURY UMOŻLIWIAJĄCE WIZUALIZACJĘ DANYCH univariate chart plot Oprac. na podst. wykładu dra T. Suchockiego 2012

PROCEDURA UNIVARIATE /* wczytywanie danych */ data jagnieta ; infile I:/informatyka/dane.txt ; input nr masac wiek ; run ; /* wizualizacja 1 */ proc univariate data=jagnieta ; var masac wiek ; histogram ; run ; WYKRES Oprac. na podst. wykładu dra T. Suchockiego 2012

PROCEDURA UNIVARIATE /* wizualizacja 2 */ proc univariate data=jagnieta ; var masac wiek ; histogram masac / midpoints=10 to 50 by 4 ; histogram wiek / midpoints=20 to 50 by 2 ; run ; WYKRES O ZDEFINIOWANEJ SZEROKOŚCI KOLUMN Oprac. na podst. wykładu dra T. Suchockiego 2012

PROCEDURA UNIVARIATE /* wizualizacja 3 */ proc univariate data=jagnieta ; var masac wiek ; histogram masac / normal (color=red mu=30 sigma=5 fill) midpoints=10 to 50 by 4 ; histogram wiek / normal (color=red mu=35 sigma=5 fill) midpoints=20 to 50 by 2 ; run ; ZDEFINIOWANA SZEROKOŚĆ KOLUMN ROZKŁAD NORMALNY O DANYM KOLORZE LINII, ŚREDNIEJ I ODCHYLENIU STANDARDOWYM Oprac. na podst. wykładu dra T. Suchockiego 2012

PROCEDURA CHART /* wizualizacja 4 */ proc chart data=jagnieta ; vbar wiek ; title 'wiek jagniat' ; run ; WYKRES KOLUMNOWY DLA WIEKU /* wizualizacja 5 */ proc chart data=jagnieta ; block masac ; title 'masa ciala jagniat' ; run ; WYKRES 3-WYMIAROWY DLA MASY CIALA Oprac. na podst. wykładu dra T. Suchockiego 2012

PROCEDURA CHART /* wizualizacja 6 */ proc chart data=jagnieta ; vbar wiek / type=percent ; title 'wiek jagniat w %' ; run ; WYKRES KOLUMNOWY DLA WIEKU PRZEDSTAWIONEGO W % /* wizualizacja 7 */ proc chart data=jagnieta ; block masac / type=cfreq ; title 'ciala jagniat kumulowana frekwencja' ; run ; WYKRES 3-WYMIAROWY DLA KUMULOWANEJ FREKWENCJI MASY CIALA Oprac. na podst. wykładu dra T. Suchockiego 2012

PROCEDURA PLOT /* wizualizacja 10 */ proc plot data=jagnieta ; plot masac*wiek='*' ; title 'masa ciala i wiek jagniat' ; run ; WYKRES PUNKTOWY DLA WIEKU I MASY CIAŁA Oprac. na podst. wykładu dra T. Suchockiego 2012

PROCEDURA PLOT /* wizualizacja 11 */ proc plot data=jagnieta ; plot masac*wiek='*' $ nr ; title 'masa ciala i wiek jagniat' ; run ; WYKRES PUNKTOWY DLA WIEKU I MASY CIAŁA Z NUMERAMI OBSERWACJI Oprac. na podst. wykładu dra T. Suchockiego 2012

PROCEDURA PLOT /* wizualizacja 12 */ proc plot data=jagnieta ; plot wiek*nr='*' ; plot masac*nr='o' ; plot wiek*nr='*' masac*nr='o' / overlay ; title 'wykres dla zbioru danych jagniat' ; title2 'masa ciala i wiek' ; run ; ROZŁĄCZNE I WSPÓLNE WYKRESY DLA WIEKU I MASY CIAŁA Oprac. na podst. wykładu dra T. Suchockiego 2012

PROCEDURA PLOT /* wizualizacja 12 */ options nodate pageno=1 linesize=100 pagesize=50; proc plot data=jagnieta ; plot wiek*nr='*' ; plot masac*nr='o' ; plot wiek*nr='*' masac*nr='o' / overlay ; title 'wykres dla zbioru danych jagniat' ; title2 'masa ciala i wiek' ; run ; DEFINIOWANIE WIELKOŚCI WYKRESU Oprac. na podst. wykładu dra T. Suchockiego 2012

PROCEDURA REG PROGRAM UZUPEŁNIENIA /* dopasowanie prostej regresji */ proc reg data=tluszcz ; model ztl=masac ; plot ztl*masac ; run ; Oprac. na podst. wykładu dra T. Suchockiego 2012

Wizualizacja danych w pakiecie R INFORMATYKA W SELEKCJI

R - TWORZENIE WYKRESÓW zastosowanie pętli #wykres zaleznosci wzrostu od masy plot(animals$wzrost,animals$masa,xlab="wzrost",ylab= "masa",main="wykres rozrzutu") #histogram masy i wzrostu hist(animals$wzrost,prob=t,nclass=7,ylim=c(0,0.1), xlab="masa",ylab= czestotliwosc",main="histogram") lines(density(animals$wzrost,kernel=c("gaussian")), col="red") hist(animals$masa,prob=t,nclass=7,ylim=c(0,0.05), xlab="masa",ylab="czestotliwosc",main="histogram") lines(density(animals$masa),col="red") Oprac. na podst. wykładu dra T. Suchockiego 2012

ANALIZA DANYCH # jednoczynnikowa analiza wariancji a <- (aov(zbial~dod)) summary(a) print(model.tables(a,"means"),digits=3) boxplot(zbial~dod) jednoczynnikowa analiza wariancji wyniki w formie liczbowej wykres Oprac. na podst. wykładu dra T. Suchockiego 2012

WYNIKI Tables of means Grand mean 3.029444 dod 1 2 3 2.60 3.50 2.99 średnia ogólna średnie zawartości białka w grupach żywieniowych Oprac. na podst. wykładu dra T. Suchockiego 2012

WYKRES - 5 number data summary boxplot maksimum 3 kwartyl: 75% danych mediana: 50% danych 1 kwartyl: 25% danych minimum obserwacja odstająca Oprac. na podst. wykładu dra T. Suchockiego 2012

INFORMATYKA W SELEKCJI EXCEL? szeroki wybór wbudowanej grafiki z możliwością modyfikacji Na przykład wykresu box-plot nie ma w ofercie Excela Ale łatwo można go stworzyć Na ćwiczeniach zajmiemy się oceną trendów genetycznych. Wyniki przedstawimy na wykresach. ZAPRASZAM!