INFORMATYKA W SELEKCJI
INFORMATYKA W SELEKCJI - zagadnienia 1. Dane w pracy hodowlanej praca z dużym zbiorem danych (Excel) 2. Podstawy pracy z relacyjną bazą danych w programie MS Access 3. Systemy statystyczne na przykładzie pakietu SAS i bezpłatnego pakietu R Z wykorzystaniem narzędzi programów Excel, SAS, R: 4. Wykorzystanie zależności cech w selekcji regresja 5. Analiza wariancji z modelem stałym i losowym (np. ocena h 2 ) 6. Ocena wartości hodowlanej z modelem mieszanym 7. Ocena efektów selekcji (m.in. trendu genetycznego)
INFORMATYKA W SELEKCJI WPROWADZENIE DO PAKIETU SAS Zasady pracy z programem Podstawy edycji danych
INFORMATYKA W SELEKCJI SAS to zintegrowany system oprogramowania, łączący: Pakiet statystyczny System zarządzania bazą danych Język programowania
SAS ANALIZA DANYCH różnorodne metody statystyczne wykonywanie wykresów bazy danych PROGRAM KOMERCYJNY roczna licencja POPRAWNOŚĆ poprawność obliczeń gwarantowana procedury stale uzupełniane
PRACA Z PROGRAMEM
PRACA Z PROGRAMEM PROGRAM EDITOR INSTRUKCJE WYKONANIE LOG BŁĘDY BRAK BŁĘDÓW OUTPUT INTERPRETACJA
PRACA Z PROGRAMEM OKNO PROGRAM EDITOR
OKNO PROGRAM EDITOR INSTRUKCJE TWORZENIE INSTRUKCJI, KTÓRE ZOSTANĄ WYKONANE PRZEZ PAKIET SAS INSTRUKCJE MUSZĄ ZAWIERAĆ: specyfikację pliku zawierającego dane format danych w pliku specyfikację metod statystycznych wpisanie instrukcji bezpośrednio w oknie skopiowanie instrukcji z zewnętrznego pliku
OKNO PROGRAM EDITOR INSTRUKCJE WPISANIE INSTRUKCJI
OKNO PROGRAM EDITOR INSTRUKCJE SKOPIOWANIE INSTRUKCJI
OKNO PROGRAM EDITOR INSTRUKCJE WYKONANIE INSTRUKCJI
PRACA Z PROGRAMEM OKNO LOG
OKNO LOG KOMUNIKATY W OKNIE LOG ZAWARTE SĄ INFORMACJE O PRZEBIEGU PROGRAMU, M. IN.: nazwa pliku zawierającego dane liczba analizowanych osobników liczba osobników z brakującymi danymi oraz informacje o ewentualnych błędach komunikaty w oknie LOG należy przeanalizować po wykonaniu instrukcji z okna PROGRAM EDITOR, a przed (!!! ) interpretacją wyników
OKNO LOG KOMUNIKATY BRAK BŁĘDU BŁĄD
PRACA Z PROGRAMEM OKNO OUTPUT
OKNO OUTPUT WYNIKI
PRZYDATNE KOMENDY ZAPISYWANIE ZAWARTOŚCI OKIEN DO PLIKU
PRZYDATNE KOMENDY PRZYWRACANIE ZAWARTOŚCI OKNA PROGRAM EDITOR USUWANIE ZAWARTOŚCI OKNA
PRZYDATNE KOMENDY PRZEŁĄCZANIE POMIĘDZY OKNAMI
PRACA Z PROGRAMEM STRUKTURA PROGRAMU
STRUKTURA PROGRAMU ZBIÓR DANYCH definicja zbioru danych wczytanie danych do programu Moduł DATA data nazwa; instrukcje opisujące dane; run; OBLICZENIA wybór procedur obliczeniowych wybór opcji dla procedur uruchomienie obliczeń Moduł PROC proc nazwa; instrukcje precyzujące procedurę; run;
STRUKTURA PROGRAMU /* wczytywanie danych */ data jagnieta ; infile I:/informatyka/dane.txt ; input nr masac wiek ; run ; /* analiza danych */ title analiza danych dla jagniat ; proc means data=jagnieta ; run; proc univariate data=jagnieta ; run ; proc sort data=jagnieta ; by WIEK ; run ;
STRUKTURA PROGRAMU /* wczytywanie danych */ data jagnieta ; infile I:/informatyka/dane.txt ; input nr masac wiek ; run ; /* analiza danych */ title analiza danych dla jagniat ; proc means data=jagnieta ; run; proc univariate data=jagnieta ; run ; proc sort data=jagnieta ; by WIEK ; run ; Nazwa zbioru danych Ścieżka do pliku Nazwy kolumn Tytuł Obliczanie średniej Obliczanie statystyk opisowych Sortowanie wg wieku
SAS PRACA Z PROGRAMEM SAS Okno PROGRAM EDITOR tworzenie programu Okno LOG komunikaty i błędy Okno OUTPUT - wyniki Przykładowy program SAS - prezentacja
INFORMATYKA W SELEKCJI Niektóre procedury SAS: proc means obliczanie średnich proc sort - sortowanie proc transpose - transpozycja układu danych proc univariate - analiza jednowymiarowych rozkładów prawdopodobieństwa (statystyka opisowa) proc corr, rank - korelacje proc reg - regresja liniowa proc anova - analiza wariancji przy równolicznych podgrupach proc glm - analiza wariancji przy nierównej liczebności grup proc mixed - szacowanie i predykcja efektów modelu mieszanego proc varcomp (method=type I, ML, REML) - szacowanie komponentów wariancji (metodą najm. kwadratów, metodami najw. wiarogodności)
INFORMATYKA W SELEKCJI Inny komercyjny system statystyczny StatSoft oferuje darmowy podręcznik internetowy: http://www.statsoft.pl/textbook/stathome.html Alternatywa? Statystyczny shareware (program darmowy), np. pakiet R
INFORMATYKA W SELEKCJI WPROWADZENIE DO PAKIETU R Zasady pracy z programem Podstawy edycji danych
R PAKIET R różnorodne metody statystyczne tworzenie własnych programów bazy danych program darmowy: http://www.r-project.org/ POPRAWNOŚĆ???
R KONSOLA PROGRAMU R
ODCZYTYWANIE DANYCH Z PLIKU komentarz # czytanie danych otwarcie pliku animals<-read.table("d:/dane.txt",dec=".") animals wypisanie zawartości pliku na ekran otwarcie pliku + nazwy kolumn animals<read.table("d:/dane.txt",dec=".",col.names=c('nr', 'masa','wzrost'))
OBLICZANIE STATYSTYK OPISOWYCH # obliczanie sumy sumamasa=sum(animals$masa) sumawzrost=sum(animals$wzrost) zastosowanie funkcji # obliczanie sredniej sredniamasa=mean(animals$masa) sredniwzrost=mean(animals$wzrost) # obliczanie odchylenia standardowego sdmasa1=sd(animals$masa) sdwzrost1=sd(animals$wzrost)
OBLICZANIE STATYSTYK OPISOWYCH zastosowanie pętli # obliczanie sumy N=50 sumamasa=0 sumawzrost=0 for (i in 1:N) { sumamasa=sumamasa+animals$masa[i] sumawzrost=sumawzrost+animals$wzrost[i] i=i+1 } wprowadzenie wzoru # obliczanie sredniej sredniamasa=sumamasa/n
OBLICZANIE STATYSTYK OPISOWYCH zastosowanie pętli # obliczanie odchylenia standardowego smasa=0 swzrost=0 for (i in 1:N) { smasa=smasa+(animals$masa[i]-sredniamasa)^2 swzrost=swzrost+(animals$wzrost[i]-sredniwzrost)^2 i=i+1 } sdmasa=sqrt(smasa/(n-1)) sdwzrost=sqrt(swzrost/(n-1))
TWORZENIE WYKRESÓW zastosowanie pętli #wykres zależnosci wzrostu od masy plot(animals$wzrost,animals$masa,xlab="wzrost",ylab= "masa",main="wykres rozrzutu") #histogram masy i wzrostu hist(animals$wzrost,prob=t,nclass=7,ylim=c(0,0.1), xlab="masa",ylab= czestotliwosc",main="histogram") lines(density(animals$wzrost,kernel=c("gaussian")), col="red") hist(animals$masa,prob=t,nclass=7,ylim=c(0,0.05), xlab="masa",ylab="czestotliwosc",main="histogram") lines(density(animals$masa),col="red")
LITERATURA http://www.r-project.org http://www.biecek.pl/r
https://cran.r-project.org/doc/contrib/biecek-r-basics.pdf
PAKIET R odczytywanie danych z pliku obliczanie prostych statystyk opisowych użycie funkcji tworzenie programu tworzenie wykresów
INFORMATYKA W SELEKCJI Od następnych ćwiczeń możliwość pracy nad indywidualnymi zbiorami danych Dane należy opracować statystycznie przy użyciu wybranego programu (SAS, R, Excel) Na ostatnich zajęciach prezentacja, omówienie i ocena projektów