IFORMATYKA W SELEKCJI
IFORMATYKA W SELEKCJI - zagadnena. Dane w prac hodowlanej praca z dużm zborem danch (Ecel). Podstaw prac z relacjną bazą danch w programe MS Access 3. Sstem statstczne na przkładze paketu SAS bezpłatnego paketu R Z pomocą narzędz programów Ecel, SAS, R: 4. Wkorzstane zależnośc zmennch w selekcj regresja 5. Analza warancj z modelem stałm losowm (np. ocena h ) 6. Ocena wartośc hodowlanej z modelem meszanm 7. Ocena efektów selekcj (m.n. trendu genetcznego)
IFORMATYKA W SELEKCJI Populacja Osobnk Cecha wd. mleka Cecha X zaw. tłuszczu Cecha Y długość laktacj tempo wzrostu przrost dzenn wdajność rzeźna wsokość w kłębe skuteczność nsemnacj Poszczególne cech mogą bć współzależne Zależność cech można określć matematczne
IFORMATYKA W SELEKCJI - współcznnk korelacj Zależność statstczna zmennch nos nazwę KORELACJI Welkość (słę) zależnośc merz WSPÓŁCZYIK KORELACJI Dla cech loścowch jest to najczęścej WSPÓŁCZYIK KORELACJI LIIOWEJ PEARSOA r cov(, ) cov(, ) Merz słę zależnośc dwóch zmennch losowch X Y Pod warunkem, że: zmenne są cągłe mają rozkład normaln zależność jest lnowa r przjmuje wartośc z przedzału [ -, ]
OBLICZAIE współcznnka korelacj lnowej Zależność cech współcznnk korelacj lnowej Przkład: Badam zależność wzrostu rozmaru obuwa WZROST (cm) DŁ. STOPY (cm) 85 8 79 7 58 4 6 3 9 9 () Wdać LIIOWY charakter zależnośc 3 3 9 8 7 6 5 4 3 58 6 65 73 75 79 8 85 88 9 73 5 () Oblczene współcznnka korelacj 8 9 75 5 88 3 65 3 r cov(, ),9
IFORMATYKA W SELEKCJI - zależność zmennch KORELACJA określane sł zależnośc (podobeństwa) zmennch Jeśl zmenne są zależne można próbować przewdzeć wartośc jednej zmennej na podstawe wartośc przjmowanch przez drugą REGRESJA (a) określane modelu zależnośc zmennch (b) wkorzstane tego modelu do przewdwana wartośc neznanch na podstawe wartośc obserwowanch (zmerzonch) Tak matematczn model zależnośc nos nazwę równana regresj
Wkorzstane zależnośc cech - regresja WZROST X STOPA Y 85 8 79 7 58 4 6 3 9 9 73 5 8 9 75 5 88 3 65 3 Długość stop zależ od wzrostu człoweka Chcelbśm przewdzeć długość stop znając wzrost 3 3 9 8 7 6 5 4 3 58 6 65 73 75 79 8 85 88 9 Żeb przewdwać wartośc Y na podstawe X trzeba znaleźć lnę prostą jak najlepej dopasowaną do zboru punktów Wzór określając tę prostą w układze współrzędnch to RÓWAIE REGRESJI matematczn model zależnośc cech Y od cech X
IFORMATYKA W SELEKCJI - regresja prosta Równane regresj b( ) lub a b a b b? wraz woln, punkt przecęca z osą współcznnk regresj Współcznnk regresj mus bć tak, żeb dopasowane modelu (ln) bło jak nalepsze!
IFORMATYKA W SELEKCJI - regresja prosta 3 3 9 8 7 6 5 4 3 58 6 65 73 75 79 8 85 88 9 A jak wbrać lnę najlepej dopasowaną do zboru punktów? METODĄ AJMIEJSZYCH KWADRATÓW
IFORMATYKA W SELEKCJI - regresja prosta 3 3 9 8 wartość rzeczwsta 7 6 5 wartość teoretczna ŷ 4 3 58 6 65 73 75 79 8 85 88 9 Metoda najmnejszch kwadratów tak sposób oblczeń, żeb suma kwadratów odchleń wartośc rzeczwstch od teoretcznch bła mnmalna (opart na rachunku różnczkowm)
IFORMATYKA W SELEKCJI regresja prosta a b Prosta regresj będze dopasowana metodą najmnejszch kwadratów, jeśl współcznnk regresj oblczm według wzoru: b cov(, ) Jest to defncja współcznnka regresj lnowej Matematczne: b to tangens kąta nachlena prostej do os X, zaś a to punkt przecęca z osą Y
IFORMATYKA W SELEKCJI - regresja prosta Zwązek współcznnków regresj korelacj lnowej b cov(, ) r bo r cov(, ) Współcznnk regresj nformuje, o le zmen sę wartość zmennej, jeśl wartość zmennej zmen sę o zmenna objaśnana, zmenna zależna zmenna objaśnająca, zmenna nezależna
IFORMATYKA W SELEKCJI - regresja prosta WZROST X STOPA Y Skonstruujem równane regresj dla naszego przkładu 85 8 79 7 58 4 6 3 9 9 73 5 8 9 75 5 88 3 65 3 3 3 9 8 7 6 5 4 3 58 6 65 73 75 79 8 85 88 9
IFORMATYKA W SELEKCJI - regresja prosta WZROST X STOPA Y 85 8 79 7 58 4 6 3 9 9 73 5 8 9 75 5 88 3 65 3 75,3 6,3 b. Oblczam współcznnk regresj b: cov(, ). Oblczam wraz woln: a b,5 3. Uzskujem równane regresj:,5,,
IFORMATYKA W SELEKCJI - regresja prosta 3 3 9 8 7 6 5,,5 ACHYLEIE 4 3 58 6 65 73 75 79 8 85 88 9 Wstawając w równanu różne wartośc wzrostu () otrzmujem odpowadające m teoretczne długośc stop ()
n ˆ IFORMATYKA W SELEKCJI - regresja prosta Ocena DOPASOWAIA regresj n R zmenność wartośc teoretcznch WSPÓŁCZYIK DETERMIACJI n n ˆ zmenność wartośc rzeczwstch nformuje, jaka część rzeczwstej zmennośc została wjaśnona przez równane regresj przjmuje wartośc od do ; m blższ tm lepsze dopasowane modelu regresj
Ocena dopasowana regresj IFORMATYKA W SELEKCJI - regresja prosta WZROST X STOPA Y 85 8 79 7 58 4 6 3 9 9 3 3 9 8 7 6 5 4 3 ˆ,,5 58 6 65 73 75 79 8 85 88 9 73 5 8 9 75 5 88 3 65 3 R n n ˆ,85 Suuuper dopasowane
IFORMATYKA W SELEKCJI - regresja Weloman. stopna Regresja ne mus bć zawsze prostolnowa to najprostsz przpadek ogólnej regresj welomanowej a b. stopna 3. stopna a b b a b 3 b b3
Populacja welocechowa Populacja Osobnk Cecha wd. mleka zaw. tłuszczu długość laktacj tempo wzrostu przrost dzenn wdajność rzeźna wsokość w kłębe skuteczność nsemnacj Wkorzstane zależnośc welu zmennch regresja welokrotna
IFORMATYKA W SELEKCJI regresja welokrotna Regresja welokrotna pozwala przewdwać na podstawe klku powązanch zmennch, n Waga X Wzrost X Stopa Y 66 58 4 59 6 3 67 65 3 73 73 5 77 75 5 88 79 7 8 8 9 89 85 8 88 3 93 9 9 b...... 9 b b... 9... 9 b b b albo Zaps macerzow przejrzstość Rachunek macerzow oblczene welu newadomch jednocześne Y X
Zaps macerzow równań modelu meszanego 5 4 3 3 5 4 3 e e e e e s s s h h wektor obserwacj wektor efektów stałch wektor efektów specfcznch wektor efektów losowch macerz wstąpeń efektów stałch macerz wstąpeń efektów losowch X a Z g e jk j jk e s h IFORMATYKA W SELEKCJI regresja welokrotna
X a Z g e = Xa + Zg + e + + Zaps macerzow równań modelu meszanego 5 4 3 3 5 4 3 e e e e e s s s h h = jk j jk e s h IFORMATYKA W SELEKCJI regresja welokrotna
IFORMATYKA W SELEKCJI Próba Wartośc oblczone z prób to ESTYMATORY, np. średna n 45 n Uzskane wartośc estmatorów są podstawą hpotez, np. H : µ = 5 H A : µ 5 Hpotez werfkujem za pomocą testów statstcznch, zakładając prawdzwość hpotez zerowej, np. testem t t s Jeśl uzskam wartość bardzo mało prawdopodobną (np. p value <,5) odrzucam hpotezę zerową. Oszacowane współcznnk korelacj regresj to równeż ESTYMATORY! n
Zależność cech stotność korelacj lnowej TESTOWAIE współcznnka korelacj lnowej (estmator r =,9) r t r ~ t W przkładze: t = 6,64, p-value =,6, Wnk testu: odrzucam H (wstępuje wsoka dodatna korelacja mędz wzrostem a długoścą stop)
Istotność regresj Badane ISTOTOŚCI regresj F ( ˆ ˆ b b ) Ta statstka ma rozkład F o v = b - v = - b stopnach swobod średna zmenność wartośc wjaśnona przez równane regresj średna zmenność wartośc ne wjaśnona przez równane regresj (średn błąd) lczba par obserwacj, b lczba współcznnków równana regresj (np. dla równana regresj prostej = a + b b = )
Istotność regresj Równane regresj do przewdwana długośc stop na podstawe wzrostu ˆ,,5 R,85 Dopasowane OK, ale cz współcznnk regresj jest statstczne stotn? F ˆ ( ˆ b b ) 54,865 3,63 3,3 p-value =,465 Wnk testu?
IFORMATYKA W SELEKCJI Wkorzstane zależnośc zmennch w hodowl selekcj (I) Podstawa metod hodowlanch: zależność (podobeństwo) wartośc hodowlanej wartośc fenotpowej cech P = G + E Współcznnk korelacj tch wartośc można wznaczć np. metodą WSPÓŁCZYIKA ŚCIEŻKI, G podobne jak pokreweństwo (wsp. korelacj wartośc hodowlanch osobnków spokrewnonch). Welkośc te wkorzstuje sę w ocene wartośc hodowlanej (II) Podobeństwo wdajnośc krewnch wrażone współcznnkem korelacj wewnątrzklasowej jest podstawą szacowana parametrów genetcznch h P
IFORMATYKA W SELEKCJI Wkorzstane zależnośc zmennch w hodowl selekcj cd. (III) Ocena wartośc hodowlanej może bć oparta jest na równanu regresj prostej: Gˆ b( P P) Marą dokładnośc ocen jest R współcznnk korelacj ocenanej wartośc hodowlanej źródła nformacj (IV) Indeks selekcjn, łącząc różne źródła nformacj, opart jest na równanu regresj welokrotnej P źródło nformacj I = b X + b X +... + b n X n Do oblczena współcznnków regresj cząstkowej potrzebne są korelacje mędz źródłam nformacj oraz mędz nm ocenaną wartoścą hodowlaną.
IFORMATYKA W SELEKCJI Wkorzstane zależnośc zmennch w hodowl selekcj cd. (V) W ocenach opartch na modelach meszanch uwzględnającch strukturę populacj oraz zależność efektów genetcznch (np. BLUP) stosuje sę regresję welokrotną włącza do oblczeń np. macerz spokrewneń X'X Z'X (VI) Selekcja oczekwan postęp hodowlan zależ od dokładnośc ocen R X'Z aˆ X' Z'Z A k gˆ Z' G W selekcj pośrednej wkorzstuje sę reakcję skorelowaną, wnkającą z korelacj genetcznej cech Ocena zrealzowanego postępu hodowlanego oparta jest na regresj ocen kolejnch rocznków względem czasu (trend genetczn) R s G
IFORMATYKA W SELEKCJI arzędza nformatczne do ocen korelacj regresj
SAS PROCEDURA REG - PROGRAM MASA CIAŁA (kg) ZAW TŁUSZCZU (mm) 89 8 88 7 66 4 59 3 93 9 73 5 8 9 data tluszcz; nfle I:/nformatka/dane.tt ; nput masac ztl; run ; proc reg data=tluszcz ; model ztl=masac ; run ; 77 5 3 67 3 a b Oprac. na podst. wkładu dra T. Suchockego
SAS PROCEDURA REG - WYIKI The REG Procedure Model: MODEL Dependent Varable: ztl Observatons Read Observatons Used Informacje o modelu, specfkacja zmennej zależnej Lczba obserwacj Analss of Varance Podzał zmennośc w równanu regresj test F Sum of Mean Source DF Squares Square F Value Pr > F Model 54.3566 54.3566 55.8 <. Error 8 7.78434.9734 Cor. 9 6. Total Root MSE.98643 R-Square.8746 Dependent Mean 6.3 Adj R-Sq.859 Coeff Var 3.7568 Oprac. na podst. wkładu dra T. Suchockego
SAS PROCEDURA REG - WYIKI The REG Procedure Model: MODEL Dependent Varable: ztl Observatons Read Observatons Used Analss of Varance Sum of Mean Source DF Squares Square F Value Pr > F Model 54.3566 54.3566 55.8 <. Error 8 7.78434.9734 Cor. 9 6. Total Root MSE.98643 R-Square.8746 Dependent Mean 6.3 Adj R-Sq.859 Coeff Var 3.7568 F ˆ ˆ p-value Oprac. na podst. wkładu dra T. Suchockego
SAS PROCEDURA REG - WYIKI Parameter Estmates Parameter Standard Varable DF Estmate Error t Value Pr> t Intercept.5796.99594 5.8.4 masac.855.483 7.47 <. estmator parametrów zaw tluszczu.57 odchlene standardowe estmatora.9masa_cała t ˆ ˆ p-value, prawdopodobeń stwo odrzucena prawdzwej H,57,9 Oprac. na podst. wkładu dra T. Suchockego
IFORMATYKA W SELEKCJI arzędza nformatczne do ocen korelacj regresj
R funkcja lm regresja lnowa # cztane danch dane<read.table("g:/nformatkawselekcj/lectures/tluszcz. tt",dec=".",col.names=c('masa','ztl')) dane otwarce plku wpsane zawartośc plku na ekran # funkcja regresj lnowej r <- lm(ztl~masa, data=dane) summar(r) regresja lnowa # wkres równana regresj plot(dane) ablne(r) wnk wkres danch prostej regresj Oprac. na podst. wkładu dra T. Suchockego
R funkcja lm - WYIKI Coeffcents: Estmate Std.Error t value Pr(> t ) (Intercept).5796.99594 5.797.46 *** masa.855.483 7.47 7.e-5 *** estmator parametrów tluszcz.57 odchlene standardowe.9masa_cała t ˆ ˆ,57,9 Oprac. na podst. wkładu dra T. Suchockego
Multple R-squared:.8746 F-statstc: 55.8 on and 8 DF, p-value: 7.9e-5 ˆ wartość testu F F ˆ ˆ R funkcja lm - WYIKI Oprac. na podst. wkładu dra T. Suchockego
IFORMATYKA W SELEKCJI arzędza nformatczne do ocen korelacj regresj EXCEL Korelacja lnowa funkcje PEARSO, WSP. KORELACJI Regresja prosta funkcje REGLIP, ACHYLEIE Oblczena oraz analza statstczna korelacj regresj dostępne są w dodatku: AALIZA DAYCH PREZETACJA oblczeń w Ecelu oraz zadana do samodzelnego wkonana za chwlę na ćwczenach ZAPRASZAM!