INFORMATYKA W SELEKCJI

Podobne dokumenty
STATYSTYKA MATEMATYCZNA

Rachunek prawdopodobieństwa i statystyka W 11: Analizy zależnościpomiędzy zmiennymi losowymi Model regresji wielokrotnej

Badanie zależności cech

Współczynnik korelacji liniowej oraz funkcja regresji liniowej dwóch zmiennych

Przedziały ufności i testy parametrów. Przedziały ufności dla średniej odpowiedzi. Interwały prognoz (dla przyszłych obserwacji)

Przypomnienie: wykłady i zadania kursu były zaczerpnięte z podręczników: Model statystyczny Format danych

Dobór zmiennych objaśniających

Natalia Nehrebecka. Zajęcia 3

Natalia Nehrebecka. Wykład 2

RACHUNEK NIEPEWNOŚCI POMIARU

PAKIETY STATYSTYCZNE

Krzywa wieża w Pizie. SAS Data Step. Przykład (2) Wykład 13 Regresja liniowa

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Statystyka i opracowanie danych W 5: Odkrywanie i analiza zależności pomiędzy zmiennymi losowymi (danymi empirycznymi)

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada. Zajęcia 3

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Natalia Nehrebecka. Zajęcia 4

INFORMATYKA W SELEKCJI

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

CZĘŚĆ 6. MODEL REGRESJI, TREND LINIOWY ESTYMACJA, WNIOSKOWANIE

Badanie współzaleŝności dwóch cech ilościowych X i Y. Analiza korelacji prostej. Badanie zaleŝności dwóch cech ilościowych. Analiza regresji prostej

BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH - ANALIZA KORELACJI PROSTEJ


Weryfikacja hipotez dla wielu populacji

Hipotezy o istotności oszacowao parametrów zmiennych objaśniających ˆ ) ˆ

Analiza danych. Analiza danych wielowymiarowych. Regresja liniowa. Dyskryminacja liniowa. PARA ZMIENNYCH LOSOWYCH

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ

Natalia Nehrebecka. Dariusz Szymański

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

PDF created with FinePrint pdffactory Pro trial version

65120/ / / /200

Regresja liniowa i nieliniowa

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Procedura normalizacji

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Wykład 4 Testy zgodności. dystrybuanta rozkładu populacji dystrybuanty rozkładów dwóch populacji rodzaj rozkładu wartości parametrów.

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Prawdopodobieństwo i statystyka r.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Rozdział 8. Regresja. Definiowanie modelu

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Metody predykcji analiza regresji

termodynamika fenomenologiczna p, VT V, teoria kinetyczno-molekularna <v 2 > termodynamika statystyczna n(v) to jest długi czas, zachodzi

Motto. Czy to nie zabawne, że ci sami ludzie, którzy śmieją się z science fiction, słuchają prognoz pogody oraz ekonomistów? (K.

Szacowanie wartości hodowlanej. Zarządzanie populacjami

L.Kowalski zadania z rachunku prawdopodobieństwa-zestaw 4 ZADANIA - ZESTAW 4

INFORMATYKA W SELEKCJI

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Badania sondażowe. Braki danych Konstrukcja wag. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Wnioskowanie statystyczne dla korelacji i regresji.

Analiza regresji modele ekonometryczne

Egzamin ze statystyki/ Studia Licencjackie Stacjonarne/ Termin I /czerwiec 2010

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

Statystyka. Katarzyna Chudy Laskowska

Zad 2 Dynamika zatrudnienia mierzona indeksami łańcuchowymi w ostatnich pięciu latach kształtowały się następująco: Lata Indeksy ( w %)

Termodynamika techniczna

MECHANIKA 2 MOMENT BEZWŁADNOŚCI. Wykład Nr 10. Prowadzący: dr Krzysztof Polko

Ekonometria dla IiE i MSEMat Z7

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

Parametry zmiennej losowej

Termodynamika. Wydział Inżynierii Mechanicznej i Robotyki II rok inż. Pomiary temperatury Instrukcja do ćwiczenia

IID = 2. i i i i. x nx nx nx

Służą opisowi oraz przewidywaniu przyszłego kształtowania się zależności gospodarczych.

METODY HODOWLANE - zagadnienia

; -1 x 1 spełnia powyższe warunki. Ale

STATYSTYKA MATEMATYCZNA

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Analiza zależności zmiennych ilościowych korelacja i regresja

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

LINIOWA FUNKCJA PRAWDOPODOBIEŃSTWA

Katedra Genetyki i Podstaw Hodowli Zwierząt Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

; -1 x 1 spełnia powyższe warunki. Ale

ZESTAW ZADAŃ Z INFORMATYKI

Ile wynosi suma miar kątów wewnętrznych w pięciokącie?

Stanisław Cichocki. Natalia Nehrebecka. Zajęcia 1-2

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

TESTY NORMALNOŚCI. ( Cecha X populacji ma rozkład normalny). Hipoteza alternatywna H1( Cecha X populacji nie ma rozkładu normalnego).

E K O N O M E T R I A

Nieparametryczne Testy Istotności

Teoria i praktyka. Wyższa Szkoła Turystyki i Ekologii. Fizyka. WSTiE Sucha Beskidzka Fizyka

EKONOMETRIA Wykład 2: Metoda Najmniejszych Kwadratów

Prawdopodobieństwo i statystyka r.

Diagonalizacja macierzy kwadratowej

Matematyka i statystyka matematyczna dla rolników w SGGW

Natalia Nehrebecka. Dariusz Szymański

Katedra Biotechnologii i Genetyki Zwierząt, Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Zestaw zadań 4: Przestrzenie wektorowe i podprzestrzenie. Liniowa niezależność. Sumy i sumy proste podprzestrzeni.

Ntli Natalia Nehrebecka. Dariusz Szymański. Zajęcia 4

Macierz prawdopodobieństw przejścia w pojedynczym kroku dla łańcucha Markowa jest postaci

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Transkrypt:

IFORMATYKA W SELEKCJI

IFORMATYKA W SELEKCJI - zagadnena. Dane w prac hodowlanej praca z dużm zborem danch (Ecel). Podstaw prac z relacjną bazą danch w programe MS Access 3. Sstem statstczne na przkładze paketu SAS bezpłatnego paketu R Z pomocą narzędz programów Ecel, SAS, R: 4. Wkorzstane zależnośc zmennch w selekcj regresja 5. Analza warancj z modelem stałm losowm (np. ocena h ) 6. Ocena wartośc hodowlanej z modelem meszanm 7. Ocena efektów selekcj (m.n. trendu genetcznego)

IFORMATYKA W SELEKCJI Populacja Osobnk Cecha wd. mleka Cecha X zaw. tłuszczu Cecha Y długość laktacj tempo wzrostu przrost dzenn wdajność rzeźna wsokość w kłębe skuteczność nsemnacj Poszczególne cech mogą bć współzależne Zależność cech można określć matematczne

IFORMATYKA W SELEKCJI - współcznnk korelacj Zależność statstczna zmennch nos nazwę KORELACJI Welkość (słę) zależnośc merz WSPÓŁCZYIK KORELACJI Dla cech loścowch jest to najczęścej WSPÓŁCZYIK KORELACJI LIIOWEJ PEARSOA r cov(, ) cov(, ) Merz słę zależnośc dwóch zmennch losowch X Y Pod warunkem, że: zmenne są cągłe mają rozkład normaln zależność jest lnowa r przjmuje wartośc z przedzału [ -, ]

OBLICZAIE współcznnka korelacj lnowej Zależność cech współcznnk korelacj lnowej Przkład: Badam zależność wzrostu rozmaru obuwa WZROST (cm) DŁ. STOPY (cm) 85 8 79 7 58 4 6 3 9 9 () Wdać LIIOWY charakter zależnośc 3 3 9 8 7 6 5 4 3 58 6 65 73 75 79 8 85 88 9 73 5 () Oblczene współcznnka korelacj 8 9 75 5 88 3 65 3 r cov(, ),9

IFORMATYKA W SELEKCJI - zależność zmennch KORELACJA określane sł zależnośc (podobeństwa) zmennch Jeśl zmenne są zależne można próbować przewdzeć wartośc jednej zmennej na podstawe wartośc przjmowanch przez drugą REGRESJA (a) określane modelu zależnośc zmennch (b) wkorzstane tego modelu do przewdwana wartośc neznanch na podstawe wartośc obserwowanch (zmerzonch) Tak matematczn model zależnośc nos nazwę równana regresj

Wkorzstane zależnośc cech - regresja WZROST X STOPA Y 85 8 79 7 58 4 6 3 9 9 73 5 8 9 75 5 88 3 65 3 Długość stop zależ od wzrostu człoweka Chcelbśm przewdzeć długość stop znając wzrost 3 3 9 8 7 6 5 4 3 58 6 65 73 75 79 8 85 88 9 Żeb przewdwać wartośc Y na podstawe X trzeba znaleźć lnę prostą jak najlepej dopasowaną do zboru punktów Wzór określając tę prostą w układze współrzędnch to RÓWAIE REGRESJI matematczn model zależnośc cech Y od cech X

IFORMATYKA W SELEKCJI - regresja prosta Równane regresj b( ) lub a b a b b? wraz woln, punkt przecęca z osą współcznnk regresj Współcznnk regresj mus bć tak, żeb dopasowane modelu (ln) bło jak nalepsze!

IFORMATYKA W SELEKCJI - regresja prosta 3 3 9 8 7 6 5 4 3 58 6 65 73 75 79 8 85 88 9 A jak wbrać lnę najlepej dopasowaną do zboru punktów? METODĄ AJMIEJSZYCH KWADRATÓW

IFORMATYKA W SELEKCJI - regresja prosta 3 3 9 8 wartość rzeczwsta 7 6 5 wartość teoretczna ŷ 4 3 58 6 65 73 75 79 8 85 88 9 Metoda najmnejszch kwadratów tak sposób oblczeń, żeb suma kwadratów odchleń wartośc rzeczwstch od teoretcznch bła mnmalna (opart na rachunku różnczkowm)

IFORMATYKA W SELEKCJI regresja prosta a b Prosta regresj będze dopasowana metodą najmnejszch kwadratów, jeśl współcznnk regresj oblczm według wzoru: b cov(, ) Jest to defncja współcznnka regresj lnowej Matematczne: b to tangens kąta nachlena prostej do os X, zaś a to punkt przecęca z osą Y

IFORMATYKA W SELEKCJI - regresja prosta Zwązek współcznnków regresj korelacj lnowej b cov(, ) r bo r cov(, ) Współcznnk regresj nformuje, o le zmen sę wartość zmennej, jeśl wartość zmennej zmen sę o zmenna objaśnana, zmenna zależna zmenna objaśnająca, zmenna nezależna

IFORMATYKA W SELEKCJI - regresja prosta WZROST X STOPA Y Skonstruujem równane regresj dla naszego przkładu 85 8 79 7 58 4 6 3 9 9 73 5 8 9 75 5 88 3 65 3 3 3 9 8 7 6 5 4 3 58 6 65 73 75 79 8 85 88 9

IFORMATYKA W SELEKCJI - regresja prosta WZROST X STOPA Y 85 8 79 7 58 4 6 3 9 9 73 5 8 9 75 5 88 3 65 3 75,3 6,3 b. Oblczam współcznnk regresj b: cov(, ). Oblczam wraz woln: a b,5 3. Uzskujem równane regresj:,5,,

IFORMATYKA W SELEKCJI - regresja prosta 3 3 9 8 7 6 5,,5 ACHYLEIE 4 3 58 6 65 73 75 79 8 85 88 9 Wstawając w równanu różne wartośc wzrostu () otrzmujem odpowadające m teoretczne długośc stop ()

n ˆ IFORMATYKA W SELEKCJI - regresja prosta Ocena DOPASOWAIA regresj n R zmenność wartośc teoretcznch WSPÓŁCZYIK DETERMIACJI n n ˆ zmenność wartośc rzeczwstch nformuje, jaka część rzeczwstej zmennośc została wjaśnona przez równane regresj przjmuje wartośc od do ; m blższ tm lepsze dopasowane modelu regresj

Ocena dopasowana regresj IFORMATYKA W SELEKCJI - regresja prosta WZROST X STOPA Y 85 8 79 7 58 4 6 3 9 9 3 3 9 8 7 6 5 4 3 ˆ,,5 58 6 65 73 75 79 8 85 88 9 73 5 8 9 75 5 88 3 65 3 R n n ˆ,85 Suuuper dopasowane

IFORMATYKA W SELEKCJI - regresja Weloman. stopna Regresja ne mus bć zawsze prostolnowa to najprostsz przpadek ogólnej regresj welomanowej a b. stopna 3. stopna a b b a b 3 b b3

Populacja welocechowa Populacja Osobnk Cecha wd. mleka zaw. tłuszczu długość laktacj tempo wzrostu przrost dzenn wdajność rzeźna wsokość w kłębe skuteczność nsemnacj Wkorzstane zależnośc welu zmennch regresja welokrotna

IFORMATYKA W SELEKCJI regresja welokrotna Regresja welokrotna pozwala przewdwać na podstawe klku powązanch zmennch, n Waga X Wzrost X Stopa Y 66 58 4 59 6 3 67 65 3 73 73 5 77 75 5 88 79 7 8 8 9 89 85 8 88 3 93 9 9 b...... 9 b b... 9... 9 b b b albo Zaps macerzow przejrzstość Rachunek macerzow oblczene welu newadomch jednocześne Y X

Zaps macerzow równań modelu meszanego 5 4 3 3 5 4 3 e e e e e s s s h h wektor obserwacj wektor efektów stałch wektor efektów specfcznch wektor efektów losowch macerz wstąpeń efektów stałch macerz wstąpeń efektów losowch X a Z g e jk j jk e s h IFORMATYKA W SELEKCJI regresja welokrotna

X a Z g e = Xa + Zg + e + + Zaps macerzow równań modelu meszanego 5 4 3 3 5 4 3 e e e e e s s s h h = jk j jk e s h IFORMATYKA W SELEKCJI regresja welokrotna

IFORMATYKA W SELEKCJI Próba Wartośc oblczone z prób to ESTYMATORY, np. średna n 45 n Uzskane wartośc estmatorów są podstawą hpotez, np. H : µ = 5 H A : µ 5 Hpotez werfkujem za pomocą testów statstcznch, zakładając prawdzwość hpotez zerowej, np. testem t t s Jeśl uzskam wartość bardzo mało prawdopodobną (np. p value <,5) odrzucam hpotezę zerową. Oszacowane współcznnk korelacj regresj to równeż ESTYMATORY! n

Zależność cech stotność korelacj lnowej TESTOWAIE współcznnka korelacj lnowej (estmator r =,9) r t r ~ t W przkładze: t = 6,64, p-value =,6, Wnk testu: odrzucam H (wstępuje wsoka dodatna korelacja mędz wzrostem a długoścą stop)

Istotność regresj Badane ISTOTOŚCI regresj F ( ˆ ˆ b b ) Ta statstka ma rozkład F o v = b - v = - b stopnach swobod średna zmenność wartośc wjaśnona przez równane regresj średna zmenność wartośc ne wjaśnona przez równane regresj (średn błąd) lczba par obserwacj, b lczba współcznnków równana regresj (np. dla równana regresj prostej = a + b b = )

Istotność regresj Równane regresj do przewdwana długośc stop na podstawe wzrostu ˆ,,5 R,85 Dopasowane OK, ale cz współcznnk regresj jest statstczne stotn? F ˆ ( ˆ b b ) 54,865 3,63 3,3 p-value =,465 Wnk testu?

IFORMATYKA W SELEKCJI Wkorzstane zależnośc zmennch w hodowl selekcj (I) Podstawa metod hodowlanch: zależność (podobeństwo) wartośc hodowlanej wartośc fenotpowej cech P = G + E Współcznnk korelacj tch wartośc można wznaczć np. metodą WSPÓŁCZYIKA ŚCIEŻKI, G podobne jak pokreweństwo (wsp. korelacj wartośc hodowlanch osobnków spokrewnonch). Welkośc te wkorzstuje sę w ocene wartośc hodowlanej (II) Podobeństwo wdajnośc krewnch wrażone współcznnkem korelacj wewnątrzklasowej jest podstawą szacowana parametrów genetcznch h P

IFORMATYKA W SELEKCJI Wkorzstane zależnośc zmennch w hodowl selekcj cd. (III) Ocena wartośc hodowlanej może bć oparta jest na równanu regresj prostej: Gˆ b( P P) Marą dokładnośc ocen jest R współcznnk korelacj ocenanej wartośc hodowlanej źródła nformacj (IV) Indeks selekcjn, łącząc różne źródła nformacj, opart jest na równanu regresj welokrotnej P źródło nformacj I = b X + b X +... + b n X n Do oblczena współcznnków regresj cząstkowej potrzebne są korelacje mędz źródłam nformacj oraz mędz nm ocenaną wartoścą hodowlaną.

IFORMATYKA W SELEKCJI Wkorzstane zależnośc zmennch w hodowl selekcj cd. (V) W ocenach opartch na modelach meszanch uwzględnającch strukturę populacj oraz zależność efektów genetcznch (np. BLUP) stosuje sę regresję welokrotną włącza do oblczeń np. macerz spokrewneń X'X Z'X (VI) Selekcja oczekwan postęp hodowlan zależ od dokładnośc ocen R X'Z aˆ X' Z'Z A k gˆ Z' G W selekcj pośrednej wkorzstuje sę reakcję skorelowaną, wnkającą z korelacj genetcznej cech Ocena zrealzowanego postępu hodowlanego oparta jest na regresj ocen kolejnch rocznków względem czasu (trend genetczn) R s G

IFORMATYKA W SELEKCJI arzędza nformatczne do ocen korelacj regresj

SAS PROCEDURA REG - PROGRAM MASA CIAŁA (kg) ZAW TŁUSZCZU (mm) 89 8 88 7 66 4 59 3 93 9 73 5 8 9 data tluszcz; nfle I:/nformatka/dane.tt ; nput masac ztl; run ; proc reg data=tluszcz ; model ztl=masac ; run ; 77 5 3 67 3 a b Oprac. na podst. wkładu dra T. Suchockego

SAS PROCEDURA REG - WYIKI The REG Procedure Model: MODEL Dependent Varable: ztl Observatons Read Observatons Used Informacje o modelu, specfkacja zmennej zależnej Lczba obserwacj Analss of Varance Podzał zmennośc w równanu regresj test F Sum of Mean Source DF Squares Square F Value Pr > F Model 54.3566 54.3566 55.8 <. Error 8 7.78434.9734 Cor. 9 6. Total Root MSE.98643 R-Square.8746 Dependent Mean 6.3 Adj R-Sq.859 Coeff Var 3.7568 Oprac. na podst. wkładu dra T. Suchockego

SAS PROCEDURA REG - WYIKI The REG Procedure Model: MODEL Dependent Varable: ztl Observatons Read Observatons Used Analss of Varance Sum of Mean Source DF Squares Square F Value Pr > F Model 54.3566 54.3566 55.8 <. Error 8 7.78434.9734 Cor. 9 6. Total Root MSE.98643 R-Square.8746 Dependent Mean 6.3 Adj R-Sq.859 Coeff Var 3.7568 F ˆ ˆ p-value Oprac. na podst. wkładu dra T. Suchockego

SAS PROCEDURA REG - WYIKI Parameter Estmates Parameter Standard Varable DF Estmate Error t Value Pr> t Intercept.5796.99594 5.8.4 masac.855.483 7.47 <. estmator parametrów zaw tluszczu.57 odchlene standardowe estmatora.9masa_cała t ˆ ˆ p-value, prawdopodobeń stwo odrzucena prawdzwej H,57,9 Oprac. na podst. wkładu dra T. Suchockego

IFORMATYKA W SELEKCJI arzędza nformatczne do ocen korelacj regresj

R funkcja lm regresja lnowa # cztane danch dane<read.table("g:/nformatkawselekcj/lectures/tluszcz. tt",dec=".",col.names=c('masa','ztl')) dane otwarce plku wpsane zawartośc plku na ekran # funkcja regresj lnowej r <- lm(ztl~masa, data=dane) summar(r) regresja lnowa # wkres równana regresj plot(dane) ablne(r) wnk wkres danch prostej regresj Oprac. na podst. wkładu dra T. Suchockego

R funkcja lm - WYIKI Coeffcents: Estmate Std.Error t value Pr(> t ) (Intercept).5796.99594 5.797.46 *** masa.855.483 7.47 7.e-5 *** estmator parametrów tluszcz.57 odchlene standardowe.9masa_cała t ˆ ˆ,57,9 Oprac. na podst. wkładu dra T. Suchockego

Multple R-squared:.8746 F-statstc: 55.8 on and 8 DF, p-value: 7.9e-5 ˆ wartość testu F F ˆ ˆ R funkcja lm - WYIKI Oprac. na podst. wkładu dra T. Suchockego

IFORMATYKA W SELEKCJI arzędza nformatczne do ocen korelacj regresj EXCEL Korelacja lnowa funkcje PEARSO, WSP. KORELACJI Regresja prosta funkcje REGLIP, ACHYLEIE Oblczena oraz analza statstczna korelacj regresj dostępne są w dodatku: AALIZA DAYCH PREZETACJA oblczeń w Ecelu oraz zadana do samodzelnego wkonana za chwlę na ćwczenach ZAPRASZAM!