Bonformatyka - rozwój oferty edukacyjnej Unwersytetu Przyrodnczego we Wrocławu projekt realzowany w ramac Programu Operacyjnego Kaptał Ludzk współfnansowanego ze środków Europejskego Funduszu Społecznego Wykład 13 Regresja lnowa Materały dotyczące regresj lnowej zostały przygotowane w oparcu o materały Profesora G. P. McCabe z kursu,, Appled regresson analyss na Unwersytece Purdue. Krzywa weża w Pze Kurs był przygotowany w oparcu o ksążkę: Kutner, Nactsem, Neter and L, Appled Lnear Statstcal Models, (5 t ed.) Przykład () SAS Data Step Zmenna zależna - nacylene (Y) Zmenna objaśnająca - czas (X) wykres dopasowane prostej regresj przewdywane przyszłośc data a1; nput year lean @@; cards; 75 64 76 644 77 656 78 667 79 673 80 688 81 696 8 698 83 713 84 717 85 75 86 74 87 757 100. ; data a1p; set a1; f lean ne.;
SAS Proc Prnt proc prnt data=a1; OBS YEAR LEAN 1 75 64 76 644 3 77 656 4 78 667 5 79 673 6 80 688 7 81 696 8 8 698 9 83 713 10 84 717 11 85 75 1 86 74 13 87 757 14 100. SAS Proc Gplot symbol1 v=crcle =sm70s; proc gplot data=a1p; plot lean*year; symbol1 v=crcle =rl; proc gplot data=a1p; plot lean*year; SAS Proc Reg proc reg data=a1; model lean=year/p r; output out=a p=pred r=resd; d year;
Parameter Standard Varable DF Estmate Error INTERCEP 1-61.10879 5.1981850 YEAR 1 9.318681 0.3099140 T for H0: Parameter=0 Prob > T -.43 0.0333 30.069 0.0001 Dep Var Predct Obs YEAR LEAN Value Resdual 1 75 64.0 637.8 4.198 76 644.0 647.1-3.0989 3 77 656.0 656.4-0.4176 4 78 667.0 665.7 1.637 5 79 673.0 675.1 -.0549 6 80 688.0 684.4 3.664 7 81 696.0 693.7.3077 8 8 698.0 703.0-5.0110 9 83 713.0 71.3 0.6703 10 84 717.0 71.6-4.6484 11 85 75.0 731.0-5.9670 1 86 74.0 740.3 1.7143 13 87 757.0 749.6 7.3956 14 100. 870.7 Struktura danyc Prosta regresja lnowa model statystyczny Y zmenna odpowedz (zależna) X zmenna wyjaśnająca dla przypadków = 1 to n Y = β 0 + β 1 X + ξ Y wartość zmennej odpowedz dla tego osobnka X wartość zmennej wyjaśnającej dla tego osobnka ξ zakłócene losowe z rozkładu normalnego o średnej 0 warancj σ Parametry Własnośc modelu β 0 punkt przecęca z osą Y β 1 - nacylene σ - warancja zakłócena losowego Y = β 0 + β 1 X + ξ E (Y X ) = β 0 + β 1 X Var(Y X ) = var(ξ ) = σ
Dopasowane równane regresj reszty Ŷ = b 0 + b 1 X e = Y Ŷ, reszta e = Y (b 0 + b 1 X ) Wykres reszt proc gplot data=a; plot resd*year; were lean ne.; Metoda najmnejszyc kwadratów Mnmalzujemy Σ(Y (b 0 + b 1 X ) ) = e Lczymy pocodne względem b 0 b 1 przyrównujemy do zera b 1 = b 0 Rozwązane ( X X )( Y Y ) ( X X ) = Y b Są to równocześne estymatory najwększej warogodnośc 1 X Estymacjaσ ( Y Yˆ ) e s = = n n SSE = = MSE dfe s = s = Root MSE
Parameter Standard Varable DF Estmate Error INTERCEP 1-61.10879 5.1981850 YEAR 1 9.318681 0.3099140 Root MSE 4.18097 Dep Mean 693.6931 C.V. 0.6071 Teora dotycząca estymacjβ 1 b 1 ~ N(β 1,σ (b 1 )) gdze σ (b 1 )=σ /Σ(X X ) t=(b 1 -β 1 )/s(b 1 ) gdze s (b 1 )=s /Σ(X X ) t ~ t(n-) Przedzał ufnośc dlaβ 1 b 1 ± t c s(b 1 ) gdze t c = t(α/,n-), kwantyl rzędu (1-α/) z rozkładu Studenta z n- stopnam swobody 1-α - pozom ufnośc Test stotnośc dlaβ 1 H 0 : β 1 = 0, H a : β 1 0 t = (b 1-0)/s(b 1 ) odrzucamy H 0 gdy t t c, gdze t c = t(α/,n-) P = Prob( z t ), gdze z~t(n-) b 0 ~ N(β 0,σ (b 0 )) gdze σ (b 0 )= Teora estymacjβ 0 ( ) 1 X σ + n X X t=(b 0 -β 0 )/s(b 0 ) w s( b ), σ jest zastąpone przez s 0 t ~ t(n-) Przedzał ufnośc dlaβ 0 b 0 ± t c s(b 0 ) gdze t c = t(α/,n-) 1-α - pozom ufnośc
Test stotnośc dlaβ 0 H 0 : β 0 = β 00, H a : β 0 β 00 t = (b 0 - β 00 )/s(b 0 ) odrzucamy H 0 gdy t t c, gdze t c = t(α/,n-) P = Prob( z t ), gdze z~t(n-) Uwag (1) Normalność b 0 and b 1 wynka z faktu, że oba te estymatory można przedstawć w postac lnowej kombnacj Y, które są nezależnym zmennym o rozkładze normalnym. Uwag () Na mocy Centralnego Twerdzena Grancznego, dla dostateczne dużyc rozmarów prób, estymatory parametrów w regresj lnowej mają rozkład blsk normalnemu, nawet gdy rozkład ξ ne jest normalny. CTG zacodz gdy warancja błedu jest skończona. Można wtedy stosować opsane na poprzednc slajdac przedzały ufnośc testy stotnośc. Uwag (3) Procedury testowana można zmodyfkować tak aby wykrywały alternatywy kerunkowe. Poneważ σ (b 1 )=σ /Σ(X X ), błąd standardowy b 1 można uczynć dowolne małym zwększając Σ(X X ). Estymacja E(Y ) E(Y ) = µ = β 0 + β 1 X, wartość oczekwana Y gdy X=X estymujemy E(Y ) za pomocą = b 0 + b 1 X ^ µˆ ˆµ Teora estymacj E(Y ) ma rozkład normalny o wartośc oczekwanej µ (jest estymatorem neobcążonym) warancj σ ( )= ( X ) ( ) X X X 1 σ + n ˆµ
Tora estymacj E(Y ) () Normalność wynka z faktu, że = b 0 + b 1 X jest lnową kombnacją Y µˆ Estymujemy σ ( ˆµ ) za pomocą s ( )= ( ) 1 X X s + n X X ˆ µ E( Y ) t= ~ t(n-) s( ˆ ) ˆµ ( ) µ 95% przedzał ufnośc dla E(Y ) ˆµ ˆµ ± t c s( ) gdze t c = t(.05, n-) a s( ˆµ ) = s ( ˆ µ ) data a1; nfle../data/c01ta01.dat'; nput sze ours; data a; sze=65; output; sze=100; output; data a3; set a1 a; proc prnt data=a3; proc reg data=a3; model ours=sze/clm; Dep Var Predcted Obs sze ours Value 6 65. 94.490 7 100. 419.3861 Std Error Mean Predct 95% CL Mean 9.9176 73.919 314.9451 14.73 389.8615 448.9106 Predykcja Y (new) Y = β 0 + β 1 X + ξ Var(Y - )=Var Y + Var = σ +Var S (pred)= ˆµ ˆµ 1 s 1 + + n (Y - )/s(pred) ~ t(n-) ˆµ ˆµ ( X ) ( ) X X X
95% przedzał ufnośc dla E(Y ) 95% przedzał predykcyjny dla Y µˆ ± t c s( µˆ ) µˆ ± t c s(pred) gdze t c = t(.05, n-) data a1; nfle../data/c01ta01.dat'; nput sze ours; data a; sze=65; output; sze=100; output; data a3; set a1 a; proc prnt data=a3; proc reg data=a3; model ours=sze/cl; Dep Var Predcted Obs sze ours Value 7 100. 419.3861 Std Error Mean Predct 95% CL Predct 14.73 314.1604 54.6117 data a1; nfle../data/c01ta01.dat'; nput sze ours; symbol1 v=crcle =rlclm95; proc gplot data=a1; plot ours*sze; symbol1 v=crcle =rlcl95; proc gplot data=a1; plot ours*sze; qut;
Tabela analzy warancj (ANOVA) (Całkowty) rozrzut Y opsujemy za pomocą Σ(Y Y ) Rozrzut ten wynka z dwóc przyczyn Zależnośc od X (model) Zakłóceń losowyc SST = Σ(Y Y ) dft = n-1 ANOVA (Total) ANOVA (Model) ANOVA (Error) Ŷ Y SSM = Σ( - ) dfm = 1 (za nacylene) MSM = SSM/dfM Ŷ SSE = Σ(Y ) dfe = n- MSE = SSE/dfE MSE jest estymatorem warunkowej warancj Y, przy ustalonym X ANOVA ANOVA () Source df SS MS Model 1 Σ( Ŷ - ) Y SSM/dfM Error n- Σ(Y Ŷ ) SSE/dfE Total n-1 Σ(Y Y ) SST/dfT Source df SS MS F P Model 1 SSM MSM MSM/MSE.nn Error n- SSE MSE Total n-1
ANOVA () Wartośc oczekwane Source df SS MS F P Model 1 SSM MSM MSM/MSE.nn Error n- SSE MSE Total n-1 MSM, MSE to zmenne losowe E(MSM) = σ + β 1 Σ(X X ) E(MSE) = σ Gdy H 0 zacodz, β 1 = 0, E(MSM) = E(MSE) Test F F=MSM/MSE ~ F(dfM, dfe) = F(1, n-) Gdy H 0 ne zacodz, β 1 0 MSM jest zwykle wększe nż MSE Odrzucamy H 0 dla dużyc wartośc F: F F(α, dfm, dfe) = F(.05, 1, n-) W praktyce używamy p-wartośc Test F () Przypomnjmy, że t = b 1 /s(b 1 ) testuje H 0 Można pokazać, że t = F Oba testy zwracają te same p-wartośc data a1; nfle :/STAT51/c01ta01.txt'; nput sze ours; proc reg data=a1; model ours=sze; Sum of Mean Source DF Squares Square Model 1 5378 5378 Error 3 5485 383 C Total 4 30703 F Value Pr > F 105.88 <.0001
Par St Var DF Est Err t Pr> t Int 1 6.36 6.17.38 0.059 sze 1 3.57 0.34 10.9 <.0001 Sum of Mean Source DF Squares Square Model 1 5378 5378 Error 3 5485 383 C Total 4 30703 F Value Pr > F 105.88 <.0001 R, r Par St Var DF Est Err t Pr> t Int 1 6.36 6.17.38 0.059 sze 1 3.57 0.34 10.9 <.0001 r klasyczny estymator współczynnka korelacj r = R =SSM/SST = 1 SSE/SST Rozrzut wyjaśnony newyjaśnony Sum of Mean Source DF Squares Square Model 1 5378 5378 Error 3 5485 383 C Total 4 30703 F Value Pr > F 105.88 <.0001 R-Square 0.815 (SAS) = SSM/SST = 5378/30703 Adj R-Sq 0.8138 (SAS) =1-MSE/MST =1-383/(30703/4)