ZałoŜena scheatu Gaussa- Markowa I. Model jest nezennczy ze względu na obserwacje: f f f3... fl f, czyl y f (x, ε) II. Model jest lnowy względe paraetrów. y βo + β x +ε Funkcja a być lnowa względe paraetrów a ne zennych, czyl oŝna drogą neskoplkowanych przekształceń do lnowośc dojść. Np. tzw. funkcja potęgowa a postać y βoxβ z warunka βo > 0. Poprzez logarytowane otrzyujey: ln y αo + αln x gdze:βo exp(αo), β α
c.d. III. Zenna objaśnająca jest nelosowa, jej wartośc są ustalony lczba rzeczywsty, tzn. E ( y x ) E ( y ) oraz D (y x ) D (y ) ZałoŜene to oŝe być onęte jeŝel zenna objaśnająca x składnk losowe ε są nezaleŝne lub neskorelowane, o rozkładach noralnych: cor(x,ε )... cor (xn, εn) 0 IV. Składnk losowy a rozkład noralny: ε : N (E(ε ), D(ε )) koentarz o noralnośc, tw. granczne tp. Potrzebne to jest do testowana hpotez z udzałe statystyk F-Snedecora czy t-studenta.
c.d. V. Występujące zakłócena reprezentuje składnk losowy ε o średnej 0 Wykorzystane przy otrzyywanu estyatorów neobcąŝonych. VI. Składnk losowy jest sferyczny, tzn.: a) ne jest autoskorelowany: cov( ε, ε ) 0, cov( ε, ε ) 0, j j j b) jest hooskedastyczny: D( ε) σ VII. Inforacje z próbk są jedyny dostępny nforacja.
Metoda najnejszych kwadratów. RozwaŜay odel postac y βo + β x +ε JeŜel spełnone są powyŝsze warunk Gaussa-Markowa to: E (y ) βo + β x oraz kowarancje y (dla j) wynoszą zero: cov( y, y ) E [( y Ey ( ))( y Ey ( ))] E ( ε, ε ) 0 j j j j warancja: D ( y ) Ey ( Ey ( )) E ( β + β x + ε β β x ) E ( ε ) σ 0 0 Zate, ay do czynena ze zbore zennych losowych: y, y,..., y nezaleŝnych o róŝnych paraetrach rozkładu (róŝne średne) rozkładze noralny, gdyŝ jeśl składnk losowy ε a rozkład noralny to y teŝ a rozkład noralny: y : N(βo + β x, σ)
Paraetry βo, β są neznane, ale oŝlwe do oszacowana. Otrzyay wtedy dla próby lnę regresj próby y b + bx 0 Oznacza sę jako e róŝncę poędzy wartośca teoretyczny a epryczny: e y - y
x x x E(y)b0+bx
Metoda najnejszych kwadratów Istotą etody jest najlepsze dopasowane prostej z odelu do danych eprycznych, czyl ( e ) n a ponewaŝ jest to fora kwadratowa b0 b a zate osąga nu w zerze pochodnych: oraz lub ( e 0 ( e ) ( b ) o ( ( y b bx ) ) o ( b ) czyl sua reszt równa sę zero. 0 ( y b bx ) o ( y b bx ), 0 o
Dalej ( e ) ( b ) x ( y b bx ), o x ( y b bx ) 0 l ub xe 0 o czyl reszty wartośc x są neskorelowane. Welkość : S YX ( Y Y ) nazyway błęde standardowy estyacj.
Porządkując suując otrzyujey tzw. układ równań noralnych: o y b + ( x ) b który po rozwązanu daje: 0 b xy ( x ) b + ( x ) b xy ( x )( y ) b y bx 0 x ( x ) Estynatory te nazyway klasyczny estyatora najnejszych kwadratów.
Trzec paraetre, którego oszacowane jest na potrzebne jest estyator odchylena standardowego składnka losowego, czyl błędu. MNK (wyprowadzene prześledzć w ksąŝce) oŝna otrzyać ten estyator jako następujący: σ Jest to estyator neobcąŝony gdyŝ: E ( σ ) E ( e ) ( ) σ σ e RozwaŜyć zanę etryk odległośc, np. ( e ) n Proble do dou
Warancja zennej objaśnanej. Def. SST ( y y ) oraz dalej tzw. zenność totalna - su of squares total y y + e Podstawając do wzoru na SST otrzyujey: [( y y ) + e ] ( y y ) + e + ( y y ) e Rozpatrzy teraz poszczególne składnk tej suy. M ( y y ) e ( b + bx y ) e b e + b xe y e 0 0 I
PonewaŜ to otrzyujey: Stąd, xe 0 ora z e 0 ( y y ) e 0 ( y y ) ( y y ) + e gdze ( y y ) ( y y ) zenność całkowta, SST zenność objaśnona (kwadraty odchyleń wartośc teoretycznych od średnej, SSR, e SSE, sua kwadratów reszt, zenność neobjaśnona.
Zate: zenność całkowta zennej objaśnanej sua zennośc objaśnonej neobjaśnonej Inaczej: SST SSR + SSE
SST SSR + SSE / SST SSR/SST + SSE/SST WyraŜene SSR/SST nazyway współczynnke deternacj oznaczay R. defncja R ( y y ) ( y y )
Współczynnk deternacj a następujące właścwośc: - przyjuje wartośc z [0, ], - R osąga 0 w przypadku, gdy lna regrersj jest równoległa do os odcętych wartośc teoretyczne równe są średnej zennej objaśnanej y y. Warancja zennej x ne wpływa na warancję zennej y. - R a wartość gdy wszystke punkty epryczne naleŝa do ln regresj - oznacza to, Ŝe e 0.
R blske R blske 0 R blske 0
Stosuje sę teŝ "wyrównany" współczynnk deternacj (uwzględnający takŝe welkość próbk), który dla regresj lnowej wynos: r [( r ) ] a