WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ Dana jest populacja generalna, w której dwuwymiarowa cecha (zmienna losowa) (X, Y ) ma pewien dwuwymiarowy rozk lad. Miara korelacji liniowej dla zmiennych (X, Y ) jest wspó lczynnik ρ określony wzorem ρ = Cov(X, Y ), σ X σ Y gdzie σ X i σ Y oznaczaja odchylenie standardowe zmiennej odpowiednio X i Y, czyli σ X = E (X E(X)) 2, σ Y = E (Y E(Y )) 2. Wspó lczynnik ρ nazywamy wspó lczynnikiem korelacji liniowej. Przyjmuje wartości z przedzia lu [ 1, 1]. Wartość 0 oznacza brak korelacji liniowej pomiedzy cechami X i Y. Wartość 1 lub 1 oznacza zależność ścis la, liniowa, czyli zależność postaci Y = β 0 + β 1 X.
Rozważmy próbe losowa (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ), gdzie (X i, Y i ) oznacza badana ceche (X, Y ) dla i-tej jednostki, wylosowanej niezależnie do próby. Definicja 1. Estymatorem wspó lczynnika korelacji liniowej ρ jest statystyka określona wzorem gdzie S 2 X = 1 n r = n 1 n nj=1 (X j X)(Y j Ȳ ) S X S Y, (1) j=1(x j X) 2, S 2 Y = 1 n n j=1 (Y j Ȳ ) 2. Równoważna do (1) jest formu la r = nj=1 X j Y j XȲ nj=1 (X j X) 2 (2) nj=1 (Y j Ȳ ) 2.
Estymator r nazywamy próbkowym wspó lczynnikiem korelacji liniowej Pearsona. Jest on estymatorem obciażonym, ponieważ E(r) ρ. Przedzia l ufności dla wspó lczynnika ρ Jeśli zmienna losowa (X, Y ) ma dwuwymiarowy rozk lad normalny, to statystyka U = r ρ 1 ρ 2 n (3) ma dla n graniczny rozk lad normalny standaryzowany N (0, 1). Niech 1 α b edzie za lożonym poziomem ufności. Oznaczmy przez u α kwantyl rz edu 1 α 2 rozk ladu normalnego standaryzowanego. Rozważmy granic e prawdopodobieństwa lim n P ( u α U u α ),
gdzie U jest zmienna losowa dana wzorem (3). Mamy lim n P ( u α r ρ 1 ρ 2 n uα ) = =Φ(u α ) Φ( u α ) = 2Φ(u α ) 1 = =2 Mamy zatem lim n P ( 1 α ) 2 ( 1 = 1 α. u α r ρ 1 ρ 2 n uα Po przekszta lceniach otrzymujemy lim n P ( ) = 1 α. r u α 1 ρ 2 n ρ r + u α 1 ρ 2 n ) = 1 α. Ponieważ wyrażenie 1 ρ 2 wyst epuj ace po obu stronach nierówności pdwójnej jest nieznane, wi ec zast epujemy je punktowym oszacowaniem, tj. wyrażeniem 1 r 2.
Zatem, dla dostatecznie dużej próby (tj. dla n 100) otrzymujemy równość przybliżona P ( r u α 1 r 2 n ρ r + u α 1 r 2 n ) 1 α. Tym samym dla dostatecznie dużej próby przedzia l postaci [ 1 r 2 1 r 2 ] r u α, r + u α n n jest dobrym przybliżeniem przedzia lu ufności dla wspó lczynnika ρ na poziomie ufności 1 α.
Test istotności dla wspó lczynnika korelacji liniowej ρ Za lóżmy, że badana cecha (X, Y ) ma w populacji dwuwymiarowy rozk lad normalny. Chcemy zweryfikować hipoteze zerowa, iż zmienne X i Y sa liniowo nieskorelowane, tj. hipoteze H 0 : ρ = 0, przeciwko hipotezie alternatywnej H 1 : ρ < 0 (lub ρ > 0, lub ρ 0). Statystyka testu jest zmienna losowa r t = n 2, 1 r 2 która przy za lożeniu prawdziwości hipotezy zerowej ma rozk lad Studenta o n 2 stopniach swobody.
W przypadku, gdy hipoteza alternatywna jest postaci H 1 : ρ < 0, wówczas hipoteze zerowa odrzucamy na rzecz hipotezy alternatywnej wtedy, gdy wartość statystyki testu jest mniejsza od kwantyla rzedu α rozk ladu Studenta o n 2 stopniach swobody. W przypadku, gdy hipoteza alternatywna jest postaci H 1 : ρ > 0, wówczas hipoteze zerowa odrzucamy na rzecz hipotezy alternatywnej wtedy, gdy wartość statystyki testu jest wieksza od kwantyla rzedu 1 α rozk ladu Studenta o n 2 stopniach swobody. W przypadku, gdy hipoteza alternatywna jest postaci H 1 : ρ 0, wówczas hipoteze zerowa odrzucamy na rzecz hipotezy alternatywnej wtedy, gdy wartość statystyki testu jest mniejsza od kwantyla rzedu α 2 lub wi eksza od kwantyla rzedu 1 α 2 rozk ladu Studenta o n 2 stopniach swobody.
Model regresji liniowej Niech (X, Y ) bedzie dwuwymiarowa zmienna losowa. Przypuśćmy, że dla pewnych sta lych β 0, β 1 i dla wartości x zmiennej X zmienna Y przyjmuja wartości zgodnie ze wzorem Y = β 0 + β 1 x + ɛ, (4) gdzie ɛ jest zmienna losowai ze średnia równa 0 i wariancja równa σ 2. Model (4) nazywamy modelem regresji liniowej zmiennej Y wzgl edem zmiennej X. Wspó lczynniki β 0 i β 1 nazywamy odpowiednio wyrazem wolnym i wspó lczynnikiem regresji. Sk ladnik ɛ nazywamy b l edem losowym w modelu regresji, a jego wariancj e σ 2 określamy mianem wariancji b l edu w modelu regresji.
Wartość oczekiwana zmiennej Y przy warunku X = x, sa postaci E (Y X = x) = E (β 0 + β 1 x) + E (ɛ) = = β 0 + β 1 x + E (ɛ) = β 0 + β 1 x. Wynik ten oznacza, że uśrednienie nieskończenie wielu obserwacji zmiennej Y poczynionych dla ustalonej wartości x zmiennej X daje wartość równa β 0 + β 1 x, zależna od wartości x zmiennej X. Oznaczajac warunkowa wartość oczekiwana po lewej stronie symbolem ŷ, czyli oznaczajac otrzymujemy równanie ŷ = E (Y X = x), ŷ = β 0 + β 1 x. (5) Równanie (5) nazywamy równaniem prostej regresji zmiennej Y wzgl edem zmiennej X.
Podobnie wariancja zmiennej Y przy warunku X = x równa jest D 2 (Y X = x) = D 2 (β 0 + β 1 x) + D 2 (ɛ) = σ 2. Wynika stad, że wariancja mieskończenie wielu obserwacji zmiennej Y poczynionych dla ustalonej wartości x zmiennej X jest sta la i równa wariancji σ 2 sk ladnika b l edu. Z powyższych rozważań wynika, że zmienna Y jest zmienna o wariancji σ 2 i o wartości oczekiwanej zależnej od wartości x zmiennej X (o ile parametr β 1 w modelu regresji jest różny od 0). Zatem rozk lad zmiennej Y zależy od wartości przyjmowanej przez zmienna X.
Przedzia ly ufności dla parametrów β 0 i β 1 Zauważymy, że model (4) jest określony przez trzy parametry: β 0, β 1, σ 2. Zajmiejmy si e estymatorami tych parametrów. Niech b edzie dana próba losowa (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ), gdzie (X i, Y i ) oznacza cech e (X, Y ) dla i-tej jednostki wylosowanej niezależnie do próby. Estymatorami parametrów β 1, β 0 i wariancji sk ladnika b l edu σ 2 w modelu regresji (4) sa statystyki b 1, b 0 i Sɛ 2 określone wzorami b 1 = nj=1 (X j X)(Y j Ȳ ) nj=1 (X j X) 2, b 0 = Ȳ b 1 X, S 2 ɛ = nj=1 (Y j Ŷ j ) 2. n 2
Równanie ŷ = b 0 + b 1 x nazywamy oszacowaniem równania regresji (5). Wykorzystuje si e go predykcji wartości zmiennej Y przy zadanej wartości zmiennej X = x, czyli Y = b 0 + b 1 x ± S ɛ. Niech σb 2 oraz σ 2 1 b oznaczaja 0 wariancje statystyk odpowiednio b 1 oraz b 0. Ich estymatorami sa zmienne losowe określone wzorami Sb 2 1 = Sɛ 2 1 nj=1 (X i X) 2 S 2 b 0 = S 2 ɛ 1 n + X 2 nj=1 (X i X) 2
Jeśli sk ladnik b l edu ɛ w modelu (4) ma rozk lad normalny, wówczas statystyki t 0 = b 0 β 0 S b0, t 1 = b 1 β 1 S b1, maja rozk lady Studenta o n 2 stopniach swobody. Niech t α oznacza kwantyl rzedu 1 α 2 rozk ladu Studenta o n 2 stopniach swobody. Przedzia ly postaci [ ] b0 t α S b0, b 0 + t α S b0, [ b1 t α S b1, b 1 + t α S b1 ] s a estymatorami przedzia lowymi parametrów odpowiednio β 0 i β 1 na poziomie ufności 1 α.
Testy istotności dla parametrów β 0 i β 1 Za lóżmy, podobnie jak wyżej, że sk ladnik b l edu ɛ w modelu (4) ma rozk lad normalny. Chcemy zweryfikować hipoteze zerowa, iż wspó lczynnik regresji β 1 równy jest β 1,0. Hipoteza zerowa ma wiec postać H 0 : β 1 = β 1,0, przeciwko hipotezie alternatywnej H 1 : β 1 < β 1,0 (lub β 1 > β 1,0, lub β 1 β 1,0 ). Analogicznie, za lóżmy, że chcemy zweryfikować hipoteze zerowa, iż wyraz wolny β 0 równy jest β 0,0. Hipoteza ta ma postać H 0 : β 0 = β 0,0, przeciwko hipotezie alternatywnej H 1 : β 0 < β 0,0 (lub β 0 > β 0,0, lub β 0 β 0,0 ).
Statystyka testu wykorzystywana do testowania hipotezy H 0 jest zmienna t 1 (strona 13), w której β 1 zastapiony jest wartościa β 1,0, zak ladana w hipotezie zerowej. W przypadku testowania hipotezy H 0 statystyka testu jest zmienna t 0, w której wspó lczynnik β 0 zastapiony jest przez β 0,0, tj. wartość zak ladana w hipotezie zerowej. Obszary krytyczne w obu testach konstruujemy analogicznie, jak w przypadku testu Studenta dla wspó lczynnika korelacji ρ.