Stosowana Analiza Regresji

prostej Stosowana Wykład I 5 Października 2011 1 / 29

prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile jest): objętości od średnicy objętości od wysokości Będziemy starali się wyjaśnić zmienność (szybkość zmiany) objętości poprzez zmienność średnicy lub wysokości. W tym przypadku: Volume zmienna objaśniana (zm. zależna, zm. odpowiedzi) Girth zmienna objaśniająca (zm. zależna, predyktor) 2 / 29

Wykres Rozproszenia prostej Podstawowe narzędzie do badania zależności: wykres rozproszenia zmiennej objaśnianej od zmiennej objaśniającej 3 / 29

Dane trees - Wykres Rozproszenia 65 70 75 80 85 prostej Girth 8 10 12 14 16 18 20 65 70 75 80 85 Height Volume 10 20 30 40 50 60 70 8 10 12 14 16 18 20 10 20 30 40 50 60 70 4 / 29

prostej Zależność liniowa Wnioski: znacznie silniejsza zależność (liniowa?) w przypadku zależności Volume Girth niż Volume Height. Jak to ująć ilościowo? x i i-ta wartość Girth y i i-ta wartość Volume Staramy się dopasować prostą do wykresu rozproszenia. (x 1, y 1 ),..., (x n, y n ) próba y = b 0 + b 1 x Ma to sens jedynie wtedy, gdy charakter wykresu jest w przybliżeniu liniowy. 5 / 29

prostej Funkcja kryterialna (jedna z możliwych): S(b 0, b 1 ) = (y i (b 0 + b 1 x i )) 2. Inne możliwości: suma dla rzutów prostopadłych na prostą, n y i (b 0 + b 1 x i ), (, LS - least squares): S b 0 =... S b 1 =... Rozwiązanie...... (b 0, b 1 ) = arg min S(, ) 6 / 29

prostej Terminologia Terminologia: Prosta : y = b 0 + b 1 x, gdzie b 0, b 1 - wyliczone metodą ; Wartość prognozowana (prognoza) dla i-tej obserwacji: ŷ i = b 0 + b 1 x i ; Wartość resztowa (rezyduum, residual): e i = y i ŷ i. 7 / 29

prostej S b 0 = 2 n S b 1 = 2 n (y i (b 0 + b 1 x i )) Wyznaczenie (b 0, b 1 ) x i (y i (b 0 + b 1 x i )) y i nb 0 b 1 x i = 0 x i y i b 0 x i b 1 xi 2 = 0 b 0 = ȳ b 1 x x i y i (ȳ b n 1 x) x i b 1 ( x i (y i ȳ) = b 1 x 2 i n x 2 x 2 i = 0 ) 8 / 29

Współczynniki prostej prostej Rozwiązanie: b 0 = ȳ b 1 x n x i (y i ȳ) b 1 = n (x i x) 2 Zauważmy, że xi (y i ȳ) b 1 = (xi x) 2 = (xi x)(y i ȳ) (xi x)y i (xi x) 2 = (xi x) 2 9 / 29

prostej prostej Przechodzi przez punkt ( x, ȳ): b 0 + b 1 x = (ȳ b 1 x) + b 1 x = ȳ. e i = 0: e i = n (y i ŷ i ) = n (y i (b 0 + b 1 x i )) = S b 0 = 0. Stąd część rezyduów musi być 0, a część 0. ȳ = ŷ: ŷ = 1 n ŷ i = 1 n (b 0 + b 1 x i ) = b 0 + b 1 x = ȳ. 10 / 29

prostej prostej ŷ i e i = 0: S b 1 = 0 n x i e i = 0 ŷ i e i = n (b 0 + b 1 x i )e i = b 0 e i + b 1 x i e i = 0 Wniosek: ŷ i (e i ē) = 0, a zatem n (ŷ i ȳ)(e i ē) = 0 - próbkowy współczynnik korelacji wartości prognozowanych i rezyduów jest równy zero. 11 / 29

prostej Co prosta mówi o zależności w danych? NIC, gdy prosta ta nie odzwierciedla zachowania się chmury punktów. Na przykład: b 1 = 0 nie ma zależności między x a y? Stąd: diagnostyka (ocena) dopasowania jest niezwykle ważna! 12 / 29

prostej Rozkład zmienności zmiennej objaśnianej Zmienność samych (y i ) wariancja próbkowa Sy 2 lub: SST = (y i ȳ) 2 (całkowita suma, total sum of squares) SST = (y i ŷ i + ŷ i ȳ) 2 = = (y i ŷ i ) 2 + (ŷ i ȳ) 2 + 2 (ŷ i ȳ)e i. 13 / 29

prostej Zatem gdzie Rozkład zmienności zmiennej objaśnianej SST = SSE + SSR, SSE = n (y i ŷ i ) 2 suma błędów (error sum of squares), SSR = n (ŷ i ȳ) 2 = n (ŷ i ŷ) 2 regresyjna suma. Całkowita zmienność y = zmienność objaśniana przez prostą (SSR) + zmienność niewyjaśniona (SSE) 14 / 29

prostej Wykres rozproszenia silnie skupiony wokół prostej SSE SST. Współczynnik determinacji R 2 : SSR SST = 1 SSE SST - stopień, w jakim zależność liniowa tłumaczy zmienność wykresu rozproszenia (tylko dla prostej ). Współczynnik korelacji próbkowej między (x i ) i (y i ): r = 1 n 1 x i x S x y i ȳ S y 15 / 29

prostej Fakt Współczynnik determinacji jest równy r 2. Dowód. (xi x)(y i ȳ) b 1 = (n 1)Sx 2 = Zatem b 1 = r S y. S x SSR SST = (b1 x i + b 0 ȳ) 2 (yi ȳ) 2 = (xi x) 2 = b 2 1 (yi ȳ) 2 = r 2 S2 y S 2 x (xi x)(y i ȳ) (n 1)S x S y S y S x. (b1 x i b 1 x) 2 (yi ȳ) 2 = (xi x) 2 (n 1)S 2 y = r 2. 16 / 29

prostej b 1 nachylenie prostej r 2 skupienie punktów dookoła prostej - bardziej adekwatny wskaźnik zależności liniowej niż r. b 1 = r Sy S x może być tak, że: r 1, a b 1 0 (gdy S x S y ) r 0, a b 1 duże... Np. : dla Volume Girth: r 2 = 0.94, dla Volume Height: r 2 = 0.36. 17 / 29

prostej Dotychczas: bezmodelowa analiza danych (EDA - exploratory data analysis) Dlaczego potrzebny model? Uściślenie wnioskowania: zamiast "wykres wskazuje na zależność liniową": jeśli model prawdziwy z prawd. 0.95 istnieje zależność między zmiennymi. 18 / 29

prostej Próba losowa: (x 1, Y 1 ),..., (x n, Y n ), gdzie: (x i ) - wartości deterministyczne, (Y i ) - wartości losowe. : Dla pewnych β 0 i β 1 : Y i = β 0 + β 1 x i + ε i, i = 1,..., n, gdzie (ε i ) - i.i.d. o rozkładzie N(0, σ 2 ) - "błędy". β 0 + β 1 x prosta regresji β 0, β 1, σ 2 nieznane parametry modelu. 19 / 29

prostej Wartość oczekiwana i wariancja (Y i ): µ Yi = EY i = E(β 0 + β 1 x i + ε i ) = β 0 + β 1 x i σy 2 i = VarY i = Var(β 0 + β 1 x i ) + Varε i = σ 2 A zatem: Y i N(β 0 + β 1 x i, σ 2 ), i = 1,..., n. 20 / 29

prostej Uwaga: model a metoda estymacji to dwie różne rzeczy. liniowej metoda. parametrów β 0 i β 1 : wyznaczone metodą. b 0 = Ȳ b 1 x (xi x)y i b 1 = (xi x) 2 21 / 29

Rozróżnienie: estymatorów prostej β 0 + β 1 x nieznana prosta regresji szacowana przy pomocy prostej b 0 + b 1 x Jakość dopasowania prostej do danych zależy od jakości oszacowania β 0 i β 1 przez b 0 i b 1. Fakt. (Nieobciążoność b 0 i b 1 ) Zachodzi: Ponadto: Varb 1 = Eb 0 = β 0, Eb 1 = β 1. σ 2 (xi x) 2, Varb 0 = σ 2 ( 1 n + x 2 (xi x) 2 ). 22 / 29

Dowód. Eb 1 = estymatorów (xi x)ey i (xi x) 2 = β 1 (xi x) 2 + β 0 (xi x) (xi x) 2 = β 1 prostej Eb 0 = EȲ Eb 1 x = 1 n EYi β 1 x = β 0 + β 1 x β 1 x = β 0 Varb 1 = (xi x) 2 VarY i ( (x i x) 2 ) 2 = (xi x) 2 σ 2 ( (x i x) 2 ) 2 = σ 2 (xi x) 2 Varb 0 = Var(Ȳ b 1 x) = VarȲ + x 2 Varb 1, gdyż Cov(Ȳ, b 1 ) = 0. 23 / 29

Fakt. ( ) S 2 = 1 n 2 ei 2 ES 2 = σ 2. prostej Wniosek: Estymator Varb 1 : SE 2 b 1 = S 2 (xi x) 2 Estymator Varb 0 : SE 2 b 0 = S 2 ( 1 n + x 2 (xi x) 2 ) SE b1 - błąd standardowy b 1. Dowód Faktu: zadanie domowe. 24 / 29

prostej Twierdzenie estymatorów b 1 N(β 1, σb 2 1 ), gdzie σb 2 σ 1 = 2 (xi x) ( 2 ) b 0 N(β 0, σb 2 0 ), gdzie σb 2 0 = σ 2 1 n + x 2 (xi x) 2 Nazewnictwo: b 1 β 1 σ b1 b 1 β 1 SE b1 b 1 β 1 SE b1 b 0 β 0 SE b0 t n 2 t n 2 estymator standaryzowany, estymator studentyzowany. 25 / 29

prostej Zastosowanie Twierdzenia testowanie hipotezy H 0 : β 1 = 0 przeciwko H 1 : β 1 0. Przy założeniu, że model jest prawdziwy, β 1 = 0 oznacza brak zależności Y od x. Przy H 0 : t = b 1 SE b1 t n 2 Obszar krytyczny dla poziomu istotności α: {t : t > t 1 α/2,n 2 }, gdzie t β,k - kwantyl rzędu β w rozkładzie t k, tzn. Z t k P(Z t β,k ) = β. 26 / 29

prostej Rozkład t-studenta jest symetryczny: 1 α α/2 α/2 t 1 α/2,n 2 0 t 1 α/2,n 2 Przedział ufności dla β 1 : b 1 ± t 1 α/2,n 2 SE b1 Analogicznie dla β 0... 27 / 29

prostej Przy H 0 : β 1 = 0 mamy Zatem SSR χ 2 1 SSE χ 2 n 2 SSR i SSE są od siebie niezależne F = SSR/1 SSE/(n 2) F 1,n 2 - rozkład Snedecora z parametrami 1 i n 2. Zbiór krytyczny (dla H 1 : β 1 0): {F : F > f 1 α,1,n 2 }, gdzie f 1 α,1,n 2 - kwantyl rzędu 1 α rozkładu F 1,n 2. 28 / 29

prostej Rozkład F skupiony jest na półprostej dodatniej: Zachodzi: 01 αα 0 f 1 α,1,n 2 F = t 2. Zatem test t i test F są sobie równoważne (inaczej będzie dla regresji wielokrotnej). 29 / 29