Regresja liniowa cz. I. Model statystyczny Model statystyczny to zbiór za o zeń. Wprowadzamy model, który mo zliwie najlepiej opisuje ineresujacy ¾ nas fragment rzeczywistość. B ¾edy modelu wynikaja¾ z nieuwzgl¾ednienia wszystkich czynników, b ¾ednego uwzgl¾edenia czynników oraz z losowego zaburzenia. Model statystyczny ma opisywać sk adnik systematyczny, to co pozostaje to losowe reszty. sk adnik systematyczny() & wynik obserwacji model statystyczny.& sk adnik systematyczny(2) sk adnk losowy(). sk adnk losowy(2) (reszty) Zak adamy, ze sk adnik losowy ()(zaburzenie losowe, b ¾ ad losowy) jest wynikiem dzia ania ma o istotnych zdarzeń. Czego spodziewamy si ¾e od reszt? Powinny być niezale zne o średniej 0, i sta ej wariancji (równomiernie roz o zona chmurka punktów), cz¾esto zak ada si¾e, ze maja¾ rozk ad normalny (pomocne za o zenie w technikach obliczeniowych). Budowa modelu statystycznego: Ustalenie za o zeń modelu (identy kacja modelu) Estymacja parametrów modelu Wyznaczenie reszt i ocena poprawności modelu model poprawny Zastosowanie modelu (prognoza).2 Model regresji liniowej.& model niepoprawny Powrót na poczatek ¾ algorytmu I ETAP:Ustalenie za o zeń modelu Ze wzgl ¾edu na przyj ¾ete za o zenie o liniowej zale zności mi ¾edzy zmiennymi nasz model jest postaci: Y = 0 + X + " Y jest zmienna¾ zale zna ¾(inaczej zmienna¾ objaśniana), ¾ której wartości chcemy wyjaśnić lub przewidzieć X jest zmienna¾ niezale zna ¾ (inaczej zmienna¾ objaśniajac ¾ a) ¾ nazywana¾ te z predyktorem, zak adamy, ze zmienna ta nie jest zdegenerowana do sta ej. W przeciwnym przypadku problemu regresji nie by oby sensu rozwa zać.
Uwaga Umawiamy si ¾e, ze warto sci X sa¾ ustalone (brak losowo sci). " jest b ¾edem losowym (inaczej zak óceniem, szumem), jedynym źród em losowości 0 to wyraz wolny b ¾ed acy ¾ punktem przeci¾ecia linii Y = 0 + X z osia¾ rz ¾ednych. jest wspó czynnikiem kierunkowym, czyli tangensem kata ¾ pod którym linia Y = 0 + X nachylona jest do osi odci¾etych. Y = 0 + X {z } sk adnik systematyczny + {z} " sk adnik losowy y i = 0 + x i + " i, i = ; :::; n Dodatkowe za o zenia modelu: Jeśli dodatkowo " i sa¾ nieskorelowane, o tym samym rozk adzie E (") = 0 V ar (") = 2 " N 0; 2 to mówimy o modelu normalnej regresji liniowej. Przyk ad RYSUNEK!!! Uwaga 2 W modelu regresji obie zmienne sa¾ losowe, a w regresji tylko Y jest losowa. W asności W modelu normalnej regresji liniowej: " i? " j, i 6= j Uwaga 3 W asno sci 2 B ¾edy (") sa¾ jednakowo rozproszone wokó linii regresji tzn. ich rozk ad jest identyczny (w tym identyczna srednia i odchylenie) W asności 3. E (Y ) = 0 + X, (E (Y jx) = 0 + X) 2. V ar (Y ) = 2, (V ar (Y jx) = 2 ) 0, i 6= j 3. Cov (" j ; y i ) = 2, i = j II Etap: Estymacja parametrów modelu (obecny wyk ad skoncentruje si ¾e wokó tego etapu) Estymatory parametrów 0 i oznaczamy odpowiednio b 0 i b. Na podstawie n-elementowej próby (x i ; y i ), i = ; :::; n oszacowany model regresji jest postaci: Y = b 0 + b X + e 2
gdzie e reprezentuje zaobserwowane b ¾edy, czyli reszty z dopasowania linii regresji b 0 + b X do zbioru obserwacji Y czyli e = Y b 0 b X Dla poszczególnych par punktów mamy zwiazek ¾ Linia regresji: y i = b 0 + b x i + e i, i = ; :::; n e i = y i b 0 b x i by = b 0 + b X by i = b 0 + b x i, i = ; :::; n Wartości by i nazywa si¾e estymatorami y i, wartościami teoretycznymi lub prognozowanymi wartościami Y. -Metoda najmniejszych kwadratów: SSE = e 2 i = (y i by i ) 2 SSE b0 ; b = 2 y i 0 b b x i min b 0 ; b 2 y i 0 b b x i Szukamy b 0 ; b realizujacymi ¾ minimum: @SSE b0 ; b @ b = 0 0 Ostatecznie @SSE b0 ; b @ b = 0 b = SS xy SS x b 0 = y b x gdzie SS x = SS xy = (x i x) 2 (x i x) (y i y) 3
Uwaga 4 Terminologia: uk ad równań normalnych: ( 0 = P n y i n b b P n 0 x i 0 = P n x iy i 0 b P n x P n i b x2 i W asności 4. (x; y) nale zy do linii regresji 2. Uk ad równań normalnych jest równwa zny z 0 = P n e i 0 = P n x ie i 3. 4. b = r SSy SS x b XY by i y = b (x i x) Uwaga 5 b 0 i b sa¾ warto sciami (relizacjami) estymatorów prawdziwych parametrów regresji..3 Twierdzenie Gaussa-Markowa (przypadek jednowymiarowy) Lemat V ar b0 = 2 n + x2 ; V ar b = 2 S xx S XX Twierdzenie Gaussa i Markowa W modelu regresji liniowej nieobcia zonymi, ¾ liniowymi estymatorami parametrów 0 i o najmniejszej wariancji w klasie estymatorów liniowych sa¾ estymatory wyznaczone metoda¾ najmniejszych kwadratów (BLUE =best linear unbiased estimator). Wniosek E b0 = 0, E b = Ćwiczenie. Zaproponować (sztuczny) model regresji liniowej. 2. Wygenerować pary punktów z tego modelu. 3. Przeprowadzíc estymacj ¾e parametrów 4. Narysować wygenerowane pary punktów wraz z linia¾ regresji 5. Interpretacja Solution y i = 0 + x i + " i, i = ; :::; 0 4
. Narz ¾edzia>Analiza Danych>Generowanie Liczb Pseudolosowych (normalny) 2. Zaznacz obszar x2, nacísnij F2 wpisz =REGLINP(Zakres_Y;Zakres_X;;); CTRL+SHIFT+ENTER 3. Na wykresie rozrzutu punktów (x i ; y i ) zaznaczyć punkty>prawy Przycisk Myszy>Dodaj lini ¾e trendu. 4. Je sli warto sć zmiennej obja sniajacej ¾ X zwi ¾ekszy si ¾e o jednostk ¾e, to warto sć zmiennej Y zmieni si ¾e o b (w zale zno sci od znaku). Ćwiczenie 2 Jak powy zej ale dla n = 5000. Wykorzystać generowanie liczb pseudolosowych dla X. Zbadaj wp yw wielko sci odchylenia standardowego zmiennej " na wyniki estymacji. Wnioski? Ćwiczenie 3 Dla par (x i ; y i ) = (x i ; x i+ ) ; gdzie x i jest i-ta¾ obserwacja¾ WIG20 przeprowad z estymacj ¾e regresji (wyznacz estymatory, narysuj wykres rozrzutu wraz z linia¾ regresji)..4 Badanie istotności parametrów Twierdzenie 2 Je sli " maja¾ rozk ad normalny, to b 2 = n 2 (y i by i ) 2 = SSE n 2, gdzie SSE = P n e2 i = P n (y i by i ) 2 ; jest nieobcia zonym ¾ estymatorem parametru 2. Twierdzenie 3 Je sli " maja¾ rozk ad normalny, to b 0 0 t n 2 SE b0 b t n 2 SE b r q gdzie 2 SE b0 = b 2 n + x2 S xx, SE b = b 2 S XX. Dzielimy przez liczb ¾e stopni swobody równa¾ n 2. Odejmujemy 2 bo stopnie swobody zosta y zwiazane r przez estymatory wspó czynnków. r 2 SE b0 \ = V ar b0, SE b \ = V ar b 5
.4. Przedzia y ufości Lemat 2 Je sli " maja¾ rozk ad normalny, to. ( ) 00% przedzia ufno sci dla parametru 0 jest postaci b 0 t n 2;=2 SE b0 2. ( ) 00% przedzia ufno sci dla parametru : b t n 2;=2 SE b Uwaga 6 Wskazówka praktyczna: je sli warto sć zero nie znajduje si ¾e w przedziale ufno sci parametru to z prawdopodobieństwem zale zno sć liniowa pomi ¾edzy zmienna¾ Y a zmienna¾ X jest istotna ( scíslej: wspó czynnik nachylenia linii regresji jest ró zny od zera)..4.2 Testy istotności Jeśli wartość zmiennej Y jest sta a niezale znie od wartości X, to = 0. Jeśli korelacja pomi¾edzy zmiennymi nie wyst¾epuje to = 0. Lemat 3 Je sli " N (; ) oraz c 2 R to Jest to test dwustronny. Wniosek 2 Je sli " N (; ) to H 0 : = c H 0 : 6= c b c t n 2 SE b H 0 : = 0 H 0 : 6= 0 Jest to test dwustronny. b t n 2 SE b Uwaga 7 Gdy wspó czynnik korelacji jest istotnie ró zny od zera lub gdy istnieje zwiazek ¾ regresyjny pomi ¾edzy zmiennymi to i tak nie mo zemy stwierdzíc zwiazku ¾ przyczynowo-skutowego mi ¾edzy zmiennymi tzn. nie mo zemy stwierdzíc, ze jedna zmienna jest przyczyna¾ drugiej. 6
Ćwiczenie 4 Analiza regresji w oparciu o plik: PilkaNozna.xls.. Przeprowadzíc estymacj ¾e parametrów 2. Wyznaczyć b ¾edy standardowe parametrów:se b0 q b SE = b 2 S XX = r b 2 n + x2 S xx, 3. Testuj: H0 : = 0 H : 6= 0 Solution 2 Zaznacz obszar 2x2, nacísnij F2 wpisz =REGLINP(Zakres_Y;Zakres_X;;) oraz CTRL+SHIFT+ENTER. Otrzymasz b SE b b 0 SE b0 b t stat = SE b p value = ROZK AD.T(Modu.Liczby(t stat ); n 2; 2) U = ROZK AD.T.ODW(=2; n 2) Zbiór krytyczny = ( ; U) [ (U; ) to prawdopodobieństwo zbioru krytycznego. ROZK AD.T(x; ; 2) = P (jxj > x),gdziex t () ROZK AD.T.ODW(p; ) = U; gdzie P (X > U) = p Ćwiczenie 5 Dla danych z WIG20 oraz ich logarytmów sprawdzíc normalno sć. QQ-Plot: Chcemy oceníc czy x ; :::; x n sa¾ realizacja¾ rozk adu normalnego. Uporzad- kować próbk ¾e x ; :::; x n od najmniejszej do najwi ¾ekszej otrzymujac ¾ x () ; :::; x (n). ¾ Zaznaczyć na uk adzie wspó rz ¾ednym pary (x (j) ; z j ), dla j = ; :::; n, gdzie z j wyznaczamy z to zsamo sci: j 0:5 zj b = N n n b n gdzie N jest dystrybuanta¾ standardowego rozk adu normalnego N(0; ), b n, b n sa¾ odpowiednio oszacowaniem warto sci oczekiwanej () i odchylenia standardowego () z próby. Nale zy narysować prosta¾ regresji liniowej"dla (x (j) ; z j ). Zaznaczone punkty nie powinny zbytnioódbiegać od równania prostej. 7
Ćwiczenie 6 Zastosować regresj ¾e liniowa¾ do estymacji parametrów modelu dwumianowego S (k) = S (k ) ( + k U + ( k ) D) S (0) = S 0 p k = 0 p S (k) Y k = S (k ) = + ku + ( k ) D y k = Y k = + k U + ( k ) D = D + k (U D) 8