Krzywa wieża w Pizie. SAS Data Step. Przykład (2) Wykład 13 Regresja liniowa

Podobne dokumenty
Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

Natalia Nehrebecka. Wykład 2

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Stosowana Analiza Regresji

Rozdział 8. Regresja. Definiowanie modelu

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Dobór zmiennych objaśniających

PAKIETY STATYSTYCZNE

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Ekonometria dla IiE i MSEMat Z12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Czasowy wymiar danych

Testowanie hipotez statystycznych

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

IID = 2. i i i i. x nx nx nx

Budowa modelu i testowanie hipotez

Natalia Nehrebecka. Zajęcia 4

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Prawdopodobieństwo i statystyka r.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

1.9 Czasowy wymiar danych

Weryfikacja hipotez dla wielu populacji

Przyczynowość Kointegracja. Kointegracja. Kointegracja

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Przedziały ufności i testy parametrów. Przedziały ufności dla średniej odpowiedzi. Interwały prognoz (dla przyszłych obserwacji)

65120/ / / /200

Jednoczynnikowa analiza wariancji. Wnioskowanie dla jednoczynnikowej ANOV-y. Porównywanie poszczególnych średnich

BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ

Heteroskedastyczość w szeregach czasowyh

Ekonometria Ćwiczenia 19/01/05

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

Natalia Nehrebecka. Zajęcia 3

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Metoda najmniejszych kwadratów

Egzamin z ekonometrii wersja IiE, MSEMAT

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

Rachunek prawdopodobieństwa i statystyka W 11: Analizy zależnościpomiędzy zmiennymi losowymi Model regresji wielokrotnej

1 Modele ADL - interpretacja współczynników

Matematyka i statystyka matematyczna dla rolników w SGGW

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

, a reszta dla pominiętej obserwacji wynosi 0, RSS jest stałe, T SS rośnie, więc zarówno R 2 jak i R2 rosną. R 2 = 1 n 1 n. rosnie. n 2 (1 R2 ) = 1 59

Metody predykcji analiza regresji

Estymacja parametrów rozkładu cechy

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Natalia Nehrebecka. Dariusz Szymański

Markowa. ZałoŜenia schematu Gaussa-

1.8 Diagnostyka modelu

Mikroekonometria 10. Mikołaj Czajkowski Wiktor Budziński

Testowanie hipotez statystycznych.

Funkcje i charakterystyki zmiennych losowych

Modele wielorównaniowe (forma strukturalna)

Testowanie hipotez statystycznych

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Modele warunkowej heteroscedastyczności

Wprowadzenie Model ARMA Sezonowość Prognozowanie Model regresji z błędami ARMA. Modele ARMA

Wykład 5 Teoria eksperymentu

Testowanie hipotez statystycznych.

Badanie współzaleŝności dwóch cech ilościowych X i Y. Analiza korelacji prostej. Badanie zaleŝności dwóch cech ilościowych. Analiza regresji prostej

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ntli Natalia Nehrebecka. Dariusz Szymański. Zajęcia 4

Stanisław Cichocki. Natalia Nehrebecka

Przypomnienie: wykłady i zadania kursu były zaczerpnięte z podręczników: Model statystyczny Format danych

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Egzamin z ekonometrii wersja IiE, MSEMat Pytania teoretyczne

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Problem równoczesności w MNK

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE

Testowanie hipotez statystycznych

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Ekonometria egzamin 07/03/2018

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada. Zajęcia 3

Zmienne sztuczne i jakościowe

Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13

Ekonometria dla IiE i MSEMat Z7

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

Transkrypt:

Bonformatyka - rozwój oferty edukacyjnej Unwersytetu Przyrodnczego we Wrocławu projekt realzowany w ramac Programu Operacyjnego Kaptał Ludzk współfnansowanego ze środków Europejskego Funduszu Społecznego Wykład 13 Regresja lnowa Materały dotyczące regresj lnowej zostały przygotowane w oparcu o materały Profesora G. P. McCabe z kursu,, Appled regresson analyss na Unwersytece Purdue. Krzywa weża w Pze Kurs był przygotowany w oparcu o ksążkę: Kutner, Nactsem, Neter and L, Appled Lnear Statstcal Models, (5 t ed.) Przykład () SAS Data Step Zmenna zależna - nacylene (Y) Zmenna objaśnająca - czas (X) wykres dopasowane prostej regresj przewdywane przyszłośc data a1; nput year lean @@; cards; 75 64 76 644 77 656 78 667 79 673 80 688 81 696 8 698 83 713 84 717 85 75 86 74 87 757 100. ; data a1p; set a1; f lean ne.;

SAS Proc Prnt proc prnt data=a1; OBS YEAR LEAN 1 75 64 76 644 3 77 656 4 78 667 5 79 673 6 80 688 7 81 696 8 8 698 9 83 713 10 84 717 11 85 75 1 86 74 13 87 757 14 100. SAS Proc Gplot symbol1 v=crcle =sm70s; proc gplot data=a1p; plot lean*year; symbol1 v=crcle =rl; proc gplot data=a1p; plot lean*year; SAS Proc Reg proc reg data=a1; model lean=year/p r; output out=a p=pred r=resd; d year;

Parameter Standard Varable DF Estmate Error INTERCEP 1-61.10879 5.1981850 YEAR 1 9.318681 0.3099140 T for H0: Parameter=0 Prob > T -.43 0.0333 30.069 0.0001 Dep Var Predct Obs YEAR LEAN Value Resdual 1 75 64.0 637.8 4.198 76 644.0 647.1-3.0989 3 77 656.0 656.4-0.4176 4 78 667.0 665.7 1.637 5 79 673.0 675.1 -.0549 6 80 688.0 684.4 3.664 7 81 696.0 693.7.3077 8 8 698.0 703.0-5.0110 9 83 713.0 71.3 0.6703 10 84 717.0 71.6-4.6484 11 85 75.0 731.0-5.9670 1 86 74.0 740.3 1.7143 13 87 757.0 749.6 7.3956 14 100. 870.7 Struktura danyc Prosta regresja lnowa model statystyczny Y zmenna odpowedz (zależna) X zmenna wyjaśnająca dla przypadków = 1 to n Y = β 0 + β 1 X + ξ Y wartość zmennej odpowedz dla tego osobnka X wartość zmennej wyjaśnającej dla tego osobnka ξ zakłócene losowe z rozkładu normalnego o średnej 0 warancj σ Parametry Własnośc modelu β 0 punkt przecęca z osą Y β 1 - nacylene σ - warancja zakłócena losowego Y = β 0 + β 1 X + ξ E (Y X ) = β 0 + β 1 X Var(Y X ) = var(ξ ) = σ

Dopasowane równane regresj reszty Ŷ = b 0 + b 1 X e = Y Ŷ, reszta e = Y (b 0 + b 1 X ) Wykres reszt proc gplot data=a; plot resd*year; were lean ne.; Metoda najmnejszyc kwadratów Mnmalzujemy Σ(Y (b 0 + b 1 X ) ) = e Lczymy pocodne względem b 0 b 1 przyrównujemy do zera b 1 = b 0 Rozwązane ( X X )( Y Y ) ( X X ) = Y b Są to równocześne estymatory najwększej warogodnośc 1 X Estymacjaσ ( Y Yˆ ) e s = = n n SSE = = MSE dfe s = s = Root MSE

Parameter Standard Varable DF Estmate Error INTERCEP 1-61.10879 5.1981850 YEAR 1 9.318681 0.3099140 Root MSE 4.18097 Dep Mean 693.6931 C.V. 0.6071 Teora dotycząca estymacjβ 1 b 1 ~ N(β 1,σ (b 1 )) gdze σ (b 1 )=σ /Σ(X X ) t=(b 1 -β 1 )/s(b 1 ) gdze s (b 1 )=s /Σ(X X ) t ~ t(n-) Przedzał ufnośc dlaβ 1 b 1 ± t c s(b 1 ) gdze t c = t(α/,n-), kwantyl rzędu (1-α/) z rozkładu Studenta z n- stopnam swobody 1-α - pozom ufnośc Test stotnośc dlaβ 1 H 0 : β 1 = 0, H a : β 1 0 t = (b 1-0)/s(b 1 ) odrzucamy H 0 gdy t t c, gdze t c = t(α/,n-) P = Prob( z t ), gdze z~t(n-) b 0 ~ N(β 0,σ (b 0 )) gdze σ (b 0 )= Teora estymacjβ 0 ( ) 1 X σ + n X X t=(b 0 -β 0 )/s(b 0 ) w s( b ), σ jest zastąpone przez s 0 t ~ t(n-) Przedzał ufnośc dlaβ 0 b 0 ± t c s(b 0 ) gdze t c = t(α/,n-) 1-α - pozom ufnośc

Test stotnośc dlaβ 0 H 0 : β 0 = β 00, H a : β 0 β 00 t = (b 0 - β 00 )/s(b 0 ) odrzucamy H 0 gdy t t c, gdze t c = t(α/,n-) P = Prob( z t ), gdze z~t(n-) Uwag (1) Normalność b 0 and b 1 wynka z faktu, że oba te estymatory można przedstawć w postac lnowej kombnacj Y, które są nezależnym zmennym o rozkładze normalnym. Uwag () Na mocy Centralnego Twerdzena Grancznego, dla dostateczne dużyc rozmarów prób, estymatory parametrów w regresj lnowej mają rozkład blsk normalnemu, nawet gdy rozkład ξ ne jest normalny. CTG zacodz gdy warancja błedu jest skończona. Można wtedy stosować opsane na poprzednc slajdac przedzały ufnośc testy stotnośc. Uwag (3) Procedury testowana można zmodyfkować tak aby wykrywały alternatywy kerunkowe. Poneważ σ (b 1 )=σ /Σ(X X ), błąd standardowy b 1 można uczynć dowolne małym zwększając Σ(X X ). Estymacja E(Y ) E(Y ) = µ = β 0 + β 1 X, wartość oczekwana Y gdy X=X estymujemy E(Y ) za pomocą = b 0 + b 1 X ^ µˆ ˆµ Teora estymacj E(Y ) ma rozkład normalny o wartośc oczekwanej µ (jest estymatorem neobcążonym) warancj σ ( )= ( X ) ( ) X X X 1 σ + n ˆµ

Tora estymacj E(Y ) () Normalność wynka z faktu, że = b 0 + b 1 X jest lnową kombnacją Y µˆ Estymujemy σ ( ˆµ ) za pomocą s ( )= ( ) 1 X X s + n X X ˆ µ E( Y ) t= ~ t(n-) s( ˆ ) ˆµ ( ) µ 95% przedzał ufnośc dla E(Y ) ˆµ ˆµ ± t c s( ) gdze t c = t(.05, n-) a s( ˆµ ) = s ( ˆ µ ) data a1; nfle../data/c01ta01.dat'; nput sze ours; data a; sze=65; output; sze=100; output; data a3; set a1 a; proc prnt data=a3; proc reg data=a3; model ours=sze/clm; Dep Var Predcted Obs sze ours Value 6 65. 94.490 7 100. 419.3861 Std Error Mean Predct 95% CL Mean 9.9176 73.919 314.9451 14.73 389.8615 448.9106 Predykcja Y (new) Y = β 0 + β 1 X + ξ Var(Y - )=Var Y + Var = σ +Var S (pred)= ˆµ ˆµ 1 s 1 + + n (Y - )/s(pred) ~ t(n-) ˆµ ˆµ ( X ) ( ) X X X

95% przedzał ufnośc dla E(Y ) 95% przedzał predykcyjny dla Y µˆ ± t c s( µˆ ) µˆ ± t c s(pred) gdze t c = t(.05, n-) data a1; nfle../data/c01ta01.dat'; nput sze ours; data a; sze=65; output; sze=100; output; data a3; set a1 a; proc prnt data=a3; proc reg data=a3; model ours=sze/cl; Dep Var Predcted Obs sze ours Value 7 100. 419.3861 Std Error Mean Predct 95% CL Predct 14.73 314.1604 54.6117 data a1; nfle../data/c01ta01.dat'; nput sze ours; symbol1 v=crcle =rlclm95; proc gplot data=a1; plot ours*sze; symbol1 v=crcle =rlcl95; proc gplot data=a1; plot ours*sze; qut;

Tabela analzy warancj (ANOVA) (Całkowty) rozrzut Y opsujemy za pomocą Σ(Y Y ) Rozrzut ten wynka z dwóc przyczyn Zależnośc od X (model) Zakłóceń losowyc SST = Σ(Y Y ) dft = n-1 ANOVA (Total) ANOVA (Model) ANOVA (Error) Ŷ Y SSM = Σ( - ) dfm = 1 (za nacylene) MSM = SSM/dfM Ŷ SSE = Σ(Y ) dfe = n- MSE = SSE/dfE MSE jest estymatorem warunkowej warancj Y, przy ustalonym X ANOVA ANOVA () Source df SS MS Model 1 Σ( Ŷ - ) Y SSM/dfM Error n- Σ(Y Ŷ ) SSE/dfE Total n-1 Σ(Y Y ) SST/dfT Source df SS MS F P Model 1 SSM MSM MSM/MSE.nn Error n- SSE MSE Total n-1

ANOVA () Wartośc oczekwane Source df SS MS F P Model 1 SSM MSM MSM/MSE.nn Error n- SSE MSE Total n-1 MSM, MSE to zmenne losowe E(MSM) = σ + β 1 Σ(X X ) E(MSE) = σ Gdy H 0 zacodz, β 1 = 0, E(MSM) = E(MSE) Test F F=MSM/MSE ~ F(dfM, dfe) = F(1, n-) Gdy H 0 ne zacodz, β 1 0 MSM jest zwykle wększe nż MSE Odrzucamy H 0 dla dużyc wartośc F: F F(α, dfm, dfe) = F(.05, 1, n-) W praktyce używamy p-wartośc Test F () Przypomnjmy, że t = b 1 /s(b 1 ) testuje H 0 Można pokazać, że t = F Oba testy zwracają te same p-wartośc data a1; nfle :/STAT51/c01ta01.txt'; nput sze ours; proc reg data=a1; model ours=sze; Sum of Mean Source DF Squares Square Model 1 5378 5378 Error 3 5485 383 C Total 4 30703 F Value Pr > F 105.88 <.0001

Par St Var DF Est Err t Pr> t Int 1 6.36 6.17.38 0.059 sze 1 3.57 0.34 10.9 <.0001 Sum of Mean Source DF Squares Square Model 1 5378 5378 Error 3 5485 383 C Total 4 30703 F Value Pr > F 105.88 <.0001 R, r Par St Var DF Est Err t Pr> t Int 1 6.36 6.17.38 0.059 sze 1 3.57 0.34 10.9 <.0001 r klasyczny estymator współczynnka korelacj r = R =SSM/SST = 1 SSE/SST Rozrzut wyjaśnony newyjaśnony Sum of Mean Source DF Squares Square Model 1 5378 5378 Error 3 5485 383 C Total 4 30703 F Value Pr > F 105.88 <.0001 R-Square 0.815 (SAS) = SSM/SST = 5378/30703 Adj R-Sq 0.8138 (SAS) =1-MSE/MST =1-383/(30703/4)