1 Regresja liniowa cz. I

Podobne dokumenty
Wyk ad II. Stacjonarne szeregi czasowe.

1 Rozk ad normalny. Szczególnym przypadkiem jest standardowy rozk ad normalny N (0; 1), wartości

Rozdział 8. Regresja. Definiowanie modelu

1 Praktyczne metody wyznaczania podstawowych miar bez zastosowania komputerów

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Ekstrema funkcji wielu zmiennych.

Funkcje dwóch zmiennych

1 Wieloczynnikowa analiza wariancji

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

1 Poj ¾ecie szeregu czasowego

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Pochodne cz ¾astkowe i ich zastosowanie.

1 Analiza wariancji H 1 : 1 6= 2 _ 1 6= 3 _ 1 6= 4 _ 2 6= 3 _ 2 6= 4 _ 3 6= 4

Rozdzia 5. Uog lniona metoda najmniejszych kwadrat w : ::::::::::::: Podstawy uog lnionej metody najmniejszych kwadrat w :::::: Zastos

Ocena ryzyka kredytowego

Równania ró znicowe wg A. Ostoja - Ostaszewski "Matematyka w ekonomii. Modele i metody".

Wprowadzenie do równań ró znicowych i ró zniczkowych.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

E k o n o m e t r i a S t r o n a 1

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Wyznaczniki, macierz odwrotna, równania macierzowe

Statystyczna analiza danych w programie STATISTICA. Dariusz Gozdowski. Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

KORELACJE I REGRESJA LINIOWA

MODELE LINIOWE. Dr Wioleta Drobik

Estymacja i prognozowanie

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Stosowana Analiza Regresji

Testowanie hipotez statystycznych

1 Praktyczne metody wyznaczania podstawowych miar przy zastosowaniu programu EXCEL

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Statystyka w analizie i planowaniu eksperymentu

Wprowadzenie do analizy korelacji i regresji

Ekonometria, 3 rok. Jerzy Mycielski. Uwniwersytet Warszawski, Wydzia Nauk Ekonomicznych. Jerzy Mycielski (Institute) Ekonometria, 3 rok / 15

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

POLITECHNIKA OPOLSKA

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

1 Rekodowanie w podgrupach i obliczanie wartości w podgrupach

Analiza regresji - weryfikacja założeń

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

O zgodności procedur jednoczesnego testowania zastosowanych do problemu selekcji zmiennych w modelu liniowym

ANALIZA REGRESJI SPSS

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

1 Testy statystyczne. 2 Rodzaje testów

Weryfikacja hipotez statystycznych

PDF created with FinePrint pdffactory Pro trial version

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Wykład 3 Hipotezy statystyczne

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Własności statystyczne regresji liniowej. Wykład 4

Przykład 1. (A. Łomnicki)

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Wykład 4 Związki i zależności

1 Miary asymetrii i koncentracji

Proste Procesy Stochastyczne i ich zastosowania.

Metody Ilościowe w Socjologii

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

STATYSTYKA MATEMATYCZNA

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Estymacja parametrów w modelu normalnym

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Przykład 2. Stopa bezrobocia

Zmienne zależne i niezależne

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

t y x y'y x'x y'x x-x śr (x-x śr)^2

PRAWA ZACHOWANIA. Podstawowe terminy. Cia a tworz ce uk ad mechaniczny oddzia ywuj mi dzy sob i z cia ami nie nale cymi do uk adu za pomoc

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Temat: Funkcje. Własności ogólne. A n n a R a j f u r a, M a t e m a t y k a s e m e s t r 1, W S Z i M w S o c h a c z e w i e 1

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Analiza korelacyjna i regresyjna

Transkrypt:

Regresja liniowa cz. I. Model statystyczny Model statystyczny to zbiór za o zeń. Wprowadzamy model, który mo zliwie najlepiej opisuje ineresujacy ¾ nas fragment rzeczywistość. B ¾edy modelu wynikaja¾ z nieuwzgl¾ednienia wszystkich czynników, b ¾ednego uwzgl¾edenia czynników oraz z losowego zaburzenia. Model statystyczny ma opisywać sk adnik systematyczny, to co pozostaje to losowe reszty. sk adnik systematyczny() & wynik obserwacji model statystyczny.& sk adnik systematyczny(2) sk adnk losowy(). sk adnk losowy(2) (reszty) Zak adamy, ze sk adnik losowy ()(zaburzenie losowe, b ¾ ad losowy) jest wynikiem dzia ania ma o istotnych zdarzeń. Czego spodziewamy si ¾e od reszt? Powinny być niezale zne o średniej 0, i sta ej wariancji (równomiernie roz o zona chmurka punktów), cz¾esto zak ada si¾e, ze maja¾ rozk ad normalny (pomocne za o zenie w technikach obliczeniowych). Budowa modelu statystycznego: Ustalenie za o zeń modelu (identy kacja modelu) Estymacja parametrów modelu Wyznaczenie reszt i ocena poprawności modelu model poprawny Zastosowanie modelu (prognoza).2 Model regresji liniowej.& model niepoprawny Powrót na poczatek ¾ algorytmu I ETAP:Ustalenie za o zeń modelu Ze wzgl ¾edu na przyj ¾ete za o zenie o liniowej zale zności mi ¾edzy zmiennymi nasz model jest postaci: Y = 0 + X + " Y jest zmienna¾ zale zna ¾(inaczej zmienna¾ objaśniana), ¾ której wartości chcemy wyjaśnić lub przewidzieć X jest zmienna¾ niezale zna ¾ (inaczej zmienna¾ objaśniajac ¾ a) ¾ nazywana¾ te z predyktorem, zak adamy, ze zmienna ta nie jest zdegenerowana do sta ej. W przeciwnym przypadku problemu regresji nie by oby sensu rozwa zać.

Uwaga Umawiamy si ¾e, ze warto sci X sa¾ ustalone (brak losowo sci). " jest b ¾edem losowym (inaczej zak óceniem, szumem), jedynym źród em losowości 0 to wyraz wolny b ¾ed acy ¾ punktem przeci¾ecia linii Y = 0 + X z osia¾ rz ¾ednych. jest wspó czynnikiem kierunkowym, czyli tangensem kata ¾ pod którym linia Y = 0 + X nachylona jest do osi odci¾etych. Y = 0 + X {z } sk adnik systematyczny + {z} " sk adnik losowy y i = 0 + x i + " i, i = ; :::; n Dodatkowe za o zenia modelu: Jeśli dodatkowo " i sa¾ nieskorelowane, o tym samym rozk adzie E (") = 0 V ar (") = 2 " N 0; 2 to mówimy o modelu normalnej regresji liniowej. Przyk ad RYSUNEK!!! Uwaga 2 W modelu regresji obie zmienne sa¾ losowe, a w regresji tylko Y jest losowa. W asności W modelu normalnej regresji liniowej: " i? " j, i 6= j Uwaga 3 W asno sci 2 B ¾edy (") sa¾ jednakowo rozproszone wokó linii regresji tzn. ich rozk ad jest identyczny (w tym identyczna srednia i odchylenie) W asności 3. E (Y ) = 0 + X, (E (Y jx) = 0 + X) 2. V ar (Y ) = 2, (V ar (Y jx) = 2 ) 0, i 6= j 3. Cov (" j ; y i ) = 2, i = j II Etap: Estymacja parametrów modelu (obecny wyk ad skoncentruje si ¾e wokó tego etapu) Estymatory parametrów 0 i oznaczamy odpowiednio b 0 i b. Na podstawie n-elementowej próby (x i ; y i ), i = ; :::; n oszacowany model regresji jest postaci: Y = b 0 + b X + e 2

gdzie e reprezentuje zaobserwowane b ¾edy, czyli reszty z dopasowania linii regresji b 0 + b X do zbioru obserwacji Y czyli e = Y b 0 b X Dla poszczególnych par punktów mamy zwiazek ¾ Linia regresji: y i = b 0 + b x i + e i, i = ; :::; n e i = y i b 0 b x i by = b 0 + b X by i = b 0 + b x i, i = ; :::; n Wartości by i nazywa si¾e estymatorami y i, wartościami teoretycznymi lub prognozowanymi wartościami Y. -Metoda najmniejszych kwadratów: SSE = e 2 i = (y i by i ) 2 SSE b0 ; b = 2 y i 0 b b x i min b 0 ; b 2 y i 0 b b x i Szukamy b 0 ; b realizujacymi ¾ minimum: @SSE b0 ; b @ b = 0 0 Ostatecznie @SSE b0 ; b @ b = 0 b = SS xy SS x b 0 = y b x gdzie SS x = SS xy = (x i x) 2 (x i x) (y i y) 3

Uwaga 4 Terminologia: uk ad równań normalnych: ( 0 = P n y i n b b P n 0 x i 0 = P n x iy i 0 b P n x P n i b x2 i W asności 4. (x; y) nale zy do linii regresji 2. Uk ad równań normalnych jest równwa zny z 0 = P n e i 0 = P n x ie i 3. 4. b = r SSy SS x b XY by i y = b (x i x) Uwaga 5 b 0 i b sa¾ warto sciami (relizacjami) estymatorów prawdziwych parametrów regresji..3 Twierdzenie Gaussa-Markowa (przypadek jednowymiarowy) Lemat V ar b0 = 2 n + x2 ; V ar b = 2 S xx S XX Twierdzenie Gaussa i Markowa W modelu regresji liniowej nieobcia zonymi, ¾ liniowymi estymatorami parametrów 0 i o najmniejszej wariancji w klasie estymatorów liniowych sa¾ estymatory wyznaczone metoda¾ najmniejszych kwadratów (BLUE =best linear unbiased estimator). Wniosek E b0 = 0, E b = Ćwiczenie. Zaproponować (sztuczny) model regresji liniowej. 2. Wygenerować pary punktów z tego modelu. 3. Przeprowadzíc estymacj ¾e parametrów 4. Narysować wygenerowane pary punktów wraz z linia¾ regresji 5. Interpretacja Solution y i = 0 + x i + " i, i = ; :::; 0 4

. Narz ¾edzia>Analiza Danych>Generowanie Liczb Pseudolosowych (normalny) 2. Zaznacz obszar x2, nacísnij F2 wpisz =REGLINP(Zakres_Y;Zakres_X;;); CTRL+SHIFT+ENTER 3. Na wykresie rozrzutu punktów (x i ; y i ) zaznaczyć punkty>prawy Przycisk Myszy>Dodaj lini ¾e trendu. 4. Je sli warto sć zmiennej obja sniajacej ¾ X zwi ¾ekszy si ¾e o jednostk ¾e, to warto sć zmiennej Y zmieni si ¾e o b (w zale zno sci od znaku). Ćwiczenie 2 Jak powy zej ale dla n = 5000. Wykorzystać generowanie liczb pseudolosowych dla X. Zbadaj wp yw wielko sci odchylenia standardowego zmiennej " na wyniki estymacji. Wnioski? Ćwiczenie 3 Dla par (x i ; y i ) = (x i ; x i+ ) ; gdzie x i jest i-ta¾ obserwacja¾ WIG20 przeprowad z estymacj ¾e regresji (wyznacz estymatory, narysuj wykres rozrzutu wraz z linia¾ regresji)..4 Badanie istotności parametrów Twierdzenie 2 Je sli " maja¾ rozk ad normalny, to b 2 = n 2 (y i by i ) 2 = SSE n 2, gdzie SSE = P n e2 i = P n (y i by i ) 2 ; jest nieobcia zonym ¾ estymatorem parametru 2. Twierdzenie 3 Je sli " maja¾ rozk ad normalny, to b 0 0 t n 2 SE b0 b t n 2 SE b r q gdzie 2 SE b0 = b 2 n + x2 S xx, SE b = b 2 S XX. Dzielimy przez liczb ¾e stopni swobody równa¾ n 2. Odejmujemy 2 bo stopnie swobody zosta y zwiazane r przez estymatory wspó czynnków. r 2 SE b0 \ = V ar b0, SE b \ = V ar b 5

.4. Przedzia y ufości Lemat 2 Je sli " maja¾ rozk ad normalny, to. ( ) 00% przedzia ufno sci dla parametru 0 jest postaci b 0 t n 2;=2 SE b0 2. ( ) 00% przedzia ufno sci dla parametru : b t n 2;=2 SE b Uwaga 6 Wskazówka praktyczna: je sli warto sć zero nie znajduje si ¾e w przedziale ufno sci parametru to z prawdopodobieństwem zale zno sć liniowa pomi ¾edzy zmienna¾ Y a zmienna¾ X jest istotna ( scíslej: wspó czynnik nachylenia linii regresji jest ró zny od zera)..4.2 Testy istotności Jeśli wartość zmiennej Y jest sta a niezale znie od wartości X, to = 0. Jeśli korelacja pomi¾edzy zmiennymi nie wyst¾epuje to = 0. Lemat 3 Je sli " N (; ) oraz c 2 R to Jest to test dwustronny. Wniosek 2 Je sli " N (; ) to H 0 : = c H 0 : 6= c b c t n 2 SE b H 0 : = 0 H 0 : 6= 0 Jest to test dwustronny. b t n 2 SE b Uwaga 7 Gdy wspó czynnik korelacji jest istotnie ró zny od zera lub gdy istnieje zwiazek ¾ regresyjny pomi ¾edzy zmiennymi to i tak nie mo zemy stwierdzíc zwiazku ¾ przyczynowo-skutowego mi ¾edzy zmiennymi tzn. nie mo zemy stwierdzíc, ze jedna zmienna jest przyczyna¾ drugiej. 6

Ćwiczenie 4 Analiza regresji w oparciu o plik: PilkaNozna.xls.. Przeprowadzíc estymacj ¾e parametrów 2. Wyznaczyć b ¾edy standardowe parametrów:se b0 q b SE = b 2 S XX = r b 2 n + x2 S xx, 3. Testuj: H0 : = 0 H : 6= 0 Solution 2 Zaznacz obszar 2x2, nacísnij F2 wpisz =REGLINP(Zakres_Y;Zakres_X;;) oraz CTRL+SHIFT+ENTER. Otrzymasz b SE b b 0 SE b0 b t stat = SE b p value = ROZK AD.T(Modu.Liczby(t stat ); n 2; 2) U = ROZK AD.T.ODW(=2; n 2) Zbiór krytyczny = ( ; U) [ (U; ) to prawdopodobieństwo zbioru krytycznego. ROZK AD.T(x; ; 2) = P (jxj > x),gdziex t () ROZK AD.T.ODW(p; ) = U; gdzie P (X > U) = p Ćwiczenie 5 Dla danych z WIG20 oraz ich logarytmów sprawdzíc normalno sć. QQ-Plot: Chcemy oceníc czy x ; :::; x n sa¾ realizacja¾ rozk adu normalnego. Uporzad- kować próbk ¾e x ; :::; x n od najmniejszej do najwi ¾ekszej otrzymujac ¾ x () ; :::; x (n). ¾ Zaznaczyć na uk adzie wspó rz ¾ednym pary (x (j) ; z j ), dla j = ; :::; n, gdzie z j wyznaczamy z to zsamo sci: j 0:5 zj b = N n n b n gdzie N jest dystrybuanta¾ standardowego rozk adu normalnego N(0; ), b n, b n sa¾ odpowiednio oszacowaniem warto sci oczekiwanej () i odchylenia standardowego () z próby. Nale zy narysować prosta¾ regresji liniowej"dla (x (j) ; z j ). Zaznaczone punkty nie powinny zbytnioódbiegać od równania prostej. 7

Ćwiczenie 6 Zastosować regresj ¾e liniowa¾ do estymacji parametrów modelu dwumianowego S (k) = S (k ) ( + k U + ( k ) D) S (0) = S 0 p k = 0 p S (k) Y k = S (k ) = + ku + ( k ) D y k = Y k = + k U + ( k ) D = D + k (U D) 8