Stosowana Analiza Regresji

Podobne dokumenty
Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Rozdział 8. Regresja. Definiowanie modelu

Testowanie hipotez statystycznych

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Testowanie hipotez statystycznych

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Testowanie hipotez statystycznych

Metoda najmniejszych kwadratów

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

Statystyczna analiza danych 1

Stosowana Analiza Regresji

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

1 Modele ADL - interpretacja współczynników

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

1.1 Klasyczny Model Regresji Liniowej

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Analiza zależności zmiennych ilościowych regresja

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Elementy statystyki STA - Wykład 5

Testowanie hipotez statystycznych.

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

PDF created with FinePrint pdffactory Pro trial version

Statystyka w analizie i planowaniu eksperymentu

Metody Ekonometryczne

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

1.9 Czasowy wymiar danych

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Regresja i Korelacja

Stosowana Analiza Regresji

Wprowadzenie do analizy korelacji i regresji

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

Własności statystyczne regresji liniowej. Wykład 4

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

STATYSTYKA MATEMATYCZNA

Testowanie hipotez statystycznych.

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Wykład 5 Teoria eksperymentu

Metoda najmniejszych kwadratów

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA

Estymacja parametrów rozkładu cechy

Stosowana Analiza Regresji

STATYSTYKA MATEMATYCZNA, LISTA 3

Weryfikacja hipotez statystycznych

Natalia Neherbecka. 11 czerwca 2010

MODELE LINIOWE. Dr Wioleta Drobik

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Metoda najmniejszych kwadratów

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Statystyka i Analiza Danych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyka w przykładach

Analiza wariancji i kowariancji

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Statystyczna analiza danych

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

WYKŁAD 8 ANALIZA REGRESJI

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Testy dla dwóch prób w rodzinie rozkładów normalnych

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Analiza regresji część II. Agnieszka Nowak - Brzezińska

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

Matematyka ubezpieczeń majątkowych r.

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Metody Ilościowe w Socjologii

LISTA 4. 7.Przy sporządzaniu skali magnetometru dokonano 10 niezależnych pomiarów

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

1 Podstawy rachunku prawdopodobieństwa

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Czasowy wymiar danych

Transkrypt:

prostej Stosowana Wykład I 5 Października 2011 1 / 29

prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile jest): objętości od średnicy objętości od wysokości Będziemy starali się wyjaśnić zmienność (szybkość zmiany) objętości poprzez zmienność średnicy lub wysokości. W tym przypadku: Volume zmienna objaśniana (zm. zależna, zm. odpowiedzi) Girth zmienna objaśniająca (zm. zależna, predyktor) 2 / 29

Wykres Rozproszenia prostej Podstawowe narzędzie do badania zależności: wykres rozproszenia zmiennej objaśnianej od zmiennej objaśniającej 3 / 29

Dane trees - Wykres Rozproszenia 65 70 75 80 85 prostej Girth 8 10 12 14 16 18 20 65 70 75 80 85 Height Volume 10 20 30 40 50 60 70 8 10 12 14 16 18 20 10 20 30 40 50 60 70 4 / 29

prostej Zależność liniowa Wnioski: znacznie silniejsza zależność (liniowa?) w przypadku zależności Volume Girth niż Volume Height. Jak to ująć ilościowo? x i i-ta wartość Girth y i i-ta wartość Volume Staramy się dopasować prostą do wykresu rozproszenia. (x 1, y 1 ),..., (x n, y n ) próba y = b 0 + b 1 x Ma to sens jedynie wtedy, gdy charakter wykresu jest w przybliżeniu liniowy. 5 / 29

prostej Funkcja kryterialna (jedna z możliwych): S(b 0, b 1 ) = (y i (b 0 + b 1 x i )) 2. Inne możliwości: suma dla rzutów prostopadłych na prostą, n y i (b 0 + b 1 x i ), (, LS - least squares): S b 0 =... S b 1 =... Rozwiązanie...... (b 0, b 1 ) = arg min S(, ) 6 / 29

prostej Terminologia Terminologia: Prosta : y = b 0 + b 1 x, gdzie b 0, b 1 - wyliczone metodą ; Wartość prognozowana (prognoza) dla i-tej obserwacji: ŷ i = b 0 + b 1 x i ; Wartość resztowa (rezyduum, residual): e i = y i ŷ i. 7 / 29

prostej S b 0 = 2 n S b 1 = 2 n (y i (b 0 + b 1 x i )) Wyznaczenie (b 0, b 1 ) x i (y i (b 0 + b 1 x i )) y i nb 0 b 1 x i = 0 x i y i b 0 x i b 1 xi 2 = 0 b 0 = ȳ b 1 x x i y i (ȳ b n 1 x) x i b 1 ( x i (y i ȳ) = b 1 x 2 i n x 2 x 2 i = 0 ) 8 / 29

Współczynniki prostej prostej Rozwiązanie: b 0 = ȳ b 1 x n x i (y i ȳ) b 1 = n (x i x) 2 Zauważmy, że xi (y i ȳ) b 1 = (xi x) 2 = (xi x)(y i ȳ) (xi x)y i (xi x) 2 = (xi x) 2 9 / 29

prostej prostej Przechodzi przez punkt ( x, ȳ): b 0 + b 1 x = (ȳ b 1 x) + b 1 x = ȳ. e i = 0: e i = n (y i ŷ i ) = n (y i (b 0 + b 1 x i )) = S b 0 = 0. Stąd część rezyduów musi być 0, a część 0. ȳ = ŷ: ŷ = 1 n ŷ i = 1 n (b 0 + b 1 x i ) = b 0 + b 1 x = ȳ. 10 / 29

prostej prostej ŷ i e i = 0: S b 1 = 0 n x i e i = 0 ŷ i e i = n (b 0 + b 1 x i )e i = b 0 e i + b 1 x i e i = 0 Wniosek: ŷ i (e i ē) = 0, a zatem n (ŷ i ȳ)(e i ē) = 0 - próbkowy współczynnik korelacji wartości prognozowanych i rezyduów jest równy zero. 11 / 29

prostej Co prosta mówi o zależności w danych? NIC, gdy prosta ta nie odzwierciedla zachowania się chmury punktów. Na przykład: b 1 = 0 nie ma zależności między x a y? Stąd: diagnostyka (ocena) dopasowania jest niezwykle ważna! 12 / 29

prostej Rozkład zmienności zmiennej objaśnianej Zmienność samych (y i ) wariancja próbkowa Sy 2 lub: SST = (y i ȳ) 2 (całkowita suma, total sum of squares) SST = (y i ŷ i + ŷ i ȳ) 2 = = (y i ŷ i ) 2 + (ŷ i ȳ) 2 + 2 (ŷ i ȳ)e i. 13 / 29

prostej Zatem gdzie Rozkład zmienności zmiennej objaśnianej SST = SSE + SSR, SSE = n (y i ŷ i ) 2 suma błędów (error sum of squares), SSR = n (ŷ i ȳ) 2 = n (ŷ i ŷ) 2 regresyjna suma. Całkowita zmienność y = zmienność objaśniana przez prostą (SSR) + zmienność niewyjaśniona (SSE) 14 / 29

prostej Wykres rozproszenia silnie skupiony wokół prostej SSE SST. Współczynnik determinacji R 2 : SSR SST = 1 SSE SST - stopień, w jakim zależność liniowa tłumaczy zmienność wykresu rozproszenia (tylko dla prostej ). Współczynnik korelacji próbkowej między (x i ) i (y i ): r = 1 n 1 x i x S x y i ȳ S y 15 / 29

prostej Fakt Współczynnik determinacji jest równy r 2. Dowód. (xi x)(y i ȳ) b 1 = (n 1)Sx 2 = Zatem b 1 = r S y. S x SSR SST = (b1 x i + b 0 ȳ) 2 (yi ȳ) 2 = (xi x) 2 = b 2 1 (yi ȳ) 2 = r 2 S2 y S 2 x (xi x)(y i ȳ) (n 1)S x S y S y S x. (b1 x i b 1 x) 2 (yi ȳ) 2 = (xi x) 2 (n 1)S 2 y = r 2. 16 / 29

prostej b 1 nachylenie prostej r 2 skupienie punktów dookoła prostej - bardziej adekwatny wskaźnik zależności liniowej niż r. b 1 = r Sy S x może być tak, że: r 1, a b 1 0 (gdy S x S y ) r 0, a b 1 duże... Np. : dla Volume Girth: r 2 = 0.94, dla Volume Height: r 2 = 0.36. 17 / 29

prostej Dotychczas: bezmodelowa analiza danych (EDA - exploratory data analysis) Dlaczego potrzebny model? Uściślenie wnioskowania: zamiast "wykres wskazuje na zależność liniową": jeśli model prawdziwy z prawd. 0.95 istnieje zależność między zmiennymi. 18 / 29

prostej Próba losowa: (x 1, Y 1 ),..., (x n, Y n ), gdzie: (x i ) - wartości deterministyczne, (Y i ) - wartości losowe. : Dla pewnych β 0 i β 1 : Y i = β 0 + β 1 x i + ε i, i = 1,..., n, gdzie (ε i ) - i.i.d. o rozkładzie N(0, σ 2 ) - "błędy". β 0 + β 1 x prosta regresji β 0, β 1, σ 2 nieznane parametry modelu. 19 / 29

prostej Wartość oczekiwana i wariancja (Y i ): µ Yi = EY i = E(β 0 + β 1 x i + ε i ) = β 0 + β 1 x i σy 2 i = VarY i = Var(β 0 + β 1 x i ) + Varε i = σ 2 A zatem: Y i N(β 0 + β 1 x i, σ 2 ), i = 1,..., n. 20 / 29

prostej Uwaga: model a metoda estymacji to dwie różne rzeczy. liniowej metoda. parametrów β 0 i β 1 : wyznaczone metodą. b 0 = Ȳ b 1 x (xi x)y i b 1 = (xi x) 2 21 / 29

Rozróżnienie: estymatorów prostej β 0 + β 1 x nieznana prosta regresji szacowana przy pomocy prostej b 0 + b 1 x Jakość dopasowania prostej do danych zależy od jakości oszacowania β 0 i β 1 przez b 0 i b 1. Fakt. (Nieobciążoność b 0 i b 1 ) Zachodzi: Ponadto: Varb 1 = Eb 0 = β 0, Eb 1 = β 1. σ 2 (xi x) 2, Varb 0 = σ 2 ( 1 n + x 2 (xi x) 2 ). 22 / 29

Dowód. Eb 1 = estymatorów (xi x)ey i (xi x) 2 = β 1 (xi x) 2 + β 0 (xi x) (xi x) 2 = β 1 prostej Eb 0 = EȲ Eb 1 x = 1 n EYi β 1 x = β 0 + β 1 x β 1 x = β 0 Varb 1 = (xi x) 2 VarY i ( (x i x) 2 ) 2 = (xi x) 2 σ 2 ( (x i x) 2 ) 2 = σ 2 (xi x) 2 Varb 0 = Var(Ȳ b 1 x) = VarȲ + x 2 Varb 1, gdyż Cov(Ȳ, b 1 ) = 0. 23 / 29

Fakt. ( ) S 2 = 1 n 2 ei 2 ES 2 = σ 2. prostej Wniosek: Estymator Varb 1 : SE 2 b 1 = S 2 (xi x) 2 Estymator Varb 0 : SE 2 b 0 = S 2 ( 1 n + x 2 (xi x) 2 ) SE b1 - błąd standardowy b 1. Dowód Faktu: zadanie domowe. 24 / 29

prostej Twierdzenie estymatorów b 1 N(β 1, σb 2 1 ), gdzie σb 2 σ 1 = 2 (xi x) ( 2 ) b 0 N(β 0, σb 2 0 ), gdzie σb 2 0 = σ 2 1 n + x 2 (xi x) 2 Nazewnictwo: b 1 β 1 σ b1 b 1 β 1 SE b1 b 1 β 1 SE b1 b 0 β 0 SE b0 t n 2 t n 2 estymator standaryzowany, estymator studentyzowany. 25 / 29

prostej Zastosowanie Twierdzenia testowanie hipotezy H 0 : β 1 = 0 przeciwko H 1 : β 1 0. Przy założeniu, że model jest prawdziwy, β 1 = 0 oznacza brak zależności Y od x. Przy H 0 : t = b 1 SE b1 t n 2 Obszar krytyczny dla poziomu istotności α: {t : t > t 1 α/2,n 2 }, gdzie t β,k - kwantyl rzędu β w rozkładzie t k, tzn. Z t k P(Z t β,k ) = β. 26 / 29

prostej Rozkład t-studenta jest symetryczny: 1 α α/2 α/2 t 1 α/2,n 2 0 t 1 α/2,n 2 Przedział ufności dla β 1 : b 1 ± t 1 α/2,n 2 SE b1 Analogicznie dla β 0... 27 / 29

prostej Przy H 0 : β 1 = 0 mamy Zatem SSR χ 2 1 SSE χ 2 n 2 SSR i SSE są od siebie niezależne F = SSR/1 SSE/(n 2) F 1,n 2 - rozkład Snedecora z parametrami 1 i n 2. Zbiór krytyczny (dla H 1 : β 1 0): {F : F > f 1 α,1,n 2 }, gdzie f 1 α,1,n 2 - kwantyl rzędu 1 α rozkładu F 1,n 2. 28 / 29

prostej Rozkład F skupiony jest na półprostej dodatniej: Zachodzi: 01 αα 0 f 1 α,1,n 2 F = t 2. Zatem test t i test F są sobie równoważne (inaczej będzie dla regresji wielokrotnej). 29 / 29