Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Podobne dokumenty
Stosowana Analiza Regresji

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Statystyka w analizie i planowaniu eksperymentu

Rozdział 8. Regresja. Definiowanie modelu

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Estymacja parametrów w modelu normalnym

Wprowadzenie do analizy korelacji i regresji

Przedmiot statystyki. Graficzne przedstawienie danych.

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Regresja liniowa w R Piotr J. Sobczyk

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Testowanie hipotez statystycznych.

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Regresja liniowa wprowadzenie

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Testowanie hipotez statystycznych.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Wykład 12 Testowanie hipotez dla współczynnika korelacji

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Wykład 12 Testowanie hipotez dla współczynnika korelacji

PDF created with FinePrint pdffactory Pro trial version

Regresja liniowa oraz regresja wielokrotna w zastosowaniu zadania predykcji danych. Agnieszka Nowak Brzezińska Wykład III-VI

MODELE LINIOWE. Dr Wioleta Drobik

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyka matematyczna dla leśników

Dyskretne zmienne losowe

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Wykład 9 Wnioskowanie o średnich

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Hipotezy statystyczne

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

4,5. Dyskretne zmienne losowe (17.03; 31.03)

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

STATYSTYKA MATEMATYCZNA

Regresja i Korelacja

166 Wstęp do statystyki matematycznej

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Estymacja parametrów rozkładu cechy

Własności statystyczne regresji liniowej. Wykład 4

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Hipotezy statystyczne

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Regresja - zadania i przykłady.

Egzamin z ekonometrii wersja IiE, MSEMAT

Metoda najmniejszych kwadratów

EKONOMETRIA. Prof. dr hab. Eugeniusz Gatnar.

Analiza zależności zmiennych ilościowych regresja

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Ekonometria dla IiE i MSEMat Z7

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Prawdopodobieństwo i rozkład normalny cd.

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

KORELACJE I REGRESJA LINIOWA

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Pojęcie funkcji. Funkcja liniowa

Testowanie hipotez statystycznych.

Środowisko R Założenie normalności metody nieparametryczne Wykład R4; Weryfikacja założenia o normalności rozkładu populacji

Testy post-hoc. Wrocław, 6 czerwca 2016

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Regresja - zadania i przykłady.

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Zawartość. Zawartość

Prawdopodobieństwo i statystyka

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Transkrypt:

Analiza zależności cech ilościowych regresja liniowa (Wykład 13) dr Mariusz Grządziel semestr letni 2012 Przykład wprowadzajacy W zbiorze danych homedata (z pakietu R-owskiego UsingR) można znaleźć ceny 6841 domów Maplewood (New Jersey) z lat: 1970 (zmienna y1970) i 2000 (zmienna y2000). Interesuje nas zależność pomiędzy cenami domów: z roku 1970 i 2000. Dane dotyczace cen domów w Maplewood Dane (w dolarach) dotyczące pierwszych 12 domów z tego zbioru danych: > homedata[1:12,] y1970 y2000 1 89700 359100 2 118400 504500 3 116400 477300 4 122000 500400 5 91500 433900 6 102800 464800 7 71700 395300 8 71400 340700 9 68200 297400 10 71900 198600 11 65100 225800 12 59700 231500 Te skrócone dane zostaną zapisane do zbioru h1. Wykres rozproszenia Dopasowanie prostej do chmury danych W oparciu o wykres rozproszenia można próbować ocenić istnienie i charakter zależności zmiennej y2000 i zmiennej y1970. Problem: w jaki sposób dobrać prostą (o równaniu y = b 0 + b 1 x) tak, aby najlepiej pasowała do chmury danych przedstawionej na wykresie rozproszenia. Liniowa zależność pomiędzy dwiema zmiennymi, prosta regresji Rozważmy przypadek ogólny Dane: próba dwucechowa (x 1, y 1 ),..., (x n, y n ) W naszym przykładzie: n = 12, x-y odpowiadają cenom z roku 1970, y-eki cenom z roku 2000. 1

y2000 200000 300000 400000 500000 60000 70000 80000 90000 100000 110000 120000 y1970 Rysunek 1: Wykresy rozproszenia dla danych dotyczących h1 Prosta MNK Chcemy dopasować prostą y = b 0 + b 1 x do naszych danych (chmury punktów). Dla danego x i wartość ŷ i = b 0 + b 1 x i można interpretować jako wartość y przewidywaną na podstawie rozpatrywanej prostej dla wartości zmiennej objaśniającej równej x i. Błąd oszacowania, czyli tzw. wartość resztowa lub rezyduum wynosi y i ŷ i. Chcemy znaleźć prostą y = b 0 + b 1 x, dla której kwadratów rezyduów S(b 0, b 1 ) = (y i ŷ i ) 2 = (y i (b 0 + b 1 x i )) 2 (1) jest minimalna. Współczynnik b 1 nazywamy współczynnikiem kierunkowym a b 0 wyrazem wolnym. Liniowa zależność pomiędzy dwiema zmiennymi, prosta regresji Definicja 1. Prosta regresji oparta na metodzie najmniejszych kwadratów nazywamy prosta, dla której wartość sumy S(b 0, b 1 ) w (1) traktowanej jako funkcja wszystkih możliwych wartości współczynnika kierunkowego i wyrazu wolnego, jest minimalna. Nazwy: prosta regresji, prosta MNK. Liniowa zależność pomiędzy dwiema zmiennymi, prosta regresji Stosując podstawowe techniki znajdowania mimimum funkcji dwóch zmiennych i proste przekształcenia algebraiczne otrzymujemy: b 1 = x i(y i ȳ) (x i x), 2 gdzie x i ȳ oznaczją średnie dla x 1,..., x n i y 1,..., y n oraz b 0 = 1 ( n y i b 1 n Wartość y = b 0 + b 1 x nazywamy wartością przewidywaną zmiennej objaśnianej na podstawie prostej MNK dla wartości zmiennej objaśniającej równej x. n x i ). 2

y2000 200000 300000 400000 500000 60000 70000 80000 90000 100000 110000 120000 y1970 Rysunek 2: Wykres rozproszenia+prosta MNK dla danych h1 Dane h1:wykres rozproszenia+prosta MNK Rozkład całkowitej zmienności zmiennej objaśnianej Oznaczmy SST = SSR = SSE = (y i ȳ) 2 (2) (ŷ i ȳ) 2 (3) (y i ŷ i ) 2 (4) gdzie SST:całkowita suma kwadratów (Total Sum of Squares), SSR regresyjna suma kwadratów, SSE suma kwadratów błędów. Twierdzenie 1. Prawdziwa jest równość SST = SSR + SSE. Dowód można znaleźć w książce Koronackiego i Mielniczuka, str. 270. Współczynnik SSR/SST zwany współczynnikiem determinacji (oznaczanym R 2 ) określa stopień, w jakim zależność liniowa między zmienną objaśnianą a objaśniającą tłumaczy zmienność wykresu rozproszenia. Współczynnik korelacji Definicja 2. Współczynnikiem korelacji próbkowej dla próbki dwuwymiarowej (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) nazywamy zmienna liczbę ( )( ) r = 1 x i x y i ȳ n 1 s x s y 3

gdzie x i s x oznaczają średnią i odchylenie standardowe próby x 1, x 2,..., x n i podobnie ȳ i s y oznaczają średnią i odchylenie standardowe próby y 1, y 2,..., y n. Uwaga. W powyższej definicji przez n-elementową próbę dwuwymiarową rozumiemy ciąg n par liczb (a nie zmiennych losowych). Współczynnik determinacji a współczynnik korelacji Można udowodnić, że współczynnik korelacji przyjmuje wartości z przedziału [ 1, 1]. Wartości współczynnika korelacji bliskie 1 lub 1 wskazują na istotną zależność liniową pomiędzy zmiennymi. Twierdzenie 2. Zachodzi równość r 2 = SSR/SST. Przykład z cenami domów w Maplewood c.d. Wykonując obliczenia dla danych h1 otrzymujemy R 2 = RRS/RRT = 0,7944 r = 0,891287. Problem: powyższe wartości współczynników: determinacji i korelacji wskazują na istotną zależność pomiędzy cenami domów w latach 1970 i 2000? Statystyczny model zależności liniowej Rozważmy model regresji liniowej: Y i = β 0 + β 1 x i + ɛ i, i = 1,..., n, (5) gdzie β 1 i β 2 są pewnymi stałymi a ɛ 1,..., ɛ n są niezależnymi zmiennymi losowymi o rozkładzie N(0, σ). Przyjmujemy ponadto, że wartości x i nie są sobie równe (nie są równe jednej liczbie). Mamy tu n zmiennych losowych: Y 1, Y 2,..., Y n. Dla zmiennej Y i wartość oczekiwana jest równa: µ Yi = E(β 0 + β 1 x i ) + E(ɛ i ) = β 0 + β 1 x i, i = 1,..., n. Sens: Wartość objaśniana jest równa funkcji liniowej zmiennej objaśnianej plus pewien błąd losowy. Wnioskowanie statystyczne w modelu zależności liniowej Możemy być zainteresowani: estymacją parametrów β 0, β 1, estymacją wariancji σ 2, estymacją przedziałową ww. parametrów lub ich funkcji; testowaniem hipotez dotyczących parametrów. 4

Weryfikacja hipotezy dotyczacej istotności β 1 Jesteśmy zainteresowani weryfikacją H 0 : β 1 = 0 przeciw H 1 : β 1 0. Stosowną statystyką testową okazuje się t = b 1 n (x i x) S 2 gdzie b 1 = x i(y i Ȳ ) (x i x) 2, S 2 = (Y i b 1 x i b 0 ) 2 n 2 z b 0 = Ȳ b 1 x. Weryfikacja hipotezy dotyczacej istotności β 1 -c.d. Można pokazać, że t t n 2 (t ma rozkład t-studenta z n 2 st. swobody). Obszarem krytycznym dla poziomu istotności α jest: (, t 1 α/2,n 2 ] [t 1 α/2,n 2, ) Hipotezę H 0 przeciwko H 1 można również testować opierając się na statystyce F = SSR SSE/(n 2). W powyższym wzorze SSR i SSE obliczamy kładąc Y i zamiast y i w odpowiednich wzorach (por. str. 10). Statystyka F ma rozkład F 1,n 2. Obliczenia w środowisku R > reg<-lm(y2000~y1970,data=h1) > summary(reg) Call: lm(formula = y2000 ~ y1970, data = h1) Residuals: Min 1Q Median 3Q Max -102658-20099 -8331 31617 94918 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -1.348e+04 6.341e+04-0.213 0.836 y1970 4.377e+00 7.042e-01 6.216 9.94e-05 *** -- 5

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 52860 on 10 degrees of freedom Multiple R-Squared: 0.7944, Adjusted R-squared: 0.7738 F-statistic: 38.64 on 1 and 10 DF, p-value: 9.938e-05 p-wartość odpowiadająca weryfikacji H 0 : β 1 = 0 przeciw H 1 : β 1 0. jest równa 9.938e 05 = 0,0000938 są podstawy do odrzucenia H 0 nawet dla poziomu istotności α = 0,0001. Problem prognozy Jesteśmy zainteresowani ceną, za którą można byłoby sprzedać pewien dom w Maplewood, który w 1970 r. kosztował 100000; (informacje dotyczące ceny tego domu w 2000 r. nie znajdują się w naszym zbiorze danych). Problem prognozy rozważania dla ogólnego przypadku W modelu zależności liniowej jesteśmy zainteresowani oszacowaniem wartości oczekiwanej: Prognozą zmiennej zależnej Y dla ustalonej wartości x 0 nazywamy zmienną losową: Y (x 0 ) = β 0 + β 1 x 0. Sensowne oszacowanie wartości oczekiwanej Y (x 0 ): Ȳ (x 0 ) = b 0 + b 1 x 0. Przedział ufności na poziomie ufności 1 α dla wartości oczekiwanej Y (x 0 ) : 1 gdzie SE Ȳ (x0) = S n + Ȳ (x 0 ) ± t 1 α/2,n 2 SE Ȳ (x0) (x0 x)2 (xi x)2 Problem prognozy przykład Chcemy znaleźć wartość oczekiwaną Y (100000) (dla danych h1) i 95-procentowy przedział ufności dla Y (100000). Poleceniem systemu R, przy pomocy którego można wykonać odpowiednie obliczenia (wyżej opisane) jest predict; dla naszych konkretnych danych należy je zastosować w następujący sposób: > predict(reg,data.frame(y1970=100000), interval="confidence",level=0.95) fit lwr upr [1,] 424264.2 384932.2 463596.1 a więc 95-procentowym przedziałem ufności dla Y (100000) jest (384932,2; 463596,1). 6

y2000 200000 300000 400000 500000 60000 80000 100000 120000 y1970 Rysunek 3: Prosta MNK i 95-procentowe krzywe ufności Krzywe ufności Z połączenia końców przedziałów ufności dla Y ( x i ) dla odpowiednio dobranego ciągu (skończonego) x 1,..., x m, wypełniającego przedział zmienności zmiennej niezależnej x min,..., x max otrzymujemy tzw. krzywe ufności. Dodanie tych krzywych do wykresu rozproszenia z zaznaczoną prostą regresji pozwala na odczytanie z wykresu końców przedziału ufności (lub ich przybliżonej wartości) dla Y ( x 0 ), gdzie x 0 [x min, x max ] Krzywe ufności c.d. Weryfikacja poprawności modelu W naszych rozważaniach założyliśmy, że dane z h1. Założenie (o adekwatności modelu) można weryfikować analizując wartości resztowe (rezydua) por. Koronacki i Mielniczuk (2001), par. 4.2.5 (str. 284 291). Polecana literatura R. Kala, Statystyka dla przyrodników, wyd. Akademii Rolniczej w Poznaniu 2002, rodz. B1-B3. J. Koronacki i J. Mielniczuk, Statystyka dla studentów kierunków technicznych i przyrodniczych, WNT 2001, rozdz. 4.1-2. 7