Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Podobne dokumenty
Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Regresja liniowa w R Piotr J. Sobczyk

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Regresja liniowa wprowadzenie

Testowanie hipotez statystycznych.

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

Testowanie hipotez statystycznych.

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Regresja - zadania i przykłady.

Ekonometria dla IiE i MSEMat Z7

Regresja - zadania i przykłady.

Statystyka w analizie i planowaniu eksperymentu

Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

Regresja ważona. Co, gdy nie ma stałej wariancji? Tu prawdziwe σ 2 =1 (dużo powtórzeń, więc wariancje są dobrze oszacowane) PAR Wykład 5 1/8

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Permutacyjna metoda oceny istotności regresji

Kolokwium ze statystyki matematycznej

Wykład 7 Testowanie zgodności z rozkładem normalnym

Estymacja parametrów w modelu normalnym

Testowanie hipotez statystycznych

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Statystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym. Wrocław, r

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Wykład 10 Testy jednorodności rozkładów

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Ogólny model liniowy

Stosowana Analiza Regresji

Rozdział 8. Regresja. Definiowanie modelu

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Statystyka Matematyczna Anna Janicka

Statystyka matematyczna. Wykład VI. Zesty zgodności

Analiza wariancji Piotr J. Sobczyk 19 November 2016

Weryfikacja hipotez statystycznych

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Przyczynowość Kointegracja. Kointegracja. Kointegracja

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Ekonometria Ćwiczenia 19/01/05

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Ekonometria dla IiE i MSEMat Z12

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Ekonometria egzamin 07/03/2018

Statystyczna analiza danych 1

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Wykład 9 Testy rangowe w problemie dwóch prób

Własności statystyczne regresji liniowej. Wykład 4

Testowanie hipotez statystycznych.

PDF created with FinePrint pdffactory Pro trial version

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

Estymacja parametrów rozkładu cechy

Testy post-hoc. Wrocław, 6 czerwca 2016

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Prawdopodobieństwo i statystyka

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Metody Ekonometryczne

STATYSTYKA MATEMATYCZNA

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Estymacja punktowa i przedziałowa

BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Diagnostyka modelu. Dowód [5.4] Dowód [ ]

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Testowanie hipotez statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

1.8 Diagnostyka modelu

Prawdopodobieństwo i statystyka r.

Wykład 14. Elementy algebry macierzy

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Przykład 1. (A. Łomnicki)

1 Modele ADL - interpretacja współczynników

Testowanie hipotez statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Transkrypt:

Model regresji wielokrotnej Wykład 14 (4.06.2007) Przykład ceny domów w Chicago Poniżej są przedstawione dane dotyczące cen domów w Chicago (źródło: Sen, A., Srivastava, M., Regression Analysis, Springer, 1990, str. 32). Price BDR FLR FP RMS ST LOT TAX BTH CON GAR CDN L1 L2 1 53 2 967 0 5 0 39 652 1.5 1 0.0 0 1 0 2 55 2 815 1 5 0 33 1000 1.0 1 2.0 1 1 0 3 56 3 900 0 5 1 35 897 1.5 1 1.0 0 1 0... 25 50 2 691 0 6 0 30 549 1.0 0 2.0 1 0 0 26 65 3 1023 0 7 1 30 900 2.0 1 1.0 0 1 0 1

Oznaczenia zmiennych Price: cena (w tys. dolarów); BDR: liczba pokoi sypialnych (bedrooms); FLR: powierzchnia w stopach kw.; FP: liczba kominków (fireplaces); RMS: liczba pokoi; ST: okna sztormowe (1- jeśli są; 0- jeśli nie ma); LOT: szerokość działki (w stopach); TAX: podatki (roczne); BTH: liczba łazienek; CON: konstrukcja (1- jeśli z cegieł; 0- w przeciwnym przypadku); GAR: (0- żadnego garazu; 1- garaż na 1 sam.; 2- garaże na 2 sam.) CDN: stan (1 potrzeba remontu; 0 nie potrzeba); L1: położenie (L1=1 jeśli dom położony w str. A; 0 w przec. przyp.); L2: położenie (L2=1 jeśli dom położony w str. B; 0 w przec. przyp.). 2

Zależność ceny od powierzchni Można próbować znaleźć zależność pomiędzy FLR (zmienną niezależną) i Price (zmienną zależną). > data(e2.2) # zbiór E2.2 w pakiecie SenSrivastava > l1<-lm(price~flr) > summary(l1) Call: lm(formula = Price ~ FLR) Residuals: Min 1Q Median 3Q Max -21.8986-4.6090 0.8269 5.4978 13.3056 Coefficients: 3

Estimate Std. Error t value Pr(> t ) (Intercept) 33.916831 4.510747 7.519 9.29e-08 *** FLR 0.020213 0.003796 5.325 1.83e-05 *** --- Sig. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 8.694 on 24 degrees of freedom Multiple R-Squared: 0.5416, Adjusted R-squared: 0.5225 F-statistic: 28.35 on 1 and 24 DF, p-value: 1.830e-05 wsółczynnik determinacji (Multiple R-Squared) jest równy 0,5416 czyli prosta MNK o równaniu y = 0,020213x + 33,916831 wyjaśnia 54 procent zmienności w naszych danych. 4

Problem czy można znależc zależność "regresyjną" zmiennej Price od większej liczby zmiennych niezależnych (BDR, FLR, FP, itd.) np. zależność postaci: P rice = β 0 + β 1 BDR + β 2 F LR + β 3 F P + ɛ 5

Normalny model regresji wielokrotnej Y i = β 0 + x i1 β 1 + x i2 β 2 + + x im β m + ɛ i, (1) gdzie: ɛ i ma rozkład normalny N(0, σ), gdzie σ > 0 jest nieznanym parametrem; zmienne ɛ 1,..., ɛ n sa niezależne; β 0, β 1,..., β m są nieznanymi, stałymi liczbami (parametrami); współczynniki x ij, i = 1,..., n, i = 1,..., m. są znane. Zakładamy, że n > m + 1. Oczywiście, Y i są zmiennymi losowymi o rozkładzie normalnym N(µ, σ), gdzie µ = β 0 + x i1 β 1 + x i2 β 2 + + x im β m. 6

Zapis macierzowy Niech X 0 = (x ij ) i=1,...,n;j=1,...,m oraz X = [1 n X 0 ], gdzie 1 n oznacza n-wymiarowy wektor kolumnowy, którego wszystkie współrzędne sa równe 1, β = (β 0, β 1,..., β m ) oraz ɛ = (ɛ 1, ɛ 2,..., ɛ n ). Model (1) może być zapisany w postaci: Y = Xβ + ɛ. 7

Uwaga. Y, X, β można też zapisać w postaci: Y = Y 1 Y 2.., X = 1 x 11 x 1m 1 x 21 x 2m......, ɛ = ɛ 1 ɛ 2. (2) Y n 1 x n1. x nm ɛ n 8

Estymacja wektora β Załóżmy, że rząd macierzy X jest równy m + 1, tj. że X jest pełnego rzędu kolumnowego. Można udowodnić, że w tym przypadku macierz X X jest nieosobliwa. Wektor b = (b 0, b 1,..., b m ) określony przez: b = (X X) 1 X Y jest estymatorem nieobciązonym wektora β posiadającym szereg atrakcyjnych własności teoretycznych. 9

Testowanie hipotez Analogicznie jak w przypadku modelu regresji z jedną zmienną niezależną, w naszym modelu można testować hipotezy (korzystając z faktu, że odpowiednie statystyki mają rozkład t-studenta): oraz hipotezę H 0 : β 0 = 0 przeciwh 1 : β 0 0 (3) H 0 : β 1 = 0 przeciwh 1 : β 1 0 (4) H 0 : β 2 = 0 przeciwh 1 : β 2 0 itd. (5) H 0 : β 1 = 0 β 2 = 0... β m = 0 przeciw: H 1 : istnieje i > 0 takie, że β i 0 (w tym przypadku statystyka testowa ma rozkład F z odpowiednią liczbą stopni swobody). (6) 10

Ceny domów w Chicago przykład obliczeń Poniżej znajdują się wyniki obliczeń w środowisku R dla modelu, w którym zmiennymi niezależnymi są: FLR,RMS,BDR,BTH,GAR,LOT,FP i ST. > l2<-lm(price~flr+rms+bdr+bth+gar+lot+fp+st) > summary(l2) Call: lm(formula = Price ~ FLR + RMS + BDR + BTH + GAR + LOT + FP + ST) Residuals: Min 1Q Median 3Q Max -10.3058-2.8417-0.1511 3.2882 7.9518 Coefficients: Estimate Std. Error t value Pr(> t ) 11

(Intercept) 18.637664 5.240957 3.556 0.002429 ** FLR 0.017570 0.003235 5.431 4.49e-05 *** RMS 3.904374 1.615617 2.417 0.027194 * BDR -7.697444 1.829426-4.208 0.000592 *** BTH 2.374591 2.557865 0.928 0.366221 GAR 1.770861 1.404310 1.261 0.224334 LOT 0.263522 0.135109 1.950 0.067808. FP 6.909765 3.083583 2.241 0.038680 * ST 10.818663 2.300203 4.703 0.000205 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 4.717 on 17 degrees of freedom Multiple R-Squared: 0.9044, Adjusted R-squared: 0.8595 F-statistic: 20.11 on 8 and 17 DF, p-value: 3.147e-07 Z obliczeń wynika, że włączenie do modelu zmiennych BTH, GAR i LOT 12

jest problematyczne (p-wartości odpowiadające tym zmiennym są duże). Można oczekiwać, że w modelu ze zmiennymi niezależnymi: FLR, RMS, BDR, FP i ST żadnej z hipotez odpowiadających tym zmiennym nie będzie można odrzucić na poziomie istotności α = 0,05. P-wartość odpowiadająca hipotezie (6) jest równa 3.147e 07 wskazuje ona na to, że przynajmniej niektóre spośród współczynników β 1,..., β m są różne od zera. Wsółczynnik determinacji (Multiple R-Squared) jest równy 0,9044 a więc nasza zależność regresyjna w dużym stopniu objaśnia zmienność danych. 13

Ceny domów w Chicago c.d. Korzystając z powyższych obliczeń: dla domu dla którego wartości zmiennych: FLR,RMS,BDR,BTH,GAR,LOT,FP i ST są równe x F LR, x RMS, x BDR, x BT H, x GAR, x LOT, x F P i x ST, wartość oczekiwana (średnia) ceny Price jest równa: E(P rice) = 18,637664 + 0,017570x F LR + 3,904374x RMS 7,697444x BDR + 2,374591x BT H + 2,374591x GAR + 0,263522x LOT + 6,909765x F P + 10,818663x ST Uwaga 1. Z powyższego równania wynika np. że zwiększenie powierzchni domu o 1 stopę kw. powoduje zwiększenie ceny domu o 0,017570 1000 18 USD. 14

Uwaga 2. Z równania wynika, że zwiększenie liczby pokoi sypialnych o jeden bez zmiany pozostałych parametrów spowoduje spadek wartości domu o 7,697444 1000 7697 USD. Interpretacja tego zaskakującego faktu jest następująca: przy mniejszej liczbie pokoi sypialnych powierzchnia domu jest zajęta przez bardziej kosztowne pomieszczenia, takie jak łazienki. Uwaga 3. Do naszego równania regresyjnego nie włączyliśmy zmiennych CON, CDN, L1 i L2. Zmienne te mogą przyjmować tylko dwie wartości są to tzw. zmienne indykatorowe. Użycie takich zmiennych w budowaniu modeli regresyjnych zostało omówione np. w rozdz. 4 książki Sena i Srivastavy. 15

Polecana literatura Koronacki, J., Mielniczuk, J. Statystyka dla studentów kierunków technicznych i przyrodniczych, WNT 2001, rozdz. 4.3. Kala, R., Statystyka dla przyrodników, Wyd. Akademii Rolniczej w Poznaniu, Poznań 2002. 16