Regresja liniowa w R Piotr J. Sobczyk

Podobne dokumenty
Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Regresja ważona. Co, gdy nie ma stałej wariancji? Tu prawdziwe σ 2 =1 (dużo powtórzeń, więc wariancje są dobrze oszacowane) PAR Wykład 5 1/8

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

Analiza wariancji Piotr J. Sobczyk 19 November 2016

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

Permutacyjna metoda oceny istotności regresji

Ekonometria dla IiE i MSEMat Z7

Statystyka w analizie i planowaniu eksperymentu

Regresja liniowa wprowadzenie

Ogólny model liniowy

Regresja - zadania i przykłady.

Regresja - zadania i przykłady.

Metoda najmniejszych kwadratów

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Regresja liniowa. Etapy analizy regresji. Założenia regresji. Kodowanie zmiennych jakościowych

Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

Stosowana Analiza Regresji

Lepiej zapobiegać niż leczyć Diagnostyka regresji

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Statystyczna analiza danych 1

Metoda najmniejszych kwadratów

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania

Testowanie hipotez statystycznych

Regresja logistyczna

Statystyka w analizie i planowaniu eksperymentu

Diagnostyka modelu. Dowód [5.4] Dowód [ ]

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Problem równoczesności w MNK

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 2 Obserwacje nietypowe i wpływowe Regresja nieliniowa

1 Modele ADL - interpretacja współczynników

Egzamin z ekonometrii wersja IiE, MSEMAT

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

1.9 Czasowy wymiar danych

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Ekonometria egzamin 07/03/2018

Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Rozdział 8. Regresja. Definiowanie modelu

ANOVA podstawy analizy wariancji

Regresja liniowa oraz regresja wielokrotna w zastosowaniu zadania predykcji danych. Agnieszka Nowak Brzezińska Wykład III-VI

PAKIETY STATYSTYCZNE

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Czasowy wymiar danych

(LMP-Liniowy model prawdopodobieństwa)

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria dla IiE i MSEMat Z12

Analiza mediacji i moderacji. X - predyktor M - mediator Y - zmienna zależna. Dr Paweł Kleka /50. Trochę historii.

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Modele wielorównaniowe (forma strukturalna)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Zawansowane modele wyborów dyskretnych

Ekonometria Ćwiczenia 19/01/05

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Stanisław Cichocki. Natalia Nehrebecka

Autokorelacja i heteroskedastyczność

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

Statystyka i Analiza Danych

Metoda najmniejszych kwadratów

Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV

, a reszta dla pominiętej obserwacji wynosi 0, RSS jest stałe, T SS rośnie, więc zarówno R 2 jak i R2 rosną. R 2 = 1 n 1 n. rosnie. n 2 (1 R2 ) = 1 59

Stosowana Analiza Regresji

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Statystyka medyczna II. 7. Wstęp do regresji logistycznej. Regresja logistyczna prosta, porównanie z miarami ryzyka.

Metody Ekonometryczne

Bioinformatyka V. Analiza Danych w Języku R

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Statystyczna analiza danych (molekularnych) modele liniowe

Natalia Neherbecka. 11 czerwca 2010

Stanisław Cichocki. Natalia Nehrebecka

Monte Carlo, bootstrap, jacknife

Egzamin z ekonometrii - wersja ogólna

Rozpoznawanie obrazów

Własności statystyczne regresji liniowej. Wykład 4

Egzamin z ekonometrii wersja ogolna

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

1.1 Klasyczny Model Regresji Liniowej

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Zmienne zależne i niezależne

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Transkrypt:

Regresja liniowa w R Piotr J. Sobczyk Uwaga Poniższe notatki mają charakter roboczy. Mogą zawierać błędy. Za przesłanie mi informacji zwrotnej o zauważonych usterkach serdecznie dziękuję. Weźmy dane dotyczące wzrostu małżeństw library(ggplot2) library(pbimisc) data(heights) Od czego zaczynamy analizę danych? Nie ma jednej odpowiedzi. Warto posłuchać 11 odcinka podcastu Not so standard deviations, żeby zapoznać się z różnymi strategiami. Pierwszą rzeczą może być podglądnięcie danych. Zobaczymy jakie typy zmiennych mamy, ile jest obserwacji itp. str(heights) #od structure 'data.frame': 96 obs. of 2 variables: $ Husband: int 186 180 160 186 163 172 192 170 174 191... $ Wife : int 175 168 154 166 162 152 179 163 172 170... summary(heights) Husband Wife Min. :152.0 Min. :141.0 1st Qu.:166.8 1st Qu.:158.0 Median :175.5 Median :164.5 Mean :174.3 Mean :163.9 3rd Qu.:182.2 3rd Qu.:170.2 Max. :192.0 Max. :181.0 Kiedy już wiemy co, pod względem czysto technicznym, zawierają dane, możemy przejść do analizy eksploracyjnej. Można liczyć więcej statystyk opisowych, ale dobrą praktyką jest wizualizacja danych, wykres, dzięki któremu zobaczmy co w nich siedzi ggplot(heights, mapping = aes(x=wife, y=husband)) + geom_point() 1

190 180 Husband 170 160 150 140 150 160 170 180 Wife Ha! Coś już wiemy! Widzimy, że wzrost męża i wzrost żony są ze sobą powiązane. To znaczy ludzie wysocy łączą się w pary z wysokimi a niscy z niższymi. Jak zapiszemy to w języku modelu liniowego? Dlaczego β 0? wzrost męża = β 0 + β 1 wzrost żony + błąd Przypomnijmy sobie pytanie, jakie nas interesują w związku z modelem. Chcielibyśmy poznać β, σ i potrafić oceniać na podstawie wzrostu żony, jak wysoki jest jej mąż. Ogólny model liniowy ma postać y = Xβ + ɛ gdzie X M n p - deterministyczna macierz plany. ɛ N(0, σ 2 I). Jak wyglądał nasz estymator ML? Obliczmy to w R X=cbind(1, heights$wife) y=heights$husband beta=solve(t(x)%*%x)%*%t(x)%*%y beta [,1] [1,] 37.8100491 [2,] 0.8329246 ˆβ := (X T X) 1 X T y 2

Czy dostaniemy to samo używają standardowej funkcji erowej? lm.fit(x = X, y = y) -> lm.husband lm.husband$coefficients x1 x2 37.8100491 0.8329246 Alternatywny, i wygodniejszy sposób konstrukcji modelu liniowego w R lm.husband=lm(husband~wife, data=heights) summary(lm.husband) Call: lm(formula = Husband ~ Wife, data = heights) Residuals: Min 1Q Median 3Q Max -16.7438-4.2838-0.1615 4.2562 17.7500 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 37.81005 11.93231 3.169 0.00207 ** Wife 0.83292 0.07269 11.458 < 2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 6.468 on 94 degrees of freedom Multiple R-squared: 0.5828, Adjusted R-squared: 0.5783 F-statistic: 131.3 on 1 and 94 DF, p-value: < 2.2e-16 Na dzisiejszych zajęciach zrozumiemy całość zwracanego podsumowania. Residuals To już było. Co to są residua (nie mylić z analizą zespoloną!) Na marginesie, zauważmy, że ŷ jest liniową funkcją y: y ŷ = y Xβ = y X(X T X) 1 X T y H to hat matrix, daszkuje" y. ŷ = X(X T X) 1 X T y = Hy }{{} H Sprawdźmy jakie czy nasze residua ze wzoru zgadzają się z R husband_residuals=y-x%*%solve(t(x)%*%x)%*%t(x)%*%y summary(husband_residuals) V1 Min. :-16.7438 1st Qu.: -4.2838 Median : -0.1615 Mean : 0.0000 3

3rd Qu.: 4.2562 Max. : 17.7500 Kolejna uwaga na marginesie. Przypomnienie z algebry liniowej. Co to jest macierz X(X T X) 1 X T? Jak w związku z tym można interpretować nasze oszacowania? Co w związku z tym wiemy o własnościach macierzy H? t-value Zauważmy, że nasz estymator ˆβ jest zmienną losową Co dalej? ˆβ = (X T X) 1 X T y (X T X) 1 X T N (Xβ, σ 2 I) ˆβ N ((X T X) 1 X T Xβ, (X T X) 1 X T σ 2 I((X T X) 1 X T ) T ) (1) N (β, σ 2 (X T X) 1 X T X(X T X) 1 ) (2) N (β, σ 2 (X T X) 1 ) (3) Jakie płyną stąd wnioski? 1. Estymatory poszczególnych elementów β są skorelowane. Kiedy są nieskorelowane? 2. Jaki jest rozkład pojedynczego β i? 3. Czego potrzebujemy, aby policzyć wariancję estymatora? Estymator wariancji w modelu liniowym Z tw. Fishera, jest on niezależny od ˆσ 2 = (y X ˆβ) T (y X ˆβ) n p ˆ beta. Przejdźmy przez szybki rachunek. a zatem ˆβ i N (β i, σ 2 (X T X) 1 ii ) beta_hat=solve(t(x)%*%x)%*%t(x)%*%y RSS=sum( (y-x%*%beta_hat)^2 ) sigma_hat=sqrt(rss/(nrow(heights)-2)) sigma_hat [1] 6.468001 sqrt(diag(solve(t(x)%*%x)))*sigma_hat [1] 11.93230880 0.07269272 ˆβ i β i σ 2 (X T X) 1 ii N (0, 1) ˆβ i β i ˆσ 2 (X T X) 1 ii t(n 2) 4

Możemy też policzyć statystykę testową i p-wartości test_stat=beta_hat/(sqrt(diag(solve(t(x)%*%x)))*sigma_hat) test_stat [,1] [1,] 3.168712 [2,] 11.458156 2*(1-pt(test_stat, df = nrow(heights)-2)) [,1] [1,] 0.002066323 [2,] 0.000000000 F-statistic i modele zagnieżdżone Kiedy budujemy model liniowy, powinniśmy zadać sobie pytanie czy ma to jakikolwiek sens. To znaczy, czy zmienne objasniające dają jakąś istotną informację o zmiennej objaśnianej. Robimy to porównując nasz model z tzw modelem zerowym, czyli takim, który ma jedynie Intercept. Porównanie jest robione w oparciu i RSS z obu modeli. lm(husband~1, data=heights) -> lm.husband0 anova(lm.husband0, lm.husband) Analysis of Variance Table Model 1: Husband ~ 1 Model 2: Husband ~ Wife Res.Df RSS Df Sum of Sq F Pr(>F) 1 95 9425.0 2 94 3932.5 1 5492.5 131.29 < 2.2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 R 2 Współczynnik R 2 mówi o tym, jak procent zmienności danych (czyli wariancji zmiennej objaśnianej) jest wyjaśniany w modelu. Wiemy, że nigdy nie będzie to 100% procent, ponieważ nasz model zawiera element losowy ɛ. 1-RSS/var(heights$Husband)/(nrow(heights)-1) [1] 0.5827588 R 2 i = (y i ȳ) 2 RSS( ˆβ) i (y i ȳ) 2 Korzystając z R 2, można ze sobą porównać dwa konkurecyjne modele. największe. Zależy nam, aby R 2 było jak Co zatem robi adjusted R 2. Jak zachowuje się RSS gdy zwiększamy liczbę zmiennych w modelu. Czy to jest pożądane zachowanie? 1-RSS/(nrow(heights)-2)/var(heights$Husband) 5

Figure 1: Dlaczego warto robić wykresy? źródło: https://pbs.twimg.com/media/cqyf1rcxgailssp.jpg 6

[1] 0.5783201 adjusted R 2 = var(y) RSS( ˆβ)/(n p) var(y) Zerknijmy jeszcze raz na podsumowanie regresji liniowej summary(lm.husband) Call: lm(formula = Husband ~ Wife, data = heights) Residuals: Min 1Q Median 3Q Max -16.7438-4.2838-0.1615 4.2562 17.7500 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 37.81005 11.93231 3.169 0.00207 ** Wife 0.83292 0.07269 11.458 < 2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 6.468 on 94 degrees of freedom Multiple R-squared: 0.5828, Adjusted R-squared: 0.5783 F-statistic: 131.3 on 1 and 94 DF, p-value: < 2.2e-16 Rozumiemy już wzystkie zawarte w nim informacje i może przejść dalej, tzn. do diagnozowania i oceny stworzonego modelu liniowego. 7