Lepiej zapobiegać niż leczyć Diagnostyka regresji

Podobne dokumenty
Regresja liniowa w R Piotr J. Sobczyk

Ekonometria Ćwiczenia 19/01/05

MODELE LINIOWE. Dr Wioleta Drobik

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Ekonometria egzamin 07/03/2018

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

Diagnostyka w Pakiecie Stata

Analiza regresji - weryfikacja założeń

Jak naprawiê popsutπ zabawkí

Ekonometria dla IiE i MSEMat Z12

Regresja liniowa. Etapy analizy regresji. Założenia regresji. Kodowanie zmiennych jakościowych

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

1 Modele ADL - interpretacja współczynników

Czasowy wymiar danych

Egzamin z ekonometrii wersja IiE, MSEMAT

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 2 Obserwacje nietypowe i wpływowe Regresja nieliniowa

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Regresja liniowa wprowadzenie

Wprowadzenie do R. log(1) ## [1] 0. sqrt(3) ## [1] sin(x = 2*pi) ## [1] e-16

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Stanisław Cichocki. Natalia Nehrebecka

Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Analiza wariancji Piotr J. Sobczyk 19 November 2016

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV

Analiza kanoniczna w pigułce

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Rozdział 8. Regresja. Definiowanie modelu

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Metody Ilościowe w Socjologii

Stanisław Cichocki. Natalia Nehrebecka

1.8 Diagnostyka modelu

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Stosowana Analiza Regresji

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

Diagnostyka w Pakiecie Stata

Egzamin z ekonometrii - wersja ogólna

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Stanisław Cichocki. Natalia Nehrebecka. Zajęcia 15-16

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Modelowanie zachowania kursu EURUSD po ogłoszeniu odczytu US Nonfarm Payrolls z wykorzystaniem modeli ARIMA-GARCH

Ekonometria egzamin 31/01/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Środowisko R Założenie normalności metody nieparametryczne Wykład R4; Weryfikacja założenia o normalności rozkładu populacji

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Model Cox a. Testowanie założeń o proporcjonalnym hazardzie.

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Ćwiczenia IV

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Testy dla dwóch prób w rodzinie rozkładów normalnych

Metoda najmniejszych kwadratów

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Testowanie hipotez statystycznych

INFORMATYKA W SELEKCJI

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Ekonometria egzamin wersja Informatyka i Ekonometria 29/01/08

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

PAKIETY STATYSTYCZNE

Metody Ekonometryczne

Ekonometria egzamin wersja ogólna 17/06/08

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

1.5 Problemy ze zbiorem danych

Egzamin z ekonometrii wersja IiE, MSEMAT

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Statystyczna analiza danych

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Stanisław Cichocki. Natalia Nehrebecka

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Regresja - zadania i przykłady.

Natalia Nehrebecka. 18 maja 2010

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Regresja logistyczna (LOGISTIC)

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Stanisław Cichocki. Natalia Nehrebecka

Egzamin z ekonometrii wersja ogolna

Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Transkrypt:

Anceps remedium melius quam nullum Lepiej zapobiegać niż leczyć Diagnostyka regresji Na tych zajęciach nauczymy się identyfikować zagrożenia dla naszej analizy regresji. Jednym elementem jest oczywiście niespełnienie założeń. Nie wszystkie założenia są równie istotne i mają równie dramatyczny wpływ na wyniki. Drugim jest fakt, że dane mogą być źle sformatowane, zapisane w złej skali lub po prostu błędne. Model liniowy: y Xβ + ɛ Główne założenie jaki robimy to IID o resztach. Diagnostyka będzie się zatem opierać na badaniu, na ile to założenie jest spełnione w naszym modelu. Anscombe s quartet Dane spreparowane przez Franka Anscombe w 7 roku. Attaching package: 'dplyr' The following objects are masked from 'package:stats': filter, lag The following objects are masked from 'package:base': intersect, setdiff, setequal, union # A tibble: 4 x 6 group mean(x) sd(x) mean(y) sd(y) cor(x, y) <fctr> <dbl> <dbl> <dbl> <dbl> <dbl>.6625 7.5000 2.0568 0.864205 2 2.6625 7.5000 2.0657 0.86265.6625 7.500000 2.00424 0.862867 4 4.6625 7.5000 2.0057 0.86524 Podstawowe statystyki dla każdego zbioru są takie same. Co więcej, podobnie ma się sprawa ze współczynnikami regresji liniowej. for(i in :4){ print(i) print(summary(lm(y~x, anscombe.data, anscombe.data$group==i))$coeff) } [] Estimate Std. Error t value Pr(> t ) (Intercept).00000.247468 2.66748 0.0257405 x 0000 0.7055 4.24455 0.002662 [] 2 Estimate Std. Error t value Pr(> t ) (Intercept).0000.25024 2.666758 0.0257584 x 00000 0.767 4.2850 0.0027886 [] Estimate Std. Error t value Pr(> t )

(Intercept).0024545.24482 2.670080 0.02560 x 0.4727 0.78777 4.272 0.0027605 [] 4 Estimate Std. Error t value Pr(> t ) (Intercept).00727.22 2.67076 0.02550425 x 0.40 0.788 4.24028 0.00264602 Okazuje się jednak, że każdy z tych zbiorów jest zupełnie inny. W dodatku tylko jeden z nich nadaje" się do dopasowania modelu liniowego ggplot(anscombe.data, aes(x,y)) + geom_point() + facet_grid(.~group) + stat_smooth(method = "lm", col = "red", se = F, fullrange = T) 2 4 2.5 0.0 y 7.5 5.0 5 0 5 5 0 5 5 0 5 5 0 5 x W tym wypadku jesteśmy w stanie organoleptycznie stwierdzić, że coś jest nie tak. Przy większej liczbie wymiarów mogłoby to być niemożliwe. Z oczywistych względów zależy nam na tym, żeby sprawdzić czy dopasowany model ma sens. Pomoże nam w tym diagnostyka regresji. Funkcje z pakietu base lmanscombe=lm(y~x, anscombe.data, anscombe.data$group==) par(mfrow=c(2,)) # Change the panel layout to 2 x 2 plot(lmanscombe, :6) 2

Residuals 2 0 2 Residuals vs Fitted 0 0 2 Normal Q Q 0 0.0 0.4 0.8.2 Scale Location 0 5 6 7 8 0 Fitted values.5.5 Theoretical Quantiles 5 6 7 8 0 Fitted values 0.0 0.2 0.4 0 2 0 2 Residuals vs Leverage Cook's dist vs Leverage h ii ( 0 0.0 0.2 0.4 2.5 0 0 2 4 6 8 0 Obs. number par(mfrow=c(,)) 0.00 0.0 0.20 0.0 Leverage 0.05 0.25 Leverage h ii Na dzisiejszych zajęciach nauczymy się analizować powyższe wykresy. Residuals vs Fitted Residua poznaliśmy już na poprzednich zajęciach. r = ˆɛ = y ŷ = y Hy = (I H)y Residua powinny oscylować wokół 0, ponieważ rozkład residuów ma średnią 0 (dlaczego?). W szczególności nie powinno być zależności residuów od ŷ. Uwaga! Kiedy mamy więcej niż jedną zmienną objaśniającą warto jest porównać wizualnie reszty i wartości dla każdej ze zmiennych objaśniających. Co nam mówi zależność w tych danych? Jak sprawdzić czy taka zależność występuje? Normal QQ Zobaczmy coś, co nie działa lmanscombe=lm(y~x, anscombe.data, anscombe.data$group==) plot(lmanscombe, 2)

Normal Q Q 0 2 28 25.5.0 0.0.0.5 Theoretical Quantiles lm(y ~ x) Czym są standardized residuals? Zauważmy, że: Ostatnia równość wynika wprost z definicji. Zatem r = ˆɛ = y ŷ = y Hy = (I H)y = (I H)ɛ. r N(0, σ 2 (I H) T (I H) = N(0, σ 2 (I H)). Ponieważ znamy macierz H, to możemy ustandaryzować r, tak żeby każde residuum miało wariancję równą ri std r i = N(0, ) ˆσ2 ( h i ) Gdzie h i jest i-tym elementem na przekątnej macierzy H. Podkreślmy jeszcze raz, że reszty (także standaryzowane) NIE są niezleżne. Ich zalezność dana jest przez macierz H. Ćwiczenie, z własności macierzy rzutu H. i n < h i < 2. i h i = p Zatem możemy oczekiwać, żeby reszty standaryzowane układały się wzdłuż wykresu qqnorm. Obserwacje, które nie sprawiają, że mamy grubsze ogony niż rozkład normalny są obserwacjami odstającymi. Co zrobić jeśli jesteśmy bardzo daleko od rozkładu normalnego? Scale location plot(lmanscombe, ) 4

Scale Location 25 0.0.0.5 28 5 6 7 8 0 Fitted values lm(y ~ x) Ważnym założeniem jakie czynimy w regresji liniowej jest jednorodność wariancji. W szczególności wariancja nie powinna zależeć funkcyjnie od wartości ŷ i. Residuals vs Leverage lmanscombe2=lm(y~x, anscombe.data, anscombe.data$group==2) plot(lmanscombe2, 5) abline(v=2*ncol(anscombe.data)/nrow(anscombe), col="blue") 5

Residuals vs Leverage 2.0.0 0.0.0 4 7 0.00 0.05 0.0 0.20 0.25 0.0 Leverage lm(y ~ x) Przez dźwignię (ang. leverage) oznaczamy wartości h i. Skąd nazwa dźwignia i o czym ona mówi? h i mówi o wpływie jaki na ŷ i ma y i. h i = ŷ i y i Przeciętna wartość h i = p n (dlaczego?). W związku z tym, reguła kciuki mówi, że obserwacjami wpływowymi są te, dla których h i 2p n. p to liczba kolumn macierzy X. Na powyższym wykresie możemy zidentyfikować obserwacje wpływowe, a także sprawdzić czy wariancja residuów nie zależy od wpływowości obserwacji. Innymi słowy, chcemy, żeby nie było zależności. Obserwacje o dużym leverage są potencjalnie obserwacjami wpływowymi, to znaczy mogą mieć duży wpływ na wyznaczenie parametrów w modelu i dopasowanie danych do modelu (R 2 ). Cook s distance plot(lmanscombe2, 4) 6

0.0 0.2 0.4 0.6 0.8 4 7 2 4 6 8 0 Obs. number lm(y ~ x) Miara określająca jaki wpływ na dopasowane wartości ŷ ma obserwacja x i. Liczymy dopasowania dla modelu z pełnymi danymi, i z danymi bez i-tej obserwacji. D i = n j= (ŷ j ŷ j, (i) ) 2 Dlaczego takie normowanie? pˆσ 2 to RSS w naszym modelu. Odjęcie jednej obserwacji, nie powinno mieć większego wpływu. Stąd reguła kciuka mówi, że wpływowa jest obserwacja o mierze Cooka większej niż. pˆσ 2 Cook s dist vs Leverage plot(lmanscombe2, 6) 7

Cook's dist vs Leverage h ii ( h ii ) 0.0 0.2 0.4 0.6 0.8 2 4.5 7 0 0.05 0. 0.2 0.25 0. Leverage h ii lm(y ~ x) Zauważmy, że możemy przepisać z definicji miarę Cooka jako: D i = ( ˆβ ˆβ (i) ) T (X T X)( ˆβ ˆβ (i) ) pˆσ 2 h i = ri 2 p h i czyli zależy od reszty i dźwigni. Obserwacja wpływowa nie musi być niedopasowana do modelu. Obserwacja o dużej reszcie nie musi być wpływowa. Jak należy rozumieć linie na wykresie? To wartości standardized residuals. Widać w jakich zakresach należy się spodziewać danych residuuów, czyli można je automatycznie rozpoznać. Dane o wzroście kobiet w USA data(women) # Load a built-in data called women ggplot(women, aes(x=height, y=weight)) + geom_point() 8

60 50 weight 40 0 20 60 64 68 72 height Mogłoby się wydawać, że regresja powinna hulać, ale... fit = lm(weight ~ height, women) par(mfrow=c(2,)) plot(fit, :6)

Residuals 2 0 2 Residuals vs Fitted 5 8 0 2 8 Normal Q Q 5 0.0.0.5 Scale Location 5 8 20 40 60 0 20 40 60 Fitted values Theoretical Quantiles Fitted values 0.0 0.4 0.8 5 4 0 2 Residuals vs Leverage Cook's dist vs Leverage h ii ( 4 5 0.0 0.4 0.8 2.5 2 4 5.5 0 2 4 6 8 2 Obs. number par(mfrow=c(,)) 0.00 0.0 0.20 Leverage 0.05 0.2 Leverage h ii Testy diagnostyczne Będziemy używać pakietu lmtest. Ma całkiem dobrą dokumentację library(lmtest) vignette("lmtest-intro", package="lmtest") Jednorodność wariancji Najbardziej krytyczne założenie w regresji liniowej jest to dotyczące jednorodności wariancji. Uwaga, nie jest największym problemem rozkład y. Nie musi być normalny. Przy dużej liczbie obserwacji residua mają rozkład normalny z CTG. Natomiast w przypadku niejednorodnej wariancji nic nie działa na naszą korzyść. W jednym z wykresów statystycznych patrzyliśmy na zależność pomiedzy wariancja a dopasowanymi wartościami. Test Breuscha-Pagana H0: wariancja jest jednorodnna H: wariancja zależy od zmiennych objaśniających bptest(weight~height, data = women) studentized Breusch-Pagan test data: weight ~ height BP =.0088, df =, p-value = 0.52 0

Test niezależności reszt H0: niezależność reszt H: autokorelacja rzędzu ze względu na daną zmienną objaśniającą dwtest(weight~height, order.by = ~height, data = women) Durbin-Watson test data: weight ~ height DW = 0.58, p-value =.08e-07 alternative hypothesis: true autocorrelation is greater than 0 Dlaczego to niedobrze? Ten wynik sugeruje, że jest w danych dodatkowa zależność, które nie zdołaliśmy ująć w modelu liniowym. Zobaczmy co się dzieje na wykresie plot(residuals(fit)~height, data=women) residuals(fit) 0 2 58 60 62 64 66 68 70 72 height Test Harveya-Colliera Czy zależnosć pomiędzy zmiennymi jest liniowa? harvtest(weight~height, order.by = ~height, data = women) Harvey-Collier test data: weight ~ height HC =.776, df = 2, p-value = 0.0024 Aha, bardzo podejrzane! Spójrzmy jeszcze raz na dane. data(women) # Load a built-in data called women ggplot(women, aes(x=height, y=weight)) + geom_point() + stat_smooth(method = "lm", se = F, fullrange = T)

60 50 weight 40 0 20 60 64 68 72 height Alternatywne pakiety Bardzo dobry zestaw narzędzi do diagnostyki regresji znajduje się w pakiecie car. 2