PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 2 Obserwacje nietypowe i wpływowe Regresja nieliniowa

Transkrypt

1 Wykład 2 Obserwacje nietypowe i wpływowe Regresja nieliniowa

2 Obserwacje nietypowe i wpływowe

3 Obserwacje nietypowe i wpływowe Obserwacje nietypowe w analizie regresji: nietypowe wartości zmiennej Y - prowadzące do dużych reszt modelu e i nietypowe wartości jednej lub większej liczby zmiennych objaśniających - prowadzą do relatywnie małych wartości e i Dla MNK są problematyczne, gdyż w znacznym stopniu determinują postać prostej regresji - są wpływowe Jeżeli obserwacja posiada nietypową wartość Y (duże e i ), to mówimy że ma dużą odmienność. Rysunek przedstawia przykład obserwacji wpływowej.

4 Obserwacje nietypowe i wpływowe Jeżeli obserwacja posiada nietypową wartość X i i typową wartość Y i (małe e i ) to mówimy że ma dużą dźwignię (ang. leverage). Rysunek przedstawia przykład obserwacji o dużej dźwigni.

5 Leverage? Aby wyjaśnić pojęcie punktów o dużej dźwigni (leverage) rozważmy dane pochodzące z pracy Freedman et al. (1991) Dane dotyczą liczby wypalanych papierosów w różnych krajach w 1930 roku oraz liczby zgonów (liczba zgonów na milion mieszkańców) spowodowanych rakiem płuc w 1950 roku. Country Cigarette Deaths 1 Australia Canada Denmark Finland Great Britain Iceland Netherlands Norway Sweden Switzerland USA

6 Punkty o dużej dźwigni (leverage) Niebieski punkt nazywamy punktem o dużej dźwigni (leverage point)

7 Punkty o dużej dźwigni (leverage) Mają nietypową wartość x (x- liczba papierosów, y-liczba zgonów) Mają wpływ na własności modelu: Radykalnie zmieniają wartości błędów standardowych i współczynnika dopasowania R 2 Model dopasowany - wszystkie dane y = x Adjusted R 2 = Model dopasowany - po usunięciu punktu o dużej dźwigni: y = x Adjusted R 2 =

8 Obserwacje odstające (ang. outliers) Obserwacja odstajaca: jest obserwacją, która nie spełnia równania regresji czyli nie należy do prostej regresji. może znacząco wpływać na postać prostej regresji. Jeśli analizujemy tylko pojedyncze zmienne objaśniające, to identyfikacja obserwacji odstajacych odbywa się na podstawie wykresów rozrzutu lub histogramów. Jeśli chcemy szukać obserwacji odstających dla wielu zmiennych, wówczas możemy analizowac residua lub residua studentyzowane i wsród nich szukać wartości odstających.

9 Wyznaczanie obserwacji odstających Niech e = (e 1, e 2,..., e n ) oznacza wektor wartości resztowych (residuów),gdzie e i = Y i Ŷ i. Błędem standardowym residuum e i nazywamy ( SE ei = S 1 1 n + (X i X ) 2 n ), i=1 (X i X ) 2 gdzie S 2 = 1 n n (X i X ) 2. i=1 Wtedy studentyzowana wartość resztowa wynosi r i = e i SE ei.

10 Wyznaczanie obserwacji odstających Na podstawie wykresu studentyzowanych rezydów można rozpoznać duże ich wartości, będące najprawdopodobniej wartościami odstającymi. Obserwacja jest punktem odstającym jeśli ma dużą wartość standaryzowanej reszty Obserwacje odstające to takie, których wartości bezwzględne standaryzowanych reszt przekraczają 2.

11 Wyznaczanie obserwacji odstających Funkcja rstudent: 1 data1 <- read. table (" dane _ papierosy. txt ", header = TRUE, sep = "\t", quote = "\" ", dec =".") 2 x<- data1$ Cigarette 3 y<- data1$ Deaths 4 lm. linear <-lm(y~x) 5 reszty. stud <- rstudent (lm. linear ) 6 outlier. papierosy <- reszty. stud [ which. max ( abs ( reszty. stud ))] 7 outlier. papierosy Funkcja outliertest (pakiet car): 1 library ( car ) 2 outliertest ( lm. linear ) rstudent unadjusted p-value Bonferonni p Odstającą jest obserwacja jedenasta (USA) o wartości studentyzowanej reszty równej

12 Punkty wpływowe Punkt, który powoduje dużą różnicę w dopasowaniu prostej regresji nazywamy punktem wpływowym Wykrycie obserwacji wpływowych umożliwia pomiar odległości Cooka z tzw. modyfikowanymi residuami: Usuwamy obserwację potencjalnie wpływową i obliczamy różnicę w dopasowaniu. Obserwacja jest wpływowa jeśli ta różnica będzie wysoka. Odległość Cooka mierzy poziom wpływu obserwacji. Wyznaczamy ją następująco: n j=1 D i = (Ŷ j Yˆ j(i) ) 2 ps 2 Ŷj oznacza wartość przewidywaną przez model dla j-tej obserwacji wyznaczoną w modelu z usuniętą obserwacją i -tą ˆ Y j(i) wartość przewidywaną przez model dla j-tej obserwacji wyznaczoną w modelu z którego nie usunięto obserwacji i -tej. p - liczba parametrów w modelu.

13 Wyznaczanie punktów wpływowych Funkcja influenceplot: 1 influenceplot ( lm. linear, id. method = " identify ",id.n = 1, id. cex=1, id. col= palette () [1], main=" Wykres wpływów ", sub=" Rozmiar okręgów jest proporcjonalny do odległości Cooka ")

14 Wyznaczanie punktów wpływowych Klikając na interesujące nas obserwacje (o stosunkowo dużej średnicy okręgów) uzyskujemy ich indeksy na wykresie oraz wartości reszt i odległości Cooka. StudRes Hat CookD Za poziom krytyczny powyżej którego obserwacja może być uznana za wpływową przyjmuje się 1 lub 4 n, gdzie n jest liczbą obserwacji. W badanym przypadku 4 n = 4 11 = Obserwacje wpływowe to obserwacja 5. (Wielka Brytania) oraz 11. (USA)

15 Wyznaczanie punktów wpływowych Funkcja influence.measures: 1 influence. measures (lm. linear ) dfb.1_ dfb.x dffit cov.r cook.d hat inf e e e e e * e e e e e e * Ostatnia kolumna wskazuje punkty wpływowe zaznaczając przy nich gwiazdkę. Są to obserwacje 5.(wielka Brytania) i 11. (USA)

16 Punkty wpływowe Zazwyczaj punkty wpływowe mają następujące własności: Są punktami odstającymi, tzn. graficznie leżą daleko od pozostałych punktów danych Oznacza to, że związek pomiędzy x i y jest inny dla tych punktów niż dla pozostałych punktów w danych W przedstawionym przykładzie liczba zgonów w USA (niebieski punkt) jest niższa niż oczekiwalibyśmy na podstawie liczby wypalanych papierosów (prawdopodobnie dzięki lepszej opiece zdrowotnej) Wyznaczają punkt o dużej dźwigni, tzn wartość zmiennej x jest daleko od średniej. Obserwacje o bardzo małej, lub bardzo dużej wartości x są obserwacjami o dużej dźwigni.

17 Punkty wpływowe W przykładzie liczba zgonów w USA (niebieski punkt) jest punktem odstającym i jest punktem o dużej dźwigni- zatem jest punktem wpływowym. Punkty odstające które nie mają dużej dźwigni nie są wpływowe

18 Regresja nieliniowa

19 Regresja nieliniowa Motywacja Celem wprowadzenia regresji nieliniowej jest próba poradzenia sobie z sytuacjami, gdy relacja pomiędzy zmieną objaśnianą a zmienną objaśniającą ma charakter nieliniowy. W większości przypadków problem sprowadza się do znalezienia pewnej transformacji jednej lub obu zmiennych (objaśnianej i objaśniającej), tak, aby uczynić ich wzajemną relację liniową. Następnie stosowana jest klasyczna metoda regresji liniowej.

20 Przykład 2.1 -Dane "pressure" Dane opisują związek pomiędzy temperaturą w stopniach Celsjusza a ciśnieniem pary rtęci w milimetrach. W danych mamy dwie zmienne: temperature w stopniach Celsjusza oraz pressure - ciśnienie pary rtęci ( w milimetrach rtęci). Dane pochodzą z książki "Handbook of Chemistry and Physics", CRC Press (1973). Wczytanie i podsumowanie danych: 1 data ( pressure ) 2 str ( pressure ) ## podsumowanie zawartości zbioru danych 3 summary ( pressure ) ## podsumowanie zawartości zbioru danych 4 help ( pressure ) ## wyswietla informację na temat zbioru dancyh

21 Przykład 2.1 -Dane "pressure" 1 str ( pressure ) ## podsumowanie zawartości zbioru danych data.frame : 19 obs. of 2 variables: $ temperature: num $ pressure : num summary ( pressure ) ## podsumowanie zawartości zbioru danych temperature pressure Min. : 0 Min. : st Qu.: 90 1st Qu.: Median :180 Median : Mean :180 Mean : rd Qu.:270 3rd Qu.: Max. :360 Max. :

22 Przykład 2.1 -Dane "pressure" Wyjaśnienie: Gdy ciecz jest umieszczona w próżni, zaczyna wyparowywać. Ten proces trwa do momentu gdy ciecz i para osiągną równowagę dynamiczną (liczba cząsteczek cieczy, które przejdą w parę jest równa liczbie cząsteczek pary, które przejdą w ciecz). Wówczas ciśnienie wywierane przez parę na ciecz jest nazywane ciśnieniem pary (lub ciśnieniem pary w równowadze) danej substancji. Ciśnienie pary ma skomplikowany związek z temperaturą i (najprawdopodobniej) nie zostało to opisane za pomocą teoretycznego prawa ( przynajmniej w przypadku rtęci). Ponieważ tutaj zajmujemy się fazą przejściową pomiędzy cieczą a parą, a nie tylko gazem, standardowe prawa nie mają zastosowania.

23 Przykład 2.1 -Dane "pressure" Ciśnienie pary dla rtęci i jego związek z temperaturą było istotnym problemem pojawiającym się na przykład w sytuacji skalowania narzędzi naukowych takich jak termometry rtęciowe i barometry. W celu urealnienia problemu przekształcamy jednostki do jednostek SI. 1 pressure $ temperature = pressure $ temperature pressure $ pressure = pressure $ pressure * summary ( pressure ) temperature pressure Min. :273.1 Min. :2.666e-05 1st Qu.: st Qu.:2.399e-02 Median :453.1 Median :1.173e+00 Mean :453.1 Mean :1.657e+01 3rd Qu.: rd Qu.:1.686e+01 Max. :633.1 Max. :1.074e+02 Są to przekształcenia liniowe a zatem nie będą miały wpływu na rodzaj zależności pomiędzy zmiennymi.

24 Przykład 2.1 -Dane "pressure" Dla uproszczenia późniejszego zapisu zastępujemy formuły typu pressure$pressure prostszymi wyrażeniami. 1 pres = pressure $ pressure 2 temp = pressure $ temperature 3 rm( pressure ) ## usunięcie zbędnych zmiennych

25 Przykład 2.1 -Dane "pressure" Zaczynamy od narysowania danych 1 par ( mfrow=c (1,4) ) # jeden wiersz na 4 rysunki 2 plot ( pres ~ temp, main=" Ciśnienie pary \n dla rtęci ", xlab=" Temperatura (w stopniach Kelvina )", ylab=" Ciśnienie ( kpascal -e)")

26 Przykład 2.1 -Dane "pressure" Widząc kształt wykresu danych możemy pomyśleć że związek pomiędzy zmiennymi ma charakter wykładniczy. A zatem stosujemy transformację logarytmiczną. Można to zrobić na dwa sposoby - albo transformując zmienna za pomocą komendy logpres=log(pres), lub rysując dane na zmienionej skali log=y.

27 Przykład 2.1 -Dane "pressure" 1 plot ( pres ~ temp, main=" Ciśnienie pary \n dla rtęci ", xlab=" Temperatura (w stopniach Kelvina )", ylab=" Ciśnienie ( kpascal -e)", log ="y")

28 Przykład 2.1 -Dane "pressure" Po transformacji okazuje się że jest istotnie lepiej, jednak dane wydają się być przekorygowane. Próbujemy następnie zastosować transformację logarytmiczną zarówno dla zmiennej x jak i zmiennej y.

29 Przykład 2.1 -Dane "pressure" 1 plot ( pres ~ temp, main=" Ciśnienie pary \n dla rtęci ", xlab=" Temperatura (w stopniach Kelvina )", ylab=" Ciśnienie ( kpascal -e)", log ="xy")

30 Przykład 2.1 -Dane "pressure" Jak widać to polepsza wynik, ale nadal mamy widoczną łukowatą strukturę zależności.

31 Przykład 2.1 -Dane "pressure" Sprawdzamy co się stanie jeśli zastosujemy transformację logarytmiczną tylko dla x: 1 plot ( pres ~ temp, main=" Ciśnienie pary \n dla rtęci ", xlab=" Temperatura (w stopniach Kelvina )", ylab=" Ciśnienie ( kpascal -e)", log ="x")

32 Przykład 2.1 -Dane "pressure" Jak widać wynik jest podobny do sytuacji wyjściowej, co nie rozwiązuje naszego problemu. Mimo, że wiemy już, że model nie jest poprawny ( na podstawie rysunków),dopasujmy modele liniowe do transformacji wykładniczej i logarytmicznej, aby zilustrować proces. 1 par ( mfrow=c (1,2) ) # jeden wiersz na dwa rysunki 2 lm. out1 = lm( log ( pres ) ~ temp ) # model wykładniczy 3 plot ( lm. out1$fitted, lm. out1$resid ) # rysunek reszt 4 5 lm. out2 = lm( log ( pres ) ~ log ( temp )) # transformacja log dla x i y 6 plot ( lm. out2$fitted, lm. out2$resid ) # rysunek reszt

33 Przykład 2.1 -Dane "pressure" Na wykresach widać wyraźnie nielosowy układ danych według pewnej krzywej, co sugeruje, że zastosowane modele są niewłaściwe.

34 Regresja wielomianowa Definicja Wielomianem zmiennej x rzędu k nazywamy funkcję f (x) = a k x k + a k 1 x k a 1 x + a 0 Wielomian odpowiedniego rzędu będzie pasował idealnie do wykresu danych. Jeśli rząd wielomianu jest o jeden mniejszy od liczby punktów do których ma być dopasowany, to dopasowanie będzie idealne. Jednakże nie będzie to w żaden sposób użyteczne i nie będzie miało żadnej mocy objaśniającej. Zobaczmy, co możemy uzyskać stosując wielomiany niższego rzędu.

35 Regresja wielomianowa Wystarczy spojrzeć na wykres danych aby stwierdzić, że nie jest to parabola, a zatem zaczynamy od próby dopasowania wielomianu rzędu 3.

36 Regresja wielomianowa Chcemy dopasować model postaci pres = β 0 + β 1 temp + β 2 temp 2 + β 3 temp 3 Trzema zmiennymi objaśniającymi są: temp, temp 2 oraz temp 3 Druga i trzecia potęga zmiennej temp musi być wprowadzona do modelu za pomocą wyrażeń I (temp 2 ) oraz I (temp 3 ) odpowiednio. 1 lm. out3 = lm( pres ~ temp + I( temp ^2) + I( temp ^3) ) 2 summary ( lm. out3 ) Call: lm(formula = pres ~ temp + I(temp^2) + I(temp^3)) Residuals: Min 1Q Median 3Q Max

37 Regresja wielomianowa Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e e e-06 *** temp 3.804e e e-07 *** I(temp^2) e e e-07 *** I(temp^3) 8.440e e e-08 *** Residual standard error: on 15 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 3 and 15 DF, p-value: 5.89e-15 Wszystkie trzy zmienne są istotne (wyraz wolny także) Współczynnik dopasowania modelu - skorygowane R 2 - wynosi 0.987, co może sugerować bardzo dobre dopasowanie modelu Jednak wykres reszt wykazuje, że nasz model jest niewłaściwy:

38 Regresja wielomianowa 1 par ( mfrow=c (1,1) ) 2 plot ( lm. out3$fitted, lm. out3$resid )

39 Regresja wielomianowa Aby zobaczyć dlaczego tak jest : 1 plot ( pres ~ temp ) 2 curve ( *x *x ^ *x^3, add=t)

40 Regresja wielomianowa Krzywa wyznaczona równaniem wielomianowym ma wyraźne punkty przegięcia W danych takich punktów nie ma Zwiększenie stopnia wielomianu jest naturalnym rozszerzeniem powyższego modelu i polepszy dopasowanie Nie doprowadzi nas jednak do uzyskania właściwego modelu

41 Transformacja Boxa-Coxa W sytuacjach takich jak powyższa użytecznym narzędziem może się okazać transformacja odwrotna (Huber et al., 2006, Industrial & Engineering Chemistry Reseach, 45 (21), ) 1 plot ( pres ~ I(1/ temp ))

42 Transformacja Boxa-Coxa Sama taka transformacja nie jest jednak wystarczająca Transformacja Boxa-Coxa pozwala nam znaleźć optymalne rozwiązanie (transformację zmiennej objaśnianej) stosując metodę największej wiarogodności Klasę transformacji Boxa-Coxa określa się następująco t λ (x) = { x λ 1 λ, λ 0 ln(x), λ = 0 dla x > 0 Wybór λ dokonywany metodą największej wiarogodności

43 1 library (" MASS ") 2 par ( mfrow=c (1,2) ) 3 boxcox ( pres ~ I(1/ temp )) # podstawowy wykres box - cox 4 boxcox ( pres ~ I(1/ temp ), lambda = seq ( -.2,.2,.01) ) Rysunek sugeruje, że powinniśmy wybrać λ bardzo bliskie zeru, czyli t λ (x) = ln(x).

44 Transformacja Boxa-Coxa- Dane po transformacji 1 plot ( log ( pres ) ~ I(1/ temp ))

45 Transformacja Boxa-Coxa- Dopasowanie modelu 1 lm. out4 = lm( log ( pres ) ~ I(1/ temp )) 2 summary ( lm. out4 ) Call: lm(formula = log(pres) ~ I(1/temp)) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.626e e <2e-16 *** I(1/temp) e e <2e-16 *** Residual standard error: on 17 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 1.59e+05 on 1 and 17 DF, p-value: < 2.2e-16

46 Transformacja Boxa-Coxa- Dopasowanie modelu Wnioski Bardzo dobre dopasowanie modelu (R 2 = ) Model dopasowany ma postać log(pres) = temp Sprawdzamy dopasowanie na wykresach:

47 Transformacja Boxa-Coxa- Dopasowanie modelu 1 par ( mfrow=c (2,2) ) 2 plot ( lm. out4 )

48 Jak to interpretować? Po dopasowaniu modelu powinniśmy sprawdzić czy spełnione są przyjęte założenia Jeżeli założenia modelu są spełnione to reszty modelu (residua) powinny mieć rozkład normalny o równych wariancjach Założenia modelu możemy badać weryfikując własności reszt. Służą temu wykresy diagnostyczne.

49 Jak to interpretować? Wykres Residuals vs Fitted Oś pozioma - wartości dopasowane przez model Ŷ i Oś pionowa - wartości residuów e i = Y i Ŷ i. Dla modelu adekwatnego residua mają jednorodną wariancję i lokalną średnią równą zero. Możemy ocenić: czy średnia wartość residuów zależy od Ŷi (ma nie zależeć) czy średnia wartość residuów jest bliska zeru ( ma być bliska zeru) czy wariancja zmienia sę dla różnych wartości Ŷi (ma się nie zmieniać) czy wariancja jest jednorodna (ma być jednorodna)

50 Jak to interpretować? Wykres Normal Q-Q (wykres kwantylowy dla rozkładu normalnego) Oś pozioma - wartości kwantyli rozkładu normalnego odpowiadające residuom e i = Y i Ŷ i. Oś pionowa - kwantyle empiryczne dla standaryzowanych residuów Dla modelu adekwatnego residua mają rozkład normalny, a więc punkty na wykresie powinny układać się wzdłuż linii prostej Odstępstwa od tej linii sugerują brak normalności i dają podstawę do zastosowania transformacji nieliniowej Przy dużych rozmiarach prób nie należy się przejmować niewielkim odstępstwem od normalności

51 Jak to interpretować? Wykres Scale - Location Oś pozioma - wartości dopasowane przez model Ŷ i. Oś pionowa - pierwiastki z modułów standaryzowanych residuów. Dla modelu adekwatnego spodziewamy się równomiernie rozmieszczonych punktów wzdłuż osi poziomej Obecność jakiejkolwiek regularności lub trendu sugeruje odstępstwo od założenia o jednorodnej wariancji.

52 Jak to interpretować? Wykres Residuals vs Leverage Służy do wykrywania obserwacji nietypowych

53 Jak to interpretować? Wykres Residuals vs Leverage Oś pionowa - standaryzowane residua. Oś pozioma - siły dźwigni (leverage) tj. miary wpływu danej obserwacji na ocenę modelu. Siła dźwigni hi określa jaki wpływ na ocenę współczynników modelu ma obserwacja X i, czyli jak bardzo różnią się oceny współczynników dla modelu z tą obserwacja i dla modelu bez tej obserwacji. W modelu adekwatnym pojedyncza obserwacja nie powinna mieć znacząco silniejszego wpływu na ocenę współczynników niż pozostałe. Wartości residuów nie powinny być znacząco różne od zera. Miarą wpływu obserwacji X i jest także odległość Cooka Jeżeli dla jakiejś obserwacji odległość jest większa od 1 to dana obserwacja może być błędem pomiarowym lub wskazywać na złe określenie modelu.