PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Transkrypt

1 Wykład 1 Prosta regresja liniowa - model i estymacja parametrów. Regresja z wieloma zmiennymi - analiza, diagnostyka i interpretacja wyników.

2 Literatura pomocnicza J. Koronacki i J. Ćwik Statystyczne systemy uczące się. Wydawnictwo Naukowo- Techniczne, J. Koronacki i J. Mielniczuk Statystyka dla studentów kierunków technicznych i przyrodniczych. Wydawnictwo Naukowo-Techniczne, P. Biecek Przewodnik po pakiecie R.

3 Prosta regresja liniowa Pytanie : Mając próbę zawierającą wartości zmiennych dla badanych obiektów, na przykład X i oraz Y i, pytamy czy istnieje związek pomiędzy tymi wartościami? Szukamy związku liniowego gdzie β 0 i β 1 są współczynnikami. Na przykład pytamy : y = β 0 + β 1 x Czy istnieje związek pomiędzy liczbą wypalanych papierosów a zachorowalnością na raka płuc? Co możemy powiedzieć o związkach pomiędzy wiekiem drzewa a jego wysokością? Czy śmiertelność noworodków wzrasta wraz ze spadkiem wysokości dochodów na osobę? Czy możemy stwierdzić że im więcej lat edukacji tym dłuższa oczekiwana długość życia?

4 Przykład 1.1 Dane DANE1.txt 1 data1 <- read. table (" DANE1. txt ", header = TRUE ) 2 hist ( data1 $X) Histogram of data1$x Frequency data1$x Rysunek: Histogram - DANE1

5 Przykład 1.1(cd) 1 plot ( data1 $X, data1 $Y) Rysunek: DANE1

6 Prosty model regresji liniowej Dla i = 1, 2..., n Y i zmienna objaśniana X i zmienna objaśniająca Model Y i = β 0 + β 1 X i + ε i Y i wartość zmiennej objaśnianej dla i-tego osobnika β 0 - wyraz wolny β 1 - współczynnik nachylenia X i - wartość zmiennej objaśniającej dla i-tego osobnika ε i - błąd losowy o rozkładzie normalnym, ze średnią 0 i wariancją σ 2.

7 Własności prostego modelu regresji liniowej Y i = β 0 + β 1 X i + ε i E(Y i X i ) = β 0 + β 1 X i Var(Y i X i ) = σ 2. Interpretacja prostego modelu regresji liniowej W zależności od znaku i wartości współczynnika β 1, możemy interpretować model na trzy sposoby Gdy X rośnie, wartości Y rosną, maleją lub pozostają bez zmiany

8 Estymacja współczynników modelu Dopasowane równanie regresji Ŷ i = b 0 + b 1 X i Reszty modelu e i = Y i Ŷ i e i = Y i (b 0 + b 1 X i ) Metoda najmniejszych kwadratów (MNK): Wyznaczenie b 0 i b 1 minimalizujących (Y i (b 0 + b 1 X i )) 2 = i i e 2 i

9 Współczynniki modelu wyznaczone metodą MNK Minimalizacja wyrażenia i (Y i (b 0 + b 1 X i )) 2 prowadzi do : b 1 = i (X i X )(Y i Y ) i (X i X ) 2 b 0 = Y b 1 X Są to też estymatory największej wiarogodności

10 Przykład Dopasowanie modelu liniowego 1 X <- data1 $X 2 Y <- data1 $Y 3 lm(y ~ X) 4 5 lm. linear <- lm(y ~ X) 6 lm. linear Wynik Call: lm(formula = Y ~ X) Coefficients: (Intercept) X

11 Przykład 1.1- Podsumowanie wyników modelu 1 summary (lm. linear ) Call: lm(formula = Y ~ X) Residuals: Min 1Q Median 3Q Max Powierzchowna informacja o rozkładzie reszt. Średnia reszt jest z definicji równa zero, a więc mediana powinna być bliska zeru Minimum i maximum powinny być z grubsza równe co do wartości bezwzględnej

12 Przykład 1.1- Podsumowanie wyników modelu Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) * X e-08 *** Współczynniki regresji Błędy standardowe Wartości statystyki t i p-wartości Signif.codes:0 *** ** 0.01 * *** oznacza 0 < p < ** oznacza < p < 0.01 * oznacza 0.01 < p < 0.05 itd.

13 Przykład 1.1- Podsumowanie wyników modelu Residual standard error: on 38 degrees of freedom Błąd standardowy reszt - opisuje wahania obserwacji wokół prostej regresji przy wyestymowanych współczynnikach modelu. Multiple R-squared: , Adjusted R-squared: Pierwsza wartość to współczynnik korelacji Pearsona Druga wartość to skorygowana wartość R 2 - jeśli przemnożymy ją przez 100%, może być interpretowana jako % redukcji wariancji

14 Przykład Podsumowanie wyników modelu F-statistic: on 1 and 38 DF, p-value: 8.811e-08 Wartość statystyki F dla testowania hipotezy o tym, że współczynnik regresji β 1 jest równy 0. Daje ten sam wynik, co test t dla hipotezy β 1 = 0 - test F jest równy kwadratowi testu t: = (6.592) 2. Jest tak dla każdego modelu z jednym stopniem swobody.

15 Przykład Rysunek prostej regresji 1 plot ( data1 $X, data1 $Y) 2 abline (lm. linear )

16 Przykład Histogram reszt modelu 1 residuals ( lm. linear ) 2 lm. linear. resids <- residuals ( lm. linear ) 3 hist (lm. linear. resids )

17 Przykład Wartości dopasowane 1 fitted (lm. linear ) Funkcja fitted zwraca jako wynik wartości dopasowane przez model - wartości Y które uzyskalibyśmy przy najlepiej dopasowanej prostej regresji, przy danych obserwacjach X w naszym przykładzie : X

18 Przykład Wartości dopasowane 1 plot (X,Y) 2 lines (X, fitted ( lm. linear ))

19 Przykład Wartości dopasowane a reszty 1 plot (X,Y) 2 lines (X, fitted ( lm. linear )) 3 segments (X, fitted (lm. linear ),X,Y)

20 Przykład Wartości dopasowane a reszty 1 plot ( fitted (lm. linear ),resid (lm. linear ))

21 Przykład Wykres kwantyl-kwantyl 1 qqnorm ( resid (lm. linear )) Układ punktów na przekątnej sugeruje, że reszty pochodzą z rozkładu normalnego.

22 Przedziały ufności i przedziały predykcyjne Przedziały ufności Wyrażają niepewność co do wyznaczonej prostej regresji; dokładność z jaką ta prosta jest znana Wąskie przedziały ufności oznaczają dobrze dopasowaną prostą regresji Zazwyczaj są wyznaczone przez łukowate krzywe - prosta regresji jest lepiej wyznaczona w obszarze zagęszczenia obserwacji Przedziały predykcyjne Szersze niż przedziały ufności Wyrażają niepewność na temat przyszłych obserwacji Pomiędzy ich liniami znajduje się znaczna większość obserwacji Wykorzystują założenie o normalności rozkładu błędów

23 Przedziały ufności i przedziały predykcyjne 1 pred. frame <- data. frame (X =4:100) 2 pp <- predict ( lm. linear, int="p", newdata =pred. frame ) 3 pc <- predict ( lm. linear, int="c", newdata =pred. frame ) 4 plot (X,Y, ylim=range (Y, pp, na. rm=t)) 5 pred.x <- pred. frame $X 6 matlines ( pred.x, pc, lty=c (1,2,2), col=" red ") 7 matlines ( pred.x, pp, lty=c (1,3,3), col=" blue ") Tworzymy nowy zakres danych X dla których chcemy wyznaczyć przedziały predykcyjne pp i pc - przedziały predykcyjne i ufności dla nowo wybranych danych Zapewniamy obszar potrzebny na przedziały: ylim=range(y, pp, na.rm=t) Dodajemy linie używając wybranych wartości X

24 Przedziały ufności i przedziały predykcyjne

25 Wartości dopasowane wraz z przedziałami 1 predict ( lm. linear, int="c") 2 predict ( lm. linear, int="p") fit lwr upr fit - wartości oczekiwane (równe wartościom dopasowanym) lwr i upr oznaczają dolne i górne ograniczenia przedziału dla wartości oczekiwanych

26 Korelacja Współczynnik korelacji Symetryczna i niezależna od skali miara związku pomiędzy dwoma zmiennymi losowymi Przyjmuje wartości od 1 do +1, gdzie + 1 oznacza idealną korelację, 0 oznacza brak korelacji. Znak ujemny gdy duże wartości jednej zmiennej są związane z małymi wartościami drugiej zmiennej. Znak dodatni gdy obie zmienne rozsną lub maleją jednocześnie.

27 Korelacja Współczynnik korelacji Pearsona r = i (X i X )(Y i Y ) i (X i X ) 2 i (Y i Y ) 2 r jest mniejsza od 1, chyba że istnieje idealna liniowa zależność pomiędzy X i a Y i. Nazywany współczynnikiem korelacji liniowej 1 cor (X,Y, use=" complete. obs ") 2 cor ( data1, use =" complete. obs ") X Y X Y

28 Testowanie istotności wpółczynnika korelacji Pearsona Testowanie hipotezy o tym, czy współczynnik korelacji jest istotnie różny od zera 1 cor. test (X,Y) Pearson s product-moment correlation data: X and Y t = 6.592, df = 38, p-value = 8.811e-08 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: sample estimates: cor Otrzymujemy również 95% przedział ufności dla prawdziwej wartości korelacji

29 Rangowy współczynnik korelacji Spearmana Zastąpienie obserwacji ich rangami (indeksem w porządku rosnącym) Nie wymaga założenia o rozkładzie normalnym. 1 cor. test (X,Y, method =" spearman ") Spearman s rank correlation rho data: X and Y S = , p-value = 1.249e-08 alternative hypothesis: true rho is not equal to 0 sample estimates: rho Warning message: In cor.test.default(x, Y, method = "spearman") : Cannot compute exact p-values with ties

30 Współczynnik korelacji τ Kendala Bazuje na zliczaniu liczby uporządkowanych par obserwacji pary (X1, Y 1) i (X 2, Y 2) są uporządkowane jeśli X 1 X 2 > 0 i Y 1 Y 2 > 0 lub X 1 X 2 < 0 i Y 1 Y 2 < 0 Przy hipotezie zerowej o niezależności powinno być tyle samo par uporządkowanych co nieuporządkowanych

31 Współczynnik korelacji τ Kendala 1 cor. test (X,Y, method =" kendall ") Kendall s rank correlation tau data: X and Y z = , p-value = 1.992e-07 alternative hypothesis: true tau is not equal to 0 sample estimates: tau

32 Regresja z wieloma zmiennymi

33 Regresja z wieloma zmiennymi Większa liczba zmiennych objaśniających Podstawowy model Y i = β 0 + β 1 X i,1 + + β k X i,k + ε i, gdzie X 1, X 2,..., X k są zmiennymi objaśniającymi, X i,j - i-ta obserwacja j-tej zmiennej objaśniającej Parametry β 0, β 1,..., β k estymowane metodą MNK

34 Przykład 1.2 Dane przykładowe: pakiet ISwR, dane cystfibr Dane dotyczą funckjonowania płuc u osób chorych na mukowiscydozę Jak uzyskać dane? Instalacja pakietu ISwR (Packages -> Install Packages) Packages ->Load Package -> ISwR data(cystfibr) Edycja danych: Edit -> Data editor -> cystfibr Przydatne komendy dla zbiorów danych w R 1 data () # lista wszystkich dostępnych zbiorów danych 2 try ( data ( package = " ISwR ") )# lista zbiorów danych w pakiecie ISwR 3 data ( cystfibr ) # załaduj zbiór danych 4 help ( cystfibr ) # informacje o zbiorze danych cystfibr

35 Przykład 1.2 Dane przykładowe: pakiet ISwR, dane cystfibr Dane dotyczą funckjonowania płuc u osób chorych na mukowiscydozę age Wiek w latach sex Płeć 0: mężczyzna, 1:kobieta. height Wzrost (cm). weight Waga (kg). bmp Indeks masy ciała. fev1 Wymuszona objętość oddechowa. rv Pozostała objętość. frc Funkcjonalna pojemność. tlc Całkowita pojemność płuc. pemax Maksymalne ciśnienie oddechowe.

36 Przykład Wykresy zależności parami 1 par ( mex =0.5) 2 pairs ( cystfibr, gap=0, cex. labels =0.9) Argumenty gap i cex.labels usuwają przestrzeń pomiędzy rysunkami i zmniejszają czcionkę. mex zmniejsza odległość między liniami w marginesach Rysunek daje (pobieżny) obraz zależności między zmiennymi

37 Przykład Wykresy zależności parami

38 Przykład Specyfikacja modelu 1 attach ( cystfibr ) 2 lm( pemax~age+sex+ height + weight +bmp+fev1+rv+frc+tlc ) 3 summary ( lm( pemax~age+sex+ height + weight +bmp+fev1+rv+frc+tlc )) Call: lm(formula = pemax ~ age + sex + height + weight + bmp + fev1 + rv + frc + tlc) Residuals: Min 1Q Median 3Q Max

39 Przykład Specyfikacja modelu Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) age sex height weight bmp fev rv frc tlc Residual standard error: on 15 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 9 and 15 DF, p-value:

40 Przykład Krokowy wybór modelu Chcemy uzyskać model zawierający tylko istotne zmienne (p- wartość poniżej poziomu istotności 0.05) Przeprowadzamy ręczną krokową eliminację zmiennych, na przykład Rozważamy najpierw cechy związane z funkcją płuc (bmp, fev1,rv, frc,tlc) spośród nich wyrzucamy cechę o największej p-wartości powtarzamy do momentu aż wszystkie pozostałe w modelu zmienne związane z funkcją płuc będą miały p-wartość<0.05 może się zdarzyć, że wyeliminujemy wszystkie Następnie rozważamy cechy uwzględniające stan pacjenta, jego wygląd fizyczny ( age, sex, weight, height) postępujemy analogicznie jak wyżej.

41 Przykład Krokowy wybór modelu 1 summary ( lm( pemax~age+sex+ height + weight +bmp+fev1+rv+frc+tlc )) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) age sex height weight bmp fev rv frc tlc wyrzucamy zmienną tlc

42 Przykład Krokowy wybór modelu 1 summary ( lm( pemax~age+sex+ height + weight +bmp+fev1+rv+frc )) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) age sex height weight bmp fev rv frc wyrzucamy zmienną frc

43 Przykład Krokowy wybór modelu 1 summary ( lm( pemax~age+sex+ height + weight +bmp+fev1+rv)) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) age sex height weight bmp fev rv wyrzucamy zmienną rv

44 Przykład Krokowy wybór modelu 1 summary ( lm( pemax~age+sex+ height + weight +bmp+fev1 )) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) * age sex height weight * bmp * fev wyrzucamy zmienną fev1

45 Przykład Krokowy wybór modelu 1 summary ( lm( pemax~age+sex+ height + weight +bmp )) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) * age sex height weight * bmp * pozostałe w modelu zmienne związane z funkcją płuc (bmp) mają p-wartość<0.05 przechodzimmy do analizy cech uwzględniających stan pacjenta, jego wygląd fizyczny (age, sex, weight, height) wyrzucamy zmienną age

46 Przykład Krokowy wybór modelu 1 summary ( lm( pemax~sex+ height + weight +bmp )) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) * sex height weight * bmp wyrzucamy zmienną height

47 Przykład Krokowy wybór modelu 1 summary ( lm( pemax~sex+ weight +bmp )) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) ** sex weight *** bmp wyrzucamy zmienną sex

48 Przykład Krokowy wybór modelu 1 summary ( lm( pemax~ weight +bmp )) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) ** weight *** bmp wyrzucamy zmienną bmp

49 Przykład Krokowy wybór modelu 1 summary ( lm( pemax~ weight )) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-05 *** weight *** Zmienna pozostała w modelu jest istotna Ostateczny model pemax = weight

50 Przykład Krokowy wybór modelu Startujemy z modelu uwzględniającego tylko zmienne age, height, weight, które są silnie skorelowane 1 summary ( lm( pemax~age+ height + weight )) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) age height weight Wyrzucamy zmienną weight (sami o tym decydując, bez względu na p-wartości)

51 Przykład Krokowy wybór modelu 1 summary ( lm( pemax~age+ height )) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) age height Wyrzucamy zmienną height

52 Przykład Krokowy wybór modelu 1 summary ( lm( pemax~age )) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) ** age ** Zmienna pozostała w modelu jest istotna Ostateczny model pemax = age

53 Przykład Krokowy wybór modelu 1 summary ( lm( pemax~ height )) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) height ** Zmienna pozostała w modelu jest istotna Ostateczny model pemax = height

54 Przykład Krokowy wybór modelu Wnioski Końcowy model silnie zależny od procedury eliminacji Prawdopodobnie istnieje związek pomiędzy cechami fizycznymi pacjentów, który może być opisany za pomocą zmiennych age, height lub weight. Wybór zależny od badacza Decyzja nie może być oparta o dane, a raczej o rozważania teoretyczne oparte na wcześniejszych badaniach