Statystyka medyczna II. 7. Wstęp do regresji logistycznej. Regresja logistyczna prosta, porównanie z miarami ryzyka.

Transkrypt

1 Statystyka medyczna II. 7. Wstęp do regresji logistycznej. Regresja logistyczna prosta, porównanie z miarami ryzyka. Dane The Western Collaborative Group Study (WCGS) badanie epidemiologiczne zaprojektowane, by sprawdzić powiązanie pomiędzy osobowością typu A (Type A behavior pattern, TABP) a chorobą niedokrwienną serca (CHD). id age arcus behpat height weight chd69 chol dbp sbp smoke ncigs agec dibpat bmi wghtcat typchd A No Yes Type A B No Yes Type B A No No Type A <NA> A Yes No Type A A No No Type A A Yes No Type A Opis zmiennych id id pacjenta age wiek (w latach) arcus arcus senilis, obwódka rogówki (0/1) behpat behavior pattern, typ osobowości (A1/A2/B3/B4) height wzrost (w calach) weight waga (w funtach) chd69 choroba niedokrwienna serca (różnego rodzaju) (0/1) chol poziom cholesterolu dbp ciśnienie rozkurczowe (mmhg) sbp ciśnienie skurczowe (mmhg) smoke self-reported smoking (Tak/Nie) ncigs liczba wypalanych papierosów zmienne pochodne agec wiek w kategoriach 35 40, 41 45, 46 50, 51 55, dibpat typ osobowości A/B bmi wskaźnik bmi (weight/height 2 703) wghtcat waga w kategoriach < 140, , , > 200 typchd69 typ choroby niedokrwiennej serca (0/1/2/3)

2 Miary ryzyka Badaliśmy zależność występowania chorób serca (CHD) od wieku. W tym celu zbadaliśmy obserwowane proporcje (P ) osób w kolejnych przedziałach wiekowych (agec) i wyznaczyliśmy podstawowe miary ryzyka: RR iloraz ryzyk, OR iloraz szans. Najmłodsza grupa wiekowa została uznana za referencyjną. Wyniki zebrane w poniższych tabelach. > cs(chd69,agec,decimal = 3) agec chd No Yes Absolute risk Risk ratio lower 95% CI upper 95% CI Chi-squared = , 4 d.f., P value = 0 > cc(chd69,agec,decimal = 3) agec chd No Yes Odds ratio lower 95% CI upper 95% CI Chi-squared = , 4 d.f., P value = 0 Grupa wiekowa P 1 P RR OR

3 Model regresji liniowej i logistycznej W modelu regresji liniowej (prostej) opisujemy średnią zmiennej zależnej (wyniku) y jako funkcję liniową pojedynczej ciągłej zmiennej niezależnej (predyktora) x: E(y x) = β 0 + β 1 x. Przyjmując taką konwencję zmienną binarną y możemy potraktować jako przyjmującą wartość 1 dla osób z chorobą oraz wartość 0 dla osób zdrowych. Obserwowana proporcja chorych wśród pacjentów o danej wartości zmiennej niezależnej x jest po prostu średnią y w tej grupie. Stąd liniowy model dla zmiennej binarnej y można zapisać w postaci P (x) = E(y x) = β 0 + β 1 x, tzn. wartość oczekiwana wyniku (zmiennej y) jest funkcją liniową predyktora (x). Zauważmy, że jeżeli również x jest zmienną binarną o wartościach 0 lub 1, wtedy zwiększenie x o 1 skutkuje zmianą prawdopodobieństwa / wartości oczekiwanej Modele o takiej własności określa się jako addytywne modele ryzyka. P (1) P (0) = β 1. Oczywiście takie sformułowanie zagadnienia regresji dla binarnych wyników ma swoje ograniczenia: y nie ma rozkładu normalnego (nawet w przybliżeniu!), wynik y reprezentuje prawdopodobieństwo, zatem wartości poza przedziałem [0, 1] nie mają sensu, zazwyczaj nie ma podstaw do przyjęcia założeń, że ryzyko opisane przez y zmienia się w sposób liniowy na przedziale zmienności predyktora x.

4 Poniżej przedstawiono przykładowe modele łączące prawdopodobieństwo P (x) binarnego wyniku z ciągłym predyktorem x. linear exponential P(x) P(x) x x step function logistic P(x) P(x) x x W modelu wykładniczym logarytm ryzyka opisanego przez y zmienia się liniowo od wartości x, jednak nie jest ograniczony dla dużych wartości β 0 + β 1 x. W modelu dla funkcji prostej mamy dobrą własność ograniczenia wartości funkcji do przedziału [0, 1]. Ponadto modyfikując wartości skoków funkcji możemy modyfikować wpływ zmian wartości x na ryzyko P (x). Problem może stanowić brak gładkości czy chociażby ciągłości funkcji. Odpowiedzią na ten problem jest funkcja logistyczna postaci f(x) = exp( x) = exp(x) 1 + exp(x).

5 Model logistyczny opisujący zależność zmiennej binarnej y od zmiennej ciągłej x przedstawiamy w postaci P (x) = exp(β 0 + β 1 x) 1 + exp(β 0 + β 1 x). Interesująca dla nas będzie również odwrotna funkcja funkcja logit. W języku szans (odds) zmiennej y model można przedstawić również w postaci P (x) 1 P (x) = exp(β 0 + β 1 x). Jeżeli przypomnimy sytuację, w której x przyjmował wartości 0 lub 1, widzimy, że iloraz szans (odds ratio) związany z tymi wartościami wynosi P (1)/(1 P (1)) P (0)/(1 P (0)) = exp(β 1). Widzimy, że szansa y = 1 dla x = 1 wynika z mnożenia szansy dla x = 0 przez czynnik exp(β 1 ). Z tej własności wynika określenie modelu logistycznego jako multiplikatywnego modelu ryzyka. Ostatnią i w statystyce najbardziej użyteczną postacią modelu regresji logistycznej jest ( ) P (x) log = β 0 + β 1 x, 1 P (x) gdzie widzimy, że logarytm szans związany z binarnym wynikiem y (logit P (x)) jest opisany funkcją liniową ciągłego predyktora x (model logistyczny jest addytywnym modelem na skali logarytmu szans). Założenia regresji logistycznej: y ma rozkład dwupunktowy, E(y x) = P (x) jest dane funkcją logistyczną, wartości (y i ) są niezależne (próbka losowa prosta). Ponadto wśród istotnych różnic z modelem regresji liniowej: założenie o homoskedastyczności nie jest konieczne, losowa część modelu nie jest wyrażeniem addytywnym w równaniu regresji.

6 Badamy zależność wystąpienia choroby y = CHD od wieku x = age dla danych WCGS. Poniżej przedstawiono wykres rozrzutu dla 100 obserwacji. Wykorzystujemy funkcję glm() (generalized linear model). Model zadajemy tak jak model liniowy. Różnica polega na wskazaniu parametru family określającego rodzinę rozkładów zmiennej y oraz argumentu link określającego funkcję wiążącą (link function). W przypadku regresji liniowej parametr family= gaussian ; dla regresji logistycznej mamy family= binomial oraz funkcję wiążącą link= logit : wcgs.glm <- glm(chd69~age,data=wcgs,family=binomial()) summary(wcgs.glm) Wynikiem funkcji glm() jest obiekt klasy glm opisujący dopasowany (fitted) model: Call: --- glm(formula = chd69 ~ age, family = binomial(), data = wcgs) Signif. codes: Deviance Residuals: 0 *** ** 0.01 * Min 1Q Median 3Q Max (Dispersion parameter for binomial family taken to be 1) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** age e-11 *** Null deviance: on 3153 degrees of freedom Residual deviance: on 3152 degrees of freedom AIC: Number of Fisher Scoring iterations: 5

7 Interpretacja współczynników regresji W analizie otrzymujemy ˆβ 0 = 5.940, ˆβ 1 = Zatem ˆβ 1 = wyraża zmianę w log odds ratio CHD69 związaną ze wzrostem zmiennej age o 1 jednostkę (o 1 rok): ( ) ( ) P (56) P (55) log log = ( ) ( ) = P (56) 1 P (55) Odpowiednie odds ratio związane ze wzrostem wieku o 1 rok wynosi exp(0.074) = 1.077, zatem mamy mały, ale istotny, 8% wzrost ryzyka CHD z każdym kolejnym rokiem. Z punktu widzenia badania klinicznego bardziej istotną może być OR związane z 10-letnim wzrostem wieku, odpowiednio exp( ) = Współczynników możemy również użyć do wyznaczenia ryzyka P (x), tj. oceny prawdopodobieństwa CHD dla osoby w wieku x, np. dla osoby w wieku 55 lat P (55) = exp( ) 1 + exp( ) = > wcgs.glm.fit <- fitted(wcsg.glm) > pred.df <- data.frame(age=c(55)) > predict(wcgs.glm,pred.df,type="response",se=true) $fit $se.fit Estimated probability $residual.scale [1] Age (years)

8 > wcgs.glm <- glm(chd69~age,data=wcgs,family=binomial()) > summary(wcgs.glm) Call: glm(formula = chd69 ~ age, family = binomial(), data = wcgs) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** age e-11 *** --- Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for binomial family taken to be 1) Null deviance: on 3153 degrees of freedom Residual deviance: on 3152 degrees of freedom AIC: Number of Fisher Scoring iterations: 5 W odpowiedzi widzimy błąd standardowy, możemy otrzymać przedziały ufności: > confint(wcgs.glm) # 95% CI using profiled likelihood Waiting for profiling to be done % 97.5 % (Intercept) age > confint.default(wcgs.glm) # 95% CI based assuming asymptotic normality 2.5 % 97.5 % (Intercept) age

9 Jeżeli przedział ufności nie zawiera 0, to oznacza to statystycznie istotną różnicę wartości współczynnika od wartości 0. z value jest ilorazem wartości estymatora i jego błędu standardowego wartością statystyki Walda. Mamy również p-value testu współczynnika (H 0 : współczynnik =0). Logarytm wiarogodności dla uzyskanego modelu uzyskujemy poleceniem >loglik(wcgs.glm) log Lik (df=2) Następnie możemy wyznaczyć wartość statystyki LR (likelihood ratio) i odpowiednie p-value > anova(wcgs.glm,test="chisq") Analysis of Deviance Table Model: binomial, link: logit Response: chd69 Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev Pr(>Chi) NULL age e-11 *** --- Signif. codes: 0 *** ** 0.01 * Statystyka LR porównuje wiarogodność dopasowanego modelu z modelem zerowym, bez zmiennej age, badając hipotezę, że nie ma liniowej zależności pomiędzy wiekiem a ryzykiem (log odds) CHD. Wkład pary (x i, y i ) do funkcji wiarogodności dany jest poprzez P (x i ) y i [1 P (x i )] 1 y i, zatem zakładając, że obserwacje są niezależne, funkcję wiarogodności otrzymujemy jako iloczyn n L(β) = P (x i ) y i [1 P (x i )] 1 y i. Współczynniki ˆβ = ( ˆβ 0, ˆβ 1 ) maksymalizują funkcję wiarogodności L(β). Równoważnie maksymalizują funkcję logarytmu wiarogodności n log L(β) = y i P (x i ) + (1 y i ) [1 P (x i )]. i=1 i=1

10 Statystykę LR definiujemy następująco: LR = 2 log Przy założeniu hipotezy zerowej (H 0 : β 1 = 0) statystyka LR ma rozkład χ 2 (1). > wcgs0.glm <- glm(chd69~1,data=wcgs,family=binomial()) >2*(logLik(wcgs.glm)-logLik(wcgs0.glm)) log Lik (df=2) wiarogodność modelu bez zmiennej niezależnej wiarogodność modelu ze zmienną niezależną.

11 Regresja logistyczna dla kategorialnego predyktora Model regresji logistycznej jest również poprawny dla kategorialnej zmiennej niezależnej. Rozważmy nam znane już badanie ryzyka CHD od arcus senilis. Wyniki regresji logistycznej porównamy z OR dla macierzy kontyngencji. Zmienna arcus kodowana jest 0/1 i jest włączana do modelu logistycznego tak, jakby była zmienną ciągłą. Otrzymujemy poprawny wynik: współczynnik wyraża logarytm ilorazu szans związany ze wzrostem predyktora o wartość 1 (tylko wzrost o 1 jest możliwy!). Jeżeli zmienna dychotomiczna jest kodowana w inny sposób, należy zwrócić na to uwagę, by model potraktował odpowiednie wartości jak kategorie, a nie wartości zmiennej ciągłej. W drugim przykładzie rozważymy zmienną kategorialną agec o wartościach w 5 elementowym zbiorze 35 40, 41 45, 46 50, 51 55, OR dla czterech starszych grup wyznaczamy w stosunku do najmłodszej grupy referencyjnej. Otrzymamy wyniki takie jak dla tablic kontyngencji ponieważ predyktor jest kategorialny, nie dotyczą go założenia nakładane na zmienną ciągłą.

12 > table(wcgs$chd69,wcgs$arcus) Unexposed Exposed No Yes > exp(confint.default(wcgs.glm2) ) # a.norm 2.5 % 97.5 % (Intercept) arcusexposed > wcgs.glm2 <- glm(chd69~arcus,data=wcgs,family=binomial()) > summary(wcgs.glm2) Call: glm(formula = chd69 ~ arcus, family = binomial(), data = wcgs) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** arcusexposed *** --- $measure Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for binomial family taken to be 1) Null deviance: on 3151 degrees of freedom Residual deviance: on 3150 degrees of freedom (2 observations deleted due to missingness) AIC: Number of Fisher Scoring iterations: 5 > exp(wcgs.glm2$coeff) (Intercept) arcusexposed > oddsratio(table(wcgs$chd69,wcgs$arcus),method="wald") $data Unexposed Exposed Total No Yes Total odds ratio with 95% C.I. estimate lower upper No NA NA Yes $p.value two-sided midp.exact fisher.exact chi.square No NA NA NA Yes > exp(confint(wcgs.glm2)) # p.lhood Waiting for profiling to be done % 97.5 % (Intercept) arcusexposed $correction [1] FALSE attr(,"method") [1] "Unconditional MLE & normal approximation (Wald) CI"

13 > wcgs.glm3 <- glm(chd69~as.factor(agec),data=wcgs,family=binomial()) > summary(wcgs.glm3) Call: glm(formula = chd69 ~ as.factor(agec), family = binomial(), data = wcgs) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** as.factor(agec) as.factor(agec) * as.factor(agec) *** as.factor(agec) e-05 *** > oddsratio(t(table(wcgs$chd69,wcgs$agec)),method="wald") > wcgs.glm3.or <- as.numeric(exp(coef(wcgs.glm3)[2:5])) $data > res <- matrix(na,nr=4,nc=3) > for (i in 2:5) { + test <- oddsratio(table(wcgs$chd69, + wcgs$agec)[,c(1,i)],method="wald") + res[i-1,] <- test$measure[2,] + } > colnames(res) <- c("or","lb-ci","ub-ci") > rownames(res) <- paste("agec",1:4,sep="_") > print(res,digits=4) OR LB-CI UB-CI agec_ agec_ agec_ agec_ No Yes Total Total $measure odds ratio with 95% C.I. estimate lower upper NA NA $p.value two-sided midp.exact fisher.exact chi.square NA NA NA e e e e e e e e e e e e-05