Wprowadzenie Przedmiotem badania analizy przeżycia jest czas jaki upływa od początku obserwacji do wystąpienia określonego zdarzenia, które jednoznacznie kończy obserwację na danej jednostce. Analiza przeżycia wywodzi się wprawdzie z badań medycznych(na co wskazuje nazwa), lecz znajduje również zastosowanie w innych badaniach. Charakterystyczne dla analizy przeżycia są tzw. dane cenzorowane(oznaczamynp.70 + )inaczejucięte,októrych wiadomo, że zdarzenie nie nastąpiło aż do momentu zakończenia obserwacji(np. pacjenci wypisani ze szpitala). Głównym obiektem badawczym jest tzw. funkcja przeżycia S(t), która określa prawdopodobieństwo, że osoba przeżyje dłużej niż pewien przyjęty czas t, czyli S(t) = P(T > t), gdzie T jest zmienną losową określającą czas życia.
Wprowadzenie Średni czas przeżycia zdefiniowany jest jako µ = 0 S(t)dt. Natomiastmedianaczasuprzeżyciazdefiniowanajestjakoczas t 0,5 taki,że S(t 0,5 ) =0,5.Mającnarysowanyestymatorfunkcji przeżycia możemy otrzymać estymator mediany rysując poziomą linię na wysokości 0,5, na przecięciu otrzymamy oszacowanie mediany.
Estymator Kaplana-Meiera Najpopularniejszym estymatorem funkcji przeżycia jest estymator Kaplana-Meiera postaci: Ŝ(t) = t i t n i d i n i, gdzie n i jestliczbąobiektów,któradożyłamomentu t i,natomiast d i jestliczbąśmierciwmomencie t i.ważnąjegozaletąjest uwzględnianie obserwacji cenzorowanych.
Estymator Kaplana-Meiera przykład Znane są czasy przeżycia(w dniach) dla 16 pacjentów, którzy przeszlizabiegusunięciaguzamózgu:28,49,54,80,80,102 +, 120,120 +,120 +,167,200,200,200 +,340,500,500 +. Znajdziemy dla tych danych estymator KM funkcji przeżycia. Załóżmy wpierw, że nie ma danych cenzorowanych. n t i n i d i d i i n i Ŝ(t) 28 16 1 0,9375 0,9375 49 15 1 0,9333 0,8750 54 14 1 0,9286 0,8125 80 13 2 0,8462 0,6875 102 11 1 0,9091 0,6250 120 10 3 0,7000 0,4375 167 7 1 0,8571 0,3750 200 6 3 0,5000 0,1875 340 3 1 0,6667 0,1250 500 2 2 0,0000 0,0000
Estymator Kaplana-Meiera przykład Z kolei jeśli uwzględnijmy, że cześć obserwacji była cenzorowana. n t i n i d i d i i n i Ŝ(t) 28 16 1 0,9375 0,9375 49 15 1 0,9333 0,8750 54 14 1 0,9286 0,8125 80 13 2 0,8462 0,6875 120 10 1 0,9000 0,6188 167 7 1 0,8571 0,5304 200 6 2 0,6667 0,3536 340 3 1 0,6667 0,2357 500 2 1 0,5000 0,1179
w R została zaimplementowana w pakiecie survival. Wpierw należy zawsze oznakować, które dane są cenzorowane, polega to na konstrukcji wektora 0-1, gdzie 0 oznacza, że obserwacja jest ucięta. Odpowiednie funkcje to Surv(konstrukcja odpowiedniego obiektu), survfit(konstrukcja estymatora).
Model Coksa Estymator KM pozwala na graficzną prezentację krzywej przeżycia oraz porównanie takich krzywych dla kilku populacji. Nie jest jednak możliwe za jego pomocą opisanie zależności funkcji przeżycia od innych zmiennych objaśniających. Wydawać by się mogło, że do tego zagadnienia powinniśmy zastosować poznane już modele regresji wielokrotnej. Nie jest to jednak możliwe z dwóch powodów: czas przeżycia przeważnie nie ma rozkładu normalnego oraz występuje problem wykorzystania obserwacji cenzorowanych. Najpopularniejszym modelem regresji wykorzystywanym w tm przypadku jest model Coksa. Zdefiniujmy wpierw funkcję hazardu: h(t) = f(t) S(t), gdzie f(t) jest funkcją gęstości. Jest to prawdopodobieństwo śmierci w chwili t przy założeniu, że tej chwili dożyła.
Model Coksa Model hazardu Coksa ma postać: h(t) = h 0 (t)e Xβ, gdzie h 0 (t)jestzerowąliniąhazardu(hazard,gdywszystkie zmienne niezależne są równe zero). W modelu tym nie zakładamy nic o postaci funkcji hazardu(takie założenie można wprowadzić uzyskując modele parametryczne). Jeśli założymy, że elementy wektora parametrów nie zależą od czasu, to mamy do czynienia z modelem proporcjonalnych hazardów Coksa.
Model Coksa Oprócz modelu proporcjonalnych hazardów Coksa, można również wykorzystać nieco inne podejście. Mianowicie zakłada się, że zmienna losowa T ma pewien zadany rozkład. Najczęściej wykorzystywane są rozkłady: Weibulla, wykładniczy, logarytmiczno-normalny oraz normalny. Prowadzi to do modelu: logt = β x +σε, gdziezmiennelosowelogtoraz εmajązadanerozkłady,aσjest tzw. skalą. W R do oceny parametrów takich modeli służy funkcja survreg z pakietu survival. Jej składnia jest analogiczna do wcześniej omawianych funkcji analizy przeżycia z wyjątkiem specyfikacji rozkładu prawdopodobieństwa. Służy do tego parametr dist.
Przykład wyznaczanie funkcji przeżycia i hazardu Rozkład wykładniczy Gęstość: f(x) = λe λx I [0, ) (x), Dystrybuanta: F(x) =1 e λx, Funkcjaprzeżycia: S(x) = e λx, Funkcja hazardu: h(x) = λ, Średniczasprzeżycia: µ = 1 λ, Medianaczasuprzeżycia: Me = ln2 λ Rozkład Weibulla Gęstość: f(x) = kxk 1 exp{ ( x λ k λ )k }I [0, ) (x), Dystrybuanta: F(x) =1 exp{ ( x λ )k }, Funkcjaprzeżycia: S(x) =exp{ ( x λ )k }, Funkcjahazardu: h(x) = k x k 1. λ k