Metody analizy funkcji przeżycia Page 1 of 26
1. 1.1. Analiza czasu przeżycia Badamy czas T jaki musi upłynąć, by nastąpiło pewne interesujące nas zdarzenie. Najbardziej typowym przykładem takiej analizy jest mierzenie czasu jaki mija od operacji chirurgicznej do śmierci operowanego pacjenta. Z tego powodu tak rozumiany czas T nazywamy czasem przeżycia, a rozważania statystyczne, których celem jest sformułowanie wniosków dotyczących tej wielkości, określamy mianem analizy czasu przeżycia. Taki rodzaj badań pojawia się jednak nie tylko w przypadkach medycznych. 1.2. Przykłady analizy czasu przeżycia Badamy niezawodność podzespołów elektronicznych opisaną przez liczbę godzin bezawaryjnej pracy tych elementów, czas korzystania przez klienta z oferowanej mu usługi (np. z usług operatora telefonii komórkowej), Page 2 of 26
czas jaki mija od dnia operacji do zgonu osoby poddanej temu zabiegowi chirurgicznemu, skuteczność nowej terapii mierzoną liczbą miesięcy, które mijają od rozpoczęcia leczenia do wyzdrowienia pacjenta. W każdym z tych przykładów, T jest nieujemną zmienną losową wyrażoną w latach, miesiącach, tygodniach, dniach itp. Ze względu na interpretację tej wielkości (T jest czasem), przyjmujemy że rozkład zmiennej losowej T jest ciągły. 1.3. Własności funkcji przeżycia Interesuje nas funkcja przeżycia S, która dla ustalonego t R określa prawdopodobieństwo przyjęcia przez T wartości większej niż t (nazywane prawdopodobieństwem przeżycia powyżej czasu t). S(t) = Pr(T > t), t R. Z powyższej definicji wynikają następujące własności: jest nierosnąca, gładka oraz taka, że S(0) = 1 i lim t S(t) = 0. Page 3 of 26
1 S(t) t Rysunek 1: Kształt funkcji przeżycia 1.4. Inne własności funkcji przeżycia Niech F i f oznaczają dystrybuantę i gęstość rozkładu zmiennej T F (t) = Pr(T t) = t f(x) dx, t R. Ponieważ T jest zmienną losową typu ciągłego, więc Page 4 of 26
S(t) = 1 F (t) = f(x) dx i f(t) = ds(t), t R. t dt Znając postać funkcji przeżycia S(t) zmiennej losowej T (czy też znając jej dystrybuantę F (t)), możemy wyznaczyć ważne parametry liczbowe charakteryzujące rozkład tej zmiennej losowej. 1.5. Parametry liczbowe charakteryzujące rozkład czasu przeżycia Wartość oczekiwana zmiennej losowej T : m = E T = tf(t) dt = S(t) dt. 0 Wariancja zmiennej losowej T ( Var T = E (T E T ) 2 2 = 2 ts(t) dt S(t) dt). 0 Kwantyl rzędu p rozkładu ciągłej zmiennej losowej T (p (0, 1)). Jest to dowolna wartość t p, taka że Pr (T > t p ) = 1 p. Oznacza to, że kwantyl rzędu p jest rozwiązaniem równania S(t p ) = 1 p. 0 0 Page 5 of 26
1.6. Inne parametry charakteryzujące czas życia Innym parametrem, ważnym w ubezpieczeniach życiowych, jest: Oczekiwany dalszy czas życia pewnego obiektu w wieku x mrl(x) = E (T x T > x). Dla ciągłego czasu życia, po scałkowaniu przez części otrzymujemy: mrl(x) = (t x)f(t) dt x = S(x) x S(t) dt. S(x) Między mrl(x) i rozkładem zmiennej losowej T zachodzi odpowiedniość wzajemnie jednoznaczna. 1.7. Interpretacja parametrów czasu życia Powyższe parametry mają swoją ważną interpretację. Wartość oczekiwana m = E T oznacza, w pewnym sensie, średnią wartość przyjmowaną przez zmienną losową T. Page 6 of 26
Wariancja Var T jest miarą rozproszenia rozkładu T wokół średniej m (im mniejsza wariancja, tym rozkład bardziej skupiony). Jeśli T opisuje czas życia w pewnej populacji, to kwantyl rzędu p oznacza wiek, który przekracza jedynie (1 p) 100% populacji. Parametr mrl(x) oznacza przeciętną liczbę lat, które może jeszcze przeżyć osoba kończąca x lat. Page 7 of 26
2. Dystrybuanta empiryczna 2.1. Próba prosta Parametry, charakteryzujące rozkład T, można wyznaczyć znając funkcję przeżycia. W praktycznych zagadnieniach, ta funkcja jest zazwyczaj nieznana, a jej postać należy estymować wykorzystując informacje zawarte w próbie, tzn. znając wartości t 1,..., t n przyjęte przez zmienne losowe T 1,..., T n mające taki rozkład co T. Niech zmienna losowa T ma nieznaną dystrybuantę F. Próba prosta Niezależne zmienne losowe T 1,..., T n mające ten sam rozkład opisany przez dystrybuantę F nazywamy losową próbą prostą z F. 2.2. Przykłady informacji zawartych w próbach Przykłady Znamy czas bezawaryjnej pracy każdego ze 100 procesorów. Wiemy jak długo z usług oferowanych przez firmę Plus GSM korzystał każdy z 2000 klientów tej sieci telefonii komórkowej. Page 8 of 26
Wiemy ile czasu po skomplikowanej operacji przeżył każdy ze 100 pacentów poddanych temu zabiegowi. Dla każdego z 50 chorych, leczonych za pomocą nowej metody, znamy czas jaki minął od rozpoczęcia terapii do ich całkowitego wyzdrowienia. 2.3. Pojęcie dystrybuanty empirycznej Jednym z najczęściej używanych estymatorów dystrybuanty rozkładu jest dystrybunta empiryczna. Dystrybuntą empiryczną losowej próby prostej T 1,..., T n, opartą na zaobserwowanych wartościach t 1,..., t n tej próby, nazywamy funkcję F n : (, ) [0, 1], przyjmująca w punkcie t wartość: F n (t; T 1,..., T n ) = #{ i : T i t }, t R. n Dla ustalonych wartości t 1,..., t n próby, dystrybuanta empiryczna F n (t; t 1,..., t n ) jest przedziałami stałą funkcją zmiennej t, mającą skoki w punktach t 1,..., t n. Ponadto, F n ( ; t 1,..., t n ) jest dystrybuantą rozkładu dyskretnego, przyjmującego wartości t 1,..., t n z tym samym prawdopodobieństwem 1/n. Page 9 of 26
Dla uproszczenia zapisu, będziemy oznaczać wartość dystrybuanty empirycznej w punkcie t symbolem F n (t), mimo że ta wartość jest funkcją próby T 1,..., T n, a więc jest zmienną losową. Tak więc F n (t) = liczba obserwacji t 1,..., t n, które są nie większe niż t. n Dystrybuantę empiryczną można zapisać także w inny sposób, wykorzystując tzw. statystyki porządkowe (pozycyjne) próby, tzn. wartości próby uporządkowane od najmniejszej do największej. Niech T (1) <... < T (n) oznaczają statystyki porządkowe próby T 1,..., T n. Przy tych oznaczeniach F n (t) = 1 T (i) t ( 1 1 n i + 1 ), t R. (1) Page 10 of 26
2.4. Empiryczna funkcja przeżycia Skoro F n jest estymatorem dystrybuanty F, to estymatorem funkcji przeżycia S = 1 F jest: Empiryczna funkcja przeżycia Ŝ n (t) = 1 F n (t) = ( ) 1 1, t R, (2) n i + 1 2.5. Przykład liczbowy T (i) t Konstrukcję estymatora funkcji przeżycia, opartego na dystrybuancie empirycznej, objaśnimy na następującym przykładzie: Obserwacje czasu trwania zaniku objawów choroby u 10 pacjentów chorych na białaczkę dały następujące wyniki (w tygodniach): 6, 6, 6, 7, 10, 10, 13, 16, 22, 23. Wartości estymatora funkcji przeżycia wystarczy obliczyć dla czasów przeżycia 0 t 1 t 2 < t n, którymi w tym przykładzie są: 6, 7, 10, 13, 16, 22, 23. Wynika to stąd, że Ŝ n (t) = liczba obserwacji t 1,..., t n, które są większe niż t. n Page 11 of 26
Ŝ(t) 1 6 7 10 13 16 22 23 t Rysunek 2: Estymator krzywej przeżycia oparty na dystrybuancie empirycznej 2.6. Własności dystrybuanty empirycznej Dystrybuanta empiryczna jest bardzo dobrym estymatorem nieznanej dystrybuanty F, gdyż ma szereg optymalnych własności. Page 12 of 26
Theorem 1 Niech F n będzie dystrybuntą empiryczną opartą na próbie prostej T 1,..., T n z F. Wówczas E F n (t) = F (t) i Var F n (t) = sup t R F (t)(1 F (t)), dla t R. n F n (t) F (t) 0 z prawdopodobieństwem 1. Pr( sup t R F n (t) F (t) > ε ) 2 exp( 2nε 2 ), dla ε > 0. n( Fn (t) F (t)) N(0, 1) według rozkładu. F (t)(1 F (t)) Page 13 of 26
3. Empiryczna funkcja wiarogodności Warto wspomnieć, że dystrybunta empiryczna jest rozwiązaniem pewnego zagadnienia optymalizacyjnego, które opiszemy poniżej. Niech F będzie zbiorem wszystkich dystrybuant. Dla dowolnej dystrybunty F F, symbolem P F oznaczymy miarę prawdopodobieństwa, generowaną przez tę dystrybuntę. Nieparametryczną funkcją wiarogodności próby prostej T 1,..., T n, opartą na zaobserwowanych wartościach t 1,..., t n tej próby, nazywamy funkcjonał l : F [0, 1], określony wzorem: l(g) = n P G ({t i }), G F. (3) i=1 Oczywiście, l(g) = 0, gdy P G ({t i }) = 0 dla pewnego 1 i n. Kiefer i Wolfowitz udowodnili w 1956 roku poniższe twierdzenie: Theorem 2 Niech T 1,..., T n będzie próbę prostą z F F i niech l będzie empiryczną funkcją wiarogodności, zdefiniowaną wzorem (3). Wówczas dystrybuanta empiryczna F n maksymalizuje l(g) względem G F. Page 14 of 26
4. Estymator Kaplana Meiera 4.1. Obserwacje cenzurowane W większości analiz czasu przeżycia napotyka się na problem zwany cenzurowaniem. Cenzurowanie pojawia się wtedy, gdy nie znamy dokładnego czasu przeżycia. Jeżeli czas badania kończy się przed zajściem interesującego nas zdarzenia, to nie mamy informacji jak długi był czas od zakończenia badania do zajścia tego zdarzenia. Przyczyny powstawania obserwacji cenzurowanych w badaniach dotyczących przeżywalności po zastosowaniu nowej terapii pacjent nie zmarł w okresie prowadzonych obserwacji, pacjent wycofał się z badania (np. wyjechał, zrywając kontakty ze szpitalem), pacjent zmarł przed ukończeniem badania z innej przyczyny, niż ta którą jesteśmy zainteresowani. Page 15 of 26
4.2. Przykład badań z obserwacjami cenzurowanymi Przykład badań, w których mogą pojawić się obserwacje cenzurowane W okresie od 1 stycznia 2005 roku do 31 grudnia 2006 sprawdzamy co się stało z pacjentami, których w pierwszej połowie 2005 roku poddano operacji przeszczepienia nerki. 4.3. Obserwacje cenzurowane lewo- i prawostronne Na ogół obserwacje są cenzurowane z prawej strony, ale mogą też być cenzurowane z lewej strony. Przykładem tego może być czas życia osoby zarażonej wirusem HIV. Obserwujemy czas od momentu stwierdzenia pozytywnego testu na obecność HIV aż do śmierci, ale nie znamy czasu od momentu zarażenia do wykrycia. W dalszej części wykładu opiszemy najpopularniejszy sposób estymacji funkcji przeżycia S na podstawie obserwacji cenzurowanych prawostronnie. W takim problemie estymacji zakłada się, że cenzurownie nie ma wpływu na czas przeżycia. Typowa obserwacja zawiera czas badania i informację o tym czy ta wielkość jest czasem do zajścia interesującego nas zdarzenia, czy też czasem do ocenzurowania obserwacji. Page 16 of 26
4.4. Postać obserwacji cenzurowanej prawostronnie Obserwacja w problemie cenzurowania prawostronnego Nieznaną dystrybuantę F zmiennej losowej T szacujemy na podstawie zaobserwowanych wartości wektora (X, δ) postaci: { 1, gdy T C, X = min(t, C) i δ = (4) 0, gdy T > C, gdzie C jest niezależnym od T momentem cenzurowania. Znając wartość δ wiemy czy zaobserwowana wartość X jest czasem przeżycia T, czy też jego ocenzurowaną wersją, gdyż { 1, jeżeli obserwacja T nie jest cenzurowana, δ = 0, jeżeli obserwacja T jest cenzurowana. 4.5. Próba prosta w cenzurowaniu prawostronnym Jeśli obserwacje są cenzurowane, to nieznaną dystrybuntę F czasu przeżycia T estymujemy na podstawie próby prostej postaci: Próba prosta rozmiaru n w problemie cenzurowania Niezależne wektory losowe (X 1, δ 1 ),..., (X n, δ n ), mające ten sam rozkład co wektor Page 17 of 26
(X, δ) postaci (4), nazywamy losową próbą prostą rozmiaru n w zagadnieniu cenzurowania prawostronnego. Niech (X (1), δ (1) ),..., (X (n), δ (n) ) będą wektorami z próby (X 1, δ 1 ),..., (X n, δ n ) uporządkowanymi tak, że X (1) <... < X (n) i niech (x (1), δ (1) ),..., (x (n), δ (n) ) będą wartościami przyjętymi przez te wektory. 4.6. Estymator Kaplana-Meiera W 1958 roku Kaplan i Meier zaproponowali, aby przy danych obciętych, nieznaną dystrybuantę F czasu przeżycia estymować za pomocą następującej modyfikacji dystrybuanty empirycznej: Estymator Kaplana-Meiera dystrybuanty F F n (t) = 1 X (i) t ( 1 δ (i) n i + 1 ), t R. (5) Do estymacji funkcji przeżycia S = 1 F można więc wykorzystać estymator Kaplana-Meiera funkcji przeżycia S Ŝ n (t) = ( ) δ (i) 1, t R. (6) n i + 1 X (i) t Page 18 of 26
4.7. Własności estymatora Kaplana-Meiera Estymator Kaplana-Meiera też ma szereg optymalnym własności. Theorem 3 Niech F n będzie estymatorem Kaplana Meiera i niech τ będzie dowolną liczbą, taką że Pr(X < τ) < 1. Wówczas E F n (t) F (t). sup F n (t) F (t) 0 według prawdopodobieństwa. t τ n( F n (t) F (t)) ma asymptotyczny rozkład normalny. Page 19 of 26 4.8. Empiryczna funkcja wiarogodności dla danych obciętych Warto wspomnieć, że estymator Kaplana Meiera dystrybuanty, podobnie jak i dystrybuanta empiryczna, jest rozwiązaniem zagadnienia optymalizacyjnego, które opiszemy poniżej.
Nieparametryczną funkcją wiarogodności dla danych obciętych (X 1, δ 1 ),..., (X n, δ n ) nazywamy funkcjonał l : F [0, 1], określony wzorem: l(g) = n i=1 p δ (i) i ( n+1 j=i+1 p j ) 1 δ(i), G F, (7) gdzie p i = P G ({x (i) }) dla i = 1,..., n i p n+1 = 1 G(x (n) ). 4.9. Uogólnienie rezultatu Kiefera i Wolfowitza Można udowodnić następujące twierdzenie, będące uogólnieniem rezultatu Kiefera i Wolfowitza. Theorem 4 Niech (X 1, δ 1 ),..., (X n, δ n ) będzie próbę prostą dla danych cenzurowanych i niech l będzie empiryczną funkcją wiarogodności, zdefiniowaną wzorem (7). Wówczas estymator Kaplana Meiera F n maksymalizuje l(g) względem G F. Page 20 of 26
4.10. Alternatywna postać estymatora Kaplana-Meiera Niech N n i Y n będą procesami na [0, ) określonymi wzorami: N n (t) = #{i : X i t, δ i = 1 }, Y n (t) = #{i : X i t}. Interpretację estymatora Kaplana Meiera funkcji przeżycia S ułatwia zapisanie tego estymatora w równoważnej postaci: Alternatywna postać estymatora Kaplana Meiera funkcji przeżycia Ŝ n (t) = s ( t X (n) ) gdzie N n (s) = N n (s) N n (s ). 4.11. Rozważania heurystyczne ( 1 N n(s) Y (s) ), (8) Heurystyczne rozważania prowadzące do wzoru (8) zilustrujemy na przykładzie przeżywalności po przeszczepie nerki. Zauważmy, ze prawdopodobieństwo tego, że pacjent przeżyje k dni po transplantacji jest równe prawdopodobieństwu przeżycia k 1 dni, pomnożonemu przez prawdopodobieństwo warunkowe przeżycia k dni, gdy Page 21 of 26
wiadomo, że pacjent przeżył pierwszych k 1 dni, tzn. S(0) = 1 i S(k) = S(k 1) Pr(T > k T k), k 1. (9) Ponieważ Y (k) = liczba osób, które przeżyły co najmniej k dni N n (k) = liczba osób, które zmarły w k-tym dniu, więc 1 N n(k) = Y (k) N n(k) jest sensownym oszacowaniem prawdopodobieństwa tego, osoba która przeżyła k 1 dni Y (k) Y (k) przeżyje co najmniej k dni, tzn. Estymatorem Pr(T > k T k) jest Pr (T > k T k) = 1 N n(k) Y (k). Ze wzoru (9) natychmiast wynika, że funkcję przeżycia S możemy oszacować przyjmując: Ŝ n (0) = 1 i Ŝ n (k) = Ŝn(k 1) Pr(T > k T k) ( = Ŝn(k 1) 1 N ) n(k), k 1. Y (k) Page 22 of 26
Stąd wynika postać (8) estymatora Kaplana Meiera Ŝn. Estymator Pr (T > k T k) ma wartość 1, jeśli w k tym dniu nikt nie zmarł. Do wyznaczenia Ŝn wystarcza więc obliczenie wartości przyjmowanych przez Ŝn w dniach zgonów. 4.12. Przykład liczbowy Konstrukcję estymatora Kaplana Meiera objaśnimy na następującym przykładzie, w którym plusy oznaczają cenzurowanie: Obserwacje czasu trwania zaniku objawów choroby u 21 pacjentów chorych na białaczkę dały następujące wyniki (w tygodniach): 6, 6, 6, 7, 10, 13, 16, 22, 23, 6+, 9+, 10+, 11+,17+, 19+, 20+, 25+, 32+, 32+, 34+, 35+. Wartości estymatora funkcji przeżycia wystarczy obliczyć dla niecenzurowanych czasów przeżycia 0 < t 1 < t 2 < < t k, którymi w tym przykładzie są: 6, 7, 10, 13, 16, 22, 23. Dla uproszczenia zapisu, symbolami Y i oraz d i oznaczymy wielkości Y n (t i ) oraz N n (t i ) (tzn. liczbę osób, które przeżyły co najmniej t i tygodni oraz liczbę osób zmarłych w tygodniu t i, i = ( 1,..., 7). Ze wzoru (8): Ŝ n (0) = 0 i Ŝn(t i ) = Ŝn(t i 1 ) 1 d i Y i ). Page 23 of 26
Tablica 1: Estymator Kaplana Meiera dla chorych na białaczkę t i d i Y i Ŝ n (t i ) 6 3 21 1 3 21 7 1 17 0.857(1 1 17 10 1 15 0.807(1 1 15 13 1 12 0.753(1 1 12 16 1 11 0.690(1 1 11 22 1 7 0.628(1 1) = 0.538 7 23 1 6 0.538(1 1) = 0.448 6 Page 24 of 26
Ŝ(t) 1 6 7 10 13 16 22 23 t Rysunek 3: Estymator krzywej przeżycia Page 25 of 26