Podstawy statystycznego modelowania danych Analiza prze»ycia Tomasz Suchocki
Plan wykªadu 1. Wprowadzenie 2. Hazard rate 3. Cenzurowanie danych 4. Metoda Kaplana-Meiera i Flemingtona-Harringtona 5. Krzywe prze»ycia - testowanie ró»nic 6. Model Cox'a 7. Wªa±ciwo±ci modelu 8. Pakiet Survival
Tomasz Suchocki, Podstawy... Analiza prze»ycia 3/50 Wprowadzenie Gªówne cechy modelu prze»ycia: mo»e wystapi co najwy»ej jedno zdarzenie na 'przedmiot' badania (umrze mo»na tylko raz) rozkªad ma du» sko±no±, zazwyczaj dodatni mo»e wyst powa cenzorowanie danych (zdarzenia obserwujemy tylko do pewnego czasu)
Wprowadzenie Czemu tradycyjne metody mog zawodzi? zazwyczaj wyst puje zaªo»enie o normalno±ci (brak normalno±ci psuje wszystko) standardowo nie wyst puje cenzurowanie danych (cenzurowanie powoduje brak zgodno±ci estymatora)
Tomasz Suchocki, Podstawy... Analiza prze»ycia 5/50 Wprowadzenie Podstawowe poj cia: survival time - czas do momentu zaj±cia jakiego± zdarzenia failure - zdarzenie na które czekamy Przykªady: prze»ywalno± pacjentów chorych na raka dªugo±»ycia dªugo± trwania maª»e«stwa po ±lubie
Wprowadzenie - powi zanie czasu i wydarze«niech T b dzie (nieujemn ) zmienn losow oznaczaj c czas do interesuj cego nas zdarzenia (survival time). Wtedy dystrybuanta F (t) = P(T t), t > 0 oznacza prawdopodobie«stwo,»e nasze zdarzenie wydarzy si przed czasem t. W bioinformatyce (oraz biomedycynie) u»ywa si funkcji prze»ycia (survival function) S(t) = P(T t) = 1 F (t ) wtedy S(t) oznacza,»e obiekt przezyje do czasu t.
Tomasz Suchocki, Podstawy... Analiza prze»ycia 7/50 Wprowadzenie - powi zanie czasu i wydarze«wªasno±ci S(t) = P(T t) = 1 F (t ): w t = 0 mamy S(t) = 1, czyli nikt jeszcze nie umarª w t = + mamy S(t) = 0, czyli ka»dy musi kiedy± umarze
Tomasz Suchocki, Podstawy... Analiza prze»ycia 8/50 Hazard rate Podstawowe poj cia: mortality rate - procent populacji, dla której b dzie miaªo miejsce oczekiwane zdarzenie (np. ±mier ) w okresie mi dzy t oraz t + 1, dla których zdarzenie nie zaszªo do czasu t. hazard rate m(t) = P(t T < t + 1 T t) P(t T < t + t T t) λ(t) = lim t 0 t
Tomasz Suchocki, Podstawy... Analiza prze»ycia 9/50 Hazard rate Wzór: mo»na zapisa jako λ(t) = P(t T < t + t T t) λ(t) = lim t 0 t P(t T < t + t) lim t 0 t P(T t) = f (t) S(t) = S (t) S(t) = = d log[s(t)] dt Caªkuj c obie strony otrzymujemy skumulowan funkcj hazardu Λ(t) = t 0 λ(u)du = log[s(0)] log[s(t)] = log[s(t)]
Hazard rate Ze wzoru: mo»na wyliczy S(t) Λ(t) = log[s(t)] S(t) = exp ( Λ(t)) = exp ( t ) λ(u)du 0 UWAGA!!! hazard rate nie jest prawdopodobie«stwem, mo»e by wi kszy od 1.
Hazard rate Tomasz Suchocki, Podstawy... Analiza prze»ycia 11/50
Tomasz Suchocki, Podstawy... Analiza prze»ycia 12/50 Cenzurowanie danych Cenzurowane s te obserwacje, dla których oczekiwane zdarzenie nie miaªo miejsca do ko«ca rozpatrywanego czasu prawostronne cenzurowanie: czasie obserwacji je±li zdarzenie miaªo miejsce po lewostronne cenzurowanie: je±li zdarzenie miaªo miejsce przed rozpocz ciem obserwacji
Tomasz Suchocki, Podstawy... Analiza prze»ycia 13/50 Cenzurowanie danych Wykluczenie (truncation) w odróznieniu od cenzurowania nie polega na ograniczeniu wartosci zmiennej lecz na caªkowitym jej wykluczeniu z próbki. Oczywiscie takie wykluczenie nie powinno by losowe. wykluczenie cenzurowanie
Metoda Kaplana-Meiera Zaªo»enie: czas prze»ycia jest niezale»ny od czynnika powoduj cego cenzurowanie danych. Estymator Kaplana-Meiera funkcji prze»ycia: Ŝ(t) = r j d j, dla0 t t + r j j:t j t gdzie {t j : j = 1, 2,..., n} - zbiór wszystkich momentów wyst pienia zdarzenia d j - liczba wyst pie«zdarzenia w chwili t j r j = n j w j - liczba obserwowanych obiektów zagro»onych w chwili t j n j - liczba obserwowanych obiektów w chwili t j w j - liczba obiektów uci tych w okresie (t j 1, t j ) - np. pacjent wypisany ze szpitala t + - moment zako«czenia badania
Tomasz Suchocki, Podstawy... Analiza prze»ycia 15/50 Metoda Kaplana-Meiera Przykªad obliczania Ŝ: Czas Start Zdarzenie Uci te Zagro»enie Prawdop. prze»ycia Funkcja prze»ycia j n j d j w j r j P j = (r j d j )/r j S j = P j S j 1 0 31 2 3 31-3=28 (28-2)/28=0.93 0.93 x 1=0.93 1 26 1 2 26-2=24 (24-1)/24=0.96 0.96 x 0.93=0.89 2 23 1 2 23-2=21 (21-1)/21=0.95 0.95 x 0.89=0.85 3 20 1 2 20-2=18 (18-1)/18=0.94 0.94 x 0.85=0.80 itd. Tablica: Mark Stevenson, An Introduction to Survival Analysis, s. 7.
Metoda Kaplana-Meiera Tomasz Suchocki, Podstawy... Analiza prze»ycia 16/50
Metoda Flemingtona-Harringtona Zale»no± mi dzy funkjcj prze»ycia, a skumulowanym hazardem ma posta : S(t) = exp ( Λ(t)) Estymator Nelsona-Aalena skumulowanego hazardu ma posta : Λ(t) = j:t j t d j r j, 0 t t + gdzie t j, r j, d j - jak w przypadku estymatora Kaplana-Meiera. Estymator Flemingtona-Harringtona funkcji prze»ycia otrzymamy poprzez podstawienie estymatora Nelsona-Aalena do funkcji skumulowanego hazardu Š(t) = exp ( Λ(t))
Tomasz Suchocki, Podstawy... Analiza prze»ycia 18/50 Porównanie estymatorów KM i FH Dla dowolnego t mamy oszacowanie Š(t)=exp ( Λ(t)) = exp = j:t j t exp ( d ) j r j j:t j t j:t j t ( d j r j = 1 d j r j ) = Ŝ(t)
Parametry funkcji prze»ycia Wariancja hazardu skumulowanego: posta Greenwooda: j posta Aalena: j posta Kleina: j d j rj 2 d j (r j d j ) rj 2 d j r j (r j d j ) Zale»no± wariancji funkcji przezycia od wariancji hazardu skumulowanego: var(ŝ(t)) = Ŝ 2 (t)var( Λ(t)) Do obliczania wariancji Λ - preferowana posta Aalena; Do obliczania wariancji Ŝ - posta Greenwooda podstawiona do wzoru powy»ej.
Tomasz Suchocki, Podstawy... Analiza prze»ycia 20/50 Parametry funkcji prze»ycia redni czas przetrwania: t + µ = Ŝ(t)dt = 0 m (t j t )Ŝ(t j 1 j) i=1 gdzie t 0 = 0 - pocz tek badania t m = t + - moment zako«czenia badania Zakªadamy,»e Ŝ(t) = 0 dla t t+ estymator µ mo»e by obci»ony.
Tomasz Suchocki, Podstawy... Analiza prze»ycia 21/50 Krzywe prze»ycia - testowanie ró»nic Po co testujemy ró»nice krzywych prze»ycia? odpowiedzi na pytania: Poniewa» szukamy Czy dªu»ej»yj pacjenci poddani jednej terapii, czy drugiej? Czy dªugo± trwania maª»e«stwa zale»y od statusu maj tkowego maª»onków? itd. Szukamy czynników, które wpªywaj na prze»ycie.
Tomasz Suchocki, Podstawy... Analiza prze»ycia 22/50 Krzywe prze»ycia - testowanie ró»nic Brak obserwacji cenzurowanych uzywamy standardowych nieparametrycznych testów do porównania 2 funkcji prze»ycia dla 2 grup. Grupy: niezale»ne: np. test serii, test U Manna-Whitney'a zale»ne: np. test znaków Wyst puj obserwacje cenzurowane: Log-rank test test Breslow'a
Tomasz Suchocki, Podstawy... Analiza prze»ycia 23/50 Krzywe prze»ycia - testowanie ró»nic Analiza oparta jest na momentach, w których obserwujemy zdarzenia. Dla kazdej takiej chwili liczymy zaobserwowana oraz oczekiwana liczbe zdarzen w kazdej grupie. O t1, O t2 s sumami obserwowanych zdarzen we wszystkich momentach w grupie 1. i 2. odpowiednio; E t1, E t2 s sumami oczekiwanych zdarzen we wszystkich momentach w grupie 1. i 2. odpowiednio; Statystyka testowa: L = (O t1 E t1 ) 2 E t1 + (O t2 E t2 ) 2 E t2 L χ 2 1
Tomasz Suchocki, Podstawy... Analiza prze»ycia 24/50 Pakiet survival U»yteczne funkcje pakietu survival: Surv - tworzy obiekt typu Surv survt - oblicza m.in. wartosci funkcji prze»ycia, które nastepnie mo»na przedstawic w formie krzywej prze»ycia. survdi - testuje ró»nice mi dzy krzywymi prze»ycia
Tomasz Suchocki, Podstawy... Analiza prze»ycia 25/50 Pakiet survival Skªadnia Surv: >Surv(time,event) gdzie time - zmienna reprezentuj ca dªugo± czasu obserwacji obiektów event - zmienna zero-jedynkowa okre±laj ca, czy dla danego obiektu ze zbioru danych wyst piªo w okresie obserwacji badane zdarzenie
Tomasz Suchocki, Podstawy... Analiza prze»ycia 26/50 Pakiet survival Skªadnia survt: >survt(formula,data,type,conf.int,error) gdzie formula - formuªa postaci ob. Surv var1+var2+...+vark data - nazwa uzytego w analizie zbioru danych type - metoda estymacji funkcji prze»ycia, do wyboru: 'kaplanmeier', 'eming-harrington'. Domyslnie u»ywana jest funkcja Kaplana-Meiera. conf.int - poziom ufno±ci dla przedziaªów ufno±ci; domyslnie 0.95. error - metoda obliczania odchylenia standardowego; do wyboru: greenwood, tsiatis; domy±lnie greenwood.
Tomasz Suchocki, Podstawy... Analiza prze»ycia 27/50 Pakiet survival Skªadnia survdi : >survdi(formula,data,rho=0) gdzie formula - formuªa postaci ob. Surv var1+var2+...+vark data - nazwa uzytego w analizie zbioru danych rho - warto± okre±laj ca typ testu
Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 28/50
Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 29/50
Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 30/50
Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 31/50
Tomasz Suchocki, Podstawy... Analiza prze»ycia 32/50 Wprowadzenie - model Cox'a Model proporcjonalnego hazardu Cox'a: cz sto stosowana technika statystycznej analizy danych prze»ycia; pozwala na wyizolowanie zmiennych obja±niaj cych (niezale»- nych) maj cych wpªyw na prognoz "failure time"; mo»na stosowa nawet je»eli zmienna zale»na nie ma rozkªadu normalnego oraz obserwacje s cenzurowane lub wykluczane.
Model Cox'a Posta modelu: h(t, x 1 (t), x 2 (t),..., x n (t)) = h 0 (t) exp (β 1 x 1 (t) +... + β n x n (t)), gdzie h(t, x 1 (t), x 2 (t),..., x n (t))) - funkcja hazardu w momencie t przy n zmiennych obja±niaj cych (zmienne obja±niaj ce mog by zarówno typu ci gªego jak i dyskretnego); h 0 (t) - nieujemna funkcja hazardu odniesienia (hazard bazowy); funkcja h 0 (t) nie zale»y od»adnego parametru, jedynie od czasu t; exp (β 1 x 1 (t) +... + β n x n (t)) - log-liniowa funkcja zale»na jedynie od zmiennych obja±niaj cych.
Tomasz Suchocki, Podstawy... Analiza prze»ycia 34/50 Wªa±ciwo±ci modelu Cox'a Z postaci funkcji hazardu wynikaj nast puj ce wªa±ciwo±ci: funkcja hazardu przyjmuje warto±ci wi ksze od 0; model Cox'a jest nieparametryczny, tzn. nie ma konieczno±ci zaªo»enia z góry pewnego rozkªadu zmiennej zale»nej.
Tomasz Suchocki, Podstawy... Analiza prze»ycia 35/50 Wªa±ciwo±ci modelu Cox'a Zalety modelu Cox'a: zaªo»enie proporcjonalno±ci hazardu: zakªada si,»e dla dwóch obserwacji o ró»nych warto±ciach dla zmiennych obja±niaj cych x = (x 1,..., x n ) i x = ( x 1,..., x n ), stosunek funkcji hazardu dla tych dwóch obserwacji nie zale»y bezpo±rednio od czasu, a jedynie od zmiennych obja±niaj cych, tzn. h(t, x 1 (t),..., x n (t)) h(t, x 1 (t),..., x n (t)) = =exp(β 1 (x 1 (t) x 1 (t)) +... + β n (x n (t) x n (t))) Oznacza to,»e je»eli przypatrujemy si dwóm niezwi zanym ze sob obiektom w tym samym czasie, to ró»nice w nat»eniu zdarze«s zale»ne od ró»nic mi dzy zmiennymi obja±niaj cymi.
Tomasz Suchocki, Podstawy... Analiza prze»ycia 36/50 Wªa±ciwo±ci modelu Cox'a znaj c wspóªczynniki β j jeste±my w stanie, bez jakiejkolwiek wiedzy o hazardzie bazowym, okre±li wra»liwo± funkcji hazardu na zmiany j-tej cechy. Mianowicie, gdy j-ta zmienna wzro±nie o jednostk (a pozostaªe b d bez zmian), to funkcja hazardu wzro±nie o exp (β j ) razy. taka posta h(t) pozwala na estymacj wspóªczynników β j przy minimalnych zaªo»eniach dla hazardu bazowego.
Obliczanie wspóªczynników modelu Cox'a Zakªadaj c,»e h 0 (t) jest dowolne nie mo»emy dosta»adnych informacji o wspóªczynnikach β j na podstawie bada«okresów, w których nie zaszªo»adne zdarzenie, poniewa» w tych przedziaªach funkcja h 0 (t) mo»e by równa 0. Dlatego musimy rozwa»a prawdopodobie«stwa warunkowe: P(T = t (i) R(t (i) )) wyst pienia zda»enia w momencie t (i) na zbiorze R(t (i) ) wszystkich takich obserwacji, dla których failure time lub czas ocenzurowania jest co najmniej równy t (i).
Tomasz Suchocki, Podstawy... Analiza prze»ycia 38/50 Obliczanie wspóªczynników modelu Cox'a Funkcja wiarygodno±ci: P(T = t (i) T t (i) ) P(T = t (i) R(t (i) ))= j R i P(T = t (j) T t (j) ) = h(t (i), x (i) ) = j R i h(t (j), x (j) ) = exp (βx (i)) j R i exp (βx (j) ) = exp (β 1 x (j)1 +... + β n x (j)n ) = j R i exp (β 1 x (j)1 +... + β n x (j)n ), gdzie x (j) to j-ta obserwacja, ktorej "failure time"przypadª na czas t (i).
Obliczanie wspóªczynników modelu Cox'a Znajduj c maksimum funkcji log-wiarygodno±ci mo»na wyznaczy estymator wspóªczynników β j. L(β) = k βx (i) i=1 k log exp(βx (j) ) j R i i=1 gdzie i = 1,..., k to wszystykie momenty wyst pienia zdarzenia.
Tomasz Suchocki, Podstawy... Analiza prze»ycia 40/50 Sprawdzanie zaªo»e«modelu Cox'a Zaªo»enie proporcjonalno±ci hazardu nie musi zawsze by speªnione. Czasami przy wspóªczynnikach β j pojawia si jawna zale»no± od czasu. Aby sprawdzi to zaªo»enie mo»emy u»y dwóch metod: Metoda graczna: polega na narysowaniu wykresów funkcji hazardu w zale»no±ci od czasu dla kilku grup obserwacji. Je±li wykresy si przecinaj to spelnione jest powy»sze zaªo»enie. Metoda analityczna: przy pomocy funkcji cox.zph.
Tomasz Suchocki, Podstawy... Analiza prze»ycia 41/50 Pakiet survival Skªadnia coxph: >coxph(model,data,method) gdzie model - formuªa postaci ob. Surv var 1 + var 2 +... + var k data - nazwa uzytego w analizie zbioru danych method - metoda radzenia sobie z jednoczesnymi zdarzeniami {efron, braslow, exact}
Tomasz Suchocki, Podstawy... Analiza prze»ycia 42/50 Pakiet survival Skªadnia cox.zph: >cox.zph(t,global) gdzie t - obiekt typu coxph global= {F, T } - czy test ma by wykonany dla caªego modelu, czy tylko pojedynczych zmiennych.
Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 43/50
Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 44/50
Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 45/50
Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 46/50
Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 47/50
Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 48/50
Tomasz Suchocki, Podstawy... Analiza prze»ycia 49/50 Bibliograa Branicka, P kalski - Survival Analysis, Seminarium 2008 UW Niemyska, raªek - Krzywe prze»ycia - testowanie ró»nic, Seminarium 2008 UW Šaniewski-Woªªk, Zdanikowski - Survival Analysis, Seminarium 2008 UW
Dzi kuj za uwag Tomasz Suchocki, Podstawy... Analiza prze»ycia 50/50