Podstawy statystycznego modelowania danych Analiza prze»ycia Tomasz Suchocki Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t
Plan wykªadu 1. Wprowadzenie 2. Hazard rate 3. Cenzorowanie danych 4. Metoda Kaplana-Meiera 5. Metoda Flemingtona-Harringtona 6. Krzywe prze»ycia - testowanie ró»nic 7. Pakiet Survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 2/33
Wprowadzenie Gªówne cechy modelu prze»ycia: mo»e wystapi co najwy»ej jedno zdarzenie na 'przedmiot' badania (umrze mo»na tylko raz) rozkªad ma du» sko±no±, zazwyczaj dodatni mo»e wyst powa cenzorowanie danych (zdarzenia obserwujemy tylko do pewnego czasu) Tomasz Suchocki, Podstawy... Analiza prze»ycia 3/33
Wprowadzenie Czemu tradycyjne metody mog zawodzi? zazwyczaj wyst puje zaªo»enie o normalno±ci (brak normalno±ci psuje wszystko) standardowo nie wyst puje cenzurowanie danych (cenzurowanie powoduje brak zgodno±ci estymatora) Tomasz Suchocki, Podstawy... Analiza prze»ycia 4/33
Wprowadzenie Podstawowe poj cia: survival time - czas do momentu zaj±cia jakiego± zdarzenia failure - zdarzenie na które czekamy Przykªady: prze»ywalno± pacjentów chorych na raka dªugo±»ycia dªugo± trwania maª»e«stwa po ±lubie Tomasz Suchocki, Podstawy... Analiza prze»ycia 5/33
Wprowadzenie - powi zanie czasu i wydarze«niech T b dzie (nieujemn ) zmienn losow oznaczaj c czas do interesuj cego nas zdarzenia (survival time). Wtedy dystrybuanta F (t) = P(T t), t > 0 oznacza prawdopodobie«stwo,»e nasze zdarzenie wydarzy si przed czasem t. W bioinformatyce (oraz biomedycynie) u»ywa si funkcji prze»ycia (survival function) S(t) = P(T t) = 1 F (t ) wtedy S(t) oznacza,»e obiekt przezyje do czasu t. Tomasz Suchocki, Podstawy... Analiza prze»ycia 6/33
Wprowadzenie - powi zanie czasu i wydarze«wªasno±ci S(t) = P(T t) = 1 F (t ): w t = 0 mamy S(t) = 1, czyli nikt jeszcze nie umarª w t = + mamy S(t) = 0, czyli ka»dy musi kiedy± umarze Tomasz Suchocki, Podstawy... Analiza prze»ycia 7/33
Hazard rate Podstawowe poj cia: mortality rate - procent populacji, dla której b dzie miaªo miejsce oczekiwane zdarzenie (np. ±mier ) w okresie mi dzy t oraz t +1, dla których zdarzenie nie zaszªo do czasu t. hazard rate m(t) = P(t T < t + 1 T t) P(t T < t + t T t) λ(t) = lim t 0 t Tomasz Suchocki, Podstawy... Analiza prze»ycia 8/33
Hazard rate Wzór: P(t T < t + t T t) λ(t) = lim t 0 t mo»na zapisa jako λ(t) = P(t T < t + t) lim t 0 t P(T t) = f (t) S(t) = S (t) S(t) = = d log[s(t)] dt Caªkuj c obie strony otrzymujemy skumulowan funkcj hazardu Λ(t) = t 0 λ(u)du = log[s(0)] log[s(t)] = log[s(t)] Tomasz Suchocki, Podstawy... Analiza prze»ycia 9/33
Hazard rate Ze wzoru: mo»na wyliczy S(t) Λ(t) = log[s(t)] UWAGA!!! ( t ) S(t) = exp ( Λ(t)) = exp λ(u)du 0 hazard rate nie jest prawdopodobie«stwem, mo»e by wi kszy od 1. Tomasz Suchocki, Podstawy... Analiza prze»ycia 10/33
Hazard rate Tomasz Suchocki, Podstawy... Analiza prze»ycia 11/33
Cenzurowanie danych Cenzurowane s te obserwacje, dla których oczekiwane zdarzenie nie miaªo miejsca do ko«ca rozpatrywanego czasu prawostronne cenzurowanie: je±li zdarzenie miaªo miejsce po czasie obserwacji lewostronne cenzurowanie: je±li zdarzenie miaªo miejsce przed rozpocz ciem obserwacji Tomasz Suchocki, Podstawy... Analiza prze»ycia 12/33
Cenzurowanie danych Wykluczenie (truncation) w odróznieniu od cenzorowania nie po- lega na ograniczeniu wartosci zmiennej lecz na caªkowitym jej wy- kluczeniu z próbki. Oczywiscie takie wykluczenie nie powinno byc losowe. wykluczenie cenzurowanie Tomasz Suchocki, Podstawy... Analiza prze»ycia 13/33
Metoda Kaplana-Meiera Zaªo»enie: czas prze»ycia jest niezale»ny od czynnika powoduj cego cenzurowanie danych. Estymator Kaplana-Meiera funkcji prze»ycia: Ŝ(t) = r j d j, dla0 t t + r j j:t j t gdzie {t j : j = 1, 2,..., n} - zbiór wszystkich momentów wyst pienia zdarzenia d j - liczba wyst pie«zdarzenia w chwili t j r j = n j w j - liczba obserwowanych obiektów zagro»onych w chwili t j n j - liczba obserwowanych obiektów w chwili t j w j - liczba obiektów ucietych w okresie (t j 1, t j ) t + - moment zako«czenia badania Tomasz Suchocki, Podstawy... Analiza prze»ycia 14/33
Metoda Kaplana-Meiera Przykªad obliczania Ŝ: Czas Start Zdarzenie Uci te Zagro»enie Prawdop. prze»ycia Funkcja prze»ycia j n j d j w j r j P j = (r j d j )/r j S j = P j S j 1 0 31 2 3 31-3=28 (28-2)/28=0.93 0.93 x 1=0.93 1 26 1 2 26-2=24 (24-1)/24=0.96 0.96 x 0.93=0.89 2 23 1 2 23-2=21 (21-1)/21=0.95 0.95 x 0.89=0.85 3 20 1 2 20-2=18 (18-1)/18=0.94 0.94 x 0.85=0.80 itd. Tablica : Mark Stevenson, An Introduction to Survival Analysis, s. 7. Tomasz Suchocki, Podstawy... Analiza prze»ycia 15/33
Metoda Kaplana-Meiera Tomasz Suchocki, Podstawy... Analiza prze»ycia 16/33
Metoda Flemingtona-Harringtona Zale»no± mi dzy funkjcj prze»ycia, a skumulowanym hazardem ma posta : S(t) = exp ( Λ(t)) Estymator Nelsona-Aalena skumulowanego hazardu ma posta : Λ(t) = j:t j t d j r j, 0 t t + gdzie t j, r j, d j - jak w przypadku estymatora Kaplana-Meiera. Estymator Flemingtona-Harringtona funkcji prze»ycia otrzymamy poprzez podstawienie estymatora Nelsona-Aalena do funkcji skumulowanego hazardu Š(t) = exp ( Λ(t)) Tomasz Suchocki, Podstawy... Analiza prze»ycia 17/33
Porównanie estymatorów KM i FH Dla dowolnego t mamy oszacowanie Š(t)=exp ( Λ(t)) = exp = j:t j t exp ( dj r j j:t j t ) j:t j t d j = r j ( 1 d ) j = r Ŝ(t) j Tomasz Suchocki, Podstawy... Analiza prze»ycia 18/33
Parametry funkcji prze»ycia Wariancja hazardu skumulowanego: posta Greenwooda: j posta Aalena: j posta Kleina: j d j rj 2 d j (r j d j ) r 2 j d j r j (r j d j ) Zale»no± wariancji funkcji przezycia od wariancji hazardu skumulowanego: var(ŝ(t)) = Ŝ 2 (t)var( Λ(t)) Do obliczania wariancji Λ - preferowana posta Aalena; Do obliczania wariancji Ŝ - posta Greenwooda podstawiona do wzoru powy»ej. Tomasz Suchocki, Podstawy... Analiza prze»ycia 19/33
Parametry funkcji prze»ycia redni czas przetrwania: gdzie µ = t + 0 Ŝ(t)dt = m (t j t j 1 )Ŝ(t j) i=1 t 0 = 0 - pocz tek badania t m = t + - moment zako«czenia badania Zakªadamy,»e Ŝ(t) = 0 dla t t+ estymator µ mo»e by obci»ony. Tomasz Suchocki, Podstawy... Analiza prze»ycia 20/33
Krzywe prze»ycia - testowanie ró»nic Po co testujemy ró»nice krzywych prze»ycia? Poniewa» szukamy odpowiedzi na pytania: Czy dªu»ej»yj pacjenci poddani jednej terapii, czy drugiej? Czy dªugo± trwania maª»e«stwa zale»y od statusu maj tkowego maª»onków? itd. Szukamy czynników, które wpªywaj na prze»ycie. Tomasz Suchocki, Podstawy... Analiza prze»ycia 21/33
Krzywe prze»ycia - testowanie ró»nic Brak obserwacji cenzurowanych uzywamy standardowych nieparametrycznych testów do porównania 2 funkcji prze»ycia dla 2 grup. Grupy: niezale»ne: np. test serii, test U Manna-Whitney'a zale»ne: np. test znaków Wyst puj obserwacje cenzurowane: Log-rank test test Breslow'a Tomasz Suchocki, Podstawy... Analiza prze»ycia 22/33
Krzywe prze»ycia - testowanie ró»nic Analiza oparta jest na momentach, w których obserwujemy zdarzenia. Dla kazdej takiej chwili liczymy zaobserwowana oraz oczekiwana liczbe zdarzen w kazdej grupie. O t1, O t2 s sumami obserwowanych zdarzen we wszystkich momentach w grupie 1. i 2. odpowiednio; E t1, E t2 s sumami oczekiwanych zdarzen we wszystkich momentach w grupie 1. i 2. odpowiednio; Statystyka testowa: L = (O t1 E t1 ) 2 E t1 + (O t2 E t2 ) 2 E t2 L χ 2 1 Tomasz Suchocki, Podstawy... Analiza prze»ycia 23/33
Pakiet survival U»yteczne funkcje pakietu survival: Surv - tworzy obiekt typu Surv survt - oblicza m.in. wartosci funkcji prze»ycia, które nastepnie mo»na przedstawic w formie krzywej prze»ycia. survdi - testuje ró»nice mi dzy krzywymi prze»ycia Tomasz Suchocki, Podstawy... Analiza prze»ycia 24/33
Pakiet survival Skªadnia Surv: >Surv(time,event) gdzie time - zmienna reprezentuj ca dªugo± czasu obserwacji obiektów event - zmienna zero-jedynkowa okre±laj ca, czy dla danego obiektu ze zbioru danych wyst piªo w okresie obserwacji badane zdarzenie Tomasz Suchocki, Podstawy... Analiza prze»ycia 25/33
Pakiet survival Skªadnia survt: >survt(formula,data,type,conf.int,error) gdzie formula - formuªa postaci ob. Surv var1+var2+...+vark data - nazwa uzytego w analizie zbioru danych type - metoda estymacji funkcji prze»ycia, do wyboru: 'kaplanmeier', 'eming-harrington'. Domyslnie u»ywana jest funkcja Kaplana-Meiera. conf.int - poziom ufno±ci dla przedziaªów ufno±ci; domyslnie 0.95. error - metoda obliczania odchylenia standardowego; do wyboru: greenwood, tsiatis; domy±lnie greenwood. Tomasz Suchocki, Podstawy... Analiza prze»ycia 26/33
Pakiet survival Skªadnia survdi : >survdi(formula,data,rho=0) gdzie formula - formuªa postaci ob. Surv var1+var2+...+vark data - nazwa uzytego w analizie zbioru danych rho - warto± okre±laj ca typ testu Tomasz Suchocki, Podstawy... Analiza prze»ycia 27/33
Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 28/33
Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 29/33
Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 30/33
Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 31/33
Bibliograa Branicka, P kalski - Survival Analysis, Seminarium 2008 UW Niemyska, raªek - Krzywe prze»ycia - testowanie ró»nic, Seminarium 2008 UW Tomasz Suchocki, Podstawy... Analiza prze»ycia 32/33
Dzi kuj za uwag Tomasz Suchocki, Podstawy... Analiza prze»ycia 33/33