STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH WYKŠAD 1 13 pa¹dziernik 2014 1 / 49
Plan wykªadu 1. Analizy prze»ycia na przykªadach 2. Podstawowe idee statystyki matematycznej wykorzystywane w analizie prze»ycia 3. Krzywe prze»ycia 4. Pakiet R 2 / 49
ANALIZA PRZE YCIA - PRZYKŠADY 3 / 49
Przykªad 1 - transplantacja serca Rysunek 1: Czas do transplantacji serca oraz czas prze»ycia dla 82 pacjentów wybranych z Programu Transplantacji Serca Stanford (Turnbull et al., 1974). 4 / 49
Przykªad 1 - transplantacja serca Rysunek 2: Prawdopodobie«stwo prze»ycia osób zakwalikowanych do przeszczepu serca estymowane przy pomocy krzywych Kaplana-Meiera (Turnbull et al., 1974). 5 / 49
Przykªad 2 - przewlekªa biaªaczka szpikowa Rysunek 3: Krzywa prze»ycia dla pacjentów z przewlekª biaªaczk szpikow (Peto et al., 1977). 6 / 49
Przykªad 2 - przewlekªa biaªaczka szpikowa Rysunek 4: Krzywe prze»ycia dla pacjentów z przewlekª biaªaczk szpikow poddawanych chemioterapii (Busulphan) lub radioterapii (Peto et al., 1977). 7 / 49
Przykªad 3 - antykoncepcja Rysunek 5: Skumulowana stopa regeneracji spermy po zaprzestaniu za»ywania gossypolu (Meng et al., 1988). 8 / 49
PODSTAWOWE IDEE STATYSTYKI MATEMATYCZNEJ WYKORZYSTYWANE W ANALIZIE PRZE YCIA 9 / 49
Mediana czasu prze»ycia Mediana czasu prze»ycia - warto± dla której 50% osób ma dªu»szy czas prze»ycia i 50% osób ma krótszy czas prze»ycia. Dlaczego nie u»ywamy ±redniego czasu prze»ycia? Zazwyczaj rozkªad czasu prze»ycia jest sko±ny (maªa ilo± osób chorych»yje dªugo). 10 / 49
Mediana czasu prze»ycia Mediana czasu prze»ycia - warto± dla której 50% osób ma dªu»szy czas prze»ycia i 50% osób ma krótszy czas prze»ycia. Dlaczego nie u»ywamy ±redniego czasu prze»ycia? Zazwyczaj rozkªad czasu prze»ycia jest sko±ny (maªa ilo± osób chorych»yje dªugo). 10 / 49
Mediana czasu prze»ycia Mediana czasu prze»ycia - warto± dla której 50% osób ma dªu»szy czas prze»ycia i 50% osób ma krótszy czas prze»ycia. Dlaczego nie u»ywamy ±redniego czasu prze»ycia? Zazwyczaj rozkªad czasu prze»ycia jest sko±ny (maªa ilo± osób chorych»yje dªugo). 10 / 49
Mediana czasu prze»ycia Rysunek 6: Rozkªad czasu pomi dzy pierwszym symptomem a diagnoz raka piersi dla 145 kobiet. rednia wynosi 225.1, a mediana 185 dla skali oryginalnej i odpowiednio 5.220 i 5.151 dla skali zlogarytmowanej. 11 / 49
Przedziaªy ufno±ci W analizie prze»ycia wa»n rol odgrywaj przedziaªy ufno±ci: X z 1 α 2 S < µ < X + z 1 n α S 2 n Rysunek 7: Dolny i górny α 2 punkt standardowego rozkªadu normalnego 12 / 49
Przedziaªy ufno±ci Statystyka Parametr Estymator Bª d ±rednia µ n X = 1 n x i=1 i standardowy S n + S2 B n B S 2 ró»nica ±rednich δ = µ A µ B d = X A X A B n A proporcja π p = r p(1 p) n n ró»nica proporcji δ = π A π B d = p A p pa (1 p A ) B n A + p B (1 p B ) n B Tablica 1: Statystyki i ich bª dy standardowe. 13 / 49
Przedziaªy ufno±ci - przykªad Lekarstwo nie wyleczony wyleczony ª cznie procent niewyleczonych pirenzepina 7 (a) 23 (c) 30 (a+c) 23.33 trithiozina 13 (b) 18 (d) 31 (b+d) 41.94 ª cznie 20 (r) 41 (s) 61 (n) Tablica 2: Pacjenci choruj cy na wrzody»oª dka z podziaªem na grupy leczone pirenzepin (P) i trithiozin (T) (Familiari et al., 1981). Mamy n P = 30, p P = 0.2333, n T = 31 i p T = 0.4194. Obserwowana ró»nica pomi dzy sposobami leczenia wynosi d = p T p P = 0.1861. Bª d standardowy dla estymatora d wynosi: p T (1 p T ) SE = + p P(1 p P ) = 0.1175. n T n P Przedziaª ufno±ci dla parametru δ wynosi: 4% < δ < 42%. 14 / 49
Iloraz ryzyka (Hazard ratio) Zaªó»my,»e O A oznacza obserwowan ilo± zgonów w grupie A oraz E A oznacza oczekiwan ilo± zgonów w tej grupie. Wtedy O A E A oznacza relatywn ±miertelnno± w grupie A. Podobnie O B E B oznacza relatywn ±miertelnno± w grupie B. Iloraz ryzyka deniujemy jako: HR = O A E A O B E B = O AE B E A O B. Interpretacja: HR = 1 - nie ma ró»nic pomi dzy grupami A i B, HR > 1 - ryzyko w grupie A jest wi ksze ni» w grupie B, HR < 1 - ryzyko w grupie B jest wi ksze ni» w grupie A. Przykªad: Je±li HR = 3 to znaczy,»e ryzyko ±mierci w grupie A jest trzykrotnie wy»sze ni» w grupie B. Je±li HR = 0.5 to znaczy,»e ryzyko ±mierci w grupie A jest dwukrotnie ni»sze ni» w grupie B. 15 / 49
Ryzyko wzgl dne (Relative risk) Azbest zdiagnozowany niezdiagnozowany ª cznie mi dzybªoniak mi dzybªoniak Typ I a c a+c Typ II b d b+d ª cznie r s n Tablica 3: Zestawienie robotników nara»onych na dwa rodzaje azbestu oraz informacja, czy zachorowali na mi dzybªoniaka czy nie. Na podstawie powy»szej tabeli ryzyko wzgl dne deniujemy jako: RR = a a+c b b+d = a(b + d) (a + c)b, czyli ryzyko wyst pienia mi dzybªoniaka u robotników nara»onych na azbest typu I dzielimy przez ryzyko wyst pienia mi dzybªoniaka u robotników nara»onych na azbest typu II. Interpretacja RR jest analogiczna jak w przypadku HR. 16 / 49
Ryzyko wzgl dne - Przykªad Na podstawie danych z Tablicy (2) mamy: RR = 7 31 13 30 = 0.5564. Oznacza to,»e pacjenci leczeni trithiozin maj okoªo dwa razy wi ksze ryzyko, i» nie zostan wyleczeni z wrzodów ni» ci, którzy byli leczeni pirenzepin. 17 / 49
Iloraz szans (Odds ratio) U»ywaj c danych z powy»szej tabeli (Tablica 3) iloraz szans jest deniowany jako: OR = = ad bc Na podstawie danych z Tablicy (2) mamy: a c b d OR = 7 18 13 23 = 0.42. Oznacza to,»e pacjenci leczeni trithiozin maj okoªo 2.4 razy wi ksze szanse na niewyleczenie, ni» pacjenci, którzy byli leczeni pirenzepin. 18 / 49
Zale»no± mi dzy RR i OR Zakªadaj c,»e w Tablicy (3) zdarzenie pojawia si z bardzo maªym prawdopodobie«stwem tzn. z du»ej liczby robotników tylko kilku zachoruje na mi dzybªoniaka. Wtedy a (a + c) a c i b (b + d) b d. Na podstawie powy»szych przybli»e«mamy zale»no± : OR RR. 19 / 49
Testy istotno±ci Nale»y przypomnie sobie nast puj ce testy: z test χ 2 test test oparty na ilorazie wiarygodno±ci 20 / 49
KRZYWE PRZE YCIA 21 / 49
Czas prze»ycia Czas prze»ycia jest mierzony od jednego zdarzenia (np. start leczenia) do innego zdarzenia (np. ±mier ). Pacjentów, dla których nie zaobserwowali±my danego zdarzenia nazywamy zmiennymi cenzorowanymi. Wszystko co wiemy to,»e taki pacjent do»yª do danego punktu czasu. Przyczyn cenzorowania mo»e by równie» przerwanie leczenia przez pacjenta. 22 / 49
Czas prze»ycia Rysunek 8: Pacjenci wª czeni do bada«w ró»nym czasie ze znanym ( ) lub cenzorowanym ( ) czasem prze»ycia. 23 / 49
Czas prze»ycia Rysunek 9: Tabela z czasem prze»ycia dla pacjentów z Rysunku (8). 24 / 49
Czas prze»ycia Rysunek 10: Dane z Rysunku (8) uszeregowane ze wzgl du na czas prze»ycia. 25 / 49
Czas prze»ycia Niech T b dzie (nieujemn ) zmienn losow oznaczaj c czas do interesuj cego nas zdarzenia (survival time). Wtedy dystrybuanta F (t) = P(T t), t > 0 oznacza prawdopodobie«stwo,»e nasze zdarzenie wydarzy si przed czasem t. W bioinformatyce (oraz biomedycynie) u»ywa si funkcji prze»ycia (survival function) S(t) = P(T t) = 1 F (t ) wtedy S(t) oznacza,»e obiekt prze»yje do czasu t. 26 / 49
Czas prze»ycia Wªasno±ci S(t) = P(T t) = 1 F (t ): w t = 0 mamy S(t) = 1, czyli nikt jeszcze nie umarª w t = + mamy S(t) = 0, czyli ka»dy musi kiedy± umrze 27 / 49
Estymator Kaplana-Meiera Rysunek 11: Czas do transplantacji serca oraz czas prze»ycia dla 82 pacjentów wybranych z Programu Transplantacji Serca Stanford (Turnbull et al., 1974). 28 / 49
Metoda Kaplana-Meiera Zaªo»enie: czas prze»ycia jest niezale»ny od czynnika powoduj cego cenzorowanie danych. Estymator Kaplana-Meiera funkcji prze»ycia: gdzie Ŝ(t) = j:t j t r j d j r j, dla0 t t + {t j : j = 1, 2,..., n} - zbiór wszystkich momentów wyst pienia zdarzenia d j - liczba wyst pie«zdarzenia w chwili t j r j = n j w j - liczba obserwowanych obiektów zagro»onych w chwili t j n j - liczba obserwowanych obiektów w chwili t j w j - liczba obiektów uci tych w okresie (t j 1, t j ) - np. pacjent wypisany ze szpitala t + - moment zako«czenia badania 29 / 49
Krzywe prze»ycia Rysunek 12: Estymator krzywej prze»ycia Kaplana-Meiera dla 24 pacjentów chorych na raka jelita grubego (McIllmurray and Turkie, 1987). 30 / 49
Mediana czasu prze»ycia W zbiorze danych nie ma obserwacji cenzorowanych { t ([n+1]/2) n jest nieparzyste M = 0.5 (t ) (n/2) + t (n/2+1) n jest parzyste W zbiorze danych wyst puj obserwacje cenzorowane Wyznaczy krzyw prze»ycia S(t) Kaplana-Meiera Znale¹ warto± M dla której S(M) = 0.5 31 / 49
Mediana czasu prze»ycia - przykªad Rysunek 13: rozsiane. Mediana prze»ycia (M=6) dla pacjentów chorych na stwardnienie 32 / 49
Przedziaªy ufno±ci dla S(t) Metoda Greenwooda t 1 SE GR [S(t)] = S(t) d j r j (r j d j ) j=0 1 2 Przykªad dla danych z Rysunek (11) w punkcie czasu t = 12: [ ] 1 4 SE GR [S(12)] = 0.6522 23 (23 4) + 2 2 = 0.0808 19 (19 2) CI (95%)=(S(t) 1.96 SE GR [S(t)]; S(t) + 1.96 SE GR [S(t)]) = =(0.4938; 0.8106) 33 / 49
Przedziaªy ufno±ci dla S(t) Metoda Peto ( ) 1 S(t)[1 S(t)] 2 SE P [S(t)] =, R(t) gdzie R(t) = n c t, c t jest ilo±ci cenzorowanych danych do chwili t. Przykªad dla danych z Rysunek (11) w punkcie czasu t = 12: ( ) 1 0.6522[1 0.6522] 2 SE P [S(12)] = = 0.0993 23 CI (95%)=(S(t) 1.96 SE P [S(t)]; S(t) + 1.96 SE P [S(t)]) = =(0.4575; 0.8468) 34 / 49
Przedziaªy ufno±ci dla S(t) Metoda transformacyjna SE Tr [S(t)] = ( t 1 j=0 ) 1 d j 2 r j (r j d j ) ( t 1 j=0 log ( rj d j r j )) Przykªad dla danych z Rysunek (11) w punkcie czasu t = 12: 4 23(23 4) + 2 19(19 2) SE GR [S(12)] = log ( ) ( 23 4 log 23 19 2 19 ) = 0.4098 ( ) CI (95%)= S(t) exp(+1.96se Tr ) ; S(t) exp( 1.96SE Tr ) = =(0.3851; 0.8258) 35 / 49
Przedziaªy ufno±ci dla M Bª d standardowy dla mediany prze»ycia wyznacza si z poni»szego wzoru: SE M = SE GR [S(M)] (t small t large ) S(t large ) S(t small ), gdzie t small jest najmniejszym czasem prze»ycia z krzywej Kaplana-Meiera dla której S(t) jest mniejsze b d¹ równe 0.45, natomiast t large jest najwi kszym czasem prze»ycia z krzywej Kaplana-Meiera dla której S(t) jest mniejsze b d¹ równe 0.55. 36 / 49
Przedziaªy ufno±ci dla M - Przykªad Na podstawie Rysunków (11) i (12) mamy M = 30, t small = 30 i t large = 20. Nast pnie nale»y wyestymowa bª d standardowy metod Greenwooda dla S(30). [ ] 1 4 SE GR [S(30)]=0.5 23(23 4) +... + 1 2 = 8(8 1) =0.5 0.228377 = 0.114188 SE M = 0.114188 (30 20) (0.5780 0.3852 = 5.92 CI (95%)=(S(t) 1.96 SE M [S(t)]; S(t) + 1.96 SE M [S(t)]) = =(18.40; 41.60) 37 / 49
Hazard rate Podstawowe poj cia: mortality rate - procent populacji, dla której b dzie miaªo miejsce oczekiwane zdarzenie (np. ±mier ) w okresie mi dzy t oraz t + 1, dla których zdarzenie nie zaszªo do czasu t. hazard rate m(t) = P(t T < t + 1 T t) P(t T < t + t T t) λ(t) = lim t 0 t 38 / 49
Hazard rate Wzór: mo»na zapisa jako λ(t) = P(t T < t + t T t) λ(t) = lim t 0 t P(t T < t + t) lim t 0 t P(T t) = f (t) S(t) = S (t) S(t) = = d log[s(t)] dt Caªkuj c obie strony otrzymujemy skumulowan funkcj hazardu Λ(t) = t 0 λ(u)du = log[s(0)] log[s(t)] = log[s(t)] 39 / 49
Hazard rate Ze wzoru: mo»na wyliczy S(t) Λ(t) = log[s(t)] ( t S(t) = exp ( Λ(t)) = exp 0 ) λ(u)du Zale»no± wariancji funkcji prze»ycia od wariancji hazardu skumulowanego: var(ŝ(t)) = Ŝ 2 (t)var( Λ(t)) UWAGA!!! hazard rate nie jest prawdopodobie«stwem, mo»e by wi kszy od 1. 40 / 49
Hazard rate - przykªad Na podstawie Rysunku (11) wyznaczymy roczn funkcj hazardu dla pacjentów: 1. Sze±cioro pacjentów zmarªo (czworo w 6 i dwoje w 8 miesi cu), czyli prze»yli ª cznie f 1 = 6 4 + 2 8 = 40 miesi cy. Z pacjentów, którzy prze»yli jeden byª cenzorowany w trzecim miesi cu, a siedemna±cioro do»yªo do ko«ca roku, czyli prze»yli ª cznie F 1 = 1 3 + 17 12 = 207 miesi cy. Wszyscy pacjenci prze»yli f 1 + F 1 = 247 miesi cy. Funkcja hazardu dla pierwszego roku wynosi h 1 = d1 f 1+F 1 = 6 = 0.02429 na 247 miesi c lub 0.02429 12 = 0.29 na rok. 2. h 2 = 0.019608 na miesi c lub 0.24 na rok. 3. h 2 = 0.06061 na miesi c lub 0.73 na rok. 4. h 2 = 0.16667 na miesi c lub 2.00 na rok. Co zrobi ze zdarzeniami na brzegach przedziaªów (np. zgon nast piª w 12 miesi cu)? 41 / 49
Metoda Flemingtona-Harringtona Zale»no± mi dzy funkcj prze»ycia, a skumulowanym hazardem ma posta : S(t) = exp ( Λ(t)) Estymator Nelsona-Aalena skumulowanego hazardu ma posta : Λ(t) = j:t j t d j r j, 0 t t + gdzie t j, r j, d j - jak w przypadku estymatora Kaplana-Meiera. Estymator Flemingtona-Harringtona funkcji prze»ycia otrzymamy przez podstawienie estymatora Nelsona-Aalena do funkcji skumulowanego hazardu Š(t) = exp ( Λ(t)) 42 / 49
Porównanie estymatorów KM i FH Dla dowolnego t mamy oszacowanie Š(t)=exp ( Λ(t)) = exp = j:t j t ( exp d ) j r j j:t j t j:t j t d j r j = ( 1 d j r j ) = Ŝ(t) 43 / 49
Pakiet R 44 / 49
Pakiet R 1 library(survival) 2 data(stanford2) 3 attach(stanford2) 4 head(stanford2) Rysunek 14: Dane Stanford2 zaimportowane do pakietu R. 45 / 49
Pakiet R 1 Surv(time,status) 2 survt(surv(time,status)~1) Rysunek 15: Prezentacja funkcji Surv() i survt w pakiecie R. 46 / 49
Pakiet R 1 summary(survt(surv(time,status)~1)) Rysunek 16: Podstawowe statystyki dla funkcji survt w pakiecie R. 47 / 49
Pakiet R 1 plot(survt(surv(time,status)~1),col='red') 2 lines(survt(surv(time,status)~1,type="eming harrington"),col='blue') Rysunek 17: Krzywe prze»ycia Kaplana-Meiera (czerwony) i Flemingtona- Harringtona (niebieski). 48 / 49
Bibliograa Wykªad opracowany na podstawie ksi»ki: Mahesh K. B. Parmer and David Machin Survival Analysis - A Practical Approach 49 / 49