Uniwersytet Warszawski Wydziaª Matematyki, Informatyki i Mechaniki Magda Mªynarczyk Nr albumu: 339340 Modele ryzyk konkuruj cych wraz z zastosowaniami w analizie chorych z nowotworami ukªadu krwiotwórczego Praca magisterska na kierunku MATEMATYKA w zakresie MATEMATYKI STOSOWANEJ Praca wykonana pod kierunkiem dra hab. Przemysªawa Biecka Instytut Matematyki Stosowanej i Mechaniki Czerwiec 2017
O±wiadczenie kieruj cego prac Potwierdzam,»e niniejsza praca zostaªa przygotowana pod moim kierunkiem i kwalikuje si do przedstawienia jej w post powaniu o nadanie tytuªu zawodowego. Data Podpis kieruj cego prac O±wiadczenie autora (autorów) pracy wiadom odpowiedzialno±ci prawnej o±wiadczam,»e niniejsza praca dyplomowa zostaªa napisana przeze mnie samodzielnie i nie zawiera tre±ci uzyskanych w sposób niezgodny z obowi zuj cymi przepisami. O±wiadczam równie»,»e przedstawiona praca nie byªa wcze±niej przedmiotem procedur zwi zanych z uzyskaniem tytuªu zawodowego w wy»szej uczelni. O±wiadczam ponadto,»e niniejsza wersja pracy jest identyczna z zaª czon wersj elektroniczn. Data Podpis autora pracy
Streszczenie Celem poni»ej pracy jest zaprezentowanie narz dzi analizy danych z uwzgl dnieniem wyst powania ryzyk konkuruj cych. Przedstawione zostaªy metody i modele stosowane w analizie danych tego typu, jak równie» narz dzie, pakiet cr17 dla programu R, który opracowaªam w ramach pracy magisterskiej. Pakiet ten generuje raport zestawiaj cy wykresy i tabele diagnostyczne oraz wyniki testów sprawdzaj cych istotno± wyst powania ró»nic w modelach. Praca skªada si z trzech gªównych cz ±ci - podstaw teoretycznych, opisu struktury pakietu oraz funkcji w nim zaimplementowanych, a tak»e przykªadu jego zastosowania do danych medycznych o pacjentach z trzema podtypami nowotworów ukªadu krwiotwórczego. Sªowa kluczowe Analiza prze»ycia, modele ryzyk konkuruj cych, porównywanie modeli statystycznych, analiza danych medycznych, model Coxa, funkcja skumulowanych cz sto±ci, R 11.1 Matematyka Dziedzina pracy (kody wg programu Socrates-Erasmus) 62-07, 62P10, 62N03 Klasykacja tematyczna
Spis tre±ci Wprowadzenie....................................... 5 1. Analiza prze»ycia i modele ryzyk konkuruj cych - teoria.......... 7 1.1. Podstawy analizy prze»ycia............................ 7 1.2. Modele parametryczne............................... 9 1.3. Modele nieparametryczne............................. 10 1.4. Porównywanie modeli analizy prze»ycia..................... 12 1.5. Model Coxa..................................... 15 1.6. Modele ryzyk konkuruj cych............................ 16 1.7. Funkcje skumulowanych cz sto±ci......................... 16 1.8. Model Coxa dla ryzyk konkuruj cych....................... 20 2. Biblioteka 'cr17'.................................... 23 2.1. Wprowadzenie.................................... 23 2.2. Estymacja modeli analizy prze»ycia - funkcja tsurvival............ 24 2.3. Rysowanie krzywych prze»ycia - funkcja plotsurvival.............. 25 2.4. Testowanie modeli analizy prze»ycia - funkcja testsurvival........... 26 2.5. Estymacja modeli Coxa - funkcja tcox..................... 27 2.6. Testowanie modeli Coxa - funkcja testcox.................... 27 2.7. Estymacja modeli ryzyk konkuruj cych - funkcja tcuminc.......... 28 2.8. Rysowanie krzywych skumulowanych cz sto±ci - funkcja plotcuminc..... 29 2.9. Testowanie modeli ryzyk konkuruj cych - funkcja testcuminc......... 29 2.10. Estymacja modeli Coxa w przypadku wyst powania ryzyk konkuruj cych - funkcja treg.................................... 31 2.11. Testowanie modeli Coxa w przypadku wyst powania ryzyk konkuruj cych - funkcja testreg................................... 31 2.12. Zliczenia jednostek nara»onych na ryzyko - funkcja risktab.......... 32 2.13. Zliczenia wyst pie«zdarze«- funkcja eventtab................. 33 2.14. Sumaryczny raport - funkcja summarizecr................... 34 3. Przykªad zastosowania na danych o pacjentach z nowotworami ukªadu krwiotwórczego..................................... 37 3.1. Opis danych..................................... 37 3.2. Eksploracja danych................................. 37 3.3. Analiza prze»ycia a modele ryzyk konkuruj cych................ 39 3.4. Zastosowanie biblioteki cr17............................ 41 Bibliograa......................................... 47 3
Wprowadzenie Podczas ostatniego roku studiów magisterskich braªam udziaª w projekcie o nazwie InfAza, pod kierownictwem dra n. med. Krzysztofa M drego oraz dra hab. Przemysªawa Biecka, realizowanym przez Uniwersytet Warszawski wraz z Warszawskim Uniwersytetem Medycznym. Projekt ten zajmowaª si badaniem wyst pie«infekcji w±ród pacjentów z nowotworami ukªadu krwiotwórczego, poddanych terapii azacytadyn. Wa»nym elementem efektywnego leczenia tego typu chorób jest poprawne wyªonienie chorych, którym nale»y poda prolaktyk przeciwwirusow, przeciwgrzybicz lub przeciwbakteryjn, poniewa» znajduj si oni w grupie najwi kszego ryzyka zachorowalno±ci na dany rodzaj infekcji. Gªównym celem tego projektu byªo wi c znalezienie czynników wpªywaj cych na wyst pienie infekcji w ci gu trzech pierwszych miesi cy leczenia. Kolejnym etapem byªo badanie wyst pie«infekcji w czasie, co doprowadziªo nas do zagadnie«analizy prze»ycia. Po uwzgl dnieniu tak»e zgonu jako mo»liwego zdarzenia zacz li±my zajmowa si modelami ryzyk konkuruj cych. Szybko okazaªo si,»e w R nie istnieje kompleksowa biblioteka pozwalaj ca na efektywn analiz naszych danych. St d powstaª pomysª na stworzenie, w ramach mojej pracy magisterskiej, biblioteki o nazwie cr17, umo»liwiaj cej wygenerowanie sumarycznego raportu za pomoc tylko jednej funkcji. W raporcie tym znajduj si wykresy i tabelki diagnostyczne, oraz wyniki testów sprawdzaj cych ró»nice pomi dzy modelami w poszczególnych grupach. Stworzenie tej biblioteki umo»liwiªo nam sprawne porównanie wielu modeli, w rozró»nieniu na ró»ne podziaªy na grupy. Takie analizy s niezwykle wa»ne w medycynie, poniewa» pozwalaj na okre±lenie skuteczno±ci ró»nych metod leczenia i pozwalaj na skonstruowanie optymalnych schematów terapii. Co istotne, zastosowania zarówno analizy prze»ycia jak i ryzyk konkuruj cych s bardzo szerokie i nie ograniczaj si jedynie do celów medycznych. Przykªadem analizy, do której zastosowana mo»e by biblioteka cr17 jest badanie czasu dziaªania maszyny do danego rodzaju awarii. Grupami pomi dzy którymi bada b dziemy ró»nice, mog by wtedy warunki, w jakich urz dzenie byªo u»ytkowane (np. temperatura otoczenia). W ubezpieczeniach modelowa mo»emy czas do wyst pienia jednego ze zdarze«obj tych polis. Klientów mo»na podzieli na grupy ze wzgl du na wiek (co okazuje si by istotne w np. przypadku ubezpiecze«samochodowych). Przez ryzyko mo»emy rozumie te» zdarzenie pozytywne, na przykªad zakup towaru danej kategorii w sklepie internetowym. Naturalnym podziaªem klientów na grupy jest wtedy rozró»nienie ze wzgl du na pªe. Praca skªada si z trzech rozdziaªów. W pierwszym opisane jest podªo»e metodologiczne, na podstawie którego zaimplementowane s funkcje w bibliotece cr17. Drugi rozdziaª stanowi prezentacj pakietu. Znajduje si tam opis struktury pakietu, przegl d dost pnych funkcji oraz interpretacja ko«cowego raportu, jaki mo»na uzyska za pomoc gªównej funkcji summarizecr {cr17}. W trzecim rozdziale przedstawiam eksploracj danych z projektu Infaza oraz wyniki z zastosowania biblioteki do tych danych. 5
Rozdziaª 1 Analiza prze»ycia i modele ryzyk konkuruj cych - teoria 1.1. Podstawy analizy prze»ycia Analiza prze»ycia jest gaª zi statystyki zajmuj c si badaniem czasu do wyst pienia danego zdarzenia oraz czynników wpªywaj cych na ten czas. Poj cie zdarzenia obejmuje szerokie spektrum wydarze«i zjawisk, takich jak ±mier, choroba, niewypªacalno± kredytobiorcy czy awaria urz dzenia. Dzi ki temu, metody, jakie oferuje nam analiza prze»ycia mog by stosowane w bardzo wielu dziedzinach. Poj cie zdarzenia okre±la si czasem jako pora»ka, mimo, i» mo»e ono odnosi si tak»e do pozytywnych wydarze«. Na przykªad, badany mo»e by czas od pocz tku podawania lekarstwa do poprawy stanu zdrowia, gdzie rozumiemy przez to uzyskanie wyniku danego badania krwi w przyj tych granicach. W analizie prze»ycia rozwa»amy tylko jedno zdarzenie, które mo»e wyst pi u ka»dej jednostki. W przypadku wi cej ni» jednego mo»liwego zdarzenia rozwa»amy modele zdarze«rekurencyjnych b d¹ modele ryzyk konkuruj cych, o których mowa b dzie w nast pnych podrozdziaªach. Podstawowym celem analizy prze»ycia jest modelowanie i interpretacja rozkªadu czasu prze»ycia w danej populacji. Istotnym elementem jest tak»e porównywanie tych rozkªadów w ró»nych grupach (np. w przypadku badania efektu placebo). Fundamentaln cz ±ci analizy prze»ycia jest zdeniowanie zmiennej losowej T, reprezentuj cej czas od okre±lonego punktu w czasie do wyst pienia zdarzenia. Zmienna ta mo»e by wyra»ona w dowolnej jednostce czasu (sekundy, dni, lata...). Drug niezb dn denicj jest okre±lenie zmiennej losowej c, oznaczaj cej, czy dana obserwacja byªa cenzorowana - to znaczy, czy czas pocz tku i ko«ca obserwacji b d¹ czas wyst pienia zdarzenia jest znany. Formalnie: { 0 gdy i ta obserwacja jest cenzorowna, c i = (1.1) 1 w przeciwnym przypadku, gdzie: i {1, 2,..., N} numer obserwacji. Kluczowym zaªo»eniem na temat zmiennej c jest to,»e jest ona niezale»na od wyst pie«badanych zdarze«. Rodzajem cenzorowania, jakim b d zajmowa si w tej pracy, jest cenzorowanie prawostronne, kiedy wiemy,»e zdarzenie nie wyst piªo przed danym czasem T. Takie dane mo»na przedstawi gracznie albo w tabeli, jak zaprezentowano na rysunku 1.1 (ilustracja pochodzi z [13]). 7
Rysunek 1.1: Dane prawostronnie cenzorowane dotycz ce czasu prze»ycia w±ród pacjentów. Na osi poziomej wykresu po lewej stronie znajduje si czas obserwacji, wyra»ony w latach, który odpowiada warto±ciom kolumny Survtime w tabeli po prawej stronie. Symbol odpowiada warto±ci kolumny Status równej 0, a wi c oznacza,»e obserwacja byªa cenzorowana. Symbol odpowiada warto±ci kolumny Status równej 1, zatem oznacza wyst pienie zdarzenia (kolumna Status to warto± zmiennej losowej c). Pacjent 1 byª wi c obserwowany przez 7 miesi cy i w tym czasie nie wyst piªo zdarzenie. U pacjenta 2 zdarzenie nast piªo po 6 miesi cach od pocz tku obserwacji. Aby okre±li rozkªad prze»ycia potrzebujemy nast puj cych denicji funkcji prze»ycia oraz funkcji hazardu [13]: Denicja 1.1.1 Funkcja prze»ycia - funkcja S : [0, ) [0, 1] dana wzorem: S(t) = P(t < T ), 0 < t <, (1.2) gdzie: T - zmienna losowa, oznaczaj ca czas, w którym nast piªo zdarzenie. Funkcja prze»ycia okre±la prawdopodobie«stwo prze»ycia do chwili t, daj c nam najistotniejsz informacj, jak mo»emy dosta z naszych danych dla analizy prze»ycia. Jest ona niemalej c, prawostronnie ci gª funkcj czasu. Zachodzi: S(0) = 1. (1.3) Funkcj prze»ycia cz sto deniuje si tak»e w terminach funkcji hazardu: Denicja 1.1.2 Funkcja hazardu - funkcja h : [0, ) R dana wzorem: P(t < T < t + ɛ T > t) h(t) = lim ɛ 0. (1.4) ɛ Funkcja hazardu jest prawdopodobie«stwem tego,»e zdarzenie nast pi w nast pnym dowolnie krótkim przedziale czasu, je»eli wiemy,»e nie wyst piªo przed czasem t, podzielonym przez dªugo± tego przedziaªu czasowego. Jest to funkcja nieujemna, nieograniczona z góry. Nazywana jest tak»e funkcj ryzyka. 8
Zdenowane powy»ej dwie funkcje pozwalaj na okre±lenie rozkªadu prze»ycia. Do dalszych analiz przydatnych jest jednak jeszcze kilka denicji [13]: Denicja 1.1.3 Dystrybuanta funkcji ryzyka - funkcja F : [0, ) [0, 1] dana wzorem: F (t) = P(T t). (1.5) Denicja 1.1.4 G sto± prawdopodobie«stwa - funkcja f : [0, ) R dana wzorem: f(t) = d dt S(t) = d F (t). (1.6) dt Na podstawie powy»szych denicji otrzymujemy zale»no± : h(t) = f(t) S(t). (1.7) To znaczy,»e hazard w momencie t jest prawdopodobie«stwem,»e zdarzenie pojawi si w okolicach momentu t podzielonym przez prawdopodobie«stwo,»e zdarzenie nie pojawiªo si do czasu t. Denicja 1.1.5 Dystrybuanta funkcji hazardu - funkcja H : (0, ) R dana wzorem: H(t) = t 0 h(u)du. (1.8) Dystrybuanta funkcji hazardu w punkcie t jest zdeniowana jako pole pod wykresem funkcji hazardu do momentu t. Funkcj prze»ycia mo»emy teraz zapisa w postaci: ( S(t) = exp 1.2. Modele parametryczne t 0 ) h(u)du = exp( H(t)). (1.9) W analizie prze»ycia zakªada si czasami dany rozkªad prze»ycia, otrzymuj c model parametryczny. Najprostszym przykªadem jest model wykªadniczy, w którym zakªada si staªy hazard [13]: h(t) = λ. (1.10) Wówczas otrzymujemy: H(t) = t 0 h(u)du = t 0 λdu = λt, (1.11) S(t) = exp( H(t)) = exp( λt), (1.12) f(t) = h(t)s(t) = λ exp( λt). (1.13) Zaªo»enie staªego hazardu cz sto nie jest jednak speªnione i szuka nale»y innych rozkªadów estymuj cych rozkªad prze»ycia. 9
Innym cz sto u»ywanym modelem jest model o rozkªadzie Weibulla, dla którego funkcja hazardu przyjmuje posta [13]: Dla tego modelu otrzymujemy: H(t) = t 0 h(t) = αλ(λt) α 1, α, λ > 0. (1.14) t h(u)du = αλ α u α 1 du = αλ α 1 α uα t 0 = (λt) α, (1.15) 0 S(t) = exp( H(t)) = exp ( (λt) α ). (1.16) Rozkªad wykªadniczy jest specjalnym przypadkiem rozkªadu Weibulla dla parametru α = 1. Dla α > 1 funkcja hazardu jest rosn ca, dla α < 1 jest malej ca. Funkcj prze»ycia estymuje si tak»e za pomoc rozkªadu lognormalnego. Mamy wówczas [13]: ( ) log(t) µ S(t) = 1 Φ, (1.17) σ gdzie: Φ - dystrybuanta rozkªadu normalnego N (0, 1). Funkcja hazardu w tym przypadku monotonicznie ro±nie od 0 do swojego maksimum, a nast pnie monotoniczne maleje do 0 przy t. Dlatego model ten jest przydatny, kiedy prawdopodobie«stwo wyst pienia zdarzenia ro±nie na pocz tku obserwacji, a pó¹niej maleje. Kolejnym rozkªadem u»ywanym do modelowania prze»ycia jest rozkªad gamma, o g sto±ci danej [13]: f(t) = λβ t β 1 exp( λt), λ, β > 0. (1.18) Γ(β) Dla tego modelu funkcja prze»ycia oraz funkcja hazardu nie daj zapisa si w prostej formie, mog by jednak obliczone za pomoc wzorów z poprzedniego podrozdziaªu. Ponownie, rozkªad gamma, dla parametru β = 1 sprowadza si do rozkªadu wykªadniczego. Dla β < 1 funkcja hazardu jest rosn ca, dla β > 1 jest malej ca. 1.3. Modele nieparametryczne W wielu przypadkach nie jeste±my w stanie zaªo»y odpowiedniej rodziny parametrycznej do opisu naszego modelu. Zajmujemy si wtedy modelami nieparametrycznymi. Podstawowym estymatorem funkcji prze»ycia u»ywanym w analizie prze»ycia jest estymator Kaplana- Meier'a, dany wzorem: Ŝ km (t) = (1 ˆq i ) = ( 1 d ) i, (1.19) n i t i t t i t gdzie: n i - liczba jednostek nara»onych na wyst pienie zdarzenia w czasie t i, d i - liczba jednostek u których nast piªo zdarzenie w czasie t i, N - liczba obserwacji. Estymator Kaplana-Meier'a jest nierosn c funkcj schodkow, prawostronnie ci gª. 10
Innym sposobem na estymacj krzywych prze»ycia jest estymator Fleminga-Harringtona [7], który opiera si na spostrze»eniu,»e dystrybunata funkcji hazardu 1.1.5 mo»e by przybli»ona w nast puj cy sposób: H(t) = t 0 h(u)du i:t i t h i i, (1.20) gdzie: t 1, t 2,..., t M - uporz dkowane rosn co punkty w czasie, w których wyst piªy zdarzenia (bez powtórze«), h i - warto± funkcji hazardu w czasie t i, i = t i t i 1 - przedziaª czasowy, mi dzy dwoma kolejnymi zdarzeniami. Jak zauwa»ono w [7]: h i i P(t i 1 < T < t i ) d i r i, i {1, 2, 3,..., N}, (1.21) gdzie: d i - liczba zdarze«, które wyst piªy w czasie t i, r i - liczba jednostek nara»onych na ryzyko w czasie t i (licz c wraz z jednostkiami, u których nast piªo zdarzenie w czasie t i ). Oznacza to,»e warto± hi i szacuje prawdopodobie«stwo wyst pienia zdarzenia w przedziale i, które mo»e by estymowane poprzez liczb zdarze«w czasie t i podzielon przez liczb jednostek nara»onych na ryzyko w tym czasie. Estymator dystrybuanty funkcji ryzyka Fleminga-Harringtona wynosi zatem [7]: Ĥ fh (t) = i:t i t St d, zgodnie z 1.9, otrzymujemy estymator krzywej prze»ycia: d i r i. (1.22) Ŝ fh (t) = exp( Ĥfh(t)). (1.23) Najcz ±ciej stosowanym estymatorem wariancji dla krzywych prze»ycia jest estymator zaproponowany przez Majora Greenwooda [15] w 1926 roku, dany wzorem: var(ŝ(t)) [Ŝ(t)]2 t i t d i n i (n i d i ). (1.24) Przedziaª ufno±ci na poziomie istotno±ci α wynosi wówczas: [ var(ŝ(t)) ] ĈI(t) = z 1 α var(ŝ(t)), z 1 α, (1.25) 2 2 gdzie: z 1 α - kwantyl rz du 1 α 2 2 z rozkªadu normalnego. Takie podej±cie do estymowania przedziaªów ufno±ci, mo»e da jednak warto±ci poza przedziaªem [0, 1]. Aby tego unikn, stosuje si transformacj log funkcji prze»ycia. Jak zasugerowano w [14], takie podej±cie stabilizuje wariancj i dopuszcza niesymetryczne przedziaªy ufno±ci. Przedziaª ufno±ci jest wówczas postaci: ) var (log Ŝ(t) = 11 i:t i <t d i n i (n i d i ) (1.26)
Jeszcze inn mo»liwo±ci jest zastosowanie transformacji log-log funkcji prze»ycia. Dostajemy wówczas [13]: ( [ logŝ(t) ]) var log 1 ] 2 [log Ŝ(t) t i t d i n i (n i d i ). (1.27) W R estymacje krzywych prze»ycia, mo»na otrzyma za pomoc funkcji survfit {survival} [16]. Rodzaj krzywej prze»ycia mo»na ustali za pomoc parametru type. Mo»liwe warto±ci, to "kaplan-meier", "fleming-harrington" oraz "fh2". Wariant "fh2" jest modykacj przedstawionej powy»ej metody Flaminga-Harringtona, w której [16]: Ĥ fh2 (t) = d i 1 d i. (1.28) r i j + 1 i:t i t Funkcja survfit dopuszcza tak»e na specykacj, jaki rodzaj przedziaªu ufno±ci ma by obliczony. Mo»liwy wybór, to "none" (przedziaªy ufno±ci nie zostan obliczone), "plain" (1.24), "log" (1.26) oraz "log-log"(1.27). 1.4. Porównywanie modeli analizy prze»ycia Zagadnieniem, jakim zajmuj si w pracy, jest porównywanie modeli ryzyk konkuruj cych po±ród danych grup obserwacji. Aby wda si w tego szczegóªy nale»y najpierw zrozumie ide porównywania modeli w przypadku analizy prze»ycia, któr b dziemy pó¹niej rozszerza na przypadek wielu mo»liwych zdarze«. W przypadku modeli parametrycznych stosowa mo»na testy statystyczne, takie jak test t-studenta, je»eli mo»emy zaªo»y normalno± rozkªadu, b d¹ test Manna-Whitney'a, je»eli zaªo»enie o normalno±ci rozkªadu nie jest speªnione. Je»eli chcemy dopasowa odpowiedni parametr danego rozkªadu do naszych obserwacji, mo»emy u»y metod najwi kszej wiarygodno±ci. Dla modeli nieparametrycznych potrzebujemy skonstruowa test porównuj cy funkcje prze»ycia. Jako,»e porównujemy ze sob dwie krzywe, test statystyczny ze standardow hipotez zerow i alternatywn : j=1 H 0 : S 1 (t) = S 0 (t), (1.29) H 1 : S 1 (t) S 0 (t), (1.30) nie jest adekwatny. Dwie krzywe prze»ycia, mog si krzy»owa, albo by podobne na jednym odcinku oraz ró»ne na innym odcinku czasu. Przedstawi kosntrukcj testu porównuj cego krzywe prze»ycia zaproponowanego w [13]. Wprowadzone zostaªo tutaj rozwi zanie zwane alternatyw Lehmana, dla którego hipoteza alternatywna przyjmuje posta : Równowa»nie, dostajemy test hipotezy zerowej: H 1 : S 1 (t) = [S 0 (t)] ψ. (1.31) H 0 : ψ = 1, (1.32) przeciwko hipotezie alternatywnej: H 1 : ψ < 1. (1.33) 12
Przy zaªo»eniu hipotezy alternatywnej, czasy prze»ycia w grupie 1 b d dªu»sze ni» te w grupie 0. W analizie prze»ycia, grup 0 cz sto traktuje si jako grup kontroln, a grup 1 jako grup testow. Do skonstruowania testu, dla ka»dego czasu t i potrzebujemy stworzy tabelk wielko±ci 2 2 zawieraj c liczb jednostek u których nast piªo zdarzenie i u których nie nast piªo zdarzenie w czasie t i, dla obydwu grup, tak jak zaprezentowano w tabeli 1.1. Tablica 1.1: Tabela prze»ycia w czasie t i. Grupa kontrolna Grupa testowa Razem Liczba zdarze«d 0i d 1i d i Liczba jednostek bez zdarzenia n 0i d 0i n 1i d 1i n i d i Razem n 0i n 1i n i Zakªadaj c,»e liczba zdarze«w grupie kontrolnej i testowej jest niezale»na, otrzymujemy hipergeometryczny rozkªad zmiennej losowej d 0i pod warunkiem n 0i, n i, d i : gdzie: P(d 0i n 0i, n 1i, d i ) = ( ) n = d ( n0i Mo»emy teraz obliczy ±redni i wariancj zmiennej d 0i : )( n1i d 0i ( ni ), (1.34) d i d 1i ) n! d!(n d)!. (1.35) e 0i = Ed 0i = d 0id i n i, (1.36) v 0i = var(d 0i ) = n 0in 1i d i (n i d i ) n 2 i (n. (1.37) i 1) W nast pnym kroku sumujemy wszystkie ró»nice warto±ci obserwowanych i oczekiwanych zmiennej d 0, otrzymuj c liniow statystyk : U 0 = N (d 0i e 0i ), (1.38) i=1 V 0 = var(u 0 ) = Teraz mo»emy skonstruowa statystyk testow [13]: Powy»szy test nazywany jest testem log-rank. N v 0i. (1.39) i=1 U 2 0 V 0 χ 2 1. (1.40) 13
Powy»szy test mo»na uogólni na tak zwany wa»ony test log-rang, taki,»e: U 0 (w) = N w i (d 0i e 0i ), (1.41) i=1 V 0 (w) = var(u 0 (w)) = N wi 2 v 0i. (1.42) Istnieje wiele testów opieraj cych si na powy»szej formule, zakªadaj cych ró»ne postaci wag. Jednym z nich jest test Wilcoxona, dla którego wag w czasie t i jest liczba jednostek pod ryzykiem w tym czasie [13] w i = n i. (1.43) Test Tarone-Ware'a przypisuje wi ksz wag do zdarze«maj cych miejsce wcze±niej, poprzez wykorzystanie pierwiastka z liczby jednostek pod ryzykiem jako wagi [13]: i=1 w i = n i. (1.44) Test Flemminga-Harringtona [5] daje najwi ksz elastyczno± w wyborze statystki testowej, poprzez wybranie parametru ρ: w i = N (Ŝ(t i)) ρ. (1.45) Test Flaminga-Harringtona z parametrem ρ = 0 sprowadza si do testu log-rank 1.40. W ±rodowisku R w pakiecie survival [16] porównanie krzywych prze»ycia za pomoc testu Flemminga-Harringtona mo»e by wykonane za pomoc funkcji survdiff. Innym mo»liwym sposobem na porównanie modeli analizy prze»ycia jest wykonanie testu warstwowego (ang. stratied test). Jest to kolejna modykacja testu log-rank, u»ywana w przypadku kiedy mamy kategoryczn zmienn obja±nian G o niewielkiej liczbie poziomów G {g 1, g 2,..., g ng }. Zmienna G mo»e oznacza na przykªad pªe, grup wiekow czy podawan dawk leku. Testujemy wówczas hipotez zerow : H 0 : h 0j (t) = h 1j (t), dla j {1, 2,..., n G }. (1.46) Dla ka»dej warto±ci zmiennej G = g obliczamy statystyki U 0g oraz V 0g a nast pnie wyznaczamy statystyk testow [12]: X 2 = ( n g n=1 U 0g n ) 2 ng n=1 V 0g 2 χ 2 n g 1. (1.47) n Statystyka testowa w powy»szym te±cie ró»ni si od tej z testu log-rank tym,»e ró»nica zdarze«obserwowanych i oczekiwanych jest sumowana po wszystkich czasach zdarze«w ka»dej warstwie, a nast pnie ró»nice te s sumowane po wszystkich warstwach. W pakiecie survival zaimplemetnowana zostaªa funkcja strata identykuj ca zmienne warstwowe, która mo»e by wykorzystywana przy tworzeniu modeli proporcjonalnego hazardu. 14
1.5. Model Coxa Model Coxa, nazywany tak»e modelem proporcjonalnego hazardu, zostaª po raz pierwszy zaproponowany przez Sir Davida Coxa i opiera si na zaªo»eniu proporcjonalnego hazardu: h 1 (t) = Ψh 0 (t), (1.48) które stwierdza,»e zmienne obja±niane w modelu nie zale» od czasu i wpªywaj na funkcj hazardu w sposób multiplikatywny. Nazwa powy»szego zaªo»enia odnosi si do faktu,»e dla dwóch obserwacji iloraz ich funkcji hazardu jest staªy. Model Coxa zakªada nast puj c posta funkcji hazardu [12]: h 1 (t, z 1, z 2,..., z m ) = h 0 (t)e β 1z 1 +β 2 z 2 +...+β mz m, (1.49) gdzie: h 0 (t) - hazard bazowy, z 1, z 2,..., z m - zmienne obja±niane, niezale»ne od czasu t, β 1, β 2,..., β m - parametry. Model Coxa nazywany jest czasem modelem regresji Coxa, poniewa» mo»na go w ªatwy sposób sprowadzi do postaci liniowej: log h 1(t, z 1, z 2,..., z m ) h 0 (t) = β 1 z 1 + β 2 z 2 +... + β m z m. (1.50) W przypadku, gdy w modelu nie ma zmiennych obja±nianych, b d¹ wszystkie zmienne wynosz 0, funkcja hazardu przyjmuje posta hazardu bazowego. Wa»n cech modelu Coxa jest to,»e posta funkcji h 0 (t) jest nieokre±lona (model jest semiparametryczny), co czyni go adekwatnym do modelowania w ró»nych sytuacjach. Je»eli nie jeste±my pewni, co do poprawnego rozkªadu naszych danych, u»ycie modelu Coxa powinno da nam porównywalne wyniki do tych, które uzyskaliby±my u»ywaj c poprawnego rozkªadu. Dodatkowo, mimo, i» nie znamy postaci hazardu bazowego, jeste±my w stanie estymowa parametry β 1,..., β m. Dzi ki tym wªasno±ciom jest on najcz ±ciej u»ywanym modelem w analizie prze»ycia. Estymacj wspóªczynników β i mo»na wykona przy pomocy metody najwi kszej wiarygodno±ci. Jako,»e nie potrzebujemy wiedzy na temat postaci hazardu bazowego, korzystamy tutaj z cz ±ciowej wiarygodno±ci [13]: α(β) = i:c i =1 e Z iβ i j:t j >t i e Z 1β 1 +...+Z mβ m. (1.51) gdzie β = (β 1, β 2,..., β m ). Przedstawi 3 testy na istotno± wspóªczynników w modelu Coxa. Pierwszym z nich jest test ilorazu wiarygodno±ci, w którym statystyke testowa wynosi [13]: LRT = 2 [log α( ˆβ) ] log α 0 χ 2 1, (1.52) gdzie: α 0 - wiarygodno±ci modelu zerowego (ze wszystkimi parametrami równymi 0), ˆβ jest estymatorem β. 15
Test Walda przyjmuje posta [13]: W = ˆβ N (0, 1), (1.53) se( ˆβ) gdzie se( ˆβ) jest bª dem standardowym estymatora ˆβ. Test mno»ników Lagrange'a (ang. the score test) przyjmuje posta [13]: d dt log α(β 0) var(log α(β0 )), (1.54) gdzie β 0 jest warto±ci β z hipotezy zerowej. Mo»e on zosta wykonany bez znalezienia estymatora najwi kszej wiarygodno±ci ˆβ. W R estymacj modeli Coxa oraz wyniki powy»szych testów mo»na otrzyma za pomoc funkcji coxph {survival} [16]. 1.6. Modele ryzyk konkuruj cych Modelami, którymi zajmuj si w tej pracy s modele ryzyk konkuruj cych (ang. competing risks models). Jest to jedno z dwóch, obok modeli wielostanowych (ang. multistate models), uogólnie«analizy prze»ycia, dopuszczaj cych wyst powanie wi cej ni» jednego ryzyka. W przypadku modeli ryzyk konkuruj cych mamy do czynienia z wi cej ni» jednym mo»liwym zdarzeniem i obserwujemy czas do wyst pienia pierwszego z nich, w odró»nieniu od modeli wielostanowych, w których, po wyst pieniu jednego zdarzenia mo»e wyst pi nast pne, zgodnie z danym prawdopodobie«stwem przej±cia. Przykªadem ryzyk konkuruj cych mo»e by np. zgon pacjenta z powodu raka pªuc i zgon z innego powodu, czy wybór przez pracownika komunikacji miejskiej lub roweru jako ±rodka transportu do pracy. Formalnie, okre±lamy nasz zbiór ryzyk jako {1, 2, 3,..., J}. Ka»de z nich jest okre±lone jednoznacznie (mog to by np. ró»ne przyczyny ±mierci). Jedn z mo»liwo±ci modelowania ryzyk konkuruj cych jest u»ywanie standardowych metod analizy prze»ycia dla wszystkich ryzyk osobno, traktuj c inne zdarzenia jako cenzorowane. To podej±cie nie jest jednak poprawne w wi kszo±ci zastosowa«, gdy» wymaga zaªo»enia o niezale»no±ci ryzyk, a nawet w tym przypadku interpretacja wyników bywa w tpliwa. Problemy powstaj ce przy zastosowaniu takiego podej±cia zaprezentuj na przykªadach w nast pnych rozdziaªach. 1.7. Funkcje skumulowanych cz sto±ci Pierwszym prezentowanym tutaj podej±ciem stosowanym do modelowania ryzyk konkuruj cych jest zastosowanie tak zwanych funkcji skumulowanych cz sto±ci (ang. cumulative incidende function, tak»e subdistribution function) dla ka»dego z ryzyk. Denicja 1.7.1 Funkcja skumulowanych cz sto±ci - funkcja F j : [0, ) [0, 1], dana wzorem: F j (t) = P(T t, δ = j) = gdzie δ oznacza dany typ zdarzenia. t 0 h j (u)s(u)du, j {1, 2, 3,..., J}, (1.55) 16
Funkcja ta posiada pewne analogie do dystrybuanty funkcji ryzyka, jednak jej granica przy t jest równa prawdopodobie«stwu wyst pienia danego zdarzenia, a nie zbiega do 1. Dokªadniej: lim t F j (t) = P(δ = j), j {1, 2, 3,..., J}. (1.56) Analogicznie deniujemy funkcj hazardu dla danego ryzyka j: P(t < T < t + ɛ, δ = j T > t) h j (t) = lim ɛ 0, j {1, 2, 3,..., J}. (1.57) ɛ Dodaj c do siebie funkcje hazardu dla poszczególnych ryzyk, dostajemy ogóln funkcj hazardu: h(t) = J h j (t). (1.58) j=1 Wzór ten ma wa»n interpretacj, oznaczaj c, i» ryzyko wyst pienia jednego ze zdarze«w danym punkcie czasowym jest sum ryzyk wyst pienia poszczególnych zdarze«w tym czasie. Estymacj funkcji hazardu mo»na przeprowadzi w sposób analogiczny do przypadku analizy prze»ycia. Dla {t 1, t 2,..., t N } - uporz dkowanych czasów wyst pienia zdarze«, funkcja hazardu dla danego ryzyka wynosi: ĥ j (t i ) = d ij n i, j {1, 2, 3,..., J}, (1.59) gdzie: d ij - liczba zdarze«typu j które wyst piªy w czasie t i, n i to liczba jednostek nara»onych na ryzyko w czasie t i. Otrzymujemy wówczas: J j=1 ĥ(t i ) = d ij J = ĥ j (t i ). (1.60) n i j=1 Estymator funkcji skumulowanych cz sto±ci wynosi wtedy: ˆF j (t) = ti t Ŝ(t i 1 )ĥj(t i ). (1.61) Test na porównywanie krzywych skumulowanych cz sto±ci pomi dzy grupami, tak zwany test dla K prób (ang. K-sample test), zostaª po raz pierwszy zaproponowany przez Roberta J. Greya w 1988 roku [9] i stanowi on analogi do testu logrank 1.40. Przedstawi konstrukcj tego testu na podstawie [9]. Zakªadamy, ka»da jednostka nale»y do jednej z grup {1, 2, 3,..., K} i dane s prawostronnie cenzorowane. Przyjmijmy nast puj c notacj : T 0 ik - czas zdarzenia dla i tej jednostki z grupy k, i {1, 2,..., n k}, n = K k=1 n k - liczba wszystkich obserwacji, δ 0 ik {1, 2, 3,...J} - typ zdarzenia dla i tej jednostki z grupy k, i {1, 2,..., n k}, F jk (t) = P(Tik 0 t, δ0 ik = j) - funkcja skumulowanych cz sto±ci dla ryzyka j w grupie k, f jk (t) = d dt F jk(t) - funkcja g sto±ci dla skumulowanej cz sto±ci. 17
Zakªadamy,»e pary (Tik 0, λ0 ik ) dla danego ryzyka j s niezale»ne, o jednakowym rozkªadzie. Nie zakªadamy jednak niezale»no±ci ryzyk. Dla uªatwienia notacji przyjmujemy,»e interesuj cym nas typem zdarzenia jest j = 1. Hipotez zerow naszego testu jest wówczas: H 0 : F 1k = F1 0, k {1, 2, 3,...K}, (1.62) gdzie: F1 0 jest niesprecyzowan funkcj skumulowanych cz sto±ci. W terminach zdeniowanych powy»ej, funkcja prze»ycia w grupie k przyjmuje posta : J S k (t) = P(Tik 0 > t) = 1 F jk (t). (1.63) Funkcja hazardu dla zdarzenia typu j w grupie k wynosi wówczas: j=1 λ jk (t) = f jk(t) S k (t). (1.64) Dla uªatwienia notacji przedstawmy konstrukcj testu dla J = 2 ryzyk. Nie narzucamy tym samym»adnych ogranicze«, gdy» w przypadku wi cej ni» dwóch ryzyk, mo»emy testowa ró»nice mi dzy jednym ryzykiem, a drugim b d cym wszystkimi innymi ryzykami. Gªówn ide tego testu jest porównanie wa»onych hazardów subdystrybucyjnych: γ jk (t) = f jk(t) 1 F jk (t) = f jk(t) G jk (t), (1.65) gdzie: G jk (t) = 1 F jk (t). Analogicznie jak w przypadku podstawowych metod analizy prze»ycia, mo»emy zdeniowa dystrybuant hazardu subdystrybucyjnego: Γ jk (t) = t 0 γ jk (u)du. (1.66) Przez U ik oznaczmy czas cenzorowania dla i tej jednostki w grupie k. Tak jak zauwa»yli±my w rozdziale 1.1, zakªadamy,»e U ik s niezale»ne od (Tik 0, δ0 ik ). Warto±ci obserwowane, to: T ik = min(t 0 ik, U ik), (1.67) δ ik = δ 0 ik I(T ik U ik ). (1.68) Konstrukcja testu opiera si na teorii procesów licz cych (ang. counting processes) zaprezentowanej w [2]. Zdeniujmy zliczenia zdarze«j tego rodzaju w k tej grupie, które wyst piªy przed czasem t jako: n k N jk (t) = I(T ik t, δ ik = j) (1.69) oraz zliczenia jednostek nara»onych na ryzyko w k tej grupie, po czasie t: i=1 n k Y k (t) = I(T ik t). (1.70) i=1 18
Wówczas mo»emy skonstruowa nast puj cy estymator funkcji skumulowanych cz sto±ci: ˆF jk (t) = t 0 S km ˆ (u )Y 1 k (u)dn jk (u), (1.71) gdzie: S km ˆ (t) jest estymatorem Kaplana-Meiera zdeniowanym tak jak w 1.19, Ŝ k (t ) = lim s t Ŝk(s) oraz przyjmujemy Ŝk(t ) = 0 dla Y k (t) = 0 (z przyj t konwencj 0 0 = 0). Jak pokazano w [1], przy zaªo»eniu niezale»no±ci ryzyk, estymator ten jest silnie zgodny i sªabo zbie»ny, co wi cej jest on estymatorem najwi kszej wiarygodno±ci dla modeli nieparametrycznych [10]. Zauwa»my,»e na podstawie danych nie jeste±my w stanie obliczy rozkªadu F1 0 z hipotezy zerowej, gdy» nie zakªada ona,»e S k ani λ 1k maj by równe w ró»nych grupach. St d deniujemy zbiór ryzyka, jako: R k (t) = I(τ k t)y k (t)ĝ1k(t ), (1.72) Ŝ k (t ) gdzie: τ k, k {1, 2, 3,..., K} to ustalone czasy, które speªniaj, przy zaªo»eniu hipotezy zerowej: Π 0 k (t) = α kp(t ik t) > 0, dla 0 < α k < n k n. (1.73) Przyjmuj c,»e R k (t) = 0 dla τ k < t, otrzymujemy: ˆΓ 1k (t) = t 0 [Ĝ1k(u )] 1 d ˆF 1k (u) = t 0 [R k (u)] 1 dn 1k (u), dla t τ k, (1.74) przy czym ostatnia równo± wynika z 1.71. Za estymator Γ 0 1 przyjmujemy wówczas: ˆΓ 0 1(t) = t 0 [R (u)] 1 dn 1 (u), (1.75) gdzie indeks oznacza sumowanie po wszystkich mo»liwych warto±ciach k. Estymator ten jest zgodny przy zaªo»eniu hipotezy zerowej, poniewa» wszystkie estymatory ˆF 1k zgodnie estymuj F 0 1 oraz: ˆΓ 0 1(t) = K k=1 t Ostatecznie, jako statystyk testow przyjmujemy: z k = 0 τk 0 [ Rk (u) ]Ĝ 1 R (u) 1k (u )d ˆF 1k (u). (1.76) [ K k (t) dˆγ 1k d ˆΓ ] 0 1, (1.77) gdzie K k (t) jest wybran funkcj wag, zazwyczaj postaci K k (t) = L(t)R k (t), dla pewnej funkcji L(T ). Jak zostaªo udowodnione w [9], zakªadaj c,»e K k (t) jest procesem na [0, τ k ], zbiegaj cym jednostajnie, wedªug prawdopodobie«stwa do Kk 0 (t), mamy sªab zbie»no± statystyki testowej: n 1 2 Z Nk (µ, Σ). (1.78) gdzie Z = (z 1, z 2,..., z K ), dla pewnych parametrów µ i Σ. 19
W przypadku tylko K = 2 grup, przeprowadzenie testu sprowadza si do obliczenia: τ 0 ( K(t) [1 F ˆ 11 (t )] 1 df ˆ 11 (t) [1 F 12 ˆ(t )] 1 df ˆ ) 12 (t), (1.79) gdzie ponownie K(t) jest wybran funkcj wag. W ±rodowisku R, funkcje skumulowanych cz sto±ci oraz test dla K prób mo»na obliczy za pomoc funkcji cuminc z pakietu cmprsk [8]. 1.8. Model Coxa dla ryzyk konkuruj cych Innym podej±ciem pozwalaj cym na modelowanie ryzyk konkuruj cych jest zastosowanie uogólnionego modelu Coxa, zaprezentowanego po raz pierwszy przez J. Fine'a oraz R. Grey'a w 1999 roku [6]. Mo»emy tutaj przyj uproszczon notacj : T - czas zdarzenia, C - czas cenzorowania, δ {1, 2, 3,..., J} - typ zdarzenia, Z - wektor wspóªczynników dªugo±ci m, z i, i {1, 2, 3,..., m} ograniczone, niezale»ne od czasu. Dla danych prawostronnie cenzorowanych obserwujemy: X = min(t, C), = I(T C) oraz Z. Zakªadamy,»e {X i, i, i δ i, Z i } s niezale»ne, o jednakowym rozkªadzie dla i {1, 2, 3,..., N}, gdzie N jest liczb obserwacji. Ponownie zakªadamy,»e interesuje nas model dla zdarzenia typu 1. Funkcja skumulowanych cz sto±ci przyjmuje wówczas posta : F 1 (t; Z) = P(T t, δ = 1 Z). (1.80) U»ywa b dziemy klasy semiparametrycznych transformacji modelu, to znaczy, rozwa»amy pewn funkcj rosn c g, tak,»e: gdzie: h 0 (t) - niesprecyzowana, monotonicznie rosn c funkcj, β 0 - wektor parametrów dªugo±ci p. Najcz stszym wyborem funkcji g jest: g(f 1 (t; z)) = h 0 (t) + Z T β 0, (1.81) g(u) = log( log(1 u)). (1.82) Podobnie jak w przypadku testu dla K prób deniujemy hazard subdystrybucyjny: P(t T t + ɛ, δ = 1 T t (T t δ 1), Z) λ 1 (t; Z) = lim ɛ 0 ɛ df 1 (t;z) dt = 1 F 1 (t; Z) = d log(1 F 1(t; Z)). dt (1.83) 20
Przy zaªo»eniu proporcjonalenego hazardu mamy: λ 1 (t; Z) = λ 10 (t; Z) exp(z T β 0 ), (1.84) gdzie λ 10 (t) jest niesprecyzowan, nieujemn funkcj czasu. U»ycie transformacji g(u) = log( log(u)) daje nam hazard bazowy postaci: ( t ) h 0 (t) = log λ 10 (s)ds, (1.85) 0 dzi ki czemu zarówno hazard bazowy jak i wspóªczynniki regresji maj prost interpretacj niezale»n od struktury hazardu subdystrybucyjnego. Testowanie ró»nic pomi dzy grupami w modelach Coxa w przypadku wyst powania ryzyk konturuj cych mo»na wykona za pomoc modykowanego testu ilorazy wiarygodno±ci. Aby obliczy cz ±ciow wiarygodno± dla naszego modelu deniujemy zbiór ryzyka dla i tej jednostki jako: R i = {k : (min(c k, T k ) T i ) (T k T i δ k 1 C k T i )}. (1.86) Cz ±ciowa wiarygodno± wynosi wówczas [6]: [ ] α cr (β) = Π n exp(zi T(T i)β) i=1 k R i exp(zj T(T. (1.87) i)β) Statystyka testowa, wynosi wówczas: LRT cr = 2 [ log α cr ( ˆβ) ] log αcr 0 χ 2 1, (1.88) gdzie: α 0 cr to cz ±ciowa wiarygodno± dla modelu zerowego. Estymacj modelu Coxa dla ryzyk konkuruj cych w R mo»na uzyska za pomoc funkcji crr z pakietu cmprsk [8]. Funkcja ta oblicza tak»e cz ±ciow wiarygodno± dla danych prawostronnie cenzorowanych dla wyestymowanego modelu oraz dla modelu zerowego (z wszystkimi wspóªczynnikami β 0 równymi 0), co umo»liwia obliczenie modykowanego testu ilorazu wiarygodno±ci. 21
Rozdziaª 2 Biblioteka 'cr17' 2.1. Wprowadzenie Biblioteka cr17 stanowi narz dzie do analizy i wizualizacji modeli ryzyk konkuruj cych. Gªównym punktem zainteresowania jest badanie ró»nic mi dzy modelami dla poszczególnych zdarze«po±ród okre±lonych grup w populacji. Dost pne funkcje opieraj si na tych zaimplementowanych w pakietach survival [16] oraz cmprsk [8], posiadaj one jednak liczne udogodnienia i s przystosowane na przypadek ryzyk konkuruj cych. Wizualizacje s wykonywane przy u»yciu pakietu ggplot2. Podczas pracy nad bibliotek d»yªam do stworzenia narz dzia przyst pnego dla ka»dego u»ytkownika. Klarowno± pakietu wynika z jego nast puj cych cech: brak konieczno±ci wywoªywania tej samej funkcji wiele razy, dla ka»dego ze zdarze«osobno, jak w przypadku innych pakietów zajmuj cych si modelami ryzyk konkuruj cych, brak restrykcji co do typu wektorów zawieraj cych dane o rodzaju zdarzenia i grupie, do której nale»y obserwacja (w niektórych pakietach spotykamy np. ograniczenie na numeryczn zmienn okre±laj c rodzaj ryzyka, co utrudnia prace poprzez konieczno± zakodowania zmiennej typu character lub factor na zmienn numeryczn. Do stworzenia legend przy wykresach czy starannego raportu, nale»y ponownie powróci do pierwotnych nazw), funkcja summarizecr pozwalaj ca na uzyskanie kompleksowego raportu poprzez wywoªanie tylko jednej linijki kodu. Do pakietu doª czone zostaªy dane LUAD pochodz ce z badania The Cancer Genome Atlas [11], dotycz ce zgonów oraz nawrotów chorób w±ród pacjentów z nowotworami pªuc. Na podstawie tych danych przedstawi funkcjonalno± pakietu. Pakiet skªada si z 12 funkcji, które estymuj poszczególne modele, wykonuj testy diagnostyczne oraz tworz tabele i wykresy dla dwóch podej± - analizy prze»ycia, w której zdarzenia innego rodzaju traktujemy jako cenzorowanie oraz dla modeli ryzyk konkuruj cych. Dodatkowo, zaimplementowana zostaªa funkcja summarizecr, generuj ca sumaryczny raport bez konieczno±ci wywoªywania poszczególnych funkcji. 23
Aby przejrzy±cie przedstawi dziaªanie pakietu, przyjrzyjmy si najpierw danym LUAD. Zawieraj one informacje o czasie obserwacji, rodzaju zdarzenia oraz pªci, któr traktowa b dziemy jako zmienn grupuj c, po±ród 522 pacjentów. Dokªadniej, dane zawieraj 3 kolumny: event, okre±laj ca, czy dana jest cenzorowana (alive), czy wyst piªo jedno z dwóch konkuruj cych zdarze«- zgon (death) lub pojawienie si nowego nowotworu (new_tumor), time, liczba dni od pocz tku obserwacji do wyst pienia zdarzenia, b d¹ ko«ca obserwowania, w przypadku cenzorowania, gender, pªe pacjenta. W tabeli 2.1 przedstawione zostaªy liczebno±ci zdarze«w poszczególnych grupach. Tablica 2.1: Tabela liczebno±ci dla danych LUAD. Male F emale Razem alive 182 207 389 death 46 56 102 new_tumor 14 17 31 Razem 242 280 522 W bibliotece cr17 rozwa»one zostaªy 4 podej±cia modelowania ryzyk konkuruj cych. Pierwsze dwa, to estymacja krzywych prze»ycia oraz modele Coxa dla poszczególnych ryzyk, podczas gdy zdarzenia innego typu traktowane s jako cenzorowane. Nast pne dwa to estymacja funkcji skumulowanych cz sto±ci oraz modele Coxa dla ryzyk konkuruj cych. W nast pnych podrozdziaªach opisane zostan zaimplementowane funkcje. 2.2. Estymacja modeli analizy prze»ycia - funkcja tsurvival Funkcja fitsurvival jest adaptacj funkcji survfit z pakietu survival, dostosowan do przypadku wi cej ni» jednego ryzyka. Dopasowuje ona krzywe prze»ycia, opisane w rozdziale 1.3, dla ka»dego z ryzyk i ka»dej z grup osobno, traktuj c obserwacje, u których wyst piªo zdarzenie innego rodzaju, jako cenzorowane. Argumentami tej funkcji s : time, wektor zawieraj cy punkty w czasie, w ktorych wyst piªo zdarzenie, b d¹ nast piª koniec obserwacji. Kolumna ta powinna by typu numeric, risk, wektor okre±laj cy typ zdarzenia, mo»e by typu numeric, character lub factor, group, wektor okre±laj cy grup, do której nale»y dana obserwacja, mo»e by typu numeric, character lub factor, cens, warto± oznaczaj ca obserwacje cenzorowane w kolumnie risk (domy±lnie NULL, przyj ta zostanie pierwsza warto± z wektora risk), type, rodzaj krzywej prze»ycia, jaka ma by obliczona. Mo»liwe warto±ci to: "kaplan-meier" (warto± domy±lna), "fleming-harrington" oraz "fh2" (patrz: rozdziaª 1.3), conf.int, poziom ufno±ci (domy±lnie 0.95), 24
conf.type, rodzaj przedziaªu ufno±ci, jaki ma by obliczony. Mo»liwe warto±ci to: none (przedziaªy ufno±ci nie zostan obliczone), plain, log (warto± doym±lna), log-log (patrz: rozdziaª 1.3). Argumenty time, risk, group, cens s argumentami wi kszo±ci funkcji i nie b d ponownie opisywane przy omawianiu kolejnych funkcji. Warto±ci funkcji fitsurvival jest lista, której elementami s objekty klasy survfit.summary {survival} dla poszczególnych ryzyk. Ka»dy taki element jest list, zawieraj c w szczególno±ci nast puj ce informacje: time, czasy kolejnych zdarze«danego ryzyka, n.risk, liczba jednostek nara»onych na ryzyko w czasie time, n.event, liczba zdarze«w czasie time, surv, warto± estymowana krzywej prze»ycia w czasie time, strata, grupa, do której nale»y dana obserwacja, std.err, bª d standardowy estymacji krzywej prze»ycia w czasie time, lower, dolne organiczenie przedziaªu ufno±ci dla krzywej prze»ycia w czasie time, upper, górne ograniczenie przedziaªu ufno±ci dla krzywej prze»ycia w czasie time. Po wywoªaniu nast puj cego kodu: fits <- fitsurvival ( time = LUAD $ time, risk = LUAD $ event, group = LUAD $ gender, cens = " alive ", type = " kaplan - meier ", conf. int = 0.95, conf. type = " log " ) otrzymujemy dwuelementow list. Pierwszym elementem tej listy jest objekt typu survfit.summary dla ryzyka death, drugim dla ryzyka new_tumor. 2.3. Rysowanie krzywych prze»ycia - funkcja plotsurvival Wynik funkcji fitsurvival dostarcza nam wystarczaj cych informacji do narysowania krzywych prze»ycia dla poszczególnych ryzyk po±ród danych grup. Sªu»y do tego funkcja plotsurvival, której argumentami s : t, objekt powstaªy po wywoªaniu funkcji fitsurvival, target, punkt w czasie, dla którego narysowane zostan przedziaªy ufno±ci na wykresie (domy±lnie null, przedziaªy ufno±ci nie zostan narysowane). ggtheme, argument funkcji ggplot, wybór tematu wykresu (domy±lnie: theme_minimal()). titlesurv, tytuª wykresu (domy±lnie: Survival curves). xtitle, nazwa osi pionowej (domy±lnie: T ime). ytitlesurv, nazwa osi poziomej (domy±lnie: P robability of survivng up to time t). legendtitle, tytuª legendy (domy±lnie: Group). 25
Rysunek 2.1: Wynik funkcji plotsurvival na danych LUAD. Wykres przedstawia krzywe prze»ycia w±ród pacjentów u których pierwszym zdarzeniem byª zgon (death) oraz u których pierwszym zdarzeniem byªo wyst pienie nowego nowotworu (new_tumor). Krzywe prze»ycia s rysowane osobno dla kobiet (f emale) oraz dla m»czyzn (male). Wynikiem tej funkcji jest wykres przedstawiaj cy krzywe prze»ycia. Po wywoªaniu: plotsurvival ( fit = fits, target = 1200, ggtheme = theme _ minimal (), titlesurv = " Survival curves ", xtitle = " Time ", ytitlesurv = " Probability of survivng up to time t ", legendtitle = " Group " ) otrzymujemy wykres jak na rysunku 2.1. 2.4. Testowanie modeli analizy prze»ycia - funkcja testsurvival Wyniki testu Fleminga-Hrringtona (patrz: rozdziaª 1.4), badaj cego istotno± ró»ni w krzywych prze»ycia w grupach, otrzymujemy za pomoc funkcji testsurvival. Poza standardowymi argumentami przyjmuje ona tak»e parametr rho, zdeniowany w 1.45. Domy±lna warto± tego parametru wynosi 0 (otrzymujemy wówczas wyniki testu logrank). Wynikiem tej funkcji jest tabelka data.frame, zawieraj ca p-warto±ci dla testu Fleminga-Harringtona dla poszczególnych ryzyk. Dla danych LUAD mamy: testsurvival ( time = LUAD $ time, risk = LUAD $ event, group = LUAD $ gender, cens = " alive ", rho = 0) Wynik z funkcji testsurvival na danych LUAD zostaª zaprezentowany na rysunku 2.2. 26
Rysunek 2.2: Wynik funkcji testsurvival na danych LUAD. W tabeli znajduj si p-warto±ci testu Fleminga-Harringtona (patrz: rozdziaª 1.4), badaj cego istotno± wyst powania ró»nic w krzywych prze»ycia w±ród kobiet i m»czyzn dla obydwu ryzyk. 2.5. Estymacja modeli Coxa - funkcja tcox Funkcja fitcox dopasowuje model Coxa (patrz: rozdziaª 1.5), na podstawie funkcji coxph z pakietu survival, dla poszczególnych ryzyk, traktuj c inne zdarzenia jako cenzorowane. Argumentami s time, risk, group, cens, conf.int zdeniowane powy»ej. Wynikiem jest lista, której elemantami s objekty klasy coxph.summary. Ka»dy z tych elementów, zawiera nast puj ce informacje: dopasowane wspóªczynniki beta (patrz: rozdziaª 1.5), przedziaªy ufno±ci dla tych wspóªczynników, statystyk testow i p-warto± dla testu ilorazu wiarygodno±ci 1.52, statystyk testow i p-warto± dla testu Walda 1.53, statystyk testow i p-warto± dla testu mno»ników Lagrange'a 1.54. Po wywoªaniu: fitc <- fitcox ( time = LUAD $ time, risk = LUAD $ event, group = LUAD $ gender, cens = " alive ", conf. int = 0.95) otrzymujemy dwuelementow list, której elementami s obiekty klasy coxph.summary dla poszczególnych ryzyk. 2.6. Testowanie modeli Coxa - funkcja testcox Po dopasowania modelu Coxa dla poszczególnych ryzyk, za pomoc funkcji testcox otrzymujemy p-warto±ci dla trzech testów badaj cych ró»nice pomi dzy grupami: testu ilorazu wiarygodno±ci 1.52, testu Walda 1.53 oraz testu logrank 1.54. Argumentem tej funkcji jest fitcox - wynik funkcji fitcox. Po wywyoªaniu testcox ( fitcox = fitc ) dostajemy tabelk z p-warto±ciami dla wy»ej wymienionych testów dla obydwu ryzyk. Wynik funkcji testcox na danych LUAD zostaª zaprezentowany na rysunku 2.3. 27
Rysunek 2.3: Wynik funkcji testcox na danych LUAD. W tabeli znajduj si p-warto±ci testów badaj cych istotno± ró»nic pomi dzy modelami Coxa dla kobiet i dla m»czyzn. Wykonane testy to: LRT - test ilorazu wiarygodno±ci dla modeli Coxa 1.52, Wald Test - test Walda 1.53, Logrank Test - test logrank dla modeli Coxa 1.54. 2.7. Estymacja modeli ryzyk konkuruj cych - funkcja tcuminc Funkcja fitcuminc estymuje funkcje skumulowanych cz sto±ci w poszczególnych grupach, za pomoc funkcji cuminc z pakietu cmprsk. Argumentami tej funkcji s time, risk, group, cens. Otrzyman warto±ci jest lista, której elementami s oszacowania krzywych skumulowanych g sto±ci dla poszczególnych grup i ryzyk. Ka»dy z tych elementów, zawiera nast puj ce informacje: time, punkty w czasie, w których wyst piªy zdarzenia danego typu w danej grupie, est, estymowana warto± krzywej skumulowanych g sto±ci w czasie time, var, wariancja estymowanej warto±ci funkcji skumulowanych cz sto±ci. group, grupa, dla której estymowana jest funkcja skumulowanych cz sto±ci, risk, typ zdarzenia, dla którego estymowana jest funkcja skumulowanych cz sto±ci. Dodatkowym elementem jest tabelka data.frame zawieraj ca wyniki testu dla K-prób (patrz: rozdziaª 1.7). Po wywoªaniu: fitc <- fitcuminc ( time = LUAD $ time, risk = LUAD $ event, group = LUAD $ gender, cens = " alive " ) otrzymujemy pi cioelementow list. Pierwsze cztery elementy to oszacowania krzywych skumulowanych g sto±ci dla ka»dego ryzyka w ka»dej grupie. Pi tym elementem, jest tabelka zawieraj ca dane na temat statystyki testowej oraz p-warto±ci testu dla K-prób dla obydwu ryzyk. 28
2.8. Rysowanie krzywych skumulowanych cz sto±ci - funkcja plotcuminc Na podstawie funkcji fitcuminc mo»na otrzyma wykres skumulowanych warto±ci, za pomoc funkcji plotcuminc. Jej argumentami s ci, objekt powstaªy po wywoªaniu funkcji fitcuminc, cens, warto± wektora. zawieraj cego typ zdarzenia, oznaczaj ca obserwacj cenzorowan, target, punkt w czasie, dla którego narysowane zostan przedziaªy ufno±ci na wykresie. ggtheme, argument funkcji ggplot, wybór tematu wykresu (domy±lnie: theme_minimal()). titlecuminc, tytuª wykresu (domy±lnie: Cumulative incidence f unctions). xtitle, nazwa osi pionowej (domy±lnie: T ime). ytitlecuminc, nazwa osi poziomej (domy±lnie: Cumulative incidences). legendtitle, tytuª legendy (domy±lnie: Group). Po wywoªaniu: plotcuminc ( ci = fitc, otrzymujemy wykres 2.4. cens = " alive ", target = 1200, ggtheme = theme _ minimal (), titlecuminc = " Cumilative incidence function ", xtitle = " Time ", ytitlecuminc = " Cumulative incidences ", legendtitle = " Group " ) 2.9. Testowanie modeli ryzyk konkuruj cych - funkcja testcuminc Wyniki testu dla K prób (patrz: rozdziaª 1.7) otrzymujemy za pomoc funkcji testcuminc, której argumentem jest obiekt fitcuminc. Po wywoªaniu: testcuminc ( ci = fitc ) otrzymujemy tabelk przedstawion w 2.5 29
Rysunek 2.4: Wynik funkcji plotcuminc na danych LUAD. Wykres przedstawia krzywe skumulowanych cz sto±ci dla pacjentów u których pierwszym zdarzeniem byª zgon (death) oraz u których pierwszym zdarzeniem byªo wyst pienie nowego nowotworu (new_tumor). Krzywe s rysowane osobno dla kobiet (f emale) oraz dla m»czyzn (male). 30
Rysunek 2.5: Wynik funkcji testcuminc na danych LUAD. W tabeli znajduj si p-warto±ci testu dla K-prób 1.77, badaj cego istotno± wyst powania ró»nic w krzywych skumulowanych cz sto±ci dla kobiet i dla m»czyzn. 2.10. Estymacja modeli Coxa w przypadku wyst powania ryzyk konkuruj cych - funkcja treg Ostatni zaimplementowan metod jest model Coxa dla ryzyk konkuruj cych, nazywany tak»e modelami regresji dla ryzyk konkuruj cych. Dopasowanie modelu dostajemy za pomoc funkcji fitreg, opartej na funkcji crr z pakietu cmprsk. Argumentem tej funkcji s ponownie time, risk, group oraz cens. Warto±ci tej funkcji jest lista, której elementami s dopasowania modelu Coxa dla ryzyk konkurencyjnych dla poszczególnych ryzyk i grup. W ka»dym przypadku dostajemy, w szczególno±ci, nast puj ce informacje: coef, wyestymowane parametry β (patrz: rozdziaª 1.8), loglik, logarytm pseudo-wiarygodno±ci dla modelu, score, pochodna logarytmu pseudo-wiarygodno±ci w punkcie loglik, loglik.null, logarytm pseudo-wiarygodno±ci dla modelu zerowego (z wszystkimi parametrami równymi 0). Dodatkowym, ostatnim elementem listy s wyniki modykowanego testu LRT rozdziaª 1.8). Dla danych LUAD, po wywoªaniu: (patrz: reg <- compriskreg ( time = LUAD $ time, risk = LUAD $ event, group = LUAD $ gender, data = LUAD, cens = " alive " ) dostajemy pi cioelementow list, której pierwsze 4 elementy to dopasowania modeli Coxa w przypadku ryzyk konkurencyjnych dla poszczególnych grup i ryzyk. Pi tym elementem jest tabelka z wynikami modykowanego testu ilorazy wiarygodno±ci. 2.11. Testowanie modeli Coxa w przypadku wyst powania ryzyk konkuruj cych - funkcja testreg Aby uzyska tabelk z p-warto±ciami dla modykowanego testu ilorazu wiarygodno±ci, wykorzystujemy funkcje testreg, której argumentami jest objekt treg oraz conf.int. Wynikiem jest tabelka zawieraj ca p-warto±ci. Przykªad dla danych LUAD zostaª przedstawiony na rysunku 2.6. testreg ( fitreg = reg, conf. int = 0.95) 31
Rysunek 2.6: Wynik funkcji testreg na danych LUAD. w tabeli znajduj si p-warto±ci modykowanego testu ilorazu wiarygodno±ci dla modeli Coxa w przypadku wyst powania ryzyk konkuruj cych. Badana jest istotno± wyst powania ró»nic w modelach dla kobiet i dla m»czyzn. Rysunek 2.7: Wynik funkcji risktab. Tabela przedstawiaj ca liczb jednostek nara»onych na ryzyko w czasie dla obydwu ryzyk w rozró»nieniu na pªe. Punkty, w których liczone s jednostki nara»one na ryzyko odpowiadaj punktom na osi poziomej wykresu z krzywymi prze»ycia. 2.12. Zliczenia jednostek nara»onych na ryzyko - funkcja risktab Tabelk, w której znajduje si liczba jednostek nara»onych na ryzyko w danych grupach mo»na otrzyma za pomoc funkcji risktab, której argumentami s time, risk, group, cens, zdeniowane powy»ej oraz argument title pozwalaj cy na podanie tytuªu tabelki (domy±lnie: Number at risk). Dla danych LUAD, po wywoªaniu: risktab ( time = LUAD $ time, risk = LUAD $ event, group = LUAD $ gender, cens = " alive ", title = " Number at risk " ) otrzymujemy tabelk jak w 2.7. 32
Rysunek 2.8: Wynik funkcji eventtab. Tabela przedstawiaj ca liczb zdarze«danego typu, które nast piªy do danego czasu w rozró»nieniu na pªe. Punkty, w których liczone s wyst pienia zdarze«odpowiadaj punktom na osi poziomej wykresu z krzywymi skumulowanych cz sto±ci. 2.13. Zliczenia wyst pie«zdarze«- funkcja eventtab Analogicznie, mo»emy otrzyma teraz tabel zawieraj c informacj o liczbie zdarze«do danego czasu t. Argumentami tej funkcji s ponownie time, risk, group, data, cens, zdeniowane powy»ej oraz argument title pozwalaj cy na podanie tytuªu tabelki (domy±lnie: Number of events). Dla danych LUAD, po wywoªaniu: eventtab ( time = LUAD $ time, risk = LUAD $ event, group = LUAD $ gender, cens = " alive ", title = " Number of events " ) otrzymujemy tabelk jak w 2.8. 33
2.14. Sumaryczny raport - funkcja summarizecr Aby mo»liwe uªatwi korzystanie z biblioteki cr17, zaimplementowana zostaªa funkcja summarizecr, dzi ki której mo»na otrzyma wyniki z wszystkich opisanych powy»ej funkcji w przejrzystym raporcie. Po wywoªaniu: summarizecr ( time = LUAD $ time, risk = LUAD $ event, group = LUAD $ gender, cens = " alive ", target = 1200, rho = 0, type = " kaplan - meier ", conf. int = 0.95, conf. type = " log ", ggtheme = theme _ minimal (), titlesurv = " Survival curves ", titlecuminc = " Cumulative incidence function ", xtitle = " Time ", ytitlesurv = " Probability of survivng up to time t ", ytitlecuminc = " Cumulative incidences ", legendtitle = " Group ", risktabtitle = " Number at risk ", eventtabtitle = " Number of events " ) otrzymujemy raport jak na rysunku 2.9. Jak ªatwo zauwa»y, raport mo»na podzieli na dwie kolumny. Pierwsza z nich przedstawia rezultaty z modelowania analizy prze»ycia dla ryzyk z osobna, podczas gdy druga z nich dotyczy ryzyk konkuruj cych. Punkty w czasie, dla których zostaªy wyliczone warto±ci w tabelce zawieraj cej liczb jednostek nara»onych na ryzyko odpowiadaj tym na przedstawiaj cych krzywe prze»ycia. Analogicznie, punkty w czasie, dla których zliczone zostaªy wyst pienia zdarze«odpowiadaj osi poziomej wykresu w krzywymi skumulowanych cz sto±ci. Poprzez podanie odpowiednich argumentów mo»na zmieni poziom ufno±ci, dla których liczone s przedziaªy ufno±ci i p-warto±ci, zmieni temat wykresów oraz dopasowa wªasne tytuªy wykresów i tabelek. 34
Rysunek 2.9: Wynik funkcji summarizecr na danych LUAD. Sumaryczny raport przedstawiaj cy porównanie czasów prze»ycia w grupach dla poszczególnych ryzyk. W górnej cz ±ci znajduj si dwa wykresy - wykres przedstawiaj cy krzywe prze»ycia (po lewej stronie) oraz wykres przedstawiaj cy krzywe skumulowanych cz sto±ci (po prawej stronie). W ±rodkowej cz ±ci znajduj si tabelka ze zliczeniami jednostek nara»onych na ryzyko (po lewej stronie) oraz tabelka ze zliczeniami zdarze«(po prawej stronie). Na dole raportu znajduj si wyniki poszczególnych testów badaj cych ró»nice w modelach pomi dzy grupami - w tym przypadku pomi dzy kobietami a m»czyznami. Z lewej strony znajduje si tabelka z p-warto±ciami dla testów opartych na analizie prze»ycia, po prawej stronie natomiast przedstawione s wyniki testów dla modeli ryzyk konkuruj cych. 35
Rozdziaª 3 Przykªad zastosowania na danych o pacjentach z nowotworami ukªadu krwiotwórczego 3.1. Opis danych Praktyczne zastosowanie pakietu przedstawi na danych pochodz cych z projektu InfAza, b d cego wspólnym przedsi wzi ciem Warszawskiego Uniwersytetu Medycznego, pod przewodnictwem dra n. med. Krzysztofa M drego oraz lek. med. Karola Lisa wraz z Uniwersytetem Warszawskim pod przewodnictwem dra hab. Przemysªawa Biecka. Dane te, o roboczej nazwie infaza, zawieraj informacje o pacjentach choruj cych na jedn z trzech pokrewnych ze sob chorób: AML (ang. acute myeloid leukemia) - ostr biaªaczk szpikow, CMML (ang. chronic myelomonocytic lekuemia) - przewlekª biaªaczk mielomonocytow, MDS (ang. myelodysplastic syndrome) - zespoªem mielodysplastycznym, nazywanym tak»e stanem przedbiaªaczkowym. Choroby te zaliczane s do nowotworów ukªadu krwiotwórczego i powoduj, mi dzy innymi, znacznie zmniejszon odporno± organizmu. Wszyscy pacjenci poddani zostali innowacyjnej terapii azacytadyn, w comiesi cznych cyklach podawania leku. Gªównym celem gromadzenia danych byªo zdobycie wiedzy na temat ryzyka wyst pienia infekcji podczas 3 pierwszych miesi cy terapii oraz czynników wpªywaj cych na to ryzyko. Analiza statystyczna w ramach projektu, któr wykonywaªam, obejmowaªa czyszczenie i eksploracj danych, budowanie modeli liniowych, testowanie istotno±ci parametrów, stworzenie klasykacji pacjentów ze wzgl du na ryzyko wyst pienia infekcji oraz wizualizacje. 3.2. Eksploracja danych Š cznie dane zawieraj informacje o 298 osobach z 10 o±rodków medycznych w Polsce. Dla ka»dej obserwacji posiadamy nast puj ce wiadomo±ci: wiek i pªe pacjenta, o±rodek, w którym pacjent byª leczony, 37
rozpoznanie (AML, CMML, MDS), ª czna liczba podanych cykli azacytadyny, czy u pacjenta nast piªa infekcja, cykl przy którym wyst piªa infekcja, rodzaj infekcji (grzybicza, bakteryjna, wirusowa), czy u pacjenta zastosowana zostaªa prolaktyka przeciwwirusowa, przeciwbakteryjna lub przeciwgrzybicza, czy nast piª zgon pacjenta, caªkowity czas obserwacji (czas od rozpocz cia leczenia azacytadyn do zgonu lub ko«ca obserwacji), czas od diagnozy do rozpocz cia leczenia, wyniki podstawowych bada«wykonanych na pocz tku leczenia (m.in. liczba limfocytów, neutroli i monocytów, poziom ferrytyny, albuminy i kreatyniny, odstek blastów w szpiku), wyst powanie innych chorób (inny nowotwór, cukrzyca, niewydolno± serca), ró»ne klasykacje stanu zdrowia pacjenta (m.in. WHO). W ramach projektu, najwa»niejszym zadaniem byªo wybranie modelu regresji logistycznej, w której zmienn obja±nian byªa zmienna binarna oznaczaj ca wyst pienie infekcji w ci gu pierwszych 3-ech miesi cy leczenia Azacytadyn. Wa»n cech szukanego modelu byªa ªatwo± jego interpretacji, sk d ograniczali±my si do co najwy»ej sze±ciu zmiennych obja±niaj cych. Pozostaªymi czynnikami wyboru modelu byªy wyniki testów na istotno± parametrów, powierzchnia pod krzyw ROC (ang. Receiver Operating Characteristic) oraz dokªadno± (ang. accuracy). Z powodu du»ej ilo±ci brakuj cych warto±ci wykonana zostaªa imputacja danych (wyniki przedstawione w tej pracy zostaªy otrzymane na pierwotnych danych). W ko«cowym modelu znajdowaªy si nast puj ce zmienne obja±niaj ce: rozpoznanie, klasykacja WHO, zale»no± od przetocze«krwi, poziom albumy oraz ilo± neutroli we krwi oraz procentowa zawarto± blastów w szpiku. Na podstawie wybranego modelu, stworzona zostaªa 3-stopniowa klasykacja, dzi ki której mo»liwy jest podziaª pacjentów ze wzgl du na poziom zagro»enia wyst pienia infekcji. Wyniki z otrzymanej klasykacji zostaªy przedstawione na rysunku 3.1. 38
Rysunek 3.1: Wyniki 3-stopniowej klasykacji zastosowanej na danych infaza, powstaªej w ramach projektu InfAza. Wykres przedstawia procentowy udziaª pacjentów u których wyst piªa infekcja w±ród wszystkich pacjentów zakwalikowanych do danej klasy. Jak wynika z wykresu, spo±ród wszystkich pacjentów, u których stwierdzono wysokie zagro»enie wyst pienia infekcji, u okoªo 95% nast piªa nast piªa. Spo±ród pacjentów o ±rednim ryzyku, zdarzenie wyst piªo w okoªo 50% przypadków, natomiast w±ród pacjentów o niskim zagro»eniu, infekcja wyst piªa tylko w okoªo 10% przypadków. 3.3. Analiza prze»ycia a modele ryzyk konkuruj cych W poprzednich rozdziaªach zostaªo podkre±lone,»e stosowanie analizy prze»ycia w przypadku wyst powania ryzyk konkurencyjnych mo»e prowadzi do bª dnych wyników. Przykªad takiej sytuacji zaprezentuj na danych infaza. Na rysunku 3.2 przedstawione zostaªy krzywe prze»ycia Kaplana-Meiera dla obydwu ryzyk, estymowane niezale»nie (to znaczy, w ka»dym przypadku rozpatrywane byªy tylko zdarzenia danego rodzaju). Obserwacje, u których wyst piªo zdarzenie drugiego rodzaju traktowane byªy jako cenzorowane. W celu lepszego zwizualizowania problemu, krzywe dla obydwu ryzyk zostaªy przedstawione na osiach o przeciwnym kierunku wzrastania. Przecinaj ce si osie ±wiadcz o tym,»e dla odpowiednio du»ych czasów, prawdopodobie«stwo wyst pienia jednego z dwóch ryzyk jest wi ksze od 1. Natomiast w przypadku zastosowania modelu ryzyk konkuruj cych, oba wykresy nie przecinaj si, co wida na rysunk 3.3. Nie otrzymujemy tutaj prawdopodobie«stwa wykraczaj cego poza przedziaª [0, 1]. 39