Zastosowanie pakietu R w analizie przeżycia



Podobne dokumenty
Pobieranie próby. Rozkład χ 2

WNIOSKOWANIE STATYSTYCZNE

LABORATORIUM PODSTAWY ELEKTRONIKI Badanie Bramki X-OR

Matematyka ubezpieczeń majątkowych r. ma złożony rozkład Poissona. W tabeli poniżej podano rozkład prawdopodobieństwa ( )

Podstawowe charakterystyki niezawodności. sem. 8. Niezawodność elementów i systemów, Komputerowe systemy pomiarowe 1

Całka nieoznaczona Andrzej Musielak Str 1. Całka nieoznaczona

DYNAMIKA KONSTRUKCJI

E k o n o m e t r i a S t r o n a 1. Nieliniowy model ekonometryczny

2.1 Zagadnienie Cauchy ego dla równania jednorodnego. = f(x, t) dla x R, t > 0, (2.1)

Stanisław Cichocki Natalia Nehrebecka. Wykład 3

Stanisław Cichocki Natalia Nehrebecka. Wykład 4

PROGNOZOWANIE I SYMULACJE. mgr Żaneta Pruska. Ćwiczenia 2 Zadanie 1

C d u. Po podstawieniu prądu z pierwszego równania do równania drugiego i uporządkowaniu składników lewej strony uzyskuje się:

DYNAMICZNE MODELE EKONOMETRYCZNE

WYKORZYSTANIE STATISTICA DATA MINER DO PROGNOZOWANIA W KRAJOWYM DEPOZYCIE PAPIERÓW WARTOŚCIOWYCH

ANALIZA, PROGNOZOWANIE I SYMULACJA / Ćwiczenia 1

Zarządzanie ryzykiem. Lista 3

specyfikacji i estymacji modelu regresji progowej (ang. threshold regression).

EKONOMETRIA wykład 2. Prof. dr hab. Eugeniusz Gatnar.

ψ przedstawia zależność

Stanisław Cichocki Natalia Nehrebecka. Wykład 3

4.2. Obliczanie przewodów grzejnych metodą dopuszczalnego obciążenia powierzchniowego

Badanie funktorów logicznych TTL - ćwiczenie 1

Weryfikacja hipotez statystycznych

Politechnika Częstochowska Wydział Inżynierii Mechanicznej i Informatyki. Sprawozdanie #2 z przedmiotu: Prognozowanie w systemach multimedialnych

Rozdział 4 Instrukcje sekwencyjne

Równania różniczkowe. Lista nr 2. Literatura: N.M. Matwiejew, Metody całkowania równań różniczkowych zwyczajnych.

Niezawodność elementu nienaprawialnego. nienaprawialnego. 1. Model niezawodnościowy elementu. 1. Model niezawodnościowy elementu

Niestacjonarne zmienne czasowe własności i testowanie

Silniki cieplne i rekurencje

ESTYMACJA KRZYWEJ DOCHODOWOŚCI STÓP PROCENTOWYCH DLA POLSKI

Matematyka ubezpieczeń życiowych r.

ĆWICZENIE 4 Badanie stanów nieustalonych w obwodach RL, RC i RLC przy wymuszeniu stałym

1. Szereg niesezonowy 1.1. Opis szeregu

PROJEKT nr 1 Projekt spawanego węzła kratownicy. Sporządził: Andrzej Wölk

Analiza rynku projekt

Krzysztof Piontek Weryfikacja modeli Blacka-Scholesa dla opcji na WIG20

( ) ( ) ( τ) ( t) = 0

Matematyka finansowa r. Komisja Egzaminacyjna dla Aktuariuszy. XXXVIII Egzamin dla Aktuariuszy z 20 marca 2006 r.

Funkcja kwadratowa. f(x) = ax 2 + bx + c,

Przekształcanie wykresów.

Temat: Weryfikacja nienaruszalności bezpieczeństwa SIL struktury sprzętowej realizującej funkcje bezpieczeństwa

Zajęcia: VBA TEMAT: VBA PROCEDURY NUMERYCZNE Metoda bisekcji i metoda trapezów

Wykład 6. Badanie dynamiki zjawisk

PROGNOZOWANIE. Ćwiczenia 2. mgr Dawid Doliński

Matematyka A, kolokwium, 15 maja 2013 rozwia. ciem rozwia

Wykład 6. Badanie dynamiki zjawisk

EFEKT DŹWIGNI NA GPW W WARSZAWIE WPROWADZENIE

Analiza danych DRZEWA DECYZYJNE. Drzewa decyzyjne. Entropia. test 1 dopełnienie testu 1

Statystyka od podstaw z systemem SAS Dr hab. E. Frątczak, ZAHZiAW, ISiD, KAE. Część VII. Analiza szeregu czasowego

znajdowały się różne instrukcje) to tak naprawdę definicja funkcji main.

Matematyka ubezpieczeń majątkowych r. Zadanie 1. Rozważamy proces nadwyżki ubezpieczyciela z czasem dyskretnym postaci: n

Zajęcia nr. 3 notatki

Modelowanie ryzyka kredytowego MODELOWANIE ZA POMOCA HAZARDU

Funkcja kwadratowa. f(x) = ax 2 + bx + c = a

WYBRANE TESTY NIEOBCIĄŻONOŚCI MIAR RYZYKA NA PRZYKŁADZIE VALUE AT RISK

DYNAMICZNE MODELE EKONOMETRYCZNE

FUNKCJA LINIOWA - WYKRES

SYMULACYJNA ANALIZA PRODUKCJI ENERGII ELEKTRYCZNEJ I CIEPŁA Z ODNAWIALNYCH NOŚNIKÓW W POLSCE

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania. Podstawy Automatyki

Analiza przeżycia. Czym zajmuje się analiza przeżycia?

13. Równania różniczkowe - portrety fazowe

PROGNOZOWANIE I SYMULACJE EXCEL 2 AUTOR: MARTYNA MALAK PROGNOZOWANIE I SYMULACJE EXCEL 2 AUTOR: MARTYNA MALAK

========================= Zapisujemy naszą funkcję kwadratową w postaci kanonicznej: 2

WYKORZYSTANIE TESTU OSTERBERGA DO STATYCZNYCH OBCIĄŻEŃ PRÓBNYCH PALI

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 1. Wojciech Waloszek. Teresa Zawadzka.

Metody prognozowania: Szeregi czasowe. Dr inż. Sebastian Skoczypiec. ver Co to jest szereg czasowy?

Ruch płaski. Bryła w ruchu płaskim. (płaszczyzna kierująca) Punkty bryły o jednakowych prędkościach i przyspieszeniach. Prof.

Zadanie 3 Oblicz jeżeli wiadomo, że liczby 8 2,, 1, , tworzą ciąg arytmetyczny. Wyznacz różnicę ciągu. Rozwiązanie:

DYNAMICZNE MODELE EKONOMETRYCZNE

Kombinowanie prognoz. - dlaczego należy kombinować prognozy? - obejmowanie prognoz. - podstawowe metody kombinowania prognoz

Parametryczny koder mowy - wokoder. Synteza mowy w odbiorniku: d=1 - mowa dźwięczna (T 0 = okres tonu krtaniowego) d=0 - mowa bezdźwięczna

ĆWICZENIE NR 43 U R I (1)

FUNKCJA LINIOWA - WYKRES. y = ax + b. a i b to współczynniki funkcji, które mają wartości liczbowe

Zastosowanie Excela w matematyce

Wykład 4 Metoda Klasyczna część III

Gr.A, Zad.1. Gr.A, Zad.2 U CC R C1 R C2. U wy T 1 T 2. U we T 3 T 4 U EE

Nr zadania Σ Punkty:

2. Wprowadzenie. Obiekt

Analiza przeżycia. Czym zajmuje się analiza przeżycia? Jest to analiza czasu trwania, zaprojektowana do analizy tzw.

1. Granice funkcji - wstępne definicje i obliczanie prostych granic

Alicja Ganczarek Akademia Ekonomiczna w Katowicach. Analiza niezależności przekroczeń VaR na wybranym segmencie rynku energii

Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach ISSN Nr

ĆWICZENIE 7 WYZNACZANIE LOGARYTMICZNEGO DEKREMENTU TŁUMIENIA ORAZ WSPÓŁCZYNNIKA OPORU OŚRODKA. Wprowadzenie

KURS EKONOMETRIA. Lekcja 1 Wprowadzenie do modelowania ekonometrycznego ZADANIE DOMOWE. Strona 1

PROGNOZOWANIE I SYMULACJE EXCEL 2 PROGNOZOWANIE I SYMULACJE EXCEL AUTOR: ŻANETA PRUSKA

Pętle. Dodał Administrator niedziela, 14 marzec :27

Dyskretny proces Markowa

OPTYMALIZACJA PORTFELA INWESTYCYJNEGO ZE WZGLĘDU NA MINIMALNY POZIOM TOLERANCJI DLA USTALONEGO VaR

Ocena efektywności procedury Congruent Specyfication dla małych prób

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych

Pracownia Informatyczna Instytut Technologii Mechanicznej Wydział Inżynierii Mechanicznej i Mechatroniki. Podstawy Informatyki i algorytmizacji

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Zasada pędu i popędu, krętu i pokrętu, energii i pracy oraz d Alemberta bryły w ruchu postępowym, obrotowym i płaskim

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

3. Instrukcje warunkowe

TESTOWANIE EGZOGENICZNOŚCI ZMIENNYCH W MODELACH EKONOMETRYCZNYCH

Analiza i Zarządzanie Portfelem cz. 6 R = Ocena wyników zarządzania portfelem. Pomiar wyników zarządzania portfelem. Dr Katarzyna Kuziak

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Układy sekwencyjne asynchroniczne Zadania projektowe

Transkrypt:

Uniwersye Wrocławski Wydział Maemayki i Informayki Insyu Maemayczny specjalność: maemayka w ekonomii i ubezpieczeniach Jusyna Kulej Zasosowanie pakieu R w analizie przeżycia Praca magiserska napisana pod kierunkiem dr hab. Zbigniewa Palmowskiego Wrocław 2010

Oświadczam, że pracę magiserską wykonałam samodzielnie i zgłaszam ją do oceny. Daa... Podpis auora pracy:... Oświadczam, że praca jes goowa do oceny przez recenzena. Daa... Podpis opiekuna pracy:... 2

Wsęp Analiza przeżycia jes gałęzią saysyki, kóra zajmuje się analizą danych opisujących czas życia populacji oraz badaniem wpływu różnych czynników na en czas życia. Określenia czas życia nie należy rozumieć ylko dosłownie, jako czas od narodzin do śmierci, ale akże jako czas upływający pomiędzy dwoma ważnymi dla badacza wydarzeniami. Takie podejście daje możliwość zasosowania analizy przeżycia nie ylko do danych medycznych, biologicznych, czy demograficznych, ale również do innych danych, na przykład do danych ekonomicznych. aszym celem będzie zaprezenowanie możliwości pakieu R w zakresie analizy przeżycia. Do analizy wybraliśmy przykładowe dane saysyczne opisujące san 137 pacjenów po przeszczepie szpiku kosnego. Dane użye w ej pracy pochodzą z badań przeprowadzonych w osanich laach. Praca jes zorganizowana w nasępujący sposób. W rozdziale pierwszym przedsawiamy podsawowe definicje, faky i wzory z analizy przeżycia oraz pokazujemy, jak pakie R może pomóc w wizualizacji głównych funkcji. Rozdział drugi w całości poświęcony jes esymaorowi Kaplana Meiera. Prezenuje meodę znalezienia ego esymaora, gdy do dyspozycji mamy dane ocenzurowane lub nieocenzurowane oraz pokazuje możliwości pakieu R w ej dziedzinie. Rozdział rzeci opowiada o dwóch ważnych esach dla dwóch prób oraz wprowadza w podsawy programowania w pakiecie R. W rozdziale czwarym przedsawiliśmy sposoby budowy modelu proporcjonalnej funkcji hazardowej Coxa. 3

Spis reści Wsęp... 3 Rozdział 1 Analiza przeżycia... 5 1.1 Podsawowe faky... 5 1.2 Oznaczenia akuarialne... 11 1.3 Przykładowe rozkłady życia... 14 Rozkład jednosajny... 14 Rozkład wykładniczy... 16 Rozkład Gomperza... 17 Rozkład Makehama... 19 Rozkład Weibulla... 20 Rozdział 2 Esymaor Kaplana Meiera... 21 Rozdział 3 Tesy dla dwóch prób... 33 3.1 Tes Wilcoxona... 33 3.2 Tes Gilbera Gehana... 36 Rozdział 4 Model proporcjonalnej funkcji hazardowej Coxa... 44 Bibliografia... 49 4

Rozdział 1 Analiza przeżycia 1.1 Podsawowe faky iech T będzie zmienną losową określającą czas upływający do nasąpienia jakiegoś konkrenego wydarzenia. Oznaczmy przez F() dysrybuanę zmiennej losowej T: Funkcją przeżycia S() nazywamy funkcję wyrażoną wzorem: F( ) P( T ). (1.1) S( ) P( T ). (1.2) Funkcja a określa prawdopodobieńswo ego, że wydarzenie nasąpi po upływie czasu. W przypadku, kiedy T oznacza długość życia osoby, S() podaje szansę przeżycia co najmniej jednosek czasu (np. miesięcy, la ip.) przez ę osobę. Zauważmy, że funkcję przeżycia można zapisać w nasępujący sposób: S( ) 1 F( ). (1.3) W ej pracy będziemy zakładać, że isnieje gęsość f() zmiennej losowej T. Heurysycznie gęsość wyraża inensywność zajścia wydarzenia w chwili. Można ją wyrazić za pomocą funkcji przeżycia w nasępujący sposób: ds() f( ). d (1.4) Zdefiniowaliśmy T jako zmienną losową określającą czas upływający do nasąpienia jakiegoś wydarzenia. Gdy ym wydarzeniem jes śmierć, a podmioem badań są poszczególne grupy wiekowe ludzi, zmienną T zasępujemy zmienną T x, kóra określa przyszły czas życia x laka. Do zmiennej T x sosują się wszyskie wymienione wyżej wzory z niewielkimi modyfikacjami w symbolice (dodawanie indeksu x w odpowiednich miejscach) w szczególności funkcję przeżycia będziemy wedy oznaczać poprzez: S ( ) P( T ). (1.5) x Zauważmy, że S x () określa uaj prawdopodobieńswo ego, że x laek przeżyje kolejne la. Również wprowadzamy nasępujące oznaczenie na dysrybuanę T x : x Fx ( ) P( Tx ) 1 Sx( ). (1.6) Załóżmy eraz, że mamy próbę obieków (np. długości życia osób). iech (i) oznacza czas upływający do nasąpienia wydarzenia dla i-ego obieku, gdzie i = 1, 2, 3,...,. 5

Ławo zauważyć, że 0 (1) (2) (). Definiujemy eraz empiryczną funkcję przeżycia S ˆ () : ˆ 1 S ( ). { ( i ) i 1 Wzór (1.7) jes bardziej czyelny, gdy zapisze się go w nasępującej posaci: 1 dla, ˆ i S ( ) 1 dla ( i) ( i 1), 0 dla. (1) ( ) (1.7) (1.8) Empiryczna funkcja przeżycia w chwili 0 przyjmuje warość 1, a poem, wraz z kolejnymi nasąpieniami wydarzenia, zmniejsza swoją warość o 1/ aż do 0. Analogicznie do wzoru (1.3), S ˆ () można zapisać jako: gdzie Fˆ () jes dysrybuaną empiryczną wyrażoną wzorem: Sˆ ( ) 1 Fˆ ( ), (1.9) ˆ 1 F ( ). { ( i ) i 1 Lema: S ˆ () dla dużych prób jes zgodnym i nieobciążonym esymaorem S (). (1.10) Dowód: Przypomnijmy, że (i) jes czasem upływającym do nasąpienia wydarzenia dla i ego obieku, zaem ma aki sam rozkład, jak zmienna losowa T. Zauważmy dodakowo, że: ˆ 1 ES ( ) E. { ( i ) i 1 (1.11) Indykaor { T 1 dla T, 0 dla T, (1.12) jes zmienną 0 1 z prawdopodobieńswem sukcesu p = P(T > ) = S(). 6

Z Mocnego Prawa Wielkich Liczb wynika, że przy, S ˆ ( ) S( ) prawie wszędzie, ponieważ: Poza ym: E P( ) S( ). (1.13) { ( i) () i ˆ 1 1 1 ES ( ) E P ( T ) P ( T ) S ( ). { T i 1 i 1 (1.14) Druga równość wynika z zasosowania wzoru na warość oczekiwaną dyskrenej zmiennej losowej. Zobaczmy eraz, jak wygląda wariancja empirycznej funkcji przeżycia: ˆ 1 1 Var S ( ) Var Var. { ( i) 2 { ( i) i 1 i 1 (1.15) Czasy upływające do nasąpienia wydarzenia są niezależne, zaem indykaory niezależnymi zmiennymi losowymi o akim samym rozkładzie. { () i są Sąd: ˆ 1 1 1 Var S () Var Var Var 2 { { i 2 { T 2 { T i 1 i 1 1 1 E { T E { T P T P T 1 2 1 S( ) S ( ) S( ) 1 S( ). 2 2 2 (1.16) Sąd będziemy przyjmować ze esymaor wariancji: ˆ 1 Var S ( ) ˆ ( ) 1 ˆ S S ( ). (1.17) Pokażemy eraz, jak wygląda esymacja S() za pomocą S ˆ () w pakiecie R. Do analizy wykorzysamy dane z pliku dane1.x, kóre opisują długości czasu życia osób po przeszczepie szpiku kosnego. 7

a począku musimy załadować nasze dane do pakieu R. Służy do ego polecenie read.able : Ta funkcja wymaga podania ścieżki dosępu do pliku oraz określenia, czy chcemy załadować nagłówki kolumn z ego pliku. Dla ławiejszego operowania danymi, zapisaliśmy je pod nazwą dane. Wysarczy ją wpisać w konsoli, żeby wyświelić nasze dane: Oczywiście wsawiony u przykład pokazuje ylko mały fragmen abeli, ale R wyświela ją całą. Ineresuje nas kolumna T1, kóra zawiera czas życia pacjenów po przeszczepie szpiku. Żeby móc się do niej odwoływać bezpośrednio, musimy dokonać przyłączenia danych za pomocą polecenia aach : asze dane są danymi ocenzurowanymi. Oznacza o, że część pacjenów wycofała się z badania, a wedy w kolumnie T1 podany jes nie czas dalszego życia pacjena, ale czas jego życia do momenu wycofania się. Kolumna Tid1 określa, czy pacjen umarł, czy się wycofał (1 śmierć, 0 wycofanie się). W dalszej części ej pracy opowiemy, jak radzić sobie z danymi ocenzurowanymi, a na porzeby ego przykładu wybierzemy z kolumny T1 ylko przypadki śmierelne. Uworzymy wekor śmierć, kóry będzie zawierał ylko przypadki śmierelne: 8

Wyrażenie w nawiasach kwadraowych nazywane jes indeksem wekora i pokazuje, kóre elemeny wekora nas ineresują. Porzebujemy przypadków śmierelnych, więc odwołujemy się do ych elemenów kolumny T1, dla kórych kolumna Tid1 ma warość 1. Porzebujemy jeszcze wekora określającego saus danych z wekora śmierć. Tworzymy wekor saus: Tym razem bierzemy e elemeny kolumny Tid1, kóre mają warość 1. Ławo zauważyć, że wekor saus zawiera dokładnie yle elemenów, co wekor śmierć. Funkcja, kórej użyjemy do esymacji S (), znajduje się w pakiecie survival. Pakie en rzeba najpierw zainsalować (menu Packages Insall packane(s) from local zip files ), a poem załadować za pomocą polecenia library : Dopiero eraz możemy używać wielu ważnych funkcji analizy przeżycia. Esymację S () wykonamy za pomocą funkcji survfi : Funkcja survfi służy do esymacji funkcji przeżycia dla ocenzurowanych danych. Konieczne jes użycie funkcji Surv jako argumenu. Funkcja a pozwala pakieowi R rozpoznanie danych do analizy przeżycia. Jej argumeny o, w ym przypadku, wekor śmierć zawierający czasy życia oraz wekor saus określający czy pacjen umarł, czy wycofał się z badań. Ponieważ rozważamy ylko przypadki śmierelne, nasz wekor saus składa się z samych 1. Symbol ~1 oznacza, że chcemy wykorzysać nasze dane do sworzenia ylko jednej krzywej esymującej. 9

Zobaczmy eraz, jak wygląda wykres empirycznej funkcji przeżycia dla naszych danych. Do rysowania wykresów używamy polecenia plo : Funkcja main pozwala dodać yuł do wykresu, polecenie xlab umożliwia nazwanie osi x, a col określa kolor krzywej. Efek użycia powyższej komendy wygląda ak: Ciągła niebieska linia o S ˆ (), linie przerywane oznaczają 95% przedział ufności dla ego esymaora. Ławo zauważyć, że największa śmierelność wysępuje w czasie pierwszych 500 dni po przeszczepie, a poem sopniowo się zmniejsza. Zobaczmy jeszcze fragmen abelki, kóra zosała wykorzysana do narysowania ego wykresu. Możemy ją uzyskać za pomocą polecenia summary : 10

agłówek n.risk oznacza liczbę osób pozosałych przy życiu, aż do wysąpienia kolejnej śmierci, kolumna ime zawiera czas wysąpienia ej śmierci, a kolumna n.even o liczba osób, kóre umarły w ym czasie. Kolumna survival oznacza przybliżoną warość empirycznej funkcji przeżycia, a kolumny lower 95% CI i upper 95% CI zawierają odpowiednio lewy i prawy koniec jej przedziału ufności. Kolumna sd.err o błąd sandardowy esymaora. Ważną rolę w analizie przeżycia odgrywa funkcja hazardowa h(), zwana akże funkcją inensywności śmierci: P( T T ) F( ) F( ) h ( ) lim lim 0 0 S() F '( ) f ( ). S( ) S( ) (1.18) Funkcję hazardową można rozumieć jako inensywność ego, że zdarzenie nasąpi w nasępnej chwili. Pozwala ona zobaczyć, jak szansa zaobserwowania zdarzenia zmienia się w czasie. Zauważmy ponado, że: Sąd: S'( ) h ( ). S () (1.19) h( u) du 0 S( ) e. (1.20) 1.2 Oznaczenia akuarialne Powróćmy eraz do zmiennej losowej T x określającej przyszły czas życia x laka. Wprowadzimy kilka oznaczeń akuarialnych, kóre uławią nam analizowanie długości jego 11

życia. Będziemy podawać oznaczenia kolejno, dołączając do nich pomocne wyprowadzenia i dodając kilka słów wyjaśnienia. I. P( T x ) S( x ) p P( T ) P( T x T x). P( T x) S( x) x x (1.21) Jak widać z pierwszej równości p x oznacza prawdopodobieńswo, że x laek przeżyje kolejne la. Druga równość pokazuje, jak można zapisać zmienną T x za pomocą zmiennej T, a rzecia równość o wzór na prawdopodobieńswo warunkowe. Osania równość wynika z definicji (1.2). II. q P( T ) P( T x T x) x x P( x T x ) P( T x) 1 P( T x) P( T x ) 1 1 P( T x) P( T x ) P( T x) P( T x) P( T x) P( T x ) S( x) S( x ). P( T x) S( x) (1.22) q x oznacza prawdopodobieńswo, że x laek umrze przed upływem kolejnych la. Jak ławo zauważyć: qx 1 p x. (1.23) III. q P x ( s T s x ). (1.24) s s q x o prawdopodobieńswo, że x laek przeżyje kolejne s la i umrze w ciągu nasępnych la. Ze wzoru (1.21) wynika, że s q x można zapisać jako: q P ( T s x x ) P ( T s x ) p p q q s x s x s x s x. (1.25) s IV. [ ] q P( T s T s) x s x x q q q s x s x s x p p s x s x. P( s Tx s) P( T s) x (1.26) q [x]+s oznacza prawdopodobieńswo, że x laek umrze przed upływem +s la, pod warunkiem, że x laek przeżył kolejnych s la. W rzeciej i czwarej równości używamy wzorów (1.24) i (1.25). 12

P( Tx s ) s px p P( T s T s). P( T s) p V. [ x] s x x x s x (1.27) p [x]+s o prawdopodobieńswo, że x laek przeżyje +s la, pod warunkiem, że przeżył kolejnych s la. Oczywiście: q 1 p. (1.28) [ x] s [ x] s VI. m x x S( x) S( x ). x S( u) du m x oznacza cenralne naężenie zgonów. (1.29) VII. [ ] fx() S () x x x h ( ). (1.30) µ [x]+ zwane jes inensywnością śmierelności albo naężeniem śmierelności dla x laka w chwili od obecnego momenu. Ławo zauważyć, że naężenie śmierelności odpowiada funkcji hazardowej x laka. Ponado, analogicznie, jak we wzorze (1.19) mamy: S '( ) d log S ( ) ' log p, x [ x] x x Sx() d (1.31) a sąd, jak we wzorze (1.20): x [ x] 0. u du p e (1.32) VIII. ex fx( ) d fx( ) d 1 Fx ( ) ' d (1.33) 0 0 0 0 1 F ( ) 1 F ( ) d S ( ) d P( T x T x) d p d. x x 0 x x 0 0 0 e x nazywamy średnią czasu życia x laka. Wyraża się ona przez warość 13

oczekiwaną gęsości jego czasu życia. Używając wzoru na całkowanie przez części, możemy zapisać ę średnią jako całkę z p x. 1.3 Przykładowe rozkłady życia Teraz przedsawimy przykłady rozkładów zmiennej losowej T. Zauważmy, że wszyskie e rozkłady mają nośnik (0, ). Rozkład jednosajny (prawo de Moivere a) a począek załóżmy, że T ma rozkład jednosajny U[a,b]. Żeby móc zasosować en rozkład do zmiennej, kóra określa czas upływający do nasąpienia jakiegoś wydarzenia, rzeba odpowiednio dobrać sałe określające końce przedziału. auralnym wyborem wydaje się podsawienie: a = 0 (momen od kórego zaczynamy liczyć czas) oraz b = ω (ω o maksymalny możliwy czas upływający do nasąpienia wydarzenia). Przy ak określonym przedziale rozkład jednosajny oznacza, że prawdopodobieńswo nasąpienia wydarzenia jes sałe w każdym punkcie przedziału. Takie podejście do czasu życia zaproponował de Moivere w 1729 roku. Zaem gęsość naszej zmiennej T wyraża się wzorem: f() 1 dla [0, ], 0 dla [0, ]. (1.34) Funkcję przeżycia możemy orzymać, całkując ę gęsość: 1 dla 0, S( ) f ( u) du dla (0, ], 0 dla. (1.35) Funkcję hazardową wyliczymy za pomocą funkcji przeżycia: d f ( ) 1 1 h( ) log S( ), [0, ]. d S() (1.36) Poza ym: p x S( x ) ( x ) 1. S( x) x x (1.37) 14

q 1 p. x x x (1.38) Za pomocą pakieu R narysujemy eoreyczną funkcję przeżycia dla ω = 100. Wykresy funkcji rysujemy, korzysając z komendy curve : Pierwszy paramer komendy curve określa funkcję, kórą chcemy narysować. Funkcja punif(x, 0, 100) oznacza dysrybuanę rozkładu jednosajnego z paramerami 0, 100. Drugi i rzeci paramer komendy curve o zakres osi OX widoczny na rysunku. Paramery: col, main, xlab i ylab są akie same, jak dla komendy plo. Efek działania polecenia curve widzimy poniżej: 15

Rozkład wykładniczy iech T ma rozkład wykładniczy z gęsością: f ( ) e, 0 (1.39) i dysrybuaną: F( ) 1 e, 0. (1.40) Wedy S( ) 1 F( ) e, (1.41) f() h ( ), S () (1.42) p S( x ) e S( x) e ( x ) x x e. (1.43) Ciekawy jes fak, że prawdopodobieńswo ego, że x laek przeżyje kolejne la, jes akie samo jak funkcja przeżycia, czyli prawdopodobieńswo ego, że śmierć, niezależnie od wieku, nasąpi po upływie czasu. Ta własność, charakerysyczna dla rozkładu wykładniczego, nosi nazwę braku pamięci. Można ją zapisać w nasępujący sposób: P( T x T x) P( T ). (1.44) Posępując jak powyżej narysujemy eoreyczną funkcję przeżycia dla ego rozkładu dla λ = 0,03: Komenda pexp(x, 0.03) oznacza dysrybuanę rozkładu wykładniczego, gdzie λ = 0,03. 16

Rozkład Gomperza (1824 r.) Rozkład en bardzo dobrze się sprawdza przy modelowaniu czasu życia osób w podeszłym wieku, ponieważ jego funkcja hazardowa bardzo szybko rośnie. Zakładamy uaj, że funkcja hazardowa jes posaci: h( ) Bc, (1.45) gdzie B > 0 i c > 1 o współczynniki dobrane do konkrenego modelu. Pakie R nie posiada rozkładu Gomperza, ale mając podany wzór na funkcję hazardową, możemy ją ławo narysować za pomocą polecenia curve. Dla większej przejrzysości komendy, wprowadzimy najpierw sałe: 17

Rysujemy wykres: Ze wzoru na funkcję hazardową możemy wyliczyć funkcję przeżycia: gdzie m B log c. h( u) du 0 mc ( 1) ( ), S e e (1.46) Jej wykres akże narysujemy w pakiecie R: Komenda exp(x) oznacza funkcję f(x) = e x. Wykres wygląda nasępująco: 18

Ze wzoru na funkcję przeżycia można idenyfikować prawdopodobieńswo ego, że x laek przeżyje kolejne la: p x S( x ) Sx ( ) e x x m( c c ). (1.47) Rozkład Makehama (1860 r.) Makeham poprawił rozkład Gomperza, dodając do jego funkcji hazardowej pewną sałą: gdzie B > 0, A > - B, a c > 1. h( ) A Bc, (1.48) Przyjmuje się, że 6 3 A (0,001; 0,003), B (10 ; 10 ), c (1,07 ; 1,12). Posępując jak wyżej, orzymujemy: A m( c 1) S( ) e, (1.49) x x A m( c c ) px e. (1.50) Waro przyjrzeć się różnicy pomiędzy eoreycznymi funkcjami przeżycia Gomperza i Makehama. arysujemy ich wykresy na jednym rysunku, ale najpierw wprowadzimy sałą A = 0,002: 19

Pierwsze polecenie curve narysuje na zielono funkcję przeżycia Makehama dla sałych: A = 0,002, B = 10-3,4, c = 1,075. Drugie polecenie curve narysuje na niebiesko funkcję przeżycia Gomperza dla ych samych sałych. Argumen add=t spowoduje narysowanie drugiego wykresu na ym samym rysunku. Komenda legend pozwala umieszczać legendę na rysunku. Pierwsze dwa argumeny o wekory określające odpowiednio współrzędne x i y (pierwszy wekor współrzędne x, drugi wekor współrzędne y) lewego dolnego oraz prawego górnego rogu legendy. Trzeci wekor zawiera eks, jaki ma się pojawić w legendzie. Polecenie pch umożliwia wsawienie przy ekście znaków, a argumen col pozwala określić ich kolor. Można eż zmienić kolor ła legendy za pomocą komendy bg. Efek działania powyższych funkcji wygląda nasępująco: Rozkład Weibulla (1939 r.) Weibull wprowadził funkcję hazardową posaci: gdzie k > 0 i c > 0 o sałe dobrane do konkrenego modelu. c h( ) k, (1.51) 20

Wedy: k gdzie, c 1 oraz: c 1 S( ) e, (1.52) ( x) c 1 c 1 x p e. (1.53) x Rozdział 2 Esymaor Kaplana Meiera Załóżmy, że mamy próbę obieków. Częso zdarza się, że mamy do czynienia z danymi pogrupowanymi, zn. nie znamy dokładnego czasu (i), kóry upłynął do nasąpienia wydarzenia dla i-ego obieku, a jedynie wiemy, w jakim przedziale czasowym owo wydarzenie nasąpiło. Przedziały e są posaci [ i, i+1 ), gdzie i = 0, 1, 2,,k 1 oraz 0 0 1 2... k. a przykład w badaniach klinicznych pacjenci zgłaszają się na badanie co pewien usalony okres czasu i ylko w ych momenach wiemy, ile osób umarło. W akim wypadku nie możemy posłużyć się empiryczną funkcją przeżycia, ale możemy wprowadzić w jej wzorze modyfikacje, kóre umożliwią nam esymację funkcji przeżycia. iech d i oznacza liczbę obieków, dla kórych wydarzenie nasąpiło w przedziale [ i, i+1 ), i = 0, 1, 2,,k 1. Modyfikując wzór (1.8), orzymujemy: 1 dla, i 1 d S dla 0 dla. j ˆ ( ) 1 j 0 i i 1, 1 k (2.1) Dla należącego do przedziału [ i, i+1 ) mamy: i 1 i 1 d d j j ˆ ( ) 1 j 0 j 0. S (2.2) i 1 Podsawmy R d, wówczas: i j 0 j 21

ˆ R ( ) i S. (2.3) R i jes o zw. grupa ryzyka, czyli liczba osób narażonych na ryzyko śmierci na począku przedziału [ i, i+1 ). Zauważmy, że: R 0, R d R d 1 0 0 0 R d d R d, 2 0 1 1 1, (2.4) R R d. i 1 i i Wedy na mocy (2.4) dla [ i, i 1) orzymujemy: Sˆ () R R R R R R d R d R d R R R R R R i 1 2 3 i 0 0 1 1 i 1 i 1 1 2 i 1 0 1 i 1 d d d R R R 0 1 i 1 1 1 1. 0 1 i 1 (2.5) iech qˆ i di R i będzie akuarialnym esymaorem prawdopodobieńswa śmierci w i-ym przedziale. Podsawiając go do wzoru (2.5) uzyskujemy: i 1 Sˆ ( ) 1 q ˆ. (2.6) j 0 j Definicja (2.6) zwana jes esymaorem Kaplana Meiera. Znajdziemy eraz wariancję esymaora Kaplana Meiera, posługując się wzorem na wariancję empirycznej funkcji przeżycia. Zgodnie ze wzorem (1.17) wygląda ona nasępująco: ˆ 1 Var S ( ) ˆ ( ) 1 ˆ S S ( ). Podsawiając S ˆ () Ri ze wzoru (2.5), orzymujemy: 22

2 2 2 ˆ 1 R 1 1 1 ( ) i R 1 i Ri R 1 i Var S R R Ri 1 1 1 1 1 1 1 R R R R R R Sˆ () i i 1 i 1 i 2 i 2 1 R R R i R R R R 2 i 1 2 i 1 1 1 ˆ () j j 1 S j 0 j 1 j j 0 j j 1 d R 2 i 1 2 i 1 j j j S j 0 R 1 j 0 ˆ j R j R j R j p j i 1 1 ˆ ˆ q ( ). i (2.7) Podsumowując: 2 i 1 1 ˆ ˆ ( ) ˆ q j VarS S( ). R pˆ j 0 j j (2.8) Powyższa ożsamość jes eż nazywana formułą Greenwooda. Zauważmy, że: pˆ i ˆ d R d R i i i i 1 1 qi 1. Ri Ri Ri (2.9) Zobaczymy jeszcze, jak zmieni się z esymaor Kaplana Meiera, gdy założymy, że znamy momeny nasąpienia danego wydarzenia. W akim wypadku nauralne wydaje się zmniejszanie długości przedziałów [ i, i+1 ) ( i+1 dąży do i ), co spowoduje, że uzyskamy sale zwiększającą się liczbę coraz mniejszych przedziałów [ i, i+1 ). W pewnym momencie w każdym przedziale nasąpi co najwyżej jedno wydarzenie, zaem d i = 1 lub d i = 0 dla każdego i. Te przedziały, w kórych nie nasąpiło wydarzenie, łączymy z ymi, w kórych owo wydarzenie nasąpiło. Zaem osaecznie w każdym przedziale mamy d i = 1 (jedno wydarzenie), a liczba przedziałów odpowiada liczbie zdarzeń. Sąd i 1 i 1 R d 1 i. i j j 0 j 0 Ponado na mocy wzoru (2.6) dla [ i, i 1) mamy: i 1 1 ˆ d i 1 1 2 ( () ) 1 j i i S i 1 1. R j 1 j 0 j j 0 (2.10) Widzimy zaem, że empiryczna funkcja przeżycia jes esymaorem Kaplana Meiera, co powierdza nasze inuicje. 23

Policzymy esymaor Kaplana Meiera dla pogrupowanych danych w pakiecie R. Ineresują nas czasy śmierci pacjenów po przeszczepie szpiku kosnego zebrane w wekorze śmierć. a począku musimy wyznaczyć liczbę przedziałów. W saysyce przyjmuje się, że liczba przedziałów powinna w przybliżeniu odpowiadać pierwiaskowi z liczby obserwacji. Oznaczmy przez n liczbę obserwacji, a przez k liczbę przedziałów. Za pomocą programu R wyliczamy: Funkcja lengh oblicza liczbę elemenów wekora. Komenda sqr znajduje pierwiasek drugiego sopnia. Podzielimy nasze dane na 9 przedziałów. Do wyznaczenia ich długości b użyjemy wzoru xmax xmin b, gdzie x max i x min oznaczają odpowiednio największą i najmniejszą obserwację. k Ponieważ chcemy zacząć pierwszy przedział od 0, przyjmujemy, że nasze x min = 0: Funkcja max znajduje największy elemen wekora. Dla uproszczenia obliczeń przybliżymy długość przedziału do 245. Pozosaje już nam ylko pogrupowanie danych w 9 przedziałów o długości 245 każdy. Zrobimy o przy pomocy komendy cu, ale najpierw uworzymy wekor zawierający końce naszych przedziałów: Funkcja cu dzieli wekor śmierć na przedziały o końcach, kórymi są elemeny wekora końce. Trzeci argumen określa, czy przedziały mają być prawosronnie domknięe, czy lewosronnie domknięe. Efek działania funkcji widzimy poniżej: 24

Powsał wekor, kórego elemenami są przedziały, do kórych wpadają odpowiednie elemeny wekora śmierć. Waro zauważyć, że po przekroczeniu 1000 komenda cu zwraca ylko przybliżenia końców przedziałów, jednak nie wpływa o na grupowanie dane nadal są grupowane do przedziałów, kórych dokładne końce wyznaczyliśmy. Wekor przedziały zawiera informację, do jakiego przedziału wpada każda obserwacja, ale na pierwszy rzu oka nie widzimy, ile dokładnie obserwacji wpada do każdego przedziału. Bardzo pomocna jes uaj funkcja able : Komenda able liczy dokładnie, ile obserwacji znajduje się w każdym przedziale. Ponieważ funkcja survfi wyznacza esymaor Kaplana Meiera dla dokładnych danych (zn. empiryczną funkcję przeżycia), musimy sworzyć wekor czasów śmierci, kóry będzie się składał z samych końców przedziałów (ylko w ych momenach znamy liczbę osób zmarłych w przedziale): 25

Funkcja rep generuje ciągi liczbowe. Jej pierwszy argumen oznacza liczbę użyą do worzenia ciągu, a drugi mówi, ile razy ą liczbę chcemy powórzyć. W naszym przypadku liczbą jes prawy koniec przedziału, a ilość powórzeń o liczba obserwacji w ym przedziale. Teraz pozosaje nam już ylko powórzyć procedurę użyą do liczenia empirycznej funkcji przeżycia: a rysunku widać wyraźnie, że obserwacje zosały podzielone na przedziały równej długości. Wielkość uskoków pomiędzy nimi pozwala oszacować śmierelność. 26

Zobaczmy jeszcze abelkę, na podsawie kórej powsał en wykres: Dla dokładnego porównania esymaora Kaplana Meiera i empirycznej funkcji przeżycia obejrzymy je na jednym rysunku. iesey, nie możemy zrobić ego ak, jak dla polecenia curve, gdyż add nie jes argumenem funkcji plo. Możemy jednak oszukać program, wmawiając mu, że nasze obserwacje pochodzą z dwóch różnych grup. W ym celu worzymy wekor grupa, kóry przypisze każdej obserwacji numer grupy: Teraz przypiszemy dokładne momeny śmierci do grupy pierwszej, a przedziałowe do grupy drugiej. Tworzymy wekor śmierć3 analogiczny do wekora grupa: Pozosaje jeszcze usalić saus danych. Tuaj analizujemy jedynie przypadki śmierelne: 27

Możemy już narysować wykres: Słowa wyjaśnienia wymaga oznaczenie ~grupa. Pozwala ono na porównywanie kilku esymaorów na jednym obrazku. W naszym przypadku są o dwa esymaory, ponieważ wekor grupa zawiera numery dwóch grup. Argumen col w funkcji plo jes wekorem dwuelemenowym, gdyż chcemy narysować dwa esymaory, każdy innym kolorem. Efek działania ych komend widzimy poniżej: Jak widać esymacja przedziałowa nie daje zby dokładnych wyników, pozwala jednak zorienować się, jak mniej więcej wygląda funkcja przeżycia. Przypomnijmy eraz syuację, kórą analizowaliśmy. Mamy próbę obieków. Dane są pogrupowane w przedziałach [ i, i+1 ), d i oznacza liczbę obieków, dla kórych wydarzenie nasąpiło w przedziale [ i, i+1 ). Taka syuacja nie wyczerpuje jednak wszyskich możliwości. Możliwe jes akże, że z jakiegoś powodu część obieków zosanie wycofana w kórymś momencie badania. W przypadku badań klinicznych, decyzję o wycofaniu się podejmują sami pacjenci. Oczywiście moglibyśmy odrzucić e niekomplene obserwacje ak, jak o zrobiliśmy 28

w przykładach powyżej, ale zmniejszy o nam próbę, a ponado spowoduje rezygnację z informacji, jakie możemy z ych obserwacji wyciągnąć. Dlaego saysycy znaleźli sposób, żeby aką syuację uwzględnić w esymaorze Kaplana Meiera. Oznaczmy przez w i liczbę obieków, kóre zosały wycofane z badań w przedziale [ i, i+1 ), a przez * ij momen wycofania j-ego obieku w ym samym przedziale. Ponado wyliczmy długość przedziału za pomocą wzoru hi i 1 i. Zmodyfikowany wzór na grupę ryzyka wygląda nasępująco: gdzie * * ij i ij hi oraz w i R R (2.11) * i i 1 ij, j 1 R 0, R R d w i i 1 i 1 i 1. (2.12) Oznaczenie R i rozumie się uaj jako ilość obieków na począku przedziału [ i, i+1 ). Wedy: d (0) i ˆ i, Ri q (2.13) a esymaor Kaplana Meiera wyraża się wzorem: i 1 (0) ( ) 1 ˆ j. j 0 Sˆ q (2.14) Może się jeszcze zdarzyć, że nie znamy momenu wycofania obieków z badań. Wiemy jedynie, w kórym przedziale zosały wycofane. Wówczas zakładamy, że obieky zosały wycofane dokładnie w połowie przedziału i posępujemy zgodnie z powyższą procedurą, * 1 podsawiając ij. 2 Pakie R liczy esymaor Kaplana Meiera w nieco inny sposób. Za końce przedziałów bierze dokładne momeny nasąpienia wydarzenia, a nasępnie zakłada, że wszyskie obieky wycofane, zosały wycofane na końcu przedziału i przyjmuje * ij 1. Ponieważ przedział wyznaczają dokładnie momeny nasąpienia wydarzenia, w każdym przedziale nasąpi dokładnie jedno wydarzenie, co implikuje d i = 1 dla każdego i. Sąd ilość obieków na począku przedziału [ i, i+1 ) wyraża się wzorem: 29

i 1 i 1 i 1 R d w i w. (2.15) i j j j j 0 j 0 j 0 A z powyższego możemy zapisać grupę ryzyka w nasępujący sposób: wi i 1 * i i 1 ij j 0 i. j 1 j 0 R R i w R (2.16) Wówczas: d d (0) i i qˆ i, i 1 Ri Ri i wj j 0 1 (2.17) oraz: i 1 1 Sˆ ( ) 1 j 1. j 0 j w k 0 k (2.18) Policzymy w en sposób esymaor Kaplana Meiera dla naszych danych, ym razem uwzględniając również ocenzurowane obserwacje. Ineresuje nas kolumna T1, kóra zawiera momeny śmierci lub wycofania się z badań pacjenów po przeszczepie oraz kolumna Tid1, zawierająca saus pacjena: 30

Esymaor Kaplana Meiera liczymy w aki sam sposób, jak wcześnej: Symbole + oznaczają dane ocenzurowane, czyli dokładny czas wycofania się pacjenów z badań. Zwraca uwagę fak, że esymaor maleje powoli, zwłaszcza po przekroczeniu 500 dni badań. Przyczyną ego zjawiska jes duże zagęszczenie obserwacji ocenzurowanych w sosunku do małej liczby przypadków śmierelnych wysępujących w ym czasie. Obejrzyjmy jeszcze fragmen abelki, kóra posłużyła do narysowania ego wykresu: 31

Waro porównać na jednym rysunku wykresy esymaorów Kaplana Meiera dla danych nie uwzględniających obserwacji ocenzurowanych oraz dla danych uwzględniających akie obserwacje, żeby zobaczyć, jaki wpływ na esymaor Kaplana Meiera ma cenzura: 32

Widzimy, że esymaor Kaplana Meiera dla danych ocenzurowanych przyjmuje dużo większe warości niż en sam esymaor dla danych bez cenzury. Wynika z ego, że nawe obserwacje niepełne mogą wiele wnieść do badań i przyczynić się do uzyskania bliższego rzeczywisości esymaora funkcji przeżycia. Rozdział 3 Tesy dla dwóch prób Esymaor Kaplana Meiera pozwala na obejrzenie przybliżonego wykresu funkcji przeżycia i wyciągnięcia wsępnych wniosków, ale częso nie wysarczy, żeby określić czy dwie próby mają aki sam rozkład, czy nie. Bierze się o sąd, że nawe, gdy narysujemy wykresy esymaorów Kaplana Meiera dla dwóch grup na jednym rysunku, rudno nam będzie określić, czy odległość pomiędzy nimi jes saysycznie isona. Żeby mieć co do ego pewność, musimy zasosować es dla dwóch prób. 3.1 Tes Wilcoxona Tes Wilcoxona o jeden z podsawowych esów saysycznych służących do porównywania rozkładów dwóch prób bez uwzględniania cenzury. Tes en weryfikuje hipoezy: H : F F 0 1 2 H : F F. 1 1 2 F 1 i F 2 o dysrybuany rozkładów w próbach. Hipoeza zerowa oznacza, że próby mają ę samą dysrybuanę, a zaem aki sam rozkład, a hipoeza alernaywna wskazuje na różnicę rozkładów. Odrzucenie hipoezy zerowej pozwala swierdzić, że rozkłady się różnią, ale nie daje żadnych informacji o ym, w jaki sposób się różnią. Żeby zdobyć dokładniejsze informacje, waro porównać esymaory Kaplana Meiera obu prób. Tes Wicoxona jes esem rangowym, w związku z czym musimy nadać rangę każdej obserwacji, czyli pousawiać łącznie dane obu prób w kolejności rosnącej, zaznaczając kóra dana należy do kórej próby. Jeśli dwie lub więcej obserwacji mają ę samą warość, nadajemy im wszyskim rangę będącą średnią arymeyczną hipoeycznych rang ych obserwacji. asępnie liczymy W 1 sumę rang obserwacji z pierwszej próby, a poem jej warość oczekiwaną i wariancję: 1 EW1 1 1 2 1, (3.1) 2 1 Var W1 12 1 2 1. (3.2) 12 33

1 i 2 o liczności odpowiednio pierwszej i drugiej próby. Dobrze, jeśli obie zawierają co najmniej 30 obserwacji. Saysyka esowa wyraża się wzorem: Z W EW 1 1 VarW 1 0,1. (3.3) Saysyka Z ma sandardowy rozkład normalny. Zaem p-warość (najmniejszy poziom isoności esu, dla kórego, przy danej warości saysyki, odrzucamy hipoezę zerową) możemy zapisać w nasępujący sposób: p 2P Z z 2 1 ( z) dla z 0, 2 ( z) dla z 0, (3.4) gdzie Φ(z) jes dysrybuaną sandardowego rozkładu normalnego (0,1), a zmienna z oznacza warość saysyki esowej Z. Zazwyczaj odrzucamy hipoezę zerową, gdy p < 0,05. Można poprawić przybliżenie p-warości sosując meodę zwaną coninuiy correcion. Jeśli W 1 jes liczbą całkowią, zakładamy, że zajmuje ona cały przedział [W 1 0,5; W 1 + 0,5) i do saysyki Z wsawiamy lewy koniec ego przedziału, czyli W 1 0,5. Wówczas saysyka Z ma posać: Z W 0,5 1 1 VarW EW 1 0,1. (3.5) Za pomocą esu Wilcoxona w pakiecie R sprawdzimy, czy odrzucenie przeszczepu (oznaczane po angielsku skróem gvhd graf-versus-hos desease ) wpływa na długość życia. Ponieważ es Wilcoxona nie uwzględnia cenzury, założymy, że momen wycofania się z badań pacjena jes jego momenem śmierci. a począek musimy znaleźć ineresujące nas wekory: Odrzucenie przeszczepu ma dwa sadia: osry (kolumna ida) i chroniczny (kolumna idc). as ineresuje ylko fak, czy przeszczep zosał odrzucony, czy nie, dlaego do wekora gvhp bierzemy e czasy śmierci, dla kórych wysąpiło osre lub chroniczne odrzucenie 34

przeszczepu. Oczywiście warość 1 oznacza, że przeszczep zosał odrzucony (0 przeszczep nie zosał odrzucony), a symbol o spójnik logiczny lub. Podobnie worzymy wekor gvhn: Symbol & oznacza spójnik logiczny i, używamy go, gdyż chcemy wybrać wszyskie przypadki, gdzie nie wysąpiło żadne sadium odrzucenia przeszczepu. Porównamy eraz esymaory Kaplana Meiera dla obu wekorów: 35

Trudno określić, czy różnica pomiędzy ymi rozkładami jes saysycznie isona. Zasosowanie esu Wilcoxona rozsrzygnie ę kwesię: Warość p jes za duża, żeby odrzucić hipoezę zerową. Oznacza o, że nie ma saysycznie isonych różnic w długości życia pomiędzy pacjenami, u kórych nasąpiło odrzucenie przeszczepu, a pacjenami, u kórych przeszczep nie zosał odrzucony. 3.2 Tes Gilbera Gehana Tes Gilbera Gehana służy do porównywania dwóch prób z uwzględnieniem danych ocenzurowanych. Hipoezy weryfikowane przez en es są akie, jak w przypadku esu Wilcoxona: H : F F 0 1 2 H : F F. 1 1 2 iech i,1 oznacza momen nasąpienia wydarzenia dla i-ej obserwacji w pierwszej próbie, a j,2 momen nasąpienia wydarzenia dla j-ej obserwacji w drugiej próbie. Jeśli obiek zosał wycofany, wyróżniamy go przez dodanie gwiazdki: * i,1, * j,2. Musimy eraz porównać każdą obserwację z pierwszej próby z każdą obserwacją z drugiej próby. ajlepiej robić o w abelce: 1,2 2,2 II 2,2 1,1 I 2,1 1,1 36

Do abelki wpisujemy: a) 1 dla i,1 j,2 lub b) 0 dla i,1 j,2 lub c) -1 dla i,1 j,2 lub, * i,1 j,2, lub * i,1 j,2. * i,1 j,2, * i,1 j,2 asępnie liczymy U 1 sumę liczb w abelce, a poem W 1 opisane wzorem: 1 W1 U1 1 1 2 1 (3.6) 2 oraz saysykę esową: Z W EW 1 1 VarW 1 0,1. (3.3) Warość oczekiwaną i wariancję W 1 liczymy według wzorów (3.1) i (3.2), jak w eście Wilcoxona. Saysyka Z również ma aką samą posać, więc p-warość liczymy za pomocą wzoru (3.4). Przeprowadzimy w pakiecie R es Gilbera Gehana dla ych samych danych, dla kórych przeprowadziliśmy es Wilcoxona, żeby sprawdzić, czy uwzględnienie cenzury wpłynie na wynik esu. Musimy uworzyć wekory określające, czy pacjen umarł, czy wycofał się: Porównamy eraz esymaory Kaplana Meiera pacjenów, u kórych nasąpiło odrzucenie przeszczepu (wekor gvhp) oraz pacjenów, u kórych przeszczep nie zosał odrzucony (wekor gvhn): 37

Gdyby okazało się, że różnica pomiędzy ymi rozkładami jes saysycznie isona, wynikałoby z ego, że pacjenci, u kórych nasąpiło odrzucenie przeszczepu żyją dłużej niż pacjenci, u kórych przeszczep nie zosał odrzucony. Pozosaje nam zrobić es Gilbera Gehana, żeby sprawdzić, czy a różnica jes isona. iesey, pakie R nie ma ego esu. Zaem jeseśmy zmuszeni napisać króki program. ajwygodniej jes programować w pliku eksowym, a poem wczyywać plik do pamięci pakieu R za pomocą komendy source, co pozwala na szybkie i wygodne wprowadzanie poprawek w kodzie, bez konieczności ciągłego kopiowania całego programu. Zanim zaprogramujemy es Gilbera - Gehana, pokażemy podsawowe srukury i komendy przydane w programowaniu w R: I. Funkcja f=funcion(x) { y=x+2 ca("y=",y,"\n",sep="") Funkcje umożliwiają używanie programu dla wielu danych. Wysarczy zdefiniować zmienne jako argumeny komendy funcion, a program wykona 38

z nimi wszysko, co znajduje się pomiędzy nawiasami klamrowymi. Możemy używać dowolnej ilości zmiennych. Powyższa funkcja dla podanej warości x liczy warość y równą x + 2. Komenda ca służy do wyświelania eksu i liczb. Teks musimy umieścić w cudzysłowie (w przypadku każdej innej komendy wyświelającej eks eż musimy o zrobić) i oddzielić go od liczb przecinkami. Symbol \n wpisany jako eks oznacza koniec wiersza. Argumen sep="" powoduje usunięcie separaorów (spacji) pomiędzy eksem, a liczbą. Zapiszemy ę funkcję w pliku eksowym funkcja.x i wczyamy do pamięci programu R za pomocą komendy source. Musimy podać dokładną ścieżkę dosępu: Żeby uruchomić program, wysarczy wpisać nazwę funkcji i podać porzebne zmienne: Gdyby zaszła porzeba wprowadzenia zmian w kodzie programu, musimy je wprowadzić w pliku eksowym, zapisać en plik i ponownie wczyać do pamięci poleceniem source. II. Srukury warunkowe: 1. if(...) {... else {... Gdy zosanie spełniony warunek (w nawiasie po if ) program wykona wszysko, co znajduje się w nawiasie klamrowym między if, a else. W przeciwnym wypadku program zrealizuje zawarość nawiasu klamrowego po else. 2. if(...) { sop(pase(...)) Gdy zosanie spełniony warunek, program się zarzyma i wyświeli komunika zawary w nawiasie po pase. 39

III. Pęla: for(i in 1:10) {... Program dla wszyskich i (w ym przypadku od 1 do 10, ale można podać dowolny zakres) zrealizuje zawarość nawiasu klamrowego. IV. deparse(subsiue(x)) Bardzo użyeczne komendy, kóre pozwalają odwołać się do nazwy obieku, a nie do jego zawarości. Komenda subsiue znajduje ę nazwę, a komenda deparse zapisuje ją jako eks. Teraz mamy już wszyskie porzebne informacje do zaprogramowania esu Gilbera Gehana. Zapiszemy kod programu w pliku gg.es.x. Ukończony program wygląda nasępująco: gg.es=funcion(x,x1,y,y1) { if(lengh(x)!=lengh(x1)) { sop(pase("x i x1 są różnej długości.")) if(lengh(y)!=lengh(y1)) { sop(pase("y i y1 są różnej długości.")) for (i in 1:lengh(x)) { if(x[i]<0) { sop(pase("x[",i,"]=",x[i]," - ujemna obserwacja.\n Wszyskie obserwacje muszą być nieujemne.",sep="")) for (i in 1:lengh(x1)) { if(x1[i]!=0 & x1[i]!=1) { sop(pase("x1[",i,"]=",x1[i]," - nieznany elemen wekora x1. Dopuszczalne elemeny:\n 0-obiek zosał wycofany, 1-nasąpiło wydarzenie.",sep="")) for (i in 1:lengh(y)) { if(y[i]<0) { sop(pase("y[",i,"]=",y[i]," - ujemna obserwacja.\n Wszyskie obserwacje muszą być nieujemne.",sep="")) for (i in 1:lengh(y1)) { if(y1[i]!=0 & y1[i]!=1) { sop(pase("y1[",i,"]=",y1[i], " - nieznany elemen wekora y1. Dopuszczalne elemeny:\n 0-obiek zosał wycofany, 1-nasąpiło wydarzenie.",sep="")) U1=0 for (i in 1:lengh(x)) { for ( j in 1:lengh(y)) { if(x1[i]==1 & y1[j]==1) { if(x[i]>y[j]) { 40

m=1 else { if(x[i]==y[j]) { m=0 else { m=-1 else { if(x1[i]==0 & y1[j]==1) { if(x[i]>=y[j]) { m=1 else { m=0 else { if(x1[i]==1 & y1[j]==0) { if(x[i]>y[j]) { m=0 else { m=-1 else { m=0 U1=U1+m ca("\ntes Gilbera - Gehana\n\n") ca("dane:",deparse(subsiue(x)),"i",deparse(subsiue(y)),"\n") ca("u1=",u1,"\n",sep="") W1=1/2*(U1+lengh(x)*(lengh(x)+lengh(y)+1)) ca("w1=",w1,"\n",sep="") EW1=1/2*lengh(x)*(lengh(x)+lengh(y)+1) ca("e(w1)=",ew1,",",sep="") VarW1=1/12*lengh(x)*lengh(y)*(lengh(x)+lengh(y)+1) ca(" Var(W1)=",VarW1,"\n\n",sep="") ca("saysyka esowa:") Z=(W1-EW1)/sqr(VarW1) ca(" Z=",Z,",",sep="") if(z<0) { p=2*pnorm(z) else { p=2*(1-pnorm(z)) ca(" p-warość=",p,"\n",sep="") Dla uławienia zrozumienia sposobu działania ego programu, omówimy poszczególne jego części: gg.es=funcion(x,x1,y,y1) { Program jes funkcją czerech zmiennych nazwaną gg.es. Zmienne x i y o wekory momenów nasąpienia wydarzenia lub wycofania obieku, pochodzące z dwóch prób, kóre 41

chcemy porównać, a zmienne x1 i y1 są wekorami (związanymi z odpowiednio x i y) określającymi, czy nasąpiło wydarzenie (warość 1), czy obiek zosał wycofany (warość 0). if(lengh(x)!=lengh(x1)) { sop(pase("x i x1 są różnej długości.")) if(lengh(y)!=lengh(y1)) { sop(pase("y i y1 są różnej długości.")) To warunki sprawdzające, czy wekory x i x1 oraz y i y1 są ej samej długości. Symbol!= oznacza różne. Takie warunki zabezpieczają użykownika przed błędnymi wnioskami związanymi z pomyłkowym wprowadzeniem nieprawidłowych danych. for (i in 1:lengh(x)) { if(x[i]<0) { sop(pase("x[",i,"]=",x[i]," - ujemna obserwacja.\n Wszyskie obserwacje muszą być nieujemne.",sep="")) for (i in 1:lengh(x1)) { if(x1[i]!=0 & x1[i]!=1) { sop(pase("x1[",i,"]=",x1[i]," - nieznany elemen wekora x1. Dopuszczalne elemeny:\n 0-obiek zosał wycofany, 1-nasąpiło wydarzenie.",sep="")) for (i in 1:lengh(y)) { if(y[i]<0) { sop(pase("y[",i,"]=",y[i]," - ujemna obserwacja.\n Wszyskie obserwacje muszą być nieujemne.",sep="")) for (i in 1:lengh(y1)) { if(y1[i]!=0 & y1[i]!=1) { sop(pase("y1[",i,"]=",y1[i], " - nieznany elemen wekora y1. Dopuszczalne elemeny:\n 0-obiek zosał wycofany, 1-nasąpiło wydarzenie.",sep="")) To pęle i warunki, kóre sprawdzają, czy dane w wekorach x i y są dodanie oraz czy dane w wekorach x1 i y1 mają warość 0 lub 1 kolejne zabezpieczenie przed nieprawidłowymi danymi. U1=0 for (i in 1:lengh(x)) { for ( j in 1:lengh(y)) { if(x1[i]==1 & y1[j]==1) { if(x[i]>y[j]) { m=1 else { if(x[i]==y[j]) { m=0 else { m=-1 42

else { if(x1[i]==0 & y1[j]==1) { if(x[i]>=y[j]) { m=1 else { m=0 else { if(x1[i]==1 & y1[j]==0) { if(x[i]>y[j]) { m=0 else { m=-1 else { m=0 U1=U1+m Ta część programu programuje abelkę. Pęle porównują każdy elemen wekora x z każdym elemenem wekora y, warunki decydują o warości, kóra powinna być wpisana do abelki, a wyrażenie U1 = U1 + m umieszczone w obu pęlach od razu dodaje ą warość do wcześniejszej sumy. Po zakończeniu działania obu pęli U1 będzie sumą wszyskich elemenów w abelce. Ważne, żeby przed pęlami usalić U1 = 0. Zapobiegnie o wliczeniu do ej sumy przez program jakiegoś bliżej nieokreślonego U1, kóre może znajdować się w pamięci pakieu R. ca("\ntes Gilbera - Gehana\n\n") ca("dane:",deparse(subsiue(x)),"i",deparse(subsiue(y)),"\n") ca("u1=",u1,"\n",sep="") W1=1/2*(U1+lengh(x)*(lengh(x)+lengh(y)+1)) ca("w1=",w1,"\n",sep="") EW1=1/2*lengh(x)*(lengh(x)+lengh(y)+1) ca("e(w1)=",ew1,",",sep="") VarW1=1/12*lengh(x)*lengh(y)*(lengh(x)+lengh(y)+1) ca(" Var(W1)=",VarW1,"\n\n",sep="") ca("saysyka esowa:") Z=(W1-EW1)/sqr(VarW1) ca(" Z=",Z,",",sep="") To resza obliczeń (wzory: (3.5), (3.1), (3.2), (3.3)) oraz prezenacja wyników działania programu. if(z<0) { p=2*pnorm(z) else { p=2*(1-pnorm(z)) ca(" p-warość=",p,"\n",sep="") 43

Osania część programu liczy p-warość według wzoru (3.4) oraz wyświela ją. Komenda pnorm znajduje dysrybuanę sandardowego rozkładu normalnego dla warości podanej w nawiasie. Teraz możemy już wczyać nasz program do pamięci pakieu R i zasosować go do sprawdzenia, czy odrzucenie przeszczepu wpływa na długość życia pacjenów: Przypomnijmy sobie p-warość z esu Wilcoxona dla ych samych danych, ale bez cenzury. Wynosiła ona p = 0,1062, co nie pozosawiało wąpliwości, że nie ma podsaw do odrzucenia hipoezy zerowej. Tes Gilbera Gehana wykazał p = 0,051, co jes warością na granicy zwyczajowego poziomu odrzucenia hipoezy zerowej. Musimy się w ym miejscu zasanowić, czy dopuszczamy prawdopodobieńswo podjęcia błędnej decyzji (odrzucenia hipoezy prawdziwej) na poziomie 0,0512, czy eż uznajemy, że prawdopodobieńswo błędu jes zby duże. Wszysko zależy od konsekwencji, jakie mogłyby wyniknąć z popełnionego błędu. W przypadku badania wpływu odrzucenia przeszczepu na długość życia prawdopodobieńswo popełnienia błędu jes zby duże. Przyjmujemy, że odrzucenie przeszczepu nie ma wpływu na długość życia pacjenów. Rozdział 4 Model proporcjonalnej funkcji hazardowej Coxa Tesy dla dwóch prób pozwalają na zbadanie wpływu ylko jednej zmiennej na czas upływający do nasąpienia wydarzenia. Gdy mamy do dyspozycji wiele zmiennych, esowanie w en sposób każdej z nich byłoby bardzo uciążliwe. Możemy uniknąć ej pracy, budując model, kóry pozwoli nam nie ylko ocenić, jakie zmienne mają wpływ na czas upływający do nasąpienia wydarzenia, ale eż określić, jak duży jes en wpływ. Jednym z najbardziej powszechnych modeli jes model Coxa. W ym modelu zakładamy, że funkcja hazardowa definiowana wzorem (1.18) ma posać: i i i 1,, ( ). s z h z h e (4.1) Zauważmy że, funkcja hazardowa zależy od wekora paramerów 1, 2,..., s oraz wekora zmiennych wyjaśniających z = [z 1, z 2,..., z s ]. Czas jes argumenem funkcji hazardowej. 44

iech z k i z l będą dwoma różnymi realizacjami wekora z. Przyjrzyjmy się ilorazowi funkcji hazardowych dla ych wekorów: h,, zk h() e e z... z z... z 1 1k s sk 1 1k s sk h,, z h() e e l z... z z... z 1 1l s sl 1 1l s sl. (4.2) Ławo zauważyć, że iloraz funkcji hazardowych dla dwóch różnych realizacji wekora z nie zależy od czasu. Funkcja hazardowa mająca ę własność jes proporcjonalna. ieznany wekor paramerów β modelu esymujemy za pomocą meody największej wiarygodności. Funkcję wiarygodności dla wekora β możemy wyrazić wzorem: j L h,, z S,, z, (4.3) j 1 ( j) j j ( j) j j gdzie jes liczbą obserwacji w próbie, δ j o indykaor sausu, kóry przyporządkowuje 1, kiedy nasąpiło wydarzenie dla j-ego obieku, a 0 w przeciwnym wypadku. Przypomnijmy, że według wzoru (1.20) funkcja przeżycia ma nasępującą posać: h w,, z dw 0 S,, z e. (4.4) Dla uproszczenia rachunków logarymujemy funkcję wiarygodności: log L log h,, z log S,, z. (4.5) j 1 j ( j) j j ( j) j j Wekor esymaorów największej wiarygodności ˆ ˆ ˆ 1,..., s znajdujemy wyliczając maksima po β i dla i = 1,...,s funkcji log L. Innymi słowy, esymaory ˆi wyliczamy ze wzorów: log L i 0. Znalezienie wekora ˆ nie wysarczy, by uznać model za dobrze opisujący rzeczywisość. Dopasowanie modelu do danych może rozsrzygnąć ylko es saysyczny. Saysyka Walda o jedna z najczęściej używanych saysyk do rozwiązywania ego ypu problemów. 45

Tes Walda weryfikuje hipoezy: H H 0 1 : 0 : 0. Saysyka Walda ma posać: T ˆ ˆ 2 s, Q F (4.6) gdzie F jes macierzową formą Informacji Fishera wyrażaną wzorem: F i, j E log L log L. (4.7) i Saysyka Walda ma rozkład chi kwadra z s sopniami swobody. p-warość możemy zapisać w nasępujący sposób: j p P( Q q ). (4.8) Zobaczymy eraz, jak wygląda model Coxa dla danych doyczących pacjenów po przeszczepie szpiku zbudowany w pakiecie R. Będziemy modelować czas życia pacjenów używając nasępujących zmiennych wyjaśniających: Gr grupa białaczki (1 ALL, 2 AML low-risk, 3 AML high-risk) Tid2 indykaor nawrou białaczki (1 nawró, 0 bez nawrou), ida indykaor osrego sadium odrzucenia przeszczepu (1 przeszczep zosał odrzucony, 0 przeszczep nie zosał odrzucony), idc indykaor chronicznego sadium odrzucenia przeszczepu (1 przeszczep zosał odrzucony, 0 przeszczep nie zosał odrzucony), idp indykaor płyek krwi (1 płyki powróciły do normalnego poziomu, 0 płyki nigdy nie powróciły do normalnego poziomu), Z1 wiek pacjena w laach, Z2 wiek dawcy w laach, Z3 płeć pacjena, Z4 płeć dawcy, Z5 CMV pacjena (1 CMV pozyywne, 0 CMV negaywne), Z6 CMV dawcy (1 CMV pozyywne, 0 CMV negaywne), Z7 czas czekania na przeszczep, Z8 szpial (1 The Ohio Sae Universiy, 2 Alfred, 3 S. Vincen, 4 Hahnemann) Z9 indykaor sosowania leczenia MTX jako profilakyki przeciwko odrzuceniu przeszczepu (1 ak, 0 nie). Do sworzenia modelu Coxa w pakiecie R służy komenda coxph : 46

Jako argumeny funkcji coxph musimy podać zmienną wyjaśnianą w naszym przypadku ocenzurowany czas życia (czas życia i saus połączone komendą Surv ), wszyskie zmienne wyjaśniające zapisane w posaci sumy po ~ oraz nazwę danych, kórych używamy. Model Coxa wygląda nasępująco: 47

Kolumna coef o wekor ˆ paramerów modelu, exp(coef) oznacza ˆ e, se(coef) o błąd sandardowy, a kolumy lower.95 i upper.95 określają końce 95% przedziału ufności. Zmienna n oznacza wielkość próby. Widzimy, że p-warość esu Walda jes bardzo bliska 0, zaem en model jes dobry. Jednakże możemy spróbować uprościć model, odrzucając niekóre zmienne wyjaśniające. Do nowego modelu włączymy e zmienne, dla kórych p-warość w kolumnie Pr(> z ) jes mniejsza od 0,05, czyli wszyskie oznaczone gwiazdkami: p-warość saysyki Walda wskazuje, że model jes dobry. Ponado p-warość saysyki z w kolumnie Pr(> z ) jes dla każdej zmiennej mniejsza od 0,05, z czego wynika, że bardziej upraszczać modelu nie ma już sensu. Osaecznie nasz model jes posaci: h z h e 1,014 Tid 2 0,741 ida 0,795 idc 1,052 idp 0,434 Z8 0,882 Z9,, ( ). Z powyższego modelu wynika, że długość życia pacjena po przeszczepie zależy od nawrou białaczki, wysąpienia odrzucenia przeszczepu, ilości płyek krwi, szpiala, w kórym się leczył oraz sosowania leczenia MTX. 48

Bibliografia Palmowski, Z. (2009) Analiza przeżycia. Uniwersye Wrocławski. Skryp. Oelerich, A., T. Poddig (2004) Modified Wald saisics for generalized linear models. Allgemeiness Saisisches Archiv 88, 23-34. parz hp://www.springerlink.com/conen/8yc5uwawk32k29mb/fullex.pdf Wapedia Wiki: Fisher informaion. parz hp://wapedia.mobi/en/fisher_informaion Komsa, Ł. (2004) Wprowadzenie do środowiska R. parz hp://cran.r-projec.org/doc/conrib/komsa-wprowadzenie.pdf Zhou, M. Use Sofware R o do Survival Analysis and Simulaion. A uorial. Deparmen of Saisics, Universiy of Kenucky. parz hp://www.ms.uky.edu/~mai/rsurv.pdf Fox, J. (2002) Cox Proporional-Hazards Regression for Survival Daa. parz hp://cran.r-projec.org/doc/conrib/fox.../appendix-cox-regression.pdf Zoonekynd, V. (2007) Saisics wih R. parz hp://zoonek2.free.fr/uix/48_r/all.pdf.bz2 49