Podstawy statystycznego modelowania danych Analiza prze»ycia



Podobne dokumenty
Podstawy statystycznego modelowania danych Analiza prze»ycia. Tomasz Suchocki

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

Survival Analysis. Survival Analysis - analiza przeżyć. Statystyka Medyczna

Pakiety statystyczne - Wykªad 8

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

Metody statystyczne w biologii - Wykªad 8. Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 6

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1

Krzywe przeżycia - testowanie różnic

Podstawy statystycznego modelowania danych - Wykªad 7

5. (8 punktów) EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

Analiza przeżycia. Wprowadzenie

Analiza przeżycia Survival Analysis

Analiza przeżycia. Czym zajmuje się analiza przeżycia?

Biostatystyka, # 5 /Weterynaria I/

Analiza przeżycia Survival Analysis

Informatyka w selekcji - Wykªad 1

Biostatystyka, # 4 /Weterynaria I/

Ekonometria. wiczenia 2 Werykacja modelu liniowego. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Metody probablistyczne i statystyka stosowana

In»ynierskie zastosowania statystyki wiczenia

Testowanie hipotez statystycznych.

Elementarna statystyka Dwie próby: porównanie dwóch proporcji (Two-sample problem: comparing two proportions)

Elementy Modelowania Matematycznego Wykªad 1 Prawdopodobie«stwo

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Analiza przeżycia. Czym zajmuje się analiza przeżycia? Jest to analiza czasu trwania, zaprojektowana do analizy tzw.

Ekonometria. wiczenia 13 Metoda ±cie»ki krytycznej. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Mgr inż. Kasietczuk Magdalena. Wydział Geodezji Górniczej i Inżynierii Środowiska Katedra Kształtowania i Ochrony Środowiska

Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13

Rozwini cia asymptotyczne dla mocy testów przybli»onych

Model Cox a. Testowanie założeń o proporcjonalnym hazardzie.

Model obiektu w JavaScript

Testowanie hipotez statystycznych.

Modele wielorównaniowe. Problem identykacji

Podstawowe pojęcia: Populacja. Populacja skończona zawiera skończoną liczbę jednostek statystycznych

Szeregowanie zada« Przedmiot fakultatywny 15h wykªadu + 15h wicze« dr Hanna Furma«czyk. 7 pa¹dziernika 2013

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

CAŠKOWANIE METODAMI MONTE CARLO Janusz Adamowski

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Vincent Van GOGH: M»czyzna pij cy li»ank kawy. Radosªaw Klimek. J zyk programowania Java

Metody analizy funkcji przeżycia

STATYSTYKA MATEMATYCZNA

Zastosowania matematyki

1. Wprowadzenie do C/C++

Jak długo żyją spółki na polskiej giełdzie? Zastosowanie statystycznej analizy przeżycia do modelowania upadłości przedsiębiorstw

Metody numeryczne i statystyka dla in»ynierów

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

Lab. 02: Algorytm Schrage

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyczna analiza danych w programie STATISTICA. Dariusz Gozdowski. Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

Równania ró»niczkowe I rz du (RRIR) Twierdzenie Picarda. Anna D browska. WFTiMS. 23 marca 2010

Matematyka z elementami statystyki

Statystyka matematyczna i ekonometria

1. Wprowadzenie do C/C++

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Elementy Modelowania Matematycznego Wykªad 9 Systemy kolejkowe

Bash i algorytmy. Elwira Wachowicz. 20 lutego

W3 - Niezawodność elementu nienaprawialnego

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Statystyka matematyczna

Ekonometria - wykªad 1

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Modele wielorównaniowe. Estymacja parametrów

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Ekonometria Bayesowska

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Mikro II: Krzywe kosztów, Poda» rmy i Poda» gaª zi.

Efekty przestrzenne w konwergencji polskich podregionów

Prawdopodobie«stwo warunkowe, twierdzenie Bayesa, niezale»no± zdarze«.

Z poprzedniego wykładu

Rachunek prawdopodobieństwa i statystyka

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Rozdziaª 8. Modele Krzywej Dochodowo±ci

Spis tre±ci. Plan. 1 Pochodna cz stkowa. 1.1 Denicja Przykªady Wªasno±ci Pochodne wy»szych rz dów... 3

Proces Poissona. Proces {N(t), t 0} nazywamy procesem zliczającym jeśli N(t) oznacza całkowitą liczbę badanych zdarzeń zaobserwowanych do chwili t.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Zawartość. Zawartość

Ekonometria - wykªad 8

Stacjonarne szeregi czasowe

Przykªadowe analizy. Grzegorz Kemski. 26 listopada 2008

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Ekonometria. wiczenia 8 Modele zmiennej jako±ciowej. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Rozkªady i warto± oczekiwana

Strategie zabezpieczaj ce

Kolokwium ze statystyki matematycznej

Listy Inne przykªady Rozwi zywanie problemów. Listy w Mathematice. Marcin Karcz. Wydziaª Matematyki, Fizyki i Informatyki.

Statystyka opisowa. Wykªad II. Elementy statystyki opisowej. Edward Kozªowski.

Analiza przeżycia, teoria i przykład zastosowania w badaniu długości życia pacjentek z rakiem piersi

Podstawy modelowania w j zyku UML

MODELE LINIOWE i MIESZANE

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ

Zadanie 1. Liczba szkód w każdym z trzech kolejnych lat dla pewnego ubezpieczonego ma rozkład równomierny:

Transkrypt:

Podstawy statystycznego modelowania danych Analiza prze»ycia Tomasz Suchocki Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t

Plan wykªadu 1. Wprowadzenie 2. Hazard rate 3. Cenzorowanie danych 4. Metoda Kaplana-Meiera 5. Metoda Flemingtona-Harringtona 6. Krzywe prze»ycia - testowanie ró»nic 7. Pakiet Survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 2/33

Wprowadzenie Gªówne cechy modelu prze»ycia: mo»e wystapi co najwy»ej jedno zdarzenie na 'przedmiot' badania (umrze mo»na tylko raz) rozkªad ma du» sko±no±, zazwyczaj dodatni mo»e wyst powa cenzorowanie danych (zdarzenia obserwujemy tylko do pewnego czasu) Tomasz Suchocki, Podstawy... Analiza prze»ycia 3/33

Wprowadzenie Czemu tradycyjne metody mog zawodzi? zazwyczaj wyst puje zaªo»enie o normalno±ci (brak normalno±ci psuje wszystko) standardowo nie wyst puje cenzurowanie danych (cenzurowanie powoduje brak zgodno±ci estymatora) Tomasz Suchocki, Podstawy... Analiza prze»ycia 4/33

Wprowadzenie Podstawowe poj cia: survival time - czas do momentu zaj±cia jakiego± zdarzenia failure - zdarzenie na które czekamy Przykªady: prze»ywalno± pacjentów chorych na raka dªugo±»ycia dªugo± trwania maª»e«stwa po ±lubie Tomasz Suchocki, Podstawy... Analiza prze»ycia 5/33

Wprowadzenie - powi zanie czasu i wydarze«niech T b dzie (nieujemn ) zmienn losow oznaczaj c czas do interesuj cego nas zdarzenia (survival time). Wtedy dystrybuanta F (t) = P(T t), t > 0 oznacza prawdopodobie«stwo,»e nasze zdarzenie wydarzy si przed czasem t. W bioinformatyce (oraz biomedycynie) u»ywa si funkcji prze»ycia (survival function) S(t) = P(T t) = 1 F (t ) wtedy S(t) oznacza,»e obiekt przezyje do czasu t. Tomasz Suchocki, Podstawy... Analiza prze»ycia 6/33

Wprowadzenie - powi zanie czasu i wydarze«wªasno±ci S(t) = P(T t) = 1 F (t ): w t = 0 mamy S(t) = 1, czyli nikt jeszcze nie umarª w t = + mamy S(t) = 0, czyli ka»dy musi kiedy± umarze Tomasz Suchocki, Podstawy... Analiza prze»ycia 7/33

Hazard rate Podstawowe poj cia: mortality rate - procent populacji, dla której b dzie miaªo miejsce oczekiwane zdarzenie (np. ±mier ) w okresie mi dzy t oraz t +1, dla których zdarzenie nie zaszªo do czasu t. hazard rate m(t) = P(t T < t + 1 T t) P(t T < t + t T t) λ(t) = lim t 0 t Tomasz Suchocki, Podstawy... Analiza prze»ycia 8/33

Hazard rate Wzór: P(t T < t + t T t) λ(t) = lim t 0 t mo»na zapisa jako λ(t) = P(t T < t + t) lim t 0 t P(T t) = f (t) S(t) = S (t) S(t) = = d log[s(t)] dt Caªkuj c obie strony otrzymujemy skumulowan funkcj hazardu Λ(t) = t 0 λ(u)du = log[s(0)] log[s(t)] = log[s(t)] Tomasz Suchocki, Podstawy... Analiza prze»ycia 9/33

Hazard rate Ze wzoru: mo»na wyliczy S(t) Λ(t) = log[s(t)] UWAGA!!! ( t ) S(t) = exp ( Λ(t)) = exp λ(u)du 0 hazard rate nie jest prawdopodobie«stwem, mo»e by wi kszy od 1. Tomasz Suchocki, Podstawy... Analiza prze»ycia 10/33

Hazard rate Tomasz Suchocki, Podstawy... Analiza prze»ycia 11/33

Cenzurowanie danych Cenzurowane s te obserwacje, dla których oczekiwane zdarzenie nie miaªo miejsca do ko«ca rozpatrywanego czasu prawostronne cenzurowanie: je±li zdarzenie miaªo miejsce po czasie obserwacji lewostronne cenzurowanie: je±li zdarzenie miaªo miejsce przed rozpocz ciem obserwacji Tomasz Suchocki, Podstawy... Analiza prze»ycia 12/33

Cenzurowanie danych Wykluczenie (truncation) w odróznieniu od cenzorowania nie po- lega na ograniczeniu wartosci zmiennej lecz na caªkowitym jej wy- kluczeniu z próbki. Oczywiscie takie wykluczenie nie powinno byc losowe. wykluczenie cenzurowanie Tomasz Suchocki, Podstawy... Analiza prze»ycia 13/33

Metoda Kaplana-Meiera Zaªo»enie: czas prze»ycia jest niezale»ny od czynnika powoduj cego cenzurowanie danych. Estymator Kaplana-Meiera funkcji prze»ycia: Ŝ(t) = r j d j, dla0 t t + r j j:t j t gdzie {t j : j = 1, 2,..., n} - zbiór wszystkich momentów wyst pienia zdarzenia d j - liczba wyst pie«zdarzenia w chwili t j r j = n j w j - liczba obserwowanych obiektów zagro»onych w chwili t j n j - liczba obserwowanych obiektów w chwili t j w j - liczba obiektów ucietych w okresie (t j 1, t j ) t + - moment zako«czenia badania Tomasz Suchocki, Podstawy... Analiza prze»ycia 14/33

Metoda Kaplana-Meiera Przykªad obliczania Ŝ: Czas Start Zdarzenie Uci te Zagro»enie Prawdop. prze»ycia Funkcja prze»ycia j n j d j w j r j P j = (r j d j )/r j S j = P j S j 1 0 31 2 3 31-3=28 (28-2)/28=0.93 0.93 x 1=0.93 1 26 1 2 26-2=24 (24-1)/24=0.96 0.96 x 0.93=0.89 2 23 1 2 23-2=21 (21-1)/21=0.95 0.95 x 0.89=0.85 3 20 1 2 20-2=18 (18-1)/18=0.94 0.94 x 0.85=0.80 itd. Tablica : Mark Stevenson, An Introduction to Survival Analysis, s. 7. Tomasz Suchocki, Podstawy... Analiza prze»ycia 15/33

Metoda Kaplana-Meiera Tomasz Suchocki, Podstawy... Analiza prze»ycia 16/33

Metoda Flemingtona-Harringtona Zale»no± mi dzy funkjcj prze»ycia, a skumulowanym hazardem ma posta : S(t) = exp ( Λ(t)) Estymator Nelsona-Aalena skumulowanego hazardu ma posta : Λ(t) = j:t j t d j r j, 0 t t + gdzie t j, r j, d j - jak w przypadku estymatora Kaplana-Meiera. Estymator Flemingtona-Harringtona funkcji prze»ycia otrzymamy poprzez podstawienie estymatora Nelsona-Aalena do funkcji skumulowanego hazardu Š(t) = exp ( Λ(t)) Tomasz Suchocki, Podstawy... Analiza prze»ycia 17/33

Porównanie estymatorów KM i FH Dla dowolnego t mamy oszacowanie Š(t)=exp ( Λ(t)) = exp = j:t j t exp ( dj r j j:t j t ) j:t j t d j = r j ( 1 d ) j = r Ŝ(t) j Tomasz Suchocki, Podstawy... Analiza prze»ycia 18/33

Parametry funkcji prze»ycia Wariancja hazardu skumulowanego: posta Greenwooda: j posta Aalena: j posta Kleina: j d j rj 2 d j (r j d j ) r 2 j d j r j (r j d j ) Zale»no± wariancji funkcji przezycia od wariancji hazardu skumulowanego: var(ŝ(t)) = Ŝ 2 (t)var( Λ(t)) Do obliczania wariancji Λ - preferowana posta Aalena; Do obliczania wariancji Ŝ - posta Greenwooda podstawiona do wzoru powy»ej. Tomasz Suchocki, Podstawy... Analiza prze»ycia 19/33

Parametry funkcji prze»ycia redni czas przetrwania: gdzie µ = t + 0 Ŝ(t)dt = m (t j t j 1 )Ŝ(t j) i=1 t 0 = 0 - pocz tek badania t m = t + - moment zako«czenia badania Zakªadamy,»e Ŝ(t) = 0 dla t t+ estymator µ mo»e by obci»ony. Tomasz Suchocki, Podstawy... Analiza prze»ycia 20/33

Krzywe prze»ycia - testowanie ró»nic Po co testujemy ró»nice krzywych prze»ycia? Poniewa» szukamy odpowiedzi na pytania: Czy dªu»ej»yj pacjenci poddani jednej terapii, czy drugiej? Czy dªugo± trwania maª»e«stwa zale»y od statusu maj tkowego maª»onków? itd. Szukamy czynników, które wpªywaj na prze»ycie. Tomasz Suchocki, Podstawy... Analiza prze»ycia 21/33

Krzywe prze»ycia - testowanie ró»nic Brak obserwacji cenzurowanych uzywamy standardowych nieparametrycznych testów do porównania 2 funkcji prze»ycia dla 2 grup. Grupy: niezale»ne: np. test serii, test U Manna-Whitney'a zale»ne: np. test znaków Wyst puj obserwacje cenzurowane: Log-rank test test Breslow'a Tomasz Suchocki, Podstawy... Analiza prze»ycia 22/33

Krzywe prze»ycia - testowanie ró»nic Analiza oparta jest na momentach, w których obserwujemy zdarzenia. Dla kazdej takiej chwili liczymy zaobserwowana oraz oczekiwana liczbe zdarzen w kazdej grupie. O t1, O t2 s sumami obserwowanych zdarzen we wszystkich momentach w grupie 1. i 2. odpowiednio; E t1, E t2 s sumami oczekiwanych zdarzen we wszystkich momentach w grupie 1. i 2. odpowiednio; Statystyka testowa: L = (O t1 E t1 ) 2 E t1 + (O t2 E t2 ) 2 E t2 L χ 2 1 Tomasz Suchocki, Podstawy... Analiza prze»ycia 23/33

Pakiet survival U»yteczne funkcje pakietu survival: Surv - tworzy obiekt typu Surv survt - oblicza m.in. wartosci funkcji prze»ycia, które nastepnie mo»na przedstawic w formie krzywej prze»ycia. survdi - testuje ró»nice mi dzy krzywymi prze»ycia Tomasz Suchocki, Podstawy... Analiza prze»ycia 24/33

Pakiet survival Skªadnia Surv: >Surv(time,event) gdzie time - zmienna reprezentuj ca dªugo± czasu obserwacji obiektów event - zmienna zero-jedynkowa okre±laj ca, czy dla danego obiektu ze zbioru danych wyst piªo w okresie obserwacji badane zdarzenie Tomasz Suchocki, Podstawy... Analiza prze»ycia 25/33

Pakiet survival Skªadnia survt: >survt(formula,data,type,conf.int,error) gdzie formula - formuªa postaci ob. Surv var1+var2+...+vark data - nazwa uzytego w analizie zbioru danych type - metoda estymacji funkcji prze»ycia, do wyboru: 'kaplanmeier', 'eming-harrington'. Domyslnie u»ywana jest funkcja Kaplana-Meiera. conf.int - poziom ufno±ci dla przedziaªów ufno±ci; domyslnie 0.95. error - metoda obliczania odchylenia standardowego; do wyboru: greenwood, tsiatis; domy±lnie greenwood. Tomasz Suchocki, Podstawy... Analiza prze»ycia 26/33

Pakiet survival Skªadnia survdi : >survdi(formula,data,rho=0) gdzie formula - formuªa postaci ob. Surv var1+var2+...+vark data - nazwa uzytego w analizie zbioru danych rho - warto± okre±laj ca typ testu Tomasz Suchocki, Podstawy... Analiza prze»ycia 27/33

Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 28/33

Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 29/33

Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 30/33

Pakiet survival Tomasz Suchocki, Podstawy... Analiza prze»ycia 31/33

Bibliograa Branicka, P kalski - Survival Analysis, Seminarium 2008 UW Niemyska, raªek - Krzywe prze»ycia - testowanie ró»nic, Seminarium 2008 UW Tomasz Suchocki, Podstawy... Analiza prze»ycia 32/33

Dzi kuj za uwag Tomasz Suchocki, Podstawy... Analiza prze»ycia 33/33