Analiza przeżycia. Wprowadzenie



Podobne dokumenty
Analiza przeżycia Survival Analysis

Analiza przeżycia Survival Analysis

Analiza przeżycia. Czym zajmuje się analiza przeżycia?

Rachunek prawdopodobieństwa i statystyka

Mgr inż. Kasietczuk Magdalena. Wydział Geodezji Górniczej i Inżynierii Środowiska Katedra Kształtowania i Ochrony Środowiska

Zawansowane modele wyborów dyskretnych

Analiza przeżycia. Czym zajmuje się analiza przeżycia? Jest to analiza czasu trwania, zaprojektowana do analizy tzw.

W4 Eksperyment niezawodnościowy

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Rachunek prawdopodobieństwa i statystyka

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe.

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Prawdopodobieństwo i statystyka r.

Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów.

Testowanie hipotez statystycznych.

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych.

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów.

Matematyka ubezpieczeń majątkowych r.

Statystyka matematyczna

Zadanie 1. Ilość szkód N ma rozkład o prawdopodobieństwach spełniających zależność rekurencyjną:

Zmienne losowe ciągłe i ich rozkłady

Zmienne losowe ciągłe i ich rozkłady

Zmienne losowe. dr Mariusz Grzadziel. rok akademicki 2016/2017 semestr letni. Katedra Matematyki, Uniwersytet Przyrodniczy we Wrocławiu

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

Zmienne losowe. dr Mariusz Grządziel Wykład 12; 20 maja 2014

W3 - Niezawodność elementu nienaprawialnego

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA

Uogolnione modele liniowe

Modele długości trwania

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

3 Ubezpieczenia na życie

Zadanie 1. są niezależne i mają rozkład z atomami: ( ),

1 Elementy teorii przeżywalności

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

Estymacja przedziałowa. Przedział ufności

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

1. Przyszła długość życia x-latka

Ćwiczenia 7 - Zmienna losowa i jej rozkład. Parametry rozkładu.

Analiza niepewności pomiarów

Zadanie 1. Zmienne losowe X 1, X 2 są niezależne i mają taki sam rozkład z atomami:

Regresja i Korelacja

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Detekcja rozkładów o ciężkich ogonach

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

1 Elementy teorii przeżywalności

1 Wykład 3 Generatory liczb losowych o dowolnych rozkładach.

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Agata Boratyńska Statystyka aktuarialna... 1

Kolokwium ze statystyki matematycznej

Ważne rozkłady i twierdzenia c.d.

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Tablice trwania życia

Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju

UPORZĄDKOWANIE STOCHASTYCZNE ESTYMATORÓW ŚREDNIEGO CZASU ŻYCIA. Piotr Nowak Uniwersytet Wrocławski

WYKŁAD 8 ANALIZA REGRESJI

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Wprowadzenie do estymacji rozkładów w SAS.

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński

N ma rozkład Poissona z wartością oczekiwaną równą 100 M, M M mają ten sam rozkład dwupunktowy o prawdopodobieństwach:

Matematyka ubezpieczeń majątkowych r.

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Matematyka ubezpieczeń majątkowych r.

Prawdopodobieństwo i statystyka r.

PRAWDOPODOBIEŃSTWO. ZMIENNA LOSOWA. TYPY ROZKŁADÓW

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Zmienne losowe zadania na sprawdzian

Przykłady do zadania 8.1 : 0 dla x 1, c x 4/3 dla x > 1. (b) Czy można dobrać stałą c tak, aby funkcja f(x) = była gęstością pewnego

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Komputerowa Analiza Danych Doświadczalnych

Statystyczna analiza danych

MODELE MATEMATYCZNE W UBEZPIECZENIACH

Podstawy statystycznego modelowania danych Analiza prze»ycia

STATYSTYKA

Regresja linearyzowalna

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

O ŚREDNIEJ STATYSTYCZNEJ

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Jak długo żyją spółki na polskiej giełdzie? Zastosowanie statystycznej analizy przeżycia do modelowania upadłości przedsiębiorstw

EGZAMIN MAGISTERSKI, Matematyka w ekonomii i ubezpieczeniach

Weryfikacja hipotez statystycznych

Statystyka i Analiza Danych

Zestaw 2: Zmienne losowe. 0, x < 1, 2, 2 x, 1 1 x, 1 x, F 9 (x) =

Statystyka, Ekonometria

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

g) wartość oczekiwaną (przeciętną) i wariancję zmiennej losowej K.

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

MODELOWANIE CZASU TRWANIA MODEL PROPORCJONALNEGO HAZARDU COXA

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Analiza regresji - weryfikacja założeń

Rozkłady zmiennych losowych

Transkrypt:

Wprowadzenie Przedmiotem badania analizy przeżycia jest czas jaki upływa od początku obserwacji do wystąpienia określonego zdarzenia, które jednoznacznie kończy obserwację na danej jednostce. Analiza przeżycia wywodzi się wprawdzie z badań medycznych(na co wskazuje nazwa), lecz znajduje również zastosowanie w innych badaniach. Charakterystyczne dla analizy przeżycia są tzw. dane cenzorowane(oznaczamynp.70 + )inaczejucięte,októrych wiadomo, że zdarzenie nie nastąpiło aż do momentu zakończenia obserwacji(np. pacjenci wypisani ze szpitala). Głównym obiektem badawczym jest tzw. funkcja przeżycia S(t), która określa prawdopodobieństwo, że osoba przeżyje dłużej niż pewien przyjęty czas t, czyli S(t) = P(T > t), gdzie T jest zmienną losową określającą czas życia.

Wprowadzenie Średni czas przeżycia zdefiniowany jest jako µ = 0 S(t)dt. Natomiastmedianaczasuprzeżyciazdefiniowanajestjakoczas t 0,5 taki,że S(t 0,5 ) =0,5.Mającnarysowanyestymatorfunkcji przeżycia możemy otrzymać estymator mediany rysując poziomą linię na wysokości 0,5, na przecięciu otrzymamy oszacowanie mediany.

Estymator Kaplana-Meiera Najpopularniejszym estymatorem funkcji przeżycia jest estymator Kaplana-Meiera postaci: Ŝ(t) = t i t n i d i n i, gdzie n i jestliczbąobiektów,któradożyłamomentu t i,natomiast d i jestliczbąśmierciwmomencie t i.ważnąjegozaletąjest uwzględnianie obserwacji cenzorowanych.

Estymator Kaplana-Meiera przykład Znane są czasy przeżycia(w dniach) dla 16 pacjentów, którzy przeszlizabiegusunięciaguzamózgu:28,49,54,80,80,102 +, 120,120 +,120 +,167,200,200,200 +,340,500,500 +. Znajdziemy dla tych danych estymator KM funkcji przeżycia. Załóżmy wpierw, że nie ma danych cenzorowanych. n t i n i d i d i i n i Ŝ(t) 28 16 1 0,9375 0,9375 49 15 1 0,9333 0,8750 54 14 1 0,9286 0,8125 80 13 2 0,8462 0,6875 102 11 1 0,9091 0,6250 120 10 3 0,7000 0,4375 167 7 1 0,8571 0,3750 200 6 3 0,5000 0,1875 340 3 1 0,6667 0,1250 500 2 2 0,0000 0,0000

Estymator Kaplana-Meiera przykład Z kolei jeśli uwzględnijmy, że cześć obserwacji była cenzorowana. n t i n i d i d i i n i Ŝ(t) 28 16 1 0,9375 0,9375 49 15 1 0,9333 0,8750 54 14 1 0,9286 0,8125 80 13 2 0,8462 0,6875 120 10 1 0,9000 0,6188 167 7 1 0,8571 0,5304 200 6 2 0,6667 0,3536 340 3 1 0,6667 0,2357 500 2 1 0,5000 0,1179

w R została zaimplementowana w pakiecie survival. Wpierw należy zawsze oznakować, które dane są cenzorowane, polega to na konstrukcji wektora 0-1, gdzie 0 oznacza, że obserwacja jest ucięta. Odpowiednie funkcje to Surv(konstrukcja odpowiedniego obiektu), survfit(konstrukcja estymatora).

Model Coksa Estymator KM pozwala na graficzną prezentację krzywej przeżycia oraz porównanie takich krzywych dla kilku populacji. Nie jest jednak możliwe za jego pomocą opisanie zależności funkcji przeżycia od innych zmiennych objaśniających. Wydawać by się mogło, że do tego zagadnienia powinniśmy zastosować poznane już modele regresji wielokrotnej. Nie jest to jednak możliwe z dwóch powodów: czas przeżycia przeważnie nie ma rozkładu normalnego oraz występuje problem wykorzystania obserwacji cenzorowanych. Najpopularniejszym modelem regresji wykorzystywanym w tm przypadku jest model Coksa. Zdefiniujmy wpierw funkcję hazardu: h(t) = f(t) S(t), gdzie f(t) jest funkcją gęstości. Jest to prawdopodobieństwo śmierci w chwili t przy założeniu, że tej chwili dożyła.

Model Coksa Model hazardu Coksa ma postać: h(t) = h 0 (t)e Xβ, gdzie h 0 (t)jestzerowąliniąhazardu(hazard,gdywszystkie zmienne niezależne są równe zero). W modelu tym nie zakładamy nic o postaci funkcji hazardu(takie założenie można wprowadzić uzyskując modele parametryczne). Jeśli założymy, że elementy wektora parametrów nie zależą od czasu, to mamy do czynienia z modelem proporcjonalnych hazardów Coksa.

Model Coksa Oprócz modelu proporcjonalnych hazardów Coksa, można również wykorzystać nieco inne podejście. Mianowicie zakłada się, że zmienna losowa T ma pewien zadany rozkład. Najczęściej wykorzystywane są rozkłady: Weibulla, wykładniczy, logarytmiczno-normalny oraz normalny. Prowadzi to do modelu: logt = β x +σε, gdziezmiennelosowelogtoraz εmajązadanerozkłady,aσjest tzw. skalą. W R do oceny parametrów takich modeli służy funkcja survreg z pakietu survival. Jej składnia jest analogiczna do wcześniej omawianych funkcji analizy przeżycia z wyjątkiem specyfikacji rozkładu prawdopodobieństwa. Służy do tego parametr dist.

Przykład wyznaczanie funkcji przeżycia i hazardu Rozkład wykładniczy Gęstość: f(x) = λe λx I [0, ) (x), Dystrybuanta: F(x) =1 e λx, Funkcjaprzeżycia: S(x) = e λx, Funkcja hazardu: h(x) = λ, Średniczasprzeżycia: µ = 1 λ, Medianaczasuprzeżycia: Me = ln2 λ Rozkład Weibulla Gęstość: f(x) = kxk 1 exp{ ( x λ k λ )k }I [0, ) (x), Dystrybuanta: F(x) =1 exp{ ( x λ )k }, Funkcjaprzeżycia: S(x) =exp{ ( x λ )k }, Funkcjahazardu: h(x) = k x k 1. λ k