Modele ryzyk konkuruj cych wraz z zastosowaniami w analizie chorych z nowotworami ukªadu krwiotwórczego

Wielkość: px
Rozpocząć pokaz od strony:

Download "Modele ryzyk konkuruj cych wraz z zastosowaniami w analizie chorych z nowotworami ukªadu krwiotwórczego"

Transkrypt

1 Uniwersytet Warszawski Wydziaª Matematyki, Informatyki i Mechaniki Magda Mªynarczyk Nr albumu: Modele ryzyk konkuruj cych wraz z zastosowaniami w analizie chorych z nowotworami ukªadu krwiotwórczego Praca magisterska na kierunku MATEMATYKA w zakresie MATEMATYKI STOSOWANEJ Praca wykonana pod kierunkiem dra hab. Przemysªawa Biecka Instytut Matematyki Stosowanej i Mechaniki Czerwiec 2017

2 O±wiadczenie kieruj cego prac Potwierdzam,»e niniejsza praca zostaªa przygotowana pod moim kierunkiem i kwalikuje si do przedstawienia jej w post powaniu o nadanie tytuªu zawodowego. Data Podpis kieruj cego prac O±wiadczenie autora (autorów) pracy wiadom odpowiedzialno±ci prawnej o±wiadczam,»e niniejsza praca dyplomowa zostaªa napisana przeze mnie samodzielnie i nie zawiera tre±ci uzyskanych w sposób niezgodny z obowi zuj cymi przepisami. O±wiadczam równie»,»e przedstawiona praca nie byªa wcze±niej przedmiotem procedur zwi zanych z uzyskaniem tytuªu zawodowego w wy»szej uczelni. O±wiadczam ponadto,»e niniejsza wersja pracy jest identyczna z zaª czon wersj elektroniczn. Data Podpis autora pracy

3 Streszczenie Celem poni»ej pracy jest zaprezentowanie narz dzi analizy danych z uwzgl dnieniem wyst powania ryzyk konkuruj cych. Przedstawione zostaªy metody i modele stosowane w analizie danych tego typu, jak równie» narz dzie, pakiet cr17 dla programu R, który opracowaªam w ramach pracy magisterskiej. Pakiet ten generuje raport zestawiaj cy wykresy i tabele diagnostyczne oraz wyniki testów sprawdzaj cych istotno± wyst powania ró»nic w modelach. Praca skªada si z trzech gªównych cz ±ci - podstaw teoretycznych, opisu struktury pakietu oraz funkcji w nim zaimplementowanych, a tak»e przykªadu jego zastosowania do danych medycznych o pacjentach z trzema podtypami nowotworów ukªadu krwiotwórczego. Sªowa kluczowe Analiza prze»ycia, modele ryzyk konkuruj cych, porównywanie modeli statystycznych, analiza danych medycznych, model Coxa, funkcja skumulowanych cz sto±ci, R 11.1 Matematyka Dziedzina pracy (kody wg programu Socrates-Erasmus) 62-07, 62P10, 62N03 Klasykacja tematyczna

4

5 Spis tre±ci Wprowadzenie Analiza prze»ycia i modele ryzyk konkuruj cych - teoria Podstawy analizy prze»ycia Modele parametryczne Modele nieparametryczne Porównywanie modeli analizy prze»ycia Model Coxa Modele ryzyk konkuruj cych Funkcje skumulowanych cz sto±ci Model Coxa dla ryzyk konkuruj cych Biblioteka 'cr17' Wprowadzenie Estymacja modeli analizy prze»ycia - funkcja tsurvival Rysowanie krzywych prze»ycia - funkcja plotsurvival Testowanie modeli analizy prze»ycia - funkcja testsurvival Estymacja modeli Coxa - funkcja tcox Testowanie modeli Coxa - funkcja testcox Estymacja modeli ryzyk konkuruj cych - funkcja tcuminc Rysowanie krzywych skumulowanych cz sto±ci - funkcja plotcuminc Testowanie modeli ryzyk konkuruj cych - funkcja testcuminc Estymacja modeli Coxa w przypadku wyst powania ryzyk konkuruj cych - funkcja treg Testowanie modeli Coxa w przypadku wyst powania ryzyk konkuruj cych - funkcja testreg Zliczenia jednostek nara»onych na ryzyko - funkcja risktab Zliczenia wyst pie«zdarze«- funkcja eventtab Sumaryczny raport - funkcja summarizecr Przykªad zastosowania na danych o pacjentach z nowotworami ukªadu krwiotwórczego Opis danych Eksploracja danych Analiza prze»ycia a modele ryzyk konkuruj cych Zastosowanie biblioteki cr Bibliograa

6

7 Wprowadzenie Podczas ostatniego roku studiów magisterskich braªam udziaª w projekcie o nazwie InfAza, pod kierownictwem dra n. med. Krzysztofa M drego oraz dra hab. Przemysªawa Biecka, realizowanym przez Uniwersytet Warszawski wraz z Warszawskim Uniwersytetem Medycznym. Projekt ten zajmowaª si badaniem wyst pie«infekcji w±ród pacjentów z nowotworami ukªadu krwiotwórczego, poddanych terapii azacytadyn. Wa»nym elementem efektywnego leczenia tego typu chorób jest poprawne wyªonienie chorych, którym nale»y poda prolaktyk przeciwwirusow, przeciwgrzybicz lub przeciwbakteryjn, poniewa» znajduj si oni w grupie najwi kszego ryzyka zachorowalno±ci na dany rodzaj infekcji. Gªównym celem tego projektu byªo wi c znalezienie czynników wpªywaj cych na wyst pienie infekcji w ci gu trzech pierwszych miesi cy leczenia. Kolejnym etapem byªo badanie wyst pie«infekcji w czasie, co doprowadziªo nas do zagadnie«analizy prze»ycia. Po uwzgl dnieniu tak»e zgonu jako mo»liwego zdarzenia zacz li±my zajmowa si modelami ryzyk konkuruj cych. Szybko okazaªo si,»e w R nie istnieje kompleksowa biblioteka pozwalaj ca na efektywn analiz naszych danych. St d powstaª pomysª na stworzenie, w ramach mojej pracy magisterskiej, biblioteki o nazwie cr17, umo»liwiaj cej wygenerowanie sumarycznego raportu za pomoc tylko jednej funkcji. W raporcie tym znajduj si wykresy i tabelki diagnostyczne, oraz wyniki testów sprawdzaj cych ró»nice pomi dzy modelami w poszczególnych grupach. Stworzenie tej biblioteki umo»liwiªo nam sprawne porównanie wielu modeli, w rozró»nieniu na ró»ne podziaªy na grupy. Takie analizy s niezwykle wa»ne w medycynie, poniewa» pozwalaj na okre±lenie skuteczno±ci ró»nych metod leczenia i pozwalaj na skonstruowanie optymalnych schematów terapii. Co istotne, zastosowania zarówno analizy prze»ycia jak i ryzyk konkuruj cych s bardzo szerokie i nie ograniczaj si jedynie do celów medycznych. Przykªadem analizy, do której zastosowana mo»e by biblioteka cr17 jest badanie czasu dziaªania maszyny do danego rodzaju awarii. Grupami pomi dzy którymi bada b dziemy ró»nice, mog by wtedy warunki, w jakich urz dzenie byªo u»ytkowane (np. temperatura otoczenia). W ubezpieczeniach modelowa mo»emy czas do wyst pienia jednego ze zdarze«obj tych polis. Klientów mo»na podzieli na grupy ze wzgl du na wiek (co okazuje si by istotne w np. przypadku ubezpiecze«samochodowych). Przez ryzyko mo»emy rozumie te» zdarzenie pozytywne, na przykªad zakup towaru danej kategorii w sklepie internetowym. Naturalnym podziaªem klientów na grupy jest wtedy rozró»nienie ze wzgl du na pªe. Praca skªada si z trzech rozdziaªów. W pierwszym opisane jest podªo»e metodologiczne, na podstawie którego zaimplementowane s funkcje w bibliotece cr17. Drugi rozdziaª stanowi prezentacj pakietu. Znajduje si tam opis struktury pakietu, przegl d dost pnych funkcji oraz interpretacja ko«cowego raportu, jaki mo»na uzyska za pomoc gªównej funkcji summarizecr {cr17}. W trzecim rozdziale przedstawiam eksploracj danych z projektu Infaza oraz wyniki z zastosowania biblioteki do tych danych. 5

8

9 Rozdziaª 1 Analiza prze»ycia i modele ryzyk konkuruj cych - teoria 1.1. Podstawy analizy prze»ycia Analiza prze»ycia jest gaª zi statystyki zajmuj c si badaniem czasu do wyst pienia danego zdarzenia oraz czynników wpªywaj cych na ten czas. Poj cie zdarzenia obejmuje szerokie spektrum wydarze«i zjawisk, takich jak ±mier, choroba, niewypªacalno± kredytobiorcy czy awaria urz dzenia. Dzi ki temu, metody, jakie oferuje nam analiza prze»ycia mog by stosowane w bardzo wielu dziedzinach. Poj cie zdarzenia okre±la si czasem jako pora»ka, mimo, i» mo»e ono odnosi si tak»e do pozytywnych wydarze«. Na przykªad, badany mo»e by czas od pocz tku podawania lekarstwa do poprawy stanu zdrowia, gdzie rozumiemy przez to uzyskanie wyniku danego badania krwi w przyj tych granicach. W analizie prze»ycia rozwa»amy tylko jedno zdarzenie, które mo»e wyst pi u ka»dej jednostki. W przypadku wi cej ni» jednego mo»liwego zdarzenia rozwa»amy modele zdarze«rekurencyjnych b d¹ modele ryzyk konkuruj cych, o których mowa b dzie w nast pnych podrozdziaªach. Podstawowym celem analizy prze»ycia jest modelowanie i interpretacja rozkªadu czasu prze»ycia w danej populacji. Istotnym elementem jest tak»e porównywanie tych rozkªadów w ró»nych grupach (np. w przypadku badania efektu placebo). Fundamentaln cz ±ci analizy prze»ycia jest zdeniowanie zmiennej losowej T, reprezentuj cej czas od okre±lonego punktu w czasie do wyst pienia zdarzenia. Zmienna ta mo»e by wyra»ona w dowolnej jednostce czasu (sekundy, dni, lata...). Drug niezb dn denicj jest okre±lenie zmiennej losowej c, oznaczaj cej, czy dana obserwacja byªa cenzorowana - to znaczy, czy czas pocz tku i ko«ca obserwacji b d¹ czas wyst pienia zdarzenia jest znany. Formalnie: { 0 gdy i ta obserwacja jest cenzorowna, c i = (1.1) 1 w przeciwnym przypadku, gdzie: i {1, 2,..., N} numer obserwacji. Kluczowym zaªo»eniem na temat zmiennej c jest to,»e jest ona niezale»na od wyst pie«badanych zdarze«. Rodzajem cenzorowania, jakim b d zajmowa si w tej pracy, jest cenzorowanie prawostronne, kiedy wiemy,»e zdarzenie nie wyst piªo przed danym czasem T. Takie dane mo»na przedstawi gracznie albo w tabeli, jak zaprezentowano na rysunku 1.1 (ilustracja pochodzi z [13]). 7

10 Rysunek 1.1: Dane prawostronnie cenzorowane dotycz ce czasu prze»ycia w±ród pacjentów. Na osi poziomej wykresu po lewej stronie znajduje si czas obserwacji, wyra»ony w latach, który odpowiada warto±ciom kolumny Survtime w tabeli po prawej stronie. Symbol odpowiada warto±ci kolumny Status równej 0, a wi c oznacza,»e obserwacja byªa cenzorowana. Symbol odpowiada warto±ci kolumny Status równej 1, zatem oznacza wyst pienie zdarzenia (kolumna Status to warto± zmiennej losowej c). Pacjent 1 byª wi c obserwowany przez 7 miesi cy i w tym czasie nie wyst piªo zdarzenie. U pacjenta 2 zdarzenie nast piªo po 6 miesi cach od pocz tku obserwacji. Aby okre±li rozkªad prze»ycia potrzebujemy nast puj cych denicji funkcji prze»ycia oraz funkcji hazardu [13]: Denicja Funkcja prze»ycia - funkcja S : [0, ) [0, 1] dana wzorem: S(t) = P(t < T ), 0 < t <, (1.2) gdzie: T - zmienna losowa, oznaczaj ca czas, w którym nast piªo zdarzenie. Funkcja prze»ycia okre±la prawdopodobie«stwo prze»ycia do chwili t, daj c nam najistotniejsz informacj, jak mo»emy dosta z naszych danych dla analizy prze»ycia. Jest ona niemalej c, prawostronnie ci gª funkcj czasu. Zachodzi: S(0) = 1. (1.3) Funkcj prze»ycia cz sto deniuje si tak»e w terminach funkcji hazardu: Denicja Funkcja hazardu - funkcja h : [0, ) R dana wzorem: P(t < T < t + ɛ T > t) h(t) = lim ɛ 0. (1.4) ɛ Funkcja hazardu jest prawdopodobie«stwem tego,»e zdarzenie nast pi w nast pnym dowolnie krótkim przedziale czasu, je»eli wiemy,»e nie wyst piªo przed czasem t, podzielonym przez dªugo± tego przedziaªu czasowego. Jest to funkcja nieujemna, nieograniczona z góry. Nazywana jest tak»e funkcj ryzyka. 8

11 Zdenowane powy»ej dwie funkcje pozwalaj na okre±lenie rozkªadu prze»ycia. Do dalszych analiz przydatnych jest jednak jeszcze kilka denicji [13]: Denicja Dystrybuanta funkcji ryzyka - funkcja F : [0, ) [0, 1] dana wzorem: F (t) = P(T t). (1.5) Denicja G sto± prawdopodobie«stwa - funkcja f : [0, ) R dana wzorem: f(t) = d dt S(t) = d F (t). (1.6) dt Na podstawie powy»szych denicji otrzymujemy zale»no± : h(t) = f(t) S(t). (1.7) To znaczy,»e hazard w momencie t jest prawdopodobie«stwem,»e zdarzenie pojawi si w okolicach momentu t podzielonym przez prawdopodobie«stwo,»e zdarzenie nie pojawiªo si do czasu t. Denicja Dystrybuanta funkcji hazardu - funkcja H : (0, ) R dana wzorem: H(t) = t 0 h(u)du. (1.8) Dystrybuanta funkcji hazardu w punkcie t jest zdeniowana jako pole pod wykresem funkcji hazardu do momentu t. Funkcj prze»ycia mo»emy teraz zapisa w postaci: ( S(t) = exp 1.2. Modele parametryczne t 0 ) h(u)du = exp( H(t)). (1.9) W analizie prze»ycia zakªada si czasami dany rozkªad prze»ycia, otrzymuj c model parametryczny. Najprostszym przykªadem jest model wykªadniczy, w którym zakªada si staªy hazard [13]: h(t) = λ. (1.10) Wówczas otrzymujemy: H(t) = t 0 h(u)du = t 0 λdu = λt, (1.11) S(t) = exp( H(t)) = exp( λt), (1.12) f(t) = h(t)s(t) = λ exp( λt). (1.13) Zaªo»enie staªego hazardu cz sto nie jest jednak speªnione i szuka nale»y innych rozkªadów estymuj cych rozkªad prze»ycia. 9

12 Innym cz sto u»ywanym modelem jest model o rozkªadzie Weibulla, dla którego funkcja hazardu przyjmuje posta [13]: Dla tego modelu otrzymujemy: H(t) = t 0 h(t) = αλ(λt) α 1, α, λ > 0. (1.14) t h(u)du = αλ α u α 1 du = αλ α 1 α uα t 0 = (λt) α, (1.15) 0 S(t) = exp( H(t)) = exp ( (λt) α ). (1.16) Rozkªad wykªadniczy jest specjalnym przypadkiem rozkªadu Weibulla dla parametru α = 1. Dla α > 1 funkcja hazardu jest rosn ca, dla α < 1 jest malej ca. Funkcj prze»ycia estymuje si tak»e za pomoc rozkªadu lognormalnego. Mamy wówczas [13]: ( ) log(t) µ S(t) = 1 Φ, (1.17) σ gdzie: Φ - dystrybuanta rozkªadu normalnego N (0, 1). Funkcja hazardu w tym przypadku monotonicznie ro±nie od 0 do swojego maksimum, a nast pnie monotoniczne maleje do 0 przy t. Dlatego model ten jest przydatny, kiedy prawdopodobie«stwo wyst pienia zdarzenia ro±nie na pocz tku obserwacji, a pó¹niej maleje. Kolejnym rozkªadem u»ywanym do modelowania prze»ycia jest rozkªad gamma, o g sto±ci danej [13]: f(t) = λβ t β 1 exp( λt), λ, β > 0. (1.18) Γ(β) Dla tego modelu funkcja prze»ycia oraz funkcja hazardu nie daj zapisa si w prostej formie, mog by jednak obliczone za pomoc wzorów z poprzedniego podrozdziaªu. Ponownie, rozkªad gamma, dla parametru β = 1 sprowadza si do rozkªadu wykªadniczego. Dla β < 1 funkcja hazardu jest rosn ca, dla β > 1 jest malej ca Modele nieparametryczne W wielu przypadkach nie jeste±my w stanie zaªo»y odpowiedniej rodziny parametrycznej do opisu naszego modelu. Zajmujemy si wtedy modelami nieparametrycznymi. Podstawowym estymatorem funkcji prze»ycia u»ywanym w analizie prze»ycia jest estymator Kaplana- Meier'a, dany wzorem: Ŝ km (t) = (1 ˆq i ) = ( 1 d ) i, (1.19) n i t i t t i t gdzie: n i - liczba jednostek nara»onych na wyst pienie zdarzenia w czasie t i, d i - liczba jednostek u których nast piªo zdarzenie w czasie t i, N - liczba obserwacji. Estymator Kaplana-Meier'a jest nierosn c funkcj schodkow, prawostronnie ci gª. 10

13 Innym sposobem na estymacj krzywych prze»ycia jest estymator Fleminga-Harringtona [7], który opiera si na spostrze»eniu,»e dystrybunata funkcji hazardu mo»e by przybli»ona w nast puj cy sposób: H(t) = t 0 h(u)du i:t i t h i i, (1.20) gdzie: t 1, t 2,..., t M - uporz dkowane rosn co punkty w czasie, w których wyst piªy zdarzenia (bez powtórze«), h i - warto± funkcji hazardu w czasie t i, i = t i t i 1 - przedziaª czasowy, mi dzy dwoma kolejnymi zdarzeniami. Jak zauwa»ono w [7]: h i i P(t i 1 < T < t i ) d i r i, i {1, 2, 3,..., N}, (1.21) gdzie: d i - liczba zdarze«, które wyst piªy w czasie t i, r i - liczba jednostek nara»onych na ryzyko w czasie t i (licz c wraz z jednostkiami, u których nast piªo zdarzenie w czasie t i ). Oznacza to,»e warto± hi i szacuje prawdopodobie«stwo wyst pienia zdarzenia w przedziale i, które mo»e by estymowane poprzez liczb zdarze«w czasie t i podzielon przez liczb jednostek nara»onych na ryzyko w tym czasie. Estymator dystrybuanty funkcji ryzyka Fleminga-Harringtona wynosi zatem [7]: Ĥ fh (t) = i:t i t St d, zgodnie z 1.9, otrzymujemy estymator krzywej prze»ycia: d i r i. (1.22) Ŝ fh (t) = exp( Ĥfh(t)). (1.23) Najcz ±ciej stosowanym estymatorem wariancji dla krzywych prze»ycia jest estymator zaproponowany przez Majora Greenwooda [15] w 1926 roku, dany wzorem: var(ŝ(t)) [Ŝ(t)]2 t i t d i n i (n i d i ). (1.24) Przedziaª ufno±ci na poziomie istotno±ci α wynosi wówczas: [ var(ŝ(t)) ] ĈI(t) = z 1 α var(ŝ(t)), z 1 α, (1.25) 2 2 gdzie: z 1 α - kwantyl rz du 1 α 2 2 z rozkªadu normalnego. Takie podej±cie do estymowania przedziaªów ufno±ci, mo»e da jednak warto±ci poza przedziaªem [0, 1]. Aby tego unikn, stosuje si transformacj log funkcji prze»ycia. Jak zasugerowano w [14], takie podej±cie stabilizuje wariancj i dopuszcza niesymetryczne przedziaªy ufno±ci. Przedziaª ufno±ci jest wówczas postaci: ) var (log Ŝ(t) = 11 i:t i <t d i n i (n i d i ) (1.26)

14 Jeszcze inn mo»liwo±ci jest zastosowanie transformacji log-log funkcji prze»ycia. Dostajemy wówczas [13]: ( [ logŝ(t) ]) var log 1 ] 2 [log Ŝ(t) t i t d i n i (n i d i ). (1.27) W R estymacje krzywych prze»ycia, mo»na otrzyma za pomoc funkcji survfit {survival} [16]. Rodzaj krzywej prze»ycia mo»na ustali za pomoc parametru type. Mo»liwe warto±ci, to "kaplan-meier", "fleming-harrington" oraz "fh2". Wariant "fh2" jest modykacj przedstawionej powy»ej metody Flaminga-Harringtona, w której [16]: Ĥ fh2 (t) = d i 1 d i. (1.28) r i j + 1 i:t i t Funkcja survfit dopuszcza tak»e na specykacj, jaki rodzaj przedziaªu ufno±ci ma by obliczony. Mo»liwy wybór, to "none" (przedziaªy ufno±ci nie zostan obliczone), "plain" (1.24), "log" (1.26) oraz "log-log"(1.27) Porównywanie modeli analizy prze»ycia Zagadnieniem, jakim zajmuj si w pracy, jest porównywanie modeli ryzyk konkuruj cych po±ród danych grup obserwacji. Aby wda si w tego szczegóªy nale»y najpierw zrozumie ide porównywania modeli w przypadku analizy prze»ycia, któr b dziemy pó¹niej rozszerza na przypadek wielu mo»liwych zdarze«. W przypadku modeli parametrycznych stosowa mo»na testy statystyczne, takie jak test t-studenta, je»eli mo»emy zaªo»y normalno± rozkªadu, b d¹ test Manna-Whitney'a, je»eli zaªo»enie o normalno±ci rozkªadu nie jest speªnione. Je»eli chcemy dopasowa odpowiedni parametr danego rozkªadu do naszych obserwacji, mo»emy u»y metod najwi kszej wiarygodno±ci. Dla modeli nieparametrycznych potrzebujemy skonstruowa test porównuj cy funkcje prze»ycia. Jako,»e porównujemy ze sob dwie krzywe, test statystyczny ze standardow hipotez zerow i alternatywn : j=1 H 0 : S 1 (t) = S 0 (t), (1.29) H 1 : S 1 (t) S 0 (t), (1.30) nie jest adekwatny. Dwie krzywe prze»ycia, mog si krzy»owa, albo by podobne na jednym odcinku oraz ró»ne na innym odcinku czasu. Przedstawi kosntrukcj testu porównuj cego krzywe prze»ycia zaproponowanego w [13]. Wprowadzone zostaªo tutaj rozwi zanie zwane alternatyw Lehmana, dla którego hipoteza alternatywna przyjmuje posta : Równowa»nie, dostajemy test hipotezy zerowej: H 1 : S 1 (t) = [S 0 (t)] ψ. (1.31) H 0 : ψ = 1, (1.32) przeciwko hipotezie alternatywnej: H 1 : ψ < 1. (1.33) 12

15 Przy zaªo»eniu hipotezy alternatywnej, czasy prze»ycia w grupie 1 b d dªu»sze ni» te w grupie 0. W analizie prze»ycia, grup 0 cz sto traktuje si jako grup kontroln, a grup 1 jako grup testow. Do skonstruowania testu, dla ka»dego czasu t i potrzebujemy stworzy tabelk wielko±ci 2 2 zawieraj c liczb jednostek u których nast piªo zdarzenie i u których nie nast piªo zdarzenie w czasie t i, dla obydwu grup, tak jak zaprezentowano w tabeli 1.1. Tablica 1.1: Tabela prze»ycia w czasie t i. Grupa kontrolna Grupa testowa Razem Liczba zdarze«d 0i d 1i d i Liczba jednostek bez zdarzenia n 0i d 0i n 1i d 1i n i d i Razem n 0i n 1i n i Zakªadaj c,»e liczba zdarze«w grupie kontrolnej i testowej jest niezale»na, otrzymujemy hipergeometryczny rozkªad zmiennej losowej d 0i pod warunkiem n 0i, n i, d i : gdzie: P(d 0i n 0i, n 1i, d i ) = ( ) n = d ( n0i Mo»emy teraz obliczy ±redni i wariancj zmiennej d 0i : )( n1i d 0i ( ni ), (1.34) d i d 1i ) n! d!(n d)!. (1.35) e 0i = Ed 0i = d 0id i n i, (1.36) v 0i = var(d 0i ) = n 0in 1i d i (n i d i ) n 2 i (n. (1.37) i 1) W nast pnym kroku sumujemy wszystkie ró»nice warto±ci obserwowanych i oczekiwanych zmiennej d 0, otrzymuj c liniow statystyk : U 0 = N (d 0i e 0i ), (1.38) i=1 V 0 = var(u 0 ) = Teraz mo»emy skonstruowa statystyk testow [13]: Powy»szy test nazywany jest testem log-rank. N v 0i. (1.39) i=1 U 2 0 V 0 χ 2 1. (1.40) 13

16 Powy»szy test mo»na uogólni na tak zwany wa»ony test log-rang, taki,»e: U 0 (w) = N w i (d 0i e 0i ), (1.41) i=1 V 0 (w) = var(u 0 (w)) = N wi 2 v 0i. (1.42) Istnieje wiele testów opieraj cych si na powy»szej formule, zakªadaj cych ró»ne postaci wag. Jednym z nich jest test Wilcoxona, dla którego wag w czasie t i jest liczba jednostek pod ryzykiem w tym czasie [13] w i = n i. (1.43) Test Tarone-Ware'a przypisuje wi ksz wag do zdarze«maj cych miejsce wcze±niej, poprzez wykorzystanie pierwiastka z liczby jednostek pod ryzykiem jako wagi [13]: i=1 w i = n i. (1.44) Test Flemminga-Harringtona [5] daje najwi ksz elastyczno± w wyborze statystki testowej, poprzez wybranie parametru ρ: w i = N (Ŝ(t i)) ρ. (1.45) Test Flaminga-Harringtona z parametrem ρ = 0 sprowadza si do testu log-rank W ±rodowisku R w pakiecie survival [16] porównanie krzywych prze»ycia za pomoc testu Flemminga-Harringtona mo»e by wykonane za pomoc funkcji survdiff. Innym mo»liwym sposobem na porównanie modeli analizy prze»ycia jest wykonanie testu warstwowego (ang. stratied test). Jest to kolejna modykacja testu log-rank, u»ywana w przypadku kiedy mamy kategoryczn zmienn obja±nian G o niewielkiej liczbie poziomów G {g 1, g 2,..., g ng }. Zmienna G mo»e oznacza na przykªad pªe, grup wiekow czy podawan dawk leku. Testujemy wówczas hipotez zerow : H 0 : h 0j (t) = h 1j (t), dla j {1, 2,..., n G }. (1.46) Dla ka»dej warto±ci zmiennej G = g obliczamy statystyki U 0g oraz V 0g a nast pnie wyznaczamy statystyk testow [12]: X 2 = ( n g n=1 U 0g n ) 2 ng n=1 V 0g 2 χ 2 n g 1. (1.47) n Statystyka testowa w powy»szym te±cie ró»ni si od tej z testu log-rank tym,»e ró»nica zdarze«obserwowanych i oczekiwanych jest sumowana po wszystkich czasach zdarze«w ka»dej warstwie, a nast pnie ró»nice te s sumowane po wszystkich warstwach. W pakiecie survival zaimplemetnowana zostaªa funkcja strata identykuj ca zmienne warstwowe, która mo»e by wykorzystywana przy tworzeniu modeli proporcjonalnego hazardu. 14

17 1.5. Model Coxa Model Coxa, nazywany tak»e modelem proporcjonalnego hazardu, zostaª po raz pierwszy zaproponowany przez Sir Davida Coxa i opiera si na zaªo»eniu proporcjonalnego hazardu: h 1 (t) = Ψh 0 (t), (1.48) które stwierdza,»e zmienne obja±niane w modelu nie zale» od czasu i wpªywaj na funkcj hazardu w sposób multiplikatywny. Nazwa powy»szego zaªo»enia odnosi si do faktu,»e dla dwóch obserwacji iloraz ich funkcji hazardu jest staªy. Model Coxa zakªada nast puj c posta funkcji hazardu [12]: h 1 (t, z 1, z 2,..., z m ) = h 0 (t)e β 1z 1 +β 2 z β mz m, (1.49) gdzie: h 0 (t) - hazard bazowy, z 1, z 2,..., z m - zmienne obja±niane, niezale»ne od czasu t, β 1, β 2,..., β m - parametry. Model Coxa nazywany jest czasem modelem regresji Coxa, poniewa» mo»na go w ªatwy sposób sprowadzi do postaci liniowej: log h 1(t, z 1, z 2,..., z m ) h 0 (t) = β 1 z 1 + β 2 z β m z m. (1.50) W przypadku, gdy w modelu nie ma zmiennych obja±nianych, b d¹ wszystkie zmienne wynosz 0, funkcja hazardu przyjmuje posta hazardu bazowego. Wa»n cech modelu Coxa jest to,»e posta funkcji h 0 (t) jest nieokre±lona (model jest semiparametryczny), co czyni go adekwatnym do modelowania w ró»nych sytuacjach. Je»eli nie jeste±my pewni, co do poprawnego rozkªadu naszych danych, u»ycie modelu Coxa powinno da nam porównywalne wyniki do tych, które uzyskaliby±my u»ywaj c poprawnego rozkªadu. Dodatkowo, mimo, i» nie znamy postaci hazardu bazowego, jeste±my w stanie estymowa parametry β 1,..., β m. Dzi ki tym wªasno±ciom jest on najcz ±ciej u»ywanym modelem w analizie prze»ycia. Estymacj wspóªczynników β i mo»na wykona przy pomocy metody najwi kszej wiarygodno±ci. Jako,»e nie potrzebujemy wiedzy na temat postaci hazardu bazowego, korzystamy tutaj z cz ±ciowej wiarygodno±ci [13]: α(β) = i:c i =1 e Z iβ i j:t j >t i e Z 1β Z mβ m. (1.51) gdzie β = (β 1, β 2,..., β m ). Przedstawi 3 testy na istotno± wspóªczynników w modelu Coxa. Pierwszym z nich jest test ilorazu wiarygodno±ci, w którym statystyke testowa wynosi [13]: LRT = 2 [log α( ˆβ) ] log α 0 χ 2 1, (1.52) gdzie: α 0 - wiarygodno±ci modelu zerowego (ze wszystkimi parametrami równymi 0), ˆβ jest estymatorem β. 15

18 Test Walda przyjmuje posta [13]: W = ˆβ N (0, 1), (1.53) se( ˆβ) gdzie se( ˆβ) jest bª dem standardowym estymatora ˆβ. Test mno»ników Lagrange'a (ang. the score test) przyjmuje posta [13]: d dt log α(β 0) var(log α(β0 )), (1.54) gdzie β 0 jest warto±ci β z hipotezy zerowej. Mo»e on zosta wykonany bez znalezienia estymatora najwi kszej wiarygodno±ci ˆβ. W R estymacj modeli Coxa oraz wyniki powy»szych testów mo»na otrzyma za pomoc funkcji coxph {survival} [16] Modele ryzyk konkuruj cych Modelami, którymi zajmuj si w tej pracy s modele ryzyk konkuruj cych (ang. competing risks models). Jest to jedno z dwóch, obok modeli wielostanowych (ang. multistate models), uogólnie«analizy prze»ycia, dopuszczaj cych wyst powanie wi cej ni» jednego ryzyka. W przypadku modeli ryzyk konkuruj cych mamy do czynienia z wi cej ni» jednym mo»liwym zdarzeniem i obserwujemy czas do wyst pienia pierwszego z nich, w odró»nieniu od modeli wielostanowych, w których, po wyst pieniu jednego zdarzenia mo»e wyst pi nast pne, zgodnie z danym prawdopodobie«stwem przej±cia. Przykªadem ryzyk konkuruj cych mo»e by np. zgon pacjenta z powodu raka pªuc i zgon z innego powodu, czy wybór przez pracownika komunikacji miejskiej lub roweru jako ±rodka transportu do pracy. Formalnie, okre±lamy nasz zbiór ryzyk jako {1, 2, 3,..., J}. Ka»de z nich jest okre±lone jednoznacznie (mog to by np. ró»ne przyczyny ±mierci). Jedn z mo»liwo±ci modelowania ryzyk konkuruj cych jest u»ywanie standardowych metod analizy prze»ycia dla wszystkich ryzyk osobno, traktuj c inne zdarzenia jako cenzorowane. To podej±cie nie jest jednak poprawne w wi kszo±ci zastosowa«, gdy» wymaga zaªo»enia o niezale»no±ci ryzyk, a nawet w tym przypadku interpretacja wyników bywa w tpliwa. Problemy powstaj ce przy zastosowaniu takiego podej±cia zaprezentuj na przykªadach w nast pnych rozdziaªach Funkcje skumulowanych cz sto±ci Pierwszym prezentowanym tutaj podej±ciem stosowanym do modelowania ryzyk konkuruj cych jest zastosowanie tak zwanych funkcji skumulowanych cz sto±ci (ang. cumulative incidende function, tak»e subdistribution function) dla ka»dego z ryzyk. Denicja Funkcja skumulowanych cz sto±ci - funkcja F j : [0, ) [0, 1], dana wzorem: F j (t) = P(T t, δ = j) = gdzie δ oznacza dany typ zdarzenia. t 0 h j (u)s(u)du, j {1, 2, 3,..., J}, (1.55) 16

19 Funkcja ta posiada pewne analogie do dystrybuanty funkcji ryzyka, jednak jej granica przy t jest równa prawdopodobie«stwu wyst pienia danego zdarzenia, a nie zbiega do 1. Dokªadniej: lim t F j (t) = P(δ = j), j {1, 2, 3,..., J}. (1.56) Analogicznie deniujemy funkcj hazardu dla danego ryzyka j: P(t < T < t + ɛ, δ = j T > t) h j (t) = lim ɛ 0, j {1, 2, 3,..., J}. (1.57) ɛ Dodaj c do siebie funkcje hazardu dla poszczególnych ryzyk, dostajemy ogóln funkcj hazardu: h(t) = J h j (t). (1.58) j=1 Wzór ten ma wa»n interpretacj, oznaczaj c, i» ryzyko wyst pienia jednego ze zdarze«w danym punkcie czasowym jest sum ryzyk wyst pienia poszczególnych zdarze«w tym czasie. Estymacj funkcji hazardu mo»na przeprowadzi w sposób analogiczny do przypadku analizy prze»ycia. Dla {t 1, t 2,..., t N } - uporz dkowanych czasów wyst pienia zdarze«, funkcja hazardu dla danego ryzyka wynosi: ĥ j (t i ) = d ij n i, j {1, 2, 3,..., J}, (1.59) gdzie: d ij - liczba zdarze«typu j które wyst piªy w czasie t i, n i to liczba jednostek nara»onych na ryzyko w czasie t i. Otrzymujemy wówczas: J j=1 ĥ(t i ) = d ij J = ĥ j (t i ). (1.60) n i j=1 Estymator funkcji skumulowanych cz sto±ci wynosi wtedy: ˆF j (t) = ti t Ŝ(t i 1 )ĥj(t i ). (1.61) Test na porównywanie krzywych skumulowanych cz sto±ci pomi dzy grupami, tak zwany test dla K prób (ang. K-sample test), zostaª po raz pierwszy zaproponowany przez Roberta J. Greya w 1988 roku [9] i stanowi on analogi do testu logrank Przedstawi konstrukcj tego testu na podstawie [9]. Zakªadamy, ka»da jednostka nale»y do jednej z grup {1, 2, 3,..., K} i dane s prawostronnie cenzorowane. Przyjmijmy nast puj c notacj : T 0 ik - czas zdarzenia dla i tej jednostki z grupy k, i {1, 2,..., n k}, n = K k=1 n k - liczba wszystkich obserwacji, δ 0 ik {1, 2, 3,...J} - typ zdarzenia dla i tej jednostki z grupy k, i {1, 2,..., n k}, F jk (t) = P(Tik 0 t, δ0 ik = j) - funkcja skumulowanych cz sto±ci dla ryzyka j w grupie k, f jk (t) = d dt F jk(t) - funkcja g sto±ci dla skumulowanej cz sto±ci. 17

20 Zakªadamy,»e pary (Tik 0, λ0 ik ) dla danego ryzyka j s niezale»ne, o jednakowym rozkªadzie. Nie zakªadamy jednak niezale»no±ci ryzyk. Dla uªatwienia notacji przyjmujemy,»e interesuj cym nas typem zdarzenia jest j = 1. Hipotez zerow naszego testu jest wówczas: H 0 : F 1k = F1 0, k {1, 2, 3,...K}, (1.62) gdzie: F1 0 jest niesprecyzowan funkcj skumulowanych cz sto±ci. W terminach zdeniowanych powy»ej, funkcja prze»ycia w grupie k przyjmuje posta : J S k (t) = P(Tik 0 > t) = 1 F jk (t). (1.63) Funkcja hazardu dla zdarzenia typu j w grupie k wynosi wówczas: j=1 λ jk (t) = f jk(t) S k (t). (1.64) Dla uªatwienia notacji przedstawmy konstrukcj testu dla J = 2 ryzyk. Nie narzucamy tym samym»adnych ogranicze«, gdy» w przypadku wi cej ni» dwóch ryzyk, mo»emy testowa ró»nice mi dzy jednym ryzykiem, a drugim b d cym wszystkimi innymi ryzykami. Gªówn ide tego testu jest porównanie wa»onych hazardów subdystrybucyjnych: γ jk (t) = f jk(t) 1 F jk (t) = f jk(t) G jk (t), (1.65) gdzie: G jk (t) = 1 F jk (t). Analogicznie jak w przypadku podstawowych metod analizy prze»ycia, mo»emy zdeniowa dystrybuant hazardu subdystrybucyjnego: Γ jk (t) = t 0 γ jk (u)du. (1.66) Przez U ik oznaczmy czas cenzorowania dla i tej jednostki w grupie k. Tak jak zauwa»yli±my w rozdziale 1.1, zakªadamy,»e U ik s niezale»ne od (Tik 0, δ0 ik ). Warto±ci obserwowane, to: T ik = min(t 0 ik, U ik), (1.67) δ ik = δ 0 ik I(T ik U ik ). (1.68) Konstrukcja testu opiera si na teorii procesów licz cych (ang. counting processes) zaprezentowanej w [2]. Zdeniujmy zliczenia zdarze«j tego rodzaju w k tej grupie, które wyst piªy przed czasem t jako: n k N jk (t) = I(T ik t, δ ik = j) (1.69) oraz zliczenia jednostek nara»onych na ryzyko w k tej grupie, po czasie t: i=1 n k Y k (t) = I(T ik t). (1.70) i=1 18

21 Wówczas mo»emy skonstruowa nast puj cy estymator funkcji skumulowanych cz sto±ci: ˆF jk (t) = t 0 S km ˆ (u )Y 1 k (u)dn jk (u), (1.71) gdzie: S km ˆ (t) jest estymatorem Kaplana-Meiera zdeniowanym tak jak w 1.19, Ŝ k (t ) = lim s t Ŝk(s) oraz przyjmujemy Ŝk(t ) = 0 dla Y k (t) = 0 (z przyj t konwencj 0 0 = 0). Jak pokazano w [1], przy zaªo»eniu niezale»no±ci ryzyk, estymator ten jest silnie zgodny i sªabo zbie»ny, co wi cej jest on estymatorem najwi kszej wiarygodno±ci dla modeli nieparametrycznych [10]. Zauwa»my,»e na podstawie danych nie jeste±my w stanie obliczy rozkªadu F1 0 z hipotezy zerowej, gdy» nie zakªada ona,»e S k ani λ 1k maj by równe w ró»nych grupach. St d deniujemy zbiór ryzyka, jako: R k (t) = I(τ k t)y k (t)ĝ1k(t ), (1.72) Ŝ k (t ) gdzie: τ k, k {1, 2, 3,..., K} to ustalone czasy, które speªniaj, przy zaªo»eniu hipotezy zerowej: Π 0 k (t) = α kp(t ik t) > 0, dla 0 < α k < n k n. (1.73) Przyjmuj c,»e R k (t) = 0 dla τ k < t, otrzymujemy: ˆΓ 1k (t) = t 0 [Ĝ1k(u )] 1 d ˆF 1k (u) = t 0 [R k (u)] 1 dn 1k (u), dla t τ k, (1.74) przy czym ostatnia równo± wynika z Za estymator Γ 0 1 przyjmujemy wówczas: ˆΓ 0 1(t) = t 0 [R (u)] 1 dn 1 (u), (1.75) gdzie indeks oznacza sumowanie po wszystkich mo»liwych warto±ciach k. Estymator ten jest zgodny przy zaªo»eniu hipotezy zerowej, poniewa» wszystkie estymatory ˆF 1k zgodnie estymuj F 0 1 oraz: ˆΓ 0 1(t) = K k=1 t Ostatecznie, jako statystyk testow przyjmujemy: z k = 0 τk 0 [ Rk (u) ]Ĝ 1 R (u) 1k (u )d ˆF 1k (u). (1.76) [ K k (t) dˆγ 1k d ˆΓ ] 0 1, (1.77) gdzie K k (t) jest wybran funkcj wag, zazwyczaj postaci K k (t) = L(t)R k (t), dla pewnej funkcji L(T ). Jak zostaªo udowodnione w [9], zakªadaj c,»e K k (t) jest procesem na [0, τ k ], zbiegaj cym jednostajnie, wedªug prawdopodobie«stwa do Kk 0 (t), mamy sªab zbie»no± statystyki testowej: n 1 2 Z Nk (µ, Σ). (1.78) gdzie Z = (z 1, z 2,..., z K ), dla pewnych parametrów µ i Σ. 19

22 W przypadku tylko K = 2 grup, przeprowadzenie testu sprowadza si do obliczenia: τ 0 ( K(t) [1 F ˆ 11 (t )] 1 df ˆ 11 (t) [1 F 12 ˆ(t )] 1 df ˆ ) 12 (t), (1.79) gdzie ponownie K(t) jest wybran funkcj wag. W ±rodowisku R, funkcje skumulowanych cz sto±ci oraz test dla K prób mo»na obliczy za pomoc funkcji cuminc z pakietu cmprsk [8] Model Coxa dla ryzyk konkuruj cych Innym podej±ciem pozwalaj cym na modelowanie ryzyk konkuruj cych jest zastosowanie uogólnionego modelu Coxa, zaprezentowanego po raz pierwszy przez J. Fine'a oraz R. Grey'a w 1999 roku [6]. Mo»emy tutaj przyj uproszczon notacj : T - czas zdarzenia, C - czas cenzorowania, δ {1, 2, 3,..., J} - typ zdarzenia, Z - wektor wspóªczynników dªugo±ci m, z i, i {1, 2, 3,..., m} ograniczone, niezale»ne od czasu. Dla danych prawostronnie cenzorowanych obserwujemy: X = min(t, C), = I(T C) oraz Z. Zakªadamy,»e {X i, i, i δ i, Z i } s niezale»ne, o jednakowym rozkªadzie dla i {1, 2, 3,..., N}, gdzie N jest liczb obserwacji. Ponownie zakªadamy,»e interesuje nas model dla zdarzenia typu 1. Funkcja skumulowanych cz sto±ci przyjmuje wówczas posta : F 1 (t; Z) = P(T t, δ = 1 Z). (1.80) U»ywa b dziemy klasy semiparametrycznych transformacji modelu, to znaczy, rozwa»amy pewn funkcj rosn c g, tak,»e: gdzie: h 0 (t) - niesprecyzowana, monotonicznie rosn c funkcj, β 0 - wektor parametrów dªugo±ci p. Najcz stszym wyborem funkcji g jest: g(f 1 (t; z)) = h 0 (t) + Z T β 0, (1.81) g(u) = log( log(1 u)). (1.82) Podobnie jak w przypadku testu dla K prób deniujemy hazard subdystrybucyjny: P(t T t + ɛ, δ = 1 T t (T t δ 1), Z) λ 1 (t; Z) = lim ɛ 0 ɛ df 1 (t;z) dt = 1 F 1 (t; Z) = d log(1 F 1(t; Z)). dt (1.83) 20

23 Przy zaªo»eniu proporcjonalenego hazardu mamy: λ 1 (t; Z) = λ 10 (t; Z) exp(z T β 0 ), (1.84) gdzie λ 10 (t) jest niesprecyzowan, nieujemn funkcj czasu. U»ycie transformacji g(u) = log( log(u)) daje nam hazard bazowy postaci: ( t ) h 0 (t) = log λ 10 (s)ds, (1.85) 0 dzi ki czemu zarówno hazard bazowy jak i wspóªczynniki regresji maj prost interpretacj niezale»n od struktury hazardu subdystrybucyjnego. Testowanie ró»nic pomi dzy grupami w modelach Coxa w przypadku wyst powania ryzyk konturuj cych mo»na wykona za pomoc modykowanego testu ilorazy wiarygodno±ci. Aby obliczy cz ±ciow wiarygodno± dla naszego modelu deniujemy zbiór ryzyka dla i tej jednostki jako: R i = {k : (min(c k, T k ) T i ) (T k T i δ k 1 C k T i )}. (1.86) Cz ±ciowa wiarygodno± wynosi wówczas [6]: [ ] α cr (β) = Π n exp(zi T(T i)β) i=1 k R i exp(zj T(T. (1.87) i)β) Statystyka testowa, wynosi wówczas: LRT cr = 2 [ log α cr ( ˆβ) ] log αcr 0 χ 2 1, (1.88) gdzie: α 0 cr to cz ±ciowa wiarygodno± dla modelu zerowego. Estymacj modelu Coxa dla ryzyk konkuruj cych w R mo»na uzyska za pomoc funkcji crr z pakietu cmprsk [8]. Funkcja ta oblicza tak»e cz ±ciow wiarygodno± dla danych prawostronnie cenzorowanych dla wyestymowanego modelu oraz dla modelu zerowego (z wszystkimi wspóªczynnikami β 0 równymi 0), co umo»liwia obliczenie modykowanego testu ilorazu wiarygodno±ci. 21

24

25 Rozdziaª 2 Biblioteka 'cr17' 2.1. Wprowadzenie Biblioteka cr17 stanowi narz dzie do analizy i wizualizacji modeli ryzyk konkuruj cych. Gªównym punktem zainteresowania jest badanie ró»nic mi dzy modelami dla poszczególnych zdarze«po±ród okre±lonych grup w populacji. Dost pne funkcje opieraj si na tych zaimplementowanych w pakietach survival [16] oraz cmprsk [8], posiadaj one jednak liczne udogodnienia i s przystosowane na przypadek ryzyk konkuruj cych. Wizualizacje s wykonywane przy u»yciu pakietu ggplot2. Podczas pracy nad bibliotek d»yªam do stworzenia narz dzia przyst pnego dla ka»dego u»ytkownika. Klarowno± pakietu wynika z jego nast puj cych cech: brak konieczno±ci wywoªywania tej samej funkcji wiele razy, dla ka»dego ze zdarze«osobno, jak w przypadku innych pakietów zajmuj cych si modelami ryzyk konkuruj cych, brak restrykcji co do typu wektorów zawieraj cych dane o rodzaju zdarzenia i grupie, do której nale»y obserwacja (w niektórych pakietach spotykamy np. ograniczenie na numeryczn zmienn okre±laj c rodzaj ryzyka, co utrudnia prace poprzez konieczno± zakodowania zmiennej typu character lub factor na zmienn numeryczn. Do stworzenia legend przy wykresach czy starannego raportu, nale»y ponownie powróci do pierwotnych nazw), funkcja summarizecr pozwalaj ca na uzyskanie kompleksowego raportu poprzez wywoªanie tylko jednej linijki kodu. Do pakietu doª czone zostaªy dane LUAD pochodz ce z badania The Cancer Genome Atlas [11], dotycz ce zgonów oraz nawrotów chorób w±ród pacjentów z nowotworami pªuc. Na podstawie tych danych przedstawi funkcjonalno± pakietu. Pakiet skªada si z 12 funkcji, które estymuj poszczególne modele, wykonuj testy diagnostyczne oraz tworz tabele i wykresy dla dwóch podej± - analizy prze»ycia, w której zdarzenia innego rodzaju traktujemy jako cenzorowanie oraz dla modeli ryzyk konkuruj cych. Dodatkowo, zaimplementowana zostaªa funkcja summarizecr, generuj ca sumaryczny raport bez konieczno±ci wywoªywania poszczególnych funkcji. 23

26 Aby przejrzy±cie przedstawi dziaªanie pakietu, przyjrzyjmy si najpierw danym LUAD. Zawieraj one informacje o czasie obserwacji, rodzaju zdarzenia oraz pªci, któr traktowa b dziemy jako zmienn grupuj c, po±ród 522 pacjentów. Dokªadniej, dane zawieraj 3 kolumny: event, okre±laj ca, czy dana jest cenzorowana (alive), czy wyst piªo jedno z dwóch konkuruj cych zdarze«- zgon (death) lub pojawienie si nowego nowotworu (new_tumor), time, liczba dni od pocz tku obserwacji do wyst pienia zdarzenia, b d¹ ko«ca obserwowania, w przypadku cenzorowania, gender, pªe pacjenta. W tabeli 2.1 przedstawione zostaªy liczebno±ci zdarze«w poszczególnych grupach. Tablica 2.1: Tabela liczebno±ci dla danych LUAD. Male F emale Razem alive death new_tumor Razem W bibliotece cr17 rozwa»one zostaªy 4 podej±cia modelowania ryzyk konkuruj cych. Pierwsze dwa, to estymacja krzywych prze»ycia oraz modele Coxa dla poszczególnych ryzyk, podczas gdy zdarzenia innego typu traktowane s jako cenzorowane. Nast pne dwa to estymacja funkcji skumulowanych cz sto±ci oraz modele Coxa dla ryzyk konkuruj cych. W nast pnych podrozdziaªach opisane zostan zaimplementowane funkcje Estymacja modeli analizy prze»ycia - funkcja tsurvival Funkcja fitsurvival jest adaptacj funkcji survfit z pakietu survival, dostosowan do przypadku wi cej ni» jednego ryzyka. Dopasowuje ona krzywe prze»ycia, opisane w rozdziale 1.3, dla ka»dego z ryzyk i ka»dej z grup osobno, traktuj c obserwacje, u których wyst piªo zdarzenie innego rodzaju, jako cenzorowane. Argumentami tej funkcji s : time, wektor zawieraj cy punkty w czasie, w ktorych wyst piªo zdarzenie, b d¹ nast piª koniec obserwacji. Kolumna ta powinna by typu numeric, risk, wektor okre±laj cy typ zdarzenia, mo»e by typu numeric, character lub factor, group, wektor okre±laj cy grup, do której nale»y dana obserwacja, mo»e by typu numeric, character lub factor, cens, warto± oznaczaj ca obserwacje cenzorowane w kolumnie risk (domy±lnie NULL, przyj ta zostanie pierwsza warto± z wektora risk), type, rodzaj krzywej prze»ycia, jaka ma by obliczona. Mo»liwe warto±ci to: "kaplan-meier" (warto± domy±lna), "fleming-harrington" oraz "fh2" (patrz: rozdziaª 1.3), conf.int, poziom ufno±ci (domy±lnie 0.95), 24

27 conf.type, rodzaj przedziaªu ufno±ci, jaki ma by obliczony. Mo»liwe warto±ci to: none (przedziaªy ufno±ci nie zostan obliczone), plain, log (warto± doym±lna), log-log (patrz: rozdziaª 1.3). Argumenty time, risk, group, cens s argumentami wi kszo±ci funkcji i nie b d ponownie opisywane przy omawianiu kolejnych funkcji. Warto±ci funkcji fitsurvival jest lista, której elementami s objekty klasy survfit.summary {survival} dla poszczególnych ryzyk. Ka»dy taki element jest list, zawieraj c w szczególno±ci nast puj ce informacje: time, czasy kolejnych zdarze«danego ryzyka, n.risk, liczba jednostek nara»onych na ryzyko w czasie time, n.event, liczba zdarze«w czasie time, surv, warto± estymowana krzywej prze»ycia w czasie time, strata, grupa, do której nale»y dana obserwacja, std.err, bª d standardowy estymacji krzywej prze»ycia w czasie time, lower, dolne organiczenie przedziaªu ufno±ci dla krzywej prze»ycia w czasie time, upper, górne ograniczenie przedziaªu ufno±ci dla krzywej prze»ycia w czasie time. Po wywoªaniu nast puj cego kodu: fits <- fitsurvival ( time = LUAD $ time, risk = LUAD $ event, group = LUAD $ gender, cens = " alive ", type = " kaplan - meier ", conf. int = 0.95, conf. type = " log " ) otrzymujemy dwuelementow list. Pierwszym elementem tej listy jest objekt typu survfit.summary dla ryzyka death, drugim dla ryzyka new_tumor Rysowanie krzywych prze»ycia - funkcja plotsurvival Wynik funkcji fitsurvival dostarcza nam wystarczaj cych informacji do narysowania krzywych prze»ycia dla poszczególnych ryzyk po±ród danych grup. Sªu»y do tego funkcja plotsurvival, której argumentami s : t, objekt powstaªy po wywoªaniu funkcji fitsurvival, target, punkt w czasie, dla którego narysowane zostan przedziaªy ufno±ci na wykresie (domy±lnie null, przedziaªy ufno±ci nie zostan narysowane). ggtheme, argument funkcji ggplot, wybór tematu wykresu (domy±lnie: theme_minimal()). titlesurv, tytuª wykresu (domy±lnie: Survival curves). xtitle, nazwa osi pionowej (domy±lnie: T ime). ytitlesurv, nazwa osi poziomej (domy±lnie: P robability of survivng up to time t). legendtitle, tytuª legendy (domy±lnie: Group). 25

28 Rysunek 2.1: Wynik funkcji plotsurvival na danych LUAD. Wykres przedstawia krzywe prze»ycia w±ród pacjentów u których pierwszym zdarzeniem byª zgon (death) oraz u których pierwszym zdarzeniem byªo wyst pienie nowego nowotworu (new_tumor). Krzywe prze»ycia s rysowane osobno dla kobiet (f emale) oraz dla m»czyzn (male). Wynikiem tej funkcji jest wykres przedstawiaj cy krzywe prze»ycia. Po wywoªaniu: plotsurvival ( fit = fits, target = 1200, ggtheme = theme _ minimal (), titlesurv = " Survival curves ", xtitle = " Time ", ytitlesurv = " Probability of survivng up to time t ", legendtitle = " Group " ) otrzymujemy wykres jak na rysunku Testowanie modeli analizy prze»ycia - funkcja testsurvival Wyniki testu Fleminga-Hrringtona (patrz: rozdziaª 1.4), badaj cego istotno± ró»ni w krzywych prze»ycia w grupach, otrzymujemy za pomoc funkcji testsurvival. Poza standardowymi argumentami przyjmuje ona tak»e parametr rho, zdeniowany w Domy±lna warto± tego parametru wynosi 0 (otrzymujemy wówczas wyniki testu logrank). Wynikiem tej funkcji jest tabelka data.frame, zawieraj ca p-warto±ci dla testu Fleminga-Harringtona dla poszczególnych ryzyk. Dla danych LUAD mamy: testsurvival ( time = LUAD $ time, risk = LUAD $ event, group = LUAD $ gender, cens = " alive ", rho = 0) Wynik z funkcji testsurvival na danych LUAD zostaª zaprezentowany na rysunku

29 Rysunek 2.2: Wynik funkcji testsurvival na danych LUAD. W tabeli znajduj si p-warto±ci testu Fleminga-Harringtona (patrz: rozdziaª 1.4), badaj cego istotno± wyst powania ró»nic w krzywych prze»ycia w±ród kobiet i m»czyzn dla obydwu ryzyk Estymacja modeli Coxa - funkcja tcox Funkcja fitcox dopasowuje model Coxa (patrz: rozdziaª 1.5), na podstawie funkcji coxph z pakietu survival, dla poszczególnych ryzyk, traktuj c inne zdarzenia jako cenzorowane. Argumentami s time, risk, group, cens, conf.int zdeniowane powy»ej. Wynikiem jest lista, której elemantami s objekty klasy coxph.summary. Ka»dy z tych elementów, zawiera nast puj ce informacje: dopasowane wspóªczynniki beta (patrz: rozdziaª 1.5), przedziaªy ufno±ci dla tych wspóªczynników, statystyk testow i p-warto± dla testu ilorazu wiarygodno±ci 1.52, statystyk testow i p-warto± dla testu Walda 1.53, statystyk testow i p-warto± dla testu mno»ników Lagrange'a Po wywoªaniu: fitc <- fitcox ( time = LUAD $ time, risk = LUAD $ event, group = LUAD $ gender, cens = " alive ", conf. int = 0.95) otrzymujemy dwuelementow list, której elementami s obiekty klasy coxph.summary dla poszczególnych ryzyk Testowanie modeli Coxa - funkcja testcox Po dopasowania modelu Coxa dla poszczególnych ryzyk, za pomoc funkcji testcox otrzymujemy p-warto±ci dla trzech testów badaj cych ró»nice pomi dzy grupami: testu ilorazu wiarygodno±ci 1.52, testu Walda 1.53 oraz testu logrank Argumentem tej funkcji jest fitcox - wynik funkcji fitcox. Po wywyoªaniu testcox ( fitcox = fitc ) dostajemy tabelk z p-warto±ciami dla wy»ej wymienionych testów dla obydwu ryzyk. Wynik funkcji testcox na danych LUAD zostaª zaprezentowany na rysunku

30 Rysunek 2.3: Wynik funkcji testcox na danych LUAD. W tabeli znajduj si p-warto±ci testów badaj cych istotno± ró»nic pomi dzy modelami Coxa dla kobiet i dla m»czyzn. Wykonane testy to: LRT - test ilorazu wiarygodno±ci dla modeli Coxa 1.52, Wald Test - test Walda 1.53, Logrank Test - test logrank dla modeli Coxa Estymacja modeli ryzyk konkuruj cych - funkcja tcuminc Funkcja fitcuminc estymuje funkcje skumulowanych cz sto±ci w poszczególnych grupach, za pomoc funkcji cuminc z pakietu cmprsk. Argumentami tej funkcji s time, risk, group, cens. Otrzyman warto±ci jest lista, której elementami s oszacowania krzywych skumulowanych g sto±ci dla poszczególnych grup i ryzyk. Ka»dy z tych elementów, zawiera nast puj ce informacje: time, punkty w czasie, w których wyst piªy zdarzenia danego typu w danej grupie, est, estymowana warto± krzywej skumulowanych g sto±ci w czasie time, var, wariancja estymowanej warto±ci funkcji skumulowanych cz sto±ci. group, grupa, dla której estymowana jest funkcja skumulowanych cz sto±ci, risk, typ zdarzenia, dla którego estymowana jest funkcja skumulowanych cz sto±ci. Dodatkowym elementem jest tabelka data.frame zawieraj ca wyniki testu dla K-prób (patrz: rozdziaª 1.7). Po wywoªaniu: fitc <- fitcuminc ( time = LUAD $ time, risk = LUAD $ event, group = LUAD $ gender, cens = " alive " ) otrzymujemy pi cioelementow list. Pierwsze cztery elementy to oszacowania krzywych skumulowanych g sto±ci dla ka»dego ryzyka w ka»dej grupie. Pi tym elementem, jest tabelka zawieraj ca dane na temat statystyki testowej oraz p-warto±ci testu dla K-prób dla obydwu ryzyk. 28

31 2.8. Rysowanie krzywych skumulowanych cz sto±ci - funkcja plotcuminc Na podstawie funkcji fitcuminc mo»na otrzyma wykres skumulowanych warto±ci, za pomoc funkcji plotcuminc. Jej argumentami s ci, objekt powstaªy po wywoªaniu funkcji fitcuminc, cens, warto± wektora. zawieraj cego typ zdarzenia, oznaczaj ca obserwacj cenzorowan, target, punkt w czasie, dla którego narysowane zostan przedziaªy ufno±ci na wykresie. ggtheme, argument funkcji ggplot, wybór tematu wykresu (domy±lnie: theme_minimal()). titlecuminc, tytuª wykresu (domy±lnie: Cumulative incidence f unctions). xtitle, nazwa osi pionowej (domy±lnie: T ime). ytitlecuminc, nazwa osi poziomej (domy±lnie: Cumulative incidences). legendtitle, tytuª legendy (domy±lnie: Group). Po wywoªaniu: plotcuminc ( ci = fitc, otrzymujemy wykres 2.4. cens = " alive ", target = 1200, ggtheme = theme _ minimal (), titlecuminc = " Cumilative incidence function ", xtitle = " Time ", ytitlecuminc = " Cumulative incidences ", legendtitle = " Group " ) 2.9. Testowanie modeli ryzyk konkuruj cych - funkcja testcuminc Wyniki testu dla K prób (patrz: rozdziaª 1.7) otrzymujemy za pomoc funkcji testcuminc, której argumentem jest obiekt fitcuminc. Po wywoªaniu: testcuminc ( ci = fitc ) otrzymujemy tabelk przedstawion w

32 Rysunek 2.4: Wynik funkcji plotcuminc na danych LUAD. Wykres przedstawia krzywe skumulowanych cz sto±ci dla pacjentów u których pierwszym zdarzeniem byª zgon (death) oraz u których pierwszym zdarzeniem byªo wyst pienie nowego nowotworu (new_tumor). Krzywe s rysowane osobno dla kobiet (f emale) oraz dla m»czyzn (male). 30

33 Rysunek 2.5: Wynik funkcji testcuminc na danych LUAD. W tabeli znajduj si p-warto±ci testu dla K-prób 1.77, badaj cego istotno± wyst powania ró»nic w krzywych skumulowanych cz sto±ci dla kobiet i dla m»czyzn Estymacja modeli Coxa w przypadku wyst powania ryzyk konkuruj cych - funkcja treg Ostatni zaimplementowan metod jest model Coxa dla ryzyk konkuruj cych, nazywany tak»e modelami regresji dla ryzyk konkuruj cych. Dopasowanie modelu dostajemy za pomoc funkcji fitreg, opartej na funkcji crr z pakietu cmprsk. Argumentem tej funkcji s ponownie time, risk, group oraz cens. Warto±ci tej funkcji jest lista, której elementami s dopasowania modelu Coxa dla ryzyk konkurencyjnych dla poszczególnych ryzyk i grup. W ka»dym przypadku dostajemy, w szczególno±ci, nast puj ce informacje: coef, wyestymowane parametry β (patrz: rozdziaª 1.8), loglik, logarytm pseudo-wiarygodno±ci dla modelu, score, pochodna logarytmu pseudo-wiarygodno±ci w punkcie loglik, loglik.null, logarytm pseudo-wiarygodno±ci dla modelu zerowego (z wszystkimi parametrami równymi 0). Dodatkowym, ostatnim elementem listy s wyniki modykowanego testu LRT rozdziaª 1.8). Dla danych LUAD, po wywoªaniu: (patrz: reg <- compriskreg ( time = LUAD $ time, risk = LUAD $ event, group = LUAD $ gender, data = LUAD, cens = " alive " ) dostajemy pi cioelementow list, której pierwsze 4 elementy to dopasowania modeli Coxa w przypadku ryzyk konkurencyjnych dla poszczególnych grup i ryzyk. Pi tym elementem jest tabelka z wynikami modykowanego testu ilorazy wiarygodno±ci Testowanie modeli Coxa w przypadku wyst powania ryzyk konkuruj cych - funkcja testreg Aby uzyska tabelk z p-warto±ciami dla modykowanego testu ilorazu wiarygodno±ci, wykorzystujemy funkcje testreg, której argumentami jest objekt treg oraz conf.int. Wynikiem jest tabelka zawieraj ca p-warto±ci. Przykªad dla danych LUAD zostaª przedstawiony na rysunku 2.6. testreg ( fitreg = reg, conf. int = 0.95) 31

34 Rysunek 2.6: Wynik funkcji testreg na danych LUAD. w tabeli znajduj si p-warto±ci modykowanego testu ilorazu wiarygodno±ci dla modeli Coxa w przypadku wyst powania ryzyk konkuruj cych. Badana jest istotno± wyst powania ró»nic w modelach dla kobiet i dla m»czyzn. Rysunek 2.7: Wynik funkcji risktab. Tabela przedstawiaj ca liczb jednostek nara»onych na ryzyko w czasie dla obydwu ryzyk w rozró»nieniu na pªe. Punkty, w których liczone s jednostki nara»one na ryzyko odpowiadaj punktom na osi poziomej wykresu z krzywymi prze»ycia Zliczenia jednostek nara»onych na ryzyko - funkcja risktab Tabelk, w której znajduje si liczba jednostek nara»onych na ryzyko w danych grupach mo»na otrzyma za pomoc funkcji risktab, której argumentami s time, risk, group, cens, zdeniowane powy»ej oraz argument title pozwalaj cy na podanie tytuªu tabelki (domy±lnie: Number at risk). Dla danych LUAD, po wywoªaniu: risktab ( time = LUAD $ time, risk = LUAD $ event, group = LUAD $ gender, cens = " alive ", title = " Number at risk " ) otrzymujemy tabelk jak w

35 Rysunek 2.8: Wynik funkcji eventtab. Tabela przedstawiaj ca liczb zdarze«danego typu, które nast piªy do danego czasu w rozró»nieniu na pªe. Punkty, w których liczone s wyst pienia zdarze«odpowiadaj punktom na osi poziomej wykresu z krzywymi skumulowanych cz sto±ci Zliczenia wyst pie«zdarze«- funkcja eventtab Analogicznie, mo»emy otrzyma teraz tabel zawieraj c informacj o liczbie zdarze«do danego czasu t. Argumentami tej funkcji s ponownie time, risk, group, data, cens, zdeniowane powy»ej oraz argument title pozwalaj cy na podanie tytuªu tabelki (domy±lnie: Number of events). Dla danych LUAD, po wywoªaniu: eventtab ( time = LUAD $ time, risk = LUAD $ event, group = LUAD $ gender, cens = " alive ", title = " Number of events " ) otrzymujemy tabelk jak w

36 2.14. Sumaryczny raport - funkcja summarizecr Aby mo»liwe uªatwi korzystanie z biblioteki cr17, zaimplementowana zostaªa funkcja summarizecr, dzi ki której mo»na otrzyma wyniki z wszystkich opisanych powy»ej funkcji w przejrzystym raporcie. Po wywoªaniu: summarizecr ( time = LUAD $ time, risk = LUAD $ event, group = LUAD $ gender, cens = " alive ", target = 1200, rho = 0, type = " kaplan - meier ", conf. int = 0.95, conf. type = " log ", ggtheme = theme _ minimal (), titlesurv = " Survival curves ", titlecuminc = " Cumulative incidence function ", xtitle = " Time ", ytitlesurv = " Probability of survivng up to time t ", ytitlecuminc = " Cumulative incidences ", legendtitle = " Group ", risktabtitle = " Number at risk ", eventtabtitle = " Number of events " ) otrzymujemy raport jak na rysunku 2.9. Jak ªatwo zauwa»y, raport mo»na podzieli na dwie kolumny. Pierwsza z nich przedstawia rezultaty z modelowania analizy prze»ycia dla ryzyk z osobna, podczas gdy druga z nich dotyczy ryzyk konkuruj cych. Punkty w czasie, dla których zostaªy wyliczone warto±ci w tabelce zawieraj cej liczb jednostek nara»onych na ryzyko odpowiadaj tym na przedstawiaj cych krzywe prze»ycia. Analogicznie, punkty w czasie, dla których zliczone zostaªy wyst pienia zdarze«odpowiadaj osi poziomej wykresu w krzywymi skumulowanych cz sto±ci. Poprzez podanie odpowiednich argumentów mo»na zmieni poziom ufno±ci, dla których liczone s przedziaªy ufno±ci i p-warto±ci, zmieni temat wykresów oraz dopasowa wªasne tytuªy wykresów i tabelek. 34

37 Rysunek 2.9: Wynik funkcji summarizecr na danych LUAD. Sumaryczny raport przedstawiaj cy porównanie czasów prze»ycia w grupach dla poszczególnych ryzyk. W górnej cz ±ci znajduj si dwa wykresy - wykres przedstawiaj cy krzywe prze»ycia (po lewej stronie) oraz wykres przedstawiaj cy krzywe skumulowanych cz sto±ci (po prawej stronie). W ±rodkowej cz ±ci znajduj si tabelka ze zliczeniami jednostek nara»onych na ryzyko (po lewej stronie) oraz tabelka ze zliczeniami zdarze«(po prawej stronie). Na dole raportu znajduj si wyniki poszczególnych testów badaj cych ró»nice w modelach pomi dzy grupami - w tym przypadku pomi dzy kobietami a m»czyznami. Z lewej strony znajduje si tabelka z p-warto±ciami dla testów opartych na analizie prze»ycia, po prawej stronie natomiast przedstawione s wyniki testów dla modeli ryzyk konkuruj cych. 35

38

39 Rozdziaª 3 Przykªad zastosowania na danych o pacjentach z nowotworami ukªadu krwiotwórczego 3.1. Opis danych Praktyczne zastosowanie pakietu przedstawi na danych pochodz cych z projektu InfAza, b d cego wspólnym przedsi wzi ciem Warszawskiego Uniwersytetu Medycznego, pod przewodnictwem dra n. med. Krzysztofa M drego oraz lek. med. Karola Lisa wraz z Uniwersytetem Warszawskim pod przewodnictwem dra hab. Przemysªawa Biecka. Dane te, o roboczej nazwie infaza, zawieraj informacje o pacjentach choruj cych na jedn z trzech pokrewnych ze sob chorób: AML (ang. acute myeloid leukemia) - ostr biaªaczk szpikow, CMML (ang. chronic myelomonocytic lekuemia) - przewlekª biaªaczk mielomonocytow, MDS (ang. myelodysplastic syndrome) - zespoªem mielodysplastycznym, nazywanym tak»e stanem przedbiaªaczkowym. Choroby te zaliczane s do nowotworów ukªadu krwiotwórczego i powoduj, mi dzy innymi, znacznie zmniejszon odporno± organizmu. Wszyscy pacjenci poddani zostali innowacyjnej terapii azacytadyn, w comiesi cznych cyklach podawania leku. Gªównym celem gromadzenia danych byªo zdobycie wiedzy na temat ryzyka wyst pienia infekcji podczas 3 pierwszych miesi cy terapii oraz czynników wpªywaj cych na to ryzyko. Analiza statystyczna w ramach projektu, któr wykonywaªam, obejmowaªa czyszczenie i eksploracj danych, budowanie modeli liniowych, testowanie istotno±ci parametrów, stworzenie klasykacji pacjentów ze wzgl du na ryzyko wyst pienia infekcji oraz wizualizacje Eksploracja danych Š cznie dane zawieraj informacje o 298 osobach z 10 o±rodków medycznych w Polsce. Dla ka»dej obserwacji posiadamy nast puj ce wiadomo±ci: wiek i pªe pacjenta, o±rodek, w którym pacjent byª leczony, 37

40 rozpoznanie (AML, CMML, MDS), ª czna liczba podanych cykli azacytadyny, czy u pacjenta nast piªa infekcja, cykl przy którym wyst piªa infekcja, rodzaj infekcji (grzybicza, bakteryjna, wirusowa), czy u pacjenta zastosowana zostaªa prolaktyka przeciwwirusowa, przeciwbakteryjna lub przeciwgrzybicza, czy nast piª zgon pacjenta, caªkowity czas obserwacji (czas od rozpocz cia leczenia azacytadyn do zgonu lub ko«ca obserwacji), czas od diagnozy do rozpocz cia leczenia, wyniki podstawowych bada«wykonanych na pocz tku leczenia (m.in. liczba limfocytów, neutroli i monocytów, poziom ferrytyny, albuminy i kreatyniny, odstek blastów w szpiku), wyst powanie innych chorób (inny nowotwór, cukrzyca, niewydolno± serca), ró»ne klasykacje stanu zdrowia pacjenta (m.in. WHO). W ramach projektu, najwa»niejszym zadaniem byªo wybranie modelu regresji logistycznej, w której zmienn obja±nian byªa zmienna binarna oznaczaj ca wyst pienie infekcji w ci gu pierwszych 3-ech miesi cy leczenia Azacytadyn. Wa»n cech szukanego modelu byªa ªatwo± jego interpretacji, sk d ograniczali±my si do co najwy»ej sze±ciu zmiennych obja±niaj cych. Pozostaªymi czynnikami wyboru modelu byªy wyniki testów na istotno± parametrów, powierzchnia pod krzyw ROC (ang. Receiver Operating Characteristic) oraz dokªadno± (ang. accuracy). Z powodu du»ej ilo±ci brakuj cych warto±ci wykonana zostaªa imputacja danych (wyniki przedstawione w tej pracy zostaªy otrzymane na pierwotnych danych). W ko«cowym modelu znajdowaªy si nast puj ce zmienne obja±niaj ce: rozpoznanie, klasykacja WHO, zale»no± od przetocze«krwi, poziom albumy oraz ilo± neutroli we krwi oraz procentowa zawarto± blastów w szpiku. Na podstawie wybranego modelu, stworzona zostaªa 3-stopniowa klasykacja, dzi ki której mo»liwy jest podziaª pacjentów ze wzgl du na poziom zagro»enia wyst pienia infekcji. Wyniki z otrzymanej klasykacji zostaªy przedstawione na rysunku

41 Rysunek 3.1: Wyniki 3-stopniowej klasykacji zastosowanej na danych infaza, powstaªej w ramach projektu InfAza. Wykres przedstawia procentowy udziaª pacjentów u których wyst piªa infekcja w±ród wszystkich pacjentów zakwalikowanych do danej klasy. Jak wynika z wykresu, spo±ród wszystkich pacjentów, u których stwierdzono wysokie zagro»enie wyst pienia infekcji, u okoªo 95% nast piªa nast piªa. Spo±ród pacjentów o ±rednim ryzyku, zdarzenie wyst piªo w okoªo 50% przypadków, natomiast w±ród pacjentów o niskim zagro»eniu, infekcja wyst piªa tylko w okoªo 10% przypadków Analiza prze»ycia a modele ryzyk konkuruj cych W poprzednich rozdziaªach zostaªo podkre±lone,»e stosowanie analizy prze»ycia w przypadku wyst powania ryzyk konkurencyjnych mo»e prowadzi do bª dnych wyników. Przykªad takiej sytuacji zaprezentuj na danych infaza. Na rysunku 3.2 przedstawione zostaªy krzywe prze»ycia Kaplana-Meiera dla obydwu ryzyk, estymowane niezale»nie (to znaczy, w ka»dym przypadku rozpatrywane byªy tylko zdarzenia danego rodzaju). Obserwacje, u których wyst piªo zdarzenie drugiego rodzaju traktowane byªy jako cenzorowane. W celu lepszego zwizualizowania problemu, krzywe dla obydwu ryzyk zostaªy przedstawione na osiach o przeciwnym kierunku wzrastania. Przecinaj ce si osie ±wiadcz o tym,»e dla odpowiednio du»ych czasów, prawdopodobie«stwo wyst pienia jednego z dwóch ryzyk jest wi ksze od 1. Natomiast w przypadku zastosowania modelu ryzyk konkuruj cych, oba wykresy nie przecinaj si, co wida na rysunk 3.3. Nie otrzymujemy tutaj prawdopodobie«stwa wykraczaj cego poza przedziaª [0, 1]. 39

Podstawy statystycznego modelowania danych Analiza prze»ycia

Podstawy statystycznego modelowania danych Analiza prze»ycia Podstawy statystycznego modelowania danych Analiza prze»ycia Tomasz Suchocki Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t Plan wykªadu 1. Wprowadzenie 2. Hazard rate

Bardziej szczegółowo

In»ynierskie zastosowania statystyki wiczenia

In»ynierskie zastosowania statystyki wiczenia Uwagi: 27012014 poprawiono kilka literówek, zwi zanych z przedziaªami ufno±ci dla wariancji i odchylenia standardowego In»ynierskie zastosowania statystyki wiczenia Przedziaªy wiarygodno±ci, testowanie

Bardziej szczegółowo

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH WYKŠAD 4 03 listopad 2014 1 / 47 Plan wykªadu 1. Testowanie zaªo»e«o proporcjonalnym hazardzie w modelu Cox'a 2. Wybór zmiennych do modelu Cox'a 3. Meta analiza

Bardziej szczegółowo

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 6

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 6 Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 6 Tomasz Suchocki Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t Plan wykªadu Model mieszany

Bardziej szczegółowo

Biostatystyka, # 5 /Weterynaria I/

Biostatystyka, # 5 /Weterynaria I/ Biostatystyka, # 5 /Weterynaria I/ dr n. mat. Zdzisªaw Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowa«Matematyki i Informatyki ul. Gª boka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

Statystyka matematyczna - ZSTA LMO

Statystyka matematyczna - ZSTA LMO Statystyka matematyczna - ZSTA LMO Šukasz Smaga Wydziaª Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza w Poznaniu Wykªad 4 Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 4 1 / 18 Wykªad 4 - zagadnienia

Bardziej szczegółowo

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach EGZAMIN MAGISTERSKI, 12.09.2018r Matematyka w ekonomii i ubezpieczeniach Zadanie 1. (8 punktów) O rozkªadzie pewnego ryzyka S wiemy,»e: E[(S 20) + ] = 8 E[S 10 < S 20] = 13 P (S 20) = 3 4 P (S 10) = 1

Bardziej szczegółowo

5. (8 punktów) EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

5. (8 punktów) EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach Matematyka w ekonomii i ubezpieczeniach ( Niezale»ne szkody maja rozkªady P (X i = k) = exp( 1)/k!, P (Y i = k) = 4+k ) k (1/3) 5 (/3) k, k = 0, 1,.... Niech S = X 1 +... + X 500 + Y 1 +... + Y 500. Skªadka

Bardziej szczegółowo

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH WYKŠAD 3 29 pa¹dziernik 2015 1 / 39 Plan wykªadu 1. Test log-rank dla wi cej ni» dwóch grup 2. Test Mantela-Haenszela dla wi cej ni» dwóch grup 3. Wst p do

Bardziej szczegółowo

Metody probablistyczne i statystyka stosowana

Metody probablistyczne i statystyka stosowana Politechnika Wrocªawska - Wydziaª Podstawowych Problemów Techniki - 011 Metody probablistyczne i statystyka stosowana prowadz cy: dr hab. in». Krzysztof Szajowski opracowanie: Tomasz Kusienicki* κ 17801

Bardziej szczegółowo

Metody statystyczne w biologii - Wykªad 8. Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t

Metody statystyczne w biologii - Wykªad 8. Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t Metody statystyczne w biologii - Wykªad 8 Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t Plan wykªadu Regresja logistyczna 1. Podstawy teoretyczne i przykªady zastosowania

Bardziej szczegółowo

Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13

Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13 Elementarna statystyka Wnioskowanie o regresji (Inference for regression) Alexander Bendikov Uniwersytet Wrocªawski 2 czerwca 2016 Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for

Bardziej szczegółowo

Ekonometria. wiczenia 2 Werykacja modelu liniowego. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Ekonometria. wiczenia 2 Werykacja modelu liniowego. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej Ekonometria wiczenia 2 Werykacja modelu liniowego (2) Ekonometria 1 / 33 Plan wicze«1 Wprowadzenie 2 Ocena dopasowania R-kwadrat Skorygowany R-kwadrat i kryteria informacyjne 3 Ocena istotno±ci zmiennych

Bardziej szczegółowo

1 Metody iteracyjne rozwi zywania równania f(x)=0

1 Metody iteracyjne rozwi zywania równania f(x)=0 1 Metody iteracyjne rozwi zywania równania f()=0 1.1 Metoda bisekcji Zaªó»my,»e funkcja f jest ci gªa w [a 0, b 0 ]. Pierwiastek jest w przedziale [a 0, b 0 ] gdy f(a 0 )f(b 0 ) < 0. (1) Ustalmy f(a 0

Bardziej szczegółowo

Ekonometria - wykªad 8

Ekonometria - wykªad 8 Ekonometria - wykªad 8 3.1 Specykacja i werykacja modelu liniowego dobór zmiennych obja±niaj cych - cz ± 1 Barbara Jasiulis-Goªdyn 11.04.2014, 25.04.2014 2013/2014 Wprowadzenie Ideologia Y zmienna obja±niana

Bardziej szczegółowo

Biostatystyka, # 4 /Weterynaria I/

Biostatystyka, # 4 /Weterynaria I/ Biostatystyka, # 4 /Weterynaria I/ dr n. mat. Zdzisªaw Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowa«Matematyki i Informatyki ul. Gª boka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

Rozwini cia asymptotyczne dla mocy testów przybli»onych

Rozwini cia asymptotyczne dla mocy testów przybli»onych Rozwini cia asymptotyczne dla mocy testów przybli»onych Piotr Majerski, Zbigniew Szkutnik AGH Kraków Wisªa 2010 P. Majerski, Z. Szkutnik, AGH () Rozwini cia mocy testów przybli»onych Wisªa 2010 1 / 22

Bardziej szczegółowo

Ekonometria. wiczenia 4 Prognozowanie. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Ekonometria. wiczenia 4 Prognozowanie. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej Ekonometria wiczenia 4 Prognozowanie (4) Ekonometria 1 / 18 Plan wicze«1 Prognoza punktowa i przedziaªowa 2 Ocena prognozy ex post 3 Stabilno± i sezonowo± Sezonowo± zadanie (4) Ekonometria 2 / 18 Plan

Bardziej szczegółowo

Podstawy statystycznego modelowania danych - Wykªad 7

Podstawy statystycznego modelowania danych - Wykªad 7 Podstawy statystycznego modelowania danych - Wykªad 7 Tomasz Suchocki ANOVA Plan wykªadu Analiza wariancji 1. Rys historyczny 2. Podstawy teoretyczne i przykªady zastosowania 3. ANOVA w pakiecie R Tomasz

Bardziej szczegółowo

Elementarna statystyka Dwie próby: porównanie dwóch proporcji (Two-sample problem: comparing two proportions)

Elementarna statystyka Dwie próby: porównanie dwóch proporcji (Two-sample problem: comparing two proportions) Elementarna statystyka Dwie próby: porównanie dwóch proporcji (Two-sample problem: comparing two proportions) Alexander Bendikov Uniwersytet Wrocªawski 25 maja 2016 Elementarna statystyka Dwie próby: porównanie

Bardziej szczegółowo

Podstawy statystycznego modelowania danych Analiza prze»ycia. Tomasz Suchocki

Podstawy statystycznego modelowania danych Analiza prze»ycia. Tomasz Suchocki Podstawy statystycznego modelowania danych Analiza prze»ycia Tomasz Suchocki Plan wykªadu 1. Wprowadzenie 2. Hazard rate 3. Cenzurowanie danych 4. Metoda Kaplana-Meiera i Flemingtona-Harringtona 5. Krzywe

Bardziej szczegółowo

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH WYKŠAD 1 13 pa¹dziernik 2014 1 / 49 Plan wykªadu 1. Analizy prze»ycia na przykªadach 2. Podstawowe idee statystyki matematycznej wykorzystywane w analizie

Bardziej szczegółowo

Liniowe zadania najmniejszych kwadratów

Liniowe zadania najmniejszych kwadratów Rozdziaª 9 Liniowe zadania najmniejszych kwadratów Liniowe zadania najmniejszych kwadratów polega na znalezieniu x R n, który minimalizuje Ax b 2 dla danej macierzy A R m,n i wektora b R m. Zauwa»my,»e

Bardziej szczegółowo

Ekonometria. wiczenia 8 Modele zmiennej jako±ciowej. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Ekonometria. wiczenia 8 Modele zmiennej jako±ciowej. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej Ekonometria wiczenia 8 Modele zmiennej jako±ciowej (8) Ekonometria 1 / 25 Plan wicze«1 Modele zmiennej jako±ciowej 2 Model logitowy Specykacja i interpretacja parametrów Dopasowanie i restrykcje 3 Predykcja

Bardziej szczegółowo

MODELE LINIOWE i MIESZANE

MODELE LINIOWE i MIESZANE MODELE LINIOWE i MIESZANE WYKŠAD 5 13 kwiecie«2018 1 / 48 Plan wykªadu 1. Metody Monte Carlo we wnioskowaniu statystycznym 2. Pakiet R 2 / 48 Metody Monte Carlo we wnioskowaniu statystycznym 3 / 48 Zaªó»my,»e

Bardziej szczegółowo

Pakiety statystyczne - Wykªad 8

Pakiety statystyczne - Wykªad 8 Pakiety statystyczne - Wykªad 8 Tomasz Suchocki Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t Plan wykªadu Analiza wariancji 1. Rys historyczny 2. Podstawy teoretyczne

Bardziej szczegółowo

Zadanie 1. (8 punktów) Dana jest nast puj ca macierz: M =

Zadanie 1. (8 punktów) Dana jest nast puj ca macierz: M = Matematyka w ekonomii i ubezpieczeniach 1. (8 punktów) Dana jest nast puj ca macierz: M = 2 14 2 10 8 0 10 8. a) Znajd¹ rozwi zanie dwuosobowej gry o sumie zero maj cej powy»sz macierz wypªat. b) Przyjmuj

Bardziej szczegółowo

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1 Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1 Tomasz Suchocki Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t Plan wykªadu Analiza wariancji

Bardziej szczegółowo

Wykªad 6: Model logitowy

Wykªad 6: Model logitowy Wykªad 6: Model logitowy Ekonometria Stosowana SGH Model logitowy 1 / 18 Plan wicze«1 Modele zmiennej jako±ciowej idea 2 Model logitowy Specykacja i interpretacja parametrów Dopasowanie i restrykcje 3

Bardziej szczegółowo

Ekonometria Bayesowska

Ekonometria Bayesowska Ekonometria Bayesowska Wykªad 6: Bayesowskie ª czenie wiedzy (6) Ekonometria Bayesowska 1 / 21 Plan wykªadu 1 Wprowadzenie 2 Oczekiwana wielko± modelu 3 Losowanie próby modeli 4 wiczenia w R (6) Ekonometria

Bardziej szczegółowo

3. (8 punktów) EGZAMIN MAGISTERSKI, Biomatematyka

3. (8 punktów) EGZAMIN MAGISTERSKI, Biomatematyka EGZAMIN MAGISTERSKI, 26.06.2017 Biomatematyka 1. (8 punktów) Rozwój wielko±ci pewnej populacji jest opisany równaniem: dn dt = rn(t) (1 + an(t), b gdzie N(t) jest wielko±ci populacji w chwili t, natomiast

Bardziej szczegółowo

Informacje pomocnicze

Informacje pomocnicze Funkcje wymierne. Równania i nierówno±ci wymierne Denicja. (uªamki proste) Wyra»enia postaci Informacje pomocnicze A gdzie A d e R n N (dx e) n nazywamy uªamkami prostymi pierwszego rodzaju. Wyra»enia

Bardziej szczegółowo

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15 ARYTMETYKA MODULARNA Grzegorz Szkibiel Wiosna 2014/15 Spis tre±ci 1 Denicja kongruencji i jej podstawowe wªasno±ci 3 2 Systemy pozycyjne 8 3 Elementy odwrotne 12 4 Pewne zastosowania elementów odwrotnych

Bardziej szczegółowo

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14 WST P DO TEORII INFORMACJI I KODOWANIA Grzegorz Szkibiel Wiosna 2013/14 Spis tre±ci 1 Kodowanie i dekodowanie 4 1.1 Kodowanie a szyfrowanie..................... 4 1.2 Podstawowe poj cia........................

Bardziej szczegółowo

Modele wielorównaniowe. Problem identykacji

Modele wielorównaniowe. Problem identykacji Modele wielorównaniowe. Problem identykacji Ekonometria Szeregów Czasowych SGH Identykacja 1 / 43 Plan wykªadu 1 Wprowadzenie 2 Trzy przykªady 3 Przykªady: interpretacja 4 Warunki identykowalno±ci 5 Restrykcje

Bardziej szczegółowo

Twierdzenie Wainera. Marek Czarnecki. Warszawa, 3 lipca Wydziaª Filozoi i Socjologii Uniwersytet Warszawski

Twierdzenie Wainera. Marek Czarnecki. Warszawa, 3 lipca Wydziaª Filozoi i Socjologii Uniwersytet Warszawski Twierdzenie Wainera Marek Czarnecki Wydziaª Filozoi i Socjologii Uniwersytet Warszawski Wydziaª Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski Warszawa, 3 lipca 2009 Motywacje Dla dowolnej

Bardziej szczegółowo

Metody dowodzenia twierdze«

Metody dowodzenia twierdze« Metody dowodzenia twierdze«1 Metoda indukcji matematycznej Je±li T (n) jest form zdaniow okre±lon w zbiorze liczb naturalnych, to prawdziwe jest zdanie (T (0) n N (T (n) T (n + 1))) n N T (n). 2 W przypadku

Bardziej szczegółowo

Ekonometria Bayesowska

Ekonometria Bayesowska Ekonometria Bayesowska Wykªad 8: Restrykcje na parametry w postaci nierówno±ci: analiza bayesowska (8) Ekonometria Bayesowska 1 / 21 Plan wykªadu 1 Restrykcje nierówno±ciowe: podej±cie klasyczne a bayesowskie

Bardziej szczegółowo

Lab. 02: Algorytm Schrage

Lab. 02: Algorytm Schrage Lab. 02: Algorytm Schrage Andrzej Gnatowski 5 kwietnia 2015 1 Opis zadania Celem zadania laboratoryjnego jest zapoznanie si z jednym z przybli»onych algorytmów sªu» cych do szukania rozwi za«znanego z

Bardziej szczegółowo

2. (8 punktów) 3. (8 punktów) 4. (8 punktów) 5. (8 punktów) EGZAMIN MAGISTERSKI, Matematyka w ekonomii i ubezpieczeniach

2. (8 punktów) 3. (8 punktów) 4. (8 punktów) 5. (8 punktów) EGZAMIN MAGISTERSKI, Matematyka w ekonomii i ubezpieczeniach Matematyka w ekonomii i ubezpieczeniach 1. (8 punktów) Znajd¹ rozwi zanie poni»szego zagadnienia programowania liniowego: Zmaksymalizowa x 1 2x 2 + x 3 x 5 przy ograniczeniach x 1 3x 2 + x 3 + 2x 5 = 8

Bardziej szczegółowo

CAŠKOWANIE METODAMI MONTE CARLO Janusz Adamowski

CAŠKOWANIE METODAMI MONTE CARLO Janusz Adamowski III. CAŠKOWAIE METODAMI MOTE CARLO Janusz Adamowski 1 1 azwa metody Podstawowym zastosowaniem w zyce metody Monte Carlo (MC) jest opis zªo-»onych ukªadów zycznych o du»ej liczbie stopni swobody. Opis zªo»onych

Bardziej szczegółowo

Metodydowodzenia twierdzeń

Metodydowodzenia twierdzeń 1 Metodydowodzenia twierdzeń Przez zdanie rozumiemy dowolne stwierdzenie, które jest albo prawdziwe, albo faªszywe (nie mo»e by ono jednocze±nie prawdziwe i faªszywe). Tradycyjnie b dziemy u»ywali maªych

Bardziej szczegółowo

Interpolacja Lagrange'a, bazy wielomianów

Interpolacja Lagrange'a, bazy wielomianów Rozdziaª 4 Interpolacja Lagrange'a, bazy wielomianów W tym rozdziale zajmiemy si interpolacj wielomianow. Zadanie interpolacji wielomianowej polega na znalezieniu wielomianu stopnia nie wi kszego od n,

Bardziej szczegółowo

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski Statystyka Šukasz Dawidowski Instytut Matematyki, Uniwersytet l ski Statystyka Statystyka: nauka zajmuj ca si liczbowym opisem zjawisk masowych oraz ich analizowaniem, zbiory informacji liczbowych. (Sªownik

Bardziej szczegółowo

1 Poj cia pomocnicze. Przykªad 1. A A d

1 Poj cia pomocnicze. Przykªad 1. A A d Poj cia pomocnicze Otoczeniem punktu x nazywamy dowolny zbiór otwarty zawieraj cy punkt x. Najcz ±ciej rozwa»amy otoczenia kuliste, tj. kule o danym promieniu ε i ±rodku x. S siedztwem punktu x nazywamy

Bardziej szczegółowo

Matematyka z elementami statystyki

Matematyka z elementami statystyki Matematyka z elementami statystyki Šukasz Dawidowski Instytut Matematyki, Uniwersytet l ski Korelacja Zale»no± funkcyjna wraz ze wzrostem jednej zmiennej nast puje ±ci±le okre±lona zmiana druiej zmiennej.

Bardziej szczegółowo

Zagadnienia na wej±ciówki z matematyki Technologia Chemiczna

Zagadnienia na wej±ciówki z matematyki Technologia Chemiczna Zagadnienia na wej±ciówki z matematyki Technologia Chemiczna 1. Podaj denicj liczby zespolonej. 2. Jak obliczy sum /iloczyn dwóch liczb zespolonych w postaci algebraicznej? 3. Co to jest liczba urojona?

Bardziej szczegółowo

Ekonometria. wiczenia 5 i 6 Modelowanie szeregów czasowych. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Ekonometria. wiczenia 5 i 6 Modelowanie szeregów czasowych. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej Ekonometria wiczenia 5 i 6 Modelowanie szeregów czasowych (5-6) Ekonometria 1 / 30 Plan prezentacji 1 Regresja pozorna 2 Testowanie stopnia zintegrowania szeregu 3 Kointegracja 4 Modele dynamiczne (5-6)

Bardziej szczegółowo

A = n. 2. Ka»dy podzbiór zbioru sko«czonego jest zbiorem sko«czonym. Dowody tych twierdze«(elementarne, lecz nieco nu» ce) pominiemy.

A = n. 2. Ka»dy podzbiór zbioru sko«czonego jest zbiorem sko«czonym. Dowody tych twierdze«(elementarne, lecz nieco nu» ce) pominiemy. Logika i teoria mnogo±ci, konspekt wykªad 12 Teoria mocy, cz ± II Def. 12.1 Ka»demu zbiorowi X przyporz dkowujemy oznaczany symbolem X obiekt zwany liczb kardynaln (lub moc zbioru X) w taki sposób,»e ta

Bardziej szczegółowo

Ekonometria Bayesowska

Ekonometria Bayesowska Ekonometria Bayesowska Wykªad 5: Narz dzia wnioskowania w ekonometrii bayesowskiej (5) Ekonometria Bayesowska 1 / 8 Plan wykªadu 1 Przedziaªy ufno±ci HPDI Werykacja hipotez podej±cie bayesowskie 3 Werykacja

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykªad 1 Prawdopodobie«stwo

Elementy Modelowania Matematycznego Wykªad 1 Prawdopodobie«stwo Spis tre±ci Elementy Modelowania Matematycznego Wykªad 1 Prawdopodobie«stwo Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis tre±ci Spis tre±ci 1 2 3 4 5 Spis tre±ci Spis tre±ci 1 2 3 4

Bardziej szczegółowo

1 Bª dy i arytmetyka zmiennopozycyjna

1 Bª dy i arytmetyka zmiennopozycyjna 1 Bª dy i arytmetyka zmiennopozycyjna Liczby w pami ci komputera przedstawiamy w ukªadzie dwójkowym w postaci zmiennopozycyjnej Oznacza to,»e s one postaci ±m c, 01 m < 1, c min c c max, (1) gdzie m nazywamy

Bardziej szczegółowo

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14 WST P DO TEORII INFORMACJI I KODOWANIA Grzegorz Szkibiel Wiosna 203/4 Spis tre±ci Kodowanie i dekodowanie 4. Kodowanie a szyfrowanie..................... 4.2 Podstawowe poj cia........................

Bardziej szczegółowo

Ekonometria. wiczenia 3 Autokorelacja, heteroskedastyczno±, wspóªliniowo± Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Ekonometria. wiczenia 3 Autokorelacja, heteroskedastyczno±, wspóªliniowo± Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej Ekonometria wiczenia 3 Autokorelacja, heteroskedastyczno±, wspóªliniowo± (3) Ekonometria 1 / 29 Plan wicze«1 Wprowadzenie 2 Normalny rozkªad 3 Autokorelacja 4 Heteroskedastyczno± Test White'a Odporne bª

Bardziej szczegółowo

Rozwi zanie równania ró»niczkowego metod operatorow (zastosowanie transformaty Laplace'a).

Rozwi zanie równania ró»niczkowego metod operatorow (zastosowanie transformaty Laplace'a). Rozwi zania zada«z egzaminu podstawowego z Analizy matematycznej 2.3A (24/5). Rozwi zanie równania ró»niczkowego metod operatorow (zastosowanie transformaty Laplace'a). Zadanie P/4. Metod operatorow rozwi

Bardziej szczegółowo

Wst p do ekonometrii II

Wst p do ekonometrii II Wst p do ekonometrii II Wykªad 1: Modele ADL. Analiza COMFAC. Uogólniona MNK (1) WdE II 1 / 36 Plan wykªadu 1 Restrykcje COMFAC w modelach ADL ADL(1,1) ADL(2,2) 2 Uogólniona MNK Idea UMNK Znajdowanie macierzy

Bardziej szczegółowo

Równania ró»niczkowe I rz du (RRIR) Twierdzenie Picarda. Anna D browska. WFTiMS. 23 marca 2010

Równania ró»niczkowe I rz du (RRIR) Twierdzenie Picarda. Anna D browska. WFTiMS. 23 marca 2010 WFTiMS 23 marca 2010 Spis tre±ci 1 Denicja 1 (równanie ró»niczkowe pierwszego rz du) Równanie y = f (t, y) (1) nazywamy równaniem ró»niczkowym zwyczajnym pierwszego rz du w postaci normalnej. Uwaga 1 Ogólna

Bardziej szczegółowo

Elementarna statystyka Test Istotno±ci (Tests of Signicance)

Elementarna statystyka Test Istotno±ci (Tests of Signicance) Elementarna statystyka Test Istotno±ci (Tests of Signicance) Alexander Bendikov Uniwersytet Wrocªawski 16 kwietnia 2016 Elementarna statystyka Test Istotno±ci (Tests of Signicance) 16 kwietnia 2016 1 /

Bardziej szczegółowo

wiczenie nr 3 z przedmiotu Metody prognozowania kwiecie«2015 r. Metodyka bada«do±wiadczalnych dr hab. in». Sebastian Skoczypiec Cel wiczenia Zaªo»enia

wiczenie nr 3 z przedmiotu Metody prognozowania kwiecie«2015 r. Metodyka bada«do±wiadczalnych dr hab. in». Sebastian Skoczypiec Cel wiczenia Zaªo»enia wiczenie nr 3 z przedmiotu Metody prognozowania kwiecie«2015 r. wiczenia 1 2 do wiczenia 3 4 Badanie do±wiadczalne 5 pomiarów 6 7 Cel Celem wiczenia jest zapoznanie studentów z etapami przygotowania i

Bardziej szczegółowo

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej Ekonometria wiczenia 1 Regresja liniowa i MNK (1) Ekonometria 1 / 25 Plan wicze«1 Ekonometria czyli...? 2 Obja±niamy ceny wina 3 Zadania z podr cznika (1) Ekonometria 2 / 25 Plan prezentacji 1 Ekonometria

Bardziej szczegółowo

Liniowe równania ró»niczkowe n tego rz du o staªych wspóªczynnikach

Liniowe równania ró»niczkowe n tego rz du o staªych wspóªczynnikach Liniowe równania ró»niczkowe n tego rz du o staªych wspóªczynnikach Teoria obowi zuje z wykªadu, dlatego te» zostan tutaj przedstawione tylko podstawowe denicje, twierdzenia i wzory. Denicja 1. Równanie

Bardziej szczegółowo

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15 ANALIZA NUMERYCZNA Grzegorz Szkibiel Wiosna 2014/15 Spis tre±ci 1 Metoda Eulera 3 1.1 zagadnienia brzegowe....................... 3 1.2 Zastosowanie ró»niczki...................... 4 1.3 Output do pliku

Bardziej szczegółowo

Stacjonarne szeregi czasowe

Stacjonarne szeregi czasowe e-mail:e.kozlovski@pollub.pl Spis tre±ci 1 Denicja 1 Szereg {x t } 1 t N nazywamy ±ci±le stacjonarnym (stacjonarnym w w»szym sensie), je»eli dla dowolnych m, t 1, t 2,..., t m, τ ª czny rozkªad prawdopodobie«stwa

Bardziej szczegółowo

Oba zbiory s uporz dkowane liniowo. Badamy funkcj w pobli»u kresów dziedziny. Pewne punkty szczególne (np. zmiana denicji funkcji).

Oba zbiory s uporz dkowane liniowo. Badamy funkcj w pobli»u kresów dziedziny. Pewne punkty szczególne (np. zmiana denicji funkcji). Plan Spis tre±ci 1 Granica 1 1.1 Po co?................................. 1 1.2 Denicje i twierdzenia........................ 4 1.3 Asymptotyka, granice niewªa±ciwe................. 7 2 Asymptoty 8 2.1

Bardziej szczegółowo

Statystyka matematyczna - ZSTA LMO

Statystyka matematyczna - ZSTA LMO Statystyka matematyczna - ZSTA LMO Šukasz Smaga Wydziaª Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza w Poznaniu Wykªad 1 Šukasz Smaga (WMI UAM) ZSTA LMO Wykªad 1 1 / 28 Kontakt Dr Šukasz

Bardziej szczegółowo

Ekonometria Bayesowska

Ekonometria Bayesowska Ekonometria Bayesowska Wykªad 9: Metody numeryczne: MCMC Andrzej Torój 1 / 17 Plan wykªadu Wprowadzenie 1 Wprowadzenie 3 / 17 Plan prezentacji Wprowadzenie 1 Wprowadzenie 3 3 / 17 Zastosowanie metod numerycznych

Bardziej szczegółowo

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15 ARYTMETYKA MODULARNA Grzegorz Szkibiel Wiosna 2014/15 Spis tre±ci 1 Denicja kongruencji i jej podstawowe wªasno±ci 3 2 Systemy pozycyjne 8 3 Elementy odwrotne 12 4 Pewne zastosowania elementów odwrotnych

Bardziej szczegółowo

Lekcja 12 - POMOCNICY

Lekcja 12 - POMOCNICY Lekcja 12 - POMOCNICY 1 Pomocnicy Pomocnicy, jak sama nazwa wskazuje, pomagaj Baltiemu w programach wykonuj c cz ± czynno±ci. S oni szczególnie pomocni, gdy chcemy ci g polece«wykona kilka razy w programie.

Bardziej szczegółowo

Interpolacja funkcjami sklejanymi

Interpolacja funkcjami sklejanymi Interpolacja funkcjami sklejanymi Funkcje sklejane: Zaªó»my,»e mamy n + 1 w zªów t 0, t 1,, t n takich,»e t 0 < t 1 < < t n Dla danej liczby caªkowitej, nieujemnej k funkcj sklejan stopnia k nazywamy tak

Bardziej szczegółowo

Analiza przeżycia. Czym zajmuje się analiza przeżycia? Jest to analiza czasu trwania, zaprojektowana do analizy tzw.

Analiza przeżycia. Czym zajmuje się analiza przeżycia? Jest to analiza czasu trwania, zaprojektowana do analizy tzw. ANALIZA PRZEŻYCIA Analiza przeżycia Czym zajmuje się analiza przeżycia? Jest to analiza czasu trwania, zaprojektowana do analizy tzw. danych uciętych Obserwacja jest nazywana uciętą jeżeli zdarzenie jeszcze

Bardziej szczegółowo

Ukªady równa«liniowych

Ukªady równa«liniowych dr Krzysztof yjewski Mechatronika; S-I 0 in» 7 listopada 206 Ukªady równa«liniowych Informacje pomocnicze Denicja Ogólna posta ukªadu m równa«liniowych z n niewiadomymi x, x, x n, gdzie m, n N jest nast

Bardziej szczegółowo

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach EGZAMIN MAGISTERSKI, 12.09.2018r Matematyka w ekonomii i ubezpieczeniach Zadanie 1. (8 punktów) W modelu rezerwy R n = u + n (W 1 + + W n ) wiemy,»e W i s iid o rozkªadzie geometrycznym na 0, 1, 2,...

Bardziej szczegółowo

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15 ARYTMETYKA MODULARNA Grzegorz Szkibiel Wiosna 2014/15 Spis tre±ci 1 Denicja kongruencji i jej podstawowe wªasno±ci 3 2 Systemy pozycyjne 8 3 Elementy odwrotne 12 4 Pewne zastosowania elementów odwrotnych

Bardziej szczegółowo

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15 ARYTMETYKA MODULARNA Grzegorz Szkibiel Wiosna 2014/15 Spis tre±ci 1 Denicja kongruencji i jej podstawowe wªasno±ci 3 2 Systemy pozycyjne 8 3 Elementy odwrotne 12 4 Pewne zastosowania elementów odwrotnych

Bardziej szczegółowo

Aproksymacja funkcji metod najmniejszych kwadratów

Aproksymacja funkcji metod najmniejszych kwadratów Aproksymacja funkcji metod najmniejszych kwadratów Teoria Interpolacja polega na znajdowaniu krzywej przechodz cej przez wszystkie w zªy. Zdarzaj si jednak sytuacje, w których dane te mog by obarczone

Bardziej szczegółowo

Makroekonomia Zaawansowana

Makroekonomia Zaawansowana Makroekonomia Zaawansowana wiczenia 1 Stan ustalony i log-linearyzacja MZ 1 / 27 Plan wicze«1 Praca z modelami DSGE 2 Stan ustalony 3 Log-linearyzacja 4 Zadania MZ 2 / 27 Plan prezentacji 1 Praca z modelami

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Pakiety statystyczne Wykªad 14

Pakiety statystyczne Wykªad 14 Pakiety statystyczne Wykªad 14 Tomasz Suchocki Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki Plan wykªadu Model mieszany 1. Podstawy teoretyczne 2. Przykªady w R 3. Przykªady zastosowania Tomasz

Bardziej szczegółowo

Uczenie Wielowarstwowych Sieci Neuronów o

Uczenie Wielowarstwowych Sieci Neuronów o Plan uczenie neuronu o ci gªej funkcji aktywacji uczenie jednowarstwowej sieci neuronów o ci gªej funkcji aktywacji uczenie sieci wielowarstwowej - metoda propagacji wstecznej neuronu o ci gªej funkcji

Bardziej szczegółowo

x y x y x y x + y x y

x y x y x y x + y x y Algebra logiki 1 W zbiorze {0, 1} okre±lamy dziaªania dwuargumentowe,, +, oraz dziaªanie jednoargumentowe ( ). Dziaªanie x + y nazywamy dodawaniem modulo 2, a dziaªanie x y nazywamy kresk Sheera. x x 0

Bardziej szczegółowo

Elementy geometrii analitycznej w przestrzeni

Elementy geometrii analitycznej w przestrzeni Wykªad 3 Elementy geometrii analitycznej w przestrzeni W wykªadzie tym wi kszy nacisk zostaª poªo»ony raczej na intuicyjne rozumienie deniowanych poj, ni» ±cisªe ich zdeniowanie. Dlatego niniejszy wykªad

Bardziej szczegółowo

Egzamin z ekonometrii - wersja ogólna

Egzamin z ekonometrii - wersja ogólna Egzamin z ekonometrii - wersja ogólna 27-0-202 Pytania teoretyczne. Dlaczego w modelu nie powinno si umieszcza staªej i wszystkich zmiennych zero-jedynkowych, zwi zanych z poziomami zmiennej dyskretnej?

Bardziej szczegółowo

Elementarna statystyka Test Istotno±ci

Elementarna statystyka Test Istotno±ci Elementarna statystyka Test Istotno±ci Alexander Bendikov Uniwersytet Wrocªawski 27 kwietnia 2017 Alexander Bendikov (UWr) Elementarna statystyka Test Istotno±ci 27 kwietnia 2017 1 / 24 Wnioskowanie statystyczne:

Bardziej szczegółowo

Wektory w przestrzeni

Wektory w przestrzeni Wektory w przestrzeni Informacje pomocnicze Denicja 1. Wektorem nazywamy uporz dkowan par punktów. Pierwszy z tych punktów nazywamy pocz tkiem wektora albo punktem zaczepienia wektora, a drugi - ko«cem

Bardziej szczegółowo

Lekcja 9 - LICZBY LOSOWE, ZMIENNE

Lekcja 9 - LICZBY LOSOWE, ZMIENNE Lekcja 9 - LICZBY LOSOWE, ZMIENNE I STAŠE 1 Liczby losowe Czasami spotkamy si z tak sytuacj,»e b dziemy potrzebowa by program za nas wylosowaª jak ± liczb. U»yjemy do tego polecenia: - liczba losowa Sprawd¹my

Bardziej szczegółowo

MODEL HAHNFELDTA I IN. ANGIOGENEZY NOWOTWOROWEJ Z UWZGL DNIENIEM LEKOOPORNO CI KOMÓREK NOWOTWOROWYCH

MODEL HAHNFELDTA I IN. ANGIOGENEZY NOWOTWOROWEJ Z UWZGL DNIENIEM LEKOOPORNO CI KOMÓREK NOWOTWOROWYCH MODEL HAHNFELDTA I IN. ANGIOGENEZY NOWOTWOROWEJ Z UWZGL DNIENIEM LEKOOPORNO CI KOMÓREK NOWOTWOROWYCH Urszula Fory± Zakªad Biomatematyki i Teorii Gier, Instytut Matematyki Stosowanej i Mechaniki, Wydziaª

Bardziej szczegółowo

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach. a) (6 pkt.) oblicz intensywno± pªaconych skªadek;

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach. a) (6 pkt.) oblicz intensywno± pªaconych skªadek; EGZAMIN MAGISTERSKI, 26.06.2019r Matematyka w ekonomii i ubezpieczeniach 1. (8 punktów) Dwa niezale»ne portfele S 1, S 2 maj zªo»one rozkªady Poissona. S 1 CP oisson(2, F ), S 2 CP oisson(2, G), gdzie

Bardziej szczegółowo

Modele wielorównaniowe. Estymacja parametrów

Modele wielorównaniowe. Estymacja parametrów Modele wielorównaniowe. Estymacja parametrów Ekonometria Szeregów Czasowych SGH Estymacja 1 / 47 Plan wykªadu 1 Po±rednia MNK 2 Metoda zmiennych instrumentalnych 3 Podwójna MNK 4 Estymatory klasy k 5 MNW

Bardziej szczegółowo

Macierze. 1 Podstawowe denicje. 2 Rodzaje macierzy. Denicja

Macierze. 1 Podstawowe denicje. 2 Rodzaje macierzy. Denicja Macierze 1 Podstawowe denicje Macierz wymiaru m n, gdzie m, n N nazywamy tablic liczb rzeczywistych (lub zespolonych) postaci a 11 a 1j a 1n A = A m n = [a ij ] m n = a i1 a ij a in a m1 a mj a mn W macierzy

Bardziej szczegółowo

1 Klasy. 1.1 Denicja klasy. 1.2 Skªadniki klasy.

1 Klasy. 1.1 Denicja klasy. 1.2 Skªadniki klasy. 1 Klasy. Klasa to inaczej mówi c typ który podobnie jak struktura skªada si z ró»nych typów danych. Tworz c klas programista tworzy nowy typ danych, który mo»e by modelem rzeczywistego obiektu. 1.1 Denicja

Bardziej szczegółowo

Listy i operacje pytania

Listy i operacje pytania Listy i operacje pytania Iwona Polak iwona.polak@us.edu.pl Uniwersytet l ski Instytut Informatyki pa¹dziernika 07 Który atrybut NIE wyst puje jako atrybut elementów listy? klucz elementu (key) wska¹nik

Bardziej szczegółowo

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15 ARYTMETYKA MODULARNA Grzegorz Szkibiel Wiosna 2014/15 Spis tre±ci 1 Denicja kongruencji i jej podstawowe wªasno±ci 3 2 Systemy pozycyjne 8 3 Elementy odwrotne 12 4 Pewne zastosowania elementów odwrotnych

Bardziej szczegółowo

Elementarna statystyka

Elementarna statystyka Elementarna statystyka Alexander Bendikov 26 marca 2017 Klasyczny model: eksperyment o jednakowo prawdopodobnych wynikach Zaªo»enia: 1 Przestrze«próbek S ma sko«czenie wiele wyników ω 1, ω 2,..., ω n,

Bardziej szczegółowo

Model Cox a. Testowanie założeń o proporcjonalnym hazardzie.

Model Cox a. Testowanie założeń o proporcjonalnym hazardzie. Model Cox a. Testowanie założeń o proporcjonalnym hazardzie. Seminarium - Statystyka w medycynie Model Cox a.. Plan 1 Wstęp Model Cox a - przypomnienie 2 Założenie proporcjonalnego hazardu 3 Metoda wizualna

Bardziej szczegółowo

Metody numeryczne i statystyka dla in»ynierów

Metody numeryczne i statystyka dla in»ynierów Kierunek: Automatyka i Robotyka, II rok Interpolacja PWSZ Gªogów, 2009 Interpolacja Okre±lenie zale»no±ci pomi dzy interesuj cymi nas wielko±ciami, Umo»liwia uproszczenie skomplikowanych funkcji (np. wykorzystywana

Bardziej szczegółowo

Informatyka. z przedmiotu RACHUNEK PRAWDOPODOBIE STWA

Informatyka. z przedmiotu RACHUNEK PRAWDOPODOBIE STWA Informatyka Zbiór przykªadowych prac kontrolnych oraz przykªadowych zada«egzaminacyjnych z przedmiotu RACHUNEK PRAWDOPODOBIE STWA Sprawdzian 1, M09-02 Zadanie 1 (1p) W rzucie dwiema kostkami obliczy prawdopodobie«stwo

Bardziej szczegółowo

1 Przypomnienie wiadomo±ci ze szkoªy ±redniej. Rozwi zywanie prostych równa«i nierówno±ci

1 Przypomnienie wiadomo±ci ze szkoªy ±redniej. Rozwi zywanie prostych równa«i nierówno±ci Zebraª do celów edukacyjnych od wykªadowców PK, z ró»nych podr czników Maciej Zakarczemny 1 Przypomnienie wiadomo±ci ze szkoªy ±redniej Rozwi zywanie prostych równa«i nierówno±ci dotycz cych funkcji elementarnych,

Bardziej szczegółowo

Funkcje, wielomiany. Informacje pomocnicze

Funkcje, wielomiany. Informacje pomocnicze Funkcje, wielomiany Informacje pomocnicze Przydatne wzory: (a + b) 2 = a 2 + 2ab + b 2 (a b) 2 = a 2 2ab + b 2 (a + b) 3 = a 3 + 3a 2 b + 3ab 2 + b 3 (a b) 3 = a 3 3a 2 b + 3ab 2 b 3 a 2 b 2 = (a + b)(a

Bardziej szczegółowo

Przykªadowe analizy. Grzegorz Kemski. 26 listopada 2008

Przykªadowe analizy. Grzegorz Kemski. 26 listopada 2008 26 listopada 2008 Plan wykªadu Prezentacja danych i metod statystycznych u»ytych w artykuªach: 'Why living-donor renal transplant yields better outcomes than cadaver renal transplant?' L. Guirado, E. Vela,

Bardziej szczegółowo

Statystyka opisowa. Wykªad II. Elementy statystyki opisowej. Edward Kozªowski.

Statystyka opisowa. Wykªad II. Elementy statystyki opisowej. Edward Kozªowski. Statystyka opisowa. Wykªad II. e-mail:e.kozlovski@pollub.pl Spis tre±ci Mediana i moda 1 Mediana i moda 2 3 4 Mediana i moda Median m e (warto±ci ±rodkow ) próbki x 1,..., x n nazywamy ±rodkow liczb w

Bardziej szczegółowo