PRZEGLĄD STATYSTYCZNY R. LVI ZESZYT 2 2009 IWONA MARKOWICZ, BEATA STOLORZ MODEL PROPORCJONALNEGO HAZARDU COXA PRZY RÓŻNYCH SPOSOBACH KODOWANIA ZMIENNYCH. WSTĘP Metody aalzy przeżyca są coraz częścej stosowae w badaach zjawsk społeczo-ekoomczych. Ze względu a brak koeczośc zajomośc rozkładu badaej zmeej losowej szczególą wagę przywązuje sę do model eparametryczych bądź semparametryczych. Coraz powszechej wykorzystywae są oe do badaa zjawsk ych ż czas trwaa życa ludzkego. Przeglądu metodolog aalzy hstor zdarzeń ch aplkacj do badaa czasu fukcjoowaa frm autork artykułu dokoały w ramach realzacj gratu MNSW (N 0 3/09). Warukem stosowaa model aalzy przeżyca jest odpoweda baza daych umożlwająca wyzaczee czasu trwaa zdefowaego stau dla poszczególych jedostek badaej zborowośc. Zazwyczaj są to badaa retrospektywe z wykorzystaem sporządzaych rejestrów. Przykładem takej bazy daych jest rejestr bezrobotych. Celem artykułu jest wskazae wpływu sposobu kodowaa zmeych a oszacowaa parametrów modelu regresj Coxa ch terpretację. Autork przedstawły róweż zwązek mędzy parametram modelu szacowaym dla daych zakodowaych w dwojak sposób. Badaą kohortę staową osoby bezrobote wyrejestrowae w określoym okrese czasu. Podzału a podgrupy dokoao ze względu a wek, który jest determatą czasu poszukwaa pracy, co autork wykazały we wcześejszych badaach [7]. 2. DANE STATYSTYCZNE WYKORZYSTANE W ANALIZIE Aalza czasu oczekwaa a pracę została przeprowadzoa w oparcu o dywduale dae o bezrobotych wyrejestrowaych z Powatowego Urzędu Pracy w Szczece w I kwartale 2007 roku. Uzyskae formacje dotyczyły weku powodu wyrejestrowaa. Powody wyrejestrowaa były róże, atomast powód, który został uzay za zdarzee kończące obserwację to podjęce przez dotychczasowego bezrobotego pracy. Osoby wyrejestrowae z ych przyczy, takch jak podjece auk, wyjazd za gracę, odmowa przyjęca propozycj zatrudee, estawee sę w PUP w wyzaczoym terme, czy osągęce weku emerytalego, staową obserwacje cezurowae. Dla Por. [], [6], [7].
Model proporcjoalego hazardu Coxa przy różych sposobach kodowaa zmeych 07 tej grupy e moża ustalć okresu oczekwaa a pracę. Aalze poddao ogółem 4237 osób. Kategore weku zostały pogrupowae według klasyfkacj stosowaej przez PUP. Spośród wszystkch wyrejestrowaych dla 46% osób powodem było zalezee pracy. Strukturę badaej zborowośc przedstawoo w tabel. Charakterystyka loścowa badaych bezrobotych Tabela Cecha pełe Obserwacje cezurowae Razem á8, 25) () 43 569 000 á25, 35) (2) 779 79 498 Wek á35, 45) (3) 30 369 679 á45, 55) (4) 36 474 835 á55, 60) (5) 6 2 73 á60, 65) (6) 4 48 52 Ogółem 946 229 4237 Źródło: opracowae włase. 3. MODEL PROPORCJONALNEGO HAZARDU COXA 2 Do zbadaa wpływu potecjalej zmeej a czas pozostawaa w rejestrze bezrobotych e moża zastosować model regresj welorakej ze względu a ezajomość rozkładu zmeej zależej oraz występowae obserwacj cezurowaych. Model proporcjoalego hazardu Coxa zakłada, że fukcja hazardu [4] jest fukcją zmeych ezależych, którą moża zapsać astępująco []: htx _ :, x, f, x = h( t)exp_b x+ b x + f+ b x () 2 0 2 2 gdze: h (t: x, x 2,, x ) wykowy hazard (szasa) przy daych zmeych ezależych x, x 2,, x odpowedm czase przeżyca (oczekwaa), h 0 (t) hazard (szasa) odesea lub zerowa la hazardu, b, b 2,, b współczyk modelu, t czas obserwacj. Bazowa wartość h 0 (t) hazardu jest tą wartoścą hazardu, dla której wszystke zmee ezależe są rówe zero. 2 Por. [3].
08 Iwoa Markowcz, Beata Stolorz Weloczykowy model proporcjoalego hazardu Coxa umożlwa oceę jedoczesego wpływu welu zmeych a czas do wystąpea określoego zdarzea. 4. SPOSOBY KODOWANIA ZMIENNYCH Ze względu a róże sposoby kodowaa zmeych moża oblczyć róże rodzaje ryzyka względego. W artykule zostaą przedstawoe dwa z ch, zgode z proceduram przedstawoym przez Hosmer Lemeshow [5]. Perwszy rodzaj kodowaa umożlwa wyzaczee szasy opuszczea przez bezrobotego rejestru PUP w stosuku do wybraej kategor daej zmeej. Sposób kodowaa w przypadku, gdy do porówaa wybrao perwszą grupę weku przedstawa tabela 2. Kodowae cech umożlwło zastąpee cechy loścowej (wek w latach) cechą kategoryzowaą (kodowae 0-). Poszczególe przedzały weku poumerowao od do 6. Poeważ jako odesee przyjęto perwszy przedzał weku (á8, 25)), to cechy w modelu ozaczoo jako Wek (, ) dla Î {2, 3, 4, 5, 6}. I rodzaj kodowaa Tabela 2 Wek bezrobotych Cecha Wek (, ) Wek (2,) Wek (3,) Wek (4,) Wek (5,) Wek (6,) á8, 25) 0 0 0 0 0 á25, 35) 0 0 0 0 á35, 45) 0 0 0 0 á45, 55) 0 0 0 0 á55, 60) 0 0 0 0 á60, 65) 0 0 0 0 Źródło: opracowae włase. Wyk estymacj parametrów modelu Coxa przedstawoo w tabel 3. Jest to model ze zmeym kategoryzowaym Wek (, ) dla Î {2, 3, 4, 5, 6}.
Model proporcjoalego hazardu Coxa przy różych sposobach kodowaa zmeych 09 Wyk estymacj parametrów modelu Coxa przy zastosowau kodowaa I Tabela 3 Cecha b Błąd parametru Wartość statystyk t exp (b ) Statystyka Walda p Kodowae I Wek (2,) 0,05824 0,06062 0,96807 0,943423 0,9375 0,33308 Wek (3,) 0,54685 0,0755 7,27666 0,578770 52,94979 0,000000 Wek (4,) 0,66539 0,072208 9,2489 0,54073 84,945 0,000000 Wek (5,) 0,976 0,37533 6,66870 0,39965 44,4752 0,000000 Wek (6,) 2,67375 0,50268 5,3965 0,068993 28,29865 0,000000 Źródło: oblczea włase z wykorzystaem programu Statstca. Oszacoway, metodą częścowej warygodośc 3, model moża przedstawć w astępującej postac: htx _,, x, x, x, x 2 3 4 5 6 = = h () t exp _-0, 05824x -0, 54685x -0, 66539x -0, 976x -2, 67375x, 0 2 3 4 5 6 (2) gdze: x = Wek (, ), dla = 2,, 6. Wyrażee exp b wyraża w tym przypadku stosuek szasy a zalezee pracy przez bezrobotego z -tej grupy weku w porówau z grupą perwszą. Przyjmuje sę węc, że b = 0. Isteje róweż możlwość oblczea szasy względej mędzy dowolym dwema grupam weku. Wartość odpowedego parametru beta wyzacza sę jako stosuek fukcj proporcjoalego hazardu dla porówywaych kategor daej zmeej, przy założeu stałośc pozostałych zmeych objaśających 4. Zmay ryzyka w zależośc od grupy weku wyzaczoo a podstawe wzoru: Wek^, h exp b Wek^, jh = = = exp b, dla j, 2,, 6 Wek j, exp - bj = f ^ h b _ (3) a wyk zaprezetowao w tabel 4. j 3 Por. [8], s. 29-30, [5], s. -4. 4 Por. [5], s. 23-24.
0 Iwoa Markowcz, Beata Stolorz Tabela 4 Szasa względa uzyskaa zatrudea wyzaczoa a podstawe wzoru (3) Szasa względa uzyskaa zatrudea przez bezrobotych w stosuku do grupy weku z grupy weku á8, 25) á25, 35) á35, 45) á45, 55) á55, 60) á25, 35) 0,943423 á35, 45) 0,57877 0,63479 á45, 55) 0,54073 0,544902 0,88826 á55, 60) 0,39965 0,42368 0,69058 0,77742 á60, 65) 0,068993 0,0733 0,9206 0,34209 0,72633 Źródło: oblczea włase z wykorzystaem programu Statstca. Drug rodzaj kodowaa umożlwa wyzaczee szasy opuszczea rejestru PUP przez bezrobotego z daej grupy weku względem średej całej badaej kohorty (tabela 5). Poeważ jako odesee przyjęto średą dla kohorty ozaczoą jako s, to cechy w modelu ozaczoo jako Wek (, s) dla Î {, 2, 3, 4, 5, 6}. II rodzaj kodowaa Tabela 5 Wek bezrobotych Cecha Wek (, s) Wek (2, s) Wek (3, s) Wek (3, s) Wek (4, s) Wek (5, s) á8, 25) á25, 35) 0 0 0 0 á35, 45) 0 0 0 0 á45, 55) 0 0 0 0 á55, 60) 0 0 0 0 á60, 65) 0 0 0 0 Źródło: opracowae włase. W przypadku podzału kohorty a grup otrzymujemy estymatorów parametrów b, b,, b, przy czym zachodz waruek: 2 3 f / b = 0, (4) =
Model proporcjoalego hazardu Coxa przy różych sposobach kodowaa zmeych czyl: b =- / b. (5) = 2 Wyk estymacj parametrów modelu regresj Coxa przedstawoo w tabel 6. Wyk estymacj parametrów modelu Coxa przy zastosowau kodowaa II Tabela 6 Cecha b Błąd parametru Wartość statystyk t exp _ b Statystyka Walda p Wek (, s) 0,80257 0,096426 8,402876 2,248487 70,6083 0,000000 Kodowae 2 Wek (2, s) 0,75202 0,092535 8,268 2,2274 66,04506 0,000000 Wek (3, s) 0,26340 0,0992 2,65740,30352 7,0677 0,007879 Wek (4, s) 0,4486 0,097587,48445,55882 2,20358 0,37700 Wek (5, s) 0,069 0,36522 0,783 0,898605 0,6326 0,433568 Wek (6, s),86363 0,47675 4,469 0,5509 9,90862 0,000008 Źródło: oblczea włase z wykorzystaem programu Statstca. W tym przypadku model ze zmeym kategoryzowaym Wek (, s) dla Î {, 2, 3, 4, 5, 6} ma postać: htx _,, x, x, x, x = 2 3 4 5 6 = h () t exp _ 0, 80257x + 0, 75202x + 0, 2634x + 0, 4486x -0, 0697x -, 86363x, 0 2 3 4 5 6 (6) gdze: x = Wek (, s), dla =,, 6. Wyrażee exp _ b wyraża w tym przypadku stosuek szasy a zalezee pracy przez bezrobotego z -tej grupy weku w porówau ze średą całej kohorty. Róweż w przypadku drugego kodowaa moża oblczyć szasę względą mędzy -tą grupą weku, a grupą perwszą. Moża ją wyzaczyć korzystając z zależośc [2]: exp b Wek^, h = exp 2. exp = _b2 + f b + f+ b b (7) Aalogcze wyzacza sę szasę względą mędzy dowolym dwema grupam weku:, exp Wek^ sh b exp b Wek^, jh = =. Wek j, s exp = ^ h b exp b j j (8)
2 Iwoa Markowcz, Beata Stolorz Otrzymae wartośc szasy względej są take same, jak w przypadku kodowaa perwszego (tabela 4). Stopeń dopasowaa modelu przy zastosowau obu sposobów kodowaa jest oczywśce tak sam, wartość statystyk c 2 wyos 229,844 przy pozome stotośc p = 0,0000. 5. ZWIĄZKI MIĘDZY PARAMETRAMI MODELU COXA PRZY ZASTOSOWANIU OBU SPOSOBÓW KODOWANIA Zastosowae poszczególych sposobów kodowaa daje w wyku róże oszacowaa parametrów modelu Coxa a jest też ch terpretacja. Kodowae I pozwala a wyzaczee szasy a zalezee pracy przez bezrobotego z daej grupy weku () względem możlwośc zdobyca zatrudea osób z grupy perwszej. Przykładowo bezrobot w weku od 45 do 55 lat mają prawe o połowę mejszą szasę podjęca pracy ż osoby w weku od 8 do 25 lat. Przy terpretacj parametrów, w przypadku zastosowaa kodowaa II, puktem odesea jest średa szasa zalezea pracy całej badaej zborowośc. Bezrobot w weku od 45 do 55 lat w tym przypadku o 5% szybcej zajdowal zatrudee ż przecęte w całej kohorce. Jak już wskazao oszacowaa parametrów, jak też ch terpretacja, przy zastosowau obu sposobów kodowaa są róże, ale przedstawając a wykrese (rysuek ) wyzaczoe wartośc parametrów modelu regresj Coxa moża zauważyć stee pewej zależośc. 0,5 0-0,5 Wek (, k) Wek (2, k) Wek (3, k) Wek (4, k) Wek (5, k) Wek (6, k) - -,5-2 -2,5-3 I kodowae II kodowae Rysuek. Wartośc oszacowaych parametrów b b (stała różca mędzy parametram) Źródło: opracowae włase. Wartośc szasy względej wyzaczoe ze wzoru (3) przy zastosowau kodowaa I ze wzoru (8) przy zastosowau kodowaa II, które zaprezetowao w tabel 4, są
Model proporcjoalego hazardu Coxa przy różych sposobach kodowaa zmeych 3 jedakowe. W zwązku z tym powa steć zależość mędzy parametram ozaczoym w artykule jako b b. Korzystając z zależośc: oraz exp _ b 2 2 + f+ b + f+ b = exp b, dla = 2, 3, f, (9) exp _ b + b + f+ b + f+ b = exp b (0) 2 otrzymujemy wzory przejśca mędzy dwoma omówoym sposobam kodowaa: b = b- / bk, dla k = 2,, f,. () k = Różca mędzy parametram b b rówa sę: b - b = / bk, dla k = 2,, f,, (2) k = czyl jest stała rówa sę średej arytmetyczej parametrów b, uzyskaych w wyku perwszego kodowaa. Poeważ potwerdzoo stee zależośc mędzy parametram b b moża przypuszczać, że róweż zachodz zwązek mędzy szasam względym, wyzaczoym odpowedo w stosuku do perwszej grupy weku oraz średego czasu pozostawaa bez pracy. Oszacowae wartośc szasy względej w przypadku kodowaa I II przedstawoo a rysuku 2. 2,5 2,5 0,5 0 Wek (, k) Wek (2, k) Wek (3, k) Wek (4, k) Wek (5, k) Wek (6, k) I kodowae II kodowae Rysuek 2. Oszacowae wartośc szasy względej w przypadku kodowaa I II (stały stosuek szas względych) Źródło: opracowae włase.
4 Iwoa Markowcz, Beata Stolorz Korzystając ze wzoru (2) moża zaleźć zwązek mędzy exp (b ) exp _ : exp _ b exp, dla,,,. exp = f / b p k k = 2f (3) _ b k = Ze wzoru (3) moża odczytać, że stosuk szasy względej w przypadku kodowaa perwszego drugego są stałe rówe exp f b p. / k k = b 6. PODSUMOWANIE Z przedstawoych badań wykają astępujące wosk: parametry modelu Coxa moża wyzaczyć stosując dwa sposoby kodowaa zmeych wpływających a czas poszukwaa pracy, kodowae 0- ozaczoe w artykule jako kodowae I wymusza określee podgrupy odesea; w aalzowaym przykładze wybrao podgrupę perwszą, czyl bezrobotych w weku od 8 do 25 lat, jako grupę odesea moża przyjąć dowolą podgrupę, którą badacz chce wyróżć; może to być a przykład grupa ajlczejsza, ajstarsza tp., stosując kodowae -0-, ozaczoe w artykule jako kodowae II, puktem odesea jest średa całej kohorty; w tym przypadku e ma zaczea wybór podgrupy, która zostae ozaczoa przez, mędzy parametram modelu proporcjoalego hazardu Coxa w przypadku obu sposobów kodowaa zmeych steje zwązek; różca mędzy odpowadającym sobe parametram jest stała rówa średej arytmetyczej z parametrów otrzymaych dla kodowaa 0-; wyzaczee szasy względej a podjęce pracy dla dowolych dwóch podgrup jest możlwe przy zastosowau dowolego rodzaju kodowaa. Uwersytet Szczecńsk LITERATURA [] Bedarsk T., [2005], Ocea przydatośc daych Bael dla charakterystyk rozkładu czasu poszukwaa pracy a przykładze daych z lat 200-2002, Studa Ekoomcze, r 4, Istytut Nauk Ekoomczych PAN, Warszawa. [2] Colett D., [2003], Modellg Survval Data Medcal Research, Chapma & Hall/CRC, Boca Rato, Floryda. [3] Cox D.R., Oakes D., [984], Aalyss of Survval Data, Chapma ad Hall, Lodo. [4] Frątczak E., Gach-Cepela U., Babker H., [2005], Aalza hstor zdarzeń. Elemety teor, wybrae przykłady zastosowań, SGH, Warszawa. [5] Hosmer D.W., Lemeshow S., [999], Appled Survval Aalyss. Regresso Modelg of Tme to Evet Data, Joh Wley & Sos, INC, New York. [6] Hozer J. (red.), [2002], Badaa statystycze w ubezpeczeach, Wydawctwo Naukowe Uwersytetu Szczecńskego, Szczec.
Model proporcjoalego hazardu Coxa przy różych sposobach kodowaa zmeych 5 [7] Markowcz I., Stolorz B., [2007], Determats of Labour Seekg Tme Resultg From Labour Demad o Szczec Labour Market, The labour demad the moder ecoomy, Ecoomcs & Competto Polcy, No. 0, Katedra Mkroekoom Uwersytetu Szczecńskego, Szczec. [8] Rossa A., [2005], Metody estymacj rozkładu czasu trwaa zjawsk dla daych cezurowaych oraz ch zastosowaa, Wydawctwo Uwersytetu Łódzkego, Łódź. Praca wpłyęła do redakcj w lstopadze 2008 r. MODEL PROPORCJONALNEGO HAZARDU COXA PRZY RÓŻNYCH SPOSOBACH KODOWANIA ZMIENNYCH Streszczee Metody aalzy przeżyca są coraz częścej stosowae w badaach zjawsk społeczo-ekoomczych. Ze względu a brak koeczośc zajomośc rozkładu badaej zmeej losowej szczególą wagę przywązuje sę do model eparametryczych bądź semparametryczych. Coraz powszechej wykorzystywae są oe do badaa zjawsk ych ż czas trwaa życa ludzkego. Warukem stosowaa model aalzy przeżyca jest odpoweda baza daych umożlwająca wyzaczee czasu trwaa zdefowaego stau dla poszczególych jedostek badaej zborowośc. Zazwyczaj są to badaa retrospektywe z wykorzystaem sporządzaych rejestrów. Przykładem takej bazy daych jest rejestr bezrobotych. Celem artykułu jest wskazae wpływu sposobu kodowaa zmeych a oszacowaa parametrów modelu regresj Coxa ch terpretację. Autork przedstawły róweż zwązek mędzy parametram modelu szacowaym dla daych zakodowaych w dwojak sposób. Badaą kohortę staową osoby bezrobote wyrejestrowae w określoym okrese czasu. Podzału a podgrupy dokoao ze względu a wek, który jest determatą czasu poszukwaa pracy. Słowa kluczowe: aalza przeżyca, modele semparametrycze, model regresj Coxa, kodowae. THE COX PROPORTIONAL HAZARD MODEL FOR DIFFERENT METHODS OF ENCRYPTION OF VARIABLES Summary Methods of survval aalyss are more ad more ofte used aalyss of socal ad ecoomc occurreces. Due to lack of dstrbutoal formato regardg the radom varable, much atteto s put o o-parametrc or sem-parametrc models. They are more ad more commoly used for aalyss of occurreces dfferet tha lfe expectacy. The codto of use of models of survval aalyss s approprate database that makes possble estmato of durato tme of defed state for partcular elemets of aalysed populato. They are usually retrospectve aalyses wth use of records. The example of such database s uemploymet records. The artcle presets results of aalyss of fluece of ecrypto of varables o estmato of parameters of the Cox proportoal hazard model ad ther terpretato. The authors also preseted correlato betwee parameters of the model estmated for the data ecrypted two ways. The cohort cossted of the uemployed persos uregstered specfc perod. Sub-clusters were allocated wth respect to age that s a determat of perod of watg for a job. Key words: survval aalyss, sem-parametrc models, Cox regresso model, ecrypto.