Prognozowane w zarządzanu frmą Redaktorzy naukow Paweł Dttmann Aleksandra Szpulak Wydawnctwo Unwersytetu Ekonomcznego we Wrocławu Wrocław 2011
Senacka Komsja Wydawncza Zdzsław Psz (przewodnczący), Andrzej Bąk, Krzysztof Jajuga, Andrzej Matysak, Waldemar Podgórsk, Meczysław Przybyła, Anela Styś, Stansław Urban Recenzenc Włodzmerz Szkutnk, Jan Zawadzk Redakcja wydawncza Barbara Majewska Redakcja technczna korekta Barbara Łopusewcz Skład łamane Comp-rajt Projekt okładk Beata Dębska Kopowane powelane w jakejkolwek forme wymaga psemnej zgody Wydawcy Copyrght by Unwersytet Ekonomczny we Wrocławu Wrocław 2011 ISSN 1899-3192 ISBN 978-83-7695-141-6 Druk: Drukarna TOTEM
Sps treśc Wstęp... 7 Agneszka Przybylska-Mazur: Optymalne zasady poltyk penężnej w prognozowanu wskaźnka nflacj... 9 Alcja Wolny-Domnak: Zmodyfkowana regresja Possona dla danych ubezpeczenowych z dużą lczbą zer... 21 Andrzej Gajda: Dośwadczena metody pozyskwana danych eksperckch na potrzeby badań z wykorzystanem metod foresght... 30 Anna Gondek: Prognozy rozwoju gospodarczego Polsk z użycem metody analog przestrzenno-czasowych... 41 Bartosz Lawędzak: Sekurytyzacja paperów wartoścowych opartych na hpotece odwrotnej... 50 Flp Chybalsk: Prakseologczne aspekty prognozowana... 59 Ireneusz Kuropka, Paweł Lenczewsk: Możlwość zastosowana model ekonometrycznych do prognozowana w przedsęborstwe Brenntag Polska... 69 Jacek Szanduła: Wyszukwane formacj w kursach gełdowych przy użycu metod klasyfkacj danych... 82 Joanna Perzyńska: Zastosowane sztucznych sec neuronowych do wyznaczana nelnowych prognoz kombnowanych... 94 Konstancja Poradowska, Tomasz Szkutnk, Mrosław Wójcak: Scenarusze rozwoju wybranych technolog oszczędnośc energ w życu codzennym... 102 Macej Oesterrech: Wykorzystane paketu statystycznego R w prognozowanu na podstawe danych w postac szeregów czasowych z wahanam sezonowym... 113 Marcn Błażejowsk, Paweł Kufel, Tadeusz Kufel: Algorytm zgodnego modelowana prognozowana procesów ekonomcznych jako paket funkcj Congruent Specfcaton programu Gretl... 125 Marcn Błażejowsk: Stacjonarność szeregów czasowych o wysokej częstotlwośc obserwowana mplementacja testu stacjonarnośc Dckeya w programe Gretl... 137 Mrosław Wójcak: Wpływ czynnków zdarzeń kluczowych na rozwój nowych technolog wybrane metody korygowana prognoz na przykładze technolog energooszczędnych... 149 Monka Dyduch: Grupowane produktów strukturyzowanych... 159 Potr Bernat: Planowane dzałalnośc przedsęborstwa wspomagane prognozowanem... 170
6 Sps treśc Roman Pawlukowcz: Informacje prognostyczne w rynkowych sposobach wyceny neruchomośc dentyfkacja pozyskwane... 182 Wojcech Zatoń: Uwarunkowana psychologczne w prognozowanu... 189 Summares Agneszka Przybylska-Mazur: Optmal monetary polcy rules n forecastng of nflaton rate... 20 Alcja Wolny-Domnak: Zero-nflated Posson Model for nsurance data wth a large number of zeros... 29 Andrzej Gajda: Experence and methods of data collecton from experts for research usng foresght methods... 40 Anna Gondek: Economc growth forecasts for Poland usng the tme- -space analogy method... 49 Bartosz Lawędzak: Securtzaton of survvor bonds based on the reverse mortgage... 58 Flp Chybalsk: Praxologcal aspects of forecastng... 68 Ireneusz Kuropka, Paweł Lenczewsk: Econometrc models usage feasblty n Brenntag Poland forecastng... 81 Jacek Szanduła: Searchng for techncal analyss formatons n stock prces wth the use of cluster analyss methods... 93 Joanna Perzyńska: Applcaton of artfcal neural networks to buld the nonlnear combned forecasts... 101 Konstancja Poradowska, Tomasz Szkutnk, Mrosław Wójcak: The scenaros of development of selected technologes related to energy savng n everyday lfe... 112 Macej Oesterrech: The R applcaton n forecastng unsystematc lacks n seasonal tme seres... 124 Marcn Błażejowsk, Paweł Kufel, Tadeusz Kufel: Congruent modellng and forecastng algorthm as functon package Congruent Specfcaton n GRETL... 136 Marcn Błażejowsk: Statonarty of hgh-frequency tme seres mplementaton of Dckey s statonarty test n GRETL... 148 Mrosław Wójcak: The nfluence of key and events factors on the development of new technologes selected methods of forecast correcton on the example of energy-savng technologes... 158 Monka Dyduch: Rankng of structured products... 169 Potr Bernat: Forecastng asssted busness management plannng... 181 Roman Pawlukowcz: Prognostc data n market ways of property valuaton dentfcaton and acquston... 188 Wojcech Zatoń: Psychologcal aspects of forecastng... 199
PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU nr 185 Prognozowane w zarządzanu frmą 2011 Alcja Wolny-Domnak Unwersytet Ekonomczny w Katowcach ZMODYFIKOWANA REGRESJA POISSONA DLA DANYCH UBEZPIECZENIOWYCH Z DUŻĄ LICZBĄ ZER Streszczene: W modelowanu lczby szkód dla portfel ubezpeczenowych zastosowane znajduje klasyczna regresja Possona. Jednak specyfka zjawska wystąpena szkody charakteryzuje sę tym, ż dla welu pols w okrese ubezpeczena ne występuje żadna szkoda. Powoduje to, że dane zawerają dużą lczbę zer. W takm przypadku lepsze wynk daje zmodyfkowana wersja regresj Possona, uwzględnająca taką sytuację. W pracy przedstawone jest zastosowane regresj zmodyfkowanej z wykorzystanem programu komputerowego R oraz paketu {pscl}. Słowa kluczowe: ubezpeczena, szkody, modelowane. 1. Wstęp Jednym z problemów występujących w analze danych ubezpeczenowych jest modelowane lczby szkód. Portfele ubezpeczenowe charakteryzują sę tym, że w przypadku welu pols w okrese ubezpeczena ne występuje żadna szkoda. Zatem dane zawerają dużą lczbę zer, przez co klasyczna regresja Possona ne daje zadowalających wynków. W pracy przedstawona zostane zmodyfkowana wersja regresj Possona, uwzględnająca sytuację występowana dużej lczby zer w danych (zero-nflated Posson regresson), jej zastosowane w modelowanu lczby szkód w ubezpeczenach majątkowych. Przedstawone modele regresyjne pozwalają mędzy nnym na prognozowane oczekwanej lczby szkód dla nowo zaweranej polsy, jednakże ne chodz o to, co sę wydarzy w przyszłośc, lecz o to, jaka będze lczba szkód w danej klase pols opsanej przez zmenne objaśnające. 2. Modele regresj z lcznkową zmenną objaśnaną przyjmującą dużą lczbę wartośc zerowych W tej częśc pracy przedstawone zostaną modele regresj, w których zmenną objaśnającą jest zmenna lcznkowa przyjmująca wartośc całkowte neujemne.
22 Alcja Wolny-Domnak W ubezpeczenach majątkowych modele take mają zastosowane w szczególnośc w modelowanu oraz prognozowanu lczby szkód. Stosowany jest najczęścej model regresj Possona, w którym przyjmuje sę założene, że zmenna objaśnana Y ma rozkład Possona Y ~ Pos( ) warunkowany wartoścam zmennych objaśnających [Denut n. 2007]: y e PY ( y), 1,..., n. y! W powyższym wzorze Y oznacza lczbę szkód dla -tej osoby ubezpeczonej. Parametr uzależnony jest od pewnych zmennych zależnych X j, j 1,..., k, charakteryzujących ubezpeczonego oraz pojazd, którego dotyczy ubezpeczene, np. płc, weku, pojemnośc slnka samochodu. Najczęścej przyjmowana jest logarytmczna funkcja połączena: k ln X. j j j1 Przechodząc do wartośc oczekwanej, mamy: k jx j j 1 e. Zatem wdać, że dla każdej kombnacj zmennych objaśnających uzyskwana jest zawsze dodatna oczekwana lczba szkód. W modelu przyjmuje sę założena, że zmenna Y ma rozkład Possona, średna wartość zmennej jest równa warancj oraz y,..., 1 y n są nezależne o stałej warancj. Parametr może być wykorzystywany do rangowana pols ze względu na lczbę szkód. Jednak nezbędna jest korekta tego parametru wskaźnkem ekspozycj na ryzyko dla -tej polsy, który pokazuje najczęścej w przypadku ubezpeczeń majątkowych, jaką część badanego okresu obejmowała polsa. Powyższy model ne uwzględna przypadku, w którym zmenna lcznkowa przyjmuje dużą lczbę wartośc zerowych. Taka sytuacja występuje często, gdy modelowana jest lczba szkód. Analzując portfele ryzyk, można zauważyć, że dla welu pols ne wystąpła żadna szkoda, a jeśl wystąpły szkody, to jedna, dwe, trzy rzadko węcej. Dlatego w przypadku analzy lczby szkód w zakładze ubezpeczeń zasadnejsze wydaje sę stosowane zmodyfkowanej regresj Possona, gdze uwzględna sę dużą lczbę wartośc zerowych w danych, zwanej modelem ZIP (Zero-Inflated Posson). W modelu ZIP nezależne zmenne Y przyjmują wartośc zerowe: Y ~ 0 z prawdopodobeństwem lub wartośc z rozkładu Possona: Y ~ Pos( ) z prawdopodobeństwem 1, co można zapsać następująco [Lambert 1992]:
Zmodyfkowana regresja Possona dla danych ubezpeczenowych z dużą lczbą zer 23 (1 ) e, y 0 y PY ( ) ( ) y e, 1,..., n. (1 ), y 0 y! Zatem w modelu ZIP występują dwa parametry: oraz. Oba, podobne jak w przypadku regresj Possona, połączone są ze zmennym objaśnającym następującym funkcjam połączeń: t ln( ) jz 1 k j1 ln X, j j j1 gdze Z,..., 1 Z l są zmennym zależnym dla równana perwszego, natomast X,..., 1 X k zmennym dla równana drugego. Oczekwana lczba szkód oraz warancja lczby szkód -tej polsy w modelu ZIP wynos: EY ( ) (1 ) DY. 2 ( ) (1 )( ) Podobne jak w przypadku regresj Possona, w modelu ZIP zakłada sę, że średna lczba szkód jest równa warancj. Jeśl warancja jest wyższa od średnej, występuje problem nadmernej dyspersj, który często charakteryzuje zmenne 2 lcznkowe. Powoduje on, że statystyk testujące stotność parametrów strukturalnych modelu są przeszacowane, natomast ne zmena zgodnośc estymatorów parametrów. W celu unknęca nadmernej dyspersj można zastosować skorygowane błędy standardowe lub przejść do modelu, w którym wprowadzany jest rozkład negatywny dwumodalny [Kopczewska n. 2009]. Model ten oznaczany jest najczęścej ZINB (Zero-Inflated Negatve Bnomal). 3. Przykład empryczny Proces modelowana prognozowana lczby szkód w zakładze ubezpeczeń przeprowadzono z wykorzystanem bazy danych szkód komunkacyjnych (thrd party motor nsurance clams) zaczerpnętej z pozycj [Jong, Heller 2008]. Baza danych zawera następujące zmenne uwzględnone w modelu: a) zmenna objaśnana lcznkowa: numclams lczba szkód; b) zmenne objaśnające: veh_value wartość samochodu, j
24 Alcja Wolny-Domnak veh_age wek kerowcy: 1 (najmłodszy), 2, 3, 4, gender płeć kerowcy: 0 (kobeta), 1, agecat wek kerowcy: 1 (najmłodszy), 2, 3, 4, 5, 6; c) ekspozycja na ryzyko (merzona w okrese trwana polsy w stosunku do całego okresu uwzględnanego w baze): exposure wartośc z przedzału [0,1]. Oblczena wykonano w programe komputerowym R. Rozkład lczby szkód w analzowanym portfelu przedstawa sę następująco: Tabela 1. Rozkład lczby szkód Lczba szkód Lczba szkód Częstość Średna ekspozycja (w %) na ryzyko 0 63 232 93,19 0,45 1 4333 6,39 0,6 2 271 0,40 0,71 3 18 0,03 0,7 4 2 0,00 0,88 Źródło: opracowane własne. Z tabel 1 wynka, że lczba szkód charakteryzuje sę bardzo dużą lczbą zer 93% pols ne wygenerowało żadnej szkody w portfelu. Wartość warancj przewyższa wartość średnej ndeks nadmernej dyspersj jest na pozome: warancja średna O 0,0063, średna co oznacza słaby efekt nadmernej dyspersj w portfelu. Do modelowana lczby szkód zastosowano w perwszej kolejnośc regresję Possona. W modelu M1 badano wpływ poszczególnych zmennych na lczbę szkód, natomast w modelu M2 wprowadzono nterakcję pomędzy płcą wekem osoby ubezpeczonej. 1) Model P1: ln veh _ value veh _ age gender agecat. 2) Model P2 (zagneżdżony): 0 1 2 3 4 ln 0 1veh _ value 2veh _ age 3gender agecat gender * agecat. 4 5 Modele szacowano, wykorzystując funkcję glm(){stats} przyjmując rozkład Possona dla lczby szkód. Oszacowane parametry regresj przedstawa tabela 2. W obu modelach na pozome stotnośc 5% zmenne charakteryzujące wek samochodu oraz płeć są statystyczne nestotne. Ponadto kryterum AIC przyjmuje neznaczne nższą wartość w modelu P1 (AIC = 36130) nż w modelu P2
Zmodyfkowana regresja Possona dla danych ubezpeczenowych z dużą lczbą zer 25 (AIC = 36132). Zatem do dalszej analzy zastosowano model P1 z usunętym zmennym veh_age oraz gender. Tabela 2. Parametry strukturalne regresj Possona dla model P1 Model P1 ˆ Średn błąd szacunku p-wartość Stała 2,396 0,068 0,000 veh_value 0,043 0,013 0,001 veh_age 0,012 0,016 0,453 genderm 0,020 0,029 0,493 agecat 0,077 0,010 0,000 Źródło: oblczena własne. Tabela 3. Parametry strukturalne regresj Possona dla model P2 Model P2 ˆ Średn błąd szacunku p-wartość Stała 2,398 0,074 0,000 veh_value 0,043 0,013 0,001 veh_age 0,012 0,016 0,452 genderm 0,016 0,074 0,831 agecat 0,077 0,014 0,000 gend:agec 0,001 0,020 0,950 Źródło: oblczena własne. 3) Model P1.1: ln 0 1veh _ value 2agecat. Oszacowane parametry modelu P1.1 kształtują sę następująco: Tabela 4. Parametry regresj Possona dla model P1.1 Model P1.1 ˆ Średn błąd szacunku p-wartość Stała 2,4421 0,0421 0,000000 veh_value 0,0473 0,0106 0,000008 agecat 0,0777 0,0101 0,000000 Źródło: oblczena własne. W zmodyfkowanym modelu wszystke zmenne są statystyczne stotne na pozome stotnośc 5%. Ponadto test lorazu warygodnośc pokazuje, że równeż cały model P1.1 jest statystyczne stotny. Interpretując uzyskane wynk na podstawe wartośc parametrów strukturalnych zawartych w tabel 4 można jedyne stwerdzć kerunek wpływu zmany wartośc samochodu oraz weku kerowcy na lczbę szkód na podstawe znaku. Tak
26 Alcja Wolny-Domnak węc wzrost wartośc samochodu zwększa oczekwaną lczbę szkód, natomast wzrost weku kerowcy zmnejsza tę lczbę. W celu określena jednostkowego wpływu zmennych objaśnających na lczbę szkód nezbędne jest wyznaczene eksponentów parametrów strukturalnych modelu, co wynka z postac funkcj połączena. Tabela 5. Test lorazu warygodnośc dla modelu P1.1 #Df LogLk Df Chsq Pr(>Chsq) Model P1.1 3 18060,698 NA NA NA Model tylko stała 1 18101,501 2,000 81,605 0,000 Źródło: oblczena własne. Tabela 6. Eksponenty parametrów strukturalnych modelu P1.1 exp( ˆ ) Stała 0,0870 veh_value 1,0484 agecat 0,9253 Źródło: oblczena własne. Zatem jednostkowy wzrost wartośc samochodu zwększa o 4% lczbę szkód, natomast starszy wek kerowcy wpływa na zmnejszene lczby szkód o 8%. Jako że w analzowanej baze danych jest dużo pols, dla których ne wystąpła żadna szkoda, dalej zastosowano modele ZIP. W perwszym modelu założono, że estymowane jest równane druge oraz że prawdopodobeństwo wystąpena braku szkody na polse w całym portfelu jest jednakowe. Natomast w modelu drugm przyjęto, że w obu równanach występują te same zmenne objaśnające. 4) Model ZIP1: ZIP1 ZIP1 ZIP1 ZIP1 ZIP1 ln 0 1 veh _ value 2 veh _ age 3 gender ZIP1 4 agecat, ZIP1 ZIP1 ln( ) ZIP1 0. 1 5) Model ZIP2: ln veh _ value veh _ age gender ZIP2 ZIP2 ZIP2 ZIP2 ZIP2 0 1 2 3 ZIP2 4 agecat, ZIP2 ZIP2 ZIP2 ZIP2 ZIP2 ln( ) 2 0 1 veh _ value 2 veh _ age ZIP 3 gender 1 agecat. ZIP2 4
Zmodyfkowana regresja Possona dla danych ubezpeczenowych z dużą lczbą zer 27 Modele szacowano wykorzystując funkcję zeronfl(){pscl} uzyskując następujące wynk: Tabela 7. Parametry strukturalne modelu ZIP1 ZIP1 Model ZIP1 Średn błąd szacunku p-wartość Stała 1,819 0,089 0,000 veh_value 0,045 0,014 0,001 veh_age 0,011 0,016 0,503 genderm 0,021 0,030 0,491 agecat 0,077 0,010 0,000 Model ZIP1 ZIP1 Średn błąd szacunku p-wartość 0 Stała 0,235 0,1227 0,0551 Źródło: oblczena własne. W modelu ZIP1 na pozome stotnośc 5% zmenne: wek samochodu, płeć oraz wek kerowcy są nestotne w równanu drugm w modelu ZIP, natomast stała, wek samochodu oraz płeć są nestotne w równanu perwszym modelu ZIP. Do wyboru modelu (nezagneżdżonego) spośród powyższych dwóch zastosowano test Vuonga, w którym statystyką empryczną jest znormalzowana logarytmczna różnca funkcj warygodnośc obu model [Lambert 1992]. Test ten daje jednoznaczne rozstrzygnęce (w przecweństwe na przykład do testu Coxa), ne wymaga żadnych założeń początkowych. Użyto funkcj vuong(){pscl}. Statystyka testu wynos 5,105, co oznacza, że model ZIP2 jest lepszy od modelu ZIP1 na pozome stotnośc 5% (p-wartość = 0,000000165). Zatem dalej rozważano model ZIP2, usuwając z nego parametry nestotne: Tabela 8. Parametry strukturalne modelu ZIP2 ZIP2 Model ZIP2 Średn błąd szacunku p-wartość Stała 1,842 0,179 0,000 veh_value 0,099 0,027 0,000 veh_age 0,020 0,051 0,701 genderm 0,014 0,074 0,854 agecat 0,021 0,027 0,431 Model ZIP2 Średn błąd szacunku p-wartość ZIP2 Stała 0,223 0,431 0,605 veh_value 0,559 0,100 0,000 veh_age 0,010 0,120 0,934 genderm 0,047 0,166 0,777 agecat 0,125 0,059 0,036 Źródło: oblczena własne.
28 Alcja Wolny-Domnak 6) Model ZIP2.1 ln ZIP2.1 ZIP2.1 ZIP2.1 0 1 veh _ value ln( ) _ 1 ZIP2.1 ZIP2.1 ZIP2.1 ZIP2.1 1 veh value 2 agecat Oszacowane parametry modelu ZIP2.1 przedstawa tabela 9. Tabela 9. Parametry strukturalne modelu ZIP2.1 ZIP2.1 Model ZIP2.1 Średn błąd szacunku p-wartość Stała 1,8579 0,0455 0,0000 veh_value 0,1044 0,0157 0,0000 ZIP2.1 Model ZIP2.1 Średn błąd szacunku p-wartość veh_value 0,5014 0,0705 0,0000 agecat 0,1684 0,0179 0,0000 Źródło: oblczena własne. Tabela 10. Test lorazu warygodnośc dla modelu ZIP2.1 #Df LogLk Df Chsq Pr(>Chsq) Model 2.1 4 18026,5 NA NA NA Model tylko stała 2 18052,2 2 51,3121 0,0000 Źródło: oblczena własne. Wszystke parametry modelu, a także cały model są stotne. W ostatnm kroku przeprowadzono test Vuonga, porównując model P2.1 z modelem ZIP1.2. Statystyka testu wynos 2,404, co oznacza, że Model ZIP2 jest lepszy na pozome stotnośc 5% (p-wartość = 0,00808). 4. Podsumowane W pracy przedstawono zmodyfkowaną regresję Possona w przypadku, gdy w danych występuje duża lczba zer dla zmennej lcznkowej jej porównane z klasyczną regresją Possona. Analzując dane empryczne w przykładze, można zauważyć, że model ZIP daje lepsze rezultaty nż model klasyczny. Zasadnczo wadą obu model jest fakt, że w danej klase pols wszystke polsy charakteryzują sę taką samą oczekwaną lczba szkód, co jest założenem mało realnym. Rozwązane tego problemu stanow przejśce do meszanego modelu Possona poprzez wprowadzene czynnka losowego różncującego polsy..
Zmodyfkowana regresja Possona dla danych ubezpeczenowych z dużą lczbą zer 29 Lteratura Jong P. de, Heller G.Z., Generalzed Lnear Models for Insurance Data, Cambrdge Unversty Press, 2008. http://www.acst.mq.edu.au/research/books/glmsforinsurancedata/data_sets. Denut M., Marechal X., Ptrebos S., Walhn J. Actuaral Modellng of Clams Counts, John Wley&Sons Ltd., Chchester 2007. Kopczewska K., Kopczewsk T., Wójck P., Metody loścowe w R. Aplkacje ekonomczne fnansowe, Cedetu.pl, Wydawnctwa Fachowe, Warszawa 2009. Lambert D., Zero-Inflated Posson Regresson, wth an applcaton to defects n manufacturng, Technometrcs, 1 Feb. 1992, vol. 34. Vuong Q., Lkelhood rato test for model selecton and nonnested hypothess, Econometrca 1989, no. 57. ZERO-INFLATED POISSON MODEL FOR INSURANCE DATA WITH A LARGE NUMBER OF ZEROS Summary: In modellng the number of nsurance clams the classcal Posson regresson s used. Insurance portfolos are characterzed by the fact that for many polces n the nsurance perod there are no clams at all. Thus, the data contan a large number of zeros, so that classcal Posson regresson does not gve satsfactory results. The work presented n the paper s a modfed verson of Posson regresson, takng nto account the stuaton of a large number of zeros n the data (called zero-nflated Posson regresson) and ts applcaton n modellng the number of clams n nsurance assets. Calculatons of the actual data taken from the lterature are mplemented n a computer program R usng the package {pscl}.