Alcja Wolny-Domnak Unwersytet Ekonomczny w Katowcach MODELOWANIE LICZBY SZKÓD W UBEZPIECZENIACH KOMUNIKACYJNYCH W PRZYPADKU WYSTĘPOWANIA DUŻEJ LICZBY ZER, Z WYKORZYSTANIEM PROCEDURY KROSWALIDACJI Wprowadzene Jednym z problemów występujących w analze danych ubezpeczenowych jest modelowane lczby szkód występujących w danym portfelu pols z zastosowanem regresj przy założenu rozkładu Possona. Portfele ubezpeczenowe charakteryzują sę jednak tym, że dla welu pols w okrese ubezpeczena ne wystąpła żadna szkoda. Oznacza to, ż dane zawerają dużą lczbę zer, co powoduje, że klasyczna regresja Possona ne daje zadowalających wynków. W perwszej częśc pracy przedstawono uogólnoną regresję Possona dla zmennej lcznkowej oraz zmodyfkowaną wersję regresj Possona uwzględnającą sytuację występowana dużej lczby zer w danych (zero-nflated Posson regresson). W drugej częśc przeprowadzono przykład empryczny możlwośc zastosowana wersj zmodyfkowanej do modelowana lczby szkód w ubezpeczenach majątkowych. Analzowano różne modele w celu określena, które zmenne taryfkacyjne wpływają na występowane zer w portfelu pols stosując procedurę 0-krotnej kroswaldacj. W efekce uzyskano rankng pozwalający na klasyfkację pols ze względu na lczbę generowanych szkód. Dane do przykładu oblczenowego zaczerpnęto z lteratury przedmotu. Do oblczeń wykorzystano program komputerowy R, paket {pscl} oraz zamplementowany algorytm kroswaldacj (załącznk A).
6 Alcja Wolny-Domnak. Modele regresj z lcznkową zmenną objaśnaną typu ZI W tej częśc pracy przedstawone są modele regresj, w których zmenną zależną jest zmenna lcznkowa przyjmująca wartośc całkowte neujemne oraz występuje duża lczba wartośc zerowych (zero-nflated). W ubezpeczenach majątkowych take modele mają zastosowane w szczególnośc w modelowanu oraz prognozowanu lczby szkód. Stosowany jest najczęścej model regresj Possona, w którym przyjmuje sę założene, że zmenna objaśnana Y ma rozkład Possona Y ~ Pos( λ ) warunkowany wartoścam zmennych objaśnających []: y e λ λ PY ( = y) =, =,..., n y! W powyższym wzorze Y oznacza lczbę szkód dla -tej osoby ubezpeczonej. Parametr λ uzależnony jest od pewnych zmennych zależnych X j, j =,..., k charakteryzujących ubezpeczonego oraz pojazd, którego dotyczy ubezpeczene, np. płc, weku, pojemnośc slnka samochodu. Najczęścej przyjmowana jest logarytmczna funkcja połączena: ln λ = β X k j j j= Korzystając z własnośc rozkładu Possona, że parametr λ jest równy wartośc oczekwanej, mamy: k β j X j j = e λ = μ = Wdać zatem, że dla każdej kombnacj zmennych objaśnających uzyskwana jest zawsze dodatna oczekwana lczba szkód. W modelu przyjmuje sę założena, że zmenna Y ma rozkład Possona, średna wartość zmennej jest równa warancj oraz y,..., y n są nezależne o stałej warancj. Parametr λ może być wykorzystywany do rangowana pols ze względu na lczbę szkód. Nezbędna jest jednak korekta tego parametru wskaźnkem ekspozycj na ryzyko dla -tej polsy d, który pokazuje najczęścej w przypadku ubezpeczeń majątkowych, jaką część badanego okresu obejmowała polsa: k β 0 + βj j= = d e λ
Modelowane lczby szkód w ubezpeczenach komunkacyjnych 7 Powyższy model ne uwzględna przypadku, w którym zmenna lcznkowa przyjmuje dużą lczbę wartośc zerowych. Taka sytuacja występuje często w przypadku modelowana lczby szkód. Analzując portfele ryzyk można zauważyć, że dla welu pols ne wystąpła żadna szkoda, natomast w przypadku wystąpena szkód są to jedna, dwe, trzy rzadko węcej. Dlatego w przypadku analzy lczby szkód w zakładze ubezpeczeń zasadnejsze wydaje sę stosowane zmodyfkowanej regresj Possona, gdze uwzględna sę dużą lczbę wartośc zerowych w danych zwanej modelem ZIP (Zero-Inflated Posson). W modelu ZIP nezależne zmenne Y przyjmują wartośc zerowe: Y ~0 z prawdopodobeństwem lub wartośc z rozkładu Possona: Y ~ Pos( λ ) z prawdopodobeństwem, co można zapsać następująco [5]: λ + ( ) e, y = 0 y PY ( ) ( ) = y λ λ = e, =,..., n ( ), y > 0 y! Zatem w modelu ZIP występują dwa parametry: λ oraz. Oba parametry, podobne jak w przypadku regresj Possona, połączone są ze zmennym objaśnającym następującym funkcjam połączeń: ln( ) γ jz t = j= k ln λ = β X, j j j= gdze Z,..., Z l są zmennym zależnym dla równana perwszego, natomast X,..., X k zmennym dla równana drugego. Oczekwana lczba szkód oraz warancja lczby szkód -tej polsy w modelu ZIP wynos [5]: E( Y E ) = λ ( ) ( Y ) = ( )( λ λ ) Podobne jak w przypadku regresj Possona, w modelu ZIP zakłada sę, ż średna lczba szkód jest równa warancj. W przypadku, gdy warancja jest wyższa od średnej występuje problem nadmernej dyspersj, który często charakteryzuje zmenne lcznkowe. Powoduje on, że statystyk χ testujące stotność parametrów strukturalnych modelu są przeszacowane, natomast ne j
8 Alcja Wolny-Domnak zmena zgodnośc estymatorów parametrów. W celu unknęca nadmernej dyspersj można zastosować skorygowane błędy standardowe lub przejść do modelu, w którym wprowadzany jest rozkład negatywny-dwumodalny [4]. Do wyboru modelu szacowana lczby szkód ubezpeczenowych oraz układu zmennych wpływających na generowane przez polsy wartośc zerowych możlwe jest wykorzystane koncepcj statystycznych metod automatycznego uczena sę. Ogólne w tej koncepcj zakłada sę, że dany jest zbór uczący D = {( x, y ), =,..., N}, gdze x, y R. Ponadto zbór uczący tworzą obserwacje wylosowane z jednakowym prawdopodobeństwem w sposób nezależny, z populacj o welowymarowym rozkładze określonym przez neznaną funkcję gęstośc: p ( x, y) = p( x) p( y x) Zadane polega na przeszukanu pewnego zboru funkcj H = { f ( x, ) : Ω}, gdze jest wektorem parametrów modelu, wskazanu elementu najlepszego. Posługując sę modelem f ( x, ) H, który jest uproszczonym obrazem analzowanego zjawska, w trakce przeszukwana pojawają sę błędy wynkające z wykorzystywana wartośc teoretycznych w mejscu wartośc rzeczywstych zmennej objaśnanej. Błędy merzone są tzw. funkcjam straty L ( y, f ( y, )), które najczęścej merzą błąd predykcj dla pojedynczej obserwacj. W koncepcj metod automatycznego uczena sę rozważany jest całkowty błąd modelu będący sumą wartośc funkcj straty dla wszystkch możlwych obserwacj. Jedną z metod estymacj wartośc błędu całkowtego jest metoda sprawdzana krzyżowego (CV-cross-valdaton) []. W nnejszej pracy zastosowano następujący algorytm: a) losowe wyznaczene ze zboru danych 0 podzborów o zblżonej lczebnośc, k =0, (n lczebność całego zboru, ml lczebność l-tego podzboru, l =,..., 0), b) 0-krotne szacowane modelu na podzborze danych o lczebnośc n ml z usunęcem zboru waldującego, ( y ˆ μ l ) c) 0-krotne wyznaczene błędu MSEl =, m 0 ml d) szacowane błędu kroswaldacj: cv = MSEl. l= n Porównując modele wybrano model o najmnejszej wartośc c ν. Implementację procedury w programe komputerowym R przedstawono w załącznku A. l
Modelowane lczby szkód w ubezpeczenach komunkacyjnych 9. Przykład empryczny Proces modelowana prognozowana lczby szkód w zakładze ubezpeczeń przeprowadzono z wykorzystanem bazy danych szkód komunkacyjnych (thrd party motor nsurance clams) zaczerpnętej z pozycj []. Baza danych zawera następujące zmenne uwzględnone w modelu:. Zmenna objaśnana lcznkowa: numclams lczba szkód.. Zmenne objaśnające: veh_body kształt samochodu, veh_age wek samochodu: A (najmłodszy), B, C, D, gender płeć kerowcy: M (kobeta), F, wek kerowcy: A (najmłodszy), B, C, D, E, F. Oblczena wykonano w programe komputerowym R. Rozkład lczby szkód w analzowanym portfelu przedstawa sę następująco: Lczba szkód Lczba szkód Rozkład lczby szkód Częstość Tabela Średna ekspozycja na ryzyko 0 6 9,9% 0,45 4 6,9% 0,6 7 0,40% 0,7 8 0,0% 0,7 4 0,00% 0,88 Jak wdać, lczba szkód charakteryzuje sę bardzo dużą lczbą zer, gdze 9% pols ne wygenerowało żadnej szkody w portfelu. Wartość warancj przewyższa wartość średnej ndeks nadmernej dyspersj jest na pozome: O = warancja średna = 0,006 średna co oznacza słaby efekt nadmernej dyspersj w portfelu. Do modelowana lczby szkód zastosowano w perwszej kolejnośc regresję Possona. W modelu P badano wpływ poszczególnych zmennych na lczbę szkód: ln λ = β0 + βveh _ body + β veh _ age + βgender + β 4
0 Alcja Wolny-Domnak Model szacowano wykorzystując funkcję glm(){stats}, przyjmując rozkład Possona dla lczby szkód. W perwszej kolejnośc zbadano stotność wpływu poszczególnych zmennych na lczbę szkód. Model P Parametry strukturalne regresj Possona dla modelu P ˆ β Średn błąd szacunku p-wartość Stała,8 0, 0,00 Veh_body 0,95 0,9 0,05 Veh_age 0,04 0,0 0,00 Gender 0,0 0,0 0,79 Agecat 0,08 0,0 0,00 Tabela W modelu P na pozome stotnośc 5% zmenna charakteryzująca płeć jest statystyczne nestotna, dlatego w dalszej analze zmenna ta została usunęta z modelu, pozostałe zmenne ne są skorelowane. Nowy model P przyjął postać: 0 _ ln λ = β + β veh _ body + β veh age + β Uzyskane parametry strukturalne zameszczono w tab.. Realzacje zmennych w modelu P Parametry strukturalne regresj Possona dla modelu P β β e Średn błąd szacunku 4 Stała,5 0,6 0, veh_agea 0,00,00 veh_ageb 0,,4 0,04 veh_agec 0,00,00 0,04 veh_aged 0,08 0,9 0,04 AgecatA 0,00,00 AgecatB 0,7 0,85 0,05 AgecatC 0,0 0,8 0,05 AgecatD 0, 0,80 0,05 AgecatE 0,4 0,65 0,06 Tabela
Modelowane lczby szkód w ubezpeczenach komunkacyjnych cd. tabel 4 AgecatF 0,4 0,65 0,07 veh_body_bus,00,00 veh_body_convt,75 0,7 0,66 veh_body _COUPE 0,75 0,47 0,4 veh_body _HBACK,0 0, 0, veh_body _HDTOP 0,87 0,4 0, veh_body _MCARA 0,46 0,6 0,4 veh_body _MIBUS,5 0, 0,5 veh_body _PANVN 0,84 0,4 0,4 veh_body _RDSTR 0,68 0,5 0,66 veh_body _SEDAN,04 0,5 0, veh_body _STNWG,00 0,7 0, veh_body _TRUCK,04 0,5 0, veh_body _UTE,5 0,9 0, W estymacj parametrów strukturalnych modelu przyjęto zmenne bazowe jako: veh_agea, AgecatA, veh_body_bus. Interpretując uzyskane wynk, na podstawe wartośc parametrów strukturalnych zawartych w tab. można stwerdzć kerunek wpływu zmany weku samochodu, weku kerowcy oraz kształtu samochodu na lczbę szkód na podstawe znaku. Wdać węc, że przy ustalonym układze zmennych bazowych, stopy taryf będą obnżały składkę. W celu określena jednostkowego wpływu zmennych objaśnających na lczbę szkód wyznaczono eksponenty parametrów strukturalnych modelu (w modelu przyjęto logarytmczną funkcję połączena). Wszystke parametry modelu są statystyczne stotne. Równeż test lorazu warygodnośc pokazał, że model jest w całośc statystyczne stotny. W wynku dzałana funkcj lrtest{lmtest} uzyskano bardzo nsk, prawe zerowy pozom p-wartośc. Tabela 4 Test lorazu warygodnośc dla modelu P #Df LogLk Df Chsq Pr(> Chsq) Model P. 809, NA NA NA Model tylko stała 80,5 0 44,589 0,00000
Alcja Wolny-Domnak Do rankngu pols w modelu P wykorzystano parametr λ. Mnmalna ~ wartość tego parametru wynosła λ = 0, 07 jest to kategora pols generująca najmnejszą lczbę szkód: (veh_bodyconvt, veh_aged, F). Klasa pols ~ generująca najwększą lczbę szkód uzyskała λ =, 7 dla kategor (veh_bodyrdstr, veh_ageb, A). Poneważ w analzowanej baze danych występuje duża lczba pols, dla których ne wystąpła żadna szkoda, dalej dokonano szacowana różnorodnych model ZIP analzując wpływ różnych zmennych taryfkacyjnych na wystąpene dużej lczby zer. Do wyboru ostatecznej postac modelu zastosowano procedurę 0-krotnej kroswaldacj. Model ZIP ZIP ZIP ZIP ln λ = β + β veh _ body + β veh _ age + β ZIP ZIP 0 ZIP ln( ) = γ ZIP ZIP 0 Model ZIP ZIP ZIP ZIP ln λ = β + β veh _ body + β veh _ age + β ZIP ZIP 0 ln( ZIP ZIP ) = γ ZIP 0 + γ ZIP veh _ body Model ZIP ZIP ZIP ZIP ln λ = β + β veh _ body + β veh _ age + β ZIP ZIP 0 ln( ZIP ZIP ) = γ ZIP 0 + γ ZIP veh _ body + γ ZIP veh _ age Model ZIP4 4 ZIP4 ZIP 4 ZIP4 ln λ = β + β veh _ body + β veh _ age + β ZIP ZIP 4 0 ln( ) = γ 0 + γ veh_ body + γ
Modelowane lczby szkód w ubezpeczenach komunkacyjnych Model 5 ln λ = β + β veh _ body + β veh _ age + β ZIP 0 ln( ) = γ 0 + γ veh _ age + γ Model ZIP6 6 ZIP6 ZIP6 ZIP6 ln λ = β + β veh _ body + β veh _ age + β ZIP ZIP6 0 ln( ZIP6 ZIP6 ) = γ ZIP6 0 + γ ZIP6 veh _ age Model ZIP7 7 ZIP7 ZIP7 ZIP7 ln λ = β + β veh _ body + β veh _ age + β ZIP ZIP7 0 ln( ZIP7 ZIP7 ) = γ ZIP7 0 + γ ZIP7 Modele szacowano wykorzystując funkcję zeronfl(){pscl} oraz procedurę kroswaldacj zamplementowaną w programe komputerowym R. Kod programu zawarto w załącznku A. Uzyskano następujące całkowte błędy c ν dla analzowanych model: cv = 0, 07796 cv = 0, 07 cv = 0, 07786 cv 4 = 0, 07 cv 5 = 0, 076565 cv 6 = 0, 077 cv 7 = 0, 07665 Wdać zatem, że modelem, który daje najmnejszy błąd c ν jest model, gdze na wystąpene zera wpływa zmenna veh_body ZIP.
4 Alcja Wolny-Domnak Tabela 5 Realzacje zmennych w modelu P Parametry strukturalne modelu ZIP β β e Średn błąd szacunku Stała,7 0,8,5 veh_agea 0,00,00 veh_ageb 0,,4 0,04 veh_agec 0,00,00 0,04 veh_aged 0,08 0,9 0,05 AgecatA 0,00,00 AgecatB 0,7 0,85 0,06 AgecatC 0,0 0,8 0,05 AgecatD 0, 0,80 0,05 AgecatE 0,4 0,65 0,06 AgecatF 0,4 0,65 0,07 veh_body_bus,00,00 veh_body_convt,8 0,6,4 veh_body _COUPE 0, 0,88, veh_body _HBACK 0,84 0,4,6 veh_body _HDTOP 0,96 0,8,5 veh_body _MCARA 0,54 0,58, veh_body _MIBUS 0,87 0,4,5 veh_body _PANVN 0,4 0,79, veh_body _RDSTR,8,96,48 veh_body _SEDAN 0,4 0,7,5 veh_body _STNWG 0,6 0,55,6 veh_body _TRUCK 0,7 0,69,9 veh_body _UTE 0,66 0,5,8 Porównując uzyskane wynk w modelu P oraz modelu ZIP uwzględnającym występowane dużej lczby zer w modelu wdać, że parametry dla zmennej veh_body znaczne sę różną w obu modelach, natomast pozostałe parametry są nezmenne. Wynka to z faktu, ż w procedurze kroswaldacj uzyskano wynk pokazujący, że na generowane przez polsy wartośc zerowe wpływa jedyne kształt samochodu.
Modelowane lczby szkód w ubezpeczenach komunkacyjnych 5 Do rankngu pols w modelu ZIP wykorzystano parametr λ. Mnmalna ~ wartość tego parametru wynosła λ = 0, 07 jest to kategora pols generująca najmnejszą lczbę szkód: (veh_bodyconvt, veh_aged, F). Kategora ~ pols generująca najwększą lczbę szkód uzyskała λ = 0, 95 jest to kategora (veh_bodybus, veh_ageb, A). Szczegółowy rankng zawarto w załącznku B. Podsumowane W pracy przedstawono zmodyfkowaną regresję Possona w przypadku, gdy w danych występuje duża lczba zer dla zmennej lcznkowej jej porównane z klasyczną regresją Possona. Zaproponowano zastosowane k-krotnej kroswaldacj do wyboru czynnków wpływających na generowane przez polsy zerowych lczb szkód. Dodatkowo wyznaczając odpowedne parametry rozkładu stworzono rankng pols według kategor zmennych taryfkacyjnych. Zastosowane rankngu w praktyce pozwala na sklasyfkowane nowo zaweranej polsy do odpowednej grupy taryfkacyjnej. Zasadnczą wadą klasycznej regresj Possona, jak równeż model ZIP jest fakt, ż w danej klase pols wszystke polsy charakteryzują sę taką samą oczekwaną lczbą szkód, co jest założenem mało realnym. Rozwązanem tego problemu jest przejśce do meszanego modelu Possona wprowadzając czynnk losowy różncujący polsy.
6 Alcja Wolny-Domnak Implementacja procedury kroswaldacj w programe komputerowym R Załącznk A lbrary(pscl) car=read.csv(fle="c:/car.csv") K=0 optons(outdec=",") mse.cv=functon(dataset, model, K=0){ cvseg=c() set.seed() cvseg=cvsegments(nrow(dataset), K) ModelMSE=c() for ( n :K) { valdset=null valdset=eval(parse(text=paste("cvseg$v",, sep=""))) datasettrancv= NULL; datasetvaldcv= NULL datasettrancv= dataset[-valdset,] datasetvaldcv= dataset[valdset,] Formula=model$formula Model.na.cv=NULL Model.na.cv=zeronfl(formula = Formula, data=datasettrancv) datasetvaldcv.bez.y=null datasetvaldcv.bez.y= subset(datasetvaldcv, select=c(veh_body, veh_age, )) pred.vald=null pred.vald=predct(model.na.cv, datasetvaldcv.bez.y) MSE.vald=NULL MSE.vald=sum((datasetValdCV$numclamspred.vald)^)/length(pred.vald) ModelMSE=c(ModelMSE, MSE.vald) } MSE.CV=NULL MSE.CV=mean(ModelMSE) mse.cv.glm=functon(dataset, model, K=0){ cvseg=c() set.seed() cvseg=cvsegments(nrow(dataset), K) ModelMSE=c() for ( n :K) { valdset=null valdset=eval(parse(text=paste("cvseg$v",, sep=""))) datasettrancv= NULL; datasetvaldcv= NULL
Modelowane lczby szkód w ubezpeczenach komunkacyjnych 7 datasettrancv= dataset[-valdset,] datasetvaldcv= dataset[valdset,] Formula=model$formula Model.na.cv=NULL Model.na.cv=glm(formula = Formula, famly=posson, data=datasettrancv) datasetvaldcv.bez.y=null datasetvaldcv.bez.y= subset(datasetvaldcv, select=c(veh_body, veh_age, )) pred.vald=null pred.vald=predct(model.na.cv, datasetvaldcv.bez.y) MSE.vald=NULL MSE.vald=sum((datasetValdCV$numclamspred.vald)^)/length(pred.vald) ModelMSE=c(ModelMSE, MSE.vald) } MSE.CV=NULL MSE.CV=mean(ModelMSE) g=glm(formula=numclams ~ veh_body+veh_age+, famly=posson, data=car) z=zeronfl(formula = numclams ~ veh_body+veh_age+, data = car) z.mse=null z.mse=mse.cv(dataset=car, model=z, K=0) z=zeronfl(formula = numclams ~ veh_body+veh_age+ veh_body, data = car) z.mse=null z.mse=mse.cv(dataset=car, model=z, K=0) z=zeronfl(formula = numclams ~ veh_body+veh_age+ veh_body+veh_age, data = car) z.mse=null z.mse=mse.cv(dataset=car, model=z4, K=0) z4=zeronfl(formula = numclams ~ veh_body+veh_age+ veh_body+, data = car) z4.mse=null z4.mse=mse.cv(dataset=car, model=z5, K=0) z5=zeronfl(formula = numclams ~ veh_body+veh_age+ veh_age+, data = car) z5.mse=null z5.mse=mse.cv(dataset=car, model=z6, K=0) z6=zeronfl(formula = numclams ~ veh_body+veh_age+ veh_age, data = car) z6.mse=null z6.mse=mse.cv(dataset=car, model=z7, K=0) z7=zeronfl(formula = numclams ~ veh_body+veh_age+, data = car) z7.mse=null z7.mse=mse.cv(dataset=car, model=z8, K=0)
8 Alcja Wolny-Domnak Załącznk B Rankng pols ze względu na kategorę zmennych taryfkacyjnych w modelu ZIP Kształt samochodu Wek samochodu Wek kerowcy λ ~ veh_bodysedan veh_aged F 0,0550 veh_bodysedan veh_aged E 0,0556 veh_bodysedan veh_agea F 0,0596 veh_bodysedan veh_agec F 0,0596 veh_bodysedan veh_agea E 0,060 veh_bodysedan veh_agec E 0,060 veh_bodysedan veh_aged D 0,067 veh_bodysedan veh_ageb F 0,0679 veh_bodysedan veh_ageb E 0,0686 veh_bodysedan veh_aged C 0,069 veh_bodysedan veh_aged B 0,074 veh_bodysedan veh_agea D 0,078 veh_bodysedan veh_agec D 0,078 veh_bodysedan veh_agea C 0,0750 veh_bodysedan veh_agec C 0,0750 veh_bodysedan veh_agea B 0,077 veh_bodysedan veh_agec B 0,077 veh_bodysedan veh_ageb D 0,089 veh_bodysedan veh_aged A 0,0846 veh_bodysedan veh_ageb C 0,0854 veh_bodysedan veh_ageb B 0,0880 veh_bodysedan veh_agea A 0,096 veh_bodysedan veh_agec A 0,096 veh_bodysedan veh_ageb A 0,044
Modelowane lczby szkód w ubezpeczenach komunkacyjnych 9 Lteratura. de Jong P., Heller G.Z., Generalzed Lnear Models for Insurance Data, Cambrdge Unversty Press 008.. Denut M., Marechal X., Ptrebos S., Walhn J., Actuaral Modellng of Clams Counts, John Wley & Sons Ltd, 007.. Gatnar E., Podejśce welomodelowe w zagadnenach dyskrymnacj regresj, Wydawnctwo Naukowe PWN, Warszawa 008. 4. Kopczewska K., Kopczewsk T., Wójck P., Metody loścowe w R. Aplkacje ekonomczne fnansowe, CeDeWu, Warszawa 009. 5. Lambert D., Zero-Inflated Posson Regresson, wth an Applcaton to Defects n Manufacturng, Technometrcs 99, Vol. 4, No.. MODELING THE NUMBER OF CLAIMS IN MOTOR INSURANCE IN CASE OF A LARGE NUMBER OF ZEROS USING THE PATCH VALIDATION PROCEDURES Summary The problem n the analyss of nsurance data s modelng the number of clams occurrng n a gven portfolo polcy usng regresson assumng a Posson dstrbuton whch s not always justfed, snce sometmes the data contans a large number of zeros. Ths paper presents a generalzed Posson regresson for the counter varable and a modfed verson of Posson regresson takng nto account the stuaton of the presence of a large number of zeros n the data (called zero-nflated Posson regresson). Varous types were analyzed n order to determne whch varables nfluence the occurrence tarfcaton zeros n the portfolo polcy usng the procedure 0 tmes the patch valdaton. The result s rankng for classfcaton polces because of the number of generated damage.