Tvorba optimálních sazeb v neživotním pojištění Martin Branda Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky Seminář z aktuárských věd 2013 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 1 / 115
http://artax.karlin.mff.cuni.cz/ branm1am/výuka M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 2 / 115
Obsah 1 Úvod 2 Data Rodina exponenciálních rozdělení Odhad parametrů Kvalita modelu a testování hypotéz 3 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod 4 Optimální sazbování v neživotním pojištění Přístup založený na GLM Optimalizační přístup deterministický Optimalizační přístup stochastický 5 Reference 6 Dodatek M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 3 / 115
Obsah Úvod 1 Úvod 2 Data Rodina exponenciálních rozdělení Odhad parametrů Kvalita modelu a testování hypotéz 3 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod 4 Optimální sazbování v neživotním pojištění Přístup založený na GLM Optimalizační přístup deterministický Optimalizační přístup stochastický 5 Reference 6 Dodatek M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 4 / 115
Cíle Úvod Dnes: Roční nettopojistné = očekávaný úhrn škod na smlouvě během jednoho roku. Příště: Multiplikativní sazebník = výsledná sazba pokrývá nettopojistné a náklady, je složena jako součin základní sazby a přirážek dle zvolených kritéríı. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 5 / 115
Úvod Data-mining, operační výzkum Data-mining - získávání netriviálních skrytých a potenciálně užitečných informací z (rozsáhlých) dat. Operační výzkum - pochopení a popis reálného problému pomocí vhodného matematického (pravděpodobnostního, statistického) modelu a jeho optimalizace, tj. nastavení parametrů vedoucí k žádané maximalizaci/minimalizaci sledovaného výstupu za daných omezení. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 6 / 115
Obsah 1 Úvod 2 Data Rodina exponenciálních rozdělení Odhad parametrů Kvalita modelu a testování hypotéz 3 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod 4 Optimální sazbování v neživotním pojištění Přístup založený na GLM Optimalizační přístup deterministický Optimalizační přístup stochastický 5 Reference 6 Dodatek M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 7 / 115
Aplikace zobecněných lineárních modelů v (neživotním) pojišťovnictví, Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): očekávaný počet pojistných událostí, škodní frekvence, rezervování pomocí vývojových trojúhelníků škod. Gamma regrese: očekávaná výše pojistné události, průměrná očekávaná výše pojistné události. Analýza přežití: očekávaná doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 8 / 115
Aplikace zobecněných lineárních modelů v (neživotním) pojišťovnictví, Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): očekávaný počet pojistných událostí, škodní frekvence, rezervování pomocí vývojových trojúhelníků škod. Gamma regrese: očekávaná výše pojistné události, průměrná očekávaná výše pojistné události. Analýza přežití: očekávaná doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 8 / 115
Aplikace zobecněných lineárních modelů v (neživotním) pojišťovnictví, Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): očekávaný počet pojistných událostí, škodní frekvence, rezervování pomocí vývojových trojúhelníků škod. Gamma regrese: očekávaná výše pojistné události, průměrná očekávaná výše pojistné události. Analýza přežití: očekávaná doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 8 / 115
Aplikace zobecněných lineárních modelů v (neživotním) pojišťovnictví, Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): očekávaný počet pojistných událostí, škodní frekvence, rezervování pomocí vývojových trojúhelníků škod. Gamma regrese: očekávaná výše pojistné události, průměrná očekávaná výše pojistné události. Analýza přežití: očekávaná doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 8 / 115
Aplikace zobecněných lineárních modelů v (neživotním) pojišťovnictví, Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): očekávaný počet pojistných událostí, škodní frekvence, rezervování pomocí vývojových trojúhelníků škod. Gamma regrese: očekávaná výše pojistné události, průměrná očekávaná výše pojistné události. Analýza přežití: očekávaná doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 8 / 115
Reference Zápisky z přednášky (NSTP196), MFF UK, přednášející Doc. Mgr. Michal Kulich, Ph.D. M. Denuit, X. Maréchal, S. Pitrebois, J.-F. Walhin: Actuarial Modelling of Claim Counts: Risk Classification, Credibility and Bonus-Malus Systems. John Wiley & Sons, Chichester, 2007. P. McCullagh, J.A. Nelder: Generalized Linear Models. 2nd Ed. Chapman and Hall, London, 1989. P. de Jong, G. Z. Heller: Generalized Linear Models for Insurance Data. Cambridge University Press 2008. SAS/STAT 9.3: User s Guide. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 9 / 115
Reference Zápisky z přednášky (NSTP196), MFF UK, přednášející Doc. Mgr. Michal Kulich, Ph.D. M. Denuit, X. Maréchal, S. Pitrebois, J.-F. Walhin: Actuarial Modelling of Claim Counts: Risk Classification, Credibility and Bonus-Malus Systems. John Wiley & Sons, Chichester, 2007. P. McCullagh, J.A. Nelder: Generalized Linear Models. 2nd Ed. Chapman and Hall, London, 1989. P. de Jong, G. Z. Heller: Generalized Linear Models for Insurance Data. Cambridge University Press 2008. SAS/STAT 9.3: User s Guide. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 9 / 115
Software SAS: GENMOD Statistica: Generalized Linear Models (GLZ) IBM SPSS: GENLIN (ne GLM!!!) Mathematica: GeneralizedLinearModelFit R: glm... M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 10 / 115
Data Data Závisle proměnná (odezva): Y = (Y 1,..., Y n ) Nezávisle proměnné (prediktory, regresory): x i = (X i1,..., X im ) X 11..., X 1m X =.. X n1..., X nm Předpokládáme, že matice má plnou sloupcovou hodnost. Kvantitativní proměnné - např. věk, počet aktivních smluv, počet najetých kilometrů,... Často jsou kategorizovány kvůli nevhodnému rozdělení, odlehlým pozorováním nebo nelineritě vztahu mezi jimi a závisle proměnnou. Kvalitativní (kategoriální) proměnné - kódovány pomocí 0-1 dummy proměnných, např. pohlaví, region (kraj, okres),... Interakce - odlišný vliv regresoru pro různé kategorie jiného kategoriálního regresoru. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 11 / 115
Data Data Závisle proměnná (odezva): Y = (Y 1,..., Y n ) Nezávisle proměnné (prediktory, regresory): x i = (X i1,..., X im ) X 11..., X 1m X =.. X n1..., X nm Předpokládáme, že matice má plnou sloupcovou hodnost. Kvantitativní proměnné - např. věk, počet aktivních smluv, počet najetých kilometrů,... Často jsou kategorizovány kvůli nevhodnému rozdělení, odlehlým pozorováním nebo nelineritě vztahu mezi jimi a závisle proměnnou. Kvalitativní (kategoriální) proměnné - kódovány pomocí 0-1 dummy proměnných, např. pohlaví, region (kraj, okres),... Interakce - odlišný vliv regresoru pro různé kategorie jiného kategoriálního regresoru. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 11 / 115
Předpoklady Data Rozdělení Y i závisí na x i. Pozorování (Y i, x i ) jsou nezávislá. Pozorování Y i jsou nezávislá a x i jsou měřené konstanty - budeme nadále uvažovat. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 12 / 115
Data V databázi/vytořena nad databází Data Y Data Počet škod Pohlaví Počet obyvatel Věk (v letech) 2 muž 15 423 21 0 muž 1 205 321 44 1 žena 20 893 35 0 žena 580 51....... M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 13 / 115
Data Bez absolutního členu Data Y Data Počet škod Pohlaví Region Věk žena muž velká malá venkov (v letech) města města 2 0 1 0 1 0 21 0 0 1 1 0 0 44 1 1 0 0 1 0 35 0 1 0 0 0 1 51.......... M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 14 / 115
Data S absolutním členem Data Y Počet škod Abs.člen Pohlaví Region Věk žena velká malá (v letech) města města 2 1 0 0 1 21 0 1 0 1 0 44 1 1 1 0 1 35 0 1 1 0 0 51... X...... M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 15 / 115
Chybějící hodnoty v datech Data Chybějící hodnoty: V závisle proměnné - pozorování obvykle vypadnou z odhadu modelu, je však možné dopočítat očekávanou odezvu. V nezávisle proměnných Kvantitativní - nahrazení chybějících hodnot, např. průměrem nebo pomocí sofistikovanějších metod 1. Kvalitativní (kategoriální) - vytvoření speciální kategorie. 1 Klasifikační nebo regresní stromy apod. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 16 / 115
Chybějící hodnoty v datech Data Chybějící hodnoty: V závisle proměnné - pozorování obvykle vypadnou z odhadu modelu, je však možné dopočítat očekávanou odezvu. V nezávisle proměnných Kvantitativní - nahrazení chybějících hodnot, např. průměrem nebo pomocí sofistikovanějších metod 1. Kvalitativní (kategoriální) - vytvoření speciální kategorie. 1 Klasifikační nebo regresní stromy apod. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 16 / 115
Příklad: Poissonovská regrese Regresní model počtu pojistných událostí Data Model očekávaného počtu pojistných událostí na smlouvě během jednoho roku v závislosti na tarifní skupině dle objemu motoru (TS): 5 kategoríı (do 1000, do 1350, do 1850, do 2500, nad 2500 ccm) stáří pojistníka kategorizované (vek): 3 kategorie (18-30, 30-65, 65 a více) pohlaví (pohlavi): 2 kategorie (1 - žena, 2 - muž) M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 17 / 115
Tři stavební elementy Data 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, ϕ) = exp + c(y, ϕ), y R, ϕ pro známé funkce b, c a neznámé parametry kanonický θ i a disperzní ϕ (jedna z možných parametrizací hustoty!). 2) Lineární prediktor m η i = X ij β j = x iβ, j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) E[Y i ] = µ i = g 1 (η i ). M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 18 / 115
Tři stavební elementy Data 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, ϕ) = exp + c(y, ϕ), y R, ϕ pro známé funkce b, c a neznámé parametry kanonický θ i a disperzní ϕ (jedna z možných parametrizací hustoty!). 2) Lineární prediktor m η i = X ij β j = x iβ, j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) E[Y i ] = µ i = g 1 (η i ). M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 18 / 115
Tři stavební elementy Data 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, ϕ) = exp + c(y, ϕ), y R, ϕ pro známé funkce b, c a neznámé parametry kanonický θ i a disperzní ϕ (jedna z možných parametrizací hustoty!). 2) Lineární prediktor m η i = X ij β j = x iβ, j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) E[Y i ] = µ i = g 1 (η i ). M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 18 / 115
Srovnání regresních modelů Data Lineární regrese Zobecněný lineární model Rozdělení: Y i N(µ i, σ 2 ) Y i EF(θ i, ϕ) Závislost: E[Y i ] = x i β E[Y i] = g 1 (x i β) Rozpyl: vary i = σ 2 vary i = ϕv (µ i ) M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 19 / 115
Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Pro náhodnou veličinu Y patřící do rodiny exponenciálních rozdělení s hustotou { } yθi b(θ i ) f (y; θ i, ϕ) = exp + c(y, ϕ), y R, (1) ϕ platí: Je-li b dvakrát spojitě diferencovatelná, potom E[Y ] = b (θ), var(y ) = ϕb (θ). Pomocí rozptylové funkce V (µ) = b [(b ) 1 (µ)] můžeme vztah pro rozptyl přepsat var(y ) = ϕv (µ). M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 20 / 115
Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení zahrnuje: Normální, gamma, inverzní Gaussovo, Poissonovo, alternativní, Chí-kvadrát, exponenciální, binomické, geometrické, multinomické, beta, se známým parametrem: Weibullovo, negativně binomické, Paretovo. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 21 / 115
Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení zahrnuje: Normální, gamma, inverzní Gaussovo, Poissonovo, alternativní, Chí-kvadrát, exponenciální, binomické, geometrické, multinomické, beta, se známým parametrem: Weibullovo, negativně binomické, Paretovo. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 21 / 115
Normální rozdělení Rodina exponenciálních rozdělení Y N(µ, σ 2 ): Pro y R } f (y; µ, σ 2 1 (y µ)2 ) = exp { 2πσ 2σ 2 b(θ) {}}{ yµ µ 2 /2 = exp }{{} σ 2 y 2 2σ 2 1 2 log(2πσ2 ), }{{} ϕ kde θ = µ, b(θ) = µ 2 /2 a ϕ = σ 2. EY = b (θ) = µ c(y,ϕ) var(y ) = ϕb (θ) = σ 2, tj. rozptyl nezávisí na střední hodnotě V (µ) = 1. (jediné takové exponenciální rozdělení) M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 22 / 115
Normální rozdělení Rodina exponenciálních rozdělení Y N(µ, σ 2 ): Pro y R } f (y; µ, σ 2 1 (y µ)2 ) = exp { 2πσ 2σ 2 b(θ) {}}{ yµ µ 2 /2 = exp }{{} σ 2 y 2 2σ 2 1 2 log(2πσ2 ), }{{} ϕ kde θ = µ, b(θ) = µ 2 /2 a ϕ = σ 2. EY = b (θ) = µ c(y,ϕ) var(y ) = ϕb (θ) = σ 2, tj. rozptyl nezávisí na střední hodnotě V (µ) = 1. (jediné takové exponenciální rozdělení) M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 22 / 115
Normální rozdělení Hustoty Rodina exponenciálních rozdělení N(0,1), N(0,2), N(0,4) 0.4 0.3 0.2 0.1 15 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 23 / 115
Gamma rozdělení Rodina exponenciálních rozdělení Y Γ(a, p): Pro 0 < y < f (y; a, p) = ap Γ(p) y p 1 exp { ay} = exp {(p 1) log y ay + p log a log Γ(p)} { y( a/p) + log a/p = exp 1/p +p log p log Γ(p) + (p 1) log y} kde θ = a/p, ϕ = 1/p, b(θ) = log( θ). EY = b (θ) = 1/θ = p/a = µ var(y ) = ϕb (θ) = p/a 2 = µ 2 /p, tj. rozptyl závisí na střední hodnotě V (µ) = µ 2. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 24 / 115
Gamma rozdělení Rodina exponenciálních rozdělení Y Γ(a, p): Pro 0 < y < f (y; a, p) = ap Γ(p) y p 1 exp { ay} = exp {(p 1) log y ay + p log a log Γ(p)} { y( a/p) + log a/p = exp 1/p +p log p log Γ(p) + (p 1) log y} kde θ = a/p, ϕ = 1/p, b(θ) = log( θ). EY = b (θ) = 1/θ = p/a = µ var(y ) = ϕb (θ) = p/a 2 = µ 2 /p, tj. rozptyl závisí na střední hodnotě V (µ) = µ 2. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 24 / 115
Gamma rozdělení Parametrizace v SASu Rodina exponenciálních rozdělení Y Γ(µ, ν): Pro 0 < y < f (y; µ, ν) = 1 Γ(ν)y ( ) yν ν { exp yν }, µ µ kde a = ν/µ a p = ν, ϕ = ν 1, var(y ) = µ 2 /ν M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 25 / 115
Gamma rozdělení Hustoty Rodina exponenciálních rozdělení Gamma(2,2), Gamma(4,2), Gamma(6,2) 0.15 0.10 0.05 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 26 / 115
Inverzní Gaussovo rozdělení Rodina exponenciálních rozdělení Y IG(µ, λ): Pro 0 < y < } λ f (y; µ, λ) = { 2πy 3 exp λ(y µ)2 2µ 2 y { λy 2 = exp 2µ 2 y + λµy µ 2 y λµ2 2µ 2 y + 1 2 log λ 1 } 3 log 2πy 2 { y/( 2µ 2 ) + 1/µ = exp λ 1/λ 2y + 1 2 log λ 1 } 2 log 2πy 3, kde θ = 1/(2µ 2 ), b(θ) = 2θ a ϕ = 1/λ. EY = b (θ) = 1/ 2θ = ( 2θ) 1/2 = µ var(y ) = ϕb (θ) = ( 2θ) 3/2 /λ = µ 3 /λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ 3. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 27 / 115
Inverzní Gaussovo rozdělení Rodina exponenciálních rozdělení Y IG(µ, λ): Pro 0 < y < } λ f (y; µ, λ) = { 2πy 3 exp λ(y µ)2 2µ 2 y { λy 2 = exp 2µ 2 y + λµy µ 2 y λµ2 2µ 2 y + 1 2 log λ 1 } 3 log 2πy 2 { y/( 2µ 2 ) + 1/µ = exp λ 1/λ 2y + 1 2 log λ 1 } 2 log 2πy 3, kde θ = 1/(2µ 2 ), b(θ) = 2θ a ϕ = 1/λ. EY = b (θ) = 1/ 2θ = ( 2θ) 1/2 = µ var(y ) = ϕb (θ) = ( 2θ) 3/2 /λ = µ 3 /λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ 3. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 27 / 115
Inverzní Gaussovo rozdělení Hustoty Rodina exponenciálních rozdělení IG(5,1), IG(5,5), IG(5,30) 0.5 0.4 0.3 0.2 0.1 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 28 / 115
Poissonovo rozdělení Rodina exponenciálních rozdělení Y Po(λ): Pro y = 0, 1, 2,... f (y; λ) = λy e λ y! { y log λ λ = exp 1 kde θ = log λ, b(θ) = e θ a ϕ = 1. EY = b (θ) = e θ = λ. } log y!, var(y ) = ϕb (θ) = e θ = λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 29 / 115
Poissonovo rozdělení Rodina exponenciálních rozdělení Y Po(λ): Pro y = 0, 1, 2,... f (y; λ) = λy e λ y! { y log λ λ = exp 1 kde θ = log λ, b(θ) = e θ a ϕ = 1. EY = b (θ) = e θ = λ. } log y!, var(y ) = ϕb (θ) = e θ = λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 29 / 115
Poissonovo rozdělení Hustoty Rodina exponenciálních rozdělení Po(3), Po(10), Po(20) 0.20 0.15 0.10 0.05 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 30 / 115
Alternativní rozdělení Rodina exponenciálních rozdělení Y Alt(p): Pro y {0, 1} kde θ = log f (y; p) = p y (1 p) 1 y { } y log p 1 p + log(1 p) = exp + 0, 1 p 1 p, b(θ) = log(1 + eθ ) a ϕ = 1. EY = b (θ) = eθ = p. 1+e θ var(y ) = ϕb (θ) = p(1 p), tj. rozptyl závisí na střední hodnotě V (µ) = µ(1 µ). M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 31 / 115
Alternativní rozdělení Rodina exponenciálních rozdělení Y Alt(p): Pro y {0, 1} kde θ = log f (y; p) = p y (1 p) 1 y { } y log p 1 p + log(1 p) = exp + 0, 1 p 1 p, b(θ) = log(1 + eθ ) a ϕ = 1. EY = b (θ) = eθ = p. 1+e θ var(y ) = ϕb (θ) = p(1 p), tj. rozptyl závisí na střední hodnotě V (µ) = µ(1 µ). M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 31 / 115
Rodina exponenciálních rozdělení e θ 1+e θ 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 32 / 115
Přehled rozdělení Rodina exponenciálních rozdělení Rozdělení Hustota Disperze Kanonický Střední Rozptylová ϕ link θ(µ) hodnota µ(θ) funkce V (µ) N(µ, σ 2 ) 1 2πσ e (y µ)2 2σ 2 σ 2 µ θ 1 Po(µ) Γ(µ, ν) IG(µ, λ) 1 Γ(ν)y µ y e µ y! 1 log(µ) e θ µ ( ) ν yν µ e yν µ 1 1 1 µ 2 ν µ θ λ e 2πy 3 λ(y µ) 2 2µ 2 y 1 λ 1 2µ 2 1 2θ µ 3 Alt(µ) µ y (1 µ) 1 y 1 log µ 1 µ e θ 1+e θ µ(1 µ) Kanonický link zjednodušuje některé výpočty a dosažení teoretických výsledků. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 33 / 115
Srovnání regresních modelů Rodina exponenciálních rozdělení Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 34 / 115
Linkové funkce Rodina exponenciálních rozdělení identita: g(µ) = µ logaritmus: g(µ) = log(µ) logit: g(µ) = log(µ/(1 µ)) probit: g(µ) = Φ 1 (µ), kde Φ je distribuční funkce standardního normálního rozdělení M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 35 / 115
Porovnání inverzí linků Rodina exponenciálních rozdělení Logit (modrá), Probit (červená) 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 36 / 115
Srovnání regresních modelů Rodina exponenciálních rozdělení Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 37 / 115
Rozdělení a rozptylové funkce Rodina exponenciálních rozdělení Rozptylová funkce zachycuje vztah mezi střední hodnotou a rozptylem, zároveň jednoznačně určuje rozdělení: normální: V (µ) = 1 Poissonovo: V (µ) = µ gamma: V (µ) = µ 2 inverzní Gaussovo: V (µ) = µ 3 binomické: V (µ) = µ(1 µ) složené Poisson-gamma rozdělení (podmnožina Tweedie): V (µ) = µ p, p (1, 2) M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 38 / 115
Srovnání regresních modelů Rodina exponenciálních rozdělení Lineární regrese Rozdělení: normální Y i N(µ i, σ 2 ) Střední hodnota: EY i = µ i Linková funkce: identita g(µ) = µ Rozptylová funkce: V (µ) = 1 Disperzní parametr: ϕ = σ 2 Poissonovská regrese Rozdělení: Poissonovo Y i Po(λ i ) Střední hodnota: EY i = λ i Linková funkce: g(µ) = log(µ) Rozptylová funkce: V (µ) = µ Disperzní parametr: ϕ = 1 Logistická regrese Rozdělení: binomické (alternativní): Y i Alt(p i ) Střední hodnota: EY i = p i Linková funkce: logit g(µ) = log(µ/(1 µ)) Rozptylová funkce: V (µ) = µ(1 µ) Disperzní parametr: ϕ = 1 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 39 / 115
Srovnání regresních modelů Rodina exponenciálních rozdělení Lineární regrese Rozdělení: normální Y i N(µ i, σ 2 ) Střední hodnota: EY i = µ i Linková funkce: identita g(µ) = µ Rozptylová funkce: V (µ) = 1 Disperzní parametr: ϕ = σ 2 Poissonovská regrese Rozdělení: Poissonovo Y i Po(λ i ) Střední hodnota: EY i = λ i Linková funkce: g(µ) = log(µ) Rozptylová funkce: V (µ) = µ Disperzní parametr: ϕ = 1 Logistická regrese Rozdělení: binomické (alternativní): Y i Alt(p i ) Střední hodnota: EY i = p i Linková funkce: logit g(µ) = log(µ/(1 µ)) Rozptylová funkce: V (µ) = µ(1 µ) Disperzní parametr: ϕ = 1 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 39 / 115
Srovnání regresních modelů Rodina exponenciálních rozdělení Lineární regrese Rozdělení: normální Y i N(µ i, σ 2 ) Střední hodnota: EY i = µ i Linková funkce: identita g(µ) = µ Rozptylová funkce: V (µ) = 1 Disperzní parametr: ϕ = σ 2 Poissonovská regrese Rozdělení: Poissonovo Y i Po(λ i ) Střední hodnota: EY i = λ i Linková funkce: g(µ) = log(µ) Rozptylová funkce: V (µ) = µ Disperzní parametr: ϕ = 1 Logistická regrese Rozdělení: binomické (alternativní): Y i Alt(p i ) Střední hodnota: EY i = p i Linková funkce: logit g(µ) = log(µ/(1 µ)) Rozptylová funkce: V (µ) = µ(1 µ) Disperzní parametr: ϕ = 1 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 39 / 115
Parametrizace Rodina exponenciálních rozdělení η = x β η = g(µ) µ = b (θ) β η µ θ µ = g 1 (η) θ = (b ) 1 (µ) Kanonický link splňuje g(µ) = θ, tedy musí platit g(µ) = (b ) 1 (µ) a také g (µ) = 1 V (µ). M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 40 / 115
Offset Rodina exponenciálních rozdělení Offset Člen v lineárním prediktoru s pevně daným koeficientem. Využití: Korekce modelu s ohledem na expozici v riziku (počet rizik, délka platnosti smlouvy). Například pro expozici n i (část roku) i tého řádku a logaritmický link položíme η i = ln n i + x iβ, µ i = e η i = n i e x i β. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 41 / 115
Váhy pozorování Rodina exponenciálních rozdělení Při zahrnutí apriorních vah pozorování w platí E[Y ] = b (θ), var(y ) = ϕb (θ) = w ϕv (µ) w. Využití: Modelování očekávané průměrné výše škody (w = počet škod) nebo škodní frekvence (w = délka expozice). M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 42 / 115
Poissonovská regrese Rodina exponenciálních rozdělení Závisle proměnná : počet pojistných událostí na smlouvě za 1 rok Nezávisle proměnné : viz data Rozdělení : Poissonovo Y i Po(λ i ) Střední hodnota: EY i = λ i Linková funkce : g(µ) = log(µ) Rozptylová funkce: V (µ) = µ Disperzní parametr: ϕ = 1 Offset : logaritmus doby platnosti smlouvy stačí zadat softwaru, ostatní je již určeno Využití: modelování (odhad) očekávaného počtu pojistných událostí během daného období, obvykle jednoho roku M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 43 / 115
Syntax v SASu Rodina exponenciálních rozdělení M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 44 / 115
Odhad parametrů Věrohodnostní funkce Odhad parametrů Y i f (y; θ i, ϕ) nezávislé, věrohodnostní funkce n L(Y; β, ϕ) = f (Y i ; θ i, ϕ) a logaritmická věrohodnostní funkce i=1 l(y; β, ϕ) = n log(f (Y i ; θ i, ϕ)) = i=1 n i=1 Y i θ i b(θ i ) ϕ + c(y i, ϕ), kde hustota závisí na prediktorech skrze vztah θ i = (b ) 1 (g 1 (x iβ)). M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 45 / 115
Parametrizace Odhad parametrů η = x β η = g(µ) µ = b (θ) β η µ θ µ = g 1 (η) θ = (b ) 1 (µ) M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 46 / 115
Derivace věrohodnostní funkce Odhad parametrů l β j = n i=1 log f θ i θ i µ i µ i η i η i β j = n i=1 (Y i µ i )X ij g (µ i )ϕv (µ i ), kde f = Y i b (θ i ) = Y i µ i, θ i ϕ ϕ θ i 1 = µ i b (θ i ) = 1 V (µ i ), µ i 1 = η i g (µ i ), η i = X ij. β j M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 47 / 115
Odhad parametrů Odhad parametrů Metoda maximální věrohodnosti - maximalizace věrohodnostní funkce (index k značí iteraci): Metoda iterativních vážených nejmenších čtverců ˆβ (k) = (X W (k 1) X) 1 X W (k 1) Z (k 1). kde W je váhová matice a Z je linearizovaná odezva. Iterační Newtonův-Raphsonův algoritmus ˆβ (k) = ˆβ (k 1) (H (k 1) ) 1 (k 1), kde značí gradient logaritmické věrohodnostní funkce a H Hessovu matici. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 48 / 115
Odhad parametrů Odhad parametrů Metoda maximální věrohodnosti - maximalizace věrohodnostní funkce (index k značí iteraci): Metoda iterativních vážených nejmenších čtverců ˆβ (k) = (X W (k 1) X) 1 X W (k 1) Z (k 1). kde W je váhová matice a Z je linearizovaná odezva. Iterační Newtonův-Raphsonův algoritmus ˆβ (k) = ˆβ (k 1) (H (k 1) ) 1 (k 1), kde značí gradient logaritmické věrohodnostní funkce a H Hessovu matici. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 48 / 115
Odhad parametrů Odhad parametrů Metoda maximální věrohodnosti - maximalizace věrohodnostní funkce (index k značí iteraci): Metoda iterativních vážených nejmenších čtverců ˆβ (k) = (X W (k 1) X) 1 X W (k 1) Z (k 1). kde W je váhová matice a Z je linearizovaná odezva. Iterační Newtonův-Raphsonův algoritmus ˆβ (k) = ˆβ (k 1) (H (k 1) ) 1 (k 1), kde značí gradient logaritmické věrohodnostní funkce a H Hessovu matici. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 48 / 115
Poissonovská regrese Analýza odhadů parametrů Odhad parametrů Par. DF Odhad Stand. Waldovy Chí-kv. Pr > ChíKv chyba meze intrv. spol. Int 0 0.0000 0.0000 0.0000 0.0000.. TS 1 1-2.9646 0.0521-3.0666-2.8625 3243.56 <.0001 TS 2 1-2.9421 0.0517-3.0435-2.8407 3235.33 <.0001 TS 3 1-2.9016 0.0512-3.0019-2.8013 3216.13 <.0001 TS 4 1-2.7451 0.0490-2.8411-2.6491 3141.87 <.0001 TS 5 1-2.7284 0.0488-2.8240-2.6329 3131.40 <.0001 vek 1 1 0.5700 0.0426 0.4865 0.6535 178.95 <.0001 vek 2 1 0.2183 0.0456 0.1289 0.3076 22.94 <.0001 vek 3 0 0.0000 0.0000 0.0000 0.0000.. pohlavi 1 1-0.2278 0.0342-0.2948-0.1607 44.32 <.0001 pohlavi 2 0 0.0000 0.0000 0.0000 0.0000.. Škála 0 1.0000 0.0000 1.0000 1.0000 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 49 / 115
Interpretace parametrů Odhad parametrů TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 1 (žena) η = 2.9646 + 0.5700 0.2278 = 2.6224 µ = exp{ 2.9646 + 0.5700 0.2278} = exp{ 2.6224} = 0.0516 1.7683 0.7963 = 0.0726. Pravděpodobnosti v Poissonově rozdělení s parametrem λ = 0.0726 P(Y = 0) = 0, 9300 P(Y = 1) = 0, 0675 P(Y = 2) = 0, 0025 P(Y = 3) = 5, 93 10 5 P(Y = 4) = 1, 07 10 6... 100 identických smluv platných 1 rok - očekáváme 7.26 škody za rok M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 50 / 115
Interpretace parametrů Odhad parametrů TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 1 (žena) η = 2.9646 + 0.5700 0.2278 = 2.6224 µ = exp{ 2.9646 + 0.5700 0.2278} = exp{ 2.6224} = 0.0516 1.7683 0.7963 = 0.0726. Pravděpodobnosti v Poissonově rozdělení s parametrem λ = 0.0726 P(Y = 0) = 0, 9300 P(Y = 1) = 0, 0675 P(Y = 2) = 0, 0025 P(Y = 3) = 5, 93 10 5 P(Y = 4) = 1, 07 10 6... 100 identických smluv platných 1 rok - očekáváme 7.26 škody za rok M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 50 / 115
Interpretace parametrů Odhad parametrů TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 1 (žena) η = 2.9646 + 0.5700 0.2278 = 2.6224 µ = exp{ 2.9646 + 0.5700 0.2278} = exp{ 2.6224} = 0.0516 1.7683 0.7963 = 0.0726. Pravděpodobnosti v Poissonově rozdělení s parametrem λ = 0.0726 P(Y = 0) = 0, 9300 P(Y = 1) = 0, 0675 P(Y = 2) = 0, 0025 P(Y = 3) = 5, 93 10 5 P(Y = 4) = 1, 07 10 6... 100 identických smluv platných 1 rok - očekáváme 7.26 škody za rok M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 50 / 115
Interpretace parametrů Odhad parametrů TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, 9646 + 0, 5700 + 0 = 2, 3946 µ = exp{ 2, 9646 + 0, 5700 + 0} = exp{ 2, 3946} = 0, 0516 1, 7683 1 = 0, 0912. TS = 5 (nad 2500 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, 7284 + 0, 5700 + 0 = 2, 1584 µ = exp{ 2, 7284 + 0, 5700 + 0} = exp{ 2, 1584} = 0, 0653 1, 7683 1 = 0, 1155. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 51 / 115
Interpretace parametrů Odhad parametrů TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, 9646 + 0, 5700 + 0 = 2, 3946 µ = exp{ 2, 9646 + 0, 5700 + 0} = exp{ 2, 3946} = 0, 0516 1, 7683 1 = 0, 0912. TS = 5 (nad 2500 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, 7284 + 0, 5700 + 0 = 2, 1584 µ = exp{ 2, 7284 + 0, 5700 + 0} = exp{ 2, 1584} = 0, 0653 1, 7683 1 = 0, 1155. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 51 / 115
Testy významnosti parametrů Waldův test Kvalita modelu a testování hypotéz Asymptotický test hypotézy H 0 : β j = c (obvykle c = 0) - Waldův test: (β j c) 2 ϕvar(β j ) χ2 1. Asymptotický test hypotézy Cβ = c, kde matice C má q řádků (Cβ c) [ϕc(x WX) 1 C ] 1 (Cβ c) χ 2 q. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 52 / 115
Testy významnosti parametrů Waldův test Kvalita modelu a testování hypotéz Asymptotický test hypotézy H 0 : β j = c (obvykle c = 0) - Waldův test: (β j c) 2 ϕvar(β j ) χ2 1. Asymptotický test hypotézy Cβ = c, kde matice C má q řádků (Cβ c) [ϕc(x WX) 1 C ] 1 (Cβ c) χ 2 q. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 52 / 115
Poissonovská regrese Analýza odhadů parametrů Kvalita modelu a testování hypotéz Par. DF Odhad Stand. Waldovy Chí-kv. Pr > ChíKv chyba meze intrv. spol. Int 0 0.0000 0.0000 0.0000 0.0000.. TS 1 1-2.9646 0.0521-3.0666-2.8625 3243.56 <.0001 TS 2 1-2.9421 0.0517-3.0435-2.8407 3235.33 <.0001 TS 3 1-2.9016 0.0512-3.0019-2.8013 3216.13 <.0001 TS 4 1-2.7451 0.0490-2.8411-2.6491 3141.87 <.0001 TS 5 1-2.7284 0.0488-2.8240-2.6329 3131.40 <.0001 vek 1 1 0.5700 0.0426 0.4865 0.6535 178.95 <.0001 vek 2 1 0.2183 0.0456 0.1289 0.3076 22.94 <.0001 vek 3 0 0.0000 0.0000 0.0000 0.0000.. pohlavi 1 1-0.2278 0.0342-0.2948-0.1607 44.32 <.0001 pohlavi 2 0 0.0000 0.0000 0.0000 0.0000.. Škála 0 1.0000 0.0000 1.0000 1.0000 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 53 / 115
Kvalita modelu Saturovaný model Kvalita modelu a testování hypotéz Saturovaný model = počet parametrů je roven počtu pozorování 2 a platí ˆµ i = Y i, ˆθ i = (b ) 1 (Y i ). Věrohodnost saturovaného modelu = největší dosažitelná věrohodnost pro daná data l (Y) = n i=1 Y i ˆθ i b(ˆθ i ) ϕ + c(y i, ϕ) 2 Obecně pro model neplatí vlastnosti ML odhadů. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 54 / 115
Kvalita modelu Kvalita modelu a testování hypotéz Škálovaná deviance udávající ztrátu na logaritmické věrohodnosti vůči saturovanému modelu D (Y, ˆβ) = 2(l (Y) l(y, ˆβ)) = 1 n Y i (ˆθ i ˆθ i ) (b(ˆθ i ) b(ˆθ i )), ϕ kde ˆθ i = (b ) 1 (g 1 (x i ˆβ)). Deviance i=1 D(Y, ˆβ) = ϕd (Y, ˆβ). M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 55 / 115
Kvalita modelu Kvalita modelu a testování hypotéz Škálovaná deviance udávající ztrátu na logaritmické věrohodnosti vůči saturovanému modelu D (Y, ˆβ) = 2(l (Y) l(y, ˆβ)) = 1 n Y i (ˆθ i ˆθ i ) (b(ˆθ i ) b(ˆθ i )), ϕ kde ˆθ i = (b ) 1 (g 1 (x i ˆβ)). Deviance i=1 D(Y, ˆβ) = ϕd (Y, ˆβ). M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 55 / 115
Akaikeho informační kritérium Kvalita modelu a testování hypotéz Akaikeho informační kritérium slouží pro porovnání modelů AIC = 2(l(Y; ˆβ, ˆϕ) m). Preferujeme model s minimální hodnotou AIC. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 56 / 115
Odhad disperzního parametru Kvalita modelu a testování hypotéz Vhodné vlastnosti má Pearsonův odhad ve tvaru ˆϕ = 1 n m n i=1 (Y i ˆµ i ) 2. V (ˆµ i ) Využívá se taky odhad založený na devianci ˆϕ = D(Y, ˆβ) n m. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 57 / 115
Poissonovská regrese Kritéria pro hodnocení dobré shody Kvalita modelu a testování hypotéz Kritérium DF Hodnota Hodnota/DF Deviance 5E4 18582.5892 0.3717 Scaled Deviance 5E4 18582.5892 0.3717 Pearsonuv Chí-kvad 5E4 50208.1517 1.0043 Scaled Pearson X2 5E4 50208.1517 1.0043 Log verohodnost -12571.1203 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 58 / 115
Testování podmodelů Test poměrem věrohodností Kvalita modelu a testování hypotéz Je-li ˆβ odhad parametrů v modelu a ˆβ odhad parametrů v podmodelu, potom (asymptoticky) kde d je rozdíl počtu parametrů. F-statistika (asymptoticky) D (Y, ˆβ ) D (Y, ˆβ) χ 2 d, D(Y, ˆβ ) D(Y, ˆβ) d ˆϕ F d,n m, kde m je počet parametrů v modelu, ze kterého byl odhadnut ˆϕ. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 59 / 115
Testování podmodelů Test poměrem věrohodností Kvalita modelu a testování hypotéz Je-li ˆβ odhad parametrů v modelu a ˆβ odhad parametrů v podmodelu, potom (asymptoticky) kde d je rozdíl počtu parametrů. F-statistika (asymptoticky) D (Y, ˆβ ) D (Y, ˆβ) χ 2 d, D(Y, ˆβ ) D(Y, ˆβ) d ˆϕ F d,n m, kde m je počet parametrů v modelu, ze kterého byl odhadnut ˆϕ. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 59 / 115
Poissonovská regrese Statistiky LR pro analýzu typu 1 Kvalita modelu a testování hypotéz Zdroj Deviance DF Chí-kvadrát Pr > ChíKv TS 18822.1599 vek 18627.2006 2 194.96 <.0001 pohlavi 18582.5892 1 44.61 <.0001 Postupné odebírání regresorů (záleží na pořadí v zadání). M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 60 / 115
Poissonovská regrese Statistiky LR pro analýzu typu 3 Kvalita modelu a testování hypotéz Zdroj DF Chí-kvadrát Pr > ChíKv TS 4 34.98 <.0001 vek 2 194.41 <.0001 pohlavi 1 44.61 <.0001 Test významnosti regresoru při ponechání všech ostatních regresorů v modelu (nezáleží na pořadí). M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 61 / 115
Obsah Příklady zobecněných lineárních modelů 1 Úvod 2 Data Rodina exponenciálních rozdělení Odhad parametrů Kvalita modelu a testování hypotéz 3 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod 4 Optimální sazbování v neživotním pojištění Přístup založený na GLM Optimalizační přístup deterministický Optimalizační přístup stochastický 5 Reference 6 Dodatek M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 62 / 115
Data Příklady zobecněných lineárních modelů 50 000 smluv povinného ručení (pojištění odpovědnosti z provozu motorového vozidla) Simulovaná dle mírně upravených reálných charakteristik Závisle proměnné: počet a výše škod za poslední rok, příznak storna Nezávisle proměnné: tarifní skupina dle objemu motoru (TS): 5 kategoríı (do 1000, do 1350, do 1850, do 2500, nad 2500 ccm) stáří pojistníka spojité (veks): 18-75 let stáří pojistníka (vek): 3 kategorie (18-30, 30-65, 65 a více) velikosti místa bydliště (region): 4 kategorie (nad 500 000, nad 50 000, nad 5 000, do 5 000) pohlaví (pohlavi): 2 kategorie (1 - žena, 2 - muž) M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 63 / 115
Příklady zobecněných lineárních modelů Postup konstrukce zobecněného lineárního modelu 1 Vyberte rozdělení 2 Vyberte link 3 Vyberte nezávisle proměnné 4 Odhadněte parametry 5 Posuďte kvalitu modelu 6 Iterujte od vhodného kroku M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 64 / 115
Příklady zobecněných lineárních modelů Poissonovská regrese Regresní model počtu pojistných událostí Závisle proměnná : počet pojistných událostí na smlouvě za 1 rok Nezávisle proměnné : viz data Rozdělení : Poissonovo Y i Po(λ i ) Střední hodnota: EY i = λ i Linková funkce : g(µ) = log(µ) Rozptylová funkce: V (µ) = µ Disperzní parametr: ϕ = 1 Offset : logaritmus doby platnosti smlouvy stačí zadat softwaru, ostatní je již určeno Využití: modelování (odhad) očekávaného počtu pojistných událostí během daného období, obvykle jednoho roku M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 65 / 115
Příklady zobecněných lineárních modelů Poissonovská regrese Regresní model počtu pojistných událostí Regresní model počtu pojistných událostí Model očekávaného počtu pojistných událostí na smlouvě během jednoho roku v závislosti na tarifní skupině dle objemu motoru (TS): 5 kategoríı (do 1000, do 1350, do 1850, do 2500, nad 2500 ccm) stáří pojistníka kategorizované (vek): 3 kategorie (18-30, 30-65, 65 a více) pohlaví (pohlavi): 2 kategorie (1 - žena, 2 - muž) M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 66 / 115
Syntax v SASu Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 67 / 115
Příklady zobecněných lineárních modelů Poissonovská regrese Kritéria pro hodnocení dobré shody Regresní model počtu pojistných událostí Kritérium DF Hodnota Hodnota/DF Deviance 5E4 18582.5892 0.3717 Scaled Deviance 5E4 18582.5892 0.3717 Pearsonuv Chí-kvad 5E4 50208.1517 1.0043 Scaled Pearson X2 5E4 50208.1517 1.0043 Log verohodnost -12571.1203 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 68 / 115
Příklady zobecněných lineárních modelů Poissonovská regrese Analýza odhadů parametrů Regresní model počtu pojistných událostí Par. DF Odhad Stand. Waldovy Chí-kv. Pr > ChíKv chyba meze intrv. spol. Int 0 0.0000 0.0000 0.0000 0.0000.. TS 1 1-2.9646 0.0521-3.0666-2.8625 3243.56 <.0001 TS 2 1-2.9421 0.0517-3.0435-2.8407 3235.33 <.0001 TS 3 1-2.9016 0.0512-3.0019-2.8013 3216.13 <.0001 TS 4 1-2.7451 0.0490-2.8411-2.6491 3141.87 <.0001 TS 5 1-2.7284 0.0488-2.8240-2.6329 3131.40 <.0001 vek 1 1 0.5700 0.0426 0.4865 0.6535 178.95 <.0001 vek 2 1 0.2183 0.0456 0.1289 0.3076 22.94 <.0001 vek 3 0 0.0000 0.0000 0.0000 0.0000.. pohlavi 1 1-0.2278 0.0342-0.2948-0.1607 44.32 <.0001 pohlavi 2 0 0.0000 0.0000 0.0000 0.0000.. Škála 0 1.0000 0.0000 1.0000 1.0000 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 69 / 115
Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 1 (žena) η = 2.9646 + 0.5700 0.2278 = 2.6224 µ = exp{ 2.9646 + 0.5700 0.2278} = exp{ 2.6224} = 0.0516 1.7683 0.7963 = 0.0726. Pravděpodobnosti v Poissonově rozdělení s parametrem λ = 0.0726 P(Y = 0) = 0, 9300 P(Y = 1) = 0, 0675 P(Y = 2) = 0, 0025 P(Y = 3) = 5, 93 10 5 P(Y = 4) = 1, 07 10 6... M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 70 / 115
Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 1 (žena) η = 2.9646 + 0.5700 0.2278 = 2.6224 µ = exp{ 2.9646 + 0.5700 0.2278} = exp{ 2.6224} = 0.0516 1.7683 0.7963 = 0.0726. Pravděpodobnosti v Poissonově rozdělení s parametrem λ = 0.0726 P(Y = 0) = 0, 9300 P(Y = 1) = 0, 0675 P(Y = 2) = 0, 0025 P(Y = 3) = 5, 93 10 5 P(Y = 4) = 1, 07 10 6... M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 70 / 115
Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, 9646 + 0, 5700 + 0 = 2, 3946 µ = exp{ 2, 9646 + 0, 5700 + 0} = exp{ 2, 3946} = 0, 0516 1, 7683 1 = 0, 0912. TS = 5 (nad 2500 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, 7284 + 0, 5700 + 0 = 2, 1584 µ = exp{ 2, 7284 + 0, 5700 + 0} = exp{ 2, 1584} = 0, 0653 1, 7683 1 = 0, 1155. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 71 / 115
Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, 9646 + 0, 5700 + 0 = 2, 3946 µ = exp{ 2, 9646 + 0, 5700 + 0} = exp{ 2, 3946} = 0, 0516 1, 7683 1 = 0, 0912. TS = 5 (nad 2500 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, 7284 + 0, 5700 + 0 = 2, 1584 µ = exp{ 2, 7284 + 0, 5700 + 0} = exp{ 2, 1584} = 0, 0653 1, 7683 1 = 0, 1155. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 71 / 115
Příklady zobecněných lineárních modelů Poissonovská regrese Statistiky LR pro analýzu typu 1 Regresní model počtu pojistných událostí Zdroj Deviance DF Chí-kvadrát Pr > ChíKv TS 18822.1599 vek 18627.2006 2 194.96 <.0001 pohlavi 18582.5892 1 44.61 <.0001 Postupné odebírání regresorů (záleží na pořadí v zadání). M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 72 / 115
Příklady zobecněných lineárních modelů Poissonovská regrese Statistiky LR pro analýzu typu 3 Regresní model počtu pojistných událostí Zdroj DF Chí-kvadrát Pr > ChíKv TS 4 34.98 <.0001 vek 2 194.41 <.0001 pohlavi 1 44.61 <.0001 Test významnosti regresoru při ponechání všech ostatních regresorů v modelu (nezáleží na pořadí). M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 73 / 115
Gamma regrese Regresní model výše škod Příklady zobecněných lineárních modelů Regresní model výše škod Model očekávané výše škody z pojistné události na smlouvě v závislosti na tarifní skupině dle objemu motoru (TS): 5 kategoríı (do 1000, do 1350, do 1850, do 2500, nad 2500 ccm) M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 74 / 115
Gamma regrese Příklady zobecněných lineárních modelů Regresní model výše škod Závisle proměnná: spojitá kladná Rozdělení: Y i Γ(µ, ν) Střední hodnota: EY i = µ Linková funkce: g(µ) = log(µ) (není kanonický link) Rozptylová funkce: V (µ) = µ 2 Disperzní parametr: ϕ = 1/ν Využití: modelování (odhad) očekávané výše pojistné události M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 75 / 115
Příklady zobecněných lineárních modelů Regresní model výše škod Gamma regrese Kritéria pro hodnocení dobré shody (ML odhad parametru měřítka) Kritérium DF Hodnota Hodnota/DF Deviance 3458 0.0007 0.0000 Scaled Deviance 3458 3464.2364 1.0018 Pearson Chi-Square 3458 0.0007 0.0000 Scaled Pearson X2 3458 3466.7934 1.0025 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 76 / 115
Příklady zobecněných lineárních modelů Regresní model výše škod Gamma regrese Analýza odhadů parametrů (různé odhady parametru měřítka) Par. DF Odhad Stand. Waldovy Chí-kv. Pr > ChíKv chyba meze intrv. spol. Int 0 0.0000 0.0000 0.0000 0.0000.. TS 1 1 10.3127 0.0033 10.3062 10.3192 9613383 <.0001 TS 2 1 10.3592 0.0033 10.3528 10.3656 9966668 <.0001 TS 3 1 10.4662 0.0032 10.4599 10.4725 1.061E7 <.0001 TS 4 1 10.5388 0.0030 10.5329 10.5447 1.244E7 <.0001 TS 5 1 10.7211 0.0030 10.7153 10.7269 1.306E7 <.0001 Scale 1 0 146.0294 0.0000 146.0294 146.0294 Scale 2 1 146.4066 3.5144 139.6779 153.4594 1 (Dev), 2 (ML) M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 77 / 115
Složené rozdělení Příklady zobecněných lineárních modelů Regresní model výše škod Pro složené rozdělení na smlouvě L i = N i n=1 X in, kde L i, X in jsou pro dané i nezávislé, platí µ i = E[L i ] = E[N i ] E[X i1 ], σ 2 i = var(l i ) = E[N i ] var[x i1 ] + (E[X i1 ]) 2 var[n i ]. Pro kmen (nezávislých) smluv dostaneme L = n i=1 L i E[L] = var(l) = n E[L i ], i=1 n var(l i ). i=1 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 78 / 115
Obsah Optimální sazbování v neživotním pojištění 1 Úvod 2 Data Rodina exponenciálních rozdělení Odhad parametrů Kvalita modelu a testování hypotéz 3 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod 4 Optimální sazbování v neživotním pojištění Přístup založený na GLM Optimalizační přístup deterministický Optimalizační přístup stochastický 5 Reference 6 Dodatek M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 79 / 115
Optimální sazbování v neživotním pojištění Tarifní třídy Vytváříme sazebník na základě S + 1 segmentačních kritéríı, která významně odlišují rozdělení úhrnu škod. Nechť i 0 I 0, např. tarifní skupiny I 0 = { A1, A2, A3, A4, A5 }, i 1 I 1,..., i S I S, např. věk I 1 = { 18-30 let, 30-65 let, 65 a více let } Označíme I = (i 0, i 1,..., i S ) tarifní třídu, kde I I = I 0 I 1 I S. Nechť W I počet smluv ve třídě I. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 80 / 115
Optimální sazbování v neživotním pojištění Složené rozdělení úhrnu škod Střední hodnota a rozptyl Úhrn škod pro tarifní třídu I s expozicí W I během jednoho roku L T I = W I w=1 N I,w L I,w, L I,w = X I,n,w, kde N I,w značí náhodný počet škod na smlouvě během jednoho roku a X I,n,w je náhodná výše škody (claim severity). Předpokládáme, že všechny náhodné veličiny jsou nezávislé. Nechť v tarifní třídě I mají N I,w stejné rozdělení pro všechny w a X I,n,w mají stejné rozdělení pro všechny n a w. Označíme N I, X I nezávislé kopie N I,w, X I,n,w. Dostáváme známé vztahy pro střední hodnotu a rozptyl složeného rozdělení úhrnu škod: µ I = IE[L I ] = IE[N I ]IE[X I ], µ T I = IE[L T I ] = W I µ I, n=1 σ 2 I = var(l I ) = IE[N I ]var(x I ) + (IE[X I ]) 2 var(n I ), (σ T I ) 2 = var(l T I ) = W I σ 2 I. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 81 / 115
Optimální sazbování v neživotním pojištění Multiplikativní sazebník Označíme úhrn pojistného TP I = W I Pr I pro třídu I. Multiplikativní sazebník předpokládá, že výsledná sazba je složena multiplikativním způsobem ze základní sazby Pr i0 a nezáporných přirážek e i1,..., e is, tj. I = (i 0, i 1,..., i S ). Pr I = Pr i0 (1 + e i1 ) (1 + e is ), M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 82 / 115
Optimální sazbování v neživotním pojištění Předepsaný škodní průběh Naším cílem je najít základní hladiny pojistného a hodnoty přirážkových koeficientů takové, aby bylo zaručen předepsaný škodný průběh LR, ˆ tj. chceme splnit náhodná omezení (L T I jsou náhodné veličiny) L T I TP I ˆ LR for all I I. (2) Přístup umožňuje předepsat různé škodní průběhy pro různé třídy. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 83 / 115
Optimální sazbování v neživotním pojištění Omezení střední hodnota a pravděpodobnost Obvykle je pojistné nastavováno s ohledem na střední hodnotu, tj. IE[L T I ] = IE[L I ] LR TP I Pr ˆ for all I I. (3) I Tento přístup však neberu v úvahu rizikovost jednotlivých skupin. Přirozený je požadavek, aby bylo omezení s předepsaným škodním průběhem (2) splněno s velkou pravděpodobností P ( L T I TP I ˆ LR ) 1 ε, for all I I, (4) kde ε (0, 1), obvykle ε malé (0.1, 0.05). Jiný přístup může předepsat škodní průběh pro celou line of business (LoB) s vysokou pravděpodobností: P ( I I LT I I I TP I ˆ LR ) 1 ε. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 84 / 115
Optimální sazbování v neživotním pojištění Modely s logaritmickým linkem Přístup založený na GLM Pro modelování očekávaného počtu a očekávané výše škod využijeme zobecněné lineární modely s logaritmickým linkem g(µ) = ln µ. Tedy předpokládáme, že pro každou třídu I = (i 0, i 1,..., i S ) platí IE[N I ] = exp{λ i0 + λ i1 + + λ is }, IE[X I ] = exp{γ i0 + γ i1 + + γ is }, kde λ i, γ i jsou neznámé koeficienty. Tedy pro očekávaný úhrn škod na smlouvě během jednoho roku platí IE[L I ] = exp{λ i0 + γ i0 + λ i1 + γ i1 + + λ is + γ is } = exp{λ i0 + γ i0 } exp{λ i1 + γ i1 } exp{λ is + γ is } M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 85 / 115
Optimální sazbování v neživotním pojištění Multiplikativní sazebník Přístup založený na GLM Základní sazby a přirážky získáme po vhodném znormování koeficientů ze zobecněných lineárních modelů: Pr i0 = exp{λ i 0 + γ i0 } ˆ LR e is = S min exp(λ i ) i I s s=1 S min exp(γ i ), i I s s=1 exp(λ is ) min is Is exp(λ is ) exp(γ is ) min is Is exp(γ is ) 1, Při této volbě je omezení na maximální škodní průběh (3) splněno ve střední hodnotě. Při praktickém odhadu jsou teoretické (neznámé) koeficienty nahrazeny odhady. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 86 / 115
Optimální sazbování v neživotním pojištění Segmentační kritéria POV Přístup založený na GLM Uvažujeme 60 tisíc smluv pojištění odpovědnost za škodu způsobenou provozem vozidla (povinné ručení). Následující kritéria jsou využita pro tvorbu multiplikativního sazebníku: tarifní skupině dle objemu motoru (TG): 5 kategoríı (do 1000, do 1350, do 1850, do 2500, nad 2500 ccm) hlavní kritérium pro základní sazby stáří pojistníka kategorizované (age): 3 kategorie (18-30, 30-65, 65 a více) region kategorizované (region): 4 kategorie (nad 500 tisíc, nad 50 tisíc, nad 5 tisíc, do 5 tisíc obyvatel) pohlaví (gender): 2 kategorie (1 - žena, 2 - muž) M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 87 / 115
Optimální sazbování v neživotním pojištění Odhady parametrů Přístup založený na GLM Overd. Poisson Gamma Inv. Gaussi Param. Level Est. Std.Err. Exp Est. Std.Err. Exp Est. Std.Err. TG 1-3.096 0.042 0.045 10.30 0.015 29 778 10.30 0.017 TG 2-3.072 0.038 0.046 10.35 0.013 31 357 10.35 0.015 TG 3-2.999 0.037 0.050 10.46 0.013 34 913 10.46 0.015 TG 4-2.922 0.037 0.054 10.54 0.013 37 801 10.54 0.015 TG 5-2.785 0.040 0.062 10.71 0.014 44 666 10.71 0.017 region 1 0.579 0.033 1.785 0.21 0.014 1.234 0.21 0.016 region 2 0.460 0.031 1.583 0.11 0.013 1.121 0.11 0.014 region 3 0.205 0.032 1.228 0.06 0.013 1.059 0.06 0.015 region 4 0.000 0.000 1.000 0.00 0.000 1.000 0.00 0.000 age 1 0.431 0.027 1.539 - - - - - age 2 0.245 0.024 1.277 - - - - - age 3 0.000 0.000 1.000 - - - - - gender 1-0.177 0.018 0.838 - - - - - gender 2 0.000 0.000 1.000 - - - - - Scale 0.647 0.000 13.84 0.273 0.002 0.000 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 88 / 115
Optimální sazbování v neživotním pojištění Multiplikativní sazebník Přístup založený na GLM GLM EV model SP model (ind.) SP model (col.) G IG G IG G IG G IG TG 1 1 880 1 879 3 805 3 801 9 318 14 952 4 400 5 305 TG 2 2 028 2 029 4 104 4 105 9 979 16 319 8 733 5 563 TG 3 2 430 2 431 4 918 4 918 11 704 19 790 5 547 6 296 TG 4 2 840 2 841 5 748 5 747 13 380 23 145 6 376 7 125 TG 5 3 850 3 851 7 792 7 791 17 453 31 718 8 421 9 169 region 1 2.203 2.201.311.390.407.552.463.407 region 2.775.776.057.121.177.264.226.195 region 3.301.299.000.000.000.000.000.000 region 4.000.000.000.000.000.000.000.000 age 1.539.539.350.277.257.157.182.268 age 2.277.277.121.060.105.031.015.107 age 3.000.000.000.000.000.000.000.000 gender 1.000.000.000.000.000.000.000.000 gender 2.194.194.194.194.130.114.156.121 M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 89 / 115
Optimální sazbování v neživotním pojištění Celková ztráta na smlouvě během jednoho roku Přístup založený na GLM Úhrn škod (celková ztráta) na slouvě povinného ručení během jednoho roku může být složena následujícím způsobem: [ ] L I = (1 + vc I ) (1 + inf z )L z I + (1 + inf m )L m I + fc I, kde škody na zdraví L z I a škody na majetku L m I jsou modelovány odděleně, zohledňujeme odlišné inflace škod na zdraví inf z a na majetku inf m, proporcionální vc I a fixní náklady fc I. M.Branda (KPMS MFF UK) Opti sazbování v NP 2013 90 / 115