Praca dyplomowa magisterska. Modelowanie straty przy użyciu GLM i kopuł. Sylwia Piotrowska

Transkrypt

1 Praca dyplomowa magisterska Modelowanie straty przy użyciu GLM i kopuł Sylwia Piotrowska Rok akademicki 2017/2018

2 Spis treści Wstęp i cel pracy 3 1 Kopuły Definicja kopuły Własności kopuł Twierdzenie Sklara Kopuły a tau Kendall a Rodziny kopuł Estymacja łącznej szkody z wykorzystaniem kopuł Kopuła dla ciągło-dyskretnych rozkładów brzegowych Rozkład łącznej szkody z polisy Rozkłady brzegowe Model rozkładu łącznego dla średniej wartości szody i liczby szkód z wykorzystaniem kopuły Estymacja łącznej szkoda z polisy Modele regresyjne Zagadnienie klasyfikacji w ubezpieczeniach Uogólnione modele liniowe GLM dla liczby szkód i średniej wartości szkody Modelowanie niezależne Modelowanie z wykorzystaniem kopuły Podsumowanie 52 A Dodatek: podstawowe elementy rachunku prawdopodobieństwa 53 B Dodatek: rozkłady zmiennych losowych 57 C Dodatek: estymatory największej wiarogodności 59 D Dodatek: kody programów 61 Wykaz rysunków i tabel 68 Wykaz literatury 69 2

3 Wstęp i cel pracy W życiu każdego człowieka dochodzi do zdarzeń, które są od niego niezależne i w ogólności są postrzegane jako przypadkowe. Niektóre z tych zdarzeń mogą nieść ze sobą koszty, straty lub innego rodzaju skutki wyrażane w jednostkach pieniężnych. Aby człowiek mógł zwiększyć poczucie swojego bezpieczeństwa, powstały instytucje takie jak towarzystwa ubezpieczeniowe, które świadczą ochronę ubezpieczeniową dla swoich klientów. Tak więc, aby zabezpieczyć się przed niekorzystnymi przypadkami losowymi, zawierane są umowy ubezpieczenia, czyli tzw. polisy ubezpieczeniowe. Polisa jest dokumentem potwierdzającym przeniesienie na ubezpieczyciela odpowiedzialności za szkody powstałe w wyniku zdarzeń ujętych w wykazie tzw. ryzyk ubezpieczeniowych i z tego tytułu objętych stosowną ochroną. Ponadto w umowie ubezpieczenia ubezpieczony jest zobowiązany zapłacić składkę. Zasadniczo wyróżnia się dwa działy ubezpieczeń: ubezpieczenia osobowe i ubezpieczenia majątkowe. Do ubezpieczeń majątkowych zalicza się między innymi ubezpieczenia komunikacyjne (w tym ubezpieczenia odpowiedzialności cywilnej od pojazdów mechanicznych - ubezpieczenia OC), które są najczęściej zawieranymi umowami ubezpieczeń. Zasadniczym elementem funkcjonowania zakładu ubezpieczeń jest oszacowanie łącznej wartości szkód w portfelu ubezpieczeniowym, które jest niezbędne do wyceny wartości umów ubezpieczeniowych oraz do kalkulacji składki. Stosując pojęcia teorii ryzyka można powiedzieć, że zagadnienie to sprowadza się do znalezienia rozkładu zmiennej losowej wyrażającej stratę, która w odniesieniu do ubezpieczeń komunikacyjnych wyraża łączną wartość szkód. Powszechnie stosowanym podejściem jest przy tym modelowanie średniej wartości szkody oraz liczby szkód jako wielkości niezależnych od siebie. Następnie określa się łączną wartość szkód powstałych w wyniku pewnych zdarzeń objętych ochroną ubezpieczeniową w danym czasie, jako iloczyn dwóch wymienionych wielkości. Jednakże, jak się okazuje, założenie o niezależności wielkości sterujących jest zbyt restrykcyjne i prowadzi najczęściej do nadmiernego (lub niedokładnego) oszacowania łącznej szkody odpowiadającej danej polisie, co w konsekwencji wpływa na błędną estymację łącznej szkody w całym portfelu szkód. Niniejsza praca ma na celu przedstawienie modelu rozkładu łącznej wartości szkód z polisy ubezpieczeniowej, który uwzględnia występowanie zależności pomiędzy średnim rozmiarem szkód oraz ich liczbą. Osiągniemy to poprzez połączenie rozkładów brzegowych dla obydwu tych zmiennych z rodzinami dwuwymiarowych kopuł. Następnie rozszerzymy przedstawione podejście, zezwalając na to, aby zmienne losowe wyrażające średnią wartość szkody oraz liczbę szkód zależały od pewnego zbioru zmiennych dotyczących ubezpieczonego, zatem zastosujemy uogólnione modele liniowe. Podstawowe definicje i własności kopuł są przedmiotem rozważań rozdziału pierwszego. Zostało w nim również przedstawione twierdzenie Sklara jako fundamentalne twierdzenie teorii kopuł. W rozdziale drugim zajęto się modelowaniem łącznej wartości szkody z wykorzystaniem kopuły, który zezwala na zależność pomiędzy średnią liczbą szkód a ich liczbą dla polisy na podstawie podejścia zaprezentowanego w pracy [13]. Rozdział trzeci zawiera zagadnienie klasyfikacji w ubezpieczeniach oraz teorię modelowania uogólnionych modeli liniowych. W przykładzie wykorzystującym dane dla ubezpieczeń komunikacyjnych stworzono modele regresyjne dla średniej wartości szkody i liczby szkód. 3

4 1 Kopuły Po raz pierwszy słowo kopuła (ang. copula) zostało wprowadzone przez Abe Sklara w 1956 roku w twierdzeniu, które obecne nosi jego nazwę. Kopuły są zatem dość nowym pojęciem w probabilistyce i statystce, a w ciągu kilkunastu lat można zaobserwować znaczny wzrost zainteresowania kopułami i ich zastosowaniami. Świadczą o tym liczne prace naukowe oraz międzynarodowe konferencje poświęcone przedstawionej idei. Czym są zatem kopuły? Z jednej strony można powiedzieć, że kopuły są funkcjami, które łączą lub parują wielowymiarowe dystrybuanty z ich jednowymiarowymi brzegowymi dystrybuantami. Bądź alternatywnie, kopuły są wielowymiarowymi dystrybuantami łącznymi, których jednowymiarowe rozkłady brzegowe są jednostajne. Najprościej mówi się też, że kopuły są funkcjami połaczenia [16]. W tym rozdziale przedstawimy ogólne definicje kopuł oraz twierdzenia i własności kopuł ograniczając się do dwóch wymiarów. 1.1 Definicja kopuły Zanim wprowadzimy definicję kopuły potrzebne nam będą dwa pojęcia. Przez I 2 oznaczamy kwadrat jednostkowy, czyli produkt kartezjański I I, gdzie I = [0, 1]. Niech S 1 i S 2 będą niepustymi podzbiorami R oraz H będzie funkcją określoną na S 1 S 2 o wartościach w R. Definicja 1.1. [16] H-objętość prostokąta [a, b] [c, d] S 1 S 2 definiowana jest przez V H ([a, b] [c, d]) = H(b, d) H(b, c) H(a, d) + H(a, c). Definicja 1.2. [16] Funkcję H nazywamy 2-rosnącą, jeśli V H 0 dla każdego prostokąta [a, b] [c, d] S 1 S 2. H-objętość na [a, b] [c, d] można interpretować jako pole prostokąta zadane przez funkcję H, zaś gdy V H 0 oznacza to, że pole dowolnego prostokąta jest nieujemne. Warto wspomnieć, że w ogólności sformułowanie H jest 2-rosnąca nie implikuje, ani nie jest implikowane przez sformułowanie H jest niemająca względem każdego z argumentów. Natomiast jeśli dodamy dodatkowe założenie (w literaturze zwane grounded), że zbiór S 1 ma najmniejszy element a 0, zbiór S 2 ma najmniejszy element b 0 oraz H(a, b 0 ) = H(a 0, b) = 0 dla wszystkich a S 1, b S 2, wówczas 2-rosnąca funkcja H jest niemalejąca względem każdego argumentu (dowód tej implikacji można zaleźć w [16]). Wprowadzimy teraz definicję kopuły w formie charakteryzacji, czyli przedstawimy warunki, jakie powinna spełniać dana funkcja, aby mogła być kopułą. Definicja 1.3 (charakteryzacja). [10] Kopułą 2-wymiarową (w skrócie kopułą) nazywamy funkcję C : I 2 I spełniającą następujące warunki: (C1) Dla każdego u, v I, (C2) Dla każdego u, v I, C(u, 0) = C(0, v) = 0. C(u, 1) = u, C(1, v) = v. 4

5 (C3) Dla każdego u 1, u 2, v 1, v 2 I takich, że u 1 u 2, v 1 v 2, C(u 2, v 2 ) C(u 2, v 1 ) C(u 1, v 2 ) + C(u 1, v 1 ) 0. Warunki (C1) i (C2) nazywamy warunkami brzegowymi, natomiast warunek (C3) orzeka, że kopuła jest funkcją 2-rosnącą. Bardzo często w literaturze spotyka się alternatywną, probabilistyczną definicję kopuły. Definicja 1.4. Kopuła jest dwuwymiarową dystrybuantę skoncentrowaną na I 2 o jednostajnych rozkładach brzegowych na I. Teraz będziemy chcieli pokazać, że definicja 1.3 i 1.4 są równoważne, ale zanim to zrobimy przypomnijmy, jakie warunki musi spełniać dystrybuanta (oczywiście mamy na myśli dystrybuantę 2-wymiarową). Twierdzenie 1.1. Funkcja F : I 2 R jest dystrybuantą wtedy i tylko wtedy, gdy spełnia następujące warunki: (i) Funkcja F jest niemalejąca ze względu na każdą ze zmiennych (przy ustalonej wartości drugiej zmiennej). (ii) oraz x lim F (x, y) = 0, y lim y x lim F (x, y) = 1. x,y + F (x, y) = 0 (iii) Funkcja F jest prawostronnie ciągła ze względu na każdą ze zmiennych (przy ustalonej wartości drugiej zmiennej). (iv) Funkcja F jest 2-rosnąca, tzn. x1 x 2 y1 y 2 F (x 2, y 2 ) F (x 2, y 1 ) F (x 1, y 2 ) + F (x 1, y 1 ) 0. Twierdzenie 1.2. Definicja kopuły w postaci charakteryzacji jest równoważna definicji probabilistycznej. Dowód: = Oczywisty wniosek z własności dystrybuanty. = Z warunków (C1) i (C3) wynika, że C jest funkcją niemalejącą względem każdego argumentu, zaś warunek o tym, że C jest 2-rosnąca dostajemy z założenia. Później okaże się również, że kopuły są funkcjami prawostronnie ciągłymi (co więcej kopuły, są funkcjami Lipshitzowskimi). Zatem z twierdzania 1.1 wynika, że C jest dystrybuantą. Ponadto warunki (C1) i (C2) zapewniają jednostajność jednowymiarowych rozkładów brzegowych na I. Uwaga. Pomiędzy dystrybuantą a rozkładem (miarą probabilistyczną na zbiorach borelowskich) istnieje wzajemna jednoznaczna odpowiedniość (patrz: dodatek A). Ponieważ dystrybuanta indukuje miarę probabilistyczną na zbiorach borelowskich, zatem każda kopuła C również indukuje miarę probabilistyczną µ C na I 2. Konstruujemy tę miarę w następujący sposób: na początku bierzemy C-objętość V C prostokąta [a, b] [c, d] zgodnie z definicją

6 Następnie miarę V C można rozszerzyć na σ-ciało B(I 2 ) zbiorów borelowskich, które pokrywa się z miarą µ C [10]. Przez C 2 będziemy oznaczać rodzinę wszystkich 2-wymiarowych kopuł. Możemy również uogólnić pojęcie kopuły do większej liczby wymiarów. Niech d 2 będzie liczbą naturalną. Definicja 1.5. [10] Kopułą d-wymiarową (w skrócie d-kopułą) nazywamy funkcję C : I d I spełniającą następujące warunki: (C1 ) Dla każdego u 1,..., u d I oraz i = 1,..., d, C(u 1,..., u i 1, 0, u i+1,..., u d ) = 0. (C2 ) Dla każdego u 1,..., u d I oraz i = 1,..., d, C(1,..., 1, u i, 1,..., 1) = u i. (C3 ) Dla każdego prostokąta [a, b] := d i=1 [a i, b i ] I d, gdy a i b i oraz i = 1,..., d V C ([a, b]) = 2 j 1 2 j d ( 1) j1+ +jd C(u 1j1,..., u djd ) 0, gdzie u i1 = a i i u i2 = b i dla i = 1,..., d. Zauważmy, że również w przypadku wielowymiarowym możemy przedstawić równoważną definicję kopuły w języku probabilistycznym. Definicja 1.6. [7] Kopułą d-wymiarową nazywamy d-wymiarową dystrybuantę skoncentrowaną na I d, której jednowymiarowe rozkłady brzegowe są jednostajne na I. Poniżej przedstawimy ważną uwagę wynikającą z probabilistycznej definicji kopuły, która odnosi się do dystrybuanty. Uwaga. Z każdą kopułą powiązany jest pewien wektor losowy X = (X 1, X 2,..., X d ) taki, że jego rozkłady brzegowe są jednostajne na I (tj. X i U [0, 1] dla i = 1,..., d) oraz dystrybuanta jest zadana przez kopułę C. I odwrotnie, każdy wektor losowy, którego składniki mają rozkład jednostajny na I, może być związany z pewną kopułą. 1.2 Własności kopuł W naszych rozważaniach ograniczymy się do 2 wymiarów, dlatego w dalszej części przedstawimy pewne własności dla kopuł 2-wymiarowych, które będziemy nazywać krótko kopułami. Jednak pamiętajmy, że zaprezentowane własności można uogólnić dla przypadku wielowymiarowego. Ograniczenia Frécheta - Hoeffinga Twierdzenie 1.3. [16] Niech C C 2. Wtedy dla każdego (u, v) I 2 mamy W (u, v) := max(u + v 1, 0) C(u, v) min(u, v) =: M(u, v). (1.1) 6

7 Dowód: Niech (u, v) będzie dowolnym punktem należącym do I 2. Zauważmy, że z warunków (C2) i (C3) wiemy, że kopuła C jest funkcją niemalejącą względem każdego z argumentów, zatem C(u, v) C(u, 1) = u oraz C(u, v) C(1, v) = v, a stąd C(u, v) min(u, v). Ponadto V C ([u, 1] [v, 1]) = C(1, 1) C(1, v) c(u, 1) + C(u, v) 0, implikuje C(u, v) u+v 1, co w połączeniu z C(u, v) 0 prowadzi do C(u, v) max(u+v 1, 0). W istocie ograniczenia w (1.1) są same w sobie kopułami i funkcja M, będąca górnym ograniczeniem, zwana jest kopułą komonotoniczną (ang. comonotonicity), natomiast funkcja W, będąca dolnym ograniczam, nazywana jest kopułą przeciwnie monotoniczną (ang. countermonotonicity). Ograniczenia Frécheta - Hoeffinga mówią nam, że każda kopuła C, czyli kształt wykresu kopuły, znajduję się pomiędzy dwiema konkretnym kopułami. Co więcej, powyższe ograniczenia są najlepszymi w tym sensie, że punktowe infimum i supremum po wszystkich elementach C 2 pokrywa się z W i M odpowiednio, to znaczy dla (u, v) I 2 : W (u, v) = inf C(u, v) C C 2 M(u, v) = sup C(u, v). C C 2 Trzecią ważną kopułą jest kopuła produktowa Π(u, v) = uv. Kopuła Π zwana jest też kopułą niezależną. W literaturze kopuły W, M oraz Π zwane są kopułami fundamentalnymi. Rysunek 1 przedstawia wykresy powierzchniowe kopuł W, M oraz Π. (a) kopuła przeciwnie monotoniczna W (b) kopuła produktowa Π (c) kopuła komonotoniczna M Rysunek 1: Wykresy powierzchniowe kopuł W, Π i M (źródło: opracowanie własne) 7

8 Innym efektywnym sposobem prezentowania wykresów kopuł jest użycie wykresu poziomicowego, czyli wykresu z jego poziomami wartości C(u, v) = a, gdzie a I. Rysunek 2 przedstawia wykresy poziomicowe kopuł W, M oraz Π. (a) kopuła przeciwnie monotoniczna W (b) kopuła produktowa Π (c) kopuła komonotoniczna M Rysunek 2: Wykresy poziomicowe kopuł W, Π i M (źródło: opracowanie własne) Lipschitzowskość Twierdzenie 1.4. [16] Niech C C 2. Dla każdego (u 1, v 1 ), (u 2, v 2 ) I 2 C(u 2, v 2 ) C(u 1, v 1 ) u 2 u 1 + v 2 v 1. (1.2) Dowód: Na początku zauważmy, że v = 0 C(u 2, 0) C(u 1, 0) = 0, v = 1 C(u 2, 1) C(u 1, 1) = u 2 u 2, 8

9 zatem z własności kopuły dostajemy, że dla dowolnego v I zachodzi 0 C(u 2, v) C(u 1, v) u 2 u 2. (1.3) Analogicznie otrzymujemy, że dla dowolnego u I zachodzi 0 C(u 2, v) C(u 1, v) u 2 u 2. (1.4) Ostatecznie nierówność (1.2) wynika z nierówności (1.3) i (1.4), gdyż C(u 2, v 2 ) C(u 1, v 1 ) = C(u 2, v 2 ) C(u 1, v 2 ) + C(u 1, v 2 ) C(u 1, v 1 ) C(u 2, v 2 ) C(u 1, v 2 ) + C(u 1, v 2 ) C(u 1, v 1 ) = u 2 u 1 + v 2 v 1 Powyższe twierdzenie mówi, że kopuła C spełnia warunek Lipschitza ze stałą równą 1. Jak wiadomo, funkcje Lipschitzowskie są jednostajne ciągłe. Własność ta pociąga za sobą zwykłą ciągłość, a tym bardziej prawostronną ciągłość. Zatem kopuły posiadają istotną własność dystrybuant zgodnie z definicją 1.4. Pochodna kopuły W dalszej części rozdziału będziemy stosować następujące oznaczenia dla pochodnych cząstkowych Twierdzenie 1.5. [16] u C(u, v) := uc(u, v), v C(u, v) := vc(u, v). Niech C C 2. Dla każdego v I pochodna cząstkowa u C(u, v) istnieje dla prawie wszystkich u I oraz 0 u C(u, v) 1. (1.5) Podobnie, dla każdego u I pochodna cząstkowa v C(u, v) istnieje dla prawie wszystkich v I oraz 0 v C(u, v) 1. (1.6) Dowód: Jak już wcześniej powiedziano, kopuła C jest funkcją niemalejącą wzgledem każdego z argumentów, więc istnienie pochodnych cząstkowych v C(u, v) oraz u C(u, v) jest natychmiastowe, ponieważ z teorii miary wiadomo, że funkcje monotoniczne są różniczkowalne prawie wszędzie [3]. Natomiast nierówności (1.5), (1.6) wynikają z twierdzenia 1.2, gdyż C spełnia warunek Lipschitza ze stałą równą 1 ze względu na każdą ze zmiennych. 1.3 Twierdzenie Sklara Przejdziemy teraz do twierdzenie Sklara, które jest fundamentalnym twierdzeniem w teorii kopuł i podstawą dla wielu zastosowań w różnych dziedzinach nauki, m.in. w statystyce, finansach i ubezpieczeniach. Wyjaśnia ono rolę kopuł w związku między wielowymiarowymi dystrybuantami a ich jednowymiarowymi rozkładami brzegowymi. W pracy przeprowadzimy dowód twierdzenia Sklara dla kopuł 2-wymiarowych. Inne dowody twierdzenia Sklara można znaleźć w [10]. 9

10 Twierdzenie 1.6. [16] (Sklar, 1959) Niech F będzie dystrybuantą łączną o rozkładach brzegowych F 1, F 2. Wówczas istnieje kopuła C taka, że dla każdego x 1, x 2 R zachodzi F (x 1, x 2 ) = C(F 1 (x 1 ), F 2 (x 2 )). (1.7) Ponadto, jeśli F 1, F 2 są ciągłe, to kopuła C jest wyznaczona jednoznacznie, w przeciwnym wypadku wyznaczona jest na RanF 1 RanF 2, gdzie RanF i = F i (R) oznacza zbiór wartości F i dla i = 1, 2.. I odwrotnie, jeżeli C jest kopułą oraz F 1, F 2 są dystrybuantami (jednowymiarowymi), wówczas F zdefiniowana przez (1.7) jest dystrybuantą łączną o rozkładach brzegowych F 1, F 2. Aby udowodnić twierdzenie Sklara, będziemy korzystać z pojęcia uogólnionej dystrybuanty odwrotnej. Definicja 1.7. [4] Niech F będzie dystrybuantą zmiennej losowej X. Uogólnioną dystrybuantą odwrotną nazywamy funkcję F 1 : [0, 1] [, + ] określoną wzorem F 1 (y) = inf{x R : F (x) y}, y [0, 1]. Oczywiste jest, że F 1 (0) = oraz F 1 (1) = +. Ponadto dla każdego y (0, 1) mamy < F 1 (y) < +. Uwaga. Jeżeli zmienna losowa X jest ściśle rosnąca i ciągła, wówczas uogólniona funkcja odwrotna jest po prosu funkcją odwrotną dystrybuanty F. Przedstawimy teraz własności uogólnionej dystrybuanty odwrotnej, które będą dla nas przydatne. Dowód tych własności można znaleźć w [4]. Lemat 1.1. [4] Niech F będzie dystrybuantą, a F 1 jej uogólnioną dystrybuantą odwrotną. Wtedy (i) dla każdego x R oraz dla każdego y [0, 1] zachodzi równoważność F (x) y x F 1 (y) lub równowanie F (x) < y x < F 1 (y) (ii) F (F 1 (0)) = 0, F (F 1 (0)) = 1 (iii) dla x R mamy F 1 (F (x)) x (iv) dla y [0, 1] mamy F (F 1 (y)) y (v) uogólniona dystrybuanta odwrotna jest niemalejąca i lewostronnie ciągła w przedziale (0, 1] (vi) jeżeli dystrybuanta jest ciągła, to dla każdego y [0, 1] F (F 1 (y)) = y W dowodzie będziemy również potrzebowali transformacji kwantyla oraz transformacji prawdopodobieństwa, które są określone w kolejnym lemacie. Lemat 1.2. [15] Niech F będzie dystrybuantą zmiennej losowej X, a F 1 uogólnioną dystrybuantą odwrotną. 1. Transformacja kwantyla: Jeżeli U U [0, 1], to P(F 1 (U) x) = F (x) (tzn. zmienna losowa F 1 (U) ma taki sam rozkład jak X). 10

11 2. Transformacja prawdopodobieństwa: Jeżeli Y ma ciągłą dystrybuantę F, to F (Y ) U [0, 1]. Możemy teraz przejść do dowodu twierdzenia Sklara. Udowodnimy istnienie i jednoznaczność kopuły w przypadku, gdy dystrybuanty brzegowe są ciągłe. Dowód: (twierdzenia Sklara - dla ciągłych dystrybuant) Niech F będzie dystrybuantą łączną wektora X = (X 1, X 2 ), a F 1, F 2 dystrybuantami brzegowymi. Ponieważ F 1 oraz F 2 są ciągłe, stąd z punktu 2 lematu 1.2 wnioskujemy, że F 1 (X 1 ) oraz F 2 (X 2 ) mają rozkład jednostajny na I, czyli F i (X i ) U [0, 1] dla i = 1, 2. Oznacza to, że dystrybuanta, oznaczmy ją przez C, wektora losowego (F 1 (X 1 ), F 2 (X 2 )) spełnia definicję 1.4 kopuły. Ponadto z punktu 1 lematu 1.2 wiemy, że F 1 (F i (X i )) ma taki sam rozkład jak X i dla i = 1, 2, zatem dla dowolnych x 1, x 2 w R, korzystając z własności (i) lematu 1.1, mamy F (x 1, x 2 ) = P(X 1 x 1, X 2 x 2 ) = P(F 1 (F 1 (X 1 )) x 1, F 1 (F 2 (X 2 )) x 2 ) (i) = P(F 1 (X 1 ) F 1 (x 1 ), F 2 (X 2 ) F 2 (x 2 )) = C(F 1 (x 1 ), F 2 (x 2 )). W ten sposób dostajemy równość (1.7). Jeżeli do równości (1.7) podstawiamy za argument x i = F 1 (u i ) dla u i [0, 1], i = 1, 2 oraz stosując własność (vi) lematu 1.1, możemy zapisać F (F 1 (u 1 ), F 1 (u 2 )) = C(F 1 (F 1 (u 1 )), F 2 (F 1 (u 2 ))) = C(u 1, u 2 ), co daje nam reprezentację C względem F i jej rozkładów brzegowych. Otrzymaliśmy więc jednoznaczność kopuły. Dla przeprowadzenia dowodu w drugą stronę załóżmy, że C jest kopułą oraz F 1, F 2 są jednowymiarowymi dystrybuantami. Konstruujemy wektor losowy (X 1, X 2 ) o dystrybuancie F poprzez wzięcie wektora losowego U o dystrybuancie C oraz przyjmując X := (F 1 1 (U 1 ), F 1 2 (U 2 )). Możemy wówczas, przy ponownym użyciu własności (i) uogólnionej funkcji odwrotnej, uzyskać równość (1.7). Mianowicie F (x 1, x 2 ) = P(X 1 x 1, X 2 x 2 ) = P(F1 1 (U 1 ) x 1, F2 1 (U 2 ) x 2 ) (i) = P(U 1 F 1 (x 1 ), U 2 F 2 (x 2 )) = C(F 1 (x 1 ), F 2 (x 2 )). Wniosek 1. Mając dystrybuantę F oraz ciągłe dystrybuanty brzegowe F 1 i F 2, kopułę C można wyliczyć C(u 1, u 2 ) = F (F 1 1 (u 1 ), F 1 2 (u 2 )), (1.8) gdzie F 1 i oznacza uogólnioną dystrybuantę odwrotną do F i dla i = 1, 2. Równości (1.7) oraz (1.8) mają istotne znaczenie w teorii kopuł. Pierwszy wzór pokazuje, że dystrybuantę łączną F można sformułować poprzez połączenie dystrybuant brzegowych z kopułą, 11

12 natomiast drugi pokazuje, jak kopuły są wyodrębniane z dwuwymiarowych dystrybuant o ciągłych rozkładach brzegowych. Twierdzenie Sklara również sugeruje, że w przypadku ciągłych rozkładów brzegowych naturalne jest definiowanie rozkładu poprzez kopuły. Uwaga. W przypadku wielowymiarowych rozkładów dyskretnych koncepcja definiowana rozkładu poprzez kopuły jest mniej naturalna. Dzieje się tak, ponieważ istnieje więcej niż jedna kopuła, która może być użyta do połączenia z dystrybuantami brzegowymi w celu utworzenia dystrybuanty łącznej. Zauważmy, że twierdzenie Sklara zapisane jest w postaci równoważności. Jednak druga część tego twierdzenia jest bardziej użyteczna, ponieważ umożliwia uzyskanie informacji o rozkładzie łącznym za pomocą funkcji kopuły i rozkładów brzegowych. Taka informacja jest pożądana przy modelowaniu wielowymiarowych rozkładów, ponieważ z reguły łatwiej jest dysponować rozkładem brzegowym (czyli tak na prawdę rozkładem jednowymiarowym). Na zakończenie tego podrozdziału podamy twierdzenie Sklara dla wielowymiaru. Dowód w przypadku ciągłych dystrybuant brzegowych przebiega analogicznie jak w przypadku 2-kopuł i można go znaleźć w [15]. Twierdzenie 1.7. [15] (Sklar, 1959) Niech F będzie dystrybuantą łączną o rozkładach brzegowych F 1,..., F d. Wówczas istnieje kopuła C taka, że dla każdego x 1,..., x d R zachodzi F (x 1,..., x d ) = C(F 1 (x 1 ),..., F d (x d )). (1.9) Ponadto, jeśli F 1,..., F d są ciągłe, to kopuła C jest wyznaczona jednoznacznie, w przeciwnym wypadku wyznaczona jest na RanF 1 RanF 2 RanF d, gdzie RanF i = F i (R) oznacza zbiór wartości F i dla i = 1, 2,..., d. I odwrotnie, jeżeli C jest kopułą oraz F 1,..., F d są dystrybuantami (jednowymiarowymi), wówczas F zdefiniowana przez (1.9) jest dystrybuantą łączną o rozkładach brzegowych F 1,..., F d. 1.4 Kopuły a tau Kendall a Jak już zauważyliśmy, każda kopuła odnosi się do dystrybuanty, która jest powiązana z pewnym wektorem losowym X. Dlatego dalej będziemy chcieli przedstawić probabilistyczne własności kopuł, które można wnioskować z twierdzenia Sklara. Na początku przedstawmy jeszcze raz twierdzenie Sklara, używając zmiennych losowych i ich dystrybuant. Twierdzenie 1.8. Niech X 1 i X 2 będą zmiennymi losowymi o dystrybuantach, odpowiednio, F 1 i F 2 oraz niech F będzie ich dystrybuantą łączną. Wówczas istnieje kopuła C taka, że zachodzi (1.7). Jeśli F 1, F 2 są ciągłe, to kopuła C jest wyznaczona jednoznacznie, w przeciwnym wypadku wyznaczona jest na RanF 1 RanF 2. Kopułę C identyfikowaną ze zmiennymi losowymi X 1 i X 2 będziemy oznaczać C X1,X 2 jeśli takie rozróżnienie będzie potrzebne. Okazuje się, że kopuły posiadają bardzo korzystną własność, która jest przydatna przy badaniu zależności między zmiennymi losowymi. Pokażemy, iż przy przekształceniach ściśle monotonicznych wektorów losowych kopuły nie zmieniają się, bądź zmieniają się w przewidywalny sposób. Na początku zajmiemy się translacjami ściśle rosnącymi, o których mówi poniższe twierdzenie. 12

13 Twierdzenie 1.9. [16] Niech X 1, X 2 będą ciągłymi zmiennymi losowymi o kopule C X1,X 2. Jeżeli ϕ 1, ϕ 2 będą przekształceniami ściśle rosnącymi określonymi, odpowiednio, na RanX 1, RanX 2, wówczas wektory losowe (X 1, X 2 ) i (ϕ 1 (X 1 ), ϕ 2 (X 2 )) mają taką samą kopułę, tzn. C ϕ1(x 1),ϕ 2(X 2) = C X1,X 2. Dowód: Niech F 1, F 2, G 1, G 2 będą dystrybuantami zmiennych losowych, odpowiednio, X 1, X 2, ϕ 1 (X 1 ), ϕ 2 (X 2 ). Ustalmy dodatkowo, że F będzie dystrybuantą łączną wektora (X 1, X 2 ), zaś G wektora (ϕ 1 (X 1 ), ϕ 2 (X 2 )). Ponadto zauważmy, iż funkcje ϕ 1 i ϕ 2 są ściśle monotoniczne oraz na, zatem są odwracalne, tzn. istnieją funkcje odwrotne ϕ 1 1 oraz ϕ 2 2 określone, odpowiednio, na Ranϕ 1 i Ranϕ 2. Wobec tego dla każdego u, v R zachodzi Korzystając z twierdzenia Sklara mamy G 1 (u) = P(ϕ 1 (X 1 ) u) = P(X 1 ϕ 1 1 (u)) = F 1(ϕ 1 1 (u)) G 2 (v) = P(ϕ 2 (X 2 ) v) = P(X 2 ϕ 1 2 (v)) = F 1(ϕ 1 2 (v)). C ϕ1(x 1),ϕ 2(X 2)(G 1 (u), G 2 (v)) = G(u, v) = P(ϕ 1 (X 1 ) u, ϕ 2 (X 2 ) v) = P(X 1 ϕ 1 1 (u), X 2 ϕ 1 2 (v)) = F (ϕ 1 1 (u), ϕ 1 2 (v)) = C X1,X 2 (F 1 (ϕ 1 1 (u)), F 2(ϕ 1 2 (v))) = C X1,X 2 (G 1 (u), G 2 (v)). Jeżeli co najmniej jedna z ϕ 1, ϕ 2 są ściśle malejąca, wówczas kopuła C ϕ1(x 1),ϕ 2(X 2) jest prostą transformacją kopuły C X1,X 2. Twierdzenie [16] Niech X 1, X 2 będą ciągłymi zmiennymi losowymi o kopule C X1,X 2. Jeżeli ϕ 1, ϕ 2 będą przekształceniami ściśle monotonicznymi określonymi, odpowiednio, na RanX 1, RanX Jeśli ϕ 1 jest ściśle rosnąca i ϕ 2 jest ściśle mająca, wtedy C ϕ1(x 1),ϕ 2(X 2)(u, v) = u C X1,X 2 (u, 1 v). 2. Jeśli ϕ 1 jest ściśle malejąca i ϕ 2 jest ściśle rosnąca, wtedy C ϕ1(x 1),ϕ 2(X 2)(u, v) = v C X1,X 2 (1 u, v). 3. Jeśli ϕ 1 i ϕ 2 są ściśle malejące, wtedy C ϕ1(x 1),ϕ 2(X 2)(u, v) = u + v 1 + C X1,X 2 (1 u, 1 v). Następne twierdzania charakteryzują pewne szczególne własności wektorów losowych za pomocą podstawoowych kopuł M, W oraz Π. Poniższe twierdzenia podajemy bez dowodu. Twierdzenie [7] Niech (X 1, X 2 ) będzie wektorem losowym o ciągłej dystrybuancie łącznej. Wówczas kopuła C X1,X 2 jest kopułą Π wtedy i tylko wtedy, gdy X 1, X 2 są niezależne. 13

14 Twierdzenie [7] Niech (X 1, X 2 ) będzie wektorem losowym o ciągłej dystrybuancie łącznej. Wówczas kopuła C X1,X 2 jest kopułą M wtedy i tylko wtedy, gdy istnieje zmienna losowa Z i rosnące funkcje ϕ 1, ϕ 2 takie, że (X 1, X 2 ) = (ϕ(x 1 ), ϕ(x 2 )) prawie na pewno. Twierdzenie [7] Niech (X 1, X 2 ) będzie wektorem losowym o ciągłej dystrybuancie łącznej. Wówczas kopuła C X1,X 2 jest kopułą M wtedy i tylko wtedy, gdy dla pewnej ściśle malejącej funkcji ϕ, X 2 = ϕ(x 1 ) prawie na pewno. Na mocy twierdzenia 1.9 wiemy, że kopuły posiadają własność niezmienniczości względem translacji ściśle rosnących, zwaną również niezmiennikiem skali (ang. scale-invariant). Własność ta jest pożądana dla miar opisujących siłę związku między zmiennymi losowymi i, jak się w okazuje, można takie miary zdefiniować za pomocą kopuł. Do najbardziej znanych miar, które posiadają własność niezmiennika skali, należą współczynniki tau Kendall a oraz rho Spearman a. W naszych rozważaniach skupimy się na pierwszym z nich. Definicja 1.8 (tau Kendall a). [7] Niech (X 1, X 2 ) i ( ˆX 1, ˆX 2 ) będą niezależnymi wektorami losowymi o takim samym rozkładzie (tj. ( ˆX 1, ˆX 2 ) jest niezależną kopią wektora (X 1, X 2 )). Współczynnik tau Kendall a definiujemy jako prawdopodobieństwo zgodności minus prawdopodobieństwo niezgodności tj. τ = τ(x 1, X 2 ) = P[(X 1 ˆX 1 )(X 2 ˆX 2 ) > 0] P[(X 1 ˆX 1 )(X 2 ˆX 2 ) < 0]. Występującą w definicji różnicę możemy rozumieć jako różnicę pomiędzy prawdopodobieństwem, że wartości porównywanych zmiennych losowych układają się w tym samym porządku, a prawdopodobieństwem przeciwnym. Tau Kendall a należy do współczynników korelacji rangowych (inaczej porządkowych). Współczynnik ten mierzy monotoniczną (niekoniecznie liniową) zależność między zmiennymi losowymi i przyjmuje wartości od 1 do 1. Współczynnik tau Kendall a można też wyliczyć dla próby statystycznej. W tym celu bierzemy wszystkie pary obserwacji (x 1, x 2 ), (ˆx 1, ˆx 2 ) z n-elementowej próbki pochodzącej od wektora losowego (X 1, X 2 ), a następnie dzielimy je na: pary zgodne - gdy x 1 < ˆx 1 oraz x 2 < ˆx 2 albo x 1 > ˆx 1 oraz x 2 > ˆx 2. Liczbę par zgodnych oznaczmy przez Z. pary niezgodne - gdy x 1 < ˆx 1 oraz x 2 > ˆx 2 albo x 1 > ˆx 1 oraz x 2 < ˆx 2. Liczbę par niezgodnych znakiem oznaczmy przez N Z. Wszystkich par jest tyle, ile jest możliwości wyboru 2 elementów ze zbioru n-elementowego. Estymator tau Kendall a otrzymujemy wówczas ze wzoru [14] ˆτ = Z N Z + N = 2 Z N n(n 1). Przedstawimy teraz twierdzenie pokazujące, że τ można wyrazić za pomocą kopuł. Twierdzenie [16] Niech X 1, X 2 będą ciągłymi zmiennymi losowymi o kopule C. Wówczas współczynnik tau Kendall a definiujemy jako τ = τ(x 1, X 2 ) = 4 C(u, v)dc(u, v) 1. I 2 14

15 Dowód: Niech X 1 i X 2 są ciągłymi zmiennymi losowymi o dystrybuantach, odpowiednio, F 1 i F 2 oraz niech ( ˆX 1, ˆX 2 ) będzie niezależną kopią wektora losowego (X 1, X 2 ). Tau-Kendall a wynosi τ = τ(x 1, X 2 ) = P[(X 1 ˆX 1 )(X 2 ˆX 2 ) > 0] P[(X 1 ˆX 1 )(X 2 ˆX 2 ) < 0]. (1.10) Ponieważ X 1, X 2 są ciągłymi zmiennymi losowymi (również ˆX 1, ˆX 2 są ciągłymi zmiennymi losowymi), więc zachodzi P[(X 1 ˆX 1 )(X 2 ˆX 2 ) = 0) = P[(X 1 ˆX 1 ) = 0 (X 2 ˆX 2 ) = 0] a zatem otrzymujemy P[(X 1 ˆX 1 ) = 0] + P[(X 2 ˆX 2 ) = 0] = 0, P[(X 1 ˆX 1 )(X 2 ˆX 2 ) < 0] = 1 P[(X 1 ˆX 1 )(X 2 ˆX 2 ) > 0] i wobec tego równość (1.10) możemy zapisać jako τ = τ(x 1, X 2 ) = 2P[(X 1 ˆX 1 )(X 2 ˆX 2 ) > 0] 1. (1.11) Zauważmy, że powyższe prawdopodobieństwo można rozbić w sposób następujący P[(X 1 ˆX 1 )(X 2 ˆX 2 ) > 0] = P[X 1 > ˆX 1, X 2 > ˆX 2 ] + P[X 1 < ˆX 1, X 2 < ˆX 2 ]. (1.12) Oznaczmy przez F rozkład łączny. Następnie, warunkując jednym z wektorów losowych (w naszym przypadku ( ˆX 1, ˆX 2 )), możemy wyznaczyć te prawdopodobieństwa w postaci całek, a następnie korzystając z twierdzenia Sklara otrzymujemy P[X 1 < ˆX 1, X 2 < ˆX 2 ] = P[X 1 < x 1, X 2 < x 2 ]df (x 1, x 2 ) R 2 = P[X 1 < x 1, X 2 < x 2 ]dc(f 1 (x 1 ), F 2 (x 2 )) R 2 = C(F 1 (x 1 ), F 2 (x 2 ))dc(f 1 (x 1 ), F 2 (x 2 )), R 2 a stąd podstawiając u = F 1 (x 1 ) oraz v = F 2 (x 2 ) dostajemy P[X 1 < ˆX 1, X 2 < ˆX 2 ] = C(u, v)dc(u, v). (1.13) I 2 Podobnie P[X 1 > ˆX 1, X 2 > ˆX 2 ] = 1 P[X 1 x 1 ] P[X 2 x 2 ] + P[X 1 ˆX 1, X 2 ˆX 2 ] [ = 1 P[X 1 x 1 ] P[X 2 x 2 ] + P[X 1 ˆX 1, X 2 ˆX ] 2 ] df (x 1, x 2 ) R 2 = [1 F 1 (x 1 ) F 2 (x 2 ) + F (x 1, x 2 )] df (x 1, x 2 ) R 2 = [1 F 1 (x 1 ) F 2 (x 2 ) + C(F 1 (x 1 ), F 2 (x 2 ))] dc(f 1 (x 1 ), F 2 (x 2 )) R 2 = [1 u v + C(u, v)] dc(u, v) R 2 = [1 u v + C(u, v)] dc(u, v). I 2 Następnie zauważmy, że kopuła C jest dystrybuantą łączną wektora losowego (X 1, X 2 ), którego rozkłady brzegowe są jednostajne na I, czyli E(X 1 ) = E(X 2 ) = 1 2. Zatem poszczególne całki możemy zapisać udc(u, v) = vdc(u, v) = 1 I 2 I 2, 2 15 I 2 dc(u, v) = 1.

16 Ostatecznie otrzymujemy P[X 1 > ˆX 1, X 2 > ˆX 2 ] = I + C(u, v)dc(u, v) = C(u, v)dc(u, v). (1.14) 2 I 2 Podstawiając (1.13) i (1.14) do (1.12) dostajemy wzór P[(X 1 ˆX 1 )(X 2 ˆX 2 ) > 0] = 2 C(u, v)dc(u, v), I 2 który podstawimy do równości (1.11) na τ, uzyskując tezę twierdzenia τ = τ(x 1, X 2 ) = 4 C(u, v)dc(u, v) 1. I Rodziny kopuł Dzięki twierdzeniu Sklara kopuły znalazły zastosowanie przy modelowaniu wielowymiarowych rozkładów łącznych, szczególnie w przypadku, gdy między zmiennymi losowymi istnieje pewna zależność. Jak pokazaliśmy w rozdziale 1.4, informacja o zależności ukryta jest właśnie w kopule. W praktyce, aby znaleźć nieznany wielowymiarowy rozkład łączny, staramy się dobrać pewną rodzinę kopuł o preferowanych własnościach, która najlepiej pasuje do naszego przypadku. Oczywiście wyboru kopuły dokonujemy przyjmując określone przez nas kryterium. Rodziny kopuł zależą od parametru θ, który należy do podzbioru Θ R d. Rodzinę kopuł indeksowaną parametrami θ Θ oznaczać będziemy przez {C θ } θ Θ. Wyróżnia się dwie klasy kopuł: kopuły eliptyczne oraz kopuły archimedejskie. Poniżej przedstawiamy definicje tych rodzin i kilka standardowych przykładów kopuł, które będą nam potrzebne w późniejszej części dotyczącej modelowania. Klasa kopuł eliptycznych Na początku przypomnijmy pojęcie rozkładu eliptycznego. Mówimy, że wektor losowy X = (X 1, X 2,..., X d ) ma rozkład eliptyczny o średniej µ R d, macierzy kowariancji Σ = (σ ij ) oraz generatorze g : [0, ) [0, ), co zapisujemy X E (µ, Σ, g), jeśli zachodzi X = µ + RAU gdzie AA t = Σ, U jest d-wymiarowym wektorem losowym o rozkładzie jednostajnym na sferze S d 1 = {u R d : u u 2 d gęstości = 1}, oraz R jest dodatnią zmienną losową niezależną od U o f g (r) = 2πd/2 Γ(d/2) rd 1 g(r 2 ) dla każdego r > 0. Funkcja gęstości (o ile istnieje) rozkładu eliptycznego jest dana przez Definicja 1.9. [7] h g (x) = Σ 1/2 g((x µ) t Σ 1 (x µ)) dla każdego x R d. Niech X będzie wektorem losowym o rozkładzie eliptycznym, X E (µ, Σ, g). Załóżmy, że dla każdego i {1,..., d}, (X i / σ ii ) F g. Kopułę eliptyczną nazywamy dystrybuantę wektora losowego ( ( ) ( ) ( )) X1 X2 Xd F g, F g,..., F g. σii σ22 σdd 16

17 Zwykle postać kopuły eliptycznej nie ma prostej formy. Przykładami kopuł eliptycznych jest kopuła Gaussa oraz t Studenta. Podamy wzór pierwszej z nich, ponieważ w dalszej części będzie ona obiektem zainteresowań. Kopuła Gaussa C Ga θ (u, v) = Φ 1 (u) Φ 1 (v) 1 2π 1 θ 2 ( s2 2θst + t 2 2(1 θ 2 ) ) dsdt, gdzie θ ( 1, 1) oraz Φ 1 oznacza funkcję odwrotną do dystrybuanty standardowego rozkładu normalnego. Zauważmy, iż kopułę Gaussa możemy zapisać za pomocą dystrybuanty standardowego dwuwymiarowego rozkładu normalnego Φ 2. Klasa kopuł archimiedejskich Cθ Ga (u, v) = Φ 2 (Φ 1 (u), Φ 1 (v)). Zaczniemy od wprowadzenia pojęcia funkcji pseudo-odwrotnej, którą wykorzystuje się w definicji kopuł archimedejskich. Definicja [15] Niech φ : I [0, ) będzie ciągłą i ściśle malejącą funkcją taką, że φ(1) = 0 oraz φ(0). Pseudo-odwrotność funkcji φ o dziedzinie [0, 1] i przeciwdziedzinie [0, ) definiujemy przez φ [ 1] (t) = { φ 1 (t) 0 t φ(0), 0 φ(0), t. (1.15) Jak łatwo zauważyć, φ [ 1] jest ciągła i nierosnąca na [0, ), oraz ściśle malejąca na [0, φ(0)]. Co więcej, φ [ 1] (φ(u)) = u na I oraz φ(φ [ 1] (t)) = { t, 0 t φ(0), φ(0), φ(0) t = min{t, φ(0)}. Ponadto, jeżeli φ(0) =, wówczas φ [ 1] = φ 1. Twierdzenie [15] Niech φ : I [0, ) będzie ciągłą i ściśle malejącą funkcją taką, że φ(1) = 0 oraz niech φ [ 1] będzie jej funkcją pseudo-odwrotną zdefiniowaną przez (1.15). Wtedy funkcja C : I 2 I dana przez C(u 1, u 2 ) = φ [ 1] (φ(u 1 ) + φ(u 2 )) (1.16) jest kopułą wtedy i tylko wtedy, gdy φ jest funkcją wypukłą. Dowód powyższego twierdzenia można znaleźć w [16]. Kopuły, które można zapisać w postaci (1.16) nazywamy dwuwymiarowymi kopułami archimedejskimi (lub kopułami Archimedesa). Definicja 1.11 (Generator kopuły archimedejskiej). [15] Ciągłą, ściśle malejącą, wypukłą funkcję φ : I [0, ) spełniającą warunek φ(1) = 0 nazywamy generatorem kopuły Archimedesa. Jeżeli φ(0) =, wówczas φ nazywamy generatorem ścisłym. Zauważmy, że jeżeli generator kopuły jest generatorem ścisłym, wtedy φ [ 1] = φ 1, zatem w równości (1.16) możemy zapisać w następującej postaci C(u 1, u 2 ) = φ 1 (φ(u 1 ) + φ(u 2 )). Tak określone kopuły nazywamy ścisłymi kopułami Archimedesa. Przedstawimy teraz przykłady kopuł należących do klasy kopuł archimedejskich, które używamy w niniejszej pracy. Kopuły te należą do jednoparametrycznych rodzin kopuł archimedejskich. 17

18 Kopuła Claytona C Cl θ (u, v) = (u + v 1) 1 θ, gdzie θ (0, ). W przypadku, gdy θ 0 to kopuła Claytona odpowiada kopule niezależnej Π, czyli kopule o niezależnych rozkładach brzegowych natomiast, gdy θ + kopule komonotonicznej. Ścisły generator kopuły Claytona wynosi φ(t) = 1 θ (t θ 1), Kopuła Gumbela Cθ Gu (u, v) = exp ( ( ( log u) θ + ( log v) θ) 1 ) θ, gdzie θ [1, ). W szczególnym przypadku, gdy θ = 1 uzyskujemy kopułę niezależną, natomiast jeśli θ + kopułę komonotoniczną. Ścisły generator kopuły Gumbela wynosi φ(t) = ( log t) θ. Więcej przykładów kopuł Archimedasa można znaleźć w [16]. Na mocy twierdzenia 1.14 wiemy, że tau Kendall a możemy wyrazić za pomocą kopuł, a co za tym idzie zależność między zmiennymi za pomocą parametru θ. Relację między θ, a τ przedstawiono tabeli. Tabela 1: Zależność pomiędzy tau Kendall a a parametrem θ (źródło: [13]) rodzina kopuł przedział θ związek z τ Gauss ( 1, 1) τ = 2 π arcsin(θ) R Clayton θ (0, ) τ = θ (0, ) + 2 Gumbel [1, ) τ = θ 1 (0, ) θ 18

19 2 Estymacja łącznej szkody z wykorzystaniem kopuł Oszacowanie łącznej wartości szkód w portfelu ubezpieczeniowym jest kluczowe dla wielu decyzji aktuarialnych, np. do wyceny umów ubezpieczeniowych oraz do kalkulacji składki. Z punktu widzenia aktuariusza zagadnienie to sprowadza się do znalezienia rozkładu zmiennej losowej wyrażającej stratę, co w odniesieniu do ubezpieczeń komunikacyjnych wyraża łączną wartość szkód z polisy (ang. policy loss). W praktyce ubezpieczeniowej powszechne jest modelowanie średniej wartości szkody (ang. average claim size) oraz liczby szkód (ang. numer of claims) niezależnie, a następnie określenie łącznej wartości szkód odpowiadającej pojedynczej polisie w danym czasie jako iloczynu tych dwóch wielkości. Jednak można się zastanowić, czy w rzeczywistości między zmiennych losowymi opisującymi liczbę i wielkość szkody istnieje zależność. Rozważmy podział kierowców na takich, którzy poruszają się głównie po mieście oraz na kierowców poruszających się po autostradach. Można spodziewać się, że pierwszy typ kierowców, ze względu na mniejszy ruch w miastach, będzie częściej powodował szkody, ale jednocześnie dotkliwość powstałych szkód będzie mniejsza niż w drugim typie kierowców. Ten przykład sugeruje ujemną korelację między liczbą i wartością pojedynczych szkód. W związku z tym założenie o niezależności jest zbyt restrykcyjne i prowadzić może do nadmiernego lub niedokładnego oszacowania łącznej wartości szkody z polisy, a w konsekwencji do błędnej estymacji łącznej wartości szkód w portfelu polis. Z tej przyczyny w niniejszym rozdziale zaprezentujemy model łącznej szkody z polisy, który dopuszcza zależność między średnią wartością szkody i liczbą szkód. Zagdanienia przedstawione w tym rodziale zostały zaczerpnięte z pracy [13]. 2.1 Kopuła dla ciągło-dyskretnych rozkładów brzegowych Jak już wiemy z poprzedniego rozdziału, z (dwuwymiarową) kopułą C : I 2 I, czyli dystrybuantą łączną wektora losowego (X 1, X 2 ), której rozkłady brzegowe są jednostajne na I (tzn. X i U [0, 1] dla i = 1, 2), wiąże się bardzo ważne twierdzenie Sklara (twierdzenie 1.6). Umożliwia ono podział dwuwymiarowej dystrybuanty na kopułę i dystrybuanty brzegowe. Dzięki temu jesteśmy w stanie modelować rozkład łączny za pomocą połączania ze sobą rozkładów brzegowych z kopułą. Dodatkowo kopuły są niezmiennicze na translacje ściśle rosnące. Zatem zamiast współczynnika korelacji, który mierzy liniowy związek między zmiennymi, stosujemy monotoniczne miary zależności. Jedną z takich miar jest współczynnik tau Kendall a, który na mocy twierdzenia 1.14 jest wyrażany za pomocą kopuł. W tej pracy będziemy wykorzystywać kopułę do modelowania rozkładu łącznego przy ciągłodystretnych rozkładach brzegowych. Niech (Ω, F, P) będzie przestrzenią probabilistyczną. Oznaczmy przez X ciągłą zmienną losową o wartościach w (0, ) oraz przez Y dyskretną zmienną losową przyjmującą wartości w zbiorze {1, 2,...}. Niech F X, F Y będę dystrybuantami, odpowiednio, X, Y. Na mocy twierdzenia Sklara dystrybuanta wektora losowego (X, Y ) zdefiniowana jest przez kopułę C poprzez F X,Y (x, y) = C(F X (x), F Y (y)). Pamiętajmy, że kopuła jest wyznaczona jednoznacznie w przypadku ciągłych dystrybuant brzegowych. Określamy wektor losowy (X, Y ) w następujący sposób (X, Y ) : (Ω, F, P) ((0, ) {1, 2,...}, S, λ ν), 19

20 S to σ-ciało produktowe, generowane przez zbiory postaci B {y}, gdzie B to zbiór borelowski w (0, ), zaś y = 1, 2,.... Miara λ to miara Lebesgue a oraz ν to miara licząca określona przez ν({y}) = 1, y = 1, 2,.... Miara λ ν jest miarą produktową. Wektor losowy (X, Y ) ma ciągło-dyskretną strukturę, wobec tego do dalszej estymacji potrzebujemy łączną gęstości/funkcję prawdopodobieństwa ze względu na występowanie w rozkładzie łącznym ciągłej zmiennej losowej X oraz dyskretnej zmiennej losowej Y. Rozkład wektora losowego (X, Y ) dany jest wzorem µ X,Y (A) = P((X, Y ) 1 (A)), A S. Stosując twierdzenie Radoma-Nikodyma, otrzymujemy µ X,Y (A) = f X,Y (x, y)d(λ ν)(x, y), A S, a więc w szczególności możemy zapisać µ X,Y (B {y}) = Przyjmując za B = (0, x] do (2.1) uzyskujemy A B f X,Y (x, y)dλ(x) = µ X,Y ((0, x] {y}) = P(X x, Y = y) = B x 0 f X,Y (x, y)dx. (2.1) f X,Y (t, y)dt. (2.2) Funkcja f X,Y jest gęstością rozkładu µ X,Y względem miary produktowej λ ν (tzw. pochodną Radoma-Nikodyma). Zauważmy, że z (2.2) możemy zapisać f X,Y (x, y) = P(X x, Y = y). (2.3) x Funkcję f X,Y będziemy po prostu nazywali gęstością łączną wektora losowego (X, Y ). Następnie wprowadzimy formułę dla gęstości łącznej odnosząc się do kopuły C. Na początku oznaczmy przez C 1(u, v) := u C(u, v) dla v I pochodną cząstkową kopuły względem pierwszej zmiennej. Zgodnie z twierdzeniem 1.5 wiemy, że u C istnieje dla prawie wszystkich u I. Poniższe twierdzenie przedstawia gęstość łączną f X,Y przy wykorzystaniu kopuły i jej pochodnej cząstkowej względem pierwszej współrzędnej. Twierdzenie 2.1 (Funkcja gęstości). [13] Niech X będzie ciągłą zmienną losową oraz Y dyskretną zmienną losową. Gęstość łączna f X,Y dana jest wzorem f X,Y (x, y) = f X (x)(c 1(F X (x), F Y (y)) C 1(F X (x), F Y (y 1))). (2.4) Dowód: Z definicji wyrażonej wzorem (2.3), z twierdzenia Sklara oraz przy wykorzystaniu wzoru na pochodną funkcji złożonej mamy P(X x, Y = y) = P(X x, Y y) P(X x, Y y 1) x x x = x C(F X(x), F Y (y)) x C(F X(x), F Y (y 1)) = f X (x) x C(F X (x), F Y (y)) f X x C(F X (x), F Y (y 1)) = f X (x)(c 1(F X (x), F Y (y)) C 1(F X (x), F Y (y 1))) 20

21 W naszych rozważaniach skupimy się na 3 jednoparametrycznych rodzinach kopuł C(, θ). Będą to rodziny Gaussa, Claytona i Gumbela. W rozdziale 1.5 przedstawione zostały wzory dla tych rodzin oraz ich związek z τ Kendall a (tabela 1). Aby wyznaczyć funkcję gęstości z twierdzenia 2.1, powinniśmy znać pierwsze pochodne cząstkowe dla wybranych rodzin kopuł. W tabeli 2 zamieszczono pochodne cząstkowe C 1(u, v θ) dla kopuły Gaussa, Claytona oraz Gumbela. Tabela 2: Pierwsze pochodne cząstkowe dla wybranych rodzin kopuł (źródło: [13]) rodzina kopuł Gauss pierwsza pochodna cząstkowa C 1(u, v θ) ( Φ 1 (v) θφ 1 ) (u) Φ 1 θ 2 Clayton ( u θ + v θ 1 ) 1/θ 1 u θ 1 Gumbel u 1 ( log u) θ 1 ( ( log u) θ + ( log v) θ) 1/θ 1 exp ( ( ( log u) θ + ( log v) θ) 1/θ ) Uwaga. Zauważmy, że równość (2.4) możemy zapisać f X,Y (x, y θ) = f X (x)(c 1(F X (x), F Y (y) θ) C 1(F X (x), F Y (y 1) θ)). (2.5) 2.2 Rozkład łącznej szkody z polisy Zagadnienia przedstawione w rozdziale 2.1 mogą być stosowane dla ogólnych ciągło-dyskretnych wektorów losowych, natomiast teraz wykorzystamy je do naszych potrzeb, czyli do modelu rozkładu łącznej wartości szkód, powstałych w wyniku pewnych zdarzeń objętych ochroną ubezpieczeniową (ryzyk), co krócej będziemy nazywali: łączną szkodą z polisy (ang. policy loss). Miejmy na uwadze, że modelując rozkład łącznej szkody z polisy, tak naprawdę modelujemy rozkład zmiennej losowej wyrażającej stratę Rozkłady brzegowe Niech X będzie dodatnią zmienną losową opisującą średnią wartość szkody z pojedynczej polisy. W naszym modelu zakładamy, że średnia wartość szkody X ma rozkład Gamma (X Gamma(µ, δ)) o parametrze średniej µ > 0 oraz parametrze dyspersji δ > 0. Zmienna losowa X ma rozkład ciągły o funkcji gęstości danej wzorem f X (x µ, δ) = 1 ( ) 1 ( x δ exp xγ( 1 δ ) x ) µδ µδ gdzie Γ oznacza funkcję Gamma zdefiniowaną następująco: Γ(p) = 0 x p 1 e x dx. dla x > 0, (2.6) Następnie przyjmujemy, że liczbę szkód opisuje dodatnia zmienna losowa Y o uciętym w zerze rozkładzie Poissona (ang. zero-truncated Poisson) z parametrem λ > 0 (Y ZT P (λ)). Funkcja prawdopodobieństwa zmiennej Y wynosi f Y (y λ) = λ y y!(1 e λ ) e λ dla y = 1, 2,.... (2.7) Zauważmy, że zakładamy przyjmowanie dodatnich wartość zarówno przez zmienną losową X, jak i Y. Oznacza to, iż w naszym modelu bierzemy pod uwagę tylko polisy szkodowe, to znaczy takie, w których w badanym okresie zaistniała co najmniej jedna szkoda o wartości niezerowej. 21

22 W ubezpieczeniach korzysta się z różnych rozkładów dla liczby i średniej wartości szkody. Do najcześciej przyjmowanych rozkładów dla liczby szkód należą rozkład Poissona oraz rozkład ujemny dwumianowy, natomiast dla średniej wartości szkód, oprócz rozkładu gamma, wykorzystywany jest również rozkład log-normalny 1. Jak już wspominaliśmy, w praktyce ubezpieczeniowej przyjmuje się założenie o niezależności średniej wartości szkody X i liczby szkód Y, które nie zawsze jest spełnione. Będziemy jednak dopuszczali istnienie zależności między rozpatrywanymi zmiennymi losowymi, dlatego posłużymy się dwuwymiarowym rozkładem łącznym tych zmiennych. Związek między X i Y będziemy opisywali za pomocą współczynnika τ Kendall a Model rozkładu łącznego dla średniej wartości szody i liczby szkód z wykorzystaniem kopuły Teraz możemy połączyć rozważania na temat kopuł z przyjętymi przez nas rozkładami brzegowymi modelującymi liczbę szkód i ich średnią wartość, otrzymując poniższy ogólny model rozkładu łącznego zmiennych losowych X i Y. Definicja 2.1 (Rozkład łączny dla średniej wartości szody i liczby szkód). [13] Niech X będzie dodatnią zmienną losową określającą średnią wartość szkody o rozkładzie Gamma i funkcji gęstości (2.6) oraz Y dodatnią zmienną losową określająca liczbę szkód o uciętym w zerze rozkładzie Poissona i funkcji prawdopodobieństwa (2.7). Wówczas model rozkładu łącznego dla X i Y, oparty na kopule z twierdzenia 2.1, jest zdefiniowany przez gęstość łączną daną wzorem f X,Y (x, y µ, δ, λ, θ) = f X (x µ, δ)(c 1(F X (x µ, δ), F Y (y λ) θ) C 1(F X (x µ, δ), F Y (y 1 λ) θ)) (2.8) dla x > 0 oraz y = 1, 2,.... Powyższy model rozkładu łącznego f X,Y zależy od 4 parametrów: µ, δ (rozkładu Gamma), λ (rozkładu ZTP), które są związane z rozkładami brzegowymi, oraz parametru θ związanego z kopułą. Korzystając z powyższej definicji otrzymujemy elementarne kolejne twierdzenie. Twierdzenie 2.2. [13] Rozkład warunkowy Y X = x liczby szkód przy ustalanej średniej wartości szkody x jest dany przez P(Y = y X = x, µ, δ, λ, θ) = C 1 (F X (x µ, δ), F Y (y λ) θ) C 1 (F X (x µ, δ), F Y (y 1 λ) θ)). (2.9) Dowód: Teza twierdzenia wynika natychmiast z twierdzenia 2.1 i wzoru na rozkład warunkowy zmiennej losowej Y przy warunku X = x P(Y = y X = x, µ, δ, λ, θ) = f X,Y (x, y µ, δ, λ, θ). f X (x µ, δ) Przykład 1 Niech X Gamma(µ, δ) opisuje średnią wartość szkody, wyrażaną w zł, oraz Y ZT P (λ) liczbę szkód. Rozważmy pewną grupę posiadaczy polis oraz przyjmijmy, że wartość oczekiwana średniej wartości szkody wynosi 1000 zł E(X) = µ = 1000, 1 Inne metody modelowania rozkładu liczby szkód i wartości szkody można znaleźć w Otto W.: Ubezpieczenia majątkowe. Część I Teoria Ryzyka, Wydawnictwa Naukowo-techniczne,

23 natomiast λ = 2.5, wówczas wartość oczekiwana liczby szkód wynosi E(Y ) = λ e λ Dodatkowo załóżmy, że odchylenie standardowe X wynosi 300 zł ( V ar(x) = 300), zatem możemy policzyć parametr dyspersji następująco: δ = V ar(x) µ 2 = = (a) Wyznaczymy rozkład warunkowy Y X = x, gdy średnia wartość szkody wynosi x = 1200 zł dla kopuły Claytona z 4 różnymi wartościami τ = 0, 0.1, 0.3, 0.5, gdzie τ to współczynnik tau Kendall a, mierzący zależność między zmiennymi X i Y. W tym celu, korzystając z twierdzenia 2.2, wyliczymy rozkład warunkowy w programie SAS (kod D.3), ale najpierw musimy rozpisać pojawiające się w nim obiekty. Pochodna kopuły Claytona wyraża się wzorem (patrz: tabela 2) C C 1 (u, v) = ( u θ + v θ 1 ) 1/θ 1 u θ 1 Z kolei mamy następującą relację miedzy θ a τ dla kopuły Claytona θ (0, ). τ = θ θ + 2 θ = 2τ, θ (0, ) 1 τ zatem, gdy τ = 0.1, 0.3, 0.5 wartości θ wynoszą, odpowiednio, 2 9, 6 7, 2. W przypadku, gdy τ = 0 wiemy, że kopuła Claytona dąży do kopuły produktowej Π, dlatego przyjmiemy wówczas θ = Następnie sprowadzamy rozkład X do parametryzacji skalo-kształtej (patrz: dodatek B2.), gdyż taka parametryzacja jest używana przez SAS δ = 1 α α = 1 δ µ = αβ β = µ α = µδ, więc w naszym przypadku otrzymujemy β = 90, zaś α = 100/9. Potrzebujemy jeszcze wartości funkcji dystrybuanty zmiennej losowej Y o uciętym w zerze rozkładzie Poissona. Wynosi ona F Y (y) = P(Y y) = y P(Y = i) = i=1 Ostatecznie wzór (2.9) dla y = 1, 2,.... przyjmuje postać y i=1 λ i e λ i!(1 e λ ). P(Y = y X = 1200) = F X (1200) θ 1 ( F X (1200) θ + F Y (y) θ 1 ) 1/θ 1 (2.10) F X (1200) θ 1 ( F X (1200) θ + F Y (y 1) θ 1 ) 1/θ 1, gdzie θ = , 2 9, 6 7, 2. Zauważmy, że dla y = 1 powyższy wzór sprowadza się tylko do pierwszego składnika, ponieważ drugi składnik się zeruje. Istotnie zatem F Y (0) = 0 P(Y = i) = 0, i=1 ( FX (1200) θ + F Y (0) θ 1 ) 1/θ 1 = ( F X (1200) θ + 0 θ 1 ) 1/θ 1 = ( F X (1200) θ + 1 ) 1/θ 1 = ( ) 1/θ 1 = 0. 23

24 Rysunek 3: Warunkowa funkcja prawdopodobieństwa zmiennej Y X = 1200 dla kopuły Claytona z τ = 0, 0.1, 0.3, 0.5 (źródło: opracowanie własne) Rysunek 3 pokazuje warunkową funkcję prawdopodobieństwa zmiennej Y X = 1200 dla kopuły Claytona z τ = 0, 0.1, 0.3, 0.5 (θ = , 2 9, 6 7, 2). Możemy, zauważyć, że wraz ze wzrostem τ funkcje prawdopodobieństwa przesuwają się w prawo oraz pojawiają się większe wartości prawdopodobieństwa określonego zdarzenia. Jest to spowodowane zwiększającą się zależnością między zmiennymi X i Y oraz wynika z faktu, że wartość przyjętego warunku x = 1200 zł jest wyższa niż oczekiwana wartość średniej wielkości szkód µ = 1000 zł. (b) Następnie chcemy wyznaczyć warunkowy rozkład prawdopodobieństwa Y X = x, gdy średnia wartość szkody wynosi x = 1200 zł dla kopuły Gaussa, Claytona oraz Gumbela przy współczynniku τ = 0.3. Postępujemy analogicznie jak w punkcie (a) stosując odpowiednią pierwszą pochodną cząstkową C 1 dla danej kopuły oraz formułę na θ. Mianowicie dla kopuły Gaussa mamy oraz dla kopuły Gumbela ( Φ C 1 Ga 1 (v) θφ 1 ) (u) (u, v) = Φ 1 θ 2 τ = 2 π arcsin θ θ = sin ( τπ 2 C Gu 1 (u, v) = u 1 ( log u) θ 1 ( ( log u) θ + ( log v) θ) 1/θ 1 exp ( ( ( log u) θ + ( log v) θ) 1/θ ) oraz τ = 1 1 θ θ = 1 1 τ. W kodzie D.4 znajdują się wyliczenia w SAS do tej części przykładu. Rysunek 4 przedstawia warunkową funkcję prawdopodobieństwa Y X = 1200 dla kopuły Gaussa, Claytona i Gumbela przy ustalonej wartości współczynnika τ = 0.3. Możemy zauważyć, że przy ustalonej zależności między zmiennymi losowymi rozkład warunkowy w zależności od kopuły nieznacznie się różni. Ponadto dla kopuły Gumbela prawy ogon rozkładu jest bardziej przesunięty w prawo w porównaniu z pozostałymi kopułami. ), 24

25 Rysunek 4: Warunkowa funkcja prawdopodobieństwa zmiennej Y X = 1200 przy τ = 0.3 dla kopuły Gaussa, Claytona i Gumbela (źródło: opracowanie własne) Na podstawie tego przykładu możemy wysunąć wniosek, że znacznie większy wpływ na rozkład warunkowy ma wybór zależności niż wybór rodziny kopuł, a co za tym idzie wpływ ten jest zauważalny również dla rozkładu łącznego liczby i średniej wartości szkód. Zatem założenie o braku zależności miedzy zmiennymi losowymi może prowadzić do błędów estymacji Estymacja łącznej szkoda z polisy Możemy teraz przejść do głównego celu niniejszej pracy, czyli do wprowadzania rozkładu łącznej wartości szkód odpowiadającej pojedynczej polisie. Na początku zdefiniujemy zmienną losową określającą tę wielkość. Definicja 2.2 (Łączna szkoda z polisy). [13] Niech X będzie dodatnią zmienną losową określającą średnią wartość szkody oraz Y dodatnią zmienną losową określającą liczbę szkód. Łączna szkoda z polisy jest definiowana jako iloczyn tych wielkości, tj. L := X Y. (2.11) Łączna szkoda z polisy jest dodatnią, ciągłą zmienną losową i zależy od 4 parametrów, o których mowa była już wcześniej. Poniższe twierdzenie przedstawia rozkład łącznej wartości szkód (lub równoważnie mówiąc łącznej szkody z polisy), czyli rozkład zmiennej losowej L. Twierdzenie 2.3. Rozkład łącznej szkody z polisy L jest dany przez funkcję gęstości f L (l µ, δ, λ, θ) = dla l > 0. y=1 1 y f X [ ( ) ) ( ) )] ly ly C 1 (F X µ, δ, F Y (y λ) θ C 1 (F X µ, δ, F Y (y 1 λ) θ ( ) l y µ, δ (2.12) 25

26 Dowód: Dla uproszczenia notacji pominiemy parametry modelu zapisane w powyższej formule. Rozważmy dwuwymiarowy wektor losowy (L, Y ) T R + {1, 2,...} Zatem widzimy, że wektor losowy (L, Y ) ma ciągło-dyskretną strukturę, wobec tego możemy zastosować wzór (2.3) na gęstość łączną f L,Y (l, y) = P(L l, Y = y). (2.13) l Przekształcając wzór (2.11) do X = L/Y i w kolejnym kroku podstawiając x = l/y, otrzymujemy f L,Y (l, y) = ( l P X l ) y, Y = y = f X,Y ( l y, y ) 1 y. Korzystając z twierdzenia 2.1 dostajemy rozkład łączny wektora (L, Y ) ( ) [ ( ( ) ) ( ( ) )] l l l f L,Y (l, y) = f X C 1 F X, F Y (y) C 1 F X, F Y (y 1) y y y a następnie, stosując wzór na rozkład brzegowy, gdy Y jest zmienną losową o rozkładzie dyskretnym, otrzymujemy tezę twierdzenia f L (l) = gdzie ν jest miarą liczącą. {1,2,...} f L,Y (l, y)dν = y=1,2,... f L,Y (l, y), Twierdzenie 2.3 daje nam formułę, dzięki której możemy odczytać pewne własności rozkładu. Ponadto mamy możliwość oszacowania gęstości dla łącznej szkody z polisy L przy ustalonym zbiorze parametrów µ, δ, λ, związanych z zadanymi rozkładami brzegowymi, oraz parametrze θ związanym z rodziną kopuł. W pierwszej kolejności zilustrujemy gęstości L w zależności od wyboru kopuły oraz stopnia zależności między średnią wartością szkody X oraz liczbą szkód Y, przy takich samych parametrach rozkładu dla rozkładów brzegowych jak w przykładzie 1. Następnie zilustrujemy gęstość L przy założeniu niezależności między omawianymi zmiennymi. Ponadto, korzystając z pakietu {CopulaRegression} 2 wyznaczymy wartość oczekiwaną łącznej wartości szkód z polisy. 1 y, Przykład 1 - kontynuacja (c) Przypomnijmy, że oraz X Gamma(1000, 0.09) Y ZT P (2.5). Korzystając z twierdzenia 2.3 w programie SAS wyliczamy teoretyczne wartości funkcji gęstości f L dla kopuły Gaussa, Claytona oraz Gumbela i dla 3 różnych parametrów współczynnika τ Kendall a, równych 0.1, 0.3 i 0.5 (kod D.5). Otrzymane wyniki przedstawia rysunek 5. 2 Pakiet {CopulaRegression} programu R został stworzony przez autorów pracy [13] i zawiera zaimplementowane zagadnienia z owej pracy 26

27 Rysunek 5: Gęstości łącznej szkody z polisy dla kopuły Gaussa, Claytona oraz Gumbela przy trzech wartościach τ Kendall a (źródło: opracowanie własne) 27

28 Po pierwsze zauważamy, że rozkład łącznej szkody z polisy cechuje się prawostronną asymetrią, gdyż prawy ogon rozkładu jest dłuższy. Na wykresach widoczne również są dwa maksima, co oznacza, iż rozkład posiada dwie najczęściej występujące wartości (mody). Zatem teoretyczne gęstości f L mają tendencję do wielomodalności. W dodatku występujące górki stają się bardziej wyraźne przy wzroście współczynnika τ. Te dwie własności (skośność i wielomodalność) można łatwo wyjaśnić z twierdzenia 2.3. Wprowadzając oznaczenie κ(y, l µ, δ, λ, θ) := 1 ( y P Y = y X = l ) y, µ, δ, λ, θ, gęstość szkody z polisy L możemy zapisać jako nieskończoną kombinację rozkładów Gamma f L (l µ, δ, λ, θ) = y=1 κ(y, l µ, δ, λ, θ) f X ( l y µ, δ ). Ponieważ poszczególne gęstości Gamma charakteryzują się skośnością, to wydaje się być naturalnym, że kombinacja tych gęstości również posiada tę własność. Ponadto kombinacja jednomodalnych gęstości Gamma także może być wielomodalna. Niewątpliwie zbiór przyjętych parametrów µ, δ, λ, θ wpływa na liczbę najczęściej występujących wartości oraz na to, jak wyraźne one są. Jednak najważniejszym spostrzeżeniem wynikającym z rysunku 5 jest to, że wykresy gęstości f L są prawie identyczne dla wszystkich trzech kopuł, a więc wybór rodziny kopuł w bardzo małym stopniu wpływa na rozkład łącznej szkody z polisy. Natomiast na rozkład L zdecydowanie wpływa współczynnik τ. Następnie przedstawimy oszacowaną gęstość łącznej wartości szkód L przy założeniu niezależności między średnią wartością szkody X a liczbą szkód Y. W tym celu w programie SAS stworzono symulację (kod D.6) n = 1000 wartości łącznej szkody z polisy, będących iloczynem obserwacji pochodzących z rozkładu Gamma oraz ZTP l i = x i y i, i = 1,..., 1000, gdzie x i, y i są niezależnie losowane z odpowiedniego rozkładu. Za pomocą procedury proc kde oszacowano gęstość jądra dla L, co przedstawia rysunek 6. Rysunek 6: Oszacowana gęstość L przy założeniu niezależności X i Y. (źródło: opracowanie własne) 28

29 Statystyczne szacowanie gęstości obejmuje przybliżenie hipotetycznej funkcji gęstości prawdopodobieństwa z obserwowanych danych 3. Na podstawie rysunku 6 widzimy, że gęstość zmiennej L = X Y przy założeniu niezależności między X i Y również cechuje się asymetrią prawostronną. Jednak w tym przypadku nie zauważamy wielomodalności. W kolejnym kroku wyznaczymy wartość oczekiwaną zmiennej losowej L wyrażającej łączną wartość szkód z polisy dla różnych wartości współczynnika τ, wynoszących 0.1, 0.3 i 0.5 dla kopuły Gaussa, Claytona oraz Gumbela. Zauważmy, że wartość oczekiwaną L = X Y, przy założeniu niezależności zmiennych X od Y, wynosi E(L) = E(X Y ) = E(X) E(Y ) = = 2723 (zł) Korzystając z funkcji epolicyloss wyznaczamy w programie R wartości oczekiwane łącznej szkody z polisy (kod D.7). Otrzymane wyniki przedstawia tabela 3. Tabela 3: Wartość oczekiwana łącznej szkody z polisy L w złotych dla kopuły Gaussa, Claytona oraz Gumbela (źródło: opracowanie własne) rodzina kopuł wartość τ Gauss Clayton Gumbel Wartość oczekiwana łącznej szkody z polisy przy założeniu niezależności X i Y wynosi 2723 zł. Natomiast przy zwiększającej się wartości współczynnika τ, wyrażającego związek miedzy X i Y, zauważamy, że dla wszystkich kopuł wartości oczekiwane L są większe od 2723 zł. Oznacza to, że założenie o niezależności średniej wartości szkody i liczby szkód prowadzi do niedoszacowania łącznej szkody z polisy. Bazując na przedstawionych w tym rozdziale przykładach widzimy, że wybór rodziny kopuł nie wpływa w znacznym stopniu na rozkład łącznej wartości szkód z polisy L. Natomiast obserwujemy silną zależność rozkładu tej zmiennej w stosunku do wielkości współczynnika τ, który mówi o występowaniu zależności między średnią wartością szkody X a liczbą szkód Y. 3 Szacowanie gęstości jądra jest nieparametryczną techniką oceny gęstości, w której znaną funkcję gęstości (jądro) uśrednia się w obserwowanych punktach danych, aby uzyskać gładkie przybliżenie. 29

30 3 Modele regresyjne Jak już zostało powiedziane, głównym zadaniem firm ubezpieczeniowych jest problem kalkulacji składki i należy tego dokonać w taki sposób, aby zapewniała ona zdolność wypłacenia wszystkich należnych świadczeń. W poprzednim rozdziale przedstawiliśmy ten problem z punktu widzenia aktuariusza, bowiem poszukiwaliśmy rozkładu łącznej wartości szkód z polisy, jednak teraz rozważymy go pod kątem wyceny umów ubezpieczeniowych. Oczywistym jest, że firma ubezpieczeniowa nie powinna stosować tej samej składki dla wszystkich polis. Składka powinna być ustalona ze względu na indywidualne cechy klienta, na podstawie których przejawia on podatność na ryzyko wystąpienia dowolnego roszczenia. Tak więc kolejnym podejściem do omawianego zagadnienia jest przeprowadzenie poprawnego podziału klientów na tzw. grupy taryfowe. 3.1 Zagadnienie klasyfikacji w ubezpieczeniach Klasyfikacja klientów w ubezpieczeniach komunikacyjnych polega na tym, aby wyznaczyć zbiór cech charakteryzujących daną grupę taryfową, w której klienci będą generować podobną wysokość roszczeń. Należy przez to rozumieć, że osoby należące do tej samej klasy taryfowej przejawiają podobną podatność na ryzyko. Wyznaczenie grup taryfowych odbywa się w oparciu o zbiór zmiennych (zbiór danych statystycznych) opisujących danego klienta, czyli tak zwanych czynników ryzyka. Przy poprawnie przeprowadzonej klasyfikacji powstaje (względnie) jednorodny portfel polis ubezpieczeniowych. W ten sposób aktuariusz może sprawiedliwie i uczciwie wycenić składkę dla osób o podobnym profilu ryzyka. Z punktu widzenia firmy ubezpieczeniowej jest to niezwykle ważne, gdyż poprawne określenie taryfy daje przewagę na rynku ubezpieczeń. W obecnej praktyce ubezpieczeń komunikacyjnych ratemaking, czyli proces klasyfikacji ryzyka, składa się zasadniczo z dwóch etapów. Pierwszy z nich to klasyfikacja a priori, czyli proces klasyfikacji kierowców na grupy ryzyka w momencie zakładania polisy na podstawie obserwowalnych czynników. Do zmiennych objaśniających (zwanych też klasyfikującymi) w tym procesie należą między innymi: wiek; płeć; miejsce zamieszkania; wykonywany zawód; status materialny; rodzaj, kolor, marka samochodu; pojemność silnika, cel użytkowania samochodu, jak i wiele innych. Zauważmy, że wymienione zmienne, czyli czynniki ryzyka, możemy podzielić na następujące grupy [17]: czynniki opisujące kierowcę, czynniki dotyczące pojazdu, czynniki zawierające cele, pozostałe czynniki. Ponadto zmienne objaśniające można również podzielić ze względu na ich rodzaj: zmienne liczbowe (np. pojemność silnika), zmienne kategorialne (np. wiek), zmienne dychotomiczne (np. płeć). Jednakże system klasyfikacji a priori nie jest w stanie uwzględnić wszystkich ważnych czynników, ponieważ niektórych z nich nie możemy w żaden sposób zmierzyć. Do takich zmiennych należą między innymi: umiejętność prowadzenia samochodu, stan techniczny samochodu, stan wzroku, stan zdrowia, szybkość odruchów, agresywność podczas prowadzenia samochodu, respektowanie przepisów ruchu drogowego, przebieg samochodu. Mimo iż wymienione zmienne niewątpliwie powinny być brane pod uwagę przy ustalaniu składki klienta, to ze względu na ich indywidualny charakter nie ma jednak możliwości wprowadzenia ich do systemu taryfikującego. Tak więc nawet najdokładniejsza klasyfikacja a priori, uwzględniająca szereg zmiennych klasyfikujących, nie przedstawi 30

31 całkowitej podatności na ryzyko, co w konsekwencji będzie prowadzić do niejednorodności całego portfela. Z tego powodu klasyfikacja a posteriori jest niezbędna, aby umożliwić ponowną ocenę składki, uwzględniającą zwyżki i zniżki na podstawie indywidualnej historii zgłoszonych roszczeń ubezpieczonego, gdy stanie się ona dostępna [2]. W pracy ograniczymy się do taryfikacji a priori. Aby skonstruować strukturę taryfową, która odzwierciedla różne profile ryzyka w portfelu polis ubezpieczeniowych, stosuje się modele statystyczne. Techniki regresyjne pozwalają na włączenie różnych zmiennych objaśnianych, tak aby aktuariusz był w stanie skonstruować klasy ryzyka z mniej lub bardziej podobnymi profilami ryzyka. Dla ubezpieczeń majątkowych typowymi zmiennzmi objaśnianymi w tych modelach są: częstość zgłoszonych roszczeń (ang. claim frequency) oraz odpowiadająca jej kwota roszczenia (ang. claim severity). W odniesieniu do polis komunikacyjnych (np. polis OC/AC) możemy mówić o modelach regresyjnych dla liczby szkód i ich średniej wartości. Ze względu na charakter profili ryzyka i danych ubezpieczeniowych do najczęściej wykorzystywanych technik regresyjnych należą uogólnione modele liniowe (ang. generalized linear models)[19]. 3.2 Uogólnione modele liniowe Uogólnione modele liniowe (ozn. GLM) służą do modelowania relacji pomiędzy zmienną objaśnianą (zmienną zależną) a zmiennymi objaśniającymi (zmiennymi niezależnymi) i są uogólnieniem zwykłej regresji liniowej. Przypomnijmy teraz założenia klasycznego modelu regresji liniowej. Klasyczny model regresji liniowej ([9]) KMRL zakłada, że zmienna zależna Z (zmienna losowa) składa się z liniowej kombinacji zmiennych niezależnych (predyktorów) oraz składnika losowego. Dokładniej model regresji liniowej przyjmuje formę Z = β 0 + β 1 x β m x m + ε gdzie β 0, β 1,..., β m to współczynniki modelu, x 1,..., x m to zmienne objaśniające, zaś ε to składnik losowy (błąd). Dla n niezależnych obserwacji Z i powiązanych z nimi wartościami x i model przyjmuje postać Z 1 = β 0 + β 1 x 11 + β 2 x β m x 1m + ε 1 Z 2 = β 0 + β 1 x 21 + β 2 x β m x 2m + ε 2. Z n = β 0 + β 1 x n1 + β 2 x n β m x nm + ε n gdzie ε j jest ciągiem niezależnych zmiennych losowych o rozkładzie normalnym N (0, σ 2 ) dla każdego 1 j n. Przechodząc na postać macierzową dostajemy Z 1 1 x 11 x x 1m β 0 ε 1 Z 2 1 x 21 x x 2m β 1 ε 2 = Z n 1 x n1 x n2... x nm β m ε n Równanie modelu przyjmuje postać Z = Xβ + ε ε N (0, σ 2 I) 31

32 gdzie β oraz σ 2 są nieznanymi parametrami modelu, których szukamy. Zakładamy, że istnieją parametry β i, i = 0, 1,..., m takie, że E(Z) = µ = β 0 + β 1 x β m x m, V ar(z) = σ 2. Zauważmy, że normalność składnika losowego implikuje normalność zmiennej zależnej Z, zatem Z N (µ, σ 2 ). Współczynniki regresji liniowej β można estymować za pomocą metody najmniejszych kwadratów, która jest w tym przypadku jednocześnie metodą największej wiarogodności. Jest to jedna z najstarszych metod estymacji. Uogólnione modele liniowe ([5], [6], [1]) GLM uogólniają podejście w klasycznej regresji liniowej w dwóch zasadniczych kwestiach: rozkład zmiennej objaśnianej jest wybierany z wykładniczej rodziny rozkładów, tak więc nie musi mieć rozkładu normalnego, przekształcenie wartości oczekiwanej zmiennej objaśnianej jest liniowo związane ze zmiennymi objaśniającymi. W konsekwencji przynależenia zmiennej zależnej do wykładniczej rodziny rozkładów modelowana relacja może być heteroskedastyczna, a zatem wariancja będzie się zmieniać w zależności od średniej, a ta z kolei będzie się zmieniać w zależności od zmiennych objaśniających. Główne założenia uogólnionych modeli liniowych: Załóżmy, że mamy ciąg niezależnych zmiennych losowych Z j, j = 1,..., n o realizacji z j oraz odpowiadające każdemu z nich wartości x j1,..., x jm. Związek tych zmiennych często zapisuje się za pomocą notacji indeksowanej następująco: Z j = Z(x j ), j = 1,..., n, gdzie x j = (x j1,..., x jm ) t. Równanie predykcji dla zmiennej zależnej Z j ma postać g(e(z j )) = β 0 + β 1 x j β m x jm. gdzie g nazywamy funkcją łączącą (ang. link function). Powyższe równanie przedstawia związek zmiennej objaśnianej ze zmiennymi objaśniającymi poprzez funkcję g, która nie musi być liniowa. Dodatkowo zakładamy, że funkcja łącząca g jest różniczkowalna i ściśle monotoniczna. Ponieważ jest ona ściśle monotoniczna, wówczas istnieje funkcja odwrotna, więc powyższe równanie może być zapisane jako E(Z j ) = g 1 (β 0 + β 1 x j β m x jm ). (3.1) Zmienne objaśniające są nadal połączone w funkcję liniową, ale zmienna objaśniana może być nieliniową funkcją tej kombinacji. Liniowa kombinacja m zmiennych objaśniających tworzy predyktor liniowy (ang. linear predictor) oznaczany przez η: η j = β 0 + β 1 x j β m x jm. Po jego uwzględnieniu i wprowadzaniu zapisu µ j = E(Z j ) równanie (3.1) przyjmuje postać µ j = g 1 (η j ), 32

33 a zapisane w postaci macierzowej E(Z) = µ = g 1 (η). gdzie Z = (Z 1,..., Z n ) t, µ = (µ 1,..., µ n ) t, η = (η 1,..., η n ) t = Xβ. Następnym bardzo ważnym założeniem GLM jest to, że zmienne objaśniane Z j członkami muszą być wykładniczej rodziny rozkładów. Podczas modelowania możemy wybrać rozkład z tej rodziny, który będzie odpowiedni dla modelowanej zależności. Wartości współczynników β 0, β 1,..., β m są estymowane z danych za pomocą metod największej wiarogodności. Wykładnicza rodzina rozkładów: W GLM zakładamy, że zmienna objaśniana Z (a tym samym zmienne Z j, j = 1,..., n) należy do wykładniczej rodziny rozkładów, to znaczy rozkład prawdopodobieństwa może być zapisany w następującej postaci: { } zθ b(θ) f(z θ, φ) = exp + c(z, φ), (3.2) a(φ) gdzie a(φ) jest dodatnia i ciągła, b(θ) jest dwukrotnie różniczkowalna oraz jej druga pochodna jest dodatnia i odwracalna, c(z, φ) nie jest zależna od θ. Parametr θ nazywamy parametrem kanonicznym i jest on związany ze średnią, natomiast φ nazywamy parametrem dyspersji (skali) związanym z wariancją. Zmienna objaśniana możne być dyskretna lub ciągła, wobec tego funkcja f( θ, φ) reprezentuje albo funkcję prawdopodobieństwa albo gęstość. Funkcje b(θ), a(φ) oraz c(z, θ) determinują różne klasy rozkładów, a tym samym rozwiązania problemów GLM. Oznacza to, że rozkład zmiennej zależnej należy dostosować do modelowanej sytuacji. Ta własność daje przewagę GLM nad KMRL, gdyż nie musimy zakładać, że analizowana zmienna objaśniana ma rozkład normalny. Wartość oczekiwana oraz wariancja dla rozkładów pochodzących z wykładniczej rodziny rozkładów wynoszą E(Z) = b (θ) (3.3) V ar(z) = a(φ)b (θ), (3.4) gdzie b (θ) oraz b (θ) oznaczają odpowiednio pierwszą i drugą pochodną względem θ. Udowodnimy teraz równości (3.3) oraz (3.4). Wyznaczmy pierwszą i drugą pochodną funkcji f(z) z (3.2) względem θ. Wynoszą one [ z b f ] (θ) (z) = f(z), f (z) = f(z) a(φ) [ z b (θ) a(φ) Całkując obustronnie powyższe równości względem z otrzymujemy 0 = E(Z) b (θ), 0 = E(Z b (θ)) 2 a(φ) a(φ) 2 b (θ) a(φ) ] 2 f(z) b (θ a(φ). Zakładając, że całkę i pochodną możemy zamieniać miejscami, lewe strony powyższych równości wynoszą zero f (z)dz = θ f(z)dz = 0, 33 f (z)dz = 2 θ 2 f(z)dz = 0. (3.5)

34 Równości (3.3) oraz (3.4) wynikają z (3.5). Do rodziny rozkładów wykładniczych należą miedzy innymi rozkład normalny, Poissona, Gamma, dwumianowy i wykładniczy. Pokażemy teraz w poniższym przykładzie, że rozkład Poissona należy do wykładniczej rodziny rozkładów. Przykład 2 Funkcję rozkładu prawdopodobieństwa dla rozkładu Poissona (patrz: dodatek B.3) możemy zapisać f(y λ) = λy e λ y! { ( λ y e λ )} = exp log y! { } y log λ λ = exp log y!. 1 Podstawiając θ = log λ lub równoważnie e θ = λ dostajemy { } yθ e θ f(y λ) = exp log y!. 1 Zatem b(θ) = e θ, a(φ) = φ = 1 oraz c(y, φ) = log y!. Możemy również obliczyć średnią oraz wariancję rozkładu na podstawie wzorów (3.3) oraz (3.4): E(Y ) = b (θ) = e θ = λ, V ar(y ) = a(φ)b (θ) = e θ = λ. W tabeli 4 przedstawiono cztery przykładowe rozkłady należące do wykładniczej rodziny rozkładów z uwzględnieniem wyboru funkcji b(θ), a(φ) oraz c(z, φ). Tabela 4: Wykładnicza rodzina rozkładów (źródło: [5]) rozkład θ b(θ) φ a(φ) c(z, φ) Normalny(µ, σ 2 ) µ θ 2 /2 σ 2 φ 1 [ ] z 2 2 φ + log(2πφ) Poissona(λ) log λ e θ 1 1 log(y!) Dwumianowy (p, n) log[p/(1 p)] n log(1 + e θ ) 1 1 log ( ) n z Gamma(µ, δ) 1 µ log( θ) δ φ 1 φ log z φ log y log Γ( 1 φ ) Niekiedy w literaturze możemy spotkać się z sytuacją, że funkcja a(φ) w równości (3.2) jest zastąpiona przez φ/w, gdzie w > 0 oznacza wagę. Zatem funkcja prawdopodobieństwa/gęstość przybiera postać { } zθ b(θ) f(z θ, φ, w) = exp + c(z, φ/w). φ/w Zwykle zakłada się, że parametr dyspersji φ jest stały dla wszystkich zmiennych objaśnianych w próbce. Parametr φ albo jest znany z góry (np. dla regresjii Poissona φ = 1) albo musi być estymowany. W przypadku gdy φ jest traktowany jako kolejny parametr modelu, może być estymowany metodą największej wiarogodności. Niestety wadą takiego podejścia jest to, że nie można uzyskać jednoznacznej formuły dla φ i rozwiązanie równania największej wiarogodności dla φ jest trudne. 34

35 Inne możliwości estymowania parametru φ można znaleźć w [1]. Nie będziemy dalej skupiać się na tym problemie. Użycie wag w przypadku postaci funkcji prawdopodobieństwa/gęstości jest przydatne, gdy dane są zgrupowane lub określają częstotliwość, wówczas w jest częstością poszczególnej obserwacji. W przypadku regresji Poissona wagi w = 1 i z tego powodu nie wpływają na modelowane zagadnienie. Funkcja wariancji: Poprzez zastąpienie funkcji a(φ) przez φ/w w formule na wariancję (3.4) otrzymujemy, że V ar(z) = φ w b (θ). (3.6) Przy założeniu odwracalności funkcji b (θ) z równości (3.3) parametr θ możemy wyznaczać jako funkcję wartości oczekiwanej µ = E(Z) θ = b 1 (µ). (3.7) Wiemy również, że µ jest funkcją predyktora liniowego η, który wyraża się za pomocą kombinacji liniowej m zmiennych objaśniających µ = g 1 (η) = g 1 (β 0 + β 1 x β m x m ). Stąd też otrzymujemy, że θ jest funkcją parametrów β 0, β 1,..., β m θ = b 1 (g 1 (β 0 + β 1 x β m x m )) Następnie, podstawiając (3.7) w (3.6), otrzymujemy V ar(z) = φ w V (µ). gdzie V (µ) = b (b 1 (µ)). Funkcję V (µ) nazywamy funkcją wariancji. Powyższe równanie określa związek między wariancją a wartością oczekiwaną dla wykładniczej rodziny rozkładów, mianowicie wariacja zmiennej objaśnianej jest funkcją jej wartości oczekiwanej. Ponadto wiedząc, że µ jest funkcją predyktora liniowego, a tym samym parametrów β 0, β 1,..., β m, możemy zauważyć, że zmienność parametrów w GLM będzie pociągała za sobą zmienność wartości oczekiwanej, a ta z kolei będzie wpływać na zmienność wariancji. W tabeli 5 przedstawiono funkcje wariancji V (µ) dla przykładowych rozkładów. Tabela 5: Funkcje wariancji V (µ) (źródło: [5]) rozkład V (µ) Normalny µ 0 = 1 Poissona µ Dwumianowy µ(1 µ) Gamma µ 2 Funkcja łącząca: W założeniach modelu GLM funkcja g musi być różniczkowalna oraz ściśle monotoniczna - albo ściśle rosnąca albo ściśle malejąca. Wtedy wówczas istnieje jej funkcja odwrotna g(µ) = η, µ = g 1 (η). 35

36 Z tego względu powszechnie stosuje się kilka typowych funkcji łączących, które są przestawione w tabeli 6. Tabela 6: Standardowe funkcje łączące g (źródło: [5]) g(µ) g 1 (η) dziedzina g 1 (η) identyczność µ η (, + ) logarytmiczna log µ e η (0, + ) logitowa log(µ/(1 µ)) e η /(1 + e η ) (0, 1) probitowa Φ 1 (µ) Φ(η) (0, 1) odwrotność 1 µ 1 η (, 0) (0, + ) Metoda największej wiarogodności dla współczynników modelu: Współczynniki β 0, β 1,..., β m są estymowane metodą największej wiarogodności (ang. maximum likelhood estimation, ozn. MLE). Załóżmy standardowo, że mamy ciąg niezależnych zmiennych losowych Z j, j = 1,..., n o realizacji z j. Funkcja wiarogodności dana jest wzorem L(β) = n f(z j θ j, φ) = j=1 n j=1 { } zj θ j b(θ j ) exp + c(z j, φ) a j (φ) gdzie β = (β 0, β 1,..., β m ) t. Celem metody największej wiarogodności jest wyznaczenie wektora parametrów β współczynników regresji β poprzez maksymalizację funkcji logarytmu wiarogodności: n l(β) = log(l(β)) = log f(z j θ j, φ) = = j=1 n log f(z j θ j, φ) n [ ] zj θ j b(θ j ) + c(z j, φ). (3.8) a j (φ) j=1 Aby tego dokonać, należy obliczyć pierwsze pochodne cząstkowe względem β i, a następnie przyrównać je do zera, czyli trzeba rozwiązać układ równań β i l(β) = 0, i = 0,..., m z m + 1 niewiadomymi. Zauważmy, że w równości (3.8) tylko θ j są funkcjami β i, natomiast z j oraz φ nie zależą od β i. Oznaczając przez l j := log f(z j θ j, φ), logarytm funkcji wiarogodności możemy również zapisać w następującej postaci Korzystając z reguły łańcucha dostajemy, że l β i = l(β) = n j=1 n l j. j=1 l j θ j θ j µ j µ j η j η j β i. j=1 Ponieważ µ j = b (θ j ), g(µ j ) = η j, 36

37 poszczególne pochodne cząstkowe wynoszą η j = β 0 + β 1 x j1 + + β k x jm, l j = z j b (θ j ) = z j µ j θ j a j (φ) a j (φ), ( ) 1 θj µ j = µ j η j = b (θ j )g (µ j ), µ j η j θ j µ j η j β i = x ji. Zatem ostatecznie, podstawiając V ar(z j ) = a j (φ)b (θ j ), otrzymujemy β i l(β) = n j=1 (z j µ j )x ji a j (φ)b (θ j )g (µ j ) = n j=1 (z j µ j )x ji V ar(z j )g (µ j ). Pamiętając, że V ar(z j ) możemy zapisać za pomocą funkcji wariancji oraz wag, mianowicie V ar(z j ) = φ w i V (µ j ), dostajemy równania wiarogodności β i l(β) = n j=1 w j (z j µ j )x ji φv (µ j )g (µ j ) gdzie nieznane parametry β 0, β 1,..., β m są uwzględnione w µ j przez µ j = g 1 (β 0 + β 1 x j1 + + β k x jm ). = 0, i = 0, 1,..., m, (3.9) Zauważmy, że x j0 = 1, ponieważ β 0 to stała. Rozwiązania równań (3.9), oznaczane przez β 0, β 1,..., β m, są estymatorami największej wiarogodności współczynników β 0, β 1,..., β m i w praktyce do ich znalezienia używa się metod numerycznych. Uwaga. Dla GLM zestaw nieznanych parametrów to β, φ, więc logarytm największej wiarogodności jest funkcją l(β, φ), która jest ona wyznaczona równaniem (3.8). Ponadto zauważmy, że rozwiązanie równania (3.9) nie zależy od φ, czyli estymator największej wiarogodności β liczony jest niezależnie od φ. Z tego powodu w powyższym rozumowaniu ograniczyliśmy się do funkcji logarytmu wiarogodności tylko dla parametru β. Kategorialne zmienne objaśniające: Modelując dane zagadnienie możemy również użyć zmiennych kategorialnych, to znaczy takich, które posiadają ograniczoną liczbę pewnych wartości lub kategorii. Zmienna opisująca płeć przyjmująca kategorie M dla mężczyzny oraz F dla kobiety oraz zmienna opisująca miejsce zamieszkania jako miejskie, wysoko miejskie, wiejskie, wysoko wiejskie są przykładami zmiennych kategorialnych. W praktyce GLM zmienne kategorialne, które przyjmują różne poziomy, lepiej jest sparametryzować. Gdy zmienna objaśniająca x ma r poziomów należy wprowadzić r 1 nowych zmiennych binarnych x i = { 1 dla poziomu i 0 w pozostałych przypadkach i = 1,..., r 1, przy czym poziom r, który nie został użyty, nazywamy poziomem bazowym. Wprowadzone nowe zmienne modelują różnicę pomiędzy każdym poziomem, a poziomem bazowym. Wybór poziomu bazowowego zależy od modelującego, ale byłoby najkorzystniej przyjmować go jako najczęściej występującą kategorię wśród zestawu danych [6]. 37

38 Uwaga. Program zazwyczaj wybiera poziom bazowy jako najwyższy poziom numeryczny bądź alfabetyczny. W programie SAS można również samemu zdefiniować poziom bazowy, zwany poziomem odniesienia, przy użyciu deklaracji class w procedurze proc genmod. Na zakończenie tej części przedstawimy krótkie podsumowanie GLM: zmienne objaśniane Z j są niezależne i pochodzą z wykładniczej rodziny rozkładów, czyli ich rozkład zdefiniowany jest przez f(z θ j, φ, w j ) = exp { } zθj b(θ j ) + c(z j, φ/w j ), φ/w j gdzie θ j jest parametrem, który zależy od j, zaś φ jest stały dla każdego j. Wagi mogą być identyczne lub być włączone do GLM, zmienne objaśniające x ji tworzą liniowy predyktor η j = β 0 + β 1 x j β m x jm, funkcja łącząca g jest różniczkowalna oraz ściśle monotoniczna, a zatem posiada funkcję odwrotną g 1, wartości oczekiwane Z j, µ j = E(Z j ) są oszacowane przez równania g(µ j ) = η j lub µ j = g 1 (η j ) j = 1,..., n, wariacja Z j jest funkcją wartości oczekiwanej V ar(z j ) = φ w j V (µ j ), współczynniki β 0, β 1,..., β m są estymowane metodą największej wiarogodności, należy wybrać rozkład oraz funkcję łączącą właściwą do modelowanego zagadnienia. 3.3 GLM dla liczby szkód i średniej wartości szkody Jak już powiedzieliśmy na wstępie tego rozdziału, modele regresyjne GLM są niezbędnym narzędziem aktuariuszy do wyceny umów ubezpieczeniowych. W tej części pracy skupimy się na modelowaniu dwóch zmiennych: liczby szkód (lub częstości szkód) oraz średniej wartości szkody (lub wielkości szkód) w zależności od pewnego zestawu zmiennych. Na początku oszacujemy te zmienne w osobnych modelach, wykorzystując procedurę proc genmod w programie SAS, a następnie połączymy GLM dla dwóch brzegowych modeli regresji z rodzinami kopuł, wykorzystując pakiet {CopulaRegression} programu R Modelowanie niezależne Naszym celem będzie modelowanie zależności pomiędzy zmiennymi objaśnianymi, które w naszym przypadku oznaczają liczbę szkód oraz średnią wartość szkody, w oparciu o pewien zbiór zmiennych objaśniających dotyczących danego ubezpieczonego, np. płeć, wiek, miejsce zamieszkania. Oznaczmy przez X zmienną losową określająca średnią wartość szkody, natomiast przez Y zmienną losową określającą liczbę szkód. Wykorzystamy GLM do oszacowania, w osobnych modelach, wartości oczekiwanych tych zmiennych. Pamiętajmy, że decydując się na modelowanie GLM, na początku musimy wybrać rozkład oraz funkcję łączącą dla modelowanej zmiennej. 38

39 Model regresji dla średniej wartości szkody Ciągłe zmienne losowe używane są do modelowania kosztów, ze względu na to, że zmienne te są zwykle dodatnie i cechują się asymetrią. Dlatego też wybieramy rozkład Gamma do modelowania średniej wartości szkody X. Ponadto chcemy, aby model wartości szkód był multiplikatywny zamiast addytywny, więc wybieramy funkcję logarytm jako funkcję łączącą. Co więcej, średnia wartość szkody X jest zmienną dodatnią, zatem tym bardziej funkcja logarytmiczna jest rozsądnym wyborem. Niech X j, j = 1,..., n (n oznacza liczbę polis bądź liczbę ubezpieczonych) będą niezależnymi zmiennymi losowymi o rozkładzie Gamma, reprezentującymi średnią wartość szkody (roszczenia) dla j-tej polisy. Poszukujemy modelu zmiennej X j pod względem zmiennych r j1,..., r jm. Model regresji Gamma dla średniej wartości szkody przyjmuje postać log (E[X j ]) = α 0 + α 1 r j1 + + α m r jm (3.10) lub równoważnie E[X j ] = exp{α 0 + α 1 r j1 + + α m r jm }. (3.11) gdzie α 0, α 1,..., α m są nieznanymi współczynnikami regresji. Zauważmy, że multiplikatywny efekt zmiennych objaśniających w modelu wynika z (3.11), gdyż E[X j ] = exp{α 0 } exp{α 1 r j1 } exp{α m r jm }. Oznaczając przez E[X j ] = µ j w równościach (3.10) oraz (3.11) możemy model zapisać w następujące postaci wektorowej gdzie r j t = (1, r j1, r j2,..., r jm ), α = (α 0, α 1,..., α m ) t. log(µ j ) = r j t α lub µ j = exp{r j t α} (3.12) Do wyznaczenia estymatorów współczynników regresji α stosujemy wspomnianą wcześniej metodę największej wiarogodności. Niech x j będą realizacjami X j oraz niech r j1,..., r jm określa komplet wartości zmiennych objaśniających dla j polisy, j = 1,..., n. Zgodnie z tabelą 4 oraz wzorem (3.8) funkcja logarytmu wiarogodności dla rozkładu Gamma wynosi l(α) = n j=1 w j φ log w jx w ( ) jx wj log x log Γ. φµ j φµ j φ Zwykle przy modelowaniu wielkości roszczeń za wagi w j przyjmuje się liczbę roszczeń j-tej obserwacji. Jednak przyjmujemy dla uproszenia, że wagi w j = 1 dla każdego j. Następnie, aby wyznaczyć estymatory największej wiarogodności α parametrów regresji α, korzystamy z wyprowadzonego wzoru (3.9), czyli rozwiązujemy układ (m + 1) równań l(α) α i = n j=1 Model regresji dla liczby szkód (x ji µ j )r ji φµ j = 0, i = 0, 1,..., m. W przypadku, gdy zmienna objaśniana reprezentuje zmienną zliczającą, często stosowany jest rozkład Poissona jako rozkład tej zmiennej. Zatem załóżmy, że rozkład Poissona jest rozkładem 39

40 liczby szkód Y. Jako funkcję łączącą wybieramy logarytm, który jest dobrym wyborem funkcji łączącej z dwóch powodów. Po pierwsze funkcja odwrotna g 1 funkcji łączącej działa ze zbioru (, + ), będącego zbiorem wartości predyktora liniowego η, w zbiór (0, ), będący zbiorem przyjmowanych wartości przez liczbę szkód. Po drugie funkcja logarytmiczna powoduje, że model staje się multiplikatywny. Niech Y j, j = 1,..., n (n oznacza liczbę polis bądź liczbę ubezpieczonych) będą niezależnymi zmiennymi losowymi o rozkładzie Poissona reprezentującymi liczbę szkód dla j-tej polisy. Poszukujemy modelu zmiennej Y j pod względem zmiennych s j1,..., s jm. Model regresji Poissona dla liczby szkód przyjmuje postać log (E[Y j ]) = log(e j ) + β 0 + β 1 s j1 + + β m s jm (3.13) lub równoważnie E[Y j ] = e j exp{β 0 + β 1 s j1 + + β m s jm }, (3.14) gdzie β 0, β 1,..., β m są nieznanymi współczynnikami regresji. Zmienna e j oznacza ekspozycję (w przypadku rozważania liczby szkód oznacza najczęściej czas trwania polisy), zaś log(e j ) zmienną przesunięcia (nazywaną offset). Uwzględnienie w modelu zmiennej e j powoduje, że E[Y j ] zmienia się proporcjonalnie do ekspozycji. Innymi słowy, jeżeli czas trwania polisy rośnie, wówczas wartość oczekiwana Y j również rośnie. Jest to zgodne z naturalną obserwacją, że liczba szkód zależy od liczby obserwowanych lat posiadania polisy przez ubezpieczanego. Dla regresji Poissona również efekt zmiennych objaśniających w modelu na zmienną objaśnianą jest multiplikatywny, mianowicie E[Y j ] = e j exp{β 0 } exp{β 1 s j1 } exp{β m s jm }. Oznaczając przez E[Y j ] = λ j w równaniach (3.13) oraz (3.14) możemy zapiać model w następującej postaci wektorowej gdzie s j t = (1, s j1, s j2,..., s jm ), β = (β 0, β 1,..., β m ) t. log(λ j ) = log(e j ) + s j t β lub λ j = e j + exp{s j t β} (3.15) Analogicznie jak w przypadku regresji Gamma stosujemy metodę największej wiarogodności do wyznaczenia estymatorów współczynników regresji. Niech y j będą realizacjami Y j oraz niech s j1,..., s jm określa komplet wartości zmiennych objaśniających dla j polisy, j = 1,..., n. Zgodnie z tabelą 4 oraz wzorem (3.8) funkcja logarytmu wiarogodności dla rozkładu Poissona wynosi l(β) = n y j log λ j λ j log(y j!). j=1 Estymatory największej wiarogodności β współczynników β otrzymujemy rozwiązując układ (m + 1) równań zgodnie z (3.9), tj. l(β) β i = n (y j λ j )s ji = 0, i = 0, 1,..., m, j=1 przy czym zakładamy, że φ = 1 oraz w j = 1. 40

41 Uwaga. Gdy znamy estymatory największej wiarogodności α oraz β oraz gdy zmienne objaśniające r j oraz s j w powyższych modelach są zmiennymi kategorialnymi, wówczas wielkości η X j = α 0 + α 1 r j1 + + α m r jm, j = 1,..., n oraz η Y j = β 0 + β 1 s j1 + + β m s jm, j = 1,..., n pozwalają na zakwalifikowanie ubezpieczonych do poszczególnych grup ryzyka (grup taryfowych). Dokładniej mówiąc, jeżeli zmienne objaśniające przyjmą określony profil klienta wyznaczony poziomem ηj X oraz ηj Y, wtedy możemy wyestymować odpowiednie wartości oczekiwane µ j oraz λ j. W ten sposób tworzy się względnie jednorodny portfel, w którym klienci należący do tej samej grupy ryzyka przejawiają podobną wartość szkody oraz liczbę szkód. Przykład empiryczny Teraz przy pomocy procedury proc genmod programu SAS stworzymy dwa osobne modele GLM dla średniej wartości szkody i liczby szkód, z wykorzystaniem danych pochodzących z książki [6], umieszczonych na stronie Macquarie University, Sydney. Ten zestaw danych dotyczy rocznych polis (czas trwania polisy wynosi rok) ubezpieczeń komunikacyjnych wykupionych w 2004 lub 2005 roku. Zbiór zawiera polis, z których 4624 (6,8%) miało co najmniej jedną szkodę (roszczenie), czyli są to polisy szkodowe. Dane zostały opisane przez 10 zmiennych. Do naszej analizy wykorzystamy 5 zmiennych. W modelach GLM przyjmujemy następujące zmienne dotyczące j-tego ubezpieczonego, dla j = 1,..., 67856: 1. zmienne objaśniane: clamcst0 - średnia wartość szkody numclaims - liczba szkód 2. zmienne objaśniające: gender - płeć: M, F agecat - wiek: 1, 2, 3, 4, 5, 6 (1-najmłodsza grupa, 6-najstarsza grupa wiekowa) area - miejsce zamieszkania: A, B, C, D, E, F Ponadto przyjmujemy, że powyższe zmienne objaśniające są użyte dla obydwu modeli zmiennych objaśnianych oraz że ekspozycja wynosi rok, czyli e j = 1 dla każdego j. Zauważamy, że wszystkie zmienne objaśniające są kategorialne, zatem w kolejnym etapie przygotowania danych musimy określić poziom bazowy każdej ze zmiennych objaśniających. Odpowiednio będą to najliczniejsze poziomy danej zmiennej. Rysunek 7 przedstawia procentowy udział poszczególnych poziomów dla płci, wieku oraz miejsca zamieszkania. Na jego podstawie jako ogólny poziom bazowy przyjmujemy F dla płci, grupę 4 dla wieku, grupę C dla miejsca zamieszkania 41

42 (a) Zmienna agecat (b) Zmienna area (c) Zmienna gender Rysunek 7: Zastawienie poziomów zmiennych objaśniających (źródło: opracowanie własne) Po wyborze poziomu bazowego możemy przejść do parametryzacji zmiennych objaśniających na odpowiednią ilość nowych zmiennych binarnych, z których każda związana jest z określonym poziomem danej zmiennej objaśniającej (to znaczy przyjmuje wartość 1 dla określonego poziomu), przy czym poziom bazowy nie ma swojego binarnego odpowiednika. Całościowy wpływ poziomu bazowego na zmienne objaśniane wyrażany jest przez wyraz wolny α 0 bądź β 0. Zatem zapis binarny zmiennych gender, agecat, area jest następujący: r j1 = s j1 = { 1 jeżeli gender=m 0 w pozostałych przypadkach r j2 = s j2 = { 1 jeżeli agecat=1 0 w pozostałych przypadkach r j3 = s j3 = { 1 jeżeli agecat=2 0 w pozostałych przypadkach r j4 = s j4 = { 1 jeżeli agecat=3 0 w pozostałych przypadkach r j5 = s j5 = { 1 jeżeli agecat=5 0 w pozostałych przypadkach r j6 = s j6 = { 1 jeżeli agecat=6 0 w pozostałych przypadkach r j7 = s j7 = { 1 jeżeli area=a 0 w pozostałych przypadkach r j8 = s j8 = { 1 jeżeli area=b 0 w pozostałych przypadkach r j9 = s j9 = { 1 jeżeli area=d 0 w pozostałych przypadkach r j10 = s j10 = { 1 jeżeli area=e 0 w pozostałych przypadkach r j11 = s j11 = { 1 jeżeli area=f 0 w pozostałych przypadkach 42

43 Przy uwzględnieniu powyższych zmiennych model regresji Gamma dla średniej wartości szkody przyjmuje postać 11 µ j = exp{α 0 + α i r ji } dla j = 1,..., 4624, natomiast model regresji Poissona dla liczby szkód, przy założeniu, że e j = 1 dla każdego j, przyjmuje postać 11 λ j = exp{β 0 + β i s ji } dla j = 1,..., W powyższych modelach deklarujemy inną liczbę ubezpieczonych. Jest to spowodowane tym, że regresja Gamma modeluje dodatnią zmienną losową, zatem w odniesieniu do modelowanej zmiennej X możemy wziąć pod uwagę tylko te polisy, w których wystąpiło co najmniej jedna szkoda. Natomiast dla regresji Poissona nie mamy takiego ograniczenia, stąd do modelu brane są pod uwagę wszystkie polisy (włącznie z polisami bezszkodowymi). Możemy teraz przejść do oszacowania współczynników regresji α = (α 0,..., α 11 ) t oraz β = (β 0,..., β 11 ) t przy pomocy procedury proc genmod programu SAS. Rysunki 8 oraz 9 przedstawiają wyniki estymacji tych parametrów odpowiednio dla regresji Gamma oraz Poissona. Należy zauważyć, że dla poszczególnych poziomów bazowych zmiennych objaśniających, które zostały włączone do ogólnego poziomu bazowego, oszacowane parametry oraz statystyki wynoszą zero bądź są pomijane. i=1 i=1 Rysunek 8: Analiza ocen parametrów dla regresji Gamma (źródło: opracowanie własne) 43

44 Rysunek 9: Analiza ocen parametrów dla regresji Poissona (źródło: opracowanie własne) Przyjmijmy poziom istotności Na podstawie otrzymanych wyników możemy stwierdzić istotność parametrów α 0, α 1, α 2, α 5, α 7, α 11, a tym samym zmiennych r j0 = 1, r j1, r j2, r j5, r j8, r j11 dla regresji Gamma, gdyż wartość p-value jest mniejsza od przyjętego poziomu istotności. Natomiast dla regresji Poissona stwierdzamy istotność parametrów β 0, β 2, β 5, β 6, β 9, a tym samym zmiennych s j0 = 1, s j2, s j5, s j6, s j9. Poszukujemy modeli, w których wszystkie parametry danej regresji będą istotne. Stosujemy w tym celu metodę eliminacji kolejnych nieistotnych zmiennych objaśniających w analizowanych modelach. Ostateczne wyniki estymacji dla regresji Gamma oraz Poissona przedstawiają rysunki 10 oraz 11. Rysunek 10: Analiza ocen parametrów dla regresji Gamma w przypadku istotności wszystkich parametrów (źródło: opracowanie własne) 44

45 Rysunek 11: Analiza ocen parametrów dla regresji Poissona w przypadku istotności wszystkich parametrów (źródło: opracowanie własne) Na podstawie przedstawionych wyników stwierdzamy istotność parametrów α 0, α 1, α 2, α 3, α 5, α 11 dla regresji Gamma, natomiast dla regresji Poissona β 0, β 2, β 5, β 6, β 9. Zatem ostatecznie oszacowane wartości oczekiwane średniej wartości szkody i liczby szkód mają następującą postać µ j = exp{ r j r j r j r j r j11 }, j = 1,..., n, (3.16) λ j = exp{ s j s j s j s j9 }, j = 1,..., n. (3.17) W przypadku klasycznej regresji liniowej wpływ zmiany zmiennej objaśniającej na zmienną objaśnianą jest addytywny, więc wzrost pewnej zmiennej objaśnianej o jednostkę przy pozostałych zmiennych niezmienionych powoduje zmianę zmiennej objaśnianej o współczynnik stojący przy danej zmiennej objaśniającej. W powyższych regresjach wpływ zmiennych objaśniających na zmienną objaśnianą jest multiplikatywny w zależności od poziomu bazowego. Ponadto na podstawie (3.16) oraz (3.17) możemy dla j-tego ubezpieczonego, którego profil ryzyka charakteryzujemy poprzez przyjmowanie konkretnych wartości zmiennych objaśniających, wyznaczyć wartości oczekiwane µ j oraz λ j. Przykładowo rozważmy ubezpieczonego o następujących cechach: gender=f, agecat=1, area =A. Powyższy profil sugeruje, że bierzemy pod uwagę kobietę z grupy wiekowej 1 zamieszkałej w A. Wartość oczekiwana dla średniej wartości szkody oraz wartość oczekiwana dla liczby szkód wynoszą odpowiednio µ j = , λ j = Oznacza to, że klientka o takim profilu średnio generuje szkody na kwotę zł oraz średnia liczba szkód wynosi Tak mała wartość dla liczby szkód spowodowana jest tym, że w analizowanym zbiorze danych występuje duża liczba polis bezszkodowych - w dalszej części pracy będziemy chcieli stworzyć model regresji tylko dla polis szkodowych. Przy modelowaniu zmiennej losowej zliczającej, tak jak w naszym przypadku dla zmiennej określającej liczbę szkód, regresją Poissona mamy tę własność, że wartość oczekiwana jest równa wariancji. Jednakże okazuje się, że dane empiryczne często nie posiadają takiej cechy i zwykle wariancja jest większa od średniej. Mówimy wówczas o zjawisku nadrozproszenia (and. overdispersion). Nadrozproszenie można modelować na przykład za pomocą rozkładu dwumianowego 45

Pokazać jeszcze