ANALIZA ROZKŁADÓW I SYMULACJE W PROGRAMIE STATISTICA



Podobne dokumenty
DOPASOWANIE ROZKŁADU I EKSPERYMENT SYMULACYJNY NA PRZYKŁADZIE DANYCH O WYPADKACH DROGOWYCH

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ

Analizy wariancji ANOVA (analysis of variance)

You created this PDF from an application that is not licensed to print to novapdf printer (

Wprowadzenie do analizy korelacji i regresji

Sposoby prezentacji problemów w statystyce

Zadania ze statystyki, cz.6

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Wykład 5: Statystyki opisowe (część 2)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wprowadzenie do analizy dyskryminacyjnej

Wykład 9 Wnioskowanie o średnich

Matematyka ubezpieczeń majątkowych r.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka matematyczna i ekonometria

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

KORELACJE I REGRESJA LINIOWA

Sterowanie wielkością zamówienia w Excelu - cz. 3

Analiza danych. TEMATYKA PRZEDMIOTU

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

WSPOMAGANIE ANALIZY DANYCH ZA POMOCĄ NARZĘDZI STATISTICA

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

PDF created with FinePrint pdffactory Pro trial version

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Matematyka ubezpieczeń majątkowych r.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

POLITECHNIKA WARSZAWSKA

Analiza korespondencji

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =

Analiza regresji - weryfikacja założeń

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Opracowywanie wyników doświadczeń

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Statystyki opisowe i szeregi rozdzielcze

MODELE LINIOWE. Dr Wioleta Drobik

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Weryfikacja hipotez statystycznych

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Testy nieparametryczne

Estymacja parametrów w modelu normalnym

Matematyka ubezpieczeń majątkowych r.

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

MONITOROWANIE DZIAŁAŃ NIEPOŻĄDANYCH

Zadanie Tworzenie próbki z rozkładu logarytmiczno normalnego LN(5, 2) Plot Probability Distributions

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

W4 Eksperyment niezawodnościowy

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Spis treści 3 SPIS TREŚCI

dla t ściślejsze ograniczenie na prawdopodobieństwo otrzymujemy przyjmując k = 1, zaś dla t > t ściślejsze ograniczenie otrzymujemy przyjmując k = 2.

Wnioskowanie bayesowskie

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

166 Wstęp do statystyki matematycznej

N ma rozkład Poissona z wartością oczekiwaną równą 100 M, M M mają ten sam rozkład dwupunktowy o prawdopodobieństwach:

Z Wikipedii, wolnej encyklopedii.

Wykład 4: Statystyki opisowe (część 1)

Rozkłady statystyk z próby

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Grupowanie materiału statystycznego

Z poprzedniego wykładu

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

JAK EFEKTYWNIE I POPRAWNIE WYKONAĆ ANALIZĘ I RAPORT Z BADAŃ BIEGŁOŚCI I WALIDACJI PRAKTYCZNE WSKAZÓWKI

Dopasowywanie modelu do danych

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

Ćwiczenia 3 ROZKŁAD ZMIENNEJ LOSOWEJ JEDNOWYMIAROWEJ

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

01. dla x 0; 1 2 wynosi:

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Wykład 3: Prezentacja danych statystycznych

Testowanie hipotez statystycznych.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Zadanie 1. O rozkładzie pewnego ryzyka X posiadamy następujące informacje: znamy oczekiwaną wartość nadwyżki ponad 20:

Wydział Matematyki. Testy zgodności. Wykład 03

Analiza autokorelacji

Pobieranie prób i rozkład z próby

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Rozkład Gaussa i test χ2

Matematyka ubezpieczeń majątkowych r.

6.4 Podstawowe metody statystyczne

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Transkrypt:

ANALIZA ROZKŁADÓW I SYMULACJE W PROGRAMIE STATISTICA Michał Kusy, StatSoft Polska Sp. z o.o. Analiza rozkładów zmiennych znajduje praktyczne zastosowanie w wielu dziedzinach. W działalności ubezpieczeniowej wykorzystuje się ją przykładowo przy ocenie ryzyka wystąpienia określonych zdarzeń losowych i szacowaniu wysokości jeszcze niewypłaconych świadczeń. Bardziej zaawansowane metody, pozwalające ująć badane zjawisko w szerszym zakresie, umożliwiają między innymi modelowanie skomplikowanych zależności między rozważanymi zmiennymi i prognozowanie ich wartości w zmieniających się okolicznościach. Uzyskane w ten sposób wyniki mogą służyć np. określeniu rezerwy szkód lub kalkulacji składek ubezpieczeniowych. W kolejnych rozdziałach przedstawimy szereg narzędzi analitycznych dostępnych w programie STASTISTICA. Za ich pomocą przeprowadzimy eksploracyjną analizę rozkładów, dopasujemy do zgromadzonych danych rozkłady teoretyczne, a następnie na ich podstawie wykonamy symulacje. Głównym celem niniejszego artykułu jest prezentacja przykładów wykorzystania określonych narzędzi i rozwiązań w analizie rozkładów dla danych pochodzących z obszaru ubezpieczeń. W rzeczywistości konkretne zastosowania analityczne są uzależnione od różnorodnych czynników, w tym praktyki ubezpieczeniowej, uwarunkowań prawnych, czy warunków biznesowych. Dane Prezentowane analizy opierają się na przykładowym zbiorze danych dotyczących likwidacji szkód, zawierającym informacje o 22 036 wypłaconych odszkodowaniach z tytułu doznanego uszczerbku na zdrowiu (na podstawie Jong, Heller [2]). Dane były gromadzone przez okres 10 lat od lipca 1989 roku. Zawierają informacje o wysokości wypłaconego odszkodowania, stopniu uszczerbku na zdrowiu, dacie zdarzenia losowego, dacie zgłoszenia szkody oraz wypłaty odszkodowania, jak również o tym, czy korzystano z zastępstwa prawnego. Dane nie uwzględniają roszczeń uznanych za niezasadne. Zbiory danych ubezpieczeniowych są zwykle bardzo obszerne i opisują często dziesiątki tysięcy a nawet miliony przypadków. Przed przystąpieniem do właściwej analizy należy rozwiązać problemy związane np. z brakującymi danymi, niekonsekwentnym lub nieprawidłowym zapisem informacji. Dodatkowo analityk zmuszony jest często pracować na Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 57

obciążonej próbie. Obciążenie to może wynikać z wielu czynników, między innymi z występowania danych uciętych, braku niezależności analizowanych przypadków, różnego czasu ekspozycji na zdarzenie czy nawet niewłaściwego doboru próby. Powyżej przedstawiono wartości średnie i błędy standardowe zlogarytmowanych kwot wypłaconych odszkodowań dla kolejnych miesięcy wystąpienia szkody. Okazuje się, że wartość średnia zmniejsza się w czasie, jednak taka pobieżna obserwacja może prowadzić do błędnych wniosków. Likwidacja większych szkód może trwać dłużej, ze względu na dłuższy okres leczenia, bardziej sporne, ekstremalne wysokości odszkodowań i rozwiązywanie spraw drogą sądową. Z tego względu wartości średnie obliczone dla ostatnich miesięcy będą uwzględniać mniej takich wysokich odszkodowań. Aby ocenić przeciętny poziom odszkodowań dla roszczeń pochodzących z końcowych miesięcy, musielibyśmy poczekać na likwidację wszystkich szkód, które w nich zaszły. Innym rozwiązaniem jest wykonanie prognozy dla brakujących wartości za pomocą modelowania statystycznego lub symulacji wartości rozkładu. Analiza rozkładów Analiza rozkładów zmiennych może pomóc w znalezieniu odpowiedzi na pytania dotyczące m.in. zakresu i częstości wypłacania określonych wartości odszkodowania, jak również związków między wypłaconą kwotą a długością procesu likwidacji i korzystaniem z pełnomocnika prawnego. W kolejnym etapie, opierając się na uzyskanych wynikach analizy rozkładów, będziemy szukać rozkładów, które najlepiej opisują zebrane dane. 58 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

Z wyjściowego zbioru danych wybrano przypadki, u których w wyniku nieszczęśliwego wypadku wystąpiło uszkodzenie ciała. Kwoty wypłaconych odszkodowań mieszczą się w zakresie około: 50 $ 4,5 mln $. Na przedstawionym powyżej histogramie widzimy rozkład wartości odszkodowań. Dla przejrzystości wykresu wartości powyżej 500 000 $ zostały wyświetlone na oddzielnym histogramie, ze zmienioną skalą. Wartości te występują zdecydowanie rzadziej, są to jednak przypadki szczególnie interesujące, ze względu na ekstremalne wysokości odszkodowań. Zmienną Kwota traktujemy jak zmienną ciągłą, choć na dobrą sprawę mamy do czynienia z wartościami całkowitymi wyrażonymi w dolarach. Rozkład jest prawostronnie skośny i naturalnie ograniczony z lewej strony minimalną kwotą odszkodowania. W kolejnych analizach zastosujemy na tej zmiennej przekształcenie logarytmiczne, dzięki któremu uzyskamy rozkład bardziej symetryczny. Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 59

Poruszyliśmy już problem zależności między opóźnieniem likwidacji szkody a wysokością odszkodowania. W eksploracyjnej analizie zależności między dwiema zmiennymi ilościowymi często posiłkujemy się wykresem rozrzutu. Przykład takiego wykresu przedstawiono powyżej. Za pomocą różnych znaczników uwzględniono na nim dodatkowo zmienną jakościową określającą występowanie zastępstwa prawnego. Zauważmy, że roszczenia o niższej kwocie odszkodowania wiązały się zwykle z krótszym czasem oczekiwania na jej wypłacenie. Dodatkowo najniższe odszkodowania były z reguły przyznawane bez korzystania z pomocy prawnej. Przeprowadzimy teraz oddzielną analizę rozkładów zmiennej Opóźnienie i log Kwota w grupie roszczeń z zastępstwem i bez zastępstwa prawnego. Takie zestawienia (zmienna ilościowa względem zmiennej jakościowej) wygodnie będzie przedstawić za pomocą skategoryzowanych wykresów ramka-wąsy. Wykresy ramka-wąsy ilustrują podstawowe cechy rozkładu zmiennej, tzn. jego położenie, rozrzut, skośność oraz ogony. Dodatkowo mogą one przedstawiać dane surowe oraz obserwacje uznane za odstające czy ekstremalne. Na przedstawionych poniżej wykresach widzimy niższą przeciętną wartość logarytmu odszkodowania i jednocześnie jego większy rozstęp w przypadku roszczeń bez zastępstwa prawnego. Przeciętne opóźnienie terminu likwidacji szkody jest nieco większe dla roszczeń z zastępstwem prawnym. Zauważamy również silną prawostronną skośność zmiennej Opóźnienie. Często zachodzi potrzeba grupowania danych względem jednej lub wielu zmiennych jakościowych. Ciekawy przykład grupowania względem większej liczby zmiennych możemy spotkać przy szacowaniu rezerw. Dane dotyczące roszczeń grupuje się względem okresu powstania szkody oraz opóźnienia w rozliczaniu szkód. Jeśli i oznacza moment wypadku, a j opóźnienie likwidacji szkody, to wartość X i,j macierzy, nazywanej trójkątem rozliczania szkód (run-off triangle), przedstawia łączną liczbę szkód lub łączne płatności z tytułu szkód zaistniałych w i-tym okresie, a rozliczonych po j okresach. 60 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

Okres wystąpienia szkody (i) StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.statsoft.pl Opóźnienie w likwidacji szkód (j) 0 1 2 n-2 n-1 1 X 1,0 X 1,1 X 1,2 X 1,n-2 X 1,n-1 2 X 2,0 X 2,1 X 2,2 X 2,n-2 n-1 X n-1,0 X n-1,1 n X n,0 Graficzne przedstawienie takiej macierzy za pomocą wykresu sekwencyjnego umieszczono poniżej. Natężenie kolorów mówi o liczbie szkód zgłoszonych danego miesiąca i rozliczonych po określonym czasie. Trójkątna struktura macierzy wynika z faktu, że w chwili n wartości X i,j dla i + j > n nie zostały jeszcze zaobserwowane. Braki danych w lewym górnym rogu macierzy są związane z brakiem informacji o likwidacji szkód przed lipcem 1993 roku. Każdy kolejny rozważany okres powoduje dodanie nowych wartości na przekątnej macierzy. Trójkąty rozliczania szkód wykorzystuje się przy wyznaczaniu rezerwy szkód. Na ich podstawie można prognozować szkody zgłoszone ubezpieczycielowi, ale jeszcze nie rozliczone, którym odpowiadają komórki w prawej dolnej części macierzy. Liczbę szkód oraz wysokość odszkodowań dla brakujących obszarów można oszacować, korzystając np. z modelowania statystycznego lub przeprowadzając symulacje. Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 61

Dopasowanie rozkładów Zarówno w modelowaniu statystycznym, jak i przy przeprowadzaniu symulacji musimy zwykle przyjąć pewne założenia dotyczące postaci rozkładu badanej zmiennej. Zakładamy przykładowo, że logarytm zmiennej ma w przybliżeniu rozkład normalny. Założenia co do postaci rozkładu są weryfikowane przez porównanie empirycznie uzyskanych percentyli z częstościami obliczonymi na podstawie danego rozkładu teoretycznego. Przykładem takiego porównania może być wykres prawdopodobieństwo-prawdopodobieństwo, który przedstawia dystrybuantę empiryczną względem dystrybuanty dopasowanego rozkładu. Jeżeli wykreślone punkty układają się na linii prostej, świadczy to o dobrym dopasowaniu modelu teoretycznego do danych. Dopasowanie rozkładów przeprowadzimy w module Rozkłady i symulacja, który oprócz wyszukania rozkładu najlepiej pasującego do danych daje również możliwość przeprowadzenia symulacji. Dzięki temu, na podstawie uzyskanych w tej części informacji o rozkładach, będziemy mogli później wygenerować nowe dane, z zachowaniem istniejącej struktury korelacji między zmiennymi. Moduł dopasowuje szereg rozkładów dyskretnych i ciągłych, w tym między innymi: mieszankę rozkładów normalnych, rozkład Johnsona oraz uogólniony rozkład wartości ekstremalnej. Dobroć dopasowania możemy ocenić za pomocą jednego z trzech testów: Kołmogorowa-Smirnowa, chi-kwadrat lub Andersona-Darlinga. Test Kołmogorowa-Smirnowa (KS) jest testem istotności różnic pomiędzy dwiema próbami: wartości obserwowanych i pochodzących z symulacji. Duża różnica dystrybuant sugeruje, że dane pochodzą z dwóch różnych populacji, czyli że rozważane rozkłady się różnią. Z kolei test chi-kwadrat bazuje na porównaniu liczności wartości obserwowanych i oczekiwanych. Wynik istotny oznacza odrzucenie hipotezy o zgodności rozkładów. Alternatywą dla testu Kołmogorowa-Smirnowa jest również test Andersona-Darlinga (AD). O ile statystyka KS jest czuła na położenie mediany (i nadaje się dobrze do wykrywania przesunięcia pomiędzy dystrybuantami), to statystyka AD jest czuła w całym zakresie dystrybuanty i bardziej prawdopodobne jest, że wykryje różnice szerokości 62 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

dystrybuant. Oznacza to, że statystyka AD daje lepszą ocenę zgodności modelu z obserwacjami w całym zakresie. Ze względu na zaobserwowane różnice w rozkładach dla roszczeń z zastępstwem i bez zastępstwa prawnego, dopasowanie rozkładów przeprowadzamy w tych grupach niezależnie. Na karcie Zapisz dopasowanie możemy przejrzeć wyniki dopasowania rozkładów i zobaczyć, który rozkład najlepiej pasuje do obserwowanych wartości zmiennych. Według wszystkich trzech testów do zmiennej log Kwota najlepiej pasuje mieszanka rozkładów Gaussa. Poniżej widzimy histogramy dla tej zmiennej z naniesionymi krzywymi gęstości dopasowanych rozkładów w dwóch grupach roszczeń. Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 63

W przypadku zmiennej Opóźnienie oznaczającej opóźnienie w likwidacji szkody wykorzystamy dopasowanie typu histogram, pozwalające dokładnie odwzorować udział procentowy poszczególnych wartości występujących w próbie. Takie nieparametryczne podejście pozwala odtworzyć w symulacji rozkłady zmiennych, dla których ciężko jest znaleźć rozkład teoretyczny, na przykład ze względu na wielomodalność, asymetrię czy ograniczenie wartości zmiennej. W wyniku analizy otrzymujemy szereg statystyk opisujących dopasowanie rozkładów oraz różne wykresy podsumowujące, m.in.: wykres dystrybuanty empirycznej, histogram z dopasowaniem i histogram skumulowany, wykres ramka-wąsy oraz wykresy prawdopodobieństwo-prawdpopodobieństwo i kwanty-kwantyl. Opcja Dopasuj rozkład pozwala uzyskać arkusz w postaci macierzowej zawierający wartości korelacji między uwzględnionymi zmiennymi oraz parametry dopasowanych rozkładów zaszyte we właściwościach zmiennych. Na jego podstawie przeprowadzimy teraz symulację. Symulacja Moduł Rozkłady i symulacja służy do dopasowania rozkładów teoretycznych do danych, oceny jakości dopasowania oraz generowania wielowymiarowych danych pochodzących z dopasowanych rozkładów z możliwością zachowania korelacji między zmiennymi. Zamiast czekać, aż uda się zgromadzić odpowiednią liczbę danych dla określonego ryzyka, możemy dopasować do zebranych już danych rozkłady teoretyczne, a potem symulować przebieg zdarzeń. Wyniki symulacji pomagają w ocenie badanego zjawiska, np. poprzez oszacowanie liczby szkód oraz wartości odszkodowań dla poszczególnych ryzyk. Ważną cechą modułu jest to, że estymuje on nie tylko parametry rozkładów poszczególnych zmiennych, ale uwzględnia również korelacje między nimi. Spośród dostępnych metod symulacji, pozwalających wygenerować nowe dane zgodnie z rozkładami najlepiej dopasowanymi do zaobserwowanych wartości, możemy zastosować m.in. metodę Monte Carlo i hipersześcian łaciński (latin hypercube sampling, LHS). Metoda LHS polega na podzieleniu zakresu każdego rozkładu teoretycznego na N części, w taki sposób, że prawdopodobieństwo trafienia do każdej z części jest takie samo. Obie metody zakładają jednak brak związku między zmiennymi. W rzeczywistości założenie to najczęściej nie jest spełnione. Alternatywą jest zastosowanie metody Imana-Conovera [1], która pozwala zachować korelacje rang między zmiennymi. Możliwe jest również połączenie metody Imana-Conovera z metodą LHS. Na podstawie arkusza utworzonego przez program w trakcie dopasowywania rozkładów przeprowadzimy teraz symulację wysokości odszkodowań i opóźnień w likwidacji szkody dla spraw z zastępstwem prawnym. Umieszczony powyżej wykres workowy przedstawia 10 000 punktów wygenerowanych w module Rozkłady i symulacja metodą Imana- Conovera. 64 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

Wykres workowy to dwuwymiarowa wersja wykresu ramka-wąsy. Podstawową koncepcją wykresu workowego jest zagłębienie punktu w worku, czyli jego połówkowe położenie względem całości danych. Bazuje ona na rozszerzeniu do dwóch wymiarów pojęcia rangi. Wykres workowy ilustruje podstawowe cechy dwuwymiarowego rozkładu prawdopodobieństwa dwóch zmiennych, tzn.: położenie (tzw. mediana Tukeya), rozrzut (wielkość worka), korelację (ukierunkowanie worka), asymetrię (kształt worka i jego otoczki) oraz ogony (wielkość otoczki i punkty odstające). Widzimy, że struktura korelacyjna między zmienną Opóźnienie a log Kwota została zachowana. Większym znacznikiem wewnątrz worka została zaznaczona mediana Tukeya wskazująca środek dwuwymiarowego rozkładu. Sam worek przedstawia zakres połowy obserwacji położonych najbliżej środka rozkładu. Ponieważ zaznaczone na wykresie workowym punkty często na siebie nachodzą, ciężko jest ocenić na ich podstawie liczbę wartości mieszczących się w określonym zakresie. Pomocna okazuje się w tym przypadku opcja przezroczystości znaczników. Jeżeli chcielibyśmy dokładniej przyjrzeć się dwuwymiarowemu rozkładowi wygenerowanych wartości, możemy sięgnąć do histogramów dwóch zmiennych. Takie trójwymiarowe wykresy możemy oglądać w programie z różnej perspektywy. Trzy przykładowe rzuty przedstawiono obok wykresu workowego. Oddzielną symulację wykonujemy dla spraw reprezentowanych prawnie. Na poniższym wykresie zestawiającym wygenerowane wyniki możemy zaobserwować przesunięcie Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 65

dwuwymiarowego rozkładu dla szkód z zastępstwem prawnym, względem pozostałych. Szkody bez pełnomocnika prawnego charakteryzują się rozkładem przesuniętym bliżej lewego dolnego rogu, co oznacza krótszy czas wypłaty odszkodowania i mniejsze kwoty odszkodowania. Wygenerowanie większej liczby wartości odszkodowań i opóźnień w ich rozliczeniu pozwala przyjrzeć się dokładniej wartościom ekstremalnym i ułatwia ocenę ryzyka. Moglibyśmy przykładowo oszacowywać ryzyko wypłacenia bardzo wysokich kwot odszkodowania w stosunkowo krótkim terminie (np. do pół roku od zgłoszenia szkody). Dzięki symulacji możemy również wygenerować dane dla pustych obszarów na trójkącie rozliczania szkód i oszacowywać liczbę roszczeń oraz wysokość wypłacanych odszkodowań w poszczególnych miesiącach. Symulacje pomagają również w prognozowaniu bardziej skomplikowanych wskaźników, jak np. łączna kwota wypłacana w danym okresie, która jest funkcją liczby szkód, wartości odszkodowania i czasu opóźnienia. Dodatkowo umożliwiają przeprowadzenie analizy co-jeśli, dzięki czemu można ocenić zmiany, które nastąpią w wypłacanej łącznej kwocie odszkodowania przy określonych scenariuszach, np. zmianie parametrów rozkładu wynikającej z nowych regulacji prawnych, innej częstotliwości szkód, czy zmiany warunków ubezpieczenia. W celu opisu wysokości wypłacanych odszkodowań Y k w określonym czasie k stosować będziemy zmienne losowe o rozkładach złożonych postaci Y k = i+j=k X i,j gdzie X i,j oznacza łączną wysokość odszkodowań dla roszczeń z i-tego miesiąca opóźnionych o j miesięcy. Do symulowania liczby szkód w danym miesiącu wykorzystamy rozkład Poissona, natomiast pary wartości zmiennych Opóźnienie i log Kwota zostaną 66 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

wygenerowane zgodnie z przeprowadzonym wcześniej dopasowaniem metodą Imana- Conovera. Przeprowadzona symulacja pozwala wygenerować pełną (nie trójkątną) macierz rozliczania szkód. Na jej podstawie uzyskujemy również przykładowe łączne wysokości odszkodowań wypłacanych w poszczególnych miesiącach. Wielokrotne wykonanie symulacji pozwoliło uzyskać 100 przypuszczalnych łącznych wartości odszkodowań dla każdego miesiąca. Poniżej przedstawiono skategoryzowany wykres ramka-wąsy opisujący rozkład tych wartości w milionach dolarów dla poszczególnych miesięcy. Niskie wartości odszkodowań w początkowym okresie wynikają z braku danych rzeczywistych i, co za tym idzie, nieuwzględnienia likwidacji szkód, które miały miejsce przed pierwszym miesiącem rozważanym w symulacji. Rozkłady stabilizują się około roku 2007 (okres likwidacji szkód bardzo rzadko przekraczał 8 lat). Przeciętna wysokość łącznych odszkodowań wynosi wtedy około 3 mln $, a połowa wygenerowanych wartości mieści się w przedziale 2-4 mln $. Jak widać, wygenerowane dane uwzględniają również ekstremalnie wysokie wartości odszkodowań, zaznaczone na wykresie za pomocą dwóch rodzajów znaczników (odstające i ekstremalne). Jeżeli mamy dostęp do odpowiednich danych, możemy przeprowadzić symulacje dla konkretnego ryzyka. Uzyskane w ten sposób informacje mogą być szczególnie interesujące przy ocenie poszczególnych ryzyk i analizie możliwych scenariuszy, chociażby w celu zmniejszenia wymaganych prawnie rezerw kapitałowych. W trakcie analizy korzystaliśmy z bardziej złożonych metod, które często wymagały wykonania pewnej sekwencji czynności lub wielokrotnego przeprowadzenia takich samych analiz, przy różnych założeniach. Ważną cechą programu STATISTCA jest możliwość automatyzacji wykonywanych analiz i ich zapisu w postaci kodu STATISTICA Visual Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 67

Basic. Dzięki temu możemy w szerokim zakresie dostosowywać dostępne narzędzia analityczne do bardzo specyficznych potrzeb, przykładowo prezentując dane w postaci trójkąta rozliczenia szkód czy symulując wartości o bardziej złożonych zależnościach. System STATISTICA Enterprise pozwala nam dodatkowo udostępniać przygotowane narzędzia wielu użytkownikom, pobierać i przetwarzać aktualne dane, a nawet automatycznie tworzyć gotowe raporty okresowe. Podsumowanie Opierając się na danych dotyczących odszkodowań z tytułu doznanego uszczerbku na zdrowiu, przedstawiliśmy przykłady narzędzi analitycznych, które można wykorzystać w analizie rozkładów i przeprowadzaniu symulacji. Eksploracyjna analiza danych pozwoliła zbadać rozkłady zmiennych i umożliwiła sformułowanie pewnych hipotez co do zależności między nimi. Wykorzystując moduł Rozkłady i symulacja, wyszukaliśmy rozkłady teoretyczne najlepiej dopasowane do danych, a następnie na ich podstawie przeprowadziliśmy symulację. Wygenerowane w ten sposób wartości mogą być pomocne w ocenie ryzyka, przygotowywaniu się na różne możliwe scenariusze i szacowaniu rezerw szkód. Literatura 1. Iman R. L., Conover W. J. (1982). A Distribution-Free Approach to Inducing Rank Correlation Among Input Variables, Communications in Statistics, 11 (3), 311-334. 2. Jong P., Heller G. Z. (2008). Generalized linear models for insurance data. Cambridge: Cambridge University Press. 3. Vose D. (2008). Risk Analysis. A quantitative guide. John Wiley & Sons, Ltd. 68 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011