WYCHODZĄC POZA PROSTĄ REGRESJĘ MODELOWANIE STATYSTYCZNE W OBSZARZE UBEZPIECZEŃ



Podobne dokumenty
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Wprowadzenie do analizy korelacji i regresji

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH. Wprowadzenie do problematyki modelowania statystycznego

Statystyka i Analiza Danych

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Uogolnione modele liniowe

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

3. Modele tendencji czasowej w prognozowaniu

Rozdział 8. Regresja. Definiowanie modelu

KORELACJE I REGRESJA LINIOWA

Agata Boratyńska Statystyka aktuarialna... 1

Analiza składowych głównych. Wprowadzenie

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

MODELE LINIOWE. Dr Wioleta Drobik

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Wnioskowanie bayesowskie

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Matematyka ubezpieczeń majątkowych r.

Własności statystyczne regresji liniowej. Wykład 4

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Spis treści 3 SPIS TREŚCI

Aproksymacja funkcji a regresja symboliczna

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Analiza współzależności zjawisk

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Matematyka ubezpieczeń majątkowych r.

Weryfikacja hipotez statystycznych

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

Statystyka i Analiza Danych

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Analiza regresji - weryfikacja założeń

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Biostatystyka, # 3 /Weterynaria I/

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

ANALIZA REGRESJI SPSS

R-PEARSONA Zależność liniowa

Stanisław Cichocki. Natalia Nehrebecka

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Testowanie hipotez statystycznych

Testy nieparametryczne

Wykład 3 Hipotezy statystyczne

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Zmienne zależne i niezależne

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Quick Launch Manual:

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

PDF created with FinePrint pdffactory Pro trial version

Sterowanie wielkością zamówienia w Excelu - cz. 3

5. WNIOSKOWANIE PSYCHOMETRYCZNE

gdzie. Dla funkcja ma własności:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

STATYSTYKA

Kolokwium ze statystyki matematycznej

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Zadanie 1. Zmienne losowe X 1, X 2 są niezależne i mają taki sam rozkład z atomami:

Regresja logistyczna (LOGISTIC)

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Regresja i Korelacja

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Pobieranie prób i rozkład z próby

PROGNOZOWANIE Z WYKORZYSTANIEM METOD DATA MINING

Zadania ze statystyki, cz.6

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =

Rozkłady statystyk z próby

6.4 Podstawowe metody statystyczne

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Stanisław Cichocki. Natalia Nehrebecka

Transkrypt:

WYCHODZĄC POZA PROSTĄ REGRESJĘ MODELOWANIE STATYSTYCZNE W OBSZARZE UBEZPIECZEŃ Grzegorz Harańczyk, StatSoft Polska Sp. z o.o. Wiele zjawisk i procesów występujących w otaczającej nas rzeczywistości ma złożony charakter. Powoduje to trudności przy próbie ich dokładnego opisu. Bardzo często jedynym sposobem rozwiązania tego problemu jest uproszczone odwzorowanie rzeczywistości stworzenie modelu, który odzwierciedla tylko wybrane cechy badanego obiektu. Wśród technik modelowania statystycznego jednym z najczęściej stosowanych narzędzi są modele regresji liniowej. W wielu jednak sytuacjach okazują się one narzędziem niedostatecznym. Wskazana zostanie alternatywa uogólniony model liniowy oraz zaprezentowane potencjalne jego zastosowania. Wprowadzenie do modelowania Cele i specyfika modelowania statystycznego Wiele zjawisk i procesów występujących w otaczającej nas rzeczywistości ma złożony charakter. Powoduje to trudności przy próbie ich dokładnego opisu. Bardzo często jedynym sposobem rozwiązania tego problemu jest uproszczone odwzorowanie rzeczywistości stworzenie modelu, który odzwierciedla tylko wybrane cechy badanego obiektu. Jeśli dodatkowo wielkości wejściowe i wyjściowe traktujemy jako zmienne losowe, a podczas badania współzależności między nimi uwzględniamy ich rozkłady, to mówimy o modelowaniu statystycznym. Stworzony w ten sposób model może być wykorzystywany do przewidywania odpowiedzi badanego procesu przy zadanych parametrach wejściowych. Dobrze skonstruowany model w adekwatny sposób odtwarza badane obiekty, zjawiska lub procesy i powinien stanowić kompromis między nadmiernym uproszczeniem rzeczywistości a zbytnim nagromadzeniem szczegółów. Zbudowany model może być wykorzystany do: Identyfikacji przyczyn które zmienne mają największy wpływa na modelowaną zmienną oraz jaki jest ten wpływ? Badania efektów decyzji jakie będą zmiany wartości modelowanej, jeśli zmienimy w odpowiedni sposób zmienne objaśniające? Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 31

Predykcji jaką wartość przyjmie modelowania zmienna, jeśli wartości zmiennych uwzględnionych w modelu przyjmą zadane wartości? Proces modelowania Uproszczone odwzorowanie rzeczywistych współzależności pomiędzy badanymi zjawiskami wymaga od badacza umiejętnego wychwycenia istoty mechanizmu, który wygenerował dane, i przekształcenia go do postaci umożliwiającej zastosowanie podejścia statystycznego. Najczęściej sprowadza się to do przyjęcia określonej matematycznej formuły ujmującej powiązania pomiędzy mierzonymi zmiennymi oraz założeń dotyczących losowych procesów wpływających na wyniki pojedynczych pomiarów. W ten sposób powstaje postać modelu statystycznego zjawiska. Parametry modelu znajdowane są na podstawie dopasowania modelu do danych empirycznych (pochodzących z zaplanowanych eksperymentów lub gromadzonych danych historycznych). Do modelowania zatem niezbędne są dane i to ich jakość w największym stopniu ogranicza jakość samego modelu. Oprócz zgromadzenia danych bardzo ważne jest ich odpowiednie przygotowanie do analizy (czyszczenie danych, obsługa braków danych itp.) oraz wstępne zbadanie rozkładów zmiennych oraz związków pomiędzy zmiennymi. Te etapy zostaną tu pominięte, skupimy się na dalszych etapach modelowania, np. na postaci modelu. Wśród technik modelowania statystycznego jednym z najczęściej stosowanych narzędzi są modele regresji liniowej opisane poniżej. W wielu jednak sytuacjach okazują się one narzędziem niedostatecznym. Wskazana zostanie alternatywa uogólniony model liniowy oraz zaprezentowane potencjalne jego zastosowania. Model regresji liniowej Naszym celem będzie badanie zależności między wybraną zmienną (nazywaną najczęściej zmienną zależną, objaśnianą lub prognozowaną), traktowaną jako efekt wpływu jednej lub kilku innych zmiennych (nazywanych zmiennymi niezależnymi, objaśniającymi lub predyktorami), które są traktowane jako przyczyny. Zmienną zależną oznacza się zazwyczaj jako, a zmienne niezależne jako. Model regresji liniowej Model regresji liniowej nazywany jest liniowym, ponieważ zakładamy, że związek pomiędzy zmiennymi niezależnymi i zależną jest funkcją liniową. Parametry modelu estymowane są za pomocą metody najmniejszych kwadratów (kwadratów różnic pomiędzy wartością zaobserwowaną a wynikającą z modelu). Liniowa funkcja regresji ma następującą postać: gdzie: β i (i=0,,p) to parametry funkcji regresji, a ξ oznacza składnik losowy. 32 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

Parametr β 0 w równaniu regresji liniowej oznacza tzw. wyraz wolny, a parametry to współczynniki regresji zmiennej Y względem zmiennej X. Odpowiada on współczynnikowi kierunkowemu funkcji liniowej, zatem informuje o tym, o ile przeciętnie zmieni się wartość zmiennej zależnej Y, gdy zmienna niezależna X zwiększy się o jedną jednostkę. Co jest istotne, wprowadzony model opiera się na kilku założeniach dotyczących składnika losowego: Normalność: ma rozkład normalny. Jego wartość oczekiwana jest równa 0:. Jego wariancja jest stała:. Niezależność od X: i X są niezależne. Motywacja do wyjścia poza prostą regresję W wielu sytuacjach założenia te nie są możliwe do spełnienia. Modelowane zjawisko przebiega inaczej zależność nie jest wprost liniowa, a badane zmienne nie mają warunkowych rozkładów normalnych. Dla przykładu liczbę szkód na jednej polisie często modeluje się za pomocą rozkładu Poissona, podobnie jak czas do wystąpienia zdarzenia w przypadku obserwacji kompletnych (por. [Harańczyk 2011]). Rozkład wartości zgłoszonych szkód przyjmuje się natomiast często jako rozkład gamma lub odwrotny rozkład normalny. Wiadomo, że odpowiednie oszacowanie rozkładu wartości badanej zmiennej jest niesłychanie istotne, w związku z tym przybliżenie za pomocą rozkładu normalnego nie jest wystarczające. Modele prostej regresji liniowej powinny być stosowane tylko w sytuacjach, gdy zmienna zależna jest zmienną ciągłą przyjmującą wartości w zbiorze liczb rzeczywistych oraz ma stałą wariancję. Zastosowanie przekształceń zmiennej zależnej może rozszerzyć zakres stosowalności modeli tego typu również do innych sytuacji, jednak w wielu sytuacjach nie jest to możliwe do osiągnięcia w prosty sposób. Odpowiednią alternatywą w wielu sytuacjach może być uogólniony model liniowy. Uogólniony model liniowy Uogólniony model liniowy uogólnia klasyczny model liniowy poprzez rozluźnienie pewnych założeń dotyczących postaci modelu. Postać uogólnionego modelu liniowego została sformułowana przez Johna Neldera i Roberta Wedderburna [Nelder, Wedderburn 1972] jako model uogólniający model regresji liniowej, model regresji logistycznej oraz model regresji Poissona. Zaproponowali oni postać modelu, gdzie w szczególnych przypadkach można było otrzymać wspomniane modele. Przede wszystkim model ten daje możliwość analizy danych o rozkładzie niebędącym rozkładem normalnym. Po drugie wartości zmiennej zależnej są prognozowane na podstawie liniowej kombinacji predyktorów, która jest powiązana ze zmienną zależną za pomocą funkcji wiążącej. Powodem tego, że model liniowy (regresji wielorakiej) będzie Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 33

nieodpowiedni dla opisu określonego związku, może być z natury nieliniowy charakter wpływu predyktorów (zmiennych objaśniających) na zmienną zależną. Na przykład związek pomiędzy wiekiem osoby oraz różnymi wskaźnikami jej stanu zdrowia jest najprawdopodobniej nieliniowy. Różnica między przeciętnym stanem zdrowia ludzi w wieku dwudziestu lat oraz przeciętnym stanem zdrowia ludzi w wieku trzydziestu lat jest niezbyt duża. Natomiast różnica stanu zdrowia ludzi w wieku 60 lat i ludzi w wieku 70 lat jest zapewne większa. A zatem związek pomiędzy wiekiem i stanem zdrowia jest prawie na pewno z natury nieliniowy. Jakiś rodzaj funkcji potęgowej byłby prawdopodobnie bardziej adekwatny przy opisie związku pomiędzy wiekiem i stanem zdrowia, dlatego że każdy przyrost wieku starszych osób będzie miał większy wpływ na stan zdrowia w porównaniu do takiego samego przyrostu wieku w okresie wczesnej dorosłości. jest liniowo powiązana z war- W ogólnym modelu liniowym (GLM) zmienna zależna tościami zmiennych równością: gdzie oznacza zmienność wynikającą z błędu, która nie może zostać wyjaśniona przez predyktory. Zakłada się, że ma rozkład. Zatem jeżeli zmienne objaśniające przyjmują wartości:, wartość oczekiwana zmiennej będzie postaci: Natomiast w uogólnionym modelu liniowym (GLZ) zakłada się, że związek ma postać: gdzie oznacza zmienność wynikającą z błędu (o średniej 0 i pewnym rozkładzie, niekoniecznie normalnym), a jest pewną funkcją. Tym razem dla zmiennych objaśniających na poziomach odpowiednio: wartość oczekiwana zmiennej będzie postaci: gdzie to funkcja wiążąca. Zatem funkcja wiążąca (inna niż identyczność) jest stosowana do odpowiedzi modelu w sytuacji, gdy zakłada się, że zmienna zależna jest powiązana w sposób nieliniowy z predyktorami. Pozwala to uwzględnić sytuację, gdy wartości zmiennej zależnej są nieujemne (np. w zmiennych licznikowych) lub przyjmują ograniczoną liczbę wartości (np. dla zmiennej zależnej dychotomicznej). Najczęściej stosowane (poza identycznością) funkcje wiążące to: funkcja logarytm i funkcja logit. Dzięki funkcji logarytm można ominąć problem związany z nieujemnymi wartościami w zmiennych licznikowych (zwykły model regresji liniowej opisany jest na całej osi rzeczywistej, czyli uwzględnia wartości ujemne). Z kolei funkcja logit pozwoli przekształcić prawdopodobieństwa, czyli wartości z przedziału w wartości rzeczywiste. Postać funkcji wiążącej jest ściśle związana z interpretacją ocen parametrów regresji. Aby ocenić wpływ zmiennej niezależnej na średni poziom zmiennej zależnej, należy przekształcić uzyskane oceny względem funkcji g (odwrotnej do funkcji wiążącej f). Dla funkcji wiążącej logarytm będzie to funkcja: 34 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

natomiast dla funkcji logit funkcja: Metoda największej wiarygodności a metoda najmniejszych kwadratów Oszacowanie parametrów regresji w module GLZ wykonywane jest metodą największej wiarygodności. Przypomnijmy, że w klasycznej regresji wykorzystywana była metoda najmniejszych kwadratów. Z grubsza rzecz biorąc, różnica między metodami polega na innym podejściu do oceny oszacowania obliczanego parametru. W przypadku MNK rozważamy sumę kwadratów odległości wartości obserwowanych od średniej i staramy się dobrać takie wartości współczynników, aby ta suma była jak najmniejsza. Z kolei MNW polega na dopasowaniu całego rozkładu zmiennej, a nie tylko wartości średnich. Na podstawie gęstości rozkładu konstruuje się funkcję wiarygodności. Parametry staramy się tak oszacować, aby funkcja wiarygodności przyjęła jak największą wartość. W przypadku, gdy uwzględniamy w regresji rozkład normalny i identyczność jako funkcję wiążącą, obie te metody są asymptotycznie zgodne. W programie STATISTICA uogólnione modele liniowe można budować w module GLZ. Moduł Uogólnione modele liniowe i nieliniowe dostępny jest na karcie Statystyka w grupie metod Zaawansowane modele liniowe i nieliniowe. Rys. 1. Uogólnione modele liniowe i nieliniowe w STATISTICA. W programie STATISTICA dostępne są następujące funkcje wiążące: Identycznościowa, Log, Potęgowa, Logit, Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 35

Probit, Log-Log, Log-Log dopełnienia, Uogólniony logit. Określając model dla zmiennej zależnej, możemy wybrać następujące rozkłady: Normalny, Poissona, Gamma, Dwumianowy, Wielomianowy, Wielomianowy porządkowy, Odwrotny normalny, Tweedie. Uwaga: Rys. 2. Okno definiowania uogólnionego modelu liniowego. Uogólniony model liniowy czasem jest oznaczany jako GLM. W programie STATISTICA poprzez GLM rozumiany jest tzw. ogólny model liniowy, który dla pojedynczej zmiennej zależnej może być rozpatrywany jako szczególny przypadek uogólnionego modelu liniowego. W przypadku ogólnego modelu liniowego oczekuje się, że wartości zmiennej zależnej podlegają rozkładowi normalnemu, a funkcja wiążąca jest prostą funkcją 36 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

identycznościową (tzn. kombinacja liniowa predyktorów nie jest przekształcana). Model GLM jest szacowany zgodnie z metodą najmniejszych kwadratów. Model regresji z warunkowym rozkładem Poissona Dla przykładu załóżmy, że mamy pewną populację osób w różnym wieku i dla każdej z nich zliczamy wystąpienia jakiegoś zjawiska (np. liczba zdarzeń objętych polisą). Przyjmijmy, że im osoba starsza, tym więcej takich zdarzeń. Powszechnie zakłada się, że liczba takich zdarzeń jest zgodna z rozkładem Poissona. Przeprowadźmy następujący eksperyment. Załóżmy, że generujemy liczby z rozkładu jednostajnego z przedziału [0;100]. Losujemy 10 000 liczb ( ). Następnie dla każdej z tych liczb generujemy liczbę z rozkładu Poissona o wartości oczekiwanej będącej funkcją liniową wylosowanej w pierwszym kroku liczby ( ). Załóżmy teraz, że chcemy odnaleźć funkcję, według której generowano dane. Przyjmijmy, że wiemy, że wartości zmiennej YPoisson wygenerowane są zgodnie z rozkładem Poissona, którego wartość średnia zależy od wartości zmiennej X. Poniżej przedstawiono wykres rozrzutu dla wygenerowanych danych. Rys. 3. Wykres rozrzutu dla zmiennej z warunkowym rozkładem Poissona. Gdybyśmy chcieli ocenić wpływ zmiennej X na zmienną zależną YPoisson na podstawie modelu regresji prostej, powiedzielibyśmy, że średnia wartość zmiennej YPoisson zmienia się zgodnie z równaniem: YPoisson = 0,1487*X+0,7281. Oszacowany model pozwala wyjaśnić około 68,9% zmienności oryginalnej zmiennej zależnej. Przeciętna różnica Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 37

między zaobserwowanymi wartościami zmiennej objaśnianej i wartościami teoretycznymi wynosi 2,89. Wartość statystyki F i odpowiadający jej poziom prawdopodobieństwa testowego p potwierdzają istotny statystycznie związek liniowy. Ponadto wartość statystyki t mówi nam o tym, że ocena współczynnika regresji również istotnie różni się od zera. Już na pierwszy rzut oka widać jednak, że założenia modelu regresji prostej nie będą spełnione. Widzimy, że wraz ze wzrostem zmiennej X zwiększa się zmienność obserwowanych wartości YPoisson, co jest związane z postacią rozkładu Poissona (wartość oczekiwana jest równa wariancji). Kolejny problem wynika z położenia wartości obserwowanych względem przewidywanych wartości średnich. Ze względu na brak symetrii rozkładu dostajemy więcej reszt ujemnych niż dodatnich. Aby utworzyć model regresji, którego założenia odpowiadałyby rozkładowi zmiennej YPoisson, musimy sięgnąć do uogólnionych modeli regresji. W modelach tych możemy wskazać inny niż normalny warunkowy rozkład zmiennej zależnej. Dodatkowo określamy postać tzw. funkcji wiążącej, co pozwoli nam ominąć problem związany z nieujemnym zakresem zmiennej zależnej. Uogólnione modele liniowe wyznaczane są w oparciu o inną niż MNK metodę estymacji tzw. metodę największej wiarygodności (MNW). Co za tym idzie, stosuje się tu np. inny niż w przypadku regresji prostej test istotności współczynników regresji (test Walda) i inne miary dopasowania modelu. Analizę wykonujemy, korzystając z modułu GLZ Uogólnione modele liniowe i nieliniowe dostępnego w menu Statystyka - Zaawansowane modele liniowe i nieliniowe. Jako funkcję wiążącą wybieramy identyczność. Oszacowanie parametrów regresji Poissona przedstawiono poniżej. Jak widać, wyniki nie różnią się znacznie od oszacowania uzyskanego za pomocą regresji prostej. Zmienna zależna bardziej odpowiada jednak założeniom tego modelu - przyjmuje wartości dyskretne, nieujemne, a jej wariancja rośnie proporcjonalnie do wzrostu wartości średniej. Rys. 4. Wyniki modelu GLZ dla identyczności i rozkładu Poissona. Różnica w parametrach modelu nie jest duża, jednak należy zwrócić uwagę na rozkład wartości zmiennej zależnej dla ustalonych wartości zmiennych niezależnych. Różnice w rozkładach mogą powodować poważne konsekwencje, m.in. w wyznaczaniu przedziałów ufności dla przewidywanych wartości. Dla porównania wygenerowano również dane z rozkładu normalnego o średniej oraz stałym odchyleniu (tak aby były spełnione założenia modelu 38 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

regresji liniowej). Poniżej porównano warunkowe rozkłady zmiennych zależnych YNorm i YPoisson dla wartości zmiennej X z przedziału (5,10]. Rys. 5. Rozkłady warunkowe dla zmiennych YNorm i YPoisson. Przykład modelowanie sumy szkód Rodzina rozkładów Tweediego Rodzina rozkładów Tweediego obejmuje wiele rozkładów (np. rozkład normalny, rozkład gamma). Postać rozkładu została zaproponowana przez Jørgensena [Jørgensen 1987] zainspirowanego pracą Tweediego [Tweedie 1984]. Rozkład charakteryzowany jest przez 3 parametry:. Parametr (tzw. indeks Tweediego) przyjmuje wartości rzeczywiste z wyłączeniem przedziału. Najczęściej jednak rozważa się wartości tego parametru z przedziału. Dla rozkład Tweediego odpowiada rozkładowi Poissona, dla rozkładowi gamma. Dla wartości pośrednich może być reprezentowany jako suma zmiennych losowych z rozkładu gamma, gdzie liczba czynników jest zmienną losową o rozkładzie Poissona (w związku z czym należy do ogólniejszej rodziny rozkładów, tzw. złożonych rozkładów Poissona (compound Poisson distribution)). Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 39

Jeśli założymy, że jest parametrem rozkładu Poissona, natomiast parametrami rozkładu gamma (odpowiednio parametrem skali i kształtu), wówczas parametry rozkładu Tweediego wyglądają następująco: Zgodnie z tą notacją dla zmiennej losowej, gdzie. o rozkładzie Tweediego otrzymujemy Interpretacja rozkładu Tweediego jako złożony rozkład Poissona od razu pokazuje typowe jego zastosowania. Przykładowo jeśli liczba zgłoszonych szkód jest zmienną losową o rozkładzie Poissona, a wysokość pojedynczej szkody jest zmienną losową z rozkładu gamma, to wówczas całkowita suma zgłoszonych szkód jest opisywana przez zmienną losową o rozkładzie z rodziny Tweediego. Podejście takie zostało zastosowane w pracy [Jørgensen, de Souza 1994] oraz [Meyers 2009]. Poniżej zbudujemy podobny model. Model ten może być rozwinięty poprzez osobne modelowanie rozrzutu (dispersion), por. [Smyth, Jørgensen 2002]. Przykład Dane zawierają informacje o ponad 65 tys. polis wykupionych w latach 2004-2005 (dane pochodzą z książki [de Jong, Heller 2008]). Dane dotyczą ubezpieczeń samochodowych i zawierają informację o ubezpieczanych pojazdach (wartość, wiek, typ nadwozia) oraz o osobie ubezpieczającej (wiek, płeć). Dostępne są również: wskaźnik ekspozycji na ryzyko oraz obszar, któremu przypisana jest dana polisa. Dodatkowo zawarta jest informacja o liczbie szkód, które wystąpiły na polisie w ciągu roku, oraz informacja o sumie wysokości przyznanych odszkodowań z tytułu polisy. W pierwszym kroku zbadano rozkład zmiennej liczba szkód na polisie oraz suma szkód (całkowita wypłata). Dane dotyczące wysokości szkód i tym samym całkowitych wypłat zazwyczaj są specyficzne, mianowicie zawierają sporo rekordów równych zero, a wśród pozostałych rozkład jest silnie skośny prawostronnie. Rys. 6. Rozkład dla zmiennej liczba szkód oraz suma szkód. 40 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

Badając rozkład interesującej nas zmiennej, możemy nie zaobserwować rozkładu, którego się spodziewamy. Może to być spowodowane tym, że obserwujemy na przykład sumę kilku rozkładów dla różnych podgrup wchodzących w skład badanej zbiorowości. Każda z podgrup może charakteryzować się rozkładem z innymi parametrami. Dla przykładu: jeśli jakaś cecha ma rozkład normalny w pewnej populacji, co wynika z mechanizmu zjawiska, ale pod wpływem pewnego czynnika działającego tylko na pewne obiekty z tej populacji średnia zwiększa się, to rozkład, który zaobserwujemy, będzie rozkładem dwumodalnym, a nie normalnym. Rozkład liczby zgłoszeń na poszczególnych polisach zazwyczaj opisywany jest rozkładem Poissona. Oprócz liczby szkód interesuje nas również rozkład ich wielkości, a szczególnie rozkład szkód całkowitych dla poszczególnych polis (total claim size). Zakładamy teraz, że na parametry rozkładu Poissona (odpowiedzialnego za liczbę szkód) oraz rozkładu gamma (odpowiedzialnego za wielkość szkód) wpływają pewne cechy opisywanych obiektów. Naszym celem będzie zbadanie tego związku. Można zbudować dwa modele: jeden dla liczby szkód (np. model Poissona z funkcją wiążącą logarytm), drugi natomiast dla wielkości pojedynczej szkody (model gamma z funkcją wiążącą logarytm). Można jednak modelować od razu sumę szkód. Zakładamy, że rozkład sumy wypłat z polisy będzie rozkładem Tweediego oraz że parametry rozkładu zależą od cech badanych obiektów, w tym wypadku cech pojazdu, właściciela oraz ekspozycji na ryzyko. Zakładamy, że wartość oczekiwaną dla rozkładu sumy szkód można opisać w następujący sposób: gdzie to zmienne wybrane do budowy modelu. Zbudujemy dla przykładu prosty model sumy szkód w zależności od wartości pojazdu oraz wskaźnika ekspozycji na ryzyko. W pierwszym kroku wybieramy rozkład z rodziny rozkładów Tweediego poprzez wyznaczenie wartości parametru. Parametr ten zależy tylko od parametru kształtu rozkładu gamma. Wartość tego parametru można oszacować, budując model dla tych polis, dla których wystąpiła tylko jedna szkoda. W przypadku tych danych otrzymujemy wartość 1,73. Następnie budujemy, już na wszystkich danych, model Tweediego, również z funkcją wiążącą logarytm. Otrzymujemy następujące parametry modelu: Rys. 7. Wyniki modelu Tweediego. Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 41

Interpretujemy je w następujący sposób: wraz ze wzrostem wartości o jedną jednostkę wartość średnia sumy szkód rośnie razy. Dla przykładu, jeśli zwiększymy ekspozycję o jedną jednostkę, to suma szkód wzrośnie 2,74 razy. Jeśli natomiast zwiększymy wartość zmiennej pojazd_wartość, to suma szkód zwiększy się o 6%. Widać, że znaczenie ma tu również jednostka, w której zakodowaliśmy zmienne (tu wartość samochodu była liczona w dziesiątkach tysięcy złotych). Na podstawie uzyskanego modelu dla danej grupy klientów (ustalając parametry modelu) możemy oszacować rozkład całkowitej wypłaty z polisy. Widać również, które czynniki wpływają na wielkość szkód. W kolejnym kroku można dodać więcej zmiennych do modelu, również te dotyczące historii polisy. Podsumowanie Istotą modelowania statystycznego jest badanie współzależności pomiędzy zmiennymi losowymi przy uwzględnieniu ich rozkładów. Na analizie rozkładów właśnie bazuje wiele miar ryzyka, dlatego należy z ostrożnością przyjmować pewne założenia, np. o normalności rozkładu, a co za tym idzie korzystać z modelowania za pomocą prostej regresji liniowej. Pokazano alternatywne podejście, będące uogólnieniem zwykłej regresji. Daje ono duże możliwości, uwzględnia wiele typowych scenariuszy i jest stosowane z powodzeniem w obszarze ubezpieczeń (por. [Haberman, Renshaw 1996], [de Jong, Heller 2008]). Dalszym uogólnieniem i wyjściem poza GLZ mogą być tzw. uogólnione modele addytywne (GAM), por. [Hastie, Tibshirani 1990], [de Jong, Heller 2009, str. 141] lub metody czysto nieparametryczne metody data mining [Hastie, Tibshirani, Friedman 2001]. Nieparametryczność polega na tym, że mechanizm badanego zjawiska traktuje się jako nieznany i w związku z tym nie zakłada się tu często żadnej postaci modelu. Analiza oparta jest wyłącznie na danych i szukamy jedynie związków pomiędzy wielkościami wejściowymi a wyjściowymi (por. [Harańczyk 2010]). Literatura 1. Tweedie M.C.K. (1984), An index which distinguishes between some important exponential families, [w:] Ghosh J.K., Roy J., Statistics: Applications and New Directions. Proceedings of the Indian Statistical Institute Golden Jubilee International Conference. Calcutta: Indian Statistical Institute, 579 604. 2. Jørgensen B. (1987), Exponential dispersion models, Journal of the Royal Statistical Society. Series B (Methodological) 49 (2): 127 162. 3. Jørgensen B., de Souza M.C.P. (1994) Fitting Tweedie's compound Poisson model to insurance claims data, Scandinavian Actuarial Journal, 69 93. 4. Meyers G. (2009) Pure Premium Regression with the Tweedie Model, The Actuarial Review 36, 12 13. 42 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2011

5. Smyth G.K., Jørgensen B. (2002) Fitting Tweedie's compound Poisson model to insurance claims data: dispersion modeling, ASTIN Bulletin 32: 143 157. 6. Harańczyk G. (2010), Zastosowanie technik data mining w badaniach naukowych, [w:] Zastosowania statystyki i data mining w badaniach naukowych, StatSoft Polska. 7. Harańczyk G. (2011), Modelowanie czasu trwania model proporcjonalnego hazardu Coxa, [w:] Analiza danych w programie STATISTICA przegląd, StatSot Polska. 8. Nelder J.A., Wedderburn R.W. (1972), Generalized linear models, Journal of the Royal Statistical Society Series A (Journal of the Royal Statistical Society. Series A (General), 135 (3): 370 384. 9. Haberman S., Renshaw A.E., (1996) Generalized Linear Models and Actuarial Science, Journal of the Royal Statistical Society. Series D (The Statistician), 45 (4): 407 436. 10. de Jong P., Heller G.Z. (2008), Generalized Linear Models for Insurance Data, Cambridge University Press. 11. Hastie T.J., Tibshirani R.J. (1990) Generalized Additive Models, Chapman & Hall. 12. Hastie T.J., Tibshirani R.J., Friedman J. (2001) Elements of Statistical Learning: Data Mining, Inference and Prediction, Springer, New York. Copyright StatSoft Polska 2011 www.statsoft.pl/czytelnia.html 43