Metoda ekstrakcji modeli wyceny składki ubezpieczeniowej ze źródeł internetowych

Uniwersytet Ekonomiczny w Poznaniu Katedra Informatyki Ekonomicznej Streszczenie pracy doktorskiej Metoda ekstrakcji modeli wyceny składki ubezpieczeniowej ze źródeł internetowych Autor Piotr Stolarski Promotor: Promotor pomocniczy: Prof. dr hab. Witold Abramowicz dr Krzysztof Węcel Poznań 2015

Istotą niniejszej pracy jest opracowanie i prezentacja metody, której celem jest ekstrakcja modeli wyceny składki ubezpieczeniowej ze źródeł internetowych. Przeprowadzone z użyciem metody badania empiryczne wykazują, że ma ona uniwersalny charakter oraz dobrze nadaje się do realizacji zadania, dla którego została stworzona, czyli pozyskiwania wiedzy związanej z produktami ubezpieczeniowymi z witryn internetowych. Sprzedaż ubezpieczeń coraz powszechniej odbywa się z wykorzystaniem technologii internetowych [Mulpuru2011, PIU2013]. Wpływ powstawania nowego sposobu sprzedaży na funkcjonowanie firm ubezpieczeniowych omówiony został m.in. w pracy [Kaczała2006]. Ubezpieczyciele, aby móc świadczyć usługi ubezpieczenia, przygotowują produkt ubezpieczeniowy. Odbywa się to zgodnie z wypracowanymi metodami aktuarialnymi, na które składają się przeważnie narzędzia statystyczne oraz analityczne, zastosowane do zbiorów danych bądź to gromadzonych przez same firmy ubezpieczeniowe, bądź też przez nie pozyskiwanych od podmiotów zewnętrznych [Werner2010, Ronka- Chmielowiec2006]. Jednym z etapów opracowania produktu jest m.in. stworzenie modelu ryzyka. Model taki może służyć do wyznaczania oczekiwanego kosztu (wysokości składki) przejęcia ryzyka (ubezpieczenia na określonych warunkach) w zależności od szeregu czynników wyodrębnionych w ramach procedur aktuarialnych. W takim przypadku mówić można o modelu taryfikacyjnym (wycenie składki). O ile teoria metod aktuarialnych jest powszechnie dostępna, o tyle ubezpieczyciele niechętnie dzielą się wiedzą dotyczącą aspektów praktycznych w tym zakresie. Z poszczególnymi kanałami sprzedaży produktu ubezpieczeniowego skojarzona jest wiedza dotycząca modelu taryfikacji w celu właściwej wyceny produktu dla klientów końcowych. Model ten przybiera w praktyce charakter algorytmu. Wpływ na wyniki wykonania takiego algorytmu ma także szereg dodatkowych czynników, takich jak: względy marketingowo-wizerunkowe, administracyjno-prawne czy też działanie sił rynkowych (np. [Clarke1991], [Habeck1980]). Podobnie jak w przypadku innych kanałów dystrybucji, kanał internetowy wymaga odpowiedniej implementacji algorytmu taryfikacji. Na potrzeby pracy model utożsamiony z tym algorytmem określany jest pojęciem modelu pierwotnego. Kanał sprzedaży przez internet jest specyficzny z wielu względów. W szczególności dla rynku ubezpieczeniowego daje on możliwość zautomatyzowanego odkrywania cen produktów, a co za tym idzie, stworzenia nowego

modelu wtórnego jak najbardziej zbliżonego, przynajmniej pod względem parametrów wejściowych oraz generowanych wyników, do modelu pierwotnego. Zaproponowana metoda umożliwia wygenerowanie modelu wtórnego na podstawie danych pozyskanych w ramach interakcji z witrynami zawierającymi ofertę produktów ubezpieczeniowych. Prezentowana w rozprawie metoda związana jest z szeregiem wyzwań badawczych, dlatego jej opracowanie poprzedzone zostało gruntownym badaniem literaturowym. W pracy znalazło to swoje odzwierciedlenie w pierwszej części rozprawy. Rozważając prace wykazujące bezpośredni związek z proponowaną koncepcją badawczą wskazać należy przede wszystkim na dwa nurty prac naukowych: bardziej technologicznie zorientowany nurt zagadnień dotyczących eksploracji danych webowych (web mining) oraz nakierowany na aspekty ekonomiczno-biznesowe nurt związany z modelowaniem ryzyka na potrzeby rynku ubezpieczeniowego. Nurt eksploracji danych webowych podzielić można na trzy rozłączne zakresy tematyczne: eksplorację struktury witryn, eksplorację danych z treści witryn oraz eksplorację informacji o użyciu witryn. W ramach pierwszego zakresu znajdują się badania związane z analizą grafu wewnętrznych i zewnętrznych powiązań pomiędzy dokumentami z danej witryny (np. [Page1998]). Na drugi zakres składają się prace nakierowane na zastosowania technik analitycznych do informacji pochodzącej z treści dokumentów. Znaleźć można tutaj prace, których autorzy stawiają takie cele, jak: grupowanie, kategoryzacja lub klasyfikacja treści, identyfikacja i wzbogacanie treści, generowanie skrótów i podsumowań, odkrywanie pojęć, relacji, budowa słowników oraz ontologii, zastosowania społeczne odkrywanie opinii, emocji etc. Ostatni zakres tematyczny w omawianym aktualnie nurcie koncentruje się na wykorzystaniu technik analitycznych do zdobycia wiedzy dotyczącej wzorców odbioru treści oraz zachowań podmiotów w internecie. Szersze omówienie poszczególnych tematów w tym nurcie znaleźć można w pracach m.in.: [Zhang2008], [Kosala2000], [Madria1999].

W kontekście nurtu eksploracji danych webowych, a konkretnie tematyki eksploracji danych z treści witryn, należy wspomnieć o zagadnieniu ekstrakcji informacji ze źródeł internetowych. Istota tego zagadnienia sprowadza się do przekształcania (nieustrukturyzowanej lub częściowo ustrukturyzowanej) treści dokumentów pochodzących z internetu do postaci ustrukturyzowanych danych. W kontekście podejmowanego tematu ekstrakcja informacji ze źródeł internetowych jest wykorzystana jako etap pośredni prowadzonych badań. Szerokie omówienie tematyki oraz prac związanych z nurtem badawczym wynikającym z licznych problemów towarzyszących zadaniu ekstrakcji informacji znaleźć można m.in. w tekstach takich autorów jak: [Flejter2011, Kaczmarek2006, Chang2006, Arasu2005]. Nurt związany z modelowaniem ryzyka na potrzeby rynku ubezpieczeniowego związany jest przede wszystkim z technikami aktuarialnymi [Duncan2001, Mahler2001, Ronka-Chmielowiec2003, Ronka-Chmielowiec2006]. Techniki te mają za sobą długą historię rozwoju [Björn1986]. Mimo to stanowią przedmiot dalszego ulepszania oraz włączania nowych, zaawansowanych technologicznie rozwiązań [Salam2003]. Opracowana metoda dobrze wpisuje się w nurt badań prowadzonych w ramach eksploracji danych z treści witryn. W szczególności dobrze dopasowana jest do zdefiniowanego podejścia ekstrakcji wiedzy omawianego w [Kosala2000]. Mimo to sformułowanie problemu badawczego w takiej wersji nie nastąpiło wcześniej w ramach omawianego nurtu, a co za tym idzie, nie ma doniesień o próbach realizacji podobnego zadania czy też stworzenia zbliżonej metody. Opis metody został zaprezentowany w drugiej części pracy. Metoda uwzględnia występujące w rzeczywistych portalach ograniczenia głównie wynikające z technologii działania źródeł webowych, ale będące także konsekwencją różnorodności form prowadzenia działalności ubezpieczeniowej poprzez internet. Założenia będące u podstaw prezentowanej metody są następujące: każde z badanych źródeł charakteryzuje się istnieniem związanego z nim poznawalnego algorytmu - model ubezpieczyciela oraz działanie źródła wiedzy są w pełni deterministyczne, zwiększenie liczby danych może prowadzić do dokładniejszego odtworzenia modelu,

istotne informacje dotyczące klienta zasilają model ubezpieczyciela wyłącznie w sposób jawny w wyniku kolejnych kroków procesu kalkulacji składki, występuje powiązanie wyników modelu ubezpieczyciela z rzeczywistym ryzykiem. Zaprezentowana metoda podzielona jest na dwie główne fazy: fazę przygotowawczą oraz wykonawczą. W ramach metody wyróżniono trzy podstawowe komponenty narzędziowe, które odpowiedzialne są za wsparcie realizacji etapów składających się na obydwie fazy. Do fazy przygotowawczej zaliczono etapy: testu źródła, deklaracji kandydatów na parametry modelu, budowy grafu nawigacji, uszczegółowienia grafu nawigacji, oznaczenia konceptami sterującymi oraz testu modelu. We wszystkich, z wyjątkiem ostatniego, z wymienionych etapów zastosowanie ma komponent planowania nawigacji, natomiast w etapie testowania modelu metoda przewiduje wykorzystanie komponentu umożliwiającego eksplorację reprezentacji źródła. Na fazę wykonawczą składają się etapy: pobierania danych do modelu, iteracji na zbiorze wartości właściwości, wyboru strategii optymalizacji, tworzenia alternatywnych modeli oraz na końcu wyboru rozwiązania. Do obsługi tej fazy metody przewidziano zastosowanie komponentu nawigacyjno-ekstrakcyjnego oraz zewnętrznych narzędzi analitycznych. W opracowanej metodzie źródło internetowe modelowane jest w dwojaki sposób. Podstawowy opis ma charakter reprezentacji strukturalnej. Reprezentacja taka ma postać typowanego, skierowanego grafu. Poszczególne wierzchołki grafu są najczęściej tożsame ze zdarzeniami związanymi z nawigacją po źródle, ale zawierają także deklaracje właściwości, które utożsamiane są ze zmiennymi taryfikacyjnymi w modelu pierwotnym. Dodatkowo zarówno realizacja wierzchołków grafu reprezentujących kroki w nawigacji po źródle, jak i przyjęcie przez właściwości określonych zbiorów wartości może zostać uwarunkowane spełnieniem określonych warunków zapisanych w języku stanowiącym część reprezentacji strukturalnej. Opis podstawowy jest dodatkowo wsparty poprzez dowolne odwołania do pojęć zdefiniowanych w ramach ontologii. W rezultacie zastosowania ontologii wzbogacony opis ma charakter reprezentacji semantycznej, a wystąpienia odwołań do pojęć pozwalają na odpowiednie sterowanie procesem ekstrakcji. Stworzona na potrzeby metody ontologia została podzielona na trzy względnie niezależne części subontologie: produktu, ryzyk oraz czynników ryzyka.

W przeprowadzonym na cele pracy badaniu empirycznym z 19 źródeł danych ubezpieczeniowych, należących do 13 firm ubezpieczeniowych pozyskano dane, które stanowiły przedmiot dwóch rodzajów podziałów: według rodzaju ryzyka w złożonych produktach ubezpieczeniowych oraz według możliwości wzbogacenia o dane zewnętrzne. W rezultacie podziałów oraz procedur obróbki pozyskanych danych łącznie uzyskano 52 zbiory danych opisujące produkty ubezpieczeniowe, na które składa się całkowita liczba 275735 rekordów danych zawierających kalkulację składki. Metoda opisana w pracy zakłada wykorzystanie narzędzi analitycznych w celu budowy modeli. W przeprowadzonym badaniu dla każdego zbioru danych stworzono modele z wykorzystaniem każdego z testowanych narzędzi analitycznych. Wśród testowanych narzędzi analitycznych znalazły się m. in.: sieci neuronowe [Rumelhart1986], automatycznie hodowane sieci neuronowe, drzewa decyzyjne [Quinlan1996], regresja oraz regresja DMINE, metoda cząstkowych najmniejszych kwadratów, metoda pamięciowa, boosting gradientowy, metoda LARS i programowanie genetyczne [Koza1994]. W wyniku tego procesu łącznie powstało 1196 modeli uzależniających wysokość składki od czynników stanowiących zmienne taryfikacyjne. Utworzone modele poddano ocenie przy użyciu powszechnie stosowanych miar przede wszystkim średniego błędu kwadratowego oraz pomocniczo współczynnika determinacji. Wreszcie w oparciu o te miary utworzono szereg rankingów, które umożliwiły identyfikację narzędzi analitycznych, które dla analizowanych zbiorów danych dały najlepsze wyniki, tj. pozwoliły na stworzenie najdokładniejszych modeli wtórnych. Analiza zbioru uzyskanych modeli ujawniła, że do najlepszych narzędzi analitycznych zaliczyć należy programowanie genetyczne (13 najlepszych modeli) oraz drzewa decyzyjne (12 najlepszych modeli). Przy czym według niektórych rankingów kolejność na pierwszych dwóch miejscach była odwrotna. Pozwala to wnioskować, że dla modeli wyceny składki obydwa sposoby generowania modeli dają porównywalne rezultaty i istotnie przewyższają pozostałe testowane sposoby. Zarówno zaprezentowana metoda jak i otrzymane wyniki eksperymentalne mogą mieć różnorakie zastosowania. Do istotnych zastosowań zaliczyć należy:

monitorowanie rynku ubezpieczeniowego, zasilanie portali ze zbiorczymi ofertami, tworzenie alternatywnego modelu interoperacyjności, a także cele badawczo-naukowe. [Arasu2005] Arvind Arasu, Hector Garcia-Molina. Extracting structured data from web pages. 2003 ACM SIGMOD International Conference on Management of Data, strony 337 348, 2003. [Björn1986] A. Björn, Comparison of Some Methods to Fit a Multiplicative Tariff Structure to Observed Risk Data, ASTIN Bulletin International Actuarial Association vol. 16 no. 1, s. 63-68, Belgia 1986. [Chang2006] Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled Shaalan. A survey of web information extraction systems. IEEE Transactions on Knowledge and Data Engineering, 18(10):1411 1428, 2006. [Clarke1991] Clarke, T. G. and Salvatori, L., Auto insurance in italy. W: Casualty Actuarial Society discussion paper program, s. 253 304, 1991. [Duncan2001] Anderson, Duncan, et al. The Practitioner s Guide to Generalized Linear Models, Casualty Actuarial Society Study Note, May 2005. [Flejter2011] Dominik Flejter, Semi-Automatic Web Information Extraction. Praca doktorska, UEP, 2006. [Habeck1980] Charles Habeck, Impacts of State Regulation on the Marketing and Pricing of Individual Health Insurance. W: Casualty Actuarial Society discussion paper program, s. 67-106, 1980. [Kaczała2006] Monika Kaczała, Internet jako instrument dystrybucji ubezpieczeniowej, praca doktorska, UEP 2006. [Kaczmarek2006] Tomasz Kaczmarek, Deep Web data integration for company environment analysis. Praca doktorska, UEP, 2006. [Kosala2000] Raymond Kosala, Hendrik Blockeel. Web mining research: a survey. ACM SIGKDD Explorations Newsletter, 2(1):1 15, 2000. [Koza1994] John Koza, Genetic Programming II: Automatic Discovery of Reusable Programs, MIT Press. ISBN 0-262-11189-6, 1994. [Madria1999] S.K.Madria, S.S.Bhowmick, W.K.Ng, F.P.Lim. Research issues in Web data mining. w: Proceedings of Data Warehousing and Knowledge Discovery, First International Conference. DaWaK'99, s. 303-312, 1999. [Mahler2001] H.C. Mahler, C. G. Dean, Credibility: Chapter 8, w: Foundations of Casualty Actuarial Science 4th ed., Arlington, VA: Casualty Actuarial Society, 2001. [Mulpuru2011] S. Mulpuru, V. Sehgal, P. F. Evans, D. Roberge, Forecast: US Online Retail Sales, 2010 to 2015, Forrester Research, Inc., 2010.

[Page1998] Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, The PageRank citation ranking: Bringing order to the web, Technical report, 1998. [PIU2013] http://poznajdirect.pl/direct-w-polsce.html, odczytano: 21 czerwca 2013 r. [Quinlan1996] J. R. Quinlan, Improved use of continuous attributes in c4.5, Journal of Artificial Intelligence Research, 4, s. 77-90, 1996. [Ronka-Chmielowiec2003] Wanda Ronka-Chmielowiec, Modelowanie Ryzyka w Ubezpieczeniach, Wydawnictwo AE we Wrocławiu, 2003. [Ronka-Chmielowiec2006] Patrycja Kowalczyk, Ewa Poprawska, Wanda Ronka-Chmielowiec, Metody aktuarialne: zastosowania matematyki w ubezpieczeniach; red. nauk. Wanda Ronka- Chmielowiec, Wydawnictwo Naukowe PWN, 2006. [Rumelhart1986] Rumelhart, D. E., McClelland, J. L., & the PDP research group. Parallel distributed processing: Explorations in the microstructure of cognition. Cambridge, MA: MIT Press, 1986. [Salam2003] Salam, R., Estimating the Cost of Commercial Airlines Catastrophes A Stochastic Simulation Approach, in The Casualty Actuarial Society Forum Winter 2003 Edition Including the Data Management Call Papers and Ratemaking Discussion Papers, s. 379. [Werner2010] G. Werner, C. Modlin, Basic Ratemaking 4th ed., Casualty Actuarial Society, 2010. [Zhang2008] Qingyu Zhang, Richard S. Segall, Web Mining: a Survey of Current Research, Techniques, and Software. International Journal of Information Technology and Decision Making 7(4), s. 683-720, 2008.