Metoda ekstrakcji modeli wyceny składki ubezpieczeniowej ze źródeł internetowych



Podobne dokumenty
Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Ontologie jako narzędzie budowy modeli w ubezpieczeniowych systemach informacyjnych ekstrakcja wiedzy ubezpieczeniowej ze źródeł internetowych

Szkolenia SAS Cennik i kalendarz 2017

Spis treści. Notki o autorach Założenia i cele naukowe Wstęp... 17

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Minimum programowe dla studentów MIĘDZYWYDZIAŁOWYCH INDYWIDUALNYCH STUDIÓW SPOŁECZNO-HUMANISTYCZNYCH - studia magisterskie II stopnia

UBEZPIECZENIA WOBEC WYZWAŃ XXI WIEKU

Badania operacyjne. Michał Kulej. semestr letni, Michał Kulej () Badania operacyjne semestr letni, / 13

Analiza i wizualizacja danych Data analysis and visualization

Współczesna problematyka klasyfikacji Informatyki

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Semantyczny Monitoring Cyberprzestrzeni

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Badania rynku turystycznego

Widzenie komputerowe (computer vision)

Rozdział 4 Planowanie rozwoju technologii - Aleksander Buczacki 4.1. Wstęp 4.2. Proces planowania rozwoju technologii

PLAN STUDIÓW Wydział Elektroniki, Telekomunikacji i Informatyki, Wydział Zarządzania i Ekonomii Inżynieria danych

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

Nowe narzędzia zarządzania jakością

STATYSTYKA EKONOMICZNA

Aproksymacja funkcji a regresja symboliczna

PYTANIA NA EGZAMIN MAGISTERSKI KIERUNEK: FINANSE I RACHUNKOWOŚĆ STUDIA DRUGIEGO STOPNIA

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Przegląd problemów doskonalenia systemów zarządzania przedsiębiorstwem

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Specjalnościowy Obowiązkowy Polski Semestr VI

WIELOKRYTERIALNE PORZĄDKOWANIE METODĄ PROMETHEE ODPORNE NA ZMIANY WAG KRYTERIÓW

WYDZIAŁ EKONOMII KARTA OPISU MODUŁU KSZTAŁCENIA

Księgarnia PWN: Pod red. Celiny Olszak i Ewy Ziemby - Strategie i modele gospodarki elektronicznej. Spis treści

Systemy zarządzania bezpieczeństwem informacji: co to jest, po co je budować i dlaczego w urzędach administracji publicznej

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

Umiejętności związane z wiedzą 2.4. Podsumowanie analizy literaturowej

Co to jest jest oprogramowanie? 8. Co to jest inżynieria oprogramowania? 9. Jaka jest różnica pomiędzy inżynierią oprogramowania a informatyką?

Załącznik Nr 5 do Zarz. Nr 33/11/12 KARTA PRZEDMIOTU. 2. Kod przedmiotu ZP-Z1-19

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości

Hybrydowa analiza transformat w rozpoznawaniu wysokości dźwięków w polifonicznych nagraniach instrumentów muzycznych

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem przedsięwzięcia z wykorzystaniem metod sieciowych PERT i CPM

ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak

6 Metody badania i modele rozwoju organizacji

Zintegrowane Systemy Informatyczne analiza, projektowanie, wdrażanie

Warsztaty praktyk unijnych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Z-LOG-120I Badania Operacyjne Operations Research

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Baza Danych Ubezpieczeniowych UFG zastosowanie w przeciwdziałaniu przestępczości ubezpieczeniowej

Algorytm. Krótka historia algorytmów

ECTS Razem 30 Godz. 330

PRAKTYCZNE METODY BADANIA NIEWYPŁACALNOŚCI ZAKŁADÓW UBEZPIECZEŃ

Z-ZIP-120z Badania Operacyjne Operations Research. Stacjonarne Wszystkie Katedra Matematyki dr Monika Skóra

Gry strategiczne - opis przedmiotu

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego. 1. Cel szkolenia

Wykłady specjalistyczne. (specjalność: Matematyka w finansach i ekonomii) oferowane na stacjonarnych studiach I stopnia (dla 3 roku)

Wykorzystanie informacji kredytowej w procesie oceny ryzyka ubezpieczeniowego w ubezpieczeniach komunikacyjnych

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

3-letnie (6-semestralne) stacjonarne studia licencjackie kier. matematyka stosowana profil: ogólnoakademicki. Semestr 1. Przedmioty wspólne

Spis treści WSTĘP... 9

Jak nie tylko być zgodnym z regulacją, ale wyciągnąć korzyści biznesowe z lepszego dopasowania oferty

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

zarządzająca popytem i podażą energii w obszarze odbiorców końcowych

Turystyka i rekreacja

Algorytmy wspomagania decyzji Czyli co i jak andrzej.rusiecki.staff.iiar.pwr.wroc.pl s. 230/C-3

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Przedsiębiorstwo zwinne. Projektowanie systemów i strategii zarządzania

Algorytmy ewolucyjne

Formułowanie i zastosowanie pryncypiów architektury korporacyjnej w organizacjach publicznych

!!!!!!!!!!! PORTFOLIO: Analiza zachowań użytkowników serwisów internetowych. Autorzy: Marek Zachara

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

tel. (+48 81) /22 fax (+48 81) Wykład Ćwiczenia Laboratorium Projekt

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

Doskonalenie. Zdzisł aw Gomółk a. funkcjonowania. organizacji. Difin

Etapy życia oprogramowania

Nazwa przedmiotu: Współczesne koncepcje raportowania finansowego spółek w warunkach rynku kapitałowego. Obowiązkowy

Analiza ekonomiczna w instytucjach publicznych analiza organizacji i projektów

Kierunki rozwoju firmy Decyzje o wyborze rynków Decyzje inwestycyjne Rozwój nowych produktów Pozycjonowanie. Marketing strategiczny

PLAN STUDIÓW STACJONARNYCH I NIESTACJONARNYCH WIECZOROWYCH II STOPNIA (od roku akademickiego 2015/2016)

zaliczenie na ocenę

Recenzja rozprawy doktorskiej mgr Mirona Bartosza Kursy p/t. Robust and Efficient Approach to Feature Selection and Machine Learning

Karta przedmiotu. Kod przedmiotu: Rok studiów: Semestr: Język:

INFORMATYKA i FINANSE KATEDRA INFORMATYKI TEORETYCZNEJ

Prezentacja specjalności studiów II stopnia. Inteligentne Technologie Internetowe

Nowa specjalność Zarządzanie badaniami i projektami Research and Projects Management

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Specjalność Optymalizacja Decyzji Menedżerskich. Katedra Badań Operacyjnych Uniwersytetu Łódzkiego

ZASTOSOWANIE METOD OPTYMALIZACJI W DOBORZE CECH GEOMETRYCZNYCH KARBU ODCIĄŻAJĄCEGO

Błędy procesu tworzenia oprogramowania (Badania firmy Rational Software Corporation)

Audyt efektywności działań społecznościowych i mobilnych. Dedykowany workshop wg metodologii TRUE prowadzi dr Albert Hupa.

Egzamin / zaliczenie na ocenę*

Etapy życia oprogramowania. Modele cyklu życia projektu. Etapy życia oprogramowania. Etapy życia oprogramowania

Zapewnij sukces swym projektom

Wykłady specjalistyczne. oferowane na kierunku matematyka. w roku akademickim 2019/2020 (semestr zimowy) studia stacjonarne II stopnia, 2 rok

Spis treści Technologia informatyczna Strategia zarządzania wiedzą... 48

INFORMACJA O PRZEDMIOTACH OFEROWANYCH W ROKU AKADEMICKIM 2019/20

Transkrypt:

Uniwersytet Ekonomiczny w Poznaniu Katedra Informatyki Ekonomicznej Streszczenie pracy doktorskiej Metoda ekstrakcji modeli wyceny składki ubezpieczeniowej ze źródeł internetowych Autor Piotr Stolarski Promotor: Promotor pomocniczy: Prof. dr hab. Witold Abramowicz dr Krzysztof Węcel Poznań 2015

Istotą niniejszej pracy jest opracowanie i prezentacja metody, której celem jest ekstrakcja modeli wyceny składki ubezpieczeniowej ze źródeł internetowych. Przeprowadzone z użyciem metody badania empiryczne wykazują, że ma ona uniwersalny charakter oraz dobrze nadaje się do realizacji zadania, dla którego została stworzona, czyli pozyskiwania wiedzy związanej z produktami ubezpieczeniowymi z witryn internetowych. Sprzedaż ubezpieczeń coraz powszechniej odbywa się z wykorzystaniem technologii internetowych [Mulpuru2011, PIU2013]. Wpływ powstawania nowego sposobu sprzedaży na funkcjonowanie firm ubezpieczeniowych omówiony został m.in. w pracy [Kaczała2006]. Ubezpieczyciele, aby móc świadczyć usługi ubezpieczenia, przygotowują produkt ubezpieczeniowy. Odbywa się to zgodnie z wypracowanymi metodami aktuarialnymi, na które składają się przeważnie narzędzia statystyczne oraz analityczne, zastosowane do zbiorów danych bądź to gromadzonych przez same firmy ubezpieczeniowe, bądź też przez nie pozyskiwanych od podmiotów zewnętrznych [Werner2010, Ronka- Chmielowiec2006]. Jednym z etapów opracowania produktu jest m.in. stworzenie modelu ryzyka. Model taki może służyć do wyznaczania oczekiwanego kosztu (wysokości składki) przejęcia ryzyka (ubezpieczenia na określonych warunkach) w zależności od szeregu czynników wyodrębnionych w ramach procedur aktuarialnych. W takim przypadku mówić można o modelu taryfikacyjnym (wycenie składki). O ile teoria metod aktuarialnych jest powszechnie dostępna, o tyle ubezpieczyciele niechętnie dzielą się wiedzą dotyczącą aspektów praktycznych w tym zakresie. Z poszczególnymi kanałami sprzedaży produktu ubezpieczeniowego skojarzona jest wiedza dotycząca modelu taryfikacji w celu właściwej wyceny produktu dla klientów końcowych. Model ten przybiera w praktyce charakter algorytmu. Wpływ na wyniki wykonania takiego algorytmu ma także szereg dodatkowych czynników, takich jak: względy marketingowo-wizerunkowe, administracyjno-prawne czy też działanie sił rynkowych (np. [Clarke1991], [Habeck1980]). Podobnie jak w przypadku innych kanałów dystrybucji, kanał internetowy wymaga odpowiedniej implementacji algorytmu taryfikacji. Na potrzeby pracy model utożsamiony z tym algorytmem określany jest pojęciem modelu pierwotnego. Kanał sprzedaży przez internet jest specyficzny z wielu względów. W szczególności dla rynku ubezpieczeniowego daje on możliwość zautomatyzowanego odkrywania cen produktów, a co za tym idzie, stworzenia nowego

modelu wtórnego jak najbardziej zbliżonego, przynajmniej pod względem parametrów wejściowych oraz generowanych wyników, do modelu pierwotnego. Zaproponowana metoda umożliwia wygenerowanie modelu wtórnego na podstawie danych pozyskanych w ramach interakcji z witrynami zawierającymi ofertę produktów ubezpieczeniowych. Prezentowana w rozprawie metoda związana jest z szeregiem wyzwań badawczych, dlatego jej opracowanie poprzedzone zostało gruntownym badaniem literaturowym. W pracy znalazło to swoje odzwierciedlenie w pierwszej części rozprawy. Rozważając prace wykazujące bezpośredni związek z proponowaną koncepcją badawczą wskazać należy przede wszystkim na dwa nurty prac naukowych: bardziej technologicznie zorientowany nurt zagadnień dotyczących eksploracji danych webowych (web mining) oraz nakierowany na aspekty ekonomiczno-biznesowe nurt związany z modelowaniem ryzyka na potrzeby rynku ubezpieczeniowego. Nurt eksploracji danych webowych podzielić można na trzy rozłączne zakresy tematyczne: eksplorację struktury witryn, eksplorację danych z treści witryn oraz eksplorację informacji o użyciu witryn. W ramach pierwszego zakresu znajdują się badania związane z analizą grafu wewnętrznych i zewnętrznych powiązań pomiędzy dokumentami z danej witryny (np. [Page1998]). Na drugi zakres składają się prace nakierowane na zastosowania technik analitycznych do informacji pochodzącej z treści dokumentów. Znaleźć można tutaj prace, których autorzy stawiają takie cele, jak: grupowanie, kategoryzacja lub klasyfikacja treści, identyfikacja i wzbogacanie treści, generowanie skrótów i podsumowań, odkrywanie pojęć, relacji, budowa słowników oraz ontologii, zastosowania społeczne odkrywanie opinii, emocji etc. Ostatni zakres tematyczny w omawianym aktualnie nurcie koncentruje się na wykorzystaniu technik analitycznych do zdobycia wiedzy dotyczącej wzorców odbioru treści oraz zachowań podmiotów w internecie. Szersze omówienie poszczególnych tematów w tym nurcie znaleźć można w pracach m.in.: [Zhang2008], [Kosala2000], [Madria1999].

W kontekście nurtu eksploracji danych webowych, a konkretnie tematyki eksploracji danych z treści witryn, należy wspomnieć o zagadnieniu ekstrakcji informacji ze źródeł internetowych. Istota tego zagadnienia sprowadza się do przekształcania (nieustrukturyzowanej lub częściowo ustrukturyzowanej) treści dokumentów pochodzących z internetu do postaci ustrukturyzowanych danych. W kontekście podejmowanego tematu ekstrakcja informacji ze źródeł internetowych jest wykorzystana jako etap pośredni prowadzonych badań. Szerokie omówienie tematyki oraz prac związanych z nurtem badawczym wynikającym z licznych problemów towarzyszących zadaniu ekstrakcji informacji znaleźć można m.in. w tekstach takich autorów jak: [Flejter2011, Kaczmarek2006, Chang2006, Arasu2005]. Nurt związany z modelowaniem ryzyka na potrzeby rynku ubezpieczeniowego związany jest przede wszystkim z technikami aktuarialnymi [Duncan2001, Mahler2001, Ronka-Chmielowiec2003, Ronka-Chmielowiec2006]. Techniki te mają za sobą długą historię rozwoju [Björn1986]. Mimo to stanowią przedmiot dalszego ulepszania oraz włączania nowych, zaawansowanych technologicznie rozwiązań [Salam2003]. Opracowana metoda dobrze wpisuje się w nurt badań prowadzonych w ramach eksploracji danych z treści witryn. W szczególności dobrze dopasowana jest do zdefiniowanego podejścia ekstrakcji wiedzy omawianego w [Kosala2000]. Mimo to sformułowanie problemu badawczego w takiej wersji nie nastąpiło wcześniej w ramach omawianego nurtu, a co za tym idzie, nie ma doniesień o próbach realizacji podobnego zadania czy też stworzenia zbliżonej metody. Opis metody został zaprezentowany w drugiej części pracy. Metoda uwzględnia występujące w rzeczywistych portalach ograniczenia głównie wynikające z technologii działania źródeł webowych, ale będące także konsekwencją różnorodności form prowadzenia działalności ubezpieczeniowej poprzez internet. Założenia będące u podstaw prezentowanej metody są następujące: każde z badanych źródeł charakteryzuje się istnieniem związanego z nim poznawalnego algorytmu - model ubezpieczyciela oraz działanie źródła wiedzy są w pełni deterministyczne, zwiększenie liczby danych może prowadzić do dokładniejszego odtworzenia modelu,

istotne informacje dotyczące klienta zasilają model ubezpieczyciela wyłącznie w sposób jawny w wyniku kolejnych kroków procesu kalkulacji składki, występuje powiązanie wyników modelu ubezpieczyciela z rzeczywistym ryzykiem. Zaprezentowana metoda podzielona jest na dwie główne fazy: fazę przygotowawczą oraz wykonawczą. W ramach metody wyróżniono trzy podstawowe komponenty narzędziowe, które odpowiedzialne są za wsparcie realizacji etapów składających się na obydwie fazy. Do fazy przygotowawczej zaliczono etapy: testu źródła, deklaracji kandydatów na parametry modelu, budowy grafu nawigacji, uszczegółowienia grafu nawigacji, oznaczenia konceptami sterującymi oraz testu modelu. We wszystkich, z wyjątkiem ostatniego, z wymienionych etapów zastosowanie ma komponent planowania nawigacji, natomiast w etapie testowania modelu metoda przewiduje wykorzystanie komponentu umożliwiającego eksplorację reprezentacji źródła. Na fazę wykonawczą składają się etapy: pobierania danych do modelu, iteracji na zbiorze wartości właściwości, wyboru strategii optymalizacji, tworzenia alternatywnych modeli oraz na końcu wyboru rozwiązania. Do obsługi tej fazy metody przewidziano zastosowanie komponentu nawigacyjno-ekstrakcyjnego oraz zewnętrznych narzędzi analitycznych. W opracowanej metodzie źródło internetowe modelowane jest w dwojaki sposób. Podstawowy opis ma charakter reprezentacji strukturalnej. Reprezentacja taka ma postać typowanego, skierowanego grafu. Poszczególne wierzchołki grafu są najczęściej tożsame ze zdarzeniami związanymi z nawigacją po źródle, ale zawierają także deklaracje właściwości, które utożsamiane są ze zmiennymi taryfikacyjnymi w modelu pierwotnym. Dodatkowo zarówno realizacja wierzchołków grafu reprezentujących kroki w nawigacji po źródle, jak i przyjęcie przez właściwości określonych zbiorów wartości może zostać uwarunkowane spełnieniem określonych warunków zapisanych w języku stanowiącym część reprezentacji strukturalnej. Opis podstawowy jest dodatkowo wsparty poprzez dowolne odwołania do pojęć zdefiniowanych w ramach ontologii. W rezultacie zastosowania ontologii wzbogacony opis ma charakter reprezentacji semantycznej, a wystąpienia odwołań do pojęć pozwalają na odpowiednie sterowanie procesem ekstrakcji. Stworzona na potrzeby metody ontologia została podzielona na trzy względnie niezależne części subontologie: produktu, ryzyk oraz czynników ryzyka.

W przeprowadzonym na cele pracy badaniu empirycznym z 19 źródeł danych ubezpieczeniowych, należących do 13 firm ubezpieczeniowych pozyskano dane, które stanowiły przedmiot dwóch rodzajów podziałów: według rodzaju ryzyka w złożonych produktach ubezpieczeniowych oraz według możliwości wzbogacenia o dane zewnętrzne. W rezultacie podziałów oraz procedur obróbki pozyskanych danych łącznie uzyskano 52 zbiory danych opisujące produkty ubezpieczeniowe, na które składa się całkowita liczba 275735 rekordów danych zawierających kalkulację składki. Metoda opisana w pracy zakłada wykorzystanie narzędzi analitycznych w celu budowy modeli. W przeprowadzonym badaniu dla każdego zbioru danych stworzono modele z wykorzystaniem każdego z testowanych narzędzi analitycznych. Wśród testowanych narzędzi analitycznych znalazły się m. in.: sieci neuronowe [Rumelhart1986], automatycznie hodowane sieci neuronowe, drzewa decyzyjne [Quinlan1996], regresja oraz regresja DMINE, metoda cząstkowych najmniejszych kwadratów, metoda pamięciowa, boosting gradientowy, metoda LARS i programowanie genetyczne [Koza1994]. W wyniku tego procesu łącznie powstało 1196 modeli uzależniających wysokość składki od czynników stanowiących zmienne taryfikacyjne. Utworzone modele poddano ocenie przy użyciu powszechnie stosowanych miar przede wszystkim średniego błędu kwadratowego oraz pomocniczo współczynnika determinacji. Wreszcie w oparciu o te miary utworzono szereg rankingów, które umożliwiły identyfikację narzędzi analitycznych, które dla analizowanych zbiorów danych dały najlepsze wyniki, tj. pozwoliły na stworzenie najdokładniejszych modeli wtórnych. Analiza zbioru uzyskanych modeli ujawniła, że do najlepszych narzędzi analitycznych zaliczyć należy programowanie genetyczne (13 najlepszych modeli) oraz drzewa decyzyjne (12 najlepszych modeli). Przy czym według niektórych rankingów kolejność na pierwszych dwóch miejscach była odwrotna. Pozwala to wnioskować, że dla modeli wyceny składki obydwa sposoby generowania modeli dają porównywalne rezultaty i istotnie przewyższają pozostałe testowane sposoby. Zarówno zaprezentowana metoda jak i otrzymane wyniki eksperymentalne mogą mieć różnorakie zastosowania. Do istotnych zastosowań zaliczyć należy:

monitorowanie rynku ubezpieczeniowego, zasilanie portali ze zbiorczymi ofertami, tworzenie alternatywnego modelu interoperacyjności, a także cele badawczo-naukowe. [Arasu2005] Arvind Arasu, Hector Garcia-Molina. Extracting structured data from web pages. 2003 ACM SIGMOD International Conference on Management of Data, strony 337 348, 2003. [Björn1986] A. Björn, Comparison of Some Methods to Fit a Multiplicative Tariff Structure to Observed Risk Data, ASTIN Bulletin International Actuarial Association vol. 16 no. 1, s. 63-68, Belgia 1986. [Chang2006] Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled Shaalan. A survey of web information extraction systems. IEEE Transactions on Knowledge and Data Engineering, 18(10):1411 1428, 2006. [Clarke1991] Clarke, T. G. and Salvatori, L., Auto insurance in italy. W: Casualty Actuarial Society discussion paper program, s. 253 304, 1991. [Duncan2001] Anderson, Duncan, et al. The Practitioner s Guide to Generalized Linear Models, Casualty Actuarial Society Study Note, May 2005. [Flejter2011] Dominik Flejter, Semi-Automatic Web Information Extraction. Praca doktorska, UEP, 2006. [Habeck1980] Charles Habeck, Impacts of State Regulation on the Marketing and Pricing of Individual Health Insurance. W: Casualty Actuarial Society discussion paper program, s. 67-106, 1980. [Kaczała2006] Monika Kaczała, Internet jako instrument dystrybucji ubezpieczeniowej, praca doktorska, UEP 2006. [Kaczmarek2006] Tomasz Kaczmarek, Deep Web data integration for company environment analysis. Praca doktorska, UEP, 2006. [Kosala2000] Raymond Kosala, Hendrik Blockeel. Web mining research: a survey. ACM SIGKDD Explorations Newsletter, 2(1):1 15, 2000. [Koza1994] John Koza, Genetic Programming II: Automatic Discovery of Reusable Programs, MIT Press. ISBN 0-262-11189-6, 1994. [Madria1999] S.K.Madria, S.S.Bhowmick, W.K.Ng, F.P.Lim. Research issues in Web data mining. w: Proceedings of Data Warehousing and Knowledge Discovery, First International Conference. DaWaK'99, s. 303-312, 1999. [Mahler2001] H.C. Mahler, C. G. Dean, Credibility: Chapter 8, w: Foundations of Casualty Actuarial Science 4th ed., Arlington, VA: Casualty Actuarial Society, 2001. [Mulpuru2011] S. Mulpuru, V. Sehgal, P. F. Evans, D. Roberge, Forecast: US Online Retail Sales, 2010 to 2015, Forrester Research, Inc., 2010.

[Page1998] Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, The PageRank citation ranking: Bringing order to the web, Technical report, 1998. [PIU2013] http://poznajdirect.pl/direct-w-polsce.html, odczytano: 21 czerwca 2013 r. [Quinlan1996] J. R. Quinlan, Improved use of continuous attributes in c4.5, Journal of Artificial Intelligence Research, 4, s. 77-90, 1996. [Ronka-Chmielowiec2003] Wanda Ronka-Chmielowiec, Modelowanie Ryzyka w Ubezpieczeniach, Wydawnictwo AE we Wrocławiu, 2003. [Ronka-Chmielowiec2006] Patrycja Kowalczyk, Ewa Poprawska, Wanda Ronka-Chmielowiec, Metody aktuarialne: zastosowania matematyki w ubezpieczeniach; red. nauk. Wanda Ronka- Chmielowiec, Wydawnictwo Naukowe PWN, 2006. [Rumelhart1986] Rumelhart, D. E., McClelland, J. L., & the PDP research group. Parallel distributed processing: Explorations in the microstructure of cognition. Cambridge, MA: MIT Press, 1986. [Salam2003] Salam, R., Estimating the Cost of Commercial Airlines Catastrophes A Stochastic Simulation Approach, in The Casualty Actuarial Society Forum Winter 2003 Edition Including the Data Management Call Papers and Ratemaking Discussion Papers, s. 379. [Werner2010] G. Werner, C. Modlin, Basic Ratemaking 4th ed., Casualty Actuarial Society, 2010. [Zhang2008] Qingyu Zhang, Richard S. Segall, Web Mining: a Survey of Current Research, Techniques, and Software. International Journal of Information Technology and Decision Making 7(4), s. 683-720, 2008.