Nowy wymiar jakości danych w ubezpieczeniach Wojciech Partyka
Znaczenie jakości danych Wymiana danych z podmiotami zewnętrznymi Integracja systemów informatycznych Zapewnienie możliwości uczestniczenia w obrocie gospodarczym Efektywność wykorzystania posiadanej wiedzy Koszty operacyjne i optymalizacja procesów Ryzyko operacyjne Ryzyko finansowe Systemy autonomiczne
UFG studium przypadku Identyfikacja informacji o zdarzeniach Ubezpieczeniowy Fundusz Gwarancyjny pełni rolę ośrodka informacji gromadzącego między innymi informacje dotyczące zdarzeń powodujących odpowiedzialność zakładów ubezpieczeń. Dane przekazywane są do Funduszu przez zakłady ubezpieczeń drogą elektroniczną w czasie do 14 dni od zgłoszenia roszczenia. Fundusz udostępnia dane uprawnionym podmiotom oraz wykorzystuje je do własnych celów określonych w ustawie. W celu umożliwienia właściwego wykorzystania informacji i prowadzenia analiz należy identyfikować roszczenia związane z tym samym zdarzeniem: Z jednym zdarzeniem może być związanych wiele roszczeń. Roszczenia mogą być zgłaszane niezależnie przez wszystkich uczestników zdarzenia, zgłoszenia mogą być składane w różnych zakładach ubezpieczeń. Roszczenia dotyczące tego samego zdarzenia powinny być ze sobą kojarzone.
Algorytm identyfikacji zdarzeń Tworzenie par zdarzeń Wyznaczanie wektora podobieństwa Określanie podobieństwa zdarzeń Łączenie zdarzeń w klastry Uzupełnienie zbioru o pozostałe zdarzenia Na podstawie zbioru zdarzeń tworzone są pary zdarzeń. Dla zwiększenia efektywności wybierane są pary mające zgodny przynajmniej jeden z kilku atrybutów uznanych za najbardziej przydatne do identyfikacji Dla wszystkich atrybutów, na podstawie których następuje identyfikacja zdarzeń oblicza się miarę zgodności. W zależności od przyjętego algorytmu miara może przyjmować wartości dyskretne: 0 lub 1, lub może przyjmować wartości z przedziału <0,1> Dla każdej pary zdarzeń wyznaczane jest podobieństwo na podstawie średniej ważonej wartości zgodności poszczególnych atrybutów wektora podobieństwa. Za zdarzenia zgodne uznaje się pary o zgodności wyższej niż ustalony próg zgodności W klaster łączone są wszystkie zdarzenia występujące w parach uznanych za jeden incydent, jeżeli podobne są zdarzenia A i B oraz B i C to we wspólny klaster łączone są zdarzenia A, B i C Wszystkie zdarzenia, które nie zostały zaklasyfikowane do klastrów dołączane są do powstałego zbioru jako zdarzenia w klastrach jednoelementowych
Przydatność danych do kojarzenia zdarzeń Przebieg analizy: Określenie jakości danych Analiza możliwości (lub konieczności) wyodrębnienia na potrzeby identyfikacji dodatkowych informacji: Wyodrębnienie z miejsca zdarzenia miasta, ulicy itd. Poszukiwanie dodatkowych informacji w opisie zdarzenia Wykonanie próbnych zapytań Analiza zgodności wyłonionych zdarzeń Analiza zdarzeń na mapach Porównanie pozostałych atrybutów Określenie atrybutów, które należy analizować wspólnie Uwaga: Nie analizowano przydatności danych pojazdu uznając ten atrybut jako oczywisty parametr identyfikacji zdarzeń, jednak ze względu na niską jakość danych uwzględniano ten atrybut jako element bardziej złożonych warunków.
Wyniki analizy dostępnych danych (1) Informacja Miejsce zdarzenia Opis szkody Posiadacz pojazdu Wyniki Dane geograficzne są wysokiej jakości. Jeśli pole miejsce zdarzenia zawiera miejscowość i ulicę, to dane te są wystarczająco ustandaryzowane, czyli można je odszukać w słowniku TERYT bez konieczności ich czyszczenia Pole opis szkody zawiera nieustandaryzowane dane, różniące się w zależności od zakładu ubezpieczeń. Dane mogą być wykorzystywane pomocniczo po zidentyfikowaniu informacji przez wyszukiwanie wyrażeń regularnych Wiarygodność kojarzenia zdarzeń jest wyższa w przypadku, gdy posiadacz jest osobą fizyczną (często posiada jeden pojazd). Odwrotnie jest w przypadku gdy posiadacz jest firmą, często jest to firma leasingowa, która posiada wiele pojazdów
Wyniki analizy dostępnych danych (2) Informacja Uczestnik zdarzenia Polisa Czas zdarzenia Wyniki W przypadku kiedy uczestnik zdarzenia jest osobą fizyczną, stanowi on bardzo dobry atrybut do kojarzenia zdarzeń w przypadku, jeżeli jest to firma a zdarzenie zgłoszone jest z polisą flotową identyfikacja jest niewiarygodna. Identyfikator polisy, z wyłączeniem polis flotowych jest dobrym atrybutem do kojarzenia zdarzeń, ale z uwzględnieniem stosunku liczby zdarzeń do liczby miejsca zdarzenia. W przypadku polis flotowych konieczna jest weryfikacja numeru pojazdu. Kojarzenie zdarzeń w oparciu o datę z uwzględnieniem pojazdu daje dobre wyniki. Dla klastrów utworzonych w oparciu o okno czasowe równe dwóm dniom należy uwzględnić dodatkowo atrybut miejsce zdarzenia.
Analiza zawartości pola Opis Szkody Przykłady określeń poszukiwanych informacji w polu Opis szkody: Po pierwsze przeprowadzono analizę, czy dane zawierają wartościową informację oraz w drugiej kolejności sprawdzano czy opis: opisuje uszkodzenia opisuje uszkodzone części wymienia uszkodzone części opisuje urazy uczestników zawiera przebieg zdarzenia dotyczy kradzieży udział zwierząt opisuje inne mienie (płot, sklep,..) parking jako miejsce zdarzenia stwierdza, że szkoda została odkryta po fakcie lub czy był to akt wandalizmu wskazuje na udział wielu pojazdów występował regres (według definicji zakładu ubezpieczeń) zdarzenie dotyczyło pożaru lub gradu informuje, czy były uszkodzone pojazdy osób trzecich
Łączenie zdarzeń w pary Zalecane warunki łączenia zdarzeń w pary: LUB Data zdarzeń jest zgodna ORAZ zachodzi przynajmniej jeden z poniższych warunków: W zdarzeniach wystąpił ten sam pojazd W zdarzeniach uczestniczył ten sam podmiot będący osobą fizyczną Zdarzenia likwidowane były z tych samych polis (nie flotowych) i wystąpiły w tym samym miejscu Daty zdarzeń różnią się o jeden dzień ORAZ zachodzi przynajmniej jeden z poniższych warunków: W zdarzeniach wystąpił ten sam pojazd i wystąpiły w tym samym miejscu W zdarzeniach uczestniczył ten sam podmiot będący osobą fizyczną i wystąpiły w tym samym miejscu Zdarzenia likwidowane były z tych samych polis (nie flotowych) i wystąpiły w tym samym miejscu
Wektor zgodności Wektor zgodności należy określić przez porównanie pól: Data, Pojazd, Uczestnik, Posiadacz, Kraj, Województwo, Powiat, Gmina, Miejscowość, Kod pocztowy, Godzina, Polisa ubezpieczeniowa, Opis szkody (jako lista flag). Najwyższe wagi należy przypisać następującym zestawom atrybutów: Zgodność dat zdarzenia ORAZ pojazdów uczestniczących, Rozbieżność dat zdarzenia o jeden dzień ORAZ zgodność pojazdów uczestniczących ORAZ zgodność miejsca zdarzenia, Zgodność dat zdarzenia ORAZ podmiotów uczestniczących ORAZ warunek podmiotu uczestniczącego, że to osoba fizyczna, Zgodność dat zdarzenia ORAZ posiadaczy pojazdów ORAZ warunek, że posiadaczem jest osoba fizyczna, Zgodność dat zdarzenia ORAZ polis zdarzeń ORAZ warunek polisy, że to polisa nie flotowa ORAZ zgodność miejsca zdarzenia.
Metody poprawy jakości wyników Działania skierowane na poprawę jakości danych źródłowych: Analiza jakości otrzymywanych danych i współpraca z zakładami ubezpieczeń w celu osiągnięcia pożądanej jakości danych: Standaryzacja danych wykorzystywanych do identyfikacji zdarzeń Jednolite zasady interpretacji i zapisu danych dotyczących zdarzeń Działania związane z eksploatacją Centralnej Bazy Zdarzeń: Czyszczenie danych otrzymywanych z zakładów ubezpieczeń Strojenie parametrów kojarzenia zdarzeń Monitorowanie rezultatów i ręczna modyfikacja wyników łączenia zdarzeń w klastry
Dziękuję za uwagę wojciech.partyka@pentacomp.pl Pentacomp Systemy Informatyczne S.A. ul. Lektykarska 29, 01-687 Warszawa tel. 022 639 32 32 www.pentacomp.pl