UNIWERSALNOŚĆ ZASTOSOWAŃ MODELI SKORINGOWYCH

Podobne dokumenty
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

BUDOWA MODELU SCORINGOWEGO DO E-POŻYCZKI Z WYKORZYSTANIEM NARZĘDZI STATISTICA

Metody scoringowe w regresji logistycznej

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV

Wprowadzenie do analizy korelacji i regresji

SKORING JAKO NARZĘDZIE WSPIERAJĄCE SPÓŁDZIELCZE KASY OSZCZĘDNOŚCIOWO-KREDYTOWE W SPEŁNIENIU NOWYCH WYMAGAŃ NADZORCZYCH

PRAKTYCZNY SKORING - NIE TYLKO KREDYTOWY

Wskaźnik kondycji finansowej kredytobiorcy. Aspekty metodologiczne.

KREATOR REGRESJI LOGISTYCZNEJ

Regresja logistyczna (LOGISTIC)

Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy)

Konstrukcja miernika szans na bankructwo firmy

MODELE LINIOWE. Dr Wioleta Drobik

BEATA JACKOWSKA EFEKTY INTERAKCJI MIĘDZY ZMIENNYMI OBJAŚNIAJĄCYMI W MODELU LOGITOWYM W ANALIZIE ZRÓŻNICOWANIA RYZYKA ZGONU 1.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

OCENA MODELI SCORINGOWYCH W SKOK STEFCZYKA

Scoring kredytowy w pigułce

PRZYKŁAD WYKORZYSTANIA MODELI SKORINGOWYCH W MEDYCYNIE

Testy nieparametryczne

ALGORYTM RANDOM FOREST

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

DLACZEGO GORSZA METODA JEST CZASEM LEPSZA, CZYLI REGRESJA LOGISTYCZNA W WYKRYWANIU WYŁUDZEŃ ODSZKODOWAŃ

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka i Analiza Danych

Analiza składowych głównych. Wprowadzenie

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Jak długo żyją spółki na polskiej giełdzie? Zastosowanie statystycznej analizy przeżycia do modelowania upadłości przedsiębiorstw

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Metody komputerowe statystyki Computer Methods in Statistics. Matematyka. Poziom kwalifikacji: II stopnia. Liczba godzin/tydzień: 2W, 3L

Badania eksperymentalne

Statystyka i Analiza Danych

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

StatSoft profesjonalny partner w zakresie analizy danych

Wykorzystanie informacji kredytowej w procesie oceny ryzyka ubezpieczeniowego w ubezpieczeniach komunikacyjnych

Porównanie dwóch rozkładów normalnych

Podstawowe pojęcia statystyczne

ANALIZA REGRESJI SPSS

Wykład 9 Testy rangowe w problemie dwóch prób

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

R-PEARSONA Zależność liniowa

WYKORZYSTANIE SKORINGU MARKETINGOWEGO DO OPTYMALIZACJI KAMPANII SPRZEDAŻOWYCH

Analiza współzależności zjawisk

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH. Wprowadzenie do problematyki modelowania statystycznego

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Ćwiczenie 12. Metody eksploracji danych

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

3. Modele tendencji czasowej w prognozowaniu

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Wprowadzenie do analizy dyskryminacyjnej

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

SKORING KREDYTOWY A MODELE DATA MINING

Wykład ze statystyki. Maciej Wolny

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Regresja linearyzowalna

Analiza ekonomiczna w instytucjach publicznych analiza organizacji i projektów

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

PRZEWODNIK PO PRZEDMIOCIE. Statystyka opisowa. Zarządzanie. niestacjonarne. I stopnia. dr Agnieszka Strzelecka. ogólnoakademicki.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Zmienne zależne i niezależne

WYKORZYSTANIE SKORINGU DO PRZEWIDYWANIA WYŁUDZEŃ KREDYTÓW W INVEST-BANKU

Wykład 8 Dane kategoryczne

Ocena prawdopodobieństwa zgonu osób starszych w pierwszych latach pobytu w domu pomocy społecznej

Aproksymacja funkcji a regresja symboliczna

Prognozowanie na podstawie modelu ekonometrycznego

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

10. Podstawowe wskaźniki psychometryczne

System bonus-malus z mechanizmem korekty składki

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

KORELACJE I REGRESJA LINIOWA

WSKAŹNIK KONDYCJI FINANSOWEJ KREDYTOBIORCY. ASPEKTY METODOLOGICZNE

PROGNOZOWANIE PRZYCHODÓW ZE SPRZEDAŻY

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Modele i narzędzia optymalizacji w systemach informatycznych zarządzania

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

dr Anna Matuszyk PUBLIKACJE: CeDeWu przetrwania w ocenie ryzyka kredytowego klientów indywidualnych Profile of the Fraudulelent Customer

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Analiza współzależności dwóch cech I

Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania

Indukowane Reguły Decyzyjne I. Wykład 8

Wojciech Skwirz

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Karta (sylabus) modułu/przedmiotu Inżynieria Materiałowa Studia II stopnia Specjalność: Inżynieria Powierzchni

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Metodyczne aspekty zastosowania modeli skoringowych do oceny zdolności kredytowej z wykorzystaniem metod ilościowych

Elementy modelowania matematycznego

Optymalizacja ciągła

Transkrypt:

UNIWERSALNOŚĆ ZASTOSOWAŃ MODELI SKORINGOWYCH Ewa Wycinka, Uniwersytet Gdański, Katedra Statystyki Modele skoringowe znajdują zastosowanie we wszystkich obszarach badawczych, w których zadaniem badacza jest prognozowanie realizacji jednego z dwóch możliwych rezultatów określonego zdarzenia. Model skoringowy, wykorzystując zestaw cech (predyktorów) i nadanych im wag, przypisuje prawdopodobieństwo realizacji wyróżnionego zdarzenia (ryzyka). Na tej podstawie możliwa jest predykcja wystąpienia określonego zdarzenia u poszczególnych jednostek oraz w całej populacji. Niewątpliwą zaletą modeli jest ich obiektywność, uniwersalność i prostota stosowania. W pierwszej części opracowania przedstawione zostaną: idea budowy modeli skoringowych w oparciu o funkcję logistyczną, charakterystyka predyktorów, kryteria oceny jakości modelu i jego zdolności predykcyjnych. W drugiej części zaprezentowany zostanie przykładowy model skoringowy zbudowany do oceny ryzyka ubezpieczeniowego. Istota skoringu Skoring, inaczej punktowa ocena ryzyka, jest modelem, który informacje dotyczące ocenianej jednostki przekształca w sumaryczny wskaźnik liczbowy, tzw. punkty, które stanowią miarę oceny ryzyka (por. [12] oraz [13]). Metoda skoringu jest rozwijana od lat pięćdziesiątych dwudziestego wieku, głównie przez instytucje finansowe wykorzystujące ją do oceny ryzyka kredytowego. W literaturze spotkać można więc najwięcej opracowań dotyczących metodyki budowy modeli skoringowych ryzyka kredytowego. Współcześnie skoring znajduje zastosowanie we wszelkich dziedzinach działalności człowieka związanej z ryzykiem, a dzięki prostocie tworzenia i stosowania stał się jedną z popularniejszych metod oceny ryzyka. Modele skoringowe wykorzystywane są w wielu obszarach m.in.: w medycynie: do predykcji efektów leczenia [6], selekcji pacjentów do określonej metody leczenia [16], prognozowania wystąpienia przerzutów u pacjentów [5] w ekonomii: do badania ryzyka upadłości przedsiębiorstw [4], skuteczności działań marketingowych [19], lojalności klientów [17], oceny ryzyka w procesie zarządzania [2] w meteorologii do predykcji warunków pogodowych [3] Copyright StatSoft Polska 2013 www.statsoft.pl/czytelnia.html 61

Budowa modelu skoringowego Skoring można stosować wówczas, gdy problem badawczy dotyczy prognozowania wystąpienia jednego z dwóch przeciwstawnych zdarzeń w określonym horyzoncie czasowym, np.: spowodowanie wypadku ubezpieczeniowego/brak wypadku w czasie trwania ochrony ubezpieczeniowej; wystąpienie przerzutów u pacjenta/brak przerzutów w określonym czasie; ogłoszenie upadłości przedsiębiorstwa w ciągu najbliższego roku itd. Wystąpienie zdarzenia (Y) jest więc zmienną dychotomiczną przyjmującą odpowiednio wartość jeden lub zero: 1 zdarzenie wystąpiło Y 0 zdarzenie nie wystąpiło Pierwszym zadaniem badacza jest zdefiniowanie tej zmiennej w sposób jednoznaczny. Budując model skoringowy, zakłada się, że istnieją czynniki, które miały wpływ na realizację badanego zdarzenia we wcześniej badanych populacjach jednostek i te same czynniki wpływają na ryzyko wystąpienia zdarzenia w kolejnych populacjach. Do budowy modelu niezbędne jest posiadanie bazy danych zawierającej informacje o populacji historycznej. Z bazy tej należy wylosować próbę składającą się ze zbliżonych liczebnie: grupy jednostek, u których doszło do realizacji zdarzenia oraz grupy jednostek, u których się ono nie zrealizowało 2. Próba powinna być na tyle liczna, by można z niej wyodrębnić próbę uczącą i testową. O każdej jednostce muszą być zebrane informacje o cechach charakterystycznych, które mogą mieć związek z badanym ryzykiem. W czasie budowy modelu skoringowego z tych cech zostaną wyselekcjonowane istotne predyktory ryzyka (zmienne objaśniające) oraz za pomocą metod statystycznych zostaną nadane im wagi. Do najczęściej wykorzystywanych metod statystycznych w budowie modeli skoringowych należą funkcje dyskryminacyjne, funkcje logistyczne, drzewa decyzyjne [20]. W dalszej części opracowania budowa modelu zostanie przedstawiona na przykładzie funkcji logistycznej, która ze względu na prostą budowę, przejrzystość modelu i interpretowalność parametrów jest najczęściej stosowana. Zastosowanie innych metod statystycznych do budowy modeli można znaleźć m.in. w opracowaniach Janc i Kraska [12] oraz Matuszyk [13]. W modelach skoringowych można wykorzystywać jako zmienne objaśniające zarówno zmienne mierzalne (ilościowe), jak i niemierzalne (jakościowe). Niewymagane jest również żadne założenie odnośnie rodzaju związku między mierzalnymi zmiennymi objaśniającymi a zmienną objaśnianą (związek może być zarówno liniowy, jak i krzywoliniowy). W czasie budowy modelu wszystkie zmienne objaśniające zostają poddane procesowi dyskretyzacji, tzn. wyodrębnieniu wariantów zmiennych, dla których różny jest poziom realizacji ryzyka. Zakres wartości zmiennych mierzalnych zostaje podzielony na przedziały, a w zmiennych niemierzalnych o liczbie wariantów większej niż dwa warianty 2 Lepsze efekty uzyskuje się, jeśli proporcje obu grup jednostek ze względu na wystąpienie zdarzenia są zbliżone, w tym celu zaleca się tworzenie tzw. prób dobieranych (por. [14] oraz [15]). Jedyną konsekwencją budowania modelu na podstawie próby zbilansowanej jest konieczność skorygowania wyrazu wolnego, tak aby otrzymać oszacowanie prawdopodobieństwa w populacji niezbilansowanej [18]. 62 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2013

o podobnym poziomie ryzyka zostają połączone w jednorodne grupy. W modelach skoringowych można również wykorzystywać kombinacje zmiennych objaśniających (zarówno ilościowych, jak i jakościowych), jeśli występują między nimi interakcje 3 [9]. Istnieje wiele metod kategoryzacji zmiennych objaśniających (por. [1] oraz [20]). Jedną z popularniejszych metod jest kryterium maksymalizacji miary information value IV (nazywanej także dywergencją Kullbacka-Leiblera). Miara ta informuje o sile predykcyjnej danej zmiennej objaśniającej, obliczana jest jako suma po wszystkich j wariantach cechy i: gdzie p ij ( ij IV i k i pi j qi j j1 pi ln qi q ) opisują rozkład prawdopodobieństwa i-tej zmiennej w grupie jednostek, u których odpowiednio wystąpiło lub nie wystąpiło zdarzenie. Wyodrębnione w ten sposób kategorie cechy będą jednorodne ze względu na ryzyko. Ostatecznie zmienne dychotomiczne są kodowane za pomocą jednej zmiennej zero-jedynkowej (1 - jednostka ma dany wariant cechy; 0 - jednostka nie ma danego wariantu cechu). W przypadku zmiennych o k wariantach wyodrębnia się k-1 zmiennych zero-jedynkowych, z których każda opisuje występowanie jednego z wariantów zmiennej, poza wariantem przyjętym jako referencyjny. Wystąpienie tego wariantu oznacza, że przy wszystkich pozostałych wariantach tej zmiennej występują zera. Wszystkie zmienne wykorzystywane w modelu mają więc postać zmiennych zero-jedynkowych. Po przygotowaniu zmiennych według powyższych zasad kolejnym etapem budowy modelu skoringowego jest zbudowanie najlepiej dopasowanego modelu logitowego za pomocą funkcji: p P( Y 1 x, x,, x 1 2 n j j n exp b0 bi xi i1 ) n 1 exp b0 bi xi i1 gdzie x 1, x2,, xn oznacza zmienne niezależne, a b 0, b 1,, bn są parametrami funkcji szacowanymi metodą częściowej największej wiarygodności [7]. Powyższa funkcja wyznacza prawdopodobieństwo warunkowe wystąpienia zdarzenia pod warunkiem, że zmienne niezależne przyjęły określone wartości. Wykorzystując w modelu różne zestawy predyktorów, a także dokonując zmian w sposobie dyskretyzacji zmiennych, można otrzymać kilka modeli skoringowych. Do ich oceny i porównywania można wykorzystywać różne grupy miar. Dobroć dopasowania modelu do 2 danych rzeczywistych oceniają miary typu pseudo- R [15] oraz kryteria informacyjne AIC (1) (2), 3 Interakcja występuje wówczas, gdy w zależności od wartości lub wariantów jednej zmiennej objaśniającej zmienia się kierunek lub natężenie drugiej zmiennej objaśniającej na zmienną objaśnianą. Copyright StatSoft Polska 2013 www.statsoft.pl/czytelnia.html 63

(Akaike Information Criterion) i BIC (Bayesian Information Criterion). Poprawność rangowania jednostek oceniają: krzywa koncentracji Lorenza i krzywa ROC (Receiver Operating Characteristic), a także zbudowane na ich podstawie współczynniki Giniego oraz AUC (Area under ROC). Podobną rolę odgrywają wykresy przyrostu (lift) oraz wykres odsetka zdarzeń niepożądanych (bad rate). Trzecią grupą miar są testy statystyczne oceniające istotność różnic pomiędzy rozkładami prawdopodobieństw dwóch wyodrębnionych grup jednostek. Wykorzystuje się testy: jednorodności Kołmogorowa-Smirnowa, test Hosmera- Lemeshowa oraz współczynnik dywergencji. Wszystkie powyższe miary mają za zadanie pomóc analitykowi w wyborze optymalnego modelu skoringowego [11]. Ocenę zdolności predykcyjnych modelu przeprowadza się na próbie testowej. Zapobiega to sytuacji tzw. przeuczenia się modelu, gdy model jest bardzo dobrze dopasowany do danych z próby, na której został zbudowany, a niepoprawnie klasyfikuje jednostki w populacjach, na których jest stosowany. Sytuacja taka może wystąpić, gdy w modelu znajdzie się dużo zmiennych, a nie opisują one prawidłowości o charakterze ogólnym, lecz są powiązane ze specyfiką jednostek w próbie uczącej. Wybrany ostatecznie model logitowy jest równaniem z oszacowanymi parametrami b i. Wstawiając do tego równania za każdą z x i odpowiednio wartości jeden (gdy jednostka ma dany wariant cechy i) lub zero (gdy tego wariantu nie ma), wyznacza się łącznie prawdopodobieństwo wystąpienia zdarzenia u danej jednostki 4. Wynik jest więc liczbą z przedziału <0;1>. Wyższa wartość oznacza wyższe prawdopodobieństwo wystąpienia zdarzenia. W modelu tym można również określić kierunek i natężenie wpływu każdego z wariantów bi zmiennych objaśniających na wystąpienie zdarzenia. Wyrażenie e określa iloraz szans wystąpienia zdarzenia u jednostek mających dany wariant zmiennej objaśniającej do jednostek, które tego wariantu cechy nie mają 5. Na tym etapie budowy modelu możliwa jest transformacja oszacowanych ilorazów szans na punkty z określonej skali. Aby otrzymać punkty dla danej jednostki, zwykle stosuje się liniową transformację logarytmu szans: Scor a 0 a 1 ln 1 gdzie Scor to punkty dla jednostki mającej określone wartości zmiennych objaśniających, a p wyznaczone jest ze wzoru (2). Parametry a 0, a1 dobierane są tak, aby spełnione były p p (3) 4 Inną zalecaną metodą kodowania skategoryzowanych dychotomicznych zmiennych objaśniających jest przy- WoE 100ln p / q obliczanej dla każdego wariantu dzielenie wartości WoE (weight of evidence) i j zmiennej na etapie kategoryzacji. Miara ta jest składową miary IV. 5 Interpretacja dotyczy zawsze określonego zestawu predyktorów oraz przy założeniu, że porównywane jednostki mają identyczne wartości pozostałych zmiennych objaśniających ujętych w modelu. W modelu z innym zestawem predyktorów wartości b i dla poszczególnych wariantów cech mogą się różnić [15]. i j i j 64 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2013

założenia co do zakresu skali punktowej 6. Powyższy wzór przedstawia sumę punktów przyznawanych dla jednostki za posiadanie określonych wariantów zmiennych objaśniających. Liczba punktów dla j-tego atrybutu i-tej zmiennej wynosi więc: a 0 0 b a b x 1 i n n gdzie n oznacza liczbę zmiennych objaśniających w modelu [18]. Ostatecznie wszystkie warianty zmiennych objaśniających i obliczone dla nich punkty skoringowe można zebrać w jedną tablicę nazywaną tablicą skoringową. Użytkownicy modeli skoringowych w celu wyznaczenia oceny skoringowej dla badanej jednostki, korzystając z tablicy skoringowej, sumują dla niej punkty z wszystkich wariantów cech danej jednostki. Końcowym etapem budowy modelu jest określenie punktu odcięcia, tzn. wartości, powyżej której przewiduje się, że zdarzenie nie wystąpi, a dla jednostek z liczbą punktów mniejszą niż punkt odcięcia prognozowane jest wystąpienie zdarzenia 7. W praktyce często wyznacza się więcej niż jeden punkt odcięcia, a jednostki, dla których liczba zawiera się pomiędzy pierwszym a ostatnim punktem odcięcia, uznaje się za niejednoznacznie sklasyfikowane i stosuje do nich dodatkowe metody oceny wystąpienia zdarzenia. W wyborze optymalnego punktu odcięcia można posłużyć się proporcją jednostek wyróżnionych w próbie [15], przebiegiem krzywej ROC [8] bądź arbitralnie ustalić odsetek jednostek, które powinny być zaliczone do grupy, w której zrealizuje się zdarzenie [20]. Stosowanie tablicy skoringowej z ustalonymi punktami odcięcia umożliwia szybkie podejmowanie decyzji odnośnie zakwalifikowania jednostki do jednej z grup. Wykorzystywanie modeli skoringowych nie wymaga więc żadnej wiedzy merytorycznej od użytkownika i jest niezależne od procesu jego tworzenia. Modele skoringowe można wykorzystywać do czasu, gdy zachowują wystarczające własności predykcyjne dla populacji, dla których są stosowane, oraz dopóki nie ulegnie zmianie struktura populacji ze względu na zmienne wykorzystane w modelu. Z tego powodu zalecane jest przeprowadzanie monitoringu działania modeli przez cały okres ich stosowania. ij (4) Przykładowy model skoringowy W celu zilustrowania omawianej metodyki przedstawiony zostanie model skoringowy zbudowany dla celów ubezpieczeniowych. Model ten został zaprezentowany w artykule Jac- 6 W celu wyznaczenia parametrów a 0, a1 można założyć np. liczbę punktów dla wybranej wartości szansy oraz liczbę punktów zwielokrotniających szansę. 7 W zależności od zdefiniowania zmiennej zależnej wraz ze zrostem liczby punktów rośnie lub maleje prawdopodobieństwo realizacji badanego zdarzenia. Najczęściej stosowaną metodą jest przypisanie wartości jeden, gdy zdarzenie nie zrealizuje się. Wówczas niskie wartości prawdopodobieństwa (punktów) prognozują realizację zdarzenia, a wysokie wartości jego brak. Copyright StatSoft Polska 2013 www.statsoft.pl/czytelnia.html 65

kowskiej i Wycinki [10]. Przedmiotem badania była szkodowość polis ubezpieczeń majątkowych sprzedawanych w ramach pakietów. Badano hipotezę, że liczba i rodzaj ryzyk objętych pakietem może mieć wpływ na ryzyko realizacji szkody w kompleksowej polisie, a zjawisko asymetrii informacji na rynku ubezpieczeń powoduje, że ryzyko związane z polisą nie jest addytywne ze względu na ryzyka cząstkowe. Analizie poddano roczne polisy ubezpieczeniowe. 8 Do budowy modelu wykorzystano podstawowe informacje o produkcie oraz dane osobowe dotyczące ubezpieczonych. Model zbudowano przy wykorzystaniu dodatku Moduł skoringowy w programie STATISTICA. Z populacji wylosowano próbę dobieraną ze względu na proporcję realizacji ryzyka ubezpieczeniowego. Próba została podzielona na próbę uczącą i próbę testową w proporcji 2:1. Najlepsze modele zbudowane na próbie uczącej zostały ocenione na danych z próby testowej. Zmienną zależną w modelu jest wystąpienie szkody na polisie w ciągu rocznego okresu ubezpieczenia. Zmienne objaśniające zostały skategoryzowane według kryterium maksymalizacji IV. Do budowy modelu wybrano tylko zmienne, dla których IV> 0,05. Ranking predyktorów przedstawia rysunek 1. Szczegółowy opis zmiennych znajduje się w artykule Jackowskiej i Wycinki [10]. 0,7 0,6 0,5 wartość IV 0,4 0,3 0,2 0,1 0,0 1Gr.3 Pakiet 1Gr.10 1Dom Wiek Typ sieci Płeć 1Samoch. 1Gr.1 1Gr.18 1Gr.8 1Gr.13 1Gr.2 1Gr.9 Rys. 1. Ranking predyktorów ryzyka wystąpienia szkody według miary IV. W kolejnym kroku zostały zbudowane modele regresji logistycznej. Zmienne objaśniające zostały zakodowane na dwa sposoby: model 1 - poprzez wprowadzenie zmiennych zero-jedynkowych, 8 Z badania wyeliminowano polisy o okresie krótszym niż jeden rok oraz umowy, które wygasły lub zostały zerwane przed upływem roku. 66 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2013

model 2 - poprzez nadanie wariantom cech wartości miary WoE (weight of evidence) obliczonej na etapie kategoryzacji zmiennych, informującej o sile predykcyjnej poszczególnych wariantów cechy. Do konstrukcji modelu wykorzystano metodę krokową postępującą (stepwise logistic regression) [8]. Postać modeli oraz wartości oszacowanych parametrów zostały przedstawione dla modelu 1 w tabeli 2, a dla modelu 2 w tabeli 3. Tabela 2. Wyniki oszacowania modelu logitowego dla zmiennych zero-jedynkowych (model 1). Predyktor Warianty exp(b) p-value Punkty Wyraz wolny X 0,6780 Grupa referencyjna: 0 produktów 191 Grupa 1 1 produkt 0,7836 178 p<0,0001 2 i więcej 1,0507 187 Grupa referencyjna: 0 produktów 184 Dom 1 produkt 1,5391 185 p=0,0069 2 i więcej 0,6649 198 Grupa referencyjna: 0 produktów 217 Grupa 3 1 produkt 0,4845 164 p<0,0001 2 i więcej 0,6914 175 Tabela 3. Wyniki oszacowanego modelu dla zmiennych o wartościach WoE (model 2). Predyktor Warianty exp(b) p-value WoE Punkty Wyraz wolny X 0,9771 A 88,37 291 Pakiet B 45,17 287 1,0032 p<0,0001 C 20,06 285 D-J -56,09 278 0 57,89 298 Grupa 3 1 1,0091 p<0,0001-137,44 247 >1-99,01 257 W tablicy zostały podane również punkty skoringowe. Prawdopodobieństwo wystąpienia zdarzenia niepożądanego zostało zamienione na punkty, w taki sposób, aby co 20 punktów podwajała się szansa, że zdarzenie się nie zrealizuje. Dla 600 punktów przyjęto szansę 50:1 [18]. Przy wyborze modeli kierowano się minimalizacją kryterium informacyjnego AIC oraz BIC oraz dopasowaniem modeli mierzonym miarami pseudo-r 2. Miary dobroci dopasowania oraz kryteria informacyjne wskazują na bardzo małe różnice w dobroci dopasowania obu modeli (tabela 4). Copyright StatSoft Polska 2013 www.statsoft.pl/czytelnia.html 67

Tabela 4. Kryteria wyboru modelu: kryteria informacyjne (AIC, BIC) oraz miary dobroci dopasowania (miary pseudo-r 2 ). Model 1 ze zmiennymi zerojedynkowymi Model 2 ze zmiennymi o wartościach WoE AIC BIC R 2 McFadden R 2 Cragg-Uhler (Nagelkerke) R 2 Cox-Snell 1033,913 1067,022 0,121 0,206 0,154 1033,893 1048,082 0,114 0,195 0,146 W zbiorze zaproponowanych zmiennych objaśniających znajdowały się zmienne silnie ze sobą skorelowane, jednak zastosowanie algorytmu regresji krokowej postępującej doprowadziło do tego, że w modelach znalazły się tylko zmienne objaśniające, które nie są ze sobą skorelowane. Zastosowanie dwóch różnych sposobów kodowania zmiennych objaśniających nie wpłynęło na dopasowanie modeli, doprowadziło jednak do wyboru innego predyktora z pary zmiennych najsilniej skorelowanych. Modele można więc stosować zamiennie, w zależności od danych z zakładu ubezpieczeń. W tabeli 5 przedstawiono wyniki badania zdolności predykcyjnej modelu 2 9. Tabela 5. Ocena dopasowania i zdolności predykcyjnej modelu 2 (wybrane wskaźniki). Wyniki dla próby uczącej Wyniki dla próby testowej Information Value Współcz. Giniego Statystyka dywergencji 0,670 0,411 0,715 0,645 0,384 0,726 Statystyka Hosmera- Lemeshowa 11,405 (p=0,18) 10,395 (p=0,238) AUC 0,706 0,692 Porównanie wyników dla próby uczącej i testowej wskazuje na stabilność modelu. Potwierdzenie tych wyników otrzymano także na podstawie skumulowanego przyrostu Lift, będącego ilorazem skumulowanego odsetka wystąpień szkody oraz skumulowanego odsetka polis ogółem w próbie uporządkowanej rosnąco według prawdopodobieństwa niewystąpienia szkody (porządek od najbardziej ryzykownych polis do najmniej ryzykownych). Przebieg wykresu skumulowanego przyrostu Lift (rys. 2) wskazuje nawet na lepsze własności prognostyczne modelu dla próby testowej. Wykres zdarzeń niepożądanych przedstawia udział tych zdarzeń w kolejnych przedziałach punktacji. Tendencja malejąca świadczy o prawidłowej klasyfikacji jednostek przez model i o jego efektywności (rys. 2). 9 Wyniki oceny zdolności predykcyjnej modelu 1 zostały przedstawione w artykule Jackowskiej i Wycinki [10]. 68 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2013

1,7 Wykres przyrostu (Lift) Wskaźnik zdarzeń niepożądanych (Bad Rate) Przyrost (Lift) skumulowany 1,6 1,5 1,4 1,3 1,2 1 0,8 0,6 0,4 0,2 0 1,1 1,0 przedziały punktów skoringu 0,9 30% 40% 50% 60% 70% 80% 90% 100% próba ucząca próba testowa próba testowa próba ucząca Rys. 2. Skumulowany przyrost (lift) oraz wskaźnik zdarzeń niepożądanych obliczone na podstawie modelu 2. W modelu 2 znalazły się dwie zmienne o odpowiednio czterech (dla zmiennej pakiet) i trzech (dla zmiennej grupa 3) wariantach. W ten sposób jednostka otrzymać może jedną z maksymalnie 12 różnych sum punktów (tabela 6). Na podstawie klasyfikacji polis szkodowych i bezszkodowych według punktów skoringowych możliwe jest wyznaczenie jednego lub kilku punków odcięcia. Tabela 6. Klasyfikacja jednostek według punktów skoringowych i realizacji ryzyka w próbie testowej 10. Punkty skoringowe Procent bezszkodowych polis Procent szkodowych polis czułość swoistość dokładność 525 3% 17% 97% 17% 57% 532 0% 4% 97% 20% 59% 534 0% 2% 96% 22% 60% 535 9% 27% 87% 49% 69% 544 2% 3% 85% 52% 69% 576 19% 9% 66% 61% 64% 583 25% 16% 41% 77% 59% 585 28% 17% 13% 94% 52% 589 13% 6% 0% 100% 49% Wybierając punkt odcięcia na najniższym możliwym poziomie, tj. 525 punktów, 57% wszystkich polis zostało poprawnie zakwalifikowanych (dokładność). Poprawnie zakwalifikowano 97% polis bezszkodowych (czułość) i 17% polis szkodowych (swoistość). Dla punktu odcięcia między 535 a 544 uzyskuje się najwyższy odsetek poprawnych 10 W przykładzie posłużono się próbą testową o zbilansowanej liczbie szkodowych i bezszkodowych polis. Nie odzwierciedla ona struktury szkodowości w populacji ubezpieczonych. Copyright StatSoft Polska 2013 www.statsoft.pl/czytelnia.html 69

klasyfikacji 69%. Wraz ze zwiększaniem wartości punktu odcięcia zwiększa się odsetek błędnie zakwalifikowanych polis bezszkodowych, a zmniejsza odsetek błędnie zakwalifikowanych polis szkodowych. Konsekwencją jest również zmniejszanie poziomu akceptacji polis. Zależność między odsetkiem błędnie zakwalifikowanych polis szkodowych a poziomem akceptacji przedstawia rys. 3. Poziom akceptacji oraz udział polis szkodowych wśród polis zaakceptowanych w zależności od punktu odcięcia 90% 45% 80% 70% 40% 35% Poziom akceptacji 60% 50% 40% 30% 20% 30% 25% 20% 15% 10% Poziom polis szkodowych 10% 0% 520 530 540 550 560 570 580 590 Skoring Poziom akceptacji Poziom polis szkodowych Punkt odcięcia 1 Punkt odcięcia 2 5% 0% Rys. 3. Poziom akceptacji a udział błędnie zakwalifikowanych polis szkodowych. Często stosowaną praktyką jest przyjmowanie punktu odcięcia o niskiej wartości, aby wyeliminować jedynie jednostki o największym prawdopodobieństwie realizacji ubezpieczanego zdarzenia. Pozostałe punkty można wykorzystać jako klasy w taryfie składek. Tak skonstruowany model może być więc obiektywnym narzędziem w procesie oceny ryzyka ubezpieczeniowego (underwriting ubezpieczeniowy). Podsumowanie Niezależnie od dziedziny zastosowań algorytm postępowania przy budowie modelu skoringowego jest taki sam. Istnieje bogata literatura dotycząca budowy modeli skoringowych, ich oceny i zastosowań, a metody te zostały zaimplementowane do programów statystycznych. Wszystkie te czynniki wpływają na rosnącą popularność modeli skoringowych jako narzędzi oceny ryzyka. W opracowaniu przedstawiono przykładowe metody budowy modelu oraz wybrane miary analityczne i graficzne jego oceny. Ten krótki przegląd miał na celu pokazanie możliwości stosowania modeli skoringowych opartych na regułach statystycznych do obiektywnej analizy ryzyka. 70 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2013

Literatura 1. Anderson R., The Credit Scoring Toolkit. Theory and Practice for Retail Cedit Risk Management and Decision Automation, Oxford 2007. 2. Baron P., Bráza P., Aplication of Computer Aided Risk Valuation Using Scoring Method, The International Conference of the Carpathian Euro-Region Specialists in Industrial Systems 2006. 3. Charba J., Reynolds D., Comparative Verification of Recent Quantitative Precipitation Forecasts in the National Weather Service: A Simple Approach for Scoring Forecast Accuracy, Weather and Forecasting, April 2003, Volume 18 Issue 2. 4. Czarny A., Zastosowanie wybranych metod scoringowych do oceny kondycji finansowej przedsiębiorstw na przykładzie branży cukierniczej, Prace Naukowe AE we Wrocławiu 2006, nr 1109. 5. Dauphine C.E., Evaluation of three scoring systems predicting non sentinel node metastasis in breast cancer patients with a positive sentinel node biopsy, Annals of Surgical Oncology, March 2007, Volume 14, Issue 3. 6. Greenberg P. et al., International Scoring System for Evaluating Prognosis in Myelodysplastic Syndromes, Blood March 15, 1997 vol. 89 no. 6. 7. Harrell F., Regression Modeling Strategies with Applications to Linear Models, Logistic Regression, and Survival Analysis, Springer-Verlag, New York, 2001. 8. Hosmer D., Lemeshow S., Applied Logistic Regression, John Wiley & Sons, New Jersey, 2000. 9. Jackowska B., Efekty interakcji między zmiennymi objaśniającymi w modelu logitowym w analizie zróżnicowania ryzyka zgonu, Przegląd Statystyczny 2011, Tom 58, Nr 1-2. 10. Jackowska B., Wycinka E., Modelowanie ryzyka wystąpienia szkody ubezpieczeniowej: budowa i kryteria oceny modelu regresji logistycznej; Taksonomia 18, Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu nr 176, Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu, Wrocław 2011. 11. Jackowska B., Wycinka E., Zastosowanie scoringu do oceny ryzyka ubezpieczeniowego; (w:) Studia ubezpieczeniowe: Zarządzanie ryzykiem i finansami, Zeszyty Naukowe 182, Wydawnictwo Uniwersytetu Ekonomicznego w Poznaniu, Poznań 2011. 12. Janc A., Kraska M., Credit-scoring. Nowoczesna metoda oceny zdolności kredytowej, Biblioteka Menażera i Bankowca, Warszawa 2001. 13. Matuszyk A., Credit scoring, CeDeWu, Warszawa 2008. 14. Migut M., Wykorzystanie modeli skoringowych i reguł biznesowych do optymalizacji procesów biznesowych, (w:) Skoring w biznesie, StatSoft 2013. 15. Mikroekonometria. Modele i metody analizy danych indywidualnych, pod red. M. Gruszczyńskiego, Wolters Kluwer 2010. 16. Nordlinger B. et al., Surgical resection of colorectal carcinoma metastases to the liver: A prognostic scoring system to improve case selection, based on 1568 patients, Cancer Cancer, Volume 77, Issue 7, 1 April 1996. Copyright StatSoft Polska 2013 www.statsoft.pl/czytelnia.html 71

17. Risselada H.et al., Staying Power of Churn Prediction Models, Journal of Interactive Marketing, Volume 24, Issue 3, August 2010. 18. Siddiqi N., Credit Scoring Scorecards. Developing and Implementing Intelligent Credit Scoring, John Wiley & Sons, 2006. 19. Skuz P., Scoring droga do najlepszych klientów, Marketing w Praktyce 2003, nr 9 20. Thomas L. i inni, Credit Scoring and Its Applications, SIAM 2002. 72 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2013