Przemysław Jaśko Wydział Ekonomii i Stosunków Międzynarodowych, Uniwersytet Ekonomiczny w Krakowie

MODELE SCORINGU KREDYTOWEGO Z WYKORZYSTANIEM NARZĘDZI DATA MINING ANALIZA PORÓWNAWCZA Przemysław Jaśko Wydział Ekoomii i Stosuków Międzyarodowych, Uiwersytet Ekoomiczy w Krakowie 1 WROWADZENIE Modele aplikacyjego scorigu kredytowego wykorzystywae są a etapie rozpatrywaia wiosków o kredyt. Uściślając, miaem modelu scorigu aplikacyjego określa się taki model, którego przewidywae (wyjściowe) wartości uzyskae w wyiku podstawieia wektora wartości predyktorów charakteryzującego day obiekt potecjaly kredyt służą jako podstawa do wyzaczeia progozy jakościowej (ajczęściej biarej) zmieej opisującej status kredytu, w oparciu o którą to progozę podejmowaa jest astępie decyzja kredytowa o udzieleiu bądź też odmowie przyzaia rozważaego kredytu. W przypadku rozpatrywaych w pracy idywidualych modeli scorigu kredytowego populację bazową tworzą kredyty daego typu, odoszące się do pojedyczej istytucji kredytowej. Często, jeżeli jest to zasade, jako populację bazową uzaje się populację kredytów odoszących się do pojedyczej filii istytucji kredytowej (bądź też określoej grupy filli). Zazwyczaj progozie podlegają wartości jakościowej zmieej biarej status kredytu, mogącej przyjmować astępujące dwie kategorie: dobry kredyt oraz zły kredyt (przyjęto dla ich etykiety odpowiedio 1 oraz 2 ). W takiej sytuacji, gdy klasyfikacja przewidywaa przez model jest odmiea od tej w rzeczywistości obserwowaej, moża mieć do czyieia z dwoma rodzajami błędów [4]: błąd I rodzaju /błąd 1 2/ progoza statusu dobry dla kredytu w rzeczywistości złego, błąd II rodzaju /błąd 2 1/ progoza statusu zły dla kredytu w rzeczywistości dobrego. Założoo, że zastosowae kryterium podejmowaia decyzji kredytowych powio być zdefiiowae w te sposób, aby prowadzić do miimalizacji wartości oczekiwaej kosztu związaego z dowolym (ie bierze się tutaj pod uwagę wektora wartości predyktorów charakteryzujących day kredyt) pojedyczym kredytem pochodzącym z populacji bazowej. Zmiea opisująca koszt związay z pojedyczym kredytem ma rozkład trójpuktowy, a zbiór wartości przyjmowaych przez tę zmieą to 0, C 21, C12, gdzie C 12 i C 21 to odpowiedio koszt błędu pierwszego i drugiego rodzaju, poadto 1 2 C21 C. Przyjęto dla iej ozaczeie K, atomiast przez E(K) ozacza się jej wartość oczekiwaą. 2 CEL I ZAKRES PRACY Celem pracy była budowa modelu aplikacyjego scorigu kredytowego dla idywidualych kredytów kosumpcyjych w oparciu o kokrete dae zaczerpięte z iemieckich istytucji kredytowych. Przy budowie modelu scorigowego przyjęto postępowaie stosowae w data miig. Na etapie eksploracyjego data miig po sprawdzeiu poprawości dostępych daych zbadaa została struktura dyspoowaej próby oraz wykoae zostało tzw. drążeie daych, umożliwiające odkrycie zależości pomiędzy zmieymi w dyspoowaym zbiorze daych. Natomiast a etapie predykcyjego data miig (zgłębiaia daych) oszacowaych zostało kilka modeli, a podstawie których możliwe było postawieie jakościowej progozy dotyczącej statusu kredytu. Były to kolejo: model 155

Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza logitowy (jako przykład modelu zmieej biarej), model CART i model CHAID (jako przykładowe algorytmy metody RP), sztucza sieć euroowa MLP (skostruowao rówież sieć RBF, jedak w związku z iezadowalającymi wyikami progoz klasyfikacyjych tego modelu pomiięto jego prezetację) oraz model aalizy dyskrymiacyjej. Na podstawie powyższych modeli skostruowao rówież modele agregatowe. Przy budowie modeli uwzględioo specjalie skostruoway system wag przypadków pozwalający a uwzględieie różych kosztów błędych klasyfikacji. W modelu CART moża bezpośredio uwzględić róże koszty błędych klasyfikacji poprzez zdefiiowaie macierzy kosztów, toteż zamiast przyjęcia systemu wag przyjęto przywołae podejście. Natomiast w algorytmie CHAID ie ma możliwości uwzględieia różych kosztów błędów klasyfikacyjych. Praktycze właściwości poszczególych modeli zostały porówae oraz podjęto próbę określeia ajlepszego modelu (modeli). Przytoczoe modele przyjęto za pracą [4] określać łączie miaem statystyczo-matematyczych modeli scorigu kredytowego. Wszystkie aalizy zostały wykoae z użyciem oprogramowaia STATISTICA. 3 OPIS ZMIENNYCH ORAZ MACIERZ KOSZTÓW Dae pochodzące z jedej z iemieckich istytucji kredytowych zaczerpięto z Repozytorium Uczeia Maszyowego Uiwersytetu Kaliforijskiego w Irvie [1]. Dostępe metadae dotyczące pobraego zbioru daych azwaego iemiecki kredyt były bardzo ubogie. Zbiór zawierał wartości zmieej zależej Y oraz 20 potecjalych predyktorów opisujących 1000 obiektów będących kredytami kosumpcyjymi dla osób fizyczych. Potecjalym predyktorom zmieym objaśiającym przypisao koleje ozaczeia od X1 do X20. Trzyaście z potecjalych predyktorów miało charakter zmieych jakościowych, pozostałych 7 to zmiee ilościowe. Moża miemać, że wartości części z potecjalych zmieych objaśiających pochodziły z wiosków kredytowych wypełioych przez aplikatów, atomiast dae dotyczące wartości pozostałych (potecjalych) zmieych objaśiających zaczerpięto odpowiedio z Biura Iformacji Kredytowej, bądź też z bazy daych rozpatrywaej istytucji kredytowej. Metadae ie zawierały iformacji o tym, czy próba składa się wyłączie z kredytów, które zostały zgodie ze stosowaą w okresie kompletowaia próby metodą uzaiową udzieloe, czy też zostały do iej włączoe rówież kredyty, dla których wioski zostały przez scorig uzaiowy odrzucoe. Zmiea zależa to jakościowa zmiea biara Y opisująca status kredytu. Poiżej przedstawia się opis dostępych potecjalych predyktorów ( X m ) dla wartości zmieej zależej Y (skróty ozaczają: T typ zmieej: ilościowa lub jakościowa, LK liczba kategorii (wartości) zmieej jakościowej, K etykiety i azwy poszczególych kategorii cech jakościowych). X1 - Sta istiejącego rachuku bieżącego w DEM (T: jakościowa, LK 4, K: X11 - poiżej 0, X12 - <0,200), X13 - ie miej iż 200/pesja a rachuek przez miimum rok, X14 - brak rachuku bieżącego); X2 - Czas trwaia w miesiącach (T: ilościowa); X3 - Historia kredytowa (T: jakościowa, LK 5, K: X30 - bez kredytów/wszystkie kredyty spłacoe, X31 - wszystkie kredyty w tym baku spłacoe, X32 - istiejące kredyty spłacae regularie, X33 - opóźieie w spłatach w przeszłości, X34 - rachuek krytyczy/istieją kredyty w iych bakach); X4 - Cel kredytu (T: jakościowa, LK 10, K: X40 - samochód (owy), X41 - samochód (używay), X42 - meble/wyposażeie, X43 - RTV, X44 - AGD, X45 - remot, X46 - edukacja, X47 - zmiaa kwalifikacji, X48 - bizes, X49 - iy cel); X5 - Kwota kredytu (T: ilościowa); X6 - Rachuki oszczędościowe/obligacje, wartości w DEM (T: jakościowa, LK 5, K: X61 - poiżej 100, X62 - <100,500), X63 - <500, 1000), X64-1000 i więcej, X65 - brak daych/brak rachuku oszczędościowego); X7 - Długość obecego zatrudieia, w latach (T: jakościowa, LK 5, K: X71 - bezroboty, X72 - poiżej 1, X73 - <1, 4), X74 - <4, 7), X75-7 i więcej); X8 - Rata kredytu jako procet rozporządzalego dochodu (T: ilościowa); X9 - Sta cywily i płeć (T: jakościowa, LK 4, K: X91 - mężczyza: rozwiedzioy/w separacji, X92 - kobieta: rozwiedzioa/w separacji/mężatka, X93 - mężczyza: sta woly, X94 - mężczyza: żoaty/wdowiec); X10 - Ii dłużicy/poręczyciele (T: jakościowa, LK 3, K: X101 - brak, X102 - współaplikat wiosku, X103 - poręczyciel); X11 - Okres obecego 156 www.statsoft.pl/czytelia.html Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012

Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza zamieszkaia w latach (T: ilościowa); X12 - Własość (T: jakościowa, LK 4, K: X121 ieruchomość, X122 - jeżeli ie X121: wkład do spółdzieli mieszkaiowej/polisa ubezpieczeiowa a życie, X123 - jeżeli ie X121 oraz X122: samochód lub ia, X124 - iezaa/brak własości); X13 - Wiek w latach (T: ilościowa); X14 - Ie powiości ratale (T: jakościowa, LK 3, K: X141 - bak, X142 - sklepy, X143 - brak); X15 - Mieszkaie (T: jakościowa, LK 3, K: X151 - wyajmowae, X152 - własościowe, X153 - za darmo); X16 - Liczba istiejących kredytów w tym baku (T: ilościowa); X17 - Praca (T: jakościowa, LK 4, K: X171 - bezroboty/iewykwalifikoway - ierezydet, X172 - iewykwalifikoway - rezydet, X173 wykwalifikoway pracowik/urzędik, X174 zarządca/samozatrudieie/wysoko wykwalifikoway pracowik); X18 - Liczba osób a utrzymaiu (T: ilościowa); X19 - Telefo (T: jakościowa, LK 2, K: X191 - brak, X192 - tak, zarejestroway a azwisko klieta); X20 - Pracowik zagraiczy (T: jakościowa, LK 2, X201 - tak, X202 - ie). Do zbioru daych dołączoo astępująco zdefiiowaą macierz kosztów błędych klasyfikacji (P wartość progozowaa, O wartość obserwowaa): Tabela 1. Macierz kosztów P\O 1 2 P\O 1 2 1 C11 12 2 C21 2 2 C 1 0 1,7 C 2 0,7 0 4 EKSPLORACYJNY DATA MINING W tym momecie przytoczoe zostaą wybrae czyości wykoae w ramach eksploracyjego data miig. 4.1 Rozkład zmieej Y w całości dyspoowaej próby Rozkład empiryczy zmieej zależej Y w całości dyspoowaej próby przedstawiał się astępująco: frakcja dobrych kredytów wyosiła 0,7 (700 obiektów), a odsetek złych kredytów rówy był 0,3 (300 obiektów). Poza tym ie występowały braki daych dla omawiaej zmieej. Dostępe dae, obejmujące wartości potecjalych predyktorów X m oraz zmieej zależej Y ozaczającej status kredytu, odoszą się (ajprawdopodobiej) wyłączie do kredytów, które zostały przyzae w oparciu o decyzję podjętą a podstawie scorigu uzaiowego. Struktura względem Y obserwowaa w dostępej próbie zdawałaby się świadczyć o tym, że mechaizm stosoway przy doborze próby ie był losowy. W przypadku losowego doboru próby ajprawdopodobiej udział poszczególych klas Y w strukturze byłby bardziej rówomiery. Przy założeiu 100% trafości w uzupełiaiu brakujących wartości Y, wśród kredytów, do których odoszą się odrzucoe wioski, szacuki frakcji w pewej populacji bazowej są astępujące: klasa 1 0,54, klasa 2 0,46. Oszacowań tych dokoao w oparciu o dae pochodzące z pracy [4]. W związku z czym wartości parametrów, oszacowae w oparciu o próbę składającą się wyłączie z kredytów (obiektów), o które wioski zostały zaakceptowae w ramach metody uzaiowej, byłyby obciążoe, a progozy takiego modelu stawiae dla obiektów (kredytów) o własościach podobych do tych z grupy odrzucoych przez scorig uzaiowy, opierałby się a ieuzasadioej ekstrapolacji, przez co mogłyby być ietrafe. W tabeli 2 przedstawioo, jak mogłaby wyglądać hipotetycza struktura ze względu a Y próby pobraej z populacji bazowej. Tę przykładową strukturę względem Y rozbito a wioski przyjęte oraz odrzucoe zgodie z metodą uzaiową. Tabela 2. Przykładowa struktura próby pobraej z populacji bazowej w zależości od decyzji podjętej w oparciu o model uzaiowy. Decyzja scorigu uzaiowego (wioski)\y Y klasa 1 (Y=1) Y klasa 2 (Y=2) Wiersz Przyjęte ( a 1) 700 300 1000 % z kolumy 77,78% 50,00% % z wiersza 70,00% 30,00% % z całości 46,67% 20,00% 66,67% Odrzucoe ( a 2 ) 200 300 500 % z kolumy 22,22% 50,00% % z wiersza 40,00% 60,00% % z całości 13,33% 20,00% 33,33% Ogół 900 600 1500 % z całości 60,00% 40,00% 100,00% Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012 www.statsoft.pl/czytelia.html 157

Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza W tej hipotetyczej strukturze 60% kredytów w próbie to kredyty dobre, pozostałe 40% staowią kredyty złe. Struktura ze względu a Y (status kredytu) różi się, w zależości od tego, czy jest to grupa wiosków przyjętych czy też odrzucoych przez scorig uzaiowy. I tak wśród wiosków przyjętych a podstawie decyzji opartej a przewidywaiach modelu uzaiowego 70% dotyczy kredytów o statusie dobry, a pozostałe 30% odosi się do kredytów złych. W przypadku wiosków odrzucoych przez model uzaiowy status odpowiadających im kredytów jest ieobserwowaly. Jedak dla uproszczeia założoo tutaj, że jest o zay, lub iaczej, że metody uzupełiaia brakujących wartości Y są ieomyle. Przy przyjętych założeiach w tym hipotetyczym przykładzie struktura statusu kredytów, do których odoszą się wioski odrzucoe, jest astępująca: kredyty dobre ( Y 1) 40%, kredyty złe ( Y 2 ) 60%. Miary jakości klasyfikacji (predykcji przyależości klasowej ze względu a Y ) dla modelu scorigu uzaiowego przedstawiają się astępująco: błąd 1 2 50,00%, błąd 2 1 22,22%, łączy błąd 33,33%, E K 0, 4333. Przedstawioa struktura jest tylko przykładowym domiemaiem tej, którą moża by zaobserwować w reprezetatywej próbie (w skład której wchodzą kredyty odoszące się do wiosków przyjętych, a także te z wiosków odrzucoych przez metodę uzaiową) pobraej z populacji bazowej. Choć jest to zabieg iezbyt poprawy i uzasadioy dla uproszczeia przyjęto w pracy, że dostępy zbiór daych/próba, to zaczy te o strukturze Y: klasa 1 0,7, klasa 2 0,3, obejmuje kredyty odoszące się ie tylko do wiosków przyjętych przez model uzaiowy, ale także te kredyty, dla których wioski zostały przez model uzaiowy odrzucoe. Przy takich założeiach (choć w wymuszoy sposób uzaych za prawdziwe dla rozpatrywaej próby) moża oczekiwać, że przy zastosowaiu prawidłowej metodologii budowy i weryfikacji modeli, oszacowaia ich parametrów w oparciu o dostępą próbę powiy być ieobciążoe, oraz tego, że modele te będą umożliwiały prawidłową progozę wartości Y dla dowolego obiektu pochodzącego (pobraego) z populacji bazowej. 4.2 Podział całości próby a próbę uczącą oraz próbę testową Dokoao losowego podziału całości próby (1000 obiektów) a próbę uczącą U oraz próbę testową T w taki sposób, aby uzyskać przybliżoe proporcje: 80% wszystkich obiektów w próbie U oraz 20% z całości w próbie T. W te sposób otrzymao próbę uczącą U liczącą N 807 obiektów oraz próbę testową T o liczebości N 193 obiektów. Próba uczącą T posłuży do oszacowaia parametrów poszczególych modeli, a a podstawie próby testowej zweryfikowaa zostaie ich jakość predykcyja wartości zmieej zależej Y. Struktura zmieej zależej Y w poszczególych próbach została przedstawioa w tabeli 3. Tabela 3. Podsumowująca tabela dwudzielcza: częstości obserwowae (iemiecki kredyt). Y: Status kredytu Próba ucząca Próba testowa Wiersz 1 565 135 700 1 (ods. próby) 70,01% 69,95% 2 242 58 300 2 (ods. próby) 29,99% 30,05% Ogół 807 193 1000 W związku z losowym podziałem zbioru wszystkich dostępych obserwacji struktura ze względu a zmieą Y w obu próbach ie powia się istotie różić. Jak widać, różice w strukturze ie są zaczące, co potwierdza rówież wartość testu iezależości chi-kwadrat Pearsoa zestawiającego zmieą Y ze zmieą reprezetującą przyależości obiektu do daej próby, dla którego wartość p wyiosła 0,99, w związku z czym ie ma podstaw do odrzuceia hipotezy o iezależości. 4.3 Zdefiiowaie systemu wag W celu umożliwieia uwzględieia różych kosztów błędych klasyfikacji zdecydowao się a zdefiiowaie specjalego systemu wag. W stworzoym systemie wagi przypadków zbioru uczącego U były przyporządkowywae w oparciu o rzeczywistą wartość (przyależość klasową) zmieej Y dla daego obiektu, tak aby uwzględiały oe poziomy kosztów związaych z błędym przypisaiem określoego statusu kredytu. Stworzoy system wag był od tego mometu uwzględiay w drążeiu daych, co pozwoliło 158 www.statsoft.pl/czytelia.html Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012

Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza a wykrywaie zależości pomiędzy zmieymi przy jedoczesym uwzględieiu faktu, że przy budowie modelu poszczególe obserwacje zmieych będą miały iy iż by to wyikało z empiryczego rozkładu wpływ a uzyskae wyiki. W związku z tym, że iektóre moduły, za pomocą których budowao późiej modele wymagały, aby wagi były całkowitymi liczbami dodatimi, zdecydowao się przyjąć wagi rówe dziesięciokrotościom kosztów błędych klasyfikacji wyoszących odpowiedio dla błędów I i II rodzaju 0,7 oraz 1,7. I tak każdemu obiektowi zbioru U, dla którego wartość Y rówa była 1 (każdemu dobremu kredytowi) przypisao wagę 7 ( 10 C 21 10 0, 7), atomiast każdemu obiektowi o wartości Y rówej 2 (każdemu złemu kredytowi) adao wagę 17 ( 10 C 12 10 1, 7), co moża formalie zapisać: w 7, gdy Y 1 17, gdy Y 2, przy czym w to waga dla -tego obiektu zbioru U. Zabieg taki miał a celu zwiększeie trafości predykcji klasyfikacyjej obiektów przyależących do klasy 2 zmieej Y, czyli złych kredytów, a podstawie skostruowaych modeli, a więc mówiąc iaczej, redukcję poziomu błędu 1 2. Struktura Y w zależości od próby w przypadku uwzględieia wag w obu próbach przedstawia się astępująco: Tabela 4. Podsumowująca tabela dwudzielcza: częstości obserwowae (iemiecki kredyt uwzględioo wagi). Y: Status kredytu Próba ucząca Próba testowa Wiersz 1 3955 945 4900 1 (ods. próby) 49,01% 48,94% 2 4114 986 5100 2 (ods. próby) 50,99% 51,06% Ogół 8069 1931 10000 Po uwzględieiu wag proporcje obu klas stały się zbliżoe (po ok. 50%). Ozacza to w stosuku do ieważoej struktury wzrost względego udziału obiektów, dla których Y 2 (czyli kredytów złych ), a tym samym spadek proporcji obiektów o Y 1 (kredytów dobrych ). Struktura Y w próbie testowej przy uwzględieiu wag rówież ie wykazuje istotych różic w porówaiu ze strukturą w próbie uczącej (wartość p testu iezależości rówa 0,95). 4.4 Testy iezależości zestawiające Y z potecjalymi predyktorami W tabeli 5 przytoczoe zostaą wartości p (poziomy istotości) testów iezależości chikwadrat Pearsoa pomiędzy zmieą zależą Y a poszczególymi potecjalymi predyktorami X m. Aby wykoać testy iezależości pomiędzy Y a zmieymi ilościowymi, ależało je uprzedio przekształcić w zmiee jakościowe. Dokoao tego poprzez podział zakresu zmieości cechy a przedziały, które traktuje się jako kategorie zmieej jakościowej. Takie działaie względem cech ilościowych umożliwiło wykrycie za pomocą rozważaych testów ewetualych zależości, w tym także iemootoiczych pomiędzy jakościową cechą zależą a poszczególymi zmieymi ilościowymi. W tej sytuacji postać związku możliwego do wykrycia za pomocą testu iezależości zależy od liczby kategorii, a które została podzieloa cecha ilościowa. Zmiee X m uporządkowae zostały według rosącej wartości p, gdyż iższe wartości p świadczą o wyższym stopiu zależości pomiędzy zestawiaymi zmieymi. Uzyskae iskie wartości p pozwalają sądzić, że związki pomiędzy zmieą zależą Y a rozpatrywaymi z osoba potecjalymi zmieymi objaśiającymi są sile. Na uzyskaie tak iskich wartości p miał rówież wpływ zastosoway system ważeia obserwacji. Pięć ajsiliej związaych z Y cech objaśiających, gdy za kryterium pomiaru siły związku przyjmuje się wartości p wykoaych testów to kolejo: X1 iformująca o staie rachuku bieżącego, X3 reprezetująca historię kredytową aplikata, ilościowa zmiea X2 mówiąca o czasie trwaia kredytu, X6 rachuki oszczędościowe oraz X4 cel kredytu. Przywołae zmiee odoszą się do statusu majątkowego: X2, X6 lub reprezetują cechy obecie postulowaego bądź uprzedio uzyskaych kredytów: X3, X2, X4. Najwyższe wartości p uzyskao w teście dla zmieych X11, X18, co może świadczyć, że związki tych cech z Y ie są tak sile jak pozostałych zmieych X m. Jedak dobór predyktorów ie może odbywać się wyłączie w oparciu o wyiki testów iezależości zmieej Y z poszczególymi cechami. Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012 www.statsoft.pl/czytelia.html 159

Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza Metoda ta pozwala zbadać związki między zmieymi i jest świetym wyjściem do metod doboru zmieych stosowaych w poszczególych modelach. Przy doborze zmieych objaśiających do modelu ależy brać rówież pod uwagę ewetuale zależości występujące pomiędzy potecjalymi predyktorami. Rolę zmieych objaśiających w modelu powiy pełić zmiee silie zależe ze zmieą objaśiaą oraz słabo związae pomiędzy sobą (aby ie powtarzały oe tej samej iformacji dotyczącej zmieej zależej). Tabela 5. Testy iezależości chi-kwadrat pomiędzy zmieą zależą Y a poszczególymi potecjalymi predyktorami (iemiecki kredyt: próba ucząca uwzględioo wagi). Zmiea Chi-kwadrat df Wartość p Nazwa zmieej X1 1418,206 3 Sta istiejącego 3,3E-307 rachuku bieżącego X3 559,512 4 9,0E-120 Historia kredytowa X2 476,252 9 7,0E-97 Czas trwaia w miesiącach X6 403,341 4 5,3E-86 Rachuki oszczędościowe/obligacje X4 322,500 9 4,4E-64 Cel kredytu X5 283,395 9 8,6E-56 Kwota kredytu X12 193,247 3 1,2E-41 Własość X14 175,947 2 6,2E-39 Ie powiości ratale X13 145,107 9 9,1E-27 Wiek w latach X20 100,243 1 1,3E-23 Pracowik zagraiczy X7 98,343 4 2,2E-20 Długość obecego zatrudieia (w latach) X15 73,227 2 1,3E-16 Mieszkaie X8 70,817 3 2,9E-15 Rata kredytu jako procet rozp. doch. X10 62,630 2 2,5E-14 Ii dłużicy/poręczyciele X9 60,788 3 4,0E-13 Sta cywily i płeć Liczba istiejących X16 38,121 3 2,7E-08 kredytów w tym baku X19 23,194 1 1,5E-06 Telefo X17 22,001 3 6,5E-05 Praca X11 14,019 3 0,0029 Okres obecego zamieszkaia w latach X18 3,367 1 0,0665 Liczba osób a utrzymaiu Poprzez pogrubieie ozaczoo zmiee ilościowe ciągłe, które zostały poddae kategoryzacji. W przypadku skokowych zmieych ilościowych, każda z ich wartości została potraktowaa jako osoba kategoria tworzoej cechy jakościowej wyróżieie poprzez podkreśleie. Po wykoaiu liczych aaliz pozwalających a wykrycie wzajemych związków pomiędzy potecjalymi predyktorami stwierdzoo, że występują pomiędzy imi zależości (często sile). Wyiki tych aaliz zostały wzięte pod uwagę przy oceie zasadości włączeia daej zmieej do modelu jako predyktora. Przy doborze zmieych objaśiających dla iektórych modeli zastosowao metody krokowe, które to badają i uwzględiają wkład, jaki wosi do modelu zmiea, iewyikający z jej zależości z iymi predyktorami modelu. 5 PREDYKCYJNY DATA MINING. PRZE- GLĄD I PRAKTYCZNE PORÓWNANIE MODELI APLIKACYJNEGO SCORINGU KREDYTOWEGO W ramach predykcyjego zgłębiaia daych oszacowao kilka modeli mogących pełić rolę modeli aplikacyjego scorigu kredytowego. Po czym zostały oe statystyczie zweryfikowae, a astępie zostały oceioe ich zdolości predykcyje w odiesieiu do statusu kredytu dla omawiaego w pracy kokretego przypadku praktyczego. 5.1 Modele zmieej biarej: model logitowy Modele zmieej biarej są przykładem uogólioych modeli liiowych. W uogólioych modelach liiowych dopuszcza się, aby zmiea objaśiaa Y miała rozkład iy iż ormaly. Związek zmieej zależej od liiowej kombiacji predyktorów day jest astępująco: EY Fx T β, przy czym F jest określoą, zazwyczaj ieliiową fukcją. Fukcję odwrotą do F ozaczaą formalie F azywa się 1 fukcją wiążącą. Spełioa jest dla iej poiższa 1 zależość: F E( Y ) x T β. W rozważaej sytuacji zmiea Y, reprezetująca status kredytu opisywaego przez wektor predyktorów x, ma rozkład Beroullego. Wartość oczekiwaa zmieej Y rówa jest prawdopodobieństwu p bycia dobrym kredytu, który charakteryzoway jest przez wektor wartości predyktorów x. W przypadku modelu logitowego, dla którego x e E 1 e moża wyrazić przez: x T Y p x β T x β T β 1 1 EY p T β, fukcję wiążącą p l 1 p. Fukcja ta 160 www.statsoft.pl/czytelia.html Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012

Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza osi azwę logitu, stąd też azwa rozważaego modelu. W celu specyfikacji modelu, estymacji oraz weryfikacji jego parametrów w programie STATISTICA zastosowao moduł Uogólioe modele liiowe i ieliiowe, w którym wybrao wariat Model logitowy. Przy budowie modelu i jego weryfikacji statystyczej uwzględioy został specjalie stworzoy system wag. Ze zbioru zmieych X1-X20 za pomocą metody krokowej postępującej wybrae zostały predyktory do modelu logitowego, w którym rolę zmieej zależej pełił Y. Parametry sterujące metodą krokowego doboru predyktorów ustaloo a astępujących poziomach: p do wprowadzaia 0, 01 (jest to wartość p statystyki puktowej odoszącej się do cechy, której włączeie rozważa się a daym etapie działaia metody krokowej, poiżej której to wartości rozpatrywaa cecha zostaje wprowadzoa do modelu), p do usuięcia 0, 02 (jest to wartość p statystyki Walda odoszącej się do zmieej rozważaej do usuięcia a daym etapie działaia metody krokowej, powyżej której to wartości rozważaa zmiea zostaje wyłączoa z modelu). Metoda krokowa postępująca przebiegała w 18 krokach. W wyiku tej procedury do modelu włączoo 18 zmieych (w tym wszystkie z 13 jakościowych oraz 5 ilościowych). Do modelu ie weszły zmiee: X18 (liczba osób a utrzymaiu) oraz X11 (okres obecego zamieszkaia w latach). W kolejych krokach procedury były wprowadzae zmiee, atomiast w żadym z ich ie została usuięta zmiea uprzedio wprowadzoa. Zmiee objaśiające w modelu logitowym, który został zbudoway, to w kolejości włączaia: X1, X3, X2, X4, X6, X14, X10, X20, X8, X5, X9, X19, X13, X7, X12, X16, X17, X15. Uporządkowaie cech jest zbliżoe do kolejości wyzaczoej według rosącej wartości p dla testów iezależości chikwadrat pomiędzy poszczególymi (potecjalymi) predyktorami a zmieą zależą Y. Nieuwzględieie zmieych X11 oraz X18 przez metodę krokową zdaje się potwierdzać, iż wartości tych zmieych ie są zbytio użytecze w przewidywaiu przyależości obiektów do klas zmieej Y. 5.2 Drzewa klasyfikacyje i regresyje (CART) l l R l Model oparty a drzewie CART, służący do predykcji przyależości obiektów do klas zmieej zależej Y, budoway jest w oparciu o wyzaczoe wcześiej drzewo właściwej wielkości D h* *. I jest fukcją wskaźikową: I(p) = 1, gdy p to prawda, oraz I(p) = 0, gdy p to fałsz. Wartości parametrów dla aproksymaty y a I x modelu wyzacza się w astępujący sposób: 1 za parametry a l modelu przyjmuje się etykiety klas przypisaych poszczególym liściom: al jd Rl, l 1,2,..., L, przy czym h ** jd h ** R l jest fukcją przyporządkowującą określoym podzbiorom przestrzei predyktorów X (odpowiadającym defiicjom liści drzewa D h* * ) etykietę określoej klasy zależej zmieej jakościowej Y, 2 dla l 1,2,..., L zbiór R l wyzaczoy jest przez defiicję l-tego liścia drzewa D h* *, przykładowo R l x : x1 C x2 B, gdzie C jest stałą, a B podzbiorem zbioru wartości pewego predyktora jakościowego X 2. W celu stworzeia odpowiediego drzewa CART użyto modułu Ogóle modele drzew klasyfikacyjych i regresyjych. Jako jakościową zmieą zależą wybrao Y. Moduł te umożliwia bezpośredie uwzględieie różych kosztów błędych klasyfikacji poprzez zdefiiowaie kosztów błędych klasyfikacji użytkowika. W związku z tym, zamiast stosować system wag przypadków w algorytmie CART, zdefiiowao macierz kosztów odpowiadającą przywołaej wcześiej. Przyjęto, że fukcję kryterium podziału węzła będzie pełiła statystyka 2 G (G-kwadrat). Opis miary G-kwadrat moża zaleźć w pracy [2]. Poza oceą błędu resubstytucji drzewa R D h, która jest wraz z poziomem złożoości drzewa podstawą działaia procedury przyciaia, w wyiku której tworzoa jest sekwecja drzew optymalie przyciętych, wyzaczoo także oceę błędu drzewa a podstawie V-krotego sprawdziau krzyżowego R SK D h, w oparciu o którą wybiera się drzewo właściwej wielkości ( D h* *) spośród otrzymaej sekwecji drzew. Przyjęto wartość V rówą 10 oraz regułę jedego błędu stadardowego (c = 1). Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012 www.statsoft.pl/czytelia.html 161

Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza Za kryteria zatrzymaia procedury podziału węzła przyjęto: miimalą liczebość węzła iższą od N 80 0,1 807, tz. N k 80, k, mi maksymalą liczbę wszystkich węzłów przekraczającą 30, jedorodość rozpatrywaego węzła: j k 1 j 1,2,..., J : p. Day węzeł ie podlegał podziałowi, gdy spełioa była dla iego alteratywa powyższych waruków. W tabeli 6 przedstawioo sekwecję optymalie przyciętych drzew uzyskaych w wyiku procedury przyciaia drzewa maksymalego a podstawie kosztu (błędu) i złożoości. Tabela 6. Sekwecja drzew (iemiecki kredyt: próba ucząca). Zmiea zależa: Y Drzewo Liczba liści L SK koszt R SK (D h ) Błąd std. SK Koszt resubstytucji R(D h ) Węzeł (złożoość) D1 16 0,3131 0,0163 0,2238 0,0000 *D2 13 0,2867 0,0159 0,2282 0,0014 D3 9 0,2874 0,0159 0,2465 0,0046 D4 8 0,2874 0,0159 0,2520 0,0055 D5 6 0,2906 0,0160 0,2660 0,0070 **D6 2 0,3009 0,0161 0,3009 0,0087 D7 1 0,4902 0,0176 0,4902 0,1892 SK Drzewo o R D mi h ozaczoo * h Najlepsze drzewo ozaczoo ** Wartości ocey błędu resubstytucji R D h oraz błędu a podstawie V-krotego sprawdziau krzyżowego R SK D h dla poszczególych drzew wchodzących w skład sekwecji drzew optymalie przyciętych przedstawioo rówież a wykresie. Koszt 0,55 0,50 0,45 0,40 0,35 0,30 0,25 0,20 Sekwecja kosztów Zmiea zależa: Y 0,15 0 1 2 3 4 5 6 7 8 Drzewo umer Koszt resubst. Koszt SK Na wykresie widać wyraźie wzrost błędu resubstytucji wraz ze spadkiem złożoości drzew (drzewa o wyższych umerach w sekwecji), co jest zjawiskiem aturalym. Jeżeli chodzi o oceę błędu SK, to ma oa ajiższy poziom dla drzewa r 2. Początkowo astępuje spadek poziomu R SK D h, błąd dla drzewa D 2 jest iższy od tego dla drzewa D 1 (co może świadczyć o silym przeuczeiu D 1). Następie błąd dla kolejych drzew wzrasta o zbliżoą iewielką wartość w stosuku do poziomu otowaego dla drzewa poprzediego w sekwecji, tyczy się to drzew o umerach od 3 do 6. W końcu ocea błędu a podstawie V-krotego sprawdziau krzyżowego gwałtowie wzrasta dla drzewa r 7, składającego się wyłączie z korzeia. Zgodie z regułą jedego błędu stadardowego za drzewo właściwej wielkości D h* * ależałoby uzać drzewo r 6 z sekwecji drzew optymalie przyciętych. Drzewo to składa się z 3 węzłów, w tym 2 końcowych. Struktura tego drzewa wydaje się być zbytio uproszczoa, w związku z czym model może być iedouczoy, tz. może ie radzić sobie z poprawą klasyfikacją obiektów, które ie brały udziału w procesie budowy drzewa. W związku ze zbytio zredukowaą strukturą drzewa 6 zdecydowao się a wybór iego drzewa z sekwecji optymalie przyciętych drzew. Drzewo o ajiższej wartości ocey błędu a podstawie SK to drzewo r 2 ( R SK D 2 0, 287), tym samym byłoby oo drzewem właściwej wielkości w przypadku przyjęcia c 0 (reguła 0 błędów stadardowych). Drzewo to atomiast ma złożoą strukturę. Składa się z 25 węzłów, w tym z 13 liści. W związku z jego złożoością, drzewo r 2 może być przeuczoe, czyli ie mieć zdolości do uogóliaia wiedzy zdobytej w procesie budowy drzewa a przypadki iebiorące w im udziału. Tym samym zdecydowao się a arbitraly wybór drzewa, a podstawie którego zbudoway został model służący do predykcji. Porówao struktury drzew, dla których poziom ocey błędu SK ie przekracza błędu miimalego D 2 dardowego se R SK o więcej iż wartość błędu sta- D 2, czyli drzew od 2 do 6. Wybrao drzewo r 5, które charakteryzowało się iezbyt złożoą strukturą, ale ie tak skrajie uproszczoą jak drzewo 6 (drzewo właściwej wielkości dla reguły jedego błędu stadardowego). Poiżej omówioo drzewo r 5, a podstawie którego zbudowao model predykcyjy, który 162 www.statsoft.pl/czytelia.html Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012

Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza posłużył do wyzaczeia progoz wartości Y dla obiektów iebiorących udziału w procesie budowy drzewa. Podział węzłów astępuje w drzewie 5 w oparciu o zmiee X1 sta istiejącego rachuku bieżącego, X2 czas trwaia kredytu, X3 historia kredytowa, X4 cel kredytu. Przy czym wartości X2 dwukrotie staowią podstawę podziału węzła. Zdaje się to kolejy raz potwierdzać zaczącą rolę tych cech w dyskrymiowaiu wartości zmieej Y. Drzewo r 5 składa się łączie z 11 węzłów, przy czym 5 z ich jest węzłami końcowymi (liśćmi). Drzewo CART jest drzewem biarym toteż z każdego węzła dzieloego odchodzą wyłączie dwie gałęzie (dzieloy węzeł-przodek ma zawsze dwa węzły-potomki). 5.3 Drzewo CHAID Algorytm CHAID ie uwzględia w procesie budowy drzewa zdefiiowaych przez użytkowika (różych) kosztów błędych klasyfikacji, ie pozwala a defiiowaie prawdopodobieństw a priori iaczej iż jako szacowae a podstawie próby, a także igoruje wprowadzoy system wag. W związku z tym drzewo CHAID zostało zbudowae w oparciu o strukturę daych występującą pierwotie w zbiorze uczącym (brak systemu wag czy też skorygowaych prawdopodobieństw a priori bądź zdefiiowaych kosztów błędych klasyfikacji). Algorytm CHAID jest procedurą trójetapową. Składają się a ią etapy: łączeia, podziału oraz zatrzymaia. Więcej a temat algorytmu moża przeczytać m. i. w pracach: [2, 3]. Do budowy drzewa CHAID ( Automatycze wykrywaie iterakcji za pomocą chi-kwadrat ) użyto modułu Ogóle modele CHAID. Ustaloo astępujące poziomy dla parametrów sterujących odpowiedio procesem (etapem) łączeia oraz etapem dzieleia: p dla łączeia 0, 02, p dla dzieleia 0, 01. Przy obliczaiu skorygowaej wartości p ( p ') zastosowao poprawkę Boferroiego. Nie jest atomiast stosowae tzw. dzieleie po połączeiu. Jako kryteria zatrzymaia podziału węzła przyjęto: miimalą liczebość węzła rówą 80 (w przybliżeiu 10% liczebości próby uczącej) maksymalą liczbę wszystkich węzłów wyższą iż 30. Kryteria podziału węzłów były utworzoe a etapie łączeia kategorii agregatowych astępujących zmieych: X1, X3, X8, X6, X14. Pomimo braku stosowaia systemu ważącego lub iych metod uwzględiaia kosztów model uwzględił w większości te same zmiee, które zostały wprowadzoe w iych modelach. 5.4 Sztucze sieci euroowe: perceptro wielowarstwowy (MLP) Zgodie z wyikami doświadczeń [5] moża stwierdzić, że w celu rozwiązaia dowolego problemu klasyfikacyjego wystarczające jest zastosowaie sieci MLP z jedą warstwą ukrytą. W procesie uczeia perceptrou wielowarstwowego prezetowae są wzorce obejmujące zarówo wartości wejściowe (wektor x ), jak i wartości żądae ( z ), ma się więc do czyieia z uczeiem adzorowaym. W celu zbudowaia sieci MLP skorzystao z modułu Automatycze sieci euroowe. Jako przezaczeie budowaej sieci wybrao Klasyfikację. Przy budowie modelu uwzględioy został specjalie utworzoy system wag. Rolę zmieej wyjściowej pełiła jakościowa zmiea Y. W celu ograiczeia złożoości (w związku z iewielką liczebością dostępej próby) jako zmiee wejściowe zdecydowao się wybrać 15 predyktorów, dla których wartość p w teście iezależości zestawiającym je z Y była ajiższa. Wśród ilościowych zmieych wejściowych zalazły się: X2, X5, X8 oraz X13, atomiast jakościowe zmiee wejściowe to: X1, X3, X4, X6, X7, X9, X10, X12, X14, X15, X20. Z próby liczącej 807 obiektów losowo wyodrębioo w przybliżeiu 10% obiektów (80 obiektów), które utworzyły próbę walidacyją V, pozostałe obiekty przypisae zostały do zbioru uczącego U (727 obiektów). 193 obiekty przezaczoe zostały a próbę testową T (te same obiekty, które pełiły rolę testowych w pozostałych modelach). Jako metodę tworzeia sieci wybrao Automatyczego projektata sieci. Po liczych uprzedich eksperymetach z użyciem Projektu sieci użytkowika zdecydowao, że liczba euroów ukrytych sieci powia być ie miejsza iż 5 oraz ie większa iż 30. Spośród stworzoych sieci wybrao jedą, dającą ajbardziej zadowalające wyiki klasyfikacyje, był to perceptro wielowarstwowy o 52 euroach warstwy wejściowej, 5 euroach warstwy ukrytej oraz 2 warstwy wyjściowej: MLP 52-5-2. Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012 www.statsoft.pl/czytelia.html 163

Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza Zwięzły opis wybraej sieci MLP przedstawioo w tabeli 7. Tabela 7. Podsumowaie sieci (iemiecki kredyt). Nazwa sieci Jakość Jakość Algorytm (uczeie) (walidacja) uczeia MLP 52-5-2 85,0069 78,7500 BFGS 24 Fukcja błędu Aktywacja (ukryte) Aktywacja (wyjściowe) Etropia Logistycza Softmax Warstwa wejściowa sieci składa się z 52 euroów. Każdej kategorii poszczególych jakościowych zmieych wejściowych został przyporządkoway odpowiadający jej euro wejściowy (łączie 48 kategorii i tyle samo odpowiadających im euroów). Każdej ze zmieych ilościowych uwzględioych w modelu został przypisay jede euro wejściowy (łączie 4 euroy). Neuro wejściowy odpowiadający określoej kategorii daej cechy jakościowej przyjmuje wartość 1 w przypadku, gdy rozpatrywaa zmiea przyjmuje dla obiektu, którego wartości zmieych prezetowae są sieci, kategorię, której przypisay jest te euro wejściowy, w przeciwym razie przyjmuje o wartość 0. W euroach wejściowych odpowiadających cechom ilościowym astępuje liiowe przekształceie ich wartości. Natomiast warstwa ukryta zbudowaa jest wyłączie z 5 euroów. Taka liczba euroów ukrytych pozwala uzyskać dobre wyiki w klasyfikacji oraz uikąć przeuczeia związaego z iewielkimi rozmiarami stosowaej w uczeiu próby (U - 727 obiektów) oraz z dużą liczbą euroów wejściowych, których liczba jest a tym etapie ustaloa. Warstwę wyjściową zbudowao w oparciu o zasadę jede-z-j, tz. każdej klasie zmieej wyjściowej Y odpowiada jede euro, w tym przypadku a warstwę wyjściową składają się 2 euroy ( J 2 ). Jako fukcję celu podlegającą miimalizacji ze względu a W, wyzaczaą dla wartości wzorcowych odpowiadających obiektom zbioru uczącego U przyjęto etropię wzajemą: N J y j EW z j l, 1 j1 z j przy czym z j, y j to wartości (0 lub 1) j-tego elemetu odpowiedio wektora z oraz y (wektor wartości wyjściowych sieci). W euroach warstwy ukrytej zastosowao logistyczą fukcję aktywacji, a w euroach warstwy wyjściowej fukcję Softmax. Procedurą umeryczą zastosowaą w procesie uczeia sieci była odmiaa BFGS metody zmieej metryki. Jako rozwiązaie zagadieia miimalizacji przyjęto wartość wektora wag ( W ) uzyskaą w 24 iteracji zastosowaej procedury umeryczej (ozaczeie BFGS 24). 5.5 Aaliza dyskrymiacyja Przy budowie modelu aalizy dyskrymiacyjej uwzględioo specjalie stworzoy system wag. Założeie o tym, że próba ucząca pochodzi z wielowymiarowego rozkładu ormalego ie było w tym praktyczym przypadku spełioe. Jedak po wizualej aalizie odpowiedich histogramów stwierdzoo, że odchyleia empiryczych rozkładów zmieych ilościowych ie są aż tak drastyczie róże od postulowaych hipotetyczych rozkładów ormalych i postaowioo kotyuować aalizę dyskrymiacyją. Łagodiej potraktowao także założeie o jedorodości wariacji zmieych wejściowych (predyktorów) w poszczególych grupach zmieej Y. W celu budowy modelu skorzystao z modułu Ogóle modele aalizy dyskrymiacyjej. Jako zmieą zależą zdefiiowao zmieą Y. Narzędziem doboru wejściowych zmieych dyskrymiacyjych była metoda krokowa wstecza. Dla parametrów sterujących metodą krokową przyjęto astępujące wartości: p do wprowadzeia 0, 01, p do usuięcia 0, 02. W wyiku działaia krokowej wsteczej metody doboru zmieych do modelu ie weszły zmiee X11 oraz X18. Wszystkie z pozostałych 18 zmieych zostały do iego włączoe. Potwierdzałoby to iewielką użyteczość tych dwóch zmieych (X11, X18) przy rozróżiaiu klas zmieej Y dla poszczególych obiektów. W związku z tym, że liczba wszystkich kaoiczych fukcji dyskrymiacyjych rówa jest pomiejszoej o 1 liczbie wszystkich klas zmieej jakościowej Y, jeżeli wartość ta jest miejsza od liczby wejściowych zmieych dyskrymiacyjych (predyktorów), toteż w tym przypadku otrzymao jedą fukcję dyskrymiacyją (kaoiczą zmieą dyskrymiacyją). Pomimo, że ie zostało spełioe założeie dotyczące braku istotych różic pomiędzy macierzami wewątrzgrupowych sum 164 www.statsoft.pl/czytelia.html Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012

Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza kwadratów dla poszczególych klas, zdecydowao się zastosować liiowe fukcje klasyfikacyje. W rozważaym przypadku liczba fukcji klasyfikacyjych rówa liczbie klas zmieej Y wyiosła 2. Porówaie wartości fukcji klasyfikacyjych dla wektorów opisujących kredyty staowiło podstawę stawiaia progoz klasyfikacyjych. 5.6 Wyiki zbiorcze dla modeli budowaych z uwzględieiem systemu wag Miary pozwalające oceić jakość klasyfikacji (predykcji) obiektów zbioru uczącego do określoych klas zmieej zależej Y dla każdego ze zbudowaych modeli scorigowych zebrao w tabeli, którą zamieszczoo poiżej. Tabela 8. Zbiorcze wyiki klasyfikacji (iemiecki kredyt: próba ucząca przy budowie modeli uwzględioo system wag). Miara Logit CART CHAID MLP GDA błąd (12) [%] 20,66 22,73 74,79 9,09 19,83 błąd (21) [%] 25,31 30,62 4,07 18,41 26,19 łączy błąd [%] 23,92 28,25 25,28 15,61 24,29 E K 0,2294 0,2659 0,4012 0,1366 0,2295 Należy jedak pamiętać, że ocey uzyskae dla zbioru U są iedoszacowae, gdyż wyzaczae są oe w oparciu o te sam zbiór, który był używay w celu oszacowaia parametrów modeli. Najiższy poziom ocey E K w próbie U rówy 0,1366 uzyskała sieć MLP, za ią plasował się model logitowy z oceą E K a poziomie 0,2294 oraz model aalizy dyskrymiacyjej (GDA), dla którego E K 0, 2295. Dla obu rodzajów zastosowaych drzew klasyfikacyjych: CART i CHAID uzyskae wartości E K były wyższe. W przypadku CART było to 0,2659, a dla modelu CHAID wartość E K wyiosła aż 0,4012. Niższą wartość E K uzyskały modele, w których został siliej zredukoway poziom bardziej kosztowego błędu 1 2. Najlepiej jest to widocze przy zestawieiu modelu opartego a CHAID/wysokie E K /z modelami o ajiższych poziomach błędu I rodzaju. Pomimo, że dla modelu CHAID otuje się w próbie uczącej bardzo iski poziom błędu 2 1 4,07%, to ie pozwala to zrekompesować wysokiego poziomu droższego błędu 1 2. Już po przejrzeiu przytoczoych miar uzyskaych dla próby uczącej odrzucoo model CHAID, jako mało użytecze arzędzie służące do predykcji statusu kredytu. Rakig modeli ze względu a poziom łączego błędu w próbie uczącej wyglądał astępująco: MLP 15,61%, Logit 23,92%, GDA 24,29%, CHAID 25,28%, CART 28,25%. W rzeczywistości jedyą miarodają oceą jakości klasyfikacji (predykcji) a podstawie modelu są miary uzyskae dla iezależego zbioru obiektów, tz. takiego, który ie był w żade sposób używay w procesie budowy modelu (estymacji parametrów czy też walidacji). Przytoczoe założeie spełia odłożoy zbiór testowy T. Oparte a próbie testowej miary jakości przewidywań poszczególych modeli zebrao w tabeli 9. Tabela 9. Zbiorcze wyiki klasyfikacji (iemiecki kredyt: próba testowa przy budowie modeli uwzględioo system wag). Miara Logit CART CHAID MLP GDA błąd (12) [%] 27,59 32,76 82,76 27,59 27,59 błąd (21) [%] 33,33 37,04 11,11 33,33 31,11 łączy błąd [%] 31,61 35,75 32,64 31,61 30,05 E K 0,3041 0,3487 0,4772 0,3041 0,2933 Najiższą wartość ocey K E w oparciu o próbę testową uzyskao (iaczej iż w próbie U ) dla modelu aalizy dyskrymiacyjej, a wyiosła oa 0,2933. Drugą w kolejości ajiższą wartość ocey K E rówą 0,3041 osiągęły: model logitowy oraz perceptro wielowarstwowy. W próbie T wyższe wartości oce E K odotowao dla modeli opartych a drzewach CART i CHAID, były to odpowiedio 0,3487 oraz 0,4772. Wartość ocey E K uzyskaa dla CHAID w próbie T potwierdza słuszość odrzuceia tego modelu już po aalizie jego wyików klasyfikacyjych (predykcyjych) w zbiorze uczącym. Dla modelu aalizy dyskrymiacyjej w próbie testowej uzyskao wartość ocey E K większą o 0,0638 w porówaiu z tą dla próby U. W przypadku modelu logitowego różica ta wyiosła 0,0747, tymczasem jeżeli chodzi o MLP to wartości oce K E a podstawie zbioru T oraz zbioru U różią się bardziej, bo o 0,1675 (ie jest to jedak spowodowae Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012 www.statsoft.pl/czytelia.html 165

Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza wysoką wartością dla próby T, lecz wyjątkowo iską dla próby U ). Rozpatrując z osoba poziomy poszczególych błędów, stwierdza się, że ajmiejszy poziom błędu 1 2 odotowao w próbie T dla trzech modeli: aalizy dyskrymiacyjej (GDA), modelu logitowego oraz MLP, a wartość ta wyiosła 27,59%. Pozostałe modele charakteryzowały się wyższym poziomem tego błędu. W przypadku błędu 2 1, to ajmiejszy jego poziom w zbiorze T zaobserwowao dla modelu opartego a drzewie CHAID (11,11%). Jedak istotiejszym celem stawiaym przed postulowaym restrykcyjym modelem jest osiągięcie możliwie jak ajmiejszego poziomu kosztowiejszego błędu 1 2, co pozwalałoby a siliejszą redukcję wartości E K. Poieważ model CHAID odzacza się wysokim poziomem ocey E K a podstawie próby T, sam iski poziom błędu II rodzaju 2 1 ie sprawia, że będzie dobrym arzędziem służącym do predykcji statusu kredytu. Wśród pozostałych modeli w próbie testowej ajiższy poziom błędu 2 1 osiągęły kolejo: model aalizy dyskrymiacyjej (31,11%), model logitowy oraz perceptro wielowarstwowy (po 33,33%). Natomiast model CART mylił się częściej co do statusu kredytów dobrych, poieważ dla poad 37% z ich progozował status zły. W próbie T poziom łączego błędu był ajiższy dla GDA (30,05%), astępie dla modelu logitowego i MLP (po 31,61%). Dla modeli drzew poziom rozważaego błędu okazał się być wyższy. W przypadku przyjęcia progoz jakościowych poszczególych modeli jako kryterium decyzji kredytowej w próbie testowej odsetek przyzaych kredytów wyiósłby odpowiedio: CART 53,89%, Logit i MLP po 54,92%, GDA 56,48%, co patrząc a rzeczywisty odsetek kredytów dobrych w próbie T (ok. 70%), świadczy o restrykcyjości tych modeli (awet zbyt silej). W przypadku progoz modelu CHAID, który ie uwzględia wag, aż 87,05% kredytów powio zostać przyzaych, jedak wiązałoby się to z poważymi stratami związaymi z częstym występowaiem błędu I rodzaju. W związku z tym, że główym kryterium ocey modeli jest wartość ocey E K uzyskaa a podstawie próby testowej T za ajlepszy model ależałoby uzać GDA (ogóly model aalizy dyskrymiacyjej). W drugiej kolejości ajlepszymi modelami okazały się być: model logitowy oraz perceptro wielowarstwowy (MLP 52-5-2). W tym szczególym przypadku modele oparte a drzewach klasyfikacyjych CART oraz CHAID okazały się być ieajlepszym arzędziem predykcji przyależości klasowej Y. 5.7 Modele agregatowe Agregacja modeli polega a wyzaczaiu jedej wspólej progozy w oparciu o przewidywaia kilku modeli różego typu budowaych z użyciem daych pochodzących z tej samej próby uczącej. Agregatowa progoza wyzaczaa jest w oparciu o tzw. głosowaie, polegające a przypisaiu jako agregatowej progozy dla daego obiektu tej klasy zmieej zależej, która była przewidywaa przez ajwiększą liczbę modeli, w oparciu o które wyzacza się agregatową wartość progozowaą. W sytuacji, gdy liczba modeli progozujących dla daego obiektu określoą klasę zmieej zależej rówa jest liczbie modeli, które przewidują dla tego obiektu ią klasę zmieej zależej, za agregatową progozę przyjmuje się tą spośród rozważaych klas, która jest ajlicziejsza wśród obiektów zbioru uczącego. Należy zauważyć, że przy ustalaiu liczości poszczególych klas zmieej zależej w procesie głosowaia ie są uwzględiae wagi. Postaowioo wyzaczyć dla obiektów zbioru testowego agregatowe progozy oparte a przewidywaiach trzech modeli, dla których. Stworzoo modele złożoe oparte a wszystkich możliwych dwu- i trzyelemetowych kombiacjach tych trzech modeli. uzyskao ajiższe wartości oce E K Tabela 10. Miary jakości klasyfikacji dla modeli agregatowych przy budowie modeli składowych uwzględioo system wag (iemiecki kredyt: próba testowa). Miara GDA + Logit GDA + MLP MLP + Logit GDA + Logit + MLP błąd (12) [%] 27,59 32,76 32,76 27,59 błąd (21) [%] 30,37 22,96 25,19 32,59 łączy błąd [%] 29,53 25,91 27,46 31,09 E(K) 0,2896 0,2798 0,2907 0,3005 udzieloo kredytów [%] 56,99 63,73 62,18 55,44 166 www.statsoft.pl/czytelia.html Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012

Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza Miary jakości klasyfikacji w oparciu o agregatowe progozy każdego ze zbudowaych modeli złożoych dla próby testowej zestawioo w tabeli 10. Dodatkowo w tabeli podao odsetek udzieloych kredytów próby testowej, gdyby za podstawę decyzji kredytowej przyjąć progozę agregatową daego modelu złożoego. Najiższą wartość ocey kosztu kredytu rówą 0,2798 uzyskao dla modelu złożoego, którego agregatowe progozy wyzaczoe zostały poprzez głosowaie przewidywań modelu ogólej aalizy dyskrymiacyjej (GDA) oraz perceptrou wielowarstwowego (MLP). W związku z tym, że model wyzaczał swe progozy a przewidywaiach dwóch pojedyczych modeli, to w przypadku iejedozaczości (odmiee statusy kredytu progozowae przez każdy z modeli pojedyczych) model złożoy przewidywał klasę 1 zmieej Y (status dobry kredyt). W przypadku ieuwzględieia systemu wag była to w próbie uczącej klasa licziejsza. W przypadku, gdyby agregatowa progoza tego modelu była kryterium decyzji kredytowej, prawie 64% kredytów ze zbioru testowego zostałoby przyzaych. Przytoczoa wcześiej sytuacja spowodowała, że poziom błędu 2 1 spadł do 22,96%, gdyż model złożoy chętiej przewidywał klasę 1 zmieej Y. Tym samym astąpił wzrost kosztowiejszego błędu 1 2 do poziomu 32,76%, lecz był to wzrost a tyle umiarkoway, że ocea kosztu pojedyczego kredytu K E dla próby testowej wyosi 0,2798, co jest wartością ajiższą spośród wszystkich otrzymaych dla modeli rozważaych w pracy. Dwa z pozostałych modeli złożoych, tz. te oparty a GDA i modelu logitowym oraz te, a który składały się Logit i MLP, ie uzyskały tak dużego spadku wartości ocey K E a podstawie próby testowej w odiesieiu do poziomów dla modeli pojedyczych. Natomiast dla modelu złożoego GDA+Logit+MLP wartość ocey E K opartej a próbie testowej wyosząca 0,3005 była gorsza (wyższa) iż ta uzyskaa dla pojedyczego modelu GDA (0,2933). 5.8 Porówaie modeli ieważoych i ważoych Zasadość wprowadzeia systemu wag pozwalającego a uwzględieie różych kosztów błędych klasyfikacji, braego pod uwagę przy szacowaiu parametrów modeli została potwierdzoa poprzez porówaie wyików klasyfikacyjych (predykcyjych) modeli uwzględiających w procesie szacowaia parametrów specjalie stworzoy system wag z modelami tego samego rodzaju, przy budowie których system wag ie był stosoway (z wiadomych, przytaczaych wcześiej względów ie było to możliwe dla modelu CHAID). Okazało się, że w porówaiu do modeli ważoych, liczba użytych zmieych objaśiających w modelach ieważoych była miejsza (co uwidaczia wpływ systemu wag a działaie zastosowaych metod doboru predyktorów). Porówując dla modeli ieważoych poziomy poszczególych błędów odotowae w próbie uczącej U oraz w próbie testowej T, zaobserwowao m.i., że dla modelu logitowego błąd 1 2 był w próbie testowej o 14 puktów procetowych iższy od tego, który odotoway został w próbie uczącej. Nie wyikało to jedak z adzwyczaj iskiego poziomu tego błędu w próbie testowej (ok. 31%), lecz z jego wysokiej wartości dla próby uczącej (ok. 45%). Z drugiej stroy błąd 2 1 dla modelu logitowego był wyższy w zbiorze T o prawie 19 puktów procetowych w porówaiu z próbą uczącą. Dla modelu aalizy dyskrymiacyjej (GDA) wystąpiła odwrota sytuacja: błąd 2 1 był w próbie testowej o 10 puktów procetowych iższy, a błąd 1 2 o poad 25 puktów procetowych wyższy w porówaiu z próbą U. Taki sta rzeczy ie zdawał się wyikać z dopasowaia tych modeli do daych zbioru uczącego, lecz miał charakter losowy (przypadkowy), a modele uzao za iestabile, w związku z czym ie moża było być pewym wyików dotyczących poziomów błędów dla owego, iego iż testowy zbioru. W celu miarodajego porówaia wyików jakości (predykcji) klasyfikacji dla modeli ieważoych i ważoych od poziomów każdej z miar odotowaych dla daego modelu ieważoego w próbie testowej odjęto wartość rozważaej miary w próbie testowej dla ważoego odpowiedika rozpatrywaego modelu. Uzyskae wyiki zebrao w tabeli 11. Każdy z modeli ieważoych uzyskał w próbie T gorsze wyiki dotyczące ocey wartości K E od swojego ieważoego odpowiedika. I tak dla modelu ogólej aalizy dyskrymiacyjej, zbudowaego z pomiięciem systemu wag, ocea wartości oczekiwaej kosztu pojedyczego kredytu była o 0,0383 wyższa Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012 www.statsoft.pl/czytelia.html 167

Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza od tej uzyskaej dla ważoego odpowiedika (co było ajwyższą różicą spośród wszystkich oszacowaych tutaj typów modeli). Najmiejszą różicę w wartościach oce K E pomiędzy modelami tego samego typu budowaymi z zastosowaiem odmieych podejść zaobserwowao dla modelu logitowego wartość tej ocey była wyższa o 0,0032 dla modelu ieważoego. Dla modelu MLP rozważaa różica wyiosła 0,0254. Tabela 11. Porówaie miar jakości klasyfikacji pomiędzy modelami ieważoymi a ważoymi (iemiecki kredyt: próba testowa). Miara Logit CART MLP GDA błąd (12) 3,44 pp 27,58 pp 24,13 pp 22,41 pp błąd (21) -2,96 pp -21,48 pp -20,00 pp -15,55 pp łączy błąd -1,04 pp -6,73 pp -6,74 pp -4,14 pp E(K) 0,0032 0,0358 0,0254 0,0383 Jeżeli chodzi o poszczególe rodzaje błędów, to zazaczyła się astępująca tedecja: modele ieważoe cechowały się wyższym w stosuku do swoich ważoych odpowiedików poziomem kosztowiejszego błędu 1 2 oraz iższym poziomem błędu drugiego rodzaju 2 1. Pomijając CART (które w obu podejściach okazały się iezbyt dobrym arzędziem predykcji klasyfikacji obiektów), błąd 1 2 okazał się być wyższy wśród modeli ieważoych o: 24,13 pp perceptro wielowarstwowy (MLP), 22,41 pp model ogólej aalizy dyskrymiacyjej (GDA), 3,44 pp model logitowy. Tylko w przypadku modelu logitowego wzrost te moża określić jako iezaczy. W przypadku błędu 2 1 ajwiększy jego spadek odotowao dla ieważoego modelu perceptrou wielowarstwowego (20 pp) oraz kolejo GDA (15,55 pp) oraz modelu logitowego (2,96 pp). Takie zmiay w poziomach błędu 1 2 oraz 2 1 w odiesieiu do tych otowaych dla modeli ważoych, przy uwzględieiu kosztów poszczególych błędów, spowodowały, że uzyskae ocey wartości oczekiwaej kosztów kredytów okazały się wśród modeli ieważoych wyższe. Dla modeli ieważoych odotowao poziomy łączego błędu od 1,04 do 6,74 puktów procetowych iższe iż te dla modeli odpowiedików, których parametry oszacowao a podstawie ważoych daych. Jedak kryterium łączego błędu ie jest główym uwzględiaym przy oceie jakości predykcyjej modeli. 6 PODSUMOWANIE Spośród skostruowaych w pracy modeli ajlepszymi, czyli takimi, dla którego ieobciążoa ocea (tutaj a podstawie próby testowej) wartości oczekiwaej kosztu dowolego pojedyczego kredytu była ajiższa, okazały się być: model ogólej aalizy dyskrymiacyjej oraz model wielowarstwowego perceptrou. Przy budowie obu tych modeli uwzględioo specjalie stworzoy system wag przypadków. W przypadku modeli agregatowych ajiższy poziom wartości oczekiwaej kosztu pojedyczego kredytu (jego ocey a podstawie próby testowej) osiągięto dla modelu wyzaczającego swe progozy w oparciu o głosowaie wartości przewidywaych przez dwa ajlepsze modele idywiduale, które zostały przytoczoe powyżej. Uzyskay spadek poziomu rozważaego kryterium dla przytoczoego modelu agregatowego związay był z tym, że w przypadku iejedozaczego wyiku (sprzecze progozy jedego i drugiego modelu składowego) kredytowi przypisyway był status dobry. Moża więc stwierdzić, że tak działający model agregatowy łączy w sobie cechy, mówiąc w uproszczeiu, modelu ważoego oraz ieważoego. Wybray ajlepszy model w postaci wyzaczoej w pracy ie mógłby być jedak w praktyce wdrożoy w celu predykcji statusu owych (potecjalych) kredytów. Propouje się wybór jedego z trzech przytoczoych wcześiej modeli. Dzieje się tak z astępujących przyczy: próba, która posłużyła do estymacji parametrów modeli, ajprawdopodobiej obejmowała wyłączie kredyty udzieloe w ramach metody uzaiowej, w której akceptacja wiosków zdawała się mieć charakter ielosowy, przez co oszacowae zależości ie są reprezetatywe dla całej populacji bazowej, w przypadku predykcji przyależości klasowej kredytów (obiektów) odoszących się do grupy tych, które scorig uzaiowy odrzucił, których to wzorce ie brały udziału w procesie oszacowaia modelu, ekstrapolacja a jego podstawie byłaby ieuprawioa, 168 www.statsoft.pl/czytelia.html Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012

Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza awet w przypadku przyjęcia prawdziwości założeia, że dyspoowaa próba jest reprezetatywa dla populacji bazowej, ależałoby w większym stopiu zredukować poziomy obu błędów, w tym w szczególości błędu II rodzaju, który jest wyższy. Lepsze wyiki predykcyje moża by próbować osiągąć poprzez zwiększeie próby uczącej o owe przypadki lub poprzez zastosowaie metauczeia - polega oo a kostrukcji modelu sieci euroowej, w której rolę zmieej wyjściowej pełi cecha opisująca rzeczywisty status kredytu (Y), atomiast rolę zmieych wejściowych pełią zmiee, których wartościami są predykcje dotyczące statusu kredytu wyzaczoe przez różego typu modele. Poza przytoczoymi w pracy modelami rolę arzędzia progostyczego w scorigu kredytowym mogą pełić rówież te oparte a metodzie k-ajbliższych sąsiadów, MARSplies, metodzie wektorów ośych (SVM) i ie. BIBLIOGRAFIA 1) Asucio, A., Newma, D.J. (2007). UCI Machie Learig Repository [http://www.ics.uci.edu/~mlear/mlrepository.html]. Irvie, CA: Uiversity of Califoria, School of Iformatio ad Computer Sciece. 2) Gatar, E. (2001). Nieparametrycza metoda dyskrymiacji i regresji. Warszawa: PWN. 3) Gatar, E. (1998). Symbolicze metody klasyfikacji daych. Warszawa: Wydawictwa Naukowe PWN. 4) Matuszyk, A. (2004). Credit scorig. Metoda zarządzaia ryzykiem kredytowym. Warszawa: CeDeWu. 5) StatSoft (2006). Elektroiczy Podręczik Statystyki PL. Kraków: StatSoft Polska. Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012 www.statsoft.pl/czytelia.html 169