Wskaźnik kondycji finansowej kredytobiorcy. Aspekty metodologiczne. dr Anna Nowak-Czarnocka Zastosowania statystyki i data mining w badaniach naukowych Warszawa, 12 października 2016
Pole badawcze Ryzyko kredytowe Szacowanie zdolności kredytowej klientów indywidualnych Credit-scoring Metody niestatystyczne Metody statystyczne Analiza dyskryminacyjna Regresja logistyczna Analiza głównych składowych Metoda epsilon
Pole badawcze Credit-scoring Cechy kredytobiorcy: wiek, wykształcenie, stan cywilny, sytuacja mieszkaniowa, zawód, itd. Mechanizm działania metody credit-scoring Rdzeniem każdego systemu scoringowego jest mechanizm umożliwiający klasyfikację kredytobiorcy do danej grupy ryzyka!
Podstawowe założenia badania Główne cele: 1. Porównanie tradycyjnych metod statystycznych wykorzystywanych do szacowania wpływu cech kredytobiorcy na spłacalność kredytów z metodą epsilon niestosowaną dotychczas w tym obszarze; 2. Odpowiedź na pytanie czy istnieje uniwersalne podejście, które każdorazowo dla dowolnego zbioru cech kredytobiorcy gwarantowałoby najwyższą trafność klasyfikacji; 3. Budowa wskaźnika kondycji finansowej kredytobiorcy. Próba badawcza: 1. German credit data; 2. Brazilian credit data.
Definicja wskaźnika Ocena klientów banku za pomocą wskaźnika kondycji finansowej kredytobiorcy zdefiniowanego jako wartość funkcji W(X). ( XW ij ) 11 j 22 j 3 j XXX... X gdzie: X ij to poszczególne cechy j - tego kredytobiorcy natomiast α i to wagi przypisane do tych cech, i = 1,, n, j =1,, m. nnm Ocena klientów Budowa W(X) Jakość W(X) wartość funkcji W(X) metody statystyczne trafność klasyfikacji
Próba badawcza German credit data - baza danych zawierająca informacje o 1000 kredytobiorcach niemieckiego banku, którym przyznano kredyt konsumpcyjny (700 dobrych oraz 300 złych kredytobiorców). 20 cech w oryginalnym zbiorze Nr. cechy Opis Rodzaj cechy Liczba kategorii Nr. cechy Opis Rodzaj cechy Liczba kategorii 1 Stan rachunku Jakościowa 4 11 Czas obecnego miejsca zamieszkania Ilościowa - 2 3 Okres kredytowania Historia kredytowa Ilościowa - 12 Zabezpieczenie Jakościowa 4 Jakościowa 5 13 Wiek Ilościowa - 4 Cel kredytu Jakościowa 11 14 Zobowiązania Jakościowa 3 5 Kwota kredytu Ilościowa - 15 Mieszkanie Jakościowa 3 6 Suma aktywów Jakościowa 5 16 Liczba wcześniejszych kredytów Ilościowa - 7 Okres zatrudnienia Jakościowa 5 17 Stanowisko Jakościowa 4 8 Wysokość raty jako % dochodu Ilościowa - 18 Liczba osób na utrzymaniu Ilościowa - 9 Stan cywilny i płeć Jakościowa 5 19 Telefon Jakościowa 2 10 Gwaranci Jakościowa 3 20 Pochodzenie Jakościowa 2 Zmienna zależna 21 Spłata kredytu Jakościowa 2
Próba badawcza Brazilian credit data - baza obejmująca 50 000 klientów, którzy korzystali z limitu w karcie kredytowej; pochodzi z brazylijskiego centrum kredytowego (13 401 złych oraz 36 599 dobrych kredytobiorców). 53 cechy w oryginalnym zbiorze Nr. cechy Opis Rodzaj cechy Liczba kategorii Nr. cechy Opis Rodzaj cechy Liczba kategorii 1 Dzień spłaty Jakościowa 6 13 Liczba rachunków w banku Ilościowa - 2 adres Jakościowa 2 14 Wartość aktywów klienta Ilościowa - 3 płeć Jakościowa 2 15 Liczba samochodów Ilościowa - 4 Stan cywilny Jakościowa 8 16 Klient podał nazwę pracodawcy Jakościowa 2 5 Liczba osób na utrzymaniu Ilościowa - 17 Klient podał numer telefonu służbowego Jakościowa 2 6 Narodowość Jakościowa 2 18 Okres zatrudnienia Ilościowa - 7 Telefon stacjonarny Jakościowa 2 19 Wiek Ilościowa - 8 Forma zamieszkania Jakościowa 6 20 Powierzchnia stanu Ilościowa - 9 Czas obecnego miejsca zamieszkania Ilościowa - 21 Populacja stanu Ilościowa - 10 Posiadanie email Jakościowa 2 22 PKB per capita Ilościowa - 11 Miesięczny stały dochód Ilościowa - 23 Sposób złożenia wniosku o kartę Jakościowa 3 12 Inne średnie miesięczne dochody Ilościowa - 24 Spłata kredytu Jakościowa 2
Zestawy zmiennych I zestaw zmienne jakościowe przedstawione jako zestawy zmiennych binarnych; unitaryzacja cech mierzalnych; nazwa zmienna opis atrybut wartość X47 wiek wiek kredytobiorcy w latach - - X51 mieszkanie 1 mieszkanie wynajmowane wynajmowane/ inne 1 / 0 X52 mieszkanie 2 mieszkanie własnościowe własnościowe /inne 1 / 0 X53 mieszkanie 3 mieszkanie za darmo / z rodzicami za darmo /inne 1 / 0 II zestaw zmienne mierzalne; kategoryzacja za pomocą transformacji WoE (weight of evidence), standaryzacja zmiennych mierzalnych; nazwa zmienna atrybut typ Liczba złych kred. Liczba dobrych kred. WoE X13 wiek wiek kredytobiorcy w latach ilościowa 300 700 - wynajmowane 70 109-0,40 X15 mieszkanie własnościowe jakościowa 186 527 0,19 za darmo 44 64-0,47 III zestaw zmienne mierzalne poddane dyskretyzacji i przekształcone w zestawy zmiennych zerojedynkowych, cechy jakościowe w postaci zmiennych binarnych. nazwa zmienna opis atrybut Liczba złych kred. Liczba dobrych kred. WoE wartość nazwa zmienna opis atrybut Liczba złych kred. Liczba dobrych kred. WoE wartość X63 wiek 1 <=25 Tak / inne 80 110-0,529 1 / 0 X64 wiek 2 >25... <=30 Tak /inne 68 153-0,036 1/ 0 X65 wiek 3 >30...<=36 Tak /inne 56 160 0,203 1 /0 X66 wiek 4 >36... <=45 Tak / inne 49 138 0,188 1 /0 X67 wiek 5 >45... <=60 Tak /inne 37 104 0,186 1 /0 X68 wiek 3 >60 Tak /inne 10 35 0,405 1 /0
Wstępna weryfikacja statystyczna 1. Kryterium zdolności dyskryminacyjnej - współczynnik zmienności (>10%) 2. Kryterium asymetrii rozkładu - współczynnik skośności (<3) 3. Kryterium pojemności informacyjnej - metoda Hellwiga, ale... dla zmiennych zerojedynkowych stosujemy współczynnik Yule'a oraz zmodyfikowaną macierz współzależności Zmienna zerojedynkowa mierzalna zerojedynkowa Współczynnik skojarzenia Yule a Test t różnicy średnich mierzalna Test t różnicy średnich Współczynnik korelacji Pearsona
Problemy podczas budowy modelu Współliniowość zmiennych (z powodu dużej liczby zmiennych zerojedynkowych); Silna korelacja (na kształtowanie zmiennych charakteryzujących kredytobiorców często wpływają te same zjawiska); Niezbilansowana próba (populacje klientów dobrych i złych nie są podobne pod względem liczebności).
Metody badawcze Analiza dyskryminacyjna a1, a2,, ak współczynniki dyskryminacyjne; X1, X2,, Xk zmienne objaśniające modelu (cechy kredytobiorców) Założenia Występowanie wielowymiarowego rozkładu normalnego zmiennych; Jednorodność wariancji i kowariancji w grupach testowych; Weryfikacja statystycznej istotności zmiennych test Λ Wilksa Jakość dopasowania prawdopodobieństwo z jakim funkcja prawidłowo przypisuje przynależność obiektu do grupy
Metody badawcze Regresja logistyczna Założenia Brak rygorystycznych założeń, ale silnie ze sobą skorelowane zmienne objaśniające powinny zostać wyeliminowane. Weryfikacja zmiennych Istotność poszczególnych parametrów βj chi-kwadrat; Całkowita nieistotność zmiennych objaśniających wiarygodności, test Walda, test wyników; statystyka Walda o rozkładzie test ilorazu Jakość dopasowania kryterium -2logL, Akaike'a, Shwarza.
Metody badawcze Analiza głównych składowych w połączeniu z regresją wieloraką Główna idea Identyfikacja struktury zależności poprzez utworzenie nowego zbioru istotnych zmiennych, częściowo lub całkowicie zastępującego zbiór oryginalny. Zalety Redukcja przestrzeni cech bez istotnej straty własności statystycznych modelu; Analiza korelacji pomiędzy zmiennymi danego modelu. Wady Trudna interpretacja modelu.
Metody badawcze Metoda epsilon Główna idea Wyznaczenie wag względnych (relative weights) poprzez utworzenie nieskorelowanych sztucznych zmiennych, które powinny odzwierciedlać zasób informacyjny, strukturę rozkładu i powiązań między oryginalnymi zmiennymi. Zalety Odporność na silną korelację zmiennych objaśniających; Zdolność wyznaczenia zarówno bezpośredniego poziomu wpływu poszczególnych zmiennych objaśniających na zmienną objaśnianą jak i ich pośredniego działania w interakcji z pozostałymi regresorami.
Metody badawcze Metoda epsilon Schemat powiązań pomiędzy zmiennymi w metodzie epsilon w modelu z trzema predyktorami Źródło Opracowanie własne na podstawie J. W. Johnson, J. M. Lebreton, History and Use of Relative Importance Indices in Organizational Research, Organizational Research Methods, No3, 2004, s. 250
Metody badawcze Metoda epsilon Etapy wyznaczania wag względnych za pomocą metody epsilon 1. Dekompozycja wartościami osobliwymi macierzy zmiennych objaśniających X, 2. Wyznaczenie najlepszej ortogonalnej aproksymacji macierzy X i tym samym wyznaczenie zmiennych sztucznych Z, 3. Oszacowanie regresji Z na Y, czyli wektora β, 4. Estymacja regresji Z na X, czyli macierzy Λ, 5. Obliczenie wektora wag względnych będącego iloczynem β 2 = β jk2 i Λ 2 = λ jk 2. Wagi względne λ po dodatkowych przekształceniach występują jako wagi α we wskaźniku kondycji finansowej kredytobiorcy.
Wyniki badań zestaw II, dane niemieckie Analiza dyskryminacyjna Charakterystyki zmiennych nie wprowadzonych do modelu Lambda Wilksa Cząstkowa Lambda Wilksa F usunięcia p Tolerancja 1-Tolerancja X7 0,743 0,998 1,312 0,252 0,909 0,091 X12 0,744 1,000 0,323 0,570 0,713 0,287 X16 0,744 1,000 0,341 0,559 0,857 0,143 Współczynniki standaryzowane otrzymanej funkcji dyskryminacyjnej zmienna X1 X3 X4 X5 X8 X6 X9 wartość współczynnika 0,49 0,35 0,31-0,44-0,33 0,26 0,19 zmienna X19 X20 X15 X13 X14 X10 wartość współczynnika 0,19 0,17 0,15 0,15 0,14 0,14 Tablica trafności dla próby podstawowej Obserwowane Przewidywane Y=1 Y=0 suma Procent poprawnych Y=1 506 56 562 90,0% Y=0 122 116 238 48,7% suma 628 172 800 77,8% Tablica trafności dla próby odłożonej Obserwowane Przewidywane Y=1 Y=0 suma Procent poprawnych Y=1 119 19 138 86,2% Y=0 32 30 62 48,4% suma 151 49 200 74,5%
Wyniki badań zestaw II, dane niemieckie Regresja logistyczna Wyniki regresji logistycznej - charakterystyki zmiennych Krzywa ROC Zmienna Ocena Błąd parametru standardowy test chi-kwadrat Walda 95 % przedziały ufności Walda p Wyraz wolny -1,225 0,105 135,776-1,431-1,019 0,000 X1-0,665 0,102 42,277-0,865-0,464 0,000 X3-0,428 0,101 18,011-0,626-0,230 0,000 X4-0,406 0,098 17,270-0,598-0,215 0,000 X5 0,552 0,109 25,811 0,339 0,764 0,000 X6-0,408 0,106 14,739-0,617-0,200 0,000 X7-0,095 0,094 1,032-0,279 0,088 0,310 X8 0,420 0,104 16,357 0,216 0,623 0,000 X9-0,243 0,094 6,684-0,428-0,059 0,010 X10-0,141 0,091 2,393-0,320 0,038 0,122 X12-0,033 0,109 0,090-0,247 0,182 0,764 X13-0,213 0,101 4,468-0,411-0,015 0,035 X14-0,198 0,089 4,954-0,372-0,024 0,026 X15-0,178 0,097 3,334-0,369 0,013 0,068 X16 0,040 0,101 0,162-0,157 0,237 0,687 X19-0,271 0,101 7,196-0,468-0,073 0,007 X20-0,342 0,145 5,591-0,625-0,058 0,018 Tablica trafności dla próby podstawowej Obserwowane Przewidywane Y=1 Y=0 suma Procent poprawnych Y=1 502 60 562 89,3% Y=0 121 117 238 49,2% suma 623 177 800 77,4% Tablica trafności dla próby odłożonej Obserwowane Przewidywane Y=1 Y=0 suma Procent poprawnych Y=1 120 18 138 87,0% Y=0 34 28 62 45,2% suma 154 46 200 74,0%
Wyniki badań zestaw II, dane niemieckie Analiza głównych składowych Wartości własne oraz wariancja głównych składowych Numer wartości Wartość własna Skumul. % ogółu wartość wariancji własna Skumul. % Numer wartości Wartość własna Tablica trafności dla próby podstawowej Przewidywane Y=1 Y=0 suma Skumul. % ogółu wartość wariancji własna Skumul. % 1 2,25 13,25 2,25 13,25 10 0,86 5,03 12,70 74,73 2 1,81 10,67 4,07 23,92 11 0,82 4,85 13,53 79,58 3 1,30 7,66 5,37 31,58 12 0,76 4,49 14,29 84,07 4 1,25 7,33 6,61 38,91 13 0,70 4,13 14,99 88,20 5 1,20 7,09 7,82 46,00 14 0,69 4,06 15,68 92,26 6 1,11 6,54 8,93 52,54 15 0,58 3,43 16,27 95,69 7 1,03 6,05 9,96 58,59 16 0,49 2,88 16,76 98,57 8 0,99 5,80 10,95 64,39 17 0,24 1,43 17,00 100,00 9 0,90 5,31 11,85 69,70 Obserwowane Procent poprawnych Y=1 492 70 562 87,5% Y=0 105 133 238 55,9% suma 597 203 800 78,1% Wyniki estymacji za pomocą regresji wielorakiej zmienna b* Bł. std. t(785) p W. wolny 50,082 0,000 czyn1 0,264 0,031 8,593 0,000 czyn2 0,313 0,031 10,217 0,000 czyn3 0,216 0,031 7,049 0,000 czyn4 0,002 0,031 0,070 0,944 czyn5-0,101 0,031-3,303 0,001 czyn6 0,099 0,031 3,221 0,001 czyn7 0,057 0,031 1,852 0,064 czyn8-0,028 0,031-0,901 0,368 czyn9 0,076 0,031 2,470 0,014 czyn10 0,077 0,031 2,501 0,013 czyn11 0,077 0,031 2,499 0,013 czyn12 0,058 0,031 1,885 0,060 czyn13 0,022 0,031 0,704 0,482 czyn14-0,032 0,031-1,052 0,293 Tablica trafności dla próby odłożonej Przewidywane Y=1 Y=0 suma Obserwowane Procent poprawnych Y=1 118 20 138 85,5% Y=0 36 26 62 41,9% suma 154 46 200 72,0%
Wyniki badań zestaw II, dane niemieckie Metoda epsilon Macierz lambda kwadrat X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X12 X13 X14 X15 X16 X19 X20 Z1 0,96 0,00 0,01 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Z2 0,00 0,84 0,00 0,00 0,12 0,00 0,00 0,00 0,00 0,00 0,02 0,00 0,00 0,00 0,00 0,00 0,00 Z3 0,01 0,00 0,94 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,00 0,03 0,00 0,00 Z4 0,00 0,00 0,00 0,99 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Z5 0,00 0,12 0,00 0,00 0,81 0,00 0,00 0,03 0,00 0,00 0,02 0,00 0,00 0,00 0,00 0,01 0,00 Z6 0,01 0,00 0,00 0,00 0,00 0,98 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Z7 0,00 0,00 0,00 0,00 0,00 0,00 0,97 0,00 0,01 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,00 Z8 0,00 0,00 0,00 0,00 0,03 0,00 0,00 0,96 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Z9 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,00 0,97 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Z10 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,99 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Z12 0,00 0,02 0,00 0,00 0,02 0,00 0,00 0,00 0,00 0,00 0,90 0,00 0,00 0,04 0,00 0,01 0,00 Z13 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,97 0,00 0,00 0,00 0,00 0,00 Z14 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,98 0,00 0,00 0,00 0,00 Z15 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,04 0,00 0,00 0,95 0,00 0,00 0,00 Z16 0,00 0,00 0,03 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,96 0,00 0,00 Z19 0,00 0,00 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,96 0,00 Z20 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,98 Macierz korelacji zmiennych oryginalnych ze zmiennymi sztucznymi Z1 Z2 Z3 Z4 Z5 Z6 Z7 Z8 Z9 Z10 Z12 Z13 Z14 Z15 Z16 Z19 Z20 X1 0,98-0,04 0,10 0,05-0,02 0,10 0,06-0,02 0,01-0,04 0,03 0,03 0,02 0,04 0,02 0,04-0,01 X2-0,04 0,92-0,06 0,02 0,35 0,00 0,03 0,05 0,03-0,01-0,13-0,02-0,03-0,03 0,00 0,05-0,06 X3 0,10-0,06 0,97 0,02-0,05 0,02 0,04 0,03 0,02 0,00 0,04 0,05 0,10 0,04 0,16 0,01 0,02 X4 0,05 0,02 0,02 0,99 0,02 0,03 0,02 0,01 0,04 0,03 0,01-0,03 0,03 0,00-0,02 0,01-0,05 X5-0,02 0,35-0,05 0,02 0,90 0,00 0,00-0,17 0,03-0,05-0,14 0,01-0,01-0,04 0,02 0,12 0,00 X6 0,10 0,00 0,02 0,03 0,00 0,99 0,04 0,01-0,01-0,02-0,01 0,04 0,00-0,01-0,03 0,04 0,01 X7 0,06 0,03 0,04 0,02 0,00 0,04 0,98 0,04 0,10 0,03-0,02 0,10 0,00 0,01 0,06 0,02-0,01 X8-0,02 0,05 0,03 0,01-0,17 0,01 0,04 0,98 0,06-0,01-0,03 0,02-0,02 0,02 0,01 0,02-0,05 X9 0,01 0,03 0,02 0,04 0,03-0,01 0,10 0,06 0,99 0,01-0,04 0,04-0,03 0,05 0,05 0,02 0,03 X10-0,04-0,01 0,00 0,03-0,05-0,02 0,03-0,01 0,01 0,99 0,07 0,01-0,01 0,03-0,01-0,01 0,03 X12 0,03-0,13 0,04 0,01-0,14-0,01-0,02-0,03-0,04 0,07 0,95-0,03 0,06 0,20 0,01-0,10 0,05 X13 0,03-0,02 0,05-0,03 0,01 0,04 0,10 0,02 0,04 0,01-0,03 0,99-0,02-0,01 0,06 0,07 0,00 X14 0,02-0,03 0,10 0,03-0,01 0,00 0,00-0,02-0,03-0,01 0,06-0,02 0,99-0,01-0,03-0,01 0,01 X15 0,04-0,03 0,04 0,00-0,04-0,01 0,01 0,02 0,05 0,03 0,20-0,01-0,01 0,97 0,01-0,01 0,01 X16 0,02 0,00 0,16-0,02 0,02-0,03 0,06 0,01 0,05-0,01 0,01 0,06-0,03 0,01 0,98 0,03 0,00 X19 0,04 0,05 0,01 0,01 0,12 0,04 0,02 0,02 0,02-0,01-0,10 0,07-0,01-0,01 0,03 0,98-0,05 X20-0,01-0,06 0,02-0,05 0,00 0,01-0,01-0,05 0,03 0,03 0,05 0,00 0,01 0,01 0,00-0,05 0,99
Wyniki badań zestaw II, dane niemieckie Metoda epsilon Współczynnik β oraz wagi względne nazwa nazwa współczynnik β wagi względne zmiennej zmiennej współczynnik β wagi względne Z1 0,12 0,015 Z10 0,03 0,001 Z2-0,08 0,006 Z12 0,03 0,001 Z3 0,09 0,008 Z13 0,04 0,001 Z4 0,07 0,005 Z14 0,04 0,002 Z5-0,06 0,003 Z15 0,04 0,002 Z6 0,07 0,005 Z16 0,00 0,000 Z7 0,04 0,001 Z19 0,03 0,001 Z8-0,04 0,002 Z20 0,03 0,001 Z9 0,04 0,002 Poziom wpływu zmiennych objaśniających na spłacalność kredytu poziom wpływu poziom wpływu udział zmiennej udział zmiennej nazwa współczynnik zmiennej Z na nazwa współczynnik zmiennej Z na w sumie wag w sumie wag zmiennej korelacji wyjśnienie zmiennej korelacji wyjśnienie względnych względnych zmienności Y zmienności Y Z1 26,7% 0,33 0,27 Z10 1,8% 0,08 0,02 Z2 10,3% - 0,24-0,10 Z12 2,1% 0,14 0,02 Z3 14,5% 0,27 0,15 Z13 2,5% 0,11 0,03 Z4 8,6% 0,17 0,09 Z14 2,8% 0,12 0,03 Z5 6,2% - 0,17-0,06 Z15 2,8% 0,13 0,03 Z6 8,4% 0,19 0,08 Z16 0,5% 0,05 0,01 Z7 2,5% 0,12 0,02 Z19 2,2% 0,06 0,02 Z8 3,3% - 0,07-0,03 Z20 2,1% 0,09 0,02 Z9 2,8% 0,10 0,03 Tablica trafności dla próby podstawowej Obserwowane Przewidywane Y=1 Y=0 suma Procent poprawnych Y=1 498 64 562 88,6% Y=0 113 125 238 52,5% suma 611 189 800 77,9% Tablica trafności dla próby odłożonej Przewidywane Y=1 Y=0 suma Obserwowane Procent poprawnych Y=1 121 17 138 87,7% Y=0 30 32 62 51,6% suma 151 49 200 76,5%
Podsumowanie wyników badań Porównanie trafności klasyfikacji analizowanych metod dla prób podstawowych oraz odłożonych dane niemieckich i brazylijskich kredytobiorców numer zestawu zmiennych rodzaj danych analiza dyskryminacyjna regresja logistyczna epsilon analiza głównych skladowych + regresja wieloraka dane niemieckie I zestaw II zestaw III zestaw I zestaw II zestaw III zestaw próba podstawowa 77,3% 74,8% 72,9% 78,6% prognoza 76,0% 74,5% 72,5% 70,5% próba podstawowa 77,8% 77,4% 77,9% 78,1% prognoza 74,5% 74,0% 76,5% 72,0% próba podstawowa 79,3% 79,0% 72,4% 79,3% prognoza 74,0% 75,0% 71,0% 57,5% dane brazylijskie próba podstawowa 55,9% 55,8% 54,1% 55,8% prognoza 56,2% 56,2% 53,5% 47,8% próba podstawowa 58,0% 58,0% 57,6% 56,5% prognoza 58,2% 57,9% 57,7% 46,2% próba podstawowa 58,6% 58,5% 53,3% 55,6% prognoza 58,2% 57,5% 53,0% 48,2%
Podsumowanie wyników badań Macierz korelacji II zestawu zmiennych - dane niemieckich kredytobiorców X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X12 X13 X14 X15 X16 X19 X20 X1 1,00-0,09 0,21 0,10-0,06 0,21 0,12-0,02 0,03-0,07 0,07 0,08 0,06 0,09 0,07 0,07-0,02 X2-0,09 1,00-0,14 0,05 0,65 0,00 0,05 0,05 0,08-0,05-0,31-0,03-0,08-0,09-0,01 0,15-0,14 X3 0,21-0,14 1,00 0,04-0,12 0,04 0,11 0,07 0,06 0,00 0,10 0,11 0,19 0,10 0,33 0,02 0,04 X4 0,10 0,05 0,04 1,00 0,03 0,06 0,05 0,02 0,08 0,05 0,02-0,04 0,06 0,01-0,03 0,03-0,09 X5-0,06 0,65-0,12 0,03 1,00 0,00 0,01-0,29 0,06-0,11-0,32 0,02-0,05-0,11 0,03 0,25-0,04 X6 0,21 0,00 0,04 0,06 0,00 1,00 0,09 0,01-0,01-0,05-0,02 0,09 0,01-0,02-0,05 0,09 0,02 X7 0,12 0,05 0,11 0,05 0,01 0,09 1,00 0,09 0,20 0,06-0,05 0,21 0,00 0,03 0,13 0,06-0,01 X8-0,02 0,05 0,07 0,02-0,29 0,01 0,09 1,00 0,12-0,01-0,05 0,05-0,04 0,05 0,03 0,04-0,10 X9 0,03 0,08 0,06 0,08 0,06-0,01 0,20 0,12 1,00 0,02-0,08 0,09-0,06 0,09 0,11 0,05 0,05 X10-0,07-0,05 0,00 0,05-0,11-0,05 0,06-0,01 0,02 1,00 0,15 0,01-0,02 0,08-0,01-0,03 0,05 X12 0,07-0,31 0,10 0,02-0,32-0,02-0,05-0,05-0,08 0,15 1,00-0,08 0,12 0,39 0,01-0,22 0,12 X13 0,08-0,03 0,11-0,04 0,02 0,09 0,21 0,05 0,09 0,01-0,08 1,00-0,03-0,02 0,14 0,14-0,01 X14 0,06-0,08 0,19 0,06-0,05 0,01 0,00-0,04-0,06-0,02 0,12-0,03 1,00-0,01-0,04-0,04 0,03 X15 0,09-0,09 0,10 0,01-0,11-0,02 0,03 0,05 0,09 0,08 0,39-0,02-0,01 1,00 0,04-0,04 0,03 X16 0,07-0,01 0,33-0,03 0,03-0,05 0,13 0,03 0,11-0,01 0,01 0,14-0,04 0,04 1,00 0,07 0,00 X19 0,07 0,15 0,02 0,03 0,25 0,09 0,06 0,04 0,05-0,03-0,22 0,14-0,04-0,04 0,07 1,00-0,10 X20-0,02-0,14 0,04-0,09-0,04 0,02-0,01-0,10 0,05 0,05 0,12-0,01 0,03 0,03 0,00-0,10 1,00 Macierz korelacji II zestawu zmiennych - dane brazylijskich kredytobiorców X1 X2 X3 X4 X5 X7 X8 X9 X13 X15 X17 X18 X19 X23 X1 1,00 0,00-0,07 0,08-0,02-0,06 0,02 0,03 0,03 0,04 0,04 0,01 0,17-0,02 X2 0,00 1,00-0,01-0,01 0,01 0,00-0,02-0,02-0,01-0,01-0,05 0,00-0,03 0,01 X3-0,07-0,01 1,00-0,01-0,05-0,03 0,02 0,03 0,00-0,01 0,11-0,01 0,00-0,01 X4 0,08-0,01-0,01 1,00 0,07-0,15 0,02 0,06 0,04 0,04 0,14 0,01 0,34-0,03 X5-0,02 0,01-0,05 0,07 1,00 0,02 0,00-0,04 0,04 0,03-0,07 0,01-0,03 0,01 X7-0,06 0,00-0,03-0,15 0,02 1,00-0,01-0,04 0,03 0,02-0,01-0,01-0,27-0,02 X8 0,02-0,02 0,02 0,02 0,00-0,01 1,00 0,19 0,00-0,01 0,05 0,00 0,06 0,00 X9 0,03-0,02 0,03 0,06-0,04-0,04 0,19 1,00-0,04-0,04 0,07 0,02 0,19-0,08 X13 0,03-0,01 0,00 0,04 0,04 0,03 0,00-0,04 1,00 0,86-0,03-0,01 0,04-0,64 X15 0,04-0,01-0,01 0,04 0,03 0,02-0,01-0,04 0,86 1,00-0,02 0,00 0,03-0,66 X17 0,04-0,05 0,11 0,14-0,07-0,01 0,05 0,07-0,03-0,02 1,00-0,01 0,28-0,03 X18 0,01 0,00-0,01 0,01 0,01-0,01 0,00 0,02-0,01 0,00-0,01 1,00 0,01 0,01 X19 0,17-0,03 0,00 0,34-0,03-0,27 0,06 0,19 0,04 0,03 0,28 0,01 1,00-0,02 X23-0,02 0,01-0,01-0,03 0,01-0,02 0,00-0,08-0,64-0,66-0,03 0,01-0,02 1,00
Wnioski z badań Wnioski Żadna z analizowanych metod nie stanowi uniwersalnego podejścia, które każdorazowo, dla dowolnego zbioru cech kredytobiorcy gwarantowałoby najwyższą poprawną trafność klasyfikacji; Uniezależnienie się od zjawiska korelacji zmiennych za pomocą metody epsilon i analizy głównych składowych zwiększa trafność oceny kondycji kredytobiorcy; Zastosowanie tradycyjnych metod oceny kondycji kredytobiorcy, takich jak analiza dyskryminacyjna czy regresja logistyczna może być niewystarczające do oceny kondycji kredytobiorcy w kontekście najwyższej trafności klasyfikacji, gdy zmienne charakteryzują się silną korelacją;
Wnioski z badań cd. Wnioski Metoda epsilon charakteryzuje się najwyższą trafnością klasyfikacji przypadków należących do próby odłożonej w porównaniu do analizy dyskryminacyjnej, regresji logistycznej oraz analizy głównych składowych połączonej z liniową regresją wieloraką pod warunkiem zastosowania metody do danych charakteryzujących się umiarkowaną bądź silną korelacją wyrażonych na skali porządkowej bądź przedziałowej; Metoda epsilon oparta o estymację metodą najmniejszych kwadratów generuje gorsze wyniki gdy zmienne przedstawione są w postaci binarnej w porównaniu z cechami wyrażonymi na skali porządkowej bądź przedziałowej.
Polecana literatura Johnson J. W. (2000), A Heuristic Method for Estimating the Relative Weight of Predictor for Variables in Multiple Regression, Multivariate Behavioral Research, vol 35(1), Johnson J. W., Lebreton J. M. (2004), History and Use of Relative Importance Indices in Organizational Research, Organizational Research Methods, Vol. 7 No. 3, July 2004, Nehrebecka N., Grudkowska S.(2009), Wykorzystanie metody epsilon do badania wpływu czynników determinujących opinie konsumentów, Wiadomości Statystyczne nr. 5/2009 Słaby T., Młodak A. (2010), Jedna czy kilka metod analizy statystycznej - studia metodologiczne. Studia i Prace Kolegium Zarządzania i Finansów SGH, Zeszyt Naukowy 102, Warszawa.
Dziękuję za uwagę