Wskaźnik kondycji finansowej kredytobiorcy. Aspekty metodologiczne.

Podobne dokumenty
WSKAŹNIK KONDYCJI FINANSOWEJ KREDYTOBIORCY. ASPEKTY METODOLOGICZNE

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Wojciech Skwirz

Statystyka i Analiza Danych

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Spis treści 3 SPIS TREŚCI

Badania eksperymentalne

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Analiza składowych głównych. Wprowadzenie

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Własności statystyczne regresji liniowej. Wykład 4

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Analiza współzależności zjawisk

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Metody scoringowe w regresji logistycznej

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

MODELE LINIOWE. Dr Wioleta Drobik

PDF created with FinePrint pdffactory Pro trial version

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Wnioskowanie statystyczne. Statystyka w 5

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

WYKORZYSTYWANE W ANALIZIE WYNIKÓW METOD WYCENY OBSZARÓW CHRONIONYCH. Dr Dariusz Kayzer

Regresja i Korelacja

Wprowadzenie do analizy korelacji i regresji

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

STUDIA I STOPNIA EGZAMIN Z EKONOMETRII

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Rozdział 8. Regresja. Definiowanie modelu

Statystyka SYLABUS A. Informacje ogólne

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Statystyka. Zadanie 1.

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Jak długo żyją spółki na polskiej giełdzie? Zastosowanie statystycznej analizy przeżycia do modelowania upadłości przedsiębiorstw

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Zmienne zależne i niezależne

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Scoring kredytowy w pigułce

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Metody Ilościowe w Socjologii

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Ćwiczenia IV

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Regresja logistyczna (LOGISTIC)

Elementy statystyki wielowymiarowej

METODY STATYSTYCZNE W BIOLOGII

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

1.1 Wstęp Literatura... 1

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

EKONOMETRIA. Prof. dr hab. Eugeniusz Gatnar.

Estymacja punktowa i przedziałowa

Statystyka matematyczna i ekonometria

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Modele selekcji próby

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Analiza wariancji jednej zmiennej (UNIANOVA)

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Księgarnia PWN: George A. Ferguson, Yoshio Takane - Analiza statystyczna w psychologii i pedagogice

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Konstrukcja miernika szans na bankructwo firmy

STATYSTYKA MATEMATYCZNA

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

WYKŁAD 8 ANALIZA REGRESJI

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Analiza niepewności pomiarów

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Przykład 1. (A. Łomnicki)

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Zawartość. Zawartość

Transkrypt:

Wskaźnik kondycji finansowej kredytobiorcy. Aspekty metodologiczne. dr Anna Nowak-Czarnocka Zastosowania statystyki i data mining w badaniach naukowych Warszawa, 12 października 2016

Pole badawcze Ryzyko kredytowe Szacowanie zdolności kredytowej klientów indywidualnych Credit-scoring Metody niestatystyczne Metody statystyczne Analiza dyskryminacyjna Regresja logistyczna Analiza głównych składowych Metoda epsilon

Pole badawcze Credit-scoring Cechy kredytobiorcy: wiek, wykształcenie, stan cywilny, sytuacja mieszkaniowa, zawód, itd. Mechanizm działania metody credit-scoring Rdzeniem każdego systemu scoringowego jest mechanizm umożliwiający klasyfikację kredytobiorcy do danej grupy ryzyka!

Podstawowe założenia badania Główne cele: 1. Porównanie tradycyjnych metod statystycznych wykorzystywanych do szacowania wpływu cech kredytobiorcy na spłacalność kredytów z metodą epsilon niestosowaną dotychczas w tym obszarze; 2. Odpowiedź na pytanie czy istnieje uniwersalne podejście, które każdorazowo dla dowolnego zbioru cech kredytobiorcy gwarantowałoby najwyższą trafność klasyfikacji; 3. Budowa wskaźnika kondycji finansowej kredytobiorcy. Próba badawcza: 1. German credit data; 2. Brazilian credit data.

Definicja wskaźnika Ocena klientów banku za pomocą wskaźnika kondycji finansowej kredytobiorcy zdefiniowanego jako wartość funkcji W(X). ( XW ij ) 11 j 22 j 3 j XXX... X gdzie: X ij to poszczególne cechy j - tego kredytobiorcy natomiast α i to wagi przypisane do tych cech, i = 1,, n, j =1,, m. nnm Ocena klientów Budowa W(X) Jakość W(X) wartość funkcji W(X) metody statystyczne trafność klasyfikacji

Próba badawcza German credit data - baza danych zawierająca informacje o 1000 kredytobiorcach niemieckiego banku, którym przyznano kredyt konsumpcyjny (700 dobrych oraz 300 złych kredytobiorców). 20 cech w oryginalnym zbiorze Nr. cechy Opis Rodzaj cechy Liczba kategorii Nr. cechy Opis Rodzaj cechy Liczba kategorii 1 Stan rachunku Jakościowa 4 11 Czas obecnego miejsca zamieszkania Ilościowa - 2 3 Okres kredytowania Historia kredytowa Ilościowa - 12 Zabezpieczenie Jakościowa 4 Jakościowa 5 13 Wiek Ilościowa - 4 Cel kredytu Jakościowa 11 14 Zobowiązania Jakościowa 3 5 Kwota kredytu Ilościowa - 15 Mieszkanie Jakościowa 3 6 Suma aktywów Jakościowa 5 16 Liczba wcześniejszych kredytów Ilościowa - 7 Okres zatrudnienia Jakościowa 5 17 Stanowisko Jakościowa 4 8 Wysokość raty jako % dochodu Ilościowa - 18 Liczba osób na utrzymaniu Ilościowa - 9 Stan cywilny i płeć Jakościowa 5 19 Telefon Jakościowa 2 10 Gwaranci Jakościowa 3 20 Pochodzenie Jakościowa 2 Zmienna zależna 21 Spłata kredytu Jakościowa 2

Próba badawcza Brazilian credit data - baza obejmująca 50 000 klientów, którzy korzystali z limitu w karcie kredytowej; pochodzi z brazylijskiego centrum kredytowego (13 401 złych oraz 36 599 dobrych kredytobiorców). 53 cechy w oryginalnym zbiorze Nr. cechy Opis Rodzaj cechy Liczba kategorii Nr. cechy Opis Rodzaj cechy Liczba kategorii 1 Dzień spłaty Jakościowa 6 13 Liczba rachunków w banku Ilościowa - 2 adres Jakościowa 2 14 Wartość aktywów klienta Ilościowa - 3 płeć Jakościowa 2 15 Liczba samochodów Ilościowa - 4 Stan cywilny Jakościowa 8 16 Klient podał nazwę pracodawcy Jakościowa 2 5 Liczba osób na utrzymaniu Ilościowa - 17 Klient podał numer telefonu służbowego Jakościowa 2 6 Narodowość Jakościowa 2 18 Okres zatrudnienia Ilościowa - 7 Telefon stacjonarny Jakościowa 2 19 Wiek Ilościowa - 8 Forma zamieszkania Jakościowa 6 20 Powierzchnia stanu Ilościowa - 9 Czas obecnego miejsca zamieszkania Ilościowa - 21 Populacja stanu Ilościowa - 10 Posiadanie email Jakościowa 2 22 PKB per capita Ilościowa - 11 Miesięczny stały dochód Ilościowa - 23 Sposób złożenia wniosku o kartę Jakościowa 3 12 Inne średnie miesięczne dochody Ilościowa - 24 Spłata kredytu Jakościowa 2

Zestawy zmiennych I zestaw zmienne jakościowe przedstawione jako zestawy zmiennych binarnych; unitaryzacja cech mierzalnych; nazwa zmienna opis atrybut wartość X47 wiek wiek kredytobiorcy w latach - - X51 mieszkanie 1 mieszkanie wynajmowane wynajmowane/ inne 1 / 0 X52 mieszkanie 2 mieszkanie własnościowe własnościowe /inne 1 / 0 X53 mieszkanie 3 mieszkanie za darmo / z rodzicami za darmo /inne 1 / 0 II zestaw zmienne mierzalne; kategoryzacja za pomocą transformacji WoE (weight of evidence), standaryzacja zmiennych mierzalnych; nazwa zmienna atrybut typ Liczba złych kred. Liczba dobrych kred. WoE X13 wiek wiek kredytobiorcy w latach ilościowa 300 700 - wynajmowane 70 109-0,40 X15 mieszkanie własnościowe jakościowa 186 527 0,19 za darmo 44 64-0,47 III zestaw zmienne mierzalne poddane dyskretyzacji i przekształcone w zestawy zmiennych zerojedynkowych, cechy jakościowe w postaci zmiennych binarnych. nazwa zmienna opis atrybut Liczba złych kred. Liczba dobrych kred. WoE wartość nazwa zmienna opis atrybut Liczba złych kred. Liczba dobrych kred. WoE wartość X63 wiek 1 <=25 Tak / inne 80 110-0,529 1 / 0 X64 wiek 2 >25... <=30 Tak /inne 68 153-0,036 1/ 0 X65 wiek 3 >30...<=36 Tak /inne 56 160 0,203 1 /0 X66 wiek 4 >36... <=45 Tak / inne 49 138 0,188 1 /0 X67 wiek 5 >45... <=60 Tak /inne 37 104 0,186 1 /0 X68 wiek 3 >60 Tak /inne 10 35 0,405 1 /0

Wstępna weryfikacja statystyczna 1. Kryterium zdolności dyskryminacyjnej - współczynnik zmienności (>10%) 2. Kryterium asymetrii rozkładu - współczynnik skośności (<3) 3. Kryterium pojemności informacyjnej - metoda Hellwiga, ale... dla zmiennych zerojedynkowych stosujemy współczynnik Yule'a oraz zmodyfikowaną macierz współzależności Zmienna zerojedynkowa mierzalna zerojedynkowa Współczynnik skojarzenia Yule a Test t różnicy średnich mierzalna Test t różnicy średnich Współczynnik korelacji Pearsona

Problemy podczas budowy modelu Współliniowość zmiennych (z powodu dużej liczby zmiennych zerojedynkowych); Silna korelacja (na kształtowanie zmiennych charakteryzujących kredytobiorców często wpływają te same zjawiska); Niezbilansowana próba (populacje klientów dobrych i złych nie są podobne pod względem liczebności).

Metody badawcze Analiza dyskryminacyjna a1, a2,, ak współczynniki dyskryminacyjne; X1, X2,, Xk zmienne objaśniające modelu (cechy kredytobiorców) Założenia Występowanie wielowymiarowego rozkładu normalnego zmiennych; Jednorodność wariancji i kowariancji w grupach testowych; Weryfikacja statystycznej istotności zmiennych test Λ Wilksa Jakość dopasowania prawdopodobieństwo z jakim funkcja prawidłowo przypisuje przynależność obiektu do grupy

Metody badawcze Regresja logistyczna Założenia Brak rygorystycznych założeń, ale silnie ze sobą skorelowane zmienne objaśniające powinny zostać wyeliminowane. Weryfikacja zmiennych Istotność poszczególnych parametrów βj chi-kwadrat; Całkowita nieistotność zmiennych objaśniających wiarygodności, test Walda, test wyników; statystyka Walda o rozkładzie test ilorazu Jakość dopasowania kryterium -2logL, Akaike'a, Shwarza.

Metody badawcze Analiza głównych składowych w połączeniu z regresją wieloraką Główna idea Identyfikacja struktury zależności poprzez utworzenie nowego zbioru istotnych zmiennych, częściowo lub całkowicie zastępującego zbiór oryginalny. Zalety Redukcja przestrzeni cech bez istotnej straty własności statystycznych modelu; Analiza korelacji pomiędzy zmiennymi danego modelu. Wady Trudna interpretacja modelu.

Metody badawcze Metoda epsilon Główna idea Wyznaczenie wag względnych (relative weights) poprzez utworzenie nieskorelowanych sztucznych zmiennych, które powinny odzwierciedlać zasób informacyjny, strukturę rozkładu i powiązań między oryginalnymi zmiennymi. Zalety Odporność na silną korelację zmiennych objaśniających; Zdolność wyznaczenia zarówno bezpośredniego poziomu wpływu poszczególnych zmiennych objaśniających na zmienną objaśnianą jak i ich pośredniego działania w interakcji z pozostałymi regresorami.

Metody badawcze Metoda epsilon Schemat powiązań pomiędzy zmiennymi w metodzie epsilon w modelu z trzema predyktorami Źródło Opracowanie własne na podstawie J. W. Johnson, J. M. Lebreton, History and Use of Relative Importance Indices in Organizational Research, Organizational Research Methods, No3, 2004, s. 250

Metody badawcze Metoda epsilon Etapy wyznaczania wag względnych za pomocą metody epsilon 1. Dekompozycja wartościami osobliwymi macierzy zmiennych objaśniających X, 2. Wyznaczenie najlepszej ortogonalnej aproksymacji macierzy X i tym samym wyznaczenie zmiennych sztucznych Z, 3. Oszacowanie regresji Z na Y, czyli wektora β, 4. Estymacja regresji Z na X, czyli macierzy Λ, 5. Obliczenie wektora wag względnych będącego iloczynem β 2 = β jk2 i Λ 2 = λ jk 2. Wagi względne λ po dodatkowych przekształceniach występują jako wagi α we wskaźniku kondycji finansowej kredytobiorcy.

Wyniki badań zestaw II, dane niemieckie Analiza dyskryminacyjna Charakterystyki zmiennych nie wprowadzonych do modelu Lambda Wilksa Cząstkowa Lambda Wilksa F usunięcia p Tolerancja 1-Tolerancja X7 0,743 0,998 1,312 0,252 0,909 0,091 X12 0,744 1,000 0,323 0,570 0,713 0,287 X16 0,744 1,000 0,341 0,559 0,857 0,143 Współczynniki standaryzowane otrzymanej funkcji dyskryminacyjnej zmienna X1 X3 X4 X5 X8 X6 X9 wartość współczynnika 0,49 0,35 0,31-0,44-0,33 0,26 0,19 zmienna X19 X20 X15 X13 X14 X10 wartość współczynnika 0,19 0,17 0,15 0,15 0,14 0,14 Tablica trafności dla próby podstawowej Obserwowane Przewidywane Y=1 Y=0 suma Procent poprawnych Y=1 506 56 562 90,0% Y=0 122 116 238 48,7% suma 628 172 800 77,8% Tablica trafności dla próby odłożonej Obserwowane Przewidywane Y=1 Y=0 suma Procent poprawnych Y=1 119 19 138 86,2% Y=0 32 30 62 48,4% suma 151 49 200 74,5%

Wyniki badań zestaw II, dane niemieckie Regresja logistyczna Wyniki regresji logistycznej - charakterystyki zmiennych Krzywa ROC Zmienna Ocena Błąd parametru standardowy test chi-kwadrat Walda 95 % przedziały ufności Walda p Wyraz wolny -1,225 0,105 135,776-1,431-1,019 0,000 X1-0,665 0,102 42,277-0,865-0,464 0,000 X3-0,428 0,101 18,011-0,626-0,230 0,000 X4-0,406 0,098 17,270-0,598-0,215 0,000 X5 0,552 0,109 25,811 0,339 0,764 0,000 X6-0,408 0,106 14,739-0,617-0,200 0,000 X7-0,095 0,094 1,032-0,279 0,088 0,310 X8 0,420 0,104 16,357 0,216 0,623 0,000 X9-0,243 0,094 6,684-0,428-0,059 0,010 X10-0,141 0,091 2,393-0,320 0,038 0,122 X12-0,033 0,109 0,090-0,247 0,182 0,764 X13-0,213 0,101 4,468-0,411-0,015 0,035 X14-0,198 0,089 4,954-0,372-0,024 0,026 X15-0,178 0,097 3,334-0,369 0,013 0,068 X16 0,040 0,101 0,162-0,157 0,237 0,687 X19-0,271 0,101 7,196-0,468-0,073 0,007 X20-0,342 0,145 5,591-0,625-0,058 0,018 Tablica trafności dla próby podstawowej Obserwowane Przewidywane Y=1 Y=0 suma Procent poprawnych Y=1 502 60 562 89,3% Y=0 121 117 238 49,2% suma 623 177 800 77,4% Tablica trafności dla próby odłożonej Obserwowane Przewidywane Y=1 Y=0 suma Procent poprawnych Y=1 120 18 138 87,0% Y=0 34 28 62 45,2% suma 154 46 200 74,0%

Wyniki badań zestaw II, dane niemieckie Analiza głównych składowych Wartości własne oraz wariancja głównych składowych Numer wartości Wartość własna Skumul. % ogółu wartość wariancji własna Skumul. % Numer wartości Wartość własna Tablica trafności dla próby podstawowej Przewidywane Y=1 Y=0 suma Skumul. % ogółu wartość wariancji własna Skumul. % 1 2,25 13,25 2,25 13,25 10 0,86 5,03 12,70 74,73 2 1,81 10,67 4,07 23,92 11 0,82 4,85 13,53 79,58 3 1,30 7,66 5,37 31,58 12 0,76 4,49 14,29 84,07 4 1,25 7,33 6,61 38,91 13 0,70 4,13 14,99 88,20 5 1,20 7,09 7,82 46,00 14 0,69 4,06 15,68 92,26 6 1,11 6,54 8,93 52,54 15 0,58 3,43 16,27 95,69 7 1,03 6,05 9,96 58,59 16 0,49 2,88 16,76 98,57 8 0,99 5,80 10,95 64,39 17 0,24 1,43 17,00 100,00 9 0,90 5,31 11,85 69,70 Obserwowane Procent poprawnych Y=1 492 70 562 87,5% Y=0 105 133 238 55,9% suma 597 203 800 78,1% Wyniki estymacji za pomocą regresji wielorakiej zmienna b* Bł. std. t(785) p W. wolny 50,082 0,000 czyn1 0,264 0,031 8,593 0,000 czyn2 0,313 0,031 10,217 0,000 czyn3 0,216 0,031 7,049 0,000 czyn4 0,002 0,031 0,070 0,944 czyn5-0,101 0,031-3,303 0,001 czyn6 0,099 0,031 3,221 0,001 czyn7 0,057 0,031 1,852 0,064 czyn8-0,028 0,031-0,901 0,368 czyn9 0,076 0,031 2,470 0,014 czyn10 0,077 0,031 2,501 0,013 czyn11 0,077 0,031 2,499 0,013 czyn12 0,058 0,031 1,885 0,060 czyn13 0,022 0,031 0,704 0,482 czyn14-0,032 0,031-1,052 0,293 Tablica trafności dla próby odłożonej Przewidywane Y=1 Y=0 suma Obserwowane Procent poprawnych Y=1 118 20 138 85,5% Y=0 36 26 62 41,9% suma 154 46 200 72,0%

Wyniki badań zestaw II, dane niemieckie Metoda epsilon Macierz lambda kwadrat X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X12 X13 X14 X15 X16 X19 X20 Z1 0,96 0,00 0,01 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Z2 0,00 0,84 0,00 0,00 0,12 0,00 0,00 0,00 0,00 0,00 0,02 0,00 0,00 0,00 0,00 0,00 0,00 Z3 0,01 0,00 0,94 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,00 0,03 0,00 0,00 Z4 0,00 0,00 0,00 0,99 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Z5 0,00 0,12 0,00 0,00 0,81 0,00 0,00 0,03 0,00 0,00 0,02 0,00 0,00 0,00 0,00 0,01 0,00 Z6 0,01 0,00 0,00 0,00 0,00 0,98 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Z7 0,00 0,00 0,00 0,00 0,00 0,00 0,97 0,00 0,01 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,00 Z8 0,00 0,00 0,00 0,00 0,03 0,00 0,00 0,96 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Z9 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,00 0,97 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Z10 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,99 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Z12 0,00 0,02 0,00 0,00 0,02 0,00 0,00 0,00 0,00 0,00 0,90 0,00 0,00 0,04 0,00 0,01 0,00 Z13 0,00 0,00 0,00 0,00 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,97 0,00 0,00 0,00 0,00 0,00 Z14 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,98 0,00 0,00 0,00 0,00 Z15 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,04 0,00 0,00 0,95 0,00 0,00 0,00 Z16 0,00 0,00 0,03 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,96 0,00 0,00 Z19 0,00 0,00 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,96 0,00 Z20 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,98 Macierz korelacji zmiennych oryginalnych ze zmiennymi sztucznymi Z1 Z2 Z3 Z4 Z5 Z6 Z7 Z8 Z9 Z10 Z12 Z13 Z14 Z15 Z16 Z19 Z20 X1 0,98-0,04 0,10 0,05-0,02 0,10 0,06-0,02 0,01-0,04 0,03 0,03 0,02 0,04 0,02 0,04-0,01 X2-0,04 0,92-0,06 0,02 0,35 0,00 0,03 0,05 0,03-0,01-0,13-0,02-0,03-0,03 0,00 0,05-0,06 X3 0,10-0,06 0,97 0,02-0,05 0,02 0,04 0,03 0,02 0,00 0,04 0,05 0,10 0,04 0,16 0,01 0,02 X4 0,05 0,02 0,02 0,99 0,02 0,03 0,02 0,01 0,04 0,03 0,01-0,03 0,03 0,00-0,02 0,01-0,05 X5-0,02 0,35-0,05 0,02 0,90 0,00 0,00-0,17 0,03-0,05-0,14 0,01-0,01-0,04 0,02 0,12 0,00 X6 0,10 0,00 0,02 0,03 0,00 0,99 0,04 0,01-0,01-0,02-0,01 0,04 0,00-0,01-0,03 0,04 0,01 X7 0,06 0,03 0,04 0,02 0,00 0,04 0,98 0,04 0,10 0,03-0,02 0,10 0,00 0,01 0,06 0,02-0,01 X8-0,02 0,05 0,03 0,01-0,17 0,01 0,04 0,98 0,06-0,01-0,03 0,02-0,02 0,02 0,01 0,02-0,05 X9 0,01 0,03 0,02 0,04 0,03-0,01 0,10 0,06 0,99 0,01-0,04 0,04-0,03 0,05 0,05 0,02 0,03 X10-0,04-0,01 0,00 0,03-0,05-0,02 0,03-0,01 0,01 0,99 0,07 0,01-0,01 0,03-0,01-0,01 0,03 X12 0,03-0,13 0,04 0,01-0,14-0,01-0,02-0,03-0,04 0,07 0,95-0,03 0,06 0,20 0,01-0,10 0,05 X13 0,03-0,02 0,05-0,03 0,01 0,04 0,10 0,02 0,04 0,01-0,03 0,99-0,02-0,01 0,06 0,07 0,00 X14 0,02-0,03 0,10 0,03-0,01 0,00 0,00-0,02-0,03-0,01 0,06-0,02 0,99-0,01-0,03-0,01 0,01 X15 0,04-0,03 0,04 0,00-0,04-0,01 0,01 0,02 0,05 0,03 0,20-0,01-0,01 0,97 0,01-0,01 0,01 X16 0,02 0,00 0,16-0,02 0,02-0,03 0,06 0,01 0,05-0,01 0,01 0,06-0,03 0,01 0,98 0,03 0,00 X19 0,04 0,05 0,01 0,01 0,12 0,04 0,02 0,02 0,02-0,01-0,10 0,07-0,01-0,01 0,03 0,98-0,05 X20-0,01-0,06 0,02-0,05 0,00 0,01-0,01-0,05 0,03 0,03 0,05 0,00 0,01 0,01 0,00-0,05 0,99

Wyniki badań zestaw II, dane niemieckie Metoda epsilon Współczynnik β oraz wagi względne nazwa nazwa współczynnik β wagi względne zmiennej zmiennej współczynnik β wagi względne Z1 0,12 0,015 Z10 0,03 0,001 Z2-0,08 0,006 Z12 0,03 0,001 Z3 0,09 0,008 Z13 0,04 0,001 Z4 0,07 0,005 Z14 0,04 0,002 Z5-0,06 0,003 Z15 0,04 0,002 Z6 0,07 0,005 Z16 0,00 0,000 Z7 0,04 0,001 Z19 0,03 0,001 Z8-0,04 0,002 Z20 0,03 0,001 Z9 0,04 0,002 Poziom wpływu zmiennych objaśniających na spłacalność kredytu poziom wpływu poziom wpływu udział zmiennej udział zmiennej nazwa współczynnik zmiennej Z na nazwa współczynnik zmiennej Z na w sumie wag w sumie wag zmiennej korelacji wyjśnienie zmiennej korelacji wyjśnienie względnych względnych zmienności Y zmienności Y Z1 26,7% 0,33 0,27 Z10 1,8% 0,08 0,02 Z2 10,3% - 0,24-0,10 Z12 2,1% 0,14 0,02 Z3 14,5% 0,27 0,15 Z13 2,5% 0,11 0,03 Z4 8,6% 0,17 0,09 Z14 2,8% 0,12 0,03 Z5 6,2% - 0,17-0,06 Z15 2,8% 0,13 0,03 Z6 8,4% 0,19 0,08 Z16 0,5% 0,05 0,01 Z7 2,5% 0,12 0,02 Z19 2,2% 0,06 0,02 Z8 3,3% - 0,07-0,03 Z20 2,1% 0,09 0,02 Z9 2,8% 0,10 0,03 Tablica trafności dla próby podstawowej Obserwowane Przewidywane Y=1 Y=0 suma Procent poprawnych Y=1 498 64 562 88,6% Y=0 113 125 238 52,5% suma 611 189 800 77,9% Tablica trafności dla próby odłożonej Przewidywane Y=1 Y=0 suma Obserwowane Procent poprawnych Y=1 121 17 138 87,7% Y=0 30 32 62 51,6% suma 151 49 200 76,5%

Podsumowanie wyników badań Porównanie trafności klasyfikacji analizowanych metod dla prób podstawowych oraz odłożonych dane niemieckich i brazylijskich kredytobiorców numer zestawu zmiennych rodzaj danych analiza dyskryminacyjna regresja logistyczna epsilon analiza głównych skladowych + regresja wieloraka dane niemieckie I zestaw II zestaw III zestaw I zestaw II zestaw III zestaw próba podstawowa 77,3% 74,8% 72,9% 78,6% prognoza 76,0% 74,5% 72,5% 70,5% próba podstawowa 77,8% 77,4% 77,9% 78,1% prognoza 74,5% 74,0% 76,5% 72,0% próba podstawowa 79,3% 79,0% 72,4% 79,3% prognoza 74,0% 75,0% 71,0% 57,5% dane brazylijskie próba podstawowa 55,9% 55,8% 54,1% 55,8% prognoza 56,2% 56,2% 53,5% 47,8% próba podstawowa 58,0% 58,0% 57,6% 56,5% prognoza 58,2% 57,9% 57,7% 46,2% próba podstawowa 58,6% 58,5% 53,3% 55,6% prognoza 58,2% 57,5% 53,0% 48,2%

Podsumowanie wyników badań Macierz korelacji II zestawu zmiennych - dane niemieckich kredytobiorców X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X12 X13 X14 X15 X16 X19 X20 X1 1,00-0,09 0,21 0,10-0,06 0,21 0,12-0,02 0,03-0,07 0,07 0,08 0,06 0,09 0,07 0,07-0,02 X2-0,09 1,00-0,14 0,05 0,65 0,00 0,05 0,05 0,08-0,05-0,31-0,03-0,08-0,09-0,01 0,15-0,14 X3 0,21-0,14 1,00 0,04-0,12 0,04 0,11 0,07 0,06 0,00 0,10 0,11 0,19 0,10 0,33 0,02 0,04 X4 0,10 0,05 0,04 1,00 0,03 0,06 0,05 0,02 0,08 0,05 0,02-0,04 0,06 0,01-0,03 0,03-0,09 X5-0,06 0,65-0,12 0,03 1,00 0,00 0,01-0,29 0,06-0,11-0,32 0,02-0,05-0,11 0,03 0,25-0,04 X6 0,21 0,00 0,04 0,06 0,00 1,00 0,09 0,01-0,01-0,05-0,02 0,09 0,01-0,02-0,05 0,09 0,02 X7 0,12 0,05 0,11 0,05 0,01 0,09 1,00 0,09 0,20 0,06-0,05 0,21 0,00 0,03 0,13 0,06-0,01 X8-0,02 0,05 0,07 0,02-0,29 0,01 0,09 1,00 0,12-0,01-0,05 0,05-0,04 0,05 0,03 0,04-0,10 X9 0,03 0,08 0,06 0,08 0,06-0,01 0,20 0,12 1,00 0,02-0,08 0,09-0,06 0,09 0,11 0,05 0,05 X10-0,07-0,05 0,00 0,05-0,11-0,05 0,06-0,01 0,02 1,00 0,15 0,01-0,02 0,08-0,01-0,03 0,05 X12 0,07-0,31 0,10 0,02-0,32-0,02-0,05-0,05-0,08 0,15 1,00-0,08 0,12 0,39 0,01-0,22 0,12 X13 0,08-0,03 0,11-0,04 0,02 0,09 0,21 0,05 0,09 0,01-0,08 1,00-0,03-0,02 0,14 0,14-0,01 X14 0,06-0,08 0,19 0,06-0,05 0,01 0,00-0,04-0,06-0,02 0,12-0,03 1,00-0,01-0,04-0,04 0,03 X15 0,09-0,09 0,10 0,01-0,11-0,02 0,03 0,05 0,09 0,08 0,39-0,02-0,01 1,00 0,04-0,04 0,03 X16 0,07-0,01 0,33-0,03 0,03-0,05 0,13 0,03 0,11-0,01 0,01 0,14-0,04 0,04 1,00 0,07 0,00 X19 0,07 0,15 0,02 0,03 0,25 0,09 0,06 0,04 0,05-0,03-0,22 0,14-0,04-0,04 0,07 1,00-0,10 X20-0,02-0,14 0,04-0,09-0,04 0,02-0,01-0,10 0,05 0,05 0,12-0,01 0,03 0,03 0,00-0,10 1,00 Macierz korelacji II zestawu zmiennych - dane brazylijskich kredytobiorców X1 X2 X3 X4 X5 X7 X8 X9 X13 X15 X17 X18 X19 X23 X1 1,00 0,00-0,07 0,08-0,02-0,06 0,02 0,03 0,03 0,04 0,04 0,01 0,17-0,02 X2 0,00 1,00-0,01-0,01 0,01 0,00-0,02-0,02-0,01-0,01-0,05 0,00-0,03 0,01 X3-0,07-0,01 1,00-0,01-0,05-0,03 0,02 0,03 0,00-0,01 0,11-0,01 0,00-0,01 X4 0,08-0,01-0,01 1,00 0,07-0,15 0,02 0,06 0,04 0,04 0,14 0,01 0,34-0,03 X5-0,02 0,01-0,05 0,07 1,00 0,02 0,00-0,04 0,04 0,03-0,07 0,01-0,03 0,01 X7-0,06 0,00-0,03-0,15 0,02 1,00-0,01-0,04 0,03 0,02-0,01-0,01-0,27-0,02 X8 0,02-0,02 0,02 0,02 0,00-0,01 1,00 0,19 0,00-0,01 0,05 0,00 0,06 0,00 X9 0,03-0,02 0,03 0,06-0,04-0,04 0,19 1,00-0,04-0,04 0,07 0,02 0,19-0,08 X13 0,03-0,01 0,00 0,04 0,04 0,03 0,00-0,04 1,00 0,86-0,03-0,01 0,04-0,64 X15 0,04-0,01-0,01 0,04 0,03 0,02-0,01-0,04 0,86 1,00-0,02 0,00 0,03-0,66 X17 0,04-0,05 0,11 0,14-0,07-0,01 0,05 0,07-0,03-0,02 1,00-0,01 0,28-0,03 X18 0,01 0,00-0,01 0,01 0,01-0,01 0,00 0,02-0,01 0,00-0,01 1,00 0,01 0,01 X19 0,17-0,03 0,00 0,34-0,03-0,27 0,06 0,19 0,04 0,03 0,28 0,01 1,00-0,02 X23-0,02 0,01-0,01-0,03 0,01-0,02 0,00-0,08-0,64-0,66-0,03 0,01-0,02 1,00

Wnioski z badań Wnioski Żadna z analizowanych metod nie stanowi uniwersalnego podejścia, które każdorazowo, dla dowolnego zbioru cech kredytobiorcy gwarantowałoby najwyższą poprawną trafność klasyfikacji; Uniezależnienie się od zjawiska korelacji zmiennych za pomocą metody epsilon i analizy głównych składowych zwiększa trafność oceny kondycji kredytobiorcy; Zastosowanie tradycyjnych metod oceny kondycji kredytobiorcy, takich jak analiza dyskryminacyjna czy regresja logistyczna może być niewystarczające do oceny kondycji kredytobiorcy w kontekście najwyższej trafności klasyfikacji, gdy zmienne charakteryzują się silną korelacją;

Wnioski z badań cd. Wnioski Metoda epsilon charakteryzuje się najwyższą trafnością klasyfikacji przypadków należących do próby odłożonej w porównaniu do analizy dyskryminacyjnej, regresji logistycznej oraz analizy głównych składowych połączonej z liniową regresją wieloraką pod warunkiem zastosowania metody do danych charakteryzujących się umiarkowaną bądź silną korelacją wyrażonych na skali porządkowej bądź przedziałowej; Metoda epsilon oparta o estymację metodą najmniejszych kwadratów generuje gorsze wyniki gdy zmienne przedstawione są w postaci binarnej w porównaniu z cechami wyrażonymi na skali porządkowej bądź przedziałowej.

Polecana literatura Johnson J. W. (2000), A Heuristic Method for Estimating the Relative Weight of Predictor for Variables in Multiple Regression, Multivariate Behavioral Research, vol 35(1), Johnson J. W., Lebreton J. M. (2004), History and Use of Relative Importance Indices in Organizational Research, Organizational Research Methods, Vol. 7 No. 3, July 2004, Nehrebecka N., Grudkowska S.(2009), Wykorzystanie metody epsilon do badania wpływu czynników determinujących opinie konsumentów, Wiadomości Statystyczne nr. 5/2009 Słaby T., Młodak A. (2010), Jedna czy kilka metod analizy statystycznej - studia metodologiczne. Studia i Prace Kolegium Zarządzania i Finansów SGH, Zeszyt Naukowy 102, Warszawa.

Dziękuję za uwagę