Metody scoringowe w regresji logistycznej Andrzej Surma Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego 19 listopada 2009 AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 1 / 21
Plan prezentacji 1 O klasyfikacji - Przypomnienie 2 Wprowadzenie do metody scoringowej 3 Wstępna analiza danych 4 Budowa modelu scoringowego 5 Ocena modelu 6 Implementacja w R 7 Bibliografia AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 2 / 21
Przypomnienie Reguła decyzyjna Reguła decyzyjna (reguła dyskryminacyjna lub klasyfikacyjna) d(x) : X G Zadanie klasyfikacji = zadanie predykcji Reguła klasyfikacyjna = klasyfikator Regresja logistyczna - przypadek dwóch klas y i {0, 1} niezależne y i ma rozkład bin(1, p(x i )) L(β) = n p(x i ) y i (1 p(x i )) 1 y i = i=1 n i=1 e y i x T i β 1 + e xt i β AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 3 / 21
Przypomnienie Przypadek K klas y i {1,..., K} niezależne o rozkładzie p(1 x i ),..., p(k x i ) p(j x i ) = e xt i β j 1+ K 1 m=1 ext i βm L(β 1,..., β K 1 ) = n p(1 x i ) 1(y i =1)... p(k x i ) 1(y i =K) i=1 log(l(β 1,..., β K 1 )) max β1,...,β K 1 Klasyfikator d(x) = argmax 1 j K p(j x) Regresja logistyczna zapewnia pozostawanie wartości estymatora p(k x) w przedziale [0, 1] AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 4 / 21
Wprowadzenie Podstawowy opis modelu Zbudowanie poprawnego modelu scoringowego wymaga dokładnie przemyślanego zaprojektowania całego przedsięwzięcia. Proces budowy analitycznych modeli jest tylko jednym z etapów tego procesu, w dużym stopniu uzależnionym od jakości i rzetelności zebranych danych. Trafność oceny zdolności kredytowej zależy zatem od tego, co zostało w taki model wbudowane. Wymagania stawiane narzędziom wspierającym procesy decyzyjne minimalizacja ryzyka błędnej decyzji szybkość działania (warunki konkurencji) możliwość uwzględniania różnych informacji jakościowych i ilościowych AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 5 / 21
Wstępna analiza danych wykorzystanie danych historycznych do ustalenia kształtu modelu odpowiedni dobór zmiennych możliwość uogólnienia danych zawartych w modelu zapewnienie wysokiej skuteczności predykcji AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 6 / 21
Ważne kwestie Jakość danych Budowa modelu odbywa się na zbiorze danych treningowych. Pożądane jest, aby dane były rzetelne i precyzyjne. To na ich podstawie później będziemy klasyfikować kredytobiorców do odpowiednich klas. Dane stanowią punkt wyjścia. Określenie charakteru oraz dekompozycja danych odpowiednia ilość obserwacji w celu zwiększenia własności predykcyjnych modelu względnie równy dobór obserwacji z różnych grup ryzyka poprawność i jednorodność danych sposób traktowania obserwacji brakujących i odstających AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 7 / 21
Ważne kwestie Metody przekształcania Normalizacja (przedział (0, 1)) Dyskretyzacja Segmentacja Stosowane techniki Statystyczno-matematyczne regresja liniowa regresja logistyczna analiza dyskryminacyjna drzewa decyzyjne Niestatystyczne programowanie (liniowe i całkowitoliczbowe) sieci neuronowe systemy eksperckie AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 8 / 21
Czynniki wpływające na stosowane techniki jakość dostępnych danych (w danych ze znaczną liczbą braków sugerowane są drzewa decyzyjne) typ zmiennej wyjaśnianej (ciągły, binarny, wielomianowy) rozmiar dostępnych prób możliwości implementacyjne interpretowalność wyników (sugerowana regresja logistyczna) AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 9 / 21
Credit scoring Ocena zdolności kredytowej łatwa dostępność informacji sprawne przetwarzanie informacji łatwa interpretowalność możliwość ustalenia jednoznacznej decyzji wyznaczenie na podstawie charakterystyk kredytobiorcy punktowej oceny służącej później do zaklasyfikowania kredytobiorcy do grupy o określonym poziomie ryzyka prognoza dla jakościowej zmiennej o rozkładzie dwumianowym z dwiema kategoriami przyznajemy kredyt (niewielkie ryzyko) nie przyznajemy kredytu AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 10 / 21
Dyskretyzacja zmiennych Metoda WOE pozwala ocenić dobroć podziału i siłę predykcyjną każdego z atrybutów badanej cechy, natomiast IV bada siłę predykcyjną całej zmiennej. W modelu staramy się uwzględnić zmienne o wysokim współczynniku IV, pamiętając jednocześnie o tym, aby ten współczynnik nie był zbyt wysoki, bo taka zmienna może zdominować model i niesie ryzyko spadku stabilności modelu. Wykres WOE powinien układać się w logiczny trend. Kategoryzacja powinna dać wystarczajęce udziały procentowe dla każdego przedziału. AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 11 / 21
WOE i IV Weight of evidence WOE jest miarą różnicy pomiędzy proporcją dobrych i złych klientów w każdym atrybucie. Dla j-tego atrybutu mamy woe j = ln( distr jgood distr j bad ) 100 Information Value Dla całej zmiennej (składającej się z kilku atrybutów) definiujemy Information Value k IV = [(distr j good distr j bad) ln( distr jgood distr j=1 j bad )] AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 12 / 21
Score Scoring można określić jako system automatycznej i obiektywnej oceny obiektu, wprowadzony w rezultacie doświadczenia, uzasadniony przykładami i statystykami. Ocena punktowa opiera się nie tylko na zmiennych dotyczących klienta bezpośrednio, ale również takich, które dotyczą jego otoczenia. Wygodnie jest przyjąć przedział punktowy od 0 do 100. Można wówczas nadać mu interpretację procentową. Scoring wychodzi z założenia, że przyszłość jest odzwierciedleniem przeszłości. Score = Offset + Factor ln(odds) W celu znalezienia wszystkich stałych we wzorze definiujemy pdo (points to double the odds) Score + pdo = Offset + Factor ln(2 odds) AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 13 / 21
Wartość cut off Punkt odcięcia - wartość reprezentująca próg ryzyka. Powinien być ustalony tak, aby: zminimalizować udział bads zapewnić pożądany poziom akceptowalności wniosków maksymalizować zyski AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 14 / 21
Ocena modelu scoringowego IV Statystyka Kołmogorowa-Smirnova (K-S) Wskaźnik Giniego Krzywa ROC Wykres odds ratio - wyraża stosunek ilości dobrych klientów do złych klientów Wskaźnik bad rate - oznacza stosunek ilości złych klientów do ilości wszystkich klientów Badanie stabilności modelu - postępowanie przyszłościowe AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 15 / 21
Zalety i wady scoringu Zalety scoringu Prostota stosowania Szerokie zastosowanie Ograniczenie kosztów analizy Skrócenie czasu weryfikacji Automatyzacja i obektywizm oceny Możliwość wtórnego wykorzystania danych Jednolitość procesu oceny Zmniejszenie liczby złych decyzji (kontrola i przewidywanie) Zwiększenie wydajności pracy AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 16 / 21
Wady scoringu Szybka dezaktualizacja systemu Mała elastyczność Kosztowne wdrażanie Błędy w danych Brak analizy jakościowej Dyskryminacja niektórych grup społecznych Problem z doborem kryteriów ocen Zbytnia ogólnikowość Ograniczenia ze strony prawa Problemy ze spełnieniem założeń funkcji statystycznych AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 17 / 21
Zastosowanie metody scoringowej scoring bankowy scoring ubezpieczeniowy scoring marketingowy zastosowanie w medycynie kwestia podatkowa zastosowanie w przemyśle okrętowym (ryzyko bezpieczeństwa ludzi i środowiska naturalnego) AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 18 / 21
Implementacja w R Składnia glm(formula,family,data,weights,subset,na.action,method,...) summary() step() predict() AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 19 / 21
Obiekt klasy glm $coefficient - oceny współczynników $fitted.values - oceny prawdopodobieństw p $linear.predictors - wartości dopasowane równe ln p 1 p $family - funkcja wiążąca $aic - wartość kryterium Akaike AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 20 / 21
Bibliografia 1 Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring N.Siddiqi 2 Scoring kredytowy a modele data mining G.Migut, J.Wątroba 3 Budowa modelu scoringowego do e-pożyczki z wykorzystaniem narzędzi Statistica K.Karnowska, K.Cioch 4 Podstawy statystyczne i uniwersalna funkcjonalność scoringu L.Boguszewski, B.Gelińska AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 21 / 21