Metody scoringowe w regresji logistycznej



Podobne dokumenty
Scoring kredytowy w pigułce

BUDOWA MODELU SCORINGOWEGO DO E-POŻYCZKI Z WYKORZYSTANIEM NARZĘDZI STATISTICA

Wykorzystanie i monitorowanie scoringu

Wskaźnik kondycji finansowej kredytobiorcy. Aspekty metodologiczne.

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

StatSoft profesjonalny partner w zakresie analizy danych

SKORING JAKO NARZĘDZIE WSPIERAJĄCE SPÓŁDZIELCZE KASY OSZCZĘDNOŚCIOWO-KREDYTOWE W SPEŁNIENIU NOWYCH WYMAGAŃ NADZORCZYCH

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy)

SKORING KREDYTOWY A MODELE DATA MINING

PRAKTYCZNY SKORING - NIE TYLKO KREDYTOWY

Wojciech Skwirz

Scoring kredytowy a modele data mining

Quick Launch Manual:

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

ALGORYTM RANDOM FOREST

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Uogólniony model liniowy

Indukowane Reguły Decyzyjne I. Wykład 8

OCENA MODELI SCORINGOWYCH W SKOK STEFCZYKA

Konstrukcja miernika szans na bankructwo firmy

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Widzenie komputerowe (computer vision)

Analiza danych ilościowych i jakościowych

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

OPIS PRZEDMIOTU ZAMÓWIENIA. Część nr 8 OPROGRAMOWANIE DO ANALIZ MARKETINGOWYCH (pom. nr 1.21)

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Metody selekcji cech

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Szkolenie Regresja liniowa

Statystyka i Analiza Danych

Analiza danych. TEMATYKA PRZEDMIOTU

Drzewa Decyzyjne, cz.2

Odzyskać pożyczone. Przyjrzyjmy się praktycznym aspektom modelowania ryzyka kredytowego. Grzegorz Migut StatSoft Polska sp. z o.o., Dział Konsultingu

Jak długo żyją spółki na polskiej giełdzie? Zastosowanie statystycznej analizy przeżycia do modelowania upadłości przedsiębiorstw

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Statystyka matematyczna i ekonometria

Projekt współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego. II seminarium konsultacyjne.

Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV

Mail: Pokój 214, II piętro

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

L.p Nazwa przedmiotu Kod przedmiotu Osoba(y) prowadząca(e) WDP PDP WIR DAW BDZ

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

ALGORYTMY SZTUCZNEJ INTELIGENCJI

PRZYKŁAD WYKORZYSTANIA MODELI SKORINGOWYCH W MEDYCYNIE

Metodyczne aspekty zastosowania modeli skoringowych do oceny zdolności kredytowej z wykorzystaniem metod ilościowych

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Wprowadzenie do analizy korelacji i regresji

ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak

Odczarowujemy modele predykcyjne Teoria i Praktyka

Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości EUR

Algorytmy klasyfikacji

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Metody systemowe i decyzyjne w informatyce

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Elementarne metody statystyczne 9

KARTA PRZEDMIOTU. 12. PRZEDMIOTOWE EFEKTY KSZTAŁCENIA Odniesienie do kierunkowych efektów kształcenia (symbol)

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Z-LOGN1-006 Statystyka Statistics

Data Mining Wykład 4. Plan wykładu

Projekt Sieci neuronowe

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

Regresja i Korelacja

UNIWERSALNOŚĆ ZASTOSOWAŃ MODELI SKORINGOWYCH

Własności statystyczne regresji liniowej. Wykład 4

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

WYKORZYSTANIE SKORINGU DO PRZEWIDYWANIA WYŁUDZEŃ KREDYTÓW W INVEST-BANKU

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun

ASM ASM ASM 605: Finansowanie i wycena nieruchomości jako inwestycji cz. 1-3

WSKAŹNIK KONDYCJI FINANSOWEJ KREDYTOBIORCY. ASPEKTY METODOLOGICZNE

MODELE LINIOWE. Dr Wioleta Drobik

Optymalizacja ciągła

Studia podyplomowe w zakresie przetwarzanie, zarządzania i statystycznej analizy danych

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Karta (sylabus) modułu/przedmiotu Inżynieria Materiałowa Studia II stopnia Specjalność: Inżynieria Powierzchni

Modele selekcji próby

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Aproksymacja funkcji a regresja symboliczna

Agnieszka Nowak Brzezińska Wykład III

Analiza regresji - weryfikacja założeń

Analiza przeżycia. Czym zajmuje się analiza przeżycia?

Regresja linearyzowalna

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Optymalizacja Automatycznych Testów Regresywnych

Stanisław Cichocki. Natalia Nehrebecka

Zarządzanie ryzykiem. Opracował: Dr inŝ. Tomasz Zieliński

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

ZARZĄDZANIE MARKĄ. Doradztwo i outsourcing

MODELE SKORINGOWE W BIZNESIE I NAUCE

SLAJDY WYBRANE I ZMODYFIKOWANE POD KĄTEM PREZENTACJI W INTERNECIE

Zagadnienie 1: Prognozowanie za pomocą modeli liniowych i kwadratowych przy wykorzystaniu Analizy regresji wielorakiej w programie STATISTICA

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

Transkrypt:

Metody scoringowe w regresji logistycznej Andrzej Surma Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego 19 listopada 2009 AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 1 / 21

Plan prezentacji 1 O klasyfikacji - Przypomnienie 2 Wprowadzenie do metody scoringowej 3 Wstępna analiza danych 4 Budowa modelu scoringowego 5 Ocena modelu 6 Implementacja w R 7 Bibliografia AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 2 / 21

Przypomnienie Reguła decyzyjna Reguła decyzyjna (reguła dyskryminacyjna lub klasyfikacyjna) d(x) : X G Zadanie klasyfikacji = zadanie predykcji Reguła klasyfikacyjna = klasyfikator Regresja logistyczna - przypadek dwóch klas y i {0, 1} niezależne y i ma rozkład bin(1, p(x i )) L(β) = n p(x i ) y i (1 p(x i )) 1 y i = i=1 n i=1 e y i x T i β 1 + e xt i β AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 3 / 21

Przypomnienie Przypadek K klas y i {1,..., K} niezależne o rozkładzie p(1 x i ),..., p(k x i ) p(j x i ) = e xt i β j 1+ K 1 m=1 ext i βm L(β 1,..., β K 1 ) = n p(1 x i ) 1(y i =1)... p(k x i ) 1(y i =K) i=1 log(l(β 1,..., β K 1 )) max β1,...,β K 1 Klasyfikator d(x) = argmax 1 j K p(j x) Regresja logistyczna zapewnia pozostawanie wartości estymatora p(k x) w przedziale [0, 1] AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 4 / 21

Wprowadzenie Podstawowy opis modelu Zbudowanie poprawnego modelu scoringowego wymaga dokładnie przemyślanego zaprojektowania całego przedsięwzięcia. Proces budowy analitycznych modeli jest tylko jednym z etapów tego procesu, w dużym stopniu uzależnionym od jakości i rzetelności zebranych danych. Trafność oceny zdolności kredytowej zależy zatem od tego, co zostało w taki model wbudowane. Wymagania stawiane narzędziom wspierającym procesy decyzyjne minimalizacja ryzyka błędnej decyzji szybkość działania (warunki konkurencji) możliwość uwzględniania różnych informacji jakościowych i ilościowych AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 5 / 21

Wstępna analiza danych wykorzystanie danych historycznych do ustalenia kształtu modelu odpowiedni dobór zmiennych możliwość uogólnienia danych zawartych w modelu zapewnienie wysokiej skuteczności predykcji AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 6 / 21

Ważne kwestie Jakość danych Budowa modelu odbywa się na zbiorze danych treningowych. Pożądane jest, aby dane były rzetelne i precyzyjne. To na ich podstawie później będziemy klasyfikować kredytobiorców do odpowiednich klas. Dane stanowią punkt wyjścia. Określenie charakteru oraz dekompozycja danych odpowiednia ilość obserwacji w celu zwiększenia własności predykcyjnych modelu względnie równy dobór obserwacji z różnych grup ryzyka poprawność i jednorodność danych sposób traktowania obserwacji brakujących i odstających AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 7 / 21

Ważne kwestie Metody przekształcania Normalizacja (przedział (0, 1)) Dyskretyzacja Segmentacja Stosowane techniki Statystyczno-matematyczne regresja liniowa regresja logistyczna analiza dyskryminacyjna drzewa decyzyjne Niestatystyczne programowanie (liniowe i całkowitoliczbowe) sieci neuronowe systemy eksperckie AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 8 / 21

Czynniki wpływające na stosowane techniki jakość dostępnych danych (w danych ze znaczną liczbą braków sugerowane są drzewa decyzyjne) typ zmiennej wyjaśnianej (ciągły, binarny, wielomianowy) rozmiar dostępnych prób możliwości implementacyjne interpretowalność wyników (sugerowana regresja logistyczna) AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 9 / 21

Credit scoring Ocena zdolności kredytowej łatwa dostępność informacji sprawne przetwarzanie informacji łatwa interpretowalność możliwość ustalenia jednoznacznej decyzji wyznaczenie na podstawie charakterystyk kredytobiorcy punktowej oceny służącej później do zaklasyfikowania kredytobiorcy do grupy o określonym poziomie ryzyka prognoza dla jakościowej zmiennej o rozkładzie dwumianowym z dwiema kategoriami przyznajemy kredyt (niewielkie ryzyko) nie przyznajemy kredytu AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 10 / 21

Dyskretyzacja zmiennych Metoda WOE pozwala ocenić dobroć podziału i siłę predykcyjną każdego z atrybutów badanej cechy, natomiast IV bada siłę predykcyjną całej zmiennej. W modelu staramy się uwzględnić zmienne o wysokim współczynniku IV, pamiętając jednocześnie o tym, aby ten współczynnik nie był zbyt wysoki, bo taka zmienna może zdominować model i niesie ryzyko spadku stabilności modelu. Wykres WOE powinien układać się w logiczny trend. Kategoryzacja powinna dać wystarczajęce udziały procentowe dla każdego przedziału. AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 11 / 21

WOE i IV Weight of evidence WOE jest miarą różnicy pomiędzy proporcją dobrych i złych klientów w każdym atrybucie. Dla j-tego atrybutu mamy woe j = ln( distr jgood distr j bad ) 100 Information Value Dla całej zmiennej (składającej się z kilku atrybutów) definiujemy Information Value k IV = [(distr j good distr j bad) ln( distr jgood distr j=1 j bad )] AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 12 / 21

Score Scoring można określić jako system automatycznej i obiektywnej oceny obiektu, wprowadzony w rezultacie doświadczenia, uzasadniony przykładami i statystykami. Ocena punktowa opiera się nie tylko na zmiennych dotyczących klienta bezpośrednio, ale również takich, które dotyczą jego otoczenia. Wygodnie jest przyjąć przedział punktowy od 0 do 100. Można wówczas nadać mu interpretację procentową. Scoring wychodzi z założenia, że przyszłość jest odzwierciedleniem przeszłości. Score = Offset + Factor ln(odds) W celu znalezienia wszystkich stałych we wzorze definiujemy pdo (points to double the odds) Score + pdo = Offset + Factor ln(2 odds) AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 13 / 21

Wartość cut off Punkt odcięcia - wartość reprezentująca próg ryzyka. Powinien być ustalony tak, aby: zminimalizować udział bads zapewnić pożądany poziom akceptowalności wniosków maksymalizować zyski AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 14 / 21

Ocena modelu scoringowego IV Statystyka Kołmogorowa-Smirnova (K-S) Wskaźnik Giniego Krzywa ROC Wykres odds ratio - wyraża stosunek ilości dobrych klientów do złych klientów Wskaźnik bad rate - oznacza stosunek ilości złych klientów do ilości wszystkich klientów Badanie stabilności modelu - postępowanie przyszłościowe AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 15 / 21

Zalety i wady scoringu Zalety scoringu Prostota stosowania Szerokie zastosowanie Ograniczenie kosztów analizy Skrócenie czasu weryfikacji Automatyzacja i obektywizm oceny Możliwość wtórnego wykorzystania danych Jednolitość procesu oceny Zmniejszenie liczby złych decyzji (kontrola i przewidywanie) Zwiększenie wydajności pracy AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 16 / 21

Wady scoringu Szybka dezaktualizacja systemu Mała elastyczność Kosztowne wdrażanie Błędy w danych Brak analizy jakościowej Dyskryminacja niektórych grup społecznych Problem z doborem kryteriów ocen Zbytnia ogólnikowość Ograniczenia ze strony prawa Problemy ze spełnieniem założeń funkcji statystycznych AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 17 / 21

Zastosowanie metody scoringowej scoring bankowy scoring ubezpieczeniowy scoring marketingowy zastosowanie w medycynie kwestia podatkowa zastosowanie w przemyśle okrętowym (ryzyko bezpieczeństwa ludzi i środowiska naturalnego) AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 18 / 21

Implementacja w R Składnia glm(formula,family,data,weights,subset,na.action,method,...) summary() step() predict() AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 19 / 21

Obiekt klasy glm $coefficient - oceny współczynników $fitted.values - oceny prawdopodobieństw p $linear.predictors - wartości dopasowane równe ln p 1 p $family - funkcja wiążąca $aic - wartość kryterium Akaike AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 20 / 21

Bibliografia 1 Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring N.Siddiqi 2 Scoring kredytowy a modele data mining G.Migut, J.Wątroba 3 Budowa modelu scoringowego do e-pożyczki z wykorzystaniem narzędzi Statistica K.Karnowska, K.Cioch 4 Podstawy statystyczne i uniwersalna funkcjonalność scoringu L.Boguszewski, B.Gelińska AS (MIMUW) Metody scoringowe w regresji logistycznej 19 listopada 2009 21 / 21