Univerzita Karlova v Praze Matematicko-fyzikální fakulta

Transkrypt

1 Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE Lenka Škovroňová Modely bonity dlužníků na základě monitorování jejich chování Katedra pravděpodobnosti a matematické statistiky Vedoucí diplomové práce: Mgr. Gabriel Marosi Studijní program: Matematika, finanční a pojistná matematika

2 Děkuji Mgr. Gabrielu Marosimu z České Spořitelny za zapůjčení literatury a vedení této práce, Dr. Mgr. Petru Veselému a RNDr. Stanislavu Keprtovi, Ph.D. z Raiffeisen Bank za povolení použít reálná data, Lubomíru Brůhovi z Raiffeisen Bank za vyřízení přístupu do datového skladu banky, Mgr. Janě Mannheimové z Raiffeisen Bank za vyřízení licence software SAS na můj počítač na pracovišti, Mgr. Jekaterině Fehér z Raiffeisen Bank za zapůjčení literatury a Mgr. Petru Škovroňovi za technickou podporu při práci s TEXem. Prohlašuji, že jsem svou diplomovou práci napsala samostatně a výhradně s použitím citovaných pramenů. Souhlasím se zapůjčováním práce. V Praze dne 6. srpna 2007 Lenka Škovroňová 2

3 Obsah 1 Úvod Úvěrový proces a úvěrové riziko Klienti Modelování úvěrového rizika Souvislosti Historický přehled používaných modelů Matematické modely použité v této práci Model logistické regrese Model náhodné procházky Model KMV, z něhož se vychází Úprava modelu pro predikci selhání drobné klientely Numerické výpočty Data Výkonnost modelů, statistiky významnosti, testy Ukazatele výkonnosti Testy použité v modelu logistické regrese Testy použité v modelu náhodné procházky Vývoj regresního modelu Reprezentace charakteristik Logistická regrese v praxi Postup vývoje a výsledky modelu Testování na prediktivní horizont Konečný výběr modelu Vývoj modelu náhodné procházky Odhady parametrů Test rozdělení dat Pravděpodobnosti selhání a výkonnost modelu Závěr 55 6 Příloha 56 3

4 Název práce: Modely bonity dlužníků na základě monitorování jejich chování Autor: Lenka Škovroňová Katedra (ústav): Katedra pravděpodobnosti a matematické statistiky Vedoucí diplomové práce: Mgr. Gabriel Marosi, Česká spořitelna, a. s. e mail vedoucího: gmarosi@csas.cz Abstrakt: Text této diplomové práce je rozdělen do pěti hlavních částí. V úvodu se práce zabývá úvěrovým rizikem a úvěrovým procesem, popisuje rovněž různé klienty bank. Je zdůrazněn vývoj úvěrů podle sektorů klientů. V druhé části je uveden přehled matematických modelů používaných v praxi pro posuzování bonity klientů. V další části lze nalézt podrobnější popis teoretických základů pro model logistické regrese a pro nově vyvíjený model náhodné procházky vycházející z komerčního modelu KMV. Zmíněno je přizpůsobení modelu náhodné procházky pro predikci selhání drobné klientely na kontokorentních účtech. Čtvrtá část začíná popisem použitých dat. Dále se zaměřuje na numerické zpracování dat pomocí obou zmíněných modelů, přitom výsledky modelu logistické regrese jsou využity pro posouzení výkonnosti vyvíjeného modelu náhodné procházky. Závěr práce je věnován nastínění dalšího možného vylepšení nového modelu. Klíčová slova: behaviorální skoring, náhodná procházka, kontokorent, drobná klientela Title: Creditworthiness Models Based on Monitoring of Debtor s Behaviour Author: Lenka Škovroňová Department: Department of Probability and Mathematical Statistics Supervisor: Mgr. Gabriel Marosi, Česká spořitelna, a. s. Supervisor s e mail address: gmarosi@csas.cz Abstract: Text of this thesis is divided into five main parts. In opening part we put mind to credit risk and credit process, describing various bank clients. There are trends in loans development by client sectors underlined. In second part there is a survey of mathematical models which are widely used in real life for client creditworthiness analysis. In next part you can find a detailed description of theory for logistic regression model and for new developed random walk model resulting from commercial KMV model. Suitting of random walk model to predicting default of retail clients on their overdrafts is mentioned. The fourth part begins with description of data used. Then the numeric work for both mentioned models is focused, using results of logistic regression model as performance measure of new random walk model. The conclusion pays to draw out some possible future improvements of new model. Keywords: behavioural scoring, random walk, overdraft, retail clients 4

5 1 Úvod 1.1 Úvěrový proces a úvěrové riziko Úvěrové riziko je riziko, že dlužník nebude schopen nebo ochoten splatit svůj závazek (úvěr, úroky, poplatky) tak, jak bylo ujednáno v úvěrové smlouvě. Tento druh rizika nesouvisí pouze s půjčování peněz jako takových, ale je důležitou součástí většiny finančních transakcí. Netýká se tak pouze bank, ale například i subjektů obchodujících s cennými papíry, kde by rizikovější cenný papír měl nabídnout vyšší výnos, aby přilákal investory. Banka se snaží snížit výši úvěrového rizika pečlivým posouzením bonity žadatele o úvěr a sjednáním vhodného způsobu zajištění úvěru. K posouzení bonity slouží úvěrový skoring, což je systém rozhodovacích modelů, které pomáhají při rozhodování o poskytování úvěrů. Toto rozhodování se týká nejen rozhodnutí, kdo úvěr dostane, ale i jaká výše úvěru mu bude poskytnuta či jaká strategie povede k vyšší ziskovosti věřitele. Skoring pomáhá ohodnotit riziko podstoupené poskytnutím úvěru jednotlivým žadatelům. Věřitel používá skoring jako nástroj k určení bonity (hodnoty) dlužníka odrážející okolnosti týkající se dlužníka i věřitele a pravděpodobných budoucích ekonomických scénářů z pohledu věřitele. To je důvod, proč někteří žadatelé mohou získat úvěr u kterékoli finanční instituce, jiní jen u některých a někteří úvěr nedostanou vůbec. Nabídnutí úvěru klientům označeným věřitelem za neúvěruschopné znamená pro věřitele riziko, které nechce podstoupit. Skoring tedy primárně slouží k určení předpokládané pravděpodobnosti selhání (defaultu) na základě podobnosti chování jednotlivých menších skupin klientů. Úvěrový proces však poskytnutím úvěru či jeho navýšením nekončí. Následuje splácení úvěru ze strany dlužníka a monitoring splácení na straně banky. Pokud klient přestane splácet a dojde tak k jeho selhání, následuje vymáhání dluhu a případně i odprodej pohledávky. I když je nutné přistoupit k vymáhání, lze s klientem dále pracovat a snížit tak ztrátu z tohoto obchodu, případně situaci klienta vyřešit, když jako dlužník po selhání projeví ochotu dluh za jiných podmínek splatit, například po domluvě na novém splátkovém kalendáři. Skoring hraje důležitou roli i tady, nebot lze pomocí něj předpovědět, s jakou pravděpodobností daný klient zareaguje kladně na určitý druh výzvy. Vymáhání tak lze lépe zacílit a dostat zpět více peněz či je získat dříve. Při nabízení nových úvěrů stávajícím klientům se skoring uplatní i v marketingové oblasti. Opět lze předpovědět, s jakou pravděpodobností klient kladně zareaguje na určitý druh nabídky. Tady se zacílení projeví hlavně úsporou nákladů, nebot se pomocí skoringu například určí skupiny klientů, 5

6 kterým je nejlepší nabídnout nový produkt telefonicky či kterým naopak písemně. 1.2 Klienti Klienti banky bývají rozděleni do segmentů, jejichž zástupci vykazují podobné charakteristiky. Z pohledu banky se jedná hlavně o fyzické osoby (drobné klienty), SME (small and medium enterprises malé a střední podnikatele) a korporátní klienty (corporate). Zatímco drobní klienti si půjčují zejména na spotřebu a na bydlení, segment SME a korporátní klienti si půjčují převážně na chod svého podnikání a na rozšiřování výroby. Rozdíly mezi těmito segmenty tvoří samozřejmě hlavně objemy úvěrů, počty klientů v těchto segmentech a struktura dat, která mohou tyto segmenty bance poskytnout. Je zřejmé, že jednotlivé úvěry drobné klientely jsou ve smyslu objemů menší a je jich obecně více než u obou druhů podniků, přitom u SME jsou menší a je jich více než u corporate. Co se struktury dat týče, u fyzických osob poskytovatel úvěru obvykle nechá žadatele vyplnit formulář žádosti a u většiny typů úvěru požaduje potvrzení o příjmech. Získá tak určité finanční a sociálně-demografické informace o žadateli (příjem, zaměstnavatel, věk, vzdělání a další). U podniků banka obvykle kromě posouzení údajů z žádosti například o odvětví podnikání nahlíží do účetnictví, zejména do rozvahy a výsledovky, a počítá z něj různé finanční ukazatele závisející na pohybu aktiv, pasiv, nákladů a výnosů, pomocí nichž pak hodnotí zdraví podniku. Mezi nejdůležitější z nich patří ukazatele rentability, likvidity a zadluženosti. Na obě skupiny podniků se dá nahlížet velmi podobně, přitom platí, že menší úvěry jsou více typizované a nedá se u nich očekávat výrazná změna podmínek na žádost klienta, zatímco podmínky velkých úvěrů jsou předmětem dohody a jednání mezi bankou a klientem. U veřejně obchodovaných podniků lze posuzovat i údaje dostupné na burze cenných papírů. Zcela mimo výše popsané sektory stojí klienti jako stát a státní správa či nebankovní finanční instituce. Podmínky úvěrů pro tyto klienty se domlouvají individuálně. Na mezibankovním trhu samozřejmě obchodují banky i mezi sebou navzájem, dochází k získávání hlavně krátkodobých a střednědobých zdrojů k zajištění likvidity a k ukládání volných zdrojů do jiných bank. Podle České národní banky [1] patří úvěry poskytnuté obyvatelstvu k nejdynamičtěji rostoucím položkám aktiv domácích bank, viz obrázky 1, 2 a 3. Tempo jejich růstu se za uplynulých 5 let zvýšilo o 11,6 procentního bodu na 34% v roce Kompletní údaje za rok 2006 ještě nejsou k dispozici, avšak vše nasvědčuje dalšímu pokračování tohoto trendu. Koncem roku 2005 bylo obyvatelstvo s celkovými závazky vůči bankám ve výši 380 miliard Kč po 6

7 Obrázek 1: Bankovní a nebankovní úvěry obyvatelstvu v mld. Kč Obrázek 2: Úvěry obyvatelstvu meziroční změny v % 7

8 Obrázek 3: Struktura úvěrů podle sektorů jako podíl na celkových úvěrech podnikové sféře druhým nejvýznamnějším dlužníkem bank. Úroky účtované obyvatelstvu se společně s příslušnými poplatky stávají významnou složkou tvorby zisku bank. Ve struktuře úvěrů obyvatelstvu hrají rozhodující roli úvěry na bydlení se 70% v prosinci 2005 (průměr Evropské Unie 70% v roce 2004), spotřebitelské úvěry dosáhly 25%. Z faktorů podporujících růst bankovních úvěrů obyvatelstvu zůstaly v roce 2005 dále ve hře především přetrvávající nízké úrokové sazby, rostoucí příjmy a celkově snazší dosažitelnost úvěrů související nejen s možnostmi poptávky, ale i s nabídkovou stranou. Kromě dalšího růstu objemů klasických hypotečních úvěrů a úvěrů ze stavebního spoření se bankám dařilo i s nabídkou americké hypotéky a úvěrů z kreditních karet. Bankovní půjčky domácnostem v České Republice připadající na jednoho obyvatele dosahují obdobně jako v některých jiných nových členských zemích i přes současný rychlý růst jen zhruba 10% průměru EU. O existenci dalšího prostoru pro růst svědčí rovněž porovnání s HDP. Česká Republika v roce 2004 dosáhla s 12% hloubky zprostředkování na trhu úvěrů domácnostem úrovně srovnatelné s jinými novými středoevropskými členskými zeměmi, evropský průměr činil 57%. Příjmy obyvatel původních členských zemí jsou vyšší, dlužníci z řad obyvatelstva tudíž mají dostatek prostředků splácet několikanásobně vyšší úvěry. I relativně velké úvěry na financování bytových potřeb jsou ve srovnání s ČR dostupnější širšímu okruhu potenciálních zájemců. S růstem příjmu obyvatelstva u nás se dá očekávat rovněž další růst počtu zájemců o bankovní úvěry a postupné přibližování průměrné výše úvěru k úrovni obvyklé v Evropské Unii. 8

9 Je očekáván další nárůst objemů úvěrů a tím i posílení jejich významu jakožto složky aktiv bank. Vzhledem k popsanému potenciálu růstu v oblasti úvěrů obyvatelstvu je tato práce zaměřena na modely predikce úvěrového rizika právě pro tento segment. 9

10 2 Modelování úvěrového rizika 2.1 Souvislosti Věřitel musí dělat rozhodnutí dvojího typu jednak jestli poskytnout úvěr novému žadateli a jednak jak zacházet se stávajicími klienty, včetně toho, zda jim zvýšit úvěrový limit. K rozhodnutí prvního typu se používá aplikační skoring, k rozhodnutí druhého typu behaviorální skoring. Aplikační skoring vychází z dat, která klient bance poskytne při žádosti o úvěrový produkt, a z údajů dostupných například z úvěrových registrů. Může se zde posuzovat i výše a kvalita zajištění, podezřelé chování žadatele či jeho zdravotní stav. Behaviorální skoring se více zaměřuje na to, jaké chování je spojeno s existujícím úvěrovým účtem. Banka posuzuje kreditní a debetní obraty, průměrné zůstatky, počet dnů po splatnosti, částku po splatnosti či přečerpání úvěru ve snaze předvídat další vývoj na účtu klienta. Protože veličiny používané v behaviorálním skoringu jsou obvykle velmi prediktivní a jsou navíc většinou silně korelovány, může se stát, že se portfolio klientů rozdělí jen na několik málo skupin, z nichž do jedné (té nejlepší) se pravděpodobně dostane většina klientů. Banka proto často i do behaviorálního skoringu zahrne nějaká aplikační data. V obou případech, nezávisle na použitém postupu, je zásadním bodem použití historických dat. Předpokládá se, že máme k dispozici údaje o předchozích žadatelích vyplněné v žádosti o úvěr a následné chování na těchto jejich schválených úvěrových účtech. Toto chování by mělo zahrnovat mimo jiné prodlení ve splátkách a dlužné částky tak, aby bylo možné určit, který klient je pro banku dobrý (věřitel z něj má zisk) a který špatný (pro věřitele znamená ztrátu). Všechny postupy využívají tento vzorek dat o žadatelích k identifikaci, které charakteristiky indikují schopnost dlužníka dostát svým závazkům. Nejběžnějším způsobem predikce úvěrového rizika je použití skorkarty, což je model založený na statistickém zpracování dat připisující číslo (tzv. skore) k úvěrovému účtu. Toto skore indikuje předpovídanou pravděpodobnost, že klient se bude chovat určitým způsobem. Mnoho metod vede k takovým skorkartám, ve kterých je jednotlivým charakteristikám klienta přidělen určitý počet bodů. Výsledné skore je pak závislé na součtu bodů za jednotlivé charakteristiky a říká, kdy je pravděpodobnost selhání dlužníka příliš vysoká na to, aby mu věřitel úvěr poskytl. Existují však i postupy, které vedou k odlišnému pojetí skore bez sčítání bodů za jednotlivé charakteristiky a kde je výsledkem přímo to, zda pravděpodobnost, že daný klient je dobrý, je dostatečně velká na to, aby byl klientovi úvěr poskytnut. Přestože tyto 10

11 přístupy nevedou k vyjádření pomocí skorkarty jako takové, blízce souvisí s aplikačním i behaviorálním skoringem. 2.2 Historický přehled používaných modelů Když v polovině dvacátého století úvěrový skoring vznikl, jedinou používanou metodou byla statistická diskriminace. I dnes jsou statistické metody zdaleka nejpoužívanějšími metodami při vývoji skorkaret. Jejich výhodou je, že dovolují použít znalosti vlastností výběrových odhadů a nástrojů intervalů spolehlivosti a testování hypotéz v kontextu úvěrového skoringu. Pomocí toho lze vysvětlit diskriminační sílu vyvinuté skorkarty a vzájemnou významnost různých charakteristik (proměnných) a jejich atributů (hodnoty, kterých charakteristika nabývá). Tyto statistické postupy pak dovolují identifikovat a odstranit nedůležité charakteristiky a zajistit, že ty důležité naopak ve skorkartě zůstanou. Přestože statistické metody byly u zrodu skoringových systémů a dodnes zůstaly nejdůležitějšími metodami pro vývoj, došlo v jejich používání k určitým změnám. První metody byly založeny na diskriminačních metodách navržených Fischerem [2] pro problémy obecné klasifikace. Toto vedlo k lineární skorkartě založené na Fischerově lineární diskriminační funkci. Předpoklady zaručující, že tento přístup povede k nejlepšímu rozlišení potenciálních dobrých a špatných klientů, jsou ale velmi omezující a v praxi většinou neplatí, přestože skorkarty vyvinuté tímto přístupem se ukázaly jako velmi silné. Na Fischerův přístup lze nahlížet jako na formu lineární regrese, proto se nabízelo použít jiné druhy regrese, které mají slabší předpoklady zaručující jejich optimalitu a stále vedou k lineárním skoringovým pravidlům. Zdaleka nejlepší se ukázala být logistická regrese poprvé uvedená do oblasti úvěrového skoringu Wigintonem [3], která byla přijata jako nejběžnější statistická metoda pro vývoj. Mezi modely používající jiné druhy nelineární regrese patří například probitová a tobitová analýza. Dalším přístupem, který si získal během posledních dvaceti let přízeň, jsou klasifikační stromy, metoda rekurzivního rozdělování. Pomocí tohoto přístupu se žadatelé rozdělí do určitých podskupin závisejících na atributech jejich určitých charakteristik a u každé podskupiny se určí, zda žadatelé v ní obsažení jsou vyhovující či nikoliv. Přestože nevýhodou této metody je, že se jednotlivým atributům nepřiřazuje váha jako v případě lineárních skorkaret, ve výsledku dává stejný výstup zda bude žadatel ohodnocen jako vyhovující či příliš rizikový. Viz obrázek 4. Původní myšlenkou ve vývoji skorkaret bylo využití statistické analýzy vzorku dřívějších klientů k rozhodnutí, který stávající či nový klient má do- 11

12 Obrázek 4: Příklad rozhodovacího stromu statečnou šanci být dobrý. Na tento problém se ale dá nahlížet i nestatisticky. Nestatistické přístupy se během posledních 25 let objevily ve všech podobných klasifikačních problémech. Do osmdesátých let byly používány výhradně modely využívající statistiku, pak ale Freed a Glover [4], [5] navrhli řešit problém nalezení lineární funkce charakteristik, které nejlépe rozdělují celek do skupin, pomocí lineárního programování. Přístup založený na lineárním programování měří kvalitu rozdělení součtem absolutních chyb nebo také maximální chybou. Měření kvality rozdělení do skupin pomocí počtu případů, kdy jsme rozdělili nesprávně, vede k modelům celočíselného programování. S rozmachem výpočetní techniky po roce 1970 vyvstala snaha naprogramovat počítače tak, aby vykazovaly lidské schopnosti. Jedním z nejúspěšnějších pokusů byl expertní systém, ve kterém je v počítači uložená databáze informací, na jejichž základě se rozhodují úvěroví experti, a mechanismus hodnocení takových informací. Počítače používají tuto kombinaci k analýze a přicházejí s řešením nových situací srovnatelným s řešením úvěrového experta. Tento typ řešení problému obecné klasifikace našel nejprve široké uplatnění v lékařské diagnostice, poté se rozšířil i do ostatních odvětví a tedy i do úvěrového skoringu, kde ovšem tento přístup zaznamenal pouze malé úspěchy. V osmdesátých letech vstoupil do řešení problému klasifikace další přístup založený na umělé inteligenci neuronové sítě. Tento přístup zůstává v popředí výzkumného zájmu. Neuronové sítě jsou způsob modelování rozhodovacího procesu založené na principu, jakým buňky mozku využívají neurony k ak- 12

13 tivaci jiných buněk, a tedy simulující proces učení. Systém zpracovávacích jednotek je navzájem propojen a každá z nich poskytuje výstupní podnět v momentě, kdy dostane od jiné jednotky vstupní podnět. Přitom některé zpracovávací jednotky umí přijmout i externí podnět. Systému je poskytnuta množina dat, kde data znamenají vstupní podněty a jeden specifický výstupní podnět, a na základě těchto dat se systém snaží naučit reprodukovat vztah mezi vstupními a výstupními podněty. Když jako vstupní podněty použijeme charakteristiky klienta a jako výstup skutečnost, zda jeho úvěrové chování je dobré nebo špatné, je zřejmý způsob použití tohoto modelu v úvěrovém skoringu. Na vývoj skorkarty lze pohlížet také jako na typ kombinatorického optimalizačního problému. Máme skupinu parametrů možné stavy přiřazené k jednotlivým atributům a způsob, jakým měříme kvalitu každé množiny parametrů, například chybu špatného zařazení klientů ve vývojovém vzorku. V posledním desetiletí se objevilo několik přístupů použitelných k řešení takovéhoto typu problému, z nichž nejdůležitější je genetický algoritmus. Všechny výše popsané metody se používají pro aplikační i behaviorální skoring. Pro behaviorální skoring potom existuje řada dalších modelů. Některé mnohdy dávají lepší výsledky, nebot je v nich možné zahrnout určitý trend vývoje. Jedním z nejdůležitějších nástrojů pro modelování chování jsou markovské řetězce. Tímto modelem lze předpovídat více aspektů chování, model je tedy použitelný nejen k předpovídání pravděpodobnosti selhání klienta. Všechny doposud zmíněné metody podrobněji popisují například Thomas, Edelman a Crook [6]. Zvláště pro komerční účely byla vyvinuta celá řada skoringových modelů jak pro predikci pravděpodobnosti defaultu, tak například pro určení výše opravných položek či jiné související výpočty. Tyto modely jsou používány zejména u podnikové klientely a patří mezi ně například CreditMetrics, KMV a CreditRisk+ a jejich popis lze nalézt například na internetových stránkách České národní banky [7]. Model CreditMetrics patří do kategorie mark-to-market mode, úvěrové riziko je tedy spojeno jak se snížením ratingového ohodnocení, tak se selháním dlužníků. Rating a přechody do jiných ratingových stupňů (tzv. ratingová migrace) představují základ pro celou analýzu uvěrového rizika. CreditRisk+ patří k modelům typu default mode. Předpokládá se tedy, že každý dlužník se může na konci rizikového horizontu nacházet pouze ve dvou stavech selhání nebo neselhání. Model CreditRisk+ je vhodný pro výpočet úvěrového rizika pro portfolia obsahující velký počet dlužníků, z nichž každý je charakterizován nízkou pravděpodobností selhání. Na rozdíl od ostatních modelů není v tomto modelu pravděpodobnost selhání dlužníka spojena ani s kapitálovou strukturou, ani není odhadována na základě historických dat. 13

14 Model se nezabývá důvody selhání, jenom předpokládá, že každá banka má představu o pravděpodobnostech selhání jednotlivých dlužníků. Model CreditRisk+ odhaduje rozdělení ztrát během určitého časového horizontu a ekonomický kapitál pomocí hodnoty v riziku (Value at Risk). Model KMV patří stejně jako CreditRisk+ do kategorie modelů defaultmode. Pravděpodobnost selhání je zde endogenní veličina spojená se strukturou aktiv a pasiv firmy dlužníka. Na rozdíl od ostatních modelů KMV model neodhaduje ekonomický kapitál pomocí hodnoty v riziku, ale na základě analytického přístupu. Poskytuje tabelované hodnoty ztráty portfolia pro různé intervaly spolehlivosti. Základním pojmem modelu KMV je očekávaná četnost selhání (Expected Default Frequency, EDF), která představuje pravděpodobnosti selhání pro jednotlivé dlužníky. 14

15 3 Matematické modely použité v této práci 3.1 Model logistické regrese Model logistické regrese je v praxi nejpoužívanějším modelem pro vývoj skorkaret, at už aplikačních či behaviorálních. V této práci slouží model logistické regrese zejména k posouzení výkonnosti nového modelu náhodné procházky, který vychází z komerčního modelu KMV používaného pro skoring podnikatelů. V lineární regresi se snažíme najít nejlepší lineární kombinaci charakteristik udávající bonitu klienta w 0 + w 1 x 1 + w 2 x w p x p = w T x, kde w = (w 0, w 1,..., w p ) T jsou regresní koeficienty, x = (1, x 1, x 2,..., x p ) T regresory a T značí transpozici vektoru. Označíme-li B i bonitu i-tého klienta, chceme najít vektor regresních koeficientů w, který nejlépe aproximuje B i = w 0 + x i1 w 1 + x i2 w x ip w p (1) pro každé i. Pokud však chceme za bonitou vidět pravděpodobnost selhání klienta, má tento přístup jednu zřejmou trhlinu. V rovnici (1) může pravá strana nabývat jakékoli hodnoty mezi a +, zatímco pod levou stranou si chceme představit pravděpodobnost a ta může nabývat jen hodnot mezi 0 a 1. Bylo by tedy lepší mít na levé straně jakožto bonitu B i nějakou funkci pravděpodobnosti selhání p i takovou, aby mohla nabývat širšího rozmezí hodnot. Tím se nám podaří obejít hlavní problém, že by regresní rovnice předpovídala pravděpodobnosti menší než 0 či větší než 1. Jednou z možností je logarimus šance log( p i 1 p i ). Toto vede k logistické regresi, která je speciálním případem zobecněného lineárního modelu. Pro zobecněný lineární model se předpokládá, že predikované veličiny Y 1,..., Y n, pomocí nichž se vyjadřuje selhání či neselhání klienta, jsou navzájem nezávislé a závisí na regresorech x i = (x i,1,..., x i,p ) T skrze parametry w = (w 1,..., w p ) T, přitom Y i mají hustotu ( yi θ i b(θ i ) ) f(y i, θ i, ϕ) = exp ϕ + c(x i, ϕ), (2) a i kde b je dvakrát spojitě diferencovatelná funkce, a i je známá konstanta (apriorní váha), c je známá funkce, ϕ (0, ) je tzv. disperzní parametr, θ i je parametr závisející na x i a w skrze lineární prediktor η i = x T i w, tj. θ i = ψ(η i ) a existuje známá ryze monotonní a dvakrát spojitě diferencovatelná linková 15

16 (spojovací) funkce g taková, že η i = g(µ i ), kde µ i = E Y i = b (θ i ). Výraz známá se přitom váže k typu lineárního modelu. Všechny tyto předpoklady jsou splněny i pro logistickou regresi. Predikované veličiny Y 1,..., Y n mají v tomto případě alternativní rozdělení udávající selhání či neselhání klienta a hustota ze zobecněného lineárního modelu se interpretuje jako parametr tohoto rozdělení. Máme totiž Označíme-li nyní po úpravách dostaneme a tedy P (Y i = y i ) = p y i i (1 p i ) (1 y i) = = exp{y i log p i + (1 y i ) log(1 p i )} rovnici (3) lze tedy přepsat na = exp{y i log p i y i log(1 p i ) + log(1 p i )}. (3) θ i = log p i 1 p i, p i = exp(θ i) 1 + exp(θ i ) 1 1 p i = 1 + exp(θ i ), ( 1 ) log(1 p i ) = log = b(θ i ), 1 + exp(θ i ) P (Y i = y i ) = exp{y i θ i b(θ i )}, což je tvar shodný s (2) pro c 0 a ϕ a i 1. V logistické regresi se srovnává logaritmus šance s lineární kombinací proměnných charakteristik. Za linkovou funkci se volí g(x) = log x, tj. 1 x ( pi ) log = w 0 + w 1 x i1 + w 2 x i w p x ip = w T x i, i = 1,..., N, (4) 1 p i kde N značí počet klientů. Rovnice (4) bývá označována za předpoklad logistické regrese. p Protože i 1 p i nabývá hodnot mezi 0 a +, nabývá výraz log( p i 1 p i ) hodnot mezi a +. Použití exponenciely na obě strany rovnice (4) vede k rovnosti x p i = ewt 1 + e wt x. (5) Je zajímavé poznamenat, že pokud předpokládáme mnohorozměrné normální rozdělení charakteristik dobrých a špatných klientů, potom je splněn 16

17 předpoklad (4) logistické regrese. Označme symbolem G informaci, že klient je dobrý (Y = 0), a symbolem B informaci, že je špatný (Y = 1). Vektor středních hodnot charakteristik mezi dobrými klienty pak označme µ G, mezi špatnými klienty µ B a kovarianční matici Σ, tj. pro j-tou a k-tou charakteristiku platí E(X j G) = µ G,j, E(X j B) = µ B,j, Příslušná hustota je E(X j X k G) = E(X j X k B) = Σ jk, j, k {1,..., p}. ( f(x G) = (2π) p 2 (detσ) 1 2 exp (x µ G) T Σ 1 (x µ G ) ), 2 ( f(x B) = (2π) p 2 (detσ) 1 2 exp (x µ B) T Σ 1 (x µ B ) ), 2 kde (x µ G ), resp. (x µ B ) je p-rozměrný vektor. Jsou-li p G a p B apriorní pravděpodobnosti dobrých a špatných klientů v populaci, potom logaritmus šance pro i-tého klienta s charakteristikami x je ( pi ) ( P (G x) ) ( pg f(x G) ) log = log = log = 1 p i P (B x) p B f(x B) = x T Σ 1 2(µ B µ G ) + (µ T GΣ 1 µ G + µ T BΣ 1 µ B ) + log ( pg p B ) Protože se jedná o lineární kombinaci x k, k = 1,..., p, je splněn předpoklad (4) pro logistickou regresi. Nicméně tento předpoklad je splněn i pro jiné třídy rozdělení, včetně těch rozdělení, která nevedou k lineární diskriminační funkci. Uvažme nyní například případ, kdy charakteristiky jsou binární a navzájem nezávislé. To znamená, že P (X i = 1 G) = p G (i), P (X i = 0 G) = 1 p G (i), P (X i = 1 B) = p B (i), P (X i = 0 B) = 1 p B (i). Jsou-li opět p G a p B apriorní pravděpodobnosti dobrých a špatných klientů v populaci, dostáváme P (G x) = P (x G)p G i = p G(i) x i (1 p G (i)) 1 x i p G, P (x) P (x) P (B x) = P (x B)p B i = p B(i) x i (1 p B (i)) 1 x i p B P (x) P (x) 17

18 a tedy ( P (G x) ) log = x i (log(p G (i)) log(p B (i)))+ P (B x) i + ( pg ) (1 x i )(log(1 p G (i)) log(1 p B (i))) + log = p i B = ( pg (i)(1 p B (i)) ) x i (log ) + ( 1 pg (i) ) ( pg ) log + log. p i B (i)(1 p G (i)) 1 p i B (i) p B To je opět tvar stejný jako v (4) a jsou tedy splněny předpoklady logistické regrese. 3.2 Model náhodné procházky Model KMV, z něhož se vychází Model náhodné procházky použitý v této práci vychází z komerčního modelu KMV pojmenovaného podle jeho autorů (Kealhofer, McQuown, Vasicek). KMV je ochrannou známkou firmy KMV Corporation založené v roce Model KMV počítá očekávanou četnost selhání (Expected Default Frequency, EDF) a je založen na analýze struktury kapitálu firmy, volatility výnosů aktiv a současné hodnoty aktiv. Tento model je nejlépe použitelný na veřejně obchodované společnosti, u nichž je hodnota majetku určena trhem. Přepočet veřejných informací do pravděpodobností selhání probíhá ve třech krocích. Nejdříve se odhadne hodnota aktiv a volatilita jejich výnosů. V druhém kroku se vypočítá vzdálenost do selhání (Distance to Default, DD). Nakonec se odvodí samotná pravděpodobnost selhání. Finanční modely obvykle uvažují tržní hodnotu aktiv, nikoli jejich účetní hodnotu, která často reprezentuje jen historickou cenu očitěnou od amortizace. Pro ocenění pasiv používá model KMV Mertonův model pro oceňování opcí navržený v [8]. V tomto modelu předpokládáme, že kapitál firmy je tvořen vlastním kapitálem, krátkodobými závazky ekvivalentními s hotovostí a dlouhodobými závazky, které se dají považovat za perpetuitu (viz obrázek 5). Odhad hodnoty aktiv a volatility výnosů obvykle vyžaduje použití iteračních metod. V Mertonově modelu pro oceňování opcí se cena V t v čase t řídí stochastickou diferenciální rovnicí dv t V t = µ dt + σ dw t, kde W t je označení Brownova pohybu a W t W 0 tz t 18

19 Obrázek 5: Struktura kapitálu firmy má normální rozdělení s nulovou střední hodnotou a rozptylem rovným t. Tento předpoklad vede k vyjádření ceny V t v čase t V t = V 0 exp {(µ )t σ2 + σ } tz t, (6) 2 cena V t se tedy řídí geometrickým Brownovým pohybem. Podle takového vyjádření má V t V 0 logaritmicko-normální rozdělení se střední hodnotou (µ σ2 )t a rozptylem 2 σ2 t. Model KMV přebírá beze změny z Mertonova modelu pro oceňování opcí tento způsob modelování výše ceny aktiv na konci predikčního horizontu. Podle modelu KMV dochází k selhání, když hodnota aktiv klesne někam mezi celkovou hodnotou pasiv a hodnotu krátkodobých závazků, tedy klient aktuálně nemá finance potřebné k zaplacení závazků s blízkou splatností. Tento bod se nazývá bod selhání (Default Point, DPT) a v modelu KMV je za něj považována hodnota krátkodobých závazků navýšená o polovinu hodnoty dlouhodobých závazků. Vzdálenost do selhání je pak číslo závislé na volatilitě výnosů a na vzdálenosti bodu selhání od střední hodnoty rozdělení ceny aktiv na konci predikčního horizontu (viz též obrázek 6). Pro vzdálenost do selhání platí vztah DD = E V 1 DP T S kde E V 1 označuje očekávanou hodnotu aktiv na konci predikčního horizontu (1 rok), DP T je bod selhání neboli krátkodobé závazky+ 1 dlouhodobých závazků a S volatilita výnosů aktiv. 2 Pro odvození pravděpodobnosti selhání pro daný predikční horizont potřebujeme ještě vzdálenost do selhání DD převést do očekávané četnosti 19,

20 Obrázek 6: Vzdálenost do selhání Obrázek 7: Závislost EDF na DD pro daný predikční horizont 20

21 selhání EDF. Při použití velkého počtu firem se v modelu KMV uvažuje, že očekávané četnosti selhání jsou funkcí vzdálenosti do selhání, viz obrázek 7. Změny v cenách akcií, spekulace a volatilita aktiv mohou měnit očekávanou četnost selhání firmy. Vyšší volatilitu výnosů aktiv lze interpretovat jako určitou nejistotu trhu ohledně hodnoty firmy. Jak je uvedeno již v kapitole 2.2, model KMV poskytuje tabelované hodnoty ztráty portfolia pro různé intervaly spolehlivosti. Tato ztráta portfolia je definována jako rozdíl mezi bezrizikovou hodnotou portfolia a jeho tržní hodnotou. Model KMV lze využít pouze pro hodnocení bonity firem, přitom závisí téměř výhradně na informacích o jejich tržní hodnotě, proto nelze tento model použít tam, kde ceny akcií nereprezentují skutečnou hodnotu firmy Úprava modelu pro predikci selhání drobné klientely Chceme-li použít základní myšlenku z modelu KMV pro predikci selhání drobné klientely, v této práci konkrétně u kontokorentních účtů, je zřejmé, že je potřeba původní model značně pozměnit. Určitým úskalím se může rovněž jevit použití samotných kontokorentních účtů, které mají tu vlastnost, že se klient může po určitou dobu nacházet v debetu a přitom nemusí jít o selhání. K selhání zde dochází dvěma způsoby, a to jednak vstupem do nepovoleného debetu a jednak dlouhým setrváním v povoleném debetu. Výsledný model by tedy měl dokázat zohlednit oba typy selhání. Protože je v souvislosti s klientem fyzickou osobou obtížné hovořit o aktivech a pasivech a obzvláště pak se sledováním jejich hodnot, věnuje se model náhodné procházky analýze bilance na účtu klienta. Budoucí disponibilní částka na účtu se odhaduje na základě posledního známého zůstatku a na základě minulého chování popsaného kreditními a debetními obraty. Podobně jako v modelu KMV se v modelu náhodné procházky sleduje hodnota očekávané disponibilní částky a její volatilita. Pro odhad budoucí disponibilní částky se k poslední známé disponibilní částce přičítá částka odpovídající budoucímu kreditnímu obratu a odečítá se částka odpovídající budoucímu debetnímu obratu. Očekávané obratové charakteristiky se u každého z klientů získají analýzou minulých hodnot meziměsíčních změn obratů. Tím, že je model založen na analýze jednotlivých účtů a odhadnuté parametry jsou pro každého klienta jedinečné, není potřeba vzorek klientů dělit na vývojový a validační. Analogicky s modelem KMV je zde použit Mertonův opční model. Zaměřme se na jednotlivého klienta a jeho účet. Předpokládáme, že kreditní C, resp. debetní D obraty splňují stochastické rovnice dc t C t = µ C dt + σ C dw C,t, 21

22 dd t D t = µ D dt + σ D dw D,t, kde W i,t, i = C, D, je opět označení Brownova pohybu a analogicky i W i,t W i,0 tz i,t, i = C, D má normální rozdělení s nulovou střední hodnotou a rozptylem rovným t, kde t je čas, přitom Brownovy pohyby mohou být obecně pro kreditní a debetní obrat různé. Tento předpoklad vede k vyjádření obratů C t a D t od počátku do času t {( C t = C 0 exp µ C σ2 C 2 )t + σ C tzc,t }, {( D t = D 0 exp µ D σ2 } D )t + σ D tzd,t, 2 obratové charakteristiky C t a D t se tedy opět řídí geometrickým Brownovým pohybem. Z tohoto vyjádření vyplývá, že veličiny C t C 0 a D t D 0, kde C 0 a D 0 jsou počáteční hodnoty obratů (např. poslední známé meziměsíční obraty v čase 0), mají logaritmicko-normální rozdělení se střední hodnotou (µ C σ2 C 2 )t, resp. (µ D σ2 D 2 )t a rozptylem σc 2 t, resp. σ2 Dt. Je přitom zcela zřejmé, že nesmíme při analýze budoucí disponibilní částky opomenout možnou silnou korelovanost těchto dvou obratových charakteristik. Jednou z možností, jak dobře postihnout zmíněnou korelovanost, je použití sdruženého rozdělení pro obratové charakteristiky. Předpokládejme, že sdružené rozdělení popisující veličiny kreditního a debetního obratu po t obdobích je dvojrozměrné logaritmicko-normální, přitom obě složky rozdělení splňují příslušné stochastické rovnice. Jeho hustota je potom g t,0 (x t, y t ) = 1 2π Σ t x t y t { 1 [( log x t ) x exp 0 2 log yt y 0 ] T [( µ t Σ 1 log x t x 0 t log yt y 0 ) µ t ]}, (7) kde x 0 označuje minulý kreditní obrat a y 0 minulý debetní obrat (tedy měsíční obraty v čase 0), µ t je vektor středních hodnot a Σ t je varianční matice, tedy µ t = Σ t = ( µc t ), µ D t ( σc 2 t ρσ Cσ D t ) ρσ C σ D t σd 2 t, 22

23 přitom µ C a µ D jsou střední hodnoty meziměsíční změny kreditního a debetního obratu, σ C a σ D jsou jejich rozptyly, ρ je korelace mezi kreditními a debetními obraty. Jak takové hustoty vypadají, ukazuje obrázek 8, kde na horním grafu je zobrazena hustota s korelací 0,24 a na dolním s korelací 0,76, ostatní parametry rozdělení jsou u obou grafů stejné. Nyní se zaměřme na to, co se musí stát, aby došlo na účtu klienta k selhání. Jak již bylo popsáno, je nutný bud vstup do nepovoleného debetu, nebo setrvání v povoleném debetu ještě další tři měsíce po vypršení roční povolené lhůty. Pro zjednodušení uvažujme diskretizaci náhodné procházky, kdy se budeme zaobírat pouze měsíčními snímky na jednotlivých účtech, tedy jejich ultimovými stavy. Časový udaj t tedy bude značit počet měsíců. Snahou je najít vyjádření pravděpodobnosti vstupu klienta do nepovoleného debetu za podmínky, že v předchozím období tento klient nebyl v nepovoleném debetu (tato podmínka vyjadřuje, že setrvání v nepovoleném debetu se nepovažuje za další selhání), a pravděpodobnosti setrvání v povoleném debetu za podmínky, že se v povoleném debetu nacházel i v předchozím období. Vyjádření hustoty přírůstku na účtě klienta za dobu t dostaneme použitím věty o transformaci náhodných veličin. Protože známe sdruženou hustotu kreditního a debetního obratu g t,0 (x t, y t ), můžeme vyjádřit hustotu velikosti přírůstku na účtě jako hustotu rozdílu těchto dvou obratů, tj. f t,0 (z) = f t,0 (x y) = g t,0 (z + y, y)j ϕ 1 dy, (8) R kde J ϕ 1 značí jakobián daného inverzního zobrazení. V našem případě jde o zobrazení ( x ) ( x y ) ϕ : y y a tedy pro z = x y máme ( z ϕ 1 : y ) ( z + y y ), uvažovaný jakobián je potom roven d(z+y) dz J ϕ 1 = dy dz d(z+y) dy dy dy = = 1. (9) Protože výše debetního obratu je ze své podstaty nezáporná, můžeme (8) přepsat jako f t,0 (z) = 0 g t,0 (z + y, y) dy. 23

24 Obrázek 8: Ukázka dvourozměrných logaritmicko-normálních hustot s různými korelacemi 24

25 Vyjádření pravděpodobnosti, že klient bude hned v prvním období v debetu, je potom relativně snadné, dá se napsat pomocí integrálu z jednorozměrné hustoty přírůstku na účtu, tedy pomocí dvojného integrálu z dvojrozměrné hustoty P D,1 = L F 0 g 1,0 (z + y, y) dy dz, (10) kde L je výše poskytnutého úvěrového limitu a F je poslední známá diponibilní částka na účtě klienta, přitom v povoleném debetu se bude nacházet s pravděpodobností P P D,1 = L F F a v nepovoleném debetu s pravděpodobností P ND,1 = 0 F 0 g t,0 (z + y, y) dy dz (11) g 1,0 (z + y, y) dy dz. (12) Uvědomíme-li si, že také kreditní obrat je ze své podstaty nezáporný a tedy i z + y je nezáporné, a tedy platí z y. Podle Fubiniho věty o záměně pořadí integrace můžeme rovnice (10), (11) a (12) přepsat na P D,1 = P P D,1 = P ND,1 = L F 0 y L F 0 F F 0 y g 1,0 (z + y, y) dz dy, g 1,0 (z + y, y) dz dy, g 1,0 (z + y, y) dz dy Primitivní funkce těchto integrálů se však nedají vyjádřit pomocí elementárních funkcí a numerický výpočet je technicky velmi náročný a zdlouhavý hlavně kvůli možné velké rozdílnosti parametrů dvojrozměrného rozdělení budoucích obratových charakteristik u jednotlivých klientů. Jako vhodný nástroj pro modelování budoucích obratů se tedy ukázaly simulace metodou Monte Carlo. Tyto simulace se dají s velkou výhodou použít i pro další řetězení, tedy pro odhad výše zmíněných podmíněných pravděpodobností. Chceme-li nyní totiž pomocí hustoty vyjádřit pravděpodobnost, že klient bude v debetu i v druhém období za podmínky, že v prvním období se nacházel v debetu, situace se již značně zkomplikuje. Musíme si předně uvědomit, že tyto dvě 25

26 pravděpodobnosti nejsou nezávislé. Při řetězení se mění výchozí hodnoty označené v (8) jako x 0, resp. y 0, nebot uvažované náhodné procházky mají markovskou vlastnost a hodnoty obratů v čase t jsou závislé především na hodnotách v čase t 1, řetězíme totiž za sebe očekávané stavy v po sobě jdoucích měsících. Při simulacích děláme postupně série náhodných výběrů z logaritmickonormálních rozdělení s paramety µ t a Σ t pro t = 1,..., 12, kde µ t = Σ t = ( µc + log x ) t 1, µ D + log y t 1 (13) ( σc 2 ρσ C σ ) D, ρσ C σ D (14) a kde x 0 a y 0 značí poslední známé hodnoty kreditního a debetního obratu (nenáhodné údaje v bodě pozorování) a x s a y s, s = 1,... 12, označuje nasimulované výše kreditního a debetního obratu v s-tém měsíci sledovaného období. Sledujeme přitom, zda se účet dostane do nepovoleného debetu kdykoli během predikčního horizontu nebo jestli účet nacházející se v povoleném debetu setrvá v povoleném debetu i v následujícím období. Pro selhání je pak potřeba, aby se klient nacházel v povoleném debetu prvních 15 k měsíců predikčního horizontu, kde k je počet měsíců strávených v debetu v řadě bezprostředně před bodem pozorování. σ 2 D 26

27 4 Numerické výpočty 4.1 Data Pro potřeby diplomové práce jsem si z portfolia Raiffeisen Bank, a. s., vybrala kontokorentní účty drobných vkladatelů fyzických osob, nebot právě ty mají větší počet kreditních i debetních obratů než ostatní úvěrové produkty a slibují tedy zajímavé podklady pro model náhodné procházky. Nevýhodou použití těchto účtů je samotné selhání, ke kterému vedou dvě cesty. Jednak je to přečerpání zůstatku, kdy se klient dostane do nepovoleného debetu, a jednak nedodržení podmínky vyrovnat nejpozději po určité době kontokorentní limit. Portfolio klientů Raiffeisen Bank, a. s., je vzhledem k druhému typu selhání nejednotné, protože v průběhu minulých let došlo ke změně obchodních podmínek pro nově zakládané kontokorentní účty a doba, kdy musí mít klient na svém účtu opět kladný zůstatek, je různá. Dříve se tato povinnost týkala předem pevně stanoveného data v roce, u novějších účtů se přešlo k požadavku vyrovnat povolený debet do jednoho roku od začátku jeho čerpání. Protože ze strany Raiffeisen Bank, a. s., zazněl požadavek na částečné znehodnocení zveřejňovaných dat, není tento rozdíl brán při vývoji v úvahu, ikdyž se obě skupiny mohou chovat rozdílně. Ze stejného důvodu nejsou data zcela vyčištěna a jsou navíc zatížena chybou. V případě kreditních i debetních obratů tak zde použité částky nesouhlasí s částkami použitými pro vývoj skorkarty v Raiffeisen Bank, a. s., ve skutečnosti. Pro oba modely jsem vzala v úvahu stejný vzorek pozorování, aby byla dosažena vzájemná porovnatelnost jejich výkonnosti. Základním kritériem přitom byla dostatečná historie pro model náhodné procházky. Oknem pro sledování chování na účtech je období mezi a (viz obr. 9, performance window) a selháním se rozumí závazek alespoň 90 dní po splatnosti nebo přečerpání zůstatku kdykoli během roku 2006 (outcome period). Pro vývoj skoringové funkce se berou v úvahu účty, které měly na konci roku 2005 (bod pozorování, observation point) status dobrého účtu, tj. nebyly více než 90 dnů po splatnosti. Do vzorku jsem zahrnula pouze ty účty, které mají ve sledovaném okně plnou historii a existovaly tedy již k , přitom během roku 2005 nebyly ukončeny. V praxi se často při vývoji skorkarty klienti rozdělují na tři skupiny - dobré (např. do 30 dnů po splatnosti), špatné (např. více než 90 dní po splatnosti) a ty, které nelze zařadit ani do jedné z předchozích dvou skupin (např. 30 až 90 dní po splatnosti) a určit tak jednoznačně, zda jsou dobří či špatní. Pro samotný vývoj skoringové funkce se pak uvažují pouze dobří a špatní klienti a ti s neurčitým chováním se vyloučí. Z důvodu nepříliš početného vzorku 27

28 Obrázek 9: Časová období použitá pro sledování chování Vzorek dobrých špatných celkem poměr špatných (%) vývojový ,941 validační ,202 celkem ,792 Tabulka 1: Počty klientů ve vývojovém a validačním vzorku pozorování použitých v této práci jsem se rozhodla klienty rozdělit pouze na dobré (do 90 dní po splatnosti) a špatné (nad 90 dní po splatnosti). Účtů s celou historií v roce 2005 bylo 9328, z toho na konci roku 2005 jich bylo 564 špatných. Tyto špatné účty jsem z vývoje vyloučila, protože nás zajímá následné chování jen na účtech dobrých ke konci roku Během roku 2006 se 420 dobrých účtů změnilo na špatné a 8344 si ponechalo status dobrého účtu. Celkový poměr špatných klientů ve vzorku byl tedy 4,79%. Vzorek jsem pomocí statistického software SAS rozdělila náhodně na dvě části vývojovou a validační v poměru 80% ku 20% při přibližném zachování poměru špatných klientů v obou částech, viz tabulka 1. Pomocí vývojové části vzorku se vyvine skorkarta a k otestování její výkonnosti slouží na ní nezávislá validační část. 4.2 Výkonnost modelů, statistiky významnosti, testy Ukazatele výkonnosti Pro posouzení výkonnosti vyvinutých modelů se v praxi nejčastěji používají ukazatelé jako Giniho index, Somer s D či procenta konkordantních a diskordantních dvojic. Dvojice pozorování s rozdílnými odezvami je konkordantní (Concordant), když pozorování s nižší hodnotou odezvy (v našem případě odpovídá tomu, že je klient špatný) má nižší predikovanou střední hodnotu odezvy (odpovídá hodnotě skore) než pozorování s vyšší hodnotou odezvy (klient je dobrý), a je diskordantní (Discordant), když pozorování s nižší hodnotou odezvy má vyšší predikovanou střední hodnotu odezvy než pozorování s vyšší hodnotou 28

29 odezvy, údajem Tied se označují v tomto porovnání remízy. Čím je procento konkordantních dvojic vyšší, tím větší je diskriminační síla modelu. Ukazatel Somer s D se definuje jako rozdíl počtu konkordantních a diskordantních dvojic dělený počtem dvojic s různou odezvou a nabývá hodnot mezi -1 a 1. Pro velmi silnou diskriminační schopnost modelu svědčí hodnoty blízké 1. Goodmanovo-Kruskalovo Gamma je podobné, nepenalizuje však za remízy. Kendallovým Tau-a se označuje dvojnásobek rozdílu konkordantních a diskordantních dvojic dělený počtem všech dvojic, c-statistika je definovaná jako pravděpodobnost správného seřazení predikovaných hodnot odezvy pro dvojice s různou odezvou. Dalším ukazatelem diskriminační síly vyvinutého modelu je Giniho index, který se definuje jako GI = (F G (a) F B (a)) df G (a), kde F G je distribuční funkce získaného skore pro dobré klienty a F B pro špatné klienty Testy použité v modelu logistické regrese Pro testy významnosti se v této práci používají Waldova statistika a test podílem věrohodností. V obou případech se výsledná statistika porovnává s hodnotou kvantilu χ 2 -rozdělení s určitým počtem stupňů volnosti. Waldův test slouží jak k určení statistické významnosti každého regresního koeficientu v logistickém modelu, tak k testu závislosti vysvětlující proměnné na regresorech. V obou případech se ve Waldově testu počítá kvadrát t-statistiky pro regresní koeficient w, resp. w, tj. pro jednorozměrný případ máme t 2 = w2 var(w). V druhém případě je w považováno za vektor, máme tedy t 2 = w T (Var(w)) 1 w. Tato statistika je srovnávána s kvantilem χ 2 -rozdělení. Počet stupňů volnosti je dán rozměrem vektoru w, v případě testu pro jednotlivý regresní koeficient w je roven 1. Zde je dobré upozornit, proč se používá srovnání Waldovy χ 2 -statistiky s χ 2 -rozdělením namísto porovnání t-statistiky s t-rozdělením, což by se vzhledem k definici Waldovy χ 2 -statistiky nabízelo. Důvodem je lepší interpretace pro menší vzorky pozorování. Hodnota w/ var(w), resp. 29

30 w T (Var(w)) 1/2 totiž pro malé vzorky nemá t-rozdělení, nebot není splněn předpoklad normality w. Někteří autoři přesto zjistili nepřesnosti při použití Waldovy χ 2 -statistiky. Například Menard [9] varuje, že pro velké koeficienty může rozptyl snižovat hodnotu Waldovy χ 2 -statistiky. Agresti [10] pak zastává názor, že pro malé vzorky je spolehlivější test podílem věrohodností. Test podílem věrohodnodstí používá poměr maximální hodnoty věrohodnostní funkce L 0 pro plný model a maximální hodnoty věrohodnostní funkce L 1 zjednodušeného modelu. Statistika tohoto testu se definuje jako 2 log L 0 L 1 = 2[log L 0 log L 1 ]. Tato statistika se opět srovnává s kvantilem χ 2 -rozdělení, počtem stupňů volnosti je zde počet regresorů ve zjednodušeném modelu. Test podílem věrohodností je v této práci použit jako druhý test pro ověření závislosti vysvětlující proměnné na regresorech. Abychom v obou testech mohli opravdu použít χ 2 -rozdělení, musí být splněny některé předpoklady. Předně by náš vzorek měl být náhodným výběrem z populace, charakteristiky by měly být nezávislé, jejich hodnoty by se měly navzájem vylučovat a pozorované frekvence by neměly být příliš malé. Podmínka na nezávislost bývá v praxi dosti nereálná, proto se musíme spokojit s omezením korelovanosti. Ostatní podmínky bývají obvykle splněny Testy použité v modelu náhodné procházky V modelu náhodné procházky je stěžejním předpokladem logaritmicko-normální rozdělení dat. Pro veličiny s jiným typem rozdělení by neplatily uvažované stochastické rovnice. Protože pro veličinu X s logaritmicko-normálním rozdělením platí, že log(x) má normální rozdělení, je pro ověření tohoto předpokladu použit test na normalitu dat. Vzhledem k tomu, že pro každého klienta jsou parametry sdruženého rozdělení jeho kreditních a debetních obratů odhadovány nezávisle na obratech ostatních klientů, je potřeba nalézt vhodný test, který zajistí dostatečně rychlou konvergenci i pro malý počet testovaných pozorování. Pro každého z klientů totiž budeme mít jedenáctičlennou řadu meziměsíčních změn kreditních obratů a stejně dlouhou řadu pro debetní obraty. Rychlost konvergence se ukázala jako hlavní omezení při volbě testu. Jako nejlepší se ukázal test pomocí šikmosti a špičatosti testovaného rozdělení. Použitý typ testu na šikmost vykazuje dobré výsledky již od osmi pozorování. Test využívající špičatost je doporučován sice až od počtu dvaceti pozorování, nicméně je vhodným doplňkem testu na šikmost. Je však potřeba počítat 30

31 s větší chybou testové statistiky. Test pomocí momentů lze snadnou transformací provádět i na vícerozměrném normálním rozdělení, čehož samozřejmě využijeme. Podrobný popis níže popsaných testů šikmosti a špičatosti uvádí například Thode [11]. Oba testy využívají výběrové momenty, kde k-tý výběrový moment náhodné veličiny X je definován jako n (x i x) k m k =, n i=1 kde x i je pozorování náhodné veličiny X, x je výběrový průměr, n mohutnost vzorku a k 2 je přirozené číslo. Základní jednorozměrný test na šikmost je dán testovou statistikou S = m 3 (m 2 ) 3/2, přitom pro S > 0 jsou data zešikmená doprava (těžší chvost hustoty vpravo), pro S < 0 jsou naopak data zešikmená doleva. Za platnosti nulové hypotézy o normalitě dat je S asymptoticky normální se střední hodnotou 0 a rozptylem 6/n. Nicméně je však zapotřebí mít vzorek dostatečně velký, abychom mohli tuto aproximaci použít pro účely testu. Pro konečné vzorky je rozptyl S lépe aproximován výrazem σ 2 (S) = 6(n 2) (n + 1)(n + 3). D Agostino navrhnul transformovat rozdělení S na normální, aby dosáhl lepších výsledků pro málo početné vzorky již od osmi pozorování. Upravil Johnsonův přístup využívající neohraničenou S u křivku tak, aby se vyhnul použití inverzního hyperbolického sinu. Označíme-li tedy podle D Agostina ( (n + 1)(n + 3) ) 1/2, Y = S 6(n 2) B = 3(n2 + 27n 70)(n + 1)(n + 3) (n 2)(n + 5)(n + 7)(n + 9), potom Y X(S) = δ log( α + ) (Y/α) má normované normální rozdělení, kde α a δ jsou definovány pomocí W 2 = 2(B 1) 1, δ = 1, log(w ) 31

32 α = 2 (W 2 1). Jednorozměrný test na špičatost je založen na čtvrtém výběrovém momentu, tedy K = m 4. m 2 2 Testy využívající špičatost jsou spolu s testy šikmosti jedněmi z nejsilnějších testů normality dobře fungující pro celou řadu možných alternativ, jsou schopny obzvlášt pro velké vzorky odhalit i drobné odchylky od normality. Podobně jako v případě šikmosti je i špičatost za platnosti nulové hypotézy o normalitě dat asymptoticky normální se střední hodnotou 3 a rozptylem 24/n. Zde jsou však požadavky na dostatečnou velikost vzorku ještě vyšší než v případě šikmosti, nebot konvergence je dosahováno velmi pomalu. Pro špičatost nicméně bez ohledu na velikost vzorku platí, že její střední hodnota µ(k) a rozptyl σ 2 (K) jsou rovny µ(k) = σ 2 (K) = 3(n 1) (n + 1), (15) 24n(n 2)(n 3) (n + 1) 2 (n + 3)(n + 5). (16) Opět transformujeme veličinu K na veličinu Z s normovaným normálním rozdělením, která se dá vyjádřit jako Z = ( 2 ) 1/2 { 1 2 ( 9A 9A 1 2/A 1 + x 2/(A 4) ) 1/3 }, (17) kde x je výběrová špičatost K standardizovaná pomocí (15) a (16), tedy a A je spočítáno za použití β = 216 n x = K µ(k), σ(k) A = ( 2 β + ) 1 + 4/β, β ( (n + 3)(n + 5) ) 1/2 n 2 5n + 2 (n 3)(n 2) (n + 7)(n + 9). (18) Popsanou transformací dosáhneme lepších výsledků pro malé vzorky pozorování. Tento test je použit v této práci pro pozorování o jedenácti hodnotách, 32

33 přestože autoři uvádějí spolehlivé výsledky až pro vzorky o více než dvacíti pozorováních. Při vyhodnocování testu je tato skutečnost brána v potaz a je očekáváno, že za platnosti nulové hypotézy o normalitě dat test zamítne nulovou hypotézu u mírně většího či menšího množství klientů. Pro ověření vícerozměrné normality však nestačí, abychom prošetřili jen marginální normality, nebot marginální rozdělení neurčují sdružené rozdělení. Je tedy potřeba otestovat sdružené rozdělení. Pro tento test využijeme již odvozené transformace jednorozměrné šikmosti a špičatosti X(S) a Z(K). Je-li nyní B 1, resp. B 2 m-rozměrný vektor marginální šikmosti, resp. špičatosti a uvažujeme-li po složkách transformace z jednorozměrného testu, abychom získali transformované vektory X(B 1 ) a Z(B 2 ), pak můžeme sestavit kvadratické formy Q 1 = X(B 1 ) T U 1 1 X(B 1 ), Q 2 = Z(B 2 ) T U 1 2 Z(B 2 ), kde U 1 = {rij} 3 a U 2 = {rij} 4 a r ij označují výběrové korelace mezi složkami vektorů šikmosti, resp. špičatosti, přitom diagonálními prvky matic U 1 a U 2 jsou jedničky. Tyto korelace jsme schopni spočítat, nebot za nulové hypotézy známe jak střední hodnoty šikmosti a špičatosti, tak i jejich rozptyly. Jako testovou statistiku pak použijeme kvadratické formy Q 1 a Q 2, které jsou vzhledem k marginálnímu rozdělení složek X(B 1 ) a Z(B 2 ) dobře aproximované χ 2 rozdělením o m stupních volnosti. Je možné použít také souhrnný test pomocí statistiky Q = Q 1 + Q 2, která má χ 2 rozdělení s 2m stupni volnosti. Zde v tomto místě by bylo vhodné ověřit rozdělení statistik Q 1 a Q 2 či alespoň souhrnné statistiky Q za pomocí dalšího testu. Nabízí se například Kolmogorovův Smirnovův test, který popisuje podrobněji a včetně důkazů např. Anděl [12]. Tento test je založen na porovnání distribučních funkcí a při velké mohutnosti vzorku je již velmi silný. V našem případě se však dá očekávat, že síla takového testu nebude korespondovat s ústupkem, který jsme byli nuceni učinit v případě testu na špičatost, kdy jsme použili test pro mnohem menší než doporučený počet pozorování. Také v případě testu na šikmost se pohybujeme na hranici použitelnosti vzhledem k velikosti jednotlivých vzorků, proto i zde by se jakákoli nepřesnost odrazila v zamítnutí nulové hypotézy o předpokládaném rozdělení dat. Tento test je tedy vynechán vzhledem k předpokládanému značnému zatížení výsledku chybou. 33

34 4.3 Vývoj regresního modelu Reprezentace charakteristik Pro vývoj regresního modelu jsem měla ke každému účtu ze vzorku k dispozici 55 behaviorálních a 5 aplikačních charakteristik. Mezi těmi behaviorálními byly hlavně zůstatky a kreditní a debetní obraty za různě dlouhá období předcházející bodu pozorování, jejich průměry, tyto hodnoty vztažené k velikosti úvěrového rámce, počty kreditních a debetních transakcí či předchozí prodlení ve splátkách (dny po splatnosti). Většina těchto dat měla spojitý charakter. Malý počet dostupných aplikačních charakteristik je způsoben povahou kontokorentních účtů, kdy se při žádosti o tento produkt obvykle po klientovi nevyžaduje vyplnění velkého množství údajů, protože by to klienta mohlo odradit od zřízení produktu. Tyto údaje jako věk, pohlaví či typ produktu měly spíše kategoriální charakter. Atributy spojitých i diskrétních charakteristik s mnoha hodnotami se v této práci pro potřeby vývoje logistického regresního modelu rozdělují na jednotlivé podintervaly, čímž se získá několik odpovídajících diskrétních hodnot a značně se zjednoduší samotný výpočet regresních koeficientů při zachování síly modelu. Je zde použita také váha záznamu (weight of evidence, WOE), která měří diskriminační schopnost charakteristiky rozdělit vzorek podle svých atributů na dobré a špatné klienty a je definovaná jako log ( počet dobrých ve skupině/počet všech dobrých počet špatných ve skupině/počet všech špatných přitom záporná váha indikuje, že ve skupině je větší poměr špatných klientů než v celém vzorku dohromady, viz též tabulka 2, ve které jsou použita data ze spojeného vývojového a validačního vzorku. Pro posouzení diskriminační schopnosti samotné charakteristiky je použita informační hodnota (information value, IV) odvozená z váhy záznamu podle vzorce skupiny ( dobří ve skupině počet všech dobrých ), špatní ve skupině (WOE skupiny) počet všech špatných přitom pro hodnoty této veličiny pod 0,02 je charakteristika neprediktivní, pro hodnoty mezi 0,2 a 0,1 je diskriminační schopnost charakteristiky slabá, pro hodnoty mezi 0,1 a 0,3 střední a pro hodnoty přesahující 0,3 silná. V tabulce 2 jsou v posledním sloupci šedě uvedeny pouze pomocné hondnoty, jejichž součet dává informační hodnotu uvedenou tučně v součtovém řádku (Total). Do samotné regrese pak vstupují jako regresory právě váhy záznamu, které jsou transformacemi původních regresorů. Regresní rovnice pak bude 34 ),

35 DbTurn30DToLim good bad distr G distr B bad rate WOE IV = , , ,08 0,35 0, ,48 0, ,4-0, ,07 0,1 0, ,45 0, ,8-1, ,1 0,08 0, ,27 0, ,2-1, ,18 0,07 0, ,93 0, , ,23 0,06 0, ,4 0, ,23 0,04 0, ,69 0, ,04 0,01 0, ,13 0, ,01 0 0, > ,01 0 0, undefined ,05 0,29 0, ,67 0,39396 TOTAL , ,50902 Nationality good bad distr G distr B bad rate WOE IV CZ ,97 0,98 0, ,00002 Others ,03 0,02 0, ,19 0,00084 TOTAL , ,00086 Tabulka 2: Váhy záznamu a informační hodnota při jemném dělení mít tvar log ( pi ) = w 0 + w 1 WOE 1 + w 2 WOE w p WOE p, (19) 1 p i kde WOE k nabývá hodnot váhy záznamu pro jednotlivé atributy charakteristiky k, tedy pokud I k,m označuje indikátor jevu, že i-tý klient má za hodnotu k-té charakteristiky právě m-tý atribut, dá se rovnice (19) přepsat na ( pi ) log = w 0 + w 1 (WOE 1,1 I 1, p i +WOE 1,n1 I 1,n1 ) w p (WOE p,1 I p, WOE p,np I p,np ). Je však třeba podotknout, že váha záznamu a tedy i informační hodnota špatně odráží četnosti atributů v rámci charakteristiky, proto je vhodné rozdělovat na intervaly či jednotlivé skupiny atributů tak, aby se četnosti seskupených atributů příliš nelišily. V tabulce 2 vidíme, že diskriminační schopnost charakteristiky národnost (Nationality) je velmi slabá, což je vidět i na poměrech špatných klientů pro každý z atributů, které se v podstatě neliší. Navíc jeden atribut (česká národnost) je mnohem četnější než druhý (jiná národnost), což může ještě více charakteristiku znehodnotit. Zato behaviorální proměnná ukazující třicetidenní debetní obrat vztažený k úvěrovému limitu má silnou diskriminační schopnost. Je zde ale potřeba úprava seskupením atributů, nebot do některých intervalů nepadl žádný špatný účet, což má za následek chybějící hodnotu váhy záznamu. Nedefinovaná hodnota obratu (atribut undefined) vznikla tím, že v bodě pozorování již účet měl nastaven nulový úvěrový limit. 35

36 DbTurn30DToLim good bad distr G distr B bad rate WOE IV 1,2; undefined ,3 0,82 0, , ,41 0,13 0, ,17 0,33146 > ,29 0,05 0, ,66 0,38715 TOTAL , ,23805 Tabulka 3: Váhy záznamu a informační hodnota při hrubém dělení Pro potřeby vývoje skoringové funkce stačí jemné dělení přeskupit do dvou až čtyř intervalů. Je vhodné slučovat atributy s blízkou hodnotou váhy záznamu, protože ta odráží poměr špatných účtů pro daný atribut. V případě, že se nám do některého intervalu jemného dělení dostane velmi málo účtů, váha záznamu může být zkreslená. Mělo by však být samozřejmostí, že chování klientů v rámci charakteristiky by mělo být vysvětlitelné, proto bychom se měli zamýšlet i nad interpretací a v případě nejasné váhy záznamu slučovat atributy logicky. V tabulce 3 vidíme přeskupené atributy stejné obratové charakteristiky při hrubším dělení. Všechny tři intervaly pak mají relativně podobné četnosti. Lze si povšimnout, že hrubším dělením se snížila informační hodnota charakteristiky, nicméně jsme docílili mnohem větší stability. Když by se nyní v některém intervalu změnil počet dobrých či špatných klientů, informační hodnota by se změnila méně než v případě jemného dělení Logistická regrese v praxi Pro identifikaci významných regresorů se používá sestupný výběr, vzestupný výběr i kombinace obojího. V sestupném výběru (backward regression) se nejprve spočítá plný model, pak se jednotlivé regresory postupně z modelu vylučují. V každém kroku se dle hodnot Waldovy χ 2 -statistiky najde takový regresor, který v daném modelu nejméně přispívá k vysvětlení závisle proměnné, a v případě vysoké p-hodnoty se vyloučí. Pomocí podílu věrohodností a Waldovy χ 2 -statistiky se otestuje se hypotéza, že v modelu bez tohoto regresoru jsou všechny regresní koeficienty nulové. Nízká p-hodnota obou testů vede k úsudku, že alespoň jeden z regresních koeficientů v modelu je nenulový. Pokud se tedy oběma testy zjistí, že existuje významná závislost predikované veličiny na regresorech, tato hypotéza se zamítne. V případě, že hypotézu nemůžeme zamítnout a v některém z předchozích modelů jsme ji zamítnout mohli, je potřeba se zaměřit na analýzu důvodů růstu p-hodnoty tohoto testu. Pro test nulovosti i pro vylučování proměnných se použije předem zvolená kritická hodnota F, zde kvantil χ 2 -rozdělení. Končí se tehdy, když statistiky pro vyloučení všech zbylých regresorů jsou větší než tato kritická hodnota. 36

37 Ve vzestupném výběru (forward regression) jde o pravý opak předchozího postupu. Vyjde se z prázdné množiny regresorů, do níž se pak v každém kroku přidá vždy ten z ještě nezařazených regresorů, který v daném kroku co možná nejlépe zlepší vysvětlení závisle proměnné, tj. v daném kroku vložíme takový regresor z dostupných kandidátů, u něhož je hodnota Waldovy χ 2 -statistiky pro jeho vyloučení nejmenší. Opět se stejným způsobem jako v sestupném výběru provádí test nulovosti vektoru regresních koeficientů. Skončíme, když tato statistika u zbylých regresorů je větší, než předem zvolené F. Kroková regrese (stepwise regression) kombinuje oba právě popsané postupy. Vzestupný výběr je v každém kroku kombinován pokusem o zjednodušení pomocí sestupného výběru. Kdyby ovšem bylo F F, mohlo by se stát, že dojde k zacyklení algoritmu, kdy bude právě vložený regresor okamžitě vyloučen, poté znovu vložen, vyloučen atd., mělo by tedy správně být F > F. Každá z popsaných metod může dát jiný výsledný model, který kromě jiného závisí také na volbě kritických čísel F a F. Výsledný model lze považovat nejvýše za doporučení, nikoliv za nějaký důkaz. Zejména u krokové regrese se doporučuje najít několik téměř optimálních modelů a pokusit se najít mezi nimi ten, který má nejlepší interpretaci. Důležitým faktorem pro použití logistické regrese v praxi je poměrně snadná a přímočará interpretace odhadů parametrů logistického regresního p (1 p) modelu. Poměr, tedy poměr pravděpodobnosti výskytu určitého jevu ku pravděpodobnosti jeho nevýskytu, je v anglosaském světě označován jako odds a je zcela samozřejmě používán i mimo statistiku, např. při sázkách. Česká terminologie často zavádí pojem šance. Význam parametru w i v modelu logistické regrese se nejlépe interpretuje pomocí podílu dvou odds, označovaném jako odds ratio, česky nejčastěji poměr šancí nebo také křížový poměr. Máme-li x = (x 1,..., x i,... x p ) T x = (x 1,..., x i 1, x i, x i+1,... x p ) T, potom můžeme napsat odds(x) x odds(x ) = ewt e wt x = e wi(x x ), což vyjadřuje změnu šance při určité změně vlivu x i. Jedinou potíží při použití logistické regrese ve srovnání s obyčejnou lineární regresí je nemožnost použití metody nejmenších čtverců k odhadu regresních koeficientů w. Místo toho se k odhadnutí těchto koeficientů použije metoda maximální věrohodnosti. To v praxi vede k použití Newtonovy- Raphsonovy iterační metody. S použitím moderní výpočetní techniky to však není problém ani v případě, kdy máme k vývoji skorkarty k dispozici velmi velký vzorek pozorování. a 37

38 Obrázek 10: Newtonova-Raphsonova iterační metoda Newtonova-Raphsonova iterační metoda hledá maximum funkce, v tomto případě maximum logaritmické věrohodnostní funkce. Na počátku zvolíme nějaký bod a v tomto bodě aproximujeme funkci Taylorovým rozvojem druhého řádu, čímž získáme paraboloid. Přejdeme do bodu maxima tohoto paraboloidu a zjistíme hodnotu původní funkce v tomto bodě. Opět provedeme aproximaci Taylorovým rozvojem atd., až se přiblížíme k samotnému maximu zkoumané funkce. Na obrázku 10 vidíme věrohodnostní funkci a paraboloid z první iterace pomocí vrstevnic. Podrobný popis této metody uvádí například Kecman [13] Postup vývoje a výsledky modelu Pomocí omezení přípustných korelací a výpočtu váhy záznamu a informační hodnoty u vývojového vzorku jsem vyloučila 17 charakteristik, které se ukázaly jako neprediktivní, měly nelogický trend váhy záznamu (a tedy i poměru špatných účtů), byly silně korelované či rozložení mezi atributy bylo příliš nerovnoměrné. V případě vylučování jedné z dvojice korelovaných charakteristik jsem se rozhodovala podle jejich informační hodnoty a podle ovlivnění sezónností. Bodu pozorování bezprostředně předcházely Vánoční svátky, proto jsem preferovala čtvrtletní agregace před měsíčními. Do samotné regrese tak vstupovalo 43 charakteristik, jejichž výběrové korelace nepřesahovaly hodnotu 0,65, což je akceptovatelná mez vhledem k očekávané silné korelovanosti behaviorálních charakteristik. V příloze je uveden jejich seznam spolu s hodnotami váhy záznamu a informační hodnoty. Vysvětlení jednot- 38

39 livých charakteristik neuvádím na základě požadavku Raiffeisen Bank, a. s., jakožto poskytovatele dat. Vzhledem k velikosti vývojového vzorku by výsledný model měl mít nejvýše osm až deset charakteristik. Tento počet je doporučen firmou SAS Institute (školení o použití logistických modelů). Uvádí se, že z důvodu zachování robustnosti by součet počtu atributů všech charakteristik použitých v modelu neměl přesáhnout patnáctinu počtu špatných účtů ve vývojovém vzorku. V našem případě jsou charakteristiky rozděleny vždy na dva až tři atributy a počet špatných účtů ve vývojové části vzorku je 346. Pro vývoj regresního modelu se nejčastěji používají pětiprocentní a desetiprocentní hladiny významnosti. Pro hladinu 10% jsem zkusila vyhledat model sestupným a vzestupným výběrem. Obě metody vedly k mírně různému výběru charakteristik, kterých ale bylo 13, resp. 14. Krokovou regresí jsem po výsledcích vzestupného a sestupného výběru model hledat nezkoušela, nebot vzhledem k podobnosti obou výběrů bylo zřejmé, že počet charakteristik v modelu zůstane příliš vysoký. Při pětiprocentní hladině významnosti jsem model hledala sestupným, vzestupným i krokovým výběrem. Všechny postupy daly v tomto případě stejný model o desíti charakteristikách. Součet počtu atributů všech charakteristik v modelu však byl 29, což je vysoko nad doporučenou hranicí 23 atributů. Zvolila jsem tedy hladinu 1%. Přestože se tato hladina může zdát nízká, všechny tři výběry opět vedly k modelům o devíti charakteristikách s vysokým součtem počtu atributů. Zkusila jsem tedy nechat pomocí software SAS vygenerovat doporučení nejlepších modelů pro daný počet charakteristik podle uvedené hodnoty χ 2 -skore, viz tabulka 4. Přestože SAS vygeneruje i seznam charakteristik v daném modelu, zde tento seznam záměrně chybí opět na základě požadavku Raiffeisen Bank, a. s., o znehodnocení zveřejněných dat. Jak si lze povšimnout, již model s jednou charakteristikou je poměrně silný (vysoká hodnota χ 2 -skore). Do počtu pěti charakteristik se model oproti předchozímu modelu vždy výrazně zlepší. Do počtu osmi charakteristik v modelu dochází k mírnému, ale stále ještě znatelnému zlepšení, dále se již modely zlepšují jen velmi málo. I z tohoto pohledu by tedy počet charakteristik v modelu neměl přesáhnout osm, aby nedošlo například k přespecifikování modelu. Mohlo by se pak stát, že model nebude na nezávislých datech dostatečně prediktivní, přestože na vývojovém vzorku se bude jevit jako velmi silný. Abych počet charakteristik v modelu dále snížila, přistoupila jsem ke striktnější mezi pro přípustnou korelaci regresorů vstupujících do výběru. Při maximální hodnotě korelací 0,5 se jejich počet snížil na 36, přitom se podařilo 39

40 Počet charakteristik χ 2 -skore Tabulka 4: χ 2 -skore pro nejlepší model s daným počtem charakteristik 40

41 The SAS System The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 WOE_Val30DAvgVol <.0001 WOE_DispoVol <.0001 WOE_HeldAmt <.0001 WOE_DbTurn90DToLim <.0001 WOE_DbTr90DCnt <.0001 WOE_CrTr30DCnt WOE_PastDueFlag <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits WOE_Val30DAvgVol WOE_DispoVol WOE_HeldAmt WOE_DbTurn90DToLim WOE_DbTr90DCnt WOE_CrTr30DCnt WOE_PastDueFlag Association of Predicted Probabilities and Observed Responses Percent Concordant 92.1 Somers D Percent Discordant 6.1 Gamma Percent Tied 1.8 Tau-a Pairs c Obrázek 11: Výsledný model kroková regrese a sestupný výběr vyloučit několik velmi prediktivních charakteristik, které se do předchozích modelů dostaly. Při hladině významnosti ponechané na hodnotě 1% jsem opět pomocí SASu vyhledala všechny tři druhy výběru. Sestupný výběr a kroková regrese daly v tomto případě zcela shodný výsledek - model se sedmi charakteristikami. Vzestupný výběr vedl na jiný model s osmi charakteristikami. Jak výsledné modely vypadaly, ukazují výstupy ze SASu na obrázcích 11 a 12. Na nich je nejprve uvedena analýza maximálně věrohodných odhadů pro daný model. V prvním sloupci je název charakteristiky (intercept značí absolutní člen), DF znamená počet stupňů volnosti pro χ 2 -rozdělení, v dalších sloupcích jsou odhadnutá hodnota regresního koeficientu w, výběrová smě- 41

42 The SAS System The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 WOE_Val30DAvgVol <.0001 WOE_DispoVol <.0001 WOE_HeldAmt <.0001 WOE_CrTurn180DVol WOE_DbTurn90DToLim <.0001 WOE_DbTr90DCnt <.0001 WOE_CrTr30DCnt WOE_PastDueFlag <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits WOE_Val30DAvgVol WOE_DispoVol WOE_HeldAmt WOE_CrTurn180DVol WOE_DbTurn90DToLim WOE_DbTr90DCnt WOE_CrTr30DCnt WOE_PastDueFlag Association of Predicted Probabilities and Observed Responses Percent Concordant 92.3 Somers D Percent Discordant 6.1 Gamma Percent Tied 1.6 Tau-a Pairs c Obrázek 12: Výsledný model vzestupný výběr 42

43 The SAS System name grp woe Score maxvalue minvalue CrTr30DCnt CrTr30DCnt CrTr30DCnt DbTr90DCnt DbTr90DCnt DbTr90DCnt DbTurn90DToLim DbTurn90DToLim DbTurn90DToLim DispoVol DispoVol DispoVol PastDueFlag PastDueFlag HeldAmt HeldAmt Val30DAvgVol Val30DAvgVol Val30DAvgVol Obrázek 13: Skorkarta kroková regrese a sestupný výběr The SAS System name grp woe Score maxvalue minvalue CrTr30DCnt CrTr30DCnt CrTr30DCnt CrTurn180DVol CrTurn180DVol DbTr90DCnt DbTr90DCnt DbTr90DCnt DbTurn90DToLim DbTurn90DToLim DbTurn90DToLim DispoVol DispoVol DispoVol PastDueFlag PastDueFlag HeldAmt HeldAmt Val30DAvgVol Val30DAvgVol Val30DAvgVol Obrázek 14: Skorkarta vzestupný výběr 43

44 Obrázek 15: Sestupný výběr a kroková regrese - histogram rodatná odchylka, hodnota Waldovy χ 2 -statistiky a p-hodnota testu. V další části výstupu jsou uvedeny hodnoty odhadů poměrů šancí, konec výstupu patří ukazatelům výkonnosti. Jak si lze povšimnout, oba tyto modely vypadají výkonnostně velmi podobně. Procento konkordantních a diskordantních dvojic je prakticky stejné, přitom údaj pro konkordantní dvojice ukazuje na velkou diskriminační sílu obou vyvinutých modelů. Somer s D a ostatní statistiky jsou také v obou případech prakticky totožné. Jednoznačně nelze říci, který model je lepší, ikdyž model vyvinutý vzestupným výběrem se zdá být mírně výkonnější. Přitom hodnoty statistiky Somer s D pro pětiprocentní hladinu významnosti se pohybovaly kolem hodnoty 0,871 a pro desetiprocentní hladinu kolem 0,873. Lze tedy říci, že 44

45 Obrázek 16: Vzestupný výběr - histogram podstatné snížení počtu charakteristik v modelu s sebou neslo pouze malou změnu v jeho diskriminační síle. Výsledné skorkarty posledních dvou modelů jako počty bodů za atributy jednotlivých charakteristik jsou vidět na obrázcích 13 a 14. Skorkarty jsou rozškálovány na hodnoty skore od 0 do 1000 (resp. 1001). Z důvodu znehodnocení dat však zde neuvádím dělení do skupin (údaj grp) ani podrobný popis jednotlivých charakteristik. Pro další porovnání výkonnosti modelů jsem oskórovala oběma skorkartami účty ve vývojovém i validačním vzorku. Na obrázcích 15 a 16 jsou histogramy pro jednotlivá skoringová pásma. V každém obrázku ukazuje první dvojice histogramů rozložení dosaženého skore ve vývojovém vzorku a druhá 45

46 Regresní metoda vývojový vzorek validační vzorek vzestupný výběr 0,8626 0,8256 sest. výběr + krok. regr. 0,8605 0,8304 Tabulka 5: Hodnoty Giniho indexu dvojice ve validačním vzorku, vždy zvlášt pro dobré (horní histogram) a pro špatné klienty (dolní histogram). Pro oba modely jsem spočítala hodnotu Giniho indexu. Výsledné hodnoty ukazuje tabulka Testování na prediktivní horizont Základem tohoto testu je ukázat chování pro jiné časové horizonty, než pro které se model vyvíjí. Z výsledků je pak možné vysledovat vlastnosti chování modelu. Samotný test se provádí pomocí posouzení rozdělení skore pro dobré a špatné klienty podobně, jako je tomu při samotném vývoji. Testování se již může provádět na vývojovém a validačním vzorku dohromady. Pro tento test jsem zvolila časové horizonty jeden, tři a šest měsíců spolu s dvanáctiměsíčním horizontem použitým při vývoji. V praxi by bylo vhodné zvolit i delší horizonty, například 18 měsíců, v mém případě však data pro delší časový horizont nebyla k dispozici. V testu se pro každý z uvažovaných horizontů použijí hodnoty skore spočítané pro jednoroční horizont. Test jsem provedla pro oba nalezené regresní modely ve snaze určit z nich ten s lepšími vlastnostmi. Obrázky 17 a 18 ukazují rozložení skore zvlášt pro dobré a špatné klienty pro různě dlouhé predikční horizonty. Jak si lze povšimnout, pro predikční horizont o délce jednoho měsíce dosahují špatní klienti velmi nízkého skore a pro prodlužující se predikční horizont se objevují špatní klienti i ve vyšších skoringových pásmech. Tento jev je jasně patrný i při výpočtu ukazatelů výkonnosti, kde pro prodlužující se horizont vidíme jejich postupný pokles, viz tabulky 6 a 7. Tento pokles je však jen mírný a odráží určité časové změny v chování klientů. V obou skorkartách se klienti diferencují nejvýrazněji podle disponibinlí částky, kde od určité její výše dostávají až 230, resp. 243 bodů. Disponibilní částka se však může náhle skokově změnit. Velmi citlivě tak odráží aktuální finanční situaci klienta a indikuje blížící se selhání. Právě kvůli své volatilitě je pravděpodobnou příčinou poklesu výkonnosti obou modelů. 46

47 Obrázek 17: Sestupný výběr a kroková regrese - histogramy pro různé predikční horizonty Predikční horizont Gini Somer s D % concordant % discordant 1 měsíc 0,971 0,984 98,3 0,8 3 měsíce 0,953 0,976 98,1 1,2 6 měsíců 0,888 0,922 95,2 3,9 12 měsíců 0,852 0,854 92,1 6,7 Tabulka 6: Ukazatele výkonnosti pro různou délku predikčního horizontu, sestupný výběr a kroková regrese 47

48 Obrázek 18: Vzestupný výběr - histogramy pro různé predikční horizonty Predikční horizont Gini Somer s D % concordant % discordant 1 měsíc 0,969 0,974 98,3 0,9 3 měsíce 0,953 0,968 98,1 1,3 6 měsíců 0,890 0,913 95,3 4,0 12 měsíců 0,843 0,850 92,1 7,1 Tabulka 7: Ukazatele výkonnosti pro různou délku predikčního horizontu, vzestupný výběr 48

Pokazać jeszcze