BAYESOWSKA ANALIZA WIELOMIANOWEGO MODELU PROBITOWEGO DLA KATEGORII UPORZĄDKOWANYCH 1 Praca przedsawiona na posiedzeniu Komisi Nauk Ekonomicznych i komisi Saysyczno-Demograficzne Oddziału PAN w Krakowie dniu 8 kwienia 2003 r. przez Jerzego Marca. ABSTRACT J. Marzec. 2003, Bayesian analysis of ordered mulinomial probi model. Folia Oeconomica Cracoviensia. This paper presens he use of mulinomial probi model for ordered daa in he esimaion of consumer and morgage loans risk. Bayesian approach proposed by Alber and Chib (1993) for modeling oredered-response daa are presened. To compue he poserior disribuion of any desired quaniy of ineres, we apply he Gibbs sampling algorihm. We show resuls of empirical analysis of 4 caegories of loan i.e. normal loans, overdue loans, slack loans and bad loan. We predic he probabiliy of each caegories, which depends on nine explanaory variables such as: sex, age, size and source of clien s income, a ype of loan, a period of loan, informaion abou using a cheque deposi accoun and credi or paymens (ATM) cards by debors and he way a loan is given (by an agen or no). KEY WORDS: ordered mulinomial probi model, bayesian approach, Gibbs sampling, credi scoring model. SŁOWA KLUCZOWE: wielomianowego modelu probiowego dla kaegorii uporządkowanych, podeście bayesowskie, losowanie Gibbsa, kredyowy model scoringowy. 1. WSTĘP W lieraurze ekonomeryczne modele dla akościowych zmiennych endogenicznych określa się mianem modeli dyskrenego wyboru (ang. quanal response or discree choice models). Opisuą one zależność między wynikiem dokonywanych wyborów a egzogenicznymi zmiennymi obaśniaącymi, kóre mogą opisywać cechy możliwych alernayw (wyborów) lub indywidualne charakerysyki podmioów podemuących decyzę. W celu kwanyfikaci zmienne endogeniczne naczęście przymue się dla nie liczby nauralne, kóre reprezenuą kody poszczególnych możliwych alernayw (w przypadku kaegorii nieuporządkowanych) bądź rangi (dla kaegorii uporządkowanych) albo dane reprezenuące liczebność zbioru (wynikaące ze zliczenia; ang. coun daa 2 ). Sąd zbiór warości zmienne endogeniczne es zbiorem skończonym lub przeliczalnym. Jeżeli liczba alernayw es większa niż dwa i skończona, o mamy do czynienia z modelami wielomianowymi (ang. mulinomial response, polychoomous or muliple choice models), przy czym naczęście sosowanymi są modele probiowe i logiowe. Przykład zmiennych mierzonych na skali porządkowe es np. informaca o zarudnieniu (bezrobony, zarudniony w niepełnym 1 Auor pragnie wyrazić podziękowania Profesorowi Jackowi Osiewalskiemu za cenne uwagi i konsrukywną kryykę na kolenych eapach powsawania ninieszego opracowania. Praca wykonana w ramach badań sauowych finansowanych przez Akademię Ekonomiczną w Krakowie w roku 2003 r. 2 Gruszczyński (2001) używa określenia dane licznikowe dla coun daa. 1
wymiarze godzin, na pełny ea) lub skala odpowiedzi respondenów w badaniach ankieowych (np. skala Likera: zdecydowanie ak, racze ak, nie mam zdania, racze nie i zdecydowanie nie). Naomias zmienna określaąca np. wybór środka ransporu do pracy (własne auo, auobus, ramwa) lub wykonywany zawód (urzędnik, inżynier, poliyk, przedsiębiorca) ma charaker kaegorii nieuporządkowane. Danymi reprezenuącymi liczebność zbioru są np. ilość szkód komunikacynym popełnionych przez właściciela aua lub liczba ra kredyu, ze spłaą kórych zalega kredyobiorca. Te osanie są naczęście wykorzysywane w ubezpieczeniach i wykorzysuą rozkład Poissona lub ego liczne uogólnienia. Klasyfikacę modeli dyskrenych ze względu na rodza warości akie przymue zmienna endogeniczna wraz z zasosowaniami w ekonomii prezenue m.in. Maddala (1983). Zasadniczym celem ninieszego opracowania es prezenaca nowego bayesowskiego podeścia do esymaci wielomianowego modelu probiowego dla kaegorii uporządkowanych. W szczególności przedsawimy propozycę Albera i Chiba (1993), wykorzysuącą losowanie Gibbsa. Nasępnie zasosuemy o podeście do badania ryzyka kredyowego poedyncze umowy kredyowe dla klienów dealicznych pewnego polskiego banku komercynego. Niniesze opracowanie sanowi konynuacę badań empiryczno-meodologicznych, prezenowanych wcześnie w pracach: Marzec (2003a,b,c). Podeście bayesowskie w przypadku modeli wielomianowych zasosowali m.in. Zellner (1983), Zellner i Rossi (1984), Aber i Chib (1993), Koop i Poirier (1993), McCulloch i Rossi (1994), McCulloch, Polson i Rossi (2000). 2. MODEL WIELOMIANOWOWY DEFINICJA Naprossze definice modeli wielomianowych opieraą się na rozszerzeniu koncepci modelu dla dychoomiczne zmienne endogeniczne. Przymimy, że zmienne endogeniczne y (=1,,T) przymuą z usalonym prawdopodobieńswem p warości 1,2,,J, co zapisuemy 3 ( y ) F ( ) Pr = x,θ dla =1,,T i =1,, J (1) = gdzie F ( ) es znaną funkcą wiążącą prawdopodobieńswo p z wielkościami θ i x oraz określaącą klasę modelu, zaś θ i x są odpowiednio wekorem paramerów i wekorem zmiennych obaśniaących (zmiennych egzogenicznych lub ich znanych funkci); zob. Amemiya (1985). Naczęście za funkcę F ( ) przymue się dysrybuanę zmienne losowe o rozkładzie normalnym lub logisycznym. Szczegółowa specyfikaca modelu saysycznego zależy od ypu skali, na kóre dokonano pomiaru zmienne endogeniczne oraz od zakresu posiadanych informaci, kóre niosą zmienne egzogeniczne; zob. Amemiya (1981, 1985), Maddala (1983). Inny sposób definici modeli 3 Dla uproszczenia pominięo dodakowy indeks przy. 2
wielomianowych, zaproponowany przez McFaddena, wykorzysue koncepcę funkci użyeczności, co ma szczególnie zasosowanie w przypadku kaegorii nieuporządkowanych; zob. Maddala (1983) i lieraura am cyowana. Przypomnimy, że szczególnym i naprosszym przypadkiem modeli wielomianowych es model dychoomiczny (dla binarne zmienne y ), kóry uzyskuemy, gdy J = 2 dla =1,, T. W przypadku modeli wielomianowych podsawową i naczęście sosowaną meodą esymaci, gdy obserwace y są niezależne, es meoda nawiększe wiarygodności (MNW). Funkca wiarygodności dla modelu (1) ma posać L T J ( y) = ( F ) = 1 = 1 y θ, (2) gdzie y es zmienną zero-edynkową, kóra przymue warość eden, gdy obserwuemy y =, naomias zero w przeciwnym przypadku. O podsawowych własnościach meody MNW (zgodność i asympoyczna normalność) pisze m.in. Amemiya (1985). Zasosowanie e meody wymaga wykorzysania numerycznych meod opymalizaci (np. meoda Newona-Raphsona), co np. w przypadku duże liczby wyborów (J ) i związane z ym duże liczby paramerów może prowadzić do komplikaci obliczeniowych. W dalsze części przedmioem analizy będzie wyłącznie wielomianowy model probiowy dla kaegorii uporządkowanych przy założeniu ednakowe liczby alernayw (J J) oraz posiadania danych charakeryzuących edynie podmio dokonuący wybór. W lieraurze podae się, że model wielomianowy dla kaegorii uporządkowanych ako pierwsi zaproponowali Aichison i Silvey (1957). Wprowadzaąc ciągłe, nieobserwowalne (ukrye) zmienne z, kórych warości określaą obserwowaną kaegorię zmienne y, orzymuemy model o nasępuące posaci (zob. McKelvey i Zavoina (1975)) z y y = x β + ε = 1 gdy α 1 < z < α = 0 w przeciwnym przypadku, dla = 1, K, T = 1, K, J (3) gdzie x es wekorem zmiennych egzogenicznych, a paramery α są zw. punkami granicznymi. Z uwagi na idenyfikowalność paramerów zakłada się, że α 0 =- i α J =+ oraz α 1 = 0, eżeli w równaniu dla zmienne z wysępue wyraz wolny, co zakładamy w e pracy. Wówczas prawdopodobieńswo przyęcia przez zmienną y kaegorii wynosi p ( y = 1) = Pr( α < z < α ) = F( α x β ) F( α x ), Pr 1 1 β (4) gdzie F( ) es dysrybuaną sandaryzowane zmienne losowe ε, dla kóre przymue się naczęście rozkład logisyczny lub normalny. Pra (1981) prezenue warunki konieczne i wysarczaące na ednoznaczne isnienie esymaora MNW w modelu (3) w zależności od przyęego rozkładu dla ε. 3
W ekonomii, w przeciwieńswie do nauk przyrodniczych, modele wielomianowe dla kaegorii uporządkowanych są rzadzie sosowane niż modele dla kaegorii nieuporządkowanych. Spowodowane es o ym, iż po pierwsze, zawiska ekonomiczne cechuą się dużą złożonością, więc przyęcie a priori mocniesze skali dla zmienne obaśniane wydae się częso być założeniem zby silnym. Po drugie, użycie modelu dla kaegorii uporządkowanych, gdy w rzeczywisości zmienna obaśniana mierzona es na skali nominalne, choć poprawia efekywność esymaci, o prowadzi do poważnego obciążenia esymaora. W ninieszym opracowaniu konsrukca zmienne endogeniczne y (por. cześć 4) upoważnia nas do zasosowania modelu dla kaegorii uporządkowanych. 3. BAYESOWKI WIELOMIANOWY MODEL PROBITOWY Na gruncie bayesowskim model saysyczny es zdefiniowany poprzez łączny rozkład prawdopodobieńswa dla obserwaci i paramerów lub innych wielkości nieobserwowalnych. W modelu hierarchicznym (3) łączna funkca gęsości p(y, z, α, β), kórą w przypadku rozkładu mieszanego (dyskreno-ciągłego) nazywa się uogólnioną funkcą gęsości, ma posać p ( y, z, α, β ) p( y z, α ) p( z β ) p( α, β ), = (5) gdzie p(α, β) o rozkład a priori, kóry reprezenue wsępną wiedzę badacza o paramerach, przy czym zakłada się niezależność paramerów α i β, więc p(α, β) = p(α) p(β). W formule (5) zdegenerowany (ednopunkowy) rozkład próbkowy dla zaobserwowanego wekora y (warunkowy względem z i α) ma posać p T J ( y z, ) = [ y ( < I α 1 z < α )] α, (6) = 1 = 1 gdzie I(w Ω)=1, gdy w Ω i I(w Ω)=0, eżeli w Ω. W modelu probiowym rozkład próbkowy dla wekora zmiennych ukryych z, p(z β), es wielowymiarowym rozkładem normalnym o warości oczekiwane Xβ i ednoskowe macierzy kowarianci, gdzie macierz X o wymiarze T k zawiera w kolumnach obserwace poszczególnych zmiennych obaśniaących. Przyęe w pracy założenie o braku korelaci między ε i ε s dla każdego s es powszechnie spoykane w lieraurze. Podsawowa zasada esymaci bayesowskie sprowadza się do wyznaczenia z łącznego rozkładu prawdopodobieńswa (5) brzegowe gęsości dla wekora paramerów (α lub β) bądź wekora zmiennych ukryych z, warunkowe względem wekora obserwaci y, czyli zw. funkci gęsości rozkładu a poseriori. Korzysaąc ze wzoru Bayesa orzymuemy łączną funkcę gęsości rozkładu a poseriori dla α, β i z przy danym y, kóra przy założeniu niewłaściwego rozkładu ednosanego a priori dla α i β, ak w pracy Abera i Chiba (1993), ma posać 4
( y, z, α, β ) p( y) T J p 1 2 2 p( z, α, β y) = (2π ) exp( 2 z x ) ( y I ( 1 < z < ) 1 ( β ) α α (7) = 1 = 1 W celu uzyskania z formuły (7) brzegowych rozkładów a poseriori powinniśmy dokonać wielokronego całkowania, przy czym za sprawą niesandardowe posaci ego rozkładu całkowanie analiyczne es wykluczone. Model (3) charakeryzue się wysokim wymiarem przesrzeni paramerów i wielkości nieobserwowalnych, więc zasosowanie radycynych echnik numeryczne aproksymaci całek es nieskueczne. Liczba wszyskich paramerów i wielkości nieobserwowalnych es większa niż liczba obserwaci. Alber i Chib (1993) zaproponowali wykorzysanie w ym przypadku losowania Gibbsa (ang. Gibbs Sampling) ako meody numeryczne aproksymaci brzegowych rozkładów a poseriori. W celu zasosowania próbnika Gibbsa należy z gęsości (7) wyznaczyć pełne rozkłady warunkowe dla α, β i z, aby nasępnie na ich podsawie uzyskiwać poprzez wielokrone generowanie liczb pseudolosowych próbki z rozkładu a poseriori (choć ylko w sensie asympoycznym), zob. Casella i George (1992), Tierney (1994) lub Osiewalski (2001). Warunkowy względem α, β i obserwowane kaegorii zmienne y rozkład a poseriori dla z es ucięym rozkładem normalnym: ( x,1) z ( α, β, y = 1) ~ N β ucięy na lewo (na prawo) od α -1 (α ). (8) Naomias warunkowy rozkład a poseriori dla β=(β 1,,β κ ), p(β α,z,y), es akże wielowymiarowym rozkładem normalnym o wekorze warości oczekiwanych kowarianci (X X) -1, co zapisuemy ( ) ( k ) 1 1 β ( α, z, y) ~ N ˆ β,( X X ), gdzie = ( X X ) X z z z βˆ z i macierzy ˆβ. (9) Zauważmy, że gęsość rozkładu dla α warunkowego względem β, z, y i wszyskich α i (i ) es proporconalna do wyrażenia p α α i i, β, z, y α = 1 T [ y, I ( α 1 < z < α ) + y, + 1 I ( α < z < + 1) ] W efekcie pełny rozkład a poseriori dla α, warunkowy względem β, z, y i α i (i ), es rozkładem ednosanym α α i i ( max( α,( z y 1) ), min( α,( z y 1) ), β, z, y ~ U, = + 1, + 1 1 =.. (10) Próbkowanie Gibbsa polega na sekwencynym losowaniu z rozkładów (8), (9) i (10). Wcześnie należy przyąć warości począkowe dla α i β wykorzysuąc np. oceny MNW lub oceny esymaora meody namnieszych kwadraów dla β w liniowym modelu prawdopodobieńswa, 5
czyli korzysaąc z formuły (X X) -1 X y, naomias elemeny wekora α przyąć arbiralnie. Po wykonaniu dosaeczne liczby cykli wsępnych (n 0 ) orzymuemy próbę z ineresuących nas rozkładów a poseriori ( n 0 1) ( n+ n0 ) θ +, K, θ, na podsawie kóre liczymy charakerysyki ych rozkładów ak warości oczekiwane i odchylenia sandardowe a poseriori dla poszczególnych paramerów (θ) lub ich funkci g(θ), wg formuł g( ) [ g( θ ) y] E ( g( θ )) [ y] ( ) 2 2 ~ n D = µ. n0 n 1 ( h) [ θ y] n g( θ ) = ~ n E = + µ + h= n0 1 Zasadniczym problemem poawiaącym się przy zasosowaniu meod ypu Mone Carlo oparych na łańcuchach Markowa es ocena zbieżności ego algorymu. Możemy spodziewać się, że sabilizaca w kolenych cyklach warości oczekiwanych i odchyleń sandardowych a poseriori po odrzuceniu odpowiednie liczby począkowych losowań, zw. cykli spalonych, oznacza osiągnięcie zbieżności e meody. Jedną z graficznych meod badania zbieżności algorymu es meoda CuSum zaproponowana przez Yu i Myklanda, kóra wraz z innymi es opisana w pracy Cowles i Carlin (1996). W ninieszym opracowaniu monioruemy warości sandaryzowane saysyki CuSum i : CuSum i ~ µ ~ i µ = ~ σ n n dla i = n 0 i ~ 1 ( h) + 1, K, n + n, gdzie µ = ( i n ) g( θ ). (11) 0 i 0 h= n0 + 1 Jeżeli zakres zmienności wielkości CuSum i malee wraz z ilością cykli Gibbsa do zera lub kszałue się na poziomie rzędu np. ±5% lub mnie, o możemy przyąć, iż zbieżność algorymu zosała osiągnięa. Rysunek 1 przedsawia kszałowanie się CuSum i dla paramerów α i β, po odrzuceniu 300 ys. cykli wsępnych. W ym momencie waro wspomnieć, że na gruncie bayesowskim przy dość ogólnych założeniach, oceny MNW można rakować ako przybliżone warości oczekiwane rozkładu a poseriori paramerów, kóry w przypadku duże liczby obserwaci można przybliżać rozkładem normalnym, zob. Osiewalski (1991). W dalsze części opracowania prezenuemy wyniki empiryczne uzyskane dla bardzo duże liczby obserwaci, a zaem zasosowanie MNW w ym przypadku z punku widzenia eorii powinno okazać się równoważne wnioskowaniu bayesowskiemu. Rysunek 1 zaś 4. WYNIKI EMPIRYCZNE Przedsawiony powyże wielomianowy model probiowy oraz podeście bayesowskie wykorzysaliśmy do badania niewypłacalności kredyobiorców dealicznych. W ym celu posłużyliśmy się zbiorem danych, na podsawie kórych wcześnie dokonaliśmy esymaci modeli 6
dychoomicznych,. modelu probiowego, logiowego oraz ich uogólnienia, czyli modelu z rozkładem -Sudena o nieznane liczbie sopni swobody; zob. Marzec (2003a,b,c). Dane pochodzące z dużego, polskiego banku komercynego obemowały dosępne informace o kredyobiorcach indywidualnych i udzielonych im kredyach dealicznych,. kredyach konsumpcynych i hipoecznych. Liczyły one prawie 40 ysięcy rachunków i obemowały okres od 01.01.2000 do 30.09.2001 r. W celu określenia zmienne endogeniczne y wykorzysaliśmy klasyfikacę należności, do kóre banki są zobowiązane reścią uchwały Komisi Nadzoru Bankowego w sprawie zasad worzenia rezerw na ryzyko związane z działalnością banków 4. W przypadku kredyów dealicznych wyróżnia się czery kaegorie należności,. należności normalne, poniże sandardu, wąpliwe i sracone. Sposób kwalifikaci poszczególnych kredyów zależy od erminowości spła przez dłużnika kapiału i odseek oraz ego syuaci ekonomiczno-finansowe. Wobec powyższego przyęliśmy, iż zmienna obaśniana y przymue czery warości (J=4), kóre ednocześnie oznaczaą kaegorie należności lub równoważnie okres opóźnienia w spłacie przez kredyobiorcę ra kapiałowo-odsekowych: Kaegoria należności Okres opóźnienia w spłacie Obserwowany udział w próbie 1 Normalne Do 1 miesiąca 80.3% 2 Poniże sandardu Od 1 do 3 miesięcy 6.0% 3 Wąpliwe Od 3 do 6 miesięcy 6.3% 4 Sracone Powyże 6 miesięcy 7.4% Niech y 1 = 1, gdy kredy zakwalifikowany zosał do kaegorii należności normalnych, naomias y 2 = 1, gdy kredy es oznaczony ako poniże sandardu id. Z punku widzenia zarządzania ryzykiem kredyowym bank sara się minimalizować w globalnym porfelu kredyowym udział kredyów z drugie, rzecie i czware kaegorii, czyli należności z grupy zagrożonych, wprowadzaąc m.in. meody oceny solidności kredyowe kredyobiorcy zwane meodami credi-scoring. Wyniki empiryczne przedsawione poniże mogą być podsawą do budowy prakycznego modelu scoringowego. Jako poencalne zmienne egzogeniczne wyaśniaące ryzyko poedyncze umowy kredyowe przyęliśmy (ak we wcześnieszych pracach): 5 płeć (zmienna przymue warość 1, eżeli klienem es mężczyzna, 0 w przypadku kobiey), wiek kredyobiorcy (w sekach la), wpływy, zn. wielkość miesięcznych wpływów w laach 2000-2001 (w sekach ys. zł) na rachunki ypu ROR kredyobiorcy w badanym banku, 4 Uchwała nr 8/1999 Komisi Nadzoru Bankowego z 22 grudnia 1999 r. sanowi zasady worzenia przez banki rezerw celowych od należności zagrożonych. 5 Dodakowo wprowadziliśmy zmienną informuącą o okresie rwania umowy kredyowe. Więce informaci o zbiorze danych prezenuemy w pracy Marzec (2003a). 7
posiadanie ROR w analizowanym banku (1 posiada, 0 nie posiada), informacę o ym, czy kredyobiorca posiada kary płanicze lub kredyowe wydane przez bank (1 posiada choć edną karę płaniczą, 0 nie posiada), sposób udzielenia kredyu (1 poprzez pośrednika kredyowego, 0 bezpośrednio przez bank), yp kredyu (1 kredy konsumpcyny, 0 kredy hipoeczny), okres rwania umowy kredyowe (w dziesiąkach la), podsawowe źródło dochodu uzyskiwanego przez kredyobiorcę (zmienne zrdoch),. umowa o pracę, albo rena lub emeryura, albo własna działalność, umowa o dzieło lub umowa zlecenie, albo inne źródło (np. sypendium). Osania zmienna może przymować czery różne warości. Chcąc ą uwzględnić w równaniu regresi z wyrazem wolnym wprowadziliśmy rzy zmienne zeroedynkowe, a za punk odniesienia przyęliśmy umowę o pracę (zrdoch1 = 0 i zrdoch2 = 0, i zrdoch3 = 0), a w pozosałych przypadkach: zrdoch1 = 1, gdy źródłem dochodu kredyobiorcy es rena lub emeryura, zrdoch1 = 0 w przeciwnym przypadku, zrdoch2 = 1, gdy źródłem dochodu kredyobiorcy es własna działalność, umowa o dzieło lub umowa zlecenie, zrdoch2 = 0 w przeciwnym przypadku, zrdoch3 = 1 w przypadku innego źródła dochodu, np. sypendium, zrdoch3 = 0 w przeciwnym przypadku. W niniesze pracy podobnie ak w pracy Marzec (2003c) - założyliśmy, że w modelu (3) prawdopodobieńswo zakwalifikowania kredyu do edne z kaegorii należności, może zależeć liniowo nie ylko od zmiennych egzogenicznych w h, ale akże od iloczynów ych zmiennych oraz kwadraów zmiennych ciągłych (wiek, wpływy, okres), co prowadzi do nasępuącego, bardzie ogólnego modelu: z y y = β + = w β + 1 h h h 1 gdy α 1 < z i h < α = 0 w przeciwnym przypadku, h w w β + ε h i hi dla = 1, K, T = 1, K, J (12) Z punku widzenia omówionych wcześnie meod wnioskowania, z es nadal liniowo zależne od paramerów β, więc aki nieliniowy sposób wprowadzenia zmiennych egzogenicznych nie wnosi żadnych komplikaci na eapie esymaci. Powyższa modyfikaca może przyczynić się do lepszego oszacowania p. Jeżeli prawdziwa zależność z od w h es nieliniowa, o wielomian sopnia drugiego (względem w h ) es lepszą aproksymacą (wyższego rzędu) niż wielomian sopnia pierwszego (funkca liniowa względem w h ). Ponado w modelu (12) iloraz pochodnych cząskowych prawdopodobieńswa p względem zmiennych w h i w g, zw. efeków krańcowych zależy od 8
wszyskich zmiennych egzogenicznych, czyli dla każde obserwaci może być inny. Naomias, eżeli założymy β hi =0, o iloraz en es równy ilorazowi paramerów,. β h /β g, a zaem nie zależy od warości ych zmiennych. Powyższe rozszerzenie liczby czynników wyaśniaących p może być przedmioem saysyczne weryfikaci, kóre wyniki pokazuemy w dalsze części. Uzyskane wyniki empiryczne wskazały (zgodnie z eorią), że w przypadku ak duże liczby obserwaci, wyniki MNW są idenyczne z rezulaami orzymanymi za pomocą podeścia bayesowskiego. Uzyskanie zbieżności algorymu Gibbsa wymagało wykonania duże liczy cykli spalonych, ponieważ wymiar przesrzeni paramerów i wielkości nieobserwowalnych liczył prawie 40 ysięcy. Drugim czynnikiem negaywnie wpływaącym na zbieżność próbkowania Gibbsa mogła być silna współliniowość spowodowana uwzględnieniem w modelu (12) iloczynów i kwadraów zmiennych w h. Tabela 1 zawiera warości oczekiwane i odchylenia sandardowe a poseriori dla paramerów modelu (12), czyli dla wekorów α i β. Tabela 1 W celu saysyczne weryfikaci zasadności wprowadzenia w modelu (12) iloczynów i kwadraów zmiennych w h wykorzysaliśmy bayesowski odpowiednik klasycznego esu F na redukcę modelu, posługuąc się formą kwadraową: T 1 u( β )= ( β - b(2) ) H ( - b(2) )/ k 2, gdzie β (2) = [β 13 β 66 ]. (13) (2) (2) 22 β (2) Jeżeli brzegowy rozkład a poseriori wekora β (2) es k 2 -wymiarowym rozkładem -Sudena o T-k sopniach swobody (1 k 2 k), wekorze niecenralności b (2) i macierzy precyzi H -1 22, o rozkład a poseriori wielkości u(β (2) ) es rozkładem F-Snedecora o (k 2, T-k) sopniach swobody; zob. Zellner (1971). Dla resrykci β (2) = [0 0], kóra odpowiada redukci modelu (12) do modelu liniowego względem w h, warość u([0 0] ) wynosi ponad 17. Orzymana warość znadue się w prawym ogonie rozkładu F(k 2,T-k), kóry dla ak duże liczby obserwaci es dobrą aproksymacą rozkładu a poseriori e formy kwadraowe, gdy nie znamy dokładne posaci brzegowego rozkładu a poseriori dla β (2). Ponieważ wybrany elemen podprzesrzeni paramerów (β (2) = [0 0] ) znadue się w podzbiorze warości paramerów mało prawdopodobnych a poseriori, więc nie eseśmy skłonni przyąć, że β (2) = [0 0] i nie dokonuemy redukci modelu 6. Poedyncze paramery β h lub β hi modelu wielomianowego nie maą bezpośrednie inerpreaci, nawe w przypadku naprosszym, gdy β hi = 0. Wpływ marginalnych zmian zmiennych obaśniaących w h na zmianę prawdopodobieńswa p wyrażaą efeky krańcowe bądź 6 Podobne wyniki orzymaliśmy akże w przypadku modeli dwumianowych, por. Marzec (2003c). 9
1 elasyczności. Tabela 2 zawiera efeky krańcowe - η h = T Pr( = 1) y w pochodna cząskowa p względem w h i uśrednione po wszyskich obserwacach 7. Tabela 2 h - obliczone ako Inerpreuąc efeky krańcowe można zauważyć, że dla usalone zmienne obaśniane suma η h wynosi zero, co wynika z własności sumowania się prawdopodobieńswa do edności. W konsekwenci efeky krańcowe dla dwóch skranych alernayw,. η 1h i η 4h, charakeryzuą się przeciwnymi znakami. Z uwagi na przyęą różniczkową definicę efeków krańcowych szczegółowo omówimy efeky krańcowe edynie względem zmiennych ciągłych, naomias w przypadku zmiennych zero-edynkowych ograniczymy się do oceny akościowe, zwracaąc uwagę edynie na znak η h. Jeżeli wiek kredyobiorcy zwiększy się o 1 rok, o przy założeniu ceeris paribus prawdopodobieńswo zakwalifikowania ego kredyu do kaegorii należności normalnych (p 1 ) wzrośnie średnio o 0.00227 ednoski z błędem ±0.00105, równocześnie prawdopodobieńswo zakwalifikowania do kaegorii poniże sandardu spadnie przecięnie o 0.00032 (±0.00020), zakwalifikowania do rzecie kaegorii obniży się o 0.00058 (±0.00029), zaś do czware (p 4 ) o 0.00136 (±0.00057). Naomias wzros wpływów na bieżący rachunek depozyowy kredyobiorcy o ysiąc złoych spowodue przecięny wzros p 1 o 0.02969 (±0.00982), a więc o yle samo obniży się prawdopodobieńswa zakwalifikowania kredyu do pozosałych kaegorii należności, przy czym prawdopodobieńswo opóźnienia spłay kredyu dłuższego niż 6 miesięcy (p 4 ) ulegnie obniżeniu średnio o 0.01780 (±0.00628). Wraz z wydłużeniem okresu kredyowania kliena, prolongaą kredyu o rok, wielkość p 1 i p 2 przecięnie wzrośnie odpowiednio o 0.0112 (±0.0017) i 0.0006 (±0.0003), naomias p 3 i p 4 obniży się o 0.0020 (±0.0005) i 0.0098 (±0.0010). Udzielenie kredyu poprzez pośrednika, podobnie ak sprzedaż kredyu konsumpcynego zamias hipoecznego, zwiększa ryzyko kredyowe, naomias posiadanie kary płanicze lub kredyowe zmniesza e (powodue wzros p 1 ). Analogicznie, eżeli hipoeycznym klienem es mężczyzna, o ryzyko niedorzymania przez niego umowy (zaniechania spłay ra i odseek) es wyższe niż w przypadku kobiey. Sudenci korzysaący z kredyu sudenckiego (zrdoch3) oraz emeryci i renciści (zrdoch1) są mnie ryzykownymi kredyobiorcami niż klienci zarudnieni na umowę o pracę. Spośród czerech źródeł dochodów nawiększe ryzyko kredyowe związane es z udzieleniem kredyu klienom prowadzącym własną działalność gospodarczą (zrdoch2). Efeky krańcowe względem zmienne ROR charakeryzuą się relaywnie dużymi odchyleniami sandardowe a poseriori, co świadczy o 7 Formuła opara pochodnych ma uzasadnienie w przypadku zmiennych ciągłych, naomias w przypadku zmiennych zero-edynkowych powinno się sosować formułę różnicy prawdopodobieńsw, zn. Pr(y =1 w h =1) Pr(y =1 w h =0), kóra ponado gwaranue spełnienie warunku -1< η h <1. 10
braku wpływu e zmienne na wielkość p. Powyższe wyniki są akościowo zgodne z wynikami uzyskanymi dla modeli dwumianowych w pracach Marzec (2003a,b,c). Oszacowany model możemy wykorzysać do celów prognosycznych, czyli prognozowania okresu opóźnienia w spłacie kredyu, co es główną podsawą do określenia kaegorii należności. Dla uproszczenia rozważmy, ak w pracach Marzec (2003a,b,c), czery hipoeyczne sylweki klienów saraących się o kredy, kóre przedsawia Tabela 3. Tabela 3 Spośród czerech poencalnych kredyobiorców namniesze ryzyko kredyowe związane es ze sarszą panią urzymuącą się z emeryury w kwocie 1 ysiąca złoych neo, kóre udzielono kredy hipoeczny. Prawdopodobieńswo erminowe spłay przez nią ra kapiałowo-odsekowych es prakycznie równe edności. Nawiększe ryzyko kredyowe związane es z kredyem, kóry zosał udzielony poprzez pośrednika młodemu mężczyźnie prowadzącemu własną działalność gospodarczą, kóry doąd nie korzysał z innych usług badanego banku. Prawdopodobieńswo, że będzie on erminowo spłacał kredy wynosi ylko 0.45, a prawdopodobieńswo opóźnienia spłay od ednego do 3 miesięcy (od 3 do 6 miesięcy) wynosi 0.13 (0.16). Naomias prawdopodobieńswo opóźnienia dłuższego niż 6 miesięcy (czwara kaegoria należności), kóre powodue obowiązek worzenia 100% rezerw celowych, wynosi aż 0.26. Waro wspomnieć, że kredyy udzielane przez pośredników przeznaczone były przede wszyskim na raalne zakupy sprzęu AGD, mebli ip., więc doyczyły one niewielkich kwo, lecz ich udział ilościowy w porfelu kredyowym był znaczący, a więc koszy ewenualne windykaci należności byłyby duże. Idenyfikaca zaem grupy klienów obarczone dużym ryzykiem kredyowym es podsawowym krokiem zmierzaącym do minimalizaci ryzyka kredyowego porfela banku. Negaywny wpływ korzysania przez bank z usług pośredników kredyowych na ryzyko kredyowe powierdza analiza naczęsszego kliena, zn. o cechach naczęsszych w próbie (doyczy zmiennych akościowych) i przecięnych (dla zmiennych ciągłych) w badane zbiorowości. Jeżeli udzielono mu kredyu bezpośrednio przez bank, a zaem ego zdolność kredyowa zosała zweryfikowana przez pracownika banku, wówczas prawdopodobieńswo dorzymania przez niego umowy es bardzo wysokie i wynosi ponad 0.96, naomias prawdopodobieńswo opóźnienia w spłacie dłuższego niż 6 miesięcy es znikome poniże 0.01. Gdyby udzielono mu kredyu poprzez pośrednika, wówczas prawdopodobieńswo zakwalifikowania ego kredyu do pierwsze kaegorii ryzyka obniżyłoby się do poziomu 0.8, zakwalifikowania do drugie wynosiłoby 0.08, do rzecie prawie 0.07, a prawdopodobieńswo całkowiego zaniechania spłay kszałowałoby się na poziomie 0.05. Waro zauważyć, że oszacowane wielkości p dla ego poencalnego kredyobiorcy odpowiadaą w przybliżeniu empirycznym udziałom ilości poszczególnych kaegorii należności w badanym porfelu kredyów dealicznych. 11
Tabela 4 Nasępnie zbadaliśmy zdolność prognosyczną oszacowanego powyże modelu. W ym celu obliczyliśmy przecięne eoreyczne prawdopodobieńswa zakwalifikowania rachunków kredyowych do każde z czerech kaegorii należności; zob. Tabela 5. Prawdopodobieńswo poprawnego zakwalifikowania przez model kredyów z pierwsze kaegorii należności es wysokie i wynosi 0.86. Niesey, model niezby rafnie klasyfikue kredyy z pozosałych grup ryzyka, zgodnie z inuicą doyczy o zwłaszcza rachunków o kaegorii poniże sandardu i wąpliwe. Odseek poprawnie zakwalifikowanych rachunków w grupie drugie wynosi ylko 11%, w rzecie 13%, w czware 20%, przy czym odpowiednio aż 62, 60 i 55 procen kredyów z ych kaegorii zosało uznanych za należności normalne. Model więc zby opymisycznie ocenia ryzyko związane z rachunkami kredyowymi, co z punku widzenia zarządzania ryzykiem banku nie es cechą pożądaną. Tabela 5 5. PODSUMOWANIE W ninieszym opracowaniu zaprezenowaliśmy, odwołuąc się do lieraury przedmiou, specyfikacę i esymacę bayesowskiego wielomianowego modelu probiowego dla kaegorii uporządkowanych. Przedsawiliśmy losowanie Gibbsa ako auomayczną meodę numeryczne aproksymaci brzegowych rozkładów a poseriori i charakerysyk ych rozkładów. Waro wspomnieć, iż dla małe próby podeście bayesowskie es polecane z uwagi na nieasympoyczne (małopróbkowe) własności, na co zwrócił uwagę Zellner (1983), pierwszy sosuąc o podeście w przypadku logiowego modelu wielomianowego. Z punku widzenia zarządzania ryzykiem kredyowym, na podsawie zaprezenowanego modelu wielomianowego, uzyskaliśmy nowe wyniki empiryczne w sosunku do rezulaów orzymanych dla modelu dwumianowego. Jednakże oszacowany model nie wykazue zby dobrych zdolności prognosycznych, co może być spowodowane przyęciem zby silnego założenia o rozkładzie normalnym dla składnika losowego w równaniu (3). Ponado wprowadzenie dodakowych zmiennych egzogenicznych prawdopodobnie poprawiłoby dopasowanie modelu do danych empirycznych. Wyniki doychczasowych badań empirycznych uzasadniaą porzebę sosowania modelu wykorzysuącego rozkład o grubych ogonach,. rozkładu -Sudena, kóry w przypadku modelu dwumianowego zdecydowanie lepie opisywał dane niż model probiowy czy logiowy, zob. Marzec (2003c). Budowa i esymaca modelu oparego na ym rozkładzie wydae się być nauralnym kierunkiem dalszych pogłębionych badań meodologiczno-empirycznych. 12
BIBLIOGRAFIA Aichison J., S. Silvey, 1957, The Generalizaion of Probi Analysis o he Case of Muliple Responses, Biomerika, 44, s. 253-262. Alber J. Chib S., 1993, Bayesian Analysis of Binary and Polychoomous Response Daa, Journal of he American Saisical Associaion, 88, s. 669-679. Amemiya T., 1981, Qualiaive Response Models: A Survey, Journal of Economic Lieraure, vol. 19, s. 1483-1536. Amemiya T., 1985, Advanced Economerics, Harvard Universiy Press, Cambridge (Massachuses). Casella G., E. George, 1992, Explaining he Gibbs Sampler, The American Saisician, 46. Cowles M.K., B.P. Carlin, 1996, Markov Chain Mone Carlo Covergence Diagnosic: A Comparaive Review, Journal of he American Saisical Associaion, 91, s. 883-904. Greene W.H., 1993, Economeric Analysis, Macmillan Publishing Company, New York. Gruszczyński M., 2001, Modele i prognozy zmiennych akościowych w finansach i bankowości, Monografie i Opracowania SGH, Warszawa, nr 6. Koop, G., D. Poirier, 1993, Bayesian Analysis of Logi Models using Naural Conugae Priors, Journal of Economerics, 56, s. 323-340. Maddala G.S., 1983, Limied Dependen and Qualiaive Variables in Economerics, Cambridge Universiy Press, Cambridge. Marzec J., 2003a, Badanie niewypłacalności kredyobiorcy na podsawie modeli logiowych i probiowych, Zeszyy Naukowe Akademii Ekonomiczne w Krakowie nr 628, 103-117. Marzec J., 2003b, Badanie niespłacalności kredyów za pomocą bayesowskich modeli dychoomicznych - założenia i wyniki, Meody ilościowe w naukach ekonomicznych (red. A. Welfe), Wydawnicwo SGH w Warszawie. Marzec J., 2003c, Bayesowska analiza modeli dyskrenego wyboru (dwumianowych), Przegląd Saysyczny, om 50, nr 4, s. 129-146. McCulloch R.E, N.G. Polson, P. E. Rossi, 2000, A Bayesian Analysis of he Mulinomial Probi Model wih Fully Idenified Parameers, Journal of Economerics, 99, s. 173-193. McCulloch R.E., P. E. Rossi, 1994, An exac Likelihood Analysis of he Mulinomial Probi Model, Journal of Economerics, 64, s. 207-240. McKelvey R.D., W. Zavoina, 1975, A Saisical Model for he Analysis of Ordinary Level Dependen Variables, Journal of Mahemaical Sociology, 4, s. 103-120. Osiewalski J., 1991, Bayesowska esymaca i predykca dla ednorównaniowych modeli ekonomerycznych, Akademia Ekonomiczna w Krakowie, Zeszyy Naukowe, Seria specalna: Monografie, nr 100, Kraków. Osiewalski J., 2001, Ekonomeria bayesowska w zasosowaniach, Wydawnicwo Akademii Ekonomiczne w Krakowie, Kraków. Pra J.W., 1981, Concaviy of he Log Likelihood, Journal of he American Saisical Associaion, vol. 76, nr. 373, s. 103-106. Tierney L., 1994, Markov Chains for Exploring Poserior Disribuions (wih discussion), Annals of Saisics, 22, s. 1701-1762. Wiśniewski J., 1986, Ekonomeryczne badanie zawisk akościowych (sudium meodologiczne), Uniwersye M. Kopernika, Toruń. Zellner A., 1971, An Inroducion o Bayesian Inference in Economerics, J. Wiley, New York 1971. Zellner A., 1983, Bayesian Analysis of Simple Mulinomial Logi Model, Economics Leers, 11, s. 133-136. Zellner A., P. Rossi, 1984, Bayesian Analysis of Dichoomous Quanal Response Models, Journal of Economerics, 25, s. 365-393. 13
Tabela 1. Warości oczekiwane i odchylenia sandardowe a poseriori paramerów bayesowskiego wielomianowego modelu probiowego. Zmienna Paramer E( y) D( y) Zmienna Paramer E( y) D( y) α 2 0.329 0.005 (w 3 ) 2 β 33-0.011 0.002 α 3 0.787 0.013 w 3 w 4 β 34 6.269 6.155 Sała β 1-1.811 0.600 w 3 w 5 β 35 0.184 0.313 Płeć (w 1 ) β 2 0.577 0.212 w 3 w 6 β 36-1.872 1.692 Wiek (w 2 ) β 3-0.730 1.117 w 3 w 7 β 37-1.086 0.445 Wpływy (w 3 ) β 4-12.552 6.277 w 3 w 8 β 38 0.026 0.328 ROR (w 4 ) β 5 1.340 0.452 w 3 w 9 β 39-14.501 2.927 Kary (w 5 ) β 6-1.261 0.632 w 3 w 10 β 40 4.762 0.495 Pośrednik (w 6 ) β 7 1.955 0.134 w 3 w 11 β 41-0.953 2.574 Typ kredyu (w 7 ) β 8 0.438 0.554 w 4 w 5 β 42 0.491 0.548 Okres (w 8 ) β 9-1.596 0.487 w 4 w 6 β 43 0.003 0.113 Zrdoch1 (w 9 ) β 10-27.934 8.294 w 4 w 7 β 44-1.233 0.403 Zrdoch2 (w 10 ) β 11 0.907 0.365 w 4 w 8 β 45-0.257 0.227 Zrdoch3 (w 11 ) β 12 2.441 0.798 w 4 w 9 β 46 0.332 0.156 w 1 w 2 β 13-0.382 0.163 w 4 w 10 β 47-0.176 0.144 w 1 w 3 β 14-0.158 0.327 w 4 w 11 β 48 0.626 0.500 w 1 w 4 β 15 0.209 0.075 w 5 w 6 β 49 0.050 0.124 w 1 w 5 β 16-0.077 0.071 w 5 w 7 β 50 0.257 0.223 w 1 w 6 β 17 0.009 0.061 w 5 w 8 β 51 0.275 0.174 w 1 w 7 β 18-0.334 0.181 w 5 w 9 β 52 0.112 0.147 w 1 w 8 β 19-0.304 0.109 w 5 w 10 β 53 0.052 0.104 w 1 w 9 β 20 0.003 0.055 w 5 w 11 β 54-0.124 0.259 w 1 w 10 β 21-0.158 0.080 w 6 w 8 β 55-2.222 0.205 w 1 w 11 β 22-0.199 0.163 w 6 w 9 β 56 0.081 0.104 (w 2 ) 2 β 23-0.326 0.650 w 6 w 10 β 57-0.431 0.133 w 2 w 3 β 24 3.141 1.517 w 6 w 11 β 58 0.773 0.496 w 2 w 4 β 25-0.554 0.358 w 7 w 8 β 59 1.964 0.320 w 2 w 5 β 26 0.950 0.346 w 7 w 9 β 60 28.250 8.294 w 2 w 6 β 27-0.589 0.292 w 7 w 10 β 61-0.091 0.253 w 2 w 7 β 28 0.571 0.899 w 7 w 11 β 62-3.084 0.527 w 2 w 8 β 29 1.390 0.547 (w 8 ) 2 β 63 0.450 0.132 w 2 w 9 β 30-0.710 0.311 w 8 w 9 β 64-0.329 0.205 w 2 w 10 β 31-0.874 0.392 w 8 w 10 β 65-0.156 0.187 w 2 w 11 β 32 1.127 0.722 w 8 w 11 β 66-2.270 0.375 Źródło: obliczenia własne. 14
Warości oczekiwane i odchylenia sandardowe a poseriori uśrednionych efeków krańcowych 1 T Pr y = 1 w. ( ) zmienna = 1 = 2 = 3 = 4 E() D() E() D() E() D() E() D() płeć -0.008 (0.003) 0.003 (0.001) 0.002 (0.001) 0.003 (0.002) wiek 0.227 (0.105) -0.032 (0.020) -0.058 (0.029) -0.136 (0.057) wpływy 2.969 (0.982) -0.426 (0.109) -0.763 (0.247) -1.780 (0.628) ROR -0.031 (0.026) 0.013 (0.010) 0.010 (0.008) 0.008 (0.011) kary 0.082 (0.084) -0.010 (0.009) -0.020 (0.021) -0.053 (0.055) pośrednik -0.220 (0.007) 0.037 (0.002) 0.056 (0.002) 0.127 (0.004) yp kredyu -1.277 (0.340) 0.213 (0.060) 0.355 (0.096) 0.709 (0.185) okres kredyowania 0.112 (0.017) 0.006 (0.003) -0.020 (0.005) -0.098 (0.010) zrdoch1 0.100 (0.026) -0.046 (0.011) -0.035 (0.009) -0.020 (0.008) zrdoch2-0.009 (0.010) 0.009 (0.002) 0.004 (0.002) -0.004 (0.006) zrdoch3 0.030 (0.019) -0.008 (0.004) -0.009 (0.005) -0.013 (0.012) Źródło: obliczenia własne. Opis wybranych sylweek kredyobiorców. Naczęsszy klien Młody Sarsza zmienna pośrednik=1 pośrednik=0 Biznesmen pani Płeć 1 1 1 0 Wiek (w laach) 40.2 40.2 21 60 Wpływy (w ys. zł/miesiąc) 10.2 10.2 0 1 ROR 1 1 0 1 Kary płanicze 0 0 0 1 Pośrednik 1 0 1 0 Typ kredyu: konsumpcyny 1 1 1 0 Okres kredyu (w laach) 2.6 2.6 2.6 2.6 Zrdoch1 0 0 0 1 Zrdoch2 0 0 1 0 Zrdoch3 0 0 0 0 Źródło: obliczenia własne. h Tabela 2. Tabela 3. 15
Tabela 4. Warości oczekiwane i odchylenia sandardowe a poseriori prawdopodobieńswa zakwalifikowania kredyu hipoeycznego kliena do poszczególnych kaegorii należności. Źródło: obliczenia własne. =1 =2 =3 =4 Naczęsszy E() 0.803 0.078 0.068 0.052 (pośrednik=1) D() (0.044) (0.012) (0.015) (0.016) Naczęsszy E() 0.965 0.019 0.011 0.005 (pośrednik=0) D() (0.004) (0.002) (0.001) (0.001) Młody E() 0.450 0.130 0.164 0.256 Biznesmen D() (0.039) (0.002) (0.008) (0.032) Sarsza E() 0.999 1.61E-56 1.11E-58 1.08E-61 Pani D() (1.97E-53) (2.55E-54) (1.78E-56) (1.76E-59) Tabela 5. Średnie prawdopodobieńswo zakwalifikowania rachunku kredyowego do dane kaegorii należności 1 T Pr y = 1 y = 1 dla i, = 1, K, ( ) 4 i. =1 =2 =3 =4 y 1 = 1 y 2 = 1 y 3 = 1 y 4 = 1 Pr(y 1 = 1 y = 1) 0.86 0.62 0.60 0.55 Pr(y 2 = 1 y = 1) 0.05 0.11 0.11 0.11 Pr(y 3 = 1 y = 1) 0.04 0.12 0.13 0.14 Pr(y 4 = 1 y = 1) 0.05 0.15 0.16 0.20 Suma 1.00 1.00 1.00 1.00 Źródło: obliczenia własne. 16
Rysunek 1. Warości saysyki CuSum dla paramerów α i β. 0,1 0,05 0-0,05-0,1 300000 310000 320000 330000 340000 350000 360000 370000 380000 nr cyklu Gibbsa Źródło: obliczenia własne. 17