MATERIAŁY I STUDIA Zeszyt nr 86 Analza dyskrymnacyjna regresja logstyczna w procese oceny zdolnośc kredytowej przedsęborstw Robert Jagełło Warszawa, 0 r.
Wstęp Robert Jagełło Narodowy Bank Polsk. Składam serdeczne podzękowana dr. hab. prof. Unwersytetu Ekonomcznego w Krakowe Mateuszow Ppenow za cenne wskazówk, komentarze sugeste, które pozwolły nadać pracy jej ostateczny kształt. Dzękuję równeż dr. Łukaszow Kozłowskemu za pomocne uwag metodologczne podczas psana nnejszego opracowana. Projekt badawczy został zrealzowany w ramach konkursu Komtetu Badań Ekonomcznych NBP na projekty badawcze przeznaczone do realzacj przez pracownków NBP osoby spoza NBP oraz sfnansowany ze środków Narodowego Banku Polskego. Projekt grafczny: Olwka s.c. Skład druk: Drukarna NBP Wydał: Narodowy Bank Polsk Departament Edukacj Wydawnctw 00-99 Warszawa, ul. Śwętokrzyska / tel. 6, fax 6 Copyrght Naro dowy Bank Polsk, 0 ISSN 08 68 Materały Studa są rozprowadzane bezpłatne Dostępne są równeż na strone nternetowej NBP: http://www.nbp.pl N a r o d o w y B a n k P o l s k
Sps treśc Sps treśc: Streszczene... Wstęp.... Model dyskrymnacyjny... 7.. Sformułowane celu modelu... 7.. Przygotowane materału statystycznego (dobór przedsęborstw)... 8.. Budowa modelu dyskrymnacyjnego... 9... Istota modelu analzy dyskrymnacyjnej... 9... Optymalna reguła klasyfkacj... 0... Kanonczna funkcj dyskrymnacyjna...... Dobór zmennych przy budowe kanoncznej funkcj dyskrymnacyjnej7.. Weryfkacja sły dyskrymnacyjnej modelu.... Model regresj logstycznej..... Istota modelu regresj logstycznej..... Budowa modelu regresj logstycznej..... Dobór zmennych do modelu regresj logstycznej... 8.. Weryfkacja modelu regresj logstycznej... 0. Badana nad ryzykem kredytowym przedsęborstw w Polsce przy wykorzystanu analzy dyskrymnacyjnej..... Model E.Mączyńskej..... Model M.Pogodzńskej S.Sojaka..... Modele J.Gajdk T.Stosa..... Modele D.Hadask... 7.. Model A.Hołdy....6. Model D.Werzby....7. Model S. Sojaka J.Stawckego....8. Modele B.Prusaka....9. Modele INE PAN (E.Mączyńskej, M.Zawadzkego)... 8.0. Model poznańsk.... Badana nad ryzykem kredytowym przedsęborstw w Polsce przy wykorzystanu regresj logstycznej..... Modele M.Gruszczyńskego..... Modele P. Stępna T.Strąka... 9.. Modele D.Wędzkego... 6. Modele dyskrymnacyjne dla małych średnch przedsęborstw w Polsce... 66.. Model dyskrymnacyjny dla małych średnch przedsęborstw z sektora Przemysł... 66.. Model dyskrymnacyjny dla małych średnch przedsęborstw z sektora Budownctwo... 7.. Model dyskrymnacyjny dla małych średnch przedsęborstw z sektora Handel... 78.. Model dyskrymnacyjny dla małych średnch przedsęborstw z sektora Transport... 8.. Model dyskrymnacyjny dla małych średnch przedsęborstw z sektora Usług... 89 MATERIAŁY I STUDIA Zeszyt 86
Sps treśc 6. Modele regresj logstycznej dla małych średnch przedsęborstw w Polsce... 9 6.. Model regresj logstycznej dla sektora Przemysł... 9 6.. Model regresj logstycznej dla sektora Budownctwo... 96 6.. Model regresj logstycznej dla sektora Handel... 97 6.. Model regresj logstycznej dla sektora Transport... 97 6.. Model regresj logstycznej dla sektora Usług... 98 Zakończene... 00 Załącznk... 0 0 Załącznk. Wartośc wskaźnków fnansowych próby przedsęborstw z sektora Przemysł... 0 0 Załącznk. Wartośc wskaźnków fnansowych próby przedsęborstw z sektora Budownctwo... 0 0 Załącznk. Wartośc wskaźnków fnansowych próby przedsęborstw z sektora Handel... 07 06 Załącznk. Wartośc wskaźnków fnansowych próby przedsęborstw z sektora Transport... 09 08 Załącznk. Wartośc wskaźnków fnansowych próby przedsęborstw z sektora Usług... 0 Bblografa:... Sps tabel:... 6 Sps wykresów:... 7 6 Sps załącznków:... 7 6 N a r o d o w y B a n k P o l s k
Streszczene Streszczene Opracowane podejmuje problematykę szacowana zdolnośc kredytowej małych średnch przedsęborstw w Polsce przy zastosowanu dwóch metod: analzy dyskrymnacyjnej regresj logstycznej. Zaprezentowano w nm dotychczasowe badana nad wykorzystanem analzy dyskrymnacyjnej regresj logstycznej w ocene ryzyka kredytowego przedsęborstw w Polsce oraz przeprowadzono własne badana nad zastosowanem tych metod do szacowana ryzyka kredytowego małych średnch przedsęborstw. Na podstawe próby 00 podmotów oszacowano odrębne funkcje dyskrymnacyjne logtowe dla pęcu sektorów gospodark polskej: przemysłu, budownctwa, handlu, transportu usług. Zaprezentowane w opracowanu modele pozwalają na obektywną ocenę ryzyka kredytowego przedsęborstw, a wynk uzyskane przy ch pomocy mogą służyć jako narzędza wspomagające podejmowane decyzj kredytowych. Wynk przeprowadzonego w opracowanu badana wykazały, że na zdolność kredytową poszczególnych sektorów wpływają różne wskaźnk różne jest ch oddzaływane na wartośc funkcj dyskrymnacyjnych logtowych. Przeprowadzając zatem ocenę ryzyka kredytowego małych średnch podmotów w Polsce, ne pownno sę ch traktować w sposób unwersalny homogenczny, lecz wskazane jest podejśce zróżncowane uwzględnające sektor gospodark w jakm dany podmot funkcjonuje. Słowa kluczowe: analza danych, analza dyskrymnacyjna, regresja logstyczna, ryzyko kredytowe, małe średne przedsęborstwa JEL: C0, C, G, G MATERIAŁY I STUDIA Zeszyt 86
Wstęp Wstęp Powszechne stosowane przez bank komercyjne metody oceny ryzyka kredytowego to metody punktowe wykorzystujące w analze zarówno czynnk loścowe (merzalne) jak jakoścowe (nemerzalne). Współczesna praktyka bankowa operając sę na coraz wększym dośwadczenu oraz coraz szerszych bogatszych bazach danych wykazuje tendencję do tworzena model kredytowych pozwalających szacować ryzyko przede wszystkm na podstawe czynnków loścowych. Iloścowe metody oceny ryzyka kredytowego są tworzone w oparcu o statystyczny pomar prawdopodobeństwa nespłacena zobowązań kredytowych. Na funkcjonowane tego systemu składają sę dwa elementy: dane modele. Dane mogą meć postać nformacj ze sprawozdań fnansowych, cen rynkowych akcj lub długu, wskaźnków makroekonomcznych charakteryzujących aktualną lub prognozowaną sytuację gospodark konunktury w sektorze. Nowoczesne modele ryzyka kredytowego pozwalają przekształcć dane na nformacje o skal zakrese zagrożeń dla zaangażowana kredytowego banku. Szczególne stotne jest dentyfkowane ryzyka jego pomar mające doprowadzć do mnmalzacj zagrożena nespłacena zobowązań podejmowane odpowednch środków zaradczych. Skutecznych narzędz do kontrolowana kondycj przedsęborstw dostarcza analza fnansowa. Odpowedno przeprowadzone badane może wskazać potencjalne zagrożena, jednak ne zawsze daje jednoznaczne odpowedz odnośne ryzyka wystąpena newypłacalnośc, natomast zazwyczaj jest czasochłonne często wymaga od pracownka podejmowana subektywnych decyzj opartych ne na wedzy ale na ntucj. Potencjalnym rozwązanem problemu skutecznośc oceny ryzyka kredytowego jest zastosowane metod statystycznych, które pozwalają konstruować modele obektywne, łatwe szybke w zastosowanu, oparte na czynnkach merzalnych co najstotnejsze skuteczne. Obektywność skuteczność model wynka z zastosowanych kryterów z tego, że modele oparte są na analze danych statystycznych. Tendencja do wykorzystywana wedzy z dzedzny statystyk ekonometr przejawa sę w trakce budowana systemów wczesnego ostrzegana, które ułatwają N a r o d o w y B a n k P o l s k
Wstęp weryfkację wnosków kredytowych odrzucene potencjalnych newarygodnych kredytoborców. Tak zaprojektowane systemy łączą w sobe technk statystyczne z tradycyjną analzą wskaźnkową, wychodząc z założena, ż umejętna ocena sprawozdań fnansowych stanowć pownna podstawę dla oceny zdolnośc kredytowej przy danej transakcj. Wskaźnk fnansowe, odpowedno wprzęgnęte do modelu statystycznego, odzwercedlają bowem te trudnośc przedsęborstw, które ostateczne prowadzć mogą do bankructwa. Zalczyć tu należy przede wszystkm problemy zwązane z zagrożenem utraty płynnośc fnansowej, ponesena strat w dzałalnośc beżącej, czy też utratą możlwośc beżącego fnansowana sę na rynku. W trakce tworzena wspomnanych typów tradycyjnych model loścowych dane pochodzące ze sprawozdań fnansowych frm wykorzystywane są zwykle jako zmenne nezależne, które warunkują wartość neobserwowalnej bezpośredno zmennej zależnej, określającej sytuację ekonomczno-fnansową frmy, a tym samym jej zdolność kredytową. Take ujęce problemu możlwe jest dzęk uwzględnenu hpotezy badawczej zakładającej stnene ukrytego wymaru objawającego sę jedyne swym obserwowalnym symptomam. Wartośc ukrytej cechy, wyznaczone za pomocą model statystycznych, pozwalają bądź to zaklasyfkować dane przedsęborstwo do odpowednej grupy nskego lub wysokego ryzyka, bądź to oszacować prawdopodobeństwo jego upadłośc. Reguła klasyfkująca budowana jest w oparcu o hstoryczne bazy danych, opsujące te przedsęborstwa, o których wemy, ż w określonym przedzale czasu okazały sę warygodnym bądź newarygodnym kredytoborcam. Dzęk takej regule bank uzyskuje możlwość zarządzana ryzykem kredytowym ne tylko poprzez odrzucane wnosków nowych newarygodnych podmotów, ale także przez udzelane m kredytu za odpowedną opłatą, wynkającą z wartośc wylczonego prawdopodobeństwa ch upadłośc. Tradycyjne modele loścowe oceny zdolnośc kredytowej po raz perwszy pojawły sę w praktyce już w latach 0-tych weku, a za ch prekursora uważać należy P.J.Frtz Patrcka, który jednakże w swoch analzach uwzględnał jedyne dwa MATERIAŁY I STUDIA Zeszyt 86
Wstęp wskaźnk fnansowe. Prace na szerszą skalę nad zastosowanem statystyk ekonometr w tej dzedzne rozpoczęły sę natomast w latach 60-tych weku, a prowadzone były mędzy nnym przez W.H.Beavera E.I.Altmana, który był prekursorem w wykorzystanu analzy dyskrymnacyjnej do badana ryzyka upadłośc przedsęborstw. Wraz z begem czasu wykorzystane metod loścowych stawało sę coraz bardzej popularne, główne dzęk możlwoścom posłużena sę komputeram do oblczeń na welu zmennych. Pojawały sę także nowe koncepcje oceny ryzyka, wykorzystujące odmenne technk statystyczne. Warto zauważyć, ż technk te nejednokrotne ne są konkurencyjne wobec sebe, ale wzajemne sę uzupełnają, pozwalając badaczow precyzyjnej określć skalę zagrożena, z jakm spotyka sę bank przy kredytowanu. Do systemów wczesnego ostrzegana, które wykorzystywane być mogą w połączenu ze sobą zalczyć możemy lnową analzę dyskrymnacyjną oraz regresję logstyczną. Celem nnejszego opracowana jest konstrukcja funkcj dyskrymnacyjnych oraz regresj logstycznej dla sektora MSP w Polsce w oparcu o sprawozdawczość fnansową 00 małych średnch przedsęborstw funkcjonujących w pęcu sektorach gospodark: - przemyśle, - handlu, - budownctwe, - transporce, - usługach. P.Szczepankowsk Ocena ryzyka dzałalnośc przedsęborstw na podstawe sprawozdań fnansowych (Metodologa amerykańska, Un Europejskej polska), Wyższa Szkoła Przedsęborczośc Zarządzana m. Leona Koźmńskego, artykuł dostępny na http://www.studenc.pl/ekonoma/fnanseprzds/semeko_8.html, nformacja zaczerpnęta 8 maja 00 r. W.H Beaver, Fnancal Ratos and Predctors of Falure. Emprcal Research n accountng Selected Studes, dodatek do Journal of Accountng Research, 996 r. s. 77-, E.I.Altman, Fnancal Ratos, Dscrmnant Analyss and the Predcton of Corporate Bankruptcy, Journal of Fnance, September, 968 r, s. 89 09. 6 6 N a r o d o w y B a n k P o l s k
Model dyskrymnacyjny. Model dyskrymnacyjny Model dyskrymnacyjny powstaje w wynku przeprowadzena szeregu czynnośc. Poneważ jest on modelem statystycznym, czynnośc te mają charakter sformalzowany. Należy je wykonać w następujących etapach: - sformułowane celu modelu, - przygotowane materału statystycznego (dobór przedsęborstw), - budowa modelu dyskrymnacyjnego, - weryfkacja modelu. Przejśce przez te etapy jest nezbędne, aby móc wnoskować na podstawe modelu dyskrymnacyjnego. Najwęcej pracy pochłana etap drug. Rozłożono go węc na dwe częśc: dobór frm oraz dobór zmennych objaśnających... Sformułowane celu modelu Instytucje kredytowe wykorzystują analzę dyskrymnacyjną w modelowanu ryzyka kredytowego, a w szczególnośc ryzyka upadłośc kredytoborcy. W obszarze prognozowana upadłośc analza dyskrymnacyjna znajduje najszersze zastosowane. W zwązku z tym celem modelu jest pomar ryzyka wystąpena newypłacalnośc przedsęborstw sektora małych średnch przedsęborstw (MŚP) poprzez rozdzelene populacj przedsęborstw na dwe grupy, z których jedna będze oznaczać frmy, które z wysokm prawdopodobeństwem będą wypłacalne (należnośc wobec nch zostaną sklasyfkowane przez bank jako należnośc w sytuacj normalnej bądź pod obserwacją), a druga będze grupować frmy, które będą meć (z wysokm prawdopodobeństwem) problemy z wypłacalnoścą (należnośc wobec nch zostaną zaklasyfkowane jako należnośc zagrożone, czyl ponżej standardu, wątplwe stracone). Cel modelu różn sę od klasycznych model dyskrymnacyjnych, które zazwyczaj przyjmują podzał podmotów na przedsęborstwa wypłacalne upadłe. W nnejszym opracowanu przedsęborstwa złe będą traktowane nawet wówczas gdy są wypłacalne ale ch sytuacja fnansowa może stanowć zagrożene termnowej spłaty kredytu. 7 MATERIAŁY I STUDIA Zeszyt 86 7
Model dyskrymnacyjny Defnując powyższy cel modelu, należy dokonać następujących założeń: dwe grupy przedsęborstw są rozłączne, stneją cechy pozwalające odróżnć obekty jednej grupy od obektów drugej, cecham tym są wskaźnk fnansowe. W powyższych założenach tych tkw stota analzy dyskrymnacyjnej. Odstępstwo od jednego z założeń automatyczne osłab dokładność prognozy. Oznaczają one, że już w dnu sporządzana prognozy przedsęborstwa dobre stotne różną sę od złych, a tym co je odróżna są wartośc wskaźnków fnansowych.. Model dyskrymnacyjny wykorzystując właścwośc prognostyczne wskaźnków fnansowych pozwol stwerdzć, czy przedsęborstwo przetrwa następne lata. Atutem metody welokryteralnej jest stworzene kombnacj lnowej wskaźnków, która najlepej rozdzel populację przedsęborstw na dwe grupy. Znka węc problem sprzecznośc sygnałów płynących z tradycyjnej analzy fnansowej. Dopasowane funkcj odbywa sę metodą statystyczną, a zatem ważna staje sę kwesta odpowednego doboru materału statystycznego... Przygotowane materału statystycznego (dobór przedsęborstw) Aby wnoskowane statystyczne ne było obarczone stotnym dużym błędam, należy zadbać o dostateczną lczebność próby. Do oszacowana model dla pęcu sektorów gospodark dobrano po czterdześc podmotów, wobec których bank w Polsce posadały należnośc sklasyfkowane jako neregularne (wg stanu na grudna 009 r.). Do nch dobrano po czterdześc podmotów funkcjonujących w tym samym sektorze, wobec których należnośc były traktowane jako normalne (wg stanu na grudna 009 r.), tak aby zapewnć proporcję pół na pół. Łączne przeanalzowano 00 przedsęborstw sektora małych średnch przedsęborstw, W.H Beaver, Fnancal Ratos and Predctors of Falure. Emprcal Research n accoutng op. ct, s. 77-, M. Gruszczyńsk, Modele prognozy zmennych jakoścowych w fnansach bankowośc, SGH, Warszawa 00 r., s. -8. 8 8 N a r o d o w y B a n k P o l s k
Model dyskrymnacyjny dodatkowo wobec których należnośc były sklasyfkowane jako normalne w dnu grudna 008 r... Budowa modelu dyskrymnacyjnego... Istota modelu analzy dyskrymnacyjnej Przy budowe dyskrymnacyjnego modelu oceny ryzyka kredytowego reprezentująca populację próba n obektów (przedsęborstw) podzelona zostaje na k = klasy, które oznaczymy symbolam k oraz k. Klasy te obejmują odpowedno przedsęborstwa, które okazały sę warygodnym newarygodnym kredytoborcam. Każdy obekt, nezależne od przynależnośc do klasy, scharakteryzowany jest za pomocą wektora p cech (wskaźnków fnansowych) x x x,..., x, T p. Nasze zadane polega na zbudowanu lnowej funkcj, która pomoże nam zaszeregować obekt do jednej z dwóch klas (przypsywać mu wartość cechy K) na podstawe znanych wartośc x, x,..., x cech,,..., p. Jego rozwązanem stane sę funkcja przyjmująca następującą postać: Y... 0 p p. () gdze: Y - zmenna dyskrymnacyjna, której wartość pozwala zaszeregować obekt do jednej z dwóch klas k oraz k ; - współczynnk funkcj dyskrymnacyjnej; p lczba zmennych nezależnych (wskaźnków fnansowych) przyjętych do analzy. Algorytm klasyfkacyjny odnosć sę będze w perwszym rzędze do próby obektów, na podstawe której zostane on stworzony. Nemnej jednak, w przypadku gdy próba stanowć będze reprezentację całej populacj obektów, możlwe stane sę także zaszeregowane (predykcja przynależnośc) tych jednostek, których klasy jeszcze ne znamy (czyl przedsęborstw, które dopero składają wnosk kredytowe). Procedurę tę można nazwać dyskrymnacją. Zauważmy, ż każdy obekt określany jest przez wektor losowy Z, K dystrybuantę oznaczymy symbolem x, k) P x, K k brzegowe zostają wówczas określone następująco 6 : F Z, którego (. Rozkłady 6 W.Ostasewcz, Statystyczne metody analzy danych, Wydawnctwo Akadem Ekonomcznej we Wrocławu, Wrocław 998 r., s.-. 9 MATERIAŁY I STUDIA Zeszyt 86 9
Model dyskrymnacyjny p P K k ), =, () ( F x) p F ( x) p F ( ) () ( x gdze F ( ) F ( ) są rozkładam warunkowym cech,,..., p w klasach k k : x x F ( x) P( x K k ). () Zamast dystrybuant F F nekedy wygodnej posługwać sę odpowednm funkcjam gęstośc tych rozkładów: f f, czyl: f ( x) f ( x K k ), =,. () Możemy węc stwerdzć, ż problem klasyfkacj określany przez rodzny rozkładów () oraz () polega na tym, aby na podstawe zadanego wektora x T p x x, x,..., określć prawdopodobeństwo P( K k x), a tym samym zaszeregować dany obekt do odpowednej klasy.... Optymalna reguła klasyfkacj Regułę przydzału obektów do jednej z dwóch klas buduje sę przy wykorzystanu tzw. funkcj ryzyka błędnej klasyfkacj, które określają oczekwaną stratę w przypadku zaszeregowana danego obektu do określonej klasy. Przyjmując, że L j oznacza stratę z powodu zaklasyfkowana obektu z klasy k do klasy k j, otrzymujemy dwe funkcje ryzyka: x L PK k x L PK k x x L PK k x L PK k x R, (6) R. (7) Obekt należy ostateczne zaklasyfkować do tej klasy, dla której wartość funkcj ryzyka jest nższa. Jak łatwo jednak zauważyć funkcje ryzyka w postac (6) oraz (7) ne mogą być wykorzystywane w praktyce, ze względu na neznajomość prawdopodobeństw P( K k x). Dlatego też do ch przekształcena wykorzystuje sę wzór Bayesa, zgodne z którym: 0 0 N a r o d o w y B a n k P o l s k
Model dyskrymnacyjny f ( x K k ) P( K k ) P( K k x). (8) f x K k P( K k ) f x K k P( K ) k Po uwzględnenu formuł (8), () oraz () funkcje ryzyka przyjmują następującą postać: R ( x) L f ( x) p f ( x) p, (9) L f ( x) p f ( x) p R ( x) L f ( x) p f ( x) p. (0) L f ( x) p f ( x) p Jak już stwerdzlśmy, obekt należy zalczyć do klasy k wówczas, gdy R x) R ( ), co po przyjęcu założena, ż Lj L oraz po uwzględnenu formuł ( x (9) (0) prowadz do następującej nerównośc: f( x) f ( x) ( L ( L L L ) p ) p. () Lewą stronę nerównośc (), uzależnoną od wartośc x, nazywa sę lorazem warygodnośc oznacza symbolem. Prawą stronę, która jest welkoścą stałą, nazywa sę natomast progem, oznaczając ją symbolem t 7. Podsumowując możemy stwerdzć, ż reguła klasyfkacj brzm: jeżel dla zadanego x wartość lorazu warygodnośc jest wększa od wartośc progowej t, to obekt o charakterystykach x zalczyć należy do klasy k, a w przecwnym wypadku do klasy k. Prawdłowa klasyfkacja ne jest oczywśce możlwa bez dokładnego określena funkcj gęstośc rozkładów warunkowych f f, dlatego też przyjmuje sę, ż welowymarowa zmenna losowa,,..., ) opsująca obekty ma ( p p-wymarowy rozkład normalny o różnych wektorach wartośc oczekwanej w każdej grupe jednakowych macerzach kowarancj w obu grupach. Prowadz to do następujących funkcj gęstośc: T f ( x) exp x x n / det, () 7 Ibdem, s.. MATERIAŁY I STUDIA Zeszyt 86
Model dyskrymnacyjny gdze: jest p-wymarowym wektorem wartośc oczekwanych zmennej losowej w klase -tej, zaś Σ jest macerzą kowarancj zmennej losowej (jednakową w obu klasach). Podstawając równana () do wzoru (), po klku przekształcenach uzyskujemy: Y T T x 0 ln L L p L L p. () Otrzymalśmy w ten sposób regułę klasyfkacyjną bazującą na funkcj Y, 0 F0 T której składnk F x 0 określa sę manem lnowej funkcj dyskrymnacyjnej Fshera. 8. Zgodne z regułą tą obekt należy przyporządkować do klasy k wówczas, gdy wartość funkcj Y 0 jest wększa od logarytmu naturalnego wartośc progowej t.... Kanonczna funkcj dyskrymnacyjna Zaprezentowana w poprzednm podrozdzale metoda wyznaczana lnowej funkcj dyskrymnacyjnej ne jest jedyną możlwą. W praktyce dość często spotkać sę można z wykorzystywanem procedury prowadzącej do tzw. kanoncznych funkcj dyskrymnacyjnych, której cechy charakterystyczne zostaną omówone ponżej. Tak jak w poprzednm przypadku, tak tym razem celem badacza staje sę wyznaczene lnowej funkcj dyskrymnacj, która na podstawe cech obektu pozwol nam zaszeregować go do jednej z dwóch grup. Kanonczna funkcja dyskrymnacyjna w swojej perwotnej postac pozbawona jest wyrazu wolnego. Nazywana jest wówczas standaryzowaną funkcją dyskrymnacyjną, a defnowana jest przez następującą formułę: Y... p p. () Funkcję dyskrymnacj wyznacza sę w tak sposób, aby maksymalzować loraz zróżncowana jej wartośc pomędzy obektam z różnych klas względem zróżncowana jej wartośc pomędzy obektam z tych samych klas. Warunek 8 Ibdem, s.6. N a r o d o w y B a n k P o l s k
Model dyskrymnacyjny optymalzacyjny, będący podstawą do oszacowana współczynnków funkcj dyskrymnacyjnej przyjmuje węc postać 9 : q q G R k k n j ( ) j ( ) y y n /( n k) max ( ) y y /( n k),,..., p, () gdze: q G - zmenność mędzygrupowa wartośc funkcj dyskrymnacyjnej; qr - zmenność wewnątrzgrupowa wartośc funkcj dyskrymnacyjnej; () y j -wartość funkcj dyskrymnacyjnej dla j-tej jednostk w -tej grupe; () y - wartość średna funkcj dyskrymnacyjnej dla jednostek z -tej grupy; y - wartość średna funkcj dyskrymnacyjnej dla wszystkch jednostek objętych badanem; k lczba grup; n - lczba jednostek w -tej grupe; n lczba jednostek objętych badanem. Przed przystąpenem do wyznaczena współczynnków funkcj dyskrymnacyjnej koneczne jest oszacowane macerzy B warancj mędzygrupowych oraz macerzy W warancj wewnątrzgrupowych, które otrzymujemy zgodne ze wzoram 0 : gdze: W B k ( ) T ( ) x x x x n k n k n ( ) ( ) T ( ) ( ) x j x x j x j n k,, (6) (7) () x - wektor średnch wartośc zmennych nezależnych w -tej grupe; x - ogólny wektor średnch wartośc zmennych nezależnych; cech dla j-tego obektu w -tej grupe. () x j - wektor wartośc Wektory współczynnków dla poszczególnych funkcj dyskrymnacyjnych wyznacza sę natomast jako rozwązane równana : ( ) W a 0 B, (8) 9 M.Rószkewcz, Narzędza statystyczne w analzach marketngowych, Wydawnctwo C.H.Beck, Warszawa 00 r., s.87. 0 W.Ostasewcz Statystyczne metody analzy danych, op.ct., s.-. T.Grabńsk, Metody taksonometr, Akadema Ekonomczna w Krakowe, Kraków 99 r., s.7. MATERIAŁY I STUDIA Zeszyt 86
Model dyskrymnacyjny gdze: () ( ) ( ) ( ) ( ) a - wektor oszacowań współczynnków T 0,,..., p -tej funkcj dyskrymnacyjnej; - neujemne perwastk równana wyznacznkowego: det W 0 Malejąco uporządkowane współczynnk B. (9) są wzajemne różne różne od zera. Interpretuje sę je jako mary dyskrymnacyjne, odpowadające poszczególnym funkcjom dyskrymnacyjnym nformujące jak slne różncują one grupy. W zwązku z tym przy dwóch klasach do wyznaczena funkcj dyskrymnacyjnej należy wybrać najwększy ze współczynnków na jego podstawe oszacować wektor oszacowań współczynnków,..., T, p przy użycu formuły (8). Poneważ rozwązanem równana (8) jest w zasadze ne pojedynczy wektor, ale jednowymarowa przestrzeń lnowa, często wybera sę za ostateczny wynk analzy ten z wektorów tej przestrzen, dla którego spełnony jest warunek: q. (0) R Rozwązane problemu dyskrymnacyjnego przy pomocy równana (8) prowadz do funkcj przyjmującej postać (), a węc pozbawonej wyrazu wolnego. Funkcja ta jest tzw. standaryzowaną funkcją dyskrymnacyjną, poneważ zmenne nezależne występują w nej w postac standaryzowanej. Aby umożlwć wprowadzane do funkcj dyskrymnacyjnych zmennych nezależnych (cech obektów) w ch perwotnej, nestandaryzowanej forme, należy przekształcć wartośc uzyskane z formuły (8) zbudować funkcję o postac: Y... przy czym oszacowana b współczynnków gdze s jest warancją zmennej. 0 p p, () a funkcj wyznacza sę z zależnośc : b, =,,..., p, () s Składową stałą 0 funkcj nestandaryzowanej estymujemy jako b 0 według formuły: Ibdem, s.9. N a r o d o w y B a n k P o l s k
Model dyskrymnacyjny p b0 b x. () Zarówno standaryzowana jak nestandaryzowana wersja funkcj dyskrymnacyjnej znajdują swoje zastosowane w praktyce. Perwsza z nch służy przede wszystkm do określena sły kerunku oddzaływana poszczególnych zmennych nezależnych na zmenną klasyfkującą. Współczynnk tej funkcj są porównywalne, a co za tym dze, pozwalają uszeregować poszczególne zmenne nezależne odnośne stopna ch wpływu na klasyfkację. Im wyższą wartość przyjmuje moduł współczynnka standaryzowanej funkcj dyskrymnacyjnej, tym bardzej dana zmenna rzutuje na przynależność obektu do danej grupy. Podobną nformację uzyskać możemy także dzęk wyznaczenu wpółczynnków korelacj pomędzy zmenną klasyfkującą każdą ze zmennych nezależnych. Drugą, nestandaryzowaną, postać funkcj dyskrymnacyjnej, wygodne jest wykorzystywać do klasyfkacj obektów, z tego względu, ż ne trzeba wprowadzać do nej wartośc zmennych nezależnych po ch wystandaryzowanu. Innym słowy, przy probleme oceny ryzyka kredytowego na podstawe wskaźnków fnansowych, wartośc tych wskaźnków mogą w swej perwotnej postac służyć za wartośc zmennych nezależnych funkcj dyskrymnacyjnej. Dla poprawnej klasyfkacj nezbędna jest znajomość punktu progowego będącego wartoścą zmennej dyskrymnacyjnej Y, rozdzelającą populację obektów na dwe klasy. Punkt progowy określć możemy jako tę wartość y zmennej klasyfkacyjnej Y, dla której równe są sobe prawdopodobeństwa zaszeregowana obektu do każdej z grup: P K k y) P( K k ). () ( y * t, Wyrażene () po wykorzystanu wzoru Bayesa daje sę sprowadzć do następującej postac: f y K k p f y K k p, () gdze lczby p p określone są przez formułę () mogą być szacowane jako frakcje (częstość występowana) poszczególnych klas w populacj lub próbe. MATERIAŁY I STUDIA Zeszyt 86
Model dyskrymnacyjny Łatwo dostrzec, że w przypadku, gdy p p są sobe równe, a rozkłady zmennej Y w obu klasach są symetrycznym rozkładam tego samego typu o jednakowej warancj różnych wartoścach oczekwanych, to punkt progowy * t funkcj dyskrymnacyjnej znajduje sę dokładne w połowe odległośc pomędzy wartoścam oczekwanym obu rozkładów. Wyznaczając węc centrody, czyl średne wartośc zmennej dyskrymnacyjnej w obu klasach, za punkt progowy funkcj dyskrymnacyjnej uznać możemy wówczas średną wartość tych centrodów. Jeżel prawdopodobeństwa p p ne są zaś sobe równe, to procedura wyznaczana punktu progowego staje sę neco bardzej rozbudowana. Należy wtedy założyć, ż rozkłady zmennej Y w obu klasach są rozkładam normalnym o jednakowych warancjach (ch oszacowanem jest q R ) różnych wartoścach oczekwanych (ch estymatoram są centrody). Po wprowadzenu do równośc () wzorów funkcj gęstośc jednowymarowego rozkładu normalnego, po klku przekształcenach dochodzmy do postac algorytmu wyznaczana punktu progowego: t * p q ln y, () () R y p () () y y (6) gdze: * t wartość punktu progowego; () () y, y - centrody zmennej Y odpowedno w klase k k ; q R - zmenność wewnątrzgrupowa zmennej Y, będąca składnkem formuły () równa jednośc. Reasumując, poneważ punkt progowy * t dzel przestrzeń lnową na dwa * przedzały ( ; t ) oraz t * ; ), to klasyfkacj obektów do poszczególnych grup dokonujemy zgodne z następującą zasadą: obekt zalczyć należy do klasy odpowadającej przedzałow, do którego należy wartość funkcj dyskrymnacyjnej dla tego obektu. Dodajmy jeszcze, ż przy założenu normalnośc rozkładów zmennej Y w obu klasach, możlwe staje sę także oszacowane prawdopodobeństw przynależnośc obektu do każdej z klas P( K k y) P( K k y). Ponowne pomocny okazuje sę w tym względze wzór Bayesa, zgodne z którym: 6 6 N a r o d o w y B a n k P o l s k
Model dyskrymnacyjny P( K f ( y K k ) p k y). (7) f y K k p f y K k p... Dobór zmennych przy budowe kanoncznej funkcj dyskrymnacyjnej W trakce tworzena modelu dyskrymnacyjnego pojawa sę problem, które ze zmennych nezależnych opsujących obekty pownny zostać użyte w modelu. Jak zauważył bowem Erc Falkensten główny problem ze wskaźnkam fnansowym polega na tym, że jest ch za dużo. Jedną z podstawowych metod rozwązana tej kwest jest ocena różnc średnch wartośc cech w poszczególnych klasach wybór do analzy tych zmennych, w przypadku których różnce te są znaczne. Dodatkowym, równe stotnym, kryterum staje sę przy tym także stopeń skorelowana zmennych nezależnych pomędzy sobą m jest on wyższy, tym gorsza jakość modelu. Przy doborze zmennych analtyk staje węc przed zadanem nekedy dość skomplkowanym, zwłaszcza przy dużej lczbe wymarów analzy, gdyż rozpatrywać mus równocześne klka kryterów, ne mając wcale gwarancj, ż decyzja przez nego podjęta doprowadz do modelu o możlwe maksymalnej sle dyskrymnacyjnej stotnych statystyczne wartoścach współczynnków. Przystępując do budowy modelu przyjmuje sę następujące krytera selekcj wskaźnków: a) wysoka zdolność dyskrymnacyjna wskaźnków, b) wskaźnk dobrane do modelu odzwercedlają wszystke obszary analzy fnansowej, c) nska korelacja pomędzy wskaźnkam dobranym do modelu oraz wysoka korelacj pomędzy wskaźnkam dobranym do modelu ne dobranym do modelu. Ponadto ocena dobranych wskaźnków pownna być tym lepsza m wyższy pozom wskaźnka, dzęk czemu model analzy dyskrymnacyjnej będze mał charakter RskCalc TM for Prvate Companes: Moody s Default Model. Ratng Metodology, www.defaultrsk.com, nformacja zaczerpnęta maja 00 r. 7 MATERIAŁY I STUDIA Zeszyt 86 7
Model dyskrymnacyjny addytywny, co pozwol w dalszej kolejnośc na łatwejszą nterpretację otrzymywanych wynków. Ad a) Konstruując model poszukuje sę zestawu zmennych o jak najwększej pojemnośc nformacyjnej. Postulat ten będze spełnony jeśl średna wartość wskaźnka w populacj podmotów w sytuacj normalnej będze stotne różnć sę od średnej wartośc wskaźnka w populacj podmotów w sytuacj zagrożonej. Ponadto wartość odchylena standardowego wskaźnka w grupe podmotów dobrych pownna być zblżona do wartośc odchylena standardowego w grupe podmotów złych. Dzęk temu osągnęte zostaje kryterum wysokej zdolnośc dyskrymnacyjnej wskaźnka. W celu sprawdzena statystyczne stotnej różncy średnch formułuje sę hpotezę zerową jako równość średnch, wobec hpotezy alternatywnej, ż średne są różne. H H 0 : m : m, k, k m m, k, k gdze: m, k, m, k - średne zmennej odpowedno w klasach k k Jeśl rozkład badanej cechy (zmennej losowej) jest rozkładem normalnym: N(m, ) w perwszej populacj N(m, ) w drugej populacj, przy czym odchylena standardowe tych populacj są neznane ale jednakowe, tj. =, a populacje mają lczebnośc n n testem stotnośc dla tego problemu jest następująca statystyka: gdze: t x x.(8) ( n ) s ( n ) s n n n n x- średna wartość cechy z perwszej populacj, x - średna wartość cechy z drugej populacj, s - warancja cechy z perwszej populacj s - warancja cechy z drugej populacj, n lczebność perwszej populacj, 8 8 N a r o d o w y B a n k P o l s k
Model dyskrymnacyjny n - lczebność drugej populacj. Statystyka ta, przy założenu prawdzwośc hpotezy H 0, ma rozkład t-studenta o n + n stopnach swobody. Oblczonej wartośc statystyk t odpowada pewne prawdopodobeństwo p. Jeśl p < to odrzucamy hpotezę zerową przyjmując za prawdzwą hpotezę alternatywną, ż dwe średne ne są sobe równe. Jeśl p > to stwerdzamy, ż ne ma podstaw do odrzucena hpotezy zerowej. Jeśl p = to analtyk podejmuje decyzję co z tym zrobć, odrzucć bądź ne H 0. Przy równych prawdopodobeństwach p p dla bezbłędnego wyznaczena punktu progowego w zasadze wystarczyłaby nformacja, ż rozkłady zmennej dyskrymnacyjnej Y w obu klasach są jednakowym typam rozkładów symetrycznych o tej samej warancj, ale nnych wartoścach oczekwanych. Takej gwarancj ne można byłoby meć wówczas, gdyby rozkłady zmennych nezależnych w poszczególnych klasach posadały różne warancje. Dlatego też za stotne założene analzy dyskrymnacyjnej uznaje sę homogenczność warancj zmennych w obu klasach. Dla pewnośc, ż budowany model analzy dyskrymnacyjnej ne będze prowadzł do błędnych wnosków, dla każdej zmennej zgodne z testem homogencznośc warancj Fshera zweryfkować należy parę hpotez: H H, 0 :, k, k, :, k, k gdze:,k,,k - warancje zmennej odpowedno w klasach k k. Statystyka testowa przyjmuje postać: F n ( n ) s, (9) n ( n ) s gdze: F statystyka testu Fshera; n - lczebność perwszej grupy; n lczebność drugej grupy; s estymator warancj z perwszej grupy; s estymator warancj z drugej grupy. MATERIAŁY I STUDIA Zeszyt 86 9 9
Model dyskrymnacyjny Statystyka testowa Fshera ma rozkład F o v = (n ) oraz v = (n -) stopnach swobody. W przypadku, gdy wartość statystyk z próby przewyższa wartość krytyczną (odczytaną z tablc) dla danego pozomu stotnośc (naczej mówąc, gdy pozom prawdopodobeństwa odpowadający wyznaczonej statystyce z próby jest mnejszy od założonego pozomu stotnośc ), to następuje odrzucene hpotezy zerowej na rzecz hpotezy alternatywnej. W sytuacj tej wykorzystane dostępnej zmennej nezależnej do budowy modelu analzy dyskrymnacyjnej można uznać za nezasadne. Należy jednak dodać, ż neznaczne odchylena od homogencznośc są zwykle do zaakceptowana. Ad b) Przy wyborze wskaźnków fnansowych należy dążyć do odzwercedlena wszystkch obszarów dzałalnośc przedsęborstwa. Wskazane jest zatem dobrane po klka wskaźnków z każdej z grup wyodrębnonych w analze fnansowej. Dokonując wyboru wskaźnków, należy kerować sę wedzą z zakresu analzy fnansowej przyjąć do oceny wskaźnk: płynnośc, rentownośc, aktywnośc gospodarczej, struktury fnansowana. Po wstępnej selekcj pownno sę dysponować szerokm zborem wskaźnków obejmujących wszystke aspekty dzałalnośc przedsęborstwa. Ad c) Doberając wskaźnk pownno sę wyberać te, które mają jak najwększy wpływ na badane zjawsko, a przy tym ne są powązane z pozostałym wskaźnkam. W języku statystyk można tę zasadę opsać jako postulat maksymalnej korelacj zmennej objaśnającej ze zmenną objaśnaną oraz mnmalnej korelacj z pozostałym zmennym objaśnającym. Problem ten rozwązuje znalezene współczynnków korelacj Pearsona: r P n ( x x)( y n n ( x x) y) ( y y) (0) gdze: M.Dobosz, Wspomagana komputerowo statystyczna analza wynków badań, Ext, Warszawa, 00 r., s.6. 0 0 N a r o d o w y B a n k P o l s k
Model dyskrymnacyjny r P - współczynnk korelacj Pearsona, x y - zmenne losowe o cągłych rozkładach x,y - wartośc prób losowych tych zmennych ( =,,...,n), x, y - wartośc średne prób losowych zmennych Za jedno z założeń, które wymenane jest w lteraturze przedmotu dość często, uznać należy normalność rozkładów zmennych losowych w poszczególnych klasach. Przy spełnenu tego założena rozkłady zmennej dyskrymnacyjnej Y w obu klasach równeż są rozkładam normalnym o jednakowych warancjach, ale różnych wartoścach oczekwanych. Dzęk temu możlwe staje sę bezproblemowe wyznaczene punktu progowego t * w oparcu o równość (6). Dodajmy jednak, ż naruszene założena o normalnośc rozkładów ne jest jednak zazwyczaj krytyczne, choć oczywśce w wypadku tym ne należy raczej szacować prawdopodobeństw przynależnośc obektów do poszczególnych klas, lecz ogranczyć sę do określena punktu progowego. Wstępne zdefnowany zestaw wskaźnków, które przebadano pod względem przydatnośc do modelu wg wyżej opsanych kryterów wygląda następująco: Tabela. Wstępne zdefnowany zestaw wskaźnków do budowy modelu dyskrymnacyjnego Lp. Nazwa wskaźnka Konstrukcja wskaźnka. Płynność beżąca aktywaobrotowe zobowazana krotkotermnowe. Płynność szybka aktywaobrotowe- zapasy- RMK zobowazana krotkotermnowe. Płynność gotówkowa srodk penezne zobowazana krotkotermnowe. Udzał kaptału obrotowego w aktywaobrotowe- zobowazana krotkotermnowe aktywach aktywaogolem. Marża brutto wynk zesprzedazy brutto koszty dzalalnosc operacyjnej 6. Rentowność operacyjna sprzedaży wynk operacyjny przychody ogolem Ibdem, s.6. MATERIAŁY I STUDIA Zeszyt 86
Model dyskrymnacyjny 7. Rentowność operacyjna aktywów 8. Rentowność netto kaptałów własnych 9. Rotacja aktywów 0. Rotacja aktywów obrotowych. Rotacja należnośc. Rotacja zapasów. Udzał kaptału własnego w pasywach (wskaźnk kaptałowy). Pokryce zobowązań krótkotermnowych kaptałem własnym. Pokryce aktywów trwałych kaptałem własnym 6. Udzał nadwyżk fnansowej netto w zobowązanach ogółem Źródło: Opracowane własne wynk operacyjny aktywaogolem wynk netto kaptal wlasny przychody ogolem aktywaogolem przychody ogolem aktywaobrotowe przychody ogolem naleznosc przychody ogolem zapasy kaptal wlasny pasywaogolem kaptal wlasny zobowazana krótkotermnowe kaptal wlasny aktywatrwale wynk netto amortyzacja odsetk zobowazana ogolem.. Weryfkacja sły dyskrymnacyjnej modelu Ocena sły dyskrymnacyjnej samego modelu odbywa sę natomast przy użycu statystyk λ Wlksa, ujętej przez następującą równość 6 : det W, () det B W gdze macerze B oraz W określone zostały przez formuły (6) (7). Wartość współczynnka λ Wlksa meśc sę w zakrese od (brak mocy dyskrymnacyjnej) do 0 (maksymalna moc dyskrymnacyjna). Jeśl wartość tego współczynnka jest wysoka blska jednośc to możemy przypuszczać, ż stneje brak podstaw do klasyfkacj obektów według przyjętej formuły dyskrymnacyjnej. Aby sprawdzć, czy współczynnk Wlksa stotne różn sę od jednośc testujemy parę hpotez: H :, 0 6 B.Guzk, W.Jurek, D.Appenzeler Prognozowane symulacje. Wybrane zagadnena, Wydawnctwo Akadem Ekonomcznej w Poznanu, Poznań 006 r., s.7. N a r o d o w y B a n k P o l s k
Model dyskrymnacyjny H :, przy czym statystyka testująca hpotezę zerową ma rozkład ch-kwadrat o v = p stopnach swobody (lczba zmennych nezależnych) dana jest wzorem 7 : k p n ln( ˆ). () gdze: ˆ - wartość współczynnka Wlksa oszacowana na podstawe próby. Jeżel pozom prawdopodobeństwa odpowadający oblczonej statystyce jest nższy od przyjętego pozomu stotnośc, to uznać należy, ż współczynnk Wlksa różn sę stotne od jednośc, a tym samym model posada dużą zdolność dyskrymnacyjną. Specyfczną metodą oceny jakośc modelu dyskrymnacyjnego jest ocena poprawnośc predykcj (np. procentowa), dokonanych przy jego użycu. Z jednej strony możemy meć do czynena z oceną predykcj post hoc, kedy to klasyfkowany obekt należał do próby, na podstawe której estymowano model. Innym typem weryfkacj modelu jest zaś ocena predykcj a pror, kedy to przewdywana była przynależność do klas przypadków, które ne zostały użyte do estymacj. Oczywśce dokładność predykcj a pror jest zwykle nższa nż predykcj post hoc. 7 M.Rószkewcz, Narzędza statystyczne..., op.ct., s.88. MATERIAŁY I STUDIA Zeszyt 86
Model regresj logstycznej. Model regresj logstycznej.. Istota modelu regresj logstycznej Model lnowej welowymarowej analzy dyskrymnacyjnej służy przede wszystkm do klasyfkacj obektów do jednej z dwóch grup oraz porządkowana cech względem ch wpływu na tę przynależność. Wprawdze pozwala on także szacować prawdopodobeństwa tych przynależnośc, to jednak precyzję oszacowań warunkuje w stotnym stopnu założene o normalnośc rozkładu zmennych w obu klasach oraz homogenczność warancj. Założeń tych ne trzeba czynć w wypadku stosowana modelu regresj logstycznej. Warto jednak podkreślć, ż ne jest to jedyną zaletą tego modelu. Pozwala on bowem wycągnąć stotne wnosk odnośne zmennych nezależnych, do których to wnosków cężko byłoby dojść jedyne przy zastosowanu analzy dyskrymnacyjnej. Innym słowy model regresj logstycznej może wspomagać decyzje podejmowane przy pomocy analzy dyskrymnacyjnej ( na odwrót). Ne pownen węc on być traktowany tylko jako alternatywa dla analzy dyskrymnacyjnej, ale także jako jej uzupełnene. Model regresj logstycznej, określany często jako model logtowy, pozwala przede wszystkm modelować symulować prawdopodobeństwo przynależnośc obektu do jednej z dwóch klas, w zależnośc od charakteryzującego go wektora p zmennych nezależnych x x x,..., x T, p. Przy ocene ryzyka kredytowego, zmennym nezależnym stają sę wskaźnk fnansowe przedsęborstwa składającego wnosek kredytowy. Regresja logstyczna stanow swostą odpowedź na problemy pojawające sę przy tworzenu model lnowych szacujących prawdopodobeństwa przynależnośc do jednej z dwóch grup. Model lnowy, bez narzucana na nego dodatkowych warunków, ne jest w stane zapewnć, ż wartość zmennej zależnej należałaby zawsze do przedzału 0 ;, a węc takego, jak odpowada możlwym prawdopodobeństwom przynależnośc do danej klasy. Dlatego też do modelowana prawdopodobeństwa, wykorzystuje sę właśne model oparty na dystrybuance rozkładu logstycznego, przyjmujący następującą postać: P exp 0... p p, () N a r o d o w y B a n k P o l s k
Model regresj logstycznej gdze: P - prawdopodobeństwo przynależnośc obektu do klasy kodowanej jako K = (w odróżnenu od drugej z klas, która kodowana jest jako K = 0). Łatwo zauważyć, ż wartośc funkcj regresj logstycznej zawerać sę będą w przedzale otwartym ( 0; ). Naturalne ne stanow to jednak problemu, poneważ sytuacje, w których P 0 bądź P w zasadze ne występują w rzeczywstośc... Budowa modelu regresj logstycznej Najpowszechnej obecne wykorzystywaną metodą szacowana parametrów modelu logstycznego () jest metoda najwększej warygodnośc (MNW), poneważ estymatory uzyskane tą technką są zgodne, mają asymptotyczny rozkład normalny są asymptotyczne najefektywnejsze. Przed mplementacją MNW koneczne jest uporządkowane macerzy obserwacj. Przynależność każdej jednostk do jednej z grup zakodować należy przy pomocy bnarnej zmennej K: K= oznacza grupę przedsęborstw w sytuacj normalnej, K=0 oznacza grupę przedsęborstw w sytuacj zagrożonej. W przypadku MNW każda z n obserwacj traktowana jest jako pojedyncza próba z dwumanowego rozkładu Bernoullego z prawdopodobeństwam sukcesu porażk określonym jako P oraz Q P, gdze P jest wartoścą funkcj logstycznej dla -tego obektu. Wyznaczene parametrów modelu logtowego polega na maksymalzowanu funkcj warygodnośc, przyjmującej postać: gdze:,..., T 0, k P P P P K K 0 n k L, () p ; k - wartość bnarnej zmennej K dla -tego obektu. Dla ułatwena oblczeń (przy wyznaczanu perwszej pochodnej), zadane maksymalzacj funkcj warygodnośc zastępuje sę poprzez równoważny mu problem maksymalzacj jej logarytmu naturalnego. Po uwzględnenu tej modyfkacj, wyznaczene parametrów modelu logtowego sprowadza sę do rozwązana następującego zadana: ln L n k ln P k ln P max 0,,..., p. () MATERIAŁY I STUDIA Zeszyt 86
Model regresj logstycznej Problem () rozwązuje sę technką teracyjną, przy czym wartość oszacowań parametrów modelu, uzyskana w t+ teracj określona jest równanem 8 : a ( t) a ( t) n P n ( t) ( t) ( ) T ( ) ( t) ( ) a P a k P a, (6) T ( t) ( t) ( t) ( t) gdze: a a, a,..., a T - wektor oszacowań parametrów modelu 0 ( t) ( t) ( t) ( t) uzyskany w t+ teracj; a a, a,..., a T (t) modelu uzyskany w t-tej teracj; p - wektor oszacowań parametrów 0 a funkcj logstycznej dla -tego obektu; p P - oszacowana w t-tej teracj wartość () - macerz o wymarach p n, której -ty wersz stanową wartośc p cech -tego obektu (perwszy element -tego wersza to ), zaś pozostałe elementy są równe 0. Uzyskane oceny parametrów funkcj regresj logstycznej mają następującą nterpretację: o jeżel wynk z próby wskazuje, ż 0, to uznać możemy, ż wzrost wartośc cechy, przy kontrolowanym wpływe (nezmennośc) pozostałych cech, prowadz do wzrostu prawdopodobeństwa przynależnośc obektu do klasy zakodowanej jako K =, o jeżel oszacowana sugerują, ż 0, to należy uznać, że wzrost wartośc zmennej, przy kontrolowanym wpływe pozostałych zmennych, prowadz do spadku prawdopodobeństwa przynależnośc obektu do klasy zakodowanej jako K =, o jeżel wedle oszacowań 0, to uznajemy, ż zmany wartośc zmennej, przy kontrolowanym wpływe pozostałych zmennych, ne mają wpływu na prawdopodobeństwa przynależnośc obektu do którejkolwek z klas. Warto podkreślć, ż wartośc oszacowań parametrów ne są nterpretowalne, co było możlwe w przypadku analzy dyskrymnacyjnej. Dodatkowe wnosk odnośne modelowanego zjawska, uzyskujemy natomast wychodząc od tzw. logtu ( G ), który określany jest przez równość: 8 J.S.Cramer, Logt models from economc and other felds, Cambrdge Unversty Press, Cambrdge 00 r., s.. 6 6 N a r o d o w y B a n k P o l s k
Model regresj logstycznej Wyrażene,..., p P /( ) P G ln,..., p ln, (7) P nazywane jest lorazem szans określa P relatywną zmanę możlwośc wystąpena zdarzena 9. W przypadku regresj logstycznej, po uwzględnenu równośc (9), loraz szans upraszcza sę do następującej postac: Zauważmy, ż:,,...,, zatem wyrażene exp,...,... p 0 p p. (8) j,..., j,..., j,..., p p,, p p exp j, (9) exp określa, o le razy zmen sę relatywne prawdopodobeństwo przynależnośc jednostk do klasy, jeżel zmenna j wzrosła o, przy kontrolowanym wpływe pozostałych zmennych nezależnych. Innym słowy: o jeśl exp w, to mówmy, ż wzrost zmennej j o, przy j nezmennośc pozostałych zmennych, skutkuje wzrostem o ( w ) 00% szansy przynależnośc obektu do segmentu kodowanego jako K =, o jeśl exp w, to uznajemy, że wzrost zmennej j o, przy j nezmennośc pozostałych zmennych, skutkuje spadkem o ( w ) 00% szansy przynależnośc obektu do segmentu kodowanego jako K =. Należy dodać, ż w przypadku, gdy mamy do czynena z zerojedynkową zmenną, to wyrażene exp( ) wskazuje le razy wzrasta loraz szans dla kategor zmennej względem kategor 0 tej zmennej 0. Jeżel, dla dwóch różnych wskaźnków fnansowych oraz j przejśce ze środka jednego punktowanego przedzału do środka kolejnego przedzału wązać sę pownno z taką samą zmaną lorazu szans, to wówczas: 9 M.Rószkewcz, Narzędza statystyczne..., op.ct., s.9. 0 M.Gruszczyńsk, Modele..., op.ct., s.6. 7 MATERIAŁY I STUDIA Zeszyt 86 7
Model regresj logstycznej exp( ) exp( ), (0) j j gdze: - wartość o jaką zmenć sę mus wartość, by znalazła sę ona w sąsednm przedzale punktowanym wyżej; j - wartość o jaką zmenć sę mus wartość j, by znalazła sę ona w sąsednm przedzale punktowanym wyżej. Z równośc (0) wynka bezpośredno, że: j j. () Zważywszy na wzór (), dochodzmy do wnosku, ż szerokość przedzału punktowego dla wskaźnka pownna być / razy wększa od szerokośc j przedzału punktowego dla wskaźnka j. Podsumowując charakterystykę walorów modelu regresj logstycznej ne sposób ne wspomneć o jego zasadnczej cesze, zwązanej z możlwoścą kwantyfkacj prawdopodobeństw przynależnośc określonej jednostk do poszczególnych klas - dzęk temu wykonalne staje sę także zadane zaszeregowana tej jednostk do jednej z dwóch klas. Reguła klasyfkacyjna brzm w tym wypadku w następujący sposób: obekt zalczyć należy do tej klasy, dla której wększe jest prawdopodobeństwo jego przynależnośc do nej. Fakt, ż model logtowy, tak jak analza dyskrymnacyjna, umożlwa klasyfkację obektów ne oznacza naturalne, ż model dyskrymnacyjny jest zbędny, jeżel zastosuje sę już regresję logstyczną. Jak bowem wspomnano wcześnej, parametry standaryzowanej funkcj dyskrymnacyjnej pozwalają uszeregować zmenne nezależne względem ch wpływu na prawdopodobeństwo przynależnośc obektu do danej klasy. Tej nformacj ne uzyska sę wykorzystując tylko model logtowy... Dobór zmennych do modelu regresj logstycznej Kwesta doboru zmennych do modelu regresj logstycznej rozwązywana być może na drodze oceny stotnośc parametrów stojących przy zmennych. Perwotny model logtowy, zbudowany w oparcu o wszystke zmenne nezależne, należy węc 8 8 N a r o d o w y B a n k P o l s k
Model regresj logstycznej modyfkować, wyłączając z nego te cechy, które okazały sę nestotne statystyczne. Ocena stotnośc poszczególnych współczynnków funkcj regresj logstycznej sprowadza sę każdorazowo do weryfkacj następujących hpotez: H : 0, 0 H : 0. Statystyką testową jest statystyka Walda, mająca rozkład swobody, określona przez następujący wzór : o v stopnu gdze: a, () S a a - oszacowana wartość współczynnka ; S standardowy błąd a oszacowana współczynnka. Jeżel wartość prawdopodobeństwa odpowadająca oszacowanej wartośc statystyk jest nższa od założonego pozomu stotnośc, to należy odrzucć hpotezę zerową o nestotnośc -tego współczynnka modelu regresj logstycznej. Procedurę ogranczana zboru zmennych użytych w modelu można przeprowadzać w sposób krokowy. Należy wówczas każdorazowo wyrugowywać z modelu tylko jedną, najmnej stotną zmenną, a następne ponowne szacować badać stotność parametrów stojących przy pozostałych zmennych. Proces ten kończy sę w momence, gdy wszystke pozostające w modelu zmenne okazują sę być stotne lub gdy wszystke z nch zostaną z nego wyrzucone. W tym ostatnm przypadku wykorzystane regresj logstycznej do analzy jest neuzasadnone. Należy przy tym dodać, że często krokowe badane stotnośc poszczególnych współczynnków modelu regresj logstycznej prowadz do ogranczena zmennych nezależnych do takego samego zboru, jak uzyskalbyśmy przy krokowej analze dyskrymnacyjnej. Jednakże w nnejszym badanu w celu zachowana spójnośc model dyskrymnacyjnych logstycznych dla każdego sektora, oparto analzę logstyczną na wskaźnkach przyjętych do modelu w badanu dyskrymnacyjnym. M.Rószkewcz, Narzędza..., op.ct., s.9. 9 MATERIAŁY I STUDIA Zeszyt 86 9
Model regresj logstycznej.. Weryfkacja modelu regresj logstycznej Analza stotnośc poszczególnych współczynnków funkcj logstycznej stanow oczywśce swostą technkę weryfkacj całego modelu. Nemnej jednak jakość uzyskanego rozwązana ocenana być może równeż na podstawe statystyk V będącej różncą mędzy dwukrotnym ujemnym logarytmem funkcj warygodnośc dla oszacowanego modelu modelu zawerającego jedyne stałą 0 :,,..., V ln L p L. () 0 ln L(α 0, α,, α p ) - funkcja warygodnośc dla oszacowanego modelu, p lczba zmennych w modelu L(α 0 ) - funkcja warygodnośc dla modelu zawerającego jedyne stałą 0. 0 Statystyka V przy dużych próbach ma rozkład zblżony do rozkładu o v ( p ) stopnach swobody. Przy jej użycu testowana jest para hpotez: H : 0 dla,,..., p, 0 H : 0 przynajmnej dla jednego, gdze,,..., p. Oczywśce m wyższa wartość statystyk V, tym nższy odpowadający jej pozom prawdopodobeństwa, a co za tym dze tym mnejsze ryzyko popełnena błędu przy odrzucenu hpotezy zerowej, zakładającej nestotność wszystkch współczynnków stojących przy zmennych nezależnych. Do weryfkacj oszacowanego modelu logtowego służyć mogą także mary dopasowana zblżone nterpretacyjne do współczynnka determnacj R dla modelu regresj lnowej. Za jedne z najpopularnejszych mar tego typu uznać wypada współczynnk Coxa-Snella ( R ) oraz Nagelkerke a ( R ) : C S N R CS L 0 L 0,,..., p N, () N- lczba obserwacj w próbe. R CS RN L 0 N. () Ibdem, s.9. http://www.ats.ucla.edu/stat/mult_pkg/faq/general/psuedo_rsquareds.htm, zaczerpnęta w dnu 8 lstopada 00 r. nformacja 0 0 N a r o d o w y B a n k P o l s k
Model regresj logstycznej Współczynnk te przyjmują wartośc z przedzału 0 ;. Im te wartośc są wyższe, tym wyższa jest jakość zbudowanego modelu regresj logstycznej. Na zakończene warto podkreślć, ż marą jakośc modelu regresj logstycznej, tak jak mało to mejsce w przypadku analzy dyskrymnacyjnej, może być ocena poprawnośc predykcj w próbe. MATERIAŁY I STUDIA Zeszyt 86