ZASTOSOWANIA EKONOMETRII Modelowane zmennych jakoścowych dr Dorota Cołek Katedra Ekonometr Wydzał Zarządzana UG http://wzr.pl/~dcolek dorota.colek@ug.edu.pl 1
Zmenne jakoścowe jako zm. objaśnane Zmenne dwumanowe - bnarne dychotomczne: typu TAK/NIE np. frma ogłosła upadłość lub ne frma jest w złej lub dobrej kondycj fnansowej spółka jest lub ne jest celem przejęca frma prowadz dzałalność eksportową lub ne tp. Konstruuje sę tzw. modele zmennej dwumanowej modele wyboru bnarnego (bnary choce model) modele danych bnarnych (bnary response model) Narzędza ekonometryczne: Lnowy model prawdopodobeństwa Model probtowy Model logtowy Komplementarny model log-log 2
Zmenne jakoścowe jako zm. objaśnane Zmenne welomanowe take, które mają wele kategor (wele warantów), charakteryzujących sę naturalnym uporządkowanem np. w badanu sondażowym gdy frma ne chce ujawnć swoch wynków sprzedażowych może odpowedzeć na pytane: czy sprzedaż wzrosła, pozostała na tym samym pozome, czy spadła lub w analze sytuacj frmy czy notowana gełdowe w określonym czase: spadły, ne zmenły sę, wzrosły pomar cech nemerzalnych w badanach anketowych: preferencje, poglądy, zadowolene, czy ocena: satysfakcja z pracy pracownka (bardzo nezadowolony, trochę nezadowolony, neutralny, w marę zadowolony, bardzo zadowolony) zmenne przedzałowe badany ne zawsze chce (a zazwyczaj ne chce) określć dokładną wysokość swojego dochodu prosmy o wskazane jednego z wymenonych przedzałów mejsce w rankngu rankng najlepszych uczeln, odpowedź na polecena: proszę uszeregować wyróżnone mark samochodów od najbardzej prestżowych do najmnej prestżowych 3
Cele modelowana 1) Ustalene czynnków, które w danej zborowośc są stotne dla określena prawdopodobeństwa P(y=1) - weryfkacja hpotezy na temat mechanzmu generującego wartośc zmennej Y. Co jest ważne, a co jest nestotne? 2) Prognoza prawdopodobeństwa zdarzena lub wystąpena stanu polegającego na tym, że zmenna Y przyjme wartość 1 prognoza wartośc zmennej Y dla konkretnego zestawu zmennych objaśnających dokonane klasyfkacj nowego obektu. 3) Prognoza zmany prawdopodobeństwa P(y=1) wywołanej zmaną wartośc jednej ze zmennych objaśnających odpowedź na pytane, Jak analzowana zmenna jakoścowa reaguje na zmany czynnków objaśnających? Pozwala równeż określć ważnośc poszczególnych czynnków objaśnających. 4) Konstrukcja funkcj zmennych X pozwalającej rozróżnć (dyskrymnować) dwe grupy należące do danej zborowośc: jedną z y=1 oraz drugą z y=0. 4
Model dla zmennej jakoścowej: model prawdopodobeństwa y * 0 k j 1 j x j u * y gdze bnarenej: jest tzw. zmenną ukrytą (latent varable) np. dla zm. y 1 dla 0 dla y y * * 0 0 (Raczej) ne wykorzystuje sę klasycznej regresj lnowej (Lnowego Modelu Prawdopodobeństwa) poneważ wartośc teoretyczne wylczone z takego modelu mogą znajdować sę poza przedzałem <0,1> - nezgodne z logka prawdopodobeństwa. 5
Model logtowy - założena Bnarna zmenna Y może przyjąć dwe wartośc: y 1 lub y Załóżmy, że prawdopodobeństwo P( y 1) p oraz P( y 0) 1 Rozkład prawdopodobeństwa zmennej Y to zerojedynkowy rozkład Bernoullego Funkcja prawdopodobeństwa w tym rozkładze jest następująca: f ( y ) p y 0 1 y 1 p dla y 0, 1 W modelu logtowym wyjaśnamy, jak określone zmenne X wpływają na zmenną Y, a dokładne na prawdopodobeństwo p. To p reprezentuje swego rodzaju skłonność danego osobnka lub danej jednostk do podejmowana decyzj lub przyjmowana stanu odpowadającego wartośc y=1. Dotyczy to zarówno jednostek śwadome podejmujących decyzję jak tych, które trafają do danej kategor, ne decydując o tym. p 6
Model logtowy - defncja Korzysta sę z rozkładu logstycznego, którego dystrybuanta to: p 1 1 e ( x ' ) W modelu logtowym zmenną objaśnaną jest tzw. logt: logt( p ) p ln 1 p logarytm lorazu szans przyjęca oraz neprzyjęca wartośc 1 przez zmenną y Logt zapsuje sę jako lnowa funkcję zmennych objaśnających X: logt( p ) 0 1X1 2X 2 Metoda estymacj:... X Metoda Najwększej Warygodnośc (Maxmum Lkelhood Estmaton) k k Uwaga: Model probtowy w praktyce daje te same wynk estymacj: logt = 1,6 probt Mary dopasowana modelu są dentyczne. 7
Etapy budowy modelu Zebrane danych kodowane zmennych jakoścowych. Kontrola braków danych w nektórych przypadkach brak danych są równe ważne jak zebrane nformacje. Identyfkacja kontrola obserwacj netypowych (outlers). Sprawdzene zmennych objaśnających, jak slne wyjaśnają zmenność zmennej objaśnanej sła predykcyjna, jakość zmennych. Sprawdzene, czy ne zachodz zbyt wysoka korelacja mędzy wybranym zmennym objaśnającym blska współlnowość. Oszacowane modelu. Ocena dobroc dopasowana. Interpretacja. Wykorzystane prognozowane, symulacje 8
Interpretacja wynków oszacowana Jaka jest wrażlwość prawdopodobeństwa p na zmenne objaśnające? 1) Znak oszacowana parametru przy danej zmennej X określa kerunek wpływu X na Y (dodatn wzrost szans, ujemny spadek szans). 2) Efekty krańcowe najczęścej wylczane są dla średnch wartośc wszystkch zmennych objaśnających. 3) tzw. lorazy szans (odds rato) exp( )-1 mów o le procent wzrasta prawdopodobeństwo sukcesu (Y=1), jeżel zmenna przez tym parametrze wzrośne o jednostkę. 4) Wylczając wartośc teoretyczne (wartośc przewdywane) możemy określć prawdopodobeństwo sukcesu (Y=1) dla poszczególnych przypadków. 9
Sprawdzene dopasowana modelu Istotność statystyczna poszczególnych parametrów statystyka z o rozkładze normalnym N(0,1) Istotność całego modelu test lorazu warygodnośc Hpoteza zerowa w tym teśce mów, że wszystke parametry przy zmennych równają sę zero, czyl, że prawdzwy jest model tylko z wyrazem wolnym. Normalność rozkładu reszt Dopasowane modelu do danych rzeczywstych: - pseudo-r 2 (np. R 2 McFaddena) wyższe wartośc śwadczą o lepszym dopasowanu - tablca trafnośc - krzywa ROC (a dokładnej pole powerzchn pod krzywą ROC węcej nż 0,5 oznacza klasyfkację lepszą nż losowa) - kryterum Akake a (AIC) do porównana różnych model 10
Tablca trafnośc wszystke przypadk z wartoścam przewdywanym (prawdopodobeństwam) mnejszym lub równym 0,5 są zaklasyfkowane jako y=0, te z wartoścam przewdywanym wększym od 0,5 jako y=1. loraz szans (Statstca) oblcza sę jako stosunek loczynu poprawne zaklasyfkowanych przypadków do loczynu nepoprawne zaklasyfkowanych przypadków. lorazy szans wększe od 1 wskazują, że klasyfkacja jest lepsza od klasyfkacj losowej. m wększy loraz szans tym lepej dopasowany model. procent trafnych prognoz (% poprawnych) lczba wszystkch trafnych klasyfkacj do lczby wszystkch przypadków razy 100 tzw. zlczenowy R 2 11
Dobór próby do modelu logtowego Model opsuje na ogół zjawska (Y=1), dla których częstość występowana zdecydowane różn sę od 50%. Np.: - N1 frm jest zagrożonych fnansowo (Y=1) - N2 frm ne jest zagrożonych fnansowo (Y=0). W tym przypadku N1 jest dametralne mnejsza nż N2. Najczęścej w celu zapewnena wyrazstośc próby spośród obu grup frm losujemy n1 n2 jednostek w tak sposób, aby zapewnć n1=n2. Oznacza to, że próba ne jest losowa lecz jest to tzw. próba doberana. Proponowane są dwa rozwązana: Ważony estymator parametrów (estymator Manskego-Lermana) Wystarczy jedyne korekta wyrazu wolnego (Maddala 1983) Zaleca, aby brać do analzy przynajmnej około 10 do 20 razy węcej przypadków (obserwacj, pomarów, respondentów) nż występuje w nej zmennych (pytań). W przecwnym wypadku oceny ln regresj będą bardzo nestablne będą sę slne zmenać wraz ze wzrostem lczby przypadków. 12
Obserwacje netypowe (outlers) Z defncj netypowe występują rzadko obserwacja odstająca Zwązek mędzy zmenną objaśnaną a objaśnającą dla danej obserwacj jest nny nż dla reszty obserwacj w zborze danych. Uwzględnene w analze obserwacj netypowych może zaburzyć wynk. Szczególne mało odporne są metody współczynnk bazujące na założenu rozkładu normalnego zależnoścach lnowych, take jak korelacja Pearsona, regresja lnowa, analza korespondencj, tp. Nawet jedna obserwacja netypowa może znacząco zmenć wartość znak współczynnka kerunkowego ln regresj lub współczynnka korelacj. Zazwyczaj zakładamy, że obserwacje netypowa reprezentują błąd losowy, który chcelbyśmy kontrolować Stosuje sę testy dagnostyczne wykrywające obserwacje netypowe oraz tzw. obserwacje wysokej dźwgn (leverage) 13
Wykrywane obserwacj netypowych Ne stneje jedna powszechne stosowana metoda automatycznego usuwana odstających obserwacj - zdefnowane tego, co uznajemy za obserwację netypową, jest sprawą subektywną ( taką mus pozostać) decyzję o dentyfkacj odstających obserwacj mus badacz podejmować ndywdualne operając sę na swom dośwadczenu oraz powszechne akceptowanej praktyce w danej dzedzne badań. Nektórzy badacze używają podejśca loścowego: Na przykład wykluczają obserwację, która wychodz poza przedzał obejmujący ±2 odchylena standardowe (lub nawet ±1,5 odchylena standardowego) od wartośc średnej grupowej. Popularnym sposobem wykrywana obserwacj odstających jest stworzene wykresu ramkowego (skrzynkowego) tzw. wykres ramka-wąsy Test Grubbsa - polega na wylczenu jak daleko potencjalna obserwacja odstająca znajduje sę od pozostałych wartośc w zborze danych. Statystyka testu Grubbsa (G) - stosunek najwększego bezwzględnego odchylena od średnej wartośc z próby do odchylena standardowego próby. 14
Przykład 1 Modelowane zagrożena fnansowego bankructwa 15
Metody oceny ryzyka upadłośc Klasyczna analza wskaźnkowa jednowymarowa Analza dyskrymnacyjna: np. Z-score Altmana Mkroekonometra fnansowa analza logtowa: - modele dwumanowe - modele welomanowe Modele czasu trwana (duraton) Sec neuronowe Drzewa decyzyjne, klasyfkacyjne Teora chaosu Algorytmy genetyczne 16
Zagrożene fnansowe (fnancal dstress, corporate nsolvency) * Całkowte zdrowe przedsęborstwa sytuacja najlepsza * Zagrożene fnansowe sytuacja pośredna * Upadłość (bankructwo) - sytuacja ostateczna Kategora płynna dynamczna Brak obektywnej mary takego zagrożena Należy wyraźne rozdzelć modelowane upadłośc od modelowana zagrożena fnansowego 17
Zagrożene upadłośc a upadłość W sytuacj bankructwa lub wnosku o ustalene bankructwa rzecz jest zero-jedynkowa złożene formalnego wnosku o upadłość Wnosek o upadłość wcale ne oznacza, że frma faktyczne kwalfkuje sę do upadłośc ostatno coraz częścej upadłość jest sposobem na przetrwane/uratowane/przekształcene/zmanę własnośc W Polsce defnuje sę tzw. upadłość na własne życzene szacuje sę, że jedyne 10% upadłośc w Polsce to bankructwa faktyczne. Badana zagrożena fnansowego pownno być znaczne ważnejsze nż badane upadłośc: Frma zagrożona fnansowo określone prawdopodobeństwo zaprzestana dzałalnośc dalszego funkcjonowana Frma określona przez sąd jako upadała przestaje dzałać, ale perspektywy jej dalszego funkcjonowana mogą być całkem dobre. 18
Metoda określena zagrożena/newydolnośc fnansowej Problemy fnansowe trudno jednoznaczne ustalć (pomjając nawet problem zatajana faktycznego stanu) W lteraturze spotyka sę od 2 do 5 stanów zagrożena fnansowego Odmenna defncja zmennej objaśnanej model dwumanowy lub welomanowy uporządkowany Pytane: W jak sposób merzyć zagrożene fnansowe gdze leży punkt odcęca pomędzy frmą z kłopotam a frmą bez kłopotów? 19
Model 1. Platt Platt (2006) Model dwumanowy: y =1 jeżel -ta frma jest fnansowo zagrożona y =0 jeżel -ta frma jest fnansowo zdrowa Punkt odcęca pomędzy frmą zagrożoną a ne zagrożoną: jednocześne ujemne wartośc EBITDA, EBIT zysku netto Próba składała sę z 276 frm zagrożonych 1127 frm pozostałych Informacje o frmach z lat 1999 2000 Pęć zmennych objaśnających: 1. rentowność sprzedaży = (zysk netto+amortyzacja)/sprzedaż 2. rentowność aktywów = EBITDA/aktywa ogółem 3. stopa zadłużena = beżąca rata kaptałowa zadłużana długookresowego/aktywa ogółem 4. zdolność spłaty odsetek = zysk netto skorygowany/odsetk 5. Stopa wysokej płynnośc = (majątek obrotowy zapasy)/ zobowązana krótkotermnowe 20
Model 1. cd Wymenone czynnk objaśnające oblczono jako odchylena od średnch wartośc wskaźnków w każdej z 14 analzowanych branż co w pewnym stopnu pozwolło uchwycć zróżncowane pomędzy branżam (specyfkę poszczególnych branż). Ze znaków oszacowań parametrów wynka, że: Zagrożene fnansowe jest mnejsze przy: - wększych przepływach penężnych - wększym operacyjnym zysku - wększym pokrycem odsetek Zagrożene fnansowe jest wększe przy: - wększym lewarowanu - wększej płynnośc 21
Ogranczena Badana statystyczno-ekonometryczne operają sę na próbach statystycznych, które ne odzwercedlają sytuacj beżącej, ale sytuację sprzed jakegoś czasu wnosk mają operacyjne opóźnene. Oznacza to, że gdyby na podstawe takego badana podejmować szybke decyzje operacyjne (na przykład decyzje nwestycyjne), take decyzje mogą ne być trafne. Dlatego korzystne w przypadku model upadłośc warto wykorzystać dane o zmennych objaśnających z okresów poprzedzających: prawdopodobeństwo upadłośc frmy w roku t może być objaśnone za pomocą zmennych objaśnających z roku poprzednego (t-1) z przed dwóch lat (t-2) lub z przed trzech lat (t-3). 22
Model 2 Ceselsk (2005) Próba 120 frm, z których 60 sklasyfkowano jako upadłe (orzeczena sądowe bankructwa ogłoszone w Montorze Sądowym Gospodarczym ) Informacje o tych frmach pochodzły z lat 2000-2002 Próba podzelona na część bazową (40 bankrutów 40 nebankrutów) oraz część waldacyjną (kontrolnej) (20 bankrutów 20 nebankrutów) Zmenne objaśnające: PMO wskaźnk pokryca majątku obrotowego kaptałem krótkotermnowym (rezerwy zobowązana krótkotermnowe/aktywa obrotowe NKA nadwyżka/nedobór kaptału obrotowego dzelona przez aktywa ogółem KA wskaźnk udzału kaptału obrotowego w fnansowanu aktywów ogółem (kaptał obrotowy/suma aktywów) BP wskaźnk beżącej płynnośc fnansowej RZ rotacja zobowązań 23
Model 2 Ceselsk (2005) cd OZ wskaźnk ogólnego zadłużena (zobowązana ogółem/aktywa ogółem) PO wskaźnk pokryca odsetek zyskem WO wskaźnk wydajnośc operacyjnej majątku ogółem (przepływy penężne z dzałalnośc operacyjnej netto/aktywa ogółem) ROA wskaźnk rentownośc majątku KWA wskaźnk pokryca majątku kaptałem własnym (kaptał własny plus zobowązana długotermnowe/aktywa ogółem). Model był szacowany dla welu różnych kombnacj zmennych objaśnających. Wybrano te, które okazały sę najlepej przyporządkowywać frmy, które znalazły sę w grupe waldacyjnej (najlepszy: 83%). 24
Przykład 2 Modele scorngowe 25
Modele scorngowe Wykorzystywane np.: do oceny warygodnośc klentów lub kontrahentów (np. frmy telekomunkacyjne kredytujące swoch klentów oferując m telefony za złotówkę) do wykrywana prób wyłudzeń ogranczene strat generowanych przez neuczcwych klentów w wndykacj możlwość oceny prawdopodobeństwa odzyskana należnośc oraz wybór najskutecznejszej metody wndykacyjnej w procese utrzymana klenta wskazują osoby najbardzej zagrożone odejścem we wsparcu procesów sprzedaży wskazując osoby, które z najwększym prawdopodobeństwem odpowedzą na ofertę poszczególnych produktów 26
Scorng ma zastosowane gdy chcemy podzelć naszych klentów na kategore: spłac zobowązane / ne spłac odpowe na ofertę / ne odpowe przynese zysk / ne będze dochodowy zagrożony odejścem / pozostane klentem Na podstawe cech klenta np. demografcznych, behaworalnych, budujemy model, który przewduje prawdopodobeństwo przynależnośc do pożądanej przez nas kategor. 27
Metody Na podstawe zachowań klentów w przeszłośc (dane hstoryczne) określamy pewne wzorce zachowań, które następne można zastosować dla nowych klentów. karty scorngowe regresja logstyczna drzewa klasyfkacyjne sec neuronowe metoda wektorów nośnych k-najblższych sąsadów 28
Etapy budowy modelu scorngowego Przygotowane danych hstorycznych Kodowane danych oznaczene odpowednch kategor np. kupł/ne kupł Wybór zmennych objaśnających (predyktorów) budujemy rankng zmennych wyberamy tylko te, które są w sposób stotny powązane z modelowanym zjawskem Podzał zmennych na przedzały dyskretyzacja zmennych (np. algorytm CHAID) Oszacowane modelu np. regresj logtowej Budowa modelu np. zamana modelu regresj logtowej na kartę scorngową Ocena dobroc dopasowana modelu Wykorzystane modelu Montorng - po jakmś czase model wymaga aktualzacj 29
Ocena dobroc dopasowana modelu Wskaźnk IV (Informaton Value) KS wskaźnk Kołmogorowa-Smrnowa Wskaźnk GINI dywergencja Wskaźnk Hosmera-Lemeshowa AUC pole powerzchn pod krzywą ROC Lft 30