UNIWERSYTET EKONOMICZNY W KRAKOWIE WYDZIAŁ ZARZĄDZANIA KATEDRA STATYSTYKI Kamil Fijorek REGRESJA LOGISTYCZNA: WYBRANE ASPEKTY ESTYMACJI, WNIOSKOWANIA I PORÓWNYWANIA MODELI Streszczenie rozprawy doktorskiej w języku polskim Promotor Prof. dr hab. Andrzej Sokołowski Kraków 2015
Streszczenie Głównym celem rozprawy jest pogłębienie stanu wiedzy na temat wybranych aspektów estymacji, wnioskowania, porównywania modeli regresji logistycznej oraz umożliwienie wykorzystania uzyskanych rezultatów teoretycznych w praktyce poprzez stworzenie odpowiedniego oprogramowania komputerowego oraz prezentację przykładów empirycznych. Główny cel rozprawy został zrealizowany za pomocą cyklu spójnych tematycznie artykułów naukowych opublikowanych w recenzowanych zagranicznych oraz polskich czasopismach naukowych. Artykuły opublikowane w czasopismach zagranicznych są prezentowane w rozprawie w oryginalnej anglojęzycznej wersji językowej. Na cykl artykułów składają się następujące publikacje: 1) Fijorek K., Porównanie modeli regresji logistycznej odpornych na problem całkowitego rozdzielenia, Zeszyty Naukowe Uniwersytetu Ekonomicznego w Krakowie, nr 884, 143-156, 2012 W małych zbiorach danych istnieje znacząca szansa na wystąpienie zjawiska całkowitego rozdzielenia. Sytuacja ta ma miejsce, gdy sukcesy i porażki mogą być całkowicie rozdzielone za pomocą jednej zmiennej objaśniającej lub liniowej kombinacji kilku zmiennych objaśniających. W takim przypadku metoda największej wiarygodności nie prowadzi do uzyskania skończonych ocen parametrów modelu. Przegląd literatury dotyczącej problematyki całkowitego rozdzielenia doprowadził do wyłonienia dwóch dojrzałych z teoretycznego punktu widzenia rozwiązań problemu, tj.: [Heinze, Schemper 2002] oraz [Rousseeuw, Christmann 2003]. Celem artykułu jest prezentacja oraz porównanie obu metod estymacji parametrów modelu regresji logistycznej. Na postawie przeprowadzonych badań można wskazać następujące wnioski ogólne: (1) Z punktu widzenia obciążenia ocen parametrów metoda Firtha oraz HLM (Hidden Logistic Model) charakteryzują się znacznie lepszym zachowaniem się w stosunku do metody największej wiarygodności (w zakresie przeprowadzonych symulacji), przy czym
metoda Firtha daleko lepiej radzi sobie z problemem obciążenia niż HLM. (2) Analiza wyników symulacji dla przedziałów ufności pokazuje, że metodzie Firtha powinny towarzyszyć przedziały ufności metody profile likelihood, podczas gdy dla metody HLM wyniki symulacji nie dają jednoznacznej odpowiedzi w tym zakresie. 2) Fijorek K., Aproksymacja modelu regresji logistycznej Firtha za pomocą ważenia obserwacji, Zeszyty Naukowe Uniwersytetu Ekonomicznego w Krakowie, nr 923, 89-98, 2013 W artykule przedstawiono model regresji logistycznej Firtha [Firth 1993; Heinze, Schemper 2002] z punktu widzenia wag przypisywanych przez metodę poszczególnym obserwacjom ze zbioru danych. Następnie dokonano przeformułowania modelu HLM [Rousseeuw, Christmann 2003] do podobnej postaci. Na bazie wniosków płynących z alternatywnego spojrzenia na model Firtha oraz HLM zaproponowano dwie metody aproksymacji modelu Firtha. Symulacyjnie zbadano jakość aproksymacji oraz omówiono praktyczne korzyści płynące z jej stosowania. Na postawie przeprowadzonych badań można wskazać następujące wnioski ogólne: (1) Model Firtha powinien być zawsze preferowany w stosunku do innych rozważonych w artykule metod aproksymacji. (2) Jednak w sytuacji, gdy zastosowanie modelu Firtha nie jest możliwe (co było zasadniczym założeniem poczynionym w artykule) należy rekomendować stosowanie zmodyfikowanego modelu HLM (mhlm). (3) Propozycja afirth (aproksymowany model Firtha) nie dostarczyła zadowalających rezultatów. 3) Fijorek K., Sokołowski A., Separation-resistant and bias-reduced logistic regression: STATISTICA macro, Journal of Statistical Software, 47, Code Snippet 2, 2012 (Impact Factor = 4.01, 50 punktów MNiSW) W artykule opisano rezultaty prac nad stworzeniem programu komputerowego implementującego model regresji logistycznej Firtha. Program funkcjonuje jako rozszerzenie do pakietu statystycznego STATISTICA. Wybór wspomnianego środowiska
był podyktowany tym, że model Firtha nie posiadał w nim swojej implementacji. Ponadto argumentem przemawiającym za tym środowiskiem jest jego znaczna popularność wśród polskich naukowców i praktyków analizy danych. Implementacja modelu Firtha może znaleźć zastosowanie, np. w naukach ekonomicznych do tworzenia modeli bankructwa w oparciu o niewielkie zbiory danych przedsiębiorstw upadłych, w naukach biologicznych podczas analizy danych pochodzących z niewielkich badań klinicznych. Artykuł zawiera opis funkcjonalności programu komputerowego, opis stosowanych metod statystycznych, numerycznych, programistycznych. W załączeniu do artykułu znajduje się kod źródłowy programu, którego działanie jest ilustrowane na przykładach empirycznych. 4) Fijorek K., Fijorek D., Dobór zmiennych objaśniających metodą najlepszego podzbioru do modelu regresji logistycznej Firtha, Metody Informatyki Stosowanej, nr 2, 15-23, 2011 W artykule podjęto próbę określenia sprawności metody najlepszego podzbioru jako procedury doboru zmiennych objaśniających do klasycznego modelu regresji logistycznej oraz do modelu regresji logistycznej Firtha w ujęciu bayesowskim. Inspiracją do podjęcia badań w tym zakresie była praca [Chen i inni, 2008], której autorzy zauważają, że generalnie w rozważanym kontekście podejście klasyczne i bayesowskie są podobne, lecz ten stan rzeczy może ulec diametralnej zmianie w małych próbach. Badacze ci jednak nie precyzują swojego spostrzeżenia, tzn. nie jest jasne, które podejście w małych próbach będzie się odznaczało lepszymi właściwościami. W rezultacie przeprowadzonych symulacji stwierdzono, że bayesowskie ujęcie modelu Firtha oraz podejście klasyczne charakteryzują się bardzo podobnymi zdolnościami wykrywania procesu generującego dane w małych próbach.
5) Fijorek K., Fijorek D., Wiśniowska B., Polak S., BDTcomparator: a program for comparing binary classifiers, Bioinformatics, 27(24), 3439-3440, 2011 (Impact Factor = 5.468, 40 punktów MNiSW) W modelu regresji logistycznej po ustaleniu wartości progowej predykcje probabilistyczne zostają zamienione na twarde predykcje przynależności przypadków do jednej z dwóch klas. W ten sposób możliwe jest zestawienie stanu faktycznego z predykcją modelu w formie tabeli czteropolowej, którą dalej można podsumować za pomocą miar sprawności klasyfikacji takich jak: dokładność, czułość, specyficzność, dodatnia i ujemna wartość predykcyjna, iloraz wiarygodności dla dodatniego i ujemnego wyniku predykcji. W chwili powstawania niniejszej pracy nie istniały narzędzia, które umożliwiałyby w kompleksowy lecz przyjazny użytkownikowi sposób wyznaczyć wszystkie wspomniane miary sprawności jednocześnie dla kilku konkurujących ze sobą modeli oraz dokonać wnioskowania statystycznego dla par konkurujących ze sobą modeli. W artykule dokonano usystematyzowania stanu wiedzy w tym temacie, dokonano weryfikacji poprawności wzorów obliczeniowych prezentowanych w literaturze poprzez ich ponowne wyprowadzenie oraz badania symulacyjne. Na postawie tych prac stworzono program komputerowy. Program dokonuje estymacji punktowej oraz przedziałowej miar sprawności klasyfikacji jednocześnie dla wielu klasyfikatorów wraz z testowaniem hipotez statystycznych o równości miar sprawności dla par konkurujących modeli. 6) Fijorek K., Przedział ufności profile likelihood dla prawdopodobieństwa sukcesu w modelu regresji logistycznej Firtha, Przegląd Statystyczny, 59(4), 355-368, 2012 W pierwszej części artykułu za pomocą symulacji zbadano właściwości przedziałów ufności Walda oraz przedziałów ufności wyznaczanych metodą profile likelihood (zaproponowano również efektywny algorytm wyznaczania tychże przedziałów) budowanych dla prawdopodobieństwa sukcesu w modelu regresji logistycznej Firtha. W drugiej części artykułu zaprezentowano przykładowy model zagrożenia upadłością przedsiębiorstwa handlowego jako etap pośredni w celu zademonstrowania praktycznego znaczenia rezultatów uzyskanych w części teoretycznej artykułu.
Na postawie przeprowadzonych badań można wskazać następujące wnioski ogólne: (1) Przedziały ufności metody profile likelihood osiągają prawdopodobieństwo pokrycia znacznie bliższe poziomowi nominalnemu w porównaniu do przedziałów asymptotycznych niemal we wszystkich rozważonych scenariuszach symulacyjnych. (2) Analiza rzeczywistego zbioru danych (zbiór uczący polskich przedsiębiorstw handlowych liczył 84 przedsiębiorstwa upadłe oraz 405 przedsiębiorstw nieupadłych) ponadto dostarczyła istotnego z punktu widzenia praktyki wniosku, tzn. skonstruowane przedziały ufności ukazały niepokojąco dużą niepewność związaną z szacowanym wskaźnikiem zagrożenia upadłością. Można przypuszczać, że w mniejszych próbach, tak często spotykanych w polskich modelach zagrożenia upadłością, niepewność szacunków miar zagrożenia znajduje się na jeszcze wyższym poziomie. 7) Fijorek K., Grotowski M., Bankruptcy Prediction: Some Results From a Large Sample of Polish Companies, International Business Research, 5(9), 70-77, 2012 Na potrzeby artykułu opracowano zbiór danych finansowych o polskich przedsiębiorstwach, które upadły oraz przedsiębiorstwach, które na chwilę gromadzenia danych nadal prowadziły działalność gospodarczą. Zgromadzone dane pochodziły z około 13 tys. przedsiębiorstw, przy czym przeciętna liczba rocznych obserwacji przypadająca na jedno przedsiębiorstwo wynosiła około 7. Stan ekonomiczno-finansowy przedsiębiorstw opisano za pomocą 16 wskaźników finansowych. Zbiór danych posłużył do estymacji 65535 modeli upadłości (wszystkie możliwe podzbiory zbioru zmiennych objaśniających) za pomocą regresji logistycznej Firtha. Jednym z głównych celów była próba określenia czy możliwe jest wskazanie jednego modelu lub niewielkiej grupy modeli regresji logistycznej o wyraźnie najlepszych zdolnościach predykcji upadłości, na tle pozostałych wyznaczonych modeli. W rezultacie przeprowadzonych badań można stwierdzić, że nawet w oparciu o bardzo duży zbiór danych trudno jest wskazać model ewidentnie najlepszy. Liczna grupa modeli regresji logistycznej znacznie różniących się pod względem zmiennych objaśniających charakteryzowała się zbliżonymi zdolnościami predykcyjnymi, stawiając pod znakiem
zapytania możliwość formułowania silnych interpretacji ekonomicznych na podstawie pojedynczych modeli.