REGRESJA LOGISTYCZNA: WYBRANE ASPEKTY

Podobne dokumenty
PRZEDZIAŁ UFNOŚCI PROFILE LIKELIHOOD DLA PRAWDOPODOBIEŃSTWA SUKCESU W MODELU REGRESJI LOGISTYCZNEJ FIRTHA 1 1. WSTĘP

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

KARTA PRZEDMIOTU / SYLABUS

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

KARTA PRZEDMIOTU / SYLABUS Wydział Nauk o Zdrowiu Zdrowie Publiczne ogólnoakademicki praktyczny inny jaki. Zakład Statystyki i Informatyki Medycznej

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

KARTA PRZEDMIOTU / SYLABUS. Zakład Statystyki i Informatyki Medycznej. tel./fax (85) dr Robert Milewski

KARTA PRZEDMIOTU / SYLABUS

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

METODY STATYSTYCZNE W BIOLOGII

KARTA PRZEDMIOTU / SYLABUS

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

KARTA PRZEDMIOTU / SYLABUS

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

PRZEGLĄD STATYSTYCZNY

NOWY PROGRAM STUDIÓW 2016/2017 SYLABUS PRZEDMIOTU AUTORSKIEGO: Wprowadzenie do teorii ekonometrii. Część A

Metody komputerowe statystyki Computer Methods in Statistics. Matematyka. Poziom kwalifikacji: II stopnia. Liczba godzin/tydzień: 2W, 3L

PRZEWODNIK PO PRZEDMIOCIE. Statystyka opisowa. Zarządzanie. niestacjonarne. I stopnia. dr Agnieszka Strzelecka. ogólnoakademicki.

Recenzja rozprawy doktorskiej mgr Bartosza Rymkiewicza pt. Społeczna odpowiedzialność biznesu a dokonania przedsiębiorstwa

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Model referencyjny doboru narzędzi Open Source dla zarządzania wymaganiami

Własności statystyczne regresji liniowej. Wykład 4

Analiza regresji - weryfikacja założeń

Sterowanie wielkością zamówienia w Excelu - cz. 3

przedmiot podstawowy obowiązkowy polski drugi

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

OPIS PRZEDMIOTU ZAMOWIENIA Szkolenie pt. Zastosowanie metod statystycznych w badaniach środowiskowych

SPIS TREŚCI. Do Czytelnika... 7

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

Metoda przedwdrożeniowego wymiarowania zmian oprogramowania wybranej klasy systemów ERP

Opis programu studiów

KARTA PRZEDMIOTU / SYLABUS

Spis treści 3 SPIS TREŚCI

Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2016/2017. Forma studiów: Stacjonarne Kod kierunku: 11.

Optymalizacja systemów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Z-LOGN1-006 Statystyka Statistics

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

166 Wstęp do statystyki matematycznej

Opinia o pracy doktorskiej pt. On active disturbance rejection in robotic motion control autorstwa mgr inż. Rafała Madońskiego

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

BIOSTATYSTYKA. Liczba godzin. Zakład Statystyki i Informatyki Medycznej

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Uczelnia Łazarskiego Wydział Medyczny Kierunek Lekarski

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

KARTA PRZEDMIOTU / SYLABUS Wydział Nauk o Zdrowiu ELEKTROLADIOLOGIA ogólnoakademicki praktyczny inny jaki. Zakład Statystyki i Informatyki Medycznej

Wprowadzenie do analizy korelacji i regresji

Niezawodność i diagnostyka projekt. Jacek Jarnicki

Z-ZIPN1-004 Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki Niestacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2

Karta przedmiotu. Obowiązkowy. Kod przedmiotu: Rok studiów: Semestr: Język:

PRZEWODNIK PO PRZEDMIOCIE

EFEKTY UCZENIA SIĘ DLA KIERUNKU INŻYNIERIA DANYCH W ODNIESIENIU DO EFEKTÓW UCZENIA SIĘ PRK POZIOM 6

Tematy prac dyplomowych w Katedrze Awioniki i Sterowania. Studia: II stopnia (magisterskie)

KARTA PRZEDMIOTU / SYLABUS

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyka matematyczna i ekonometria

12. Przynależność do grupy przedmiotów: Blok przedmiotów matematycznych

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

KARTA PRZEDMIOTU / SYLABUS Nauk o Zdrowiu Dietetyka x ogólnoakademicki praktyczny inny jaki. Zakład Statystyki i Informatyki Medycznej

Nazwa przedmiotu: Współczesne koncepcje raportowania finansowego spółek w warunkach rynku kapitałowego. Obowiązkowy

Podstawowe pojęcia statystyczne

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2014/2015

Wykład Ćwiczenia Laboratorium Projekt Seminarium Liczba godzin zajęć zorganizowanych w

Agnieszka Nowak Brzezińska Wykład III

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański

Wykład 3 Hipotezy statystyczne

BIOSTATYSTYKA KARTA PRZEDMIOTU. 1. Nazwa przedmiotu. 2. Numer kodowy COM03c. 3. Język, w którym prowadzone są zajęcia polski. 4. Typ kursu obowiązkowy

PRZEWODNIK PO PRZEDMIOCIE

Opis efektów kształcenia dla modułu zajęć

Zagadnienia na egzamin magisterski na kierunku Informatyka i Ekonometria (2 stopień studiów)

Wykład 9 Wnioskowanie o średnich

OGŁOSZENIE O ZAMÓWIENIU nr 1/2013 (POWYŻEJ 14 tys. EURO)

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

KARTA PRZEDMIOTU / SYLABUS

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Data wydruku: Dla rocznika: 2015/2016. Opis przedmiotu

Natalia Gorynia-Pfeffer STRESZCZENIE PRACY DOKTORSKIEJ

Transkrypt:

UNIWERSYTET EKONOMICZNY W KRAKOWIE WYDZIAŁ ZARZĄDZANIA KATEDRA STATYSTYKI Kamil Fijorek REGRESJA LOGISTYCZNA: WYBRANE ASPEKTY ESTYMACJI, WNIOSKOWANIA I PORÓWNYWANIA MODELI Streszczenie rozprawy doktorskiej w języku polskim Promotor Prof. dr hab. Andrzej Sokołowski Kraków 2015

Streszczenie Głównym celem rozprawy jest pogłębienie stanu wiedzy na temat wybranych aspektów estymacji, wnioskowania, porównywania modeli regresji logistycznej oraz umożliwienie wykorzystania uzyskanych rezultatów teoretycznych w praktyce poprzez stworzenie odpowiedniego oprogramowania komputerowego oraz prezentację przykładów empirycznych. Główny cel rozprawy został zrealizowany za pomocą cyklu spójnych tematycznie artykułów naukowych opublikowanych w recenzowanych zagranicznych oraz polskich czasopismach naukowych. Artykuły opublikowane w czasopismach zagranicznych są prezentowane w rozprawie w oryginalnej anglojęzycznej wersji językowej. Na cykl artykułów składają się następujące publikacje: 1) Fijorek K., Porównanie modeli regresji logistycznej odpornych na problem całkowitego rozdzielenia, Zeszyty Naukowe Uniwersytetu Ekonomicznego w Krakowie, nr 884, 143-156, 2012 W małych zbiorach danych istnieje znacząca szansa na wystąpienie zjawiska całkowitego rozdzielenia. Sytuacja ta ma miejsce, gdy sukcesy i porażki mogą być całkowicie rozdzielone za pomocą jednej zmiennej objaśniającej lub liniowej kombinacji kilku zmiennych objaśniających. W takim przypadku metoda największej wiarygodności nie prowadzi do uzyskania skończonych ocen parametrów modelu. Przegląd literatury dotyczącej problematyki całkowitego rozdzielenia doprowadził do wyłonienia dwóch dojrzałych z teoretycznego punktu widzenia rozwiązań problemu, tj.: [Heinze, Schemper 2002] oraz [Rousseeuw, Christmann 2003]. Celem artykułu jest prezentacja oraz porównanie obu metod estymacji parametrów modelu regresji logistycznej. Na postawie przeprowadzonych badań można wskazać następujące wnioski ogólne: (1) Z punktu widzenia obciążenia ocen parametrów metoda Firtha oraz HLM (Hidden Logistic Model) charakteryzują się znacznie lepszym zachowaniem się w stosunku do metody największej wiarygodności (w zakresie przeprowadzonych symulacji), przy czym

metoda Firtha daleko lepiej radzi sobie z problemem obciążenia niż HLM. (2) Analiza wyników symulacji dla przedziałów ufności pokazuje, że metodzie Firtha powinny towarzyszyć przedziały ufności metody profile likelihood, podczas gdy dla metody HLM wyniki symulacji nie dają jednoznacznej odpowiedzi w tym zakresie. 2) Fijorek K., Aproksymacja modelu regresji logistycznej Firtha za pomocą ważenia obserwacji, Zeszyty Naukowe Uniwersytetu Ekonomicznego w Krakowie, nr 923, 89-98, 2013 W artykule przedstawiono model regresji logistycznej Firtha [Firth 1993; Heinze, Schemper 2002] z punktu widzenia wag przypisywanych przez metodę poszczególnym obserwacjom ze zbioru danych. Następnie dokonano przeformułowania modelu HLM [Rousseeuw, Christmann 2003] do podobnej postaci. Na bazie wniosków płynących z alternatywnego spojrzenia na model Firtha oraz HLM zaproponowano dwie metody aproksymacji modelu Firtha. Symulacyjnie zbadano jakość aproksymacji oraz omówiono praktyczne korzyści płynące z jej stosowania. Na postawie przeprowadzonych badań można wskazać następujące wnioski ogólne: (1) Model Firtha powinien być zawsze preferowany w stosunku do innych rozważonych w artykule metod aproksymacji. (2) Jednak w sytuacji, gdy zastosowanie modelu Firtha nie jest możliwe (co było zasadniczym założeniem poczynionym w artykule) należy rekomendować stosowanie zmodyfikowanego modelu HLM (mhlm). (3) Propozycja afirth (aproksymowany model Firtha) nie dostarczyła zadowalających rezultatów. 3) Fijorek K., Sokołowski A., Separation-resistant and bias-reduced logistic regression: STATISTICA macro, Journal of Statistical Software, 47, Code Snippet 2, 2012 (Impact Factor = 4.01, 50 punktów MNiSW) W artykule opisano rezultaty prac nad stworzeniem programu komputerowego implementującego model regresji logistycznej Firtha. Program funkcjonuje jako rozszerzenie do pakietu statystycznego STATISTICA. Wybór wspomnianego środowiska

był podyktowany tym, że model Firtha nie posiadał w nim swojej implementacji. Ponadto argumentem przemawiającym za tym środowiskiem jest jego znaczna popularność wśród polskich naukowców i praktyków analizy danych. Implementacja modelu Firtha może znaleźć zastosowanie, np. w naukach ekonomicznych do tworzenia modeli bankructwa w oparciu o niewielkie zbiory danych przedsiębiorstw upadłych, w naukach biologicznych podczas analizy danych pochodzących z niewielkich badań klinicznych. Artykuł zawiera opis funkcjonalności programu komputerowego, opis stosowanych metod statystycznych, numerycznych, programistycznych. W załączeniu do artykułu znajduje się kod źródłowy programu, którego działanie jest ilustrowane na przykładach empirycznych. 4) Fijorek K., Fijorek D., Dobór zmiennych objaśniających metodą najlepszego podzbioru do modelu regresji logistycznej Firtha, Metody Informatyki Stosowanej, nr 2, 15-23, 2011 W artykule podjęto próbę określenia sprawności metody najlepszego podzbioru jako procedury doboru zmiennych objaśniających do klasycznego modelu regresji logistycznej oraz do modelu regresji logistycznej Firtha w ujęciu bayesowskim. Inspiracją do podjęcia badań w tym zakresie była praca [Chen i inni, 2008], której autorzy zauważają, że generalnie w rozważanym kontekście podejście klasyczne i bayesowskie są podobne, lecz ten stan rzeczy może ulec diametralnej zmianie w małych próbach. Badacze ci jednak nie precyzują swojego spostrzeżenia, tzn. nie jest jasne, które podejście w małych próbach będzie się odznaczało lepszymi właściwościami. W rezultacie przeprowadzonych symulacji stwierdzono, że bayesowskie ujęcie modelu Firtha oraz podejście klasyczne charakteryzują się bardzo podobnymi zdolnościami wykrywania procesu generującego dane w małych próbach.

5) Fijorek K., Fijorek D., Wiśniowska B., Polak S., BDTcomparator: a program for comparing binary classifiers, Bioinformatics, 27(24), 3439-3440, 2011 (Impact Factor = 5.468, 40 punktów MNiSW) W modelu regresji logistycznej po ustaleniu wartości progowej predykcje probabilistyczne zostają zamienione na twarde predykcje przynależności przypadków do jednej z dwóch klas. W ten sposób możliwe jest zestawienie stanu faktycznego z predykcją modelu w formie tabeli czteropolowej, którą dalej można podsumować za pomocą miar sprawności klasyfikacji takich jak: dokładność, czułość, specyficzność, dodatnia i ujemna wartość predykcyjna, iloraz wiarygodności dla dodatniego i ujemnego wyniku predykcji. W chwili powstawania niniejszej pracy nie istniały narzędzia, które umożliwiałyby w kompleksowy lecz przyjazny użytkownikowi sposób wyznaczyć wszystkie wspomniane miary sprawności jednocześnie dla kilku konkurujących ze sobą modeli oraz dokonać wnioskowania statystycznego dla par konkurujących ze sobą modeli. W artykule dokonano usystematyzowania stanu wiedzy w tym temacie, dokonano weryfikacji poprawności wzorów obliczeniowych prezentowanych w literaturze poprzez ich ponowne wyprowadzenie oraz badania symulacyjne. Na postawie tych prac stworzono program komputerowy. Program dokonuje estymacji punktowej oraz przedziałowej miar sprawności klasyfikacji jednocześnie dla wielu klasyfikatorów wraz z testowaniem hipotez statystycznych o równości miar sprawności dla par konkurujących modeli. 6) Fijorek K., Przedział ufności profile likelihood dla prawdopodobieństwa sukcesu w modelu regresji logistycznej Firtha, Przegląd Statystyczny, 59(4), 355-368, 2012 W pierwszej części artykułu za pomocą symulacji zbadano właściwości przedziałów ufności Walda oraz przedziałów ufności wyznaczanych metodą profile likelihood (zaproponowano również efektywny algorytm wyznaczania tychże przedziałów) budowanych dla prawdopodobieństwa sukcesu w modelu regresji logistycznej Firtha. W drugiej części artykułu zaprezentowano przykładowy model zagrożenia upadłością przedsiębiorstwa handlowego jako etap pośredni w celu zademonstrowania praktycznego znaczenia rezultatów uzyskanych w części teoretycznej artykułu.

Na postawie przeprowadzonych badań można wskazać następujące wnioski ogólne: (1) Przedziały ufności metody profile likelihood osiągają prawdopodobieństwo pokrycia znacznie bliższe poziomowi nominalnemu w porównaniu do przedziałów asymptotycznych niemal we wszystkich rozważonych scenariuszach symulacyjnych. (2) Analiza rzeczywistego zbioru danych (zbiór uczący polskich przedsiębiorstw handlowych liczył 84 przedsiębiorstwa upadłe oraz 405 przedsiębiorstw nieupadłych) ponadto dostarczyła istotnego z punktu widzenia praktyki wniosku, tzn. skonstruowane przedziały ufności ukazały niepokojąco dużą niepewność związaną z szacowanym wskaźnikiem zagrożenia upadłością. Można przypuszczać, że w mniejszych próbach, tak często spotykanych w polskich modelach zagrożenia upadłością, niepewność szacunków miar zagrożenia znajduje się na jeszcze wyższym poziomie. 7) Fijorek K., Grotowski M., Bankruptcy Prediction: Some Results From a Large Sample of Polish Companies, International Business Research, 5(9), 70-77, 2012 Na potrzeby artykułu opracowano zbiór danych finansowych o polskich przedsiębiorstwach, które upadły oraz przedsiębiorstwach, które na chwilę gromadzenia danych nadal prowadziły działalność gospodarczą. Zgromadzone dane pochodziły z około 13 tys. przedsiębiorstw, przy czym przeciętna liczba rocznych obserwacji przypadająca na jedno przedsiębiorstwo wynosiła około 7. Stan ekonomiczno-finansowy przedsiębiorstw opisano za pomocą 16 wskaźników finansowych. Zbiór danych posłużył do estymacji 65535 modeli upadłości (wszystkie możliwe podzbiory zbioru zmiennych objaśniających) za pomocą regresji logistycznej Firtha. Jednym z głównych celów była próba określenia czy możliwe jest wskazanie jednego modelu lub niewielkiej grupy modeli regresji logistycznej o wyraźnie najlepszych zdolnościach predykcji upadłości, na tle pozostałych wyznaczonych modeli. W rezultacie przeprowadzonych badań można stwierdzić, że nawet w oparciu o bardzo duży zbiór danych trudno jest wskazać model ewidentnie najlepszy. Liczna grupa modeli regresji logistycznej znacznie różniących się pod względem zmiennych objaśniających charakteryzowała się zbliżonymi zdolnościami predykcyjnymi, stawiając pod znakiem

zapytania możliwość formułowania silnych interpretacji ekonomicznych na podstawie pojedynczych modeli.