Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy)

Podobne dokumenty
Uogólniony model liniowy

gdzie. Dla funkcja ma własności:

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Uogolnione modele liniowe

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Ekonometria. Ćwiczenia 6. Krzysztof Pytka. 29 listopada Zakład Wspomagania i Analizy Decyzji (SGH)

Zawansowane modele wyborów dyskretnych

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

Stanisław Cichocki. Natalia Nehrebecka

Badania obserwacyjne 1

Stanisław Cichocki. Natalia Nehrebecka

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y

Metody scoringowe w regresji logistycznej

Założenia: wyniki są binarne próby są niezależne liczba prób n ustalona przed pomiarem to samo prawdopodobieństwo sukcesu we wszystkich próbach

Regresja liniowa wprowadzenie

Scoring kredytowy w pigułce

WYKORZYSTANIE MODELU LOGITOWEGO DO ANALIZY BEZROBOCIA WŚRÓD OSÓB NIEPEŁNOSPRAWNYCH W POLSCE W 2010 ROKU

(LMP-Liniowy model prawdopodobieństwa)

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

STUDIA I STOPNIA EGZAMIN Z EKONOMETRII

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Ekonometria. wiczenia 8 Modele zmiennej jako±ciowej. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Wykªad 6: Model logitowy

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VII: Regresja logistyczna

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Statystyka i Analiza Danych

Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV

Quick Launch Manual:

Mikroekonometria 9. Mikołaj Czajkowski Wiktor Budziński

18. Obliczyć. 9. Obliczyć iloczyn macierzy i. 10. Transponować macierz. 11. Transponować macierz. A następnie podać wymiar powstałej macierzy.

Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania

BEATA JACKOWSKA EFEKTY INTERAKCJI MIĘDZY ZMIENNYMI OBJAŚNIAJĄCYMI W MODELU LOGITOWYM W ANALIZIE ZRÓŻNICOWANIA RYZYKA ZGONU 1.

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński

Zapadalność (epidemiologia)

Rozdział 1. Modele regresji przestrzennej zmiennych ukrytych i ograniczonych

Modele długości trwania

Elementy statystyki wielowymiarowej

Statystyka opisowa. Robert Pietrzykowski.

STATYSTYKA MATEMATYCZNA

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Komputerowa analiza danych doświadczalnych

Ekonometria. Modele dynamiczne. Paweł Cibis 27 kwietnia 2006

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Komputerowa analiza danych doświadczalnych

Wykład 4 Związki i zależności

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

Regresja logistyczna (LOGISTIC)

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Analiza przeżycia. Czym zajmuje się analiza przeżycia?

10/15/2016. Reguła. Czułość PV(+) Bayesa. Swoistość PV(-)

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Własności statystyczne regresji liniowej. Wykład 4

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Regresja logistyczna a analiza oszczędności i zobowiązań finansowych gospodarstw domowych

PAKIETY STATYSTYCZNE

STATYSTYKA MATEMATYCZNA

Pochodna funkcji c.d.-wykład 5 ( ) Funkcja logistyczna

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ

BUDOWA MODELU SCORINGOWEGO DO E-POŻYCZKI Z WYKORZYSTANIEM NARZĘDZI STATISTICA

t y x y'y x'x y'x x-x śr (x-x śr)^2

Analiza czynników wpływających na poziom wykształcenia.

Mieczysław Kowerski. Program Polska-Białoruś-Ukraina narzędziem konwergencji gospodarczej województwa lubelskiego

Statystyka matematyczna i ekonometria

Jak długo żyją spółki na polskiej giełdzie? Zastosowanie statystycznej analizy przeżycia do modelowania upadłości przedsiębiorstw

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Binarne zmienne zależne

WYKŁAD 8 ANALIZA REGRESJI

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Analiza danych ilościowych i jakościowych

Agnieszka Chłoń-Domińczak Mateusz Pawłowski Ścieżki edukacyjno-zawodowe: wpływ wykształcenia na aktywność i dezaktywizację zawodową

Szacowanie modeli wielowartościowych w pakiecie STATA

Analiza przeżycia Survival Analysis

Value at Risk (VaR) Jerzy Mycielski WNE. Jerzy Mycielski (Institute) Value at Risk (VaR) / 16

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR

Ważne rozkłady i twierdzenia

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Analiza niepewności pomiarów

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Zamów książkę w księgarni internetowej

STATYSTYKA MATEMATYCZNA

Oszacowanie i rozkład t

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Ćwiczenie 12. Metody eksploracji danych

ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 1) Dariusz Gozdowski

Rozdział 8. Regresja. Definiowanie modelu

STATYSTYKA MATEMATYCZNA

Spis treści 3 SPIS TREŚCI

Rachunek prawdopodobieństwa WZ-ST1-AG--16/17Z-RACH. Liczba godzin stacjonarne: Wykłady: 15 Ćwiczenia: 30. niestacjonarne: Wykłady: 9 Ćwiczenia: 18

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Transkrypt:

Statystyka I Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy) 1

Zmienne jakościowe qzmienne jakościowe niemierzalne kategorie: np. pracujący / bezrobotny qzmienna binarna Y=0,1 qczasami jako reprezentantka ukrytej zmiennej ciągłej qinterpretacja nieobserwowalnej zmiennej Y*: skłonność do., inklinacja, dążność do, ciążenie do 2

Wykorzystanie Mikroekonometria dane indywidulane, np. klientów banków, przedsiębiorstw w branży, sklepów w mieście itp. Makroekonomia kryzysy finansowe, reżimy kursu walutowego, stangospodarki itp. 3

Regresja ze zmienną binarną (Modele wyborów dyskretnych) Ø Logit (regresja logistyczna) Ø Probit Ø Wielomianowy logit (MNL) Ø Wielomianowy probit (MNP) Ø Tobit Ø Gompit Ø Scobit Ø Model Poissona (dla liczebności)

REGRESJA LOGISTYCZNA (LOGISTIC REGRESSION) q Historia modelu logistycznego sięga końca XIX w.: P.F. Verhulst i R.F.Pearl q Pierwsze zastosowania: prognoza wzrostu populacji q Podstawy modelu: J. Berkson 1944 r. Application of the logistic function to bio-assay q Pełny model regresji logistycznej zastosowany po raz pierwszy w 1972 r. przez D.J. Finneya Probit analysis

KRZYWA LOGISTYCZNA (Logistic curve) Y t = a/(1+b*e ct ) gdzie: Y t - wartość funkcji logistycznej w punkcie t a, b i c to parametry funkcji logistycznej wartość a odpowiada poziomowi nasycenia e podstawa logarytmu naturalnego t czas Funkcja logistyczna wzrasta najpierw powoli, potem w tempie coraz bardziej przyspieszonym i osiągnąwszy punkt przegięcia tempo maleje i wreszcie niemal całkowicie ustaje zbliżając się do punktu nasycenia.

KRZYWA LOGISTYCZNA (Krzywa Gompertza) PRZYKŁAD Tendencja rozwoju zasobów produkcyjnych linii automatycznie sterowanych Y t 8 000 1 + 68,12786. e - 0,30673t a = 8 000 oszacowany poziom nasycenia, z pewnością zmieni się w miarę upływu czasu i za kilka lat wzrośnie

Dane nienormalne Rozkład dwumianowy np. liczba bankructw w regionie Rozkład zdarzeń rzadkich (Poissona) np. liczba osób poszkodowanych wśród ubezpieczonych Rozkład wielomianowy, np. wykształcenie

Uogólniony model liniowy pozwala zastosować model liniowy do nienormalnych danych y może być zmienną binarną (zdolność kredytowa/niezdolność kredytowa), wielowartościową (wykształcenie) x zarówno zmienne ciągłe jak i kategoryzujące

Uogólniony model liniowy L(średnia z y) = b 0 + b 1 x 1 + b 2 x 2 +... L to funkcja wiążąca (link)

Funkcje wiążące Rozkład dwumianowy: logit probit log cloglog Rozkład Poissona log sqrt

Rozkład dwumianowy Określa prawdopodobieństwo y sukcesów w n próbach, jeżeli w pojedynczej próbie prawdopodobieństwo sukcesu wynosi p Wszystkie próby są takie same i niezależne!

Logit logit(x) = log x 1 - x x wartość z przedziału 0-1 Gdy x jest prawdopodobieństwem wówczas logit jest ilorazem szans

Iloraz szans (odds) p odds = [0, ) 1 - p Np. gdy p = prawdopodobieństwo zachorowania odds=5 choroba jest 5 razy bardziej prawdopodobna niż zdrowie odds=1/3 szansa zachorowania jest 3 razy mniej prawdopodobna niż zdrowie odds=1 szanse obu zdarzeń są równe

Logarytm ilorazu szans log odds p log( 1 - p ) (-, ) log odds > 0 szansa zachorowania jest większa niż pozostania przy zdrowiu log odds < 0 szansa pozostania przy zdrowiu jest większa niż zachorowania log odds = 0 szanse obu zdarzeń są równe

Regresja logistyczna logit( p i ) = b 0 + b 1 x 1 + b 2 x 2... p i prawd. sukcesu dla i-tego przypadku x zestaw wartości zmiennych objaśniających b zestaw współczynników regresji

Regresja logistyczna - interpretacja Jeżeli x wzrasta o 1 to logit wzrasta (dodawanie) o b Jeżeli x wzrasta o 1 to iloraz szans mnoży się przez e b

Przykład 1. Badamy wpływ wieku i palenia na nadciśnienie. Dane: y - nadciśnienie (TAK=1 / NIE=0) x 1 - wiek (liczba lat zmienna ciągła) x 2 - palenie (pali=1 / nie pali = 0) 0 30 0 0 30 1 0 30 0 1 40 1 1 40 0 1 60 1 1 50 0 0 30 1 1 30 1 0 40 1 1 60 1 1 50 0 1 50 1 0 60 0

Przykład 1. rozwiązanie b 1 = 0,10 czyli każdy rok zwiększa ryzyko nadciśnienia o e 0,10 = 1,10, czyli o 10% b 2 = 0,81 a więc palenie zwiększa ryzyko nadciśnienia o e 0,81 = 2,2, czyli o 220% b 0 = -4.37 (intercept) brak interpretacji

Regresja logistyczna w R Dane mogą być przedstawione w formie surowej, przy czym p = P(y=1) czyli (sukces=1) y <- c( 0, 0, 0, 1, 1, 1... ) wiek <- c( 30, 30, 30, 40, 40, 40...) palenie <- c( 0, 1, 0, 1, 0, 1... ) mojedane <- data.frame(y, wiek, palenie)

Regresja logistyczna w R Dane w formie zbiorczej wiek palenie liczba osób liczba osób chorych zdrowych 30 0 0 2 30 1 1 2 40 0 1 0 40 1 1 1 itd. yc <- c( 0, 1, 1, 1,... ) yz <- c( 2, 2, 0, 1,... ) y <-cbind( yc, yz ) wiek <- c( 30, 30, 40, 40,...) palenie <- c( 0, 1, 0, 1,... ) y to macierz! mojedane <- data.frame(y, wiek, palenie)

Regresja logistyczna w R wynik <- glm( y ~ wiek + palenie, family=binomial(link=logit), data=mojedane) summary( wynik )

Model probitowy Równanie Tak jak w modelu logitowym wartości teoretyczne należą do przedziału [0; 1] dla wszystkich wartości. Model probitowy jest stosowany substytucyjnie z modelem logitowym, gdyż teoretyczne wartości prawdopodobieństwa oraz dopasowanie modelu dodanych jest zbliżone. Porównanie modeli logiti probit: p Z a it» ga probit i i z i = ò - = a 0 2 1 æ t ö exp dt p ç - 2 è 2 ø + a X +... + a X 1 gdzie: log g =1,6 1, 7 1i k ki

Miary dopasowania Ze względu na nieliniowość w modelach tych nie możemy stosować zwykłego współczynnika R 2 Stosuje się tzw. pseudo R 2 określany także jako McFadden R 2 pseudo - R 2 = 1- gdzie LMP jest wartością funkcji wiarygodności dla modelu pełnego, natomiast LMZ dla modelu zredukowanego do wyrazuwolnego. ln ln L L MP MZ

Zadanie 1. Jesteś analitykiem finansowym w banku. Musisz być w stanie zidentyfikować cechy, które mogą charakteryzować osoby o niskim i wysokim ryzyku kredytowym. Posiadasz informacje na temat bieżących i przyszłych 850 klientów. 700 z nich to klienci, którym wcześniej udzielono pożyczek. Skorzystaj z ich danych, aby utworzyć model regresji. Następnie użyj modelu do sklasyfikowania ryzyka kredytowego 150 potencjalnych klientów. Krok 1: Wybierz pierwsze 700 obserwacji do konstrukcji modelu Krok 2: Skonstruuj model Krok 3: Zidentyfikuj i usuń odstające obserwacji (outliers) Krok 4: Narysuj krzywą ROC i znajdź optymalny punkt odcięcia (cut-off) Krok 5: Prognozuj ryzyko kredytowe. Wybierz pozostałe 150 obserwacji i oblicz prawdopodobieństwa z wykorzystaniem współczynników modelu zbudowanego w kroku 2. bankloan.sta

Zadanie 2. Operator telekomunikacyjny stosuje segmentację bazy klientów na cztery grupy poprzez sposób użytkowania usług. Jeśli dane demograficzne można wykorzystać aby przewidzieć przynależność do każdej z tych grup, operator będzie mógł dostosować w przyszłości ofertę do indywidualnych potrzeb potencjalnych klientów. TELEKOM.STA

Literatura ü G.S. Maddala (2008) Ekonometria, PWN ü http://www.ats.ucla.edu/stat/stata/dae/probit.htm ü http://www.unistat.com/guide/logit-probit-gompit-regression ü Modele zmiennej jakościowej w podręczniku SGH (wyd. PWN,2009) ü Dodatkowo: ü D. Serwa (2005) Modele wczesnego ostrzegania przed kryzysami walutowymi, Bank i Kredyt 9/2005