Statystyka I. Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy)

Statystyka I Regresja dla zmiennej jakościowej - wykład dodatkowy (nieobowiązkowy) 1

Zmienne jakościowe qzmienne jakościowe niemierzalne kategorie: np. pracujący / bezrobotny qzmienna binarna Y=0,1 qczasami jako reprezentantka ukrytej zmiennej ciągłej qinterpretacja nieobserwowalnej zmiennej Y*: skłonność do., inklinacja, dążność do, ciążenie do 2

Wykorzystanie Mikroekonometria dane indywidulane, np. klientów banków, przedsiębiorstw w branży, sklepów w mieście itp. Makroekonomia kryzysy finansowe, reżimy kursu walutowego, stangospodarki itp. 3

Regresja ze zmienną binarną (Modele wyborów dyskretnych) Ø Logit (regresja logistyczna) Ø Probit Ø Wielomianowy logit (MNL) Ø Wielomianowy probit (MNP) Ø Tobit Ø Gompit Ø Scobit Ø Model Poissona (dla liczebności)

REGRESJA LOGISTYCZNA (LOGISTIC REGRESSION) q Historia modelu logistycznego sięga końca XIX w.: P.F. Verhulst i R.F.Pearl q Pierwsze zastosowania: prognoza wzrostu populacji q Podstawy modelu: J. Berkson 1944 r. Application of the logistic function to bio-assay q Pełny model regresji logistycznej zastosowany po raz pierwszy w 1972 r. przez D.J. Finneya Probit analysis

KRZYWA LOGISTYCZNA (Logistic curve) Y t = a/(1+b*e ct ) gdzie: Y t - wartość funkcji logistycznej w punkcie t a, b i c to parametry funkcji logistycznej wartość a odpowiada poziomowi nasycenia e podstawa logarytmu naturalnego t czas Funkcja logistyczna wzrasta najpierw powoli, potem w tempie coraz bardziej przyspieszonym i osiągnąwszy punkt przegięcia tempo maleje i wreszcie niemal całkowicie ustaje zbliżając się do punktu nasycenia.

KRZYWA LOGISTYCZNA (Krzywa Gompertza) PRZYKŁAD Tendencja rozwoju zasobów produkcyjnych linii automatycznie sterowanych Y t 8 000 1 + 68,12786. e - 0,30673t a = 8 000 oszacowany poziom nasycenia, z pewnością zmieni się w miarę upływu czasu i za kilka lat wzrośnie

Dane nienormalne Rozkład dwumianowy np. liczba bankructw w regionie Rozkład zdarzeń rzadkich (Poissona) np. liczba osób poszkodowanych wśród ubezpieczonych Rozkład wielomianowy, np. wykształcenie

Uogólniony model liniowy pozwala zastosować model liniowy do nienormalnych danych y może być zmienną binarną (zdolność kredytowa/niezdolność kredytowa), wielowartościową (wykształcenie) x zarówno zmienne ciągłe jak i kategoryzujące

Uogólniony model liniowy L(średnia z y) = b 0 + b 1 x 1 + b 2 x 2 +... L to funkcja wiążąca (link)

Funkcje wiążące Rozkład dwumianowy: logit probit log cloglog Rozkład Poissona log sqrt

Rozkład dwumianowy Określa prawdopodobieństwo y sukcesów w n próbach, jeżeli w pojedynczej próbie prawdopodobieństwo sukcesu wynosi p Wszystkie próby są takie same i niezależne!

Logit logit(x) = log x 1 - x x wartość z przedziału 0-1 Gdy x jest prawdopodobieństwem wówczas logit jest ilorazem szans

Iloraz szans (odds) p odds = [0, ) 1 - p Np. gdy p = prawdopodobieństwo zachorowania odds=5 choroba jest 5 razy bardziej prawdopodobna niż zdrowie odds=1/3 szansa zachorowania jest 3 razy mniej prawdopodobna niż zdrowie odds=1 szanse obu zdarzeń są równe

Logarytm ilorazu szans log odds p log( 1 - p ) (-, ) log odds > 0 szansa zachorowania jest większa niż pozostania przy zdrowiu log odds < 0 szansa pozostania przy zdrowiu jest większa niż zachorowania log odds = 0 szanse obu zdarzeń są równe

Regresja logistyczna logit( p i ) = b 0 + b 1 x 1 + b 2 x 2... p i prawd. sukcesu dla i-tego przypadku x zestaw wartości zmiennych objaśniających b zestaw współczynników regresji

Regresja logistyczna - interpretacja Jeżeli x wzrasta o 1 to logit wzrasta (dodawanie) o b Jeżeli x wzrasta o 1 to iloraz szans mnoży się przez e b

Przykład 1. Badamy wpływ wieku i palenia na nadciśnienie. Dane: y - nadciśnienie (TAK=1 / NIE=0) x 1 - wiek (liczba lat zmienna ciągła) x 2 - palenie (pali=1 / nie pali = 0) 0 30 0 0 30 1 0 30 0 1 40 1 1 40 0 1 60 1 1 50 0 0 30 1 1 30 1 0 40 1 1 60 1 1 50 0 1 50 1 0 60 0

Przykład 1. rozwiązanie b 1 = 0,10 czyli każdy rok zwiększa ryzyko nadciśnienia o e 0,10 = 1,10, czyli o 10% b 2 = 0,81 a więc palenie zwiększa ryzyko nadciśnienia o e 0,81 = 2,2, czyli o 220% b 0 = -4.37 (intercept) brak interpretacji

Regresja logistyczna w R Dane mogą być przedstawione w formie surowej, przy czym p = P(y=1) czyli (sukces=1) y <- c( 0, 0, 0, 1, 1, 1... ) wiek <- c( 30, 30, 30, 40, 40, 40...) palenie <- c( 0, 1, 0, 1, 0, 1... ) mojedane <- data.frame(y, wiek, palenie)

Regresja logistyczna w R Dane w formie zbiorczej wiek palenie liczba osób liczba osób chorych zdrowych 30 0 0 2 30 1 1 2 40 0 1 0 40 1 1 1 itd. yc <- c( 0, 1, 1, 1,... ) yz <- c( 2, 2, 0, 1,... ) y <-cbind( yc, yz ) wiek <- c( 30, 30, 40, 40,...) palenie <- c( 0, 1, 0, 1,... ) y to macierz! mojedane <- data.frame(y, wiek, palenie)

Regresja logistyczna w R wynik <- glm( y ~ wiek + palenie, family=binomial(link=logit), data=mojedane) summary( wynik )

Model probitowy Równanie Tak jak w modelu logitowym wartości teoretyczne należą do przedziału [0; 1] dla wszystkich wartości. Model probitowy jest stosowany substytucyjnie z modelem logitowym, gdyż teoretyczne wartości prawdopodobieństwa oraz dopasowanie modelu dodanych jest zbliżone. Porównanie modeli logiti probit: p Z a it» ga probit i i z i = ò - = a 0 2 1 æ t ö exp dt p ç - 2 è 2 ø + a X +... + a X 1 gdzie: log g =1,6 1, 7 1i k ki

Miary dopasowania Ze względu na nieliniowość w modelach tych nie możemy stosować zwykłego współczynnika R 2 Stosuje się tzw. pseudo R 2 określany także jako McFadden R 2 pseudo - R 2 = 1- gdzie LMP jest wartością funkcji wiarygodności dla modelu pełnego, natomiast LMZ dla modelu zredukowanego do wyrazuwolnego. ln ln L L MP MZ

Zadanie 1. Jesteś analitykiem finansowym w banku. Musisz być w stanie zidentyfikować cechy, które mogą charakteryzować osoby o niskim i wysokim ryzyku kredytowym. Posiadasz informacje na temat bieżących i przyszłych 850 klientów. 700 z nich to klienci, którym wcześniej udzielono pożyczek. Skorzystaj z ich danych, aby utworzyć model regresji. Następnie użyj modelu do sklasyfikowania ryzyka kredytowego 150 potencjalnych klientów. Krok 1: Wybierz pierwsze 700 obserwacji do konstrukcji modelu Krok 2: Skonstruuj model Krok 3: Zidentyfikuj i usuń odstające obserwacji (outliers) Krok 4: Narysuj krzywą ROC i znajdź optymalny punkt odcięcia (cut-off) Krok 5: Prognozuj ryzyko kredytowe. Wybierz pozostałe 150 obserwacji i oblicz prawdopodobieństwa z wykorzystaniem współczynników modelu zbudowanego w kroku 2. bankloan.sta

Zadanie 2. Operator telekomunikacyjny stosuje segmentację bazy klientów na cztery grupy poprzez sposób użytkowania usług. Jeśli dane demograficzne można wykorzystać aby przewidzieć przynależność do każdej z tych grup, operator będzie mógł dostosować w przyszłości ofertę do indywidualnych potrzeb potencjalnych klientów. TELEKOM.STA

Literatura ü G.S. Maddala (2008) Ekonometria, PWN ü http://www.ats.ucla.edu/stat/stata/dae/probit.htm ü http://www.unistat.com/guide/logit-probit-gompit-regression ü Modele zmiennej jakościowej w podręczniku SGH (wyd. PWN,2009) ü Dodatkowo: ü D. Serwa (2005) Modele wczesnego ostrzegania przed kryzysami walutowymi, Bank i Kredyt 9/2005