O Odpornośc Estymatorów Parametrów Modelu Logstycznego Koncepcj Głęb Regresyjnej Danel Kosorowsk Katedra Statystyk Unwersytet Ekonomczny w Krakowe Konferencja Aktuaralna, Warszawa 9-11 czerwca 2008 roku
Motywacje Wykorzystywane w wększośc przedsęborstw w Polsce metody statystyczne na ogół ne są odporne na występowane pośród danych jednostek odstających, złą specyfkację model stochastycznych generujących dane td. Wystarczy jedna obserwacja odstająca (np. błąd we wpsywanu danych) a procedura decyzyjna operająca sę o średną z próby, macerz kowarancj, autokorelację moŝe okazać sę bezuŝyteczna. Środk na rozwój płyną ne tam gdze są potrzebne. Absolwent ne otrzymuje kredytu gdyŝ jego ryzyko kredytowe zostaje przeszacowane. Portfel ubezpeczycela generuje straty. Reguła dagnostyczna wadlwe kwalfkuje pacjentów. 2
Plan referatu 1. Warunk określonośc estymatora najwększej warygodnośc (NW) parametrów modelu logstycznego. 2. Koncepcja głęb regresyjnej. 3. Zastosowane głęb regresyjnej do pomaru blskośc neokreślonośc estymatora NW parametrów modelu logstycznego. 4. Propozycja odpornego estymatora parametrów modelu logstycznego wykorzystującego głębę regresyjną. 3
I. Wprowadzene Regresję logstyczną wykorzystujemy do modelowana prawdopodobeństwa, Ŝe zdarzene zaleŝne od wektora zmennych objaśnających nastąp. Zdarzena mogą być nterpretowane jako sukcesy poraŝk. Obserwujemy (, x y) gdze x = ( x1,..., xp 1) jest wektorem zmennych objaśnających, y moŝe przyjmować wartośc 1 lub 0. MoŜna rozpatrywać x jako ustalony bądź losowy. Aby modelować zaleŝność y od x, zakładamy Ŝe Py= ( 1) zaleŝy od (,1) x β t dla p pewnego neznanego β= ( β1,..., β p ) R. 4
PonewaŜ Py= ( 1) [0,1] oraz (,1) x β t moŝe przyjąć kaŝdą wartość rzeczywstą, na ogół zakłada sę, Ŝe t Py ( = 1) = F((,1) x β), (1) gdze za tzw. funkcję wązana F berzemy dowolną cągłą dystrybuantę. JeŜel x traktujemy jako losowy zakłada sę Ŝe prawdopodobeństwa są warunkowe t Py ( = 1 x) = F((,1) x β), (1*) 5
Nech ( x 1, y1),,( x n, yn) będze próbą z modelu (1), gdze x1,..., x n są ustalone. Model logstyczny z wyrazem wolnym zakłada, Ŝe odpowedz y są realzacjam nezaleŝnych zmennych losowych Y, które mają rozkłady Bernoullego z prawdopodobeństwam sukcesu gdze rzędu. p t F(( x,1) β) (0,1), = 1,..., n, (2) β R jest neznane oraz zakładamy, Ŝe zbór wszystkch ( x,1) jest pełnego Jako funkcję wązana berze sę dystrybuantę rozkładu logstycznego 1 Fx ( ) = 1 + exp( x). (3) 6
II. Warunk stnena estymatora NW w modelu logstycznym Klasycznym estymatorem neznanego wektora parametrów modelu logstycznego jest estymator najwększej warygodnośc. Wprowadźmy oznaczene p( β) = F(( x,1) β). Obserwowane odpowedz y1,..., y n są realzacjam zmennej losowej przyjmującej wartośc 1 0 z prawdopodobeństwam odpowedno p( β ) oraz 1 p( β), stąd funkcja częstośc przyjmuje postać y py (, β) p ( β) (1 p( β)) 1 Logarytm warygodnośc Lβ ( ) próby dany jest jako n t y =, (5) log L( β) = [ ylog p( β) + (1 y)log(1 p( β)) ], (6) = 1 7
RóŜnczkując (6) przyrównując do zera otrzymujemy równana warygodnośc n y p( β) ' t F( ( x,1 ) β) ( x,1) = 0, (7) p( β)(1 p( β) = 1 W przypadku regresj logstycznej moŝna pokazać, Ŝe F ' () y = Fy ()(1 Fy ()) stąd w przypadku rozkładu logstycznego równana warygodnośc przyjmują postać n t ( y p( β)) ( x,1) = 0. (8) = 1 Warto podkreślć, Ŝe estymator NW ne zawsze stneje. Warunk stnena estymatora NW badal Albert Anderson (1984) oraz Santner Duffy (1986). 8
JeŜel chcemy przewdywać wartośc zmennych objaśnających y na podstawe odpowadającego wektora x, to wymarzoną byłaby taka sytuacja w której mamy do czynena z całkowtym rozdzelenem ( ang. complete separaton) sukcesów poraŝek, tzn. gdy stneje p β R, taka Ŝe t (,1) x β > 0 jeŝel y = 1, t (,1) x β < 0 jeŝel y = 0, dla = 1,..., n. Zbór danych który ne jest całkowce rozdzelony jest quas całkowce rozdzelony p jeŝel stneje wektor β R \{0}, tak Ŝe t (,1) x β 0 jeŝel y = 1 oraz stneje j {1,..., n} tak, Ŝe (,1) x β = 0. t (,1) x β 0 jeŝel y = 0, dla = 1,..., n t 9
10
X1 X2 Y [1,] -1.5 0 0 [2,] -1.0 3 1 [3,] 0.0 1 0 [4,] 0.0 2 0 [5,] 1.0 2 0 [6,] 1.0 4 0 [7,] 2.0 2 1 [8,] 3.0 1 1 [9,] 3.0 3 1 [10,] 3.5 4 1 11
Powemy, Ŝe w zborze danych występuje zachodzene (ang. overlap) jeŝel ne stneje całkowte an quas całkowte rozdzelene. Zarówno dla modelu logstycznego jak modelu probtowego Albert Anderson (1984) oraz Santner Duffy (1986) pokazal, Ŝe estymator NW wektora parametrów β stneje wtedy tylko wtedy, gdy w zborze danych występuje zachodzene. Geometryczna nterpretacja estymator NW stneje wtedy tylko wtedy, gdy ne stneje hperpłaszczyzna, która rozdzela sukcesy poraŝk, przy czym sama hperpłaszczyzna moŝe zawerać zarówno sukcesy jak poraŝk. 12
Fakt ten stanow problem z punktu wdzena poszukwana estymatorów odpornych. Wele estymatorów odpornych konstruuje sę w ten sposób, Ŝe punkty odstające są usuwane bądź stosowne zmnejsza sę ch wkład (waŝona metoda NW, M-estymatory). MoŜe sę zdarzyć, Ŝe w całym zborze występuje zachodzene lecz w zredukowanym zborze juŝ ne występuje. 13
Oznaczamy n overlap najmnejszą lczbę obserwacj, których usunęce nszczy zachodzene na sebe sukcesów poraŝek w zborze danych. Oznaczmy n complete najmnejszą lczba obserwacj, których usunęce prowadz do całkowtego rozdzelena. n complete = 1 ; n overlap = 1 n complete = 0 ; n overlap = 0 14
(!) Welkość n overlap często jest newelka, zwłaszcza w wyŝszych wymarach, tak Ŝe oszacowane modelu logstycznego często zaleŝy krytyczne zaledwe od klku obserwacj. ZauwaŜmy, Ŝe zastępując n overlap punktów poprzez nne n overlap punktów leŝących po t właścwej strone hperpłaszczyzny (,1) x β = 0, sprawmy, Ŝe estymator NW zmerza do neskończonośc. (!) Powemy, Ŝe punkt załamana estymatora NW w tym przypadku wynos noverlap n. (!) ZauwaŜmy, Ŝe punkty które zastępujemy n overlap punktam ne muszą być punktam odstającym. Fakt, Ŝe punkty, które prowadzą do załamana estymatora NW ne muszą być jednostkam ostającym zaobserwowal perws Croux, Flandre and Haesbreack (2002). 15
Chrstmann Rousseeuw (2004) pokazal, Ŝe pojęce głęb regresyjnej moŝe zostać wykorzystane do pomaru welkośc rozdzelena pomędzy sukcesam poraŝkam (zachodzena na sebe sukcesów poraŝek). 16
III. Koncepcja głęb regresyjnej W przypadku modelu regresj lnowej, rozpatruje sę zbór danych postac p Z = {( x,..., x, y); = 1,..., n} R, n,1 p, 1 Oznaczmy część x kaŝdego punktu danych przez,1 p, 1 p 1 x = ( x,..., x ) R. Naszym celem jest dopasować do y afnczną hperpłaszczyznę w p gdze b= ( b1,..., b p ) R. t = 1,1+ + p 1 p, 1+ p g(( x,1) b ) bx... b x b, p R, tzn. 17
p Defncja 1 : Wektor b= ( b1,..., b p ) R nazwemy nedopasowanem do Z n jeŝel stneje hperpłaszczyzna afnczna V w przestrzen x ów taka, Ŝe Ŝadne x ne naleŝy do V taka, Ŝe reszta r( b) = y g(( x,1) b ) > 0 dla wszystkch x leŝących w jednej z jej otwartych półprzestrzen, oraz r ( b ) < 0 dla wszystkch otwartej półprzestrzen. t x w drugej p Defncja 2 : Głęba regresyjna rdepth(, b Z n ) dopasowana b= ( b1,..., b p ) R względem zboru danych p Z R jest najmnejszą lczbą obserwacj, które naleŝy n usunąć, aby sprawć, Ŝe b będze nedopasowanem w sense defncj 1. 18
60 50 Estymator maksymalnej głęb regresyjnej - lna czerwona ; estymator NK - lna nebeska y=0.5+2.5*x (rdepth=5) 40 30 y 20 10 y=-10+2.5*x (rdepth=0) 0-10 y=9.45-0.186*x (rdepth=2) - est. NK -20 0 2 4 6 8 10 12 14 16 18 20 x 19
Istneje zwązek pomędzy głębą regresyjną całkowtym rozdzelenem. Dla zboru danych Z = {( x,1,..., x, 1); = 1,..., n} z bnarną odpowedzą y n p rozwaŝmy afnczną hperpłaszczyznę daną przez dopasowane * b = (0,...,0,0.5). Okazuje sę, Ŝe * b jest nedopasowanem wtedy tylko wtedy, gdy n = 0, complete ogólnej n complete = rdepth( b, Z ). * n (!) Welkośc n complete oraz n overlap mogą być oblczane za pomocą algorytmu dla głęb regresyjnej dla danej hperpłaszczyzny. Stosowne algorytmy do oblczana tych welkośc proponują udostępnają na stronach projektu R - Chrstmann Rousseeuw. 20
Rysunek przedstawa dane dotyczące bankructw 50 przedsęborstw w zaleŝnośc od wartośc dwóch wskaźnków wartość sprzedaŝy jako procent wartośc aktywów (S/TA) oraz wartośc ksęgowej aktywów do wartośc ksęgowej zobowązań (BVE/BVL). Źródło: Oblczena własne, dane StatLb Wartość n complete w przypadku tego zboru danych wynos 9. Usunęce dzewęcu obserwacj prowadz do nestnena estymatora NW. 21
IV. Propozycja odpornego estymatora parametrów modelu logstycznego Głęba regresyjna dopasowana jest nezmenncza względem przekształceń monotoncznych w tym sense, Ŝe jeŝel zastąpmy y przez hy ( ), gdze h jest ścśle monotonczną funkcją oraz jeŝel funkcja wązana zostane w tym samym czase zastąpona przez h g, to głęba dopasowana sę ne zmen ( jest to prawdą ponewaŝ głęba regresyjna zaleŝy jedyne od zmennych objaśnających r( b )). x oraz od znaku reszt RozwaŜmy sytuację regresj bnarnej. MoŜna zdefnować głębę regresyjną dla zborów danych zwykle rozwaŝanych za pomocą regresj logstycznej w podobny sposób jak przedstawono powyŝej wykorzystujemy dystrybuantę rozkładu logstycznego F zamast funkcj g. 22
W procese estymacj moŝna potraktować odpowedź jako cągłą zmenną o modach 0 1 mnmalnej warancj wokół mód albo przejść na logty zastosować algorytm oblczenowy bezpośredno (szczegóły oblczenowe zawera Rousseuuw Hubert (1998). 23
PRZYKŁAD Zgłoszene szkody komunkacyjnej w zaleŝnośc od weku klenta towarzystwa ubezpeczenowego. Zgłoszene szkody komunkacyjnej w zaleŝnośc od standaryzowanego weku klenta towarzystwa ubezpeczenowego. x y [1,] 19 1 [2,] 27 0 [3,] 18 0 [4,] 23 1 [5,] 19 0 [6,] 25 0 [7,] 31 1 [8,] 19 0 [9,] 47 0 [10,] 50 1 x y [1,] -0.75 1 [2,] -0.06 0 [3,] -0.83 0 [4,] -0.41 1 [5,] -0.75 0 [6,] -0.23 0 [7,] 0.27 1 [8,] -0.75 0 [9,] 1.64 0 [10,] 1.89 1 Estymator NW : b 0 = 0.4176 ; b 1 = 0.4645 Estymator maksymalnej głęb : b 0 = 0.7523 ; b 1 = 0.3419 (n overlap = 3) 24
25
WŁASNOŚCI PROPOZYCJI Wynk symulacj wskazują, Ŝe proponowany estymator wektora parametrów modelu regresj logstycznej z wyrazem wolnym, w sytuacj gdy pośród danych ne występują jednostk ostające jest neobcąŝony, odznacza sę porównywalnym co estymator NW rozrzutem. W sytuacj występowana obserwacj odstających (np. wysoka norma wektora regresorów odpowedź 1, gdy tymczasem odpowedz 1 generowane są przez wektory regresorów o umarkowanych normach) proponowany estymator w przecweństwe do estymatora NW jest odporny. 26
PODSUMOWANIE Prezentowana w pracy metoda oceny jakośc oszacowana NW parametrów modelu logstycznego moŝe przyczynć sę do lepszego zarządzana ryzykem w dzałalnośc ubezpeczenowej. Proponowany odporny estymator maksymalnej głęb regresyjnej parametrów modelu logstycznego dobrze radz sobe ze skośnym oraz heteroskedastycznym rozkładam błędu. Wynk symulacj wskazują na neobcąŝoność zadowalającą efektywność estymatora maksymalnej głęb regresyjnej w porównanu z estymatorem NW. 27
Lteratura 1. Albert, A., Anderson J. A. (1984), On the exstence of maxmum lkelhood estmates n logstc regresson models, Bometrka, 71, 1 10 2. Carroll, R. J. and Pederson, S. (1993), On robustness n the logstc regresson model, Journal of the Royal Statstcal Socety (B), 55, 693 706 3. Chrstmann A., Rousseeuw P. J. (2001), Measurng Overlap n Bnary Regresson, Computatonal Statstcs & Data Analyss, Volume 37, Issue 1, Pages 65-75 4. Kosorowsk D. (2007), O Odpornej Analze Regresj w Ekonom na Przykładze Koncepcj Głęb Regresyjnej, Statstcal Revew, vol. 1, p. 109 121. (n polsh) 5. Kosorowsk D. (2008), Robust Classcaton and Clusterng Based on the Projecton Depth Functon, Proceedngs of the 18 th Symposum n Computatonal Statstcs (COMPSTAT 2008), CD-ROM. 6. Krzyśko M. (2004), Statystyka Matematyzna, Wydawnctwo naukowe UAM, Poznań 7. Marona R. A., Martn R. D., Yoha V. J. (2006), Robust Statstcs Theory and Methods, John Wley & Sons, Chchester 28
8. Mzera I. (2002) On Depth and Deep Ponts: A Calculus, Annals of Statstcs 30, 1681 1736 9. Rao R. C., Toutenburg Helge, (1999), Lnear Models Least Squares and Alternatves. Sprnger-Verlag, New York. 10. Rousseeuw P. J., Hubert M. (1998), Regresson Depth, J. Amer. Statst. Assoc., 94, 388 433 11. Van Aelst, S., Rousseeuw, P. J. (2000), Robustness Propertes of Deepest Regresson, J. Multv. Analyss, 73, 82-106 12. Zuo, Y., Serflng, R. (2000). General Notons of Statstcal Depth Functon. The Annals of Statstcs 28, p. 461-482 29
Dodatek głęba Tukeya USD/PLN(t) vs.usd/pln(t-1) n 2007 year ; bvarate Tukey's depth y(t) 2,5242 2,513 2,6285 2,7853 2,7619 2,7989 2,827 2,8241 2,9521 3,0016 2,883 Tukey medan Outlers 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 y(t-1) 30