Odporność statystyk według Ryszarda Zielińskiego a porządki stochastyczne Jarosław Bartoszewicz Uniwersytet Wrocławski
Zieliński (1977) wprowadził następującą definicję odporności statystycznej. M 0 = (X, A, P 0 ) model statystyczny π : P 0 2 P zaburzenie modelu M 0, gdzie P rodzina wszystkich rozkładów na (X, A), spełniające dla dowolnych P P 0 warunki: (a) P π(p), (b) π(p) P 0 = {P}, (c) π(p) π(p ) =, gdy P P. P 1 = π(p) P P 0 Model statystyczny M 1 = (X, A, P 1 ) rozszerzenie modelu M 0
T klasa statystyk na (X, A) P T rozkład statystyki T, P0 T i P1 T klasy rozkładów indukowanych przez statystykę T. ϱ funkcjonał na przestrzeni miar P1 T : w konkretnym problemie decyzyjnym może być pewną charakterystyką rozkładu P T P 1, np. obciążenie lub wariancja estymatora T, moc testu opartego na statystyce T itp.
Funkcję r T : P 0 R +, postaci r T (P) = sup{ϱ(q T ) : Q π(p)} inf{ϱ(q T ) : Q π(p)}, nazywamy ϱ-odpornością statystyki T w modelu M 1. Statystykę T 0 T, dla której r T0 (P) r T (P) dla każdego P P 0 i każdego T T, nazywamy jednostajnie ϱ-najodporniejszą w klasie T.
Lata osiemdziesiąte XX wieku
Praca R. Zieliński (1983), A most bias-robust linear estimate of the scale parameter of the exponential distribution, Zastos. Mat. 18, 73-77. dotyczy odporności względem obciążenia w modelu M 0 = (R +, B +, P 0 ), gdzie P 0 jest rodziną rozkładów wykładniczych o gęstościach f λ,1 (x) = 1 exp( x/λ), x > 0, λ
przy jego rozszerzeniu M p1,p 2 = (R +, B +, {P λ,p, λ > 0, p 1 p p 2 }), gdzie 0 p 1 1 p 2 2.16, a P λ,p jest rozkładem potęgowo-wykładniczym o gestości f λ,p (x) = 1 λγ(1 + 1/p) exp[ (x/λ)p ], x > 0.
Rozpatrzmy klasę statystyk T, estymatorów parametru λ, postaci T n (α) = n α j X j:n, j=1 gdzie X 1,n, X 2:,..., X n:n są statystykami pozycyjnymi z próby rozmiaru n z rozkładu P λ,p, a α i 0, i = 1, 2,..., n, i spełniających warunek nieobciążoności w modelu M 0 : n α j E 1,1 (X j:n ) = 1. j=1
Zieliński udowodnił, że dla każdego rozszerzenia M p1,p 2 (0 p 1 1 p 2 2.16) jednostajnie najodporniejszym ze względu na obciążenie estymatorem w klasie T jest statystyka nx 1:n.
Bartoszewicz w pracy J. Bartoszewicz (1984), On the most bias-robust linear estimates of the scale parameter of the exponential distribution, Zastosowania Matematyki 18, str. 251-255. zauważył, że wynik Zielińskiego (1983) można uogólnić rozpatrując model M 0 z rozszerzeniem postaci M p1,p 2 = (R +, B +, {P λ,p, λ > 0, p 1 p p 2 }),
gdzie teraz 0 < p 1 1 p 2, [p 1, p 2 ] R +, P λ,p ma gęstość 1 f λ p( x ) (f λ p jest pewną gęstością prawdopodobieństwa na R +, przy czym f 1 (x) = e x ), rodzina rozkładów {P λ,p, p } jest uporządkowana według zwykłego porządku stochastycznego, rosnąco lub malejąco, względem p, a rozkład P 1,p jest DFRA dla p 1 i IFRA dla p 1.
Przypomnienie Rozkład F jest IFR (DFR), gdy log(f (x)), x > 0, jest funkcją wypukłą (wklęsłą). Rozkład F jest IFRA (DFRA), gdy log(f (x))/x, x > 0, jest funkcją rosnącą (malejącą). IFR IFRA, DFR DFRA Rozkład wykładniczy jest zarówno IFR (IFRA) jak i DFR (DFRA).
Twierdzenie. Przy powyższych założeniach (a) jeśli rodzina rozkładów {P λ,p, p } jest stochastycznie malejąca, to dla każdego rozszerzenia M p1,p 2 (0 < p 1 < 1 < p 2 ), [p 1, p 2 ), modelu M 0 jednostajnie najodporniejszym ze względu na obciążenie estymatorem w klasie T jest statystyka nx 1:n ;
(b) jeśli rodzina rozkładów {P λ,p, p } jest stochastycznie rosnąca, to dla każdego rozszerzenia M p1,p 2 (0 < p 1 < 1 < p 2 ), [p 1, p 2 ), modelu M 0 jednostajnie najodporniejszym ze względu na obciążenie estymatorem w klasie T jest statystyka X n:n 1 + 1/2 + + 1/n.
Założenia twierdzenia są spełnione oczywiście przez rozszerzenie potęgowo-wykładnicze rozważane przez Zielińskiego (1983), ale także przez rozszerzenia zawierające rozkłady gamma i pewien rodzaj rozszerzeń typu ε-contamination". Model wykładniczy jest badany jeszcze we wspólnej pracy J. Bartoszewicz, R. Zieliński (1985), A bias-robust estimate of the scale parameter of the exponential distribution under violation of the hazard function, Zastos. Mat. 18, 609-612. Otoczenia modelu są tu definiowane przez monotoniczne intensywności awarii. Również wtedy najodporniejszymi estymatorami są unormowane skrajne statystyki pozycyjne, w zależności od kierunku monotoniczności.
W pracy J. Bartoszewicz (1987), Bias-robust estimates based on order statistics and spacings in the exponential model, Zastos. Mat. 19, 57-63. rozpatrzony jest problem odpornej estymacji ze względu na obciążenie w modelu wykładniczym w klasie statystyk będących nieujemnymi kombinacjami liniowymi odstępów (spacji) V i:n = X i:n X i 1:n, i = 1, 2,..., n, X 0:n = 0. W tym przypadku należy zastąpić rozkłady IFRA i DFRA klasami rozkładów IFR i DFR, a zwykły porządek stochastyczny mocniejszym porządkiem dyspersyjnym.
Wyniki są podobne do dotychczasowych: najodporniejszymi estymatorami są unormowane pierwsza i ostatnia spacja, w zależności od kierunku monotoniczności względem porządku dyspersyjnego.
W pracy J. Bartoszewicz (1986), Bias-robust estimation of the scale parameter, Prob. and Math. Statist. 7, 103-113. uogólnia się większość dotychczasowych wyników. Rozpatruje się ogólny model M0 = (R +, B +, P 0 ) gdzie P 0 = {F ( ; λ) : λ > 0} jest rodziną rozkładów prawdopodobieństwa z parametrem skali λ, tzn. F (x; λ) = F (x/λ), a F jest ustalonym rozkładem.
W zależności od rozpatrywanych rozszerzeń, zaburzenia modelu są definiowane przez zwykły porządek stochastyczny i porządek dyspersyjny. Rozważa się dotychczasowe klasy statystyk, nieobciążonych estymatorów parametru skali λ w modelu M0.
Rozpatruje się równiez model M 0 = (R, B, P 0), gdzie P 0 jest rodziną symetrycznych rozkładów prawdopodobieństwa z parametrem skali. Tu zaburzenia są definiowane przez tzw. s- i r-porządek, a rozważane klasy statystyk, to liniowe kombinacje bezwzględnych wartości statystyk pozycyjnych i kombinacje uporządkowanych bezwzględnych wartości obserwacji. Tezy twierdzeń są podobne dla obu modeli: odpowiednie statystyki ekstremalne w rozważanych klasach statystyk są najodporniejszymi estymatorami parametru skali względem obciążenia.
Dwadzieścia lat później
Rozkłady ważone Niech X będzie zmienną losową o rozkładzie z dystrybuantą F i niech w : R R + będzie funkcją, dla której 0 < E[w(X )] <. Rozkład o dystrybuancie F w (x) = 1 x w(u)df (u) E[w(X )] nazywa się rozkładem ważonym związanym z F, z funkcją wagową w.
Przy pomocy rozkładów ważonych można definiować rozszerzenia modelu M 0. Zajmował sie tym Paweł Błażej w cyklu prac.
P. Błażej (2007), Robust estimation of the scale and weighted distributions, Appl. Math. (Warsaw) 34, 39-45. P. Błażej i J. Bartoszewicz (2007), Robust estimation based on spacings in weighted exponential models, Appl. Math. (Warsaw) 34, 405-411. P. Błażej (2009), Some remarks about robust estimation of the scale parameter in weighted models, Commun. Statist. Theor. Meth. 38, 2232-2240.
Tezy większości twierdzeń są podobne: znów unormowane statystyki ekstremalne są najodporniejszymi estymatorami parametru skali względem obciążenia. Wynika to z porządkowych własności rozkładów ważonych. Jednakże w ostatniej pracy Błażej, przy odpowiednich założeniach, konstruuje najodporniejszy estymator, który jest liniową kombinacją nie jednej lecz kilku statystyk pozycyjnych.
Próba zbliżenia koncepcji odporności Zielińskiego i odpornosci według Hubera-Hampla Taka próba podjęta została w pracy: J. Bartoszewicz i M. Frąszczak (2012), Continuity of scale parameter estimators with respect to stochastic orders, Probab. Math. Statist. Vol. 32, 57-67.
Wykorzystano wprowadzone przez Lehmanna i Rojo (1992) pojęcie niezmienniczych porządków względem pewnych operacji i niezmienniczych metryk generowanych przez niezmiennicze porządki. Na przykład, niezmienniczymi porządkami stochastycznymi względem przekształceń rosnących są porządki: ilorazu wiarogodności, hazardowy, odwrotny hazardowy, zwykły stochastyczny.
Niezmienniczymi metrykami im odpowiadającymi są: lr : hr : rh : st : d lr (F, G) = sup x log g(x) f (x), d hr (F, G) = sup x log G(x) F (x), d rh (F, G) = sup x log G(x) F (x). d st (F, G) = sup x G(x) F (x).
Ciągłość estymatorów względem porządków stochastycznych Niech (R, B, P) będzie modelem statystycznym. Niech T = T (X ) będzie funkcjonałem statystycznym (np. estymatorem) i niech L(T, F ) oznacza jego rozkład, gdy rozkładem obserwowalnej zmiennej losowej X jest rozkład F.
Estymator T jest ciągły względem niezmienniczego porządku S w niezmienniczej odległości d S, gdy spełnione są warunki: (i) L(T, F ) P i L(T, G) P, (ii) F S G L(T, F ) S L(T, G), (iii) ε>0 δ>0 d S (F, G) < δ d S (L(T, F ), L(T, G)) < ε.
Udowodniono np., że w modelu wykładniczym z odpowiednimi rozszerzeniami najodporniejsze względem obciążenia estymatory postaci T n = X n:n /E 1 (X n:n ) i Tn = nx 1:n są ciągłe względem porządków ilorazu wiarogodności i hazardowego w metrykach d lr i d hr, niezmienniczych względem przekształceń rosnących i ciągłych.
Podobne wyniki można uzyskać dla jednostajnie najodporniejszych ze względu na obciążenie estymatorów parametru skali w ogólniejszych modelach, gdy zaburzenia są generowane przez inne porządki stochastyczne, niezmiennicze względem transformacji rosnących jak również uogólnionych transformacji TTT i składania dystrybuant.
Dodatkowa literatura J. Bartoszewicz i M.Benduch (2009), Some properties of the generalized TTT transform, J. Statist. Plann. Inference 139, 2008-2017. M.Frąszczak i J. Bartoszewicz (2012), Invariance of relative inverse function orderings under compositions of distributions, Applicationes Mathematicae 34. F.R. Hampel, E.M. Ronchetti, P.J. Rousseeuw, W.A. Stahel, Robust Statistics. The Approach Based on Influence Functions, Wiley, New York 1986. P.J. Huber, Robust Statistics, Wiley, New York 1981.
E.L. Lehmann and J. Rojo (1992), Invariant directional orderings. Ann. Statist. 20, 2100-2110. R. Zieliński (1977), Robustness: a quantitative approach, Bull. Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys. 25, 1281-1286. R. Zieliński (1983). Robust statistical procedures: A general approach, Lecture Notes in Mathematics 982, Springer, 283-295.