Odporność statystyk według Ryszarda Zielińskiego a porządki stochastyczne

Podobne dokumenty
Własności porządkowe w modelu proporcjonalnych szans

UPORZĄDKOWANIE STOCHASTYCZNE ESTYMATORÓW ŚREDNIEGO CZASU ŻYCIA. Piotr Nowak Uniwersytet Wrocławski

O ŚREDNIEJ STATYSTYCZNEJ

O ŚREDNIEJ STATYSTYCZNEJ

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Uogolnione modele liniowe

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych.

MIARY ZALEŻNOŚCI OPARTE NA KOPULACH

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Estymacja gęstości prawdopodobieństwa metodą selekcji modelu

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Modele uporządkowań zmiennych losowych w charakteryzacjach rozkładów prawdopodobieństwa, estymacji i miarach zależności.

Estymacja parametru rozkładu Rayleigha i logistycznego w terminach k-tych wartości rekordowych

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Estymatory kwantylowe i estymacja kwantyli

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka Matematyczna Anna Janicka

Prawa wielkich liczb, centralne twierdzenia graniczne

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

STATYSTYKA

Wykład 9 Testy rangowe w problemie dwóch prób

Wykład Ćwiczenia Laboratorium Projekt Seminarium Liczba godzin zajęć

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

O pewnych klasach funkcji prawie okresowych (niekoniecznie ograniczonych)

O zgodności procedur jednoczesnego testowania zastosowanych do problemu selekcji zmiennych w modelu liniowym

Ważne rozkłady i twierdzenia c.d.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

O pewnym twierdzeniu S. Łojasiewicza, J. Wloki, Z. Zieleżnego

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE

Statystyki pozycyjne w procedurach estymacji i ich zastosowania w badaniach ekonomicznych

Proces rezerwy w czasie dyskretnym z losową stopą procentową i losową składką

Wykład 2 Zmienne losowe i ich rozkłady

Wykład Ćwiczenia Laboratorium Projekt Seminarium Liczba godzin zajęć zorganizowanych w Uczelni

Prawdopodobieństwo i statystyka

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

~_ = 2_ J k = 20. kurtoz~ I. O mierzeniu odporności statystyk

Weryfikacja hipotez statystycznych

Matematyka ubezpieczeń majątkowych r.

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Testowanie hipotez statystycznych.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Zmienne losowe. dr Mariusz Grządziel Wykład 12; 20 maja 2014

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Prawdopodobieństwo i statystyka

Rozkłady statystyk z próby

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

Spis treści 3 SPIS TREŚCI

Prawdopodobieństwo i statystyka

Metody probabilistyczne

XXXIII Konferencja Statystyka Matematyczna

Prawdopodobieństwo i statystyka r.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka i eksploracja danych

Wykład 10 Testy jednorodności rozkładów

Własności statystyczne regresji liniowej. Wykład 4

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Metoda największej wiarogodności

1 Relacje i odwzorowania

Własności estymatorów regresji porządkowej z karą LASSO

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Monte Carlo, bootstrap, jacknife

Estymacja parametrów w modelu normalnym

Metoda najmniejszych kwadratów

WYKŁAD Z ANALIZY MATEMATYCZNEJ I. dr. Elżbieta Kotlicka. Centrum Nauczania Matematyki i Fizyki

UWAGI O TESTACH JARQUE A-BERA

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów.

2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.

Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe.

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Metoda reprezentacyjna

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA

Metody probabilistyczne

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Instytut Matematyczny Uniwersytet Wrocławski. Zakres egzaminu magisterskiego. Wybrane rozdziały anazlizy i topologii 1 i 2

8 Całka stochastyczna względem semimartyngałów

Rachunek Prawdopodobieństwa Anna Janicka

Jądrowe klasyfikatory liniowe

Metoda największej wiarygodności

jest ciągiem elementów z przestrzeni B(R, R)

Wykład 12 Testowanie hipotez dla współczynnika korelacji

6.4 Podstawowe metody statystyczne

Procesy stochastyczne

Rozdział 6. Ciągłość. 6.1 Granica funkcji

Natalia Neherbecka. 11 czerwca 2010

KATALOG KURSÓW PRZEDMIOTY KSZTACŁENIA PODSTAWOWEGO I OGÓLNEGO

Detekcja rozkładów o ciężkich ogonach

Transkrypt:

Odporność statystyk według Ryszarda Zielińskiego a porządki stochastyczne Jarosław Bartoszewicz Uniwersytet Wrocławski

Zieliński (1977) wprowadził następującą definicję odporności statystycznej. M 0 = (X, A, P 0 ) model statystyczny π : P 0 2 P zaburzenie modelu M 0, gdzie P rodzina wszystkich rozkładów na (X, A), spełniające dla dowolnych P P 0 warunki: (a) P π(p), (b) π(p) P 0 = {P}, (c) π(p) π(p ) =, gdy P P. P 1 = π(p) P P 0 Model statystyczny M 1 = (X, A, P 1 ) rozszerzenie modelu M 0

T klasa statystyk na (X, A) P T rozkład statystyki T, P0 T i P1 T klasy rozkładów indukowanych przez statystykę T. ϱ funkcjonał na przestrzeni miar P1 T : w konkretnym problemie decyzyjnym może być pewną charakterystyką rozkładu P T P 1, np. obciążenie lub wariancja estymatora T, moc testu opartego na statystyce T itp.

Funkcję r T : P 0 R +, postaci r T (P) = sup{ϱ(q T ) : Q π(p)} inf{ϱ(q T ) : Q π(p)}, nazywamy ϱ-odpornością statystyki T w modelu M 1. Statystykę T 0 T, dla której r T0 (P) r T (P) dla każdego P P 0 i każdego T T, nazywamy jednostajnie ϱ-najodporniejszą w klasie T.

Lata osiemdziesiąte XX wieku

Praca R. Zieliński (1983), A most bias-robust linear estimate of the scale parameter of the exponential distribution, Zastos. Mat. 18, 73-77. dotyczy odporności względem obciążenia w modelu M 0 = (R +, B +, P 0 ), gdzie P 0 jest rodziną rozkładów wykładniczych o gęstościach f λ,1 (x) = 1 exp( x/λ), x > 0, λ

przy jego rozszerzeniu M p1,p 2 = (R +, B +, {P λ,p, λ > 0, p 1 p p 2 }), gdzie 0 p 1 1 p 2 2.16, a P λ,p jest rozkładem potęgowo-wykładniczym o gestości f λ,p (x) = 1 λγ(1 + 1/p) exp[ (x/λ)p ], x > 0.

Rozpatrzmy klasę statystyk T, estymatorów parametru λ, postaci T n (α) = n α j X j:n, j=1 gdzie X 1,n, X 2:,..., X n:n są statystykami pozycyjnymi z próby rozmiaru n z rozkładu P λ,p, a α i 0, i = 1, 2,..., n, i spełniających warunek nieobciążoności w modelu M 0 : n α j E 1,1 (X j:n ) = 1. j=1

Zieliński udowodnił, że dla każdego rozszerzenia M p1,p 2 (0 p 1 1 p 2 2.16) jednostajnie najodporniejszym ze względu na obciążenie estymatorem w klasie T jest statystyka nx 1:n.

Bartoszewicz w pracy J. Bartoszewicz (1984), On the most bias-robust linear estimates of the scale parameter of the exponential distribution, Zastosowania Matematyki 18, str. 251-255. zauważył, że wynik Zielińskiego (1983) można uogólnić rozpatrując model M 0 z rozszerzeniem postaci M p1,p 2 = (R +, B +, {P λ,p, λ > 0, p 1 p p 2 }),

gdzie teraz 0 < p 1 1 p 2, [p 1, p 2 ] R +, P λ,p ma gęstość 1 f λ p( x ) (f λ p jest pewną gęstością prawdopodobieństwa na R +, przy czym f 1 (x) = e x ), rodzina rozkładów {P λ,p, p } jest uporządkowana według zwykłego porządku stochastycznego, rosnąco lub malejąco, względem p, a rozkład P 1,p jest DFRA dla p 1 i IFRA dla p 1.

Przypomnienie Rozkład F jest IFR (DFR), gdy log(f (x)), x > 0, jest funkcją wypukłą (wklęsłą). Rozkład F jest IFRA (DFRA), gdy log(f (x))/x, x > 0, jest funkcją rosnącą (malejącą). IFR IFRA, DFR DFRA Rozkład wykładniczy jest zarówno IFR (IFRA) jak i DFR (DFRA).

Twierdzenie. Przy powyższych założeniach (a) jeśli rodzina rozkładów {P λ,p, p } jest stochastycznie malejąca, to dla każdego rozszerzenia M p1,p 2 (0 < p 1 < 1 < p 2 ), [p 1, p 2 ), modelu M 0 jednostajnie najodporniejszym ze względu na obciążenie estymatorem w klasie T jest statystyka nx 1:n ;

(b) jeśli rodzina rozkładów {P λ,p, p } jest stochastycznie rosnąca, to dla każdego rozszerzenia M p1,p 2 (0 < p 1 < 1 < p 2 ), [p 1, p 2 ), modelu M 0 jednostajnie najodporniejszym ze względu na obciążenie estymatorem w klasie T jest statystyka X n:n 1 + 1/2 + + 1/n.

Założenia twierdzenia są spełnione oczywiście przez rozszerzenie potęgowo-wykładnicze rozważane przez Zielińskiego (1983), ale także przez rozszerzenia zawierające rozkłady gamma i pewien rodzaj rozszerzeń typu ε-contamination". Model wykładniczy jest badany jeszcze we wspólnej pracy J. Bartoszewicz, R. Zieliński (1985), A bias-robust estimate of the scale parameter of the exponential distribution under violation of the hazard function, Zastos. Mat. 18, 609-612. Otoczenia modelu są tu definiowane przez monotoniczne intensywności awarii. Również wtedy najodporniejszymi estymatorami są unormowane skrajne statystyki pozycyjne, w zależności od kierunku monotoniczności.

W pracy J. Bartoszewicz (1987), Bias-robust estimates based on order statistics and spacings in the exponential model, Zastos. Mat. 19, 57-63. rozpatrzony jest problem odpornej estymacji ze względu na obciążenie w modelu wykładniczym w klasie statystyk będących nieujemnymi kombinacjami liniowymi odstępów (spacji) V i:n = X i:n X i 1:n, i = 1, 2,..., n, X 0:n = 0. W tym przypadku należy zastąpić rozkłady IFRA i DFRA klasami rozkładów IFR i DFR, a zwykły porządek stochastyczny mocniejszym porządkiem dyspersyjnym.

Wyniki są podobne do dotychczasowych: najodporniejszymi estymatorami są unormowane pierwsza i ostatnia spacja, w zależności od kierunku monotoniczności względem porządku dyspersyjnego.

W pracy J. Bartoszewicz (1986), Bias-robust estimation of the scale parameter, Prob. and Math. Statist. 7, 103-113. uogólnia się większość dotychczasowych wyników. Rozpatruje się ogólny model M0 = (R +, B +, P 0 ) gdzie P 0 = {F ( ; λ) : λ > 0} jest rodziną rozkładów prawdopodobieństwa z parametrem skali λ, tzn. F (x; λ) = F (x/λ), a F jest ustalonym rozkładem.

W zależności od rozpatrywanych rozszerzeń, zaburzenia modelu są definiowane przez zwykły porządek stochastyczny i porządek dyspersyjny. Rozważa się dotychczasowe klasy statystyk, nieobciążonych estymatorów parametru skali λ w modelu M0.

Rozpatruje się równiez model M 0 = (R, B, P 0), gdzie P 0 jest rodziną symetrycznych rozkładów prawdopodobieństwa z parametrem skali. Tu zaburzenia są definiowane przez tzw. s- i r-porządek, a rozważane klasy statystyk, to liniowe kombinacje bezwzględnych wartości statystyk pozycyjnych i kombinacje uporządkowanych bezwzględnych wartości obserwacji. Tezy twierdzeń są podobne dla obu modeli: odpowiednie statystyki ekstremalne w rozważanych klasach statystyk są najodporniejszymi estymatorami parametru skali względem obciążenia.

Dwadzieścia lat później

Rozkłady ważone Niech X będzie zmienną losową o rozkładzie z dystrybuantą F i niech w : R R + będzie funkcją, dla której 0 < E[w(X )] <. Rozkład o dystrybuancie F w (x) = 1 x w(u)df (u) E[w(X )] nazywa się rozkładem ważonym związanym z F, z funkcją wagową w.

Przy pomocy rozkładów ważonych można definiować rozszerzenia modelu M 0. Zajmował sie tym Paweł Błażej w cyklu prac.

P. Błażej (2007), Robust estimation of the scale and weighted distributions, Appl. Math. (Warsaw) 34, 39-45. P. Błażej i J. Bartoszewicz (2007), Robust estimation based on spacings in weighted exponential models, Appl. Math. (Warsaw) 34, 405-411. P. Błażej (2009), Some remarks about robust estimation of the scale parameter in weighted models, Commun. Statist. Theor. Meth. 38, 2232-2240.

Tezy większości twierdzeń są podobne: znów unormowane statystyki ekstremalne są najodporniejszymi estymatorami parametru skali względem obciążenia. Wynika to z porządkowych własności rozkładów ważonych. Jednakże w ostatniej pracy Błażej, przy odpowiednich założeniach, konstruuje najodporniejszy estymator, który jest liniową kombinacją nie jednej lecz kilku statystyk pozycyjnych.

Próba zbliżenia koncepcji odporności Zielińskiego i odpornosci według Hubera-Hampla Taka próba podjęta została w pracy: J. Bartoszewicz i M. Frąszczak (2012), Continuity of scale parameter estimators with respect to stochastic orders, Probab. Math. Statist. Vol. 32, 57-67.

Wykorzystano wprowadzone przez Lehmanna i Rojo (1992) pojęcie niezmienniczych porządków względem pewnych operacji i niezmienniczych metryk generowanych przez niezmiennicze porządki. Na przykład, niezmienniczymi porządkami stochastycznymi względem przekształceń rosnących są porządki: ilorazu wiarogodności, hazardowy, odwrotny hazardowy, zwykły stochastyczny.

Niezmienniczymi metrykami im odpowiadającymi są: lr : hr : rh : st : d lr (F, G) = sup x log g(x) f (x), d hr (F, G) = sup x log G(x) F (x), d rh (F, G) = sup x log G(x) F (x). d st (F, G) = sup x G(x) F (x).

Ciągłość estymatorów względem porządków stochastycznych Niech (R, B, P) będzie modelem statystycznym. Niech T = T (X ) będzie funkcjonałem statystycznym (np. estymatorem) i niech L(T, F ) oznacza jego rozkład, gdy rozkładem obserwowalnej zmiennej losowej X jest rozkład F.

Estymator T jest ciągły względem niezmienniczego porządku S w niezmienniczej odległości d S, gdy spełnione są warunki: (i) L(T, F ) P i L(T, G) P, (ii) F S G L(T, F ) S L(T, G), (iii) ε>0 δ>0 d S (F, G) < δ d S (L(T, F ), L(T, G)) < ε.

Udowodniono np., że w modelu wykładniczym z odpowiednimi rozszerzeniami najodporniejsze względem obciążenia estymatory postaci T n = X n:n /E 1 (X n:n ) i Tn = nx 1:n są ciągłe względem porządków ilorazu wiarogodności i hazardowego w metrykach d lr i d hr, niezmienniczych względem przekształceń rosnących i ciągłych.

Podobne wyniki można uzyskać dla jednostajnie najodporniejszych ze względu na obciążenie estymatorów parametru skali w ogólniejszych modelach, gdy zaburzenia są generowane przez inne porządki stochastyczne, niezmiennicze względem transformacji rosnących jak również uogólnionych transformacji TTT i składania dystrybuant.

Dodatkowa literatura J. Bartoszewicz i M.Benduch (2009), Some properties of the generalized TTT transform, J. Statist. Plann. Inference 139, 2008-2017. M.Frąszczak i J. Bartoszewicz (2012), Invariance of relative inverse function orderings under compositions of distributions, Applicationes Mathematicae 34. F.R. Hampel, E.M. Ronchetti, P.J. Rousseeuw, W.A. Stahel, Robust Statistics. The Approach Based on Influence Functions, Wiley, New York 1986. P.J. Huber, Robust Statistics, Wiley, New York 1981.

E.L. Lehmann and J. Rojo (1992), Invariant directional orderings. Ann. Statist. 20, 2100-2110. R. Zieliński (1977), Robustness: a quantitative approach, Bull. Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys. 25, 1281-1286. R. Zieliński (1983). Robust statistical procedures: A general approach, Lecture Notes in Mathematics 982, Springer, 283-295.