Tomasz Rychlik Instytut Matematyczny PAN Chopina 12, 87 100 Toruń e-mail: trychlik@impan.gov.pl XXXVIII Konferencja Statystyka Matematyczna Sesja poświȩcona pamiȩci prof. Ryszarda Zielińskiego Wisła, 3 7.12.2012
Prof. (1932-2012)
Plan: 1 Nieparametryczna estymacja kwantyli 2 Odporna estymacja parametry położenia za pomoca kwantyli próbkowych
Nieparametryczne estymatory kwantyli
Założenia: Próba (skończona!): X 1,..., X n - i.i.d., Model: F = {F : dystrybuanty cia głe i ściśle rosna ce} (wtedy F 1 też cia głe i ściśle rosna ce), Klasa estymatorów: T = {T = T (X 1:n,..., X n:n ) : ϕ ściśle rosn aca T (ϕ(x 1:n ),..., ϕ(x n:n )) = ϕ(t (X 1:n,..., X n:n ))} = {X J(λ):n : λ S n }, gdzie J(λ) niezależna od próby i P(J(λ) = j) = λ j, j = 1,..., n, (Uhlmann (1963), Metrika 7, 23 40). ((X 1:n,..., X n:n ) statystyka dostateczna i zupełna)
Założenia: Próba (skończona!): X 1,..., X n - i.i.d., Model: F = {F : dystrybuanty cia głe i ściśle rosna ce} (wtedy F 1 też cia głe i ściśle rosna ce), Klasa estymatorów: T = {T = T (X 1:n,..., X n:n ) : ϕ ściśle rosn aca T (ϕ(x 1:n ),..., ϕ(x n:n )) = ϕ(t (X 1:n,..., X n:n ))} = {X J(λ):n : λ S n }, gdzie J(λ) niezależna od próby i P(J(λ) = j) = λ j, j = 1,..., n, (Uhlmann (1963), Metrika 7, 23 40). ((X 1:n,..., X n:n ) statystyka dostateczna i zupełna)
Założenia: Próba (skończona!): X 1,..., X n - i.i.d., Model: F = {F : dystrybuanty cia głe i ściśle rosna ce} (wtedy F 1 też cia głe i ściśle rosna ce), Klasa estymatorów: T = {T = T (X 1:n,..., X n:n ) : ϕ ściśle rosn aca T (ϕ(x 1:n ),..., ϕ(x n:n )) = ϕ(t (X 1:n,..., X n:n ))} = {X J(λ):n : λ S n }, gdzie J(λ) niezależna od próby i P(J(λ) = j) = λ j, j = 1,..., n, (Uhlmann (1963), Metrika 7, 23 40). ((X 1:n,..., X n:n ) statystyka dostateczna i zupełna)
Założenia: Próba (skończona!): X 1,..., X n - i.i.d., Model: F = {F : dystrybuanty cia głe i ściśle rosna ce} (wtedy F 1 też cia głe i ściśle rosna ce), Klasa estymatorów: T = {T = T (X 1:n,..., X n:n ) : ϕ ściśle rosn aca T (ϕ(x 1:n ),..., ϕ(x n:n )) = ϕ(t (X 1:n,..., X n:n ))} = {X J(λ):n : λ S n }, gdzie J(λ) niezależna od próby i P(J(λ) = j) = λ j, j = 1,..., n, (Uhlmann (1963), Metrika 7, 23 40). ((X 1:n,..., X n:n ) statystyka dostateczna i zupełna)
Założenia: Próba (skończona!): X 1,..., X n - i.i.d., Model: F = {F : dystrybuanty cia głe i ściśle rosna ce} (wtedy F 1 też cia głe i ściśle rosna ce), Klasa estymatorów: T = {T = T (X 1:n,..., X n:n ) : ϕ ściśle rosn aca T (ϕ(x 1:n ),..., ϕ(x n:n )) = ϕ(t (X 1:n,..., X n:n ))} = {X J(λ):n : λ S n }, gdzie J(λ) niezależna od próby i P(J(λ) = j) = λ j, j = 1,..., n, (Uhlmann (1963), Metrika 7, 23 40). ((X 1:n,..., X n:n ) statystyka dostateczna i zupełna)
Problem: Dla ustalonego 0 < q < 1, znaleźć w klasie T optymalny estymator T wartości F 1 (q), F F, wzglȩdem różnych rozsa dnych kryteriów R(T, F ), T T, F F. Uwaga: Dla F nie maja sensu kryteria typu: średni bła d kwadratowy: E(T F 1 (q)) 2, średni bła d absolutny: E T F 1 (q), itp.
Problem: Dla ustalonego 0 < q < 1, znaleźć w klasie T optymalny estymator T wartości F 1 (q), F F, wzglȩdem różnych rozsa dnych kryteriów R(T, F ), T T, F F. Uwaga: Dla F nie maja sensu kryteria typu: średni bła d kwadratowy: E(T F 1 (q)) 2, średni bła d absolutny: E T F 1 (q), itp.
Rozważamy błȩdy F (T ) q zamiast T F 1 (q)
Wyniki negatywne dla liniowych kombinacji: Mediana próbkowa dla prób parzystych: M 2n = 1 2 (X n:2n + X n+1:2n ) RZ (1995) Appl. Math. (Warsaw) 23, 363 370. n N C > 0 F F med(m 2n, F ) F 1 (1/2) > C. AB, RZ (1997) Ann. Univ. Mariae Curie-Sklodowska Lublin A 41, 11 14. n N ε > 0 F F, na [0, 1], sym. wzgl. 1/2 E F M 2n 1/2 > 1/4 ε.
Wyniki negatywne dla liniowych kombinacji: Mediana próbkowa dla prób parzystych: M 2n = 1 2 (X n:2n + X n+1:2n ) RZ (1995) Appl. Math. (Warsaw) 23, 363 370. n N C > 0 F F med(m 2n, F ) F 1 (1/2) > C. AB, RZ (1997) Ann. Univ. Mariae Curie-Sklodowska Lublin A 41, 11 14. n N ε > 0 F F, na [0, 1], sym. wzgl. 1/2 E F M 2n 1/2 > 1/4 ε.
Wyniki negatywne dla liniowych kombinacji: Mediana próbkowa dla prób parzystych: M 2n = 1 2 (X n:2n + X n+1:2n ) RZ (1995) Appl. Math. (Warsaw) 23, 363 370. n N C > 0 F F med(m 2n, F ) F 1 (1/2) > C. AB, RZ (1997) Ann. Univ. Mariae Curie-Sklodowska Lublin A 41, 11 14. n N ε > 0 F F, na [0, 1], sym. wzgl. 1/2 E F M 2n 1/2 > 1/4 ε.
podobnie źle zachowuja siȩ L-estymatory: Kaigh-Lachenbruch: L 1 (k, q) = Bernstein-Polynomial: r+n k j=r ( j 1 )( n j r 1 k r ) ( n k) X j:n, r = (k + 1)q, L 2 (q) = n B j 1,n 1 (q)x j:n = 1 n j=1 n f j:n (q)x j:n, j=1 Harrell-Davis: n [ ( ) ( )] j j 1 L 3 (q) = B (n+1)q,(n+1)(1 q) B n (n+1)q,(n+1)(1 q) X j:n, n j=1 bo rozkłady F (L i ) q zależa of F.
Kryterium MAD: R 1 (T, F ) = E F F (T ) q = E U J(λ):n q RZ (1999), Statist. Probab. Lett. 45, 79 84. U j:n F j:n (x) = n k=j ( ) n x k (1 x) n k, 0 < x < 1, k 1 > F 1:n (x) >... > F n:n (x) > 0, 0 < x < 1. Twierdzenie T = X j :n, gdzie 1, gdy F 2:n+1 (q) 1/2, j n, gdy F = n:n+1 (q) 1/2, jeśli F 2:n+1 (q) > 1/2 > F n:n+1 (q), to takie j, że F j:n+1 (q) > 1/2 > F j+1:n+1 (q).
Kryterium MAD: R 1 (T, F ) = E F F (T ) q = E U J(λ):n q RZ (1999), Statist. Probab. Lett. 45, 79 84. U j:n F j:n (x) = n k=j ( ) n x k (1 x) n k, 0 < x < 1, k 1 > F 1:n (x) >... > F n:n (x) > 0, 0 < x < 1. Twierdzenie T = X j :n, gdzie 1, gdy F 2:n+1 (q) 1/2, j n, gdy F = n:n+1 (q) 1/2, jeśli F 2:n+1 (q) > 1/2 > F n:n+1 (q), to takie j, że F j:n+1 (q) > 1/2 > F j+1:n+1 (q).
Kryterium MSE: R 2 (T, F ) = E F (F (T ) q) 2 = E(U J(λ):n q) 2 RZ (1999), Commun. Statist. Theory Meth. 38, 980 992. Twierdzenie T = X j :n, gdzie 1, gdy q 3/2 j n+2, 3/2 = [(n + 2)q + 1/2], gdy n+2 < q < n+1/2 n+2, n, gdy q n+1/2 n+2. ([ ] zaokra glenie do całkowitej)
Kryterium MSE: R 2 (T, F ) = E F (F (T ) q) 2 = E(U J(λ):n q) 2 RZ (1999), Commun. Statist. Theory Meth. 38, 980 992. Twierdzenie T = X j :n, gdzie 1, gdy q 3/2 j n+2, 3/2 = [(n + 2)q + 1/2], gdy n+2 < q < n+1/2 n+2, n, gdy q n+1/2 n+2. ([ ] zaokra glenie do całkowitej)
Kryterium LINEX: R α (T, F ) = E F [exp(α(f (T ) q)) α(f (T ) q) 1], α < 0, RZ (2005), Appl. Math. (Warsaw) 32, 367 373. Twierdzenie T = X j :n, gdzie j = arg min 1 j n [ exp( αq) 1 F 1 (j, n + 1, α) }{{} jα n + 1 }{{} ] Γ(n) 1F 1 (j, n, α) = e αt t j 1 (1 t) n j 1 dt Γ(j)Γ(n j) 0 funkcja Whittakera (confluent geometric). W pracy jeszcze optymalne estymatory kwantyli w modelu normalnym postaci X + const(j, n, α) σ oraz X + const(j, n, α) S. 1
Kryterium LINEX: R α (T, F ) = E F [exp(α(f (T ) q)) α(f (T ) q) 1], α < 0, RZ (2005), Appl. Math. (Warsaw) 32, 367 373. Twierdzenie T = X j :n, gdzie j = arg min 1 j n [ exp( αq) 1 F 1 (j, n + 1, α) }{{} jα n + 1 }{{} ] Γ(n) 1F 1 (j, n, α) = e αt t j 1 (1 t) n j 1 dt Γ(j)Γ(n j) 0 funkcja Whittakera (confluent geometric). W pracy jeszcze optymalne estymatory kwantyli w modelu normalnym postaci X + const(j, n, α) σ oraz X + const(j, n, α) S. 1
Kryterium LINEX: R α (T, F ) = E F [exp(α(f (T ) q)) α(f (T ) q) 1], α < 0, RZ (2005), Appl. Math. (Warsaw) 32, 367 373. Twierdzenie T = X j :n, gdzie j = arg min 1 j n [ exp( αq) 1 F 1 (j, n + 1, α) }{{} jα n + 1 }{{} ] Γ(n) 1F 1 (j, n, α) = e αt t j 1 (1 t) n j 1 dt Γ(j)Γ(n j) 0 funkcja Whittakera (confluent geometric). W pracy jeszcze optymalne estymatory kwantyli w modelu normalnym postaci X + const(j, n, α) σ oraz X + const(j, n, α) S. 1
Kryterium miara bliskości Pitmana: T : T T F F P F ( F (T ) q) F (T ) q ) 1/2, RZ (2001), Statistics 35, 453 462. Twierdzenie Jeśli j 0 = { n 1, gdy Fn 1:n (q) 1/2, min{i n 1 : F i+1:n (q) < 1/2}, w p. p. oraz { j j0, gdy q < q(j = 0, n), (wyznaczone numerycznie z równania) j 0 + 1, w p. p., to T = X j :n.
Kryterium miara bliskości Pitmana: T : T T F F P F ( F (T ) q) F (T ) q ) 1/2, RZ (2001), Statistics 35, 453 462. Twierdzenie Jeśli j 0 = { n 1, gdy Fn 1:n (q) 1/2, min{i n 1 : F i+1:n (q) < 1/2}, w p. p. oraz { j j0, gdy q < q(j = 0, n), (wyznaczone numerycznie z równania) j 0 + 1, w p. p., to T = X j :n.
Estymatory medianowo-nieobcia żone: RZ (1988), Statistics 19, 223 227. T U(q) = {T T : F F med(t, F ) = q}, { } n = T = X J(λ):n : λ i F i:n (q) = 1. 2 i=1 U(q) F 1:n (q) 1 2 F n:n(q) n ln 2 ln max{q, 1 q}.
Estymatory medianowo-nieobcia żone: RZ (1988), Statistics 19, 223 227. T U(q) = {T T : F F med(t, F ) = q}, { } n = T = X J(λ):n : λ i F i:n (q) = 1. 2 i=1 U(q) F 1:n (q) 1 2 F n:n(q) n ln 2 ln max{q, 1 q}.
Kryterium MAD dla U(q): RZ (1999), Statist. Probab. Lett. 45, 79 84. Twierdzenie Jeśli F 1:n (q) 1 2 F n:n(q), to dla j takiego, że F j :n(q) 1 2 F j +1:n(q) oraz T = X J(λ ):n. 1/2 F j λ j = +1:n(q) F j :n(q) F j +1:n(q) = 1 λ j +1, λ j = 0, j {j, j + 1},
Estymator medianowo-nieobcia żony o najwiȩkszej koncentracji RZ (1988), Statistics 19, 223 227. Estymator medianowo-nieobcia żony o minimalnym średnim błȩdzie absolutnym spełnia: T U(q) F F 0 < q < q < q + < 1 P(F 1 (q ) T F 1 (q + )) P(F 1 (q ) T F 1 (q + ))
Kryterium MSE dla V(q): Estymatory F -nieobcia żone: T V(q) = {T T : F F EF (T ) = q}, { } n iλ i = T = X J(λ):n : EF (X J(λ):n ) = n + 1 = q. Uhlmann (1963), Metrika 7, 23 40. Twierdzenie Dla j = (n + 1)q oraz T = X J(λ ):n. i=1 λ j = (n + 1)q (n + 1)q = 1 λ j +1, λ j = 0, j {j, j + 1},
Kryterium MSE dla V(q): Estymatory F -nieobcia żone: T V(q) = {T T : F F EF (T ) = q}, { } n iλ i = T = X J(λ):n : EF (X J(λ):n ) = n + 1 = q. Uhlmann (1963), Metrika 7, 23 40. Twierdzenie Dla j = (n + 1)q oraz T = X J(λ ):n. i=1 λ j = (n + 1)q (n + 1)q = 1 λ j +1, λ j = 0, j {j, j + 1},
Estymator przedziałowy kwantyla o minimalnej długości RZ, WZ (2005), Statistics 39, 67 71. Wyznaczyć [X I :n, X J:n ] taki. że P(X I :n F 1 (q) X J:n ) = P(U I :n q U J:n ) γ, E(J I ) = min Możliwe, gdy P(U 1:n q U n:n ) γ, tzn., gdy q n + (1 q) n 1 γ. ( ) n p k (q) = P(U k:n q U k+1:n ) = q k (1 q) n k, k k = 1,..., n 1 cia g jednomodalny wzgl. k (k max nq).
Estymator przedziałowy kwantyla o minimalnej długości RZ, WZ (2005), Statistics 39, 67 71. Wyznaczyć [X I :n, X J:n ] taki. że P(X I :n F 1 (q) X J:n ) = P(U I :n q U J:n ) γ, E(J I ) = min Możliwe, gdy P(U 1:n q U n:n ) γ, tzn., gdy q n + (1 q) n 1 γ. ( ) n p k (q) = P(U k:n q U k+1:n ) = q k (1 q) n k, k k = 1,..., n 1 cia g jednomodalny wzgl. k (k max nq).
Estymator przedziałowy kwantyla o minimalnej długości RZ, WZ (2005), Statistics 39, 67 71. Wyznaczyć [X I :n, X J:n ] taki. że P(X I :n F 1 (q) X J:n ) = P(U I :n q U J:n ) γ, E(J I ) = min Możliwe, gdy P(U 1:n q U n:n ) γ, tzn., gdy q n + (1 q) n 1 γ. ( ) n p k (q) = P(U k:n q U k+1:n ) = q k (1 q) n k, k k = 1,..., n 1 cia g jednomodalny wzgl. k (k max nq).
Rozwia zanie: Dokładaj kolejne kawałki {U k:n q U k+1:n } o maksymalnym prawdopodobieństwie, uzyskuja c kolejno ła czne prawdopodobieństwa: P 1 (q) < P 2 (q) <... < P m (q) γ < P m+1 (q).... Niech P m (q) = P(U i:n q U j:n ), P m+1 (q) = P(U i :n q U j :n), gdzie (i, j ) = (i, j + 1) lub (i 1, j). Wtedy { [Xi:n, X j:n ] z p stwem [X I :n, X J:n ] = [ Xi :n, X j :n] z p stwem P m+1 (q) γ P m+1 (q) P, m(q) γ P m(q) P m+1 (q) P. m(q) W pracy jeszcze optymalne przedziały jednostronne.
Rozwia zanie: Dokładaj kolejne kawałki {U k:n q U k+1:n } o maksymalnym prawdopodobieństwie, uzyskuja c kolejno ła czne prawdopodobieństwa: P 1 (q) < P 2 (q) <... < P m (q) γ < P m+1 (q).... Niech P m (q) = P(U i:n q U j:n ), P m+1 (q) = P(U i :n q U j :n), gdzie (i, j ) = (i, j + 1) lub (i 1, j). Wtedy { [Xi:n, X j:n ] z p stwem [X I :n, X J:n ] = [ Xi :n, X j :n] z p stwem P m+1 (q) γ P m+1 (q) P, m(q) γ P m(q) P m+1 (q) P. m(q) W pracy jeszcze optymalne przedziały jednostronne.
Odporne estymatory położenia
Asymptotycznie odporny estymator położenia RZ, TR (1985), Lect. Notes in Math. 1233, str. 156 171. Model: {F (x µ) : µ R}, F - znana dystrybuanta jednomodalna, Zaburzenie: Z(µ) = {G = (1 ε)f µ + εh : H dowolna dystrybuanta}, 0 < ε < 1/2, Estymatory: T = {(T n ) : T n (X 1 + c,..., X n + c) = T n (X 1,..., X n ) + c, Kryterium: lim med(t n, F µ ) = µ}, n B((T n ), µ) = B((T n ), 0) = lim sup n G 1,G 2 Z(0) med(t n, G 1 ) med(t n, G 2 ).
Asymptotycznie odporny estymator położenia c.d. G Z(0) L = (1 ε)f G U = (1 ε)f + ε ( ) ( ) x ε x U 1 (x) = F 1 < L 1 (x) = F 1, ε < x < 1 ε, 1 ε 1 ε q = arg inf ε<q<1 ε (L 1 (q) U 1 (q)), T n = X L(n):n F 1 (q ) L(n)/n q, (wystarczy, gdy ε < q < 1 ε), n(l(n)/n ε), (potrzebne, gdy q = ε), n(1 ε L(n)/n), (potrzebne, gdy q = 1 ε). Huber (1964): Jeśli F dodatkowo symetryczna, to q = 1/2.
Asymptotycznie odporny estymator położenia c.d. G Z(0) L = (1 ε)f G U = (1 ε)f + ε ( ) ( ) x ε x U 1 (x) = F 1 < L 1 (x) = F 1, ε < x < 1 ε, 1 ε 1 ε q = arg inf ε<q<1 ε (L 1 (q) U 1 (q)), T n = X L(n):n F 1 (q ) L(n)/n q, (wystarczy, gdy ε < q < 1 ε), n(l(n)/n ε), (potrzebne, gdy q = ε), n(1 ε L(n)/n), (potrzebne, gdy q = 1 ε). Huber (1964): Jeśli F dodatkowo symetryczna, to q = 1/2.
Asymptotycznie odporny estymator położenia c.d. G Z(0) L = (1 ε)f G U = (1 ε)f + ε ( ) ( ) x ε x U 1 (x) = F 1 < L 1 (x) = F 1, ε < x < 1 ε, 1 ε 1 ε q = arg inf ε<q<1 ε (L 1 (q) U 1 (q)), T n = X L(n):n F 1 (q ) L(n)/n q, (wystarczy, gdy ε < q < 1 ε), n(l(n)/n ε), (potrzebne, gdy q = ε), n(1 ε L(n)/n), (potrzebne, gdy q = 1 ε). Huber (1964): Jeśli F dodatkowo symetryczna, to q = 1/2.
Nieasymptotycznie odporny estymator położenia RZ (1988), Statistics 19, 229 231. Model: {F (x µ) : µ R}, F - cia gła znana dystrybuanta jednomodalna taka, że gȩstość f (x) 0 na końcach nośnika, Zaburzenie: Z(µ) = {G = (1 ε)f µ + εh : H dowolna dystrybuanta}, 0 < ε < 1/2, Estymatory: T = {T : T (X 1 + c,..., X n + c) = T (X 1,..., X n ) + c, Kryterium: B(T, µ) = B(T, 0) = med(t, F µ ) = µ}, sup med(t, G 1 ) med(t, G 2 ). G 1,G 2 Z(0)
Nieasymptotycznie odporny estymator położenia c.d. ε < q < 1 ε takie, że Wtedy L 1 (q ) U 1 (q ) = inf ε<q<1 ε (L 1 (q) U 1 (q)) T = X J(λ):n F 1 (q ), X J(λ):n U(q ).
Przekornie odporny estymator położenia RZ (1988), Appl. Math. (Warsaw) 29, 1 6. Model: {F (x µ) : µ R}, F - znana cia gła, ściśle rosna ca dystrybuanta symetryczna jednomodalna (o skończonej wartości oczekiwanej), C > 0 - wystarczaja co duże, Zaburzenie: H + C (x) = 1 C x 1 [C, )(x) (Pareto(1, C)), H C (x) = C x 1 (,C](x) ( Pareto(1, C)), Z(0) = {G : L = (1 ε)f + εh + C G = (1 ε)f + εh U = (1 ε)f + εh C }, (Jeśli Z H i max{ez +, EZ } < C, to H + C H H C ) Estymatory, kryterium: jak wyżej,
Przekornie odporny estymator położenia c.d. q = arg inf 0<q<1 (L 1 (q) U 1 (q)), T = X J(λ):n F 1 (q ), X J(λ):n U(q ). (Jeśli F takie, że E F X <, to istnieja G1, G 2 Z(0) takie, że E G i X <, i = 1, 2 oraz B(T, 0) = med(t, G 1 ) med(t, G 2 ). Przykład F = Φ, ε = 0.2, C > 0.3186, q { = 1 2 dla C > 0.8245, 1 2 w p. p.
Przekornie odporny estymator położenia c.d. q = arg inf 0<q<1 (L 1 (q) U 1 (q)), T = X J(λ):n F 1 (q ), X J(λ):n U(q ). (Jeśli F takie, że E F X <, to istnieja G1, G 2 Z(0) takie, że E G i X <, i = 1, 2 oraz B(T, 0) = med(t, G 1 ) med(t, G 2 ). Przykład F = Φ, ε = 0.2, C > 0.3186, q { = 1 2 dla C > 0.8245, 1 2 w p. p.
Przekornie odporny estymator położenia c.d. q = arg inf 0<q<1 (L 1 (q) U 1 (q)), T = X J(λ):n F 1 (q ), X J(λ):n U(q ). (Jeśli F takie, że E F X <, to istnieja G1, G 2 Z(0) takie, że E G i X <, i = 1, 2 oraz B(T, 0) = med(t, G 1 ) med(t, G 2 ). Przykład F = Φ, ε = 0.2, C > 0.3186, q { = 1 2 dla C > 0.8245, 1 2 w p. p.