WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 4 1 / 23
ZAGADNIENIE ESTYMACJI Zagadnienie estymacji - szacowanie nieznanego parametru lub funkcji na podstawie wyników obserwacji; X 1, X 2,..., X n - niezależne zmienne losowe o tym samym rozkładzie (i.i.d.) P θ - próba losowa θ Θ - nieznany parametr, Θ R(R k ) Estymatorem parametru θ nazywamy dowolną funkcję ˆθ(X 1, X 2,..., X n ), której wartości należą do przestrzeni Θ, i której celem jest oszacowanie parametru θ. Estymator jest statystyką. Agata Boratyńska Statystyka matematyczna, wykład 4 2 / 23
Metody wyznaczania estymatorów Charakterystyki próbkowe - estymatory w oparciu o dystrybuantę empiryczną estymatory metodą momentów estymatory metodą kwantyli estymatory metodą największej wiarogodności Agata Boratyńska Statystyka matematyczna, wykład 4 3 / 23
Dystrybuanta empiryczna - estymator dystrybuanty, definicja Model: (R, F) n, gdzie F rodzina dystrybuant na prostej rzeczywistej X = (X 1, X 2,..., X n ) - próba losowa z rozkładu o dystrybuancie F Dystrybuanta empiryczna gdzie F n (X, t) = F n (t) = liczba X i, takich że X i t n 1 (,t] (X i ) = jest zmienną losową dwupunktową, { 1 gdy Xi (, t] 0 w przeciwnym przypadku P F (1 (,t] (X i ) = 1) = F (t) = 1 n Σ1 (,t](x i ) Agata Boratyńska Statystyka matematyczna, wykład 4 4 / 23
Dystrybuanta empiryczna, przykład Próba losowa: 2.0 2.0 3.0 3.0 3.0 3.5 4.0 4.0 4.5 5.0 Agata Boratyńska Statystyka matematyczna, wykład 4 5 / 23
Dystrybuanta empiryczna, własności jest statystyką jako funkcja próby losowej jest średnią z n zmiennych losowych o rozkładzie dwupunktowym (zero-jedynkowym) jest dystrybuantą rozkładu jednostajnego skupionego w punktach x 1, x 2,..., x n (wartości próby losowej) jako funkcja zmiennej t jest estymatorem dystrybuanty rozkładu obserwowanej zmiennej losowej X Agata Boratyńska Statystyka matematyczna, wykład 4 6 / 23
Własności F n jako statystyki 1 Wartość oczekiwana dystrybuanty empirycznej w danym punkcie ( ) 1 E F F n (t) = E F n Σn i=11 (,t] (X i ) = 1 ( ) n n E F 1 (,t] (X i ) = F (t) 2 Wariancja dystrybuanty empirycznej w danym punkcie Var F F n (t) = 1 F (t)(1 F (t)) n 3 CTG F n (t) F (t) F (t)(1 F (t)) n N(0, 1) P F {x : F n (t) F (t) F (t)(1 F (t)) n z } Φ(z) dla każdego z. 4 Twierdzenie Gliwenki Cantellego. Dla prawie wszystkich wartości x 1, x 2,..., x n sup F n (t) F (t) 0 gdy n t Agata Boratyńska Statystyka matematyczna, wykład 4 7 / 23
Zbieżność dystrybuanty empirycznej Dystrybuanta empiryczna dla dwóch próbek i dystrybuanta teoretyczna N=10 N=10 N=100 Agata Boratyńska Statystyka matematyczna, wykład 4 8 / 23
Charakterystyki próbkowe jako estymatory Charakterystyki próbkowe w oparciu o próbę (X 1, X 2,..., X n ) są równe charakterystykom liczbowym rozkładu zmiennej losowej, której dystryuanta jest równa dystrybuancie empirycznej w oparciu o próbę (X 1, X 2,..., X n ) WNIOSEK: średnia z próby - estymator wartości oczekiwanej mediana próbkowa - estymator mediany kwantyl próbkowy - estymator kwantyla rozkładu wariancja z próby - estymator wariancji itd Agata Boratyńska Statystyka matematyczna, wykład 4 9 / 23
Estymacja metodą momentów EMM Model: X 1, X 2,..., X n i.i.d z rozkładu P θ, θ- nieznany parametr Postępowanie: Porównujemy momenty rozkładu teoretycznego (zależą od nieznanego(ych) parametru(ów)) do odpowiednich momentów empirycznych, z otrzymanego układu równań wyznaczamy nieznany parametr Agata Boratyńska Statystyka matematyczna, wykład 4 10 / 23
Estymacja metodą momentów EMM cd. θ R (jednowymiarowa przestrzeń parametrów), rozwiąż (niewiadomą jest θ) równanie: E θ X = X θ = (θ 1, θ 2 ) R 2, rozwiąż układ równań (niewiadomą jest θ): { Eθ X = X Var θ X = Ŝ 2 θ = (θ 1, θ 2,..., θ k ) (k-wymiarowa przestrzeń parametrów), rozwiąż układ (niewiadomą jest θ): E θ X = X Var θ X = Ŝ 2 E θ (X µ) 3 = 1 n (Xi X ) 3...... E θ (X µ) k = 1 n (Xi X ) k gdzie µ = E θ X. Agata Boratyńska Statystyka matematyczna, wykład 4 11 / 23
Estymacja metodą momentów - przykłady PRZYKŁAD 1. X = (X 1, X 2,..., X n ), X i Ex(θ) i są niezależne, θ > 0 EMM(θ) =? Rozwiązanie Mamy E θ X i = + 0 xθe θx dx = 1 θ Rozwiązujemy równanie: 1 θ = X stąd EMM(θ) = ˆθ = 1 X Agata Boratyńska Statystyka matematyczna, wykład 4 12 / 23
Estymacja metodą momentów - przykłady PRZYKŁAD 2. X = (X 1, X 2,..., X n ), X i Gamma(α, β) i są niezależne, α, β > 0 EMM(α) =? i EMM(β) =?. Rozwiązanie Gęstość p α,β (x) = βα Γ(α) x α 1 e βx gdy x > 0 Momenty: E α,β X i = α β Var α,β X i = α β 2 Otrzymujemy układ: Stąd: { α β = X α β 2 = Ŝ 2 ˆβ = X i ˆα = X 2 Ŝ 2 Ŝ 2 Agata Boratyńska Statystyka matematyczna, wykład 4 13 / 23
Estymacja metodą momentów - przykłady PRZYKŁAD 3. Wyznaczyć EMM parametrów w rozkładzie Pareto(θ, λ), θ > 2, λ > 0. Rozwiązanie X = (X 1, X 2,..., X n ), X i Pareto(θ, λ) i są niezależne. Gęstość Momenty: E θ,λ X 1 = Otrzymujemy układ: p θ,λ (x) = λ θ 1 θλ θ (λ + x) θ+1, x > 0 Var θ,λ X 1 = { λ θ 1 = X λ 2 θ (θ 1) 2 (θ 2) = S 2 Stąd: ˆθ = 2S2 S 2 X 2 ˆλ = X (ˆθ 1). λ 2 θ (θ 1) 2 (θ 2) Agata Boratyńska Statystyka matematyczna, wykład 4 14 / 23
EMK (estymacja metodą kwantyli) Model: X 1, X 2,..., X n i.i.d z rozkładu P θ, θ- nieznany parametr Postępowanie: Porównujemy kwantyle teoretyczne (są funkcjami nieznanych parametrów) z ich odpowiednikami z próby i z otrzymanych równań wyznaczamy parametry. Agata Boratyńska Statystyka matematyczna, wykład 4 15 / 23
EMK (estymacja metodą kwantyli) cd. θ R (jednowymiarowa przestrzeń parametrów), rozwiąż (niewiadomą jest θ): q 1 (θ) = Q 1 2 2 F θ (Q 1 2 ) = 1 2 θ = (θ 1, θ 2 ), rozwiąż układ (niewiadomą jest θ): lub układ równoważny: q 1 (θ) = Q 1 4 4 i q 3 (θ) = Q 3 4 4 F θ (Q 1 4 ) = 1 4 θ = (θ 1, θ 2, θ 3 ). Otrzymujemy układ: i F θ (Q 3 4 ) = 3 4 F θ (Q 1 4 ) = 1 4 i F θ (Q 1 2 ) = 1 2 i F θ (Q 3 4 ) = 3 4 θ = (θ 1, θ 2, θ 3, θ 4 ). Rozważamy kwantyle rzędu 1 8, 3 8, 5 8 i 7 8. Agata Boratyńska Statystyka matematyczna, wykład 4 16 / 23
EMK (estymacja metodą kwantyli) - przykłady PRZYKŁAD 1. X 1, X 2,..., X n i.i.d, X i Ex(θ), θ > 0. Wyznaczyć EMK(θ) =? Rozwiązanie F θ (q 1 2 ) Rozwiązujemy równanie: ( ) = 1 exp θq 1 2 = 1 2 q 1 2 = 1 θ ln 1 2 1 θ ln 1 2 = Q 1 2 stąd EMK(θ) = ˆθ(X ) = 1 Q 1 2 ln 1 2 Agata Boratyńska Statystyka matematyczna, wykład 4 17 / 23
EMK (estymacja metodą kwantyli) - przykłady PRZYKŁAD 2. Niech X 1, X 2,..., X n i.i.d z rozkładu Weibull(c, τ), wyznaczyć EMK(c) =? i EMK(τ) =? Rozwiązanie Dystrybuanta w rozkładzie Weibulla ma postać: Otrzymujemy układ: 1 e cqτ 1 4 = 1 4 1 e cqτ 3 4 = 3 4 ( Q ) 14 τ ln 0.75 Stąd Q 34 = ln 0.25 F c,τ (x) = 1 exp ( cx τ ) x > 0 ˆτ = log Q 14 Estymatory mają postać: Q 34 ( ) ln 0.75 ln 0.25 ln 0.75 = cq τ 1 4 ln 0.25 = cq τ 3 4 ln 0.75 ĉ = Q ˆτ 1 4 Agata Boratyńska Statystyka matematyczna, wykład 4 18 / 23
ENW (estymacja metodą największej wiarogodności) Niech X 1, X 2,..., X n i.i.d. z rozkładu o gęstości f θ (x), gdzie θ jest nieznanym parametrem. Funkcją wiarogodności nazywamy funkcję zmiennej θ równą L(θ) = L(θ, x) = f θ (x 1 )f θ (x 2 )... f θ (x n ) gdzie x = (x 1, x 2,..., x n ) jest próbką zaobserwowanych wartości zmiennych X 1, X 2,..., X n Estymatorem największej wiarogodności parametru θ (ENW (θ)) nazywamy argument maksimum funkcji L ENW (θ) = arg max L(θ). θ Agata Boratyńska Statystyka matematyczna, wykład 4 19 / 23
ENW - przykłady PRZYKŁAD 1. X bin(n, θ), wyznacz ENW (θ). Rozwiązanie L(θ, x) θ ( ) n L(θ, x) = θ x (1 θ) n x x ( ) n = θ x 1 (1 θ) n x 1 (x nθ) = 0 x ENW (θ) = X n Agata Boratyńska Statystyka matematyczna, wykład 4 20 / 23
ENW, przydatne związki Zachodzi: 1 arg max θ L(θ, x) = arg max θ ln L(θ, x) (zamiast wyznaczać argument max funkcji L można wyznaczać argument max funkcji l(θ) = ln L(θ)) 2 ENW (g(θ)) = g(enw (θ)) 3 Jeżeli θ = (θ 1,..., θ k ) jest parametrem ciągłym i L jest funkcją różniczkowalną, to ENW wyznaczamy rozwiązując układ równań: lub równoważny układ: L(θ, x) θ j = 0, j = 1, 2,..., k ln L(θ, x) θ j = 0, j = 1, 2,..., k. Agata Boratyńska Statystyka matematyczna, wykład 4 21 / 23
ENW - przykłady, cd PRZYKŁAD 2. X 1, X 2,..., X n i.i.d Ex(θ), θ > 0. Wyznacz ENW (θ) Rozwiązanie Funkcja wiarogodności ( ) n L(θ, x) = θ n exp θ x i Pochodna ln L(θ,x) θ i=1 n ln L = n ln θ θ x i i=1 = n θ n i=1 x i Rozwiązujemy równanie n n θ x i = 0 i=1 ENW (θ) = 1 X Agata Boratyńska Statystyka matematyczna, wykład 4 22 / 23
ENW (estymacja metodą największej wiarogodności) - przykłady PRZYKŁAD 3. X 1, X 2,..., X n i.i.d N(µ, σ). Wyznacz ENW (µ) i ENW (σ 2 ). Rozwiązanie Niech v = σ 2. ( ) n 1 2 L(µ, v) = exp ( 1 ) n (x i µ) 2 2πv 2v ln L = n 2 ln(2π) n 2 ln v 1 2v i=1 n (x i µ) 2 i=1 Po obliczeniu pochodnych cząstkowych otrzymujemy układ { 2 1 ni=1 2v (x i µ) = 0 Stąd ENW (µ) = X n 2v + 1 2v 2 ni=1 (x i µ) 2 = 0 ENW (σ 2 ) = Ŝ 2 = 1 n ni=1 ( X i X ) 2. Agata Boratyńska Statystyka matematyczna, wykład 4 23 / 23
ENW, przykład 4, dane 20 307 612 1272 2078 3631 26 324 669 1280 2240 4068 77 346 686 1351 2411 4520 86 359 691 1380 2412 5013 116 367 710 1501 2519 5065 120 370 757 1546 2588 5481 132 383 827 1565 2728 6046 165 384 829 1635 2799 7003 201 451 886 1671 2850 7275 240 475 893 1706 2987 7477 246 496 969 1825 3000 8738 252 505 1053 1830 3006 9197 265 529 1079 1850 3383 16370 272 546 1080 1871 3443 17605 282 560 1145 1916 3513 27320 300 595 1194 2029 3614 56788 Agata Boratyńska Statystyka matematyczna, wykład 4 24 / 23
Przykład 4, wartości estymatorów ROZKŁAD WYKŁADNICZY EMM 0,0003342 ENW 0,0003342 ROZKŁAD PARETO EMM theta 2,48984 lambda 4458,24 ENW theta 1,90145 lambda 2691,39 ROZKŁAD WEIBULLA EMK tau 0,803439 c 0,002332 ENW tau 0,713162 c 0,004071 ROZKŁAD GAMMA EMM alpha 0,196736 beta 0,000066 ENW alpha 0,625739 beta 0,000209 ROZKŁAD LOGARYTMICZNO-NORMALNY ENW 7,022464 1,400221 Agata Boratyńska Statystyka matematyczna, wykład 4 25 / 23
Przykład 4, wykresy gęstości 0,001 0,0008 0,0006 0,0004 histogram wykladniczy Pareto Weibulla Gamma Lognormal 0,0002 0 0 2000 4000 6000 8000 Agata Boratyńska Statystyka matematyczna, wykład 4 26 / 23