Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Statystyka matematyczna. Wykład III. e-mail:e.kozlovski@pollub.pl

Spis treści Rozkłady zmiennych losowych 1 Rozkłady zmiennych losowych Rozkład χ 2 Rozkład t-studenta Rozkład Fischera 2 Przedziały ufności dla nieznanej wariancji σ 2 i odchylenia standardowego σ

Rozkład χ 2 Rozkłady zmiennych losowych Definicja 1. Niech zmiwenne losowe U i, i = 1, 2,..., n mają rozkład normalny N (0; 1), wtedy zmienna losowa X n = ma rozkład χ 2 o n stopniach swobody oraz oznaczamy jako X n χ 2 (n). n i=1 U 2 i Funkcja gęstości f (x, n) = { 1 2 n Γ( n 2 ) x n 2 1 e x 2, dla x > 0 0, dla x 0 gdzie gamma-funkcja Γ ( ) jest dana wzorem Γ (m) = s m 1 e s ds. 0

Własności: Wartoś oczekiwana zmiennej losowej X n o rozkładzie χ 2 (n) i wariancja wynoszą EX n = n V ar (X n ) = 2n Zmienna losowa jest asymptotycznie zbieżna (według rozkładu) X n n 2n F U dla n gdzie zmienna losowa U N (0; 1). Zatem dla dośc dużego n mamy X n N ( n; 2n ). Powyższą aproksymację możemy stosowac dla n 30.

Zastosowanie: Niech X 1,..., X n oznacza n elementowa próba której elementy są podporządkowane rozkładowi normalnemu N (µ, σ). Niech Zmienna losowa S 2 = 1 n X = 1 n n ( Xi X ) 2, i=1 n X i. i=1 Y n = ns2 σ 2 ma rozkład χ 2 (n 1) i nie zależy od X!!!

Rozkład t-studenta Definicja 2. Niech U oraz X n będą niezależnymi zmiennymi losowymi o rozkładach U N (0; 1) oraz X n χ 2 (n) odpowiednio. Zmienna losowa T n = U X n n ma rozkład t-stunenta o n stopniach swobody, oznaczamy jako T n t (n). Funkcja gęstości jest dana wzorem f (t, n) = Γ ( ) n+1 2 ( nπγ n ) 2 ( ) n+1 1 + t2 2 n

Własności: Dla n 2 wartoś oczekiwana i wariancja zmiennej losowej T n o rozkładzie t (n) wynoszą ET n = 0 n V ar (T n ) = n 2 Dla n = 1 rozkład t-studenta jest rozkładem Cauchy ego, gdzie funkcja gęstości wynosi f (t) = 1 1 π 1 + t 2 Wartoś oczekiwana i wariancja w tym przypadku nie istnieją!! 1 lim a + π a 0 t dt = + 1 + t2 Zmienna losowa T n jest asymptotycznie zbieżna (według rozkładu) do rozkładu normalnego N (0; 1), tzn. T n F U dla n gdzie zmienna losowa U N (0; 1). Powyższą aproksymację

Zastosowanie: Niech n elementowa próba X 1,..., X n jest podporządkowana rozkładowi normalnemu N (µ, σ) oraz X i S 2 oznaczają estymatory średniej i wariancji odpowiednio. Zmienna losowa postaci T n = X µ n 1 S ma rozkład t-studenta o n 1 stopniach swobody (T n t (n 1)).

Rozkład Fischera Definicja 3. Niech zmienne X n oraz X m mają rozkłady χ 2 o n i m stopniach swobody odpowiednio( X n χ 2 (n), X m χ 2 (m)). Zmienna losowa V n,m = X n n X mm ma rozkład Fischera o n i m stopniach swobody (oznaczamy jako V n,m F (n, m)). Funkcja gęstości jest dana wzorem Γ( n+m 2 ) f (x, n, m) = Γ( n 2 )Γ( m 2 ) n n 2 m m n 1 x 2 2, dla x > 0, (m+nx) n+m 2 0, dla x 0.

Własności: Wartość oczekiwana zmiennej losowej V n,m dla m > 2. EV n,m = Wariancja zmiennej losowej V n,m dla m > 4. m m 2 V ar (V n,m ) = 2m2 (m + n 2) n (m 2) 2 (m 4)

Zastosowanie: Niech n elementowa próba X 1,..., X n jest podporządkowana rozkładowi normalnemu N (µ X, σ), natomiast m elementowa próba Y 1,..., Y m jest podporządkowana rozkładowi normalnemu N (µ Y, σ). Zmienne losowe X 1,..., X n, Y 1,..., Y m są niezależne. Niech X i Ȳ oznaczają estymatory średnich zmiennych losowych X i Y odpowiednio. Zmienna losowa V n,m = ma rozkład F (n 1, m 1). 1 n 1 1 m 1 n ( Xi X ) 2 i=1 n ( Yi Ȳ ) 2 i=1

Metoda przedziałowa polega na określeniu przedziałów ufności dla nieznanych parametrów rozkładu. Definicja 4. Dla ustalonego poziomu ufności 1 α (poziomu istotności 0 < α < 1) przedziałem ufności parametru Θ nazywamy przedział (Θ 1, Θ 2 ) gdzie końce tego przedziału Θ 1 = Θ 1 (X 1,..., X n ) i Θ 2 = Θ 2 (X 1,..., X n ) są funkcjami próby losowej oraz spełniają warunek P (Θ 1 (X 1,..., X n ) < Θ < Θ 2 (X 1,..., X n )) = 1 α. Widzimy że końce przedziału ufności są zmiennymi losowymi. Nieznana wartość parametru Θ może należeć do przedziału (Θ 1, Θ 2 ) lub tez nie! Dla różnych próbek losowych x 1,..., x n znajdujemy różne przedziały ufności. Stosunek przedziałów ufności które zawierają nieznany parametr Θ do wszystkich przedziałów skonstruowanych w oparciu o próby x 1,..., x n wynosi 1 α.

Przykład 1. Dla poziomu ufności 1 α w oparciu o próbę losową X 1,..., X n znaleźć przedział ufności dla nieznanej wartości µ populacji, w której cecha X ma rozkład normalny N (µ, σ) oraz prametr σ jest znany. Z twierdzenia Lindeberga - Levy ego zmienna losowa dąży do rozkładu N X = X 1 + X 2 +... + X n n ( σ µ, n ), natomiast statystyka U = X µ n σ ma rozkład normalny N (0, 1). Zadanie polega na wyznaczeniu kwantyli u 1 i u 2 tak aby spełniona była równość P (u 1 < U < u 2 ) = F (u 2 ) F (u 1 ) = 1 α.

Przyjmuąc u 2 = F 1 (1 α 2 ) oraz u 1 = F 1 (α 1 ), gdzie α = α 1 + α 2, mamy F (u 2 ) F (u 1 ) = 1 α 2 α 1 = 1 α Rozwiązując nierówność otrzymujemy u 1 < X µ n < u2 σ X u 2 σ n < µ < X u 1 σ n.

Uwaga. Wybierając dowolne α 1, α 2 tak aby była spełniona równość α = α 1 + α 2 otrzymujemy różne przedziały ufności. Jeżeli α 1 = α 2 = α 2, to dla rozkładu normalnego N (0, 1) mamy F ( ) 1 1 ( ) α 2 = F 1 α 2, stąd u1 = u 2. Zatem przedział ufności jest postaci X u σ n < µ < X + u σ n, gdzie u = F 1 ( 1 α 2 ). W przypadku, gdy α 1 = α, to mamy Rozwiązując nierówność P (u < U) = 1 α. u < X µ n σ otrzymujemy lewostronny przedział ufności µ < X u σ n, gdzie u = F 1 (α).

Uwaga cd. W przypadku, gdy α 2 = α, to P (U < u) = 1 α. Rozwiązując nierówność X µ n < u σ otrzymujemy prawostronny przedział ufności X u σ < µ, n gdzie u = F 1 (1 α).

Przedziały ufności dla nieznanej wartości przeciętnej * Cecha X ma rozkład normalny N (µ, σ), gdzie prametr µ jest nieznany, natomiast znane jest ochylenie standardowe σ. Dla poziomu ufności 1 α w oparciu o próbę X 1,..., X n przedział ufności dla nieznanej wartości µ populacji wynosi (patrz przykład 1) X u σ n < µ < X + u σ n, gdzie u = F 1 ( 1 α 2 ).

* Cecha X ma rozkład normalny N (µ, σ), gdzie prametry µ i σ są nieznane oraz n < 100. Statystyka T n = X µ n 1 S ma rozklad t-studenta o n 1 stopniach swobody, gdzie X = 1 n X i n i=1 S = 1 n ( Xi n X ) 2 Z tablic rozkładu t-studenta na poziomie ufności 1 α odczytujemy kwantyle rzędu 1 α 2 oraz α 2. Ponieważ rozkład t-studenta jest rozkładem symetrycznym, ( to t = t 1 α ) ( 2, n 1 = t 1 1 α ) 2, n 1, gdzie t(x, n) oznacza dystrybuantę rozkladu t-studenta o n stopniach swobody. i=1

Dla poziomu ufności 1 α w oparciu o próbę X 1,..., X n przedział ufności dla nieznanej wartości µ populacji wyznaczamy z równości ( P t < X ) µ n 1 < t = 1 α. S Ostatecznie otrzymujemy t X S < µ < X + S. n 1 n 1 t

* Cecha X ma dowolny rozkład o nieznanych wartości średniej µ i odchyleniu standardowym σ (σ < ). Dla dużych populacji n 100 z twierdzenia Lindeberga - Levy ego statystyka U = X µ n S 1 ma rozkład asymptotycznie zbieżny do N (0, 1), gdzie n ( S1 2 = 1 n 1 Xi X ) 2 jest nieobciążonym estymatorem odchylenia i=1 standardowego σ. Dla poziomu ufności 1 α w oparciu o próbę X 1,..., X n przedział ufności dla nieznanej wartości µ populacji wynosi X u S 1 n < µ < X + u S 1 n, gdzie u = F 1 ( 1 α 2 ).

Przedziały ufności dla nieznanej wariancji i odchylenia standardowego * Cecha X ma rozkład normalny N (µ, σ), gdzie prametry µ i σ są nieznane. Dla próby o liczebności n 50 statystyka χ 2 = ns2 σ 2 ma rozkład χ 2 (chi-kwadrat) o n 1 stopniach swobody. Z tablic rozkładu χ 2 na poziomie ufności 1 α odczytujemy kwantyle rzędu 1 α 2 oraz α 2 i oznaczamy je jako ( χ2 α 2, n 1), χ ( 2 1 α 2, n 1). Dla poziomu istotności α w oparciu o próbę X 1,..., X n przedział ufności dla nieznanej wariancji w populacji wyznaczamy z równości ( ( P χ 2 α ) ( 2, n 1 < ns2 σ 2 < χ2 1 α )) 2, n 1 = 1 α.

Ostatecznie, przedział ufności dla wariancji σ 2 wynosi ns 2 χ ( 2 1 α 2, n 1) < ns 2 σ2 < χ ( 2 α 2, n 1), natomiast dla odchylenia standardowego σ S n χ ( < σ < 2 1 α 2, n 1) S n χ 2 ( α 2, n 1).

* Cecha X ma rozkład normalny N (µ, σ), gdzie prametry µ i σ są nieznane. Dla próby o liczbności n 50 statystyka 2χ2 = 2 ns2 σ 2 = S 2n σ dąży do rozkładu normalnego N ( 2n 3, 1 ). Zatem dla poziomu istotności α w oparciu o próbę X 1,..., X n przedział ufności dla nieznanej wariancji w populacji wyznaczamy z równości ( P u < S ) 2n 2n 3 < u = 1 α, σ gdzie u jest kwantylem rzędu 1 α 2 dla rozkładu normalnego N (0, 1). Ostatecznie przedział ufności dla odchylenia standardowego σ wynosi S 2n S 2n < σ <. 2n 3 + u 2n 3 u