Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl materiały: http://kzmi.up.lublin.pl/ zotachel/geo2i3 konsultacje: poniedziałek,wtorek 10-12 Lublin, 2018/19
Estymacja
Próba prosta, statystyki Niech X będzie cechą liczbową (zmienną losową) określoną na pewnej populacji (przestrzeni zdarzeń elementarnych). Dokonując n niezależnych pomiarów (obserwacji) tej cechy otrzymujemy ciąg liczb x 1,..., x n. Obserwujemy w ten sposób wartość (realizację) wektora losowego (X 1,..., X n ), gdzie X i są niezależnymi zmiennymi losowymi o tym samym rozkładzie prawdopodobieństwa jak cecha X. Ciąg niezależnych zmiennych losowych (X 1,..., X n ) o tym samym rozkładzie prawdopodobieństwa (jak cecha X ) nazwiemy próbą prostą (związaną z cechą X ). Zmienne losowe będące funkcjami próby nazwiemy statystykami. Niech (X 1,..., X n ) będzie próbą prostą. Zmienne losowe X = 1 n X i, n i=1 S 2 = 1 n (X i X ) 2 n i=1 są statystykami.
Momenty próbkowe Niech (X 1,..., X n ) będzie próbą prostą związaną z cechą X. Dla dowolnej liczby naturalnej k statystyki 1 n X k 1 n i, (X i X ) k n n i=1 nazywamy odpowiednio momentem próbkowym zwykłym, momentem próbkowym centralnym, k-tego rzędu. Średnia z próby X jest próbkowym momentem zwykłym 1-ego rzędu, wariancja z próby S 2 jest próbkowym momentem centralnym 2-ego rzędu. PWL Czebyszewa prowadzi do wniosku Twierdzenie 1 Momenty próbkowe związane z cechą X są stochastycznie zbieżne do odpowiadających im momentów cechy X przy załozeniu ich istnienia, w szczególnosci średnia i wariancja z próby są stochastycznie zbieżne do wartosci oczekiwanej, wariancji cechy, odpowiednio. i=1
Estymacja punktowa, estymatory W danej populacji rozważmy cechę X o rozkładzie zależnym od nieznanego parametru θ. Estymacja to metoda wnioskowania statystycznego o nieznanych parametrach populacji polegająca na szukaniu ich przybliżeń (oszacowań). Estymacja punktowa polega na szacowaniu nieznanych parametrów rozkładu za pomocą wartości pewnych statystyk. Estymatorem (oszacowaniem) nieznanego parametru θ nazywamy dowolną statystykę opartą na próbie X 1, X 2,..., X n, oznaczymy ją przez ˆθ := ˆθ(X 1,..., X n ). Zastępując nieznany parametr wartością estymatora popełniamy pewien błąd, który jest tym większy im większa jest wariancja tego estymatora.
Własności estymatorów nieobciążoność: Eˆθ = θ; zgodność: ˆθ(X 1,..., X n ) P θ; efektywność: estymator efektywny to taki estymator nieociążony, który spośród wszystkich nieobciążonych estymatorów ma najmniejszą wariancję; (taki estymator nie zawsze istnieje; można powiedzieć, że jest on najlepszy - średnio nie mylimy się co do jego oszacowań, a jednocześnie popełniamy najmniejszy błąd.
Przykłady estymatorów Każdy moment próbkowy jest zgodnym estymatorem odpowiadającego mu momentu dla cechy; średnia z próby X jest zgodnym i nieobciążonym estymatorem wartości oczekiwanej cechy; wariancja z próby S 2 jest zgodnym, ale obciążonym estymatorem wariancji cechy; ES 2 = n 1 n σ2 ; ns 2 n 1 = 1 ni=1 n 1 (X i X ) 2 jest zgodnym i nieobciążonym estymatorem wariancji cechy; średnia z próby X jest efektywnym estymatorem wartości oczekiwanej cechy, o której wiemy, że ma rozkład normalny lub wykładniczy lub Poissona;
Estymatory średniej i wariancji w Excelu 2013 Estymator - X - realizuje funkcja ŚREDNIA, nieobciążony ns estymator wariancji 2 n 1 funkcja WARIANCJA.PRÓBKI, estymator S 2 zwraca funkcja WARIANCJA.POPUL,funkcja ODCH.STANDARDOWE.PRÓBKI daje nieociążony estymator ns 2 odchylenia standardowego n 1 = ˆσ, obciążony estymator odchylenia S to wartość funkcji ODCH.STANDARDOWE.POPUL. Wartości tych estymatorów znajdziemy również w ANALIZA DANYCH>STATYSTYKI OPISOWE pod nazwami średnia, wariancja, odchylenie standardowe.
Rozkłady podstawowych statystyk (X 1,..., X n ) - próba prosta z rozkładu N(µ X, σ X ), (Y 1,..., Y m ) - próba prosta z rozkładu N(µ Y, σ Y ), S 2 X = 1 n ni=1 (X i X ) 2, S 2 Y = 1 m mi=1 (Y i Y ) 2 X 1,..., X m, Y 1,..., Y n - niezależne zmienne losowe, przyjmujemy: µ := µ X, σ := σ X, S 2 := S 2 X i S = S 2 Statystyka Rozkład U = X µ σ n U N(0, 1) T = X µ S n 1 T t(n 1) V = ns 2 /σ 2 V χ 2 (n 1) F = ns2 X (n 1)σ 2 X : ms 2 Y (m 1)σ 2 Y F F (n, m)
Problemy estymacji punktowej: dla rozkładów ciągłych prawdopodobieństwo, że estymator jest rzeczywiście równy nieznanemu parametrowi wynosi 0; estymator punktowy nie daje nam żadnej informacji na temat dokładności oszacowania.
Estymacja przedziałowa - przedział ufności Estymacja przedziałowa to szacowanie nieznanego parametru θ rozkładu badanej cechy X w populacji poprzez konstrukcję takiego przedziału (a, b), gdzie a i b są statystykami, który z zadanym z góry prawdopodobieństwem 1 α pokrywa nieznany parametr tzn. P(a < θ < b) = 1 α. Przedział (a, b) nazywa się wtedy przedziałem ufności dla parametru θ na poziomie ufności (1 α) 100%. Jeżeli utworzymy przedziały ufności dla wielu n-elementowych prób na ustalonym poziomie ufności (1 α) 100% to średnio w (1 α) 100% przypadków skonstruowany przedział będzie pokrywał nieznany, estymowany parametr θ. Koncepcję estymacji przedziałowej stworzył polski statystyk Jerzy Spława-Neyman (1894-1981).
Własności przedziałów ufności długość przedziału ufności jest miarą błędu szacowania, im większa pewność (wyższy poziom ufności), że wyznaczony przedział ufności pokrywa nieznany parametr, tym dłuższy przedział ufności; przedziały ufności wyznaczone dla bardziej licznych prób są krótsze, do konstrukcji przedziału ufności dla nieznanego parametru θ potrzebujemy statystyki zależnej od tego parametru, której rozkład jest znany, poziom ufności ustala się arbitralnie zwykle jest on równy 90%, 95%, 99% czyli prawdopodobieństwo α = 0, 1; 0, 05; 0, 01.
Przedział ufności dla średniej z populacji normalnej ze znanym parametrem σ Niech (X 1,..., X n ) będzie próbą prostą z rozkładu N(µ, σ), gdzie parametr µ jest przedmiotem estymacji, natomiast wartość σ jest znana. Podstawą konstrukcji przedziału ufności dla µ jest statystyka U = (X µ) n σ N(0, 1). Dla 0 < α < 1 wyznaczymy taką liczbę u α (wartość krytyczna rozkładu normalnego standardowego), że P ( u α < (X µ) n σ < u α ) = 1 α. P(X u α σ n < µ < X + u α σ n ) = 1 α. Skonstruowaliśmy zatem przedział ufności dla średniej µ na poziomie ufności (1 α) 100%. Zauważmy, że środkiem przedziału ufności dla µ jest statystyka X = µ, natomiast jego długość wynosi 2u α σ n i maleje wraz ze wzrostem liczebności próby n.
Przedział ufności dla średniej z populacji normalnej z nieznanym parametrem σ Niech (X 1,..., X n ) będzie próbą prostą z rozkładu N(µ, σ), gdzie µ i σ sa nieznane. Podstawą konstrukcji przedziału ufności dla µ jest statystyka T = X µ S n 1 t(n 1). Niech tα,r będzie wartością krytyczną tego rozkładu odpowiadającą prawdopodobieństwu α (r = n 1), tzn. P( t > t α,r ) = α. Wtedy P P ( ( X t α,r t α,r < X µ S n 1 < tα,r ) S n 1 < µ < X + t α,r = 1 α. S n 1 ) = 1 α. ( ) S Przedział X t α,r S n 1, X + t α,r n 1 jest przedziałem ufności dla średniej µ na poziomie ufności (1 α) 100%.
Przedział ufności dla średniej bez założenia normalności W praktyce często nie znamy typu rozkładu badanej cechy i nie ma podstaw do założenia, że jest to rozkład normalny. Jeżeli dysponujemy odpowiednio liczną próbą (co najmniej 30 obserwacji) to możemy skorzystać tzw. Centralnego Twierdzenia Granicznego orzekającego, że graniczny rozkład statystyki U = X µ S n 1 (przy liczebności próby n ) jest rozkładem N(0, 1). Niech u α będzie wartością krytyczną tego rozkładu odpowiadającą prawdopodobieństwu α, tzn. P( U > u α ) = α. Wtedy ( P u α < X µ ) n 1 < uα = 1 α S ( ) S S P X u α < µ < X + u α = 1 α. n 1 n 1 ( ) S Przedział X u α S n 1, X + u α n 1 jest przedziałem ufności dla średniej µ na poziomie ufności (1 α) 100% o ile liczebność próby n 30.
Elementy przedziałów ufności dla średniej w Excelu 2013 Wartości krytyczne dla rozkładu t-studenta zwraca funkcja rozkł.t.odwr.ds. Dla rozkładu normalnego standardowego dla wyznaczenia wartości krytycznych można posłużyć się funkcją rozkł.normalny.s.odwr(p), która dla podanego prawdopodobieństwa p podaje taką wartość u, by dystrybuanta tego rozkładu F (u) = p. Wartość krytyczną u α zwróci funkcja rozkł.normalny.s.odwr dla prawdopodobieństwa=1-pół α. Wartość d = u α σ/ n - połowy przedziału ufności dla średniej przy założeniu normalności i znanym σ podaje funkcja ufność.norm(α; σ; n). Wartość d = t α S/ n 1 - połowy przedziału ufności dla średniej przy założeniu normalności podaje funkcja ufność.t(α; σ; n), gdzie pod sigma podstawiamy nieobciążone oszacowanie odchylenia standardowego, które liczy funkcja odch.standard.próbki.
Wartości krytyczne rozkładu normalnego standardowego
Przedział ufności dla różnicy średnich #1 (X 1,..., X n ), (Y 1,..., Y m ) - 2 próby proste z rozkładów N(µ i, σ), i = 1, 2; znane σ wspólne dla obu rozkładów X 1,..., X n, Y 1,..., Y m - niezależne obserwacje X N(µ 1, σ/ n) i Y N( µ 2, σ/ m) więc X Y N(µ 1 µ 2, σ 1 n + 1 m ), standaryzując (X Y ) (µ 1 µ 2 ) σ 1 n + 1 m N(0, 1). Niech u α będzie wartością krytyczną rozkładu N(0, 1), odpowiadającą ( prawdopodobieństwu ) α. Wtedy P u α (X Y ) (µ 1 µ 2 ) σ 1 u n + 1 α = 1 α. Stąd [ m ] (X Y ) u α σ 1 n + 1 m ασ ; (X Y ) + u 1 n + 1 m jest przedziałem ufności dla różnicy średnich µ 1 µ 2 na poziomie ufności (1 α) 100%.
Przedział ufności dla różnicy średnich #2 Mamy: (X 1,..., X n ), (Y 1,..., Y m ) - 2 próby proste z rozkładów N(µ i, σ), i = 1, 2; nieznane σ wspólne dla obu rozkładów X 1,..., X n, Y 1,..., Y m - niezależne obserwacje U = (X Y ) (µ 1 µ 2 ) σ 1 N(0, 1); n + 1 m ns 2 X σ 2 χ 2 (n 1), Wtedy T = ms 2 Y σ 2 χ 2 (m 1) i są niezależne, stąd Z = ns2 X + ms 2 Y σ 2 χ 2 (n + m 2). U t(n + m 2) oraz Z/(n+m 2) T = (X Y ) (µ 1 µ 2 ) ( ). 1 n + 1 m ns 2 X +ms2 Y n+m 2
Niech t α,r będzie wartością krytyczną rozkładu t(n + m 2), odpowiadającą prawdopodobieństwu α (r = n + m 2). Mamy P( t α,r T t α,r ) = 1 α. Ostatecznie przedział o środku X Y i połowie długości d określonej wzorem d = t α,r ns 2 X + ms 2 Y n + m 2 ( 1 n + 1 m ) jest przedziałem ufności dla różnicy średnich µ 1 µ 2 na poziomie ufności (1 α) 100%.
Przedział ufności dla wariancji (X 1,..., X n ) - próba prosta z rozkładu N(µ, σ); nieznane σ jest przedmiotem estymacji. Z twierdzenia Fishera, statystyka ns 2 σ 2 χ2 (n 1). Dla prawdopodobieństwa α mamy: ( P χ 2 ns2 1 α/2,n 1 σ 2 χ2 α/2,n 1 ) = 1 α, gdzie χ 2 p,n 1 są odpowiednimi wartościami krytycznymi dla rozkładu χ 2. Stąd przedział ufności dla wariancji σ 2 na poziomie ufności (1 α) 100% ma postać: ns 2 χ 2 α/2,n 1 σ 2 ns 2 χ 2 1 α/2,n 1.
Przedział ufności dla ilorazu wariancji (X 1,..., X n ), (Y 1,..., Y m ) - 2 próby proste z rozkładów normalnych o nieznanych wariancjach σ X, σ Y, odpowiednio, X 1,..., X n, Y 1,..., Y m - niezależne obserwacje Statystyka F = msy 2 (m 1)σY 2 nsx 2 (n 1)σX 2 = σ 2 X σ 2 y S 2 X S 2 Y F (m 1, n 1) (rozkad F Snedecora z (m 1, n 1) stp swobody), gdzie S 2 X = ns2 X n 1 = 1 n 1 n (X i X ) 2, S Y 2 = ms Y 2 m 1 = 1 m (Y i Y ) 2. m 1 i=1 i=1
Zatem dla dowolnie wybranego prawdopodobieństwa 0 < α < 1 P(F 1 α/2 F F α/2 ) = 1 α, gdzie F p jest odpowiednią wartością krytyczną rozkładu F (m 1, n 1) Snedecora z (m 1, n 1) stp swobody. Stąd ( S X 2 P F S Y 2 1 α/2 σ2 X σy 2 S X 2 ) F S Y 2 α/2 = 1 α, czyli [ S X 2 F S Y 2 1 α/2, S X 2 ] F S Y 2 α/2 jest (1 α) 100% przedziałem ufności dla ilorazu σ2 X σ 2 y.