Metoda reprezentacyjna Stanisław Jaworski Katedra Ekonometrii i Statystyki Zakład Statystyki
Populacja, cecha, parametr, próba Metoda reprezentacyjna Przedmiotem rozważań metody reprezentacyjnej są metody wyboru prób z populacji skończonych oraz metody szacowania nieznanych charakterystyk populacji.
Populacja, cecha, parametr, próba Metoda reprezentacyjna Przedmiotem rozważań metody reprezentacyjnej są metody wyboru prób z populacji skończonych oraz metody szacowania nieznanych charakterystyk populacji. Definicja (populacja) Populacją generalną będziemy nazywać zbiór wszystkich jednostek badania. Populacja generalna będzie zapisywana w postaci: U = {u 1, u 2,..., u N } lub U = {1, 2,..., N}. Liczbę N N nazywamy liczebnością populacji.
Populacja, cecha, parametr, próba Metoda reprezentacyjna Przedmiotem rozważań metody reprezentacyjnej są metody wyboru prób z populacji skończonych oraz metody szacowania nieznanych charakterystyk populacji. Definicja (populacja) Populacją generalną będziemy nazywać zbiór wszystkich jednostek badania. Populacja generalna będzie zapisywana w postaci: U = {u 1, u 2,..., u N } lub U = {1, 2,..., N}. Przykłady Zbiór studentów, którz zdali egamin Zbiór gospodarstw domowych w Polsce w dniu 1 stycznia bieżącego roku Zbiór wyborców Liczbę N N nazywamy liczebnością populacji.
Populacja, cecha, parametr, próba Definicja (cecha statystyczna) Cechą statystyczną nazywamy funkcję Y: Y : U R Wartość cechy dla j tej jednostki badania, tzn. Y(u j ), oznaczamy przez Y j
Populacja, cecha, parametr, próba Definicja (cecha statystyczna) Cechą statystyczną nazywamy funkcję Y: Y : U R Wartość cechy dla j tej jednostki badania, tzn. Y(u j ), oznaczamy przez Y j Przykłady ocena z egzaminu: Y(student) = ocena z egzaminu dochody gospodarstwa domowego: Y(gospodarstwo domowe) = dochód
Populacja, cecha, parametr, próba Definicja (cecha statystyczna) Cechą statystyczną nazywamy funkcję Y: Y : U R Wartość cechy dla j tej jednostki badania, tzn. Y(u j ), oznaczamy przez Y j Przykłady ocena z egzaminu: Y(student) = ocena z egzaminu dochody gospodarstwa domowego: Y(gospodarstwo domowe) = dochód Definicja (parametr populacji) Parametrem populacji U nazywamy wektor Y = [Y 1, Y 2,..., Y N ]
Populacja, cecha, parametr, próba Definicja (cecha statystyczna) Cechą statystyczną nazywamy funkcję Y: Y : U R Wartość cechy dla j tej jednostki badania, tzn. Y(u j ), oznaczamy przez Y j Definicja (parametr populacji) Parametrem populacji U nazywamy wektor Y = [Y 1, Y 2,..., Y N ] Przykłady ocena z egzaminu: Y(student) = ocena z egzaminu dochody gospodarstwa domowego: Y(gospodarstwo domowe) = dochód Definicja (przestrzeń parametrów) Zbiór możliwych parametrów populacji U nazywamy przestrzenią parametrów i oznaczamy przez Ω
Populacja, cecha, parametr, próba Definicja (Funkcja parametryczna) Funkcją parametryczną nazywamy funkcję T : Ω R
Populacja, cecha, parametr, próba Definicja (Funkcja parametryczna) Funkcją parametryczną nazywamy funkcję T : Ω R Przykład (1/2) Populacja={student1, student2, student3} Cecha=ocena z egzaminu Parametr=[2, 4, 5] Przestrzeń parametrów Zauważmy, że Ω = {1, 2, 3, 4, 5} {1, 2, 3, 4, 5} {1, 2, 3, 4, 5} [2, 4, 5] Ω Przykład funkcji parametrycznej T : Ω R: T (Y 1, Y 2, Y 3 ) = 1 3 Y i 3 i=1
Populacja, cecha, parametr, próba Definicja (Funkcja parametryczna) Funkcją parametryczną nazywamy funkcję T : Ω R Przykład (2/2) Wartość globalna cechy Y: Y = N Y i i=1 N Średnia cechy Y: Ȳ = 1 Y N i i=1 N Wariancja cechy Y: S 2 = 1 (Y N 1 i Ȳ )2 i=1 Minimalna wartość cechy Y: Y min = min{y 1,..., Y N } Maksymalna wartość cechy Y: Y max = max{y 1,..., Y N } Iloraz wartości globalnych cech X, Y: R = Y X N Kowariancja cech X, Y: S xy = 1 (X N 1 j X)(Y j Ȳ ) j=1
Populacja, cecha, parametr, próba Rodzaje prób Definicja (próba uporządkowana) Próbą uporządkowaną s o liczebności n z populacji U nazywamy wektor s = [j 1, j 2,..., j n] U n Dla podkreślenia, że liczebność n dotyczy próby s będziemy ją oznaczać przez n(s). Zbiór wszystkich uporządkowanych prób będziemy oznaczać przez S
Populacja, cecha, parametr, próba Rodzaje prób Definicja (próba uporządkowana) Próbą uporządkowaną s o liczebności n z populacji U nazywamy wektor s = [j 1, j 2,..., j n] U n Dla podkreślenia, że liczebność n dotyczy próby s będziemy ją oznaczać przez n(s). Zbiór wszystkich uporządkowanych prób będziemy oznaczać przez S Definicja (próba nieuporządkowana) Próbą nieuporządkowaną s o liczebności ν z populacji U nazywamy zbiór s U Dla podkreślenia, że liczebność ν dotyczy próby s będziemy ją oznaczać przez ν(s). Zbiór wszystkich nieuporządkowanych prób będziemy oznaczać przez S
Plan losowania, schemat losowania, operat losowania Definicja (plan losowania) Planem losowania nazywamy miarę prawdopodobieństwa p określoną na zbiorze S : p(s) 0 ( s S ) p(s) = 1 s S
Plan losowania, schemat losowania, operat losowania Definicja (plan losowania) Planem losowania nazywamy miarę prawdopodobieństwa p określoną na zbiorze S : p(s) 0 ( s S ) p(s) = 1 s S Definicja (pradopodobieństwo k tego rzędu) Prawdopodobieństwo pierwszego rzędu: π j = s j p(s) Prawdopodobieństwo drugiego rzędu: π j,k = p(s) s j,k Prawdopodobieństwo k tego rzędu: π j1,...,j k = p(s) s j 1,...,j k Zapis s j,k oznacza, że sumowanie odbywa się potakich s S, które zawierają jednostki j, k.
Plan losowania, schemat losowania, operat losowania Definicja (parametry efektywnej liczebności próby) Oczekiwana efektywna liczebność próby: ν = E[ν(S)] = s S ν(s)p(s) Wariancja efektywnej liczebności próby: D 2 [ν(s)] = (ν(s) ν) 2 p(s) s S ν(s) oznacza zmienną losową, która przyjmuje wartość ν(s) z prawdopodobieństwem p(s)
Plan losowania, schemat losowania, operat losowania Definicja (parametry efektywnej liczebności próby) Oczekiwana efektywna liczebność próby: ν = E[ν(S)] = s S ν(s)p(s) Wariancja efektywnej liczebności próby: D 2 [ν(s)] = (ν(s) ν) 2 p(s) s S ν(s) oznacza zmienną losową, która przyjmuje wartość ν(s) z prawdopodobieństwem p(s) Definicja (schemat losowania) Schematem losowania próby nazywamy proces wyboru (jedna po drugiej) jednostek z populacji U ze zgóry ustalonym prawdopodobieństwem wyboru dla poszczególnych jednostek w każdym ciągnieniu.
Plan losowania, schemat losowania, operat losowania Definicja (parametry efektywnej liczebności próby) Oczekiwana efektywna liczebność próby: ν = E[ν(S)] = s S ν(s)p(s) Wariancja efektywnej liczebności próby: D 2 [ν(s)] = (ν(s) ν) 2 p(s) s S ν(s) oznacza zmienną losową, która przyjmuje wartość ν(s) z prawdopodobieństwem p(s) Definicja (schemat losowania) Schematem losowania próby nazywamy proces wyboru (jedna po drugiej) jednostek z populacji U ze zgóry ustalonym prawdopodobieństwem wyboru dla poszczególnych jednostek w każdym ciągnieniu. Przykład (1/2): Losowanie proste ze zwracaniem (lpzz) Niech u, u 1, u 2,..., u i 1 U oraz U ma rozmiar N A u zdarzenie oznaczające, że w i tym ciągnięciu wylosowaliśmy element u A u1,...,u i 1 zdarzenie oznaczające, że w poprzednich ciągnięciach (od 1 do i 1) wyciągnęliśmy elementy u 1,..., u i 1 W losowaniu ze zwracaniem zachodzi P (A u A u1,...,u i 1 ) = 1 N u, oraz u 1,..., u i 1. dla dowolnych
Plan losowania, schemat losowania, operat losowania Definicja (parametry efektywnej liczebności próby) Oczekiwana efektywna liczebność próby: ν = E[ν(S)] = s S ν(s)p(s) Wariancja efektywnej liczebności próby: D 2 [ν(s)] = (ν(s) ν) 2 p(s) s S ν(s) oznacza zmienną losową, która przyjmuje wartość ν(s) z prawdopodobieństwem p(s) Definicja (schemat losowania) Schematem losowania próby nazywamy proces wyboru (jedna po drugiej) jednostek z populacji U ze zgóry ustalonym prawdopodobieństwem wyboru dla poszczególnych jednostek w każdym ciągnieniu. Przykład (2/2): Losowanie proste bez zwracania (lpbz) W losowaniu bez zwracania zachodzi oraz P (A u A u1,...,u i 1 ) = 1 N (i 1) dla u / {u 1,..., u i 1 } P (A u A u1,...,u i 1 ) = 0 w przeciwnym przypadku.
Plan losowania, schemat losowania, operat losowania Prawdopodobieństwa pierwszego i drugiego rzędu w typowych schematach losowania Prawdopodobieństwa pierwszego rzędu w losowaniach prostych π j prawdopodobieństwo wylosowania j tego elementu w próbie 1 π j prawdopodobieństwo niewylosowania j tego elementu w próbie Pobieramy próbę n elementową. Losujemy ze zwracaniem. 1 π j = (1 1 N )n Pobieramy próbę n elementową. Losujemy bez zwracania. ( N 1 ) n 1 π j = ( N ) = n N n
Plan losowania, schemat losowania, operat losowania Prawdopodobieństwa pierwszego i drugiego rzędu w typowych schematach losowania Losowanie z prawdopodobieństwami proporcjonalnymi do wartości cechu X i ze zwracaniem (lppxzz) Niech składowe parametru [X 1,..., X N ] będą większe od zera. Określamy prawdopodobieństwo p j, j = 1,..., N, wylosowania j tego elementu populacji następująco: p j = X j X Zgodnie z zadanym rozkładem prawdopdobieństwa losujemy próbę n elementową. A i zdarzenie polegające na tym, że i ty elment nie pojawi się w próbie. Stąd π ij = 1 P (A i A j ) = 1 P (A i ) P (A j ) + P (A i A j ) = = 1 (1 p i ) n (1 p j ) n + (1 p i p j ) n Zauważmy: A i A j zdarzenie polegające na tym, że i ty oraz j ty elment nie pojawi się w próbie.
Plan losowania, schemat losowania, operat losowania Definicja (operat losowania) Operatem losowania nazywamy wykaz jednostek badania lub ich zespołów, zwanych jednostkami losowania. Każdej jednostce jest przyporządkowany identyfikator. Jeżeli losujemy jednostki badania, mówimy o losowaniu indywidualnym, jeżeli zespoły, o zespołowym. Definicja (przestrzeń prób) Niech U = {1, 2,..., N}. Możemy wówczas przyjąć, że Ω = Ω 1... Ω N. Niech Ω s = Ω j1... Ω jn dla s = (j 1,..., j n) S. Zbiór nazywamy przestrzenią prób. P = s S Ω s
Statystyka, estymator Definicja (statystyka) Funkcję t : P R nazywamy statystyką. Definicja (estymator) Niech T : Ω R oznacza funkcję parametryczną oraz Θ = T (Ω). Statystykę t : P Θ nazywamy estymatorem funkcji parametrycznej T. Jeśli Y P, to t(y ) nazywamy oceną funkcji parametrycznej T. Estymatory
Statystyka, estymator Definicja (statystyka) Funkcję t : P R nazywamy statystyką. Definicja (estymator) Niech T : Ω R oznacza funkcję parametryczną oraz Θ = T (Ω). Statystykę t : P Θ nazywamy estymatorem funkcji parametrycznej T. Jeśli Y P, to t(y ) nazywamy oceną funkcji parametrycznej T. Estymatory Estymator liniowy jednorodny t(y s) = s w i Y ji dla s = (j 1, j 2,..., j n), Y s = (Y j1,..., Y jn ) oraz ustalonych w 1, w 2,..., w n R i=1
Statystyka, estymator Definicja (statystyka) Funkcję t : P R nazywamy statystyką. Definicja (estymator) Niech T : Ω R oznacza funkcję parametryczną oraz Θ = T (Ω). Statystykę t : P Θ nazywamy estymatorem funkcji parametrycznej T. Jeśli Y P, to t(y ) nazywamy oceną funkcji parametrycznej T. Estymatory Estymator Horvitza Thompsona: ȳ HT (plan lppbz) n t(y s ) = 1 N i=1 dla s = {j 1, j 2,..., j n}, Y s = (Y j1,..., Y jn ). Oznaczenie: π i = s i p(s ) Y ji π ji
Statystyka, estymator Definicja (statystyka) Funkcję t : P R nazywamy statystyką. Definicja (estymator) Niech T : Ω R oznacza funkcję parametryczną oraz Θ = T (Ω). Statystykę t : P Θ nazywamy estymatorem funkcji parametrycznej T. Jeśli Y P, to t(y ) nazywamy oceną funkcji parametrycznej T. Estymatory Estymator Hansena Hurwitza: ȳ HH (plan lppxzz) t(y s) = 1 n Y ji N np i=1 ji dla s = (j 1, j 2,..., j n), Y s = (Y j1,..., Y jn ) = X n n Y ji X i=1 ji
Statystyka, estymator Parametry estymatora Definicja (estymator nieobciążony) Niech Y oznacza parametr populacji oraz S zmienną losową, która przyjmuje wartość s S z prawdopodobieństwem p(s), gdzie p jest planem losowania. Estymator t nazywamy nieobciążonym dla funkcji parametrycznej T, jeżeli E p(t(y S )) = t(y s)p(s) = T (Y) s S Wartość oczekiwaną E p(t(y S )) będziemy dla uproszczenia oznaczać przez E p(t) lub przez E(t). Jeżeli estymator jest obciążony, to różnica E p(t(y S )) T (Y) nazywa się obciążeniem estymatora. Różnicę tę będziemy oznaczać przez B(t).
Statystyka, estymator Parametry estymatora Definicja (wariancja estymatora) Niech Y oznacza parametr populacji oraz S zmienną losową, która przyjmuje wartość s S z prawdopodobieństwem p(s), gdzie p jest planem losowania. Wariancją estymatora t nazywamy wyrażenie Dp 2 (t(y S)) = [t(y s) E p(t(y S ))] 2 p(s) s S = t(y s) 2 p(s) [E p(t(y S ))] 2 s S Wariancję D 2 p(t(y S )) będziemy oznaczać przez D 2 p(t) lub D 2 (t).
Statystyka, estymator Parametry estymatora Definicja (błąd średniokwadratowy) Przy oznaczeniach, jak w powyższych definicjach, średnim błędem średniokwadratowym estymatora t jest wyrażenie MSE p(t) = (t(y s) T (Y)) 2 p(s) s S = D 2 p(t(y S )) + [B(t)] 2
Statystyka, estymator Wartość oczekiwana estymatora Horvitza-Thompsona Twierdzenie Estymator Horvitza Thompsona jest nieobciążony Pomiń dowód
Statystyka, estymator Wartość oczekiwana estymatora Horvitza-Thompsona Twierdzenie Estymator Horvitza Thompsona jest nieobciążony Dowód E p(ȳ HT ) = = 1 p(s ) N π j s S N j=1 s j N 1 Y j = N π j j=1 j s Y j 1 Y j p(s ) N π j p(s ) = Ȳ s j
Statystyka, estymator Twierdzenie Wariancja estymatora Horvitza-Thompsona wynosi Dp(ȳ 2 HT ) = 1 N ( ) 1 ( ) N 2 Yj 2 πjk 1 + 1 Y j Y k π j=1 j π 1 j,k N; j k j π k Pomiń dowód
Statystyka, estymator Twierdzenie Wariancja estymatora Horvitza-Thompsona wynosi Dp(ȳ 2 HT ) = 1 N ( ) 1 ( ) N 2 Yj 2 πjk 1 + 1 Y j Y k π j=1 j π 1 j,k N; j k j π k Dowód 2 Dp(ȳ 2 HT ) = E p[(y HT ) 2 ] [E p(y HT )] 2 = E p 1 Y j [Ȳ N π ]2 = j S j = 1 N 2 E ( ) 2 Yj + Y j Y k π j S j π j π [Ȳ ]2 = k j,k S j k
Statystyka, estymator Twierdzenie Wariancja estymatora Horvitza-Thompsona wynosi Dp(ȳ 2 HT ) = 1 N ( ) 1 ( ) N 2 Yj 2 πjk 1 + 1 Y j Y k π j=1 j π 1 j,k N; j k j π k Dowód N = 1 N 2 j=1 Y 2 j π 2 j p(s ) + s j 1 j,k N j k Y j Y k π j π k s j,k p(s ) [Ȳ ]2 =
Statystyka, estymator Twierdzenie Wariancja estymatora Horvitza-Thompsona wynosi Dp(ȳ 2 HT ) = 1 N ( ) 1 ( ) N 2 Yj 2 πjk 1 + 1 Y j Y k π j=1 j π 1 j,k N; j k j π k Dowód N = 1 N 2 = 1 N 2 j=1 N j=1 Yj 2 + π j 1 j,k N j k ( ) 1 Yj 2 1 + π j π jk Y j Y k π j π [Ȳ ]2 = k ( ) πjk 1 Y j Y k π 1 j,k N; j k j π k
Statystyka, estymator Twierdzenie Dla ν(s) ν wariancja estymatora Horwitza Thompsona wynosi D 2 (ȳ HT ) = 1 2N 2 1 j,k N j k ( Yj (π j π k π jk ) Y ) 2 k π j π k Pomiń dowód
Statystyka, estymator Twierdzenie Dla ν(s) ν wariancja estymatora Horwitza Thompsona wynosi D 2 (ȳ HT ) = 1 2N 2 1 j,k N j k ( Yj (π j π k π jk ) Y ) 2 k π j π k Dowód N ν(s) = I s(j) j=1 N N N E pν(s) = E p(i S (j)) = p(s) = π j j=1 j=1 s j j=1
Statystyka, estymator Twierdzenie Dla ν(s) ν wariancja estymatora Horwitza Thompsona wynosi D 2 (ȳ HT ) = 1 2N 2 1 j,k N j k ( Yj (π j π k π jk ) Y ) 2 k π j π k Dowód 1 j,k N j k π jk = 1 j,k N j k E p (I S (j)i S (k)) = E p 1 j,k N j k I S (j)i S (k) = 2 N N N = E p I S (j) IS 2 (j) = E p ν 2 (S) I S (j) = j=1 j=1 j=1
Statystyka, estymator Twierdzenie Dla ν(s) ν wariancja estymatora Horwitza Thompsona wynosi D 2 (ȳ HT ) = 1 2N 2 1 j,k N j k ( Yj (π j π k π jk ) Y ) 2 k π j π k Dowód = E p ( ν 2 (S) ν(s) ) = E p(ν 2 (S)) E p(ν(s)) = = D 2 p(ν(s)) + [E p(ν(s))] 2 E p(ν(s))
Statystyka, estymator Twierdzenie Dla ν(s) ν wariancja estymatora Horwitza Thompsona wynosi D 2 (ȳ HT ) = 1 2N 2 1 j,k N j k ( Yj (π j π k π jk ) Y ) 2 k π j π k Dowód Dla ν(s) ν mamy zatem tożsamości: N ν = π j, j=1 1 j,k N j k π jk = ν 2 ν N N N π jk = E p(i S (j)i S (k)) = E p(i S (k) I S (j)) = j=1 j k j=1 j k j=1 j k = E p(i S (k)[ν(s) I S (k)]) = (ν 1)π k
Statystyka, estymator Twierdzenie Dla ν(s) ν wariancja estymatora Horwitza Thompsona wynosi D 2 (ȳ HT ) = 1 2N 2 1 j,k N j k ( Yj (π j π k π jk ) Y ) 2 k π j π k Dowód 1 N 2 1 j,k N j k = 1 N 2 = 2 N 2 ( Yj (π j π k π jk ) Y ) 2 k = π j π k 1 j,k N j k 1 j,k N j k ( ( Yj 2 π k π j Yj 2 π k π j Y 2 Y k j 2 + π j π jk π k πj 2 Yk 2 Y j Y k π jk πk 2 Y j Y k + π jk π j π k Yk 2 Y j Y k π jk πk 2 2Y j Y k + 2π jk π j π k ) = )
Statystyka, estymator Twierdzenie Dla ν(s) ν wariancja estymatora Horwitza Thompsona wynosi D 2 (ȳ HT ) = 1 2N 2 1 j,k N j k ( Yj (π j π k π jk ) Y ) 2 k π j π k Dowód Ponieważ 1 j,k N j k Yj 2 π k = π j = ν N j=1 N j=1 Y 2 j π j Y 2 j π j N N π k = k=1 k j N j=1 Y 2 j j=1 Y 2 j π j (ν π j ) =
Statystyka, estymator Twierdzenie Dla ν(s) ν wariancja estymatora Horwitza Thompsona wynosi D 2 (ȳ HT ) = 1 2N 2 1 j,k N j k ( Yj (π j π k π jk ) Y ) 2 k π j π k Dowód oraz 1 j,k N j k 1 j,k N j k Yj 2 π jk πj 2 = N j=1 Y 2 j π 2 j = (ν 1) Y j Y k = Y 2 N N π jk = k=1 k j N j=1 N j=1 Y 2 j Y 2 j π j j=1 Yj 2 πj 2 π j (ν 1) =
Statystyka, estymator Twierdzenie Dla ν(s) ν wariancja estymatora Horwitza Thompsona wynosi D 2 (ȳ HT ) = 1 2N 2 1 j,k N j k ( Yj (π j π k π jk ) Y ) 2 k π j π k Dowód mamy = 2 N 2 = 2 N 2 N ν j=1 N j=1 N = 2 N 2 j=1 Y 2 j π j N j=1 Yj 2 + π j 1 j,k N j k Yj 2 + π j 1 j,k N j k N Yj 2 (ν 1) Yj 2 Y 2 + π j=1 j π jk Y j Y k Y 2 π j π k N j=1 Yj 2 + π jk Y j Y k π j π 2[Ȳ ]2 = 2D 2 (y HT ) k 1 j,k N j k Y j Y k π jk π j π k
Statystyka, estymator Twierdzenie Jeżeli π j > 0 dla j = 1,..., N oraz π ij > 0 dla i, j = 1,..., N, j k, to statystyka Dˆ 2 (ȳ HT ) = 1 N 2 j S Y 2 j π j jest nieobciążonym estymatorem wariancji D 2 (ȳ HT ). Dla ν(s ) ν ma on postać ( ) 1 1 + ( ) πjk Yj Y k 1 π j π 1 j,k S j π k π j,k j k Dˆ 2 (ȳ HT ) = 1 2N 2 j,k S j k π j π k π jk π jk ( Yj Y ) 2 k π j π k
Statystyka, estymator Wniosek Dla n elementowej próby wylosowanej według planu lpbz (losowanie proste bez zwracania) ( Dˆ 2 (ȳ HT ) = 1 n ) s 2 N n, gdzie s 2 = 1 (Y i n 1 ȲS )2, i S Ȳ S = 1 n i S Y i Uwaga. Jeżeli zmienna S zrealizuje się jako s = {j 1,..., j n}, to dla uproszczenia będziemy oznaczać (Y j1,..., Y jn ) przez (y 1,..., y n). Wtedy możemy zapisać s 2 = 1 n 1 n (y i ȳ) 2, ȳ = 1 n y i n i=1 i=1
Statystyka, estymator Wartość oczekiwana estymatora Hansena Hurwitza (plan lppxzz, n(s) n) Ze względu na sposób losowania estymator ten można zapisać w postaci n ȳ HH = 1 N i=1 Y Ji np Ji gdzie J 1, J 2,..., J n są niezależnymi zmiennymi losowymi o tym samym rozkładzie Wtedy E p(ȳ HH ) = 1 Nn n i=1 p : 1 2 N p 1 p 2 p N E p ( YJi p Ji ) = 1 Nn n N i=1 j=1 Y j p j p j = Ȳ
Statystyka, estymator Wariancja estymatora Hansena Hurwitza (plan lppxzz, n(s) n) D 2 (ȳ HH ) = E p(y HH ) 2 (E p(y HH )) 2 = E p ( n = 1 n (Nn) 2 Ep i=1 = 1 n (Nn) 2 i=1 ( = 1 (Nn) 2 n N k=1 N k=1 YJ 2 i p 2 + J i p k Y 2 k p 2 k = 1 N ( ) 2 Yk p k n Np Ȳ k=1 k 1 j,k n j k + 1 j,k n j k Y Ji p i=1 Ji ) 2 (Ȳ )2 = Y Ji Y Jk p Ji p (ȳ)2 = Jk E Y 2 k p k + n(n 1)N 2 (Ȳ )2 ( YJi p Ji ) ) E ( YJk (Ȳ )2 = p Jk ) (ȳ)2 =
Statystyka, estymator Zauważmy, że dla p k = Y k Y = Y k k Y k zachodzi D2 (ȳ HH ) = 0. Jeżeli dla k = 1, 2,..., N mamy p k = 1/N, to oraz ȳ HH = ȳ = 1 n y i n i=1 D 2 (ȳ HH ) = D 2 (ȳ) = 1 n 1 N N (Y k Ȳ )2 k=1 Uogólniony estymator różnicy dla średniej ȳ GD = 1 Y i E i + N π Ē i S i gdzie E 1,..., E N są dowolnymi stałymi. W szczególności dla E i = cx i, i = 1,..., N, gdzie X i są wartościami cechy dodatkowej X oraz c jest stałą, estymator ten przyjmuje postać: ȳ GD = 1 N i S Y i p i + c X 1 N X i π i S i = ȳ HT + c( X x HT )
Statystyka, estymator Zatem E(ȳ GD ) = Ȳ oraz D 2 (ȳ GD ) = D 2 (ȳ HT ) + c 2 D 2 ( x HT ) 2cCov( x HT, ȳ HT ), która jest minimalizowana dla c = Cov( x HT,ȳ HT ) D 2. ( x HT ) Zatem najmniejsza wariancja wynosi: D(ȳ GD ) = D 2 (ȳ HT )[1 ϱ 2 ( x HT, ȳ HT )] Estymator Khamisa ȳ K (losowanie zgodnie ze schematem lpzz) Niech s = r(s), gdzie r jest funkcją redukcyjną ȳ K = 1 ν(s Y j ) j S Estymator Khamisa jest nieobciążony: E(ȳ K ) = E(E(ȳ K ν(s ))) = E(Ȳ ) = Ȳ
Statystyka, estymator Wariancja D 2 (ȳ K ) = D 2 1 ν(s Y j = ) j S = D 2 E 1 ν(s Y j ) j S ν(s ) + E D 2 1 ν(s ) [( 1 = D 2 (Ȳ ) + E ν(s ) 1 ) Nσ 2 ] N N 1 gdzie σ 2 = 1 N (Y i N Ȳ )2 i=1 ( [ ] 1 D 2 (ȳ K ) = E ν(s 1 ) Nσ 2 ( 1 ) N N 1 > n 1 ) S 2 = D 2 (ȳ HT ) N gdzie D 2 (ȳ HT ) wyznaczone w przypadku: lpbz, ν n j S Y j ν(s ) =
Statystyka, estymator W przypadku lpzz i rozmiaru próby n mamy D 2 (ȳ HH ) = σ 2 /n Zauważmy: [ ] ( [ ] 1 E ν(s 1 ) N ) N N 1 < 1 NE n n ν(s n ) < 1 N 1 Zatem D 2 (ȳ HH ) > D 2 (ȳ K ) > D 2 (ȳ HT )
Strategia losowania Definicja (strategia losowania) Strategią losowania nazywamy parę (p, t), gdzie p jest planem losowania, natomiast t jest estymatorem funkcji parametrycznej T. Strategię losowania będziemy oznaczać przez H(p, t). Jeśli estymator t jest nieobciążony, powiemy o strategii, że jest nieobciążona. Definicja (porównanie strategii) Powiemy, że startegia H 1 (p 1, t 1 ) jest co najmniej tak dobra jak strategia H 2 (p 2, t 2 ), jeżeli MSE p1 (t 1 ) MSE p2 (t 2 ) dla wszystkich Y Ω. Jeżeli dodatkowo MSE p1 (t 1 ) < MSE p2 (t 2 ) dla pewnego Y Ω, to mówimy, że strategia H 1 (p 1, t 1 ) jest lpesza od strategii H 2 (p 2, t 2 ) Przypomnienie: MSE p(t) = (t(y s) T (Y)) 2 p(s) s S
Strategia losowania Przykład Rozmiar próby: n MSE lpzz (ȳ HH ) > MSE lpzz (ȳ K ) > MSE lpbz (ȳ HT )
Wybrane zagadnienia Przedział ufności dla średniej, minimalna liczebność próby Problem Jak ustalić liczebność próby n, aby błąd szacunku nie przekroczył zadanej wielkości d ze z góry ustalonym prawdopodobieństwem 1 α? P ( t n T < d) = 1 α Definicja (minimalna liczebność próby) Wielkość d nazywana jest maksymalnym dopuszczalnym błędem szacunku, natomiast δ = d/t maksymalnym dopuszaczalnym względnym błędem szacunku Przykład W przypadku szacowania Ȳ na podstawie próby wylosowanej według schematu lpbz mamy P ( ȳ Ȳ < d) = P (ȳ d < Ȳ < ȳ + d) = 1 α P (ȳ u 1 α/2 D(ȳ) < Ȳ < ȳ + u 1 α/2d(ȳ)) 1 α gdzie u 1 α/2 jest kwantylem rozkładu normalnego rzędu (1 α/2) oraz ( 1 D 2 (ȳ) = n 1 ) S 2 N
Wybrane zagadnienia Przedział ufności dla średniej, minimalna liczebność próby Zatem d = u 1 α/2 D(ȳ) δ = u 1 α/2 D(ȳ) Ȳ oraz minimalna liczebność próby n = [n ] + 1 n = Nu2 1 α/2 S2 Nd 2 + u 2 = Nu2 1 α/2 V 2 1 α/2 S2 Nδ 2 + u 2 1 α/2 V 2 gdzie V = S/Ȳ współczynnik zmienności Przy wyznaczaniu minimalnej próby parametry, których nie znamy zastępujemy ich oszacowaniami
Wybrane zagadnienia Estymatory złożone Definicja ( estymator produktowy (iloczynowy)) Statystykę ȳ p = xȳ X, X > 0 nazywamy estymatorem produktowym (iloczynowym) średniej Ȳ Twierdzenie Jeżeli n elementowa próba wylosowana została według schematu lpbz z N elementowej populacji, to gdzie E(ȳ p) = Ȳ + (1 n/n) S2 xy n X + O(n 2 ) ( MSE(ȳ p) = 1 n ) S 2 y + 2RS xy + R 2 Sx 2 + O(n 2 ) N n S xy = 1 N 1 N (X j X)(Y j Ȳ ) j=1 R = Ȳ X
Wybrane zagadnienia Estymatory złożone Definicja (estymator ilorazowy) Statystykę gdzie ȳ q = ȳ X = r X x r = ȳ x nazywamy estymatorem ilorazowym średniej Ȳ. Twierdzenie Jeżeli n elementowa próba wylosowana została według schematu lpbz z N elementowej populacji, to E(ȳ q) = Ȳ + (1 n/n) RS2 x Sxy n X + O(n 2 ) ( MSE(ȳ q) = 1 n ) S 2 y 2RS xy + R 2 Sx 2 + O(n 2 ) N n
Wybrane zagadnienia Estymatory złożone Definicja (estymator liniowy) Statystykę gdzie b = s2 xy s 2 x ȳ lr = ȳ + b( X x) nazwywamy estymatorem liniowym regresyjnym = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 Twierdzenie Jeżeli n elementowa próba wylosowana została według schematu lpbz z N elementowej populacji, to E(ȳ lr ) = Ȳ + ( 1 n N ) C + O(n 2 ) gdzie B N (Y j Ȳ )3 N (X j X) 2 (Y j Ȳ ) j=1 j=1 C = (n 1)(N 1)Sx 2
Wybrane zagadnienia Estymatory złożone oraz gdzie N (X j X)(Y j Ȳ ) j=1 B = N (X j X) 2 j=1 ( MSE(ȳ lr ) = 1 n ) S 2 y (1 ρ 2 xy ) + O(n 2 ) N n ρ xy = Sxy S xs y = B Sx S y
Wybrane zagadnienia Losowanie warstwowe Zagadnienie (estymacja wartości średniej w losowaniu warstwowym) Badamy cechę mierzalną Y. Populacja generalna o liczności N podzielona jest na L warstw o licznościach N h, h = 1, 2,..., L, przy czym L N h = N. h=1 Frakcja elementów w warstwie h wynosi W h = N h /N. Z każdej warstwy oddzielnie losujemy n h elementów do próby. Dla próby n elementowej spełnione jest n h = N h N n = W hn, h = 1, 2,..., L.
Wybrane zagadnienia Losowanie warstwowe Z próby otrzymujemy wyniki y ih, i = 1, 2,..., n h, h = 1, 2,..., L. Na podstawie próby szacujemy średnią wartość Ȳ populacji w następujący sposób: gdzie Wariancja tego estymatora wynosi: ȳ w = 1 L L N h ȳ h = W h ȳ h, N h=1 h=1 ȳ h = 1 n h n h y ih i=1 ( 1 D 2 (ȳ w) = n 1 ) L W h Sh 2 N, h=1 gdzie Sh 2 jest wariancją w h tej warstwie (jeżeli jej nie znamy, to z dużej próby można ją oszacować za pomocą s 2 h ).
Wybrane zagadnienia Losowanie warstwowe Jeżeli badana cecha w populacji ma rozkład zbliżony do normalnego lub gdy przy innym rozkładzie próba jest duża, to przybliżony przedział ufności dla średniej ma postać (ȳw u 1 α/2 D(ȳ w), ȳ w + u 1 α/2 D(ȳ w) ) Minimalna liczebność próby potrzebna do oszacowania średniej z maksymalnym dopuszczalnym błędem szacunku d wynosi n = L W h Sh 2 h=1 d 2 u 2 + 1 L W h Sh 2 N 1 α/2 h=1
Wybrane zagadnienia Losowanie warstwowe Zagadnienie ( optymalna estymacja wartości średniej w losowaniu warstwowym) Założenia są identyczne, jak w poprzednim zagadnieniu, z tą różnicą, że liczba wylosowanych elementów z h-tej warstwy wynosi n h = W hs h n, L W h S h h=1 h = 1, 2,..., L wariancja estymatora wynosi ( D 2 (ȳ w) = 1 L ) 2 W h S h 1 n N L W h Sh 2 h=1 h=1
Wybrane zagadnienia Losowanie warstwowe minimalna liczebność próby wynosi n = ( L W h S h ) 2 h=1 d 2 u 2 + 1 L W h Sh 2 N 1 α/2 h=1 Losowanie w zagadnieniu pierwszym nazywamy proporcjonalnym (do wielkości warstwy), a w zagadnieniu drugim optymalnym (zapewnia najmniejszą wariancję estymatora)