1 STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE 1.1 Podejścia w statystyce małych obszarów Randomizacyjne Wektor wartości badanej cechy traktowany jest jako nielosowy. Szacowana charakterystyka jest nielosowa np. θ = 1 N Ni=1 y i. Źródłem losowości jest plan losowania próby. Modelowe Wektor wartości badanej cechy traktowany jest jako wektor realizacji zmiennych losowych. Szacowana charakterystyka jest losowa np. θ = 1 N Ni=1 Y i. Źródłem losowości jest przyjęty rozkład ξ, model nadpopulacji. Mieszane 1.2 Próba i populacja Populacja skończona N-elementowa zbiór N obiektów Ω = {ω 1, ω 2,..., ω N, },N <. Elementy populacji są identyfikowalne, gdy mogą być jednoznacznie ponumerowane od 1 do N i każdy element odpowiadający danemu numerowi jest obserwowalny (Cassel i in. 1977, s. 4). Próba (próba nieuporządkowana) s n-elementowa (1) dowolny podzbiór zbioru Ω o liczebności n (por. Bracha 1996, s. 18-19) (n liczebność próby). Próba s (2) wektor kolumnowy, taki że: s = (s,..., s k,..., s N ), gdzie s k przyjmuje wartość 1, gdy k-ty element znajduje się w próbie a zero w przeciwnym przypadku, dla prób losowanych bez zwracania. W przypadku prób losowanych ze zwracaniem s k może przyjmować wartości większe niż 1, gdy element został wybrany do próby kilkukrotnie (Tille 2006, s. 8). Próba uporządkowana uporządkowany ciąg elementów s = (k 1, k 2,.., k i,..., k n ), gdzie 1 k i N oraz 1 i n (indeksy k i nie muszą być rożne) (por. Bracha 1996, s. 17). Domena Ω d podzbiór populacji Ω (dziedzina badań). Efektywna liczebność próby liczba niepowtarzających się elementów próby. Przestrzeń prób zbiór wszystkich prób S typu s. Wybór próby: losowy, celowy (na podstawie znanych z góry, racjonalnych przesłanek). Operat losowania spis elementów populacji lub przynajmniej spis rozłącznych podzbiorów populacji (zespołów). Powinien on być: kompletny, aktualny i identyfikowalny (por. Bracha 1996, s. 26-27). Cecha inaczej zmienna, funkcja określona na zbiorze Ω, Y : Ω R (Bracha 1996, s. 14). Parametr cechy populacji θ funkcja parametru populacji taka, że: y R N Θ, θ = θ(y) (por. Wywiał 2010, s. 35).
2 1.3 Plan, schemat i strategia losowania Plan losowania próby s (1) rozkład prawdopodobieństwa P(s) określony na przestrzeni prób S gdzie dla każdej próby s S spełnione są warunki (Cassel i in. 1977, s. 9): P (s) 0 s S P (s) = 1 Plan losowania próby s (2) rozkład prawdopodobieństwa p(s) określony na na przestrzeni prób S, taki że p(.) jest funkcją przyporządkowującą każdemu elementowi s ze zbioru S liczbę z przedziału [0, 1] (Tille 2006, s. 14). Schemat losowania próby s mechanizm losowania jednostek do próby umożliwiający realizację planu losowania (Cassel i in. 1977, s. 15). Strategia losowania dla parametru θ uporządkowana para (ˆθ,P (s)), gdzie ˆθ jest estymatorem parametru θ. Twierdzenie Rao (1962): Dla każdego planu losowania istnieje co najmniej jeden schemat losowania próby realizujący ten plan. Prawdopodobieństwo inkluzji r-tego rzędu π k1,...,k r próby s elementów populacji k 1,..., k r : π k1,...,k r = s A(k 1,...,k r) P (s), gdzie A(k 1,..., k r ) = {s : k i s, dla i = 1,.., r} (Żądło 2015, s. 28) prawdopodobieństwo wyboru do Prawdopodobieństwo inkluzji pierwszego rzędu π k (1) prawdopodobieństwo wyboru do próby s k-tego elementu (Sarndal i in. 1992, s. 30-31). Prawdopodobieństwo inkluzji pierwszego rzędu (2) π k = P r (S k > 0) (Tille 2006, s. 17). Prawdopodobieństwo inkluzji drugiego rzędu π kl (1) prawdopodobieństwo wyboru do próby k-tego i l-tego elemntu (k l) (Sarndal i in. 1992, s. 31). Prawdopodobieństwo inkluzji drugiego rzędu (2) π kl = P r(s k > 0 i S l > 0) (Tille 2006, s. 17) Prawdopodobieństwa π k i π kl spełniają następujące warunki (Bracha 1996, s. 20): 0 π k 1, max{0, π k + π l 1} π kl min{π k, π l } 1.4 Wybrane plany losowania Plan zwrotnego losowania próby prostej (lpzz) P Z (s) = N n, k = 1,.., N Schemat losowania: p(k) = 1 N Prawdopodobieństwa inkluzji: π k = 1 ( N 1 N Funkcja w pakiecie R: srswr(n,n){sampling} n liczebność próby N liczebność populacji Plan bezzwrotnego losowania próby prostej (lpbz) ( ) 1 N P B Z(s) = n ) n ; πkl = 1 2 ( N 2 N Schemat losowania: p(k) = 1 N, k = 1,.., N, p(k i k i 1,..., k 1 ) = 1 N i+1 ) n ( ) n + N 1 N, i = 2, 3,.., n
3 Prawdopodobieństwa inkluzji: π k = n N ; π kl = n(n 1) N(N 1) Funkcja w pakiecie R: srswor(n,n){sampling} n liczebność próby N liczebność populacji Plan losowania Poissona P P (s) = N k=1 π s k k (1 π k) 1 s k Prawdopodobieństwa inkluzji: π k ; π kl = π k π l Funkcja w pakiecie R: UPpoisson(pik){sampling} pik wektor prawdopodobieństw inkluzji pierwszego rzędu Plan losowania warstwowego (gdy lpbz z warstw) n h liczebność próby w h-tej warstwie N h liczebność h-tej warstwy w populacji P w (s) = H h=1 ( Nh n h Prawdopodobieństwa inkluzji: π k = n h N h, k Ω h ; π kl = n h N h n t N t, k Ω h, l Ω t, h t; π kl = n h(n h 1) N h (N h 1), k, l Ω h Funkcja w pakiecie R: strata(data,stratanames,size,method,pik) {sampling} data obiekt zawierający dane (o N wierszach), stratanames wektor zawierający zmienną warstwującą, size wektor liczebności próby w warstwach, method metoda doboru do próby jednostek z warstw ( srswor, srswr, poisson, systematic ), pik wektor prawdopodobieństw pierwszego rzędu (funkcja pozwala na wylosowanie dowolnej próby warstwowej, nie tylko lpbz z warstw - zobacz argument method ). Plan losowania dwustopniowego P w (s) = n p liczebność próby w p-tej grupie N p liczebność p-tej grupy w populacji ( G g ) 1 ) G ( Np p=1 n p 1. stopień losowania losowane g spośród G grup (lpbz). 2. stopień losowania z każdej z g wylosowanych grup losowana próba s p o liczebności n p. Plan losowania grupowego 1 P w (s) = ( G g Losujemy g-elementową bezzwrotną próbę spośród wszystkich G grup. W każdej spośród g grup badane są wszystkie elementy populacji (szczególny przypadek losowania dwustopniowego). Plan losowania Midzuno-Lahiri Funkcja w pakiecie R: UPmidzuno(pik){sampling} ) ) 1
4 pik wektor prawdopodobieństw inkluzji pierwszego rzędu Plan losowania Sampforda Funkcja w pakiecie R: UPsampford(pik){sampling} pik wektor prawdopodobieństw inkluzji pierwszego rzędu Plan losowania systematycznego Funkcja w pakiecie R: UPsystematic(pik){sampling} pik wektor prawdopodobieństw inkluzji pierwszego rzędu Plan losowania Tille Funkcja w pakiecie R: UPtille(pik){sampling} pik wektor prawdopodobieństw inkluzji pierwszego rzędu 1.5 Estymator, dokładność i precyzja estymacji Statystyka Z = z(m) funkcja określona na przestrzeni zmienej losowej M (M = (i, y i ) : i S), taka że dla każdego s S funkcja z(m) (m = (i, y i ) : i s) zależy od y poprzez y i, gdzie i s (por. Cassel i in. 1977, s. 20; Bracha 1996, s. 35). Estymator parametru θ Θ statystyka ˆθ, której wartości należą do zbioru Θ (Ocena parametru θ wartość estymatora ˆθ). (por. Wywiał 2010, s. 35). Estymator bezpośredni estymator wykorzystujący informacje o zmiennej y tylko z analizowanej domeny. Estymator pośredni estymator wykorzystujący informacje o zmiennej badanej spoza analizowanej domeny. p-obciążenie estymatora (Cassel 1977, s. 26): B p (ˆθ) = E p (ˆθ) θ Jeżeli: B p (ˆθ) = 0 estymator jest p-nieobciążony, B p (ˆθ) > 0 estymator przeciętnie przeszacowuje wartość parametru, B p (ˆθ) < 0 estymator przeciętnie niedoszacowuje wartość parametru. (Interpretacja p-obciążenia: Estymator przeciętnie przeszacowuje/niedoszacowuje wartość parametru o....) ˆB p (ˆθ) (Interpretacja estymatora p-obciążenia: Szacuje się, że estymator przeciętnie przeszacowuje/niedoszacowuje wartość parametru o....) Względne p-obciążenie estymatora: RB p (ˆθ) = Bp(ˆθ) θ (Interpretacja modułu względnego p-obciążenia: Obciążenie estymatora co do modułu stanowi... % modułu wartości parametru) RB p (ˆθ) (Interpretacja modułu estymatora względnego p-obciążenia: Ocena obciążenia estymatora co do modułu stanowi... % modułu wartości estymatora) p-wariancja estymatora (Cassel 1977, s. 26): D 2 p(ˆθ) = E p (ˆθ E p (ˆθ)) 2 p-średni błąd szacunku (Cassel 1977, s. 26):
D p (ˆθ) = Dp(ˆθ) 2 (Interpretacja p-średniego błędu szacunku: Wartości estymatora odchylają się od jego wartości oczekiwanej przeciętnie o....) miernik precyzji ˆD p (ˆθ) = ˆD2 p (ˆθ) (Interpretacja estymatora p-średniego błędu szacunku: Szacuje się, że wartości estymatora odchylają się od jego wartości oczekiwanej o przeciętnie....) Względny p-średni błąd szacunku (Żądło 2008, s. 24): γ p (ˆθ) = Dp(ˆθ) θ 100% (Interpretacja względnego p-średniego błędu szacunku (Cassel 1977, s. 26): Średni błąd szacunku stanowi... % modułu wartości parametru.) ˆγ p (ˆθ) = ˆD p(ˆθ) 100% ˆθ (Interpretacja estymatora względnego p-średniego błędu szacunku: Ocena średniego błędu szacunku stanowi... % modułu wartości estymatora.) p-błąd średniokwadratowy: MSE p (ˆθ) = E p (ˆθ θ) 2 = Dp(ˆθ) 2 + Bp(ˆθ) 2 Pierwiastek z p-błędu średniokwadratowego (Cassel 1977, s. 26): RMSE p (ˆθ) = MSE p (ˆθ) (Interpretacja p-rmse: Wartości estymatora odchylają się od wartości parametru przeciętnie o....) miernik dokładności RMSE p (ˆθ) = MSE p (ˆθ) (Interpretacja estymatora p-rmse: Szacuje się, że wartości estymatora odchylają się od wartości parametru przeciętnie o....) miernik dokładności Względny pierwiastek z p-błędu średniokwadratowego: RRMSE p (ˆθ) = RMSEp(ˆθ) θ (Interpretacja p-rrmse: Pierwiastek z błędu średniokwadratowego stanowi...% modułu wartości parametru.) RRMSE p (ˆθ) = RMSE p(ˆθ) ˆθ (Interpretacja estymatora p-rrmse: Ocena pierwiastka z błędu średniokwadratowego stanowi...% modułu wartości estymatora.) 1.6 Model nadpopulacji Model nadpopulacji zbiór warunków definiujących łączny rozkład prawdopodobieństwa ξ wektora zmiennych losowych Y = [Y 1, Y 2,..., Y N ] T (por. Żądło 2008, s. 27). 1.7 Wybrane modele nadpopulacji Ogólny model liniowy (Royall 1976, s. 657-658) E(Y) = Xβ D 2 (Y) = V X macierz zmiennych dodatkowych β wektor p nieznanych parametrów V macierz wariancji-kowariancji, w praktyce zależna od wektora parametrów δ Szczególne przypadki (Cassel i in. 1977, s. 84-85): model regresyjny 5
6 E ξ (Y i ) = β 1 + p k=2 β kx ik D 2 ξ(y i ) = σ 2 v i Y 1,..Y N są niezależne β 1,..., β p, σ 2 są nieznane x i1,..., x ip, v i są znane dla każdego i (i = 1,.., N) prosty model regresyjny E ξ (Y i ) = βx i D 2 ξ(y i ) = σ 2 v(x i ) Y 1,..Y N są niezależne β 1,..., β p, σ 2 są nieznane v znana funkcja zmiennej dodatkowej x i1,..., x ip są znane dla każdego i (i = 1,.., N) Funkcja w pakiecie R: lm(formula, data){stats} # formula formuła na podstawie której szacowany jest model # data zbiór danych na podstawie którego szacowany jest model Ogólny liniowy model mieszany (Jiang 2007, s. 1-2) Y = Xβ + Zv + e E ξ (e) = 0 E ξ (v) = 0 D 2 ξ [ v e ] = [ G 0 0 R X macierz zmiennych dodatkowych β wektor p nieznanych parametrów v wektor efektów losowych X, Z znane macierze e wektor składników losowych ] Szczególne przypadki (Cassel i in. 1977, s. 84-85): model z zagnieżdżonym składnikiem losowym Y id = β 1 x id + β 0 + v d + e id model losowym parametrem kieunkowym Y id = (β 1 + v d )x id + β 0 + e id Funkcja w pakiecie R: lmer(formula, data = NULL, REML = TRUE){lme4} # formula formuła na podstawie której szacowany jest model # data zbiór danych na podstawie którego szacowany jest model # REML metoda szacowania modelu (domyślnie metoda REML, gdy wartość FALSE metoda ML) Funkcja w pakiecie R: lme(fixed, data, random, method){nlme} # fixed, random formuła dla efektów stałych i losowych na podstawie której szacowany jest model # data zbiór danych na podstawie którego szacowany jest model # method metoda szacowania modelu 1.8 Predyktor, dokładność i precyzja predykcji
Statystyka funkcja ˆθ(M ) (M = (i, Y i ) : i S), taka że dla dowolnej realizacji s zmiennej losowej S funkcja ˆθ zależy od Y 1, Y 2,..., Y N poprzez Y i, gdzie i s (por. Cassel i in. 1977, s. 91). Predyktor statystyka ˆθ(D ) użyta do oceny θ (por. Cassel i in. 1977, s. 91). Predyktor bezpośredni predyktor wykorzystujący informacje o zmiennej y tylko z analizowanej domeny. Predyktor pośredni predyktor wykorzystujący informacje o zmiennej badanej spoza analizowanej domeny. ξ-obciążenie predyktora (Cassel 1977, s. 92): B ξ (ˆθ) = E ξ (ˆθ θ) Jeżeli: B ξ (ˆθ) = 0 predyktor jest ξ-nieobciążony, B ξ (ˆθ) > 0 predyktor przeciętnie przeszacowuje realizacje funkcji zmiennych losowych θ, B ξ (ˆθ) < 0 predyktor przeciętnie niedoszacowuje realizacje funkcji zmiennych losowych θ. (Interpretacja ξ-obciążenia: Predyktor przeciętnie przeszacowuje/niedoszacowuje realizacje funkcji zmiennych losowych θ....) ˆB ξ (ˆθ) (Interpretacja estymatora ξ-obciążenia: Szacuje się, że predyktor przeciętnie przeszacowuje/niedoszacowuje realizacje funkcji zmiennych losowych θ o....) Względne ξobciążenie predyktora: RB ξ (ˆθ) = B ξ(ˆθ) E ξ (θ) (Interpretacja modułu względnego ξ-obciążenia: Obciążenie predyktora co do modułu stanowi... % modułu ξ-oczekiwanej wartości funkcji zmiennych losowych θ.) RB ξ (ˆθ) (Interpretacja modułu estymatora względnego ξ-obciążenia: Ocena obciążenia estymatora co do modułu stanowi... % modułu ξ-oczekiwanej wartości predyktora.) Błąd predykcji (Żądło 2008, s. 28): U = ˆθ θ Wariancja błędu predykcji (Żądło 2008, s. 28): D 2 ξ(u) = V ar ξ (U) = E ξ (U E ξ (U)) 2 Średni błąd predykcji (Żądło 2008, s. 28-29): D ξ (ˆθ θ) = V ar ξ (ˆθ θ) (Interpretacja średniego błędu predykcji: Wartości błędu predykcji odchylają się od jego wartości oczekiwanej przeciętnie o....) miernik precyzji ˆD ξ (ˆθ θ) (Interpretacja estymatora średniego błędu predykcji: Szacuje się, że wartości błędu predykcji odchylają się od jego wartości oczekiwanej przeciętnie o....) Względny średni błąd predykcji (Żądło 2008, s. 29): γ ξ (ˆθ) = D ξ(u) 100% E ξ (θ) (Interpretacja względnego średniego błędu predykcji (Żądło 2008, s. 29): Średni błąd predykcji stanowi... % modułu ξ-oczekiwanej wartości funkcji zmiennych losowych θ.) 7
8 ˆγ ξ (ˆθ) = ˆD ξ (U) 100% ˆθ (Interpretacja estymatora względnego średniego błędu predykcji: Ocena średniego błędu predykcji stanowi... % modułu wartości predyktora.) Błąd średniokwadratowy predykcji: MSE ξ (ˆθ) = E ξ (ˆθ θ) 2 = V ar ξ (ˆθ θ) + Bξ 2 (ˆθ) Pierwiastek z błędu średniokwadratowego predykcji (Żądło 2008, s. 29): RMSE ξ (ˆθ) = MSE ξ (ˆθ) (Interpretacja RMSE predykcji: Wartości predyktora odchylają się od realizacji funkcji zmiennych losowych θ przeciętnie o....) miernik dokładności RMSE ξ (ˆθ) = MSE ξ (ˆθ) (Interpretacja estymatora RMSE predykcji: Szacuje się, że wartości predyktora odchylają się od realizacji funkcji zmiennych losowych θ przeciętnie o....) Względny pierwiastek z ξ-błędu średniokwadratowego predykcji: RRMSE ξ (ˆθ) = RMSE ξ(ˆθ) E ξ (θ) (Interpretacja RRMSE predykcji: Pierwiastek z ξ-błędu średniokwadratowego stanowi... % modułu ξ-oczekiwanej wartości funkcji zmiennych losowych θ.) RRMSE ξ (ˆθ) = RMSE ξ (ˆθ) ˆθ (Interpretacja estymatora RRMSE predykcji: Ocena pierwiastka z ξ-błędu średniokwadratowego stanowi... % modułu wartości predyktora.) 1.9 Mały obszar Mały obszar domena, której liczebność w próbie jest mała, niewystarczająca do uzyskania oszacowań charakterystyk domen za pomocą metod bezpośrednich z odpowiednią dokładnością (Rao 2003, s. 3). Dodatek A.: Rysunek 1. Wybór próby za pomocą funkcji srswr.
9 Rysunek 2. Wybór próby za pomocą funkcji srswor. Rysunek 3. Wybór próby za pomocą funkcji UPpoisson.
10 Dodatek B.: Rysunek 4. Generowanie danych na podstawie modelu - model 1. Rysunek 5. Generowanie danych na podstawie modelu - model 2.
11 Dodatek C.: Rysunek 6. Wyniki symulacji - podejście randomizacyjne.
12 Rysunek 7. Wyniki symulacji - podejście modelowe.