1 STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR 3.1 Najlepszy predyktor i empiryczny najlepszy predyktor 3.1.1 Najlepszy predyktor i empiryczny najlepszy predyktor Ogólny mieszany model liniowy Y - N -elementowy wektor losowy; D 2 ξ Y = Xβ + Zv + e E 2 (v) = 0 E(e) = 0 v e = G 0 0 R (1) X, Z - znane macierze zmiennych dodatkowych (o wymiarze N p i N h); β - p-elementowy wektor nieznanych parametrów; v i e - wektory efektów i składników losowych (Rao, 2003, s. 96). Zakładamy, że elementy populacji sa uporządkowane tak, że n pierwszych należy do próby, zatem: Y = Ys gdzie Y s to wektor n-elementowy a Y r wektor o (N n) elementach. Y r Ponadto: X = Xs X r V(δ) = D 2 (Y) = D 2 Ys Y r Vss (δ) V = sr (δ) V rs (δ) V rr (δ) X s, X r, V s s, V r r, V r s, V s r mają odpowiednio następujące wymiary: n 1, (N n) 1, n p, (N n) (N n), n n, (N n) (N n), (N n) n, n (N n). Dla (1) macierz V dana jest wzorem: V(δ) = ZG(δ)Z T + R (3) Rozważając problem predykcji dowolnej funkcji zmiennych losowych Y (θ), spośród predyktorów ˆθ funkcji zmiennych losowych θ, najlepszy predyktor (ang. Best Predictor - BP) to taki, który minimalizuje (Molina, Rao, 2010): MSE(ˆθ) = E ξ (ˆθ θ) 2. (4) (2)
2 Stąd najlepszy predyktor jest dany wzorem: ˆθ BP = E(θ Y s ) (5) co oznacza, że może być on wyznaczony jako warunkowa wartość oczekiwana funkcji zmiennych losowych θ, zakładając, że jest znana postać warunkowego rozkładu Y r Y s. Rozkład ten w praktyce zależy od wektora nieznanych parametrów τ (w modelu (1) β i δ). Jeśli parametry te zostaną zastąpione ocenami wówczas otrzymujemy empiryczny najlepszy predyktor (ang. Empirical Best Predictor - EBP) oznaczany jako ˆθ EBP. Wartość empirycznego najlepszego predyktora dowolnej funkcji zmiennych losowych θ(y) można uzyskać wykorzystując aproksymację Monte Carlo. 3.1.2 Aproksymacja Monte Carlo EBP etapy 1) Oszacowanie wektora τ parametrów rozkładu zmiennych losowych Y z wykorzystaniem realizacji wektora Y s i otrzymanie estymatora ˆτ. 2) Wygenerowanie, przy założeniu, że znana jest postać rozkładu Y r Y s, L wektorów Y r (Y r (l), l = 1, 2,..., L), gdzie wektor τ jest zastępowany przez jego ocenę. T, gdzie l = 1, 2,..., L. 3) Utworzenie L wektorów takich, że Y (l) = Ys T Y r (l)t 4) Wyznaczenie wartości empirycznego najlepszego predyktora funkcji zmiennych losowych θ(y) jako ˆθ EBP = L 1 L l=1 θ(y (l) ). Należy dodać za Molina i Rao (2010), że realizacja wektora zmiennych losowych Y nie muszą być wartościami badanej zmiennej, ale wartościami badanej zmiennej po pewnej transformacji (Y = T(Y ), gdzie Y to wartości przed transformacją). Wówczas założenia dotyczące rozkładu ξ przyjmowane są dla zmiennej po transformacji (np. zlogarytmowaniu). 3.1.3 Ocena MSE empirycznego najlepszego predyktora z wykorzystaniem parametrycznej metody bootstrap Metoda ta bazuje na generowaniu realizacji zmiennych losowych zgodnie z następującym modelem bootstrapowym (Molina i Rao, 2010): Y = Xˆβ + Zv + e. (6) ˆβ i ˆδ estymatory uzyskane metodą REML (największej wiarygodności z ograniczeniami) w oparciu o dane z próby; v N(0, G(ˆδ)) i e N(0, R(ˆδ)). Ocena MSE dana jest następującym wzorem: MŜEboot ξ (ˆθ EBP ) = B 1 B b=1 ˆθ EBP (ˆβ (b), ˆδ (b) ) wartość EBP; θ (b) wartość szacowanej charakterystyki; B - liczba iteracji bootstrapwych. (ˆθEBP (ˆβ (b), ˆδ (b) ) θ (b) ). (7)
(UWAGA: Liczba iteracji potrzebna do wyznaczenia oceny MSE B L, gdzie L to liczba iteracji potrzebna do wyznaczenia EBP w każdej z B iteracji bootstrapowych) 3.1.3 EBP w programie R (dla modelu Battese a, Hartera and Fullera (1988)) ebp(fixed, pop data, pop domains, smp data, smp domains, L, threshold, transformation, interval, MSE, B, seed, boot type, parallel mode, cpus, custom indicator, na.rm){emdi} fixed formuła definiująca zmienną badaną i zmienne dodatkowe (zmiennabadana zmiennad1 + zmiennad2 + zmiennad3); pop data ramka danych dla populacji ; pop domains zmienna grupująca na podstawie której definiowane są domeny (dla populacji); smp data ramka danych dla próby; smp domains zmienna grupująca na podstawie której definiowane są domeny (dla próby); L liczba iteracji (domyślna wartość 50). W praktyce zalecane są wartości większe niż 200 (Molina, I. i Rao, J.N.K. (2010)). transformation rodzaj transformacji użyty dla zmiennej zależnej: bez transformacji (ńo ); logarytm (łog ); transformacja Box-Cox ( box.cox ) wartość domyślna; MSE argument określający czy mają być wyświetlane oceny MSE (domyslna wartość FALSE); B liczba iteracji bootstrapwych do oceny MSE (domyślna wartość 50). W praktyce zalecane są wartości większe niż 200. seed liczba całkowita, domyślna wartość 123. boot type metoda wykorzystana do estymacji MSE (domyślnie parametryczna metoda bootstrap) custom indicator lista dodatkowych parametrów, dla których EBP ma być wyznaczane (definiowane jako funkcja y, np. custom indicator =list(my max = function(y)max(y), my min = function(y)min(y))) (domyślnie wyznaczane 10 parametrów np. wybrane kwantyle, średnia, miernik ubóstwa, współczynnik Ginniego); na.rm argument określający czy obserwacje o wartości NA są usuwane z danych (wartość domyślna FALSE). Wyświetlenie wartości EBP i ocen MSE estimators(obiekt, indicator,mse=true), gdzie obiekt to obiekt, który zawiera funkcję ebp. Argument indicators zawiera listę parametrów dla których mają zostać wyświetlone wyniki, argument MSE określa czy mają zostać wyświetlone oceny MSE. ebbhf(formula, dom, selectdom, Xnonsample, MC,transform, constant, indicator) {sae} formula obiekt zawierający symboliczny opis modelu; dom wektor zawierający identyfikatory domen; selectdom opcjonalny wektor z identyfikatorami wybranych domen; Xnonsample - macierz lub ramka danych zawierająca w pierwszej kolumnie kody domen oraz w pozostałych kolumnach wartości każdej ze zmiennych pomocniczych dla jednostek nie wylosowanych do próby; MC liczba iteracji Monte Carlo dla empirycznej aproksymacji (domyślna wartość 100); 3
4 transform rodzaj transformacji dla zmiennej zależnej ( BoxCox i power ; wartość domyślna BoxCox ); constant stała, która zostanie dodana do zmiennej zależnej przed wykonaniem transformacji, aby osiągnąć rozkład zbliżony do Normalnego (domyślna wartość 0); indicator funkcja zmiennej badanej (przed transformacją), którą chcemy wyznaczyć w każdej domenie. pbmseebbhf(formula, dom, selectdom, Xnonsample, B, MC, transform, constant = 0, indicator){sae} B liczba iteracji bootstrapowych (domyślna wartość 100). Praca domowa Zadanie 1. Na podstawie danych dotyczących dochodów powiatów w Polsce w roku 2016 dokonaj predykcji wartości średniej i wartości globalnej w domenie z wykorzystaniem EBP. Oceń MSE za pomocą parametrycznej metody bootstrap. Wykorzystaj poznane funkcje. (Przyjmij: jako zmienną dodatkową zmienną ludn z pliku lodnosc.csv oraz set.seed(124) i n=31 dla losowania próby) Identyfikator przynależności do województwa: Nd<-c(26,19,20,12,21,19,37,11,21,14,16,17,13,19,31,18) id w<-1:16 woj<-rep(id w,nd) Dodatek A.: Rysunek 1. EBP w programie R funkcja emdi.
5 Rysunek 2. EBP w programie R funkcja ebbhf. Rysunek 3. EBP w programie R (ocena MSE) funkcja pbmseebbhf.