STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR

Podobne dokumenty
STATYSTYKA MAŁYCH OBSZARÓW II.ESTYMATOR HORVITZA-THOMPSONA, ESTYMATOR KALIBROWANY

STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE

Własności statystyczne regresji liniowej. Wykład 4

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Metoda najmniejszych kwadratów

Podejście modelowe w statystyce małych obszarów i jego zastosowania w badaniach ekonomicznych

Agata Boratyńska Statystyka aktuarialna... 1

Monte Carlo, bootstrap, jacknife

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Testowanie hipotez statystycznych.

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Metoda reprezentacyjna

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Metoda największej wiarogodności

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Estymacja punktowa i przedziałowa

Matematyka ubezpieczeń majątkowych r.

Algorytmy MCMC i ich zastosowania statystyczne

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Uogolnione modele liniowe

Ekonometria. Zajęcia

estymacja wskaźnika bardzo niskiej intensywności pracy z wykorzystaniem modelu faya-herriota i jego rozszerzeń

Metoda Monte Carlo. Jerzy Mycielski. grudzien Jerzy Mycielski () Metoda Monte Carlo grudzien / 10

Wnioskowanie statystyczne. Statystyka w 5

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

WYKŁAD 5 TEORIA ESTYMACJI II

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Weryfikacja hipotez statystycznych

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Kwantowa wariacyjna metoda Monte Carlo. Problem własny dla stanu podstawowego układu N cząstek

Metody bootstrapowe w statystyce

Stosowana Analiza Regresji

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Metody Statystyczne. Metody Statystyczne.

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Modele zapisane w przestrzeni stanów

Natalia Neherbecka. 11 czerwca 2010

STATYSTYKA

Rozdział 8. Regresja. Definiowanie modelu

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Mikroekonometria 2. Mikołaj Czajkowski Wiktor Budziński

W4 Eksperyment niezawodnościowy

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Środowisko R wprowadzenie c.d. Wykład R2; Struktury danych w R c.d.

Regresja nieparametryczna series estimator

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Estymacja parametrów rozkładu cechy

Spis treści 3 SPIS TREŚCI

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Przykład zastosowania optymalnej alokacji w estymacji frakcji

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

O ŚREDNIEJ STATYSTYCZNEJ

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

(LMP-Liniowy model prawdopodobieństwa)

Statystyka Małych Obszarów w badaniach próbkowych

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Rozpoznawanie obrazów

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Rozkłady statystyk z próby. Statystyka

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Kolokwium ze statystyki matematycznej

STATYSTYKA MATEMATYCZNA

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Testowanie hipotez statystycznych.

WYKŁAD 8 ANALIZA REGRESJI

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Estymacja parametro w 1

Analiza przeżycia. Wprowadzenie

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Metody systemowe i decyzyjne w informatyce

Transkrypt:

1 STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR 3.1 Najlepszy predyktor i empiryczny najlepszy predyktor 3.1.1 Najlepszy predyktor i empiryczny najlepszy predyktor Ogólny mieszany model liniowy Y - N -elementowy wektor losowy; D 2 ξ Y = Xβ + Zv + e E 2 (v) = 0 E(e) = 0 v e = G 0 0 R (1) X, Z - znane macierze zmiennych dodatkowych (o wymiarze N p i N h); β - p-elementowy wektor nieznanych parametrów; v i e - wektory efektów i składników losowych (Rao, 2003, s. 96). Zakładamy, że elementy populacji sa uporządkowane tak, że n pierwszych należy do próby, zatem: Y = Ys gdzie Y s to wektor n-elementowy a Y r wektor o (N n) elementach. Y r Ponadto: X = Xs X r V(δ) = D 2 (Y) = D 2 Ys Y r Vss (δ) V = sr (δ) V rs (δ) V rr (δ) X s, X r, V s s, V r r, V r s, V s r mają odpowiednio następujące wymiary: n 1, (N n) 1, n p, (N n) (N n), n n, (N n) (N n), (N n) n, n (N n). Dla (1) macierz V dana jest wzorem: V(δ) = ZG(δ)Z T + R (3) Rozważając problem predykcji dowolnej funkcji zmiennych losowych Y (θ), spośród predyktorów ˆθ funkcji zmiennych losowych θ, najlepszy predyktor (ang. Best Predictor - BP) to taki, który minimalizuje (Molina, Rao, 2010): MSE(ˆθ) = E ξ (ˆθ θ) 2. (4) (2)

2 Stąd najlepszy predyktor jest dany wzorem: ˆθ BP = E(θ Y s ) (5) co oznacza, że może być on wyznaczony jako warunkowa wartość oczekiwana funkcji zmiennych losowych θ, zakładając, że jest znana postać warunkowego rozkładu Y r Y s. Rozkład ten w praktyce zależy od wektora nieznanych parametrów τ (w modelu (1) β i δ). Jeśli parametry te zostaną zastąpione ocenami wówczas otrzymujemy empiryczny najlepszy predyktor (ang. Empirical Best Predictor - EBP) oznaczany jako ˆθ EBP. Wartość empirycznego najlepszego predyktora dowolnej funkcji zmiennych losowych θ(y) można uzyskać wykorzystując aproksymację Monte Carlo. 3.1.2 Aproksymacja Monte Carlo EBP etapy 1) Oszacowanie wektora τ parametrów rozkładu zmiennych losowych Y z wykorzystaniem realizacji wektora Y s i otrzymanie estymatora ˆτ. 2) Wygenerowanie, przy założeniu, że znana jest postać rozkładu Y r Y s, L wektorów Y r (Y r (l), l = 1, 2,..., L), gdzie wektor τ jest zastępowany przez jego ocenę. T, gdzie l = 1, 2,..., L. 3) Utworzenie L wektorów takich, że Y (l) = Ys T Y r (l)t 4) Wyznaczenie wartości empirycznego najlepszego predyktora funkcji zmiennych losowych θ(y) jako ˆθ EBP = L 1 L l=1 θ(y (l) ). Należy dodać za Molina i Rao (2010), że realizacja wektora zmiennych losowych Y nie muszą być wartościami badanej zmiennej, ale wartościami badanej zmiennej po pewnej transformacji (Y = T(Y ), gdzie Y to wartości przed transformacją). Wówczas założenia dotyczące rozkładu ξ przyjmowane są dla zmiennej po transformacji (np. zlogarytmowaniu). 3.1.3 Ocena MSE empirycznego najlepszego predyktora z wykorzystaniem parametrycznej metody bootstrap Metoda ta bazuje na generowaniu realizacji zmiennych losowych zgodnie z następującym modelem bootstrapowym (Molina i Rao, 2010): Y = Xˆβ + Zv + e. (6) ˆβ i ˆδ estymatory uzyskane metodą REML (największej wiarygodności z ograniczeniami) w oparciu o dane z próby; v N(0, G(ˆδ)) i e N(0, R(ˆδ)). Ocena MSE dana jest następującym wzorem: MŜEboot ξ (ˆθ EBP ) = B 1 B b=1 ˆθ EBP (ˆβ (b), ˆδ (b) ) wartość EBP; θ (b) wartość szacowanej charakterystyki; B - liczba iteracji bootstrapwych. (ˆθEBP (ˆβ (b), ˆδ (b) ) θ (b) ). (7)

(UWAGA: Liczba iteracji potrzebna do wyznaczenia oceny MSE B L, gdzie L to liczba iteracji potrzebna do wyznaczenia EBP w każdej z B iteracji bootstrapowych) 3.1.3 EBP w programie R (dla modelu Battese a, Hartera and Fullera (1988)) ebp(fixed, pop data, pop domains, smp data, smp domains, L, threshold, transformation, interval, MSE, B, seed, boot type, parallel mode, cpus, custom indicator, na.rm){emdi} fixed formuła definiująca zmienną badaną i zmienne dodatkowe (zmiennabadana zmiennad1 + zmiennad2 + zmiennad3); pop data ramka danych dla populacji ; pop domains zmienna grupująca na podstawie której definiowane są domeny (dla populacji); smp data ramka danych dla próby; smp domains zmienna grupująca na podstawie której definiowane są domeny (dla próby); L liczba iteracji (domyślna wartość 50). W praktyce zalecane są wartości większe niż 200 (Molina, I. i Rao, J.N.K. (2010)). transformation rodzaj transformacji użyty dla zmiennej zależnej: bez transformacji (ńo ); logarytm (łog ); transformacja Box-Cox ( box.cox ) wartość domyślna; MSE argument określający czy mają być wyświetlane oceny MSE (domyslna wartość FALSE); B liczba iteracji bootstrapwych do oceny MSE (domyślna wartość 50). W praktyce zalecane są wartości większe niż 200. seed liczba całkowita, domyślna wartość 123. boot type metoda wykorzystana do estymacji MSE (domyślnie parametryczna metoda bootstrap) custom indicator lista dodatkowych parametrów, dla których EBP ma być wyznaczane (definiowane jako funkcja y, np. custom indicator =list(my max = function(y)max(y), my min = function(y)min(y))) (domyślnie wyznaczane 10 parametrów np. wybrane kwantyle, średnia, miernik ubóstwa, współczynnik Ginniego); na.rm argument określający czy obserwacje o wartości NA są usuwane z danych (wartość domyślna FALSE). Wyświetlenie wartości EBP i ocen MSE estimators(obiekt, indicator,mse=true), gdzie obiekt to obiekt, który zawiera funkcję ebp. Argument indicators zawiera listę parametrów dla których mają zostać wyświetlone wyniki, argument MSE określa czy mają zostać wyświetlone oceny MSE. ebbhf(formula, dom, selectdom, Xnonsample, MC,transform, constant, indicator) {sae} formula obiekt zawierający symboliczny opis modelu; dom wektor zawierający identyfikatory domen; selectdom opcjonalny wektor z identyfikatorami wybranych domen; Xnonsample - macierz lub ramka danych zawierająca w pierwszej kolumnie kody domen oraz w pozostałych kolumnach wartości każdej ze zmiennych pomocniczych dla jednostek nie wylosowanych do próby; MC liczba iteracji Monte Carlo dla empirycznej aproksymacji (domyślna wartość 100); 3

4 transform rodzaj transformacji dla zmiennej zależnej ( BoxCox i power ; wartość domyślna BoxCox ); constant stała, która zostanie dodana do zmiennej zależnej przed wykonaniem transformacji, aby osiągnąć rozkład zbliżony do Normalnego (domyślna wartość 0); indicator funkcja zmiennej badanej (przed transformacją), którą chcemy wyznaczyć w każdej domenie. pbmseebbhf(formula, dom, selectdom, Xnonsample, B, MC, transform, constant = 0, indicator){sae} B liczba iteracji bootstrapowych (domyślna wartość 100). Praca domowa Zadanie 1. Na podstawie danych dotyczących dochodów powiatów w Polsce w roku 2016 dokonaj predykcji wartości średniej i wartości globalnej w domenie z wykorzystaniem EBP. Oceń MSE za pomocą parametrycznej metody bootstrap. Wykorzystaj poznane funkcje. (Przyjmij: jako zmienną dodatkową zmienną ludn z pliku lodnosc.csv oraz set.seed(124) i n=31 dla losowania próby) Identyfikator przynależności do województwa: Nd<-c(26,19,20,12,21,19,37,11,21,14,16,17,13,19,31,18) id w<-1:16 woj<-rep(id w,nd) Dodatek A.: Rysunek 1. EBP w programie R funkcja emdi.

5 Rysunek 2. EBP w programie R funkcja ebbhf. Rysunek 3. EBP w programie R (ocena MSE) funkcja pbmseebbhf.