STATYSTYKA MAŁYCH OBSZARÓW II.ESTYMATOR HORVITZA-THOMPSONA, ESTYMATOR KALIBROWANY

Podobne dokumenty
STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR

STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE

Metoda reprezentacyjna

Statystyka Małych Obszarów w badaniach próbkowych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Wnioskowanie statystyczne. Statystyka w 5

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Weryfikacja hipotez statystycznych

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Metody probabilistyczne

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Uogolnione modele liniowe

Testowanie hipotez statystycznych.

Wykład 3 Hipotezy statystyczne

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Teoretyczne i praktyczne aspekty kalibracji w badaniach statystycznych

STATYSTYKA

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Natalia Neherbecka. 11 czerwca 2010

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Filtr Kalmana. Struktury i Algorytmy Sterowania Wykład 1-2. prof. dr hab. inż. Mieczysław A. Brdyś mgr inż. Tomasz Zubowicz

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Własności statystyczne regresji liniowej. Wykład 4

Niepełnosprawność w świetle estymacji pośredniej na przykładzie województwa wielkopolskiego

Metody Statystyczne. Metody Statystyczne.

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Komputerowa analiza danych doświadczalnych

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Komputerowa analiza danych doświadczalnych

Estymacja punktowa i przedziałowa

Estymacja parametrów, przedziały ufności etc

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Metoda największej wiarygodności

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

O ŚREDNIEJ STATYSTYCZNEJ

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Spis treści 3 SPIS TREŚCI

KURS STATYSTYKA. Lekcja 2 Przedziały ufności i estymacja przedziałowa ZADANIE DOMOWE. Strona 1

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

STATYSTYKA MATEMATYCZNA

Metoda największej wiarogodności

Estymacja wektora stanu w prostym układzie elektroenergetycznym

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Grupowanie materiału statystycznego

Ważne rozkłady i twierdzenia c.d.

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Komputerowa Analiza Danych Doświadczalnych

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Rozkłady statystyk z próby. Statystyka

Statystyka matematyczna

Zawansowane modele wyborów dyskretnych

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Estymacja parametrów rozkładu cechy

STATYSTYKA wykład 5-6

Dokładne i graniczne rozkłady statystyk z próby

Przykład zastosowania optymalnej alokacji w estymacji frakcji

Testy nieparametryczne

Rozdział 8. Regresja. Definiowanie modelu

Prawdopodobieństwo i statystyka

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Metoda najmniejszych kwadratów

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

1.1 Klasyczny Model Regresji Liniowej

Komputerowa analiza danych doświadczalnych

Wyznaczanie symulacyjne granicy minimalnej w portfelu Markowitza

Estymacja parametrów, przedziały ufności etc

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD STATYSTYK Z PRÓBY

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

METODY STATYSTYCZNE W BIOLOGII

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

WYKŁAD 5 TEORIA ESTYMACJI II

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Analiza regresji - weryfikacja założeń

METODY STATYSTYCZNE. Studia stacjonarne, semestr zimowy 2017/2018. Motto III: In God we trust. All others must bring data (z internetu)

Komputerowa analiza danych doświadczalnych

Rozkłady statystyk z próby

Czasowy wymiar danych

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Wprowadzenie do analizy dyskryminacyjnej

Wykład z analizy danych: estymacja punktowa

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1

Transkrypt:

STATYSTYKA MAŁYCH OBSZARÓW II.ESTYMATOR HORVITZA-THOMPSONA, ESTYMATOR KALIBROWANY 2.1 Estymator Horvitza-Thompsona 2.1.1 Estymator Horvitza-Thompsona wartości średniej i globalnej w populacji p-nieobciążony (jeśli dla każdego i π i > 0) estymator wartości globalnej w populacji ustalonej (ỹ = N i=1 y i ) zaproponowany przez Horvitza i Thompsona (1952) dla dowolnego planu losowania ma następującą postać: 1 ˆθ HT = ˆỹ HT = i s y i π i (1) gdzie, π k to prawdopodobieństwo inkluzji pierwszego rzędu k-tego elementu Należy zaznaczyć, iż wariancja estymatora (1) jest dana wzorem, gdy π k > 0 dla wszystkich k = 1,..., N: lub D 2 (ˆỹ HT ) = k ( yk π k ) 2 πk (1 π k ) + D 2 (ˆỹ HT ) = yk 2 π k (1 π k ) + k π k k k l,k l l,k l y k y l (π kl ). (2) y k y l π kl y 2. (3) W przypadku gdy jest ustalona efektywna liczebność próby wariancja estymatora Horvitza- Thompsona wyznaczana jest w oparciu o następujący wzór zaproponowany przez Yatesa i Grundiego (1953): D 2 Y G(ˆỹ HT ) = k s l s,k l Jeżeli π kl > 0, p-nieobciążony estymator D 2 (ˆỹ HT ˆD 2 (ˆỹ HT ) = ( ) yk 2 (1 πk ) + k s π k k s ( yk y ) 2 l (πkl π k.π l ) (4) ) dany jest następującym wzorem: l s,k l y k y l π kl π kl, (5) Statystyka ta może jednakże przyjmować wartości ujemne. Jeżeli π kl 0 (dla k = 1,..., N; l = 1,..., N, k l) estymator rozważany przez Sena-Yatesa-Grundy ego (1953) będzie przyjmował tylko wartości nieujemne a jeśli π kl > 0 będzie p-nieobciążony: ˆD 2 SY G(ˆỹ HT ) = k s l s,k l ( yk y ) 2 l π kl π k.π l. (6) π kl W przypadku estymacji wartości globalnej w domenie p-nieobciążony estymator dany jest wzorem: ˆỹ HT d = y i, (7) i s d π i a jego wariancja ma następującą postać: ( ) D 2 ˆỹ HT d = k d l d y k y l (π kl ) (8)

2 Estymator ten należy do klasy estymatorów bezpośrednich. Ocena wariancji wyznaczana jest w tym przypadku w oparciu o poniższy wzór: ˆD 2 (ˆỹ HT d ) = k s d l s d y k y l π kl π kl (9) Jeżeli estymowanym parametrem jest średnia w populacji estymator Horvitza i Thompsona dany będzie następującym wzorem: ˆȳ HT = 1 N i s y i π i. (10) Wariancja oraz ocena wariancji dane wzorami: (2), (5) i (6) mają w tym przypadku następującą postać: UWAGA: ˆỹ HT = N ˆȳ HT D 2 (ˆȳ HT ) = 1 N 2 D2 (ˆỹ HT ), (11) ˆD 2 (ˆȳ HT ) = 1 N 2 ˆD 2 (ˆỹ HT ), (12) ˆD 2 SY G(ˆȳ HT ) = 1 N 2 ˆD 2 SY G(ˆỹ HT ). (13) 2.1.2 Estymator Horvitza-Thompsona wartości średniej i globalnej w domenie W przypadku gdy estymowanym parametrem jest wartość globalna w domenie (ỹ d ) estymator Horvitza i Thompsona dany będzie wzorem (1), dla y (dla i s), gdzie y i = y i jeżeli i s d a 0 w pozostałych przypadkach. Wariancja oraz ocena wariancji w tym przypadku dane będą wzorami: (2), (5) i (6) dla y (dla i s), gdzie y i = y i jeżeli i s d a 0 w pozostałych przypadkach. Jeżeli szacujemy wartość średnią w domenie (ȳ d ) estymator Horvitza i Thompsona dany będzie wzorem następującym wzorem: ˆȳ HT d = 1 N d ˆỹ HT d (14) dla y (dla i s), gdzie y i = y i jeżeli i s d a 0 w pozostałych przypadkach. Wariancja oraz ocena wariancji w tym przypadku dane będą wzorami: D 2 (ˆȳ HT d ) = 1 D 2 (ˆỹ HT Nd 2 d ), (15) ˆD 2 (ˆȳ HT d ) = 1 N 2 d ˆD 2 SY G(ˆȳ HT d ) = 1 N 2 d ˆD 2 (ˆỹ HT d ), (16) ˆD 2 SY G(ˆỹ HT d ). (17) dla y (dla i s), gdzie y i = y i jeżeli i s d a 0 w pozostałych przypadkach.

2.1.3 Estymator Horvitza-Thompsona w pakiecie R (szacowanie wartości średniej w populacji) htestimate(y,n,pi,pk,pik,method){samplingbook} y wektor wartości zmiennej badanej z próby, N liczebność populacji, PI kwadratowa macierz prawdopodobieństw inkluzji drugiego rzędu o n wierszach i kolumnach. Niezbędna do wyznaczenia estymatora wariancji metodą ht i yg, pk n-elementowy wektor prawdopodobieństw inkluzji pierwszego rzędu. Niezbędna do wyznaczenia estymatora wariancji metodą hh i ha, method metoda użyta do wyznaczenia estymatora wariancji ( yg Yatesa i Grundiego, ht Horvitza-Thompsona, hh Hansena-Hurwitza, ha Hajka). 3 2.2 Estymator kalibrowany podejście mieszane 2.2.1 Estymator kalibrowany wartości średniej i globalnej w populacji Estymator kalibrowany wartości globalnej rozważany przez Deville a i Sarndala (1992) dany jest następującym wzorem: ˆθ CAL = ˆỹ CAL = i s w si y i, (18) gdzie wagi w si spełniają warunki określone równaniem kalibracyjnym. k {1,2,..,p} w si x ik = x ik (19) i s i Deville a i Sarndala (1992) zaproponowali także by dodatkowo wagi te przyjmowały wartości jak najbliższe odwrotnościom prawdopodobieństw inkluzji pierwszego rzędu π i. Zatem druga część zadania pozwalającego na wyznaczenie wag może zostać zapisana jako: f s (w si, d i, q i ) min, (20) gdzie f s (w si, d i, q i ) jest funkcją odległości wag w si estymatora kalibrowanego oraz wag d i = 1 π i estymatora Horvitza-Thompsona, a przez q i oznaczono pewne dodatkowe wagi. Należy zaznaczyć iż powyższy estymator jest p-nieobciążony jeżeli istnieje rozwiązanie zadania warunkowej minimalizacji (20) przy warunku (19), a ponadto (19) jest warunkiem ξ- nieobciążoności. Jeżeli dodatkowo przyjmiemy, że: f s (w si, d i, q i ) = i s (w si d i ) 2 d i q i (21) wówczas rozwiązaniem powyzszego zadania będzie uogólniony estymator regresyjny (GREG). Estymator ten ma następującą postać: ˆθ GREG = d i y i + x i T d i x i ˆB. (22) i s i i s gdzie: ˆB = ( i s d i q i x i x i T ) 1 i s d i q i x i y i. Asymptotyczna postać p-wariancji tego estymatora dana jest następującym wzorem: gdzie: D 2 (ˆθGREG ) = (π kl ) d k E k d l E l, (23) k l

4 E k = y k x T k B, B = ( k q k x k x T k ) 1 k q k x k y k. Do oceny wariancji ˆθ GREG może zostać użyty następujący p-zgodny estymator (Rao 2003, s. 12): ˆD 2 (ˆθGREG ) = n l>k n ( π kl ) π k l 1 (d k e k d l e l ) 2, (24) k Należy zauważyć, iż powyższa ocena wariancji ma postać estymatora (6) gdzie y k zastąpione jest resztami o postaci: e k = y k x T k ˆB. Ze względu na niedoszacowywanie wariancji przez estymator (20) w literaturze proponowane jest użycie do oceny wariancji ˆθ GREG następującej statystyki, również będącej p-zgodnym estymatorem: ˆD 2 (ˆθGREG ) = n l>k gdzie g sk dane jest następującym wzorem: n ( π kl ) π k l 1 (d k g sk e k d l g sl e l ) 2, (25) k g sk = 1 + x k T d k x k 1 d k q kxk x T k x k q k. (26) k k s k s Jeżeli szacowanym parametrem jest wartość średnia w populacji estymator kalibrowany dany jest następującym wzorem: ˆȳ CAL = 1 CAL ˆỹ. (27) N Wariancja oraz ocena wariancji w tym przypadku mają następującą postać: D 2 (ˆȳ CAL ) = 1 N 2 D2 (ˆỹ CAL ) (28) ˆD 2 (ˆȳ CAL ) = 1 N 2 ˆD 2 (ˆỹ CAL ). (29) 2.2.2 Estymator kalibrowany wartości średniej i globalnej w domenie W przypadku gdy rozważanym parametrem jest wartość globalna w domenie estymator GREG dany jest następującym wzorem (Rao 2003, s.17): ˆθ GREG d = ˆỹ GREG d = k s d w sk y k, (30) Wagi w si dane są wzorem: w sk = g sk d k, (31) gdzie g sk wyznaczane jest z (22). Jeżeli s d = nie jest możliwe zastosowanie powyższego estymatora wartości globalnej w domenie. Ponadto estymator ten nie wymaga znajomości wartości zmiennych dodatkowych na poziomie domeny, a gdy wartość oczekiwana liczebności w domenie jest mała, jest w przybliżeniu p-nieobciążony. Wariancja powyższego estymatora może być wyznaczana w oparciu o wzór (26), jednakże wartości e kd w tym przypadku dane są wzorem: gdzie: e kd = a kd y k x T k ˆB d, (32)

a kd przyjmuje wartość 1 dla i d a zero w przeciwnym przypadku, ˆB d analogicznie jak w przypadku (19), jednakże y k zastępowane jest a kd y k. W przypadku elementów nienależących do d reszty mają następującą postać x T k ˆB d. Konsekwencją tego może być, jak podaje Rao (2003) nieefektywne szacowanie wariancji. UWAGA: ˆỹ CAL d przypadkach. = ˆỹ CAL, dla y (dla i s), gdzie y i = y i jeżeli i s d a 0 w pozostałych Gdy estymowanym parametrem jest wartość średnia w domenie estymator kalibrowany dany jest następującym wzorem: a jego wariancja i ocena wariancji: ˆȳ GREG d = 1 N d ˆỹ GREG d (33) D 2 (ˆȳ GREG d ) = 1 D 2 (ˆỹ GREG Nd 2 d ), (34) ˆD 2 (ˆȳ GREG d ) = ˆD 2 ( 1 ˆỹ GREG Nd 2 d ) (35) 5 2.2.3 Estymator kalibrowany w pakiecie R (szacowanie wartości globalnej w populacji) calib(xs,d,total,q,method,bounds,description){sampling} Xs macierz zmiennych kalibracyjnych, d wektor początkowych wartości wag, total wektor wartości globalnych w populacji, q wektor dodatnich wartości uwzględniających heteroscedastyczność; zmienność g-wag jest redukowana dla małych wartości q, method metoda kalibracji ( linear, raking, logit, truncated ), bounds wektor wartości granicznych dla g-wag używanych w metodach truncated i logit ( low minimalna wartość, upp maksymalna wartość), description jeśli description=true, wyświetlane jest podsumowanie dla wag początkowych i końcowych oraz wykresy i histogramy dla nich; domyślnie wartość tego argumentu to FALSE. calibev(ys,xs,total,pikl,d,g,q,with,eps){sampling} Ys n-elementowy wektor zmiennej badanej, Xs macierz zmiennych kalibracyjnych dla próby, total wektor sumy populacji dla kalibracji, pikl macierz łącznego prawdopodobieństwa dla elementów z próby, d wektor początkowych wag dla elementów z próby, g n-elementowy wektor g-wag, q n-elementowy wektor dodatnich wartości uwzględniających heteroscedastyczność, with jeśli with=true, oszacowanie wariancji uwzględnia początkowe wagi d; w przeciwnym razie brane są pod uwagę końcowe wagi w = g * d; domyślnie wartość tego argumentu to FALSE, EPS - tolerancja przy sprawdzaniu kalibracji, domyślnie równa jest 1e-6.

6 Praca domowa Zadanie 1. Na podstawie danych dotyczących dochodów powiatów w Polsce w roku 2016 oszacuj z wykorzystaniem estymatora H-T: a) wartość średnią w domenie (województwie 7.), b) wartość średnią w domenie (województwie 11.), c) wartość globalną w domenie (województwie 7.), d) wartość globalną w domenie (województwie 11.). Wyniki zinterpretuj. Dla każdego podpunktu oceń i zinterpretuj średni błąd szacunku oraz średni względny błąd szacunku. Przyjmij lpbz jako plan losowania próby (set.seed(124), n=31). Zadanie 2. Rozwiąż zadanie 1. przyjmując plan losowania Poissona jako plan losowania próby (set.seed(124), n=31, zmienna dodatkowa ludn z pliku lodnosc.csv) Zadanie 3. Na podstawie danych dotyczących dochodów powiatów w Polsce w roku 2016 oszacuj z wykorzystaniem estymatora kalibrowanego: a) wartość średnią w domenie (województwie 7.), b) wartość globalną w domenie (województwie 11.), c) wartość globalną w domenie (województwie 7.), d) wartość globalną w domenie (województwie 11.). Wyniki zinterpretuj. Dla każdego podpunktu oceń i zinterpretuj średni błąd szacunku oraz średni względny błąd szacunku. Przyjmij lpbz jako plan losowania (set.seed(124)). Zadanie 4. Rozwiąż zadanie 3. przyjmując plan losowania Poissona jako plan losowania próby (set.seed(124), n=31, zmienna dodatkowa ludn z pliku lodnosc.csv) UWAGA Jak pobrać dane: powiaty<-read.table(file="http://stat.ue.katowice.pl/dane1/dochody powiaty.csv", sep=";", dec=",",header=true) Identyfikator przynależności do województwa: Nd<-c(26,19,20,12,21,19,37,11,21,14,16,17,13,19,31,18) id w<-1:16 woj<-rep(id w,nd)

7 Dodatek A.: Rysunek 1. Szacowanie wartości średniej w populacji estymator H-T. Rysunek 2. Szacowanie wartości globalnej w populacji estymator H-T.

8 Rysunek 3. Szacowanie wartości globalnej w domenie estymator H-T. Rysunek 4. Szacowanie wartości średniej w domenie estymator H-T.

9 Dodatek B.: Rysunek 5. Szacowanie wartości globalnej w populacji estymator kalibrowany. Rysunek 6. Szacowanie wartości średniej w populacji estymator kalibrowany.

10 Rysunek 7. Szacowanie wartości globalnej w domenie estymator kalibrowany. Rysunek 8. Szacowanie wartości średniej w domenie estymator kalibrowany.