Statystyka Małych Obszarów w badaniach próbkowych Łukasz Wawrowski l.wawrowski@stat.gov.pl Urząd Statystyczny w Poznaniu SKN Estymator, UEP 5.03.2012
1 Wprowadzenie Podstawowe pojęcia Badanie 2 Estymator Horwitza-Thompsona Estymator regresyjny 3 Broad Area Ratio Estimator 4 5
Podstawowe pojęcia Badanie Statystyka Małych Obszarów gałąź metody reprezentacyjnej, przedmiotem zainteresowania charakterystki podpopulacji, szacowanie dziedzin nie objętych planem losowania, losowa liczebność domeny w próbie, szacunki nawet przy zerowej liczbności próby w podpopulacji, wykorzystanie wszystkich dostępnych źródeł danych.
Podstawowe pojęcia Badanie Statystyka Małych Obszarów gałąź metody reprezentacyjnej, przedmiotem zainteresowania charakterystki podpopulacji, szacowanie dziedzin nie objętych planem losowania, losowa liczebność domeny w próbie, szacunki nawet przy zerowej liczbności próby w podpopulacji, wykorzystanie wszystkich dostępnych źródeł danych. Mały obszar Domena (obszar geograficzny, typ przedsiębiorstwa, grupa wiekowa), której liczebność w próbie jest mała.
Podstawowe pojęcia Badanie Estymator bezpośredni Estymator bezpośredni wykorzystuje informacje o zmiennej badanej y pochodzące wyłącznie z domeny będącej przedmiotem badania w danym momencie czasu. Mała liczebność próby duża wariancja, ale nieobciążony, więc wykorzystywany przy tworzeniu estymatorów pośrednich.
Podstawowe pojęcia Badanie Estymator pośredni Estymator pośredni wykorzystuje informacje o wartościach zmiennej badanej y spoza okresu i domeny będącej przedmiotem zainteresowania. Obciążony, ale niska wariancja, pożycza moc spoza domeny przy spełnionych założeniach.
Podstawowe pojęcia Badanie Opis badania Celem badania było poznanie odsetka studentów zaliczających praktyki zgodnie z regulaminem studiów. Liczebność populacji: 308 osób, liczebność próby: 62 osoby (20%), badana domena: wydział.
Podstawowe pojęcia Badanie Przygotowanie zbioru library(teachingsampling) dane=read.csv(file="ankieta.csv") los=sample(dane$id, 62, replace=f) dane_los=dane[los,] p=rep(nrow(dane_los)/nrow(dane), nrow(dane_los)) dane_los=cbind(dane_los, p)
Podstawowe pojęcia Badanie Przygotowanie zbioru dane1=dane_los[dane_los$m5==1, ] #WE dane2=dane_los[dane_los$m5==2, ] #WIGE dane3=dane_los[dane_los$m5==3, ] #WGM dane4=dane_los[dane_los$m5==4, ] #WT dane5=dane_los[dane_los$m5==5, ] #WZ
Podstawowe pojęcia Badanie Tablica: Częstości Wydział Populacja Próba N Tak Nie n Tak Nie WE 112 96 16 18 17 1 WIGE 28 24 4 7 6 1 WGM 58 45 13 13 12 1 WT 22 20 2 4 4 0 WZ 88 75 13 20 18 2 Źródło: opracowanie własne.
Estymator Horwitza-Thompsona Estymator regresyjny Estymator Horwitza-Thompsona ŷ HT d = i s d y i π i, (1) gdzie: π i - prawdopodobieństwo wylosowania i-tego elementu do próby.
Estymator Horwitza-Thompsona Estymator regresyjny Jak w R? Funkcja: E.SI(N, n, y) Argumenty: N - wielkość populacji, n - wielkość próby, y - wektor zawierający dane jednostkowe zmiennej objaśnianej. Wynik: wartość wyestymowana, wariancja, współczynnik zmienności.
Estymator Horwitza-Thompsona Estymator regresyjny Przykład Estymacja liczby osób, które odbyły praktykę zgodnie z regulaminem na Wydziale Gospodarki Międzynarodowej. E.SI(N=58, n=nrow(dane3), dane3$q1_tak) y Estimation 53.538462 Variance 15.443787 CVE 7.340253
Estymator Horwitza-Thompsona Estymator regresyjny GREG ŷ GREG d = ŷ HT d + ˆβ d (x d ˆx HT d ), (2) gdzie: ˆβ d - współczynnik regresji między zmienną objaśnianą, a zmiennymi dodatkowymi.
Estymator Horwitza-Thompsona Estymator regresyjny Jak w R? Funkcja: E.Beta(y, x, Pik, ck=1, b0=false) GREG.SI(N, n, y, x, tx, b, b0=false) Argumenty: x - macierz zawierająca zmienne dodatkowe, Pik - wektor prawdopodobieństw dostania się do próby, ck - wektor wag, tx - wielkość populacji zmiennych dodatkowych, b0 - wyraz wolny. Wynik: wartość wyestymowana, wariancja, współczynnik zmienności.
Estymator Horwitza-Thompsona Estymator regresyjny Przykład Estymacja liczby osób, które odbyły praktykę zgodnie z regulaminem na Wydziale Gospodarki Międzynarodowej z wykorzystaniem zmiennych dodatkowych: płeć oraz doświadczenie. dane_pom=cbind(dane3$q3, dane3$m1) b=e.beta(dane3$q1_tak,dane_pom,dane3$p,b0=t) GREG.SI(58,nrow(dane3),dane3$q1_tak,dane_pom,58,b,b0=T) y Estimation 58.000000 Variance 13.384615 CVE 6.307757
Broad Area Ratio Estimator Broad Area Ratio Estimator (BARE) ŷd BARE = ŷ d HT N n d, (3) gdzie: N - populacja dużego obszaru, n d - populacja małego obszaru.
Broad Area Ratio Estimator Jak w R? BARE.SI=function(N, n, nd, y){ Total <- matrix(na, nrow = 3, ncol = 1) rownames(total) = c("estimation", "Variance", "CVE") colnames(total) = "y" ht=e.si(n, n, y) BARE=(ht[1,1]/N)*nd var=((nd/n)^2)*ht[2,1] Cve=100*sqrt(var)/BARE Total[,1]=c(BARE, var, Cve) return(total) }
Broad Area Ratio Estimator Przykład Estymacja liczby osób, które odbyły praktykę zgodnie z regulaminem na Wydziale Gospodarki Międzynarodowej z wykorzystaniem wiedzy na temat całej populacji. BARE.SI(N=308, n=62, nd=58, dane_los$q1_tak) y Estimation 53.322581 Variance 3.265668 CVE 3.389026
Zastosowanie Statystyka Małych Obszarów wykorzystywana jest w sytuacjach, w których tradycyjne metody okazują się niewydolne i nieekonomiczne, kiedy istnieje zapotrzebowanie na informację na niskim poziemie agregacji przestrzennej, przy ograniczonym budżecie.
W prezentacji został przedstawiony zarys SMO oraz randomizacyjne podejście do estymacji. Oprócz niego w SMO wyróżnia się także: podejście modelowe, podejście bayesowskie. O czym innym razem...
Australian Bureau of Statistics, 2006, A Guide to Small Area Estimation, Australia. Paradysz J., 2009, Kryteria dobroci estymacji dla małych obszarów, Poznań. Rao J.N.K., 2003, Small Area Estimation, John Wiley & Sons, New York. Żądło T., 2008, Elementy statystyki małych obszarów z programem R, Wydawnictwo Akademii Ekonomicznej im. Karola Adamieckiego, Katowice.
Dziękuje za uwagę.