Zastosowane herarchcznej estymacj bayesowskej w szacowanu wartośc dochodów ludnośc dla powatów Jan Kuback Ośrodek Statystyk Matematycznej, Urząd Statystyczny w Łodz
Herarchczna estymacja bayesowska - wprowadzene Herarchczna estymacja bayesowska - jedną z częścej stosowanych współcześne metod estymacj dla małych obszarów. Lczne publkacje w ostatnch latach, w tym prace doktorske autorstwa Martna Vogta (2010) Benme Lu (2009) oraz pracę Mlany Karagans (2009). Wymagana jest znajomość rozkładów a pror f(λ) zarówno dla parametrów rozważanego modelu, jak rozkładów warunkowych f(µ,y λ) parametrów małych obszarów µ (przy zadanych wartoścach parametrów modelu) z uwzględnenem danych y pochodzących z badana. Zastosowane twerdzene Bayesa pozwala na uzyskane rozkładu a posteror f(µ y). W prostych przypadkach rozkład można wyznaczyć analtyczne Bardzej złożone przypadk wymagają zastosowana specjalnych metod oblczenowych z użycem metod MCMC (Markov Chan Monte Carlo metody Monte Carlo dla łańcuchów Markowa), Najczęścej realzowane jest to numeryczne za pomocą tzw. próbnka Gbbsa (Gbbs sampler).
Herarchczna estymacja bayesowska (HB) zastosowane dla małych obszarów Załóżmy, że musmy otrzymać następujący rozkład a posteror: f ( y) f (, y) d Używając wnoskowana bayesowskego dostajemy następującą zależność f (, y) f ( y, ) f ( ) gdze, f 1 (y) jest rozkładem brzegowym ma postać f ( 1 y) f ( y, ) f ( ) d d Jak to już wspomnano we wprowadzenu w konkretnych przypadkach do przeprowadzena takch oblczeń potrzebna jest znajomość rozkładów a pror, które można uwzględnć przy konstruowanu konkretnych model dla małych obszarów. f ( 1 y )
Rozważany model model typu A W rozważanym tutaj przypadku berzemy pod uwagę model dla małych obszarów typu A, czyl tzw. podstawowy model pozomu obszaru (ang. Basc area level model), który jest postac ˆ T z bv e Gdze ˆ jest estymatorem badanej cechy dla małego obszaru, z jest wektorem zmennych objaśnających,β jest wektorem współczynnków regresj, b są znanym dodatnm stałym, v określa błąd modelu, zaś e określa błąd wynkający ze schematu losowana.
Rozważany model założena dla parameterów Zakłada sę ponadto często, że wartość składnka v tworzą zmenne o nezależnym rozkładze (ndependent and dentcally dstrbuted d) o następujących własnoścach E 2 m( vm) 0, Vm ( v ) v gdze E m oznacza wartość oczekwaną składnka v dla modelu, zaś V m warancję dla modelu. Z kole o błędach wynkających ze schematu losowana (dla ocen bezpośrednch) zakłada sę, ze E ( e ) 0, V ( e ) p Przyjmuje sę równeż, że błędy szacunku dla ocen bezpośrednch ψ są równeż znane. P
Model herarchczny główne założena Na podstawe poprzednch założeń oraz przyjmując, że znany jest oprócz rozkładów ocen bezpośrednch równeż rozkład błędu modelu σ 2 v, który ma postać odwrotnego rozkładu Gamma G -1 (a,b) (gdze a jest współczynnkem kształtu, zaś b współczynnkem skal) możemy zapsać model herarchczny w następującej postac () ˆ,, 2 ~ nd N(, ), =1, m () () (v) f (, ) v 2 v ~ 1 ˆ nd N( z T, b 2 2 v,) =1,..,m 2 1 v, θ, θ ~ G ( a, b) Jest to przypadek znanego σ 2 v oraz płaskego rozkładu a pror dla β, dany przez f(β) 1. Zakładamy, też że (w odróżnenu od modelu (10.3.1) z podręcznka Rao), że znana jest wartość parametrów a b dla rozkładu σ v2, co naszym zdanem - jest dobrym przyblżenem dla modelu z punktu 10.3.3 podręcznka Rao.
Model herarchczny przyjęte wartośc dla rozkładu Gamma Wartośc tych parametrów - wyznaczone na podstawe emprycznego rozkładu ocen błędów modelu pochodzących z model regresj lnowej. Założene o dentycznych co do defncj zmennych objaśnających Zblżone co do zmennośc wartośc ocen zarówno ocen bezpośrednch jak parametrów regresj lnowej β dla modelu Przyblżene take może prowadzć do poprawnych ocen a posteror dla rozważanego modelu. Zgodne z sugestą Rao (str. 237) gdy zakłada sę o σ v2, że jest znane oraz f(β) 1, podejśca HB oraz BLUP w warunkach normalnośc prowadzą do dentycznych estymacj punktowych oraz mar zmennośc. Model (10.3.1) u Rao ne uwzględna w pełn zmennośc σ v2, co skutkuje zgodnoścą ale dla bardzej uproszczonych mar warancj (por wyrażene (7.1.6) u Rao). ~ MSE( H ) ~ E( H Uwzględnene tej zmennośc prowadz naszym zdanem do ocen zgodnych z szacunkam EBLUP (a węc uwzględnających pełną zmenność modelu). Dalszą dyskusję na ten temat przedstawmy w częśc eksperymentalnej. ) 2 g 1 ( 2 v ) g 2 ( 2 v )
Metody Monte Carlo dla łańcuchów Markowa (Markov Chan Monte Carlo - MCMC) Przyjmjmy, że η=(μ T,λ T ) T jest wektorem parametrów dla małych obszarów µ oraz parametrów modelu λ Dla bardzej złożonych model, wylosowane próby z łącznego rozkładu, może być trudne ze względu na złożoną postać manownka f 1 (y). Zastosowane metody MCMC pozwala na unknęce takch trudnośc. Konstruuje sę tutaj łańcuch Markowa {η (k),k=0,1,2, }, tak, ze rozkład η (k) jest zbeżny do rozkładu jednoznaczne stacjonarnego (lub nezmennczego nvarant) danego przez f(η y), określonego jako π(η). Pomjając początkowo wylosowane wartośc (w ramach tzw. symulacj wstępnej burn n, której długość wynos d), otrzymujemy D nezależnych prób η (d),, η (d+d) wylosowanych na podstawe rozkładu celu f(η y). Próba taka jest nezależna od punktu startowego η (0)
Metody Monte Carlo dla łańcuchów Markowa Taka konstrukcja łańcucha Markowa wymaga, aby jednoetapowe (one-step) prawdopodobeństwo przejśca (transton probablty) P(η (k+1) η (k) ) zależało tylko od beżącego stanu η (k). Prowadz to do stwerdzena, że prawdopodobeństwo warunkowe η (k+1), przy określonym η (0),,η (k) ne jest zależne od hstor łańcucha {η (0),,η (k-1) }. Spełnony tutaj mus być warunek stacjonarnośc dla jądra przejśca ( k ) ( k 1) ( k ) ( k ) ( k 1)) ( ) P( ) d ( ) Równane powyższe pokazuje, że jeśl η (k) można uzyskać z π( ), wtedy równeż η (k+1) można uzyskać z π( ) Koneczne jest równeż, aby zapewnć, że rozkład η (k) dla danego η (0), oznaczony przez P (k) (η (k) η (0) ) zbega do π(η (k) ), nezależne od tego jakego dokonamy wyboru dla η (0).
Próbnk Gbbsa - wprowadzene Realzację oblczenową metod MCMC można przeprowadzć przy pomocy tzw. próbnka Gbbsa. Próbnk Gbbsa zakłada, że cąg próbek η (k) uzyskujemy dzeląc wektor η na blok η 1,,η r. Blok te mogą zawerać jeden lub węcej elementów. Przykładowo, dla podstawowego modelu pozomu obszaru, mamy μ=(θ 1,,θ m ) T =θ oraz λ=(β T,σ v2 ) T. W takm przypadku η może składać sę z następujących bloków: η 1 =β, η 2 =θ 1,, η (m+1) =θ m, η (m+2) =σ v2, przy czym r=m+2. Wymagane jest aby zachodzł następujący zbór rozkładów warunkowych Gbbsa f(η 1 η 2,,η r,y), f(η 2 (η 1,η 3,,η r,y),,f(η r η 1,,η (r-1),y). Próbnk Gbbsa wykorzystuje wspomnane prawdopodobeństwa warunkowe do skonstruowana jądra przejśca, P( ), takego, że rozkład stacjonarny otrzymanego łańcucha Markowa jest równy π(η)=f(η y). Wynk ten jest konsekwencją faktu, ż f(η y) jest jednoznaczne określone przez zbór warunków Gbbsa.
Próbnk Gbbsa - algorytm Krok 0. Wyberz punkt startowy η (0) dla komponentów η 1 (0),,η r (0), przyjmując k jako równe 0. Można na przykład wybrać jako punkty początkowe szacunk metodą REML dla parametrów modelu λ oraz szacunk EB dla parametru µ. Mogą to być jednak dowolne dobrane punkty. Krok 1. Wygenerować η (k+1) =(η 1 (k+1),,η r (k+1) ) w następujący sposób: Wylosować η 1 (k+1) korzystając z rozkładu f(η 1 η 2 (k),,η r (k),y), następne wylosować η 2 (k+1) z rozkładu f(η 2 η 1 (k+1),η 3 (k),,η r (k),y), na konec wylosować η r (k+1) z rozkładu f(η r η 1 (k+1),,η r (k+1),y) Krok 2. Przyjąć k=k+1 oraz przejdź do kroku 1. Krok 1-2 określają jeden cykl dla każdego k. Sekwencja {η (k) } wygenerowana przez próbnk Gbbsa jest łańcuchem Markowa ze stacjonarnym rozkładem π(η)=f(η y)
Rys.1. Rozkład empryczny błędu modelu otrzymany dla regresj lnowej
Model oblczenowy dla programu WnBUGS model { for(p n 1 : N) { Y[p] ~ dnorm(mu[p], tau[p]) mu[p] <- alpha[1] + alpha[2] * A[p] + alpha[3] * B[p] + alpha[4] * C[p] + alpha[5] * D[p] + alpha[6] * E[p] + alpha[7] * F[p] + alpha[8] * G[p] + u[p] u[p] ~ dnorm(0, precu) } precu ~ dgamma (a0,b0) alpha[1] ~ dflat() alpha[2] ~ dflat() alpha[3] ~ dflat() alpha[4] ~ dflat() alpha[5] ~ dflat() alpha[6] ~ dflat() alpha[7] ~ dflat() alpha[8] ~ dflat() sgmau<-1/precu }
Makro w R-project określene parametrów modelu przeprowadzene symulacj # determnng the model parameters model_hb <- paste("c:/documents and Settngs/PTS/Moje dokumenty/model_kongres_demo.txt", sep = "") nfle1 <- "coda1.txt" nfle2 <- "coda2.txt" ndfle <- "codandex.txt" burn_n <- 3000 zmenna <- "dochg" a0 <- dochg_shape b0 <- dochg_rate data <- lst(n=n, Y=Y, tau=tau, A=A, B=B, C=C, D=D, E=E, F=F, G=G, a0=a0, b0=b0) model <- lm( Y ~ 1 + A + B + C + D + E + F + G) mod_smry <- summary(model) alpha <- as.vector(mod_smry$coeffcents[,1]) sgma_2 <- (mod_smry$sgma)*(mod_smry$sgma) precu <- 1/sgma_2 u <- vector(mode = "numerc", length = N) nts <- lst(lst(alpha=alpha, precu=precu, u=u),lst(alpha=alpha, precu=precu, u=u)) parameters <- c("mu", "alpha", "precu", "u") # smulatons - WnBUGS call sm_hb <- bugs(data, nts, parameters, model_hb,n.chans=2, n.burnn = 1, n.ter=10000, n.thn = 1, codapkg=true) results1 <- read.coda(nfle1, ndfle, 2, 10000, 1) results2 <- read.coda(nfle2, ndfle, 2, 10000, 1)
Szacunk dla dochodu rozporządzalnego oraz ch precyzj redukcj względnego błędu estymacj-małopolske cz. 1 Powat (NUTS-4 ) Dochód rozporządzalny Szacunk bezpośredne Szacunk dla metody EBLUP Szacunk dla metody HB Redukcja REE Ocena parametru Błąd szacunku REE (%) Ocena parametru Błąd szacunku REE (%) Ocena parametru bocheńsk 518,43 33,13 6,39 525,14 31,79 6,05 523,74 31,28 5,97 1,056 1,070 brzesk 418,25 32,80 7,84 436,81 31,77 7,27 432,23 30,96 7,16 1,078 1,095 chrzanowsk 734,24 22,09 3,01 734,63 22,26 3,03 734,15 21,90 2,98 0,993 1,009 dąbrowsk 553,59 106,13 19,17 480,11 66,72 13,90 490,32 71,80 14,64 1,379 1,309 gorlck 460,38 14,97 3,25 464,59 15,06 3,24 463,79 15,02 3,24 1,003 1,004 krakowsk 617,31 22,41 3,63 623,05 22,17 3,56 622,27 21,81 3,51 1,020 1,035 lmanowsk 576,63 69,00 11,97 527,75 53,08 10,06 536,88 54,61 10,17 1,190 1,176 mechowsk 538,66 7,31 1,36 539,06 7,31 1,36 538,96 7,31 1,36 1,001 1,001 myślenck 475,63 36,64 7,70 494,48 34,97 7,07 492,01 33,84 6,88 1,089 1,120 nowosądeck 540,52 27,76 5,14 529,10 27,26 5,15 531,27 26,97 5,08 0,997 1,012 nowotarsk 525,31 34,79 6,62 514,30 33,22 6,46 518,01 32,16 6,21 1,025 1,067 olkusk 675,92 84,13 12,45 675,93 66,35 9,82 676,95 67,77 10,01 1,268 1,243 ośwęcmsk 732,83 30,13 4,11 726,44 29,82 4,10 728,56 29,01 3,98 1,002 1,032 proszowck 611,29 56,11 9,18 582,99 49,62 8,51 593,89 49,39 8,32 1,078 1,104 susk 666,01 51,49 7,73 615,90 44,93 7,30 628,43 45,05 7,17 1,060 1,079 tarnowsk 427,53 26,72 6,25 431,84 27,52 6,37 429,27 26,25 6,12 0,981 1,022 Błąd szac. REE (%) REML HB
Szacunk dla dochodu rozporządzalnego oraz ch precyzj redukcj względnego błędu estymacj-małopolske cz. 2 Powat (NUTS-4 ) Dochód rozporządzalny Szacunk bezpośredne Szacunk dla metody EBLUP Szacunk dla metody HB Redukcja REE Ocena parametru Błąd szacunku REE (%) Ocena parametru Błąd szacunku REE (%) Ocena parametru tatrzańsk 529,82 45,91 8,67 531,46 44,27 8,33 530,19 42,90 8,09 1,040 1,071 wadowck 530,13 62,80 11,85 554,40 50,37 9,09 552,55 50,79 9,19 1,304 1,289 welck 736,62 68,03 9,24 700,67 56,16 8,02 713,04 55,65 7,80 1,152 1,183 m. Kraków 876,75 1,03 0,12 876,74 1,03 0,12 876,75 1,03 0,12 1,000 1,004 m. Tarnów 713,46 1,84 0,26 713,46 1,84 0,26 713,45 1,85 0,26 1,000 0,999 Błąd szac. REE (%) REML HB
Rys.2. Wykres obserwowanych względem przewdywanych dla dochodu rozporządzalnego otrzymanego z użycem estymacj bezpośrednej, uproszczonej estymacj EB, estymatora EBLUP oraz herarchcznej estymacj bayesowskej - małopolske
Rys. 3. Rozkład dla szacunków z modelu dla dochodu rozporządzalnego otrzymanego z użycem próbnka Gbbsa
Rys. 4. Wykresy dagnostyczne BGR szacunków z modelu dla dochodu rozporządzalnego otrzymanego z użycem próbnka Gbbsa
Rys. 5. Wykresy dagnostyczne autokorelacj szacunków z modelu dla dochodu rozporządzalnego otrzymanego z użycem próbnka Gbbsa
Rys. 6. Rozkład względnego błędu szacunku dla estymatora bezpośrednego, uproszczonego estymatora EB, EBLUP (warant REML) oraz estymatora HB dla dochodu rozporządzalnego w powatach (NUTS4)
Rys. 7. Rozkład redukcj względnego błędu szacunku dla uproszczonego estymatora EB, EBLUP (warant REML) oraz estymatora HB dla dochodu rozporządzalnego w powatach (NUTS4)
Wnosk W prezentacj wykazano przydatność szacunków wykonanych z użycem herarchcznej estymacj bayesowskej w przypadku znanych wartośc hperparametrów modelu. Pokazano stnene pewnej zgodnośc mędzy szacunkam z użycem takej metody oraz szacunkam z użycem nnych technk dla małych obszarów, w tym metody EBLUP. Z uwag na dobre własnośc przedstawonych w pracy oblczeń symulacyjnych (brak autokorelacj stablność symulacj, oraz praktyczne zanedbywalny okres symulacj wstępnej) można sądzć, ż podejśce take może znaleźć zastosowane praktyczne. Charakterystyczna jest tutaj też neco wększa przecętne efektywność oblczeń dla technk HB nż dla EBLUP, choć dla słabej dopasowanych model ne mus to być regułą. Pewnym mankamentem jest tutaj koneczność posadana wstępnego materału emprycznego, dla którego wyznaczany jest rozkład parametru σ v2. W przypadku model dla powatów jest to jednak możlwe może być korzystne ze względów praktycznych.
Lteratura 1. Gomez-Rubo, V., (2008), "Small Area Estmaton wth R Unt 5: Bayesan Small Area Estmaton", user! 2008 11 August 2008, Dortmund (Germany), http://www.bas-project.org.uk/sae_tutoral/user08-tutoral.tgz 2. Karagans, M., (2009) Small Area Estmaton for Survey Data: A Herarchcal Bayes Approach, A Thess submtted to the Faculty of Graduate Studes of The Unversty of Mantoba, Wnnpeg http://mspace.lb.umantoba.ca/btstream/1993/3207/1/fnal%20thess%20-%20aug%2020%202009.pdf 3. Kuback, J. (2004): Applcaton of the Herarchcal Bayes Estmaton to the Polsh Labour Force Survey, Statstcs n Transton, Vol. 6, No. 5, 785-796. http://www.stat.gov.pl/cps/rde/xbcr/gus/pts_st_6_5.pdf 4. Kuback, J., (2012) Estmaton of parameters for small areas usng herarchcal Bayes method n the case of known model hyperparameters, Statstcs n Transton-new seres, Summer 2012, Vol. 13, No. 2, 261 278 http://www.stat.gov.pl/cps/rde/xbcr/pts/sit_13_2_summer_2012nowy1(1).pdf 5. Kuback, J., Jędrzejczak A., (2012) The Comparson of Generalzed Varance Functon wth Other Methods of Precson Estmaton for Polsh Household Budget Survey, Studa Ekonomczne, 120, 58-69 http://wydawnctwo.ue.katowce.pl/uploads/meda/se_120.pdf 6. Lu, B., (2009), Herarchcal Bayes Estmaton and Emprcal Best Predcton of Small Area Proportons, Dssertaton submtted to the Faculty of the Graduate School of the Unversty of Maryland, College Park, http://drum.lb.umd.edu/btstream/1903/9149/1/lu_umd_0117e_10245.pdf 7. Rao, J.N.K. (2003) Small Area Estmaton, Wley Interscence, Hoboken, New Jersey 8. Salvat, N., Gómez-Rubo, V., (2006). SAE: Small Area Estmaton wth R. R package verson 0.07 http://www.bas-project.org.uk/software/sae_0.07.zp 9. Spegelhalter, D.J., Thomas, A., Best, N., and Lunn, D. (2003), WnBUGS User Manual, Verson 1.4. 10. Sturtz, S., Lgges, U., Gelman, A. (2005), R2WnBUGS: A Package for Runnng WnBUGS from R., Journal of Statstcal Software, 12(3), 1-16 11. Vogt, M. (2010), Bayesan Spatal Modelng: Proprety and Applcatons to Small Area Estmaton wth Focus on the German Census 2011, PhD Thess, Unversty of Trer http://ubt.opus.hbznrw.de/volltexte/2010/578/pdf/dssertaton_martn_vogt.pdf