Algorytmy MCMC i ich zastosowania statystyczne

Algorytmy MCMC i ich zastosowania statystyczne Wojciech Niemiro Uniwersytet Mikołaja Kopernika, Toruń i Uniwersytet Warszawski Statystyka Matematyczna Wisła, grudzień 2010

Wykład 4 1 Oszacowania dokładności 2 CTG i oszacowania asymptotyczne Centralne Twierdzenie Graniczne Estymacja asymptotycznej wariancji 3 Ścisłe oszacowania MSE Oszacowania MSE metoda regeneracji Oszacowania MSE przez lukę spektralna 4 Ścisłe przedziały ufności Od MSE do oszacowań ufności Nierówności wykładnicze 5 Nieobecne w tym wykładzie ważne tematy Adaptacja Inne 6 Bibliografia

Typowe oszacowania Zbieżność rozkładów jednowymiarowych: P n (x, ) π( ) tv? Bład średniokwadratowy: MSE = E (ˆθ n θ) 2? Poziom ufności: P( ˆθ n θ > ε)?

CTG i asymptotyczne przedziały ufności Obliczana całka i jej estymator: θ = π(f ) = X f (x)π(dx), ˆθ n = 1 n n 1 i=0 f (X i). Jeśli n(ˆθn θ) d N(0, σ 2 as(f )) i ˆσ 2 n jest zgodnym estymatorem asymptotycznej wariancji to ( lim P ˆθ n θ > z ˆσ ) n = α n n (z = z 1 α/2 jest kwantylem rozkładu N(0, 1)).

Centralne Twierdzenie Graniczne Podejście martyngałowe przez równanie Poissona. Podejście regeneracyjne. TWIERDZENIE (Bednorz, Latała, Łatuszyński 2008) Załóżmy, że istnieje rozkład stacjonarny, łańcuch jest ergodyczny i P h βi J ν dla π(j) > 0. Jeśli π(f 2 ) < to n-ctg zachodzi wtedy i tylko wtedy, gdy T 1 E ν B 2 <, B = [f (X i ) θ], gdzie T jest pierwszym momentem odnowienia, θ = πf. Co więcej, σ 2 as(f ) = E ν B 2 /E ν T. i=0

Dowód CTG poprzez regenerację Część łatwa: dostateczność, dla h = 1. Pierwsza regeneracja po momencie n: R(n) = min{r : T r > n}. 0,..., T 1 1, T 1,......, T R(n) 1,..., n,..., T R(n) 1, T R(n),... ν( ) ν( ) n ν( ) Rozbicie sumy: n(ˆθn θ) = 1 n 1 [f (X i ) θ] = 1 (O 1 + Z O 2 ). n n i=0 O 1 O 2 {}}{{}}{ 0,..., T 1 1, T 1,......, T R(n) 1,..., n,..., T R(n) 1, T R(n),...

Dowód CTG poprzez regenerację Główny składnik Z jest suma i.i.d. bloków B k = T k 1 i=t k 1 [f (X i ) θ]. Twierdzenie Anscomba (CTG dla losowej liczby i.i.d. składników). Oszacowanie 2 ogonków O 1 i O 2. Część trudna: dla h > 0 bloki sa 1-zależne. Konieczność!...

Sekwencyjna estymacja stało-precyzyjna Glynn and Whitt (1992). Jeżeli N(ε) = min { n : z ˆσ } n + p(n) ε, n to symulacja długości N(ε) daje asymptotyczny przedział ufności długości 2ε dla θ = π(f ). Potrzebne założenia: Funkcjonalne CTG, Mocna zgodność ˆσ n 2 p.n. σ 2 as(f ), p(n) = o(1/ n).

Estymatory wariancji asymptotycznej typu batch means Oczywiście, lim n bvar 1 b c+b 1 i=c f (X i ) σ 2 as(f ) przy b. Niech n = ab. Rozbijamy trajektorię na a odcinków długości b ( batches ). Estymator BM: ˆσ 2 = b a 1 a 1 b j=1 jb 1 i=(j 1)b f (X i ) ˆθ n Do zgodności potrzeba a = a n, b = b n. 2.

Estymatory typu batch means Warunki podane przez Jonesa i in. (JASA 2006), ulepszone przez Bednorza i Łatuszyńskiego (JASA 2007): Jeśli łańcuch jest geometrycznie ergodyczny, powracajacy w sensie Harrisa i E π f 2+δ+ε <, a n, b n i b n /n 0, bn 1 n 2α (log n) 3 0, gdzie α = 1/(2 + δ), istnieje c 1 takie, że n (b n/n) c <, to dla estymatora BM, ˆσ 2 n p.n. σ 2 as(f ). Jeszcze inne metody: Overlapping batch means Estymatory regeneracyjne (wymagajace identyfikacji momentów odnowienia) Metody spektralne

Oszacowania MSE metoda regeneracji Łatuszyński, Niemiro (2010, J.Complex.): przy założeniach twierdzenia Baxendale a (2005), dla f 2 V, jawne nieasymptotyczne oszacowania MSE. W dowodzie istotnie wykorzysujemy wynik Baxendale a. Nowszy wynik: TWIERDZENIE (Łatuszyński, Miasojedow, Niemiro, 2010) Jeśli istnieje rozkład stacjonarny π i 1-mały zbiór J X z π(j) > 0 (warunek minoryzacji) to E ξ (ˆθ n θ) 2 σ ( as(f ) 1 + C ) 0 + C 1(f ) + C 2(f ) n n n n, gdzie f = f θ, B = T 1 i=0 f (X i ), σas(f 2 ) = E νb 2 E ν T, C 0 = E π T = E νt 2 2E ν T + 1 2, C 1 (f ) = E ξ B 2, C 2 (f ) = E ξp nb 2.

Komentarze Uwaga W naszym twierdzeniu: Funkcja f może być nieograniczona. Nieasymptotyczne oszacowanie jest asymptotycznie optymalne : E ξ (ˆθ n θ) 2 σ ( as(f ) 1 + C ) 0 + C 1(f ) + C 2(f ) n n n n, a wiadomo, że σas(f 2 ) jest asymptotyczna wariancja w CTG, E ξ (ˆθ n θ) 2 σ as(f ) n (n ).

Szkic dowodu rozbijamy sumę jak w dowodzie CTG: ˆθ n θ = 1 n (O 1 + Z O 2 ) Główny składnik, Z = T R(n) 1 i=t 1 f (Xi ) = R(n) k=2 zaznaczony na niebiesko: Z {}}{ 0,..., T 1 1, T 1,..., T R(n) 1,..., n,..., T R(n) 1, T R(n),... Z jest suma losowej liczby iid składników i R(n) jest czasem zatrzymania. Możemy użyć narzędzi analizy sekwencyjnej: Dwie tożsamości Abrahama Walda. Twierdzenie Lordena (1970, teoria odnowienia). B k Pozostaje oszacować dwa ogonki, O 1 i O 1.

Warunek dryfu Geometryczny dryf do 1-małego zbioru J. ZAŁOŻENIE Minoryzacja. Istnieje J, β > 0 i miara probabilistyczna ν takie, że P(x, ) βi J (x)ν( ). Dryf. Istnieje funkcja V : X [1, [, stałe λ < 1 i K < takie, że { PV 2 (x) := P(x, dy)v 2 λ 2 V 2 (x) dla x J, (y) K 2 dla x J. X Uwaga Notacja V 2, λ 2, K 2 dla uproszczenia dalszych wzorków.

Jawne oszacowania przy warunku dryfu Oszacowania stałych σ 2 as(f ), C 0, C 1 (f ), C 2 (f ). Przy założeniach Minoryzacja i Dryf, jeśli f jest taka, że f V = sup x f (x) /V (x) < wtedy ( ) 1 + λ σas(f 2 ) f 2 V 1 λ π(v 2 2(K λ β) ) + π(v ), β(1 λ) C 0 λ K λ(1 + β) π(v ) +, 1 λ β(1 λ) C 1 (f ) 2 1 (1 λ) 2 ξ(v 2 ) + 2(K λ β) β(1 λ) 2 ξ(v ) + β(3 + λ)(k 2 λ 2 β) + 2(1 + λ)(k λ β) 2 β 2 (1 λ) 2, (1 + λ) C 2 (f ) 2 analogiczne wyrażenie z ξ zastapionym przez ξp n.

Jawne oszacowania przy warunku dryfu Dalsze oszacowania wielkości π(v ), π(v 2 ), ξp n (V ), ξp n (V 2 ), f V. Przy założeniach Minoryzacja i Dryf, π(v ) π(j) K λ 1 λ K λ 1 λ, π(v 2 ) π(j) K 2 λ 2 1 λ 2 K 2 λ 2 1 λ 2, jeśli ξ(v ) K 1 λ to ξpn (V ) K 1 λ, jeśli ξ(v 2 ) K 2 1 λ 2 to ξpn (V 2 ) K 2 1 λ 2, π(j)(k λ) f V f V + (1 λ) inf x X V (x) f V + K λ 1 λ.

Teoria spektralna Aldous (1987), Gillman (1998), Niemiro i Pokarowski (2009) oszacowania MSE dla łańcuchów na skończonej przestrzeni stanów. Rudolf (J.Complex. 2009, 2010) - ogólna przestrzeń. Rozpatrujemy łańcuch odwracalny z rozkładem stacjonarnym π. Przestrzeń Hilberta: L 2 = L 2 (π) = {f : f 2 2 = E πf 2 < }. Niech γ = P π L 2 L 2 = sup f 2 1,πf =0 Pf 2. Łańcuch odwracalny operator P jest samosprzężony. Widmo σ(p) [ 1, 1]. Zauważmy, że γ = sup{ λ : λ σ(p)}, podczas gdy γ 1 = sup{λ : λ σ(p)} γ.

Oszacowania MSE przez lukę spektralna Istnienie luki spektralnej: γ < 1 jest równoważne geometrycznej ergodyczności. t+n 1 Rudolf (2010): ˆθ t,n = 1 n i=t f (X i ) - estymator z burn-in. Niech f p p = E π f p < dla p 4. ( E ξ (ˆθ t,n θ) 2 f 2 2 p n(1 γ) + 46γ t ) dξ n 2 (1 γ) 2 dπ 1. 2 Uwaga: σas(f 2 ) f 2 1 + γ 1 2 f 2 2 2 1 γ 1 1 γ.

Oszacowania luki spektralnej Konduktancja Φ = Nierówność Cheegera: inf P(x, A c )π(dx)/π(a). 0<π(A) 1/2 A γ 1 1 Φ2 2. Jeśli Operator P jest nieujemny, to γ = γ 1.

Jawne oszacowania w paru przykładach Łańcuch Hit-and-run na wypukłym ciele D R d. Jeśli B(0, 1) D B(0, r) to Wniosek: jeśli tylko t 2 50 d 3 r 2 log r. 1 γ 1 2 51 d 2 r 2. MSE 2 26 dr n + 2 29 d 2 r 2 n, Łańcuch Metropolisa z propozyjami losowanym z rozkładu jednostajnego na kuli...

Przedziały ufności dla Mediany Średnich Cel: precyzja ε na poziomie ufności 1 α. P( ˆθ θ ε) 1 α Mediana Średnich (MŚ) (Jerrum, Valiant and Vazirani, 1986, Niemiro i Pokarowski, JAP 2009): Generujemy m niezależnych kopii łańcucha Markowa i obliczamy średnie: X (1) 0, X (1) 1,..., X (1) n 1 n 1 (1) ˆθ n = f (X (1) i ), i=0 X (m) 0, X (m) 1,..., X (m) n 1 Estymator MŚ: ˆθ (ˆθ(1) m,n = med n,..., n 1 (m) ˆθ n = f (X (m) i ). ) (m) ˆθ n. i=0

Nierówności wykładnicze Gillman (1998), Dinnwoodie, Lezaud (1998), Leon i Perron (2004) nierówności wykładnicze dla łańcuchów na przestrzeni skończonej. Glynn i Ormonait (2002) nierówność Hoeffdinga dla jednostajnie ergodycznych łańcuchów. Miasojedow (2010) uogólnienie wyniku Leona i Perrona na przypadek ogólnej przestrzeni i łańcucha nieodwracalnego. Miasojedow (2010) nierówności pod-wykładnicze dla funkcji nieograniczonej. Adamczak i Bednorz (2010).

Adaptacja Jadro rzadz ace przejściem X n X n+1 uzależniamy od tego, co wiemy o π na podstawie dotychczasowych symulacji X 0,..., X n 1. Utrata własności Markowa! Atchade, Andrieu, Moulines, Fort, Haario, Saksman, Vihola, Casella, Łatuszyński, Roberts, Rosenthal, Sahu...

Jeszcze inne ważne tematy Simulated tempering i inne metody przyspieszania algorytmów. Reversible jump, algorytmy zmieniajace wymiar, obliczanie stałych normujacych zastosowania do wyboru modelu. Losowanie dokładne (perfect sampling). Dokładne symulowanie zdarzeń zwiazanych z dyfuzjami.

Bibliografia (bardzo wybiórcza) Prace przegladowe: C.J. Geyer (1992): Practical Markov Chain Monte Carlo. Stat. Sci. 7 (4), 473 511. C.J. Geyer (1995, 2005): Markov chain Monte Carlo Lecture Notes. Dostępne na www.stat.umn.edu/geyer. E. Nummelin (2002): MC s for MCMC ists. International Statistical Review, 70, 215 240. G.O. Roberts and J.S. Rosenthal (2004): General state space Markov chains and MCMC algorithms. Probability Surveys 1, 20 71.

Regeneracja, coupling, zbieżność rozkładów: K.B. Athreya and P. Ney (1978): A new approach to the limit theory of recurrent Markov chains, Trans. Amer. Math. Soc. 245, 493 501. E. Nummelin (1978): A splitting technique for Harris recurrent Markov chains. Z. Wahr. Verw. Geb. 43, 309 318. J.S. Rosenthal: Quantitative convergence rates of Markov chains: a simple account. Elect. Comm. in Probab. 7, 123 128, 2002. G.O. Roberts and J.S. Rosenthal (1997): Geometric ergodicity and hybrid Markov chains. Elec. Comm. Prob. 2 (2). P.H. Baxendale (2005): Renewal Theory and Computable Convergence Rates for Geometrically Ergodic Markov Chains. Ann. Appl. Prob. 15, 700-738.

CTG i oszcacowania asymptotyczne: G. Jones (2004): On the Markov chain Central Limit Theorem, Probability Surveys 1, 299 320. W. Bednorz, R. Latała and K. Łatuszyński (2008): A Regeneration Proof of the Central Limit Theorem for Uniformly Ergodic Markov Chains. Elect. Comm. in Probab. 13, 85 98. W. Bednorz, K. Łatuszyński (2007): A few Remarks on Fixed-Width Output Analysis for Markov Chain Monte Carlo"by Jones et al. Journal of the American Statatistical Association 102 (480), 1485 1486.

Nieasymptotyczne oszacowania błędu (MSE): W. Niemiro and P. Pokarowski (2009): Fixed precision MCMC Estimation by Median of Products of Averages. J. Appl. Probab. 46 (2), 309 329. K. Łatuszyński and W. Niemiro (2010): Rigorous confidence bounds for MCMC under a geometric drift condition. Ukaże się w Journal of Complexity. K. Łatuszyński, B. Miasojedow and W. Niemiro (2009): Nonasymptotic bounds on the estimation error for regenerative MCMC algorithms. Dostępne na arxiv:0907.4915v1. D. Rudolf (2008): Explicit error bounds for lazy reversible Markov chain Monte Carlo. J. of Complexity 25, 11 24.

Oszacownia dla konkretnych modeli: Y.F. Atchade, F. Perron (2007): On the geometric ergodicity of Metropolis-Hastings algorithms. Statistics 41, 77 84. J.P. Hobert and C.J. Geyer (1998): Geometric ergodicity of Gibbs and block Gibbs samplers for hierarchical random effects Model. J. Multivariate Anal. 67, 414-430. A.A. Johnson and G.L. Jones (2010): Gibbs sampling for a Bayesian hierarchical general linear model. Electronic J. Statist. 4, 313 333.