Geometryczna zbieżność algorytmu Gibbsa

Geometryczna zbieżność algorytmu Gibbsa Iwona Żerda Wydział Matematyki i Informatyki, Uniwersytet Jagielloński 6 grudnia 2013 6 grudnia 2013 1 / 19

Plan prezentacji 1 Algorytm Gibbsa 2 Tempo zbieżności algorytmu 3 6 grudnia 2013 2 / 19

Algorytm Gibbsa Rozważamy rozkład prawdopodobieństwa określony na X = X 1... X d, (zwykle X = R d lub jej podzbiór) z σ-ciałem zbiorów borelowskich B(X ) z funkcja gęstości π. Szukamy: π(f ) = X f (x)π(x)dx. Oznaczmy: P(x, A) := Pr(X n A X n 1 = x), x X, A B(X ) Niech π będzie ciagła i dodatnia oraz załóżmy, że potrafimy losować ze wszystkich rozkładów warunkowych π( x i ), gdzie x i = (x 1..., x i 1, x i+1,..., x d ). 6 grudnia 2013 3 / 19

Algorytm Gibbsa Deterministyczny algorytm Gibbsa x 1 π( x 2, x 3,..., x d ) x 2 π( x 1, x 3,..., x d )... x d π( x 1, x 2,..., x d 1 ) X = (x 1,..., x d ) przejdź do 1. kroku. Losowy algorytm Gibbsa i U({1,..., d}) x i π( x 1,..., x i 1, x i+1,..., x d ) X = (x 1,..., x i 1, x i, x i+1,..., x d ) przejdź do 1. kroku. 6 grudnia 2013 4 / 19

Tempo zbieżności algorytmu Zbieżność geometryczna Łańcuch Markowa (X n ) n 0 z rozkładem stacjonarnym π oraz jadrem przejścia P jest geometrycznie zbieżny, jeśli istnieje stała ρ < 1 oraz funkcja M : X [0, ) x X π p.w. P n (x, ) π( ) tv M(x)ρ n. 6 grudnia 2013 5 / 19

Tempo zbieżności algorytmu Zbieżność geometryczna Łańcuch Markowa (X n ) n 0 z rozkładem stacjonarnym π oraz jadrem przejścia P jest geometrycznie zbieżny, jeśli istnieje stała ρ < 1 oraz funkcja M : X [0, ) CTG x X π p.w. P n (x, ) π( ) tv M(x)ρ n. Jeśli łańcuch Markowa (X n ) n 0 z rozkładem stacjonarnym π jest geometrycznie zbieżny, to dla dowolnej funkcji h takiej, że π( h 2+δ ) < dla pewnego δ > 0, zachodzi Centralne Twierdzenie Graniczne, tzn. 1 n n i=1 (h(x i ) π(h)) n N (0, σ2 ), gdzie σ 2 1 [ = lim n n E (h(x i ) π(h)) 2] <. 6 grudnia 2013 5 / 19

Tempo zbieżności algorytmu Warunek minoryzacji Zbiór C B(X) miary π(c) > 0 nazywamy zbiorem małym, jeśli istnieje stała β > 0 i miara probabilistyczna ν na (X, B(X )) taka, że x C A B(X ) P(x, A) βν(a). Warunek dryfu Powiemy, że łańcuch Markowa (X n ) n 0 spełnia warunek dryfu do zbioru C, jeśli istnieje funkcja V : X [1, ) i stałe 0 < λ < 1, K < takie, że PV (x) λv (x) + K 1 C (x), x X gdzie PV (x) := X V (y)p(x, dy). 6 grudnia 2013 6 / 19

Tempo zbieżności algorytmu Twierdzenie o zbieżności geometrycznej Niech (X n ) n 0 będzie nieredukowalnym i nieokresowym łańcuchem Markowa z jadrem przejścia P i rozkładem stacjonarnym π. Jeśli (X n ) n 0 spełnia warunek dryfu z funkcja V do pewnego małego zbioru C, to łańcuch ten jest geometrycznie zbieżny do π. 6 grudnia 2013 7 / 19

Tempo zbieżności algorytmu Co dotychczas wiemy? dostępne sa teoretyczne wyniki, jednak ich weryfikacja jest trudna w praktycznych zastosowaniach, geometryczna zbieżność algorytmu Gibbsa wykazano dotychczas jedynie dla wybranych modeli, w przypadku algorytmu Gibbsa w R 2 wiemy, że jeśli geometrycznie zbieżny jest łańcuchy Markowa uzyskany za pomoca jednego z algorytmów DGS lub RGS, to zbieżny geometrycznie jest również łancuch uzyskany za pomoca drugiego z algorytmów; podano również warunki zbieżności w tym przypadku (Johnson 2012), wskazano rozsadne warunki na geometryczna zbieżność algorytmu Metropolisa wewnatrz Gibbsa (Fort 2003). 6 grudnia 2013 8 / 19

Rozważam klasę ciagłych i dodatnich rozkładów prawdopodobieństwa π na (R d, B(R d )) takich, że: i=1,...,d lim sup x 2 xi 2 log π(x) < 0 (1) {xn} n, lim n x n = { xn} n-podciag {x n} n i {1,...,d} 0<δ y [0,δ) lim sup sgn( x i n n) log π( x n + te i ) = (2) x i {t, t y} 6 grudnia 2013 9 / 19

Warunek (2) nie jest spełniony np. dla: 5 0 5 1e 25 1e 15 0.001 0.1 0.01 1e 05 1e 10 1e 20 π(x, y) e (x 2 +y 2 + 1 4 (x 2 y 2 ) 2 ) 5 0 5 6 grudnia 2013 10 / 19

Warunki (1) i (2) sa spełnione np. dla: 5 0 5 1e 20 1e 05 0.01 0.1 0.001 1e 10 1e 15 1e 25 π(x, y) e (x 2 +y 2 +x 2 y 2 ) 5 0 5 6 grudnia 2013 11 / 19

Warunki (1) i (2) sa spełnione np. dla: 1e 05 1e 04 0.001 5 0 5 0.3162278 0.1 0.1 0.3162278 0.03162278 0.03162278 0.003162278 0.01 π(x, y) 1 2 f N (( 2, 2),I) + 1 2 f N ((2,2),I) 0.0003162278 3.162278e 05 5 0 5 6 grudnia 2013 12 / 19

Warunki (1) i (2) sa spełnione np. dla: 5 0 5 1e 05 0.001 0.01 0.1 1e 10 1e 15 1e 20 1e 25 π(x, y) 1 2 f N ((0,0),A 1 ) + 1 2 f N ((0,0),A 2 ) [ 1 ] A 1 = a 0 [ 0 1 ] 1 0 A 2 = 0 1 a 5 0 5 6 grudnia 2013 13 / 19

Model miesięcznej zapadalności na chorobę Heinego-Medina y = (y 1,..., y d ). Dla k = 1,..., d: Y k Poisson(λ k ), λ k = exp(µ k + X k ), µ jest wektorem deterministycznym, X k jest zadany modelem AR(1): X k = ax k 1 + ε k, ε k N (0, λ 1 ), a < 1 Rozkład π jest postaci: ( d π(x y, a, λ, µ) exp {y k (µ k + x k ) exp(µ k + x k )} k=1 λ 2 ) d (x k ax k 1 ) 2 λ 2 (1 a2 )x1 2 k=2 6 grudnia 2013 14 / 19

Proste przeliczenia pozwalaja zweryfikować warunki (1) i (2): log(π(x)) = y 1 exp(µ 1 + x 1 ) λx 1 + λax 2 x 1 log(π(x)) = y i exp(µ i + x i ) λ(1 + a 2 )x i + λa(x i+1 x i 1 ), x i i = 2,..., d 1 log(π(x)) = y d exp(µ d + x d ) λx d + λax d 1 x d 6 grudnia 2013 15 / 19

Model skuteczności leków w metaanalizie bayesowskiej y = (y 11,..., y 1m1, y 21,..., y 2m2,..., y k1,..., y kmk ) Dla i = 1,..., k, j = 1,..., m i : Y ij (0, 1, p ij ), logit(p ij ) = p ij 1 p ij = u i + x ij, U i i.i.d. o rozkładzie a priori N (0, σ 2 ), σ 2 > 0, X ij i.i.d. o rozkładzie a priori N (0, τ 2 ), τ 2 > 0. Rozkład π jest postaci: k m i π(u y, x, σ 2, τ 2 ) exp u i y i+ log(1 + e u i +x ij ) u2 i 2σ 2 m i dla y i+ = y ij. i=1 i=1 j=1 6 grudnia 2013 16 / 19

Proste przeliczenia pozwalaja zweryfikować warunki (1) i (2): u i log(π(u y, β, x, σ 2 )) = y i+ p i+ u i σ 2, m i gdzie y i+ = y ij, p i+ = p ij. j=1 m i j=1 6 grudnia 2013 17 / 19

Lemat Niech π będzie ciagł a i dodatnia funkcja gęstości, wówczas każdy ograniczony zbiór w X jest zbiorem małym dla łańcucha Markowa z algorytmu Gibbsa. Twierdzenie Niech π będzie ciagł a i dodatnia funkcja gęstości, która spełnia warunki (1) i (2). Niech 0 < s < 1 d i V (x) := π(x) s. Wówczas istnieja stałe 0 < L, b < i 0 < λ < 1 takie, że dla łańcucha Markowa (X n ) n 0 z algorytmu Gibbsa (RGS lub DGS) zachodzi: x X PV (x) λv (x) + b1 B(0,L) (x). 6 grudnia 2013 18 / 19

Lemat Niech π będzie ciagł a i dodatnia funkcja gęstości, wówczas każdy ograniczony zbiór w X jest zbiorem małym dla łańcucha Markowa z algorytmu Gibbsa. Twierdzenie Niech π będzie ciagł a i dodatnia funkcja gęstości, która spełnia warunki (1) i (2). Niech 0 < s < 1 d i V (x) := π(x) s. Wówczas istnieja stałe 0 < L, b < i 0 < λ < 1 takie, że dla łańcucha Markowa (X n ) n 0 z algorytmu Gibbsa (RGS lub DGS) zachodzi: x X PV (x) λv (x) + b1 B(0,L) (x). spełnione sa warunki minoryzacji i dryfu, 6 grudnia 2013 18 / 19

Lemat Niech π będzie ciagł a i dodatnia funkcja gęstości, wówczas każdy ograniczony zbiór w X jest zbiorem małym dla łańcucha Markowa z algorytmu Gibbsa. Twierdzenie Niech π będzie ciagł a i dodatnia funkcja gęstości, która spełnia warunki (1) i (2). Niech 0 < s < 1 d i V (x) := π(x) s. Wówczas istnieja stałe 0 < L, b < i 0 < λ < 1 takie, że dla łańcucha Markowa (X n ) n 0 z algorytmu Gibbsa (RGS lub DGS) zachodzi: x X PV (x) λv (x) + b1 B(0,L) (x). spełnione sa warunki minoryzacji i dryfu, łańcuch Markowa z algorytmu Gibbsa jest geometrycznie zbieżny. 6 grudnia 2013 18 / 19

Dziękuję za uwagę! Bibliografia: 1 G. Fort et al., On the Geometric Ergodicity of Hybrid Samplers, 2003, Journal of Applied Probability, 40(1), 123-146, 2 A. A. Johnson, O. Burbanky, Geometric Ergodicity & Scanning Strategies for Two-Component Gibbs Samplers, 2012 dostępne na http://arxiv.org/abs/1209.6283, 3 I. Żerda, Practical conditions for geometric convergence of the Gibbs sampler, praca w przygotowaniu. 6 grudnia 2013 19 / 19