Algorytmy MCMC i ich zastosowania statystyczne

Algorytmy MCMC i ich zastosowania statystyczne Wojciech Niemiro Uniwersytet Mikołaja Kopernika, Toruń i Uniwersytet Warszawski Statystyka Matematyczna Wisła, grudzień 2010

Wykład 3 1 Łańcuchy Markowa Oznaczenia i założenia 2 Regeneracja Mały zbiór Regeneracja 3 Coupling Konstrukcja Ergodyczność 4 Warunki dryfu Geometryczna ergodyczność Jawne oszacowania

Oznaczenia Łańcuch Markowa (jednorodny) X 0, X 1,..., X n,... na przestrzeni X (polskiej). Jadro przejścia: P(x, A) = P(X n+1 A X n = x). Zależność od rozkładu poczatkowego: P ξ, E ξ. Jeśli ξ = δ x to P x, E x. Jeśli ξ jest miara i f jest funkcja na X to: Pf (x) = P(x, dy)f (x) = E x f (X 1 ); ξp(a) = ξ(dx)p(x, A) = P ξ (X 1 A); ξf = ξ(dx)f (x). J adro przejścia w n krokach: P n (x, A) = P(x, dx1 )P(x 1, dx 2 ) P(x n 1, A) = P x (X n A).

Stałe założenia ZAŁOŻENIA Rozkład stacjonarny. Istnieje rozkład π na X taki, że πp = π. Łańcuch jest π-nieprzywiedlny i nieokresowy, x X A:π(A)>0 n0 n n0 P n (x, A) > 0. Łańcuch jest powracajacy w sensie Harrisa, x X A:π(A)>0 P x ( n : X n A) = 1. Uwaga Zastrzeżenia typu p.n. [π] będa zazwyczaj pomijane.

Regeneracja Niech J będzie 1-małym zbiorem Resztowe jadro przejścia: P(x, ) βi J (x)ν( ). Q(x, ) = P(x, ) βi J(x)ν( ). 1 βi J (x) Jeśli X n 1 J to Γ n 1 = 0: nie ma regeneracji, losuj X n P(X n 1, ); Jeśli X n 1 J to randomizuj, z prawdopodobieństwem 1 β: Γ n 1 = 0, nie ma regeneracji, losuj X n Q(X n 1, ); z prawdopodobieństwem β: Γ n 1 = 1, regeneracja! losuj X n ν( ).

Regeneracja Podwójny łańcuch (split chain) (X n, Γ n ) na przestrzeni X {0, 1} ma atom J {1}. X n 1 J? nie tak Γ n 1 := 0 randomizacja 1 β β Gen X n P(X n 1, ) Γ n 1 := 0 Γ n 1 := 1 Gen X n Q(X n 1, ) Gen X n ν( )

Regeneracja Uwaga: Faktycznie losowanie Q(X n 1, ) nie zawsze jest konieczne (Mykland et al. 1995). Niech ν(dy)/p(x, dy) oznacza pochodna Radona-Nikodyma (w praktyce, iloraz gęstości). Próbkowanie retrospektywne : najpierw generujemy X n P(X n 1, ) a następnie Γ n 1 z rozkładu warunkowego (wzór Bayesa), βν(dx n ) P(Γ n 1 = 1 X n 1, X n ) = I J (X n 1 ) P(X n 1, dx n ). Uwaga: Niestety, trzeba znać gęstości!

Czasy odnowienia T = T 1 = min{n > 0 : Γ n 1 = 1}, T k = min{n > T k 1 : Γ n 1 = 1}. Momenty regeneracji (odnowienia) dziela łańcuch na niezależne bloki losowej długości. X 0,..., X T1 1, X T1,..., X T2 1, X T2,..., X T3 1,... }{{}}{{}}{{} T 1 T 2 T 1 T 3 T 2 ν Wszystkie bloki maja ten sam rozkład z wyjatkiem, być może, poczatkowego. ν

Twierdzenie Kaca Zakładamy, że istnieje rozkład stacjonarny π i 1-mały zbiór J, łańcuch jest π-nieprzywiedlny. Niech T 1 µ(a) = E ν I A (X n ) = n=0 P(X n A, T > n). n=0 TWIERDZENIE (Kac) Przy tych założeniach βπ(j) = 1/E ν (T ) oraz µ( )/E ν (T ) = π( ).

Twierdzenie Kaca Dowód. Miara µ jest niezmiennicza. Istotnie, µ(a) = P(X n A, T > n) = n=0 νr n (A) n=0 gdzie R = P βi J ν jest nieunormowanym jadrem resztowym (sub-probabilistycznym). Mamy P = R + βi J ν i ponadto νr n 1 βi J = P ν (T = n), więc µβi J = P ν (T < ) = 1, µp = νr n P = n=0 = νr n (R + I J ν) n=0 νr n+1 + µβi J ν = n=0 Oczywiście, E ν T = µ(x ), stad π = µ/e ν T. νr n+1 + ν = µ. n=0

Regeneracja dla h > 1 Próby odnowienia sa podejmowane co h kroków. Jeżeli Γ n 1 = 1 to X nh ν i w rezultacie X nh, X nh+1,... jest niezależne od X 0,..., X (n 1)h. Γ 0 Γ 1 Γ n 1 = 1 ν X 0 X h X (n 1)h X nh Ale brakujacy odcinek X (n 1)h+1,... X nh 1 wypełniamy zgodnie z rozkładem warunkowym P( X (n 1)h, X nh ). W rezultacie: wyznaczone momentami regeneracji bloki s a 1-zależne.

Odległość pełnego wahania (total variation) DEFINICJA Jeżeli µ 1 i µ 1 sa miarami probabilistycznymi na X to µ 1 µ 2 tv = sup µ 1 (A) µ 2 (A) A X = 1 2 sup µ 1 f µ 2 f = 1 2 f 1 X m 1 (x) m 2 (x) dx, gdzie m i (x)dx = µ i (dx) (gęstości względem dowolnej wspólnej miary dx).

Coupling Lemat (O couplingu) µ 1 µ 2 tv b wtedy i tylko wtedy gdy istnieja zmienne losowe (X 1, X 2 ) takie, że X 1 µ 1, X 2 µ 2 i P(X 1 X 2 ) b. Dowód. µ 1 (A) µ 2 (A) = P(X 1 A) P(X 2 A) P(X 1 A) P(X 1 A, X 2 A) = P(X 1 A, X 2 A) P(X 1 X 2 ). Jeśli µ 1 µ 2 tv = b to niech oraz ν będzie miara o gęstości (m 1 m 2 )/(1 b), zaś ρ 1, ρ 2 miary o gęstości (m 1 m 2 ) + /b oraz (m 2 m 1 ) + /b. randomizacja 1 b b Gen X ν niezależnie lub inaczej X 1 := X 2 := X Gen X 1 ρ 1 Gen X 2 ρ 2.

Coupling dla łańcuchów Markowa Łańcuch podwójny X n = (X n, X n) na przestrzeni X X. Jadro P(x, x, A A ) jest brzegowo zgodne z P(x, A) jeśli P(x, x, A X ) = P(x, A), P(x, x, X A ) = P(x, A ). Coupling: Jeśli X n 1 = X n 1 to X n = X n. DEFINICJA Pseudo-mały zbiór. J X X jest 1-pseudo-małym zbiorem jeśli istnieje jadro przejścia ν(x, x, A) i β > 0 takie, że Przykłady: P(x, A) P(x, A) βi J(x, x )ν(x, x, A), (A X ). Jeśli J X jest 1-mały, to J J X X jest 1-pseudo-mały. Przekatna {(x, x) : x X } jest 1-pseudo-mała (przestrzenie dyskretne).

Coupling dla łańcuchów Markowa J jest 1-pseudo-mały. Niech jadro resztowe Q(x, x, A A ) ma następujace rozkłady brzegowe: Q(x, x, A X ) = P(x, A) βi J(x, x )ν(x, x, A) 1 βi J(x, x, ) Q(x, x, X A ) = P(x, A ) βi J(x, x )ν(x, x, A ) 1 βi J(x, x. ) Może być, powiedzmy, produktem tych rozkładów brzegowych (to chyba nie jest istotne).

Coupling dla łańcuchów Markowa Konstrukcja couplingu ( J jest 1-pseudo-mały): X n 1 = (X n 1, X n 1 ) J? nie tak brak couplingu randomizacja 1 β β Gen X n P( X n 1, ) brak couplingu coupling! Gen X n Q( X n 1, ) Gen X n = X n ν(x n 1, X n 1, ) Niech T będzie czasem couplingu, X n = X n dla n T. WNIOSEK Jeśli X 0 π to P(X n ) π( ) tv P( T > n).

Ergodyczność DEFINICJA Łańcuch jest ergodyczny jeśli dla każdego x X, P n (x, ) π( ) tv 0 (n ). Łańcuch jest geometrycznie ergodyczny jeśli istnieje ϱ < 1 i M( ) < takie, że P n (x, ) π( ) tv M(x)ϱ n. Łańcuch jest jest jednostajnie ergodyczny jeśli istnieje ϱ < 1 i M < takie, że P n (x, ) π( ) tv Mϱ n.

Ergodyczność poprzez coupling TWIERDZENIE Jeżeli łańcuch jest π-nieprzywiedlny, nieokresowy i powracajacy w sensie Harrisa, to jest ergodyczny. TWIERDZENIE (Rosenthal 1995, Doob 1953, Doeblin 1938, Markov 1906) Jeżeli P h (x, ) βν( ) to Dowód. P n (x, ) π( ) tv (1 β) n/h. Stosujemy coupling do h-szkieletu łańcucha: X 0, X h,..., X kh,.... Czas couplingu T ma rozkład geometryczny, więc P kh (x, ) π( ) tv P x ( T > kh) = (1 β) k. Dla kh n < (k + 1)h odwołujemy się do monotoniczności.

Warunki dryfu i geometryczna ergodyczność DEFINICJA (Geometryczny warunek dryfu) Niech J X. Istnieje funkcja V 1, stałe λ < 1 i K < takie, że { λv (x) dla x J, PV (x) (1) K dla x J. Uwaga Równoważny warunek: PV λv + bi J.

V -jednostajna ergodyczność Niech V 1 będzie funkcja na X. Dla funkcji: f L V jeśli f f (x) V = sup x V (x) <. Dla miar µ 1 µ 2 V = sup f V µ 1 f µ 2 f. P(x, ) Q(x, ) V Dla jader: P Q V = sup x = V (x) sup f V Pf Qf V : to jest norma operatorowa w L V. DEFINICJA Łańcuch jest V -jednostajnie ergodyczny jeśli istnieje ϱ < 1 i M < takie, że P n (x, ) π( ) V MV (x)ϱ n. Równoważnie, P n π V Mϱ n.

Geometryczna i V -jednostajna ergodyczność TWIERDZENIE (Roberts, Rosenthal 1997) Dla π-nieprzywiedlnych, nieeokresowych łańcuchów następujace warunki sa równoważne: warunek dryfu (1) dla pewnej funkcji V 1, do pewnego h-małego zbioru J, geometryczna ergodyczność, V 2 -jednostajna ergodyczność dla pewnej funkcji V 2. Przy tym można wybrać V 2 av 1 i V 1 av 2.

Jawne oszacowania przez coupling Rosenthal, Roberts (2004). Warunek dryfu PV λv + bi J do h-małego zbioru + dodatkowo inf x J V (x) [b/(1 λ)] 1 implikuje jawne oszacowania geometrycznej zbieżności w normie tv. Uwagi: Dowód metoda couplingu. 1-dim warunek dryfu (jeśli jest dostatecznie szybki) implikuje 2-dim warunek dryfu. dla łańcucha (X n, X n) do zbioru J J. Coupling niezależny: jeśli (X n 1, X n 1 ) J J to (X n, X n) losuje się niezależnie.

Kolorowanie grafu Graf (S, ). Kolorowanie: funkcja x : S {1,..., q} taka, że x(s) x(t) dla s t. Niech π - rozkład jednostajny na przestrzeni X wszystkich kolorowań. Łańcuch Markowa X n π: wylosuj wierzchołek s U(S); wylosuj kolor z rozkładu jednostajnego na zbiorze dopuszczalnych i przemaluj s. Oszacowanie szybkości zbieżności (Jerrum 1995,1998) Jeżeli q 2d + 1 to P n (x, ) π tv kλ n, gdzie λ = 1 q 2d k(q d), d = stopień grafu, k = #S. Dowód przez coupling: wylosuj wierzchołek s U(S); przemaluj obie kopie łańcucha w s tak, żeby z maksymalnym pr-stwem wykorzystać ten sam kolor dla obu kopii.

Kolorowanie grafu Uwagi: Silna zależność obu kopii! Przekatna {(x, x)} jest zbiorem couplingu (pseudo-mały ale wcale nie mały)! V (x, x ) = #{s S : x(s) x (s)}. PV (x) λv (x), gdzie λ = 1 q 2d k(q d), d = stopień grafu, k = #S. Wniosek: Coupling niezależny do zbioru J J (jak w pracy Rosenthala i Robertsa) musi być mało efektywny!

Jawne oszacowania przez regenerację TWIERDZENIE (Baxendale 2005, Bednorz 2010) Jeśli spełniony jest warunek dryfu (1) do 1-małego zbioru J i ponadto ν(j) δ > 0 to istnieje ρ takie, że dla każdego γ > ρ istnieje M takie, że P n (x, ) π( ) V Mγ n. Przy tym ρ zależy tylko i jawnie od λ, β, δ, zaś M jeszcze dodatkowo od γ. Uwagi: Dowód metoda regeneracji. Wzory sa jawne ale dość okropne. Jeśli γ ρ to zazwyczaj M.