Wielowymiarowy próbnik Gibbsa

29.05.2006 Seminarium szkoleniowe 30 maja 2006

Plan prezentacji Slgorytm MH i PG przypomnienie wiadomości Wielowymiarowy PG Algorytm PG z dopełnieniem Odwracalny PG Modele hierarchiczne Modele hybrydowe Metropolizacja PG Randomizacia PG

Algorytm Metropolisa-Hastingsa przypomnienie Dla zadanej gęstością proponującej g (y x) i dowolnej początkowej wartości x 0, generuj kolejne wyrazy ŁM X 1,..., X n,... w serii następujących kroków: Algorytm 1. MH 1. Wylosuj zmienną Y i 1 z gęstości g (. x i 1 ) 2. Wylosuj punkt X i zgodnie z następują formułą: { Yi 1 z prawd. p (x X i = i 1, Y i ) x i 1 z prawd. 1 p (x i 1, Y i ) gdzie { } f (y) g (x y) p (x, y) = min g (y x) f (x), 1.

Własności algorytmu MH Gęstość f (x) jest gęstością stacjonarną dla ŁM wygenerowanego zgodnie z algorytmem MH dla dowolnej gęstości proponującej (instrumentalnej) g (y x). Jeżeli g (y x) > 0, to ŁM generowany przez algorytm MH jest nieprzywiedlny i powracalny w sensie Harrisa. Jeżeli P ( ) f (y) g (x y) 1 < 1, g (y x) f (x) to generowany ŁM jest nieokresowy.

Dwuwymiarowy PG przypomnienie Interesuje nas symulowanie wartości (X 0, Y 0 ), (X 1, Y 1 ),... wektora losowego (X, Y) o gęstości łącznej f (x, y). Zakładamy, że umiemy generować zmienne losowe z gęstości warunkowych f X Y (x y) i f Y X (y x). Startując z dowolnie wybranej wartości początkowej x 0, PG losuje kolejne wartości w cyklu następujących kroków: Algorytm 2. PG 2 1. Wylosuj zmienną Y i z gęstości f Y X (. x i 1 ) 2. Wylosuj zmienną X i z gęstości f X Y (. y i ).

Własności PG PG może być stosowany do losowania próbek z wektora losowego (X, Y ) o trudnej do generowania gęstości łącznej f (x, y). Podciągi X 0, X 1,... i Y 0, Y 1,... są ŁM, których rozkładami stacjonarnymi są, odpowiednio, gęstości brzegowe f X (.) i f Y (.). Jeżeli interesuje nas generowanie zmiennych o skomplikowanej gęstości f X (.), wówczas możliwe jest wprowadzenie dodatkowej zmiennej Y i wykorzystanie prostszych w generacji gęstości warunkowych f X Y (x y) i f Y X (y x). W takim modelu zmienna Y pełni wówczas funkcję zmiennej pomocniczej.

Wielowymiarowy PG W wielowymiarowym PG konstruowany jest ciąg p wymiarowych wektorów losowych o łącznej gęstości f. Niech X = (X 1,..., X p ). W ogólnym przypadku każda z poszczególnych współrzędnych X i też może być wielowymiarowym wektorem losowym. Zakładamy, że możliwe jest efektywne generowanie z poszczególnych gęstości warunkowych X i x 1, x 2,..., x i 1, x i+1,..., x p f i (x i x 1, x 2,..., x i 1, x i+1,..., x p ) Gęstości takie nazywane są jako pełnymi warunkowymi (ang. full conditionals).

Wielowymiarowy PG Algorytm 3. Wielowymiarowy PG ( Dla zadanego x (t) = x (t) ) (t) 1,..., x p generuj 1. X (t+1) ( 1 f 1 x 1 x (t) ) (t) 2,..., x p 2. X (t+1) ( 2 f 2 x 2 x (t+1) 1, x (t) ) (t) 3..., x p. p. X p (t+1) ( f p x p x (t+1) 1,..., x (t+1) ) p 1.

Przykład: Niech f (y 1, y 2, y 3 ) exp { (y 1 + y 2 + y 3 + θ 12 y 1 y 2 + θ 23 y 2 y 3 + θ 13 y 1 y 3 )} (ang. autoexponential model), ze znanym parametrem θ ij > 0. Pełne gęstości warunkowe są bardzo łatwe go generowania. Przykładowo: Dla odmiany: Y 3 y 1, y 2 Exp (1 + θ 23 y 2 + θ 13 y 1 ). f (y 2 y 1 ) exp ( (y 1 + y 2 + θ 12 y 1 y 2 )) 1 + θ 23 y 2 + θ 31 y 1 f (y 1 ) e y exp ( y 1 2 θ 12 y 1 y 2 ) dy 2 1 + θ 23 y 2 + θ 31 y 1 nie dają się już łatwo wygenerować. 0

Algorytm MH a PG Twierdzenie 1. Wielowymiarowy PG jest równoważny połączeniu ze sobą p algorytmów MH o prawdopodobieństwach akceptacji równych zawsze jeden. Mimo teoretycznej równoważności istnieją pewne różnice w praktycznym stosowaniu wspomnianych algorytmów: PG wymaga minimum znajomości poszczególnych pełnych warunkowych gęstości wraz z umiejętnością symulowania wartości zmiennych losowych dla tych gęstości. PG jest z natury wielowymiarowy. Sama jego konstrukcja wymaga stosowania minimum dwuwymiarowych zmiennych losowych. W PG każda z proponowanych wartości jest zawsze akceptowana, podczas gdy dla algorytmu MH zdarzają się odrzucenia nowych wartości na korzyść starych

Dopełnienie Definicja 1. Dla zadanej funkcji gęstości f, gęstość g spełniająca następujący warunek: g (x, z) dz = f (x) Z zwana jest dopełnieniem f. Gęstość g wybierana jest w taki sposób, aby pełne gęstości warunkowe były łatwe do symulacji. Niech y = (x, z) oraz Y 1 y 2,..., y p g 1 (y 1 y 2,..., y p ) Y 2 y 1, y 3,..., y p g 2 (y 2 y 1, y 3,..., y p ) Y p y 1, y 3,..., y p 1 g p (y p y 1, y 3,..., y p 1 ) oznaczają pełne gęstości warunkowe g (y) = g (y 1,..., y p )..

Dopełnienie Algorytm 4. PG z dopełnieniem ( Dla zadanego y (t) = y (t) ) (t) 1,..., y p generuj 1. Y (t+1) ( 1 g 1 y 1 y (t) ) (t) 2,..., y p 2. Y (t+1) ( 2 g 2 y 2 y (t+1) 1, y (t) ) (t) 3..., y p. 3. Y p (t+1) ( g p y p y (t+1) 1,..., y (t+1) ) p 1.

Przykład: Rozważmy następującą gęstość a posteriori (ang. Cauchy-Norlam posterior distribution): f (θ θ 0 ) e θ2 /2 [1 + (θ θ 0 ) 2] v Jest to rozkład a posteriori otrzymany z modelu X θ N (θ, 1) θ C (θ 0, 1). Gęstość f (θ θ 0 ) można zapisać jako: f (θ θ 0 ) 0 e θ2 /2 e [1 (θ θ 0) 2 ]η/2 η v 1 dη

Zatem: g 1 (η θ) = g 1 (θ η) = gdzie: g (θ, η) e θ2 /2 e [1+(θ+θ 0) 2 ]η/2 η v 1 ( 1 + (θ θ0 ) 2 2 { 1 + η 2π exp ) v η v 1 { [ Γ (v) exp 1 + (θ + θ 0 ) 2] } η/2 ( θ ηθ 0 1 + η ) } 2 1 + η ( η θ Ga v, 1 + (θ θ 0) 2 ) 2 ( ηθ0 θ η N 1 + η, 1 + η ) 2 2

Odwracalny PG Algorytm 4 zwany jest czasami PG z systematic scan. Takie losowanie prowadzi do nieodwracalnych ŁM. Można jednak lekko zmodyfikować ( algorytm 4, tak aby generował odwracalne łańcuchy Y (t)). Przypomnienie: ŁM nazwiemy odwracalnym, jeżeli zmienna X n+1 X n = x ma ten sam rozkład co zmienna X n X n+1 = x. Innymi słowy, odwracalny łańcuch posiada własność odwracalności w czasie. Zamiana kolejności kroków w ciągu nie wpływa na prawdopodobieństwo przejść pomiędzy krokami.

Odwracalny PG Algorytm 4.1. ( Odwracalny PG Dla zadanego y (t) ) (t) 2,..., y p generuj ( 1. Y1 g 1 y 1 y (t) ) (t) 2,..., y p ( 2. Y2 g 2 y 2 y1, y (t) ) (t) 3..., y p. ( p-1 Yp 1 g p 1 y p 1 y1,..., y p 2, y p (t) ) p Y p (t+1) ) g p (y p y1,..., y p 1 p+1 Y (t+1) ( p 1 g p 1 y p 1 y1,..., y p 2, y p (t+1) ). 2p-1 Y (t+1) ( 1 g 1 y 1 y (t+1) 2,..., y p (t+1) )

Odwracalny PG Liu (1995) zaproponował alternatywę dla algorytmu 4.1, tzw. PG z random scan. Symulacje poszczególnych składowych y wykonywane są z uwzględnieniem losowej kolejności każdej transformacji. Algorytm 4.2. Odwracalny PG Random Scan 1 Generuj permutację σ G p ; 2 Y σ (t+1) ( 1 g σ1 y σ1 y (t) ) j, j σ 1. p+1 Y (t+1) σ p g σp ( y σp y (t+1) j, j σ p )

Twierdzenie Hammersleya-Clifforda Twierdzenie 1. Hammersleya-Clifforda Przy założeniu warunku dodatniości, łączna gęstość g spełnia warunek: ( ) p g Lj y Lj y L1,...,y Lj 1, y L j+1,..., g (y 1,..., y p ) y L p ( ) g Lj y L j y L1,...,y Lj 1, y L j+1,..., y (1) L p j=1 dla każdej permutacji L na {1, 2,..., p} oraz dla każdego y Y. ( Przypomnienie. Niech X = X (1), X (2),..., X (m)) będzie m-wymiarowym wektorem losowym o gęstości łącznej f X (x (1), x (2),..., x (m)) a f X (i) (.) gęstością brzegową zmiennej x (i). Powiemy, że f X spełnia warunek dodatniości jeżeli (i = 1,..., m) f X (i) (x (i)) ( > 0 f X x (1), x (2),..., x (m)) > 0.

Niespójny nośnik ( Twierdzenie 3. Dla PG (algorytmu 4), jeżeli Y (t)) jest ergodyczny, ( wówczas gęstość g jest gęstością stacjonarną łańcucha Y (t)) ( a gęstość f jest gęstością graniczną podłańcuchów X (t)). Twierdzenie 4. Dla PG (algorytm 4), jeżeli gęstość g spełnia warunek dodatniości, to łańcuch wynikowy jest nieprzywiedlny.

Przykład Niech ε oraz ε oznaczają dyski w R 2 o promieniu 1 oraz środkach odpowiednio w punktach (1, 1) oraz ( 1, 1). Rozważmy rozkład o gęstości: f (x 1, x 2 ) = 1 2π {I ε (x 1, x 2 ) + I ε (x 1, x 2 )}

Przykład Poblem: Dla powyższego rozkładu nie można wygenerować nieprzywiedrlnych ŁM, przy użyciu algorytmu 4, ponieważ wynikowe łańcuchy koncentują się na tej ćwiartce, na której zostały zainicjalizowane. Rozwiązanie: Łatwo zauważyć, że problem ten można obejśc zmieniając współżędne w następując sposób: z 1 = x 1 + x 2 oraz z 2 = x 1 x 2.

Twierdzenie 6. ŁM wygenerowany PG jest nieprzywiedlny i nieokresowy, jeżeli gęstości warunkowe spełniają następujące warunki: ( ) Niech y = (y 1,...y p ) oraz y = y 1,...y p oraz istnieje δ > 0 dla którego y, y sup p (g), y y < δ oraz ( ) g i y i y 1,..., y i 1, y i+1,..., y p > 0, i = 1,..., p Jeżeli istnieje δ < δ, dla którego prawie każda para (y, y ) sup (g) może być połączona skończoną liczbą kul o promieniu δ, mających niepuste przecięcia. Pierwszy warunek stwierdza, iż istnieje niezerowe prawd. przejścia pomiędzy dwoma dowolnymi, dostatecznie bliskimi siebie stanami y, y. Drugi wymaga, aby PG miałspójny nośnik.

Struktury hierarchiczne Modele hierarchiczne są to struktury, w których gęstość f może być zapisana jako f (x) = f 1 (x z 1 ) f 2 (z 1 z 2 ) f I (z I z I +1 ) f I +1 (z I +1 ) d z1 d zi +1 Takie modele są często spotykane w analizie Bbayesowskiej. W złożonych modelach informacja a priori wymaga często wprowadzenia kilkunastu poziomów gęstości a priori.

Przykład: Infekcje zwierząt Niech X i P (λ i ), i = 1,..., m oznacza liczbę infekcji w i tym stadzie. λ i - stopień infekcji w i tym stadzie. Specyfikacja hierarchiczna dla tego modelu wygl ąda następująco: X i P (λ i ) λ i Ga (α, β i ) β i Ga (a, b) gdzie α, a, b są ustalone. Gęstości a posteriori parametru λ i, π (λ i x, α) mogą być generowane przy użyciu PG: λ i π (λ i x, α, β i ) = Ga (x i + α, 1 + β i ) β i π (β i x, a, b, λ i ) = Ga (α + a, λ i + b)

Przykład: Zbieżność jednostajna modeli hierarchicznych Dla niektórych klas modeli hierarchicznych można wykazać, iż łańcuchy generowane przez PG są są jednostajnie zbieżne. Przykład: Liczba awarii oraz czas obserwacji 10 pomp w elektrowni jądrowej 1 2 3 4 5 6 7 8 9 10 5 1 5 14 3 19 1 1 4 22 94.32 15.72 62.88 125.76 5.24 31.44 1.05 1.05 2.10 10.48

Zakładamy, że awarie i tej pompy można opisać rozkładem Poissona z parametrem λ i (1 i 10). Dla każdego obserwowanego czasu t i liczba awarii p i jest zmienną losową o rozkładzie Poissona P (λ i t i ). Odpowiednie rozkłady a priori są następujące: λ i iid Ga (α, β) β Ga (γ, δ) z α = 1.8, γ = 0.01, δ = 1. Rozkład łączej gęstości jest następujący: π (λ 1,..., λ 10, β t 1,..., t 10, p 1,..., p 10 ) 10 { (λ i t i ) p i e λ i t i λi α 1 e βλ i i=1 10 i=1 } β 10α β γ 1 e δβ { λ p i +α 1 i e (t i +β)λ i } β 10α+γ 1 e δβ

Naturalna dekompozycja, odzwierciedlająca hierarchiczną strukturę π jest następująca: λ i β, t i, p i Ga (p i + α, t i + β) ( β λ 1,..., λ 10 Ga γ + 10α, δ + 10 i=1 λ i ) Dla zadanej dekompozycji i jądra przejścia β, powstałego w wyniku działania algorytmu 4, mamy: K ( β, β ) = (β ) γ+10α 1 ( δ + Γ (10α + γ) 10 i=1 10 i=1 λ i ) γ+10α exp { β ( δ + )} 10 λ i i=1 (t i + β) p i +α Γ (p i + α) λp i +α 1 i exp { (t i + β) λ i } dλ 1...dλ 10 δγ+10α (β ) γ+10α 1 Γ (10α + γ) e δβ 10 i=1 ( ti ) pi +α t i + β

Uwaga: Powyższe ograniczenie na jądro przejścia (które nie zależy od β) pozwala wnioskować, że cała przestrzeń R + jest zbiorem małym dla tego jądra przejścia. Zatem łańcuch (β t ) jest zbieżny jednostajnie. Ta jednostajna zbieżność pociąga za sobą jednostajną zbieżność łańcucha λ t = (λ t 1,..., λt 10 ) Przypomienie: Zbiór C X nazwiemy zbiorem małym, jeśli istnieje m N i miara v m > 0, taka, że dla każdego x C i każdego A B(X ) zachodzi: P(X m A X 0 = x) v m (A) Innymi słowy, dowolne zdarzenie A jest osiągalne po pewnej liczbie kroków ze zbioru małego C.

Hybrydowe próbniki Gibbsa Rozważmy następującą mieszaninę rozkładów normalnych p 1 N 2 (µ 1, Σ 1 ) + p 2 N 2 (µ 2, Σ 2 ) + p 3 N 2 (µ 3, Σ 3 ) (2)

Hybrydowe próbniki Gibbsa Hybrydowy algorytm MCMC jest metodą opartą na ŁM generowanych jednocześnie przy pomocy PG i algorytmu MH. Niech K 1,..., K n będą jądrami przejścia dla kroków pewnego algorytmu generującego ŁM. Dodatkowo, niech (α 1,..., α n ) oznacza rozkład prawdopodobieństwa. Mieszaniną nazwiemy algorytm związany z jądrem K = α 1 K 1 +... + α n K n Cyklem nazwiemy algorytm związany z jądrem K = K 1... K n gdzie symbol oznacza złożenie funkcji.

Hybrydowe próbniki Gibbsa Twierdzenie 7. Jeżeli K 1 i K 2 są jądrami z tymi samymi rozkładami stacjonarymi f oraz jeżeli K 1 generuje jednostajnie zbieżne ŁM, to mieszanina K = αk 1 + (1 α) K 2 (0 < α < 1) jest również zbieżna jednostajnie. Dodatkowo, jeżeli X jest małym zbiorem dla K 1, z m = 1, wówczas jądra cykli K 1 K 2 i K 2 K 1 są również zbieżne jednostajnie.

Hybrydowe próbniki Gibbsa Przykład [Nobile (1998)] Poniższy przykład pokazuje, jak wprowadzenie kroków MH do PG może przyspieszyć przeszukiwanieę nośnika gęstości. Rozważmy model, definiowany przez zmienną losową D i (1 i n) taką, że (1 j 2) P (D i = 1) = 1 P (D i = 0) = P (Z i 0) z Z i N ( R i β, σ 2), β R, R i jest zmienną towarzyszącą. Dla gęstości a priori σ 2 Ga (1.5, 1.5) β σ N (0, 10 2)

Nobile poprawił powyższy model, wprowadzając krok MH po każdym cyklu PG. Gęstość proponująca przeskalowuje jedynie obecną wartość ŁM y (t) przez losowo wybrany współczynnik c otrzymany z rozkładu wykładniczego Exp (1). Przeskalowana wartość cy (t) jest akceptowana lub odrzucana zgodnie ze schematem algorytmu MH. Rysunek 10.5 pokazuje poprawę otrzymaną przez zastosowanie tego hybrydowego schematu. Teraz próbka MCMC pokrywa znaczną większość nośnika gęstości a posteriori po tej samej liczbie iteracji.

Metropolizacja próbnika Gibbsa Algorytm 5. Metropolizacja ( PG Dla i = 1,..., p, zadane y (t+1) 1,..., y (t+1) i 1, y (t) i,..., y p (t) ) : 1. wygeneruj ( ỹ i q i y i y (t+1) 1,..., y (t), y (t) ) (t),..., y p 2. weź gdzie { y (t+1) i = i i+1 y (t) i z prawd. 1 ρ ỹ i z prawd. ρ ( ) g i ỹ i y (t+1) 1,...,y (t+1) i 1,y (t) (t) i+1,...,y p ( ) q i ỹ i y (t+1) 1,...,y (t+1) i 1,y (t) i,y (t) (t) i+1...,y p ρ = 1 ( ). g i y (t) i y (t+1) 1,...,y (t+1) i 1,y (t) (t) i+1,...,y p ( ) q i y (t) i y (t+1) 1,...,y (t+1) i 1,ỹ i,y (t) (t) i+1...,y p

Parametryzacja a zbieżność PG Zbieżność próbnika Gibbsa i algorytmu MH może być powolna z powodu złego doboru parametryzacji. W literaturze przedmiotu rozważano zmiany w parametryzacji modelu jako możliwość przyspieszenia zbieżności PG. Generalna zasada parametryzacji mówi o tym, aby brać komponenty jak najbardziej niezależne.

Parametryzacja a zbieżność PG Przykład: Model o losowych efektach Y ij = µ + α i + ε ij, i = 1,..., I, j = 1,..., J gdzie α i N ( ( ) 0, σα) 2 i εij N 0, σy 2. PG zaimplementowany dla parametryzacji (µ, α 1,..., α I ) wykazuje wysoką korelację i w konsekwencji słabą zbieżność, jeżeli σy 2 / ( IJσα) 2 jest duże. Jeżeli model zapisać używając struktury hierarchię ( ) ( ) Y ij N η i, σy 2, η i N µ, σα 2, korelacja pomiędzy elementami η i oraz pomiędzy µ a η i będzie mniejsza.

Losowy PG Algorytm 6. Randomizacja PG Dla zadanego y (t) 1. wybierz składnik v σ 2. generuj Y v (t+1) ( g v y v y (t) ), j v 3. y (t+1) j = y (t) j dla j v. j ( Twierdzenie Łańcuch Y (t)) generowany przez algorytm 6 ma własność ( ( taką, że dla każdej funkcji h L 2 (g) kowariancja cov h Y (0)) (, h Y (t))) jest dodatnia i maleje wraz ze wzrostem t.