Algorytm Metropolisa-Hastingsa

Seminarium szkoleniowe, 25 kwietnia 2006

Plan prezentacji 1 Problem Metoda MCMC 2 Niezależny algorytm Metropolisa-Hastingsa Bła dzenie losowe Zbieżność procedury Metropolisa-Hastingsa

Problem Metoda MCMC Przypuśćmy, ze interesuje nas oszacowanie wielkości: E π (h) = h(x)π(dx) = R d h(x)f π (x)dx, R d (1) gdzie π miara probabilistyczna określona na B(R d ), d N, f π : R d R gȩstość rozkładu π wzglȩdem miary Lebesque a, h : R d R funkcja mierzalna. Niech x (1), x (2),..., x (T ) bȩdzie próba losowa z rozkładu π. Wtedy za oszacowanie całki (1) przyjmujemy: h = 1 T T h(x (t) ). (2) t=1

Problem Metoda MCMC W praktyce czȩsto: nie potrafimy bezpośrednio generować liczb losowych z rozkładu π, metody generowania sa nieefektywne. Wtedy stosuje siȩ metody Monte Carlo oparte na łańcuchach Markowa, czyli tzw. metody MCMC (ang. Markov Chain Monte Carlo).

Problem Metoda MCMC Definition Metoda Monte Carlo oparta na łańcuchu Markowa (metoda MCMC) symulacji zmiennej losowej o rozkładzie określonym przez gȩstość f π nazywamy każda metodȩ polegaja ca na wygenerowaniu ergodycznego łańcucha Markowa X (t), t = 1, 2,..., którego rozkładem stacjonarnym jest f π.

Problem Metoda MCMC Dla dowolnego punktu pocza tkowego x generowany jest jednorodny łańcuch Markowa X (t), t = 1, 2,..., z ja drem przejścia K (x, A) spełniaja cy warunki zbieżności według rozkładu łańcucha X (t) do zmiennej losowej o rozkładzie π. Przy założeniu ergodyczności łańcucha punkt pocza tkowy x jest w zasadzie nieistotny. Zatem dla dostatecznie dużego t można uważać, że X (t) ma rozkład określony przez π i X (t), X (t+1),... jest próba zależna pochodza ca z rozkładu π.

Problem Metoda MCMC Użycie łańcucha Markowa o stacjonarnym rozkładzie π, wygenerowanego przez algorytm MCMC do aproksymacji całek jest analogiczne do użycia próby niezależnych zmiennych losowych w tym sensie, że w przypadku metody MCMC zbieżność średniej empirycznej (2) do całki (1) zachodzi na podstawie twierdzenia ergodycznego.

Problem Metoda MCMC MCMC a MC Zwykła metoda MC może nie być efektywna w przypadku, gdy wymiar przestrzeni R d jest duży. Mianowicie, gdy d jest duże, zbieżność średniej empirycznej wymaga bardzo dużej liczby iteracji. W odróżnieniu od zwykłej metody MC, w metodzie MCMC wektory losowe X (1),..., X (T ) nie sa niezależne, lecz tworza łańcuch Markowa.

Niech q(x, y) bȩdzie nieujemna funkcja mierzalna na R d R d określaja ca ja dro przejścia Q(x, A) pewnego jednorodnego łańcucha Markowa, tzn. Q(x, A) = A q(x, y)dy. polega na wygenerowaniu łańcucha Markowa X (t), t = 1, 2,..., o rozkładzie stacjonarnym z gȩstościa f π (zwana gestościa docelowa (ang. target density)) wykorzystuja c warunkowa gȩstość q(x, ) = q( x) (zwana gestościa pomocnicza (ang. instrumental density)) o znanej postaci, zgodnie z która możliwe jest efektywne przeprowadzenie symulacji.

Niech α(x, y) = { min { f π(y)q(x y) f, 1} π(x)q(y x), gdy f π (x)q(y x) > 0, 1, gdy f π (x)q(y x) = 0 (3) oraz k(x, y) = { q(x, y)α(x, y), gdy x y, 0, gdy x = y. (4) Ja dro przejścia łańcucha Markowa X (t) określone jest wzorem K (x, A) = k(x, y)dy + (1 k(x, y)dy)i A. A R d

. A1 1 dla danej wartości pocza tkowej X (t) = x wygenerować Y t q(x, y), 2 przyja ć X (t+1) = { Yt z prawdopodobieństwem α(x, Y t ), x z prawdopodobieństwem 1 α(x, Y t ). (5)

Z definicji k(x, y) i α(x, y) wynika, że łańcuch Markowa X (t) spełnia warunek (ang. detailed balance condition) dla każdego x, y R. f π (x)k(x, y) = f π (y)k(y, x) Zatem łańcuch Markowa z ja drem K (x, A) jest niezmienniczy. Można udowodnić, że łańcuch jest nieprzywiedlny, nieokresowy i powracalny w sensie Harrisa spełnia wszystkie założenia twierdzenia ergodycznego.

Oryginalna wersja algorytmu Metropolisa (1953) Jeśli gȩstość losuja ca q(x, y) jest symetryczna, tzn.dla każdego x, y R d q(x, y) = q(y, x), to prawdopodobieństwo akceptacji redukuje siȩ do postaci: α(x, y) = { min { f π(y) f, 1} π(x), gdy f π (x) > 0, 1, gdy f π (x) = 0. W tej sytuacji akceptowane jest każde przejście do stanu y dla którego f π (y) f π (x). (6)

Niezależny algorytm Metropolisa-Hastingsa Niezależny algorytm Metropolisa-Hastingsa generuje łańcuch Markowa o przejściach ze stanu x do stanu y = X (t+1) w przypadku, gdy gȩstość q nie zależy od X (t), tzn. jest postaci q(x, y) = g(y). Zbieżność łańcucha X (t) wynika z własności gȩstości g w tym sensie, że X (t) jest nieprzywiedlny i nieokresowy g jest prawie wszȩdzie dodatnia na nośniku funkcji f π.

. A2 1 dla danej wartości pocza tkowej X (t) = x wygenerować Y t g(y), 2 przyja ć gdzie X (t+1) = α(x, y) = { { Yt z prawdopodobieństwem α(x, Y t ), x z prawdopodobieństwem 1 α(x, Y t ), min { f π(y)g(x (t) ) f π(x)g(y t ), 1}, gdy f π (x (t) )g(y t ) > 0, 1, gdy f π (x (t) )g(y t ) = 0 (7) (8)

a algorytm eliminacji Oczekiwane prawdopodobieństwo akceptacji zmiennej generowanej zgodnie z rozkładem g jest wiȩksze w przypadku algorytmu M-H niż algorytmu eliminacji (ang. Accept-Reject algorithm). Lemma Jeśli istnieje stała M taka, że f π (x) < M g(x), x supp f, to, wartość oczekiwana prawdopodobieństwa akceptacji z algorytmu 2 jest nie mniejsza od 1 M w przypadku, gdy X (t) jest łańcuchem stacjonarnym.

Generowanie zmiennej losowej o rozkładzie Gamma Algorytm Gamma Metropolis-Hastings A.26 1 dla danej wartości pocza tkowej X (t) = x wygenerować Y t G( α, α /α), x (0) G(α, 1), 2 przyja ć X (t+1) = { Yt z prawdopodobieństwem α t, x z prawdopodobieństwem 1 α t, gdzie [ ( Y t α t = min exp x (t) x (t) Y t α )] α α, 1 (9) (10)

Algorytm Gamma Accept-Reject A.27 1 wygenerować Y G( α, α /α), 2 przyja ć X = Y z prawdopodobieństwem ( ) ey exp( y/α) α α (11) α

Bła dzenie losowe Outline Niech f π bȩdzie dowolna gȩstościa prawdopodobieństwa na R d. Niech g bȩdzie symetryczna gȩstościa prawdopodobieństwa na R d taka, że q(x, y) = g(y x), x, y R d oraz niech α(x, y) bȩdzie zadana wzorem jak w algorytmie 1. Nazwa bła dzenie losowe odnosi siȩ do sposobu określenia ja dra Q(x, A).

dla bła dzenia losowego 1 dla danej wartości pocza tkowej X (t) = x wygenerować Y t g(y x (t) ), 2 przyja ć X (t+1) = { Yt z prawdopodobieństwem α(x, Y t ), x z prawdopodobieństwem 1 α(x, Y t ), (12) gdzie { α(x, Y t ) = min 1, f } π(y t ) f π (x) (13)

Własności: procedura ma niezależnie od wyboru funkcji gȩstości g ten sam rozkład stacjonarny o gȩstości f π, zbieżność łańcucha Markowa zadanego ja drem K (x, A) do rozkładu stacjonarnego i jej szybkość zależa od wyboru funkcji g (zwykle gȩstość g przyjmujemy tak, by była wzglȩdnie blisko szukanego rozkładu π).

jest pewna modyfikacja procedury bła dzenia losowego. Niech a R d i niech B bȩdzie macierza o wymiarze d d. Przyjmujemy, że g(x, y) = g(y a B(x a) ) dlax, y R d oraz α(x, y) jest zadana jak w algorytmie 1. Jeśli macierz B jest identycznościa, a g jest symetryczna, to q(x, y) = g(y x) przypadek bła dzenia losowego. Jeśli a = 0, a B jest macierza zerowa, to q(x, y) = g(y) przypadek losowania niezależnego.

W procedurze M-H należy określić ja dro wstȩpne Q(x, A) i funkcjȩ akceptacji α(x, y). Ja dro wstȩpne i funkcjȩ akceptacji wybieramy tak, by rozkładem stacjonarnym ja dra K (x, A) byłz góry zadany rozkład π. Przez zbieżność procedury M-H rozumiemy zbieżność łańcucha Markowa o ja drze K (x, A) do rozkładu stacjonarnego.

Theorem Jeśli istnieja gȩstości f π i q dla x R d oraz dla dowolnych x, y R d spełniona jest implikacja f π (y) > 0 q(x, y) > 0 i ja dro K jest nieokresowe, to istnieje zbiór D B(R d ) taki, że π(d) = 1 i dla x D, przy n, zachodzi zbieżność K n (x, ) π TV 0, gdzie µ 1 µ 2 TV = sup A µ 1 (A) µ 2 (A) (ang. total variation norm).

Theorem Jeśli istnieje cia gła i dodatnia gȩstość f π oraz dla dowolnego x R d gȩstość q jest cia gła i dodatnia, to istnieje zbiór D B(R d ) taki, że π(d) = 1 i dla x D, przy n, zachodzi zbieżność K n (x, ) π TV 0.

Theorem Jeśli istnieja gȩstości f π i q określone dla przypadku losowania niezależnego oraz istnieje M > 0 takie, że f π (y) M g(y) dla każdego y R d, to K n (x, ) π TV 2(1 1 M )n dla każdego x R d. Dodatkowo, jeśli supremum istotne ze wzglȩdu na miarȩ π spełnia warunek sup ess{ g(y) y R d f π (y) } = 0, to zbieżność geometryczna nie zachodzi.

Przykład Outline Niech rozkład stacjonarny π bȩdzie rozkładem N(0, 1), czyli f π = 1 2π exp ( x 2 2 ), x R. Niech Q bȩdzie ja drem Markowa odpowiadaja ym losowaniu niezależnemu o rozkładzie normalnym N(1, 1), czyli q(x, y) = 1 ) (y 1)2 exp (, y R. 2π 2

Ponieważ dla x, y R f π (y)q(y, x) f π (x)q(x, y) = exp ( y 2 2 wiȩ funkcja akceptacji wynosi ) exp ( (x 1)2 2 ) exp ( x 2 (y 1)2 2 ) exp ( 2 ) α(x, y) = min{exp (x y), 1}, x, y R. = exp (x y), Zatem, jeśli x jest wylosowana wartościa pocza tkowa, a y jest wartościa wygenerowana z rozkładu N(0, 1), to 1 jeśli x y, to akceptujemy wartość x, 2 jeśli x < y, to losujemy wartości y z prawdopodobieństwem przyjȩcia równym exp (x y).

Ponieważ g(y) exp inf y R f π (y) = inf y R exp ( (y 1)2 2 ( y 2 2 ) ) = inf y R exp ( y 1 ) = 0, 2 wiȩc z tw. 3 procedura nie jest zbieżna geometrycznie.

Niech teraz Q bȩdzie ja drem Markowa odpowiadaja ym losowaniu niezależnemu o rozkładzie normalnym N(0, σ 2 ), σ 2 > 1. Wtedy dla y R a wiȩc dla dowolnego x R g(y) f π (y) = 1 exp [ y2 σ 2 ( 1 σ 2 1)] 1 σ, K n (x, ) f π TV (1 1 σ )n, czyli zbieżność jest zbieżnościa geometryczna. Dla y R funkcja akceptacji ma tutaj postać { [ 1 α(x, y) = min exp 2 (1 1 ] } σ 2 )(x 2 y 2 ), 1.

Appendix Outline Outline 1 Problem Metoda MCMC 2 Niezależny algorytm Metropolisa-Hastingsa Bła dzenie losowe Zbieżność procedury Metropolisa-Hastingsa