Algorytm Metropolisa-Hastingsa

Podobne dokumenty
Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Geometryczna zbieżność algorytmu Gibbsa

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Algorytmy MCMC i ich zastosowania statystyczne

Procesy stochastyczne

Algorytmy MCMC i ich zastosowania statystyczne

Wielowymiarowy próbnik Gibbsa

Wykład 9: Markov Chain Monte Carlo

Prawdopodobieństwo i statystyka

1 Wykład 3 Generatory liczb losowych o dowolnych rozkładach.

Prawdopodobieństwo i statystyka

Algorytmy MCMC i ich zastosowania statystyczne

Prawdopodobieństwo i statystyka

WYKŁAD 3. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.

2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Prawdopodobieństwo i statystyka

Wykład 21 Funkcje mierzalne. Kostrukcja i własności całki wzglȩdem miary przeliczalnie addytywnej

Metody probabilistyczne

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła

Redukcja wariancji w metodach Monte-Carlo

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

Spacery losowe generowanie realizacji procesu losowego

Prawdopodobieństwo i statystyka

Wykład 3 Jednowymiarowe zmienne losowe

Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku.

Procesy stochastyczne

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów.

Zadania do Rozdziału X

Zadania z Rachunku Prawdopodobieństwa II Podaj przykład rozkładów prawdopodobieństwa µ n, µ, takich, że µ n µ,

1 Wykład 4. Proste Prawa wielkich liczb, CTG i metody Monte Carlo

Proces rezerwy w czasie dyskretnym z losową stopą procentową i losową składką

Prawdopodobieństwo i statystyka

Procesy stochastyczne

PROCESY STOCHASTYCZNE. PEWNE KLASY PROCESÓW STOCHASTYCZNYCH Definicja. Procesem stochastycznym nazywamy rodzinę zmiennych losowych X(t) = X(t, ω)

Prawdopodobieństwo i statystyka

Elementy modelowania matematycznego

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

3. Podać przykład rozkładów prawdopodobieństwa µ n, µ, takich, że µ n µ,

Oszacowania błędów estymatorów stosowanych w markowowskich metodach Monte Carlo

Testowanie hipotez statystycznych.

Zadania z Rachunku Prawdopodobieństwa III - 1

Wykłady ostatnie. Rodzinę P podzbiorów przestrzeni X nazywamy σ - algebrą, jeżeli dla A, B P (2) A B P, (3) A \ B P,

Rodzinę spełniającą trzeci warunek tylko dla sumy skończonej nazywamy ciałem (algebrą) w zbiorze X.

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych.

Prawdopodobieństwo i statystyka

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Kwantowa wariacyjna metoda Monte Carlo. Problem własny dla stanu podstawowego układu N cząstek

F t+ := s>t. F s = F t.

19 marzec, Łańcuchy Markowa z czasem dyskretnym. Procesy Stochastyczne, wykład 6, T. Byczkowski, Procesy Stochastyczne, PPT, Matematyka MAP1136

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Metody probabilistyczne opracowane notatki 1. Zdefiniuj zmienną losową, rozkład prawdopodobieństwa. Przy jakich założeniach funkcje: F(x) = sin(x),

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.

1 Gaussowskie zmienne losowe

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Ważne rozkłady i twierdzenia c.d.

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Wykłady... b i a i. i=1. m(d k ) inf

dla t ściślejsze ograniczenie na prawdopodobieństwo otrzymujemy przyjmując k = 1, zaś dla t > t ściślejsze ograniczenie otrzymujemy przyjmując k = 2.

Rachunek prawdopodobieństwa Rozdział 4. Zmienne losowe

Wyk lad 11 1 Wektory i wartości w lasne

Robert Kowalczyk. Zbiór zadań z teorii miary i całki

Statystyka i eksploracja danych

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów.

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA

Zadania o numerze 4 z zestawów licencjat 2014.

Wykład 11: Martyngały: definicja, twierdzenia o zbieżności

Definicja 7.4 (Dystrybuanta zmiennej losowej). Dystrybuantą F zmiennej losowej X nazywamy funkcję: Własności dystrybuanty zmiennej losowej:

Ćwiczenia: Ukryte procesy Markowa lista 1 kierunek: matematyka, specjalność: analiza danych i modelowanie, studia II

Szkice do zajęć z Przedmiotu Wyrównawczego

Wstęp do sieci neuronowych, wykład 14 Maszyna Boltzmanna

Rachunek prawdopodobieństwa Rozdział 4. Zmienne losowe

Seria 1. Zbieżność rozkładów

2. P (E) = 1. β B. TSIM W3: Sygnały stochastyczne 1/27

RACHUNEK PRAWDOPODOBIE STWA

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

STATYSTYKA

Ośrodkowość procesów, proces Wienera. Ośrodkowość procesów, proces Wienera Procesy Stochastyczne, wykład, T. Byczkowski,

jest ciągiem elementów z przestrzeni B(R, R)

Wykład 2 Zmienne losowe i ich rozkłady

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Optymalizacja. Symulowane wyżarzanie

Wartość oczekiwana Mediana i dominanta Wariancja Nierówności związane z momentami. Momenty zmiennych losowych Momenty wektorów losowych

Informacja o przestrzeniach Hilberta

Testowanie hipotez statystycznych. Wprowadzenie

1 Relacje i odwzorowania

Układy liniowo niezależne

Transkrypt:

Seminarium szkoleniowe, 25 kwietnia 2006

Plan prezentacji 1 Problem Metoda MCMC 2 Niezależny algorytm Metropolisa-Hastingsa Bła dzenie losowe Zbieżność procedury Metropolisa-Hastingsa

Problem Metoda MCMC Przypuśćmy, ze interesuje nas oszacowanie wielkości: E π (h) = h(x)π(dx) = R d h(x)f π (x)dx, R d (1) gdzie π miara probabilistyczna określona na B(R d ), d N, f π : R d R gȩstość rozkładu π wzglȩdem miary Lebesque a, h : R d R funkcja mierzalna. Niech x (1), x (2),..., x (T ) bȩdzie próba losowa z rozkładu π. Wtedy za oszacowanie całki (1) przyjmujemy: h = 1 T T h(x (t) ). (2) t=1

Problem Metoda MCMC Przypuśćmy, ze interesuje nas oszacowanie wielkości: E π (h) = h(x)π(dx) = R d h(x)f π (x)dx, R d (1) gdzie π miara probabilistyczna określona na B(R d ), d N, f π : R d R gȩstość rozkładu π wzglȩdem miary Lebesque a, h : R d R funkcja mierzalna. Niech x (1), x (2),..., x (T ) bȩdzie próba losowa z rozkładu π. Wtedy za oszacowanie całki (1) przyjmujemy: h = 1 T T h(x (t) ). (2) t=1

Problem Metoda MCMC W praktyce czȩsto: nie potrafimy bezpośrednio generować liczb losowych z rozkładu π, metody generowania sa nieefektywne. Wtedy stosuje siȩ metody Monte Carlo oparte na łańcuchach Markowa, czyli tzw. metody MCMC (ang. Markov Chain Monte Carlo).

Problem Metoda MCMC W praktyce czȩsto: nie potrafimy bezpośrednio generować liczb losowych z rozkładu π, metody generowania sa nieefektywne. Wtedy stosuje siȩ metody Monte Carlo oparte na łańcuchach Markowa, czyli tzw. metody MCMC (ang. Markov Chain Monte Carlo).

Problem Metoda MCMC Definition Metoda Monte Carlo oparta na łańcuchu Markowa (metoda MCMC) symulacji zmiennej losowej o rozkładzie określonym przez gȩstość f π nazywamy każda metodȩ polegaja ca na wygenerowaniu ergodycznego łańcucha Markowa X (t), t = 1, 2,..., którego rozkładem stacjonarnym jest f π.

Problem Metoda MCMC Dla dowolnego punktu pocza tkowego x generowany jest jednorodny łańcuch Markowa X (t), t = 1, 2,..., z ja drem przejścia K (x, A) spełniaja cy warunki zbieżności według rozkładu łańcucha X (t) do zmiennej losowej o rozkładzie π. Przy założeniu ergodyczności łańcucha punkt pocza tkowy x jest w zasadzie nieistotny. Zatem dla dostatecznie dużego t można uważać, że X (t) ma rozkład określony przez π i X (t), X (t+1),... jest próba zależna pochodza ca z rozkładu π.

Problem Metoda MCMC Użycie łańcucha Markowa o stacjonarnym rozkładzie π, wygenerowanego przez algorytm MCMC do aproksymacji całek jest analogiczne do użycia próby niezależnych zmiennych losowych w tym sensie, że w przypadku metody MCMC zbieżność średniej empirycznej (2) do całki (1) zachodzi na podstawie twierdzenia ergodycznego.

Problem Metoda MCMC MCMC a MC Zwykła metoda MC może nie być efektywna w przypadku, gdy wymiar przestrzeni R d jest duży. Mianowicie, gdy d jest duże, zbieżność średniej empirycznej wymaga bardzo dużej liczby iteracji. W odróżnieniu od zwykłej metody MC, w metodzie MCMC wektory losowe X (1),..., X (T ) nie sa niezależne, lecz tworza łańcuch Markowa.

Problem Metoda MCMC MCMC a MC Zwykła metoda MC może nie być efektywna w przypadku, gdy wymiar przestrzeni R d jest duży. Mianowicie, gdy d jest duże, zbieżność średniej empirycznej wymaga bardzo dużej liczby iteracji. W odróżnieniu od zwykłej metody MC, w metodzie MCMC wektory losowe X (1),..., X (T ) nie sa niezależne, lecz tworza łańcuch Markowa.

Niech q(x, y) bȩdzie nieujemna funkcja mierzalna na R d R d określaja ca ja dro przejścia Q(x, A) pewnego jednorodnego łańcucha Markowa, tzn. Q(x, A) = A q(x, y)dy. polega na wygenerowaniu łańcucha Markowa X (t), t = 1, 2,..., o rozkładzie stacjonarnym z gȩstościa f π (zwana gestościa docelowa (ang. target density)) wykorzystuja c warunkowa gȩstość q(x, ) = q( x) (zwana gestościa pomocnicza (ang. instrumental density)) o znanej postaci, zgodnie z która możliwe jest efektywne przeprowadzenie symulacji.

Niech α(x, y) = { min { f π(y)q(x y) f, 1} π(x)q(y x), gdy f π (x)q(y x) > 0, 1, gdy f π (x)q(y x) = 0 (3) oraz k(x, y) = { q(x, y)α(x, y), gdy x y, 0, gdy x = y. (4) Ja dro przejścia łańcucha Markowa X (t) określone jest wzorem K (x, A) = k(x, y)dy + (1 k(x, y)dy)i A. A R d

. A1 1 dla danej wartości pocza tkowej X (t) = x wygenerować Y t q(x, y), 2 przyja ć X (t+1) = { Yt z prawdopodobieństwem α(x, Y t ), x z prawdopodobieństwem 1 α(x, Y t ). (5)

Z definicji k(x, y) i α(x, y) wynika, że łańcuch Markowa X (t) spełnia warunek (ang. detailed balance condition) dla każdego x, y R. f π (x)k(x, y) = f π (y)k(y, x) Zatem łańcuch Markowa z ja drem K (x, A) jest niezmienniczy. Można udowodnić, że łańcuch jest nieprzywiedlny, nieokresowy i powracalny w sensie Harrisa spełnia wszystkie założenia twierdzenia ergodycznego.

Z definicji k(x, y) i α(x, y) wynika, że łańcuch Markowa X (t) spełnia warunek (ang. detailed balance condition) dla każdego x, y R. f π (x)k(x, y) = f π (y)k(y, x) Zatem łańcuch Markowa z ja drem K (x, A) jest niezmienniczy. Można udowodnić, że łańcuch jest nieprzywiedlny, nieokresowy i powracalny w sensie Harrisa spełnia wszystkie założenia twierdzenia ergodycznego.

Oryginalna wersja algorytmu Metropolisa (1953) Jeśli gȩstość losuja ca q(x, y) jest symetryczna, tzn.dla każdego x, y R d q(x, y) = q(y, x), to prawdopodobieństwo akceptacji redukuje siȩ do postaci: α(x, y) = { min { f π(y) f, 1} π(x), gdy f π (x) > 0, 1, gdy f π (x) = 0. W tej sytuacji akceptowane jest każde przejście do stanu y dla którego f π (y) f π (x). (6)

Niezależny algorytm Metropolisa-Hastingsa Niezależny algorytm Metropolisa-Hastingsa generuje łańcuch Markowa o przejściach ze stanu x do stanu y = X (t+1) w przypadku, gdy gȩstość q nie zależy od X (t), tzn. jest postaci q(x, y) = g(y). Zbieżność łańcucha X (t) wynika z własności gȩstości g w tym sensie, że X (t) jest nieprzywiedlny i nieokresowy g jest prawie wszȩdzie dodatnia na nośniku funkcji f π.

. A2 1 dla danej wartości pocza tkowej X (t) = x wygenerować Y t g(y), 2 przyja ć gdzie X (t+1) = α(x, y) = { { Yt z prawdopodobieństwem α(x, Y t ), x z prawdopodobieństwem 1 α(x, Y t ), min { f π(y)g(x (t) ) f π(x)g(y t ), 1}, gdy f π (x (t) )g(y t ) > 0, 1, gdy f π (x (t) )g(y t ) = 0 (7) (8)

a algorytm eliminacji Oczekiwane prawdopodobieństwo akceptacji zmiennej generowanej zgodnie z rozkładem g jest wiȩksze w przypadku algorytmu M-H niż algorytmu eliminacji (ang. Accept-Reject algorithm). Lemma Jeśli istnieje stała M taka, że f π (x) < M g(x), x supp f, to, wartość oczekiwana prawdopodobieństwa akceptacji z algorytmu 2 jest nie mniejsza od 1 M w przypadku, gdy X (t) jest łańcuchem stacjonarnym.

Generowanie zmiennej losowej o rozkładzie Gamma Algorytm Gamma Metropolis-Hastings A.26 1 dla danej wartości pocza tkowej X (t) = x wygenerować Y t G( α, α /α), x (0) G(α, 1), 2 przyja ć X (t+1) = { Yt z prawdopodobieństwem α t, x z prawdopodobieństwem 1 α t, gdzie [ ( Y t α t = min exp x (t) x (t) Y t α )] α α, 1 (9) (10)

Algorytm Gamma Accept-Reject A.27 1 wygenerować Y G( α, α /α), 2 przyja ć X = Y z prawdopodobieństwem ( ) ey exp( y/α) α α (11) α

Bła dzenie losowe Outline Niech f π bȩdzie dowolna gȩstościa prawdopodobieństwa na R d. Niech g bȩdzie symetryczna gȩstościa prawdopodobieństwa na R d taka, że q(x, y) = g(y x), x, y R d oraz niech α(x, y) bȩdzie zadana wzorem jak w algorytmie 1. Nazwa bła dzenie losowe odnosi siȩ do sposobu określenia ja dra Q(x, A).

dla bła dzenia losowego 1 dla danej wartości pocza tkowej X (t) = x wygenerować Y t g(y x (t) ), 2 przyja ć X (t+1) = { Yt z prawdopodobieństwem α(x, Y t ), x z prawdopodobieństwem 1 α(x, Y t ), (12) gdzie { α(x, Y t ) = min 1, f } π(y t ) f π (x) (13)

Własności: procedura ma niezależnie od wyboru funkcji gȩstości g ten sam rozkład stacjonarny o gȩstości f π, zbieżność łańcucha Markowa zadanego ja drem K (x, A) do rozkładu stacjonarnego i jej szybkość zależa od wyboru funkcji g (zwykle gȩstość g przyjmujemy tak, by była wzglȩdnie blisko szukanego rozkładu π).

jest pewna modyfikacja procedury bła dzenia losowego. Niech a R d i niech B bȩdzie macierza o wymiarze d d. Przyjmujemy, że g(x, y) = g(y a B(x a) ) dlax, y R d oraz α(x, y) jest zadana jak w algorytmie 1. Jeśli macierz B jest identycznościa, a g jest symetryczna, to q(x, y) = g(y x) przypadek bła dzenia losowego. Jeśli a = 0, a B jest macierza zerowa, to q(x, y) = g(y) przypadek losowania niezależnego.

W procedurze M-H należy określić ja dro wstȩpne Q(x, A) i funkcjȩ akceptacji α(x, y). Ja dro wstȩpne i funkcjȩ akceptacji wybieramy tak, by rozkładem stacjonarnym ja dra K (x, A) byłz góry zadany rozkład π. Przez zbieżność procedury M-H rozumiemy zbieżność łańcucha Markowa o ja drze K (x, A) do rozkładu stacjonarnego.

Theorem Jeśli istnieja gȩstości f π i q dla x R d oraz dla dowolnych x, y R d spełniona jest implikacja f π (y) > 0 q(x, y) > 0 i ja dro K jest nieokresowe, to istnieje zbiór D B(R d ) taki, że π(d) = 1 i dla x D, przy n, zachodzi zbieżność K n (x, ) π TV 0, gdzie µ 1 µ 2 TV = sup A µ 1 (A) µ 2 (A) (ang. total variation norm).

Theorem Jeśli istnieje cia gła i dodatnia gȩstość f π oraz dla dowolnego x R d gȩstość q jest cia gła i dodatnia, to istnieje zbiór D B(R d ) taki, że π(d) = 1 i dla x D, przy n, zachodzi zbieżność K n (x, ) π TV 0.

Theorem Jeśli istnieja gȩstości f π i q określone dla przypadku losowania niezależnego oraz istnieje M > 0 takie, że f π (y) M g(y) dla każdego y R d, to K n (x, ) π TV 2(1 1 M )n dla każdego x R d. Dodatkowo, jeśli supremum istotne ze wzglȩdu na miarȩ π spełnia warunek sup ess{ g(y) y R d f π (y) } = 0, to zbieżność geometryczna nie zachodzi.

Przykład Outline Niech rozkład stacjonarny π bȩdzie rozkładem N(0, 1), czyli f π = 1 2π exp ( x 2 2 ), x R. Niech Q bȩdzie ja drem Markowa odpowiadaja ym losowaniu niezależnemu o rozkładzie normalnym N(1, 1), czyli q(x, y) = 1 ) (y 1)2 exp (, y R. 2π 2

Ponieważ dla x, y R f π (y)q(y, x) f π (x)q(x, y) = exp ( y 2 2 wiȩ funkcja akceptacji wynosi ) exp ( (x 1)2 2 ) exp ( x 2 (y 1)2 2 ) exp ( 2 ) α(x, y) = min{exp (x y), 1}, x, y R. = exp (x y), Zatem, jeśli x jest wylosowana wartościa pocza tkowa, a y jest wartościa wygenerowana z rozkładu N(0, 1), to 1 jeśli x y, to akceptujemy wartość x, 2 jeśli x < y, to losujemy wartości y z prawdopodobieństwem przyjȩcia równym exp (x y).

Ponieważ g(y) exp inf y R f π (y) = inf y R exp ( (y 1)2 2 ( y 2 2 ) ) = inf y R exp ( y 1 ) = 0, 2 wiȩc z tw. 3 procedura nie jest zbieżna geometrycznie.

Niech teraz Q bȩdzie ja drem Markowa odpowiadaja ym losowaniu niezależnemu o rozkładzie normalnym N(0, σ 2 ), σ 2 > 1. Wtedy dla y R a wiȩc dla dowolnego x R g(y) f π (y) = 1 exp [ y2 σ 2 ( 1 σ 2 1)] 1 σ, K n (x, ) f π TV (1 1 σ )n, czyli zbieżność jest zbieżnościa geometryczna. Dla y R funkcja akceptacji ma tutaj postać { [ 1 α(x, y) = min exp 2 (1 1 ] } σ 2 )(x 2 y 2 ), 1.

Appendix Outline Outline 1 Problem Metoda MCMC 2 Niezależny algorytm Metropolisa-Hastingsa Bła dzenie losowe Zbieżność procedury Metropolisa-Hastingsa