Wielowymiarowy próbnik Gibbsa

Podobne dokumenty
Algorytm Metropolisa-Hastingsa

Geometryczna zbieżność algorytmu Gibbsa

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Prawdopodobieństwo i statystyka r.

Algorytmy MCMC i ich zastosowania statystyczne

Algorytmy MCMC i ich zastosowania statystyczne

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Procesy stochastyczne

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Procesy stochastyczne

Algorytmy MCMC i ich zastosowania statystyczne

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

19 marzec, Łańcuchy Markowa z czasem dyskretnym. Procesy Stochastyczne, wykład 6, T. Byczkowski, Procesy Stochastyczne, PPT, Matematyka MAP1136

Komputerowa analiza danych doświadczalnych

Wstęp do Rachunku Prawdopodobieństwa, IIr. WMS

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Prawdopodobieństwo i statystyka

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Prawdopodobieństwo i statystyka

N ma rozkład Poissona z wartością oczekiwaną równą 100 M, M M mają ten sam rozkład dwupunktowy o prawdopodobieństwach:

Prawdopodobieństwo i statystyka

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

dla t ściślejsze ograniczenie na prawdopodobieństwo otrzymujemy przyjmując k = 1, zaś dla t > t ściślejsze ograniczenie otrzymujemy przyjmując k = 2.

Redukcja wariancji w metodach Monte-Carlo

Prawdopodobieństwo i statystyka

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Prawdopodobieństwo i statystyka

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Prawdopodobieństwo i statystyka

Seria 1. Zbieżność rozkładów

Elementy modelowania matematycznego

Parametr Λ w populacji ubezpieczonych ma rozkład dany na półosi dodatniej gęstością: 3 f

Spacery losowe generowanie realizacji procesu losowego

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Matematyka ubezpieczeń majątkowych r.

jest ciągiem elementów z przestrzeni B(R, R)

Metody systemowe i decyzyjne w informatyce

1 Wykład 3 Generatory liczb losowych o dowolnych rozkładach.

Prawdopodobieństwo i statystyka

Rozpoznawanie obrazów

Statystyka i eksploracja danych

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Metody systemowe i decyzyjne w informatyce

Agata Boratyńska Statystyka aktuarialna... 1

PROCESY STOCHASTYCZNE. PEWNE KLASY PROCESÓW STOCHASTYCZNYCH Definicja. Procesem stochastycznym nazywamy rodzinę zmiennych losowych X(t) = X(t, ω)

Rozpoznawanie obrazów

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

1 Gaussowskie zmienne losowe

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Prawdopodobieństwo i statystyka

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

Matematyka ubezpieczeń majątkowych r.

Ekonometria Bayesowska

Matematyka ubezpieczeń majątkowych r.

1 Relacje i odwzorowania

2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.

Imputacja brakujacych danych binarnych w modelu autologistycznym 1

Matematyka ubezpieczeń majątkowych r.

2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.

Metody Rozmyte i Algorytmy Ewolucyjne

2. P (E) = 1. β B. TSIM W3: Sygnały stochastyczne 1/27

Metody systemowe i decyzyjne w informatyce

Testowanie hipotez statystycznych.

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Statystyka Matematyczna Anna Janicka

Na podstawie dokonanych obserwacji:

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Wykład 9: Markov Chain Monte Carlo

5 Błąd średniokwadratowy i obciążenie

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

Centralne twierdzenie graniczne

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Postać Jordana macierzy

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Ćwiczenia: Ukryte procesy Markowa lista 1 kierunek: matematyka, specjalność: analiza danych i modelowanie, studia II

VII. Elementy teorii stabilności. Funkcja Lapunowa. 1. Stabilność w sensie Lapunowa.

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

Rozkłady prawdopodobieństwa

Instytut Matematyczny Uniwersytet Wrocławski. Zakres egzaminu magisterskiego. Wybrane rozdziały anazlizy i topologii 1 i 2

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Szkice do zajęć z Przedmiotu Wyrównawczego

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

Procesy stochastyczne

Ważne rozkłady i twierdzenia c.d.

Metody probabilistyczne

Matematyka ubezpieczeń majątkowych r.

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe.

Lista 1. Procesy o przyrostach niezależnych.

Spis treści 3 SPIS TREŚCI

Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Transkrypt:

29.05.2006 Seminarium szkoleniowe 30 maja 2006

Plan prezentacji Slgorytm MH i PG przypomnienie wiadomości Wielowymiarowy PG Algorytm PG z dopełnieniem Odwracalny PG Modele hierarchiczne Modele hybrydowe Metropolizacja PG Randomizacia PG

Algorytm Metropolisa-Hastingsa przypomnienie Dla zadanej gęstością proponującej g (y x) i dowolnej początkowej wartości x 0, generuj kolejne wyrazy ŁM X 1,..., X n,... w serii następujących kroków: Algorytm 1. MH 1. Wylosuj zmienną Y i 1 z gęstości g (. x i 1 ) 2. Wylosuj punkt X i zgodnie z następują formułą: { Yi 1 z prawd. p (x X i = i 1, Y i ) x i 1 z prawd. 1 p (x i 1, Y i ) gdzie { } f (y) g (x y) p (x, y) = min g (y x) f (x), 1.

Własności algorytmu MH Gęstość f (x) jest gęstością stacjonarną dla ŁM wygenerowanego zgodnie z algorytmem MH dla dowolnej gęstości proponującej (instrumentalnej) g (y x). Jeżeli g (y x) > 0, to ŁM generowany przez algorytm MH jest nieprzywiedlny i powracalny w sensie Harrisa. Jeżeli P ( ) f (y) g (x y) 1 < 1, g (y x) f (x) to generowany ŁM jest nieokresowy.

Dwuwymiarowy PG przypomnienie Interesuje nas symulowanie wartości (X 0, Y 0 ), (X 1, Y 1 ),... wektora losowego (X, Y) o gęstości łącznej f (x, y). Zakładamy, że umiemy generować zmienne losowe z gęstości warunkowych f X Y (x y) i f Y X (y x). Startując z dowolnie wybranej wartości początkowej x 0, PG losuje kolejne wartości w cyklu następujących kroków: Algorytm 2. PG 2 1. Wylosuj zmienną Y i z gęstości f Y X (. x i 1 ) 2. Wylosuj zmienną X i z gęstości f X Y (. y i ).

Własności PG PG może być stosowany do losowania próbek z wektora losowego (X, Y ) o trudnej do generowania gęstości łącznej f (x, y). Podciągi X 0, X 1,... i Y 0, Y 1,... są ŁM, których rozkładami stacjonarnymi są, odpowiednio, gęstości brzegowe f X (.) i f Y (.). Jeżeli interesuje nas generowanie zmiennych o skomplikowanej gęstości f X (.), wówczas możliwe jest wprowadzenie dodatkowej zmiennej Y i wykorzystanie prostszych w generacji gęstości warunkowych f X Y (x y) i f Y X (y x). W takim modelu zmienna Y pełni wówczas funkcję zmiennej pomocniczej.

Wielowymiarowy PG W wielowymiarowym PG konstruowany jest ciąg p wymiarowych wektorów losowych o łącznej gęstości f. Niech X = (X 1,..., X p ). W ogólnym przypadku każda z poszczególnych współrzędnych X i też może być wielowymiarowym wektorem losowym. Zakładamy, że możliwe jest efektywne generowanie z poszczególnych gęstości warunkowych X i x 1, x 2,..., x i 1, x i+1,..., x p f i (x i x 1, x 2,..., x i 1, x i+1,..., x p ) Gęstości takie nazywane są jako pełnymi warunkowymi (ang. full conditionals).

Wielowymiarowy PG Algorytm 3. Wielowymiarowy PG ( Dla zadanego x (t) = x (t) ) (t) 1,..., x p generuj 1. X (t+1) ( 1 f 1 x 1 x (t) ) (t) 2,..., x p 2. X (t+1) ( 2 f 2 x 2 x (t+1) 1, x (t) ) (t) 3..., x p. p. X p (t+1) ( f p x p x (t+1) 1,..., x (t+1) ) p 1.

Przykład: Niech f (y 1, y 2, y 3 ) exp { (y 1 + y 2 + y 3 + θ 12 y 1 y 2 + θ 23 y 2 y 3 + θ 13 y 1 y 3 )} (ang. autoexponential model), ze znanym parametrem θ ij > 0. Pełne gęstości warunkowe są bardzo łatwe go generowania. Przykładowo: Dla odmiany: Y 3 y 1, y 2 Exp (1 + θ 23 y 2 + θ 13 y 1 ). f (y 2 y 1 ) exp ( (y 1 + y 2 + θ 12 y 1 y 2 )) 1 + θ 23 y 2 + θ 31 y 1 f (y 1 ) e y exp ( y 1 2 θ 12 y 1 y 2 ) dy 2 1 + θ 23 y 2 + θ 31 y 1 nie dają się już łatwo wygenerować. 0

Algorytm MH a PG Twierdzenie 1. Wielowymiarowy PG jest równoważny połączeniu ze sobą p algorytmów MH o prawdopodobieństwach akceptacji równych zawsze jeden. Mimo teoretycznej równoważności istnieją pewne różnice w praktycznym stosowaniu wspomnianych algorytmów: PG wymaga minimum znajomości poszczególnych pełnych warunkowych gęstości wraz z umiejętnością symulowania wartości zmiennych losowych dla tych gęstości. PG jest z natury wielowymiarowy. Sama jego konstrukcja wymaga stosowania minimum dwuwymiarowych zmiennych losowych. W PG każda z proponowanych wartości jest zawsze akceptowana, podczas gdy dla algorytmu MH zdarzają się odrzucenia nowych wartości na korzyść starych

Dopełnienie Definicja 1. Dla zadanej funkcji gęstości f, gęstość g spełniająca następujący warunek: g (x, z) dz = f (x) Z zwana jest dopełnieniem f. Gęstość g wybierana jest w taki sposób, aby pełne gęstości warunkowe były łatwe do symulacji. Niech y = (x, z) oraz Y 1 y 2,..., y p g 1 (y 1 y 2,..., y p ) Y 2 y 1, y 3,..., y p g 2 (y 2 y 1, y 3,..., y p ) Y p y 1, y 3,..., y p 1 g p (y p y 1, y 3,..., y p 1 ) oznaczają pełne gęstości warunkowe g (y) = g (y 1,..., y p )..

Dopełnienie Algorytm 4. PG z dopełnieniem ( Dla zadanego y (t) = y (t) ) (t) 1,..., y p generuj 1. Y (t+1) ( 1 g 1 y 1 y (t) ) (t) 2,..., y p 2. Y (t+1) ( 2 g 2 y 2 y (t+1) 1, y (t) ) (t) 3..., y p. 3. Y p (t+1) ( g p y p y (t+1) 1,..., y (t+1) ) p 1.

Przykład: Rozważmy następującą gęstość a posteriori (ang. Cauchy-Norlam posterior distribution): f (θ θ 0 ) e θ2 /2 [1 + (θ θ 0 ) 2] v Jest to rozkład a posteriori otrzymany z modelu X θ N (θ, 1) θ C (θ 0, 1). Gęstość f (θ θ 0 ) można zapisać jako: f (θ θ 0 ) 0 e θ2 /2 e [1 (θ θ 0) 2 ]η/2 η v 1 dη

Zatem: g 1 (η θ) = g 1 (θ η) = gdzie: g (θ, η) e θ2 /2 e [1+(θ+θ 0) 2 ]η/2 η v 1 ( 1 + (θ θ0 ) 2 2 { 1 + η 2π exp ) v η v 1 { [ Γ (v) exp 1 + (θ + θ 0 ) 2] } η/2 ( θ ηθ 0 1 + η ) } 2 1 + η ( η θ Ga v, 1 + (θ θ 0) 2 ) 2 ( ηθ0 θ η N 1 + η, 1 + η ) 2 2

Odwracalny PG Algorytm 4 zwany jest czasami PG z systematic scan. Takie losowanie prowadzi do nieodwracalnych ŁM. Można jednak lekko zmodyfikować ( algorytm 4, tak aby generował odwracalne łańcuchy Y (t)). Przypomnienie: ŁM nazwiemy odwracalnym, jeżeli zmienna X n+1 X n = x ma ten sam rozkład co zmienna X n X n+1 = x. Innymi słowy, odwracalny łańcuch posiada własność odwracalności w czasie. Zamiana kolejności kroków w ciągu nie wpływa na prawdopodobieństwo przejść pomiędzy krokami.

Odwracalny PG Algorytm 4.1. ( Odwracalny PG Dla zadanego y (t) ) (t) 2,..., y p generuj ( 1. Y1 g 1 y 1 y (t) ) (t) 2,..., y p ( 2. Y2 g 2 y 2 y1, y (t) ) (t) 3..., y p. ( p-1 Yp 1 g p 1 y p 1 y1,..., y p 2, y p (t) ) p Y p (t+1) ) g p (y p y1,..., y p 1 p+1 Y (t+1) ( p 1 g p 1 y p 1 y1,..., y p 2, y p (t+1) ). 2p-1 Y (t+1) ( 1 g 1 y 1 y (t+1) 2,..., y p (t+1) )

Odwracalny PG Liu (1995) zaproponował alternatywę dla algorytmu 4.1, tzw. PG z random scan. Symulacje poszczególnych składowych y wykonywane są z uwzględnieniem losowej kolejności każdej transformacji. Algorytm 4.2. Odwracalny PG Random Scan 1 Generuj permutację σ G p ; 2 Y σ (t+1) ( 1 g σ1 y σ1 y (t) ) j, j σ 1. p+1 Y (t+1) σ p g σp ( y σp y (t+1) j, j σ p )

Twierdzenie Hammersleya-Clifforda Twierdzenie 1. Hammersleya-Clifforda Przy założeniu warunku dodatniości, łączna gęstość g spełnia warunek: ( ) p g Lj y Lj y L1,...,y Lj 1, y L j+1,..., g (y 1,..., y p ) y L p ( ) g Lj y L j y L1,...,y Lj 1, y L j+1,..., y (1) L p j=1 dla każdej permutacji L na {1, 2,..., p} oraz dla każdego y Y. ( Przypomnienie. Niech X = X (1), X (2),..., X (m)) będzie m-wymiarowym wektorem losowym o gęstości łącznej f X (x (1), x (2),..., x (m)) a f X (i) (.) gęstością brzegową zmiennej x (i). Powiemy, że f X spełnia warunek dodatniości jeżeli (i = 1,..., m) f X (i) (x (i)) ( > 0 f X x (1), x (2),..., x (m)) > 0.

Niespójny nośnik ( Twierdzenie 3. Dla PG (algorytmu 4), jeżeli Y (t)) jest ergodyczny, ( wówczas gęstość g jest gęstością stacjonarną łańcucha Y (t)) ( a gęstość f jest gęstością graniczną podłańcuchów X (t)). Twierdzenie 4. Dla PG (algorytm 4), jeżeli gęstość g spełnia warunek dodatniości, to łańcuch wynikowy jest nieprzywiedlny.

Przykład Niech ε oraz ε oznaczają dyski w R 2 o promieniu 1 oraz środkach odpowiednio w punktach (1, 1) oraz ( 1, 1). Rozważmy rozkład o gęstości: f (x 1, x 2 ) = 1 2π {I ε (x 1, x 2 ) + I ε (x 1, x 2 )}

Przykład Poblem: Dla powyższego rozkładu nie można wygenerować nieprzywiedrlnych ŁM, przy użyciu algorytmu 4, ponieważ wynikowe łańcuchy koncentują się na tej ćwiartce, na której zostały zainicjalizowane. Rozwiązanie: Łatwo zauważyć, że problem ten można obejśc zmieniając współżędne w następując sposób: z 1 = x 1 + x 2 oraz z 2 = x 1 x 2.

Twierdzenie 6. ŁM wygenerowany PG jest nieprzywiedlny i nieokresowy, jeżeli gęstości warunkowe spełniają następujące warunki: ( ) Niech y = (y 1,...y p ) oraz y = y 1,...y p oraz istnieje δ > 0 dla którego y, y sup p (g), y y < δ oraz ( ) g i y i y 1,..., y i 1, y i+1,..., y p > 0, i = 1,..., p Jeżeli istnieje δ < δ, dla którego prawie każda para (y, y ) sup (g) może być połączona skończoną liczbą kul o promieniu δ, mających niepuste przecięcia. Pierwszy warunek stwierdza, iż istnieje niezerowe prawd. przejścia pomiędzy dwoma dowolnymi, dostatecznie bliskimi siebie stanami y, y. Drugi wymaga, aby PG miałspójny nośnik.

Struktury hierarchiczne Modele hierarchiczne są to struktury, w których gęstość f może być zapisana jako f (x) = f 1 (x z 1 ) f 2 (z 1 z 2 ) f I (z I z I +1 ) f I +1 (z I +1 ) d z1 d zi +1 Takie modele są często spotykane w analizie Bbayesowskiej. W złożonych modelach informacja a priori wymaga często wprowadzenia kilkunastu poziomów gęstości a priori.

Przykład: Infekcje zwierząt Niech X i P (λ i ), i = 1,..., m oznacza liczbę infekcji w i tym stadzie. λ i - stopień infekcji w i tym stadzie. Specyfikacja hierarchiczna dla tego modelu wygl ąda następująco: X i P (λ i ) λ i Ga (α, β i ) β i Ga (a, b) gdzie α, a, b są ustalone. Gęstości a posteriori parametru λ i, π (λ i x, α) mogą być generowane przy użyciu PG: λ i π (λ i x, α, β i ) = Ga (x i + α, 1 + β i ) β i π (β i x, a, b, λ i ) = Ga (α + a, λ i + b)

Przykład: Zbieżność jednostajna modeli hierarchicznych Dla niektórych klas modeli hierarchicznych można wykazać, iż łańcuchy generowane przez PG są są jednostajnie zbieżne. Przykład: Liczba awarii oraz czas obserwacji 10 pomp w elektrowni jądrowej 1 2 3 4 5 6 7 8 9 10 5 1 5 14 3 19 1 1 4 22 94.32 15.72 62.88 125.76 5.24 31.44 1.05 1.05 2.10 10.48

Zakładamy, że awarie i tej pompy można opisać rozkładem Poissona z parametrem λ i (1 i 10). Dla każdego obserwowanego czasu t i liczba awarii p i jest zmienną losową o rozkładzie Poissona P (λ i t i ). Odpowiednie rozkłady a priori są następujące: λ i iid Ga (α, β) β Ga (γ, δ) z α = 1.8, γ = 0.01, δ = 1. Rozkład łączej gęstości jest następujący: π (λ 1,..., λ 10, β t 1,..., t 10, p 1,..., p 10 ) 10 { (λ i t i ) p i e λ i t i λi α 1 e βλ i i=1 10 i=1 } β 10α β γ 1 e δβ { λ p i +α 1 i e (t i +β)λ i } β 10α+γ 1 e δβ

Naturalna dekompozycja, odzwierciedlająca hierarchiczną strukturę π jest następująca: λ i β, t i, p i Ga (p i + α, t i + β) ( β λ 1,..., λ 10 Ga γ + 10α, δ + 10 i=1 λ i ) Dla zadanej dekompozycji i jądra przejścia β, powstałego w wyniku działania algorytmu 4, mamy: K ( β, β ) = (β ) γ+10α 1 ( δ + Γ (10α + γ) 10 i=1 10 i=1 λ i ) γ+10α exp { β ( δ + )} 10 λ i i=1 (t i + β) p i +α Γ (p i + α) λp i +α 1 i exp { (t i + β) λ i } dλ 1...dλ 10 δγ+10α (β ) γ+10α 1 Γ (10α + γ) e δβ 10 i=1 ( ti ) pi +α t i + β

Uwaga: Powyższe ograniczenie na jądro przejścia (które nie zależy od β) pozwala wnioskować, że cała przestrzeń R + jest zbiorem małym dla tego jądra przejścia. Zatem łańcuch (β t ) jest zbieżny jednostajnie. Ta jednostajna zbieżność pociąga za sobą jednostajną zbieżność łańcucha λ t = (λ t 1,..., λt 10 ) Przypomienie: Zbiór C X nazwiemy zbiorem małym, jeśli istnieje m N i miara v m > 0, taka, że dla każdego x C i każdego A B(X ) zachodzi: P(X m A X 0 = x) v m (A) Innymi słowy, dowolne zdarzenie A jest osiągalne po pewnej liczbie kroków ze zbioru małego C.

Hybrydowe próbniki Gibbsa Rozważmy następującą mieszaninę rozkładów normalnych p 1 N 2 (µ 1, Σ 1 ) + p 2 N 2 (µ 2, Σ 2 ) + p 3 N 2 (µ 3, Σ 3 ) (2)

Hybrydowe próbniki Gibbsa Hybrydowy algorytm MCMC jest metodą opartą na ŁM generowanych jednocześnie przy pomocy PG i algorytmu MH. Niech K 1,..., K n będą jądrami przejścia dla kroków pewnego algorytmu generującego ŁM. Dodatkowo, niech (α 1,..., α n ) oznacza rozkład prawdopodobieństwa. Mieszaniną nazwiemy algorytm związany z jądrem K = α 1 K 1 +... + α n K n Cyklem nazwiemy algorytm związany z jądrem K = K 1... K n gdzie symbol oznacza złożenie funkcji.

Hybrydowe próbniki Gibbsa Twierdzenie 7. Jeżeli K 1 i K 2 są jądrami z tymi samymi rozkładami stacjonarymi f oraz jeżeli K 1 generuje jednostajnie zbieżne ŁM, to mieszanina K = αk 1 + (1 α) K 2 (0 < α < 1) jest również zbieżna jednostajnie. Dodatkowo, jeżeli X jest małym zbiorem dla K 1, z m = 1, wówczas jądra cykli K 1 K 2 i K 2 K 1 są również zbieżne jednostajnie.

Hybrydowe próbniki Gibbsa Przykład [Nobile (1998)] Poniższy przykład pokazuje, jak wprowadzenie kroków MH do PG może przyspieszyć przeszukiwanieę nośnika gęstości. Rozważmy model, definiowany przez zmienną losową D i (1 i n) taką, że (1 j 2) P (D i = 1) = 1 P (D i = 0) = P (Z i 0) z Z i N ( R i β, σ 2), β R, R i jest zmienną towarzyszącą. Dla gęstości a priori σ 2 Ga (1.5, 1.5) β σ N (0, 10 2)

Nobile poprawił powyższy model, wprowadzając krok MH po każdym cyklu PG. Gęstość proponująca przeskalowuje jedynie obecną wartość ŁM y (t) przez losowo wybrany współczynnik c otrzymany z rozkładu wykładniczego Exp (1). Przeskalowana wartość cy (t) jest akceptowana lub odrzucana zgodnie ze schematem algorytmu MH. Rysunek 10.5 pokazuje poprawę otrzymaną przez zastosowanie tego hybrydowego schematu. Teraz próbka MCMC pokrywa znaczną większość nośnika gęstości a posteriori po tej samej liczbie iteracji.

Metropolizacja próbnika Gibbsa Algorytm 5. Metropolizacja ( PG Dla i = 1,..., p, zadane y (t+1) 1,..., y (t+1) i 1, y (t) i,..., y p (t) ) : 1. wygeneruj ( ỹ i q i y i y (t+1) 1,..., y (t), y (t) ) (t),..., y p 2. weź gdzie { y (t+1) i = i i+1 y (t) i z prawd. 1 ρ ỹ i z prawd. ρ ( ) g i ỹ i y (t+1) 1,...,y (t+1) i 1,y (t) (t) i+1,...,y p ( ) q i ỹ i y (t+1) 1,...,y (t+1) i 1,y (t) i,y (t) (t) i+1...,y p ρ = 1 ( ). g i y (t) i y (t+1) 1,...,y (t+1) i 1,y (t) (t) i+1,...,y p ( ) q i y (t) i y (t+1) 1,...,y (t+1) i 1,ỹ i,y (t) (t) i+1...,y p

Parametryzacja a zbieżność PG Zbieżność próbnika Gibbsa i algorytmu MH może być powolna z powodu złego doboru parametryzacji. W literaturze przedmiotu rozważano zmiany w parametryzacji modelu jako możliwość przyspieszenia zbieżności PG. Generalna zasada parametryzacji mówi o tym, aby brać komponenty jak najbardziej niezależne.

Parametryzacja a zbieżność PG Przykład: Model o losowych efektach Y ij = µ + α i + ε ij, i = 1,..., I, j = 1,..., J gdzie α i N ( ( ) 0, σα) 2 i εij N 0, σy 2. PG zaimplementowany dla parametryzacji (µ, α 1,..., α I ) wykazuje wysoką korelację i w konsekwencji słabą zbieżność, jeżeli σy 2 / ( IJσα) 2 jest duże. Jeżeli model zapisać używając struktury hierarchię ( ) ( ) Y ij N η i, σy 2, η i N µ, σα 2, korelacja pomiędzy elementami η i oraz pomiędzy µ a η i będzie mniejsza.

Losowy PG Algorytm 6. Randomizacja PG Dla zadanego y (t) 1. wybierz składnik v σ 2. generuj Y v (t+1) ( g v y v y (t) ), j v 3. y (t+1) j = y (t) j dla j v. j ( Twierdzenie Łańcuch Y (t)) generowany przez algorytm 6 ma własność ( ( taką, że dla każdej funkcji h L 2 (g) kowariancja cov h Y (0)) (, h Y (t))) jest dodatnia i maleje wraz ze wzrostem t.