Algorytmy MCMC i ich zastosowania statystyczne

Podobne dokumenty
Geometryczna zbieżność algorytmu Gibbsa

Algorytmy MCMC i ich zastosowania statystyczne

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Algorytm Metropolisa-Hastingsa

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Procesy stochastyczne

Wielowymiarowy próbnik Gibbsa

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Wykład 9: Markov Chain Monte Carlo

Oszacowania błędów estymatorów stosowanych w markowowskich metodach Monte Carlo

Prawdopodobieństwo i statystyka

Zbigniew S. Szewczak Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki. Graniczne własności łańcuchów Markowa

WYKŁAD 3. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Proces rezerwy w czasie dyskretnym z losową stopą procentową i losową składką

Algorytmy MCMC i ich zastosowania statystyczne

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

3. Podać przykład rozkładów prawdopodobieństwa µ n, µ, takich, że µ n µ,

2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.

Spacery losowe generowanie realizacji procesu losowego

Szkice do zajęć z Przedmiotu Wyrównawczego

Elementy modelowania matematycznego

Algorytmy MCMC i ich zastosowania statystyczne

Ośrodkowość procesów, proces Wienera. Ośrodkowość procesów, proces Wienera Procesy Stochastyczne, wykład, T. Byczkowski,

2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.

Prawdopodobieństwo i statystyka

Seria 1. Zbieżność rozkładów

Matematyka ubezpieczeń majątkowych r.

PROCESY STOCHASTYCZNE. PEWNE KLASY PROCESÓW STOCHASTYCZNYCH Definicja. Procesem stochastycznym nazywamy rodzinę zmiennych losowych X(t) = X(t, ω)

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Zadania z Rachunku Prawdopodobieństwa II Podać przykład rozkładów prawdopodobieństwa µ n, µ, takich, że µ n µ,

Układy stochastyczne

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.

19 marzec, Łańcuchy Markowa z czasem dyskretnym. Procesy Stochastyczne, wykład 6, T. Byczkowski, Procesy Stochastyczne, PPT, Matematyka MAP1136

Rachunek prawdopodobieństwa - Teoria - Przypomnienie.. A i B są niezależne, gdy P(A B) = P(A)P(B). P(A B i )P(B i )

Wykład 11: Martyngały: definicja, twierdzenia o zbieżności

n=0 (n + r)a n x n+r 1 (n + r)(n + r 1)a n x n+r 2. Wykorzystując te obliczenia otrzymujemy, że lewa strona równania (1) jest równa

Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

Wykład 2 Zmienne losowe i ich rozkłady

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =

1 Relacje i odwzorowania

Zadania z Rachunku Prawdopodobieństwa III - 1

Prawdopodobieństwo i statystyka

Zadania z Rachunku Prawdopodobieństwa II Podaj przykład rozkładów prawdopodobieństwa µ n, µ, takich, że µ n µ,

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Wykład 3 Momenty zmiennych losowych.

Maksymalne powtórzenia w tekstach i zerowa intensywność entropii

Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju

Wykład 3 Momenty zmiennych losowych.

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

MODELE MATEMATYCZNE W UBEZPIECZENIACH

Wstęp do Rachunku Prawdopodobieństwa, IIr. WMS

Rachunek Prawdopodobieństwa Rozdział 5. Rozkłady łączne

Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku.

Ogólnopolska Konferencja Naukowa Zagadnienia Aktuarialne - Teoria i praktyka Warszawa, 9 11 czerwca 2008

Matematyka ubezpieczeń majątkowych r.

Zadania z RP 2. seria Podać przykład rozkładów prawdopodobieństwa µ n, µ, takich, że µ n

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Matematyka ubezpieczeń majątkowych r.

Metody Rozmyte i Algorytmy Ewolucyjne

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka

KARTA PRZEDMIOTU. Forma prowadzenia zajęć. Odniesienie do efektów dla kierunku studiów K1A_W02

Wykład 3 Równania rózniczkowe cd

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów

Zadania z Rachunku Prawdopodobieństwa III - 1

7 Twierdzenie Fubiniego

Wykład 3 Jednowymiarowe zmienne losowe

Teoria ze Wstępu do analizy stochastycznej

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Dyskretne procesy stacjonarne o nieskończonej entropii nadwyżkowej

Statystyka aktuarialna i teoria ryzyka, model indywidualny i zespołowy, rozkłady złożone

Procesy stochastyczne

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Statystyka i eksploracja danych

Imputacja brakujacych danych binarnych w modelu autologistycznym 1

Teoria miary i całki

Zawansowane modele wyborów dyskretnych

Zadania do Rozdziału X

Metody probabilistyczne

jest ciągiem elementów z przestrzeni B(R, R)

1 Wykład 3 Generatory liczb losowych o dowolnych rozkładach.

dla t ściślejsze ograniczenie na prawdopodobieństwo otrzymujemy przyjmując k = 1, zaś dla t > t ściślejsze ograniczenie otrzymujemy przyjmując k = 2.

2. P (E) = 1. β B. TSIM W3: Sygnały stochastyczne 1/27

Zadania o numerze 4 z zestawów licencjat 2014.

KARTA PRZEDMIOTU. 12. Przynależność do grupy przedmiotów: Prawdopodobieństwo i statystyka

Biostatystyka, # 3 /Weterynaria I/

Prawdopodobieństwo i statystyka r.

F t+ := s>t. F s = F t.

1 Warunkowe wartości oczekiwane

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Prawa wielkich liczb, centralne twierdzenia graniczne

Matematyka ubezpieczeń majątkowych r.

Transkrypt:

Algorytmy MCMC i ich zastosowania statystyczne Wojciech Niemiro Uniwersytet Mikołaja Kopernika, Toruń i Uniwersytet Warszawski Statystyka Matematyczna Wisła, grudzień 2010

Wykład 3 1 Łańcuchy Markowa Oznaczenia i założenia 2 Regeneracja Mały zbiór Regeneracja 3 Coupling Konstrukcja Ergodyczność 4 Warunki dryfu Geometryczna ergodyczność Jawne oszacowania

Oznaczenia Łańcuch Markowa (jednorodny) X 0, X 1,..., X n,... na przestrzeni X (polskiej). Jadro przejścia: P(x, A) = P(X n+1 A X n = x). Zależność od rozkładu poczatkowego: P ξ, E ξ. Jeśli ξ = δ x to P x, E x. Jeśli ξ jest miara i f jest funkcja na X to: Pf (x) = P(x, dy)f (x) = E x f (X 1 ); ξp(a) = ξ(dx)p(x, A) = P ξ (X 1 A); ξf = ξ(dx)f (x). J adro przejścia w n krokach: P n (x, A) = P(x, dx1 )P(x 1, dx 2 ) P(x n 1, A) = P x (X n A).

Stałe założenia ZAŁOŻENIA Rozkład stacjonarny. Istnieje rozkład π na X taki, że πp = π. Łańcuch jest π-nieprzywiedlny i nieokresowy, x X A:π(A)>0 n0 n n0 P n (x, A) > 0. Łańcuch jest powracajacy w sensie Harrisa, x X A:π(A)>0 P x ( n : X n A) = 1. Uwaga Zastrzeżenia typu p.n. [π] będa zazwyczaj pomijane.

Regeneracja Niech J będzie 1-małym zbiorem Resztowe jadro przejścia: P(x, ) βi J (x)ν( ). Q(x, ) = P(x, ) βi J(x)ν( ). 1 βi J (x) Jeśli X n 1 J to Γ n 1 = 0: nie ma regeneracji, losuj X n P(X n 1, ); Jeśli X n 1 J to randomizuj, z prawdopodobieństwem 1 β: Γ n 1 = 0, nie ma regeneracji, losuj X n Q(X n 1, ); z prawdopodobieństwem β: Γ n 1 = 1, regeneracja! losuj X n ν( ).

Regeneracja Podwójny łańcuch (split chain) (X n, Γ n ) na przestrzeni X {0, 1} ma atom J {1}. X n 1 J? nie tak Γ n 1 := 0 randomizacja 1 β β Gen X n P(X n 1, ) Γ n 1 := 0 Γ n 1 := 1 Gen X n Q(X n 1, ) Gen X n ν( )

Regeneracja Uwaga: Faktycznie losowanie Q(X n 1, ) nie zawsze jest konieczne (Mykland et al. 1995). Niech ν(dy)/p(x, dy) oznacza pochodna Radona-Nikodyma (w praktyce, iloraz gęstości). Próbkowanie retrospektywne : najpierw generujemy X n P(X n 1, ) a następnie Γ n 1 z rozkładu warunkowego (wzór Bayesa), βν(dx n ) P(Γ n 1 = 1 X n 1, X n ) = I J (X n 1 ) P(X n 1, dx n ). Uwaga: Niestety, trzeba znać gęstości!

Czasy odnowienia T = T 1 = min{n > 0 : Γ n 1 = 1}, T k = min{n > T k 1 : Γ n 1 = 1}. Momenty regeneracji (odnowienia) dziela łańcuch na niezależne bloki losowej długości. X 0,..., X T1 1, X T1,..., X T2 1, X T2,..., X T3 1,... }{{}}{{}}{{} T 1 T 2 T 1 T 3 T 2 ν Wszystkie bloki maja ten sam rozkład z wyjatkiem, być może, poczatkowego. ν

Twierdzenie Kaca Zakładamy, że istnieje rozkład stacjonarny π i 1-mały zbiór J, łańcuch jest π-nieprzywiedlny. Niech T 1 µ(a) = E ν I A (X n ) = n=0 P(X n A, T > n). n=0 TWIERDZENIE (Kac) Przy tych założeniach βπ(j) = 1/E ν (T ) oraz µ( )/E ν (T ) = π( ).

Twierdzenie Kaca Dowód. Miara µ jest niezmiennicza. Istotnie, µ(a) = P(X n A, T > n) = n=0 νr n (A) n=0 gdzie R = P βi J ν jest nieunormowanym jadrem resztowym (sub-probabilistycznym). Mamy P = R + βi J ν i ponadto νr n 1 βi J = P ν (T = n), więc µβi J = P ν (T < ) = 1, µp = νr n P = n=0 = νr n (R + I J ν) n=0 νr n+1 + µβi J ν = n=0 Oczywiście, E ν T = µ(x ), stad π = µ/e ν T. νr n+1 + ν = µ. n=0

Regeneracja dla h > 1 Próby odnowienia sa podejmowane co h kroków. Jeżeli Γ n 1 = 1 to X nh ν i w rezultacie X nh, X nh+1,... jest niezależne od X 0,..., X (n 1)h. Γ 0 Γ 1 Γ n 1 = 1 ν X 0 X h X (n 1)h X nh Ale brakujacy odcinek X (n 1)h+1,... X nh 1 wypełniamy zgodnie z rozkładem warunkowym P( X (n 1)h, X nh ). W rezultacie: wyznaczone momentami regeneracji bloki s a 1-zależne.

Odległość pełnego wahania (total variation) DEFINICJA Jeżeli µ 1 i µ 1 sa miarami probabilistycznymi na X to µ 1 µ 2 tv = sup µ 1 (A) µ 2 (A) A X = 1 2 sup µ 1 f µ 2 f = 1 2 f 1 X m 1 (x) m 2 (x) dx, gdzie m i (x)dx = µ i (dx) (gęstości względem dowolnej wspólnej miary dx).

Coupling Lemat (O couplingu) µ 1 µ 2 tv b wtedy i tylko wtedy gdy istnieja zmienne losowe (X 1, X 2 ) takie, że X 1 µ 1, X 2 µ 2 i P(X 1 X 2 ) b. Dowód. µ 1 (A) µ 2 (A) = P(X 1 A) P(X 2 A) P(X 1 A) P(X 1 A, X 2 A) = P(X 1 A, X 2 A) P(X 1 X 2 ). Jeśli µ 1 µ 2 tv = b to niech oraz ν będzie miara o gęstości (m 1 m 2 )/(1 b), zaś ρ 1, ρ 2 miary o gęstości (m 1 m 2 ) + /b oraz (m 2 m 1 ) + /b. randomizacja 1 b b Gen X ν niezależnie lub inaczej X 1 := X 2 := X Gen X 1 ρ 1 Gen X 2 ρ 2.

Coupling dla łańcuchów Markowa Łańcuch podwójny X n = (X n, X n) na przestrzeni X X. Jadro P(x, x, A A ) jest brzegowo zgodne z P(x, A) jeśli P(x, x, A X ) = P(x, A), P(x, x, X A ) = P(x, A ). Coupling: Jeśli X n 1 = X n 1 to X n = X n. DEFINICJA Pseudo-mały zbiór. J X X jest 1-pseudo-małym zbiorem jeśli istnieje jadro przejścia ν(x, x, A) i β > 0 takie, że Przykłady: P(x, A) P(x, A) βi J(x, x )ν(x, x, A), (A X ). Jeśli J X jest 1-mały, to J J X X jest 1-pseudo-mały. Przekatna {(x, x) : x X } jest 1-pseudo-mała (przestrzenie dyskretne).

Coupling dla łańcuchów Markowa J jest 1-pseudo-mały. Niech jadro resztowe Q(x, x, A A ) ma następujace rozkłady brzegowe: Q(x, x, A X ) = P(x, A) βi J(x, x )ν(x, x, A) 1 βi J(x, x, ) Q(x, x, X A ) = P(x, A ) βi J(x, x )ν(x, x, A ) 1 βi J(x, x. ) Może być, powiedzmy, produktem tych rozkładów brzegowych (to chyba nie jest istotne).

Coupling dla łańcuchów Markowa Konstrukcja couplingu ( J jest 1-pseudo-mały): X n 1 = (X n 1, X n 1 ) J? nie tak brak couplingu randomizacja 1 β β Gen X n P( X n 1, ) brak couplingu coupling! Gen X n Q( X n 1, ) Gen X n = X n ν(x n 1, X n 1, ) Niech T będzie czasem couplingu, X n = X n dla n T. WNIOSEK Jeśli X 0 π to P(X n ) π( ) tv P( T > n).

Ergodyczność DEFINICJA Łańcuch jest ergodyczny jeśli dla każdego x X, P n (x, ) π( ) tv 0 (n ). Łańcuch jest geometrycznie ergodyczny jeśli istnieje ϱ < 1 i M( ) < takie, że P n (x, ) π( ) tv M(x)ϱ n. Łańcuch jest jest jednostajnie ergodyczny jeśli istnieje ϱ < 1 i M < takie, że P n (x, ) π( ) tv Mϱ n.

Ergodyczność poprzez coupling TWIERDZENIE Jeżeli łańcuch jest π-nieprzywiedlny, nieokresowy i powracajacy w sensie Harrisa, to jest ergodyczny. TWIERDZENIE (Rosenthal 1995, Doob 1953, Doeblin 1938, Markov 1906) Jeżeli P h (x, ) βν( ) to Dowód. P n (x, ) π( ) tv (1 β) n/h. Stosujemy coupling do h-szkieletu łańcucha: X 0, X h,..., X kh,.... Czas couplingu T ma rozkład geometryczny, więc P kh (x, ) π( ) tv P x ( T > kh) = (1 β) k. Dla kh n < (k + 1)h odwołujemy się do monotoniczności.

Warunki dryfu i geometryczna ergodyczność DEFINICJA (Geometryczny warunek dryfu) Niech J X. Istnieje funkcja V 1, stałe λ < 1 i K < takie, że { λv (x) dla x J, PV (x) (1) K dla x J. Uwaga Równoważny warunek: PV λv + bi J.

V -jednostajna ergodyczność Niech V 1 będzie funkcja na X. Dla funkcji: f L V jeśli f f (x) V = sup x V (x) <. Dla miar µ 1 µ 2 V = sup f V µ 1 f µ 2 f. P(x, ) Q(x, ) V Dla jader: P Q V = sup x = V (x) sup f V Pf Qf V : to jest norma operatorowa w L V. DEFINICJA Łańcuch jest V -jednostajnie ergodyczny jeśli istnieje ϱ < 1 i M < takie, że P n (x, ) π( ) V MV (x)ϱ n. Równoważnie, P n π V Mϱ n.

Geometryczna i V -jednostajna ergodyczność TWIERDZENIE (Roberts, Rosenthal 1997) Dla π-nieprzywiedlnych, nieeokresowych łańcuchów następujace warunki sa równoważne: warunek dryfu (1) dla pewnej funkcji V 1, do pewnego h-małego zbioru J, geometryczna ergodyczność, V 2 -jednostajna ergodyczność dla pewnej funkcji V 2. Przy tym można wybrać V 2 av 1 i V 1 av 2.

Jawne oszacowania przez coupling Rosenthal, Roberts (2004). Warunek dryfu PV λv + bi J do h-małego zbioru + dodatkowo inf x J V (x) [b/(1 λ)] 1 implikuje jawne oszacowania geometrycznej zbieżności w normie tv. Uwagi: Dowód metoda couplingu. 1-dim warunek dryfu (jeśli jest dostatecznie szybki) implikuje 2-dim warunek dryfu. dla łańcucha (X n, X n) do zbioru J J. Coupling niezależny: jeśli (X n 1, X n 1 ) J J to (X n, X n) losuje się niezależnie.

Kolorowanie grafu Graf (S, ). Kolorowanie: funkcja x : S {1,..., q} taka, że x(s) x(t) dla s t. Niech π - rozkład jednostajny na przestrzeni X wszystkich kolorowań. Łańcuch Markowa X n π: wylosuj wierzchołek s U(S); wylosuj kolor z rozkładu jednostajnego na zbiorze dopuszczalnych i przemaluj s. Oszacowanie szybkości zbieżności (Jerrum 1995,1998) Jeżeli q 2d + 1 to P n (x, ) π tv kλ n, gdzie λ = 1 q 2d k(q d), d = stopień grafu, k = #S. Dowód przez coupling: wylosuj wierzchołek s U(S); przemaluj obie kopie łańcucha w s tak, żeby z maksymalnym pr-stwem wykorzystać ten sam kolor dla obu kopii.

Kolorowanie grafu Uwagi: Silna zależność obu kopii! Przekatna {(x, x)} jest zbiorem couplingu (pseudo-mały ale wcale nie mały)! V (x, x ) = #{s S : x(s) x (s)}. PV (x) λv (x), gdzie λ = 1 q 2d k(q d), d = stopień grafu, k = #S. Wniosek: Coupling niezależny do zbioru J J (jak w pracy Rosenthala i Robertsa) musi być mało efektywny!

Jawne oszacowania przez regenerację TWIERDZENIE (Baxendale 2005, Bednorz 2010) Jeśli spełniony jest warunek dryfu (1) do 1-małego zbioru J i ponadto ν(j) δ > 0 to istnieje ρ takie, że dla każdego γ > ρ istnieje M takie, że P n (x, ) π( ) V Mγ n. Przy tym ρ zależy tylko i jawnie od λ, β, δ, zaś M jeszcze dodatkowo od γ. Uwagi: Dowód metoda regeneracji. Wzory sa jawne ale dość okropne. Jeśli γ ρ to zazwyczaj M.