Monte Carlo Optimization Seminarium szkoleniowe Eliza Bujnowska 28 lutego 2006 Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 1 / 38
Zagadnienia optymalizacji metod Monte Carlo Przeszukiwanie stochastyczne Metody gradientowe Symulowane wy»arzanie Prior feedback Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 2 / 38
Zagadnienia optymalizacji metod Monte Carlo Przeszukiwanie stochastyczne Metody gradientowe Symulowane wy»arzanie Prior feedback Aproksymacja stochastyczna Optymalizacja przy brakuj cych danych Algorytm oczekiwania-maksymalizacji (EM) Algorytm Monte Carlo EM (MCEM) Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 2 / 38
Przeszukiwanie stochastyczne Zagadnienie optymalizacji mo»na sprowadzi do szukania rozwi zania problemu max θ Θ h(θ) funkcji h(θ) w przestrzeni Θ. Przy zaªo»eniu,»e przestrze«θ jest ograniczona, najprostszym rozwi zaniem jest wygenerowanie próby u 1,..., u m U Θ oraz u»ycie jako naturalnego estymatora rozwi zania aproksymacji: h m = max(h(u 1 ),..., h(u m )). Metoda jest zbie»na wraz z m, cho mo»e by wolna, gdy»»adne wªasno±ci funkcji h nie s brane pod uwag. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 3 / 38
Maksymalizacja metod Monte Carlo przykªad Rozwa»my funkcj : h(x) = [cos(50x) + sin(20x)] 2 Funkcja jest zdeniowana w przedziale ograniczonym, generujemy u 1,..., u m U Θ i u»ywamy aproksymacji h. Dokªadny wynik maksimum h(x) wynosi 3.832, co jest zgodne z rezultatem otrzymanym metod Monte Carlo. Obok wykresu funkcji przedstawiono oszacowanie funkcji przy wylosowaniu 5000 obserwacji z rozkªadu jednostajnego U(0, 1). Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 4 / 38
Maksymalizacja metod Monte Carlo przykªad (2) Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 5 / 38
Przeszukiwanie stochastyczne (2) Kolejny kierunek, to powi zanie funkcji h z rozkªadem prawdopodobie«stwa. Je±li przykªadowo, h jest dodatnio okre±lona i Θ h(θ)dθ < + rozwi zanie problemu maksymalizacji h(θ) jest równowa»ne ze znalezieniem warto±ci modalnej funkcji g sto±ci h. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 6 / 38
Przeszukiwanie stochastyczne (2) Kolejny kierunek, to powi zanie funkcji h z rozkªadem prawdopodobie«stwa. Je±li przykªadowo, h jest dodatnio okre±lona i Θ h(θ)dθ < + rozwi zanie problemu maksymalizacji h(θ) jest równowa»ne ze znalezieniem warto±ci modalnej funkcji g sto±ci h. W ogólnym przypadku, je±li powy»sze warunki nie s speªnione mo»na dokona transformacji podanej funkcji h(θ) do funkcji H(θ) speªniaj cej nast puj ce warunki: H jest nieujemnie okre±lona i speªnia warunek H <. Maksymalizacja h(θ) jest równowa»na maksymalizacji H(θ) na Θ. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 6 / 38
Przeszukiwanie stochastyczne (2) Kolejny kierunek, to powi zanie funkcji h z rozkªadem prawdopodobie«stwa. Je±li przykªadowo, h jest dodatnio okre±lona i Θ h(θ)dθ < + rozwi zanie problemu maksymalizacji h(θ) jest równowa»ne ze znalezieniem warto±ci modalnej funkcji g sto±ci h. W ogólnym przypadku, je±li powy»sze warunki nie s speªnione mo»na dokona transformacji podanej funkcji h(θ) do funkcji H(θ) speªniaj cej nast puj ce warunki: H jest nieujemnie okre±lona i speªnia warunek H <. Maksymalizacja h(θ) jest równowa»na maksymalizacji H(θ) na Θ. Mo»na zastosowa nast puj ce transformacje: H(θ) = exp(h(θ)/t ) lub H(θ) = exp(h(θ)/t ) 1 + exp(h(θ)/t ), gdzie T jest parametrem sªu» cym do przyspieszania zbie»no±ci / unikania lokalnych maksimów. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 6 / 38
Minimalizacja funkcji przykªad 2 Rozwa»my funkcj : h(x, y) = (xsin(20y) + ysin(20x)) 2 cosh(sin(10x)x) + +(xcos(10y) ysin(10x)) 2 cosh(cos(20y)y), która osi ga minimum globalne równe 0 w punkcie (0,0). Aby otrzyma rozwi zanie problemu, mo»na wylosowa prób z rozkªadu g sto±ci proporcjonalny do exp( h(x, y)), a nast pnie wylicza minimum kolejnych h(x i, y i ). Z drugiej strony, mo»na równie» stosowa losowanie próby z funkcji g sto±ci proporcjonalnej do h(x, y) = exp{ (xsin(20y) + ysin(20x)) 2 (xcos(10y) ysin(10x)) 2 } Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 7 / 38
Minimalizacja funkcji przykªad 2 cd. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 8 / 38
Metody gradientowe Metoda optymalizacji oparta na wyznaczeniu gradientu funkcji jest numerycznym przybli»eniem problemu maksymalizacji funkcji. Polega ona na wygenerowaniu ci gu (θ j ), który zbiega do dokªadnego rozwi zania θ, przy zaªo»eniu,»e przestrze«θ R d i funkcja s wypukªe. Ci g tworzony jest rekurencyjnie θ j+1 = θ j + α j h(θ j ), gdzie α j > 0, a h jest gradientem funkcji h. W zale»no±ci od doboru ci gu (α j ) algorytm zbiega do maksimum. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 9 / 38
Metody gradientowe (2) Przy ogólniejszych warunkach, ci g (θ j ) mo»e by zmodykowany przez zakªócenia stochastyczne: θ j+1 = θ j + α j 2β j h(θ j, β j ζ j )ζ j, gdzie zmienne ζ j pochodz z rozkªadu jednostajnego na sferze ζ = 1, a h(x, y) = h(x + y) h(x y) jest w przybli»eniu równe 2 y h(x). Inaczej ni» w podej±ciu deterministycznym, algorytm nie koniecznie pod»a w kierunku najszybszego spadku w θ j. Pozwala to na unikni cie lokalnych maksimów lub punktów siodªowych h. Zbie»no± (θ j ) do rozwi zania θ zale»y od doboru ci gów (α j ) i (β j ). Wystarczaj co mocnym warunkiem zbie»no±ci ci gu (θ j ) jest zbie»no± α j do 0 oraz wyra»enia α j β do niezerowej staªej. j Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 10 / 38
Metody gradientowe - przykªad Ci g dalszy przykªadu funkcji: h(x, y) = (xsin(20y) + ysin(20x)) 2 cosh(sin(10x)x) + +(xcos(10y) ysin(10x)) 2 cosh(cos(20y)y), Poni»ej przedstawiono wyniki trzech przebiegów algorytmu z ró»nymi warto±ciami (α i, β i ) oraz punktem startowym (0.65, 0.8). Liczba iteracji wynika z warunku zatrzymania θ T θ T 1 < 10 5. α j β j θ T h(θ T ) min th(θ t) Iteracje T 1/10j 1/10j (-0.166,1.02) 1.287 0.115 50 1/100j 1/100j (0.629,0.786) 0.00013 0.00013 93 1/10log(1+j) 1/j (0.0004,0.245) 4.24 10 6 2.163 10 7 58 Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 11 / 38
Metody gradientowe - przykªad cd. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 12 / 38
Symulowane wy»arzanie Metoda ta polega na wprowadzeniu zmiennej skaluj cej (zwanej temperatur ), której zmniejszanie powoduje szybsze ruchy wzdªu» powierzchni optymalizowanej funkcji h. Odpowiednia zmiana zmiennej skaluj cej pozwala z du»ym prawdopodobie«stwem unikn utkni cia rozwi zania w maksimum lokalnym. Mamy dane T > 0, θ1 T, θt 2,... próba generowana z rozkªadu π(θ) exp(h(θ)/t ). Warunek T 0 zapewnia szybsze przeszukiwanie dziedziny funkcji h w pocz tkowych krokach algorytmu oraz koncentacj warto±ci symulowanych z rozkªadu coraz bli»ej maksimum. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 13 / 38
Symulowane wy»arzanie z modyfikacj Metropolisa 1 Rozpoczynamy od warto±ci θ 0. 2 Losujemy ζ z jednostajnego rozkªadu prawdopodobie«stwa na otoczeniu ν(θ 0 ) (w ogólnym przypadku: otoczenie warto±ci poprzedniego kroku g( ζ θ 0 )). 3 Kolejny punkt wybieramy zgodnie z wzorem: { ζ z p-stwem p = min{exp( hi /T θ i+1 = i ), 1} z p-stwem 1 p θ i, gdzie h i = h i (ζ) h i (θ 0 ). 4 Aktualizuj T i na T i+1. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 14 / 38
Symulowane wy»arzanie z modyfikacj Metropolisa 1 Rozpoczynamy od warto±ci θ 0. 2 Losujemy ζ z jednostajnego rozkªadu prawdopodobie«stwa na otoczeniu ν(θ 0 ) (w ogólnym przypadku: otoczenie warto±ci poprzedniego kroku g( ζ θ 0 )). 3 Kolejny punkt wybieramy zgodnie z wzorem: { ζ z p-stwem p = min{exp( hi /T θ i+1 = i ), 1} z p-stwem 1 p θ i, gdzie h i = h i (ζ) h i (θ 0 ). 4 Aktualizuj T i na T i+1. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 14 / 38
Symulowane wy»arzanie z modyfikacj Metropolisa 1 Rozpoczynamy od warto±ci θ 0. 2 Losujemy ζ z jednostajnego rozkªadu prawdopodobie«stwa na otoczeniu ν(θ 0 ) (w ogólnym przypadku: otoczenie warto±ci poprzedniego kroku g( ζ θ 0 )). 3 Kolejny punkt wybieramy zgodnie z wzorem: { ζ z p-stwem p = min{exp( hi /T θ i+1 = i ), 1} z p-stwem 1 p θ i, gdzie h i = h i (ζ) h i (θ 0 ). 4 Aktualizuj T i na T i+1. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 14 / 38
Symulowane wy»arzanie z modyfikacj Metropolisa 1 Rozpoczynamy od warto±ci θ 0. 2 Losujemy ζ z jednostajnego rozkªadu prawdopodobie«stwa na otoczeniu ν(θ 0 ) (w ogólnym przypadku: otoczenie warto±ci poprzedniego kroku g( ζ θ 0 )). 3 Kolejny punkt wybieramy zgodnie z wzorem: { ζ z p-stwem p = min{exp( hi /T θ i+1 = i ), 1} z p-stwem 1 p θ i, gdzie h i = h i (ζ) h i (θ 0 ). 4 Aktualizuj T i na T i+1. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 14 / 38
Symulowane wy»arzanie z modyfikacj Metropolisa (2) h(ζ) h(θ i ) ζ zostanie zaakceptowany z prawdopodobie«stwem 1, a θ i b dzie zawsze zmieniane na ζ. h(ζ) < h(θ 0 ) ζ mo»e by zaakceptowany z niezerowym prawdopodobie«stwem p. Umo»liwia to ucieczk z ewentualnego maksimum lokalnego i daje szans na znalezienie maksimum globalnego. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 15 / 38
Symulowane wy»arzanie - przykªad 1 Rozwa»my funkcj : h(x) = [cos(50x) + sin(20x)] 2, zastosujmy algorytm symulowanego wy»arzania w celu znalezienia maksimum funkcji. W t-tej iteracji algorytm znajduje si w punkcie (x (t), h(x (t) )): 1 Generujemy u U(a t, b t ), gdzie a t = max(x (t) r, 0) i b t = min(x (t) + r, 1); 2 Akceptujemy x (t+1) = u z prawdopodobie«stwem p (t) = min(exp( h(u) h(x(t) ) T t ), 1); W przeciwnym przypadku ustalamy x (t+1) = x (t) ; 3 Aktualizujemy T t na T t+1. Na wykresach zaprezentowano wyniki algorytmu dla r = 0.5 i T t = 1/log(t). Warto± r sªu»y do kontrolowania rozmiaru przedziaªu wokóª bie» cego punktu, w tym przykªadzie obci to przedziaª do (0, 1). Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 16 / 38
Symulowane wy»arzanie - przykªad 1 cd. Na wykresach przedstawiono ró»ne trajektorie dla 2500 par (x (t), h(x (t) )). Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 17 / 38
Symulowane wy»arzanie problem zbie»no±ci Denicja Niech ε - przestrze«sko«czenie wymiarowa i h - maksymalizowana funkcja. 1 Stan e j ε mo»e by osi gni ty przyjmuj c warto± h ze stanu e i ε, je±li istnieje ci g stanów e 1,..., e n ª cz cych e i i e j, w taki sposób,»e h(e k ) h dla k = 1,..., n; 2 Wysoko± maksimum e i jest to najwi ksza warto± d i taka,»e istnieje stan e j, dla którego zachodzi warunek h(e j ) > h(e i ), który jest mo»liwy do osi gni cia ze stanu e i i przyjmuje warto± h(e i ) + d i. Z tego wynika,»e h(e i ) + d i jest warto±ci przyjmowan dla najwy»szego przej±cia ª cz cego e i z e j, a wi c optymalnym ci giem przej±. Przyjmijmy dodatkowo d i =, je±li e i jest globalnym maksimum. Niech O oznacza zbiór maksimów lokalnych E, a O jest podzbiorem zbioru O maksimów globalnych. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 18 / 38
Symulowane wy»arzanie problem zbie»no±ci (2) Twierdzenie Rozwa»my system, w którym mo»liwe jest poª czenie dwóch przypadkowych stanów sko«czonym ci giem stanów. Je±li dla ka»dego h > 0 i ka»dej pary (e i, e j ), stan e i mo»e by osi gni ty przyjmuj c warto± h ze stanu e j, wtedy i tylko wtedy gdy e j mo»e by osi gni ty z e i przyjmuj c warto± h. Je±li (T i ) zbiega do 0, ci g (θ i ) zdeniowany zgodnie z algorytmem symulowanego wy»arzania speªnia wtedy i tylko wtedy lim i P(θ i O) = 1 exp( D/T i ) = +, i=1 gdzie D = min{d i : e i O O}. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 19 / 38
Symulowane wy»arzanie problem zbie»no±ci (3) Przedstawione twierdzenie jest warunkiem koniecznym i wystarczaj cym na okre±lenie stopnia spadku temperatury, tak aby algorytm zbiegaª do zbioru maksimów globalnych. Nie rozwi zuje to jednak problemu wyznaczania T, gdy» D w praktyce nie jest znane. Je±li przykªadowo ustalimy T i = Γ/log(i), to otrzymujemy zbie»no± rozwi zania do maksimum globalnego, wtedy i tylko wtedy, gdy Γ D. Zamiast zmiennej skaluj cej deniowanej logarytmicznie, mo»na u»y geometrycznej T i = α i T 0 (0 < α < 1). Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 20 / 38
Symulowane wy»arzanie - przykªad 2 Ci g dalszy przykªadu funkcji: h(x, y) = (xsin(20y) + ysin(20x)) 2 cosh(sin(10x)x) + +(xcos(10y) ysin(10x)) 2 cosh(cos(20y)y), Stosujemy algorytm SA do znalezienia lokalnego minimum funkcji h. Poni»ej przedstawiono wyniki uzyskane w zale»no±ci od doboru spadku temperatury (T i ). Wybrany punkt startowy to (0.5, 0.4), algorytm stosowano do ci gu 5000 punktów. Nr T i θ T h(θ T ) min t h(θ t ) Acc 1 1/10i ( 1.94, 0.48) 0.198 4.02 10 7 0.9998 2 1/log(1 + i) ( 1.99, 0.13) 3.408 3.82 10 7 0.96 3 100/log(1 + i) ( 0.56, 0.43) 0.002 4.71 10 9 0.6888 4 1/10log(1 + i) (0.12, 0.15) 0.036 2.38 10 7 0.71 Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 21 / 38
Symulowane wy»arzanie - przykªad 2 cd. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 22 / 38
Prior feedback Prior feedback (lub recursive integration) jest podej±ciem opieraj cym si na zbie»no±ci wzgl dem T wyra»enia exp(h(θ)/t ) (tzw. miary Gibbsa) do rozkªadu jednostajnego na zbiorze globalnych maksimów h. Twierdzenie Rozwa»my h - funkcj o warto±ciach rzeczywistych zdeniowan na domkni tym i ograniczonym zbiorze Θ R p. Je±li istnieje jednoznaczne rozwi zanie θ speªniaj ce θ = argmax θ Θ h(θ), to lim λ Θ θeλh(θ) dθ Θ eλh(θ) dθ = θ przy zaªo»eniu,»e funkcja h jest ci gªa w punkcie θ. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 23 / 38
Prior feedback (2) Wniosek Niech π b dzie dodatnio okre±lon funkcj g sto±ci na Θ. Je±li istnieje jednoznaczny estymator najwi kszej wiarygodno±ci θ, to speªnia on warunek: lim λ θe λl(θ x) π(θ)dθ e λl(θ x) π(θ)dθ = θ. ENW mo»e by przedstawiony jako granica estymatorów Bayesa zwi zanych z arbitralnym rozkªadem π i obserwacjami odpowiadaj cymi pot dze λ wiarygodno±ci exp{λl(θ x)}. Dla λ N, δ π λ (x) = θe λl(θ x) π(θ)dθ e λl(θ x) π(θ)dθ jest estymatorem Bayesa zwi zanym z rozkªadem a priori π oraz odpowiadaj c prób skªadaj c si z λ powtórze«pocz tkowej próby x. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 24 / 38
Prior feedback (3) Wraz ze zwi kszaniem rozmiaru próby, wpªyw rozkªadu prawdopodobie«stwa a priori zmniejsza si, a rozkªad zwi zany z funkcj exp(λl(θ x))π(θ) jest coraz bardziej skoncentrowany wokóª globalnego maksimum l(θ x) wraz ze zwi kszaniem λ. Z praktycznego punktu widzenia, metoda ta mo»e by implementowana poprzez obliczanie estymatorów Bayesa δ π λ i (x), dla i = 1, 2... do momentu stabilizacji. W przypadku stosowania iteracyjnego algorytmu obliczania δ π λ (x), poprzednie rozwi zanie (wzgl dem λ) zapewnia nowy punkt startowy w kolejnym kroku, dla wi kszej warto±ci λ [analogia do metody symulowanego wy»arzania]. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 25 / 38
Aproksymacja stochastyczna Pod tym poj ciem kryj si metody polegaj ce na aproksymacji funkcji celu, w odró»nieniu od poprzedniej cz ±ci po±wi conej metodom przeszukiwaniu Θ. Przedstawione poni»ej metody mog by w efekcie obci»one dodatkowym bª dem, zwi zanym z poszukiwaniem maksimum aproksymacji funkcji h. Wi kszo± z przestawionych metod aproksymacji stosuje si jedynie do modeli z brakuj cymi danymi (ang.: missing data models). Przedstawione metody b d opieraªy si na zaªo»eniu,»e funkcja celu h speªnia warunek h(x) = E[H(x, Z)]. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 26 / 38
Optymalizacja przy brakuj cych danych Metody zwi zane z modelowaniem brakuj cych danych najwygodniej jest rozpatrywa jako modele, których wiarygodno±ciowa funkcja oceny jest wyra»ana jako: g(x θ) = f (x, z θ)dz, lub bardziej ogólnie, przy optymalizowaniu funkcji h(x), jako warto± oczekiwana h(x) = E[H(x, Z)]. Z Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 27 / 38
Optymalizacja przy brakuj cych danych cd. Je±li warunek g(x θ) = Z f (x, z θ)dz zachodzi, a wektor Z sªu»y jedynie do uproszczenia oblicze«. Sposób jego wyboru, tak aby speªniaª warunek h(x) = E[H(x, Z)] nie powinien wpªywa na warto± estymatora. Funkcja L c (θ x, z) = f (x, z θ) jest funkcj wiarygodno±ci peªnych danych (x, z) (complete-data likelihood, complete-model). Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 28 / 38
Algorytm oczekiwania - maksymalizacji Algorytm oczekiwania-maksymalizacji (ang. Expectation-Maximization) jest algorytmem do rozwi zywania problemów brakuj cych danych w kontek±cie wiarygodno±ci. W pierwotnej wersji nie jest to jednak algorytm stochastyczny. Niech X 1,..., X n iid z rozkªadu g(x θ) - zmienne obserwowane. Zale»y nam na obliczeniu n ˆθ = argmaxl(θ x) = g(x i θ). Chcemy jednak uzupeªni model o zmienne brakuj ce z, gdzie X, Z f (x, z θ). Dodatkowo zachodzi: i=1 k(z θ, x) = f (x, z θ) g(x θ) Jest to rozkªad warunkowy brakuj cych danych Z przy obserwowanych danych x. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 29 / 38
Algorytm oczekiwania - maksymalizacji (2) Na podstawie powy»szej równo±ci mo»na zaobserwowa nast puj c zale»no± mi dzy wiarygodno±ci peªnych danych L c (θ x, z), a wiarygodno±ci obserwowanych danych L(θ x). dla dowolnego θ 0. logl(θ x) = E θ0 [logl c (θ x, z)] E θ0 [logk(z θ, x)], Na potrzeby omawianego algorytmu oznaczmy warto± oczekiwan wiarygodno±ci logartymicznej jako: Q(θ θ 0, x) = E θ0 [logl c (θ x, z)]. Nast pnie dla ustalonego θ 0 maksymalizujemy Q(θ θ 0, x) wzgl dem θ, a je±li ˆθ (1) jest warto±ci maksymalizuj c to wyra»enie, to powtarzamy proces modykuj c warto± θ 0 na ˆθ (1). Post puj c iteracyjnie otrzymujemy ci g estymatorów ˆθ (j), j = 1, 2,..., gdzie ˆθ (j) jest warto±ci θ maksymalizuj c wyra»enie Q(ˆθ (j) ˆθ (j 1), x). Q(ˆθ (j) ˆθ (j 1), x) = max θ Q(θ ˆθ (j 1), x). Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 30 / 38
Algorytm oczekiwania - maksymalizacji (3) KROK E Oblicz Q(θ ˆθ (m), x) = Eˆθ (m) [logl c (θ x, z)], gdzie warto± oczekiwana odpowiada k(z ˆθ m, x). Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 31 / 38
Algorytm oczekiwania - maksymalizacji (3) KROK E Oblicz Q(θ ˆθ (m), x) = Eˆθ (m) [logl c (θ x, z)], gdzie warto± oczekiwana odpowiada k(z ˆθ m, x). KROK M Maksymalizuj Q(θ ˆθ (m), x) w θ oraz przyjmij θ (m+1) = argmax θ Q(θ ˆθ (m), x). Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 31 / 38
Algorytm oczekiwania - maksymalizacji (4) Twierdzenie Ci g (ˆθ (m) ) zdefniowany jako Q(ˆθ (j) ˆθ (j 1), x) = max θ Q(θ ˆθ (j 1), x). speªnia L(ˆθ (j+1) x) L(ˆθ (j) x) z równo±ci zachodz c wtedy i tylko wtedy, gdy Q(ˆθ (j+1) ˆθ (j), x) = Q(ˆθ (j) ˆθ (j), x). Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 32 / 38
Algorytm oczekiwania - maksymalizacji (5) Zaprezentowane twierdzenie gwarantuje, niezmniejszanie si funkcji wiarygodno±ci logarytmicznej w ka»dym kroku iteracji, jednak dalej nie jeste±my w stanie stwierdzi,»e ci g (ˆθ (j) ) zbiega do estymatora najwi kszej wiarygodno±ci. Aby zapewni t zbie»no± potrzebujemy dalszych warunków na odwzorowanie ˆθ (j) ˆθ (j+1). Twierdzenie poni»ej jest warunkiem gwarantuj cym zbie»no± do punktu stacjonarnego (lokalnego ekstremum lub punktu przegi cia). Twierdzenie Je±li warto± oczekiwana wiarygodno±ci peªnych danych Q(θ θ 0, x) jest funkcj ci gª zarówno θ, jak i θ 0, to ka»dy punkt graniczny ci gu EM (ˆθ (j) ) jest punktem stacjonarnym L(θ x), a L(ˆθ (j) x) zbiega monotonicznie do L(ˆθ x) dla punktu stacjonarnego ˆθ. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 33 / 38
Monte Carlo EM Problemem w implementacji algorytmu EM jest konieczno± wyliczania warto±ci oczekiwanej funkcji wiarygodno±ci Q(θ θ 0, x) w ka»dym kroku E. W celu przezwyci»enia tej trudno±ci zaproponowano podej±cie Monte Carlo (MCEM) polegaj ce na symulowaniu Z 1,..., Z m z rozkªadu warunkowego k(z x, θ), a nast pnie maksymalizacj aproksymowanej warto±ci funkcji wiarygodno±ci dla peªnych danych ˆQ(θ θ 0, x) = 1 m m logl c (θ x, z). i=1 Warto± ta zbiega do Q(θ θ 0, x) wraz z m. Proponuje si zwi kszanie m wraz z kolejnymi iteracjami. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 34 / 38
Dzi kuj za uwag. Eliza Bujnowska () Monte Carlo Optimization 28 lutego 2006 35 / 38