Model Perturb-and-MAP Uczenie rozkładów Gibbsa

Model Perturb-and-MAP Uczenie rozkładów Gibbsa Jakub M. Tomczak Instytut Informatyki Politechnika Wrocławska jakub.tomczak@pwr.wroc.pl 27 VI 2014

Wstęp Papandreou G., Perturb-and-MAP Random Fields, NIPS 2012 Workshop: Perturbations, Optimization, and Statistics 1/27

Wstęp Modele z użyciem energii (ang. energy-based models) Dla x X, wektora cech φ( ) oraz wektora parametrów θ R M definiujemy energię: E(x θ) = θ, φ(x) = j θ j φ j (x) Rozkład Gibbsa (ang. Gibbs distribution) Dla x X, wektora cech φ( ), wektora parametrów θ oraz energii E(x θ) rozkład Gibbsa definiujemy w następujący sposób: p(x θ) = 1 Z(θ) exp( E(x θ)) gdzie Z(θ) = x exp( E(x θ)) suma statystyczna (ang. partition function). 2/27

Wstęp Modele z użyciem energii Znalezienie najlepszej konfiguracji x wiąże się z minimalizacją energii (znalezienie najbardziej prawdopodobnej konfiguracji MAP): x = arg min E(x θ) x Rozwiązanie tego zadania jest zazwyczaj szybkie dla pewnej klasy energii. Uczenie parametrów odbywa się zazwyczaj poprzez stosowanie metod typu large margin. Rozkład Gibbsa Każdej konfiguracji x przyporządkowane jest prawdopodobieństwo: x p(x θ) Uczenie parametrów odbywa się poprzez ML (z regularyzacją) lub MAP. Kolmogorov, V., Zabih, R. (2004). What energy functions can be minimized via graph cuts?. PAMI. 26(2), 147-159. 3/27

Wstęp Modele z użyciem energii są skuteczne w wielu zastosowaniach. Natomiast modele probabilistyczne są bardzo elastyczne, ale procedura uczenia jest skomplikowana. Pojawia się więc pytanie, czy można by połączyć te dwa podejścia? Czy istnieje technika, która pozwalałaby na uczenie modeli probabilistycznych z użyciem efektywnych technik optymalizacji? Papandreou G., Yuille A. Perturb-and-MAP Random Fields: Reducing Random Sampling to Optimization, with Applications in Computer Vision. in: Advanced Structured Prediction. (eds.) S. Nowozin, P.V. Gehler, J. Jancsary, C.H. Lampert. MIT Press 4/27

Perturb-and-MAP (PM) Rysunek: (a) Procedura, (b) konfiguracja MAP, (c) Konfiguracja PM. Stosując Perturb-and-MAP (PM) otrzymujemy próbki z rozkładu Gibbsa p(x θ). Rysunek: (a) MAP, (b) MCMC, (c) Variational Bayes, (d) PM Papandreou G., Yuille A. Perturb-and-MAP Random Fields: Reducing Random Sampling to Optimization, with Applications in Computer Vision. in: Advanced Structured Prediction. (eds.) S. Nowozin, P.V. Gehler, J. Jancsary, C.H. Lampert. MIT Press 5/27

PM dla gaussowskich pól losowych (ang. Gaussian Markov Random Field) Gaussowskie pole losowe (GMRF) Energia GMRF: E(x θ) = 1 2 (Fx µ 0) Σ 1 0 (Fx µ 0) = 1 2 x Jx k x + const. gdzie J = F Σ 0 F, k = F Σ 1 0 µ 0 Energię można wyrazić jak wcześniej definiując: θ = ( k, vec(j) ), φ(x) = ( x, 1 2 vec(xx ) ) Zatem rozkład Gibbsa dla GMRF jest rozkładem normalnym: N (J 1 k, J 1 ) = N (µ, Σ) 6/27

PM dla gaussowskich pól losowych (ang. Gaussian Markov Random Field) Rozwiązanie MAP Rozwiązanie MAP: 1 ˆx = arg min x 2 x Jx k x De facto szukamy średniej, µ = J 1 k, czyli problem ten jest równoważny rozwiązaniu układu równań Jµ = k. Złożoność (dekompozycja Cholesky ego): O(N 2 ). Dokładne próbkowanie z użyciem PM Wylosujmy µ 0 N (µ 0, Σ 0 ) oraz znajdźmy rozwiązanie MAP x = F Σ 0 µ 0. Wówczas x jest dokładną próbką z oryginalnego GMRF. Dowód Zauważmy, że E[ x] = µ oraz E[( x µ)( x µ) ] = J 1 F Σ 0 FJ 1 = = J 1 = Σ. Czyli x N (µ, Σ). 7/27

Uczenie markowskich pól losowych Uczenie MRF Dla danych D = {x n } N n=1 uczenie przeprowadzone jest poprzez maksymalizację logarytmu wiarygodności (często z regularyzacją): L(θ) = log Z(θ) 1 N Licząc gradient ( θ j L(θ) = θ j ): N E(x n θ) n=1 θ j = E x [φ j (x)] E D [φ j (x)] gdzie E x [φ j (x)] = θ j log Z(θ) trudne do policzenia, E D [φ j (x)] = 1 N N n=1 φ j(x) łatwe do policzenia. ML dla rozkładu Gibbsa może być postrzegane jako dopasowanie momentów (ang. moment matching), tj. w granicy E x [φ j (x)] = E D [φ j (x)]. 8/27

PM dla dyskretnych markowskich pól losowych x przyjmuje wartości z dyskretnego zbioru X D, energia: E(x θ) = θ, φ(x). Próbka PM (ɛ R zaburzenie (ang. perturbation)): x = arg min x E(x θ + ɛ). x minimalizuje energię q X D E(x θ) E(q θ). Takich nierówności jest X D i tworzą one wielościan: P x = {θ R M : θ, φ(x) φ(q) 0, q X D } Wielościany P x dzielą przestrzeń wag na obszary wpływu poszczególnych konfiguracji x. x zostanie wybrany, jeżeli θ + ɛ P x lub równoważnie ɛ P x θ = {ɛ R M : θ + ɛ P x }. Rozkład na zmienną x dla modelu PM: f P M (x θ) = P x θ f(ɛ)dɛ 9/27

PM dla dyskretnych markowskich pól losowych Problemy: Policzenie objętości wielościanu (tj. f P M (x θ)) jest NP-trudne. W jaki sposób skonstruować zaburzenia odpowiednie dla rozkładu Gibbsa? To jest takie, że będziemy mogli wyznaczyć parametry dla Gibbsa korzystając z f P M. 10/27

Uczenie z użyciem PM Wiarygodność Logarytm wiarygodności: L P M (θ) = 1 N L P M (θ) jest wklęsły N log f P M (x n θ). Jeżeli zaburzenia ɛ są losowane z rozkładu logarytmicznie wklęsłego f(ɛ), to L P M (θ) jest wklęsły. Uczenie Podobnie jak w przypadku rozkładu Gibbsa, licząc gradient po L P M (θ): n=1 θ j = E P M [φ j (x)] E D [φ j (x)] gdzie E P M [φ j (x)] = x f P M (x θ)φ j (x) Uczenie zbieżność Jeśli θ i θ różnią się wyłącznie na j-tym elemencie i θ j > θ j, to E θ P M [φ j(x)] E θ P M [φ j(x)]. 11/27

Uczenie z użyciem PM Rozkład Gumbela Jakie wybrać zaburzenia dla dyskretnego pola losowego?! Rozkład Gumbela (ang. Gumbel distribution) Rozkład Gumbela ciągłej zmiennej losowej z (o parametrze µ): (pdf) g(z µ) = exp((z µ) exp(z µ)), (cdf) G(z µ) = 1 exp( exp(z µ)). Jest rozkładem logarytmicznie wklęsłym. Łatwo generować: u Uni[0, 1], z = µ + log( log(u)). Różnica dwóch zmiennych Gumbela Niech y i z są zmiennymi Gumbela o średniej µ = 0. Wówczas różnica tych zmiennych, y z, jest realizacją z rozkładu logistycznego Logistic(0, 1) = 1 4 sech2 (x). 12/27

Uczenie z użyciem PM Własności zaburzeń Gumbela Lemat 1a Niech (θ 1,..., θ M ), θ m R, m = 1,..., M. Zaburzamy addytywnie θ m = θ m + ɛ m, gdzie ɛ m są IID realizacjami rozkładu Gumbela (µ = 0). Wówczas minimum z zaburzonych zmiennych θ min = min { θ m }, m=1:m jest z rozkładu Gumbela z modą θ 0, gdzie e θ0 Lemat 1b = M m=1 e θm. Przy założeniach jak w lemacie 1a. Wówczas prawdopodobieństwo, że θ m jest wartością minimalną wynosi Pr{arg min( θ 1,..., θ M ) = m} = e θm e θ0. Wniosek: zaburzanie Gumbela prowadzi do rozkładu Gibbsa! 13/27

Uczenie z użyciem PM Zaburzenia Gumbela dla rozkładu Gibbsa Dla x i X, i = 1,..., D, rozkład Gibbsa jest rozkładem na X D możliwych konfiguracji. Przedstawmy energię w maksymalnej możliwej parametryzacji, tj. wypisujemy wszystkie konfiguracje {x j, j = 1,..., J = X D }. Pełna (ang. fully-expanded) tablica energii Wówczas mamy energię: Ē(x θ) = θ, φ(x) gdzie θ j = E(x j θ) = θ, φ(x j ), j = 1,..., J, jest pełną tablicą potencjałów (energii), oraz φ(x j ) jest indykatorem. Rozkład PM i Gibbsa są równoważne Jeżeli zaburzymy każdy element pełnej tablicy potencjałów IID zaburzeniami Gumbela ɛ j, j = 1,..., J, to wówczas rozkład PM i rozkład Gibbsa pokrywają się, tj. f(ɛ) = exp( E(x θ)) Z(θ). 14/27

Uczenie z użyciem PM Zaburzenia Gumbela dla rozkładu Gibbsa Stosowanie zaburzeń Gumbela do pełnej tablicy potencjałów (tzw. zaburzenia pełnego rzędu) jest niepraktyczne (wykładnicza złożoność). Okazuje się, że wystarczy stosować prostsze zaburzenia. Zaburzenia 1-go rzędu Zaburzenia dodajemy wyłącznie do wyrażeń unarnych. Musimy generować D X próbek Gumbela. Zaburzenia 2-go rzędu Zaburzenia dodajemy do podzbioru par (niepokrywających się węzłów) oraz do pozostałych (niepokrytych) wyrażeń unarnych. Trzeba wygenerować co najwyżej D 2 X 2 próbek Gumbela. 15/27

Uczenie z użyciem PM Zaburzenia Gumbela dla rozkładu Gibbsa Pojawia się pytanie, czy dla zaburzeń niższego rzędu każdy stan jest osiągalny (ang. reachable)? Wszystkie stany dla zaburzenia 1-go rzędu są osiągalne Dodanie zaburzeń wyrażeń unarnych prowadzi do modelu PM, który przypisuje niezerowe prawdopobieństwo każdemu stanowi wówczas, gdy rozkład zaburzenia jest nieograniczony. Jest to prawdą dla zaburzenia Gumbela. Wszystkie stany dla zaburzeń wyższego rzędu są osiągalne Zaburzenia 2-go i wyższego rzędu prowadzą do bardziej ekspresyjnego modelu niż dla zaburzeń 1-go rzędu, więc tym bardziej każdy stan jest osiągalny. Papandreou, G., Yuille, A. L., Perturb-and-map random fields: Using discrete optimization to learn and sample from energy models. Supplementary Material, ICCV 2011, pp. 193-200 16/27

Ograniczona maszyna Boltzmanna (RBM) Wyszczególniamy zmienne obserwowalne v {0, 1} D oraz nieobserwowalne h {0, 1} M. Definiujemy funkcję energii dla konfiguracji x = (v, h): E(v, h θ) = b v c h v Wh h gdzie: θ = {b, c, W}. Rozkład prawdopodobieństwa Gibbsa: x p(v, h θ) = 1 exp { E(v, h θ)} Z(θ) gdzie: Z(θ) = v h exp { E(v, h θ)} jest to tzw. suma statystyczna (ang. partition function). 17/27

Uczenie PM dla RBM Interesuje nas zadanie arg min x = E(x θ) + ɛ(x). Zaburzenia 1-go rzędu W przypadku RBM: bi = b i + ɛ(v i = 1) ɛ(v i = 0) c j = c j + ɛ(h j = 1) ɛ(h j = 0) Zaburzenia 2-go rzędu W przypadku RBM (wcześniej musimy rozwiązać problem skojarzenia w grafie dwudzielnym, ang. matching problem, np. algorytmem węgierskim): W ij = W ij + ɛ(0, 1) ɛ(0, 1) ɛ(1, 0) + ɛ(0, 0) bi = b i + ɛ(0, 1) ɛ(0, 0) c i = c i + ɛ(1, 0) ɛ(0, 0) 18/27

Algorytm uczenia PM dla RBM 1. Pobierz obserwację v t := v n. 2. Dla v t wyznacz ĥt = p(h v t, θ t ) oraz utwórz próbkę h t na podstawie ĥt. 3. (Perturb-) Zaburz parametry. 4. (-MAP) Rozwiąż problem minimalizacji energii z użyciem metody coordinate descent (dla k kroków): ṽ t b + Wh > 0 h t c + W v > 0 5. Uaktualnij: W := W + η(ĥt vt h ) t ṽt ) b := b + η (x t x t c := c + η (ĥt h ) t 19/27

Eksperyment MNIST (Gumbel 1-go rzędu) 20/27

Eksperyment Caltech101 (Gumbel 1-go rzędu) 21/27

Eksperyment znajdowanie skojarzeń Istnieje dokładny algorytm znajdowania skojarzeń w grafie dwudzielnym algorytm węgierski (ang. Hungarian algorithm). Istnieją również heurystyki, m.in. algorytm zachłanny. Zastosowanie wprost algorytmu znajdowania skojarzeń dla zaburzeń Gumbela do RBM wolne! Przeprowadzono wstępną analizę działania dla syntetycznych macierzy generowanych z W ij N (0, 4). Rozpatrywano W. Działanie algorytmów porównano ze względu na: czas działania, różnicę funkcji celu (suma wag), różnica skojarzeń. 22/27

Eksperyment znajdowanie skojarzeń (czas działania) 23/27

Eksperyment znajdowanie skojarzeń (różnica sumy wag) 24/27

Eksperyment znajdowanie skojarzeń (różnica skojarzeń) 25/27

Podsumowanie Model PM jest również stosowany do: oszacowania log Z(θ) (Hazan & Jaakkola, 2012); nieobciążonego próbkowania (Hazan, Maji & Jaakkola, 2013); anotacji obrazów (Maji, Hazan & Jaakkola, 2014). Działanie PM dla uczenia RBM bardzo ciekawe! Należy zaimplementować zaburzenia 2-go rzędu dla uczenia RBM. Model PM został zaproponowany w 2011, więc pozostaje otwartym polem do badań. 26/27

Dziękuję za uwagę! 27/27