Wst p do sieci neuronowych, wykªad 13 Maszyna Boltzmanna

Podobne dokumenty
Wstęp do sieci neuronowych, wykład 14 Maszyna Boltzmanna

Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd.

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.

Ekonometria - wykªad 8

Uczenie Wielowarstwowych Sieci Neuronów o

Ekonometria Bayesowska

Metody dowodzenia twierdze«

AUTO-ENKODER JAKO SKŠADNIK ARCHITEKTURY DEEP LEARNING

Wstęp do sieci neuronowych, wykład 9 Sieci rekurencyjne. Autoasocjator Hopfielda

Wstęp do sieci neuronowych, wykład 9 Sieci rekurencyjne. Autoasocjator Hopfielda

Materiaªy do Repetytorium z matematyki

Wektory w przestrzeni

Wstęp do sieci neuronowych, wykład 12 Wykorzystanie sieci rekurencyjnych w optymalizacji grafowej

Metody numeryczne i statystyka dla in»ynierów

WYKŁAD 4 PLAN WYKŁADU. Sieci neuronowe: Algorytmy uczenia & Dalsze zastosowania. Metody uczenia sieci: Zastosowania

Funkcje, wielomiany. Informacje pomocnicze

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Statystyka matematyczna - ZSTA LMO

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

1 Bª dy i arytmetyka zmiennopozycyjna

Wstęp do sieci neuronowych, wykład 10 Sieci rekurencyjne. Autoasocjator Hopfielda

Ekonometria Bayesowska

Wstęp do sieci neuronowych, wykład 10 Sieci rekurencyjne. Autoasocjator Hopfielda

Ukªady równa«liniowych

Dynamiczne wªasno±ci algorytmu propagacji przekona«

det A := a 11, ( 1) 1+j a 1j det A 1j, a 11 a 12 a 21 a 22 Wn. 1 (Wyznacznik macierzy stopnia 2:). = a 11a 22 a 33 +a 12 a 23 a 31 +a 13 a 21 a 32

i, lub, nie Cegieªki buduj ce wspóªczesne procesory. Piotr Fulma«ski 5 kwietnia 2017

Równania ró»niczkowe I rz du (RRIR) Twierdzenie Picarda. Anna D browska. WFTiMS. 23 marca 2010

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

Ekstremalnie fajne równania

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Elementy geometrii w przestrzeni R 3

Zagadnienia na wej±ciówki z matematyki Technologia Chemiczna

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

1 Przypomnienie wiadomo±ci ze szkoªy ±redniej. Rozwi zywanie prostych równa«i nierówno±ci

Przekroje Dedekinda 1

ELEMENTARNA TEORIA LICZB. 1. Podzielno±

Wykªad 4. Funkcje wielu zmiennych.

Liniowe zadania najmniejszych kwadratów

MODEL HAHNFELDTA I IN. ANGIOGENEZY NOWOTWOROWEJ Z UWZGL DNIENIEM LEKOOPORNO CI KOMÓREK NOWOTWOROWYCH

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Twierdzenie Wainera. Marek Czarnecki. Warszawa, 3 lipca Wydziaª Filozoi i Socjologii Uniwersytet Warszawski

3. (8 punktów) EGZAMIN MAGISTERSKI, Biomatematyka

JAO - J zyki, Automaty i Obliczenia - Wykªad 1. JAO - J zyki, Automaty i Obliczenia - Wykªad 1

Wst p do sieci neuronowych, wykªad 14 Zespolone sieci neuronowe

Przykªady problemów optymalizacji kombinatorycznej

Funkcje wielu zmiennych

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Arkusz maturalny. Šukasz Dawidowski. 25 kwietnia 2016r. Powtórki maturalne

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Kolokwium Zadanie 1. Dla jakich warto±ci parametrów a i b funkcja sklejona

Wst p do sieci neuronowych, wykªad 05a Algorytm wstecznej propagacji bª du

Lab. 02: Algorytm Schrage

Wykorzystanie lokalnej geometrii danych w Maszynie Wektorów No±nych

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

ZADANIA. Maciej Zakarczemny

1 Metody iteracyjne rozwi zywania równania f(x)=0

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 6

Wybrane poj cia i twierdzenia z wykªadu z teorii liczb

Metodydowodzenia twierdzeń

przewidywania zapotrzebowania na moc elektryczn

Wst p do sieci neuronowych, wykªad 4 Algorytm wstecznej propagacji bª du, cz. 1

x y x y x y x + y x y

2 Liczby rzeczywiste - cz. 2

XVII Warmi«sko-Mazurskie Zawody Matematyczne

c Marcin Sydow Przepªywy Grafy i Zastosowania Podsumowanie 12: Przepªywy w sieciach

Relacj binarn okre±lon w zbiorze X nazywamy podzbiór ϱ X X.

Wykªad 10. Spis tre±ci. 1 Niesko«czona studnia potencjaªu. Fizyka 2 (Informatyka - EEIiA 2006/07) c Mariusz Krasi«ski 2007

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Zastosowanie eliptycznych równa«ró»niczkowych

X WARMI SKO-MAZURSKIE ZAWODY MATEMATYCZNE 18 maja 2012 (szkoªy ponadgimnazjalne)

5. (8 punktów) EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Macierze i Wyznaczniki

Modele wielorównaniowe. Problem identykacji

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Informacje pomocnicze

Macierze i Wyznaczniki

Monte Carlo Optimization

Macierze. 1 Podstawowe denicje. 2 Rodzaje macierzy. Denicja

Metody numeryczne. Wst p do metod numerycznych. Dawid Rasaªa. January 9, Dawid Rasaªa Metody numeryczne 1 / 9

Metody statystyczne w biologii - Wykªad 8. Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t

MiASI. Modelowanie systemów informatycznych. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Aproksymacja funkcji metod najmniejszych kwadratów

Metody bioinformatyki (MBI)

Ekonometria. wiczenia 7 Modele nieliniowe. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Przeksztaªcenia liniowe

Zadanie 1. (8 punktów) Dana jest nast puj ca macierz: M =

ANALIZA MATEMATYCZNA Z ALGEBR

Elementy geometrii analitycznej w przestrzeni

Teoria grafów i jej zastosowania. 1 / 126

Vincent Van GOGH: M»czyzna pij cy li»ank kawy. Radosªaw Klimek. J zyk programowania Java

Elementy Modelowania Matematycznego Wykªad 1 Prawdopodobie«stwo

Metody numeryczne i statystyka dla in»ynierów

Strategie zabezpieczaj ce

Temat: Co to jest optymalizacja? Maksymalizacja objętości naczynia prostopadłościennego za pomocą arkusza kalkulacyjngo.

CAŠKOWANIE METODAMI MONTE CARLO Janusz Adamowski

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Interpolacja funkcjami sklejanymi

Transkrypt:

Wst p do sieci neuronowych, wykªad 13 Maszyna Boltzmanna M. Czoków, J. Piersa Wydziaª Matematyki i Informatyki, Uniwersytet Mikoªaja Kopernika w Toruniu 2012-01-23 Projekt pn. IKS - Inwestycja w Kierunki Strategiczne na Wydziale Matematyki i Informatyki UMK realizowany w ramach Poddziaªania 4.1.2 Programu Operacyjnego Kapitaª Ludzki

Problemy z sieci Hoplda Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna Najwi ksz przeszkod w osiaganiu przez sieci Hopelda dobrych rozwiaza«zadanych problemów jest podatno± na popadania w minima lokalne. Jest to istotna okoliczno±, gdy» okazuje si,»e w skomplikowanych problemach sie praktycznie zawsze ko«czy dziaªanie w lepszym lub gorszym minimum lokalnym. Aby temu zaradzi trzeba wprowadzi mechanizm pozwalaj cy wyj± z lokalnych basenów atrakcji. Na tym wykªadzie przeanalizujemy stochastyczne metody radzenia sobie z tym problemem.

Nicolas Metropolis (1915-1999) Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna czªonek zespoªu badawczego Projektu Manhattan wspóªtwórca komputerów MANIAC (1952) i MANIAC II (1957) jeden z autorów metod Monte Carlo (wraz z S. Ulamem i J. von Neumannem) algorytm Metropolisa (1953) zaliczony do czoªowych 10 algorytmów, które wywarªy najwi kszy wpªyw na rozwój i praktyk nauki i techniki w XX wieku (wg Computing Science and Engineering)

Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna Algorytm Metropolisa wersja oryginalna Mamy dany otwarty ukªad termodynamiczny: E i energia i-tego stanu. Problem: znale¹ stan o minimalnej energii. Wykonujemy wielokrotnie: dla danego stanu i-tego wykonujemy statystyczny ruch cz stki, otrzymuj c stan j-ty. Je»eli E j E i 0, przechodzimy do stanu j-tego bezwarunkowo, w p.p. przechodzimy do stanu j z prawdopodobie«stwem exp( (E j E i ) k b T ), gdzie k b staªa Boltzmanna, T temperatura bezwzgl dna.

Adaptacja algorytmu Metropolisa Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna Jak dostosowa ten algorytm do dziedziny problemów optymalizacyjnych? Wystarczy dokona nast puj cych uto»samie«: rozwi zanie stan ukªadu termodynamicznego funkcja oceny energia ukªadu przeksztaªcenie lokalne ruch cz stki optimum globalne stan o minimalnej energii parametr T temperatura i staªa Boltzmanna

Maszyna Boltzmanna denicja Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna Maszyny Boltzmanna to stochastyczna wersja sieci Hopelda zaproponowana przez Hintona i Sejnowskiego w 1985. Modykacja polega na tym,»e dynamika zadana jest przez algorytm Metropolisa.

Dynamika Glaubera przypomnienie Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna Dynamika asynchroniczna. wylosuj neuron σ i je±li spin jest niezgodny z lokalnym polem wypadkowym M i, zmieniamy go na zgodny z polem wypadkowym M i σ i = sign(m i ) Przypomnienie pole wypadkowe M i = j w ijσ j + h i powtarzamy, a» do ustabilizowania si sytuacji

Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna Maszyna Boltzmanna podstawowe zaªo»enia Rozwa»my sie rekurencyjn z dynamik asynchroniczn oraz z mechanizmem przej± zgodnym z algorytmem Metropolisa. Przestrze«konguracji tej sieci stanowi przestrze«stanów ªa«cucha Markowa.

Maszyna Boltzmanna dynamika Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna wylosuj neuron σ i je±li spin jest niezgodny z lokalnym polem wypadkowym M i, zmieniamy go na zgodny z polem wypadkowym M i σ i = sign(m i ) je±li jest zgodny, zmieniamy go z prawdopodobie«stwem exp( (E( σ ) E( σ))/t ), lub pozostawiamy z komplementarnym prawdopodobie«stwem Przypomnienie E( σ) = 1 2 w i j ijσ i σ j h i iσ i powtarzamy, a» do ustabilizowania si sytuacji

Uwagi Algorytm Metropolisa Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna Rozwa»my dwie konguracje σ i σ ró»ni ce si na i-tym miejscu. Niech σ b dzie zgodna z lokalnym polem wypadkowym M i, a σ nie. Wtedy zachodzi: E( σ ) E( σ) = 2 M i. Zatem: exp( (E( σ ) E( σ))/t ) = exp( 2 M i /T ).

Uwagi Algorytm Metropolisa Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna Obie strony równania: E( σ ) E( σ) = 2 M i s dodatnie. Zatem 0 < exp( 2 M i /T ) < 1.

Uwagi Algorytm Metropolisa Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna 1 e -x 0.8 0.6 0.4 0.2 0 0 1 2 3 4 5

Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna Algorytmu Metropolisa rola temperatury Jaka jest rola temperatury w algorytmie Metropolisa? Rozwa»my funkcj g(x) = e x/t dla x > 0: T +, wtedy x/t 0, wi c e x/t 1 ka»de rozwi zanie jest akceptowane, T 0, wtedy x/t +, wi c e x/t 0 akceptowane s tylko lepsze rozwi zania. Dobieraj c warto± parametru T > 0 ustalamy zakres tolerancji dla rozwi za«o wi kszej energii ukªady w stosunku do poprzedniego rozwi zania. Algorytm Metropolisa dobrze jest startowa wiele razy, na ko«cu wybiera si najlepsze rozwi zanie; dziaªa to jak wzmacniacz prawdopodobie«stwa wylosowania dobrego rozwi zania.

Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna Stacjonarno± stanów maszyny Boltzmanna Twierdzenie. Rozkªad stacjonarny dla ªa«cucha Markowa zadanego przez stany maszyny Boltzmanna ma posta : P( σ) = exp( E( σ)/t ) σ exp( E( σ )/T ) = exp( E( σ)/t ), Z(T ) gdzie Z(T ) jest czynnikiem normalizuj cym znanym jako funkcja rozdziaªu. Dzi ki tej funkcji mamy do czynienia z prawdziwym prawdopodobie«stwem. Rozkªad ten jest zwany miar Gibbsa.

Dowód stacjonarno±ci Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna Udowodnijmy stacjonarno± zadanego ªa«cucha Markowa. Niech A i B b d dowolnymi stanami nale» cymi do tego ªa«cucha. π jest rozkªadem stacjonarnym zadanego ªa«cucha Markowa o macierzy przej±cia P. Wtedy: P AB p-stwo przej±cia ze stanu A do B w jednym kroku π A p-stwo znalezienia si w stanie A π A P AB p-stwo wychodz ce z A do B π A ( P B AB) = π A p-stwo wychodz ce z A π B BP BA p-stwo wchodz ce do A

Dowód stacjonarno±ci Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna Twierdzenie. Ša«cuch jest stacjonarny p-stwo wchodz ce = p-stwo wychodz ce dla ka»dego stanu, czyli: A ( B π B P BA = π A ( B P AB ) = π A ) Powy»sza równo± zachodzi zawsze, je±li speªniony jest warunek: A,B (π B P BA = π A P AB ), poniewa»: A ( B π B P BA = B π A P AB ).

Dowód stacjonarno±ci Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna Poka»emy teraz,»e dla naszego ªa«cucha zachodzi: A,B (π B P BA = π A P AB ), czym udowodnimy jego stacjonarno±.

Dowód stacjonarno±ci Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna Rozwa»my dwie konguracje σ i σ ró»ni ce si na i-tym miejscu. Niech σ b dzie zgodna z lokalnym polem wypadkowym M i, a σ nie. Wówczas przepªyw z σ do σ wynosi P( σ ) 1 N 1 = exp( E( σ )/T ), NZ(T ) gdzie N to dªugo± wektora reprezentuj cego konguracj sieci.

Dowód stacjonarno±ci Wst p Idea algorytmu Maszyna Boltzmanna Stacjonarno± stanów maszyny Boltzmanna Z drugiej strony, przepªyw z σ do σ wynosi: P( σ) 1 N exp( 2 M i /T ) = exp( E( σ)/t ) exp( (E( σ ) E( σ))/t ) Z(T ) N = exp( E( σ )/T ) NZ(T ) Zatem przepªyw z σ do σ wynosi tyle samo, co przepªyw z σ do σ, co ko«czy dowód.

Motywacja Algorytm Metropolisa Wst p Algorytm symulowanego wy»arzania W procesie minimalizacji energii tak jak na pocz tku dziaªania algorytmu dopuszczalne jest chaotyczne zachowanie, które mo»e umo»liwi znalezienie odpowiedniego obszaru przestrzeni energetycznej (takiej o du»ym spadku, która sugeruje blisko± minimum globalnego), tak w okolicach globalnego minimum nie opªaca si ju» skakanie do wy»szych terenów, bo opó¹nia to tylko osi gni cie owego minimum. Dla maszyn Boltzmanna stosuje si dwa popularne algorytmy regulacji temperatury - symulowane wy»arzanie (simulated annealing) i symulowane studzenie (simulated tempering).

Wy»arzanie w termodynamice Wst p Algorytm symulowanego wy»arzania Wy»arzanie jest operacj ciepln polegaj c na nagrzaniu elementu stalowego (lub szkªa) do odpowiedniej temperatury, przetrzymaniu w tej temperaturze jaki± czas, a nast pnie powolnym schªodzeniu. Ma gªównie ono na celu doprowadzenie stali do równowagi termodynamicznej w stosunku do stanu wyj±ciowego, który jest znacznie odchylony od stanu równowagowego.

Wy»arzanie w termodynamice Wst p Algorytm symulowanego wy»arzania W wysokiej temperaturze cz steczki cieczy poruszaj si swobodnie, lecz gdy zaczniemy obni»a temperatur, cz steczki zaczynaj porusza si coraz wolniej tworz c stopniowo uporz dkowan struktur krysztaª. Stan ten cechuj si minimaln mo»liw energi (regularn struktur ). Warunkiem koniecznym, aby ciecz utworzyªa struktur krystaliczn, jest powolne ochªadzanie ukªadu, w przeciwnym wypadku otrzymamay struktur, której energia jest wy»sza.

Wst p Algorytm symulowanego wy»arzania

Wst p Algorytm symulowanego wy»arzania Poª czenie dwóch heurystyk: algorytm Metropolisa schemat chªodzenia W istocie symulowane wy»arzanie jest to algorytm Metropolisa ze zmienn temperatur.

Wst p Algorytm symulowanego wy»arzania Dynamika MB z symulowanym wy»arzaniem przypisz numer bie» cej iteracji k = 1 oraz temperatur T = cτ(k), gdzie c jest to dodatni parametr wylosuj neuron σ i je±li spin jest niezgodny z lokalnym polem wypadkowym M i, zmie«go σ i = sign( w ij σ j + h i ) j je±li jest zgodny, zmie«go z prawdopodobie«stwem exp( 2 M i /T ) zwi ksz k o jeden oraz zaktualizuj warto± temperatury T = cτ(k) powtarzaj, a» osi gniesz temperatur równ lub blisk 0 i stan si ustabilizuje

Schematy chªodzenia Wst p Algorytm symulowanego wy»arzania schemat logarytmiczny (Boltzmanna): τ(k) = 1/ log k schemat liniowy (Cauchy'ego) τ(k) = 1/k schemat geometryczny τ(k) = a k, gdzie 0 < a < 1 schemat logarytmiczny (w przeciwie«stwie do pozostaªych) gwarantuje (przy pewnych naturalnych zaªo»eniach) znalezienie optimum globalnego z prawdopodobie«stwem 1, jednak ±redni czas potrzebny do jego osi gni cia jest porównywalny z rozmiarem przestrzeni rozwi za«badania empiryczne sugeruj,»e najwi ksz przydatno± praktyczn ma schemat geometryczny (najszybszy)

Wst p Algorytm symulowanego wy»arzania 0-0.5-1 -1.5-2 -2.5-10 -5 0 0 5 10 5-5 10-10

Problem przeszukiwania przestrzeni Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm Maszyny Boltzmanna s zasadniczo u»ywane do rozwi zywania dwóch ró»ni cych si obliczeniowo problemów. Pierwszy z nich to problem przeszukiwania przestrzeni stanów, w którym wagi dla poª cze«s staªe i s wykorzystywane do reprezentacji energii. Natomiast stochastyczna dynamika maszyny Botzmanna umo»liwia próbkowanie wektorów stanów, dla których funkcja energetyczna ma maªe warto±ci.

Problem uczenia maszyn Boltzmanna Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm W problemie uczenia maszyny Boltzmanna dany jest zbiór przykªadów, który zadaje miar probabilistyczn (empiryczn ). Maszyna Boltzmanna jest uczona tak,»eby rozkªad stacjonarny ªa«cucha Markowa zadanego przez t maszyn byª jak najbardziej zbli»ony do rozkªadu miary empirycznej. W tym celu poszukiwane s odpowiednie wagi poª cze«. W trakcie nauki maszyna Boltzmanna wykonuje wiele maªych uaktualnie«swoich wag.

Architektura maszyny Boltzmanna Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm Mamy zadan sie skªadaj c si z warstwy wej±ciowej, warstwy wyj±ciowej i jednostek ukrytych. Konguracj warstwy wej±ciowej opisujemy za pomoc wektora α i, warstwy wyj±ciowej za pomoc wektora α 0, przez wektor α b dziemy opisywa konguracj obu widocznych warstw, tzn. wektor α powstaje w wyniku scalenia wektorów α i i α 0. Konguracj jednostek ukrytych opisujemy za pomoc wektora β.

Architektura maszyny Boltzmanna Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm Tak jak w sieci Hopelda mo»emy mie do czynienia ze struktur, w której ka»da para jednostek jest ze sob poª czona. Niestety uczenie sieci o takiej strukturze poª cze«jest bardzo czasochªonne. Dlatego struktury z mniejsz ilo±ci poª cze«s po» dane. Nie wyró»niamy»adnej konkretnej struktury poª cze«mi dzy jednostkami, ró»ne problemy ró»ne struktury.

Architektura maszyny Boltzmanna Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm wyjście 0 { w ij i j Maszyna Boltzmanna z dowoln struktur poª cze«. i wejście

Ograniczona maszyna Boltzmanna Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm Ograniczona maszyna Boltzmanna jest to wersja maszyny Boltzmanna, w której: ka»da jednostka, ukryta jest poª czona z ka»d jednostk widoczn nie ma poª cze«mi dzy jednostkami widocznymi nie ma poª cze«mi dzy jednostkami ukrytymi

Ograniczona maszyna Boltzmanna Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm wyjście 0 { Architektura ograniczonej maszyna Boltzmanna. i wejście

Architektura maszyny Boltzmanna Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm Ukryte neurony s to jednostki, których stan nie jest brany pod uwag jako cz ± wzorca zapami tywanego w procesie uczenia. Jednostki ukryte pozwalaj zwi kszy moc obliczeniow sieci.

Zaªo»enia ogólne Algorytm Metropolisa Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm Niech Q(α) oznacza rozkªad empiryczny po zbiorze danych, a P(α) rozkªad stacjonarny w maszynie Boltzmanna zale»ny jedynie od wag i temperatury T (temperatura jest staªa w trakcie uczenia). Prawdopodobie«stwo konguracji widocznych jednostek jest to suma po wszystkich konguracjach ukrytych jednostek: P(α) = β P(α, β) = exp( E αβ/t ), Z(T ) β gdzie E αβ jest to energia systemu w konguracji zdeniowanej przez widoczne i ukryte jednostki, natomiast Z(T ) tak jak poprzednio jest to funkcja rozdziaªu.

Denicja Algorytm Metropolisa Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm Dywergencja Kullbacka-Leiblera (rozbie»no± Kullbacka-Lieblera, entropia wzgl dna) jest miar stosowan w statystyce i teorii informacji do okre±lenia rozbie»no±ci mi dzy dwoma rozkªadami prawdopodobie«stwa p i q. Czasem zwana jest te» odlegªo±ci Kullbacka-Leiblera, w rzeczywisto±ci nie jest to jednak prawdziwa metryka, gdy» nie jest symetryczna ani nie speªnia nierówno±ci trójk ta. Entropia wzgl dna przyjmuje zawsze warto±ci nieujemne, przy czym 0 wtedy i tylko wtedy, gdy porównywane rozkªady s identyczne.

Denicja Algorytm Metropolisa Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm Dywergencja Kullbacka-Leiblera dla rozkªadów dyskretnych dana jest wzorem: D KL (q, p) = q(i) q(i) log 2 p(i) i W powy»szej denicji przyjmuje si,»e q reprezentuje dane rzeczywiste, za± p teoretyczny model.

Dywergencja Kullbacka-Leiblera Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm Naszym celem jest znalezienie takiego zestawu wag, który minimalizuje rozbie»no± Kullbacka-Lieblera rozkªadów Q(α) i P(α): D KL (Q(α), P(α)) = α Q(α)log Q(α) P(α).

Uczenie maszyny Boltzmanna Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm Uczenie opiera si na metodzie spadku gradientowego. Dla zbioru wzorców ucz cych Q(α) poszukujemy wag takich,»e w pewnej temperaturze T aktualny rozkªad P(α) (rozkªad stacjonarny ªa«cucha Markowa generowanego przez kolejne stany maszyny Boltzmanna) pasuje do Q(α) tak bardzo, jak to jest tylko mo»liwe.

Uwagi Algorytm Metropolisa Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm Pracujemy w kodowaniu {0, 1} lub { 1, 1}. Entropia wzgl dna dla kodowa«binarnych jest funkcj wypukª, zatem posiada dokªadnie jedno minimum, do którego w wyniku dziaªania metody spadku gradientowego zbiega. Nie dopuszczamy pól zewn trznych, ale za to dopuszczamy wagi wychodz ce i wchodz ce do tej samej jednostki w ii.

Uczenie maszyny Boltzmanna Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm Wagi s modykowane za pomoc wyra»enia: w ij = η D kl w ij = η w ij ( α Q(α)log Q(α) P(α) ) = η α ( Q(α) log Q(α) w ij P(α) + Q(α) (log Q(α) w ij P(α) )) = η α Q(α)( logq(α) w ij logp(α) w ij ) = η α 1 P(α) Q(α) P(α)ln2 w ij = η α Q(α) P(α), P(α) w ij gdzie η jest to wspóªczynnik uczenia.

Uczenie maszyny Boltzmanna Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm Prawdopodobie«stwo Q( ) nie zale»y od wag zatem Q(α)/ w ij = 0. W powy»szym wzorze na aktualizacj wag wyra»enie, w którym Q(α)/ w ij = 0 byªo czynnikiem zostaªo ju» pomini te.

Uczenie maszyny Boltzmanna Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm w ij = η α Q(α) P(α), P(α) w ij β P(α) = ( e E αβ /T Z(T ) ) w ij w ij = ( β e E αβ /T ) wij (Z(T )) wij Z(T ) 2 Z(T ) β e E αβ/t = ( β e E αβ /T ) wij Z(T ) (Z(T )) wij β e E αβ/t Z(T ) 2

Uczenie maszyny Boltzmanna Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm = ( β e E αβ /T ) wij Z(T ) (Z(T )) wij β e E αβ/t Z(T ) 2 β e E αβ/t ( E αβ /T ) ( αβ e E αβ /T ) β e E αβ/t = Z(T ) wij wij Z(T ) 2 = β e E αβ/t ( ( 1 2 = TZ(T ) β e E αβ/t σ i σ j TZ(T ) i,j w ij σ i σ j )) wij ( αβ e E αβ /T ) β e E αβ/t wij Z(T ) 2 ( αβ e E αβ/t σ i σ j )( β e E αβ/t ) TZ(T ) 2

Uczenie maszyny Boltzmanna Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm = = β e E αβ/t σ i σ j TZ(T ) β P(α, β)σ iσ j T ( αβ e E αβ/t σ i σ j )( β e E αβ/t ) TZ(T ) 2 ( αβ P(α, β)σ iσ j )( β P(α, β)) T = 1 T [ β σ i σ j P(α, β) σ i σ j P P(α)]

Uczenie maszyny Boltzmanna Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm Z wyra»e«: P(α) w ij w ij = η α = 1 T ( β Q(α) P(α), P(α) w ij σ i σ j P(α, β) P(α) σ i σ j P ] wynika: w ij = η T [ α Q(α) P(α) ( β σ i σ j P(α, β) P(α) σ i σ j P )] = η T [ αβ Q(α)P(β α)σ i σ j α Q(α) σ i σ j P ] = η T [ σ iσ j Q σ i σ j P ]

Modykacja wag Algorytm Metropolisa Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm w ij = [ σ i σ j Q σ i σ j P ], gdzie: σ i σ j Q = αβ Q(α)P(β α)σ i σ j σ i σ j P = αβ P(α, β)σ i σ j

Obliczanie σ i σ j Q Algorytm Metropolisa Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm metod Monte-Carlo σ i σ j Q = αβ Q(α)P(β α)σ i σ j 1 σ i σ j Q = 0. 2 Dla ka»dego α wykonujemy: 1 Spiny jednostek ukrytych ustawiamy w sposób losowy. 2 Po kolei ustawiamy jednostki widoczne zgodnie z warto±ci α. 3 Jednostki widocznie zamra»amy (w wyniku dynamiki maszyny Boltzmanna swoje spiny mog zmienia tylko jednostki ukryte). 4 Symulujemy dynamik maszyny Boltzmanna. 5 Próbkujemy σ i σ j. 6 σ i σ j Q = σ i σ j Q + Q(α)σ i σ j.

Obliczanie σ i σ j P Algorytm Metropolisa Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm metod Monte-Carlo σ i σ j P = αβ P(α, β)σ i σ j 1 σ i σ j P = 0. 2 Wykonujemy k-krotnie: 1 Spiny wszystkich jednostek ustawiamy w sposób losowy. 2 Symulujemy dynamik maszyny Boltzmanna. 3 Próbkujemy σ i σ j. 4 σ i σ j P = σ i σ j P + σ i σ j. 3 σ i σ j P = 1 k σ iσ j P.

Modykacja wag Algorytm Metropolisa Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm Je±li mamy do czynienia z funkcj bez jednostek ukrytych, wtedy: gdzie: w ij = [ σ i σ j Q σ i σ j P ], σ i σ j Q = α Q(α)σ i σ j σ i σ j P = α P(α)σ i σ j σ i σ j Q liczymy bezpo±rednio z danych σ i σ j P liczymy metod Monte-Carlo

Tryb odtwarzania wzorca Wprowadzenie Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm Gdy sie zostanie ju» nauczona i dla danego wektora wej± chcemy znale¹ odpowiadaj cy mu wektor wyj±, jednostki wej±ciowe ustawiamy zgodnie z warto±ciami wektora wej±ciowego, nast pnie je zamra»amy. Pozostaªe jednostki modykujemy zgodnie z dynamik symulowanego wy»arzania.