Sztuczne sec neuronowe Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyk, p. 311
Wykład 6 PLAN: - Repetto (brevs) - Sec neuronowe z radalnym funkcjam bazowym
Repetto W aspekce archtektury: zajmowalśmy sę tylko secam typu feed-forward W aspekce dzałana pojedynczego neuronu: rozważalśmy tylko neurony oblczające sumy ważone wejść (ze względu na najczęścej stosowaną funkcję aktywacj neurony te są zwane neuronam sgmodalnym)
Repetto (cd.) W aspekce uczena: szczegółowo przedstawono tylko gradentowe algorytmy uczena nadzorowanego: backpropagaton (wraz z modyfkacjam nercyjnym) (algorytm I rzędu) metodę zmennej metryk (algorytm II rzędu) metodę gradentów sprzężonych (algorytm I rzędu)
Repetto (cd.) Ponadto: Podano typowe reguły uczena (nenadzorowanego nadzorowanego) jako przypadk szczególne uogólnonej reguły uczena Przedstawono metody: - doboru współczynnków uczena - ncjalzacj wag - doboru archtektury sec - zwększana zdolnośc generalzujących
Sec neuronowe z radalnym funkcjam bazowym Sec o radalnych funkcjach bazowych (RBF) składają sę z jednej warstwy ukrytej oraz jednej warstwy wyjścowej. Neurony warstwy wyjścowej są lnowe Neurony ukryte realzują funkcję ϕ zmenającą sę radalne (stąd nazwa sec) wokół wybranego centrum c
Sec RBF (cd.) Formalne: Wyjśca neuronów ukrytych (radalnych) sec RBF generują wektor sygnałów y dany równanem: y = ϕ ( ) x c
Porównane dzałana neuronów sgmodalnych radalnych Neuron sgmodalny występujący w MLP reprezentuje w przestrzen wejścowej hperpłaszczyznę dzelącą tę przestrzeń na dwe otwarte klasy Neuron radalny reprezentuje hpersferę dokonującą podzału kołowego wokół punktu centralnego
Grafczne porównane dzałana neuronu sgmodalengo radalnego x _ + _ x x 1 + x 1 y = f = w j x j y ϕ j j ( ) x t j j
Sec RBF (cd.) W zadanach zawerających symetre kołowe zastosowane neuronów radalnych pozwala znaczne zmnejszyć lczbę neuronów ukrytych (a zatem zwększyć generalzację) Ponadto wystarczy zawsze jedna warstwa ukryta
Nelnowa ϕ-separowalność Nech ϕ (x) = [ϕ 1 (x), ϕ (x),..., ϕ k (x)] T będze wektorem funkcj radalnych w N wymarowej przestrzen wejścowej. Podzał tej przestrzen na klasy X + oraz X - jest nelnowo ϕ - separowalny jeśl stneje tak wektor w, że: w w T T ϕ ϕ ( x) > 0 dla x X ( ) x < 0 dla x X +
Nelnowa ϕ-separowalność (cd.) Zatem: Problem jest nelnowo ϕ-separowalny w przestrzen wejścowej x wymaru N jeśl jest lnowo separowalny w przestrzen rzutowana ϕ (x) wymaru k. Granca mędzy obu klasam w przestrzen ϕ (x) jest zdefnowana za pomocą hperpłaszczyzny o równanu: w T ϕ( x) = 0
Twerdzene o nelnowej ϕ-separowalnośc Dowolny zbór wzorców jest nelnowo ϕ-separowalny pod warunkem przyjęca odpowedno dużego wymaru k przestrzen rzutowana
Wnosek z twerdzena o nelnowej ϕ-separowalnośc Przyjęce dostateczne dużej lczby neuronów radalnych realzujących funkcje ϕ (x) zapewna rozwązane dowolnego problemu klasyfkacyjnego przy użycu dwu warstw: Warstwy ukrytej realzującej wektor ϕ (x) oraz Warstwy wyjścowej realzowanej przez neuron lnowy z wektorem wagowym w.
Interpolacja welowymarowa w secach RBF Poszukujemy nterpolacj welowymarowej odwzorowującej p różnych wektorów wejścowych x ( = 1,,..., p) z przestrzen wejścowej N wymarowej w zbór p lczb rzeczywstych d ( = 1,,..., p) za pomocą sec RBF
Interpolacja welowymarowa w secach RBF (cd.) Przedstawona nterpolacja jest równoważna poszukwanu takej funkcj radalnej F (x), dla której spełnone są warunk nterpolacj: gdze : F F ( x ) ( x) = w ( ) ϕ x x = 1 Wybór normy jest w zasadze dowolny, choć w praktyce najczęścej stosuje sę normę eukldesową. Wartośc wektorów x stanową centra funkcj radalnej. = d p
Interpolacja welowymarowa w secach RBF funkcje Greena Jako funkcje ϕ przyjmuje sę zazwyczaj funkcje radalne Greena G(x; x ) z których najpopularnejszą jest (neznormalzowana) funkcja Gaussa: N xx 1 G = e σ = e σ k= 1 [ x; x ] w której x oznaczają wektory wartośc średnch (centrów) a σ warancje ( x ) k x, k
Interpolacja jako superpozycja welowymarowych funkcj Gaussa Po podstawenu w mejsce funkcj radalnej welowymarowej neznormalzowanej funkcj Gaussa otrzymuje sę następujące równane nterpolujące: xx F p ( x) = = 1 w e Powyższe równane przedstawa superpozycję welowymarowych funkcj Gaussa z centram (wartoścam oczekwanym) ulokowanym w x szerokoścam (odchylenam standardowym) σ σ
Ogranczena Choć przedstawene poprzedne jest zawsze możlwe, jest ono nepraktyczne ze względu na lość neuronów ukrytych równą lośc próbek uczących p. Dlatego w praktyce stosuje sę przyblżene z ogranczenem do K neuronów
Przyblżene funkcj nterpolującej Funkcję F przyblża sę funkcją F* daną: F * ( x) w G( x; t ) gdze : G K = = 1 ( x; t ) = G( x t ), K < p Wektory t ( = 1,..., K) są centram które należy wyznaczyć (w przypadku szczególnym, gdy K = p otrzymuje sę rozwązane dokładne dla którego oczywśce: t = x,
Schemat sec RBF x 1 x ϕ 1 W 1 1 W 0... x N ϕ... ϕ K W W K y ( x; ) ϕ = G t
Uczene sec RBF Uczene sec RBF polega na takm doborze wag w funkcj Greena G(x; t ) gdze ( = 1,..., K) aby funkcja F* realzowana przez seć RBF możlwe najlepej przyblżała teoretyczną funkcję dokładną F.
Sec z hper-radalnym funkcjam bazowym (HRBF) W secach RBF funkcje bazowe Greena zależne są od normy eukldesowej W secach HRBF korzysta sę z uogólnonej normy eukldesowej, dla której każdy wymar ma swój odrębny współczynnk wag, a nawet wektor wag
Sec HRBF - uogólnona norma eukldesowa Uogólnona norma eukldesowa: x ( ) T Qx ( Qx) x T Q T Qx = = Q Przyjmując: Q T Q = C = [c kl ] dostajemy: x Q = N N k = 1 l= 1 c kl x k x l
Norma eukldesowa jako przypadek szczególny normy uogólnonej W szczególnośc jeśl Q jest macerzą dagonalną, wówczas: x Q = N k = c x Przy dodatkowym załażenu, że Q = 1 norma wagowa sprowadza sę do normy klasycznej: x Q = x
Dzałane sec HRBF Zastosowane uogólnonej normy wagowej daje uogólnone wyrażene rozwnęca funkcj radalnych: K ( ) ( ) = w G F = 1 * x x t Q Jednocześne powyższe równane opsuje dzałane sec HRBF
Uogólnona (neznormalzowana) funkcja Gaussa Neznormalzowana uogólnona funkcja Gaussa otrzymuje sę poprzez przyjęce dla -tej funkcj bazowej: gaussowskej funkcj radalnej Greena o centrum t oraz Macerzy wagowej Q Dana jest ona wzorem: ( ) [ ] [ ] ( ) [ ] [ ] = = e e G t x S t x t x Q Q t x Q T T T t x 1 1
Uogólnona (neznormalzowana) funkcja Gaussa (cd.) Neznormalzowana uogólnona funkcja Gaussa dana jest zatem wzorem: Wdać, że wyrażene ½ S -1 =Q T Q pełn funkcję czynnka 1/(σ ) standardowej welowymarowej funkcj Gaussa ( ) [ ] [ ] ( ) [ ] [ ] = = = e e G t x S t x t x Q Q t x Q T T T t x 1 1
Porównane sec RBF z secam sgmodalnym W secach RBF parametr funkcj aktywacj σ jest zależny od neuronu podlega uczenu, natomast w secach sgmodalnych analogczny parametr β jest stały jednakowy dla wszystkch neuronów. Argumentem funkcj radalnej jest odległość danej próbk x od centrum t, a w sec sgmodalnej jest to loczyn skalarny wektorów w T x. Neurony radalne dzelą przestrzeń na obszary lokalne poprzez hpersfery, natomast neurony sgmodalne dzelą przestrzeń na obszary globalne poprzez hperpłaszczyzny.
Uczene sec (H)RBF Uczene sec (hper)radalnych składa sę z dwóch etapów: 1. dobór centrów parametrów kształtu funkcj bazowych. dobór wag lnowych neuronów wyjścowych
Uczene sec (H)RBF (cd.) Poneważ zadane druge (doboru wag wyjścowych neuronów lnowych) może zostać rozwązane algebraczne, o le znane jest rozwązane zadana perwszego, zatem to zadane perwsze jest podstawowym zadanem w uczenu sec (H)RBF
Metody wyznaczana centrów parametrów kształtu funkcj bazowych Losowy wybór centrów funkcj bazowych Samoorganzujący sę proces podzału na klastery Uczene pod nadzorem (oparte o algorytmy propagacj wstecznej)
Losowy wybór centrów funkcj bazowych Rozwązane najprostsze, lecz dopuszczalne dla sec radalnych przy założenu, że rozkład danych uczących dobrze odzwercedla specyfkę problemu (a tak zawsze pownno być) Wówczas dobór stałych parametrów funkcj bazowych jest dokonywany losowo przy rozkładze równomernym
Dobór losowy centrów (cd.) Po dokonanu losowego wyboru centrów t oblcza sę wartość parametru zwązanego z odchylenem standardowym: 1 σ d K = σ = K W powyższym wzorze d oznacza maksymalną odległość mędzy centram t Funkcje bazowe są zatem postac: ( ) G x t = e d xt d K
Samoorganzujący sę proces podzału na klastery Dane wejścowe dzel sę na klastery (np. za pomocą algorytmu K-uśredneń) Lczba funkcj bazowych równa jest lośc klasterów Do centrum każdego klastera przyporządkowuje sę centrum funkcj bazowej
Gradentowe uczene pod nadzorem sec HRBF W metodze tej modyfkuje sę równocześne: centra funkcj bazowych, ch parametry oraz wartośc wektora wag neuronów lnowych warstwy wyjścowej
Gradentowe uczene pod nadzorem sec HRBF (cd.) Zdefnujmy błąd E jako: K 1 E = [ wϕ ( )] x d = 0 Przy czym wyjśce sec y jest określone jako: y ϕ K = 0 = 0 wϕ ( x), 1 T [ Q ( xt )] Q ( xt ) [ ] ( ) ( ) x = 1, ϕ x = e
Składowe gradentu względem parametrów podlegających uczenu j =1..N, =1..K, k =1..N ( ) ( ) ( )( ) ) ( ) ( 1 ) ( 1 ) ( ) ( 1 ) ( 1 0, j k k u jk N k k kj u j u z t x d y w e Q E z Q d y w e t E d y e w E d y w E = = = = =
Zmenne wykorzystywane do określana składowych gradentu j =1..N, =1..K, k =1..N z u ( ) j = = N N k = 1 ( () ) zk k = 1 Q ( ) x t () () jk k k
Gradentowe uczene pod nadzorem sec HRBF (cd.) Znając składowe gradentu funkcj błedu względem wszystkch parametrów podlegających uczenu można stosować dowolną metodę optymalzacj gradentowej, np. najwększego spadku, w której kerunek poszukwań p = -η E