10. Techniki minimalizacji a sieci neuronowe

10. Techniki minimalizacji a sieci neuronowe 10-1 Błąd aproksymacji 10-2 Minimalizacja kosztu 10-3 Tryby minimalizacji 10-4 Metoda największego spadku 10-5 Gradient sprzężony 10-6 Metoda Newtona 10-7 Metody zmiennej metryki 10-8 Metoda Levenberga-Marquardta 10-9 Specyficzne techniki neuronowe: Wygładzanie inercyjne wag 10-10 Specyficzne techniki neuronowe: Reguła delta-delta 10-11 Specyficzne techniki neuronowe: Reguła delta-bar-delta 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-0

Błąd aproksymacji skończonyzbiórobrazówu={u 1,...,u N },U L =U Q= 1 2 ε i 2 Udowolny,U L losowanyzgodniezeznanymrozkłademnau Q 0 = 1 2 E ε 2 Udowolny,U L losowanyzgodniezpewnymrozkłademnau Q N (t)= 1 2 A N ε(t) 2 Q 0 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-1

Funkcja błędu Minimalizacja kosztu Q N (w)= 1 N k t=k N +1 q(y(t;w) y o (t))= 1 N k t=k N +1 y(t;w) y o (t) 2 Metody gradientowe w(k+1)=w(k)+ηr(δ(k)) gdzie w wektor wszystkich wag sieci δ(k)= Q N (w(k)) gradient Q N wk-tymkrokuminimalizacji r wektorowa funkcja gradientu określająca nowy kierunek η krok minimalizacji k indeks kroku minimalizacji 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-2

Tryby minimalizacji (N, M, L): długość okna(przedział uśredniania) N, przesunięcie okna po wykonaniu kroków minimalizacji M, liczba kroków minimalizacji dla jednej estymaty gradientu tryb natychmiastowy(1, 1, 1) koszt oczekiwany estymowany jest przez koszt chwilowy(1-elementowe uśrednianie kosztu), minimalizacja po każdej prezentacji trybwsadowy(n,n,1) uśrednienie N > 1 kosztów chwilowych przed każdą minimalizacją; dla skończonegou L przyjmujesięn= U L (epoka) wielokrotne użycie gradientu(n, N, L) prezentacja N nowych wejść, L > 1 kroków minimalizacji ruchomeokno(n,m,l) przesunięcieoknaodługościnom<nchwil(usunięciemnajstarszychi prezentacjamnowychwejść),uśrednianiewoknieodługościn,wykonaniel 1 kroków minimalizacji 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-3

wzórtaylora1rzędu Metoda największego spadku Q(w+µr)=Q(w)+µr T Q (w)+o(µ) dlar= Q (w) Q(w+µr)=Q(w) µ Q (w) 2 <Q(w) algorytm korekcji wag w(k+1)=w(k) µδ(k) algorytm jest zwykle połączony z obliczaniem gradientu metodą propagacji zwrotnej 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-4

Gradient sprzężony funkcjakwadratowawr l,minimalizacjawkierunku minimalizacja(r) minimalizacja(s) minimalizacja(r, s) zmianagradientuoµq (w)r(k), r(k+1) r(k) kierunkir,ssprzężone:r T Q s=0 metodagradientusprzężonegor(k) T H(k)s(s)=0 dlas=1,...,k 1 r(k)= δ(k)+β(k 1)r(k 1), r(0)= δ(0) β(k)= δ(k+1) 2 δ(k) 2 β(k)= (δ(k+1) δ(k))t δ(k+1) δ(k) 2 Fletcher-Reeves Polak-Ribière restart po l krokach zbieżne superliniowo; praktycznie: liniowo dla funkcji kwadratowej: F-R, P-R identyczne, zbieżność w l krokach 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-5

wzórnewtona2rzędu Metoda Newtona Q(w+µr)=Q(w)+µr T Q (w)+ 1 2 µ2 r T Q (w)r+o(µ 2 ) gradientqjakofunkcjar µq (w+µr)=µq (w)+µ 2 Q (w)r+o(µ 2 ) kierunek poprawy r= Q (w) 1 Q (w) algorytm Newtona w(k+1)=w(k) µh 1 (k)δ(k) zbieżny w l krokach dla funkcji kwadratowej przy minimalizacji w kierunku; problem: Hessian 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-6

Metody zmiennej metryki aproksymacjaq powinnaspełniać Q (w)(w w )=Q (w) Q (w ) metoda Davidona-Fletchera-Powella(DFP) P(k)= w(k) w(k)t P(k) w(k) T δ(k) P(k) δ(k) δ(k)t δ(k) T P(k) δ(k) metoda Broydena-Fletchera-Goldfarba-Shanno(BFGS) P(k)= P(k) DFP + δ(k) T P(k) δ(k)zz T gdziez= w(k) w(k) T δ(k) P(k) δ(k) δ(k) T P(k) δ(k) gdziep(k)=ĥ 1 (k), x(k)=x(k+1) x(k) warunkipoczątkowe:p(0)=1,p(1) metodanajwiększegospadku 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-7

Metoda Levenberga-Marquardta kwadratowa funkcja błędu Q(w)= 1 m (y i (w) y o 2 i) 2 = 1 2 Q (w)= Q (w)= i=1 m y i(w)ε i (w) i=1 m i=1 m ε 2 i(w) i=1 y i(w)ε i (w)+y i(w)y i T (w) wokółminimumε i jestbliskie0(v parametrmarquardta) Q (w)=v1+ m i=1 y i(w)y i T (w) dlav dużych (względemwartościwłasnychmacierzy m Q (w) v1 metodanajwiększegospadku i=1 y i (w)y i dlav małych Q (w) m i=1 y i (w)y T i (w) metoda Newtona T (w)) 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-8

Specyficzne techniki neuronowe: Wygładzanie inercyjne wag członinercyjny(ang.momentumterm) α w(k 1) w(k)= µδ(k)+α w(k 1), 0<α<1 człon inercyjny kumuluje efekt δ(k) w kierunku spadku gradientu i redukuje efekt zmian gradientu dlazadanegociągugradientów{δ(1),...,δ(k)} w(k) = µ 1 αq 1δ(k) = µ(1+αq 1 +α 2 q 2 +...)δ(k) = µ ( δ(k)+αδ(k 1)+α 2 δ(k 2)+... ) (q 1 operatoropóźnieniajednostkowego) czyli gradient δ(k) zastąpiony przez sumę ważoną gradientów ze współczynnikiem wygładzania α w(k)= µf(q)δ(k), F(q)= i=0 α i q i 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-9

Specyficzne techniki neuronowe: Reguła delta-delta pochodnakosztuwzględemwspółczynnikauczeniaµ i dlaalgorytmu w i (k+1)=w i (k) µ i (k)δ i (k) dq dµ i (k) = δ i(k)δ i (k 1) korekcja współczynnika uczenia µ i (k+1)=µ i (k)+γδ i (k)δ i (k 1) dużawrażliwośćnawybórγ;wzrostµ i gdydwiekolejnepochodneδ i (k)sątego samego znaku nazwa delta-delta wywodzi się z oznaczenia gradientu przez δ 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-10

Specyficzne techniki neuronowe: Reguła delta-bar-delta wygładzanie gradientu δ(k)=ξδ i (k 1)+(1 ξ)δ i (k), 0<ξ<1 µ i (k+1)=µ i (k)+γδ i (k)δ i (k 1) dodatkowe zabezpieczenia: µ liniowo rośnie gdy znak gradientu stały, maleje wykładniczo gdy zmienny κ gdyδ i (k)δ i (k 1)>0 µ i (k+1)=µ i (k)+ βµ i (k) gdyδ(k)δ(k 1)<0 0 w pozostałych przypadkach 0<κ<0.05, 0.1<β<0.3 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-11