Pla wyładu yład 4: Algorytmy optymalizacji Małgorzata Krtowsa Katedra Oprogramowaia e-mail: mmac@iipbbialystopl Algorytmy gradietowe optymalizacji Algorytm ajwiszego spadu Algorytm zmieej metryi Algorytm gradietów sprzoych Algorytmy doboru współczyia uczeia adaptacyjy dobór współczyia uczeia dobór współczyia przez miimalizacj ieruow reguła delta-bar-delta metoda gradietów sprzoych z regularyzacj Algorytmy heurystycze algorytm Quicprop algorytm RPROP Uczeie z auczycielem Algorytmy gradietowe optymalizacji Miimalizacja fucji celu E Załadajc cigł fucj atywacji, miimalizacja odbywa si metodami gradietowymi adym rou uczeia wyzacza si tzw ierue miimalizacji p (( Korecja wag odbywa si według wzoru: gdzie η jest współczyiiem uczeia z przedziału [0, ] ( + ( + ηp( ( 3 Algorytmy gradietowe bazuj a rozwiiciu w szereg aylora fucji celu w ajbliszym ssiedztwie zaego rozwizaia [w,w,, w ] (a starcie algorytmu jest to put pocztowy 0 : gdzie: + p + [ g( ] p + p H( p + g( E,,, H ( 4
Algorytmy gradietowe optymalizacji Put jest putem optymalym fucji, jeli g( 0 hesja H( jest dodatio oreloy pratyce ( ze wzgldu a a soczo dołado oblicze załada si, e put jest putem optymalym, jeeli: g( gdzie τ przyjta dołado oblicze 3 τ τ ( + τ ( + ( + Załadamy 0 Ogóly algorytm optymalizacji est: jeeli spełia warui testowe jest putem optymalym to oczymy obliczeia, w przeciwym przypadu pt yzaczaie wetora ieruu poszuiwa p w pucie Miimalizacja ieruowa fucji a ieruu p w celu wyzaczeia taiej wartoci η, aby +η p < yzaczeie owego rozwizaia + +η p oraz odpowiadajcej mu wartoci, g( ( i ew H( i powrót do pt Róice: wyzaczaie ieruu poszuiwa p oraz rou η 5 6 Algorytm ajwiszego spadu Algorytm ajwiszego spadu Ograiczeie do liiowego przyblieia fucji w ajbliszym ssiedztwie zaego rozwizaia : + p + [ g( ] p + O( h Podejcie lasycze + η p + aby + < wystarczy aby [g( ] p < 0 Metoda mometu ηp + α( K etor ieruowy w metodzie ajwiszego spadu przyjmuje posta: p -g( Uwagi: η a płasich odciach p α (dla 09 ozacza to 0 rote przyspieszeie procesu uczeia pozwala a wyjcie z miimów loalych aley otrolowa warto E 7 8
Algorytm ajwiszego spadu yres wpływu działaia mometu a proces uczeia Algorytm zmieej metryi (quasi-newtoa Kwadratowe przyblieie fucji w ssiedztwie zaego rozwizaia : 3 + p + [ g( ] p + p H( p + O( h ierue p jest wyzaczoy ze wzoru: p [ H ( ] g( Metoda weight decay ηp β zabezpiecza przez zbytim wzrostem wag ηp β Problemy: wymóg dodatiej orelooci hesjau w adym rou Rozwizaie zastosowaie przyblieia hesjau przy uyciu metody zmieej metryi 9 0 Algorytm zmieej metryi (quasi-newtoa Algorytm zmieej metryi (quasi-newtoa Przyblieie hesjau polega a modyfiacji hesjau z rou poprzediego o pew popraw, tóra powoduje, e atuala warto hesjau G( przyblia rzywiz fucji celu E zgodie z zaleoci: G( ( - - g( -g( - Na podstawie powyszego załoeia moa otrzyma wzory orelajce hesja w rou -tym: r V r s s s r V V r s V V + + s r s r s r gdzie s - - ; r g( -g( - ; V l [G( ] - warto startowa V 0 pierwsza iteracja zgodie z algorytmem ajwiszego spadu odtwarzaa macierz hesjau jest w adym rou dodatio oreloa (std g( 0 odpowiada rozwizaiu problemu optymalizacji metoda uwaaa za jed z ajlepszych metod optymalizacji fucji wielu zmieych ady: stosuowo dua złooo obliczeiowa ( elemetów hesjau due wymagaia co do pamici przy przechowywaiu macierzy hesjau
Metoda gradietów sprzoych rezygacja z bezporediej iformacji o hesjaie owy ierue poszuiwa ma by ortogoaly i sprzoy z poprzedim ieruami p 0, p,, p -, std: co moa uproci do postaci: p g( współczyi sprzeia (g g( : g ( g β g p + j 0 β p g( + β p g g j j Metoda gradietów sprzoych metoda miej sutecza od metody zmieej metryi, ale bardziej sutecza i metoda ajwiszego spadu stosuje si j do optymalizacji przy bardzo duej liczbie zmieych ze wzgldu a błdy zaorgle w tracie zatraca si właso ortogoaloci midzy wetorami ieruów miimalizacji Po wyoaiu iteracji przeprowadza si jej poowy start ( w I rou zgodie z algorytmem ajwiszego spadu Zbiór wetorów p i jest wzajemie sprzoy wzgldem macierzy H, jeeli p i Hp j 0, i j 3 4 Metody doboru współczyia uczeia Po oreleiu właciwego ieruu p miimalizacji, aley dobra odpowiedi warto współczyia uczeia, aby owy put + leał moliwie ajbliej miimum fucji a ieruu p + + η p Stały współczyi uczeia Stały współczyi uczeia stosuje si główie w połczeiu z metod ajwiszego spadu sposób ajmiej efetywy, gdy ie uzaleia wartoci współczyia od od wetora gradietu oraz ieruu poszuiwa p w daej iteracji algorytm ma słoo utyaia w miimach loalych czsto dobór współczyia odbywa si oddzielie dla adej warstwy, przyjmujc η mi i gdzie i liczba wej i-tego eurou w warstwie 5 6
Adaptacyjy dobór współczyia uczeia zmiay współczyia uczeia dopasowuj si do atualych zmia wartoci fucji celu w czasie arto błdu ε w i-tej iteracji: ε M ( y j d j j orela strategi zmia wartoci współczyia uczeia Przyspieszeie procesu uczeia uzysuje si poprzez cigłe zwiszaie współczyia η sprawdzajc jedoczeie czy ie zaczie wzrasta w porówaiu z błdem obliczoym przy poprzediej wartoci η Adaptacyjy dobór współczyia uczeia Adaptacja współczyia uczeia: ηi ρd gdy εi > wε i ηi + ηiρ i gdy εi wε i gdzie: ε i-, ε i - błd odpowiedio w (i--szej iteracji oraz w i-tej iteracji η i- ; η i - współczyi uczeia w olejych iteracjach w - dopuszczaly współczyi wzrostu błdu ρ d - współczyi zmiejszaia wartoci ρ i - współczyi zwiszajcy warto Przyładowe wartoci współczyiów: w,04; ρ d 07; ρ i 05 7 8 Adaptacyjy dobór współczyia uczeia pływ adaptacyjego doboru współczyia uczeia a proces uczeia Dobór współczyia uczeia przez miimalizacj ieruow Polega a miimalizacji ieruowej fucji celu a wyzaczoym wczeiej ieruu p Cel: taie dobraie wartoci η aby owy put + +η p odpowiadał miimum fucji celu a daym ieruu Jeeli η odpowiada doładie miimum fucji a daym ieruu p to pochoda ieruowa w pucie + +η p musi by rówa 0 pratyce wyzaczoy put + odpowiada tylo w przyblieiu rzeczywistemu putowi miimalemu a daym ieruu 9 0
Dobór współczyia uczeia przez miimalizacj ieruow celu regulacji doładoci wyzaczeia współczyia uczeia wprowadza si współczyi 0<γ <, tóry staowi ułame pochodej fucji celu a ieruu p w pucie wyjciowym Miimalizacja ieruowa Metody bezgradietowe iformacje o wartociach fucji celu wyzaczaie miimum poprzez oleje podziały załooego a wstpie zaresu wartoci wetora Algorytm pozwalajcy a wyzaczeie optymalej wartoci η przeprowadza si dopóty, dopói spełioe s astpujce warui: g +η p p γ g( p oraz [ ( ] [ ] przyjcie 0 γ γ < gwaratuje jedoczese spełieie obu tych waruów [ g( ] p E ( + η p γ η Metody gradietowe wyorzystuj zarówo warto fucji ja te jej pochod wzdłu wetora ieruu p zacze przyspieszeie wyzaczeia miimum a daym ieruu iformacja o ieruu spadu Przyład metody bezgradietowej Metoda bazuje a aprosymacji fucji celu a ieruu p, a astpie wyzacza miimum otrzymaej w te sposób fucji jedej zmieej η ielomia aprosymujcy: P(ηa η +a η +a 0 gdzie a,a,a 0 - współczyii wielomiau orelae w adym cylu optymalizacyjym yzaczaie współczyiów wielomiau wybór trzech dowolych putów,, 3 lecych a ieruu p, tz + η p ; + η p ; 3 + η 3 p ;( - poprzedie rozwizaie; E ; E ; E 3 3 ; wówczas P(η E ; P(η E ; P(η 3 E 3 ; Rozwizujc uład rówa otrzymujemy współczyii wielomiau Porówujc pochod wielomiau do zera otrzymujemy η mi (-a /a Po oreleiu s sprawdzae warui Jeli algorytm ma by otyuoway to wybiera si oleje puty lece a ieruu p w pobliu putu + η mi p 3 Ie metody doboru współczyia uczeia Reguła delta-bar-delta jest metod adaptacyj opracowa dla wadratowej defiicji fucji celu i metody ajwiszego spadu adej wadze jest przyporzdoway idywidualie dobray współczyi uczeia ada: dua złooo obliczeiowa Zaleta: przyspieszeie procesu uczeia i zwiszeie prawdopodobiestwa osigicia miimum globalego Metoda gradietów sprzoych z regularyzacj odmiaa zwyłej metody gradietów sprzoych łczc jedoczeie wyzaczaie ieruu p oraz optymalego rou 4
Algorytm Quicprop odmiaa algorytmu gradietowego zawiera elemety metody ewtoowsiej i wiedzy heurystyczej zawiera elemety zabezpieczajce przez uticiem w płytim miimum loalym (ze wzgldu a asyceie eurou Zmiaa wagi w -tym rou ( ( ( η + γ ( + α ( Zalety: szyba zbieo dla wiszoci trudych problemów ilusetrote przyspieszeie procesu uczeia (w porówaiu z algorytmem ajwiszego spadu małe prawdopodobiestwo uticia w miimum loalym Algorytm RPROP (ag Resilet bacpropagatio ( ( η mi a ( η max b gdzie ( ( S ( a; b05 ( ( sg ( ( η, ηmax ( ( η, η η ( S ( S ( < 0 w pozostalyc h przypadach η mi ; η max - miimala i masymala warto współczyia uczeia (0-6 ; 50 mi Zalety przyspieszeie procesu uczeia w obszarach gdzie achyleie fucji celu jest iewielie dla dla S ( S ( > 0 5 6