10. Techniki minimalizacji a sieci neuronowe

Podobne dokumenty
WYKŁAD 9 METODY ZMIENNEJ METRYKI

Uczenie sieci typu MLP

Optymalizacja ciągła

Wstęp do metod numerycznych 11. Minimalizacja: funkcje wielu zmiennych. P. F. Góra

2.4. Algorytmy uczenia sieci neuronowych

Wstęp do metod numerycznych 12. Minimalizacja: funkcje wielu zmiennych. P. F. Góra

Optymalizacja ciągła

Optymalizacja ciągła

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

8. Neuron z ciągłą funkcją aktywacji.

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ

METODY INŻYNIERII WIEDZY

Numeryczne metody optymalizacji Optymalizacja w kierunku. informacje dodatkowe

POPRAWA EFEKTYWNOŚCI METODY WSTECZNEJ

wiedzy Sieci neuronowe (c.d.)

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Podstawy Sztucznej Inteligencji (PSZT)

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ 2008/2009. Sieci Neuronowe. Wykład 4 Wariacje na temat propagacji wstecznej Sieci CP

Elementy inteligencji obliczeniowej

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Sztuczne Sieci Neuronowe

Algorytmy wstecznej propagacji sieci neuronowych

Sztuczna inteligencja

Komputerowa analiza zagadnień różniczkowych 2. Metoda gradientów sprzężonych Minimalizacja i układy równań algebraicznych

Przegląd metod optymalizacji numerycznej. Krzysztof Malczewski

Wstęp do metod numerycznych 12. Minimalizacja: funkcje wielu zmiennych. P. F. Góra

jeśli nie jest spełnione kryterium zatrzymania, to nowym punktem roboczym x(t+1) staje i następuje przejście do 1)

P. F. Góra.

Zastosowania sieci neuronowych

Sieci jednokierunkowe wielowarstwowe typu sigmoidalnego

BIOCYBERNETYKA SIECI NEURONOWE. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

Układy równań nieliniowych (wielowymiarowa metoda Newtona-Raphsona) f(x) = 0, gdzie. dla n=2 np.

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Bezgradientowe metody optymalizacji funkcji wielu zmiennych. informacje dodatkowe

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych

α - stałe 1 α, s F ± Ψ taka sama Drgania nieliniowe (anharmoniczne) Harmoniczne: Inna zależność siły od Ψ : - układ nieliniowy,

Optymalizacja (minimalizacja) funkcji. Plan wykładu: 1. Sformułowanie problemu, funkcja celu. 2. Metody bezgradientowe

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

6. Perceptron Rosenblatta

Zagadnienia - równania nieliniowe

Widzenie komputerowe

Metody Obliczeniowe w Nauce i Technice

Automatyka i Robotyka II Stopień ogólno akademicki studia niestacjonarne wszystkie Katedra Automatyki i Robotyki Prof. dr hab. inż.

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

1.3. Optymalizacja geometrii czasteczki

Modelowanie wybranych zjawisk fizycznych

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

SID Wykład 8 Sieci neuronowe

Zastosowanie sztucznych sieci neuronowych do modelowania procesów azotowania próżniowego stali narzędziowych

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

Modyfikacja schematu SCPF obliczeń energii polaryzacji

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 7 AiR III

Metoda gradientu prostego

Rozwiązywanie równań nieliniowych

METODY INTELIGENCJI OBLICZENIOWEJ wykład 5

Rozwiązywanie równań nieliniowych i ich układów. Wyznaczanie zer wielomianów.

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

15. Macierze. Definicja Macierzy. Definicja Delty Kroneckera. Definicja Macierzy Kwadratowej. Definicja Macierzy Jednostkowej

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania

Sztuczne sieci neuronowe

1 Relacje i odwzorowania

Uogolnione modele liniowe

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Estymacja wektora stanu w prostym układzie elektroenergetycznym

Redukcja wariancji w metodach Monte-Carlo

Metody optymalizacji - teoria i wybrane algorytmy

Ogólna idea procesu uczenia. Najważniejszy element wiedzy o sieciach neuronowych uczenie sieci. Uczenie z nauczycielem

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

1. Logika, funkcje logiczne, preceptron.

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Uczenie ze wzmocnieniem

Sieć przesyłająca żetony CP (counter propagation)

Przepływ w korytach otwartych. kanał otwarty przepływ ze swobodną powierzchnią

Metody numeryczne I Równania nieliniowe

Najważniejszy element wiedzy o sieciach neuronowych. uczenie sieci

Metody numeryczne. Równania nieliniowe. Janusz Szwabiński.

Wprowadzenie Metoda bisekcji Metoda regula falsi Metoda siecznych Metoda stycznych RÓWNANIA NIELINIOWE

I EKSPLORACJA DANYCH

Metody Rozmyte i Algorytmy Ewolucyjne

Iteracyjne rozwiązywanie równań

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

5. Metody stochastyczne (symulowane wyżarzanie, algorytmy genetyczne) -> metody Monte Carlo

Uczenie Wielowarstwowych Sieci Neuronów o

Stosowana Analiza Regresji

Weryfikacja hipotez statystycznych

Demonstracja: konwerter prąd napięcie

Metody optymalizacji nieliniowej (metody programowania nieliniowego) Ewa Niewiadomska-Szynkiewicz Instytut Automatyki i Informatyki Stosowanej

Przegląd metod optymalizacji wielowymiarowej. Funkcja testowa. Funkcja testowa. Notes. Notes. Notes. Notes. Tomasz M. Gwizdałła

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Sieci neuronowe: perspektywa systemowa

Optymalizacja konstrukcji

Uczenie sieci neuronowych i bayesowskich

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Ekonometria. Modele dynamiczne. Paweł Cibis 27 kwietnia 2006

Transkrypt:

10. Techniki minimalizacji a sieci neuronowe 10-1 Błąd aproksymacji 10-2 Minimalizacja kosztu 10-3 Tryby minimalizacji 10-4 Metoda największego spadku 10-5 Gradient sprzężony 10-6 Metoda Newtona 10-7 Metody zmiennej metryki 10-8 Metoda Levenberga-Marquardta 10-9 Specyficzne techniki neuronowe: Wygładzanie inercyjne wag 10-10 Specyficzne techniki neuronowe: Reguła delta-delta 10-11 Specyficzne techniki neuronowe: Reguła delta-bar-delta 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-0

Błąd aproksymacji skończonyzbiórobrazówu={u 1,...,u N },U L =U Q= 1 2 ε i 2 Udowolny,U L losowanyzgodniezeznanymrozkłademnau Q 0 = 1 2 E ε 2 Udowolny,U L losowanyzgodniezpewnymrozkłademnau Q N (t)= 1 2 A N ε(t) 2 Q 0 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-1

Funkcja błędu Minimalizacja kosztu Q N (w)= 1 N k t=k N +1 q(y(t;w) y o (t))= 1 N k t=k N +1 y(t;w) y o (t) 2 Metody gradientowe w(k+1)=w(k)+ηr(δ(k)) gdzie w wektor wszystkich wag sieci δ(k)= Q N (w(k)) gradient Q N wk-tymkrokuminimalizacji r wektorowa funkcja gradientu określająca nowy kierunek η krok minimalizacji k indeks kroku minimalizacji 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-2

Tryby minimalizacji (N, M, L): długość okna(przedział uśredniania) N, przesunięcie okna po wykonaniu kroków minimalizacji M, liczba kroków minimalizacji dla jednej estymaty gradientu tryb natychmiastowy(1, 1, 1) koszt oczekiwany estymowany jest przez koszt chwilowy(1-elementowe uśrednianie kosztu), minimalizacja po każdej prezentacji trybwsadowy(n,n,1) uśrednienie N > 1 kosztów chwilowych przed każdą minimalizacją; dla skończonegou L przyjmujesięn= U L (epoka) wielokrotne użycie gradientu(n, N, L) prezentacja N nowych wejść, L > 1 kroków minimalizacji ruchomeokno(n,m,l) przesunięcieoknaodługościnom<nchwil(usunięciemnajstarszychi prezentacjamnowychwejść),uśrednianiewoknieodługościn,wykonaniel 1 kroków minimalizacji 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-3

wzórtaylora1rzędu Metoda największego spadku Q(w+µr)=Q(w)+µr T Q (w)+o(µ) dlar= Q (w) Q(w+µr)=Q(w) µ Q (w) 2 <Q(w) algorytm korekcji wag w(k+1)=w(k) µδ(k) algorytm jest zwykle połączony z obliczaniem gradientu metodą propagacji zwrotnej 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-4

Gradient sprzężony funkcjakwadratowawr l,minimalizacjawkierunku minimalizacja(r) minimalizacja(s) minimalizacja(r, s) zmianagradientuoµq (w)r(k), r(k+1) r(k) kierunkir,ssprzężone:r T Q s=0 metodagradientusprzężonegor(k) T H(k)s(s)=0 dlas=1,...,k 1 r(k)= δ(k)+β(k 1)r(k 1), r(0)= δ(0) β(k)= δ(k+1) 2 δ(k) 2 β(k)= (δ(k+1) δ(k))t δ(k+1) δ(k) 2 Fletcher-Reeves Polak-Ribière restart po l krokach zbieżne superliniowo; praktycznie: liniowo dla funkcji kwadratowej: F-R, P-R identyczne, zbieżność w l krokach 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-5

wzórnewtona2rzędu Metoda Newtona Q(w+µr)=Q(w)+µr T Q (w)+ 1 2 µ2 r T Q (w)r+o(µ 2 ) gradientqjakofunkcjar µq (w+µr)=µq (w)+µ 2 Q (w)r+o(µ 2 ) kierunek poprawy r= Q (w) 1 Q (w) algorytm Newtona w(k+1)=w(k) µh 1 (k)δ(k) zbieżny w l krokach dla funkcji kwadratowej przy minimalizacji w kierunku; problem: Hessian 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-6

Metody zmiennej metryki aproksymacjaq powinnaspełniać Q (w)(w w )=Q (w) Q (w ) metoda Davidona-Fletchera-Powella(DFP) P(k)= w(k) w(k)t P(k) w(k) T δ(k) P(k) δ(k) δ(k)t δ(k) T P(k) δ(k) metoda Broydena-Fletchera-Goldfarba-Shanno(BFGS) P(k)= P(k) DFP + δ(k) T P(k) δ(k)zz T gdziez= w(k) w(k) T δ(k) P(k) δ(k) δ(k) T P(k) δ(k) gdziep(k)=ĥ 1 (k), x(k)=x(k+1) x(k) warunkipoczątkowe:p(0)=1,p(1) metodanajwiększegospadku 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-7

Metoda Levenberga-Marquardta kwadratowa funkcja błędu Q(w)= 1 m (y i (w) y o 2 i) 2 = 1 2 Q (w)= Q (w)= i=1 m y i(w)ε i (w) i=1 m i=1 m ε 2 i(w) i=1 y i(w)ε i (w)+y i(w)y i T (w) wokółminimumε i jestbliskie0(v parametrmarquardta) Q (w)=v1+ m i=1 y i(w)y i T (w) dlav dużych (względemwartościwłasnychmacierzy m Q (w) v1 metodanajwiększegospadku i=1 y i (w)y i dlav małych Q (w) m i=1 y i (w)y T i (w) metoda Newtona T (w)) 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-8

Specyficzne techniki neuronowe: Wygładzanie inercyjne wag członinercyjny(ang.momentumterm) α w(k 1) w(k)= µδ(k)+α w(k 1), 0<α<1 człon inercyjny kumuluje efekt δ(k) w kierunku spadku gradientu i redukuje efekt zmian gradientu dlazadanegociągugradientów{δ(1),...,δ(k)} w(k) = µ 1 αq 1δ(k) = µ(1+αq 1 +α 2 q 2 +...)δ(k) = µ ( δ(k)+αδ(k 1)+α 2 δ(k 2)+... ) (q 1 operatoropóźnieniajednostkowego) czyli gradient δ(k) zastąpiony przez sumę ważoną gradientów ze współczynnikiem wygładzania α w(k)= µf(q)δ(k), F(q)= i=0 α i q i 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-9

Specyficzne techniki neuronowe: Reguła delta-delta pochodnakosztuwzględemwspółczynnikauczeniaµ i dlaalgorytmu w i (k+1)=w i (k) µ i (k)δ i (k) dq dµ i (k) = δ i(k)δ i (k 1) korekcja współczynnika uczenia µ i (k+1)=µ i (k)+γδ i (k)δ i (k 1) dużawrażliwośćnawybórγ;wzrostµ i gdydwiekolejnepochodneδ i (k)sątego samego znaku nazwa delta-delta wywodzi się z oznaczenia gradientu przez δ 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-10

Specyficzne techniki neuronowe: Reguła delta-bar-delta wygładzanie gradientu δ(k)=ξδ i (k 1)+(1 ξ)δ i (k), 0<ξ<1 µ i (k+1)=µ i (k)+γδ i (k)δ i (k 1) dodatkowe zabezpieczenia: µ liniowo rośnie gdy znak gradientu stały, maleje wykładniczo gdy zmienny κ gdyδ i (k)δ i (k 1)>0 µ i (k+1)=µ i (k)+ βµ i (k) gdyδ(k)δ(k 1)<0 0 w pozostałych przypadkach 0<κ<0.05, 0.1<β<0.3 19 maja 2004 10. Techniki minimalizacji a sieci neuronowe 10-11