Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd.

Podobne dokumenty
1 Bª dy i arytmetyka zmiennopozycyjna

1 Metody iteracyjne rozwi zywania równania f(x)=0

Uczenie Wielowarstwowych Sieci Neuronów o

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Rozwi zanie równania ró»niczkowego metod operatorow (zastosowanie transformaty Laplace'a).

Funkcje wielu zmiennych

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Zastosowanie eliptycznych równa«ró»niczkowych

1 Ró»niczka drugiego rz du i ekstrema

Algorytm propagacji wstecznej

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.

Wst p do sieci neuronowych, wykªad 14 Zespolone sieci neuronowe

Wst p do sieci neuronowych, wykªad 4 Algorytm wstecznej propagacji bª du, cz. 1

Ekonometria - wykªad 8

Proste modele o zªo»onej dynamice

Metody numeryczne. Wst p do metod numerycznych. Dawid Rasaªa. January 9, Dawid Rasaªa Metody numeryczne 1 / 9

Funkcje wielu zmiennych

Wst p do sieci neuronowych, wykªad 05a Algorytm wstecznej propagacji bª du

I Rok LOGISTYKI: wykªad 2 Pochodna funkcji. iloraz ró»nicowy x y x

Matematyka 1. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

Zagadnienia na wej±ciówki z matematyki Technologia Chemiczna

Równania ró»niczkowe I rz du (RRIR) Twierdzenie Picarda. Anna D browska. WFTiMS. 23 marca 2010

Ekstremalnie fajne równania

Funkcje wielu zmiennych

Rozdziaª 13. Przykªadowe projekty zaliczeniowe

WYKŁAD 4 PLAN WYKŁADU. Sieci neuronowe: Algorytmy uczenia & Dalsze zastosowania. Metody uczenia sieci: Zastosowania

1 Przypomnienie wiadomo±ci ze szkoªy ±redniej. Rozwi zywanie prostych równa«i nierówno±ci

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Poprawa efektywnoci metody wstecznej propagacji bdu. Jacek Bartman

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ

Metody numeryczne i statystyka dla in»ynierów

Liniowe równania ró»niczkowe n tego rz du o staªych wspóªczynnikach

Zadania z analizy matematycznej - sem. II Rachunek ró»niczkowy funkcji wielu zmiennych

Metody numeryczne i statystyka dla in»ynierów

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Numeryczne zadanie wªasne

Aproksymacja funkcji metod najmniejszych kwadratów

PRZYPOMNIENIE Ka»d przestrze«wektorow V, o wymiarze dim V = n < nad ciaªem F mo»na jednoznacznie odwzorowa na przestrze«f n n-ek uporz dkowanych:

1 0 Je»eli wybierzemy baz A = ((1, 1), (2, 1)) to M(f) A A =. 0 2 Daje to znacznie lepszy opis endomorzmu f.

Liniowe zadania najmniejszych kwadratów

Funkcje, wielomiany. Informacje pomocnicze

Spis tre±ci. Plan. 1 Pochodna cz stkowa. 1.1 Denicja Przykªady Wªasno±ci Pochodne wy»szych rz dów... 3

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

1 Granice funkcji wielu zmiennych.

Wykªad 4. Funkcje wielu zmiennych.

2 Liczby rzeczywiste - cz. 2

Informacje pomocnicze

2. L(a u) = al( u) dla dowolnych u U i a R. Uwaga 1. Warunki 1., 2. mo»na zast pi jednym warunkiem: L(a u + b v) = al( u) + bl( v)

det A := a 11, ( 1) 1+j a 1j det A 1j, a 11 a 12 a 21 a 22 Wn. 1 (Wyznacznik macierzy stopnia 2:). = a 11a 22 a 33 +a 12 a 23 a 31 +a 13 a 21 a 32

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Arytmetyka zmiennopozycyjna

Lab. 02: Algorytm Schrage

Wybrane poj cia i twierdzenia z wykªadu z teorii liczb

Matematyka II: Zadania przed 3. terminem S tu niektóre zadania z egzaminu z rozwi zaniami i troch dodatkowych

Vincent Van GOGH: M»czyzna pij cy li»ank kawy. Radosªaw Klimek. J zyk programowania Java

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

x y x y x y x + y x y

AM II /2019 (gr. 2 i 3) zadania przygotowawcze do I kolokwium

Rys Mo liwe postacie funkcji w metodzie regula falsi

Optymalizacja ciągła

Materiaªy do Repetytorium z matematyki

Metody numeryczne i statystyka dla in»ynierów

PRAWA ZACHOWANIA. Podstawowe terminy. Cia a tworz ce uk ad mechaniczny oddzia ywuj mi dzy sob i z cia ami nie nale cymi do uk adu za pomoc

Listy Inne przykªady Rozwi zywanie problemów. Listy w Mathematice. Marcin Karcz. Wydziaª Matematyki, Fizyki i Informatyki.

Optymalizacja ciągła

Metodydowodzenia twierdzeń

Ukªady równa«liniowych

Matematyka dyskretna dla informatyków

1. Reforma procesu kształcenia jako filar linii programowej PSRP

Rozwini cia asymptotyczne dla mocy testów przybli»onych

Ekonometria Bayesowska

Modele wielorównaniowe. Problem identykacji

Bash i algorytmy. Elwira Wachowicz. 20 lutego

Macierze. 1 Podstawowe denicje. 2 Rodzaje macierzy. Denicja

Twierdzenie Wainera. Marek Czarnecki. Warszawa, 3 lipca Wydziaª Filozoi i Socjologii Uniwersytet Warszawski

Metody numeryczne i statystyka dla in»ynierów

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

Metody Numeryczne Optymalizacja. Wojciech Szewczuk

Kolokwium Zadanie 1. Dla jakich warto±ci parametrów a i b funkcja sklejona

Model obiektu w JavaScript

Liczenie podziaªów liczby: algorytm Eulera

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

Spis tre±ci. 1 Gradient. 1.1 Pochodna pola skalarnego. Plan

Zadania z analizy matematycznej - sem. II Ekstrema funkcji wielu zmiennych, twierdzenia o funkcji odwrotnej i funkcji uwikªanej

1 Poj cia pomocnicze. Przykªad 1. A A d

Wska¹niki, tablice dynamiczne wielowymiarowe

A = n. 2. Ka»dy podzbiór zbioru sko«czonego jest zbiorem sko«czonym. Dowody tych twierdze«(elementarne, lecz nieco nu» ce) pominiemy.

Metody numeryczne I Równania nieliniowe

3. (8 punktów) EGZAMIN MAGISTERSKI, Biomatematyka

LZNK. Rozkªad QR. Metoda Householdera

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Pochodne cząstkowe i ich zastosowanie. Ekstrema lokalne funkcji

Zbiory ograniczone i kresy zbiorów

Rachunek caªkowy funkcji wielu zmiennych

przewidywania zapotrzebowania na moc elektryczn

Interpolacja Lagrange'a, bazy wielomianów

Wykłady z matematyki inżynierskiej EKSTREMA FUNKCJI. JJ, IMiF UTP

Bifurkacje. Ewa Gudowska-Nowak Nowak. Plus ratio quam vis

WYKŁAD 9 METODY ZMIENNEJ METRYKI

Transkrypt:

Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd. M. Czoków, J. Piersa Faculty of Mathematics and Computer Science, Nicolaus Copernicus University, Toru«, Poland 2010-11-23

1 2 Propagacja wsteczna w sieciach rekurencyjnych

Wady klasycznego algorytmu wstecznej propagacji wymaga du»ej liczby iteracji, by osi gn zbie»no± mo»e si okaza zbyt wolny, je»eli przyjmie si za maªy wspóªczynnik uczenia z kolei zbyt du»a warto± η grozi wyst pieniem oscylacji oraz nie osi gni ciu wymaganej zbie»no±ci wra»liwy na wyst powanie minimów lokalnych

Modykacje BP Istinej ró»ne metody na radzenie sobie z powy»szymi problemami. Nale» do nich: adaptacyjny dobór wspóªczynników uczenia metoda momentu wprowadzanie losowo±ci do algorytmu (wielokrotne zapuszczanie algorytmu z losowymi wagami pocz tkowymi i zwracanie najlepszego rozwi zania)

Idea Powy»sze modykacje klasycznego algorytmu propagacji wstecznej, poprawiaj jej wydajno±, ale istniej wersje propagacji wstecznej o jeszcze lepszej wydajno±ci. S to algorytmy wstecznej propagacji drugiego rz du. Rodzina algorytmów drugiego rz du, robi c krok bierze pod uwag wi cej informacji na temat ksztaªtu funkcji bª du, ni» klasyczny algorytm wstecznej propagacji. Informacje te czerpie z drugich pochodnych cz stkowych funkcji bª du.

Idea Lokalne rozwini cie szeregu Taylora dla funkcji bª du E(w) wokóª punktu w ma posta : E(w + h) E(w) + E(w) T h + 1 2 ht 2 E(w)h, gdzie 2 E(w) jest hesjanem, czyli macierz drugich pochodnych cz stkowych w 2 1 w 2 w 1. w n w 1 w 1 w 2... w 2 2... w n w 2... w 1 w n w 2 w n.... w 2 n

Wyznaczanie kroku Chcemy znale¹ minimum rozwini cia drugiego rz du funkcji E, czyli: E(w + h) E(w) + E(w) T h + 1 2 ht 2 E(w)h W tym celu liczymy gradient tego rozini cia, który jest zadany wzorem: E(w + h) T E(w) T + h T 2 E(w) Porównuj c E(w + h) T do zera i wyznaczaj c h otrzymujemy wzór na optymaln modykacj wag h = ( 2 E(w)) 1 E(w)

Modykacja wag Algorytm propagacji dugiego rz du modykuje wektory wag w sposób iteracyjny za pomoc wzoru h = ( 2 E(w)) 1 E(w) Wektor w kolejnej iteracj jest wyznaczony za pomoc wzoru w (m+1) = w (m) ( 2 E(w)) 1 E(w) Iteruj c kilkukrotnie mo»emy uzyska minimum funckcj bª du E.

Przybli»enia funkcji bª du w kolejnych krokach algorytmu 80 70 60 50 40 30 20 10 0-20 -10 M. 0Czoków, 10 J. Piersa 20 WSN 30 2010/201140 wykªad 750 60

Nowe problemy Metody z bezpo±rednim wyznaczaniem hesjanu s nazywane metodami Newtona. Wyznaczanie macierzy hesjanu jest jednak bardzo kosztowne obliczeniowo. Oprócz tego pojawia si jeszcze jeden problem. Nie wiemy z góry, czy ekstremum paraboli przybli»aj cej funkcj bª du w otoczeniu punktu w jest minimum (hesjan jest dodatnio okre±lony), czy maksimum (hesjan jest ujemnie okre±lony)

Metoda Newtona dla funkcji jednowymiarowej Metoda Newtona jest to numercznyczny algorytm, który przy pewnych zaªo»eniach liczy pieriastek dla funkcji f. W kolejnych krokach wyznacza punkty, które aproksymuj pierwiastek. Metoda ta wyznacza kolejne punkty za pomoc wzoru: x (m+1) = x (m) f (x (m) ) f (x (m) )

Rozwi zanie problemów Z tych wzgl dów opracowano metody tak zwane Pseudo-Newtonwskie pracuj na uproszczonej formie hesjanu. Na przykªad metoda BFGS (od nazwisk BroydenFletcherGoldfarbShanno) za pomoc, której w kolejnych krokach dziaªania algorytmu przybli»amy odwrotno± hesjanu na podstawie jego warto±ci w poprzedniej iteracji. Oznaczmy przez H (m) odwrotno±c hesjanu w kroku m-tym.

Rozwi zanie problemów - BFGS H (1) = I H (m+1) = H (m) + q(m) (q (m) ) t (H (m) ) t (s (m) ) t s (m) H (m) (m) (q (m) ) t s gdzie s (m) = w (m+1) w (m), natomiast q (m) = E(w (m+1) ) E(w (m) ) (metoda jest dost pna w matlabie w funkcji fminunc) s (m) H (m) s (m), Wpisuj c w googlu quasi-newton/pseudo-newton, mo»na znale¹ kilka innych wzorków przybli»aj cych hesjan albo jego odwrotno±.

Rozwi zanie problemów Inne podej±cie - obliczamy elementy le» ce tylko na diagonali, pozostaªe elementy s zerowane. Przy takim podej±ciu bardzo ªatwo jest równie» znale¹ odwrotno± hesjanu. 2 E = w 2 1 0 0...... 0... 0 w 2 n

W takim przypadku równanie: w (m+1) = w (m) ( 2 E(w)) 1 E(w) zostaje uproszczone do postaci: w (m+1) i = w (m) i i E(w) / w 2 i

Powy»sza metoda dobrze dziaªa dla kwadratowych funkci bª du i nazywa si. Qickprop optymalizacj funkcji bª du dla ka»dego kierunku z osobna. Jedna wspóªrz dna wagowa traktowana jest jak zmienna, pozotaªe jak staªa. W algorytmie u»yta jest kwadratowa jednowymiarowa optywalizacja funkcji bª du.

Lokalna aproksymacja a

Wersja bardzo uproszczona polega na dyskretyzacji: w (m+1) i W wyniku czego dostajemy: = w m i i E(w) / w 2 (m+1) i E(w) (m) w i = ( i E(w) (m+1) i E(w) (m) )/ (m) w i i,

Pochodna - przypomnienie Niech U R b dzie przedziaªem otwartym i funkcja f : U R. Je±li dla pewnego x 0 U istnieje sko«czona granica ilorazu ró»nicowego, to f (x 0 ) = lim x x0 f (x) f (x 0 ) x x 0 W szczególno±ci f (x 0 ) f (x) f (x 0) x x 0 Na tej samej zasadzie w poprzednim slajdzie przybli»yli±my (m+1) w i

Stosownie do wielko±ci pochodnej aktualizacje mog sta sie bardzo du»e. W tym celu algorytm stabilizuje si poprzez wycinanie zbyt du»ych zmian.

Propagacja wsteczna w sieciach rekurencyjnych Sieci ze sprz»eniem zwrotnym Propagacj wsteczna dla sieci ze sprz»eniem wzrotnym prowadzimy, jakby nie byªo w niej cykli, zgodnie z dynamik sieci przekierowanej wstecz, wówczas zdarza si wielokrotne modykowanie tej samej wagi. Uzyskane tak dane kumulujemy.