Algorytm propagacji wstecznej

Podobne dokumenty
Wst p do sieci neuronowych, wykªad 05a Algorytm wstecznej propagacji bª du

Wst p do sieci neuronowych, wykªad 4 Algorytm wstecznej propagacji bª du, cz. 1

Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd.

Uczenie Wielowarstwowych Sieci Neuronów o

WYKŁAD 4 PLAN WYKŁADU. Sieci neuronowe: Algorytmy uczenia & Dalsze zastosowania. Metody uczenia sieci: Zastosowania

Wst p do sieci neuronowych, wykªad 14 Zespolone sieci neuronowe

1 Bª dy i arytmetyka zmiennopozycyjna

1 Metody iteracyjne rozwi zywania równania f(x)=0

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Rozwi zanie równania ró»niczkowego metod operatorow (zastosowanie transformaty Laplace'a).

Wprowadzenie do Sieci Neuronowych Laboratorium 05 Algorytm wstecznej propagacji błędu

Ekstremalnie fajne równania

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Funkcje wielu zmiennych

przewidywania zapotrzebowania na moc elektryczn

Ukªady równa«liniowych

Podstawy Sztucznej Inteligencji (PSZT)

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.

Funkcje wielu zmiennych

Listy Inne przykªady Rozwi zywanie problemów. Listy w Mathematice. Marcin Karcz. Wydziaª Matematyki, Fizyki i Informatyki.

Modele wielorównaniowe. Problem identykacji

Poprawa efektywnoci metody wstecznej propagacji bdu. Jacek Bartman

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Zastosowanie eliptycznych równa«ró»niczkowych

Ekonometria - wykªad 8

Materiaªy do Repetytorium z matematyki

Metodydowodzenia twierdzeń

Matematyka dyskretna dla informatyków

Funkcje wielu zmiennych

1 Ró»niczka drugiego rz du i ekstrema

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Wykªad 4. Funkcje wielu zmiennych.

Uczenie sieci neuronowych i bayesowskich

2 Liczby rzeczywiste - cz. 2

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

AM II /2019 (gr. 2 i 3) zadania przygotowawcze do I kolokwium

c Marcin Sydow Przepªywy Grafy i Zastosowania Podsumowanie 12: Przepªywy w sieciach

Równania ró»niczkowe I rz du (RRIR) Twierdzenie Picarda. Anna D browska. WFTiMS. 23 marca 2010

Macierze i Wyznaczniki

Proste modele o zªo»onej dynamice

Jednowarstwowe Sieci Neuronowe jako. klasykatory do wielu klas. (c) Marcin Sydow

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Macierze. 1 Podstawowe denicje. 2 Rodzaje macierzy. Denicja

Metody numeryczne i statystyka dla in»ynierów

Opis matematyczny ukªadów liniowych

Interpolacja funkcjami sklejanymi

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

x y x y x y x + y x y

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Bash i algorytmy. Elwira Wachowicz. 20 lutego

i, lub, nie Cegieªki buduj ce wspóªczesne procesory. Piotr Fulma«ski 5 kwietnia 2017

Matematyka 1. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

Macierze i Wyznaczniki

1 Trochoidalny selektor elektronów

XVII Warmi«sko-Mazurskie Zawody Matematyczne

W poprzednim odcinku... Podstawy matematyki dla informatyków. Relacje równowa»no±ci. Zbiór (typ) ilorazowy. Klasy abstrakcji

1 Granice funkcji wielu zmiennych.

Rozdziaª 13. Przykªadowe projekty zaliczeniowe

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Macierz A: macierz problemów liniowych (IIII); Macierz rozszerzona problemów liniowych (IIII): a 11 a 1m b 1 B = a n1 a nm b n

AUTO-ENKODER JAKO SKŠADNIK ARCHITEKTURY DEEP LEARNING

Dynamiczne wªasno±ci algorytmu propagacji przekona«

Zadania. 4 grudnia k=1

Numeryczne zadanie wªasne

Rachunek caªkowy funkcji wielu zmiennych

Lekcja 9 - LICZBY LOSOWE, ZMIENNE

Elementy inteligencji obliczeniowej

JAO - J zyki, Automaty i Obliczenia - Wykªad 1. JAO - J zyki, Automaty i Obliczenia - Wykªad 1

Liniowe równania ró»niczkowe n tego rz du o staªych wspóªczynnikach

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Uczenie sieci typu MLP

Podstawy modelowania w j zyku UML

Ekonometria Bayesowska

Aproksymacja funkcji metod najmniejszych kwadratów

8. Neuron z ciągłą funkcją aktywacji.

Zadania z analizy matematycznej - sem. II Ekstrema funkcji wielu zmiennych, twierdzenia o funkcji odwrotnej i funkcji uwikªanej

Liniowe zadania najmniejszych kwadratów

Metody numeryczne. Wst p do metod numerycznych. Dawid Rasaªa. January 9, Dawid Rasaªa Metody numeryczne 1 / 9

Funkcje, wielomiany. Informacje pomocnicze

MiASI. Modelowanie systemów informatycznych. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

Metody bioinformatyki (MBI)

wiedzy Sieci neuronowe

A = n. 2. Ka»dy podzbiór zbioru sko«czonego jest zbiorem sko«czonym. Dowody tych twierdze«(elementarne, lecz nieco nu» ce) pominiemy.

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Lab. 02: Algorytm Schrage

Podstawy modelowania w j zyku UML

Matematyka dyskretna dla informatyków

ANALIZA MATEMATYCZNA Z ALGEBR

Hotel Hilberta. Zdumiewaj cy ±wiat niesko«czono±ci. Marcin Kysiak. Festiwal Nauki, Instytut Matematyki Uniwersytetu Warszawskiego

Makroekonomia Zaawansowana

Zadania z analizy matematycznej - sem. II Rachunek ró»niczkowy funkcji wielu zmiennych

Wprowadzenie do Sieci Neuronowych Laboratorium 06 Algorytm wstecznej propagacji błędu

Elementarna statystyka Dwie próby: porównanie dwóch proporcji (Two-sample problem: comparing two proportions)

Wstęp do sieci neuronowych, wykład 14 Maszyna Boltzmanna

Ekonometria Bayesowska

Matematyka II: Zadania przed 3. terminem S tu niektóre zadania z egzaminu z rozwi zaniami i troch dodatkowych

Zastosowania matematyki

Programowanie wspóªbie»ne

Transkrypt:

Algorytm propagacji wstecznej M. Czoków, J. Piersa Faculty of Mathematics and Computer Science, Nicolaus Copernicus University, Toru«, Poland 2010-11-16

Powtórzenie Architektury sieci Dlacezgo MLP? W sieciach skªadaj cych si z przynajmniej dwóch neuronów wyniki zwracane przez jedne neurony mog by wej±ciami do innych neuronów, wyró»niamy jednostki wej±ciowe, jednostki wyj±ciowe, neurony ukryte. Dziel si na: skierowane (ang. feed-forward) - nie dopuszczane s cykle skierowane, w takiej sieci przepªyw informacji jest ustalony w jednym kierunku. Sie skierowana charakteryzuje si synchroniczn dynamik, to jest ka»dy neuron, przed obliczeniem swojej aktywacji, czeka a» wszystkie jego wej±cia zostan obliczone. rekurencyjne (recurrent) - dopuszczane s cykle skierowane, wysªany impuls mo»e kiedy± do neuronu powróci, w ogólnym przypadku dopuszczalne jest aby wej±ciem neuronu byªo jego wªasne wyj±cie.

Ogólna architektura MLP Architektury sieci Dlacezgo MLP? Szczególnym typem sieci skierowanych s sieci warstwowe. Wszystkie perceptrony podzielone s na rozª czne warstwy. Warstwa wej±ciowa jest okre±lana jako pierwsza. Warstwa L + 1-sza za wej±cia przyjmuje wyniki z warstwy L-tej i tylko te. Warstwa wyj±ciowa jest ostatnia. W sieciach MLP nie s dopuszczane bezpo±rednie poª czenia wewn trz tej samej warstwy, ani poª czenia przeskakuj ce warstw tj. z warstwy L do L + 2, z L do L + 3 itd.

Architektury sieci Dlacezgo MLP? Algorytmy uczenia i konstrukcji sieci skierowanych alorytmy konstrukcyjne architektura sieci zale»y gªównie od algorytmu, zbioru ucz cego, dokªadno±ci jak chcemy osi gn, algorytm wstecznej propagacji bª du algorytm uczenia dla sieci wielowarstwowych (MLP), architektura jest z góry zadana, zanim przejdziemy do procesu uczenia, wiemy ile sie b dzie mie : warstw ukrytych, neuronów w ka»dej warstwie ukrytej, jednostek wej±ciowych i wyj±ciowych.

Ogólna architektura MLP Architektury sieci Dlacezgo MLP? x1 x2 warstwa wejściowa warstwa ukryta y1 y2 warstwa wyjściowa z1 xi yj zk x0=1 (próg) y0=1 (próg)

Wyj±cie neuronu z warstwy ukrytej Architektury sieci Dlacezgo MLP? warstwa wejściowa x1 x2 warstwa ukryta y1 y2 warstwa wyjściowa z1 xi yj zk y j = φ(a j ) a j = w t j x x0=1 (próg) y0=1 (próg)

Architektury sieci Dlacezgo MLP? Wyj±cie neuronu z warstwy wyj±ciowej warstwa wejściowa x1 x2 warstwa ukryta y1 y2 warstwa wyjściowa z1 xi yj zk z k = φ(b k ) b k = w t k y x0=1 (próg) y0=1 (próg)

Zalety MLP Architektury sieci Dlacezgo MLP? jest w stanie przybli»y dowolnie zªo»one i skomplikowane odwzorowanie u»ytkownik nie musi zna lub zakªada z góry»adnej formy wyst puj cych w poszukiwanym modelu zale»no±ci nie musi nawet zadawa sobie pytania, czy jakiekolwiek mo»liwe do matematycznego modelowania zale»no±ci w ogóle wyst puj wygodne narz dzie do wszelkiego rodzaju zastosowa«zwi zanych z prognozowaniem, klasykacj lub automatycznym sterowaniem

Przykªady ucz ce Niech dana b dzie lista N przykªadów ((x (1), t (1) ),..., (x (N), t (N) )). Za cel stawiamy sobie dobranie takiego ukªadu wag, by perceptron otrzymuj cy na wej±ciu x (n) = (1, x (n) (n) 1,.., x,.., x (n) ) dawaª na i I wyj±ciu t (n) = (t (n) 1,.., t(n),.., t(n) ), gdzie n 1,.., N. Zamiast progów k K stosujemy rozszerzone wektor wej±ciowy i rozszerzony wektor wag, mianowicie ka»dy jednostka licz ca dostaje na wej±ciu dodatkowo 1. Wagi mi dzy jednostakami a dodatkowymi wej±ciami pomno»one przez -1 odpowiadaj progom.

Funkcja bª du Inaczej ujmuj c problem naszym celem jest zminimalizowanie nast puj cej funkcji bª du ERROR = 1 2 N K (z (n) k n=1 k=1 t (n) k )2 Warto± powy»szej funkcji zale»y od warto±ci wag. Aby znale¹ jej minimum b dziemy modykowa wagi, za pomoc algorytmu gradienu prostego.

Dana niech b dzie funkcja f : R d R ci gªa i ró»niczkowalna (istniej pochodne cz stkowe f x 1... f x d ). Chcemy wyznaczy minimum (lokalne) funkcji tj. x R d, takie»e f (x) f (y) dla y nale» cych do pewnego otoczenia x. Dodatkowo dany niech b dzie pewien punkt startowy a (0) R d. Czym jest f (a (0) x 1 )?

Przy kilku zaªo»eniach f x 1 (a (0) ) intuicyjnie mo»e by inerpretowana jako kierunek, w któr stron funkcja ro±nie zmieniaj c pierwsz wspóªrz dn, przy pozostaªych ustalonych. Maj c caªy zestaw pochodnych cz stkowych (gradient) mamy dokªadny kierunek, w którym funkcja najszybciej ro±nie. Szukaj c maksimum nale»y zatem wykona krok w tym»e kierunku. Szukaj c minimum nale»y znale¹ kierunek najszybszego wzrostu... i wykona krok w przeciwn stron.

1 Rozpocznij w losowym / wybranym a (0) 2 Dla ka»dej wspóªrz dnej g = 1..d a (m+1) g = a (m) g η f x g (a (m) ), gdzie η jest bliskim zeru, dodatnim wspóªczynnik uczenia 3 Powtarzaj krok 2

50 40 30 20 10 06 4 2 0-2 -4-6 -6-4 -2 0 2 4 6

Sigmoida Aby±my mogli minimalizowa funkcj ERROR za pomoc algorytmu gradientu prostego musi ona by ci gªa i ró»niczkowalna. eby warunek ten byª sp ªniony funkcje aktywuj ce jednostek nale» cych do MPL musz by równie» ci gªe i ró»niczkowalne. Takie wªasno±ci sp ªniaj na przykªad sigmoidy. 1 sigmoida 2 symetryczna sigmoida φ(s) = σ(s) = 1 1 + exp( s) φ(s) = 2σ(s) 1 = 1 exp( s) 1 + exp( s)

Pochodna sigmoidy Wa»na obserwacja σ (s) = d ds (1 + e s ) 1 = (1 + e s ) 2 e s ( 1) = 1 1 + (1 1 ) = σ(s)(1 σ(s)) e s 1 + e s

Nieci gªa funkcja bª du 4 3.5 3 2.5 2 1.5 1 0.5 0 4 2 0-2 2 0-2 -4-4 4

Ci gªa funkcja bª du w = [ -3.0 3.0-1.5 3.0-3.0-1.5 * * -2.0] 4 3.5 3 2.5 2 1.5 1 0.5 0 25 20-5 15 10 5 0 20 15 10 5 0-5 25

1 0.8 0.6 0.4 0.2 0 0.3 0.25 0.2 0.15 0.1 0.05 0 sigmoida -4-2 0 2 4 poch. sigm. -4-2 0 2 4 Sigmoida i jej pochodna

Funkcja bª du Zmodykowa wagi, tak»eby zminimalizowa bª d ERROR, u»ywaj c algorytmu spadku gradientowego. ERROR = 1 2 N K (z (n) k n=1 k=1 t (n) k )2 Oznaczmy przez E (n) dla n 1,.., N funkcj bª du dla jednego przykªadu ucz cego. Zatem E (n) = 1 2 K k=1 ERROR = 1 2 (z (n) k N n=1 t (n) k )2 E (n)

Funkcja bª du Dodatkowo funkcj bª du dla jednego przykªadu E (n) rozbijmy na sum wyra»e«e (n). Przez E (n) bedziemy oznacza bª d kwadratowy k k dla przykªadu n dla k-tego wyj±cia sieci. A wi c : E (n) k = 1 2 (z(n) k E (n) = 1 2 K k=1 t (n) k )2 E (n) k

Koncepcja algorytmu Aby minimalizowa bª d u±redniony po przykª dach ERROR, minimalizujemy bª d E dla poszczególnych przykªadów,. w (m+1) = w (m) η E Koncepcja algorytmu wstecznej propagacji propagowanie gradientu bª du od wyj± spowrotem do wej±cia. w

Dowód poprawno±ci z k = φ(b k ), b k = w t k y warstwa wejściowa x1 x2 warstwa ukryta y1 y2 warstwa wyjściowa z1 E = 1 2 K (z k t k ) 2 = k=1 xi yj zk 1 2 K (φ(b k ) t k ) 2 k=1 x0=1 (próg) y0=1 (próg) E = 1 w kj w kj 2 K (φ(b k ) t k ) 2 = k=1 w kj 1 2 (φ(b k) t k ) 2 = E k w kj

Dowód poprawno±ci E w kj = E k w kj = w kj 1 2 (φ(b k) t k ) 2 E k b k b k w kj = δ k y j warstwa wejściowa x1 x2 xi warstwa ukryta y1 y2 yj warstwa wyjściowa z1 zk E k b k = δ k = (z k t k )φ (b k ) x0=1 (próg) y0=1 (próg) b k = (w k1 y 1 + w k2 y 2 +.. + w kj y j +.. + w kj y J ) = y j w kj w kj

Dowód poprawno±ci warstwa wejściowa x1 x2 warstwa ukryta y1 y2 warstwa wyjściowa z1 E w ji = E a j E a j w ji a j = δ j =? = δ j x i xi yj zk x0=1 (próg) y0=1 (próg) a j = (w j1 x 1 + w j2 x 2 +.. + w ji x i +.. + w ji x I ) = x i w ji w ji

Dowód poprawno±ci warstwa wejściowa x1 x2 warstwa ukryta y1 y2 warstwa wyjściowa z1 a j = w t j x y j = φ(a j ) b k = w t k y xi yj zk x0=1 (próg) y0=1 (próg) δ j = E a j = a j 1 2 K (φ(b k ) t k ) 2 = k=1 δ j = K k=1 E k b k b k a j K k=1 a j 1 2 (φ(b k) t k ) 2 = = δ k b k a j K k=1 E k a j

Dowód poprawno±ci b k = (w k1 y 1 + w k2 y 2 +.. + w kj y j +.. + w kj y J ) = a j a j a j (w k1 φ(a 1 ) + w k2 φ(a 2 ) +.. + w kj φ(a j ) +.. + w kj φ(a J )) = δ j = w kj φ(a j ) a j = w kj φ (a j ) K K δ k w kj φ (a j ) = ( δ k w kj )φ (a j ) k=1 k=1

1 Wybieramy maªe wagi pocz tkowe. Wybieramy te» niewielki wspóªczynnik uczenia si η > 0, 2 Iterujemy póki bª d ERROR si zmniejsza (ewentualne du»e odchylenia pojedynczych przykªadów nale»y traktowa raczej jako przejaw zaszumienia danych wej±ciowych ni» niedoskonaªo±ci sieci) 1 losujemy przykªad x z wyj±ciem t, 2 przebiegamy sie w przód, dla ka»dej jednostki zapami tuj c sum wej±ciow i jej wyj±cie (warto± funkcji aktywuj cej na sumie wej±ciowej) 3 przebiegamy sie w tyª, liczymy δ dla ka»dej jednostki 4 zmieniamy wagi

Adnotacja do 2.2 Przebiegamy sie w przód, dla ka»dej jednostki zapami tuj c sum wej±ciow i jej wyj±cie. Suma wej±ciowa ma warto± : a j = w (t) x (b j k = w (t) y) k Wyj±cie jednostki, warto± funkcji aktywuj cej: y j = φ(a j ) (z j = φ(b k ))

Adnotacja do 2.3 - Przebiegamy sie w tyª, liczymy δ dla ka»dej jednostki. δ dla jednostek wyj±ciowych δ dla jednostek ukrytych δ k = (z k t k )φ (b k ) K δ j = ( δ k w kj )φ (a j ) k=1

Adnotacja do 2.3 Przebiegamy si w tyª, liczymy δ dla ka»dej jednostki. Pami tajmy»e φ (a j ) = y j (1 y j ) (φ (b k ) = z j (1 z j )) dla Zatem φ(s) = σ(s) = 1 1 + exp( s) δ k = (z k t k )φ (b k ) = δ k = (z k t k )z j (1 z j ) K K δ j = ( δ k w kj )φ (a j ) = ( δ k w kj )y j (1 y j ) k=1 k=1

Uwaga. u»ywana we wsteczniej propagacji bª du mo»e mie, a nawet powinna mie wi cej ni» jedn warstw ukryt. δ dla wszystkich jednostek z warstw ukrytych jest liczona w taki sam sposób. Musimy pami ta o tym,»e najpierw liczymy δ dla jednostek z ostatniej warstwy ukrytej, potem dla jednostek z przedostatniej warstwy ukrytej, potem dla jednostek z przed przedostatniej warstwy ukytej itd.

Adnotacja do 2.4 zmieniamy wagi w (m+1) kj = w (m) ηδ kj k y j (w (m+1) = w (m) ηδ ji ji j x i ) Staªa uczenia η powinna mie dodatni warto± blisk zeru np. η = 0.001.

Minima lokalne Problemy ze zbie»no±ci Modykacje algorytmu Normalizacja danych Algorytm spadku gradientowego mo»e przy niesprzyjaj cych okoliczno±ciach utkn w minimum lokalnym. Co gorsza, zazwyczaj nie jeste±my w stanie stwierdzi, czy zwrócony wynik jest minimum globalnym, czy lokalnym. W takich sytuacjach najprostszym (i jednym z najlepszych) rozwi zaniem jest restart algorytmu z losowego rozwi zania pocz tkowego i wybranie najlepszego ze zwróconych wyników.

Wady algorytmu Problemy ze zbie»no±ci Modykacje algorytmu Normalizacja danych wymaga du»ej liczby iteracji, by osi gn zbie»no±, mo»e si okaza zbyt wolny, je»eli przyjmie si za maªy wspóªczynnik uczenia, z kolei zbyt du»a warto± η grozi wyst pieniem oscylacji oraz wokóª minimum, algorytm jest wra»liwy na wyst powanie minimów lokalnych. Jak sobie z tym poradzi? Czy mo»na sobie z tymi problemami poradzi efektywnie?

Problemy ze zbie»no±ci Modykacje algorytmu Normalizacja danych Adaptacyjny dobór wspóªczynnika uczenia Dzi ki odpowiednim modykacjom wspóªczynnika uczenia mo»emy przy±pieszy nauk sieci i poprawi jej zbie»no±. { η (m+1) iη = (m) ERROR (m+1) p ERROR (m) ERROR (m+1) > p ERROR (m) gdzie: dη (m) p dopuszczalny wspóªczynnik wzrostu bª du (np. p = 1.05) i wspóªczynnik zwi kszania warto±ci, i 1 (np. i = 1.2) d wspóªczynnik zmniejszania warto±ci, d < 1 (np. d = 0.2)

Metoda momentu Problemy ze zbie»no±ci Modykacje algorytmu Normalizacja danych Do procesu uaktualniania wag wprowadza si tzw. moment (p d, bezwªadno± ), który jest proporcjonalny do zmiany tej wagi w poprzedniej iteracji. w (m+1) ji = w (m) ji ηδ j x i + α w (m) ji w (m+1) kj = w (m) kj ηδ k y j + α w (m) kj w (m) ji w (m) kj = w (m) ji = w (m) kj α [0, 1), sugerowana warto± 0.1 w (m 1) ji w (m 1) kj

Metoda momentu Problemy ze zbie»no±ci Modykacje algorytmu Normalizacja danych Skªadnik momentu nie powinien jednak caªkowicie zdominowa procesu uczenia, poniewa» grozi to niestabilno±ci procesu uczenia. Aby zapobiec temu kontroluje si warto± funkcji bª du w trakcie uczenia, doprowadzaj c do jej wzrostu jedynie w ograniczonym zakresie np. o p procent. Je±li w kolejnych iteracjach jest speªniona relacja ERROR (m+1) < (1 + 0.01p)ERROR (m), to krok jest akceptowany i nast puje aktualizacja wag. W przeciwnym razie zmiany s pomijane i przyjmuje si w (m+1) = 0. W takim przypadku skªadnik gradientowy odzyskuje przewag nad skªadnikiem momentu i proces uczenia przebiega zgodnie z kierunkiem minimalizacji wyznaczonym przez aktualny wektor gradientu.

Jak dziaªa metoda momentu? Problemy ze zbie»no±ci Modykacje algorytmu Normalizacja danych dla pªaskich odcinków funkcji bª du moment i gradient maj ten sam kierunek, ich dziaªanie kumuluje si i algoryt przy±piesza, dla α = 0.9 krok na takim odcinku mo»e by 10 razy dªu»szy, w pobli»u minimum skªadnik momentu, nie b d c zwi zany z aktualn warto±ci gradientu, mo»e spowodowa zmian wag prowadz c do chwilowego wzrostu warto±ci funkcji bª du i w efekcie opuszczenia strefy przyci gania tego minimum, gdy wystepuj w wozy, to moment zapobiega oscylacjom,

W wóz Problemy ze zbie»no±ci Modykacje algorytmu Normalizacja danych 1 0.8 0.6 6 0.4 4 0.2 0 2 0-6 -4-2 0 2 4-2 -4 6-6

Normalizacja danych Problemy ze zbie»no±ci Modykacje algorytmu Normalizacja danych Korzystaj c z sieci neuronowej typu MLP wyposa»onej w sigmoidalne funkcje aktywacji koniecznie staje si przeprowadzenie skalowania lub standaryzacji danych podawanych na wej±ciach i wyj±ciu sieci. Brak odpowiedniej transformacji powoduje powa»ne zakªócenia w procesie uczenia oraz gorsze wªa±ciwo±ci nauczonej sieci.

Normalizacja danych Problemy ze zbie»no±ci Modykacje algorytmu Normalizacja danych Oczekiwane warto±ci wyj± nie powinny przyjmowa kresów górnego ani dolnego funkcji aktywacji, to jest warto±ci 1 i 0 odpowiednio. Przykªadowo dla sigmoidy mo»e by to przedziaª [0.1; 0.9] [0; 1]. Odpowiednio dla sigmoidy symetrycznej np. [ 0.9; 0.9]. Dla wej± nie ma tak ±cisªych ogranicze«, mog by skalowane do takich samych warto±ci co wej±cia. Wa»ne»eby byªy bliskie zeru i miaªy maª amplitud.

Normalizacja danych Problemy ze zbie»no±ci Modykacje algorytmu Normalizacja danych Dlaczego skalujemy do przedziaªu np. [0.1; 0.9] a nie (0; 1) (dla sigmoidy niesymetrycznej)? Zaªó»my»e mamy dwie zmienne v 1 i v 2. Obie s do± du»e i maj taki sam znak, np. v 1 = 10 v 2 = 5. Mimo tego,»e ró»nica mi dzy nimi jest znaczna (50%), gdy policzymy dla nich σ(v 1 ) = 0.99995 oraz σ(v 2 ) = 0.99331 otrzymamy wyniki bardzo bliskie sobie (ró»nica rz du 0.7%). Z drugiej strony pochodna sigmoidy w x = 5 oraz x = 10 b dzie bardzo maªa, zatem i zmiana wag równie» maªa, co wydªu»y dziaªanie algorytmu.

Normalizacja danych Problemy ze zbie»no±ci Modykacje algorytmu Normalizacja danych Wyst powanie du»ych ró»nic w zakresach warto±ci przyjmowanych przez zmienne mo»e ¹le wpªywa na dziaªanie neuronu, zaburzaj c wpªyw poszczególnych wej±. Sieci uczone w oparciu o opisywane zmienne s równie» bardziej podatne na utkwienie w minimach lokalnych. Du»e warto±ci zmiennych wej±ciowych prowadz tak»e do nasycenia sigmoidalnej funkcji aktywacji, której pochodna w takim przypadku zbiega si do warto±ci 0, blokuj c tym samym proces uczenia.

Sigmoida i jej pochodna Problemy ze zbie»no±ci Modykacje algorytmu Normalizacja danych 5 f(x)=x sigm. poch. sigm. 4 3 2 1 0-4 -2 0 2 4