Sici nuronow - uczni http://zajcia.jakubw.pl/nai/ Prcptron - przypomnini x x x n w w w n wi xi θ y w p. p. y
Uczni prcptronu Przykład: rozpoznawani znaków 36 wjść Wyjści:, jśli na wjściu pojawia się litra A, zaś w p.p. Siatka 6 6 Zadani: dobrać wagi wjść i wartość progową tak, by uzyskać zaplanowany kt Dan tstow Dan trningow (znan odpowidzi) Dobór wag (uczni) Odpowidź Wjści: Uczni prcptronu Ciąg przykładów uczących z znanymi odpowidziami Procs ucznia: Inicjujmy wagi losowo Dla każdgo przykładu, jśli odpowidź jst niprawidłowa, to w + α x w + α x [w,w ] w x + w x -θ θ α gdzi α jst równ różnicy między odpowidzią prawidłową a otrzymaną.
Uczni prcptronu Często α mnoży się dodatkowo przz niwilki współczynnik ucznia Po wyczrpaniu przykładów, zaczynamy procs ucznia od początku, dopóki następują jakikolwik zmiany wag połączń Próg θ można traktować jako wagę dodatkowgo wjścia o wartości -: (zawsz -) x 3 θ 3 (θ ) x -4 x x -4 Uczni prcptronu Opisany schmat jst w miarę przjrzysty tylko dla pojdynczych prcptronów, lub niwilkich sici Ciężko jst stosować rguły tgo typu dla skomplikowanych modli Tymczasm np. do rozpoznawania wszystkich litr potrzba by sici złożonj z 6 takich prcptronów 3
Sici prcptronów Dndrits Nods Synapss + + + - - Axon Synapss (wights) Ogranicznia pojdynczych prcptronów spowodowały w latach 8-tych wzrost zaintrsowania siciami wilowarstwowymi i opracowani algorytmu ich ucznia (propagacja wstczna) SIECI WIELOWARSTWOWE Wyjścia nuronów nalżących do warstwy niższj połączon są z wjściami nuronów nalżących do warstwy wyższj np. mtodą każdy z każdym Działani sici polga na liczniu odpowidzi nuronów w koljnych warstwach Ni jst znana ogólna mtoda projktowania optymalnj architktury sici nuronowj 4
SIECI PERCEPTRONÓW Potraią rprzntować dowolną unkcję boolowską (opartą na rachunku zdań) p θ - θ p XOR q q Funkcj aktywacji Progow ( s) s s<,,8,6,4, -5 - -5 5 5 -,,,8,6,4, -5 - -5 5 5 Sigmoidaln ( s) s + 5
FUNKCJE AKTYWACJI () Unipolarn ( s) s +,,8,6,4, -5 - -5 5 5,5 Bipolarn,5-5 - -5 5 5 -,5 - + ( s) s -,5 FUNKCJE AKTYWACJI (3),,8,6,4, -5 - -5 5 5 α ( s) α s + α. α. α.5 lim α α ( s).5 lim ( s) α + α.5 s> s s< 6
FUNKCJE AKTYWACJI (4),,8,6 θ, α + ( s) α( s θ) θ α.5,4, - -5 5 5 FUNKCJE AKTYWACJI (5) Zasady ogóln: Ciągłość (zachowani stabilności sici jako modlu rzczywistgo) Różniczkowalność (zastosowani propagacji wstcznj) Monotoniczność (intuicj związan z aktywacją komórk nuronowych) Niliniowość (możliwości ksprsji) 7
SIECI NEURONOWE Potraią modlować (dowolni dokładni przybliżać) unkcj rzczywist (z tw. Kołmogorowa) n y w+ w i x i i Σ ( s) s + unkcja aktywacji SIECI NEURONOWE.3..4.4 - -. -. Σ 8
SIECI NEURONOWE -.4 -.8 -.7 -.5 -.. -.5.3 -.4 -.8.9 -. -.4 -.4..9 SIECI JAKO FUNKCJE ZŁOŻONE () x x v v v v w w g y y g( w ( vx+ vx) + w ( vx+ vx) ) yntwork ( x, x ) 9
SIECI JAKO FUNKCJE ZŁOŻONE () x x 3-7 5 4-3 g y 4 3 + y 4 3 + 3 + 3 + ( 5x 7x ) ( 3x + x ) ( 5x 7x ) ( 3x + x ) 8 < 8 SIECI JAKO FUNKCJE ZŁOŻONE (3) x x v v v v w w g y Ntwork(x,x) Jśli wszystki poszczgóln unkcj aktywacji są liniow, to unkcja Ntwork jst równiż liniowa Architktura wilowarstwowa daj zatm now możliwości tylko w przypadku stosowania unkcji niliniowych
SIECI JAKO FUNKCJE ZŁOŻONE przypadk liniowy x x v v v v Nich i (x,x) a i *(x*v i + x*v i ) + b i g(z,z) a*(z*w + z*w) + b Wtdy Ntwork(x,x) A*x + A*x + B Np.: A a*(a*v*w + a*v*w) w w g y PROPAGACJA WSTECZNA () Chcmy wytrnować wagi połączń między koljnymi warstwami nuronów Inicjujmy wagi losowo (na mał wartości) Dla dango wktora uczącgo obliczamy odpowidź sici (warstwa po warstwi) Każdy nuron wyjściowy oblicza swój błąd, odnoszący się do różnicy pomiędzy obliczoną odpowidzią y oraz poprawną odpowidzią t
PROPAGACJA WSTECZNA () dan ucząc odpowidź sici y błąd d właściwa odpowidź t Błąd sici diniowany jst zazwyczaj jako d ( y t) PROPAGACJA WSTECZNA (3) Oznaczmy przz: : R R unkcję aktywacji w nuroni w,..., w K wagi połączń wchodzących z,..., z K sygnały napływając do nuronu z poprzdnij warstwy Błąd nuronu traktujmy jako unkcję wag połączń do nigo prowadzących: d( w ) ( ( ) ),..., wk w z+... + wk zk t
PRZYKŁAD () Rozpatrzmy modl, w którym: Funkcja aktywacji przyjmuj postać + ( s) 3 s+ ( ) Wktor wag połączń [;-3;] Załóżmy, ż dla dango przykładu: Odpowidź powinna wynosić t.5 Z poprzdnij warstwy dochodzą sygnały [;;.3] PRZYKŁAD () Liczymy wjściową sumę ważoną: s w x+ wx+ w3x3 + ( 3) +.3.4 Liczymy odpowidź nuronu: y s) + + ( 3 + Błąd wynosi: d ( ). 3.4. (.3.5). 36 3
IDEA ROZKŁADU BŁĘDU Musimy rozłożyć otrzymany błąd na połącznia wprowadzając sygnały do dango nuronu Składową błędu dla każdgo j-tgo połącznia okrślamy jako pochodną cząstkową błędu względm j-tj wagi Składowych tych będzimy mogli użyć do zmodyikowania ustawiń poszczgólnych wag połączń IDEA ROZKŁADU BŁĘDU Załóżmy, ż mamy nuron z wagami w, w, w 3. Mamy dan wktor wjściowy: [.3,.7], przy czym oczkiwana odpowidź to t. Jak nalży zminić wagi, aby błąd był jak najmnijszy? Możmy błąd przdstawić jako unkcję w, w : x w y w x n y w+ w i x i ( s) s + i.4. -4 błąd - Wagi powinniśmy zminić w kirunku spadku wartości błędu. 4-4 wagi - 4 wartość błędu dla wag [, 3] 4
KIERUNEK ZMIANY WAG Jśli rozważymy większą liczbę przykładów, unkcja śrdnigo błędu będzi miała bardzij skomplikowany kształt. [.3,.7], t [.,.9], t. [-.6, ], t.5 [, -.8], t.5.75.5 5 [.6, ], t.3.5 - -5-5 5-5 - - -8-6 -4-4 5 - Nachylni wykrsu w danym punkci (odpowiadającym aktualnym wartościom wag) dan jst przz gradint, czyli wktor pochodnych cząstkowych. Zmiana wag powinna nastąpić w kirunku przciwnym. OBLICZANIE POCHODNEJ ( w wk) d,..., w j ( y t) '( s) z j ( ( w z + + w z ) t) ( y t) ( s) ( w z +... + w z ) y... w j s K K w j K K 5
Ida: PROPAGACJA WSTECZNA Wktor wag połączń powinniśmy przsunąć w kirunku przciwnym do wktora gradintu błędu (z pwnym współczynnikim ucznia η) Możmy to zrobić po każdym przykładzi uczącym, albo sumując zmiany po kilku przykładach. Ralizacja: w j η ( t y) '( s) z j Prosty przykład: wagi w, w, dan wjściow: [.5,.5], t. Funkcja sigmoidalna: ( s) więc: ( s ) s + s ( + ) Stąd: s.5 +.5, y.73, zmiana w (-.73) *.9 *.5.6. A więc now wagi to.6. Tn sam przykład da tym razm odpowidź y.736. s błąd δ PROPAGACJA WSTECZNA Błędy są następni propagowan w kirunku poprzdnich warstw. Wprowadźmy pomocniczo współczynnik błęduδzdiniowany dla ostatnij warstwy jako: w w błąd δ błąd δ δ ( s) ( t y) a dla pozostałych warstw: n w i i δ ( s) δ czyli nuron w warstwi ukrytj zbira błąd z nuronów, z którymi jst połączony. Zmiana wag połączń następuj po azi propagacji błędu i odbywa się wdług wzoru: w η δ z Oznacznia: w - waga wjścia nuronu, z - sygnał wchodzący do nuronu danym wjścim, δ - współczynnik błędu obliczony dla dango nuronu, s - wartość wzbudznia (suma wartości wjściowych pomnożonych przz wagi) dla dango nuronu. i 6