Neuron liniowy. Najprostsza sieć warstwa elementów liniowych

Najprostsza jest jednostka lnowa: Neuron lnowy potraf ona rozpoznawać wektor wejścowy X = (x 1, x 2,..., x n ) T zapamętany we współczynnkach wagowych W = (w 1, w 2,..., w n ), Zauważmy, że y = W X Załóżmy, że wektor wejścowy wektor wag są znormalzowane X = 1 W = 1 wówczas wdać, że y = cos(φ) x 1 w 1 x 2 w 2. y.. x n w n Sec neuropodobne II, sec lnowe 2 Najprostsza seć warstwa elementów lnowych y 1 y 2 y k w (1) 1, w(1) 2,..., w(1) n w (2) 1, w(2) 2,..., w(2) n... w (k) 1, w(k) 2,..., w(k) n x 1 x 2... x n warstwa zawera k neuronów każdy neuron ma ten sam zestaw sygnałów wejścowych X = (x 1, x 2,..., x n ) T każdy neuron ma swój własny wektor wag W (m) = (w (m) 1, w (m) 2,..., w (m) wyjśce m-tego elementu można zapsać: y (m) = W (m) X = Na dzałane tej sec można patrzeć jak na: Grandmother Cell fltr lnowy n =1 w (m) x n )

Warstwa elementów lnowych realzuje odwzorowane lnowe Wyjśce sec zberzemy w wektor Y = (y 1, y 2,..., y k ) T w (1) 1 w (1) 2... w n (1) w (2) 1 w (2) 2... w (2) n Z wektorów wag zbudujemy macerz k n] W =... w (k) 1 w (k) 2... w n (k) Wdać, że Y = W X, czyl nasza warstwa dokonuje pewnego przekształcena lnowego X R n w Y R k zadanego macerzą W. Problem: jak znaleźć macerz W dla konkretnego odwzorowana? Sec neuropodobne II, sec lnowe 4 Uczene pojedynczego neuronu reguła delta Reguła delta jest przykładem uczena z nauczycelem. Zamast znajdować macerz W od razu można ją znaleźć teracyjne w procese uczena sec. Jeśl dla każdego wektora wejścowego X umemy podać porządaną wartość wyjśca neuronu z, to możemy oblczyć błąd jak ten neuron popełnł: δ = z y Okazuje se, że aby neuron lepej realzował nasze odwzorowane, należy skorygować jego wag w następujący sposób: Dlaczego? W = W + ηδx Dlaczego dodawać fragment wejśca X do wektora wag W? dlaczego δ? dlaczego η

Dowód zbeżnośc reguły delta (1) W procese uczena posługujemy sę cagem par {(X (j), z (j) )} j=1,..n opsującym wejśce rządane wyjśce sec. W j tym kroku seć popełna błąd δ (j) = z (j) y (j) gdze y (j) = W (j) X (j). Celem uczena jest jak najlepsze odtwarzane przez seć cągu uczącego w sense najmnejszych kwadratów, czyl mnmalzacja funkcj: Q = 1 N ( δ (j)) 2 1 N = (z (j) y (j)) 2 N = Q (j) 2 2 j=1 j=1 gdze wprowadzlśmy: Q (j) = 1 2 ( z (j) y (j)) 2 j=1 Sec neuropodobne II, sec lnowe 6 Dowód zbeżnośc reguły delta (2) Poneważ Q = Q(W ) węc w j tym kroku uczena musmy zmenać tą składową wektora wag w kerunku przecwnym do gradentu Q: w (j+1) w (j) = w (j) = Q(j) w = Q(j) y (j) = δ (j) x (j) y (j) w {}}{{}}{ Q (j) ( y = z (j) y (j)) = δ (j) y (j) = x (j) (j) w ostateczne: w (j) = δ (j) x (j) Poneważ Q jest unmodalną parabolodą elptyczną, węc ma jedno mnmum, a węc procedura mnmalzacj gradentowej jest zbeżna. Poneważ cąg uczący jest stochastyczny, węc dla zapewnena płynnejszej zbeżnośc szybkość zmany wektora wag jest kontrolowana przez parametr 0 < η < 1: w (j) = ηδ (j) x (j) Z powodów praktycznych stotne jest aby,j w (0) w (0) j. Dla lnowego odwzorowana y = f(x) mamy zagwarantowane, że znajdzemy W zapewnające dokładne dopasowane, zaś dla f nelnowego osągnemy najlepsze dopasowane w sense mnmum błędu średnokwadratowego.

Reguła delta: uwag Jak wpływa dobór cągu uczącego na to, czego seć sę nauczyła? Jeśl cąg uczący rozpna przestrzeń możlwych wejść, to seć dąży do globalnego mnmum. Jeśl w przestrzen możlwych wejść stneje podprzestrzeń ortogonalna do podprzestrzen wzorców w cągu uczącym, to seć dąży do mnmum parabolcznej rynny. Jak szybka jest zbeżność od czego zależy? Kolejne trajektore dla: η = 0.2, η = 0.0476, η = 0.049, η = 0.0505. Powerzchna: E = x 2 + 20y 2 Sec neuropodobne II, sec lnowe 8 Uczene sec elementów lnowych Reguła delta przenos sę w naturalny sposób na seć elementów lnowych w postac warstwy: w cągu uczącym {(X (j), Z (j) )} j=1,..n zamast wartośc z podajemy wektor wartośc porządanych Z zamast modyfkować wektor wag, modyfkujemy macerz wag W W (j+1) k = W (j) k + η (Z (j) Y (j)) ( X (j)) T Sec lnowe MADALINE (Many Adaptve Lnear Elements) z tym algorytmem uczena, są wykorzystywane jako fltry adaptacyjne np.: do tłumena echa w lnach telefoncznych do poprawana stosunku sygnału do szumu

Uczene bez nauczycela Reguła Hebba: Wzmocnenu ulegają te wag w (m)(j) wejśca x (j) jest duża podczas gdy neuron jest pobudzony ( y (j) m, dla których wartość jest duże): = w (m)(j) + ηx (j) y m (j) gdze: m numer neuronu, j numer kroku uczena, numer wejśca neuronu y (j) m = n =1 w (m)(j) x (j) Dlaczego ta reguła dzała? Jeśl w chwl początkowej, któryś neuron mał zestaw wag zblżony do prezentowanego sygnału to w następnych pokazach tego samego sygnału rozpoznawane go przez ten neuron będze coraz slnejsze. Seć tak uczona zaczyna klasyfkować sygnały. Ogranczena: przebeg uczena zależy od wartośc początkowych wag ne ma gwarancj, że jednej klase wzorców będze odpowadał jeden neuron ne ma gwarancj, że wszystke klasy wzorców będą mały oddzelne reprezentacje w postac oddzelnych zborów neuronów. Sec neuropodobne II, sec lnowe 10 Modyfkacje reguły Hebba przyrostowa reguła Hebba uzależnamy proces zmany wag od zman wartośc wejśca wyjśca w kolejnych krokach uczena: ] = w (m)(j) + η (x (j) x (j 1) )(y m (j) y m (j 1) ) gwazda wejść (Grossberg 1974: Instar tranng): w każdym kroku, uczenu rozpoznawana beżącego bodźca podlega tylko jeden wybrany neuron: = w (m)(j) przy czym z praktyk η = 0.1 λj wele nnych + η (j) (x (j) w (m)(j) )

Uczene z forsowanem Technk uczena bez nauczycela można zaadaptować do przypadku kedy znana jest porządana odpowedź. Pomysł sprowadza sę do podstawena w mejsce prawdzwej odpowedz sec y porządanych wartośc z: metoda Hebba: = w (m)(j) + ηx (j) z m (j) przyrostowa metoda Hebba: = w (m)(j) + η (x (j) ] x (j 1) )(z m (j) z(j 1) m ) Sec neuropodobne II, sec lnowe 12 Przekonajmy sę, że reguła Hebba z forsowanem dzała: Dla całej warstwy reguła ta wygląda tak: W (m)(j+1) = W (m)(j) + ηz (j) X (j)] T Efekt uczena: W = N j=1 ηz(j) X (j)] T + W (1) Nech W (1) = 0 oraz 1. wektory w cągu uczącym są ortonormalne ] { j X (j) T X (m) = wtedy po prezentacj bodźca X (m) seć odpowe: Y = W X (m) = N j=1 ηz(j) X (j)] T X (m) = ηz (j) 2. wektory w cągu uczącym są skrajne skorelowane tzn: X (j) = X + ɛ (j), a porządana odpowedź sec jest stale Z, wówczas: W = N j=1 ηz(j) X (j)] T N = j=1 ηz(j) X + ɛ (j)] T = ( ηz NX T + N ] ) j=1 ɛ (j) T tzn: seć tworzy reprezentację uśrednonego wzorca. W rzeczywstych sytuacjach oba efekty występują równocześne. Empryczne szacowana pojemność sec k elementowej jest N max k 2logk 1 dla j = m 0 dla j m

kontrolowane wartośc η (j) Przyspeszane uczena dodane składnka bezwładnośc: W (j+1) = W (j) + η 1 ( Z (j) Y (j)) X (j)] T + η2 M (j) gdze M (j) = W (j) W (j 1) wygładzane wykładncze: W (j+1) = W (j) + η 1 (1 η 2 ) ( Z (j) Y (j)) X (j)] T + η2 M (j) ] technka kumulowana błędów: zbór uczący dzel sę na podzbory o pewnej długośc η 3 (30 η 3 50) numerowanych ndeksam j = 0,...P skumulowany błąd: S (j ) = η 3(j +1) j=η 3j +1 η 1 ( Z (j) Y (j)) X (j)] T używając tej welkośc modyfkuje sę wag: W (j +1) = W (j ) + S (j ) ta korekta wag występuje w co η 3 kroku uczena. Ne ma teor mówącej, jak doberać parametry η 1, η 2. Zwykle uczene rozpoczyna sę od dużych wartośc, stopnowo je redukując. Sec neuropodobne II, sec lnowe 14 Uczene z rywalzacją: sec Kohonena Uczene na perwszy rzut oka wygląda dentyczne z nstar, uczenu w danym kroku podlega tylko jeden neuron: w (m )(j+1) ale są dwe zasadncze różnce: = w (m )(j) + η (j) ( x (j) w (m )(j) ) wektor wejścowy mus być znormalzowany: X = 1 neuron podlegający uczenu w danym kroku ne jest wyberany dowolne, lecz jest to ten ( m ), który dla danego bodźca produkuje najwększe wyjśce y (j) m = max m y m (j) Co nam dają te warunk? normalzacja najwększa wartość wyjśca sec dla neuronu m : y m = N ) =1 w(m x zapewna to, że wektor wag tego neuronu znajduje sę najblżej wektora bodźca na sferze jednostkowej. uczene neuronu m szybkość nauk. zbeżność do klastrów jeśl w zborze uczącym występują jakeś klastry, to wektory wag są modyfkowane w ten sposób, że dążą do wartośc średnch w klastrach, przy czym my ne musmy wedzeć a por o stnenu tych klastrów.

Sąsedztwo Neurony w tej sec mogą być uporządkowane. Można węc mówć o relacj sąsedztwa. Rozszerzenem orygnalnej koncepcj Kohonena jest uczene ne tylko jednego wygrywającego neuronu, lecz także jego sąsadów. = w (m)(j) Pojęce sąsedztwa może być różne np.: h(m, m ) = + η (j) h(m, m )( x (j) w (m)(j) ) 1 ρ(m, m ) albo h(m, m ) = exp( ρ(m, m ) 2 ) Szczególne cekawe efekty daje węcej nż jedno-wymarowe sąsedztwo: sec Kohonena mają własność odwzorowywana topografcznych własnośc zboru uczącego w przestrzen wag swoch neuronów. 4 1 2 3 w 1 1 5 4 5 6 2 3 6.D 2 w 2 w 1.B.C w 1 1 3.E.F.A 4 6 5 w 2 w 2 Sec neuropodobne II, sec lnowe 16 Ogranczena sec elementów lnowych seć może jedyne realzować lnowe odwzorowana X Y w odróżnenu od sec nelnowych, lnowe sec welowarstwowe ne mają sensu, bo złożene operacj lnowych da nam tak operację lnową