Sieci neuronowe: perspektywa systemowa

Sieci neuronowe: perspektywa systemowa 1 Co to są sieci neuronowe 2 Standardowe elementy sieci neuronowych 3 Zagadnieniaklasyfikacji 4 PerceptronRosenblatta 5 Maszyny wektorów podpierających 6 Adaline 7 Zagadnienia aproksymacji funkcji 8 Techniki minimalizacji a sieci neuronowe 9 Propagacja zwrotna gradientu 10 Propagacja zwrotna w perceptronie wielowarstwowym 11 Jakość aproksymacji funkcji 12 Zjawiska dynamiczne w sieciach 13 Modele NARX układów nieliniowych 14 Optymalizacja globalna i pamięci asocjacyjne 13 czerwca 2005.

1.Cotosąsiecineuronowe 1-1 Bio-modelowanie 1-2 Badania inspirowane przez bio-modelowanie 1-3 Sieci neuronowe- zgrubna charakterystyka 1-4 Kamienie milowe rozwoju sieci neuronowych 1-5 Zastosowania sieci neuronowych Bibliografia [0-1] James A. Anderson and Edward Rosenfeld(Eds.) Neurocomputing. Foundations of Research, MIT Press, Cambridge, Massachusetts 1988 [0-2] W.S. McCulloch and W.H. Pitts, A logical calculus of the ideas immanent in nervous activity, Bull. Math. Biophysics, vol. 5, 115 133, 1943 [0-3] J.J. Hopfield, Neural networks and physical systems with emergent collective computational abilities, Proc. of the National Acad. of Sciences of the USA, vol. 79, 2554 2558, 1982 13 czerwca 2005 1. Co to są sieci neuronowe 1-0

[0-4] J.J. Hopfield, Neurons with graded response have collective computational properties like those of two-state neurons, Proc. of the National Acad. of Sciences of the U.S.A., vol. 81, 3088-3092, 1984 [0-5] M.L. Minsky and S.A. Papert, Perceptrons, MIT Press, Cambridge, Ma., 1969; Expanded Edition, MIT Press, Cambridge, Ma., 1988 [0-6] F. Rosenblatt, The perceptron: a probabilistic model for information storage and organization in the brain, Psychological Review, vol. 65, No. 6, pp. 386 408, 1958. Reprinted in[0-1], Ch. 8, pp. 89-114, 1988 [0-7] F. Rosenblatt, Principles of Neurodynamics, Spartan Books, Washington, D.C., 1962 [0-8] D.E. Rumelhart, G.E. Hinton, and R.J. Williams, Learning internal representations by error propagation, in Parallel Distributed Processing, D.E. Rumelhart and J.L. McClelland, Eds., vol. 1, Chap. 8, MIT Press, Cambridge, Ma., 1986 [0-9] P. Werbos, The Roots of Backpropagation: From Ordered Derivatives to Neural Networks and Political Forecasting, Wiley, New York 1994 [0-10] B. Widrow and M.E. Hoff, Adaptive switching circuits, 1960 IRE WESCON Convention Record, vol. 4, pp. 96 104, 1960 13 czerwca 2005 1. Co to są sieci neuronowe 1-0

Bio-modelowanie Cele: poznawcze Zastosowania: biologia, medycyna, farmacja, psychologia 13 czerwca 2005 1. Co to są sieci neuronowe 1-1

Badania inspirowane przez bio-modelowanie Cele: specyficzne dla dziedziny zastosowań(nie-biologiczne) Modyfikacja modeli biologicznych; wyniki nie kopiują biologii Potrzeba ponawiania inspiracji biologicznych 13 czerwca 2005 1. Co to są sieci neuronowe 1-2

Sieci neuronowe- zgrubna charakterystyka Modularność Równoległość Nieliniowość Adaptacja do zmian środowiska Tolerancja na uszkodzenia(stopniowa utrata jakości) Nadmiar parametrów Własności aproksymacyjne 13 czerwca 2005 1. Co to są sieci neuronowe 1-3

Kamienie milowe rozwoju sieci neuronowych McCullochiPitts1943 modelneuronuy(t+1)=1(w T u ϑ) Rosenblatt 1958(Cornell U., Ithaca, NY) perceptron Widrow 1960(Stanford U., Stanford, CA) Adaline Minsky 1969(MIT, Cambridge, MA) perceptron + sztuczna inteligencja dekada spokoju Kohonen 1972(Helsinki U. of Techn.) liniowa pamięć asocjacyjna Werbos 1974(Harvard U. Ph.D., Cambridge, MA) propagacja zwrotna Grossberg 1983(Boston U., Boston, MA) stabilność sieci dynamicznych Hopfield 1982(Princeton U., Princeton, NJ) pamięć stabilność sieci Rummelhart, Hinton, Williams 1986(grupa PDP, MIT, Cambridge, MA) uczenie sieci poprzez propagację zwrotną 13 czerwca 2005 1. Co to są sieci neuronowe 1-4

Zastosowania sieci neuronowych Filtracja adaptacyjna, DSP Prognozowanie Klasyfikacja i rozpoznawanie(mowa, pismo) Biometria Wojskowość: rozpoznanie, identyfikacja celu Sterowanie, robotyka, systemy eksperckie, decyzyjne Ekonomia, Zarządzanie Fizyka, Astronomia Biologia(modelowanie DNA) Telekomunikacja Przemysł 13 czerwca 2005 1. Co to są sieci neuronowe 1-5

2. Standardowe elementy sieci neuronowych 2-1 Neuron 2-2 Funkcje aktywacji 2-3 Warstwa 2-4 Perceptron wielowarstwowy 2-5 Sieć bez sprzężeń 2-6 Sygnały 2-7 Adaptacja wag 13 czerwca 2005 2. Standardowe elementy sieci neuronowych 2-0

Neuron afiniczna transformacja wejścia u n z=b+ w i u i =b+w T u i=1 wagiw=[w 1 w n ] T obciążenieb,prógϑ= b równanie neuronu ( n y=g b+ w i u i )=g(b+w T u) i=1 funkcjaaktywacjig: R R obciążenie jako waga wagirozszerzoneowagęw 0 =b wejściarozszerzoneowejścieu 0 =1 ( n y=g w i u i )=g(w T u) i=0 13 czerwca 2005 2. Standardowe elementy sieci neuronowych 2-1

Funkcje aktywacji dyskretne f. aktywacji( twarde nieliniowości): f. znaku, f. skokowa ciągłe f. aktywacji(miękkie nieliniowości): f. sigmoidalne, sigmoid, f. gaussowska 5 1 4.5 0.8 4 3.5 0.6 3 2.5 0.4 2 1.5 0.2 1 0 2 1.5 1 0.5 0 0.5 1 1.5 2 sigmoid 0.5 0 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 funkcje radialne gaussowskie 13 czerwca 2005 2. Standardowe elementy sieci neuronowych 2-2

Warstwa struktura warstwy y 1 g 1 (z 1 ) y=. =g(b+wu), g(z)=. y m g m (z m ) b 1 w1 T w 1,1 w 1,n. b=., W=. =... b m w m,1 w m,n w T m zapis rozszerzony y=g(wu), u= 1, W=[b W]= u b 1 w1 T. b m w T m 13 czerwca 2005 2. Standardowe elementy sieci neuronowych 2-3

Perceptron wielowarstwowy warstwy ukryte warstwawyjściowa u (1) =u, u (k) =y (k 1), k=2,...,l y (k) =N (k) (u (k) ), k=1,...,l y=y (L) 13 czerwca 2005 2. Standardowe elementy sieci neuronowych 2-4

Sieć bez sprzężeń u (1) =u, u (k) = u y (1). y (k 1), k=2,...,l y (k) =N (k) (u (k) ), k=1,...,l y=y (L) 13 czerwca 2005 2. Standardowe elementy sieci neuronowych 2-5

Sygnały zbiórwejśću R n n liczba punktów obrazu, liczba czujników punkty obrazu binarne: U = zbiór wierzchołków kostki reprezentacjaasymetryczna reprezentacjasymetryczna wejściaograniczone:u=kostkawr n sygnał:funkcjat U 13 czerwca 2005 2. Standardowe elementy sieci neuronowych 2-6

Adaptacja wag siećstatycznay(t)=n ( u(t);w ) uczenie przykładtreningowy ( u(k),y (k) ) ; y (k) wyjściepożądane ciągtrenujący(ciąguczący) {( u(k),y (k) ),i=1,...,n } modyfikacjawagw(t+1)=h(w(t),u(t)) siećzuczeniem:y(t)=n ( u(t);h ( w(t 1),u(t 1) ) układdynamicznyy(t)=n{u(s),s t} struktura neuronu/warstwy/sieci mogą być bardziej skomplikowane siećdynamicznay(t)=n{u(s),s t} szybka dynamika (nie związana z uczeniem) i wolna dynamika (uczenie) 13 czerwca 2005 2. Standardowe elementy sieci neuronowych 2-7

3. Zagadnienia klasyfikacji 3-1 Obiekty i obrazy 3-2 Cechy 3-3 Klasyfikacja obrazów 3-4 Funkcje decyzyjne 3-5 *Klasyfikacja obiektów a klasyfikacja obrazów 3-6 *Problem niejednoznaczności obserwacji 3-7 *Niejednoznaczne dziedziczenie klas 3-8 *Dziedziczenie probabilistyczne 3-9 Klasyfikacja binarna a funkcje logiczne 3-10 Klasyfikacja liniowa 3-11 Najprostsze klasyfikacje nieliniowe 3-12 LiczbaklasyfikacjiliniowychNobrazówwR n 3-13 Liczba klasyfikacji liniowych- przykład 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-0

3-14 Liczba binarnych klasyfikacji liniowych 3-15 Klasyfikatory liniowe 3-16 Liniowe klasyfikatory binarne 3-17 *Kontekst probabilistyczny 3-18 Budowa klasyfikatorów dostępna informacja 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-0

Obiekty i obrazy zbiórobiektów S funkcjaobserwacji ϕ:s U zbiórobrazówu zwykleu R n n liczba czujników, liczba punktów obrazu obrazu=[u 1 u n ] T U obraz binarny, obraz czarno-biały u i {L,H}; (zwykle{0,1}) 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-1

Cechy zbiórwektorówcech U R n funkcjacech ϕ :U U zmodyfikowanafunkcjaobserwacji ϕ ϕ:s U 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-2

Klasyfikacja obrazów funkcja klasyfikująca l(u)=k u U k funkcje przynależności doklasyu k,k=1,...,c χ k (u)=1 u U k χ k (u)=0 u/ U k χ 1 (u) χ(u)=. χ c (u) zbiór decyzyjny D= k U k 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-3

funkcja klasyfikująca l Funkcje decyzyjne funkcje decyzyjne l(u)=k d k (u)>d j (u)dlaj k funkcjeprzynależnościχ k sąfunkcjamidecyzyjnymi 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-4

*Klasyfikacja obiektów a klasyfikacja obrazów klasyobiektóws i dziedziczoneklasyobrazówu i =ϕ(s i ) dziedziczeniejednoznaczne U i U j = fori j klasyfikacjaobrazówaklasyfikacjaobiektów: u U k s S k 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-5

*Problem niejednoznaczności obserwacji obrazu funkcja obserwacji może nie być odwracalna: niejednoznaczności obserwacji przeciwobrazϕ 1 (u)obrazuu:zbiórobiektówmającychtensamobrazu s ϕ 1 (u) ϕ(s)=u klasy dziedziczone rozłączne: obiekty mające ten sam obraz należą do tej samej klasy klasy dziedziczone mogą nie być rozłączne 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-6

*Niejednoznaczne dziedziczenie klas niejednoznaczność,jeżeliu i U j χ przyjmuje wartości z(niezerowych) wierzchołków kostki jednostkowej 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-7

*Dziedziczenie probabilistyczne rozkład obiektów P funkcjaprzynależnościwu: χ k (u)=p{s S k } χ przyjmuje wartości z kostki jednostkowej 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-8

Klasyfikacja binarna a funkcje logiczne N=4 (4obrazy) U R 2 (obrazyzłożonez2punktów) c=2 (klasyfikacjebinarne) + + + + + + + + u 1 ANDu 2 u 1 ORu 2 NOTu 1 u 1 XORu 2 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-9

Klasyfikacja liniowa hiperpłaszczyznah(w,b)={u R n :w T u+b=0} w wektor normalny, b przesunięcie podprzestrzeńdodatniau + (w,b)={u R n :w T u+b>0}względem hiperpłaszczyzny H(w, b) podprzestrzeńujemnau (w,b) klasyfikacja liniowa: dowolne dwie klasy można rozdzielić hiperpłaszczyzną 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-10

Najprostsze klasyfikacje nieliniowe 3obrazybinarnewR,2klasy + + + 4obrazybinarnewR 2,2klasy + + + + 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-11

LiczbaklasyfikacjiliniowychNobrazówwR n liczba klasyfikacji liniowych L(N, n)(< dla szczególnych usytuowań obrazów) 2 N forn n+1 ( małoobrazów ) L(N,n)= 2 n ) forn n+1 i=0 ( N 1 i liczba klasyfikacji liniowych/ liczba klasyfikacji binarnych r(n,n)= L(N,n) 1 dla N = B(N) 2 1 N n ) i=0 ( N 1 i n+1 1 dla N n+1 1 r(n,n) 1 0.9 0.8 n=1 4 16 64 256 0.7 0.6 0.5 0.4 n=1,4,16,64,256 0.3 0.2 0.1 polowa klasyfikacji liniowa 0 0 1 2 3 4 N / (n+1) dlaconajwyżejn 0 =n+1obrazówwr n wszystkieklasyfikacjemogąbyćliniowe dlan v =2(n+1)obrazówwR n conajwyżejpołowaklasyfikacjijestliniowa N v :pojemnośćklasyfikacjiliniowychwr n 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-12

Liczba klasyfikacji liniowych- przykład N = N = N = N = N = N = N = wszystkiepojemność 2 3 4 5 6 7 8 liniowe B(N) 4 8 16 32 64 128 256 R 1 *4 6 8 10 12 14 16 2 4 R 2 4 *8 14 22 32 44 58 3 6 R 3 4 8 *16 30 52 84 128 4 8 R 4 4 8 16 *32 62 114 198 5 10 R 5 4 8 16 32 *64 126 240 6 12 lewa+górnalewa L(N,n)=L(N 1,n)+L(N 1,n 1) 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-13

Liczba binarnych klasyfikacji liniowych liczba max. liczba liczba liczba ułamek punktów obrazów klasyfikacji klasyfikacji klasyfikacji obrazu binarnych binarnych liniowych liniowych n N=2 n B(N)=2 N L(N,n) r=l/b 2 4 16 14 0.875 3 8 256 128 0.500 4 16 65536 3882 0.059 5 32 4.310 9 412736 9.610-5 8 256 10 77 10 15 10-63 16 65536 10 19728 10 64 10-19664 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-14

Klasyfikatory liniowe afinicznefunkcjedecyzyjned k (u)=b k +wk T u, k=1,...,c b 1 +w1u T d(u)=. =b+wu=wu b c +wcu T afiniczne funkcje decyzyjne klasy liniowo rozdzielne klasy liniowo rozdzielne istnieją afiniczne funkcje decyzyjne funkcje decyzyjne są porównywane parami(liczbę wierszy W można zmniejszyć o jeden) b i +w T iu>b j +w T ju b+w T u>0 gdziew=w i w j,b=b i b j 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-15

Liniowe klasyfikatory binarne binarny klasyfikator liniowy d(u) = 1 jeśliw T u+b<0 l(u)= 1 jeśliw T u+b>0 gdziew=w + w,b=b + b b ++w+u T b +w u T zmodyfikowana funkcja decyzyjna porównywana z zerem d(u)=b+w T u hiperpłaszczyznaklasyfikującah(w,b)={u:d(u)=0} 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-16

*Kontekst probabilistyczny jeśliϕ(s i ) ϕ(s j ) toklasyfikacjaniejestjednoznaczna. dodatkowo znana miara probabilistyczne P na S rozkład obrazów w ramach każdej klasy(ciągły) f u k (z)dz=p(z u z+dz s S k ) rozkładaprioriklas{π k,k=1,...,c},gdzieπ k =P{s S k } znanyobrazu;rozkładaposterioriklas π k u =P{s S k u} (regułabayesa)= π kf u k (u) f u (u) klasyfikacja w zbiorze obrazów = π kf u k (u) c i=1 π if u i (u) funkcjadecyzyjna:d k (u)=π k u klasyfikatorbayesowski równoważnaf.d:d k (u)=π k f u k (u) dladyskretnegorozkładuobrazów:p j k =P(u=j s S k ) π k j = π kp j k p j = π kp j k c i=1 π ip j i 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-17

Budowa klasyfikatorów dostępna informacja liczbaklascznana przykładuczący(u i,l(u i )) zbiór uczący(zbiór trenujący) U L = {( u i,l(u i ) ),i=1,...,n } liczbaklascznanalubnie przykładuczącyu i (klasanieznana) zbiór uczący U L ={u i,i=1,...,n} 13 czerwca 2005 3. Zagadnienia klasyfikacji 3-18

4. Perceptron Rosenblatta 4-1 Krótka historia perceptronu Rosenblatta 4-2 Binarne klasyfikatory liniowe 4-3 Struktura perceptronu Rosenblatta 4-4 Perceptron Rosenblatta a klasyfikacja 4-5 Perceptron jednowarstwowy: uczenie 4-6 Modyfikacje algorytmu uczenia 4-7 Funkcja kosztu dla perceptronu Rosenblatta 4-8 Algorytm kieszeniowy Gallanta 4-9 Istnienie uniwersalnego dwuwarstwowego perceptronu Rosenblatta 4-10 Warstwa ukryta: kodowanie 4-11 Maszyny liniowe 4-12 Maszyna liniowa a perceptron 4-13 Uczenie jednowarstwowej maszyny liniowej 13 czerwca 2005 4. Perceptron Rosenblatta 4-0

Krótka historia perceptronu Rosenblatta Frank Rosenblatt(Cornell U.) 1958 uniwersalna maszyna do rozpoznawania i klasyfikacji wzorców sztuczny mózg, histeryczna reakcja mediów hardware: Mark I (1960) matryca 20 20 fotodiod, każda losowo łączona z 40 neuronami warstwy ukrytej 512 neuronów warstwy ukrytej 8 neuronów wyjściowych, silniki sterujące potencjometrami wag Rosenblatt Principles of Neurodynamics, 1962 Minsky i Papert(MIT) Perceptrons, 1969... większość publikacji jest bez wartości naukowej perceptron jednowarstwowy tylko klasyfikacja liniowa pozostało: connectionism, architektury warstwowe, obliczenia równoległe, uczenie wag 13 czerwca 2005 4. Perceptron Rosenblatta 4-1

Binarne klasyfikatory liniowe funkcjadecyzyjnad(u)=w T u+b funkcja klasyfikująca 1 jeśliw T u+b<0 l(u)= 1 jeśliw T u+b>0 margines funkcyjny obrazu u względem hiperpłaszczyzny H(w, b) > 0 poprawna klasyfikacja u f (u)=(w T u+b)l(u) <0 błędnaklasyfikacjau margines geometryczny obrazu u względem hiperpłaszczyzny H(w, b) odległość opatrzona znakiem przy błędnej klasyfikacji g (u)= f(u) w = d ( u,h(w,b) ) d ( u,h(w,b) ) poprawnaklasyfikacjau błędnaklasyfikacjau (przyjętow 2 = 1) 13 czerwca 2005 4. Perceptron Rosenblatta 4-2

Struktura perceptronu Rosenblatta jednowarstwowy perceptron Rosenblatta neuron dwuwartościowy (aktywny- nieaktywny) typowa funkcja aktywacji: sign dwuwarstwowy perceptron Rosenblatta wejścia:obrazyu R n (warstwansensorów) warstwa ukryta(asocjacyjna): wagi stałe warstwa wyjściowa(odpowiedzi): wagi adaptowane 13 czerwca 2005 4. Perceptron Rosenblatta 4-3

Perceptron Rosenblatta a klasyfikacja perceptronjakofunkcjaklasyfikująca(wejście:obrazy R n,wyjście:{ 1,1}) problem reprezentacji: czy rodzina funkcji wytwarzanych przez perceptron Rosenblatta jest wystarczająco bogata, by rozwiązać dowolny problem klasyfikacji? perceptron jednowarstwowy: dla dowolnego zbioru obrazów jednowarstwowy perceptron Rosenblatta może realizować dowolne klasyfikacje liniowe binarne tych obrazów perceptron dwuwarstwowy: dla zadanego skończonego zbioru obrazów istnieje dwuwarstwowy perceptron Rosenblatta, którego wagi warstwy wyjściowej dobierać tak, by realizować dowolne klasyfikacje binarne tych obrazów 13 czerwca 2005 4. Perceptron Rosenblatta 4-4

Perceptron jednowarstwowy: uczenie prezentacjaobrazówzezbioruuczącegou L : ciąguczący {( u(t),y (t) ),t=1,...,n } gdziey (t)=l(u(t)) wyjściepożądane epoka jednokrotna prezentacja wszystkich N obrazów ze zbioru treningowego w losowej kolejności modyfikacjawag w(t+1)=w(t)+ w(t) dowolne wagi początkowe w(0), korekcja wag w przypadku błędnej klasyfikacji 0 jeżeli(w T u+b)y >0 (klasyfikacjapoprawna) w= y u jeżeli(w T u+b)y 0 (klasyfikacjabłędna) =usign ( y y ) po skończonej liczbie korekcji sieć klasyfikuje prawidłowo wagi prawidłowo klasyfikujące nie są jednoznaczne 13 czerwca 2005 4. Perceptron Rosenblatta 4-5

Modyfikacje algorytmu uczenia zróżnicowanie współczynników szybkości uczenia µ: korekcjawprzypadkubłędnejklasyfikacji(y (w T u+b)<0) w=µul(u) b=µr 2 l(u) gdzier=max UL u tw.[novikoff] dla liniowo rozdzielnego zbioru uczącego o hiperpłaszczyźnie decyzyjnejh(w,b )liczbakorekcjijestniewiększaniż 4R2 gdzie 2 g oznacza g margines geometryczny hiperpłaszczyzny decyzyjnej g = inf d ( u,h(w,b ) ) u U L współczynnikuczeniamożezmieniaćsięwczasie0<µ min <µ(t)<µ max korekcjabezwzględna powtarzaniekorekcjidlakażdegou i ażdopoprawnej klasyfikacjiu i 13 czerwca 2005 4. Perceptron Rosenblatta 4-6

Funkcja kosztu dla perceptronu Rosenblatta obrazy źle klasyfikowane przez hiperpłaszczyznę decyzyjną H(w, b) U L (w,b)={u U L (w,b):l(u)(b+w T u)<0} koszt błędnej klasyfikacji Q(w,b)= u i U L (w,b) f (w,b)= u i U L (w,b) (b+w T u i )sign(y i y i ) Q(w)różniczkowalnazwyjątkiemNhiperpłaszczyzn{(w,b):u T iw+b=0}wr n+1 gradient dq(w) dw = u i U L u i sign(yi y i ), metodanajwiększegospadkuzobliczeniemgradienturaznaepokęt k w(t+n)=w(t)+µ dq(w) dw =w(t)+µ u(t)sign ( y (t) y(t) ) t T k identyczna z algorytmem Rosenblatta z korekcją wag raz na epokę metoda największego spadku z chwilową aproksymacją gradientu w(t+1)=w(t)+µ d Q(w) dw =w(t)+µu(t)sign( y (t) y(t) ) identyczna z algorytmem Rosenblatta 13 czerwca 2005 4. Perceptron Rosenblatta 4-7

Algorytm kieszeniowy Gallanta waga wkieszeni w G (t) odpowiada najdłuższej w chwili t serii identycznych wag wagaoptymalnaw minimalizuje prawdopodobieństwo błędnej klasyfikacji jeżeli U L jestskończony wagi w(t) są losowe niezależne o identycznych rozkładach, to Plimw G (t)=w P{w G (t)=w } t 1 13 czerwca 2005 4. Perceptron Rosenblatta 4-8

Istnienie uniwersalnego dwuwarstwowego perceptronu Rosenblatta zbióruczącyu L ={u 1,...u N },u i R n warstwa ukryta: 2N neuronów dlakażdegoobrazuu i określićhiperpłaszczyzny H(v i,β i),h(v i,β i)ineuronyi,i,aby u i U (v i,β i) U + (v i,β i) u j U + (v i,β i) U (v i,β i),j i wyjścianeuronówukrytychdlawejściau i x i =0, x i =1 neuron wyjściowy x j =x j dlaj i w i =1,w i = 1jeżeliu i U w i = 1,w i =1jeżeliu i U + (w j x j +w j x j =0dlaj i) b=0 jakwyznaczyćv i,β i,β i konstrukcja nieefektywna: więcej neuronów ukrytych niż obrazów treningowych zła generalizacja dla praktycznych problemów 13 czerwca 2005 4. Perceptron Rosenblatta 4-9

Warstwa ukryta: kodowanie kodowaniewybranychobrazów Nwybranychobrazów,h=2N wymaga znajomości obrazów a zakłócenia? kodowaniezupełne wszystkieobrazybinarne,h=n 2 n nierealizowalnie duża warstwa ukryta dla rzeczywistych zadań kodowanie losowe warstwa ukryta o zadanej wielkości h wybrana losowo tylkon h+1obrazówklasyfikowanychpoprawnie tylko N = 2(h + 1) obrazów(pojemność liniowa) klasyfikowanych poprawnie z prawdopodobieństwem 0.5 kodowanie adaptacyjne najlepsze, ale wymaga adaptacji warstwy ukrytej 13 czerwca 2005 4. Perceptron Rosenblatta 4-10

Maszyny liniowe warstwaukrytax=1(vu) warstwawyjściowa:y=χ(wx) R c 1 jeżeliwk T y k = x>wt j xdlawszystkichj k 0 w przeciwnym przypadku zwycięzca bierze wszystko (WTA ang. winner takes all) 13 czerwca 2005 4. Perceptron Rosenblatta 4-11

Maszyna liniowa a perceptron jednowarstwowa maszyna liniowa z dwoma wyjściami 1 jeżeliw 1 x>w 2 x y 1 = 0 wprzeciwnymprzypadku =1(wT x) y 2 =1 y 1 jestrównoważnaperceptronowiowektorzewagwyjściowychw=w 1 w 2 a zatem może realizować dowolną binarną klasyfikację liniową maszyna liniowa z c wyjściami jest równoważna perceptronowi utworzonemu dla n c wymiarowej przestrzeni obrazów zawierającej N c razy więcej obrazów. maszyna liniowa o c wyjściach może realizować dowolną liniową klasyfikację na c klas 13 czerwca 2005 4. Perceptron Rosenblatta 4-12

Uczenie jednowarstwowej maszyny liniowej klasyfikacja liniowa skończonego zbioru obrazów na c klas każdy obraz pojawia wielokrotnie, w skończonych odstępach wagi początkowe dowolne algorytmkorekcjiwag W(t)=sign ( y (t) y(t) ) u T (t) dla obrazów klasyfikowanych poprawnie W(t) = 0 dla obrazów klasyfikowanych błędnie u(t) dla k = l(u(t)) (klasa właściwa) w k (t)= u(t) dlak=wta ( Wu(t) ) (klasawygrywająca) 0 dla pozostałych k wagi są prawidłowe po skończonej liczbie korekcji dla c = 2 algorytm identyczny z algorytmem Rosenblatta 13 czerwca 2005 4. Perceptron Rosenblatta 4-13

5. Maszyny wektorów podpierających 5-1 Postać dualna perceptronu Rosenblatta 5-2 Region separujący 5-3 Optymalna hiperpłaszczyzna decyzyjna 5-4 Przypomnienie: Minimalizacja z ograniczeniami(1) 5-5 Minimalizacja z ograniczeniami(2): Problem dualny 5-6 Minimalizacja z ograniczeniami(3): Warunki Kuhna-Tuckera 5-7 Maksymalizacja marginesu hiperpłaszczyzny decyzyjnej 5-8 Zadanie dualne 5-9 Własności rozwiązania 5-10 Wyznaczenie obciążenia 5-11 Iloczyn skalarny w przestrzeni cech 5-12 SVM maksymalizujące margines 13 czerwca 2005 5. Maszyny wektorów podpierających 5-0

5-13 Warunek Mercera 5-14 Przykłady SVM 5-15 Przykład: Maszyna wielomianowa dla problemu XOR 5-16 Klasy liniowo nierozdzielne 5-17 Liniowa kara za naruszenie ograniczeń 5-18 SVM dla liniowej kary 5-19 SVM dla liniowej kary problem skalowania 5-20 Rozwiązania numeryczne 5-21 Porcjowanie i dekompozycja Bibliografia [0-1] N. Cristiannini, J Shave-Taylor, An Introduction to Support Vector Machines Cambridge University Press, Cambridge, UK 2000 [0-2] http://www.support-vector.net/references.html 13 czerwca 2005 5. Maszyny wektorów podpierających 5-0

Postać dualna perceptronu Rosenblatta optymalne wagi są liniową kombinacją obrazów treningowych w= u(t)sign ( y (t) y(t) ) t = N α i u i l(u i ) i=1 α i liczbabłędnychklasyfikacjii-tegoobrazu(siłaobrazu) reprezentacja ta nie jest jednoznaczna perceptron postać dualna N(u)=sign ( N b+u T α i u i l(u i ) ) i=1 =sign ( N b+ α i (u T iu)l(u i ) ) i=1 13 czerwca 2005 5. Maszyny wektorów podpierających 5-1

Region separujący H(w,b)klasyfikujepoprawnie,jeślidlapewnego >0 u i U L+ b+w T u i u i U L b+w T u i czyli ( b+wt u i ) l(ui ) dlau i U L marginesfunkcyjny f hiperpłaszczyzny:największemożliwe,tzn. dlaconajmniejjednegou i U L ( b+w T u i ) l(ui )= f (obrazypodpierająceu S ) regionseparujący{u R n : b+w T u < f } przypomnienie:odległośćpunktuu 0 odhiperpłaszczyznyh(w,b)jestrówna wt u 0 +b w, odległośćhiperpłaszczyznh(w,b 1 ),H(w,b 2 )jestrówna b 1 b 2 w szerokość regionu separującego 2 f w postaćkanoniczna f =1(usuniętaniejednoznaczność) 13 czerwca 2005 5. Maszyny wektorów podpierających 5-2

Optymalna hiperpłaszczyzna decyzyjna optymalnahiperpłaszczyznadecyzyjnah(w,b ): a.bezbłędnieklasyfikujeobrazyucząceu i U L ( w T u i +b ) l(u i ) 1 dlau i U L b.maksymalizujemarginesgeometrycznytzn.odległośćd(u L,H(w,b)) g =d(u L,H(w,b ))= 1 w klasyfikator maksymalizujący margines geometryczny N(u)=sign(w T u+b ) 13 czerwca 2005 5. Maszyny wektorów podpierających 5-3

Przypomnienie: Minimalizacja z ograniczeniami(1) problempierwotnyznaleźćϑ minimalizującefunkcjęf(ϑ),ϑ Θ R n,przy ograniczeniach g i (ϑ) 0, i=1,...,k h j (ϑ)=0, j=1,...,m (g(ϑ) 0) (h(ϑ)=0) obszardopuszczalnyd={ϑ Θ:g(ϑ) 0,h(ϑ)=0} rozwiązanie(globalne)problemupierwotnegoϑ f(ϑ )<f(ϑ) dlakażdego ϑ D,ϑ ϑ ograniczenieaktywne:g i (ϑ )=0,ograniczenienieaktywne:g i (ϑ )<0 funkcja Lagrange a, mnożniki Lagrange a L(ϑ,α,β)=f(ϑ)+ k α i g i (ϑ)+ i=1 m β j h j (ϑ) j=1 13 czerwca 2005 5. Maszyny wektorów podpierających 5-4

Minimalizacja z ograniczeniami(2): Problem dualny problemdualny:znaleźćα,β maksymalizującefunkcję L (α,β)=inf ϑ Θ L(ϑ,α,β) przy ograniczeniach α 0 f(ϑ) L (α,β)dlakażdegoϑ D,α 0,β jeślif(ϑ )=L (α,β )gdzieα 0,ϑ D, toϑ, ( α,β ) sąrozwiązaniamiproblemupierwotnegoidualnego, aponadtoα g =0 lukadualności:l=inf ϑ D f(ϑ) sup α 0,β L (α,β) 0 punktsiodłowy:lukadualnościjestzerowawtedyitylkowtedygdy(ϑ,α,β ) jestpunktemsiodłowymfunkcjilagrange atzn.dlakażdegoϑ Θ,α 0,β L(ϑ,α,β) L(ϑ,α,β ) L(ϑ,α,β ) 13 czerwca 2005 5. Maszyny wektorów podpierających 5-5

Minimalizacja z ograniczeniami(3): Warunki Kuhna-Tuckera jeżeliθjestzbioremwypukłymiograniczeniasąafiniczne,tol=0 warunki Kuhna-Tuckera dla funkcji f wypukłej i ciągłej wraz z pochodnymi na zbiorzewypukłymθiafinicznychfunkcjig i,h j : ϑ jestrozwiązaniemproblemupierwotnegowtedyitylkowtedy,gdyistnieją α,β takie,że L ϑ ϑ,α,β =0 L β ϑ,α,β =0 (K-T1) (K-T2) α ig i (ϑ )=0, i=1,...,k g i (ϑ ) 0, i=1,...,k α i 0, i=1,...,k (K-T3a) (K-T3b) (K-T3c) dlaograniczeńaktywnychα i 0,dlaograniczeńnieaktywnychα i =0 13 czerwca 2005 5. Maszyny wektorów podpierających 5-6

Maksymalizacja marginesu hiperpłaszczyzny decyzyjnej problem optymalizacji minimalizować Q(w,b)= 1 2 w 2 funkcjawypukłanazbiorze R n+1 przyograniczeniach l(u i ) ( w T u i +b ) 1, i=1,...,n afiniczne funkcja Lagrange a L(w,b;α)= 1 2 wt w+ N i=1 α i ( 1 l(u i ) ( w T u i +b )) zadanie dualne: programowanie kwadratowe, rozwiązanie numeryczne = warunki Kuhna-Tuckera nie dają rozwiązania w postaci analitycznej, ale pozwalają na określenie jego właściwości = 13 czerwca 2005 5. Maszyny wektorów podpierających 5-7

Zadanie dualne L funkcja dualna: w = L b =0(K-T1)czyli N w = α i u il(u i ) podstawiamydofunkcjilagrange a i=1 N α i l(u i )=0 i=1 czyli L (α)= 1 2 w T w + N α i = i=1 zadanie dualne: maksymalizować ograniczeniewproblemiedualnym N α i 1 2 i=1 N i=1j=1 N α i α j l(u i )l(u j )u T iu j L (α)= N α i 1 2 i=1 N N α i α j l(u i )l(u j )u T iu j i=1j=1 przy ograniczeniach N i=1 α il(u i )=0 α i 0, i=1,...,n α zależyodu i tylkopoprzeziloczynyskalarneu T iu j numeryczne rozwiązanie problemu dualnego: programowanie kwadratowe 13 czerwca 2005 5. Maszyny wektorów podpierających 5-8

trzeci warunek Kuhna-Tuckera Własności rozwiązania α i (1 l(u i ) ( w T u i +b )) =0, i=1,...,n K-T3a l(u i ) ( w T u i +b ) 1, i=1,...,n α i 0, i=1,...,n K-T3b K-T3c α i =0 l(u i ) ( w T u i +b ) <1 u i wewnątrzzbiorudopuszczalnego α i 0 l(u i ) ( w T u i +b ) =1 u i obrazpodpierający dlaobrazówinnychniżpodpierająceα i =0(K-T3a)czyli w = u i U S α iu i l(u i ) optymalny margines geometryczny w 2 =w T u i U S αi l(u i)u i = ( u i U S αi 1 l(ui )b ) = u i U S αi czyli 1 g = u i U α S i 13 czerwca 2005 5. Maszyny wektorów podpierających 5-9

Wyznaczenie obciążenia b możnawyznaczyćzograniczeńpierwotnych 1 w T u i b dlal(u i )=1 b 1 w T u i dlal(u i )= 1,czyli b 1 min ui:l(ui)=1w T u i b 1 max ui :l(u i )= 1w T u i ostatecznie b = 1 ( min w T u i + max w T ) u i 2 u i U L+ u i U L dladowolnegoobrazupodpierającegol(u j ) ( w T u j +b ) =1tzn. b =l(u j ) w T u j, u j U S 13 czerwca 2005 5. Maszyny wektorów podpierających 5-10

Iloczyn skalarny w przestrzeni cech reguła klasyfikacji dla sieci jednowarstwowej N(u)=sign (b + ) α il(u i )u T iu u i U S U S,α i,b znalezioneprzezrozwiązaniezadaniaminimalizacji reguła klasyfikacji dla sieci dwuwarstwowej pierwsza warstwa: obliczanie cech x = ϕ(u) druga warstwa: N(u)=sign (b + ) α il(u i )x T ix ϕ(x i ) X S iloczyn skalarny w przestrzeni cech x T ix=ϕ(u i ) T ϕ(u)=k(u i,u) maszynę dwuwarstwową można zmodyfikować, gdyż nie trzeba obliczać cech rozwiązanie zależy tylko od iloczynu skalarnego k przypomnienie: iloczyn skalarny symetria: k(u,u )=k(u,u ), warunekcauchy-schwarza: k(u,u ) 2 k(u,u )k(u,u ) 13 czerwca 2005 5. Maszyny wektorów podpierających 5-11

SVM maksymalizujące margines reguła klasyfikacji N(u)=signd(u i )=sign (b + ) αil(u i )k(u i,u) u i U S gdzie α jestjednoznacznymrozwiązaniemproblemumaksymalizacjifunkcji L (α)= N α i 1 2 i=1 przy ograniczeniach N i=1 N α i α j l(u i )l(u j )k(u i,u j ) j=1 N α i l(u i )=0 α i 0, i=1,...,n i=1 b =l(u j ) u i U S α i l(u i)k(u i,u j ) ) α i >0 u i obrazypodpierające,u i U S 1 margines geometryczny u i U α i S dladowolnegou i U S 13 czerwca 2005 5. Maszyny wektorów podpierających 5-12

Warunek Mercera nie każdy iloczyn skalarny jest realizowany przez pewną przestrzeń cech warunek Mercera gwarantuje istnienie funkcji ϕ: dlakażdegoskończonegopodzbioru{u 1,...,u N } Umacierz{k(u i,u j )}jest dodatnio półokreślona ( ) przykłady:k(u,u )=(u T u +1) p, k(u,u 1 )=exp 2σ u u 2 2 jeżeli funkcje k spełniają warunek Mercera, to warunek ten spełnia każda kombinacja liniowa tych funkcji iloczyn tych funkcji k ( f(u ),f(u ) ) dladowolnejfunkcjif π(k(u,u )); π-wielomianonieujemnychwspółczynnikach exp(k(u,u )) 13 czerwca 2005 5. Maszyny wektorów podpierających 5-13

maszyna wielomianowa k(u,u )=(u T u +1) p maszyna radialna ( 1 k(u,u )=exp 2σ 2 u u 2) Przykłady SVM uogólnienie maszyny radialnej ( 1 ) gdzie d jest miarą odległości obrazów, np. k(u,u )=exp 2σ 2d(u,u ) d(u,u )=χ 2 (u,u ) n k=1 d(u,u )= u u p = n p u k u k 2 u k +u k k=1 u k u k p W.M.? W.M.spełnionydlap=1,2 13 czerwca 2005 5. Maszyny wektorów podpierających 5-14

Przykład: Maszyna wielomianowa dla problemu XOR ] T, [ ] T, [ ] T, [ u i [ 1 1 1 1 1 1 1 1 l(u i ) -1, 1, 1, -1 k(u,u )=(1+u T u ) 2 problemdualny:minimalizowaćl (α)=α T i 1 2 αt ( ll T K ) α ( -produktschura) przyograniczeniach α 0, l T α 0 gdziel= [ ] [ ] 1 1 1 1 1 1 1, ll T 1 1 1 1 = 1 1 1 1, K={k(u i,u j )}= 1 1 1 1 1 rozwiązaniedualnebezograniczeń:α = ( ll T K ) 1 i= 1 96 ograniczeniadualnespełnione,wszystkieu i sąpodpierające reguła klasyfikacji y(u) = sign (b + ui U α i l(u i)k ( ) ) u,u i b =l(u j ) u i U s α i l(u i)k ( ) u i,u j dlau j U S czylib =0 przestrzeń cech: poniewaź k(u,u )=(1+u T u ) 2 =1+2u T u +(u T u ) 2 =3+2u 1 u 1 +2u 2u 2 +2u 1u 2 u [ 1 u 2 3 ] T azatemϕ(u)= 2u1 2u2 2u1 u 2 ] T [ 9111 1911 1191 1119 ] [ 11 1 1 1 1 11 1 1 1 1 11 1 1 1 1 11 ] i= 1 8 i, 13 czerwca 2005 5. Maszyny wektorów podpierających 5-15

Klasy liniowo nierozdzielne przypadek liniowo rozdzielny ( wt u i +b ) l(u i ) 1 dlau i U L miękki margines: możliwość naruszenia warunków poprawnej klasyfikacji dla i-tego obrazu ( wt u i +b ) l(u i ) 1 ξ i, ξ i 0, dlau i U L, ξ i -zmiennedopełniające(slackvariables) 0<ξ i <1 ξ i >1 naruszony region rozdzielający brak separacji liniowej 13 czerwca 2005 5. Maszyny wektorów podpierających 5-16

Liniowa kara za naruszenie ograniczeń problem pierwotny(c kontroluje liczbę błędnych klasyfikacji) minimalizowaćfunkcję Q(w,b,ξ)= 1 2 w 2 +c N i=1 ξ i przyograniczeniach ξ i 0, l(u i ) ( w T u i +b ) 1 ξ i, i=1,...,n funkcjalagrange al(w,b,ξ;α,λ) N N ( = 1 2 wt w+c ξ i + α i 1 ξi l(u i )(w T u i +b) ) i=1 warunki Kuhna-Tuckera N w = α i u i l(u i ), i=1 i=1 N α i l(u i )=0 i=1 α i +λ i =c, i=1,...,n N λ i ξ i i=1 (K-T1) α i (1 ξ i l(u i ) ( w T u i +b )) =0, λ i ξ i =0, i=1,...,n (K-T3a) l(u i ) ( w T u i +b ) 1 ξ i, ξ i 0, i=1,...,n α i 0, λ i 0, i=1,...,n (K-T3b) (K-T3c) b trzebawyznaczyćzograniczeńpierwotnych 13 czerwca 2005 5. Maszyny wektorów podpierających 5-17

SVM dla liniowej kary funkcja dualna- identyczna jak przy ostrym marginesie N N L (α,λ)= 1 2 w T w + α i = α i 1 N N α i α j l(u i )l(u j )k(u i,u j ) 2 i=1 i=1 problem dualny: maksymalizować funkcję L (α)= N i=1 α i 1 N N 2 i=1 j=1 α iα j l(u i )l(u j )k(u i,u j ) N przy ograniczeniach i=1 α il(u i )=0, 0 α i c, i=1,...,n α i =0 l(u i ) ( w T u i +b ) <1 u i wewnątrzzbiorudopuszczalnego i=1 j=1 0 α i c l(u i ) ( w T u i +b ) =1 u i obrazpodpierający α i =c l(u i ) ( w T u i +b ) =1 u i naruszaograniczenia(ξ i >0) reguła klasyfikacji w przestrzeni obrazów y(u)=sign (b + α ( ) ) il(u i )k u,ui u i U s b dobranetak,byspełniaćwarunekl(u i )y(u i )=1 dlakażdegoi:0<αi <c 1 marginesgeometryczny g = ui US u j U α S i α j l(u i)l(u j )k(u i,u j ) 13 czerwca 2005 5. Maszyny wektorów podpierających 5-18

SVM dla liniowej kary problem skalowania zmodyfikowanyproblemdualny:0 c 0 1 maksymalizowaćfunkcję L (α)= 1 N N 2 i=1 j=1 α iα j l(u i )l(u j )k(u i,u j ) przyograniczeniach N i=1 α N il(u i )=0, i=1 α i c 0, 0 α i 1/N, i=1,...,n 0<α i < 1 N u i -wektorpodpierający α i = 1 N u i -wektornaruszającyograniczenia b dobranetak,byspełniaćwarunek l(u i )y(u i )=1 dlakażdegowektorapodpierającegou i (tznjeżeli0<α i< 1 N ) 13 czerwca 2005 5. Maszyny wektorów podpierających 5-19

metoda największego spadku Rozwiązania numeryczne α(k+1)=α(k)+η dl (α) dα wersja sekwencyjna, j wybierane losowo α j (k+1)=α j (k)+η j L (α) α j =α j (k)+η j ( 1 l(ui )K(u i,u j ) ) α j (k+1)=:max(0,α j (k+1)) α j (k+1)=:min(c,α j (k+1)) (dlaproblemuzkarąliniową) warunek liniowy związany z b jest niemożliwe do spełniania założyć b ograniczenia liniowe zastąpić przez u Uα i l(u i ) z i (k) gdzieciągi{z i (k)}sąmalejące procedurydwustopniowe(nawetdużezbioryobrazów,rzędu10 6 ) idlabieżącegoα,znaleźćobrazypodpierająceu α ={u i U:α i >0} iiprzeprowadzićoptymalizacjędlau U α iiiwykonaćiteracjedlawszystkichu i / U αi ivutworzyćα,przejśćdo[i] 13 czerwca 2005 5. Maszyny wektorów podpierających 5-20

porcjowanie Porcjowanie i dekompozycja wydzielić zbiór roboczy obrazów, powtarzać do spełnienia warunku stopu przeprowadzić optymalizację na zbiorze roboczym, utworzyć nowy zbiór roboczy spośród obrazów naruszających warunki KT dekompozycja: porcjowanie z zachowaniem stałej objętości zbioru roboczego dekompozycja dla 2-elementowych zbiorów roboczych: sekwencyjna optymalizacja minimalna ograniczenia0 α,α cprowadządou α V gdzie U=max(0,α α ), V=min(c,c α +α ) jeśliu,u wróżnychklasach U=max(0,α +α c), V=min(c,α +α ) jeśliu,u wtejsamejklasie wyznaczenieα,α e =d(u ) l(u )= ( u j U ) α j l(u j )k(u j,u )+b l(u ), e d(u ) l(u ) κ=k(u,u )+k(u,u ) 2k(u,u ) α (k)=α (k 1)+(e e )l(u )/κ warunekliniowy, α (k)=:max(u,α (k)) α (k)=α (k 1)+l(u )l(u ) ( α (k 1) α (k) ) 13 czerwca 2005 5. Maszyny wektorów podpierających 5-21

6. Adaline 6-1 Adaline- Liniowy neuron 6-2 Minimalizacja błędu kwadratowego 6-3 Rekurencyjne najmniejsze kwadraty 6-4 Algorytm najmniejszych średnich kwadratów LMS 6-5 Zasada najmniejszej zmiany 6-6 Algorytmy LMS z normalizacją 6-7 Własności algorytmów LMS z normalizacją Bibliografia [0-1] B. Widrow and M.A. Lehr, 30 years of adaptive neural networks: perceptron, madaline, and backpropagation,, Proceedings of IEEE, vol. 78, No. 9, Sept. 1990 13 czerwca 2005 6. Adaline 6-0

ADAptive LInear NEuron ADAptive LINear Element Adaline- Liniowy neuron współczesne perceptrony wielowarstwowe perceptron Rosenblatta struktura sieci Adaline algorytmy uczenia liniowewyjściesieci(treningwag) y(t)=w(t) T u(t) binarnewyjściesieci(klasyfikacja) y B (t)=sign ( w(t) T u(t) ) odchyłkawyjścialiniowego ε(t)=y (t) y(t)=y (t) w(t) T u(t) 13 czerwca 2005 6. Adaline 6-1

Minimalizacja błędu kwadratowego błąd kwadratowy wyjścia sieci(dla jednowymiarowego wyjścia) Q N = Q N (w)= 1 2 gradient i hessian d Q N (w) dw d 2 QN (w) dwdw T = = N t=1 N t=1 N y (t) w T u(t) 2 = 1 2 t=1 u(t)ε(t)= N t=1 u(t)y (t)+ N ε(t) 2 t=1 N t=1 u(t)u(t) T >0 warunekjednoznaczności u(t)u(t) T w wagi optymalne minimalizują uśredniony błąd kwadratowy odchyłki w = (N t=1 uwzględnienie informacji a priori: ) 1 N u(t)u(t) T u(t)y (t)= R u (t) 1 Ru,y (t) t=1 wagi optymalne Q N = Q+ 1 2 (w w 0) T P 1 0 (w w 0) w = ( P 1 0 + N t=1 u(t)u(t) T ) 1 ( P 1 0 w 0+ N t=1 ) u(t)y (t) 13 czerwca 2005 6. Adaline 6-2

Rekurencyjne najmniejsze kwadraty realizacja rekurencyjna z uwzględnieniem informacji a priori: szczególny przypadek Filtru Kalmana w(t+1)=w(t)+p(t)u(t)ε(t) P(t+1)=P(t) P(t)u(t)uT (t)p(t) 1+u T (t)p(t)u(t) w(0)=w 0, P(0)=P 0 >0 aktualizacjawag aktualizacja wzmocnień warunkipoczątkowe równoważna postać aktualizacji wzmocnień dla P(t) > 0 P(t) 1 =u(t)u(t) T +P(t 1) 1 =P 1 0 + t u(s)u(s) T s=1 stosowanie jej do aktualizacji wag wymaga jednak odwracania macierzy błąd średniokwadratowy wag w(t) w(t 1) 0 słabszyniżwarunekcauchy ego! ( jeżeli min eig P(t) 1) to w(t) w własności odchyłek wyjść ε(t) 1+κ u(t) 2 0 gdzie κ=maxeig(p 0) 13 czerwca 2005 6. Adaline 6-3

Algorytm najmniejszych średnich kwadratów metoda największego spadku w(t+1)=w(t) µ d Q N (w) dw N =w(t) µ u(t) ε(t) t=1 LMS algorytm najmniejszych średnich kwadratów µ-lms: w(t+1)=w(t)+µu(t)ε(t) jeśliobrazysąlosowaneniezależniezrozkładuomacierzykowariancjir u to średnie wagi Ew(t) są zbieżne jeżeli 0<µ 2 maxeig(r u ) błądśredniokwadratowye ε(t) 2 jestzbieżnyjeśli 0<µ 2 trr u (trr u = eig(r u )) 13 czerwca 2005 6. Adaline 6-4

Zasada najmniejszej zmiany minimalizowaćq(w + )= 1 2 w+ w 2 przyograniczeniachy =w +T u rozwiązaniew + jestrzutemwnahiperpłaszczyznęy =w +T u funkcja Lagrange a L(w +,β)=q(w + )+β(y w +T u) warunki Kuhna-Tuckera(funkcja Q jest wypukła i ciągła wraz z pochodnymi na R d,ograniczeniasąafiniczne) dl dw + =w+ w βu=0 dl =y w +T u=0 dβ = β u 2 =y w T u=ε optymalne wagi w + =w+ 1 u(t) 2u(t)ε(t) (dla u(t) >0) 13 czerwca 2005 6. Adaline 6-5

algorytm Kaczmarza Algorytmy LMS z normalizacją 1 w(t+1)=w(t)+ u(t) 2u(t)ε(t) (dla u(t) >0) algorytm normalizowanych najmniejszych średnich kwadratów(α-lms) α w(t+1)=w(t)+ u(t) 2u(t)ε(t) (dla u(t) >0) zmiany wyjścia liniowego i odchyłki wyjścia są proporcjonalne do odchyłki (y(t+)=wyjścieobliczonedlazmodyfikowanejwagi =w(t+1) T u(t)) y(t+1) y(t)= ( w(t+) w(t) ) Tu(t)=αε(t) ε(t+) ε(t)= αε(t) skalowanieu = u u,y = y u,y = y u prowadzidoµ-lms zmodyfikowany algorytm α-lms α w(t+)=w(t)+ c+ u(t) 2u(t)ε(t) c>0(członregularyzujący),0<α<2 13 czerwca 2005 6. Adaline 6-6

Własności algorytmów LMS z normalizacją własności ciągu wag w(t+1) w(t) 0 jeżeli s+k i=t w(t) w u(i)u(i) T u(i) 2 >cidlakażdegotipewnegok,to ważone odchyłki wyjścia sieci maleją do zera ε(t) c+ u(t) 2 0 13 czerwca 2005 6. Adaline 6-7

7. Zagadnienia aproksymacji funkcji 7-1 Problem aproksymacji 7-2 Reprezentacja Kołmogorowa 7-3 Typowa sieć aproksymacyjna 7-4 Aproksymacja funkcji ciągłych 7-5 Aproksymacja funkcji ciągłych- warunek konieczny i wystarczający 7-6 Równoczesna aproksymacja funkcji ciągłych i ich pochodnych 7-7 Aproksymacja funkcji całkowalnych 7-8 Równoczesna aproksymacja funkcji całkowalnych i ich pochodnych 7-9 Aproksymacja funkcji nieciągłych 7-10 Aproksymacja funkcji zmiennej losowej 7-11 Zestawienie twierdzeń aproksymacyjnych 13 czerwca 2005 7. Zagadnienia aproksymacji funkcji 7-0

Bibliografia [0-1] A.N. Kolmogorov, On the representation of continuous functions of many variables by superposition of continuous functions of one variable and addition, Dokl. Akad. Nauk USSR, vol. 114, pp. 953 956, 1957 [0-2] R. Hecht-Nielsen, Kolmogorov s mapping neural network existence theorem, Proc. Int. Conf. on Neural Networks, vol. III, pp. 11 13, 1987 [0-3] K. Hornik, M. Stinchcombe, and H. White Multilayer feedforward networks are univeral approximators, Neural Networks, vol 2, No. 5, pp. 359 366, 1989 [0-4] K. Hornik, M. Stinchcombe, and H. White Univeral approximation of an unknown mapping and its derivatives using multilayer neural networks, Neural Networks, vol 3, No. 5, pp. 551 560, 1990 [0-5] M. Leshno, V. Lin, A. Pinkus, and S. Schocken, Multilayer feedforward networks with a nonpolynomial activation funtion can approximate any function, Neural Networks, vol. 6, pp. 861 867, 1993 13 czerwca 2005 7. Zagadnienia aproksymacji funkcji 7-0

Problem aproksymacji aproksymacja nieznanej funkcji f F wybrać fzrodzinyfunkcji Ftakabyminimalizowaćd(f, f) rodzinafwynikazproblemu,np.c(u),c k (U),L p (U) d metrykawłaściwadlaf nieznana funkcja poznawana poprzez eksperyment ( u(1),y(1) ), ( u(2),y(2) ),..., ( u(n),y(n) ) czy Fjestwystarczającobogata? uniwersalny aproksymator dladowolnychǫ>0,f Fistnieje f Fdlaktórej d(f, f)<ǫ czy sieci neuronowe są uniwersalnymi aproksymatorami? 13 czerwca 2005 7. Zagadnienia aproksymacji funkcji 7-1

Reprezentacja Kołmogorowa 13 Hipoteza Hilberta istnieje analityczna funkcja 3 zmiennych która nie jest skończoną superpozycją funkcji ciągłych 2 zmiennych Kołmogorow każda funkcja ciągła n zmiennychf:i n R,n 2,mareprezentację 2n n f(u)= γ i,j (u j ) i=0 g i j=1 {g 0,...g 2n } ciągłe funkcje 1 zmiennej, zależą od f rodzina funkcji monotonicznych ciągłychγ i,j :I Rjestuniwersalna twierdzenie Kołmogorowa określa reprezentację funkcji wymaga znajomości funkcji błąd reprezentacji jest zerowy 13 czerwca 2005 7. Zagadnienia aproksymacji funkcji 7-2

Typowa sieć aproksymacyjna aproksymacjafunkcjif:u R n R rodzina sieci dwuwarstwowych N[g] warstwa wyjściowa liniowa o zerowym obciążeniu warstwa ukryta o identycznych funkcjach aktywacji g wolne parametry: liczba neuronów warstwy ukrytej h wagi(nhwag)iobciążenia(hobciążeń) warstwy ukrytej wagi warstwy wyjściowej(h wag) 13 czerwca 2005 7. Zagadnienia aproksymacji funkcji 7-3

Aproksymacja funkcji ciągłych aproksymowanefunkcjesąciągłenazbiorzedomkniętymograniczonymu R n odległość funkcji rozumiana w sensie supremum tzn. d(f, f)=sup f(u) f(u) u U [Hornik, 1991] jeżeli funkcja aktywacji g jest ciągła, ograniczona i różna od stałej to sieć typu N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie(w sensie supremum) aproksymować dowolną funkcję ciągłą na zbiorze domkniętym i ograniczonym tzn.dlakażdejfunkcjifciągłejnazbiorzedomkniętymiograniczonymui dowolnegoǫ>0,istniejesiećtypun[g]taka,że sup f(u) f(u) <ǫ u U 13 czerwca 2005 7. Zagadnienia aproksymacji funkcji 7-4

Aproksymacja funkcji ciągłych- warunek konieczny i wystarczający funkcję g: R R nazywamy lokalnie istotnie ograniczoną, jeżeli jest ograniczona prawiewszędzie(ograniczonazawyjątkiemzbioruzerowejmiarylebesgue aµ L ) na każdym podzbiorze domkniętym i ograniczonym istotne supremum funkcji esssup U f(u =inf { δ:µ L {x: g(x) >δ}=0 } [Leshno, 1993] jeżeli funkcja aktywacji g jest lokalnie istotnie ograniczona domknięcie zbioru punktów nieciągłości funkcji aktywacji g ma miarę zero to sieć typu N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie(w sensie istotnego supremum) aproksymować dowolną funkcję ciągłą na zbiorze domkniętym i ograniczonym wtedy i tylko wtedy gdy g nie jest wielomianem prawie wszędzie 13 czerwca 2005 7. Zagadnienia aproksymacji funkcji 7-5

Równoczesna aproksymacja funkcji ciągłych i ich pochodnych funkcje aproksymowane: ciągłe wraz z pochodnymi do rzędu d na zbiorze domkniętymiograniczonymu R n [Hornik, Stinchcombe, White, 1990] jeżeli funkcja aktywacji g jest d-krotnie różniczkowalna w sposób ciągły, ograniczona i różna od stałej to sieć N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie aproksymować(w sensie supremum) dowolną funkcję ciągłą oraz jej pochodne do rzędu d włącznie tzn.dlakażdejfunkcjiciągłejwrazzpochodnymidorzędudnazbiorze domkniętymiograniczonymu R n ikażdegoǫ>0istniejesiećn[g],dlaktórej dlawszystkichpochodnychd k = k 1 + +k n zachodzi sup D k f(u) D k f(u) ǫ u U u k 1 1... uk n n,0 k 1 + +k n d,równocześnie 13 czerwca 2005 7. Zagadnienia aproksymacji funkcji 7-6

Aproksymacja funkcji całkowalnych funkcjeaproksymowane:całkowalnezp-tąpotęgą,1 p<,nazbiorze ograniczonymu R n odległość wyznaczana przez normę f p = ( U f(u) p du ) 1/p [Hornik, 1991] jeżeli funkcja aktywacji g jest ograniczona i różna od stałej to sieć N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie(wsensie f p )aproksymowaćdowolnąfunkcjęcałkowalnązp-tą potęgą na zbiorze ograniczonym tzn.dlakażdejfunkcjicałkowalnejzp-tąpotęgąnazbiorzeograniczonymu R n ikażdegoǫ>0istniejesiećn[g]dlaktórej f f p <ǫ warunek Leshno wyznacza warunek konieczny i wystarczający aproksymacji funkcji całkowalnych z p-tą potęgą na zbiorze ograniczonym 13 czerwca 2005 7. Zagadnienia aproksymacji funkcji 7-7

Równoczesna aproksymacja funkcji całkowalnych i ich pochodnych funkcje aproksymowane: funkcja i jej pochodne do rzędu rzędu m są ciągłe i całkowalne z p-tą potęgą na zbiorze ograniczonym U [Hornik, Stinchcombe, White, 1990] jeżeli funkcja aktywacji g jest d-krotnie różniczkowalna w sposób ciągły, ograniczona i różna od stałej to sieć N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnieaproksymować(wsensienormy f p )nazbiorzeograniczonymdowolną funkcję ciągłą oraz jej pochodne do rzędu d włącznie tzn. dla każdej funkcji, której pochodne do rzędu d są ciągłe i p-krotnie całkowalne (d 1,1 p< )nazbiorzeograniczonymikażdegoǫ>0istniejesiećn[g]dla której D k f D k f p <ǫ dlakażdegok: k d 13 czerwca 2005 7. Zagadnienia aproksymacji funkcji 7-8

Aproksymacja funkcji nieciągłych funkcje aproksymowane: dowolne(mierzalne) określone na zbiorze domkniętym i ograniczonym [Luzin] funkcja mierzalna może być zmodyfikowana do funkcji ciągłej przez zmianę wartości na zbiorze o arbitralnie małej mierze jeżeli funkcja aktywacji g jest ciągła, ograniczona i różna od stałej to sieć N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie(w sensie supremum) aproksymować na podzbiorze dowolnie mało różniącym się od dziedziny funkcji, dowolną funkcję(mierzalną) na zbiorze domkniętym i ograniczonym tzn. dla każdej funkcji mierzalnej na zbiorze domkniętym i ograniczonym i każdego ǫ>0istnieją:siećn[g]izbiórdomkniętyiograniczonyu ǫ Udowolniebliski zbiorowiuwtymsensie,żeµ L (U U ǫ ) ǫ,dlaktórych sup f(u) f(u) ǫ u U ǫ 13 czerwca 2005 7. Zagadnienia aproksymacji funkcji 7-9

Aproksymacja funkcji zmiennej losowej ujestzmiennąlosowaokreślonąnazbiorzeu R n ;jejrozkładoddajewagę punktów zbioru U funkcje aproksymowane: funkcje p-tego rzędu zmiennej losowej u, tzn. E f(u) p < dlapewnegop,1 p< odległośćfunkcjiwsensiep-tychmomentów,tzn.d(f, f)= (E ( f(u) f(u) ) p ) 1/p [Hornik, 1991] jeżeli funkcja aktywacji g jest ograniczona i różna od stałej to sieć N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie(w sensie p-tych momentów) aproksymować dowolną funkcję p-tego rzędu zmiennej losowej u tzn.dlakażdejfunkcjifdlaktóreje f(u) p < ikażdegoǫ>0istniejesieć N[g]dlaktórej E f(u) f(u) p <ǫ 13 czerwca 2005 7. Zagadnienia aproksymacji funkcji 7-10

Zestawienie twierdzeń aproksymacyjnych dziedzina U R n funkcja aproksymowana twierdzenie autor własności odległośćfunkcji @ funkcji ciągłych @ funkcji ciągłych @ wraz z pochodnymi funkcji ciągłych @ funkcji całkowalnych @ wraz z pochodnymi funkcji całkowalnych domknięty, ograniczony domknięty, ograniczony domknięty, ograniczony C sup f f gograniczona,c, const @ C esssup f f glokalnieistotnieograniczona, domknięcie zbioru p. nieciągłościmamiarę0 (gniejest wielomianem @) C d max k d sup Dk f D k f gograniczona,cd, const @ Hornik 1991 Leshno 1993 HSW 1990 ograniczony L p f f p gograniczona, const @ Hornik 1991 ograniczony L p,c d @ dowolnych funkcji ograniczony, domknięty dowolne (mierzalne) @funkcjilosowych ograniczony E f(u) p < @- aproksymacja, HSW- Hornik, Stinchcombe, White, 1990 max k d Dk f D k f p gograniczona,c d, const @ sup f f,µ L (U U ǫ )<ǫ gograniczona,c, const u Uǫ @ E f f p HSW 1990 Hornik 1991 gograniczona, const @ Hornik 1991 13 czerwca 2005 7. Zagadnienia aproksymacji funkcji 7-11

8. Techniki minimalizacji a sieci neuronowe 8-1 Błąd aproksymacji 8-2 Minimalizacja kosztu 8-3 Tryby minimalizacji 8-4 Metoda największego spadku 8-5 Gradient sprzężony 8-6 Metoda Newtona 8-7 Metody zmiennej metryki 8-8 Metoda Levenberga-Marquardta 8-9 Specyficzne techniki neuronowe: Wygładzanie inercyjne wag 8-10 Specyficzne techniki neuronowe: Reguła delta-delta 8-11 Specyficzne techniki neuronowe: Reguła delta-bar-delta 13 czerwca 2005 8. Techniki minimalizacji a sieci neuronowe 8-0

Bibliografia [0-1] W.H. Press, B.P. Flannery, S.A. Teukolsky, and W. T. Vetterling, Numerical Recipies. The Art of Scientific Computing, Cambridge University Press, Cambridge 1986, 1992 [0-2]K.W.Brodlie,Ch.III.1.,Secs.3 6inTheStateoftheArtinNumericalAnalysis, D.A.H. Jacobs(Ed.), Academic Press, London 1977 [0-3] J.A. Freeman and D.M. Skapura, Neural Networks: algorithms, applications, and programming techniques, Addison-Wesley, Reading, Massachusetts, USA, 1991 [0-4] P. Werbos, The Roots of Backpropagation: From Ordered Derivatives to Neural Networks and Political Forecasting, Wiley, New York 1994 13 czerwca 2005 8. Techniki minimalizacji a sieci neuronowe 8-0

Błąd aproksymacji skończonyzbiórobrazówu={u 1,...,u N },U L =U Q= 1 2 ε i 2 Udowolny,U L losowanyzgodniezeznanymrozkłademnau Q 0 = 1 2 E ε 2 Udowolny,U L losowanyzgodniezpewnymrozkłademnau Q N (t)= 1 2 A N ε(t) 2 Q 0 13 czerwca 2005 8. Techniki minimalizacji a sieci neuronowe 8-1

Funkcja błędu Minimalizacja kosztu Q N (w)= 1 N k t=k N +1 q(y(t;w) y (t))= 1 N k t=k N +1 y(t;w) y (t) 2 Metody gradientowe w(k+1)=w(k)+ηr(δ(k)) gdzie w wektor wszystkich wag sieci δ(k)= Q N (w(k)) gradient Q N wk-tymkrokuminimalizacji H(k)= Q N (w(k)) hessian Q N wk-tymkrokuminimalizacji r wektorowa funkcja gradientu określająca nowy kierunek η krok minimalizacji k indeks kroku minimalizacji 13 czerwca 2005 8. Techniki minimalizacji a sieci neuronowe 8-2

Tryby minimalizacji (N, M, L): długość okna(przedział uśredniania) N, przesunięcie okna po wykonaniu kroków minimalizacji M, liczba kroków minimalizacji dla jednej estymaty gradientu tryb natychmiastowy(1, 1, 1) koszt oczekiwany estymowany jest przez koszt chwilowy(1-elementowe uśrednianie kosztu), minimalizacja po każdej prezentacji trybwsadowy(n,n,1) uśrednienie N > 1 kosztów chwilowych przed każdą minimalizacją; dla skończonegou L przyjmujesięn= U L (epoka) wielokrotne użycie gradientu(n, N, L) prezentacja N nowych wejść, L > 1 kroków minimalizacji ruchomeokno(n,m,l) przesunięcieoknaodługościnom<nchwil(usunięciemnajstarszychi prezentacjamnowychwejść),uśrednianiewoknieodługościn,wykonaniel 1 kroków minimalizacji 13 czerwca 2005 8. Techniki minimalizacji a sieci neuronowe 8-3

wzórtaylora1rzędu Metoda największego spadku Q(w+µr)=Q(w)+µr T Q (w)+o(µ) dlar= Q (w) Q(w+µr)=Q(w) µ Q (w) 2 <Q(w) algorytm korekcji wag w(k+1)=w(k) µδ(k) algorytm jest zwykle połączony z obliczaniem gradientu metodą propagacji zwrotnej 13 czerwca 2005 8. Techniki minimalizacji a sieci neuronowe 8-4

Gradient sprzężony funkcjakwadratowawr d,minimalizacjawkierunku minimalizacja(r) minimalizacja(s) minimalizacja(r, s) zmianagradientuoµq (w)r(k) kierunkir,ssprzężone:r T Q s=0 metodagradientusprzężonegor(k) T H(k)s(s)=0 dlas=1,...,k 1 r(k)= δ(k)+β(k 1)r(k 1), r(0)= δ(0) β(k)= δ(k+1) 2 δ(k) 2 β(k)= (δ(k+1) δ(k))t δ(k+1) δ(k) 2 Fletcher-Reeves Polak-Ribière restart po d krokach zbieżne superliniowo; praktycznie: liniowo dla funkcji kwadratowej: F-R, P-R identyczne, zbieżność w d krokach 13 czerwca 2005 8. Techniki minimalizacji a sieci neuronowe 8-5