Sieci neuronowe: perspektywa systemowa

Transkrypt

1 Sieci neuronowe: perspektywa systemowa 1 Co to są sieci neuronowe 2 Standardowe elementy sieci neuronowych 3 Zagadnieniaklasyfikacji 4 PerceptronRosenblatta 5 Maszyny wektorów podpierających 6 Adaline 7 Zagadnienia aproksymacji funkcji 8 Techniki minimalizacji a sieci neuronowe 9 Propagacja zwrotna gradientu 10 Propagacja zwrotna w perceptronie wielowarstwowym 11 Jakość aproksymacji funkcji 12 Zjawiska dynamiczne w sieciach 13 Modele NARX układów nieliniowych 14 Optymalizacja globalna i pamięci asocjacyjne 13 czerwca 2005.

2 1.Cotosąsiecineuronowe 1-1 Bio-modelowanie 1-2 Badania inspirowane przez bio-modelowanie 1-3 Sieci neuronowe- zgrubna charakterystyka 1-4 Kamienie milowe rozwoju sieci neuronowych 1-5 Zastosowania sieci neuronowych Bibliografia [0-1] James A. Anderson and Edward Rosenfeld(Eds.) Neurocomputing. Foundations of Research, MIT Press, Cambridge, Massachusetts 1988 [0-2] W.S. McCulloch and W.H. Pitts, A logical calculus of the ideas immanent in nervous activity, Bull. Math. Biophysics, vol. 5, , 1943 [0-3] J.J. Hopfield, Neural networks and physical systems with emergent collective computational abilities, Proc. of the National Acad. of Sciences of the USA, vol. 79, , czerwca Co to są sieci neuronowe 1-0

3 [0-4] J.J. Hopfield, Neurons with graded response have collective computational properties like those of two-state neurons, Proc. of the National Acad. of Sciences of the U.S.A., vol. 81, , 1984 [0-5] M.L. Minsky and S.A. Papert, Perceptrons, MIT Press, Cambridge, Ma., 1969; Expanded Edition, MIT Press, Cambridge, Ma., 1988 [0-6] F. Rosenblatt, The perceptron: a probabilistic model for information storage and organization in the brain, Psychological Review, vol. 65, No. 6, pp , Reprinted in[0-1], Ch. 8, pp , 1988 [0-7] F. Rosenblatt, Principles of Neurodynamics, Spartan Books, Washington, D.C., 1962 [0-8] D.E. Rumelhart, G.E. Hinton, and R.J. Williams, Learning internal representations by error propagation, in Parallel Distributed Processing, D.E. Rumelhart and J.L. McClelland, Eds., vol. 1, Chap. 8, MIT Press, Cambridge, Ma., 1986 [0-9] P. Werbos, The Roots of Backpropagation: From Ordered Derivatives to Neural Networks and Political Forecasting, Wiley, New York 1994 [0-10] B. Widrow and M.E. Hoff, Adaptive switching circuits, 1960 IRE WESCON Convention Record, vol. 4, pp , czerwca Co to są sieci neuronowe 1-0

4 Bio-modelowanie Cele: poznawcze Zastosowania: biologia, medycyna, farmacja, psychologia 13 czerwca Co to są sieci neuronowe 1-1

5 Badania inspirowane przez bio-modelowanie Cele: specyficzne dla dziedziny zastosowań(nie-biologiczne) Modyfikacja modeli biologicznych; wyniki nie kopiują biologii Potrzeba ponawiania inspiracji biologicznych 13 czerwca Co to są sieci neuronowe 1-2

6 Sieci neuronowe- zgrubna charakterystyka Modularność Równoległość Nieliniowość Adaptacja do zmian środowiska Tolerancja na uszkodzenia(stopniowa utrata jakości) Nadmiar parametrów Własności aproksymacyjne 13 czerwca Co to są sieci neuronowe 1-3

7 Kamienie milowe rozwoju sieci neuronowych McCullochiPitts1943 modelneuronuy(t+1)=1(w T u ϑ) Rosenblatt 1958(Cornell U., Ithaca, NY) perceptron Widrow 1960(Stanford U., Stanford, CA) Adaline Minsky 1969(MIT, Cambridge, MA) perceptron + sztuczna inteligencja dekada spokoju Kohonen 1972(Helsinki U. of Techn.) liniowa pamięć asocjacyjna Werbos 1974(Harvard U. Ph.D., Cambridge, MA) propagacja zwrotna Grossberg 1983(Boston U., Boston, MA) stabilność sieci dynamicznych Hopfield 1982(Princeton U., Princeton, NJ) pamięć stabilność sieci Rummelhart, Hinton, Williams 1986(grupa PDP, MIT, Cambridge, MA) uczenie sieci poprzez propagację zwrotną 13 czerwca Co to są sieci neuronowe 1-4

8 Zastosowania sieci neuronowych Filtracja adaptacyjna, DSP Prognozowanie Klasyfikacja i rozpoznawanie(mowa, pismo) Biometria Wojskowość: rozpoznanie, identyfikacja celu Sterowanie, robotyka, systemy eksperckie, decyzyjne Ekonomia, Zarządzanie Fizyka, Astronomia Biologia(modelowanie DNA) Telekomunikacja Przemysł 13 czerwca Co to są sieci neuronowe 1-5

9 2. Standardowe elementy sieci neuronowych 2-1 Neuron 2-2 Funkcje aktywacji 2-3 Warstwa 2-4 Perceptron wielowarstwowy 2-5 Sieć bez sprzężeń 2-6 Sygnały 2-7 Adaptacja wag 13 czerwca Standardowe elementy sieci neuronowych 2-0

10 Neuron afiniczna transformacja wejścia u n z=b+ w i u i =b+w T u i=1 wagiw=[w 1 w n ] T obciążenieb,prógϑ= b równanie neuronu ( n y=g b+ w i u i )=g(b+w T u) i=1 funkcjaaktywacjig: R R obciążenie jako waga wagirozszerzoneowagęw 0 =b wejściarozszerzoneowejścieu 0 =1 ( n y=g w i u i )=g(w T u) i=0 13 czerwca Standardowe elementy sieci neuronowych 2-1

11 Funkcje aktywacji dyskretne f. aktywacji( twarde nieliniowości): f. znaku, f. skokowa ciągłe f. aktywacji(miękkie nieliniowości): f. sigmoidalne, sigmoid, f. gaussowska sigmoid funkcje radialne gaussowskie 13 czerwca Standardowe elementy sieci neuronowych 2-2

12 Warstwa struktura warstwy y 1 g 1 (z 1 ) y=. =g(b+wu), g(z)=. y m g m (z m ) b 1 w1 T w 1,1 w 1,n. b=., W=. =... b m w m,1 w m,n w T m zapis rozszerzony y=g(wu), u= 1, W=[b W]= u b 1 w1 T. b m w T m 13 czerwca Standardowe elementy sieci neuronowych 2-3

13 Perceptron wielowarstwowy warstwy ukryte warstwawyjściowa u (1) =u, u (k) =y (k 1), k=2,...,l y (k) =N (k) (u (k) ), k=1,...,l y=y (L) 13 czerwca Standardowe elementy sieci neuronowych 2-4

14 Sieć bez sprzężeń u (1) =u, u (k) = u y (1). y (k 1), k=2,...,l y (k) =N (k) (u (k) ), k=1,...,l y=y (L) 13 czerwca Standardowe elementy sieci neuronowych 2-5

15 Sygnały zbiórwejśću R n n liczba punktów obrazu, liczba czujników punkty obrazu binarne: U = zbiór wierzchołków kostki reprezentacjaasymetryczna reprezentacjasymetryczna wejściaograniczone:u=kostkawr n sygnał:funkcjat U 13 czerwca Standardowe elementy sieci neuronowych 2-6

16 Adaptacja wag siećstatycznay(t)=n ( u(t);w ) uczenie przykładtreningowy ( u(k),y (k) ) ; y (k) wyjściepożądane ciągtrenujący(ciąguczący) {( u(k),y (k) ),i=1,...,n } modyfikacjawagw(t+1)=h(w(t),u(t)) siećzuczeniem:y(t)=n ( u(t);h ( w(t 1),u(t 1) ) układdynamicznyy(t)=n{u(s),s t} struktura neuronu/warstwy/sieci mogą być bardziej skomplikowane siećdynamicznay(t)=n{u(s),s t} szybka dynamika (nie związana z uczeniem) i wolna dynamika (uczenie) 13 czerwca Standardowe elementy sieci neuronowych 2-7

17 3. Zagadnienia klasyfikacji 3-1 Obiekty i obrazy 3-2 Cechy 3-3 Klasyfikacja obrazów 3-4 Funkcje decyzyjne 3-5 *Klasyfikacja obiektów a klasyfikacja obrazów 3-6 *Problem niejednoznaczności obserwacji 3-7 *Niejednoznaczne dziedziczenie klas 3-8 *Dziedziczenie probabilistyczne 3-9 Klasyfikacja binarna a funkcje logiczne 3-10 Klasyfikacja liniowa 3-11 Najprostsze klasyfikacje nieliniowe 3-12 LiczbaklasyfikacjiliniowychNobrazówwR n 3-13 Liczba klasyfikacji liniowych- przykład 13 czerwca Zagadnienia klasyfikacji 3-0

18 3-14 Liczba binarnych klasyfikacji liniowych 3-15 Klasyfikatory liniowe 3-16 Liniowe klasyfikatory binarne 3-17 *Kontekst probabilistyczny 3-18 Budowa klasyfikatorów dostępna informacja 13 czerwca Zagadnienia klasyfikacji 3-0

19 Obiekty i obrazy zbiórobiektów S funkcjaobserwacji ϕ:s U zbiórobrazówu zwykleu R n n liczba czujników, liczba punktów obrazu obrazu=[u 1 u n ] T U obraz binarny, obraz czarno-biały u i {L,H}; (zwykle{0,1}) 13 czerwca Zagadnienia klasyfikacji 3-1

20 Cechy zbiórwektorówcech U R n funkcjacech ϕ :U U zmodyfikowanafunkcjaobserwacji ϕ ϕ:s U 13 czerwca Zagadnienia klasyfikacji 3-2

21 Klasyfikacja obrazów funkcja klasyfikująca l(u)=k u U k funkcje przynależności doklasyu k,k=1,...,c χ k (u)=1 u U k χ k (u)=0 u/ U k χ 1 (u) χ(u)=. χ c (u) zbiór decyzyjny D= k U k 13 czerwca Zagadnienia klasyfikacji 3-3

22 funkcja klasyfikująca l Funkcje decyzyjne funkcje decyzyjne l(u)=k d k (u)>d j (u)dlaj k funkcjeprzynależnościχ k sąfunkcjamidecyzyjnymi 13 czerwca Zagadnienia klasyfikacji 3-4

23 *Klasyfikacja obiektów a klasyfikacja obrazów klasyobiektóws i dziedziczoneklasyobrazówu i =ϕ(s i ) dziedziczeniejednoznaczne U i U j = fori j klasyfikacjaobrazówaklasyfikacjaobiektów: u U k s S k 13 czerwca Zagadnienia klasyfikacji 3-5

24 *Problem niejednoznaczności obserwacji obrazu funkcja obserwacji może nie być odwracalna: niejednoznaczności obserwacji przeciwobrazϕ 1 (u)obrazuu:zbiórobiektówmającychtensamobrazu s ϕ 1 (u) ϕ(s)=u klasy dziedziczone rozłączne: obiekty mające ten sam obraz należą do tej samej klasy klasy dziedziczone mogą nie być rozłączne 13 czerwca Zagadnienia klasyfikacji 3-6

25 *Niejednoznaczne dziedziczenie klas niejednoznaczność,jeżeliu i U j χ przyjmuje wartości z(niezerowych) wierzchołków kostki jednostkowej 13 czerwca Zagadnienia klasyfikacji 3-7

26 *Dziedziczenie probabilistyczne rozkład obiektów P funkcjaprzynależnościwu: χ k (u)=p{s S k } χ przyjmuje wartości z kostki jednostkowej 13 czerwca Zagadnienia klasyfikacji 3-8

27 Klasyfikacja binarna a funkcje logiczne N=4 (4obrazy) U R 2 (obrazyzłożonez2punktów) c=2 (klasyfikacjebinarne) u 1 ANDu 2 u 1 ORu 2 NOTu 1 u 1 XORu 2 13 czerwca Zagadnienia klasyfikacji 3-9

28 Klasyfikacja liniowa hiperpłaszczyznah(w,b)={u R n :w T u+b=0} w wektor normalny, b przesunięcie podprzestrzeńdodatniau + (w,b)={u R n :w T u+b>0}względem hiperpłaszczyzny H(w, b) podprzestrzeńujemnau (w,b) klasyfikacja liniowa: dowolne dwie klasy można rozdzielić hiperpłaszczyzną 13 czerwca Zagadnienia klasyfikacji 3-10

29 Najprostsze klasyfikacje nieliniowe 3obrazybinarnewR,2klasy obrazybinarnewR 2,2klasy czerwca Zagadnienia klasyfikacji 3-11

30 LiczbaklasyfikacjiliniowychNobrazówwR n liczba klasyfikacji liniowych L(N, n)(< dla szczególnych usytuowań obrazów) 2 N forn n+1 ( małoobrazów ) L(N,n)= 2 n ) forn n+1 i=0 ( N 1 i liczba klasyfikacji liniowych/ liczba klasyfikacji binarnych r(n,n)= L(N,n) 1 dla N = B(N) 2 1 N n ) i=0 ( N 1 i n+1 1 dla N n+1 1 r(n,n) n= n=1,4,16,64, polowa klasyfikacji liniowa N / (n+1) dlaconajwyżejn 0 =n+1obrazówwr n wszystkieklasyfikacjemogąbyćliniowe dlan v =2(n+1)obrazówwR n conajwyżejpołowaklasyfikacjijestliniowa N v :pojemnośćklasyfikacjiliniowychwr n 13 czerwca Zagadnienia klasyfikacji 3-12

31 Liczba klasyfikacji liniowych- przykład N = N = N = N = N = N = N = wszystkiepojemność liniowe B(N) R 1 * R 2 4 * R * R * R * lewa+górnalewa L(N,n)=L(N 1,n)+L(N 1,n 1) 13 czerwca Zagadnienia klasyfikacji 3-13

32 Liczba binarnych klasyfikacji liniowych liczba max. liczba liczba liczba ułamek punktów obrazów klasyfikacji klasyfikacji klasyfikacji obrazu binarnych binarnych liniowych liniowych n N=2 n B(N)=2 N L(N,n) r=l/b czerwca Zagadnienia klasyfikacji 3-14

33 Klasyfikatory liniowe afinicznefunkcjedecyzyjned k (u)=b k +wk T u, k=1,...,c b 1 +w1u T d(u)=. =b+wu=wu b c +wcu T afiniczne funkcje decyzyjne klasy liniowo rozdzielne klasy liniowo rozdzielne istnieją afiniczne funkcje decyzyjne funkcje decyzyjne są porównywane parami(liczbę wierszy W można zmniejszyć o jeden) b i +w T iu>b j +w T ju b+w T u>0 gdziew=w i w j,b=b i b j 13 czerwca Zagadnienia klasyfikacji 3-15

34 Liniowe klasyfikatory binarne binarny klasyfikator liniowy d(u) = 1 jeśliw T u+b<0 l(u)= 1 jeśliw T u+b>0 gdziew=w + w,b=b + b b ++w+u T b +w u T zmodyfikowana funkcja decyzyjna porównywana z zerem d(u)=b+w T u hiperpłaszczyznaklasyfikującah(w,b)={u:d(u)=0} 13 czerwca Zagadnienia klasyfikacji 3-16

35 *Kontekst probabilistyczny jeśliϕ(s i ) ϕ(s j ) toklasyfikacjaniejestjednoznaczna. dodatkowo znana miara probabilistyczne P na S rozkład obrazów w ramach każdej klasy(ciągły) f u k (z)dz=p(z u z+dz s S k ) rozkładaprioriklas{π k,k=1,...,c},gdzieπ k =P{s S k } znanyobrazu;rozkładaposterioriklas π k u =P{s S k u} (regułabayesa)= π kf u k (u) f u (u) klasyfikacja w zbiorze obrazów = π kf u k (u) c i=1 π if u i (u) funkcjadecyzyjna:d k (u)=π k u klasyfikatorbayesowski równoważnaf.d:d k (u)=π k f u k (u) dladyskretnegorozkładuobrazów:p j k =P(u=j s S k ) π k j = π kp j k p j = π kp j k c i=1 π ip j i 13 czerwca Zagadnienia klasyfikacji 3-17

36 Budowa klasyfikatorów dostępna informacja liczbaklascznana przykładuczący(u i,l(u i )) zbiór uczący(zbiór trenujący) U L = {( u i,l(u i ) ),i=1,...,n } liczbaklascznanalubnie przykładuczącyu i (klasanieznana) zbiór uczący U L ={u i,i=1,...,n} 13 czerwca Zagadnienia klasyfikacji 3-18

37 4. Perceptron Rosenblatta 4-1 Krótka historia perceptronu Rosenblatta 4-2 Binarne klasyfikatory liniowe 4-3 Struktura perceptronu Rosenblatta 4-4 Perceptron Rosenblatta a klasyfikacja 4-5 Perceptron jednowarstwowy: uczenie 4-6 Modyfikacje algorytmu uczenia 4-7 Funkcja kosztu dla perceptronu Rosenblatta 4-8 Algorytm kieszeniowy Gallanta 4-9 Istnienie uniwersalnego dwuwarstwowego perceptronu Rosenblatta 4-10 Warstwa ukryta: kodowanie 4-11 Maszyny liniowe 4-12 Maszyna liniowa a perceptron 4-13 Uczenie jednowarstwowej maszyny liniowej 13 czerwca Perceptron Rosenblatta 4-0

38 Krótka historia perceptronu Rosenblatta Frank Rosenblatt(Cornell U.) 1958 uniwersalna maszyna do rozpoznawania i klasyfikacji wzorców sztuczny mózg, histeryczna reakcja mediów hardware: Mark I (1960) matryca fotodiod, każda losowo łączona z 40 neuronami warstwy ukrytej 512 neuronów warstwy ukrytej 8 neuronów wyjściowych, silniki sterujące potencjometrami wag Rosenblatt Principles of Neurodynamics, 1962 Minsky i Papert(MIT) Perceptrons, większość publikacji jest bez wartości naukowej perceptron jednowarstwowy tylko klasyfikacja liniowa pozostało: connectionism, architektury warstwowe, obliczenia równoległe, uczenie wag 13 czerwca Perceptron Rosenblatta 4-1

39 Binarne klasyfikatory liniowe funkcjadecyzyjnad(u)=w T u+b funkcja klasyfikująca 1 jeśliw T u+b<0 l(u)= 1 jeśliw T u+b>0 margines funkcyjny obrazu u względem hiperpłaszczyzny H(w, b) > 0 poprawna klasyfikacja u f (u)=(w T u+b)l(u) <0 błędnaklasyfikacjau margines geometryczny obrazu u względem hiperpłaszczyzny H(w, b) odległość opatrzona znakiem przy błędnej klasyfikacji g (u)= f(u) w = d ( u,h(w,b) ) d ( u,h(w,b) ) poprawnaklasyfikacjau błędnaklasyfikacjau (przyjętow 2 = 1) 13 czerwca Perceptron Rosenblatta 4-2

40 Struktura perceptronu Rosenblatta jednowarstwowy perceptron Rosenblatta neuron dwuwartościowy (aktywny- nieaktywny) typowa funkcja aktywacji: sign dwuwarstwowy perceptron Rosenblatta wejścia:obrazyu R n (warstwansensorów) warstwa ukryta(asocjacyjna): wagi stałe warstwa wyjściowa(odpowiedzi): wagi adaptowane 13 czerwca Perceptron Rosenblatta 4-3

41 Perceptron Rosenblatta a klasyfikacja perceptronjakofunkcjaklasyfikująca(wejście:obrazy R n,wyjście:{ 1,1}) problem reprezentacji: czy rodzina funkcji wytwarzanych przez perceptron Rosenblatta jest wystarczająco bogata, by rozwiązać dowolny problem klasyfikacji? perceptron jednowarstwowy: dla dowolnego zbioru obrazów jednowarstwowy perceptron Rosenblatta może realizować dowolne klasyfikacje liniowe binarne tych obrazów perceptron dwuwarstwowy: dla zadanego skończonego zbioru obrazów istnieje dwuwarstwowy perceptron Rosenblatta, którego wagi warstwy wyjściowej dobierać tak, by realizować dowolne klasyfikacje binarne tych obrazów 13 czerwca Perceptron Rosenblatta 4-4

42 Perceptron jednowarstwowy: uczenie prezentacjaobrazówzezbioruuczącegou L : ciąguczący {( u(t),y (t) ),t=1,...,n } gdziey (t)=l(u(t)) wyjściepożądane epoka jednokrotna prezentacja wszystkich N obrazów ze zbioru treningowego w losowej kolejności modyfikacjawag w(t+1)=w(t)+ w(t) dowolne wagi początkowe w(0), korekcja wag w przypadku błędnej klasyfikacji 0 jeżeli(w T u+b)y >0 (klasyfikacjapoprawna) w= y u jeżeli(w T u+b)y 0 (klasyfikacjabłędna) =usign ( y y ) po skończonej liczbie korekcji sieć klasyfikuje prawidłowo wagi prawidłowo klasyfikujące nie są jednoznaczne 13 czerwca Perceptron Rosenblatta 4-5

43 Modyfikacje algorytmu uczenia zróżnicowanie współczynników szybkości uczenia µ: korekcjawprzypadkubłędnejklasyfikacji(y (w T u+b)<0) w=µul(u) b=µr 2 l(u) gdzier=max UL u tw.[novikoff] dla liniowo rozdzielnego zbioru uczącego o hiperpłaszczyźnie decyzyjnejh(w,b )liczbakorekcjijestniewiększaniż 4R2 gdzie 2 g oznacza g margines geometryczny hiperpłaszczyzny decyzyjnej g = inf d ( u,h(w,b ) ) u U L współczynnikuczeniamożezmieniaćsięwczasie0<µ min <µ(t)<µ max korekcjabezwzględna powtarzaniekorekcjidlakażdegou i ażdopoprawnej klasyfikacjiu i 13 czerwca Perceptron Rosenblatta 4-6

44 Funkcja kosztu dla perceptronu Rosenblatta obrazy źle klasyfikowane przez hiperpłaszczyznę decyzyjną H(w, b) U L (w,b)={u U L (w,b):l(u)(b+w T u)<0} koszt błędnej klasyfikacji Q(w,b)= u i U L (w,b) f (w,b)= u i U L (w,b) (b+w T u i )sign(y i y i ) Q(w)różniczkowalnazwyjątkiemNhiperpłaszczyzn{(w,b):u T iw+b=0}wr n+1 gradient dq(w) dw = u i U L u i sign(yi y i ), metodanajwiększegospadkuzobliczeniemgradienturaznaepokęt k w(t+n)=w(t)+µ dq(w) dw =w(t)+µ u(t)sign ( y (t) y(t) ) t T k identyczna z algorytmem Rosenblatta z korekcją wag raz na epokę metoda największego spadku z chwilową aproksymacją gradientu w(t+1)=w(t)+µ d Q(w) dw =w(t)+µu(t)sign( y (t) y(t) ) identyczna z algorytmem Rosenblatta 13 czerwca Perceptron Rosenblatta 4-7

45 Algorytm kieszeniowy Gallanta waga wkieszeni w G (t) odpowiada najdłuższej w chwili t serii identycznych wag wagaoptymalnaw minimalizuje prawdopodobieństwo błędnej klasyfikacji jeżeli U L jestskończony wagi w(t) są losowe niezależne o identycznych rozkładach, to Plimw G (t)=w P{w G (t)=w } t 1 13 czerwca Perceptron Rosenblatta 4-8

46 Istnienie uniwersalnego dwuwarstwowego perceptronu Rosenblatta zbióruczącyu L ={u 1,...u N },u i R n warstwa ukryta: 2N neuronów dlakażdegoobrazuu i określićhiperpłaszczyzny H(v i,β i),h(v i,β i)ineuronyi,i,aby u i U (v i,β i) U + (v i,β i) u j U + (v i,β i) U (v i,β i),j i wyjścianeuronówukrytychdlawejściau i x i =0, x i =1 neuron wyjściowy x j =x j dlaj i w i =1,w i = 1jeżeliu i U w i = 1,w i =1jeżeliu i U + (w j x j +w j x j =0dlaj i) b=0 jakwyznaczyćv i,β i,β i konstrukcja nieefektywna: więcej neuronów ukrytych niż obrazów treningowych zła generalizacja dla praktycznych problemów 13 czerwca Perceptron Rosenblatta 4-9

47 Warstwa ukryta: kodowanie kodowaniewybranychobrazów Nwybranychobrazów,h=2N wymaga znajomości obrazów a zakłócenia? kodowaniezupełne wszystkieobrazybinarne,h=n 2 n nierealizowalnie duża warstwa ukryta dla rzeczywistych zadań kodowanie losowe warstwa ukryta o zadanej wielkości h wybrana losowo tylkon h+1obrazówklasyfikowanychpoprawnie tylko N = 2(h + 1) obrazów(pojemność liniowa) klasyfikowanych poprawnie z prawdopodobieństwem 0.5 kodowanie adaptacyjne najlepsze, ale wymaga adaptacji warstwy ukrytej 13 czerwca Perceptron Rosenblatta 4-10

48 Maszyny liniowe warstwaukrytax=1(vu) warstwawyjściowa:y=χ(wx) R c 1 jeżeliwk T y k = x>wt j xdlawszystkichj k 0 w przeciwnym przypadku zwycięzca bierze wszystko (WTA ang. winner takes all) 13 czerwca Perceptron Rosenblatta 4-11

49 Maszyna liniowa a perceptron jednowarstwowa maszyna liniowa z dwoma wyjściami 1 jeżeliw 1 x>w 2 x y 1 = 0 wprzeciwnymprzypadku =1(wT x) y 2 =1 y 1 jestrównoważnaperceptronowiowektorzewagwyjściowychw=w 1 w 2 a zatem może realizować dowolną binarną klasyfikację liniową maszyna liniowa z c wyjściami jest równoważna perceptronowi utworzonemu dla n c wymiarowej przestrzeni obrazów zawierającej N c razy więcej obrazów. maszyna liniowa o c wyjściach może realizować dowolną liniową klasyfikację na c klas 13 czerwca Perceptron Rosenblatta 4-12

50 Uczenie jednowarstwowej maszyny liniowej klasyfikacja liniowa skończonego zbioru obrazów na c klas każdy obraz pojawia wielokrotnie, w skończonych odstępach wagi początkowe dowolne algorytmkorekcjiwag W(t)=sign ( y (t) y(t) ) u T (t) dla obrazów klasyfikowanych poprawnie W(t) = 0 dla obrazów klasyfikowanych błędnie u(t) dla k = l(u(t)) (klasa właściwa) w k (t)= u(t) dlak=wta ( Wu(t) ) (klasawygrywająca) 0 dla pozostałych k wagi są prawidłowe po skończonej liczbie korekcji dla c = 2 algorytm identyczny z algorytmem Rosenblatta 13 czerwca Perceptron Rosenblatta 4-13

51 5. Maszyny wektorów podpierających 5-1 Postać dualna perceptronu Rosenblatta 5-2 Region separujący 5-3 Optymalna hiperpłaszczyzna decyzyjna 5-4 Przypomnienie: Minimalizacja z ograniczeniami(1) 5-5 Minimalizacja z ograniczeniami(2): Problem dualny 5-6 Minimalizacja z ograniczeniami(3): Warunki Kuhna-Tuckera 5-7 Maksymalizacja marginesu hiperpłaszczyzny decyzyjnej 5-8 Zadanie dualne 5-9 Własności rozwiązania 5-10 Wyznaczenie obciążenia 5-11 Iloczyn skalarny w przestrzeni cech 5-12 SVM maksymalizujące margines 13 czerwca Maszyny wektorów podpierających 5-0

52 5-13 Warunek Mercera 5-14 Przykłady SVM 5-15 Przykład: Maszyna wielomianowa dla problemu XOR 5-16 Klasy liniowo nierozdzielne 5-17 Liniowa kara za naruszenie ograniczeń 5-18 SVM dla liniowej kary 5-19 SVM dla liniowej kary problem skalowania 5-20 Rozwiązania numeryczne 5-21 Porcjowanie i dekompozycja Bibliografia [0-1] N. Cristiannini, J Shave-Taylor, An Introduction to Support Vector Machines Cambridge University Press, Cambridge, UK 2000 [0-2] 13 czerwca Maszyny wektorów podpierających 5-0

53 Postać dualna perceptronu Rosenblatta optymalne wagi są liniową kombinacją obrazów treningowych w= u(t)sign ( y (t) y(t) ) t = N α i u i l(u i ) i=1 α i liczbabłędnychklasyfikacjii-tegoobrazu(siłaobrazu) reprezentacja ta nie jest jednoznaczna perceptron postać dualna N(u)=sign ( N b+u T α i u i l(u i ) ) i=1 =sign ( N b+ α i (u T iu)l(u i ) ) i=1 13 czerwca Maszyny wektorów podpierających 5-1

54 Region separujący H(w,b)klasyfikujepoprawnie,jeślidlapewnego >0 u i U L+ b+w T u i u i U L b+w T u i czyli ( b+wt u i ) l(ui ) dlau i U L marginesfunkcyjny f hiperpłaszczyzny:największemożliwe,tzn. dlaconajmniejjednegou i U L ( b+w T u i ) l(ui )= f (obrazypodpierająceu S ) regionseparujący{u R n : b+w T u < f } przypomnienie:odległośćpunktuu 0 odhiperpłaszczyznyh(w,b)jestrówna wt u 0 +b w, odległośćhiperpłaszczyznh(w,b 1 ),H(w,b 2 )jestrówna b 1 b 2 w szerokość regionu separującego 2 f w postaćkanoniczna f =1(usuniętaniejednoznaczność) 13 czerwca Maszyny wektorów podpierających 5-2

55 Optymalna hiperpłaszczyzna decyzyjna optymalnahiperpłaszczyznadecyzyjnah(w,b ): a.bezbłędnieklasyfikujeobrazyucząceu i U L ( w T u i +b ) l(u i ) 1 dlau i U L b.maksymalizujemarginesgeometrycznytzn.odległośćd(u L,H(w,b)) g =d(u L,H(w,b ))= 1 w klasyfikator maksymalizujący margines geometryczny N(u)=sign(w T u+b ) 13 czerwca Maszyny wektorów podpierających 5-3

56 Przypomnienie: Minimalizacja z ograniczeniami(1) problempierwotnyznaleźćϑ minimalizującefunkcjęf(ϑ),ϑ Θ R n,przy ograniczeniach g i (ϑ) 0, i=1,...,k h j (ϑ)=0, j=1,...,m (g(ϑ) 0) (h(ϑ)=0) obszardopuszczalnyd={ϑ Θ:g(ϑ) 0,h(ϑ)=0} rozwiązanie(globalne)problemupierwotnegoϑ f(ϑ )<f(ϑ) dlakażdego ϑ D,ϑ ϑ ograniczenieaktywne:g i (ϑ )=0,ograniczenienieaktywne:g i (ϑ )<0 funkcja Lagrange a, mnożniki Lagrange a L(ϑ,α,β)=f(ϑ)+ k α i g i (ϑ)+ i=1 m β j h j (ϑ) j=1 13 czerwca Maszyny wektorów podpierających 5-4

57 Minimalizacja z ograniczeniami(2): Problem dualny problemdualny:znaleźćα,β maksymalizującefunkcję L (α,β)=inf ϑ Θ L(ϑ,α,β) przy ograniczeniach α 0 f(ϑ) L (α,β)dlakażdegoϑ D,α 0,β jeślif(ϑ )=L (α,β )gdzieα 0,ϑ D, toϑ, ( α,β ) sąrozwiązaniamiproblemupierwotnegoidualnego, aponadtoα g =0 lukadualności:l=inf ϑ D f(ϑ) sup α 0,β L (α,β) 0 punktsiodłowy:lukadualnościjestzerowawtedyitylkowtedygdy(ϑ,α,β ) jestpunktemsiodłowymfunkcjilagrange atzn.dlakażdegoϑ Θ,α 0,β L(ϑ,α,β) L(ϑ,α,β ) L(ϑ,α,β ) 13 czerwca Maszyny wektorów podpierających 5-5

58 Minimalizacja z ograniczeniami(3): Warunki Kuhna-Tuckera jeżeliθjestzbioremwypukłymiograniczeniasąafiniczne,tol=0 warunki Kuhna-Tuckera dla funkcji f wypukłej i ciągłej wraz z pochodnymi na zbiorzewypukłymθiafinicznychfunkcjig i,h j : ϑ jestrozwiązaniemproblemupierwotnegowtedyitylkowtedy,gdyistnieją α,β takie,że L ϑ ϑ,α,β =0 L β ϑ,α,β =0 (K-T1) (K-T2) α ig i (ϑ )=0, i=1,...,k g i (ϑ ) 0, i=1,...,k α i 0, i=1,...,k (K-T3a) (K-T3b) (K-T3c) dlaograniczeńaktywnychα i 0,dlaograniczeńnieaktywnychα i =0 13 czerwca Maszyny wektorów podpierających 5-6

59 Maksymalizacja marginesu hiperpłaszczyzny decyzyjnej problem optymalizacji minimalizować Q(w,b)= 1 2 w 2 funkcjawypukłanazbiorze R n+1 przyograniczeniach l(u i ) ( w T u i +b ) 1, i=1,...,n afiniczne funkcja Lagrange a L(w,b;α)= 1 2 wt w+ N i=1 α i ( 1 l(u i ) ( w T u i +b )) zadanie dualne: programowanie kwadratowe, rozwiązanie numeryczne = warunki Kuhna-Tuckera nie dają rozwiązania w postaci analitycznej, ale pozwalają na określenie jego właściwości = 13 czerwca Maszyny wektorów podpierających 5-7

60 Zadanie dualne L funkcja dualna: w = L b =0(K-T1)czyli N w = α i u il(u i ) podstawiamydofunkcjilagrange a i=1 N α i l(u i )=0 i=1 czyli L (α)= 1 2 w T w + N α i = i=1 zadanie dualne: maksymalizować ograniczeniewproblemiedualnym N α i 1 2 i=1 N i=1j=1 N α i α j l(u i )l(u j )u T iu j L (α)= N α i 1 2 i=1 N N α i α j l(u i )l(u j )u T iu j i=1j=1 przy ograniczeniach N i=1 α il(u i )=0 α i 0, i=1,...,n α zależyodu i tylkopoprzeziloczynyskalarneu T iu j numeryczne rozwiązanie problemu dualnego: programowanie kwadratowe 13 czerwca Maszyny wektorów podpierających 5-8

61 trzeci warunek Kuhna-Tuckera Własności rozwiązania α i (1 l(u i ) ( w T u i +b )) =0, i=1,...,n K-T3a l(u i ) ( w T u i +b ) 1, i=1,...,n α i 0, i=1,...,n K-T3b K-T3c α i =0 l(u i ) ( w T u i +b ) <1 u i wewnątrzzbiorudopuszczalnego α i 0 l(u i ) ( w T u i +b ) =1 u i obrazpodpierający dlaobrazówinnychniżpodpierająceα i =0(K-T3a)czyli w = u i U S α iu i l(u i ) optymalny margines geometryczny w 2 =w T u i U S αi l(u i)u i = ( u i U S αi 1 l(ui )b ) = u i U S αi czyli 1 g = u i U α S i 13 czerwca Maszyny wektorów podpierających 5-9

62 Wyznaczenie obciążenia b możnawyznaczyćzograniczeńpierwotnych 1 w T u i b dlal(u i )=1 b 1 w T u i dlal(u i )= 1,czyli b 1 min ui:l(ui)=1w T u i b 1 max ui :l(u i )= 1w T u i ostatecznie b = 1 ( min w T u i + max w T ) u i 2 u i U L+ u i U L dladowolnegoobrazupodpierającegol(u j ) ( w T u j +b ) =1tzn. b =l(u j ) w T u j, u j U S 13 czerwca Maszyny wektorów podpierających 5-10

63 Iloczyn skalarny w przestrzeni cech reguła klasyfikacji dla sieci jednowarstwowej N(u)=sign (b + ) α il(u i )u T iu u i U S U S,α i,b znalezioneprzezrozwiązaniezadaniaminimalizacji reguła klasyfikacji dla sieci dwuwarstwowej pierwsza warstwa: obliczanie cech x = ϕ(u) druga warstwa: N(u)=sign (b + ) α il(u i )x T ix ϕ(x i ) X S iloczyn skalarny w przestrzeni cech x T ix=ϕ(u i ) T ϕ(u)=k(u i,u) maszynę dwuwarstwową można zmodyfikować, gdyż nie trzeba obliczać cech rozwiązanie zależy tylko od iloczynu skalarnego k przypomnienie: iloczyn skalarny symetria: k(u,u )=k(u,u ), warunekcauchy-schwarza: k(u,u ) 2 k(u,u )k(u,u ) 13 czerwca Maszyny wektorów podpierających 5-11

64 SVM maksymalizujące margines reguła klasyfikacji N(u)=signd(u i )=sign (b + ) αil(u i )k(u i,u) u i U S gdzie α jestjednoznacznymrozwiązaniemproblemumaksymalizacjifunkcji L (α)= N α i 1 2 i=1 przy ograniczeniach N i=1 N α i α j l(u i )l(u j )k(u i,u j ) j=1 N α i l(u i )=0 α i 0, i=1,...,n i=1 b =l(u j ) u i U S α i l(u i)k(u i,u j ) ) α i >0 u i obrazypodpierające,u i U S 1 margines geometryczny u i U α i S dladowolnegou i U S 13 czerwca Maszyny wektorów podpierających 5-12

65 Warunek Mercera nie każdy iloczyn skalarny jest realizowany przez pewną przestrzeń cech warunek Mercera gwarantuje istnienie funkcji ϕ: dlakażdegoskończonegopodzbioru{u 1,...,u N } Umacierz{k(u i,u j )}jest dodatnio półokreślona ( ) przykłady:k(u,u )=(u T u +1) p, k(u,u 1 )=exp 2σ u u 2 2 jeżeli funkcje k spełniają warunek Mercera, to warunek ten spełnia każda kombinacja liniowa tych funkcji iloczyn tych funkcji k ( f(u ),f(u ) ) dladowolnejfunkcjif π(k(u,u )); π-wielomianonieujemnychwspółczynnikach exp(k(u,u )) 13 czerwca Maszyny wektorów podpierających 5-13

66 maszyna wielomianowa k(u,u )=(u T u +1) p maszyna radialna ( 1 k(u,u )=exp 2σ 2 u u 2) Przykłady SVM uogólnienie maszyny radialnej ( 1 ) gdzie d jest miarą odległości obrazów, np. k(u,u )=exp 2σ 2d(u,u ) d(u,u )=χ 2 (u,u ) n k=1 d(u,u )= u u p = n p u k u k 2 u k +u k k=1 u k u k p W.M.? W.M.spełnionydlap=1,2 13 czerwca Maszyny wektorów podpierających 5-14

67 Przykład: Maszyna wielomianowa dla problemu XOR ] T, [ ] T, [ ] T, [ u i [ l(u i ) -1, 1, 1, -1 k(u,u )=(1+u T u ) 2 problemdualny:minimalizowaćl (α)=α T i 1 2 αt ( ll T K ) α ( -produktschura) przyograniczeniach α 0, l T α 0 gdziel= [ ] [ ] , ll T = , K={k(u i,u j )}= rozwiązaniedualnebezograniczeń:α = ( ll T K ) 1 i= 1 96 ograniczeniadualnespełnione,wszystkieu i sąpodpierające reguła klasyfikacji y(u) = sign (b + ui U α i l(u i)k ( ) ) u,u i b =l(u j ) u i U s α i l(u i)k ( ) u i,u j dlau j U S czylib =0 przestrzeń cech: poniewaź k(u,u )=(1+u T u ) 2 =1+2u T u +(u T u ) 2 =3+2u 1 u 1 +2u 2u 2 +2u 1u 2 u [ 1 u 2 3 ] T azatemϕ(u)= 2u1 2u2 2u1 u 2 ] T [ ] [ ] i= 1 8 i, 13 czerwca Maszyny wektorów podpierających 5-15

68 Klasy liniowo nierozdzielne przypadek liniowo rozdzielny ( wt u i +b ) l(u i ) 1 dlau i U L miękki margines: możliwość naruszenia warunków poprawnej klasyfikacji dla i-tego obrazu ( wt u i +b ) l(u i ) 1 ξ i, ξ i 0, dlau i U L, ξ i -zmiennedopełniające(slackvariables) 0<ξ i <1 ξ i >1 naruszony region rozdzielający brak separacji liniowej 13 czerwca Maszyny wektorów podpierających 5-16

69 Liniowa kara za naruszenie ograniczeń problem pierwotny(c kontroluje liczbę błędnych klasyfikacji) minimalizowaćfunkcję Q(w,b,ξ)= 1 2 w 2 +c N i=1 ξ i przyograniczeniach ξ i 0, l(u i ) ( w T u i +b ) 1 ξ i, i=1,...,n funkcjalagrange al(w,b,ξ;α,λ) N N ( = 1 2 wt w+c ξ i + α i 1 ξi l(u i )(w T u i +b) ) i=1 warunki Kuhna-Tuckera N w = α i u i l(u i ), i=1 i=1 N α i l(u i )=0 i=1 α i +λ i =c, i=1,...,n N λ i ξ i i=1 (K-T1) α i (1 ξ i l(u i ) ( w T u i +b )) =0, λ i ξ i =0, i=1,...,n (K-T3a) l(u i ) ( w T u i +b ) 1 ξ i, ξ i 0, i=1,...,n α i 0, λ i 0, i=1,...,n (K-T3b) (K-T3c) b trzebawyznaczyćzograniczeńpierwotnych 13 czerwca Maszyny wektorów podpierających 5-17

70 SVM dla liniowej kary funkcja dualna- identyczna jak przy ostrym marginesie N N L (α,λ)= 1 2 w T w + α i = α i 1 N N α i α j l(u i )l(u j )k(u i,u j ) 2 i=1 i=1 problem dualny: maksymalizować funkcję L (α)= N i=1 α i 1 N N 2 i=1 j=1 α iα j l(u i )l(u j )k(u i,u j ) N przy ograniczeniach i=1 α il(u i )=0, 0 α i c, i=1,...,n α i =0 l(u i ) ( w T u i +b ) <1 u i wewnątrzzbiorudopuszczalnego i=1 j=1 0 α i c l(u i ) ( w T u i +b ) =1 u i obrazpodpierający α i =c l(u i ) ( w T u i +b ) =1 u i naruszaograniczenia(ξ i >0) reguła klasyfikacji w przestrzeni obrazów y(u)=sign (b + α ( ) ) il(u i )k u,ui u i U s b dobranetak,byspełniaćwarunekl(u i )y(u i )=1 dlakażdegoi:0<αi <c 1 marginesgeometryczny g = ui US u j U α S i α j l(u i)l(u j )k(u i,u j ) 13 czerwca Maszyny wektorów podpierających 5-18

71 SVM dla liniowej kary problem skalowania zmodyfikowanyproblemdualny:0 c 0 1 maksymalizowaćfunkcję L (α)= 1 N N 2 i=1 j=1 α iα j l(u i )l(u j )k(u i,u j ) przyograniczeniach N i=1 α N il(u i )=0, i=1 α i c 0, 0 α i 1/N, i=1,...,n 0<α i < 1 N u i -wektorpodpierający α i = 1 N u i -wektornaruszającyograniczenia b dobranetak,byspełniaćwarunek l(u i )y(u i )=1 dlakażdegowektorapodpierającegou i (tznjeżeli0<α i< 1 N ) 13 czerwca Maszyny wektorów podpierających 5-19

72 metoda największego spadku Rozwiązania numeryczne α(k+1)=α(k)+η dl (α) dα wersja sekwencyjna, j wybierane losowo α j (k+1)=α j (k)+η j L (α) α j =α j (k)+η j ( 1 l(ui )K(u i,u j ) ) α j (k+1)=:max(0,α j (k+1)) α j (k+1)=:min(c,α j (k+1)) (dlaproblemuzkarąliniową) warunek liniowy związany z b jest niemożliwe do spełniania założyć b ograniczenia liniowe zastąpić przez u Uα i l(u i ) z i (k) gdzieciągi{z i (k)}sąmalejące procedurydwustopniowe(nawetdużezbioryobrazów,rzędu10 6 ) idlabieżącegoα,znaleźćobrazypodpierająceu α ={u i U:α i >0} iiprzeprowadzićoptymalizacjędlau U α iiiwykonaćiteracjedlawszystkichu i / U αi ivutworzyćα,przejśćdo[i] 13 czerwca Maszyny wektorów podpierających 5-20

73 porcjowanie Porcjowanie i dekompozycja wydzielić zbiór roboczy obrazów, powtarzać do spełnienia warunku stopu przeprowadzić optymalizację na zbiorze roboczym, utworzyć nowy zbiór roboczy spośród obrazów naruszających warunki KT dekompozycja: porcjowanie z zachowaniem stałej objętości zbioru roboczego dekompozycja dla 2-elementowych zbiorów roboczych: sekwencyjna optymalizacja minimalna ograniczenia0 α,α cprowadządou α V gdzie U=max(0,α α ), V=min(c,c α +α ) jeśliu,u wróżnychklasach U=max(0,α +α c), V=min(c,α +α ) jeśliu,u wtejsamejklasie wyznaczenieα,α e =d(u ) l(u )= ( u j U ) α j l(u j )k(u j,u )+b l(u ), e d(u ) l(u ) κ=k(u,u )+k(u,u ) 2k(u,u ) α (k)=α (k 1)+(e e )l(u )/κ warunekliniowy, α (k)=:max(u,α (k)) α (k)=α (k 1)+l(u )l(u ) ( α (k 1) α (k) ) 13 czerwca Maszyny wektorów podpierających 5-21

74 6. Adaline 6-1 Adaline- Liniowy neuron 6-2 Minimalizacja błędu kwadratowego 6-3 Rekurencyjne najmniejsze kwadraty 6-4 Algorytm najmniejszych średnich kwadratów LMS 6-5 Zasada najmniejszej zmiany 6-6 Algorytmy LMS z normalizacją 6-7 Własności algorytmów LMS z normalizacją Bibliografia [0-1] B. Widrow and M.A. Lehr, 30 years of adaptive neural networks: perceptron, madaline, and backpropagation,, Proceedings of IEEE, vol. 78, No. 9, Sept czerwca Adaline 6-0

75 ADAptive LInear NEuron ADAptive LINear Element Adaline- Liniowy neuron współczesne perceptrony wielowarstwowe perceptron Rosenblatta struktura sieci Adaline algorytmy uczenia liniowewyjściesieci(treningwag) y(t)=w(t) T u(t) binarnewyjściesieci(klasyfikacja) y B (t)=sign ( w(t) T u(t) ) odchyłkawyjścialiniowego ε(t)=y (t) y(t)=y (t) w(t) T u(t) 13 czerwca Adaline 6-1

76 Minimalizacja błędu kwadratowego błąd kwadratowy wyjścia sieci(dla jednowymiarowego wyjścia) Q N = Q N (w)= 1 2 gradient i hessian d Q N (w) dw d 2 QN (w) dwdw T = = N t=1 N t=1 N y (t) w T u(t) 2 = 1 2 t=1 u(t)ε(t)= N t=1 u(t)y (t)+ N ε(t) 2 t=1 N t=1 u(t)u(t) T >0 warunekjednoznaczności u(t)u(t) T w wagi optymalne minimalizują uśredniony błąd kwadratowy odchyłki w = (N t=1 uwzględnienie informacji a priori: ) 1 N u(t)u(t) T u(t)y (t)= R u (t) 1 Ru,y (t) t=1 wagi optymalne Q N = Q+ 1 2 (w w 0) T P 1 0 (w w 0) w = ( P N t=1 u(t)u(t) T ) 1 ( P 1 0 w 0+ N t=1 ) u(t)y (t) 13 czerwca Adaline 6-2

77 Rekurencyjne najmniejsze kwadraty realizacja rekurencyjna z uwzględnieniem informacji a priori: szczególny przypadek Filtru Kalmana w(t+1)=w(t)+p(t)u(t)ε(t) P(t+1)=P(t) P(t)u(t)uT (t)p(t) 1+u T (t)p(t)u(t) w(0)=w 0, P(0)=P 0 >0 aktualizacjawag aktualizacja wzmocnień warunkipoczątkowe równoważna postać aktualizacji wzmocnień dla P(t) > 0 P(t) 1 =u(t)u(t) T +P(t 1) 1 =P t u(s)u(s) T s=1 stosowanie jej do aktualizacji wag wymaga jednak odwracania macierzy błąd średniokwadratowy wag w(t) w(t 1) 0 słabszyniżwarunekcauchy ego! ( jeżeli min eig P(t) 1) to w(t) w własności odchyłek wyjść ε(t) 1+κ u(t) 2 0 gdzie κ=maxeig(p 0) 13 czerwca Adaline 6-3

78 Algorytm najmniejszych średnich kwadratów metoda największego spadku w(t+1)=w(t) µ d Q N (w) dw N =w(t) µ u(t) ε(t) t=1 LMS algorytm najmniejszych średnich kwadratów µ-lms: w(t+1)=w(t)+µu(t)ε(t) jeśliobrazysąlosowaneniezależniezrozkładuomacierzykowariancjir u to średnie wagi Ew(t) są zbieżne jeżeli 0<µ 2 maxeig(r u ) błądśredniokwadratowye ε(t) 2 jestzbieżnyjeśli 0<µ 2 trr u (trr u = eig(r u )) 13 czerwca Adaline 6-4

79 Zasada najmniejszej zmiany minimalizowaćq(w + )= 1 2 w+ w 2 przyograniczeniachy =w +T u rozwiązaniew + jestrzutemwnahiperpłaszczyznęy =w +T u funkcja Lagrange a L(w +,β)=q(w + )+β(y w +T u) warunki Kuhna-Tuckera(funkcja Q jest wypukła i ciągła wraz z pochodnymi na R d,ograniczeniasąafiniczne) dl dw + =w+ w βu=0 dl =y w +T u=0 dβ = β u 2 =y w T u=ε optymalne wagi w + =w+ 1 u(t) 2u(t)ε(t) (dla u(t) >0) 13 czerwca Adaline 6-5

80 algorytm Kaczmarza Algorytmy LMS z normalizacją 1 w(t+1)=w(t)+ u(t) 2u(t)ε(t) (dla u(t) >0) algorytm normalizowanych najmniejszych średnich kwadratów(α-lms) α w(t+1)=w(t)+ u(t) 2u(t)ε(t) (dla u(t) >0) zmiany wyjścia liniowego i odchyłki wyjścia są proporcjonalne do odchyłki (y(t+)=wyjścieobliczonedlazmodyfikowanejwagi =w(t+1) T u(t)) y(t+1) y(t)= ( w(t+) w(t) ) Tu(t)=αε(t) ε(t+) ε(t)= αε(t) skalowanieu = u u,y = y u,y = y u prowadzidoµ-lms zmodyfikowany algorytm α-lms α w(t+)=w(t)+ c+ u(t) 2u(t)ε(t) c>0(członregularyzujący),0<α<2 13 czerwca Adaline 6-6

81 Własności algorytmów LMS z normalizacją własności ciągu wag w(t+1) w(t) 0 jeżeli s+k i=t w(t) w u(i)u(i) T u(i) 2 >cidlakażdegotipewnegok,to ważone odchyłki wyjścia sieci maleją do zera ε(t) c+ u(t) czerwca Adaline 6-7

82 7. Zagadnienia aproksymacji funkcji 7-1 Problem aproksymacji 7-2 Reprezentacja Kołmogorowa 7-3 Typowa sieć aproksymacyjna 7-4 Aproksymacja funkcji ciągłych 7-5 Aproksymacja funkcji ciągłych- warunek konieczny i wystarczający 7-6 Równoczesna aproksymacja funkcji ciągłych i ich pochodnych 7-7 Aproksymacja funkcji całkowalnych 7-8 Równoczesna aproksymacja funkcji całkowalnych i ich pochodnych 7-9 Aproksymacja funkcji nieciągłych 7-10 Aproksymacja funkcji zmiennej losowej 7-11 Zestawienie twierdzeń aproksymacyjnych 13 czerwca Zagadnienia aproksymacji funkcji 7-0

83 Bibliografia [0-1] A.N. Kolmogorov, On the representation of continuous functions of many variables by superposition of continuous functions of one variable and addition, Dokl. Akad. Nauk USSR, vol. 114, pp , 1957 [0-2] R. Hecht-Nielsen, Kolmogorov s mapping neural network existence theorem, Proc. Int. Conf. on Neural Networks, vol. III, pp , 1987 [0-3] K. Hornik, M. Stinchcombe, and H. White Multilayer feedforward networks are univeral approximators, Neural Networks, vol 2, No. 5, pp , 1989 [0-4] K. Hornik, M. Stinchcombe, and H. White Univeral approximation of an unknown mapping and its derivatives using multilayer neural networks, Neural Networks, vol 3, No. 5, pp , 1990 [0-5] M. Leshno, V. Lin, A. Pinkus, and S. Schocken, Multilayer feedforward networks with a nonpolynomial activation funtion can approximate any function, Neural Networks, vol. 6, pp , czerwca Zagadnienia aproksymacji funkcji 7-0

84 Problem aproksymacji aproksymacja nieznanej funkcji f F wybrać fzrodzinyfunkcji Ftakabyminimalizowaćd(f, f) rodzinafwynikazproblemu,np.c(u),c k (U),L p (U) d metrykawłaściwadlaf nieznana funkcja poznawana poprzez eksperyment ( u(1),y(1) ), ( u(2),y(2) ),..., ( u(n),y(n) ) czy Fjestwystarczającobogata? uniwersalny aproksymator dladowolnychǫ>0,f Fistnieje f Fdlaktórej d(f, f)<ǫ czy sieci neuronowe są uniwersalnymi aproksymatorami? 13 czerwca Zagadnienia aproksymacji funkcji 7-1

85 Reprezentacja Kołmogorowa 13 Hipoteza Hilberta istnieje analityczna funkcja 3 zmiennych która nie jest skończoną superpozycją funkcji ciągłych 2 zmiennych Kołmogorow każda funkcja ciągła n zmiennychf:i n R,n 2,mareprezentację 2n n f(u)= γ i,j (u j ) i=0 g i j=1 {g 0,...g 2n } ciągłe funkcje 1 zmiennej, zależą od f rodzina funkcji monotonicznych ciągłychγ i,j :I Rjestuniwersalna twierdzenie Kołmogorowa określa reprezentację funkcji wymaga znajomości funkcji błąd reprezentacji jest zerowy 13 czerwca Zagadnienia aproksymacji funkcji 7-2

86 Typowa sieć aproksymacyjna aproksymacjafunkcjif:u R n R rodzina sieci dwuwarstwowych N[g] warstwa wyjściowa liniowa o zerowym obciążeniu warstwa ukryta o identycznych funkcjach aktywacji g wolne parametry: liczba neuronów warstwy ukrytej h wagi(nhwag)iobciążenia(hobciążeń) warstwy ukrytej wagi warstwy wyjściowej(h wag) 13 czerwca Zagadnienia aproksymacji funkcji 7-3

87 Aproksymacja funkcji ciągłych aproksymowanefunkcjesąciągłenazbiorzedomkniętymograniczonymu R n odległość funkcji rozumiana w sensie supremum tzn. d(f, f)=sup f(u) f(u) u U [Hornik, 1991] jeżeli funkcja aktywacji g jest ciągła, ograniczona i różna od stałej to sieć typu N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie(w sensie supremum) aproksymować dowolną funkcję ciągłą na zbiorze domkniętym i ograniczonym tzn.dlakażdejfunkcjifciągłejnazbiorzedomkniętymiograniczonymui dowolnegoǫ>0,istniejesiećtypun[g]taka,że sup f(u) f(u) <ǫ u U 13 czerwca Zagadnienia aproksymacji funkcji 7-4

88 Aproksymacja funkcji ciągłych- warunek konieczny i wystarczający funkcję g: R R nazywamy lokalnie istotnie ograniczoną, jeżeli jest ograniczona prawiewszędzie(ograniczonazawyjątkiemzbioruzerowejmiarylebesgue aµ L ) na każdym podzbiorze domkniętym i ograniczonym istotne supremum funkcji esssup U f(u =inf { δ:µ L {x: g(x) >δ}=0 } [Leshno, 1993] jeżeli funkcja aktywacji g jest lokalnie istotnie ograniczona domknięcie zbioru punktów nieciągłości funkcji aktywacji g ma miarę zero to sieć typu N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie(w sensie istotnego supremum) aproksymować dowolną funkcję ciągłą na zbiorze domkniętym i ograniczonym wtedy i tylko wtedy gdy g nie jest wielomianem prawie wszędzie 13 czerwca Zagadnienia aproksymacji funkcji 7-5

89 Równoczesna aproksymacja funkcji ciągłych i ich pochodnych funkcje aproksymowane: ciągłe wraz z pochodnymi do rzędu d na zbiorze domkniętymiograniczonymu R n [Hornik, Stinchcombe, White, 1990] jeżeli funkcja aktywacji g jest d-krotnie różniczkowalna w sposób ciągły, ograniczona i różna od stałej to sieć N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie aproksymować(w sensie supremum) dowolną funkcję ciągłą oraz jej pochodne do rzędu d włącznie tzn.dlakażdejfunkcjiciągłejwrazzpochodnymidorzędudnazbiorze domkniętymiograniczonymu R n ikażdegoǫ>0istniejesiećn[g],dlaktórej dlawszystkichpochodnychd k = k 1 + +k n zachodzi sup D k f(u) D k f(u) ǫ u U u k uk n n,0 k 1 + +k n d,równocześnie 13 czerwca Zagadnienia aproksymacji funkcji 7-6

90 Aproksymacja funkcji całkowalnych funkcjeaproksymowane:całkowalnezp-tąpotęgą,1 p<,nazbiorze ograniczonymu R n odległość wyznaczana przez normę f p = ( U f(u) p du ) 1/p [Hornik, 1991] jeżeli funkcja aktywacji g jest ograniczona i różna od stałej to sieć N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie(wsensie f p )aproksymowaćdowolnąfunkcjęcałkowalnązp-tą potęgą na zbiorze ograniczonym tzn.dlakażdejfunkcjicałkowalnejzp-tąpotęgąnazbiorzeograniczonymu R n ikażdegoǫ>0istniejesiećn[g]dlaktórej f f p <ǫ warunek Leshno wyznacza warunek konieczny i wystarczający aproksymacji funkcji całkowalnych z p-tą potęgą na zbiorze ograniczonym 13 czerwca Zagadnienia aproksymacji funkcji 7-7

91 Równoczesna aproksymacja funkcji całkowalnych i ich pochodnych funkcje aproksymowane: funkcja i jej pochodne do rzędu rzędu m są ciągłe i całkowalne z p-tą potęgą na zbiorze ograniczonym U [Hornik, Stinchcombe, White, 1990] jeżeli funkcja aktywacji g jest d-krotnie różniczkowalna w sposób ciągły, ograniczona i różna od stałej to sieć N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnieaproksymować(wsensienormy f p )nazbiorzeograniczonymdowolną funkcję ciągłą oraz jej pochodne do rzędu d włącznie tzn. dla każdej funkcji, której pochodne do rzędu d są ciągłe i p-krotnie całkowalne (d 1,1 p< )nazbiorzeograniczonymikażdegoǫ>0istniejesiećn[g]dla której D k f D k f p <ǫ dlakażdegok: k d 13 czerwca Zagadnienia aproksymacji funkcji 7-8

92 Aproksymacja funkcji nieciągłych funkcje aproksymowane: dowolne(mierzalne) określone na zbiorze domkniętym i ograniczonym [Luzin] funkcja mierzalna może być zmodyfikowana do funkcji ciągłej przez zmianę wartości na zbiorze o arbitralnie małej mierze jeżeli funkcja aktywacji g jest ciągła, ograniczona i różna od stałej to sieć N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie(w sensie supremum) aproksymować na podzbiorze dowolnie mało różniącym się od dziedziny funkcji, dowolną funkcję(mierzalną) na zbiorze domkniętym i ograniczonym tzn. dla każdej funkcji mierzalnej na zbiorze domkniętym i ograniczonym i każdego ǫ>0istnieją:siećn[g]izbiórdomkniętyiograniczonyu ǫ Udowolniebliski zbiorowiuwtymsensie,żeµ L (U U ǫ ) ǫ,dlaktórych sup f(u) f(u) ǫ u U ǫ 13 czerwca Zagadnienia aproksymacji funkcji 7-9

93 Aproksymacja funkcji zmiennej losowej ujestzmiennąlosowaokreślonąnazbiorzeu R n ;jejrozkładoddajewagę punktów zbioru U funkcje aproksymowane: funkcje p-tego rzędu zmiennej losowej u, tzn. E f(u) p < dlapewnegop,1 p< odległośćfunkcjiwsensiep-tychmomentów,tzn.d(f, f)= (E ( f(u) f(u) ) p ) 1/p [Hornik, 1991] jeżeli funkcja aktywacji g jest ograniczona i różna od stałej to sieć N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie(w sensie p-tych momentów) aproksymować dowolną funkcję p-tego rzędu zmiennej losowej u tzn.dlakażdejfunkcjifdlaktóreje f(u) p < ikażdegoǫ>0istniejesieć N[g]dlaktórej E f(u) f(u) p <ǫ 13 czerwca Zagadnienia aproksymacji funkcji 7-10

94 Zestawienie twierdzeń aproksymacyjnych dziedzina U R n funkcja aproksymowana twierdzenie autor własności funkcji funkcji wraz z pochodnymi funkcji funkcji wraz z pochodnymi funkcji całkowalnych domknięty, ograniczony domknięty, ograniczony domknięty, ograniczony C sup f f gograniczona,c, C esssup f f glokalnieistotnieograniczona, domknięcie zbioru p. nieciągłościmamiarę0 (gniejest C d max k d sup Dk f D k f gograniczona,cd, Hornik 1991 Leshno 1993 HSW 1990 ograniczony L p f f p gograniczona, Hornik 1991 ograniczony L p,c dowolnych funkcji ograniczony, domknięty dowolne ograniczony E f(u) p aproksymacja, HSW- Hornik, Stinchcombe, White, 1990 max k d Dk f D k f p gograniczona,c d, sup f f,µ L (U U ǫ )<ǫ gograniczona,c, const u E f f p HSW 1990 Hornik 1991 gograniczona, Hornik czerwca Zagadnienia aproksymacji funkcji 7-11

95 8. Techniki minimalizacji a sieci neuronowe 8-1 Błąd aproksymacji 8-2 Minimalizacja kosztu 8-3 Tryby minimalizacji 8-4 Metoda największego spadku 8-5 Gradient sprzężony 8-6 Metoda Newtona 8-7 Metody zmiennej metryki 8-8 Metoda Levenberga-Marquardta 8-9 Specyficzne techniki neuronowe: Wygładzanie inercyjne wag 8-10 Specyficzne techniki neuronowe: Reguła delta-delta 8-11 Specyficzne techniki neuronowe: Reguła delta-bar-delta 13 czerwca Techniki minimalizacji a sieci neuronowe 8-0

96 Bibliografia [0-1] W.H. Press, B.P. Flannery, S.A. Teukolsky, and W. T. Vetterling, Numerical Recipies. The Art of Scientific Computing, Cambridge University Press, Cambridge 1986, 1992 [0-2]K.W.Brodlie,Ch.III.1.,Secs.3 6inTheStateoftheArtinNumericalAnalysis, D.A.H. Jacobs(Ed.), Academic Press, London 1977 [0-3] J.A. Freeman and D.M. Skapura, Neural Networks: algorithms, applications, and programming techniques, Addison-Wesley, Reading, Massachusetts, USA, 1991 [0-4] P. Werbos, The Roots of Backpropagation: From Ordered Derivatives to Neural Networks and Political Forecasting, Wiley, New York czerwca Techniki minimalizacji a sieci neuronowe 8-0

97 Błąd aproksymacji skończonyzbiórobrazówu={u 1,...,u N },U L =U Q= 1 2 ε i 2 Udowolny,U L losowanyzgodniezeznanymrozkłademnau Q 0 = 1 2 E ε 2 Udowolny,U L losowanyzgodniezpewnymrozkłademnau Q N (t)= 1 2 A N ε(t) 2 Q 0 13 czerwca Techniki minimalizacji a sieci neuronowe 8-1

98 Funkcja błędu Minimalizacja kosztu Q N (w)= 1 N k t=k N +1 q(y(t;w) y (t))= 1 N k t=k N +1 y(t;w) y (t) 2 Metody gradientowe w(k+1)=w(k)+ηr(δ(k)) gdzie w wektor wszystkich wag sieci δ(k)= Q N (w(k)) gradient Q N wk-tymkrokuminimalizacji H(k)= Q N (w(k)) hessian Q N wk-tymkrokuminimalizacji r wektorowa funkcja gradientu określająca nowy kierunek η krok minimalizacji k indeks kroku minimalizacji 13 czerwca Techniki minimalizacji a sieci neuronowe 8-2

99 Tryby minimalizacji (N, M, L): długość okna(przedział uśredniania) N, przesunięcie okna po wykonaniu kroków minimalizacji M, liczba kroków minimalizacji dla jednej estymaty gradientu tryb natychmiastowy(1, 1, 1) koszt oczekiwany estymowany jest przez koszt chwilowy(1-elementowe uśrednianie kosztu), minimalizacja po każdej prezentacji trybwsadowy(n,n,1) uśrednienie N > 1 kosztów chwilowych przed każdą minimalizacją; dla skończonegou L przyjmujesięn= U L (epoka) wielokrotne użycie gradientu(n, N, L) prezentacja N nowych wejść, L > 1 kroków minimalizacji ruchomeokno(n,m,l) przesunięcieoknaodługościnom<nchwil(usunięciemnajstarszychi prezentacjamnowychwejść),uśrednianiewoknieodługościn,wykonaniel 1 kroków minimalizacji 13 czerwca Techniki minimalizacji a sieci neuronowe 8-3

100 wzórtaylora1rzędu Metoda największego spadku Q(w+µr)=Q(w)+µr T Q (w)+o(µ) dlar= Q (w) Q(w+µr)=Q(w) µ Q (w) 2 <Q(w) algorytm korekcji wag w(k+1)=w(k) µδ(k) algorytm jest zwykle połączony z obliczaniem gradientu metodą propagacji zwrotnej 13 czerwca Techniki minimalizacji a sieci neuronowe 8-4

101 Gradient sprzężony funkcjakwadratowawr d,minimalizacjawkierunku minimalizacja(r) minimalizacja(s) minimalizacja(r, s) zmianagradientuoµq (w)r(k) kierunkir,ssprzężone:r T Q s=0 metodagradientusprzężonegor(k) T H(k)s(s)=0 dlas=1,...,k 1 r(k)= δ(k)+β(k 1)r(k 1), r(0)= δ(0) β(k)= δ(k+1) 2 δ(k) 2 β(k)= (δ(k+1) δ(k))t δ(k+1) δ(k) 2 Fletcher-Reeves Polak-Ribière restart po d krokach zbieżne superliniowo; praktycznie: liniowo dla funkcji kwadratowej: F-R, P-R identyczne, zbieżność w d krokach 13 czerwca Techniki minimalizacji a sieci neuronowe 8-5

Pokazać jeszcze