Sieci neuronowe: perspektywa systemowa

Wielkość: px
Rozpocząć pokaz od strony:

Download "Sieci neuronowe: perspektywa systemowa"

Transkrypt

1 Sieci neuronowe: perspektywa systemowa 1 Co to są sieci neuronowe 2 Standardowe elementy sieci neuronowych 3 Zagadnieniaklasyfikacji 4 PerceptronRosenblatta 5 Maszyny wektorów podpierających 6 Adaline 7 Zagadnienia aproksymacji funkcji 8 Techniki minimalizacji a sieci neuronowe 9 Propagacja zwrotna gradientu 10 Propagacja zwrotna w perceptronie wielowarstwowym 11 Jakość aproksymacji funkcji 12 Zjawiska dynamiczne w sieciach 13 Modele NARX układów nieliniowych 14 Optymalizacja globalna i pamięci asocjacyjne 13 czerwca 2005.

2 1.Cotosąsiecineuronowe 1-1 Bio-modelowanie 1-2 Badania inspirowane przez bio-modelowanie 1-3 Sieci neuronowe- zgrubna charakterystyka 1-4 Kamienie milowe rozwoju sieci neuronowych 1-5 Zastosowania sieci neuronowych Bibliografia [0-1] James A. Anderson and Edward Rosenfeld(Eds.) Neurocomputing. Foundations of Research, MIT Press, Cambridge, Massachusetts 1988 [0-2] W.S. McCulloch and W.H. Pitts, A logical calculus of the ideas immanent in nervous activity, Bull. Math. Biophysics, vol. 5, , 1943 [0-3] J.J. Hopfield, Neural networks and physical systems with emergent collective computational abilities, Proc. of the National Acad. of Sciences of the USA, vol. 79, , czerwca Co to są sieci neuronowe 1-0

3 [0-4] J.J. Hopfield, Neurons with graded response have collective computational properties like those of two-state neurons, Proc. of the National Acad. of Sciences of the U.S.A., vol. 81, , 1984 [0-5] M.L. Minsky and S.A. Papert, Perceptrons, MIT Press, Cambridge, Ma., 1969; Expanded Edition, MIT Press, Cambridge, Ma., 1988 [0-6] F. Rosenblatt, The perceptron: a probabilistic model for information storage and organization in the brain, Psychological Review, vol. 65, No. 6, pp , Reprinted in[0-1], Ch. 8, pp , 1988 [0-7] F. Rosenblatt, Principles of Neurodynamics, Spartan Books, Washington, D.C., 1962 [0-8] D.E. Rumelhart, G.E. Hinton, and R.J. Williams, Learning internal representations by error propagation, in Parallel Distributed Processing, D.E. Rumelhart and J.L. McClelland, Eds., vol. 1, Chap. 8, MIT Press, Cambridge, Ma., 1986 [0-9] P. Werbos, The Roots of Backpropagation: From Ordered Derivatives to Neural Networks and Political Forecasting, Wiley, New York 1994 [0-10] B. Widrow and M.E. Hoff, Adaptive switching circuits, 1960 IRE WESCON Convention Record, vol. 4, pp , czerwca Co to są sieci neuronowe 1-0

4 Bio-modelowanie Cele: poznawcze Zastosowania: biologia, medycyna, farmacja, psychologia 13 czerwca Co to są sieci neuronowe 1-1

5 Badania inspirowane przez bio-modelowanie Cele: specyficzne dla dziedziny zastosowań(nie-biologiczne) Modyfikacja modeli biologicznych; wyniki nie kopiują biologii Potrzeba ponawiania inspiracji biologicznych 13 czerwca Co to są sieci neuronowe 1-2

6 Sieci neuronowe- zgrubna charakterystyka Modularność Równoległość Nieliniowość Adaptacja do zmian środowiska Tolerancja na uszkodzenia(stopniowa utrata jakości) Nadmiar parametrów Własności aproksymacyjne 13 czerwca Co to są sieci neuronowe 1-3

7 Kamienie milowe rozwoju sieci neuronowych McCullochiPitts1943 modelneuronuy(t+1)=1(w T u ϑ) Rosenblatt 1958(Cornell U., Ithaca, NY) perceptron Widrow 1960(Stanford U., Stanford, CA) Adaline Minsky 1969(MIT, Cambridge, MA) perceptron + sztuczna inteligencja dekada spokoju Kohonen 1972(Helsinki U. of Techn.) liniowa pamięć asocjacyjna Werbos 1974(Harvard U. Ph.D., Cambridge, MA) propagacja zwrotna Grossberg 1983(Boston U., Boston, MA) stabilność sieci dynamicznych Hopfield 1982(Princeton U., Princeton, NJ) pamięć stabilność sieci Rummelhart, Hinton, Williams 1986(grupa PDP, MIT, Cambridge, MA) uczenie sieci poprzez propagację zwrotną 13 czerwca Co to są sieci neuronowe 1-4

8 Zastosowania sieci neuronowych Filtracja adaptacyjna, DSP Prognozowanie Klasyfikacja i rozpoznawanie(mowa, pismo) Biometria Wojskowość: rozpoznanie, identyfikacja celu Sterowanie, robotyka, systemy eksperckie, decyzyjne Ekonomia, Zarządzanie Fizyka, Astronomia Biologia(modelowanie DNA) Telekomunikacja Przemysł 13 czerwca Co to są sieci neuronowe 1-5

9 2. Standardowe elementy sieci neuronowych 2-1 Neuron 2-2 Funkcje aktywacji 2-3 Warstwa 2-4 Perceptron wielowarstwowy 2-5 Sieć bez sprzężeń 2-6 Sygnały 2-7 Adaptacja wag 13 czerwca Standardowe elementy sieci neuronowych 2-0

10 Neuron afiniczna transformacja wejścia u n z=b+ w i u i =b+w T u i=1 wagiw=[w 1 w n ] T obciążenieb,prógϑ= b równanie neuronu ( n y=g b+ w i u i )=g(b+w T u) i=1 funkcjaaktywacjig: R R obciążenie jako waga wagirozszerzoneowagęw 0 =b wejściarozszerzoneowejścieu 0 =1 ( n y=g w i u i )=g(w T u) i=0 13 czerwca Standardowe elementy sieci neuronowych 2-1

11 Funkcje aktywacji dyskretne f. aktywacji( twarde nieliniowości): f. znaku, f. skokowa ciągłe f. aktywacji(miękkie nieliniowości): f. sigmoidalne, sigmoid, f. gaussowska sigmoid funkcje radialne gaussowskie 13 czerwca Standardowe elementy sieci neuronowych 2-2

12 Warstwa struktura warstwy y 1 g 1 (z 1 ) y=. =g(b+wu), g(z)=. y m g m (z m ) b 1 w1 T w 1,1 w 1,n. b=., W=. =... b m w m,1 w m,n w T m zapis rozszerzony y=g(wu), u= 1, W=[b W]= u b 1 w1 T. b m w T m 13 czerwca Standardowe elementy sieci neuronowych 2-3

13 Perceptron wielowarstwowy warstwy ukryte warstwawyjściowa u (1) =u, u (k) =y (k 1), k=2,...,l y (k) =N (k) (u (k) ), k=1,...,l y=y (L) 13 czerwca Standardowe elementy sieci neuronowych 2-4

14 Sieć bez sprzężeń u (1) =u, u (k) = u y (1). y (k 1), k=2,...,l y (k) =N (k) (u (k) ), k=1,...,l y=y (L) 13 czerwca Standardowe elementy sieci neuronowych 2-5

15 Sygnały zbiórwejśću R n n liczba punktów obrazu, liczba czujników punkty obrazu binarne: U = zbiór wierzchołków kostki reprezentacjaasymetryczna reprezentacjasymetryczna wejściaograniczone:u=kostkawr n sygnał:funkcjat U 13 czerwca Standardowe elementy sieci neuronowych 2-6

16 Adaptacja wag siećstatycznay(t)=n ( u(t);w ) uczenie przykładtreningowy ( u(k),y (k) ) ; y (k) wyjściepożądane ciągtrenujący(ciąguczący) {( u(k),y (k) ),i=1,...,n } modyfikacjawagw(t+1)=h(w(t),u(t)) siećzuczeniem:y(t)=n ( u(t);h ( w(t 1),u(t 1) ) układdynamicznyy(t)=n{u(s),s t} struktura neuronu/warstwy/sieci mogą być bardziej skomplikowane siećdynamicznay(t)=n{u(s),s t} szybka dynamika (nie związana z uczeniem) i wolna dynamika (uczenie) 13 czerwca Standardowe elementy sieci neuronowych 2-7

17 3. Zagadnienia klasyfikacji 3-1 Obiekty i obrazy 3-2 Cechy 3-3 Klasyfikacja obrazów 3-4 Funkcje decyzyjne 3-5 *Klasyfikacja obiektów a klasyfikacja obrazów 3-6 *Problem niejednoznaczności obserwacji 3-7 *Niejednoznaczne dziedziczenie klas 3-8 *Dziedziczenie probabilistyczne 3-9 Klasyfikacja binarna a funkcje logiczne 3-10 Klasyfikacja liniowa 3-11 Najprostsze klasyfikacje nieliniowe 3-12 LiczbaklasyfikacjiliniowychNobrazówwR n 3-13 Liczba klasyfikacji liniowych- przykład 13 czerwca Zagadnienia klasyfikacji 3-0

18 3-14 Liczba binarnych klasyfikacji liniowych 3-15 Klasyfikatory liniowe 3-16 Liniowe klasyfikatory binarne 3-17 *Kontekst probabilistyczny 3-18 Budowa klasyfikatorów dostępna informacja 13 czerwca Zagadnienia klasyfikacji 3-0

19 Obiekty i obrazy zbiórobiektów S funkcjaobserwacji ϕ:s U zbiórobrazówu zwykleu R n n liczba czujników, liczba punktów obrazu obrazu=[u 1 u n ] T U obraz binarny, obraz czarno-biały u i {L,H}; (zwykle{0,1}) 13 czerwca Zagadnienia klasyfikacji 3-1

20 Cechy zbiórwektorówcech U R n funkcjacech ϕ :U U zmodyfikowanafunkcjaobserwacji ϕ ϕ:s U 13 czerwca Zagadnienia klasyfikacji 3-2

21 Klasyfikacja obrazów funkcja klasyfikująca l(u)=k u U k funkcje przynależności doklasyu k,k=1,...,c χ k (u)=1 u U k χ k (u)=0 u/ U k χ 1 (u) χ(u)=. χ c (u) zbiór decyzyjny D= k U k 13 czerwca Zagadnienia klasyfikacji 3-3

22 funkcja klasyfikująca l Funkcje decyzyjne funkcje decyzyjne l(u)=k d k (u)>d j (u)dlaj k funkcjeprzynależnościχ k sąfunkcjamidecyzyjnymi 13 czerwca Zagadnienia klasyfikacji 3-4

23 *Klasyfikacja obiektów a klasyfikacja obrazów klasyobiektóws i dziedziczoneklasyobrazówu i =ϕ(s i ) dziedziczeniejednoznaczne U i U j = fori j klasyfikacjaobrazówaklasyfikacjaobiektów: u U k s S k 13 czerwca Zagadnienia klasyfikacji 3-5

24 *Problem niejednoznaczności obserwacji obrazu funkcja obserwacji może nie być odwracalna: niejednoznaczności obserwacji przeciwobrazϕ 1 (u)obrazuu:zbiórobiektówmającychtensamobrazu s ϕ 1 (u) ϕ(s)=u klasy dziedziczone rozłączne: obiekty mające ten sam obraz należą do tej samej klasy klasy dziedziczone mogą nie być rozłączne 13 czerwca Zagadnienia klasyfikacji 3-6

25 *Niejednoznaczne dziedziczenie klas niejednoznaczność,jeżeliu i U j χ przyjmuje wartości z(niezerowych) wierzchołków kostki jednostkowej 13 czerwca Zagadnienia klasyfikacji 3-7

26 *Dziedziczenie probabilistyczne rozkład obiektów P funkcjaprzynależnościwu: χ k (u)=p{s S k } χ przyjmuje wartości z kostki jednostkowej 13 czerwca Zagadnienia klasyfikacji 3-8

27 Klasyfikacja binarna a funkcje logiczne N=4 (4obrazy) U R 2 (obrazyzłożonez2punktów) c=2 (klasyfikacjebinarne) u 1 ANDu 2 u 1 ORu 2 NOTu 1 u 1 XORu 2 13 czerwca Zagadnienia klasyfikacji 3-9

28 Klasyfikacja liniowa hiperpłaszczyznah(w,b)={u R n :w T u+b=0} w wektor normalny, b przesunięcie podprzestrzeńdodatniau + (w,b)={u R n :w T u+b>0}względem hiperpłaszczyzny H(w, b) podprzestrzeńujemnau (w,b) klasyfikacja liniowa: dowolne dwie klasy można rozdzielić hiperpłaszczyzną 13 czerwca Zagadnienia klasyfikacji 3-10

29 Najprostsze klasyfikacje nieliniowe 3obrazybinarnewR,2klasy obrazybinarnewR 2,2klasy czerwca Zagadnienia klasyfikacji 3-11

30 LiczbaklasyfikacjiliniowychNobrazówwR n liczba klasyfikacji liniowych L(N, n)(< dla szczególnych usytuowań obrazów) 2 N forn n+1 ( małoobrazów ) L(N,n)= 2 n ) forn n+1 i=0 ( N 1 i liczba klasyfikacji liniowych/ liczba klasyfikacji binarnych r(n,n)= L(N,n) 1 dla N = B(N) 2 1 N n ) i=0 ( N 1 i n+1 1 dla N n+1 1 r(n,n) n= n=1,4,16,64, polowa klasyfikacji liniowa N / (n+1) dlaconajwyżejn 0 =n+1obrazówwr n wszystkieklasyfikacjemogąbyćliniowe dlan v =2(n+1)obrazówwR n conajwyżejpołowaklasyfikacjijestliniowa N v :pojemnośćklasyfikacjiliniowychwr n 13 czerwca Zagadnienia klasyfikacji 3-12

31 Liczba klasyfikacji liniowych- przykład N = N = N = N = N = N = N = wszystkiepojemność liniowe B(N) R 1 * R 2 4 * R * R * R * lewa+górnalewa L(N,n)=L(N 1,n)+L(N 1,n 1) 13 czerwca Zagadnienia klasyfikacji 3-13

32 Liczba binarnych klasyfikacji liniowych liczba max. liczba liczba liczba ułamek punktów obrazów klasyfikacji klasyfikacji klasyfikacji obrazu binarnych binarnych liniowych liniowych n N=2 n B(N)=2 N L(N,n) r=l/b czerwca Zagadnienia klasyfikacji 3-14

33 Klasyfikatory liniowe afinicznefunkcjedecyzyjned k (u)=b k +wk T u, k=1,...,c b 1 +w1u T d(u)=. =b+wu=wu b c +wcu T afiniczne funkcje decyzyjne klasy liniowo rozdzielne klasy liniowo rozdzielne istnieją afiniczne funkcje decyzyjne funkcje decyzyjne są porównywane parami(liczbę wierszy W można zmniejszyć o jeden) b i +w T iu>b j +w T ju b+w T u>0 gdziew=w i w j,b=b i b j 13 czerwca Zagadnienia klasyfikacji 3-15

34 Liniowe klasyfikatory binarne binarny klasyfikator liniowy d(u) = 1 jeśliw T u+b<0 l(u)= 1 jeśliw T u+b>0 gdziew=w + w,b=b + b b ++w+u T b +w u T zmodyfikowana funkcja decyzyjna porównywana z zerem d(u)=b+w T u hiperpłaszczyznaklasyfikującah(w,b)={u:d(u)=0} 13 czerwca Zagadnienia klasyfikacji 3-16

35 *Kontekst probabilistyczny jeśliϕ(s i ) ϕ(s j ) toklasyfikacjaniejestjednoznaczna. dodatkowo znana miara probabilistyczne P na S rozkład obrazów w ramach każdej klasy(ciągły) f u k (z)dz=p(z u z+dz s S k ) rozkładaprioriklas{π k,k=1,...,c},gdzieπ k =P{s S k } znanyobrazu;rozkładaposterioriklas π k u =P{s S k u} (regułabayesa)= π kf u k (u) f u (u) klasyfikacja w zbiorze obrazów = π kf u k (u) c i=1 π if u i (u) funkcjadecyzyjna:d k (u)=π k u klasyfikatorbayesowski równoważnaf.d:d k (u)=π k f u k (u) dladyskretnegorozkładuobrazów:p j k =P(u=j s S k ) π k j = π kp j k p j = π kp j k c i=1 π ip j i 13 czerwca Zagadnienia klasyfikacji 3-17

36 Budowa klasyfikatorów dostępna informacja liczbaklascznana przykładuczący(u i,l(u i )) zbiór uczący(zbiór trenujący) U L = {( u i,l(u i ) ),i=1,...,n } liczbaklascznanalubnie przykładuczącyu i (klasanieznana) zbiór uczący U L ={u i,i=1,...,n} 13 czerwca Zagadnienia klasyfikacji 3-18

37 4. Perceptron Rosenblatta 4-1 Krótka historia perceptronu Rosenblatta 4-2 Binarne klasyfikatory liniowe 4-3 Struktura perceptronu Rosenblatta 4-4 Perceptron Rosenblatta a klasyfikacja 4-5 Perceptron jednowarstwowy: uczenie 4-6 Modyfikacje algorytmu uczenia 4-7 Funkcja kosztu dla perceptronu Rosenblatta 4-8 Algorytm kieszeniowy Gallanta 4-9 Istnienie uniwersalnego dwuwarstwowego perceptronu Rosenblatta 4-10 Warstwa ukryta: kodowanie 4-11 Maszyny liniowe 4-12 Maszyna liniowa a perceptron 4-13 Uczenie jednowarstwowej maszyny liniowej 13 czerwca Perceptron Rosenblatta 4-0

38 Krótka historia perceptronu Rosenblatta Frank Rosenblatt(Cornell U.) 1958 uniwersalna maszyna do rozpoznawania i klasyfikacji wzorców sztuczny mózg, histeryczna reakcja mediów hardware: Mark I (1960) matryca fotodiod, każda losowo łączona z 40 neuronami warstwy ukrytej 512 neuronów warstwy ukrytej 8 neuronów wyjściowych, silniki sterujące potencjometrami wag Rosenblatt Principles of Neurodynamics, 1962 Minsky i Papert(MIT) Perceptrons, większość publikacji jest bez wartości naukowej perceptron jednowarstwowy tylko klasyfikacja liniowa pozostało: connectionism, architektury warstwowe, obliczenia równoległe, uczenie wag 13 czerwca Perceptron Rosenblatta 4-1

39 Binarne klasyfikatory liniowe funkcjadecyzyjnad(u)=w T u+b funkcja klasyfikująca 1 jeśliw T u+b<0 l(u)= 1 jeśliw T u+b>0 margines funkcyjny obrazu u względem hiperpłaszczyzny H(w, b) > 0 poprawna klasyfikacja u f (u)=(w T u+b)l(u) <0 błędnaklasyfikacjau margines geometryczny obrazu u względem hiperpłaszczyzny H(w, b) odległość opatrzona znakiem przy błędnej klasyfikacji g (u)= f(u) w = d ( u,h(w,b) ) d ( u,h(w,b) ) poprawnaklasyfikacjau błędnaklasyfikacjau (przyjętow 2 = 1) 13 czerwca Perceptron Rosenblatta 4-2

40 Struktura perceptronu Rosenblatta jednowarstwowy perceptron Rosenblatta neuron dwuwartościowy (aktywny- nieaktywny) typowa funkcja aktywacji: sign dwuwarstwowy perceptron Rosenblatta wejścia:obrazyu R n (warstwansensorów) warstwa ukryta(asocjacyjna): wagi stałe warstwa wyjściowa(odpowiedzi): wagi adaptowane 13 czerwca Perceptron Rosenblatta 4-3

41 Perceptron Rosenblatta a klasyfikacja perceptronjakofunkcjaklasyfikująca(wejście:obrazy R n,wyjście:{ 1,1}) problem reprezentacji: czy rodzina funkcji wytwarzanych przez perceptron Rosenblatta jest wystarczająco bogata, by rozwiązać dowolny problem klasyfikacji? perceptron jednowarstwowy: dla dowolnego zbioru obrazów jednowarstwowy perceptron Rosenblatta może realizować dowolne klasyfikacje liniowe binarne tych obrazów perceptron dwuwarstwowy: dla zadanego skończonego zbioru obrazów istnieje dwuwarstwowy perceptron Rosenblatta, którego wagi warstwy wyjściowej dobierać tak, by realizować dowolne klasyfikacje binarne tych obrazów 13 czerwca Perceptron Rosenblatta 4-4

42 Perceptron jednowarstwowy: uczenie prezentacjaobrazówzezbioruuczącegou L : ciąguczący {( u(t),y (t) ),t=1,...,n } gdziey (t)=l(u(t)) wyjściepożądane epoka jednokrotna prezentacja wszystkich N obrazów ze zbioru treningowego w losowej kolejności modyfikacjawag w(t+1)=w(t)+ w(t) dowolne wagi początkowe w(0), korekcja wag w przypadku błędnej klasyfikacji 0 jeżeli(w T u+b)y >0 (klasyfikacjapoprawna) w= y u jeżeli(w T u+b)y 0 (klasyfikacjabłędna) =usign ( y y ) po skończonej liczbie korekcji sieć klasyfikuje prawidłowo wagi prawidłowo klasyfikujące nie są jednoznaczne 13 czerwca Perceptron Rosenblatta 4-5

43 Modyfikacje algorytmu uczenia zróżnicowanie współczynników szybkości uczenia µ: korekcjawprzypadkubłędnejklasyfikacji(y (w T u+b)<0) w=µul(u) b=µr 2 l(u) gdzier=max UL u tw.[novikoff] dla liniowo rozdzielnego zbioru uczącego o hiperpłaszczyźnie decyzyjnejh(w,b )liczbakorekcjijestniewiększaniż 4R2 gdzie 2 g oznacza g margines geometryczny hiperpłaszczyzny decyzyjnej g = inf d ( u,h(w,b ) ) u U L współczynnikuczeniamożezmieniaćsięwczasie0<µ min <µ(t)<µ max korekcjabezwzględna powtarzaniekorekcjidlakażdegou i ażdopoprawnej klasyfikacjiu i 13 czerwca Perceptron Rosenblatta 4-6

44 Funkcja kosztu dla perceptronu Rosenblatta obrazy źle klasyfikowane przez hiperpłaszczyznę decyzyjną H(w, b) U L (w,b)={u U L (w,b):l(u)(b+w T u)<0} koszt błędnej klasyfikacji Q(w,b)= u i U L (w,b) f (w,b)= u i U L (w,b) (b+w T u i )sign(y i y i ) Q(w)różniczkowalnazwyjątkiemNhiperpłaszczyzn{(w,b):u T iw+b=0}wr n+1 gradient dq(w) dw = u i U L u i sign(yi y i ), metodanajwiększegospadkuzobliczeniemgradienturaznaepokęt k w(t+n)=w(t)+µ dq(w) dw =w(t)+µ u(t)sign ( y (t) y(t) ) t T k identyczna z algorytmem Rosenblatta z korekcją wag raz na epokę metoda największego spadku z chwilową aproksymacją gradientu w(t+1)=w(t)+µ d Q(w) dw =w(t)+µu(t)sign( y (t) y(t) ) identyczna z algorytmem Rosenblatta 13 czerwca Perceptron Rosenblatta 4-7

45 Algorytm kieszeniowy Gallanta waga wkieszeni w G (t) odpowiada najdłuższej w chwili t serii identycznych wag wagaoptymalnaw minimalizuje prawdopodobieństwo błędnej klasyfikacji jeżeli U L jestskończony wagi w(t) są losowe niezależne o identycznych rozkładach, to Plimw G (t)=w P{w G (t)=w } t 1 13 czerwca Perceptron Rosenblatta 4-8

46 Istnienie uniwersalnego dwuwarstwowego perceptronu Rosenblatta zbióruczącyu L ={u 1,...u N },u i R n warstwa ukryta: 2N neuronów dlakażdegoobrazuu i określićhiperpłaszczyzny H(v i,β i),h(v i,β i)ineuronyi,i,aby u i U (v i,β i) U + (v i,β i) u j U + (v i,β i) U (v i,β i),j i wyjścianeuronówukrytychdlawejściau i x i =0, x i =1 neuron wyjściowy x j =x j dlaj i w i =1,w i = 1jeżeliu i U w i = 1,w i =1jeżeliu i U + (w j x j +w j x j =0dlaj i) b=0 jakwyznaczyćv i,β i,β i konstrukcja nieefektywna: więcej neuronów ukrytych niż obrazów treningowych zła generalizacja dla praktycznych problemów 13 czerwca Perceptron Rosenblatta 4-9

47 Warstwa ukryta: kodowanie kodowaniewybranychobrazów Nwybranychobrazów,h=2N wymaga znajomości obrazów a zakłócenia? kodowaniezupełne wszystkieobrazybinarne,h=n 2 n nierealizowalnie duża warstwa ukryta dla rzeczywistych zadań kodowanie losowe warstwa ukryta o zadanej wielkości h wybrana losowo tylkon h+1obrazówklasyfikowanychpoprawnie tylko N = 2(h + 1) obrazów(pojemność liniowa) klasyfikowanych poprawnie z prawdopodobieństwem 0.5 kodowanie adaptacyjne najlepsze, ale wymaga adaptacji warstwy ukrytej 13 czerwca Perceptron Rosenblatta 4-10

48 Maszyny liniowe warstwaukrytax=1(vu) warstwawyjściowa:y=χ(wx) R c 1 jeżeliwk T y k = x>wt j xdlawszystkichj k 0 w przeciwnym przypadku zwycięzca bierze wszystko (WTA ang. winner takes all) 13 czerwca Perceptron Rosenblatta 4-11

49 Maszyna liniowa a perceptron jednowarstwowa maszyna liniowa z dwoma wyjściami 1 jeżeliw 1 x>w 2 x y 1 = 0 wprzeciwnymprzypadku =1(wT x) y 2 =1 y 1 jestrównoważnaperceptronowiowektorzewagwyjściowychw=w 1 w 2 a zatem może realizować dowolną binarną klasyfikację liniową maszyna liniowa z c wyjściami jest równoważna perceptronowi utworzonemu dla n c wymiarowej przestrzeni obrazów zawierającej N c razy więcej obrazów. maszyna liniowa o c wyjściach może realizować dowolną liniową klasyfikację na c klas 13 czerwca Perceptron Rosenblatta 4-12

50 Uczenie jednowarstwowej maszyny liniowej klasyfikacja liniowa skończonego zbioru obrazów na c klas każdy obraz pojawia wielokrotnie, w skończonych odstępach wagi początkowe dowolne algorytmkorekcjiwag W(t)=sign ( y (t) y(t) ) u T (t) dla obrazów klasyfikowanych poprawnie W(t) = 0 dla obrazów klasyfikowanych błędnie u(t) dla k = l(u(t)) (klasa właściwa) w k (t)= u(t) dlak=wta ( Wu(t) ) (klasawygrywająca) 0 dla pozostałych k wagi są prawidłowe po skończonej liczbie korekcji dla c = 2 algorytm identyczny z algorytmem Rosenblatta 13 czerwca Perceptron Rosenblatta 4-13

51 5. Maszyny wektorów podpierających 5-1 Postać dualna perceptronu Rosenblatta 5-2 Region separujący 5-3 Optymalna hiperpłaszczyzna decyzyjna 5-4 Przypomnienie: Minimalizacja z ograniczeniami(1) 5-5 Minimalizacja z ograniczeniami(2): Problem dualny 5-6 Minimalizacja z ograniczeniami(3): Warunki Kuhna-Tuckera 5-7 Maksymalizacja marginesu hiperpłaszczyzny decyzyjnej 5-8 Zadanie dualne 5-9 Własności rozwiązania 5-10 Wyznaczenie obciążenia 5-11 Iloczyn skalarny w przestrzeni cech 5-12 SVM maksymalizujące margines 13 czerwca Maszyny wektorów podpierających 5-0

52 5-13 Warunek Mercera 5-14 Przykłady SVM 5-15 Przykład: Maszyna wielomianowa dla problemu XOR 5-16 Klasy liniowo nierozdzielne 5-17 Liniowa kara za naruszenie ograniczeń 5-18 SVM dla liniowej kary 5-19 SVM dla liniowej kary problem skalowania 5-20 Rozwiązania numeryczne 5-21 Porcjowanie i dekompozycja Bibliografia [0-1] N. Cristiannini, J Shave-Taylor, An Introduction to Support Vector Machines Cambridge University Press, Cambridge, UK 2000 [0-2] 13 czerwca Maszyny wektorów podpierających 5-0

53 Postać dualna perceptronu Rosenblatta optymalne wagi są liniową kombinacją obrazów treningowych w= u(t)sign ( y (t) y(t) ) t = N α i u i l(u i ) i=1 α i liczbabłędnychklasyfikacjii-tegoobrazu(siłaobrazu) reprezentacja ta nie jest jednoznaczna perceptron postać dualna N(u)=sign ( N b+u T α i u i l(u i ) ) i=1 =sign ( N b+ α i (u T iu)l(u i ) ) i=1 13 czerwca Maszyny wektorów podpierających 5-1

54 Region separujący H(w,b)klasyfikujepoprawnie,jeślidlapewnego >0 u i U L+ b+w T u i u i U L b+w T u i czyli ( b+wt u i ) l(ui ) dlau i U L marginesfunkcyjny f hiperpłaszczyzny:największemożliwe,tzn. dlaconajmniejjednegou i U L ( b+w T u i ) l(ui )= f (obrazypodpierająceu S ) regionseparujący{u R n : b+w T u < f } przypomnienie:odległośćpunktuu 0 odhiperpłaszczyznyh(w,b)jestrówna wt u 0 +b w, odległośćhiperpłaszczyznh(w,b 1 ),H(w,b 2 )jestrówna b 1 b 2 w szerokość regionu separującego 2 f w postaćkanoniczna f =1(usuniętaniejednoznaczność) 13 czerwca Maszyny wektorów podpierających 5-2

55 Optymalna hiperpłaszczyzna decyzyjna optymalnahiperpłaszczyznadecyzyjnah(w,b ): a.bezbłędnieklasyfikujeobrazyucząceu i U L ( w T u i +b ) l(u i ) 1 dlau i U L b.maksymalizujemarginesgeometrycznytzn.odległośćd(u L,H(w,b)) g =d(u L,H(w,b ))= 1 w klasyfikator maksymalizujący margines geometryczny N(u)=sign(w T u+b ) 13 czerwca Maszyny wektorów podpierających 5-3

56 Przypomnienie: Minimalizacja z ograniczeniami(1) problempierwotnyznaleźćϑ minimalizującefunkcjęf(ϑ),ϑ Θ R n,przy ograniczeniach g i (ϑ) 0, i=1,...,k h j (ϑ)=0, j=1,...,m (g(ϑ) 0) (h(ϑ)=0) obszardopuszczalnyd={ϑ Θ:g(ϑ) 0,h(ϑ)=0} rozwiązanie(globalne)problemupierwotnegoϑ f(ϑ )<f(ϑ) dlakażdego ϑ D,ϑ ϑ ograniczenieaktywne:g i (ϑ )=0,ograniczenienieaktywne:g i (ϑ )<0 funkcja Lagrange a, mnożniki Lagrange a L(ϑ,α,β)=f(ϑ)+ k α i g i (ϑ)+ i=1 m β j h j (ϑ) j=1 13 czerwca Maszyny wektorów podpierających 5-4

57 Minimalizacja z ograniczeniami(2): Problem dualny problemdualny:znaleźćα,β maksymalizującefunkcję L (α,β)=inf ϑ Θ L(ϑ,α,β) przy ograniczeniach α 0 f(ϑ) L (α,β)dlakażdegoϑ D,α 0,β jeślif(ϑ )=L (α,β )gdzieα 0,ϑ D, toϑ, ( α,β ) sąrozwiązaniamiproblemupierwotnegoidualnego, aponadtoα g =0 lukadualności:l=inf ϑ D f(ϑ) sup α 0,β L (α,β) 0 punktsiodłowy:lukadualnościjestzerowawtedyitylkowtedygdy(ϑ,α,β ) jestpunktemsiodłowymfunkcjilagrange atzn.dlakażdegoϑ Θ,α 0,β L(ϑ,α,β) L(ϑ,α,β ) L(ϑ,α,β ) 13 czerwca Maszyny wektorów podpierających 5-5

58 Minimalizacja z ograniczeniami(3): Warunki Kuhna-Tuckera jeżeliθjestzbioremwypukłymiograniczeniasąafiniczne,tol=0 warunki Kuhna-Tuckera dla funkcji f wypukłej i ciągłej wraz z pochodnymi na zbiorzewypukłymθiafinicznychfunkcjig i,h j : ϑ jestrozwiązaniemproblemupierwotnegowtedyitylkowtedy,gdyistnieją α,β takie,że L ϑ ϑ,α,β =0 L β ϑ,α,β =0 (K-T1) (K-T2) α ig i (ϑ )=0, i=1,...,k g i (ϑ ) 0, i=1,...,k α i 0, i=1,...,k (K-T3a) (K-T3b) (K-T3c) dlaograniczeńaktywnychα i 0,dlaograniczeńnieaktywnychα i =0 13 czerwca Maszyny wektorów podpierających 5-6

59 Maksymalizacja marginesu hiperpłaszczyzny decyzyjnej problem optymalizacji minimalizować Q(w,b)= 1 2 w 2 funkcjawypukłanazbiorze R n+1 przyograniczeniach l(u i ) ( w T u i +b ) 1, i=1,...,n afiniczne funkcja Lagrange a L(w,b;α)= 1 2 wt w+ N i=1 α i ( 1 l(u i ) ( w T u i +b )) zadanie dualne: programowanie kwadratowe, rozwiązanie numeryczne = warunki Kuhna-Tuckera nie dają rozwiązania w postaci analitycznej, ale pozwalają na określenie jego właściwości = 13 czerwca Maszyny wektorów podpierających 5-7

60 Zadanie dualne L funkcja dualna: w = L b =0(K-T1)czyli N w = α i u il(u i ) podstawiamydofunkcjilagrange a i=1 N α i l(u i )=0 i=1 czyli L (α)= 1 2 w T w + N α i = i=1 zadanie dualne: maksymalizować ograniczeniewproblemiedualnym N α i 1 2 i=1 N i=1j=1 N α i α j l(u i )l(u j )u T iu j L (α)= N α i 1 2 i=1 N N α i α j l(u i )l(u j )u T iu j i=1j=1 przy ograniczeniach N i=1 α il(u i )=0 α i 0, i=1,...,n α zależyodu i tylkopoprzeziloczynyskalarneu T iu j numeryczne rozwiązanie problemu dualnego: programowanie kwadratowe 13 czerwca Maszyny wektorów podpierających 5-8

61 trzeci warunek Kuhna-Tuckera Własności rozwiązania α i (1 l(u i ) ( w T u i +b )) =0, i=1,...,n K-T3a l(u i ) ( w T u i +b ) 1, i=1,...,n α i 0, i=1,...,n K-T3b K-T3c α i =0 l(u i ) ( w T u i +b ) <1 u i wewnątrzzbiorudopuszczalnego α i 0 l(u i ) ( w T u i +b ) =1 u i obrazpodpierający dlaobrazówinnychniżpodpierająceα i =0(K-T3a)czyli w = u i U S α iu i l(u i ) optymalny margines geometryczny w 2 =w T u i U S αi l(u i)u i = ( u i U S αi 1 l(ui )b ) = u i U S αi czyli 1 g = u i U α S i 13 czerwca Maszyny wektorów podpierających 5-9

62 Wyznaczenie obciążenia b możnawyznaczyćzograniczeńpierwotnych 1 w T u i b dlal(u i )=1 b 1 w T u i dlal(u i )= 1,czyli b 1 min ui:l(ui)=1w T u i b 1 max ui :l(u i )= 1w T u i ostatecznie b = 1 ( min w T u i + max w T ) u i 2 u i U L+ u i U L dladowolnegoobrazupodpierającegol(u j ) ( w T u j +b ) =1tzn. b =l(u j ) w T u j, u j U S 13 czerwca Maszyny wektorów podpierających 5-10

63 Iloczyn skalarny w przestrzeni cech reguła klasyfikacji dla sieci jednowarstwowej N(u)=sign (b + ) α il(u i )u T iu u i U S U S,α i,b znalezioneprzezrozwiązaniezadaniaminimalizacji reguła klasyfikacji dla sieci dwuwarstwowej pierwsza warstwa: obliczanie cech x = ϕ(u) druga warstwa: N(u)=sign (b + ) α il(u i )x T ix ϕ(x i ) X S iloczyn skalarny w przestrzeni cech x T ix=ϕ(u i ) T ϕ(u)=k(u i,u) maszynę dwuwarstwową można zmodyfikować, gdyż nie trzeba obliczać cech rozwiązanie zależy tylko od iloczynu skalarnego k przypomnienie: iloczyn skalarny symetria: k(u,u )=k(u,u ), warunekcauchy-schwarza: k(u,u ) 2 k(u,u )k(u,u ) 13 czerwca Maszyny wektorów podpierających 5-11

64 SVM maksymalizujące margines reguła klasyfikacji N(u)=signd(u i )=sign (b + ) αil(u i )k(u i,u) u i U S gdzie α jestjednoznacznymrozwiązaniemproblemumaksymalizacjifunkcji L (α)= N α i 1 2 i=1 przy ograniczeniach N i=1 N α i α j l(u i )l(u j )k(u i,u j ) j=1 N α i l(u i )=0 α i 0, i=1,...,n i=1 b =l(u j ) u i U S α i l(u i)k(u i,u j ) ) α i >0 u i obrazypodpierające,u i U S 1 margines geometryczny u i U α i S dladowolnegou i U S 13 czerwca Maszyny wektorów podpierających 5-12

65 Warunek Mercera nie każdy iloczyn skalarny jest realizowany przez pewną przestrzeń cech warunek Mercera gwarantuje istnienie funkcji ϕ: dlakażdegoskończonegopodzbioru{u 1,...,u N } Umacierz{k(u i,u j )}jest dodatnio półokreślona ( ) przykłady:k(u,u )=(u T u +1) p, k(u,u 1 )=exp 2σ u u 2 2 jeżeli funkcje k spełniają warunek Mercera, to warunek ten spełnia każda kombinacja liniowa tych funkcji iloczyn tych funkcji k ( f(u ),f(u ) ) dladowolnejfunkcjif π(k(u,u )); π-wielomianonieujemnychwspółczynnikach exp(k(u,u )) 13 czerwca Maszyny wektorów podpierających 5-13

66 maszyna wielomianowa k(u,u )=(u T u +1) p maszyna radialna ( 1 k(u,u )=exp 2σ 2 u u 2) Przykłady SVM uogólnienie maszyny radialnej ( 1 ) gdzie d jest miarą odległości obrazów, np. k(u,u )=exp 2σ 2d(u,u ) d(u,u )=χ 2 (u,u ) n k=1 d(u,u )= u u p = n p u k u k 2 u k +u k k=1 u k u k p W.M.? W.M.spełnionydlap=1,2 13 czerwca Maszyny wektorów podpierających 5-14

67 Przykład: Maszyna wielomianowa dla problemu XOR ] T, [ ] T, [ ] T, [ u i [ l(u i ) -1, 1, 1, -1 k(u,u )=(1+u T u ) 2 problemdualny:minimalizowaćl (α)=α T i 1 2 αt ( ll T K ) α ( -produktschura) przyograniczeniach α 0, l T α 0 gdziel= [ ] [ ] , ll T = , K={k(u i,u j )}= rozwiązaniedualnebezograniczeń:α = ( ll T K ) 1 i= 1 96 ograniczeniadualnespełnione,wszystkieu i sąpodpierające reguła klasyfikacji y(u) = sign (b + ui U α i l(u i)k ( ) ) u,u i b =l(u j ) u i U s α i l(u i)k ( ) u i,u j dlau j U S czylib =0 przestrzeń cech: poniewaź k(u,u )=(1+u T u ) 2 =1+2u T u +(u T u ) 2 =3+2u 1 u 1 +2u 2u 2 +2u 1u 2 u [ 1 u 2 3 ] T azatemϕ(u)= 2u1 2u2 2u1 u 2 ] T [ ] [ ] i= 1 8 i, 13 czerwca Maszyny wektorów podpierających 5-15

68 Klasy liniowo nierozdzielne przypadek liniowo rozdzielny ( wt u i +b ) l(u i ) 1 dlau i U L miękki margines: możliwość naruszenia warunków poprawnej klasyfikacji dla i-tego obrazu ( wt u i +b ) l(u i ) 1 ξ i, ξ i 0, dlau i U L, ξ i -zmiennedopełniające(slackvariables) 0<ξ i <1 ξ i >1 naruszony region rozdzielający brak separacji liniowej 13 czerwca Maszyny wektorów podpierających 5-16

69 Liniowa kara za naruszenie ograniczeń problem pierwotny(c kontroluje liczbę błędnych klasyfikacji) minimalizowaćfunkcję Q(w,b,ξ)= 1 2 w 2 +c N i=1 ξ i przyograniczeniach ξ i 0, l(u i ) ( w T u i +b ) 1 ξ i, i=1,...,n funkcjalagrange al(w,b,ξ;α,λ) N N ( = 1 2 wt w+c ξ i + α i 1 ξi l(u i )(w T u i +b) ) i=1 warunki Kuhna-Tuckera N w = α i u i l(u i ), i=1 i=1 N α i l(u i )=0 i=1 α i +λ i =c, i=1,...,n N λ i ξ i i=1 (K-T1) α i (1 ξ i l(u i ) ( w T u i +b )) =0, λ i ξ i =0, i=1,...,n (K-T3a) l(u i ) ( w T u i +b ) 1 ξ i, ξ i 0, i=1,...,n α i 0, λ i 0, i=1,...,n (K-T3b) (K-T3c) b trzebawyznaczyćzograniczeńpierwotnych 13 czerwca Maszyny wektorów podpierających 5-17

70 SVM dla liniowej kary funkcja dualna- identyczna jak przy ostrym marginesie N N L (α,λ)= 1 2 w T w + α i = α i 1 N N α i α j l(u i )l(u j )k(u i,u j ) 2 i=1 i=1 problem dualny: maksymalizować funkcję L (α)= N i=1 α i 1 N N 2 i=1 j=1 α iα j l(u i )l(u j )k(u i,u j ) N przy ograniczeniach i=1 α il(u i )=0, 0 α i c, i=1,...,n α i =0 l(u i ) ( w T u i +b ) <1 u i wewnątrzzbiorudopuszczalnego i=1 j=1 0 α i c l(u i ) ( w T u i +b ) =1 u i obrazpodpierający α i =c l(u i ) ( w T u i +b ) =1 u i naruszaograniczenia(ξ i >0) reguła klasyfikacji w przestrzeni obrazów y(u)=sign (b + α ( ) ) il(u i )k u,ui u i U s b dobranetak,byspełniaćwarunekl(u i )y(u i )=1 dlakażdegoi:0<αi <c 1 marginesgeometryczny g = ui US u j U α S i α j l(u i)l(u j )k(u i,u j ) 13 czerwca Maszyny wektorów podpierających 5-18

71 SVM dla liniowej kary problem skalowania zmodyfikowanyproblemdualny:0 c 0 1 maksymalizowaćfunkcję L (α)= 1 N N 2 i=1 j=1 α iα j l(u i )l(u j )k(u i,u j ) przyograniczeniach N i=1 α N il(u i )=0, i=1 α i c 0, 0 α i 1/N, i=1,...,n 0<α i < 1 N u i -wektorpodpierający α i = 1 N u i -wektornaruszającyograniczenia b dobranetak,byspełniaćwarunek l(u i )y(u i )=1 dlakażdegowektorapodpierającegou i (tznjeżeli0<α i< 1 N ) 13 czerwca Maszyny wektorów podpierających 5-19

72 metoda największego spadku Rozwiązania numeryczne α(k+1)=α(k)+η dl (α) dα wersja sekwencyjna, j wybierane losowo α j (k+1)=α j (k)+η j L (α) α j =α j (k)+η j ( 1 l(ui )K(u i,u j ) ) α j (k+1)=:max(0,α j (k+1)) α j (k+1)=:min(c,α j (k+1)) (dlaproblemuzkarąliniową) warunek liniowy związany z b jest niemożliwe do spełniania założyć b ograniczenia liniowe zastąpić przez u Uα i l(u i ) z i (k) gdzieciągi{z i (k)}sąmalejące procedurydwustopniowe(nawetdużezbioryobrazów,rzędu10 6 ) idlabieżącegoα,znaleźćobrazypodpierająceu α ={u i U:α i >0} iiprzeprowadzićoptymalizacjędlau U α iiiwykonaćiteracjedlawszystkichu i / U αi ivutworzyćα,przejśćdo[i] 13 czerwca Maszyny wektorów podpierających 5-20

73 porcjowanie Porcjowanie i dekompozycja wydzielić zbiór roboczy obrazów, powtarzać do spełnienia warunku stopu przeprowadzić optymalizację na zbiorze roboczym, utworzyć nowy zbiór roboczy spośród obrazów naruszających warunki KT dekompozycja: porcjowanie z zachowaniem stałej objętości zbioru roboczego dekompozycja dla 2-elementowych zbiorów roboczych: sekwencyjna optymalizacja minimalna ograniczenia0 α,α cprowadządou α V gdzie U=max(0,α α ), V=min(c,c α +α ) jeśliu,u wróżnychklasach U=max(0,α +α c), V=min(c,α +α ) jeśliu,u wtejsamejklasie wyznaczenieα,α e =d(u ) l(u )= ( u j U ) α j l(u j )k(u j,u )+b l(u ), e d(u ) l(u ) κ=k(u,u )+k(u,u ) 2k(u,u ) α (k)=α (k 1)+(e e )l(u )/κ warunekliniowy, α (k)=:max(u,α (k)) α (k)=α (k 1)+l(u )l(u ) ( α (k 1) α (k) ) 13 czerwca Maszyny wektorów podpierających 5-21

74 6. Adaline 6-1 Adaline- Liniowy neuron 6-2 Minimalizacja błędu kwadratowego 6-3 Rekurencyjne najmniejsze kwadraty 6-4 Algorytm najmniejszych średnich kwadratów LMS 6-5 Zasada najmniejszej zmiany 6-6 Algorytmy LMS z normalizacją 6-7 Własności algorytmów LMS z normalizacją Bibliografia [0-1] B. Widrow and M.A. Lehr, 30 years of adaptive neural networks: perceptron, madaline, and backpropagation,, Proceedings of IEEE, vol. 78, No. 9, Sept czerwca Adaline 6-0

75 ADAptive LInear NEuron ADAptive LINear Element Adaline- Liniowy neuron współczesne perceptrony wielowarstwowe perceptron Rosenblatta struktura sieci Adaline algorytmy uczenia liniowewyjściesieci(treningwag) y(t)=w(t) T u(t) binarnewyjściesieci(klasyfikacja) y B (t)=sign ( w(t) T u(t) ) odchyłkawyjścialiniowego ε(t)=y (t) y(t)=y (t) w(t) T u(t) 13 czerwca Adaline 6-1

76 Minimalizacja błędu kwadratowego błąd kwadratowy wyjścia sieci(dla jednowymiarowego wyjścia) Q N = Q N (w)= 1 2 gradient i hessian d Q N (w) dw d 2 QN (w) dwdw T = = N t=1 N t=1 N y (t) w T u(t) 2 = 1 2 t=1 u(t)ε(t)= N t=1 u(t)y (t)+ N ε(t) 2 t=1 N t=1 u(t)u(t) T >0 warunekjednoznaczności u(t)u(t) T w wagi optymalne minimalizują uśredniony błąd kwadratowy odchyłki w = (N t=1 uwzględnienie informacji a priori: ) 1 N u(t)u(t) T u(t)y (t)= R u (t) 1 Ru,y (t) t=1 wagi optymalne Q N = Q+ 1 2 (w w 0) T P 1 0 (w w 0) w = ( P N t=1 u(t)u(t) T ) 1 ( P 1 0 w 0+ N t=1 ) u(t)y (t) 13 czerwca Adaline 6-2

77 Rekurencyjne najmniejsze kwadraty realizacja rekurencyjna z uwzględnieniem informacji a priori: szczególny przypadek Filtru Kalmana w(t+1)=w(t)+p(t)u(t)ε(t) P(t+1)=P(t) P(t)u(t)uT (t)p(t) 1+u T (t)p(t)u(t) w(0)=w 0, P(0)=P 0 >0 aktualizacjawag aktualizacja wzmocnień warunkipoczątkowe równoważna postać aktualizacji wzmocnień dla P(t) > 0 P(t) 1 =u(t)u(t) T +P(t 1) 1 =P t u(s)u(s) T s=1 stosowanie jej do aktualizacji wag wymaga jednak odwracania macierzy błąd średniokwadratowy wag w(t) w(t 1) 0 słabszyniżwarunekcauchy ego! ( jeżeli min eig P(t) 1) to w(t) w własności odchyłek wyjść ε(t) 1+κ u(t) 2 0 gdzie κ=maxeig(p 0) 13 czerwca Adaline 6-3

78 Algorytm najmniejszych średnich kwadratów metoda największego spadku w(t+1)=w(t) µ d Q N (w) dw N =w(t) µ u(t) ε(t) t=1 LMS algorytm najmniejszych średnich kwadratów µ-lms: w(t+1)=w(t)+µu(t)ε(t) jeśliobrazysąlosowaneniezależniezrozkładuomacierzykowariancjir u to średnie wagi Ew(t) są zbieżne jeżeli 0<µ 2 maxeig(r u ) błądśredniokwadratowye ε(t) 2 jestzbieżnyjeśli 0<µ 2 trr u (trr u = eig(r u )) 13 czerwca Adaline 6-4

79 Zasada najmniejszej zmiany minimalizowaćq(w + )= 1 2 w+ w 2 przyograniczeniachy =w +T u rozwiązaniew + jestrzutemwnahiperpłaszczyznęy =w +T u funkcja Lagrange a L(w +,β)=q(w + )+β(y w +T u) warunki Kuhna-Tuckera(funkcja Q jest wypukła i ciągła wraz z pochodnymi na R d,ograniczeniasąafiniczne) dl dw + =w+ w βu=0 dl =y w +T u=0 dβ = β u 2 =y w T u=ε optymalne wagi w + =w+ 1 u(t) 2u(t)ε(t) (dla u(t) >0) 13 czerwca Adaline 6-5

80 algorytm Kaczmarza Algorytmy LMS z normalizacją 1 w(t+1)=w(t)+ u(t) 2u(t)ε(t) (dla u(t) >0) algorytm normalizowanych najmniejszych średnich kwadratów(α-lms) α w(t+1)=w(t)+ u(t) 2u(t)ε(t) (dla u(t) >0) zmiany wyjścia liniowego i odchyłki wyjścia są proporcjonalne do odchyłki (y(t+)=wyjścieobliczonedlazmodyfikowanejwagi =w(t+1) T u(t)) y(t+1) y(t)= ( w(t+) w(t) ) Tu(t)=αε(t) ε(t+) ε(t)= αε(t) skalowanieu = u u,y = y u,y = y u prowadzidoµ-lms zmodyfikowany algorytm α-lms α w(t+)=w(t)+ c+ u(t) 2u(t)ε(t) c>0(członregularyzujący),0<α<2 13 czerwca Adaline 6-6

81 Własności algorytmów LMS z normalizacją własności ciągu wag w(t+1) w(t) 0 jeżeli s+k i=t w(t) w u(i)u(i) T u(i) 2 >cidlakażdegotipewnegok,to ważone odchyłki wyjścia sieci maleją do zera ε(t) c+ u(t) czerwca Adaline 6-7

82 7. Zagadnienia aproksymacji funkcji 7-1 Problem aproksymacji 7-2 Reprezentacja Kołmogorowa 7-3 Typowa sieć aproksymacyjna 7-4 Aproksymacja funkcji ciągłych 7-5 Aproksymacja funkcji ciągłych- warunek konieczny i wystarczający 7-6 Równoczesna aproksymacja funkcji ciągłych i ich pochodnych 7-7 Aproksymacja funkcji całkowalnych 7-8 Równoczesna aproksymacja funkcji całkowalnych i ich pochodnych 7-9 Aproksymacja funkcji nieciągłych 7-10 Aproksymacja funkcji zmiennej losowej 7-11 Zestawienie twierdzeń aproksymacyjnych 13 czerwca Zagadnienia aproksymacji funkcji 7-0

83 Bibliografia [0-1] A.N. Kolmogorov, On the representation of continuous functions of many variables by superposition of continuous functions of one variable and addition, Dokl. Akad. Nauk USSR, vol. 114, pp , 1957 [0-2] R. Hecht-Nielsen, Kolmogorov s mapping neural network existence theorem, Proc. Int. Conf. on Neural Networks, vol. III, pp , 1987 [0-3] K. Hornik, M. Stinchcombe, and H. White Multilayer feedforward networks are univeral approximators, Neural Networks, vol 2, No. 5, pp , 1989 [0-4] K. Hornik, M. Stinchcombe, and H. White Univeral approximation of an unknown mapping and its derivatives using multilayer neural networks, Neural Networks, vol 3, No. 5, pp , 1990 [0-5] M. Leshno, V. Lin, A. Pinkus, and S. Schocken, Multilayer feedforward networks with a nonpolynomial activation funtion can approximate any function, Neural Networks, vol. 6, pp , czerwca Zagadnienia aproksymacji funkcji 7-0

84 Problem aproksymacji aproksymacja nieznanej funkcji f F wybrać fzrodzinyfunkcji Ftakabyminimalizowaćd(f, f) rodzinafwynikazproblemu,np.c(u),c k (U),L p (U) d metrykawłaściwadlaf nieznana funkcja poznawana poprzez eksperyment ( u(1),y(1) ), ( u(2),y(2) ),..., ( u(n),y(n) ) czy Fjestwystarczającobogata? uniwersalny aproksymator dladowolnychǫ>0,f Fistnieje f Fdlaktórej d(f, f)<ǫ czy sieci neuronowe są uniwersalnymi aproksymatorami? 13 czerwca Zagadnienia aproksymacji funkcji 7-1

85 Reprezentacja Kołmogorowa 13 Hipoteza Hilberta istnieje analityczna funkcja 3 zmiennych która nie jest skończoną superpozycją funkcji ciągłych 2 zmiennych Kołmogorow każda funkcja ciągła n zmiennychf:i n R,n 2,mareprezentację 2n n f(u)= γ i,j (u j ) i=0 g i j=1 {g 0,...g 2n } ciągłe funkcje 1 zmiennej, zależą od f rodzina funkcji monotonicznych ciągłychγ i,j :I Rjestuniwersalna twierdzenie Kołmogorowa określa reprezentację funkcji wymaga znajomości funkcji błąd reprezentacji jest zerowy 13 czerwca Zagadnienia aproksymacji funkcji 7-2

86 Typowa sieć aproksymacyjna aproksymacjafunkcjif:u R n R rodzina sieci dwuwarstwowych N[g] warstwa wyjściowa liniowa o zerowym obciążeniu warstwa ukryta o identycznych funkcjach aktywacji g wolne parametry: liczba neuronów warstwy ukrytej h wagi(nhwag)iobciążenia(hobciążeń) warstwy ukrytej wagi warstwy wyjściowej(h wag) 13 czerwca Zagadnienia aproksymacji funkcji 7-3

87 Aproksymacja funkcji ciągłych aproksymowanefunkcjesąciągłenazbiorzedomkniętymograniczonymu R n odległość funkcji rozumiana w sensie supremum tzn. d(f, f)=sup f(u) f(u) u U [Hornik, 1991] jeżeli funkcja aktywacji g jest ciągła, ograniczona i różna od stałej to sieć typu N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie(w sensie supremum) aproksymować dowolną funkcję ciągłą na zbiorze domkniętym i ograniczonym tzn.dlakażdejfunkcjifciągłejnazbiorzedomkniętymiograniczonymui dowolnegoǫ>0,istniejesiećtypun[g]taka,że sup f(u) f(u) <ǫ u U 13 czerwca Zagadnienia aproksymacji funkcji 7-4

88 Aproksymacja funkcji ciągłych- warunek konieczny i wystarczający funkcję g: R R nazywamy lokalnie istotnie ograniczoną, jeżeli jest ograniczona prawiewszędzie(ograniczonazawyjątkiemzbioruzerowejmiarylebesgue aµ L ) na każdym podzbiorze domkniętym i ograniczonym istotne supremum funkcji esssup U f(u =inf { δ:µ L {x: g(x) >δ}=0 } [Leshno, 1993] jeżeli funkcja aktywacji g jest lokalnie istotnie ograniczona domknięcie zbioru punktów nieciągłości funkcji aktywacji g ma miarę zero to sieć typu N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie(w sensie istotnego supremum) aproksymować dowolną funkcję ciągłą na zbiorze domkniętym i ograniczonym wtedy i tylko wtedy gdy g nie jest wielomianem prawie wszędzie 13 czerwca Zagadnienia aproksymacji funkcji 7-5

89 Równoczesna aproksymacja funkcji ciągłych i ich pochodnych funkcje aproksymowane: ciągłe wraz z pochodnymi do rzędu d na zbiorze domkniętymiograniczonymu R n [Hornik, Stinchcombe, White, 1990] jeżeli funkcja aktywacji g jest d-krotnie różniczkowalna w sposób ciągły, ograniczona i różna od stałej to sieć N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie aproksymować(w sensie supremum) dowolną funkcję ciągłą oraz jej pochodne do rzędu d włącznie tzn.dlakażdejfunkcjiciągłejwrazzpochodnymidorzędudnazbiorze domkniętymiograniczonymu R n ikażdegoǫ>0istniejesiećn[g],dlaktórej dlawszystkichpochodnychd k = k 1 + +k n zachodzi sup D k f(u) D k f(u) ǫ u U u k uk n n,0 k 1 + +k n d,równocześnie 13 czerwca Zagadnienia aproksymacji funkcji 7-6

90 Aproksymacja funkcji całkowalnych funkcjeaproksymowane:całkowalnezp-tąpotęgą,1 p<,nazbiorze ograniczonymu R n odległość wyznaczana przez normę f p = ( U f(u) p du ) 1/p [Hornik, 1991] jeżeli funkcja aktywacji g jest ograniczona i różna od stałej to sieć N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie(wsensie f p )aproksymowaćdowolnąfunkcjęcałkowalnązp-tą potęgą na zbiorze ograniczonym tzn.dlakażdejfunkcjicałkowalnejzp-tąpotęgąnazbiorzeograniczonymu R n ikażdegoǫ>0istniejesiećn[g]dlaktórej f f p <ǫ warunek Leshno wyznacza warunek konieczny i wystarczający aproksymacji funkcji całkowalnych z p-tą potęgą na zbiorze ograniczonym 13 czerwca Zagadnienia aproksymacji funkcji 7-7

91 Równoczesna aproksymacja funkcji całkowalnych i ich pochodnych funkcje aproksymowane: funkcja i jej pochodne do rzędu rzędu m są ciągłe i całkowalne z p-tą potęgą na zbiorze ograniczonym U [Hornik, Stinchcombe, White, 1990] jeżeli funkcja aktywacji g jest d-krotnie różniczkowalna w sposób ciągły, ograniczona i różna od stałej to sieć N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnieaproksymować(wsensienormy f p )nazbiorzeograniczonymdowolną funkcję ciągłą oraz jej pochodne do rzędu d włącznie tzn. dla każdej funkcji, której pochodne do rzędu d są ciągłe i p-krotnie całkowalne (d 1,1 p< )nazbiorzeograniczonymikażdegoǫ>0istniejesiećn[g]dla której D k f D k f p <ǫ dlakażdegok: k d 13 czerwca Zagadnienia aproksymacji funkcji 7-8

92 Aproksymacja funkcji nieciągłych funkcje aproksymowane: dowolne(mierzalne) określone na zbiorze domkniętym i ograniczonym [Luzin] funkcja mierzalna może być zmodyfikowana do funkcji ciągłej przez zmianę wartości na zbiorze o arbitralnie małej mierze jeżeli funkcja aktywacji g jest ciągła, ograniczona i różna od stałej to sieć N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie(w sensie supremum) aproksymować na podzbiorze dowolnie mało różniącym się od dziedziny funkcji, dowolną funkcję(mierzalną) na zbiorze domkniętym i ograniczonym tzn. dla każdej funkcji mierzalnej na zbiorze domkniętym i ograniczonym i każdego ǫ>0istnieją:siećn[g]izbiórdomkniętyiograniczonyu ǫ Udowolniebliski zbiorowiuwtymsensie,żeµ L (U U ǫ ) ǫ,dlaktórych sup f(u) f(u) ǫ u U ǫ 13 czerwca Zagadnienia aproksymacji funkcji 7-9

93 Aproksymacja funkcji zmiennej losowej ujestzmiennąlosowaokreślonąnazbiorzeu R n ;jejrozkładoddajewagę punktów zbioru U funkcje aproksymowane: funkcje p-tego rzędu zmiennej losowej u, tzn. E f(u) p < dlapewnegop,1 p< odległośćfunkcjiwsensiep-tychmomentów,tzn.d(f, f)= (E ( f(u) f(u) ) p ) 1/p [Hornik, 1991] jeżeli funkcja aktywacji g jest ograniczona i różna od stałej to sieć N[g] o dostatecznie dużej liczbie neuronów ukrytych może dowolnie dokładnie(w sensie p-tych momentów) aproksymować dowolną funkcję p-tego rzędu zmiennej losowej u tzn.dlakażdejfunkcjifdlaktóreje f(u) p < ikażdegoǫ>0istniejesieć N[g]dlaktórej E f(u) f(u) p <ǫ 13 czerwca Zagadnienia aproksymacji funkcji 7-10

94 Zestawienie twierdzeń aproksymacyjnych dziedzina U R n funkcja aproksymowana twierdzenie autor własności funkcji funkcji wraz z pochodnymi funkcji funkcji wraz z pochodnymi funkcji całkowalnych domknięty, ograniczony domknięty, ograniczony domknięty, ograniczony C sup f f gograniczona,c, C esssup f f glokalnieistotnieograniczona, domknięcie zbioru p. nieciągłościmamiarę0 (gniejest C d max k d sup Dk f D k f gograniczona,cd, Hornik 1991 Leshno 1993 HSW 1990 ograniczony L p f f p gograniczona, Hornik 1991 ograniczony L p,c dowolnych funkcji ograniczony, domknięty dowolne ograniczony E f(u) p aproksymacja, HSW- Hornik, Stinchcombe, White, 1990 max k d Dk f D k f p gograniczona,c d, sup f f,µ L (U U ǫ )<ǫ gograniczona,c, const u E f f p HSW 1990 Hornik 1991 gograniczona, Hornik czerwca Zagadnienia aproksymacji funkcji 7-11

95 8. Techniki minimalizacji a sieci neuronowe 8-1 Błąd aproksymacji 8-2 Minimalizacja kosztu 8-3 Tryby minimalizacji 8-4 Metoda największego spadku 8-5 Gradient sprzężony 8-6 Metoda Newtona 8-7 Metody zmiennej metryki 8-8 Metoda Levenberga-Marquardta 8-9 Specyficzne techniki neuronowe: Wygładzanie inercyjne wag 8-10 Specyficzne techniki neuronowe: Reguła delta-delta 8-11 Specyficzne techniki neuronowe: Reguła delta-bar-delta 13 czerwca Techniki minimalizacji a sieci neuronowe 8-0

96 Bibliografia [0-1] W.H. Press, B.P. Flannery, S.A. Teukolsky, and W. T. Vetterling, Numerical Recipies. The Art of Scientific Computing, Cambridge University Press, Cambridge 1986, 1992 [0-2]K.W.Brodlie,Ch.III.1.,Secs.3 6inTheStateoftheArtinNumericalAnalysis, D.A.H. Jacobs(Ed.), Academic Press, London 1977 [0-3] J.A. Freeman and D.M. Skapura, Neural Networks: algorithms, applications, and programming techniques, Addison-Wesley, Reading, Massachusetts, USA, 1991 [0-4] P. Werbos, The Roots of Backpropagation: From Ordered Derivatives to Neural Networks and Political Forecasting, Wiley, New York czerwca Techniki minimalizacji a sieci neuronowe 8-0

97 Błąd aproksymacji skończonyzbiórobrazówu={u 1,...,u N },U L =U Q= 1 2 ε i 2 Udowolny,U L losowanyzgodniezeznanymrozkłademnau Q 0 = 1 2 E ε 2 Udowolny,U L losowanyzgodniezpewnymrozkłademnau Q N (t)= 1 2 A N ε(t) 2 Q 0 13 czerwca Techniki minimalizacji a sieci neuronowe 8-1

98 Funkcja błędu Minimalizacja kosztu Q N (w)= 1 N k t=k N +1 q(y(t;w) y (t))= 1 N k t=k N +1 y(t;w) y (t) 2 Metody gradientowe w(k+1)=w(k)+ηr(δ(k)) gdzie w wektor wszystkich wag sieci δ(k)= Q N (w(k)) gradient Q N wk-tymkrokuminimalizacji H(k)= Q N (w(k)) hessian Q N wk-tymkrokuminimalizacji r wektorowa funkcja gradientu określająca nowy kierunek η krok minimalizacji k indeks kroku minimalizacji 13 czerwca Techniki minimalizacji a sieci neuronowe 8-2

99 Tryby minimalizacji (N, M, L): długość okna(przedział uśredniania) N, przesunięcie okna po wykonaniu kroków minimalizacji M, liczba kroków minimalizacji dla jednej estymaty gradientu tryb natychmiastowy(1, 1, 1) koszt oczekiwany estymowany jest przez koszt chwilowy(1-elementowe uśrednianie kosztu), minimalizacja po każdej prezentacji trybwsadowy(n,n,1) uśrednienie N > 1 kosztów chwilowych przed każdą minimalizacją; dla skończonegou L przyjmujesięn= U L (epoka) wielokrotne użycie gradientu(n, N, L) prezentacja N nowych wejść, L > 1 kroków minimalizacji ruchomeokno(n,m,l) przesunięcieoknaodługościnom<nchwil(usunięciemnajstarszychi prezentacjamnowychwejść),uśrednianiewoknieodługościn,wykonaniel 1 kroków minimalizacji 13 czerwca Techniki minimalizacji a sieci neuronowe 8-3

100 wzórtaylora1rzędu Metoda największego spadku Q(w+µr)=Q(w)+µr T Q (w)+o(µ) dlar= Q (w) Q(w+µr)=Q(w) µ Q (w) 2 <Q(w) algorytm korekcji wag w(k+1)=w(k) µδ(k) algorytm jest zwykle połączony z obliczaniem gradientu metodą propagacji zwrotnej 13 czerwca Techniki minimalizacji a sieci neuronowe 8-4

101 Gradient sprzężony funkcjakwadratowawr d,minimalizacjawkierunku minimalizacja(r) minimalizacja(s) minimalizacja(r, s) zmianagradientuoµq (w)r(k) kierunkir,ssprzężone:r T Q s=0 metodagradientusprzężonegor(k) T H(k)s(s)=0 dlas=1,...,k 1 r(k)= δ(k)+β(k 1)r(k 1), r(0)= δ(0) β(k)= δ(k+1) 2 δ(k) 2 β(k)= (δ(k+1) δ(k))t δ(k+1) δ(k) 2 Fletcher-Reeves Polak-Ribière restart po d krokach zbieżne superliniowo; praktycznie: liniowo dla funkcji kwadratowej: F-R, P-R identyczne, zbieżność w d krokach 13 czerwca Techniki minimalizacji a sieci neuronowe 8-5

6. Perceptron Rosenblatta

6. Perceptron Rosenblatta 6. Perceptron Rosenblatta 6-1 Krótka historia perceptronu Rosenblatta 6-2 Binarne klasyfikatory liniowe 6-3 Struktura perceptronu Rosenblatta 6-4 Perceptron Rosenblatta a klasyfikacja 6-5 Perceptron jednowarstwowy:

Bardziej szczegółowo

5. Zagadnienia klasyfikacji

5. Zagadnienia klasyfikacji 5. Zagadnienia klasyfikacji 5-1 Obiekty i obrazy 5-2 Cechy 5-3 Klasyfikacja obrazów 5-4 Funkcje decyzyjne 5-5 *Klasyfikacja obiektów a klasyfikacja obrazów 5-6 *Problem niejednoznaczności obserwacji 5-7

Bardziej szczegółowo

10. Techniki minimalizacji a sieci neuronowe

10. Techniki minimalizacji a sieci neuronowe 10. Techniki minimalizacji a sieci neuronowe 10-1 Błąd aproksymacji 10-2 Minimalizacja kosztu 10-3 Tryby minimalizacji 10-4 Metoda największego spadku 10-5 Gradient sprzężony 10-6 Metoda Newtona 10-7 Metody

Bardziej szczegółowo

Podstawy Sztucznej Inteligencji (PSZT)

Podstawy Sztucznej Inteligencji (PSZT) Podstawy Sztucznej Inteligencji (PSZT) Paweł Wawrzyński Uczenie maszynowe Sztuczne sieci neuronowe Plan na dziś Uczenie maszynowe Problem aproksymacji funkcji Sieci neuronowe PSZT, zima 2013, wykład 12

Bardziej szczegółowo

Uczenie sieci typu MLP

Uczenie sieci typu MLP Uczenie sieci typu MLP Przypomnienie budowa sieci typu MLP Przypomnienie budowy neuronu Neuron ze skokową funkcją aktywacji jest zły!!! Powszechnie stosuje -> modele z sigmoidalną funkcją aktywacji - współczynnik

Bardziej szczegółowo

SVM: Maszyny Wektorów Podpieraja cych

SVM: Maszyny Wektorów Podpieraja cych SVM 1 / 24 SVM: Maszyny Wektorów Podpieraja cych Nguyen Hung Son Outline SVM 2 / 24 1 Wprowadzenie 2 Brak liniowej separowalności danych Nieznaczna nieseparowalność Zmiana przetrzeń atrybutów 3 Implementacja

Bardziej szczegółowo

wiedzy Sieci neuronowe

wiedzy Sieci neuronowe Metody detekcji uszkodzeń oparte na wiedzy Sieci neuronowe Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski Wykład 7 Wprowadzenie Okres kształtowania się teorii sztucznych sieci

Bardziej szczegółowo

Elementy inteligencji obliczeniowej

Elementy inteligencji obliczeniowej Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego

Bardziej szczegółowo

Literatura. Sztuczne sieci neuronowe. Przepływ informacji w systemie nerwowym. Budowa i działanie mózgu

Literatura. Sztuczne sieci neuronowe. Przepływ informacji w systemie nerwowym. Budowa i działanie mózgu Literatura Wykład : Wprowadzenie do sztucznych sieci neuronowych Małgorzata Krętowska Wydział Informatyki Politechnika Białostocka Tadeusiewicz R: Sieci neuronowe, Akademicka Oficyna Wydawnicza RM, Warszawa

Bardziej szczegółowo

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, 2013 Spis treści Przedmowa 7 1. Wstęp 9 1.1. Podstawy biologiczne działania neuronu 9 1.2. Pierwsze modele sieci neuronowej

Bardziej szczegółowo

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia

Bardziej szczegółowo

7. Maszyny wektorów podpierajacych SVMs

7. Maszyny wektorów podpierajacych SVMs Algorytmy rozpoznawania obrazów 7. Maszyny wektorów podpierajacych SVMs dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Maszyny wektorów podpierajacych - SVMs Maszyny wektorów podpierających (ang.

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Sieć przesyłająca żetony CP (counter propagation)

Sieć przesyłająca żetony CP (counter propagation) Sieci neuropodobne IX, specyficzne architektury 1 Sieć przesyłająca żetony CP (counter propagation) warstwa Kohonena: wektory wejściowe są unormowane jednostki mają unormowane wektory wag jednostki są

Bardziej szczegółowo

UCZENIE MASZYNOWE III - SVM. mgr inż. Adam Kupryjanow

UCZENIE MASZYNOWE III - SVM. mgr inż. Adam Kupryjanow UCZENIE MASZYNOWE III - SVM mgr inż. Adam Kupryjanow Plan wykładu Wprowadzenie LSVM dane separowalne liniowo SVM dane nieseparowalne liniowo Nieliniowy SVM Kernel trick Przykłady zastosowań Historia 1992

Bardziej szczegółowo

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. zajecia.jakubw.pl/nai Literatura: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 997. PODSTAWOWE ZAGADNIENIA TECHNICZNE AI

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie

Bardziej szczegółowo

Popularne klasyfikatory w pakietach komputerowych

Popularne klasyfikatory w pakietach komputerowych Popularne klasyfikatory w pakietach komputerowych Klasyfikator liniowy Uogólniony klasyfikator liniowy SVM aiwny klasyfikator bayesowski Ocena klasyfikatora ROC Lista popularnych pakietów Klasyfikator

Bardziej szczegółowo

Metody Sztucznej Inteligencji II

Metody Sztucznej Inteligencji II 17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt

Bardziej szczegółowo

Uczenie sieci neuronowych i bayesowskich

Uczenie sieci neuronowych i bayesowskich Wstęp do metod sztucznej inteligencji www.mat.uni.torun.pl/~piersaj 2009-01-22 Co to jest neuron? Komputer, a mózg komputer mózg Jednostki obliczeniowe 1-4 CPU 10 11 neuronów Pojemność 10 9 b RAM, 10 10

Bardziej szczegółowo

ESI: Perceptrony proste i liniowe

ESI: Perceptrony proste i liniowe ESI: Perceptrony proste i liniowe [Matlab 1.1] Matlab2015b i nowsze 1 kwietnia 2019 1. Cel ćwiczeń: Celem ćwiczeń jest zapoznanie się studentów z podstawami zagadnieniami z zakresu sztucznych sieci neuronowych.

Bardziej szczegółowo

5. Analiza dyskryminacyjna: FLD, LDA, QDA

5. Analiza dyskryminacyjna: FLD, LDA, QDA Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną

Bardziej szczegółowo

WYKŁAD 9 METODY ZMIENNEJ METRYKI

WYKŁAD 9 METODY ZMIENNEJ METRYKI WYKŁAD 9 METODY ZMIENNEJ METRYKI Kierunki sprzężone. Metoda Newtona Raphsona daje dobre przybliżenie najlepszego kierunku poszukiwań, lecz jest to okupione znacznym kosztem obliczeniowym zwykle postać

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-11 1 Modelowanie funkcji logicznych

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline. Wstęp do sieci neuronowych, wykład 3 Warstwy, jednostka Adaline. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 211-1-18 1 Pomysł Przykłady Zastosowanie 2

Bardziej szczegółowo

Zastosowania sieci neuronowych

Zastosowania sieci neuronowych Zastosowania sieci neuronowych klasyfikacja LABORKA Piotr Ciskowski zadanie 1. klasyfikacja zwierząt sieć jednowarstwowa żródło: Tadeusiewicz. Odkrywanie własności sieci neuronowych, str. 159 Przykład

Bardziej szczegółowo

BIOCYBERNETYKA SIECI NEURONOWE. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

BIOCYBERNETYKA SIECI NEURONOWE. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej. Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej BIOCYBERNETYKA Adrian Horzyk SIECI NEURONOWE www.agh.edu.pl Mózg inspiruje nas od wieków Co takiego

Bardziej szczegółowo

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe Trening jednokierunkowych sieci neuronowych wykład 2. dr inż. PawełŻwan Katedra Systemów Multimedialnych Politechnika Gdańska

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY SZTUCZNE SIECI NEURONOWE MLP Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii

Bardziej szczegółowo

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe wykład 1. Właściwości sieci neuronowych Model matematyczny sztucznego neuronu Rodzaje sieci neuronowych Przegląd d głównych g

Bardziej szczegółowo

Sztuczne sieci neuronowe

Sztuczne sieci neuronowe Wydział Zarządzania AGH Katedra Informatyki Stosowanej Sztuczne sieci neuronowe Sztuczne sieci neuronowe Wprowadzenie Trochę historii Podstawy działania Funkcja aktywacji Typy sieci 2 Wprowadzenie Zainteresowanie

Bardziej szczegółowo

Zastosowania sieci neuronowych

Zastosowania sieci neuronowych Zastosowania sieci neuronowych aproksymacja LABORKA Piotr Ciskowski zadanie 1. aproksymacja funkcji odległość punktów źródło: Żurada i in. Sztuczne sieci neuronowe, przykład 4.4, str. 137 Naucz sieć taką

Bardziej szczegółowo

synaptycznych wszystko to waży 1.5 kg i zajmuje objętość około 1.5 litra. A zużywa mniej energii niż lampka nocna.

synaptycznych wszystko to waży 1.5 kg i zajmuje objętość około 1.5 litra. A zużywa mniej energii niż lampka nocna. Sieci neuronowe model konekcjonistyczny Plan wykładu Mózg ludzki a komputer Modele konekcjonistycze Perceptron Sieć neuronowa Uczenie sieci Sieci Hopfielda Mózg ludzki a komputer Twój mózg to 00 000 000

Bardziej szczegółowo

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017 Metody eksploracji danych 2. Metody regresji Piotr Szwed Katedra Informatyki Stosowanej AGH 2017 Zagadnienie regresji Dane: Zbiór uczący: D = {(x i, y i )} i=1,m Obserwacje: (x i, y i ), wektor cech x

Bardziej szczegółowo

Podstawy sztucznej inteligencji

Podstawy sztucznej inteligencji wykład 5 Sztuczne sieci neuronowe (SSN) 8 grudnia 2011 Plan wykładu 1 Biologiczne wzorce sztucznej sieci neuronowej 2 3 4 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką,

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 4. Metody kierunków poprawy (metoda spadku wzdłuż gradientu) Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 21.03.2019 1 / 41 Plan wykładu Minimalizacja

Bardziej szczegółowo

SIECI NEURONOWE Wprowadzenie

SIECI NEURONOWE Wprowadzenie SIECI NEURONOWE Wprowadzenie JOANNA GRABSKA-CHRZĄSTOWSKA Wykłady w dużej mierze przygotowane w oparciu o materiały i pomysły PROF. RYSZARDA TADEUSIEWICZA WYKŁADOWCA JOANNA GRABSKA CHRZĄSTOWSKA KATEDRA

Bardziej szczegółowo

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego

Bardziej szczegółowo

Sztuczne sieci neuronowe (SNN)

Sztuczne sieci neuronowe (SNN) Sztuczne sieci neuronowe (SNN) Pozyskanie informacji (danych) Wstępne przetwarzanie danych przygotowanie ich do dalszej analizy Selekcja informacji Ostateczny model decyzyjny SSN - podstawy Sieci neuronowe

Bardziej szczegółowo

Informacja o przestrzeniach Sobolewa

Informacja o przestrzeniach Sobolewa Wykład 11 Informacja o przestrzeniach Sobolewa 11.1 Definicja przestrzeni Sobolewa Niech R n będzie zbiorem mierzalnym. Rozważmy przestrzeń Hilberta X = L 2 () z iloczynem skalarnym zdefiniowanym równością

Bardziej szczegółowo

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji Minimalizacja funkcji n-wymiarowych Forma kwadratowa w n wymiarach Procedury minimalizacji Minimalizacja wzdłuż prostej w n-wymiarowej przestrzeni Metody minimalizacji wzdłuż osi współrzędnych wzdłuż kierunków

Bardziej szczegółowo

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ Maciej Patan Uniwersytet Zielonogórski WSTEP Zadanie minimalizacji bez ograniczeń f(ˆx) = min x R nf(x) f : R n R funkcja ograniczona z dołu Algorytm rozwiazywania Rekurencyjny

Bardziej szczegółowo

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, 2012 Spis treści Przedmowa do wydania drugiego Przedmowa IX X 1. Wstęp 1 2. Wybrane zagadnienia sztucznej inteligencji

Bardziej szczegółowo

WYKŁAD: Perceptron Rosenblatta. Maszyny wektorów podpierających (SVM). Empiryczne reguły bayesowskie. Zaawansowane Metody Uczenia Maszynowego

WYKŁAD: Perceptron Rosenblatta. Maszyny wektorów podpierających (SVM). Empiryczne reguły bayesowskie. Zaawansowane Metody Uczenia Maszynowego WYKŁAD: Perceptron Rosenblatta. Maszyny wektorów podpierających (SVM). Empiryczne reguły bayesowskie Zaawansowane Metody Uczenia Maszynowego Perceptron Rosenblatta Szukamy hiperpłaszczyzny β 0 + β 1 najlepiej

Bardziej szczegółowo

Inteligentne systemy informacyjne

Inteligentne systemy informacyjne Inteligentne systemy informacyjne Moduł 10 Mieczysław Muraszkiewicz www.icie.com.pl/lect_pw.htm M. Muraszkiewicz strona 1 Sieci neuronowe szkic Moduł 10 M. Muraszkiewicz strona 2 Dwa nurty M. Muraszkiewicz

Bardziej szczegółowo

Inteligencja. Władysław Kopaliśki, Słownik wyrazów obcych i zwrotów obcojęzycznych

Inteligencja. Władysław Kopaliśki, Słownik wyrazów obcych i zwrotów obcojęzycznych Wstęp Inteligencja Władysław Kopaliśki, Słownik wyrazów obcych i zwrotów obcojęzycznych inteligencja psych. zdolność rozumienia, kojarzenia; pojętność, bystrość; zdolność znajdowania właściwych, celowych

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metody kierunków poparwy (metoda Newtona-Raphsona, metoda gradientów sprzężonych) Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 28.03.2019 1

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę Norbert Jankowski Ontogeniczne sieci neuronowe O sieciach zmieniających swoją strukturę Warszawa 2003 Opracowanie książki było wspierane stypendium Uniwersytetu Mikołaja Kopernika Spis treści Wprowadzenie

Bardziej szczegółowo

Redukcja wariancji w metodach Monte-Carlo

Redukcja wariancji w metodach Monte-Carlo 14.02.2006 Seminarium szkoleniowe 14 lutego 2006 Plan prezentacji Wprowadzenie Metoda losowania warstwowego Metoda próbkowania ważonego Metoda zmiennych kontrolnych Metoda zmiennych antytetycznych Metoda

Bardziej szczegółowo

1. Logika, funkcje logiczne, preceptron.

1. Logika, funkcje logiczne, preceptron. Sieci neuronowe 1. Logika, funkcje logiczne, preceptron. 1. (Logika) Udowodnij prawa de Morgana, prawo pochłaniania p (p q), prawo wyłączonego środka p p oraz prawo sprzeczności (p p). 2. Wyraź funkcję

Bardziej szczegółowo

1 Relacje i odwzorowania

1 Relacje i odwzorowania Relacje i odwzorowania Relacje Jacek Kłopotowski Zadania z analizy matematycznej I Wykazać, że jeśli relacja ρ X X jest przeciwzwrotna i przechodnia, to jest przeciwsymetryczna Zbadać czy relacja ρ X X

Bardziej szczegółowo

Maszyny wektorów podpierajacych w regresji rangowej

Maszyny wektorów podpierajacych w regresji rangowej Maszyny wektorów podpierajacych w regresji rangowej Uniwersytet Mikołaja Kopernika Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie X X R d, Y R Z = (X, Y ), Z = (X, Y ) - niezależne

Bardziej szczegółowo

Sztuczna inteligencja

Sztuczna inteligencja Sztuczna inteligencja Wykład 7. Architektury sztucznych sieci neuronowych. Metody uczenia sieci. źródła informacji: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym, WNT 1996 Podstawowe architektury

Bardziej szczegółowo

Dystrybucje, wiadomości wstępne (I)

Dystrybucje, wiadomości wstępne (I) Temat 8 Dystrybucje, wiadomości wstępne (I) Wielkości fizyczne opisujemy najczęściej przyporządkowując im funkcje (np. zależne od czasu). Inną drogą opisu tych wielkości jest przyporządkowanie im funkcjonałów

Bardziej szczegółowo

Widzenie komputerowe

Widzenie komputerowe Widzenie komputerowe Uczenie maszynowe na przykładzie sieci neuronowych (3) źródła informacji: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym, WNT 1996 Zdolność uogólniania sieci neuronowej R oznaczenie

Bardziej szczegółowo

Wykład 1: Wprowadzenie do sieci neuronowych

Wykład 1: Wprowadzenie do sieci neuronowych Wykład 1: Wprowadzenie do sieci neuronowych Historia badań nad sieciami neuronowymi. - początki: badanie komórek ośrodkowego układu nerwowego zwierząt i człowieka, czyli neuronów; próby wyjaśnienia i matematycznego

Bardziej szczegółowo

METODY INTELIGENCJI OBLICZENIOWEJ wykład 5

METODY INTELIGENCJI OBLICZENIOWEJ wykład 5 METODY INTELIGENCJI OBLICZENIOWEJ wykład 5 1 2 SZTUCZNE SIECI NEURONOWE cd 3 UCZENIE PERCEPTRONU: Pojedynczy neuron (lub 1 warstwa neuronów) typu percep- tronowego jest w stanie rozdzielić przestrzeń obsza-

Bardziej szczegółowo

Inteligentne systemy przeciw atakom sieciowym

Inteligentne systemy przeciw atakom sieciowym Inteligentne systemy przeciw atakom sieciowym wykład Sztuczne sieci neuronowe (SSN) Joanna Kołodziejczyk 2016 Joanna Kołodziejczyk Inteligentne systemy przeciw atakom sieciowym 2016 1 / 36 Biologiczne

Bardziej szczegółowo

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu 1 Metody rozwiązywania równań nieliniowych. Postawienie problemu Dla danej funkcji ciągłej f znaleźć wartości x, dla których f(x) = 0. (1) 2 Przedział izolacji pierwiastka Będziemy zakładać, że równanie

Bardziej szczegółowo

Optymalizacja systemów

Optymalizacja systemów Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2012-10-10 Projekt pn. Wzmocnienie

Bardziej szczegółowo

PROGRAMOWANIE KWADRATOWE

PROGRAMOWANIE KWADRATOWE PROGRAMOWANIE KWADRATOWE Programowanie kwadratowe Zadanie programowania kwadratowego: Funkcja celu lub/i co najmniej jedno z ograniczeń jest funkcją kwadratową. 2 Programowanie kwadratowe Nie ma uniwersalnej

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

OCENA DZIAŁANIA AE. METODY HEURYSTYCZNE wykład 4 LOSOWOŚĆ W AE KRZYWE ZBIEŻNOŚCI ANALIZA STATYSTYCZNA:

OCENA DZIAŁANIA AE. METODY HEURYSTYCZNE wykład 4 LOSOWOŚĆ W AE KRZYWE ZBIEŻNOŚCI ANALIZA STATYSTYCZNA: METODY HEURYSTYCZNE wykład 4 OCENA DZIAŁANIA AE 1 2 LOSOWOŚĆ W AE Różne zachowanie algorytmuw poszczególnych uruchomieniach przy jednakowych ustawieniach parametrów i identycznych populacjach początkowych.

Bardziej szczegółowo

Jak trudne jest numeryczne całkowanie (O złożoności zadań ciągłych)

Jak trudne jest numeryczne całkowanie (O złożoności zadań ciągłych) Jak trudne jest numeryczne całkowanie (O złożoności zadań ciągłych) Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki leszekp@mimuw.edu.pl Horyzonty 2014 17-03-2014 Będlewo Zadania numeryczne

Bardziej szczegółowo

Wstęp do teorii sztucznej inteligencji Wykład II. Uczenie sztucznych neuronów.

Wstęp do teorii sztucznej inteligencji Wykład II. Uczenie sztucznych neuronów. Wstęp do teorii sztucznej inteligencji Wykład II Uczenie sztucznych neuronów. 1 - powtórzyć o klasyfikacji: Sieci liniowe I nieliniowe Sieci rekurencyjne Uczenie z nauczycielem lub bez Jednowarstwowe I

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3 Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3 Andrzej Rutkowski, Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-11-05 Projekt

Bardziej szczegółowo

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH Transport, studia I stopnia rok akademicki 2011/2012 Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Uwagi wstępne Układ liniowych równań algebraicznych można

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego

Bardziej szczegółowo

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335 Sztuczne sieci neuronowe Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335 Wykład 10 Mapa cech Kohonena i jej modyfikacje - uczenie sieci samoorganizujących się - kwantowanie wektorowe

Bardziej szczegółowo

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym Jan Karwowski Wydział Matematyki i Nauk Informacyjnych PW 17 XII 2013 Jan Karwowski

Bardziej szczegółowo

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych. Wstęp do teorii sztucznej inteligencji Wykład III Modele sieci neuronowych. 1 Perceptron model najprostzszy przypomnienie Schemat neuronu opracowany przez McCullocha i Pittsa w 1943 roku. Przykład funkcji

Bardziej szczegółowo

Metoda największej wiarogodności

Metoda największej wiarogodności Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 autorzy: A. Gonczarek, J.M. Tomczak Zbiory i funkcje wypukłe Zad. 1 Pokazać, że następujące zbiory są wypukłe: a) płaszczyzna S = {x

Bardziej szczegółowo

Zadania z Analizy Funkcjonalnej I Które z poniższych przestrzeni metrycznych są przestrzeniami unormowanymi?

Zadania z Analizy Funkcjonalnej I Które z poniższych przestrzeni metrycznych są przestrzeniami unormowanymi? Zadania z Analizy Funkcjonalnej I - 1 1. Które z poniższych przestrzeni metrycznych są przestrzeniami unormowanymi?. a) X = R, x = arctg x ; b) X = R n, d(x, y) = x 1 y 1 + x 2 y 2 + max i 3 x i y i ;

Bardziej szczegółowo

Procesy stochastyczne

Procesy stochastyczne Wykład I: Istnienie procesów stochastycznych 2 marca 2015 Forma zaliczenia przedmiotu Forma zaliczenia Literatura 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin ustny z teorii 3 Do wykładu przygotowane są

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa. GLM (Generalized Linear Models) Data Mining Wykład 6 Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa Naiwny klasyfikator Bayesa jest klasyfikatorem statystycznym -

Bardziej szczegółowo

INTERPOLACJA I APROKSYMACJA FUNKCJI

INTERPOLACJA I APROKSYMACJA FUNKCJI Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Wprowadzenie Na czym polega interpolacja? Interpolacja polega

Bardziej szczegółowo

Jądrowe klasyfikatory liniowe

Jądrowe klasyfikatory liniowe Jądrowe klasyfikatory liniowe Waldemar Wołyński Wydział Matematyki i Informatyki UAM Poznań Wisła, 9 grudnia 2009 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 1 / 19 Zagadnienie

Bardziej szczegółowo

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa

Bardziej szczegółowo

MATLAB Neural Network Toolbox przegląd

MATLAB Neural Network Toolbox przegląd MATLAB Neural Network Toolbox przegląd WYKŁAD Piotr Ciskowski Neural Network Toolbox: Neural Network Toolbox - zastosowania: przykłady zastosowań sieci neuronowych: The 1988 DARPA Neural Network Study

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE. Wstęp do sieci neuronowych, wykład 3 Warstwy, jednostka ADALINE. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 218-1-15/22 Projekt pn.

Bardziej szczegółowo

SID Wykład 8 Sieci neuronowe

SID Wykład 8 Sieci neuronowe SID Wykład 8 Sieci neuronowe Wydział Matematyki, Informatyki i Mechaniki UW slezak@mimuw.edu.pl Sztuczna inteligencja - uczenie Uczenie się jest procesem nastawionym na osiaganie rezultatów opartych o

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym

Bardziej szczegółowo

wiedzy Sieci neuronowe (c.d.)

wiedzy Sieci neuronowe (c.d.) Metody detekci uszkodzeń oparte na wiedzy Sieci neuronowe (c.d.) Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski Wykład 8 Metody detekci uszkodzeń oparte na wiedzy Wprowadzenie

Bardziej szczegółowo

Wstęp do przetwarzania języka naturalnego. Wykład 11 Maszyna Wektorów Nośnych

Wstęp do przetwarzania języka naturalnego. Wykład 11 Maszyna Wektorów Nośnych Wstęp do przetwarzania języka naturalnego Wykład 11 Wojciech Czarnecki 8 stycznia 2014 Section 1 Przypomnienie Wektoryzacja tfidf Przypomnienie document x y z Antony and Cleopatra 5.25 1.21 1.51 Julius

Bardziej szczegółowo

Procesy stochastyczne

Procesy stochastyczne Wykład I: Istnienie procesów stochastycznych 21 lutego 2017 Forma zaliczenia przedmiotu Forma zaliczenia Literatura 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin ustny z teorii 3 Do wykładu przygotowane

Bardziej szczegółowo

Metody sztucznej inteligencji Zadanie 3: (1) klasteryzacja samoorganizująca się mapa Kohonena, (2) aproksymacja sieć RBF.

Metody sztucznej inteligencji Zadanie 3: (1) klasteryzacja samoorganizująca się mapa Kohonena, (2) aproksymacja sieć RBF. Metody sztucznej inteligencji Zadanie 3: ( klasteryzacja samoorganizująca się mapa Kohonena, (2 aproksymacja sieć RBF dr inż Przemysław Klęsk Klasteryzacja za pomocą samoorganizującej się mapy Kohonena

Bardziej szczegółowo

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:

Bardziej szczegółowo

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda Sieci neuropodobne 1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN Agenda Trochę neurobiologii System nerwowy w organizmach żywych tworzą trzy

Bardziej szczegółowo

Sieci neuronowe i ich ciekawe zastosowania. Autor: Wojciech Jamrozy III rok SMP / Informatyka

Sieci neuronowe i ich ciekawe zastosowania. Autor: Wojciech Jamrozy III rok SMP / Informatyka Sieci neuronowe i ich ciekawe zastosowania Autor: Wojciech Jamrozy III rok SMP / Informatyka Klasyczna algorytmika Sortowanie ciągu liczb Czy i ile razy dane słowo wystąpiło w tekście Najkrótsza droga

Bardziej szczegółowo

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010 Materiały/konsultacje Automatyczna predykcja http://www.ibp.pwr.wroc.pl/kotulskalab Konsultacje wtorek, piątek 9-11 (uprzedzić) D1-115 malgorzata.kotulska@pwr.wroc.pl Co to jest uczenie maszynowe? Uczenie

Bardziej szczegółowo

Sztuczne Sieci Neuronowe

Sztuczne Sieci Neuronowe Sztuczne Sieci Neuronowe Wykład 7 Sieci neuronowe o radialnych funkcjach bazowych wykład przygotowany na podstawie. S. Osowski, Sieci Neuronowe w ujęciu algorytmicznym, Rozdz. 5, PWNT, Warszawa 1996. 26/11/08

Bardziej szczegółowo

WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice)

WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice) WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO Stanisław Kowalik (Poland, Gliwice) 1. Wprowadzenie Wstrząsy podziemne i tąpania występujące w kopalniach

Bardziej szczegółowo

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych mgr inż. C. Dendek prof. nzw. dr hab. J. Mańdziuk Politechnika Warszawska, Wydział Matematyki i Nauk Informacyjnych Outline 1 Uczenie

Bardziej szczegółowo

Metody Numeryczne w Budowie Samolotów/Śmigłowców Wykład I

Metody Numeryczne w Budowie Samolotów/Śmigłowców Wykład I Metody Numeryczne w Budowie Samolotów/Śmigłowców Wykład I dr inż. Tomasz Goetzendorf-Grabowski (tgrab@meil.pw.edu.pl) Dęblin, 11 maja 2009 1 Organizacja wykładu 5 dni x 6 h = 30 h propozycja zmiany: 6

Bardziej szczegółowo

x x 1. Przedmiot identyfikacji System x (1) x (2) : x (s) a 1 a 2 : a s mierzone, a = zestaw współczynników konkretyzujacych F ()

x x 1. Przedmiot identyfikacji System x (1) x (2) : x (s) a 1 a 2 : a s mierzone, a = zestaw współczynników konkretyzujacych F () . Przedmiot identyfikacji System () x (2) x * a z y ( s ) x y = F (x,z)=f(x,z,a ),gdziex = F () znane, a nieznane x () x (2) x (s) mierzone, a = a a 2 a s zestaw współczynników konkretyzujacych F () informacja

Bardziej szczegółowo