ËÞØÙÞÒ ÁÒØ Ð Ò ËÝ Ø ÑÝ ÓÖ Þ ½
ØÓ Þ ÞÙÑ ÓÒ Ó õ ØÖ ÒÙ ÔÓÞ ÓÑ ÔÓØ Ò Ù Ð ØÖÝÞÒ Ó ËÝ Ò Ý ÓÑ Ö Sieci neuronowe: pomysl Æ Ð ÓÛ Ò Ñ Þ Ù Þ Ó Ó ÓÑ Ö Ò ÙÖÓÒÓÛÝ Axonal arborization Synapse Axon from another cell Dendrite Axon Nucleus Synapses Cell body or Soma ¾
10 9 10 3 10 10 10 14 Û ÙÑÝ ÓÛ ÐÙ Þ ÑÙ Ó ÖÓÑÒ ÔÖÞ Û Ò ÓÑÔÙ¹ Ê ÛÒÓÐ Ó ÔÓÑ ÑÓ Ù Ó ÛÓÐÒ Þ Ó Þ Ù ÔÖÞ ØÛ ÖÞ Ò Ò ÓÖÑ Ø Ö Ñ Sieci neuronowe: sztuczne i naturalne ÃÓÑÔÙØ Ö Å Þ Ó Ð Þ Ò ÓÛ ½ ÈÍ 10 11 Ò ÙÖÓÒ Û Â ÒÓ Ø 10 8 ÐÓ ÞÒÝ ¾¼ ØÝÔ Û Ö Ñ 10 10 10 11 10 11 10 14 Ñ ÒÝ Ø Ò Û» 10 9 10 14
Perceptron x = (x 1, x 2,..., x n Û ØÓÖ Û ÓÛÝ Ó Ø ÒÝ µ ) x 1 w 1 x 0 =1 x 2 w 2 w 0 x n... w n Σ n Σ w i x i i=0 o = n 1 if Σ w i x > 0 i=0 i {-1 otherwise w = (w 0, w 1,..., w n Û ØÓÖ Û Ô Ö ÔØÖÓÒÙ ) w 0 Û ÔÖÞ ÙÒ ÔÖÞ ÙÛ ÔÖ ÙÒ ØÝÛ µ ÔÖÓ ÓÛ Ó ÓÛ µ ÙÒ ØÝÛ Ô Ö ÔØÖÓÒÙ σ Û ÖØÓ ÛÝ Ô Ö ÔØÖÓÒÙ Ð Û ØÓÖ o( x) x o( x) = σ( w x) = 1 w 0 + w 1 x 1 + + w n x n > 0 ÓØ ÖÛ º 1
Perceptron: wyrazalnosc X2 È Ö ÔØÖÓÒ Ö ÔÖ Þ ÒØÙ Ð Ò ÓÛ Û ÔÖÞ ØÖÞ Ò Û X1
Perceptron: wyrazalnosc ÅÓ Ò ÛÝÖ Þ ÙÒ ÐÓ ÞÒ Æ ÇÊ ÆÇÌ W = -1.5 0 W = -0.5 0 W = 0.5 0 W = 1 1 W = 1 2 W = 1 1 W = 1 2 W = -1 1 AND OR NOT
Perceptron: wyrazalnosc ÅÓ Ò ÛÝÖ Þ ÙÒ ÐÓ ÞÒ Æ ÇÊ ÆÇÌ W = -1.5 0 W = -0.5 0 W = 0.5 0 W = 1 1 W = 1 2 W = 1 1 W = 1 2 W = -1 1 AND OR NOT I 1 I 1 I 1 Ð Ò Ó Ö Û Ó ÙÒ ÇÊ 1 1 1? 0 0 1 I 1 I 2 I 2 0 0 0 1 0 1 I 1 I 2 (a) and (b) or (c) I 2 I 1 xor I 2 I 2
Ö Ô Ø x = (x ÓÖ 1,..., x n Ò Ü ÑÔÐ Ó ) Ò ÓÑ ØÓÔÔ Ò Ö Ø Ö ÓÒ Ø ÙÒØ Ð Ö ØÙÖÒ Ô Ö ÔØÖÓÒ Uczenie perceptronu: algorytm È Ö ÔØÖÓÒ¹Ä ÖÒ Ô Ö ÔØÖÓÒ Ü ÑÔÐ αµ Ö ØÙÖÒ Ô Ö ÔØÖÓÒ ÙÒØ ÓÒ Ü ÑÔÐ Ø Ó Ü ÑÔÐ Û Ø ÒÔÙØ x Ò ÓÙØÔÙØ y( x) ÒÔÙØ Ô Ö ÔØÖÓÒ Û Ø Û Ø w = (w Ô Ö ÔØÖÓÒ 0,..., w n ) α Ø Ð ÖÒ Ò Ö Ø w α (y( x) w x ) x w w + w
Þ Ö ÒÝ Ø Ð Ò ÓÛÓ Ô ÖÓÛ ÐÒÝ Â Ð Û Ô ÞÝÒÒ ÞÝ Ó ÙÞ Ò α ÛÝ Ø ÖÞ Ó Ñ Ý Uczenie perceptronu: wlasnosci ÌÛ Ö Þ Ò ½ Ð ÓÖÝØÑ ÙÞ Ò Ô Ö ÔØÖÓÒÙ Ø Þ ÒÝ
Þ Ö ÒÝ Ø Ð Ò ÓÛÓ Ô ÖÓÛ ÐÒÝ Â Ð Û Ô ÞÝÒÒ ÞÝ Ó ÙÞ Ò α ÛÝ Ø ÖÞ Ó Ñ Ý Uczenie perceptronu: wlasnosci ÌÛ Ö Þ Ò ½ Ð ÓÖÝØÑ ÙÞ Ò Ô Ö ÔØÖÓÒÙ Ø Þ ÒÝ ÌÛ Ö Þ Ò ¾ Þ Ö ÒÝ Ò Ø Ð Ò ÓÛÓ Ô ÖÓÛ ÐÒÝ Â Ð Ð ÓÖÝØÑ Þ ÐÓ ÐÒ Ó Ñ Ò Ñ ÐÒ Ó Ù Ö Ò Ó Û Ö ØÓÛ Ó ½¼
Zbieznosc uczenia perceptronu E[ w] = 1 2 Σ x U(y( x) w x) 2 Ö Ò Ó Û Ö ØÓÛÝ Ð Þ ÓÖÙ ØÖ Ò Ò ÓÛ Ó U ½½
Zbieznosc uczenia perceptronu Ö Ò Ó Û Ö ØÓÛÝ Ð Þ ÓÖÙ ØÖ Ò Ò ÓÛ Ó U E[ w] = 1 2 Σ x U(y( x) w x) 2 25 20 15 E[w] 10 5 0 2 1 0 w0-1 3 2 1 w1 0-1 -2 Ù Ö ÒØ Ö Ò Ó Û Ö ØÓÛ Ó E E[ w] =, E, E w 0 w 1 w n Û ÞÙ ÖÙÒ Û Ø ÖÝÑ E[ w] ÖÓ Ò ½¾
Zbieznosc uczenia perceptronu Ö Ò Ó Û Ö ØÓÛÝ E[ w] = 1 2 Σ x U(y( x) w x) 2 E = ½
Zbieznosc uczenia perceptronu Ö Ò Ó Û Ö ØÓÛÝ E[ w] = 1 2 Σ x U(y( x) w x) 2 E = 1 2 Σ x U(y( x) w x) 2 ½
Zbieznosc uczenia perceptronu Ö Ò Ó Û Ö ØÓÛÝ E[ w] = 1 2 Σ x U(y( x) w x) 2 E = 1 2 Σ x U(y( x) w x) 2 (y( x) w x) 2 = 1 2 Σ x U ½
Zbieznosc uczenia perceptronu Ö Ò Ó Û Ö ØÓÛÝ E[ w] = 1 2 Σ x U(y( x) w x) 2 E = 1 2 Σ x U(y( x) w x) 2 (y( x) w x) 2 = 1 2 Σ x U = 1 2 Σ x U2(y( x) w x) (y( x) w x) ½
Zbieznosc uczenia perceptronu Ö Ò Ó Û Ö ØÓÛÝ E[ w] = 1 2 Σ x U(y( x) w x) 2 E = 1 2 Σ x U(y( x) w x) 2 (y( x) w x) 2 = 1 2 Σ x U = 1 2 Σ x U2(y( x) w x) (y( x) w x) = Σ x U (y( x) w x) (y( x) w x) ½
Zbieznosc uczenia perceptronu Ö Ò Ó Û Ö ØÓÛÝ E[ w] = 1 2 Σ x U(y( x) w x) 2 E = 1 2 Σ x U(y( x) w x) 2 (y( x) w x) 2 = 1 2 Σ x U = 1 2 Σ x U2(y( x) w x) (y( x) w x) = Σ x U (y( x) w x) (y( x) w x) = Σ x U (y( x) w x)( x i ) ½
Zbieznosc uczenia perceptronu Ö Ò Ó Û Ö ØÓÛÝ E[ w] = 1 2 Σ x U(y( x) w x) 2 E = 1 2 Σ x U(y( x) w x) 2 (y( x) w x) 2 = 1 2 Σ x U = 1 2 Σ x U2(y( x) w x) (y( x) w x) = Σ x U (y( x) w x) (y( x) w x) = Σ x U (y( x) w x)( x i ) = Σ x U (y( x) w x)x i ½
Zbieznosc uczenia perceptronu Ö Ò Ó Û Ö ØÓÛÝ E[ w] = 1 2 Σ x U(y( x) w x) 2 E = 1 2 Σ x U(y( x) w x) 2 (y( x) w x) 2 = 1 2 Σ x U = 1 2 Σ x U2(y( x) w x) (y( x) w x) = Σ x U (y( x) w x) (y( x) w x) = Σ x U (y( x) w x)( x i ) = Σ x U (y( x) w x)x i ËØ E[ w] = Σ x U (y( x) w x) x ¾¼
E[ w] = Σ Ö ÒØ x U (y( x) w Û ÞÙ ÖÙÒ x) x Ø ÖÝÑ Ö Ò Ó Û Ö ØÓÛÝ E[ w] ÖÓ Ò Û Zbieznosc uczenia perceptronu ¾½
E[ w] = Σ Ö ÒØ x U (y( x) w Û ÞÙ ÖÙÒ x) x Ø ÖÝÑ Ö Ò Ó Û Ö ØÓÛÝ E[ w] ÖÓ Ò Û Zbieznosc uczenia perceptronu Û Ô Ö ÔØÖÓÒÙ ÔÓÔÖ Û Ò Û ÖÙÒ Ù Ó Ò ÔÖÞ ÛÒÝÑ Ó Ö ÒØÙ E[ w] ¾¾
E[ w] = Σ Ö ÒØ x U (y( x) w Û ÞÙ ÖÙÒ x) x Ø ÖÝÑ Ö Ò Ó Û Ö ØÓÛÝ E[ w] ÖÓ Ò Û Zbieznosc uczenia perceptronu Û Ô Ö ÔØÖÓÒÙ ÔÓÔÖ Û Ò Û ÖÙÒ Ù Ó Ò ÔÖÞ ÛÒÝÑ Ó Ö ÒØÙ E[ w] Û Ð ÓÖÝØÑ ÙÞ Ò Ô Ö ÔØÖÓÒÙ ËØ w α(y( x) w x) x w w + w ¾
Porownanie perceptronu i drzewa decyzyjnego ÙÒ Û ÞÓ ÔÓ ÓÛ Ø Û ½µ ÝÞ Ó Û Ø Ô Ò Ù Ó Ö Ø ÙÖ Ð Ô ÛÝÙÞ ÐÒ ÔÖÞ Þ Ô Ö ÔØÖÓÒ 1 1 Ð Ô ÛÝÙÞ ÐÒ ÔÖÞ Þ ÖÞ ÛÓ ÝÞÝ Ò Proportion correct on test set 0.9 0.8 0.7 0.6 0.5 Perceptron Decision tree Proportion correct on test set 0.9 0.8 0.7 0.6 0.5 Decision tree Perceptron 0.4 0 10 20 30 40 50 60 70 80 90 100 0.4 0 10 20 30 40 50 60 70 80 90 100 Training set size Training set size ¾
Plaska siec perceptronow Ê ÔÖ Þ ÒØÙ ÙÒ Û ØÓÖÓÛ ÈÓ ÞÞ ÐÒ Ô Ö ÔØÖÓÒÝ Ò Þ Ð Ò ØÖÞ ØÖ ÒÓÛ Ý Ô Ö ÔØÖÓÒ Ó Þ ÐÒ Input Units W j,i Output Units ¾
 ÒÓ Ø ÔÓ Þ ÐÓÒ Ò Û Ö ØÛÝ ÒÓ Ø Â ÒÓ Ø Ï ÔÓ ÞÓÒ ÛÝ ÞÒ Ó ÒÓ Ø Ï ÈÓ Þ Ò ÛÝ ØÔÙ ÛÝ ÞÒ ÔÓÑ ÞÝ ÒÓ Ø Ñ ÈÓ Þ Ò Ò Û Ö ØÛ Þ Þ Û Þ ÛÝ ÒÓ Ø Þ Û Ö ØÛÝ Ò Þ Þ Û Ñ Ó ÒÓ Ø Û Û Ö ØÛ ÛÝ Þ Þ ÏÝ Þ Ò Û ÖØÓ ÙÒ Ñ ØÝÐ Ó Ò ÒÓ Ø ÌÝÔÓÛ Wielowarstwowa siec neuronowa ÔÖÞÝÔÓÖÞ ÓÛ Ò Ø Ó Ó Ò Ò Û Ö ØÛÝ ÞÒ Ù Ý Û Ò Ò Þ Û Ö ØÛ Û Ò ÛÝ Þ Û Ö ØÛ ÛÝ Þ Ø ÒÓ Ø Ø ÛÝ Ñ ¾
Wielowarstwowa siec neuronowa: przyklad Output units a i ¾ Û Ö ØÛÝ ½¼ Û Ò ÙÖÓÒÝ Ù ÖÝØ Û Û Ö Ø Û ÛÒØÖÞÒ µ W j,i Hidden units a j W k,j Input units a k ¾
Wielowarstwowa siec neuronowa: ewaluacja 1 W 1,3 W 1,4 3 W 3,5 5 2 W 2,3 W 2,4 4 W 4,5 ¾
Wielowarstwowa siec neuronowa: ewaluacja 1 W 1,3 W 1,4 3 W 3,5 5 2 W 2,3 W 2,4 4 W 4,5 x 5 = σ(w 3,5 x 3 + w 4,5 x 4 ) = σ(w 3,5 σ(w 1,3 x 1 + w 2,3 x 2 ) + w 4,5 σ(w 1,4 x 1 + w 2,4 x 2 )) ¾
Wielowarstwowa siec neuronowa: uczenie ÈÖÓ Ð Ñ ÙÒ ØÝÛ Ø Ò Ò Ö Ò Þ ÓÛ ÐÒ ÈÖÓ ÓÛ Ð ÒÓ Ø Û ÛÒØÖÞÒÝ Ò ÑÓ Ò ÛÝÔÖÓÛ Þ Ö ÒØÓÛ Ö Ù Ý ÔÓÔÖ Û Ò Û Û Ö ÒØÙ Þ ÒÓ ÙÞ Ò ¼
Wielowarstwowa siec neuronowa: uczenie ÈÖÓ Ð Ñ ÙÒ ØÝÛ Ø Ò Ò Ö Ò Þ ÓÛ ÐÒ ÈÖÓ ÓÛ Ð ÒÓ Ø Û ÛÒØÖÞÒÝ Ò ÑÓ Ò ÛÝÔÖÓÛ Þ Ö ÒØÓÛ Ö Ù Ý ÔÓÔÖ Û Ò Û Û Ö ÒØÙ Þ ÒÓ ÙÞ Ò ÊÓÞÛ Þ Ò ØÓ ÓÛ Ò Ö Ò Þ ÓÛ ÐÒ ÙÒ ØÝÛ ½
Perceptron z sigmoidalna funkcja aktywacji x 1 w 1 x 0 = 1 x 2 w 2 w 0 x n... w n Σ n net = Σ w i x i=0 i o = σ(net) = 1 1 + ē net Ë ÑÓ ÐÒ ÙÒ ØÝÛ Ô Ö ÔØÖÓÒÙ σ(z) = 1 1+e z o( x) = σ( w x) = 1 1 + e w x ¾
ÛÝ Ð ÔÓ ÝÞÒ Ó Ô Ö ÔØÖÓÒÙ Þ ÑÓ ÐÒ ÙÒ ØÝÛ ÙÒ ¾ Û Ñ Perceptron z sigmoidalna funkcja aktywacji Perceptron output 0.9 1 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0-4 -2 0 x 1 2-4 -2 0 4 2 4 x 2
Û ¾ Ð Þ Û Ö ØÛ ¾ Ä Þ Ù ÖÝØ ¾ Ô Ö ÔØÖÓÒÝ ÖÓÛ Ò ÔÖÞ ÛÒ Ó Ï Ö ØÛ Wielowarstwowa siec neuronowa: przyklad Ò Ù Ö Û õ + +/ +/ + h W (x 1, x 2 ) 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0-4 -2 0 x 1 2-4 -2 0 4 2 4 x 2 X1 X 2
Û ¾ Ð Þ Û Ö ØÛ Ä Þ Ù ÖÝØ ¾ ØÛÓÖÞ Ö Û Þ Ù Ø Û ÓÒ ÔÖÓ ØÓÔ Ð Ó Ï Ö ØÛ Wielowarstwowa siec neuronowa: przyklad Ò Ù Ó Ö Ò ÞÓÒ ÛÞÒ Ò h W (x 1, x 2 ) 0.9 1 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0-4 -2 0 x 2-4 -2 0 1 4 2 4 x 2
Wielowarstwowa siec neuronowa: przyklad ÊÓÞÔÓÞÒ Û Ò Û ¾ Û Ö ØÛÝ ¾ Û Û Ð ÛÝ head hid who d hood...... F1 F2
ÙÒ ÓÓÐÓÛ ÑÓ Ý Ö ÔÖ Þ ÒØÓÛ Ò ÔÖÞ Þ Þ Ò Û Ö ØÛ à РÑÓ ÛÝÑ ÛÝ Ò Þ Ð Þ Ý ÒÓ Ø Ù ÖÝØÝ Ù ÖÝØ Ó Ö Ò ÞÓÒ ÙÒ ÑÓ Ý ÔÖÓ ÝÑÓÛ Ò Þ ÓÛÓÐÒ Ñ ÝÑ Ã ÔÖÞ Þ Þ Ò Û Ö ØÛ Ù ÖÝØ Ý Ò Ó ½ ÀÓÖÒ Ø Ðº ½ Ñ ÙÒ ÑÓ Ý ÔÖÓ ÝÑÓÛ Ò Þ ÓÛÓÐÒ Ó ÒÓ ÔÖÞ Þ ÓÛÓÐÒ ÛÓÑ Û Ö ØÛ Ñ Ù ÝØÝÑ Ý Ò Ó ½ Þ Wielowarstwowa siec neuronowa: wlasnosci ÙÒ ÓÓÐÓÛ ÙÒ
Ö Ô Ø x = (x ÓÖ 1,..., x n Ò Ü ÑÔÐ Ó ) Propagacja wsteczna: algorytm ¹ÈÖÓÔ¹ÍÔ Ø Ü ÑÔÐ Ð Ý Ö αµ Ö ØÙÖÒ Ò ØÛÓÖ ÙÒØ ÓÒ Ü ÑÔÐ Ø Ó Ü ÑÔÐ Û Ø ÒÔÙØ x Ò ÓÙØÔÙØ y( x) ÒÔÙØ Ð Ý Ö 0 Ð Ý Ö 1... Ð Ý Ö n Ò ÙÖÓÒ Ð Ý Ö ÓÖØ ÖÓÑ Ø ÓØØÓÑ ØÓ Ø ØÓÔ α Ø Ð ÖÒ Ò Ö Ø ÙÒ Ø j Ð Ý Ö ÓÖ 0 o Ó j x j ÙÒ Ø j Ð Ý Ö ÓÖ p ÓÖ Ö ÖÓÑ Ð Ý Ö Ò 1 ØÓ Ð Ý Ö ÙÔ n Ó z j Σ i layerp 1 w i,j o i o j σ(z j ) ÙÒ Ø j Ð Ý Ö ÓÖ n δ Ó j σ (z j )(y j ( x) o j ) ÙÒ Ø j Ð Ý Ö ÓÖ p ÓÖ Ö ÖÓÑ Ð Ý Ö Ò n 1 ØÓ Ð Ý Ö ÓÛÒ 0 Ó δ j σ (z j )Σ k layerp+1 w j,k δ k w j,k αδ k o j w j,k w j,k + w j,k ÓÑ ØÓÔÔ Ò Ö Ø Ö ÓÒ Ø ÙÒØ Ð Ð Ý Ö Û Ø ÑÓ Û Ø Ö ØÙÖÒ
ÔÖÓÔ Û Ø ÞÒ Þ Ð ÓÛÓÐÒ Ó Ö Ù ÖÓÛ Ò Ó Þ Ð ÓÖÝØÑ Ý Ð Propagacja wsteczna: wlasnosci Ø
ÔÖÓÔ Û Ø ÞÒ Þ Ð ÓÛÓÐÒ Ó Ö Ù ÖÓÛ Ò Ó Þ Ð ÓÖÝØÑ Ý Ð ÔÖÓÔ Û Ø ÞÒ Þ ÐÓ ÐÒ Ó Ñ Ò Ñ ÐÒ Ó Ù Ö Ò Ó¹ Ð ÓÖÝØÑ Û Ö ØÓÛ Ó Propagacja wsteczna: wlasnosci Ø ÌÛ Ö Þ Ò ¼
Propagacja wsteczna: zbieznosc uczenia E[ w] = 1 2 Σ x U(y( x) o( x)) 2 = 1 2 Σ x U (y( x) σ( w x)) 2 ½
Propagacja wsteczna: zbieznosc uczenia E[ w] = 1 2 Σ x U(y( x) o( x)) 2 = 1 2 Σ x U (y( x) σ( w x)) 2 E = 1 2 Σ x U(y( x) o( x)) 2 ¾
Propagacja wsteczna: zbieznosc uczenia E[ w] = 1 2 Σ x U(y( x) o( x)) 2 = 1 2 Σ x U (y( x) σ( w x)) 2 E = 1 2 Σ x U(y( x) o( x)) 2 (y( x) o( x)) 2 = 1 2 Σ x U
Propagacja wsteczna: zbieznosc uczenia E[ w] = 1 2 Σ x U(y( x) o( x)) 2 = 1 2 Σ x U (y( x) σ( w x)) 2 E = 1 2 Σ x U(y( x) o( x)) 2 (y( x) o( x)) 2 = 1 2 Σ x U = 1 2 Σ x U2(y( x) o( x)) (y( x) o( x))
Propagacja wsteczna: zbieznosc uczenia E[ w] = 1 2 Σ x U(y( x) o( x)) 2 = 1 2 Σ x U (y( x) σ( w x)) 2 E = 1 2 Σ x U(y( x) o( x)) 2 (y( x) o( x)) 2 = 1 2 Σ x U = 1 2 Σ x U2(y( x) o( x)) (y( x) o( x)) = Σ x U (y( x) o( x)) o( x)
Propagacja wsteczna: zbieznosc uczenia E[ w] = 1 2 Σ x U(y( x) o( x)) 2 = 1 2 Σ x U (y( x) σ( w x)) 2 E = 1 2 Σ x U(y( x) o( x)) 2 (y( x) o( x)) 2 = 1 2 Σ x U = 1 2 Σ x U2(y( x) o( x)) (y( x) o( x)) = Σ x U (y( x) o( x)) o( x) = Σ x U (y( x) o( x)) σ z [z = w x] ( w x)
Propagacja wsteczna: zbieznosc uczenia E[ w] = 1 2 Σ x U(y( x) o( x)) 2 = 1 2 Σ x U (y( x) σ( w x)) 2 E = 1 2 Σ x U(y( x) o( x)) 2 (y( x) o( x)) 2 = 1 2 Σ x U = 1 2 Σ x U2(y( x) o( x)) (y( x) o( x)) = Σ x U (y( x) o( x)) o( x) = Σ x U (y( x) o( x)) σ z [z = w x] ( w x) ( w x) = x i
Propagacja wsteczna: zbieznosc uczenia E[ w] = 1 2 Σ x U(y( x) o( x)) 2 = 1 2 Σ x U (y( x) σ( w x)) 2 E = 1 2 Σ x U(y( x) o( x)) 2 (y( x) o( x)) 2 = 1 2 Σ x U = 1 2 Σ x U2(y( x) o( x)) (y( x) o( x)) = Σ x U (y( x) o( x)) o( x) = Σ x U (y( x) o( x)) σ z [z = w x] ( w x) = Σ x U (y( x) o( x)) σ z [z = w x]x i
Propagacja wsteczna: zbieznosc uczenia σ E[ w] = Σ x U z [z = w x](y( x) o( x)) x
Propagacja wsteczna: zbieznosc uczenia σ E[ w] = Σ x U z [z = w x](y( x) o( x)) x Ð Ò ÙÖÓÒ Û j Þ Ò ÛÝ Þ Û Ö ØÛÝ ØÓ Ù ÑÝ ÞÑ ÒÝ Û ËØ δ j σ z [z = w x](y j( x) o j ( x)) w i,j αδ j x i,j ¼
Propagacja wsteczna: zbieznosc uczenia σ E[ w] = Σ x U z [z = w x](y( x) o( x)) x Ð Ò ÙÖÓÒ Û j Þ Ò ÛÝ Þ Û Ö ØÛÝ ØÓ Ù ÑÝ ÞÑ ÒÝ Û ËØ δ j σ z [z = w x](y j( x) o j ( x)) w i,j αδ j x i,j Æ ÙÖÓÒÝ Þ Ò ÞÝ Û Ö ØÛ ÑÙ Þ Ñ Ó ÔÓÛ Ò Ù y j ( x) o j ( x) ½
Propagacja wsteczna: zbieznosc uczenia σ E[ w] = Σ x U z [z = w x](y( x) o( x)) x Ð Ò ÙÖÓÒ Û j Þ Ò ÛÝ Þ Û Ö ØÛÝ ØÓ Ù ÑÝ ÞÑ ÒÝ Û ËØ δ j σ z [z = w x](y j( x) o j ( x)) w i,j αδ j x i,j Þ Ò ÞÝ Û Ö ØÛ ÑÙ Þ Ñ Ó ÔÓÛ Ò Ù y Æ ÙÖÓÒÝ j ( x) o j ( x) Ð Ó Ò ÙÖÓÒÙ j layer p Ø Û ÓÒ ÙÑ Û Ð ÞÓÒ Ò ÛÝ Ø Ó Ò ÙÖÓÒÙ Σ k layerp+1 w j,k δ k ¾
Propagacja wsteczna: zbieznosc uczenia σ E[ w] = Σ x U z [z = w x](y( x) o( x)) x Ð Ò ÙÖÓÒ Û j Þ Ò ÛÝ Þ Û Ö ØÛÝ ØÓ Ù ÑÝ ÞÑ ÒÝ Û ËØ δ j σ z [z = w x](y j( x) o j ( x)) w i,j αδ j x i,j Þ Ò ÞÝ Û Ö ØÛ ÑÙ Þ Ñ Ó ÔÓÛ Ò Ù y Æ ÙÖÓÒÝ j ( x) o j ( x) Ð Ó Ò ÙÖÓÒÙ j layer p Ø Û ÓÒ ÙÑ Û Ð ÞÓÒ Ò ÛÝ Ø Ó Ò ÙÖÓÒÙ Σ k layerp+1 w j,k δ k Û Ò ÓÛ Ò Ø ÛØ Ý Ó Ñ Ò δ j σ z [z = w x]σ k layer p+1 w j,k δ k w i,j αδ j x i,j
Prop. wsteczna z sigmoidalna funkcja aktywacji Ë ÑÓ ÐÒ ÙÒ ØÝÛ σ(z) = 1 1+e z Û Û ÞÝ Ø Ò ÙÖÓÒ o( x) = σ( w x) = σ z = 1 1 + e z 1 1 + e w x 1 1 1 + e z σ [z = w x] = o( x)(1 o( x)) z Ï ÖØÓ Û Ô ÞÝÒÒ Û ÞÑ ÒÝ Û δ j Ð Ò ÙÖÓÒ Û j Þ Û Ö ØÛÝ Ò ÛÝ Þ δ j o j (1 o j )(y j ( x) o j ) Ð Ò ÙÖÓÒ Û j Þ Ò Þ Û Ö ØÛÝ p δ j o j (1 o j )Σ k layerp+1 w j,k δ k
ÔÖÞ ÒÓ ÖÓØÒ Û ÞÝ Ø Ó ØÝ ØÖ Ò Ò ÓÛ ÔÓÔÖ Û Û ÔÓ ÓÒ ÛÝÐ Þ ÙÑ ÖÝÞÒÝ Ð Ó Þ ÓÖÙ ØÖ Ò Ò ÓÛ Ó Ò Propagacja wsteczna: przyklad zbieznosci Ð ÓÖÝØÑ ÙÞ Ò Þ ØÖÞÝÑÙ Ý ÔÖÞ Ø Ñ Ð 14 Total error on training set 12 10 8 6 4 2 0 0 50 100 150 200 250 300 350 400 Number of epochs
ÈÓÞÛ Ð Ò ÞÝ Þ ÒÓ Ò ÔÓÞ Ø Ù ÒÔº α 0.5µ ÔÖ ÝÞÝ Ò Þ ÒÓ Ó ÐÓ ÐÒ Ó Ñ ÑÙÑ Û Ó ÓÛ Þ α 0µ Dobor wspolczynnika szybkosci uczenia α ÞÛÝÞ α [0.01; 0.5] Ù Ø ÐÓÒ Ð Þ ÔÓ ÑÓ Ò Ö Ù ÓÛ ÓÑ ØÖÝÞÒ ÈÓ α := α c c [0.9; 0.99]
Uczenie neuronow ukrytych (wewnetrznych) Inputs Outputs ÁÒÔÙØ ÇÙØÔÙØ ½¼¼¼¼¼¼¼ ½¼¼¼¼¼¼¼ ¼½¼¼¼¼¼¼ ¼½¼¼¼¼¼¼ ¼¼½¼¼¼¼¼ ¼¼½¼¼¼¼¼ ¼¼¼½¼¼¼¼ ¼¼¼½¼¼¼¼ ¼¼¼¼½¼¼¼ ¼¼¼¼½¼¼¼ ¼¼¼¼¼½¼¼ ¼¼¼¼¼½¼¼ ¼¼¼¼¼¼½¼ ¼¼¼¼¼¼½¼ ¼¼¼¼¼¼¼½ ¼¼¼¼¼¼¼½
Uczenie neuronow ukrytych (wewnetrznych) Inputs Outputs ÁÒÔÙØ À Ò ÇÙØÔÙØ Î ÐÙ ½¼¼¼¼¼¼¼ º º¼ º¼ ½¼¼¼¼¼¼¼ ¼½¼¼¼¼¼¼ º¼½ º½½ º ¼½¼¼¼¼¼¼ ¼¼½¼¼¼¼¼ º¼½ º º¾ ¼¼½¼¼¼¼¼ ¼¼¼½¼¼¼¼ º º º ½ ¼¼¼½¼¼¼¼ ¼¼¼¼½¼¼¼ º¼ º¼ º¼¾ ¼¼¼¼½¼¼¼ ¼¼¼¼¼½¼¼ º¾¾ º º ¼¼¼¼¼½¼¼ ¼¼¼¼¼¼½¼ º ¼ º¼½ º ¼¼¼¼¼¼½¼ ¼¼¼¼¼¼¼½ º ¼ º º¼½ ¼¼¼¼¼¼¼½
Uczenie neuronow ukrytych (wewnetrznych) ÌÖ ÒÓÛ Ò Û Ð Ò Ó Þ Ò ÙÖÓÒ Û Û ÛÒØÖÞÒÝ 4 3 2 1 0-1 -2-3 -4-5 Weights from inputs to one hidden unit 0 500 1000 1500 2000 2500
¾º ± Û ¹ÒÒ ¹Û Ö ØÛÓÛ ¼¼ ¼¼ ½¼µ ½º ± Û Ë Rozpoznawanie cyfr recznie pisanych Ä Æ Ø ¹Û Ö ØÛÓÛ ½ ¾ ¼ ½¼µ ¼º ± Û ¼
Sieci rekurencyjne y(t + 1) y(t + 1) Û Ö Ý Ð ÖÓÛ Ò ÞÑ Ò Û Û ÓÐ ÒÝ Ø Ø Þ Ö b x(t) x(t) c(t) (a) Feedforward network (b) Recurrent network y(t + 1) x(t) c(t) y(t) x(t 1) c(t 1) y(t 1) (c) Recurrent network unfolded in time x(t 2) c(t 2) ½
Å ÞÝÒÝ ÓÐÞØÑ ÒÒ Ù ÝÛ ØÓ ØÝÞÒÝ ÙÒ ØÝÛ Sieci rekurencyjne Ë ÀÓÔ Ð ÓÐÓ Ö ÞÒ Ô Ñ Ó Ý Ò µ ÝÑ ØÖÝÞÒ Û ÔÖÓ ÓÛ ÙÒ ØÝÛ σ(z) = sign(z) ¾