Literatura Wykład : Wprowadzenie do sztucznych sieci neuronowych Małgorzata Krętowska Wydział Informatyki Politechnika Białostocka Tadeusiewicz R: Sieci neuronowe, Akademicka Oficyna Wydawnicza RM, Warszawa 993 Żurada J, Barski M, Jędruch W,, Wydawnictwo Naukowe PWN, Warszawa 996 Korbicz J, Obuchowicz A, Uciński D, Podstawy i zastosowania, Akademicka Oficyna Wydawnicza PLJ, Warszawa 994 Osowski S, Sieci neuronowe w ujęciu algorytmicznym, Wydawnictwo Naukowo-Techniczne, Warszawa 996 2 Przepływ informacji w systemie nerwowym Budowa i działanie mózgu Receptory narządy sensoryczne Centralny system nerwowy Wewnętrzne sprzężenie zwrotne Efektory narządy motoryczne Objętość: 400 cm 3 Powierzchnia: 2000 cm 2 Liczba neuronów: około 00 miliardów (0 ) Liczba połączeń między komórkami : 0 5 przy przeciętnym dystansie od 00 mm do m Komórki nerwowe wysyłają i przyjmują impulsy o: częstotliwości: -00 Hz czasie trwania: -2 ms szybkości propagacji: -00 m/s Zewnętrzne sprzężenie zwrotne Szybkość pracy mózgu: 0 8 operacji/s 3 4
Budowa i funkcjonowanie neuronu biologicznego Model neuronu w terminologii informatycznej Sygnały wejściowe (synapsy) PRZETWORNIK (ciało komórki) Sygnały wyjściowe (akson) Mózg - równoległy system złożony z około 0 procesorów Każdy procesor ma bardzo prosty program i oblicza ważoną sumę danych wejściowych pochodzących od innych procesorów, zwraca jedną liczbę będącą funkcją tej sumy Liczba ta przesyłana jest do innych procesorów i przez nie przetwarzana w podobny sposób (np z różnymi funkcjami) Duża gęstość połączeń oznacza, że błędy niewielkiej liczby składników będą prawdopodobnie mało znaczące 5 6 Historia 943 - model McCullocha i Pittsa pozwalający na budowę dowolnie skomplikowanych urządzeń cyfrowych (bez możliwości uczenia się) 958 - perceptron Rosenblatta - neurony z połączeniami jednokierunkowymi, dowód zbieżności algorytmu uczenia (962) 960 - Adaline (ang Adaptive Linear Neuron) i Madaline (ang multiple-adaline) - pierwszy komercyjny neurokomputer na Uniwersytecie Stanforda (Widrow i Hoff) 969 - Minsky i Papert wykazali, że twierdzenie Rosenblatta jest prawdziwe tylko dla pewnego ograniczonego zestawu danych -> zaprzestanie badań w dziedzinie sieci neuronowych na prawie 20 lat 986 - Rumelhart i in odkryli algorytm wstecznej propagacji błędu, który jest podstawą wielu dzisiejszych zastosowań y k + Model neuronu McCullocha-Pittsa (943) dyskretne chwile czasu można zbudować dowolnie skomplikowane urządzenie cyfrowe (posługując się bramkami NOR i NAND - algebra Boole a) n k wi xi T xi { 0,} i= = n wi { ; }, i =,2, L, n k 0 < wi xi T k = 0,,2, L i= 7 8
Model neuronu McCullocha-Pittsa (funkcje logiczne NOT, OR) Model neuronu McCullocha-Pittsa (bramka NOR) 9 0 Model neuronu McCullocha-Pittsa (bramka NAND) x x 2 x N Budowa sztucznego neuronu w w 2 -θ w N f y w N gdzie x = [, x,, x N ] T - wektor wejściowy w = [-θ, w,, w N ] T - wektor wag (w 0 =- θ) f - funkcja aktywacji N T y - sygnał wyjściowy y = f wi xi = f ( w x) = i= 0 2
Rodzaje neuronów Unipolarne funkcje aktywacji (dyskretna i ciągła) 0 Neurony liniowe Neurony nieliniowe y = f(net) = net = 0 gdy gdy net 0 net > 0 f (net) 08 06 04 02 neurony dyskretne (formalne): y {-,} lub y {0,} 00-2 - 0 2 net 0 neurony ciągłe:y (-,) lub y (0,) =, λ > 0 + exp( λnet) f (net) 08 06 04 02 λ = 05 λ = 0 λ = 30 00-2 - 0 2 net 3 4 Bipolarne funkcje aktywacji (dyskretna i ciągła, tangens hiperboliczny) Rodzaje sieci = sgn( net) = gdy gdy net 0 net > 0 f (net) 0 05 00-05 -0 net - 0 2 Sieci jednokierunkowe - sygnał w sieci rozprzestrzenia się w jednym kierunku sieci jednowarstwowe sieci wielowarstwowe (perceptron wielowarstwowy) Sieci rekurencyjne - sieci ze sprzężeniem zwrotnym 2 =, λ > 0 + exp( λnet) 0 05 exp( λnet) exp( λnet) tanh( net) =, λ > 0 exp( λnet) + exp( λnet) f (net) 00-05 -0 net - 0 2 λ = λ = 5 tanh Perceptron dyskretny i ciągły (Rosenblatt, 958) 5 6
Sieć jednokierunkowa jednowarstwowa x x 2 w 0 w w 2 y y 2 y 3 x N y 4 Sieć jednokierunkowa wielowarstwowa w 0 w 20 x y ( x, w) x N y K( x, w) warstwa wejściowa warstwa wyjściowa warstwa wejściowa w ΗΝ warstwy ukryte warstwa wyjściowa y i = N j= N i0 ) = f ( wij x j i ) j= f ( net ) = f ( w x + w θ i ij j y ( x, w) = k H f0 ( wk 0 + w f ( whj x j + wh0 )) N hk h h= j= 7 8 Sieć rekurencyjna jednowarstwowa Sieć rekurencyjna dwuwarstwowa Sieć z jedną warstwą neuronów (wyjściową) sygnały wyjściowe neuronów tworzą tworzą jednocześnie wektor wejściowy dla następnego cyklu z reguły nie występuje sprzężenie zwrotne neuronu od własnego sygnału wyjściowego (sieć Hopfielda) neurony M stanowią warstwę wyjściową sieci neurony K - warstwę ukrytą Wektor wejściowy: sygnały wejściowe (x), sygnały wyjściowe warstwy ukrytej i wyjściowej 9 20
Klasyfikacja i rozpoznawanie Aproksymacja - sieć pełni rolę uniwersalnego aproksymatora funkcji wielu zmiennych, realizując funkcję nieliniową postaci y = f(x) sieć uczy się podstawowych cech prezentowanych wzorców i na tej podstawie podejmuje odpowiednią decyzję klasyfikacyjną 2 22 Asocjacja Autoasocjacja - sieć zapamiętuje zbiór wzorców w taki sposób, aby po zaprezentowaniu nowego wzorca reakcją sieci było wytworzenie zapamiętanego wzorca, który jest najbardziej podobny do nowego Heteroasoscjacja - sieć zapamiętuje i kojarzy pary obrazów i nawet zniekształcony obraz wejściowy może wywołać właściwą heteroasocjację na wyjściu (heteroasocjacja obejmuje problem klasyfikacji) 23 24
Optymalizacja - pozwala na minimalizację pewnych funkcji kosztu, zwykle zadanych przez użytkownika Sieć samoczynnie poszukuje minimum tzw funkcji energii (wartości zależnej od stanu sieci), dochodzi do stanu o minimalnej energii i w nim pozostaje (np problem szeregowania zadań) Wykrywanie grup i wydobywanie cech grupowanie danych - sieć samoczynnie wykrywa podobieństwa w przetwarzanych danych wykrywanie cech - często jest związane z redukcją wymiarów Mogą realizować odwzorowanie cech wielowymiarowego sygnału wejściowego o złożonej strukturze na płaszczyznę 25 26 Uczenie z nauczycielem Uczenie bez nauczyciela Uczenie z nauczycielem - nadzorowane (ang supervised learning) - dla każdego wektora w chodzącego w skład zbioru uczącego znana jest poprawna odpowiedź Korekcja wag oparta jest na różnicy pomiędzy rzeczywistą i pożądaną odpowiedzią sieci Uczenie bez nauczyciela - nienadzorowane (ang unsupervised learning) - pożądana odpowiedź sieci nie jest znana Sieć uczy się poprzez analizę reakcji na pobudzenia W trakcie wykrywania np skupisk w danych parametry sieci podlegają zmianom, co nazywamy samoorganizacją 27 28
Zalety i wady sztucznych sieci neuronowych ZALETY Przetwarzanie równoległe WADY Sieć jako czarna skrzynka Przy dużej liczbie elementów sieć jest odporna na uszkodzenia niewielkiej liczby elementów Zdolność uogólniania Brak założeń dotyczących rozkładów analizowanych zmiennych 29