- 8-2. Architktury sztucznych sici nuronowych 2.. Matmatyczny modl nuronu i prostj sici nuronowj Sztuczn sici nuronow są modlami inspirowanymi przz strukturę i zachowani prawdziwych nuronów. Podobni jak mózg mogą on rozpoznawać obrazy, prztwarzać dan i uczyć się. Analogiczni do budowy mózgu, którgo podstawowym lmntm jst komórka nrwowa, tak dla sztucznych sici nuronowych jst sztuczny nuron. Pirwszą formalną dfinicję modlu nuronu podali McCulloch i Pitts w 943 r. Charaktryzował się tym, iż posiadał wil wjść i jdno wyjści oraz był dwuwartościowym lmntm progowym. Sygnały wjściow x i, gdzi i =, 2,..., n, oraz sygnał wyjściowy y mogą przyjmować wartości z pwngo ograniczongo przdziału [7]: x i [,], y [,].
- 9 - x x 2 w w 2 w n y x n Rys. 2.. Pojdynczy lmnt sici nuronowj Istotnym lmntm tgo modlu jst sumowani sygnałów wjściowych z odpowidnią wagą i poddani otrzymanj sumy działaniu funkcji aktywacji f [2]. Zalżność sygnału wyjściowgo od wjściowgo moż być liniowa, chociaż istniją takż inn przypadki. n y = w i x (2. i= i gdzi: w i wagi synaptyczn, któr podlgają modyfikacji w trakci procsu ucznia Sygnały wjściow i wagi synaptyczn tworzą wktory X = <x x 2... x n > T, W = <w w 2... w n > T. Przy takich założniach odpowidź nuronu wyrazić można jako skalarny iloczyn wktora wjść i wktora wag: y = W T. X. (2.2 Nurony mają następując właściwości: każdy nuron otrzymuj wil sygnałów wjściowych i wyznacza na ich podstawi swoją odpowidź to znaczy jdn sygnał wyjściowy,
- 20 - z każdym oddzilnym wjścim nuronu związany jst paramtr nazywany wagą (wight. Okrśla on stopiń ważności informacji docirających tym właśni wjścim, sygnały wjściow (pomnożon przz odpowidni wagi są w nuroni sumowan, dając pwin pomocniczy sygnał wwnętrzny zwany łącznym pobudznim nuronu (nt valu, do tak utworzonj sumy sygnałów dodaj się nikidy pwin dodatkowy składnik nizalżny od sygnałów wjściowych, nazywany progim (bias [9]. y y 2 y k w ( ( ( w... w 2 n w (2 (2 (2 w... w 2 n w (k (k (k w... w 2 n x x 2 x n Rys. 2.2. Warstwa nuronów jako najprostsza sić Łącząc pojdyncz nurony w warstwy możmy utworzyć najprostszą sić. W tym przypadku każdy nuron otrzymuj tn sam zstaw sygnałów wjściowych i posiada własny wktor wag. Sygnał wyjściowy k tgo nuronu y k wynosi: y w x (2.3 = n k i= Można go takż zapisać w postaci wktorowj i i y = T W X (2.4 k
- 2 - Działani tj sici polga na tym, ż pojawini się okrślongo wktora wjściowgo X powoduj powstani sygnałów wyjściowych na wszystkich nuronach wchodzących w skład rozważanj warstwy. Oczkuj się przy tym, maksymalngo sygnału wyjściowgo na tym nuroni, którgo wktor wag najbardzij przypomina wktor sygnałów wjściowych X. Jdną z podstawowych własności rozważanj sici jst to, ż macirz W zadaj okrślon odwzorowani liniow sygnału Odwzorowani to moż być w zasadzi dowoln [7]. n X R w sygnał k Y R. O zachowaniu pojdynczgo nuronu dcyduj wktor wag W k a o działaniu sici macirz wag W. Bardzo trudn jst ustalni wktora W k lub macirzy W odpowidnich dla rozwiązywania za pomocą sici nuronowj jakigoś złożongo zadania. Aby to ułatwić nalży stary modl nuronu uzupłnić o dwa dodatkow lmnty: procsor zmiany wag i dtktor błędu. Tak uzupłniony nuron nazywa się ADALINE (ADAptiv LINar Elmnt [7]. Wiąż on sygnał wjściowy i wyjściowy pwną zalżnością. Funkcja f ni musi być zadana w sposób jawny; wystarczy, ż dla każdgo konkrtngo wktora wjściowgo potrafi się wskazać konkrtną wartość; stanowiącą żądani odnośni sygnału wyjściowgo. Wraz z każdym wktorm wjściowym X do lmntu sici podawany jst sygnał z. Jst to wymagana odpowidź nuronu na sygnał X. Nuron odpowiada sygnałm y (wzór 2.2, przy czym jśli nuron ni jst nauczony, sygnał tn jst inny niż wymagany (y z. Wwnątrz nuronu ADALINE znajduj się blok ocniający (który składa się z inwrtora oraz sumatora wilkość błędu. δ = z y. (2.5
- 22 - x w x 2 w 2 y x n w 3 δ z Rys. 2.3. Struktura nuronu ADALINE [7] Na podstawi sygnału błędu δ oraz wktora wjściowgo X możliw jst taki skorygowani wktora wag W, by nuron lpij ralizował zadaną funkcję y = f (X. Łącząc pojdyncz lmnty ADALINE można utworzyć sić zwaną MADALINE (Many ADALINE. Sici t były pirwszymi fktywni zastosowanymi siciami nuronowymi i mimo ogromngo postępu notowango w tj dzidzini pozostają wciąż bardzo użytcznym narzędzim. Jdnak możliwości tj sici są ograniczon poniważ odwzorowania X => Y jaki moż ralizować sić MADALINE są wyłączni odwzorowaniami liniowymi. Innym rozwiązanim, któr wniosło nowy lmnt w stosunku do omówionych wczśnij sici ADALINE był PERCEPTRON zbudowany
- 23 - przz Rosnblatta. Jst to niliniowy lmnt prztwarzający informację w każdym nuroni sici. Opisuj go równani: y = ϕ ( (2.6 gdzi: ϕ progowa funkcja aktywacji łączn pobudzni nuronu. Można zapisać sygnał jako sumę wag w i sygnałów wjściowych x w i x i (2.7 = n i= lub uzupłnioną dodatkowo o składnik stały bias (przsuwa funkcję o pwną wartość [7]. w x + b (2.8 = n i= i i zapis wktorowy: = W T. X. (2.9 x w x i w i ϕ y x n w n bias b = Rys. 2.4. Niliniowy nuron z biasm o sygnal wjściowym X [3]
- 24 - T funkcj scalając wjściow sygnały w łączn pobudzni używan są w prcptroni jdyni jako wstępny tap prztwarzania informacji. O spcyficznych właściwościach prcptronu dcyduj funkcja aktywacji ϕ. Jst to funkcja niliniowa, która na podstawi sygnału wjścia daj okrślony sygnał wyjściowy (przy siciach ADALINE zastosowany był zapis liniowj funkcji aktywacji f w odróżniniu od funkcji niliniowj ϕ. Wczsn modl nuronow wykorzystywały prostą funkcję progową. gdy 0 ϕ ( = (2.0 0 gdy < 0 ϕ ( 0 Rys. 2.5. Funkcja progowa I (jdnostkowa lub gdy 0 ϕ ( = (2. - gdy < 0 ϕ ( 0 - Rys. 2.6. Funkcja progowa (bipolarna II [8]
- 25 - Jżli ważona suma sygnałów wjściowych jst mnijsza od wartości progowj, to wyjści nuronu jst równ 0 (-, w przciwnym przypadku jst ono równ. W nuroni ADALINE funkcja aktywacji ϕ ma postać liniową ϕ ( 0 Rys. 2.7. Funkcja liniowa [5] Większość współczsnych modli wykorzystuj sigmoidalną funkcję aktywacji. Można ją zdfiniować jako funkcję ciągłą o wartościach rzczywistych. Najczęścij stosowaną funkcją sigmoidalną jst funkcja logistyczna ϕ ( = (2.2 + xp( β Zaltą tj funkcji jst prosta i łatwa do oblicznia wartość jj pochodnj, którą wykorzystuj się przy uczniu sici (rozdział 3 dϕ d = ϕ( ( ϕ( (2.3
- 26 - ϕ (,0 0,8 0,6 0,5 0,4 0,2-4 - 2 0 2 4 Rys. 2.8. Funkcja logistyczna [5] Nikidy używana jst funkcja sigmoidalna, taka jak tangns hiprboliczny. xp( β xp( β ϕ ( = tg h ( β = (2.4 xp( β + xp( β ϕ (,0 0,75 0,5 0,25-4 - 2 0 2 4-0,25-0,5-0,75 -,0 Rys. 2.9. Tangns hiprboliczny [5]
- 27 - Tu takż jst prosta pochodna dϕ = ( + ϕ( ( ϕ(. d (2.5 Ponadto występuj jszcz bardzo wil innych niliniowości, spośród których wyminić nalży jszcz: funkcję sinus stosuj się, aby uzyskać wartość z przdziału ϕ ( [-,] [7]. ϕ ( = sin ( β (2.6 funkcję signum gdy > 0 ϕ ( = 0 gdy = 0 (2.7 - gdy < 0 Kształt funkcji ma mały wpływ na ostatczną skutczność sici al moż mić wpływ takż na szybkość ucznia. Pokazan funkcj aktywacji pozwalają na wygodną analizę matmatyczną zachodzących zjawisk, łatwą ralizację tchniczną i wygodn modlowani. W tym podrozdzial opisan zostały najprostsz modl sici nuronowych. Stanowią on filar, podstawę rozważanj w tj pracy dzidziny nauki, dlatgo warto o nich wspomnić. W dalszj części rozdziału pokazan zostaną dużo bardzij złożon struktury sztucznych sici nuronowych jak np. sici wilowarstwow jdnokirunkow, sici komórkow, sici rzonansow itp.
- 28-2.2. Sici wilowarstwow jdnokirunkow Sić wilowarstwowa jdnokirunkowa składa się z zbioru nuronów, logiczni rozmiszczonych w dwóch lub więcj warstwach. Wyróżnia się warstwę wjściową zbirającą informacj z świata zwnętrzngo; warstwę wyjściową wysyłającą sygnał oraz warstwy ukryt pośrdnicząc pomiędzy warstwami wjściowymi i wyjściowymi. Okrślni jdnokirunkow oznacza, ż informacja przpływa tylko od wjścia do wyjścia, czyli sygnały wjściow dochodząc do nuronów w każdj warstwi za wyjątkim warstwy wjściowj, pochodzą wyłączni od sygnałów wyjściowych nuronów z warstw poprzdnich, a sygnały wyjściow z tych nuronów dochodzą wyłączni do nuronów w następnych warstwach (z wyjątkim warstwy wyjściowj [5]. W siciach tych nurony warstwy poprzdnij łączą się z wszystkimi nuronami warstwy następnj. Sygnał wyjściowy zalży tylko od aktualnych wartości sygnałów wjściowych. Aby utworzyć złożoną strukturę sici wilowarstwowj nalży zacząć od pojdynczj warstwy. wjści warstwa nuronów w, x ϕ y x n w k,n b x 2 ϕ y 2 b 2 b k Rys. 2.0. Pojdyncza warstwa nuronów [3] 2 k ϕ y k
- 29 - Sygnał wyjściowy pojdynczj warstwy wynosi: Po połączniu kilku warstw powstaj sić: y = ϕ (W T. X +B (2.8 wjści -sza warstwa nuronów 2-ga warstwa nuronów w(, x( ( y( ϕ w2(, 2( y2( ϕ2 x(2 b( (2 ϕ y(2 b2( 2(2 ϕ2 y2(2 x(n w (k,n b(2 b (k (k ϕ y (k w 2(k 2,k b2(2 b 2 (k 2 2 (k 2 ϕ2 y 2 (k 2 3-cia warstwa nuronów w3(, 3( y3( ϕ3 b3( 3(2 ϕ3 y3(2 w 3(k 3,k 2 b3(2 b 3 (k 3 3 (k 3 ϕ3 y 3 (k 3 Rys. 2.. Schmat sici nuronowj składającj się z 3 warstw [3]