Sieci samoorganizujce si
Po raz pierwszy opracowania na temat sieci samoorganizujcych z konkurencj i ssiedztwem pojawiy si w latach 70-tych. Ich autorem by fi"ski uczony Kohonen sieci Kohonena. Istota uczenia konkurencyjnego (uczenia z rywalizacj, compettive learning) po prezentacji wzorca wej)ciowego nastpuje okre)lenie neuronu wygrywajcego (ang. winner) i tylko ten neuron, ewentualnie grupa ssiadujcych z nim neuronów aktualizuje swoje wagi, tak by zbli+y, je do aktualnego wzorca. oczekuje si, +e podobne wzorce wej)ciowe powinny wywoywa, podobne odpowiedzi sieci. Decydujcy wpyw na sposób funkcjonowania sieci samoorganizujcej w trakcie procesu uczenia ma wybór miary odlego)ci wygrywajcego neuronu od wektora wej)ciowego. Ka+dy neuron (a dokadnie jego wagi) staje si pewnym wzorcem grupy bliskich sobie sygnaów wej)ciowych, przy czym neurony ssiadujce ze sob reprezentuj bliskie sobie, podobne obszary przestrzeni wzorców wej)ciowych. W ten sposób sie, samoorganizujca tworzy topologiczny, zale+ny od przyjtej metryki, obraz przestrzeni sygnaów wej)ciowych przeniesiony na wewntrzn struktur topologiczn sieci.
Najciekawsze efekty uzyskuje si wprowadzajc metody Kohonena dla sieci neuronowych dwuwymiarowych,
Topologie sieci siatka prostoktna siatka heksagonalna, acuch otwarty zamknity. acuch Linie czce neurony okrelaj relacje topologiczne. Kady neuron jest powizany z pozostaymi neuronami pewn relacj ssiedztwa, która okrela struktur sieci.
Odlego)ci pomidzy neuronami mo+na wyznaczy, w odniesieniu do metryki zdefiniowanej w przestrzeni sygnaów wej)ciowych, w odniesieniu topologii samej sieci - pozwala okre)la, ssiedztwo danego neuronu w postaci zbioru neuronów powizanych midzy sob odpowiednimi relacjami topologicznymi. Ssiedztwo rozpatruje si w ukadach: jednowymiarowych, neurony ssiednie le+ na jednej linii, dwuwymiarowych, neurony tworz siatk a ssiadami s neurony poo+one na lewo i na prawo oraz u góry i u dou rozpatrywanego neuronu, ewentualnie jeszcze na przektnych, wielowymiarowe, neurony uo+one s swobodnie w przestrzeniach wielowymiarowych, a twórca sieci okre)la zasady ssiedztwa. Istotnym parametrem jest okre)lenie ile neuronów obok (ssiadów z lewej, prawej itd.) ma podlega, uczeniu w przypadku zwycistwa danego neuronu.
Miara odlegoci W procesie samoorganizacji na ka+dym etapie nale+y wyoni, zwycizc - neuron, którego wektor wagowy ró+ni si najmniej od wektora na wej)ciu. W tym celu nale+y dobra, odpowiedni metryk. Najcz)ciej u+ywa si miary euklidesowej d ( x,w i ) = x wi = ( x j wij ) n j= 1 2 iloczynu skalarnego d n ( x,w i ) = ( x j wij ) j= 1 miary wedug normy L1 (Manhattan) d n ( x,w i ) = j= 1 x j w ij miary wedug normy L d ( x,wi ) = max xj wij j
Sieci Kohonena Sie, Kohonena zostaa nazwana przez jego twórc samoorganizujcym odwzorowaniem (Self-Organizing Map - SOM) lub samoorganizujcym odwzorowaniem cech (Self-Organizing Feature Map - SOFM) i jest najbardziej popularnym typem sieci okre)lanej mianem samoorganizujcej. W sieci tej mamy do czynienia z uczeniem konkurencyjnym. Sie, ma na celu utworzenie takiej struktury, która w najlepszy sposób bdzie odwzorowywaa zale+no)ci w przestrzeni wektorów wej)ciowych. sie, jest zwykle jednokierunkowa, ka+dy neuron jest poczony ze wszystkimi skadowymi N-wymiarowego wektora wej)ciowego x. wagi pocze" neuronów tworz wektor w i =[w i1, w i2,..., w in ] T. wektor sygnaów wej)ciowych x jest przed procesem uczenia normalizowany x =1: x ) i = x n i k = 1 x 2 k
Adaptacja wag w sieci Kohonena W trakcie uczenia sieci samoorganizujcych na wej)cie ka+dego neuronu podawany jest n-wymiarowy sygna x ze zbioru wzorców uczcych We wspózawodnictwie zwyci+a jeden neuron, którego wagi najmniej ró+ni si od odpowiednich skadowych wektora x. zwycizca (neuron w-ty) spenia relacj d ( x, w ) = min ( d( x, w )) w i=1,2... n i Wokó zwyciskiego neuronu przyjmuje si topologiczne ssiedztwo S w (n), którego promie" maleje w czasie. Nastpnie neuron zwycizca i neurony ssiadujce podlegaj adaptacji wedug reguy Kohonena (Kohonen, 1995) w i ( t ) = w ( t 1) + g( i, x) ( x w ( t 1) ) i i wspóczynnik uczenia g(i,x) funkcja ssiedztwa
definiuje które neurony, oprócz zwyciskiego, maj zmieni& wagi moe nie by& uwzgldniane (Winner Takes All) musi definiowa& stopie zmian dla ssiadów (Winner Takes Most) W klasycznym algorytmie Kohonena funkcja g(i,x) jest definiowana nastpujco. g Ssiedztwo ( i, x) 1 = 0 ( i, w ) ( i, w ) < d(i,w) oznacza odlego), euklidesow midzy neuronem zwyciskim w i i-tym neuronem. Wspóczynnik jest promieniem ssiedztwa o warto)ciach malejcych z czasem. Ten typ to ssiedztwo prostoktne. Drugim typem ssiedztwa, z jakim mo+na si spotka, w mapach Kohonena jest ssiedztwo gaussowskie: 2 d ( i, w ) g ( i, x) Ssiedztwo gausowskie jest lepsze i prowadzi do lepszych rezultatów uczenia i lepszej organizacji sieci. dla dla = e d d 2 2
Efekty uczenia sieci samoorganizujcych Po zako"czeniu procesu uczenia, a przed przystpieniem do pracy nale+y pamita, o tym, aby sie, skalibrowa,. Dokonuje tego nauczyciel, podajc po jednym sygnale wej)ciowym z ka+dej z klas - i opisujc który neuron która klas reprezentuje. Rozmieszczenie wag w przestrzeni tworzy wzy, które poczone z najbli+szymi ssiadami (w sensie ssiedztwa topologicznego) reprezentuj ksztat odtwarzajcy rozkad danych wej)ciowych. Jest to rozkad odpowiadajcy gsto)ci pojawiania si danych wej)ciowych w danym rejonie a nie wspórzdnych odpowiednich wektorów, gdy+ liczba prezentowanych wektorów wej)ciowych jest zwykle o kilka rzdów wy+sza ni+ liczba neuronów w sieci. Liczba neuronów w sieci w praktyce musi by, wiksza od liczby klas sygnaów wej)ciowych: kilka neuronów mo+e konkurowa, o reprezentacj danej klasy, nadmiarowo), powinna zapewni,, i+ mniej lubiane klasy równie+ bd rozpoznane.
Sie Counter Propagation sie CP Sie& CP stanowi poczenie sieci Kohonena i sieci Grossberga. Z propozycj tej sieci wystpi Robert Hecht-Nielsen, Jest odpowiedzi na wady sieci ze wsteczn propagacj, gdzie uczenie byo powolne i pracochonne. Ze wzgldu na do& prost zasad dziaania, funkcjonowanie sieci CP porównywane jest do odczytu gotowego wyniku z tablicy. Jej warstwa wejciowa dokonuje adaptacyjnej klasyfikacji sygnaów wejciowych, co pozwala na pewne uogólnianie gromadzonego dowiadczenia.
Architektura sieci CP Przedstawiony rysunek zosta uproszczony - w rzeczywistym modelu midzy warstw Kohonena, a warstw wyjciow wystpuj poczeniami typu kady z kadym,
Dzia%anie sieci CP Wektor wejciowy podawany na sie& musi by& znormalizowany x =1 ze wzgldu na konkurencyjne uczenia. Element pochodzcy z pierwszej warstwy, który jest optymalnie dopasowany do sygnau wejciowego x przesyany jest do dalszego przetwarzania w nastpnej warstwie jako jeden sygna - "eton".
rola pierwszej warstwy warstwy Kohonena W pierwszej warstwie realizowany jest algorytm Kohonena. wyliczany jest potencja membranowy u j wszystkich neuronów u j = Wybierany jest neuron którego pobudzenie jest najwiksze i tylko jego sygna wyj)ciowy przyjmuje warto), 1 y j = 1 0 dla Wybrany pojedynczy sygna - counter jest +etonem zastpujcym i symbolizujcym wszystkie sygnay wej)ciowe, Sygna u j (potencja membranowy) ka+dego neuronu w warstwie Kohonena jest miar podobie"stwa pomidzy sygnaem wektora x, a abstrakcyjnym wzorcem wytrenowanym na j-tym neuronie. w T j dla x i j i j u j u j > u i u i Wzorzec idealnego sygnau dla j-tego neuronu zawarty jest w jego wektorze wag w j. Je)li x = w j, wówczas neuron odpowiada sygnaem o maksymalnej warto)ci, je)li x w j, wówczas pobudzenie neuronu (u j ) jest miar cosinusa kta pomidzy wektorami x i w j.
rola drugiej warstwy warstwy Outstar Grosberga Druga warstwa sieci realizuje algorytm Outstar Grossberga: y = v T k v - macierz wspóczynników wagowych k wektor wyj), z warstwy Kohonena W praktyce tylko jeden element wektora k ma warto), 1, a pozostae maj warto), 0 Wystarczy uto+samienie wyj)cia y i z pewnym wspóczynnikiem wagowym v ij. Dziaanie takie przypomina odczyt z gotowej tablicy. Na ka+dym i-tym wyj)ciu sieci w trakcie procesu uczenia przygotowane zostaje m wariantów odpowiedzi v ij. Gdy warstwa Kohonena ustali, które z jej licznych wyj), otrzyma +eton" - na wszystkich wyj)ciach pojawiaj si tylko te warto)ci V ij, które odpowiadaj numerowi j, dla którego k j = 1.
Uczenie warstw w CP Uczenie sieci CP przebiega równocze)nie w obydwu warstwach sieci. Jest ono typem uczenia z nauczycielem, gdy+ wraz z ka+dym wektorem wej)ciowym x podawany jest wektor wyj)ciowy, jaki u+ytkownik chce uzyska, na wyj)ciu sieci. W tym przypadku uczenia nie wykorzystujemy pojcia bdu, co zachodzi przy klasycznym nauczaniu z nauczycielem. Ró+nic jest te+ brak wykorzystania informacji pochodzcych od nauczyciela, przy uczeniu pierwszej "ukrytej" warstwy sieci. Zmiany w stosunku do klasycznego nauczania z nauczycielem zostay zastpione dziaaniem: przy uczeniu pierwszej warstwy stosuje si technik Kohonena, która jest form uczenia bez nauczyciela. przy uczeniu drugiej warstwy wykorzystuje si algorytm Grossberga do bezpo)redniego wymuszania po+danych odpowiedzi sieci
warstwa Kohonena Warstwie Kohonena na t-tym kroku przedstawia si wektor x(t), a posiadajc z wcze)niejszego uczenia warto)ci wektorów, mo+na obliczy, T ( t) = w ( t ) x( t) Nastpnie wyznacza si numer zwycizcy - z u j Korekcie podlegaj wycznie wagi "zwyciskiego" neuronu wedug reguy w t = w t 1 + 1 x t 1 w t 1 z ( ) ( ) ( ) ( ) z j ( ) z Wspóczynnik uczenia 1 przyjmowany jest zwykle jako równy 0,7 na pocztku procesu uczenia i stopniowo zmniejszany dla wikszych t. Jak w wielu algorytmach samouczenia, tak samo i tu najwa+niejsze s pierwsze kroki. Najpierw trzeba nada, wspóczynnikom wagowym w ij warto)ci pocztkowe tak, aby byy one unormowane.
Wa+nym krokiem jest takie dobranie kierunków wektorów wag, aby w sposób równomierny rozkaday si na powierzchni sfery jednostkowej w przestrzeni n-wymiarowej. Dobranie takich wag jest trudne, ponadto nie zawsze gwarantuje dobre wyniki. Powodem tego mo+e by, pojawienie si trakcie uczenia kilku zwyciskich neuronów. Aby zapobiec takiemu zjawisku pocztkowo wszystkim skadowym wszystkich wektorów wag nadaje si t sam warto), pocztkow 1 w ij ( 1 ) = n Powoduje to, +e wszystkie wektory wag s prawidowo unormowane, oraz pokrywaj si. Po takiej inicjalizacji zaczyna si proces uczenia z ma ró+nic, +e jako wektory wej)ciowe podaje si wektory o wspórzdnych obliczanych wedug wzoru 1 x t = t x t t i ( ) 2( ) i ( ) [ 1 2( )] n Funkcja adaptujca 2 (t) dla maych t przyjmuje bardzo mae warto)ci, natomiast potem ro)nie do warto)ci 1 i t warto), zachowuje przez reszt procesu uczenia.
Warstwa Grossberga Wagi v ij, w warstwie Grossberga, s zmieniane wedug reguy Widrowa-Hoffa: v ij ( t ) = v ( ) ( ) ij t 1 + 3 di yi k j Poniewa+ tylko jedna warto), k j jest ró+na od zera i w ka+dym kroku procesu uczenia korygowane s tylko te wagi, które cz poszczególne neurony wyj)ciowej warstwy z jednym tylko "zwyciskim" elementem poprzedniej warstwy. Ta zasada zmniejsza pracochonno), procesu uczenia. Parametr 3 wybiera si zazwyczaj ostro+nie, tak aby proces uczenia nie spowodowa wpisania do "tablicy" bdnych warto)ci. Zwykle zaczyna si uczenie od warto)ci 3 =0,1, a potem si t warto), jeszcze mocniej redukuje.