Sztuczne Sieci Neuronowe

Podobne dokumenty
Systemy Inteligentnego Przetwarzania wykład 7: Sieci RBF

SIECI RBF (RADIAL BASIS FUNCTIONS)

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Uczenie sieci radialnych (RBF)

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Optymalizacja ciągła

Widzenie komputerowe

Zastosowania sieci neuronowych

Sieć przesyłająca żetony CP (counter propagation)

synaptycznych wszystko to waży 1.5 kg i zajmuje objętość około 1.5 litra. A zużywa mniej energii niż lampka nocna.

Podstawy Sztucznej Inteligencji (PSZT)

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

wiedzy Sieci neuronowe

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Sztuczne sieci neuronowe i sztuczna immunologia jako klasyfikatory danych. Dariusz Badura Letnia Szkoła Instytutu Matematyki 2010

Przykładowe funkcje przejścia używane przy budowie sztucznych neuronów

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Rozpoznawanie obrazów

Uczenie sieci typu MLP

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Sztuczne sieci neuronowe

Metody Sztucznej Inteligencji II

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

INTERPOLACJA I APROKSYMACJA FUNKCJI

Metody systemowe i decyzyjne w informatyce

Zastosowania sieci neuronowych

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Sztuczne sieci neuronowe

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

Aproksymacja. funkcji: ,a 2. ,...,a m. - są funkcjami bazowymi m+1 wymiarowej podprzestrzeni liniowej X m+1

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Elementy inteligencji obliczeniowej

Zaawansowane metody numeryczne

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Literatura. Sztuczne sieci neuronowe. Przepływ informacji w systemie nerwowym. Budowa i działanie mózgu

Podstawy sztucznej inteligencji

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

SZTUCZNA INTELIGENCJA

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH**

Sieci neuronowe w Statistica

Metody numeryczne Wykład 4

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Sztuczne sieci neuronowe (SNN)

wiedzy Sieci neuronowe (c.d.)

RBF sieci neuronowe o radialnych funkcjach bazowych

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

1. Logika, funkcje logiczne, preceptron.

Budowa i własności. sztucznych neuronów i sieci

8. Neuron z ciągłą funkcją aktywacji.

Temat: Sieci neuronowe oraz technologia CUDA

Optymalizacja systemów

I EKSPLORACJA DANYCH

Aproksymacja funkcji a regresja symboliczna

Metody sztucznej inteligencji Zadanie 3: (1) klasteryzacja samoorganizująca się mapa Kohonena, (2) aproksymacja sieć RBF.

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Procesy stochastyczne

Inteligentne systemy przeciw atakom sieciowym

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

METODY INŻYNIERII WIEDZY

Procesy stochastyczne

Sztuczna inteligencja

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Programowanie celowe #1

Zaawansowane metody numeryczne

Sztuczne Sieci Neuronowe. Wiktor Tracz Katedra Urządzania Lasu, Geomatyki i Ekonomiki Leśnictwa, Wydział Leśny SGGW

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Egzamin z Metod Numerycznych ZSI, Egzamin, Gr. A

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

Lekcja 5: Sieć Kohonena i sieć ART

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

BIOCYBERNETYKA SIECI NEURONOWE. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

3. FUNKCJA LINIOWA. gdzie ; ół,.

ZACHODNIOPOMORSKI UNIWERSYTET TECHNOLOGICZNY W SZCZECINIE

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;

Sztuczne sieci neuronowe Ćwiczenia. Piotr Fulmański, Marta Grzanek

Zastosowanie MES do rozwiązania problemu ustalonego przepływu ciepła w obszarze 2D

Wykład 14. Elementy algebry macierzy

Optymalizacja ciągła

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ 2008/2009. Sieci Neuronowe. Wykład 9 Dobór optymalnej architektury i próbek uczących

POSTULATY MECHANIKI KWANTOWEJ cd i formalizm matematyczny

6. Perceptron Rosenblatta

5. Rozwiązywanie układów równań liniowych

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

KADD Minimalizacja funkcji

Uczenie sieci neuronowych i bayesowskich

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

METODY INTELIGENCJI OBLICZENIOWEJ wykład 5

Rozpoznawanie obrazów

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

VI. Równania różniczkowe liniowe wyższych rzędów

Sieci neuronowe jako sposób na optymalizacje podejmowanych decyzji. Tomasz Karczyoski Wydział W-08 IZ

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Transkrypt:

Sztuczne Sieci Neuronowe Wykład 7 Sieci neuronowe o radialnych funkcjach bazowych wykład przygotowany na podstawie. S. Osowski, Sieci Neuronowe w ujęciu algorytmicznym, Rozdz. 5, PWNT, Warszawa 1996. 26/11/08

Bazowe funkcje radialne Sieci neuronowe wielowarstwowe odgrywają, z punktu widzenia matematycznego, rolę aproksymacji stochastycznej funkcji wielu zmiennych, odwzorowując zbiór zmiennych wejściowych x R N w zbiór zmiennych y R M. Jest to aproksymacja typu globalnego Ze względu na na charakter sigmoidalnej funkcji aktywacji neuron raz załączony (po przekroczeniu pewnej progowej wartości sygnału sumacyjnegu u i ) pozostaje w tym stanie przy dowolnej wartości u i większej od tego progu. Odwzorowanie wartości funkcji w dowolnym punkcie przestrzeni jest więc dokonywane zbiorowym wysiłkiem wielu neuronów na raz (stąd aproksymacja globalna) 2

Bazowe funkcje radialne Komplementarny sposób rozumienia odwzorowania zbioru wejściowego w wyjściowy, to odwzorowanie przez dopasowanie wielu pojedynczych funkcji aproksymujących do wartości zadanych, ważne jedynie w wąskim obszarze przestrzeni wielowymiarowej. Jest to aproksymacja typu lokalnego W takim rozwiązaniu odwzorowanie pełnego zbioru danych jest sumą odwzorowań lokalnych. Neurony ukryte stanowią zbiór funkcji bazowych typu lokalnego. 3

Bazowe funkcje radialne Specjalną odmianę stanowią funkcje o radialnej funkcji bazowej, w której neuron ukryty realizuje funkcje zmieniającą się radialnie wokół wybranego centrum c. Funkcje takie oznaczane ogólnie φ( x-c ) nazywamy radialnymi funkcjami bazowymi Rola neuronu ukrytego będzie się sprowadzać w sieciach radialnych do odwzorowania radialnego przestrzeni wokół jednego punktu zadanego lub grupy takich punktów stanowiących klaster. Superpozycja sygnałów pochodzących od wszystkich neuronów ukrytych, dokonywana przez neuron wyjściowy, umożliwia uzyskanie odwzorowania całej przestrzeni punktów. 4

Bazowe funkcje radialne Sieci typu radialnego stanowią naturalne uzupełnienie sieci sigmoidalnych. Neuron sigmoidalny reprezentował w przestrzeni wielowymiarowej hiperpłaszczyznę separującą tą przestrzeń na dwie kategorie (klasy), w których był spełniony odpowiedni warunek, albo ΣW ij x j > 0 albo Σ W ij x j < 0. Neuron radialny z kolei reprezentuje hipersferę, dokonującą podziału kołowego wokół punktu centralnego. 5

Bazowe funkcje radialne Ilustracja podzialu przestrzeni danych siec sigmoidalna + + + + + siec radialna Stanowi to naturalne uzupełnienie neuronu sigmoidalnego, umożliwiające w wypadku wystąpienia naturalnej kołowej symetrii danych wydatne zmniejszenie liczby neuronów potrzebnych do realizacji zadania klasyfikacyjnego. 6

Bazowe funkcje radialne W sieciach radialnych nie występuje potrzeba stosowania wielu warstw ukrytych. Typowa sieć radialna jest strukturą zawierającą warstwę wejściową, na którą są podawane sygnały opisane wektorem wejściowym x, warstwę ukrytą o neuronach radialnych warstwę wyjściową zwykle złożoną z jednego neuronu (zwykle liniowy) którego jedyną rolą jest sumowanie wagowe sygnałów od neuronów ukrytych. 7

Sieć radialna y w0 1 φ1 w1 φ2 w2 w3 φ3 w4 φ4 x1 x2 x3 8

Bazowe funkcje radialne Podstawą matematyczną funkcjonowania sieci radialnych jest twierdzenie Covera o separowalnosci wzorców, stwierdzające, że złożony problem klasyfikacyjny zrzutowany nieliniowo w przestrzeń wielowymiarową ma większe prawdopodobieństwo być liniowo separowalny niż przy rzutowaniu w przestrzeń o mniejszej liczbie wymiarów. 9

Bazowe funkcje radialne Przy oznaczeniu przez φ(x) wektora funkcji radialnych w N-wymiarowej przestrzeni wejściowej, podział tej przestrzeni na X +, X - przy czym X + i X - reprezentują 2 klasy przestrzeni, jest liniowo φ-separowalny jeżeli istnieje taki zestaw wag w, że w T φ(x) > 0 x є X + w T φ(x) < 0 x є X - Równanie w T φ(x) = 0 reprezentuje granicę między obu klasami. 10

Bazowe funkcje radialne Udowodniono, że każdy zbiór wzorców losowo rozmieszczony w przestrzeni wielowymiarowej jest φ separowalny z prawdopodobieństwem równym 1 pod warunkiem dużego wymiaru K przestrzeni rzutowania. Oznacza to że przyjęcie dostatecznie dużej liczby neuronów ukrytych realizujących funkcje radialne φ i (x) zapewnia rozwiązanie problemu klasyfikacyjnego przy użyciu dwu warstw sieci: warstwy ukrytej realizującej wektor φ(x) warstwy wyjściowej o jednym neuronie liniowym opisanym wektorem wagowym W (pozwala na superpozycję sygnału z warstwy ukrytej). 11

Bazowe funkcje radialne Najprostsza sieć neuronowa typu radialnego działa na zasadzie wielowymiarowej interpolacji, której zadaniem jest odwzorowanie p różnych wektorów wejściowych x i (i=1,2,...,p) z przestrzeni wejściowej N-wymiarowej w zbiór p liczb rzeczywistych d i (i=1,2,...,p), czyli określenie takiej funkcji radialnej F(x), dla której spełnione są warunki interpolacji F(x i ) = d i Przyjęcie p neuronów ukrytych połączonych wagami w i z neuronami wyjściowymi (liniowymi) odpowiada tworzeniu sygnałów wyjściowych sieci jako sumy wagowej wartości poszczególnych funkcji bazowych. 12

Bazowe funkcje radialne Niech dana będzie sieć radialna o jednym wyjściu i p parach uczących (x i, d i ). Przy założeniu p centrów umieszczonych w kolejnych wektorach x i, to jest c i = x i, otrzymuje się układ równań liniowych względem wag w i. Układ ten można zapisać w postaci macierzowej Φ w = d Wykazano, że dla szeregu funkcji radialnych przy założeniu x 1 x 2... x p kwadratowa macierz Φ jest nieosobliwa, a przy tym ujemnie określona. Istnieje zatem rozwiązanie równania w = Φ -1 d Pozwalające określić wektor wag w neuronu wyjściowego sieci. 13

Bazowe funkcje radialne Rozwiązanie teoretyczne problemu przedstawione na poprzedniej stronie nie byłoby właściwe ze względu na nieodpowiednie własności generalizacyjne sieci. Przy dużej liczbie danych uczących i równej im liczbie funkcji radialnych problem staje się przewymiarowany (źle postawiony), gdyż liczba równań przewyższa ilość stopni swobody procesu fizycznego modelowanego równaniem φw = d. Rezultatem nadmiarowości wag będzie dopasowanie się modelu do różnego rodzaju szumów lub nieregularności występujących w danych uczących. W efekcie hiperplaszczyzna interpolująca dane uczące będzie niegładka, a zdolności uogólniające sieci niewielkie. 14

Bazowe funkcje radialne Odwzorowanie danych przy nadwymiarowej liczbie funkcji bazowych. 15

Bazowe funkcje radialne Metody stabilizacji wywodzą się od Tichonowa, polegają na stabilizacji procesu poprzez dołączenie do równania podstawowego dodatkowych warunków w postaci równań więzów, ograniczających stopnie swobody dobieranych parametrów. L(F) = ½ Σ [F(x i ) d i ] 2 + ½ λ PF 2 gdzie PF jest czynnikiem regularyzacyjnym, odpowiednikiem funkcji kary. 16

Bazowe funkcje radialne Teoretyczne rozwiązanie problemu regularyzacji uzyskano przy zastosowaniu funkcji Greena, w której c i jest centrum rozwinięcia, a wagi W i = [d i F(c i )] / λ reprezentują nie znane współczynniki rozwinięcia. Funkcje Greena odgrywają rolę funkcji bazowych, a rozwiązanie problemu interpolacji jest wyrażone w standartowej postaci F(x) = Σ W i G(x,c i ) Najbardziej popularnym typem radialnej funkcji Greena jest funkcja Gaussa. G(x,x i ) = exp( - x-c i /2σ 2 ) = exp ( -1/2σ i 2 Σ (x k c i,k ) 2 ) przy czym c i oznacza wektor wartości średnich (centrów), a σ i 2 wariancje. 17

Bazowe funkcje radialne Przy gaussowskiej postaci funkcji Greena regularyzowalne rozwiązanie problemu aproksymacji za pomocą funkcji radialnych przyjmie postać F(x) = Σ W i exp( - x-c i 2 / 2 σ i 2 ) będący superpozycją wielowymiarowych funkcji Gaussa z centrami ulokowanymi w c i (przy wartości p równej liczbie danych uczących, wektor centrum odpowiada współrzędnym c i wektora uczącego) i szerokością σ i. 18

Bazowe funkcje radialne Wplyw regularyzacji na odwzorowanie danych przy nadwymiarowej liczbie funkcji bazowych : a) brak regularyzacji ; b) wynik z regularyzacją. 19

Sieć neuronowa radialna Zastosowanie w rozwinięciu p funkcji bazowych, przy czym p oznacza liczbę wzorców uczących, jest niedopuszczalne z praktycznego punktu widzenia gdyż liczba tych wzorców jest bardzo duża i złożoność obliczeniowa algorytmu niepomiernie wzrasta. Rozwiązanie układu równań p x p przy dużych wartościach p staje się niezwykle trudne, bardzo duże macierze zwykle są bardzo źle uwarunkowane (współczynnik uwarunkowania nawet 10 20 ). 20

Sieć neuronowa radialna Podobnie jak w przypadku sieci wielowarstwowych potrzebna jest redukcja wag, tutaj sprowadzająca się do redukcji ilości funkcji bazowych do liczby K. Rozwiązania równania aproksymującego można przedstawić w postaci K F*(x) = Σ W i G(x, c i ) i=1 gdzie G(x,c i ) = G( x-c i ), K<p, a c i (i=1,...,k) jest zbiorem centrów które należy wyznaczyć. W szczególnym przypadku, dla K=p otrzymuje się rozwiązanie dokładne. 21

Sieć neuronowa radialna Zadanie aproksymacji polega na dobraniu odpowiednich funkcji Greena G(x,c i ) i takim doborze wag W i (i=1,2,...,k), aby rozwiązanie najlepiej przybliżało rozwiązanie dokładne. Rozwiązuje się to przy pomocy metody wariacyjnej (Galerkina) minimalizując funkcjonał p K L(F*) = Σ [ Σ W j G( x i c j ) d i ] 2 + λ PF* 2 i=1 j=1 Uzyskane rozwiązanie wyrażające funkcję aproksymującą w przestrzeni wielowymiarowej może być zinterpretowane w postaci sieci neuronowej radialnej zwanej siecią RBF (Radial Basic Function). 22

Sieć RBF Sieć RBF Ma ona strukturę dwuwarstwową, warstwa ukryta realizuje odwzorowanie nieliniowe realizowane przez neurony radialnej funkcji bazowej. Neuron wyjściowy jest liniowy, a jego rolą jest sumowanie wagowe sygnałów pochodzących od neuronów warstwy ukrytej. y w0 1 φ1 w1 φ2 w2 w3 φ3 w4 φ4 Ogólna postać sieci radialnej RBF x1 x2 x3 23

Siec neuronowa radialna Uzyskana architektura sieci radialnych ma strukturę analogiczną do struktury wielowarstwowej sieci sigmoidalnych o jednej warstwie ukrytej. Rolę neuronów ukrytych odgrywają radialne funkcje bazowe różniące się kształtem od funkcji sigmoidalnych. Istotne różnice miedzy obydwoma typami sieci: sieć radialna ma strukturę ustaloną o jednej warstwie ukrytej i liniowym neuronie wyjściowym; sieć sigmoidalna sieć sigmoidalna może mieć różną liczbę warstw, a neurony wyjściowe mogą być liniowe albo nieliniowe; 24

Sieć neuronowa radialna W przypadku stosowania funkcji radialnych występuje większe zróżnicowanie w doborze ich kształtu. Najbardziej popularnym odpowiednikiem funkcji sigmoidalnej jest funkcja bazowa Gaussa określona zależnością φ(r) = exp(-r 2 /2σ 2 ), przy czym r = x-c, a σ>0 jest parametrem. Stosuje się również funkcje potęgowe: φ(r) = 1/sqrt(r 2 +σ 2 ); φ(r) = sqrt(r 2 +σ 2 ); φ(r) = r 2n+1 ; 25

Sieć neuronowa radialna φ(r) = exp(-r 2 /2σ 2 ), φ(r) = 1/sqrt(r 2 +σ 2 ), φ(r) = sqrt(r 2 +σ 2 ); φ(r) = r 2 Wykresy funkcji bazowych: a) funkcja Gaussa; b) funkcja Hardy ego; c) funkcja wielomianowa; d) funkcja potęgowa. 26

Sieć neuronowa radialna Funkcja nieliniowa radialna dla każdego neuronu ukrytego ma inne parametry c i oraz σ i, w sieci sigmoidalnej natomiast stosuje się zwykle standartowe funkcje aktywacji o parametrze β identycznym dla każdego neuronu. Argumentem funkcji radialnej jest odległość danej próbki x od centrum c i, a w sieci sigmoidalnej jest to iloczyn skalarny wektorów W T x. 27

Metody uczenia Problem uczenia sieci przy wybranym typie radialnej funkcji bazowej składa się z dwu etapów: doboru centrów i parametrów kształtu funkcji bazowych doboru wag neuronów warstwy wyjściowej Podstawowa trudność to etap pierwszy. Stosuje się najczęściej: wybór losowy, samoorganizujący się proces podziału na klastry uczenie pod nadzorem. 28

Losowy wybór centrów funkcji bazowych Wybór stałych parametrów funkcji bazowych jest dokonywany losowo przy rozkładzie równomiernym Jest to najprostsze rozwiązanie. Jest to podejście dopuszczalne dla klasycznych sieci radialnych pod warunkiem, że rozkład danych uczących dobrze odzwierciedla specyfikę problemu. Przy wyborze gaussowskiej funkcji radialnej zakłada się wartość odchylenia standartowego funkcji zależną od rozrzutu dobranych losowo centrów c i, wobec czego gaussowska funkcja bazowa przyjmuje postać G( x c i 2 ) = exp ( - x-c i 2 / d 2 / K ) dla i=1,2,..., K, przy czym d oznacza maksymalną odległość miedzy centrami c i. Jak wynika z powyższego wzoru σ = d/sqrt(2k) i jest jednakowe dla każdej funkcji bazowej, d maksymalna odległość miedzy centrami. 29

Losowy wybór centrów funkcji bazowych Po ustaleniu parametrów funkcji bazowych pozostaje problem doboru wag neuronu wyjściowego, sprowadzający się do rozwiązania równania G W = d gdzie G ij = exp( - x i -c j 2 / d 2 / K ) gdzie i=1,...,p oraz j=1,...,k. 30

Dobor parametrow funkcji radialnych Znacznie lepsze rezultaty można uzyskać przez zastosowanie samoorganizujacego się procesu podziału danych uczących na klastery w jednej z jego licznych odmian. Centrum klastera jest utożsamiane z centrum odpowiedniej funkcji radialnej. Liczba tych funkcji jest równa liczbie klasterów i może być korygowana przez algorytm samo organizacji. Proces podziału danych na klastery może być przeprowadzany metodą K-uśrednień. Aparat matematyczny zaangażowany w tą procedurę jest dość skomplikowany... 31

Algorytmy uczące oparte na propagacji wstecznej Odmienną klasą algorytmów uczących dla sieci radialnych są metody gradientowe realizujące uczenie z nadzorem, wykorzystujące algorytm propagacji wstecznej. Dla metod gradientowych podstawowa trudność to wyznaczenie składowych gradientu względem wszystkich parametrów. Kolejna trudność to wybór wartości startowych parametrów. Przy starcie uczenia z wartości losowych prawdopodobieństwo utknięcia procesu w minimum lokalnym jest większe niż w przypadku sieci sigmoidalnych, ze względu na silną nieliniowość funkcji wykładniczych. Losowe wartości punktów startowych stosuje się rzadko, zastępując je odpowiednią procedurą initializacji, wykorzystującą informację zawartą w zbiorze danych uczących. Do tego celu wykorzystuje się algorytmy samoorganizacji. Wartości parametrów funkcji radialnych otrzymane w wyniku ich działania przyjmuje się za wartości startowe. 32

Sieć radialna a sieć sigmoidalna Sieci neuronowe o radialnych funkcjach bazowych znalazły zastosowanie zarówno w rozwiązywaniu problemów klasyfikacyjnych, zadaniach aproksymacji funkcji wielu zmiennych, jak i zagadnieniach predykcji... tych obszarach zastosowań gdzie funkcje sigmoidalne mają ugruntowaną pozycję. W stosunku do sieci wielowarstwowych o sigmoidalnych funkcjach aktywacji wyróżniają się pewnymi właściwościami szczególnymi, umożliwiającymi lepsze odwzorowanie cech charakterystycznych modelowanego procesu. Przedyskutujmy te różnice... 33

Sieć radialna a sieć sigmoidalna Sieć sigmoidalna: Działanie funkcji rozciąga się od określonego punktu w przestrzeni aż do nieskończoności, reprezentuje aproksymację globalną funkcji zadanej. Nie ma niemożności fizycznego powiązania obszaru aktywności neuronu z odpowiednim obszarem danych uczących, trudności z określeniem optymalnego punktu startowego z procesie uczenia. Sieć radialna: Sieć radialna: Bazuje na funkcjach mających wartość niezerową jedynie w określonej przestrzeni tylko wokół centrów, realizuje aproksymację typu lokalnego, której zasięg działania jest bardzo ograniczony. Można się spodziewać że zdolności do uogólniania są gorsze niż dla sieci sigmoidalnych. Łatwość powiązania parametrów funkcji bazowych z fizycznym rozmieszczeniem danych w obszarze parametrów. Łatwość uzyskania dobrych wartości startowych w procesie uczenia pod nadzorem. 34

Sieć radialna a sieć sigmoidalna Sieć radialna: Przestrzenie decyzyjne tworzone w sieciach radialnych są stosunkowo proste i w sposób naturalny kształtowane. Sieć dostarcza nie tylko informacji do jakiej klasy należy wzorzec testujący, ale wskazuje również na ewentualną możliwość utworzenia oddzielnej klasy. Na ogół uważa się, że sieci radialne lepiej niż sieci sigmoidalne nadają się do takich żądań klasyfikacyjnych jak wykrywanie uszkodzeń w różnego rodzaju systemach, rozpoznawanie wzorców, itp. Znaczną zaletą sieci radialnych jest znacznie uproszczony algorytm uczenia. Przy istnieniu tylko jednej warstwy ukrytej i ścisłym powiązaniu aktywności neuronu z odpowiednim obszarem przestrzeni danych uczących, punkt startowy uczenia jest znacznie bliżej rozwiązania optymalnego, niż jest to możliwe w sieciach wielowarstwowych. 35

Sieć radialna a sieć sigmoidalna Sieć radialna cont.: Dodatkowo, możliwe jest odseparowanie etapu doboru parametrów funkcji bazowych od doboru wartości wag sieci (algorytm hybrydowy), co może przyśpieszyć i uprościć proces uczenia. Przy zastosowaniu ortogonalizacji proces optymalnego kształtowania struktury sieci jest stałym fragmentem uczenia, nie wymagającym żadnego dodatkowego wysiłku. Liczba neuronów ukrytych decyduje w dużym stopniu o dokładności odwzorowania i zdolnościach uogólniania sieci. W przypadku sieci radialnej problem doboru liczby neuronów ukrytych jest o wiele prostszy niż w sieciach sigmoidalnych, ze względu na lokalny charakter aproksymacji reprezentowany przez poszczególne funkcje bazowe. 36

Zestaw pytań do testu 1. Co to znaczy że sieć radialna realizuje aproksymację typu lokalnego? 2. Podaj przykład bazowej funkcji radialnej. 3. Czy w sieci radialnej stosujemy wiele warstw ukrytych? 4. Co to jest siec RBF, narysuj schemat. 5. Wymień etapy procesu uczenia sieci radialnej. 37