Sztuczne Sieci Neuronowe

Podobne dokumenty
Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ 2008/2009. Sieci Neuronowe. Wykład 11 Algorytmy genetyczne; Systemy rozmyte

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

Inteligentne systemy informacyjne

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

Systemy Inteligentnego Przetwarzania wykład 7: Sieci RBF

Sztuczne sieci neuronowe

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

Sieć przesyłająca żetony CP (counter propagation)

Sztuczne Sieci Neuronowe

Literatura. Sztuczne sieci neuronowe. Przepływ informacji w systemie nerwowym. Budowa i działanie mózgu

wiedzy Sieci neuronowe

Sztuczne sieci neuronowe (SNN)

SZTUCZNA INTELIGENCJA

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

SIECI RBF (RADIAL BASIS FUNCTIONS)

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Wstęp do teorii sztucznej inteligencji Wykład II. Uczenie sztucznych neuronów.

8. Neuron z ciągłą funkcją aktywacji.

SZTUCZNA INTELIGENCJA

Sztuczne sieci neuronowe

Zastosowania sieci neuronowych

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Lekcja 5: Sieć Kohonena i sieć ART

Sieci Neuronowe. Wykład 1 Wstęp do Sieci Neuronowych

synaptycznych wszystko to waży 1.5 kg i zajmuje objętość około 1.5 litra. A zużywa mniej energii niż lampka nocna.

Podstawy Sztucznej Inteligencji (PSZT)

METODY INŻYNIERII WIEDZY

Temat: Sieci neuronowe oraz technologia CUDA

Sieci neuronowe jako sposób na optymalizacje podejmowanych decyzji. Tomasz Karczyoski Wydział W-08 IZ

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ 2008/2009. Sieci Neuronowe. Wykład 8 Sieci rezonansowe

HAŁASU Z UWZGLĘDNIENIEM ZJAWISK O CHARAKTERZE NIELINIOWYM

Widzenie komputerowe

Uczenie sieci radialnych (RBF)

Metody Sztucznej Inteligencji II

Sztuczne Sieci Neuronowe

Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ 2008/2009. Sieci Neuronowe. Wykład 4 Wariacje na temat propagacji wstecznej Sieci CP

Aproksymacja funkcji a regresja symboliczna

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

SZTUCZNA INTELIGENCJA

Sztuczne sieci neuronowe i sztuczna immunologia jako klasyfikatory danych. Dariusz Badura Letnia Szkoła Instytutu Matematyki 2010

Wykład 2. Model Neuronu McCulocha-Pittsa Perceptron Liniowe Sieci Neuronowe

PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH**

Uczenie sieci typu MLP

Podstawy sztucznej inteligencji

Inteligentne systemy przeciw atakom sieciowym

SIECI REKURENCYJNE SIECI HOPFIELDA

Elementy kognitywistyki III: Modele i architektury poznawcze

BIOCYBERNETYKA SIECI NEURONOWE. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

Zastosowania sieci neuronowych

MODELOWANIE RZECZYWISTOŚCI

ZACHODNIOPOMORSKI UNIWERSYTET TECHNOLOGICZNY W SZCZECINIE

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Wstęp do sztucznych sieci neuronowych

I EKSPLORACJA DANYCH

KARTA MODUŁU KSZTAŁCENIA

Wykład 1: Wprowadzenie do sieci neuronowych

Elementy Sztucznej Inteligencji. Sztuczne sieci neuronowe cz. 2

Algorytm genetyczny (genetic algorithm)-

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD XI: Sztuczne sieci neuronowe

Obliczenia Naturalne - Sztuczne sieci neuronowe

Wstęp do kognitywistyki. Wykład 3: Logiczny neuron. Rachunek sieci neuronowych

Sieci neuronowe i algorytmy uczenia Czyli co i jak andrzej.rusiecki.staff.iiar.pwr.wroc.pl s.

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Sztuczna inteligencja

Optymalizacja ciągła

Przykładowe funkcje przejścia używane przy budowie sztucznych neuronów

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2013/2014

Sztuczne Sieci Neuronowe. Wiktor Tracz Katedra Urządzania Lasu, Geomatyki i Ekonomiki Leśnictwa, Wydział Leśny SGGW

Uczenie sieci neuronowych i bayesowskich

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

INTERPOLACJA I APROKSYMACJA FUNKCJI

1. Logika, funkcje logiczne, preceptron.

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Systemy uczące się Lab 4

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

ELEMENTY SZTUCZNEJ INTELIGENCJI. Sztuczne sieci neuronowe

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Inteligencja. Władysław Kopaliśki, Słownik wyrazów obcych i zwrotów obcojęzycznych

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

OCENA DZIAŁANIA AE. METODY HEURYSTYCZNE wykład 4 LOSOWOŚĆ W AE KRZYWE ZBIEŻNOŚCI ANALIZA STATYSTYCZNA:

Algorytm Genetyczny. zastosowanie do procesów rozmieszczenia stacji raportujących w sieciach komórkowych

Podstawy Sztucznej Inteligencji Sztuczne Sieci Neuronowe. Krzysztof Regulski, WIMiIP, KISiM, B5, pok. 408

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Elementy inteligencji obliczeniowej

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

wiedzy Sieci neuronowe (c.d.)

Monitorowanie i Diagnostyka w Systemach Sterowania

METODY INTELIGENCJI OBLICZENIOWEJ wykład 5

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Metody sztucznej inteligencji

Optymalizacja optymalizacji

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

Inżynieria Wiedzy i Systemy Ekspertowe. Logika rozmyta. dr inż. Michał Bereta Politechnika Krakowska

Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ 2008/2009. Sieci Neuronowe. Wykład 9 Dobór optymalnej architektury i próbek uczących

Transkrypt:

Sztuczne Sieci Neuronowe Wykład 11 Podsumowanie wykłady przygotowane wg. W. Duch, J. Korbicz, L. Rutkowski, R. Tadeusiewicz, Sieci Neuronowe, Rozdz. 1. Biocybernetyka i Inżynieria Medyczna, tom VI, AOFE, Warszawa 2000. Prof. dr hab. Elżbieta Richter-Wąs

Liniowe modele Przez wiele lat powszechnie stosowaną techniką matematycznego opisywania różnych obiektów i procesów było modelowanie liniowe. Dla tego typu modeli dobrze dopracowane/znane są strategie optymalizacji przy ich budowie. Często jednak nie ma podstaw do stosowania aproksymacji liniowej dla danego problemu, modele liniowe się nie sprawdzają prowadząc do zbyt szybko wyciąganych wniosków o niemożności matematycznego opisu danego systemu. Prof. dr hab. Elżbieta Richter-Wąs 2

Ludzki mózg: niedościgły wzór Bardzo interesująca jest własność sieci neuronowych, wynikająca z faktu że stanowią one (w jakimś zakresie) probe naśladownictwa działania ludzkiego mózgu. Mózg ludzki: objętość 1,4 l., pow. 2000cm2, masa 1,5 kg Kora mózgowa: grubość 3 mm, 1010-1011 komórek nerwowych, liczba połączeń (synaps) 1014-1015 Impulsy komórek nerwowych: częstotliwość 1-100Hz, czas trwania 1-2 ms, napięcie 100mV Szybkość pracy mózgu: 1015 połączeń x 100Hz = 1017 op./s Prof. dr hab. Elżbieta Richter-Wąs 3

Sieci SSN jako nielinowe modele Sieci neuronowe są bardzo wyrafinowaną techniką modelowania, zdolną do odwzorowywania nadzwyczaj złożonych funkcji. Mają charakter nieliniowy, co istotnie wzbogaca możliwość ich zastosowań. To jest jedna z wielu obecnie rozwijanych wyrafinowanych technik! Odwołanie się do modeli tworzonych przy pomocy sieci neuronowych może być najszybszym i najwygodniejszym rozwiązaniem problemu. SSN umożliwiają również kontrole nad złożonym problemem wielowymiarowości, który przy innych podejściach znacząco utrudnia próby modelowania funkcji nieliniowych z dużą ilością zmiennych Prof. dr hab. Elżbieta Richter-Wąs 4

Sieci SSN jako nielinowe modele Sieci neuronowe w praktyce same konstruują potrzebne użytkownikowi modele, ponieważ automatycznie uczą się na podanych przez niego przykładach. użytkownik sieci gromadzi reprezentatywne dane uruchamia algorytm uczenia, który ma na celu wytworzenie w pamięci sieci potrzebnej struktury (modelu) wyuczona sieć realizuje wszystkie potrzebne funkcje związane z eksploatacją wytworzonego modelu. Prof. dr hab. Elżbieta Richter-Wąs 5

Sieci SSN jako nielinowe modele Użytkownik potrzebuje pewnej (głównie empirycznej) wiedzy dotyczącej sposobu wyboru i przygotowania danych uczących, musi dokonać właściwego wyboru architektury sieci neuronowej, umieć zinterpretować wyniki... ale poziom wiedzy teoretycznej niezbędnej do skutecznego zbudowania modelu jest przy stosowaniu sieci neuronowych znacznie niższy niż w przypadku stosowania tradycyjnych metod statystycznych. Prof. dr hab. Elżbieta Richter-Wąs 6

Mózg człowieka jako prototyp sieci neuronowej Można przyjąć że sama dziedzina zaistniała dopiero wraz z wydaniem historycznej pracy W. S. McCulloch, W. Pitts, A logical calculus of the ideas immanent in nervous activity, Bulletin of Mathematical Biophysics, No 5, 1943, pp. 115-133. w której po raz pierwszy pokuszono się o matematyczny opis komórki nerwowej i powiązanie tego opisu z problemem przetwarzania danych. Prof. dr hab. Elżbieta Richter-Wąs 7

Struktura sztucznego neuronu Jest bardzo interesujące i wręcz intrygujące że sztuczne sieci neuronowe mogą osiągać tak bardzo znaczące rezultaty praktyczne, korzystając z niezwykle uproszczonego modelu neuronu. Schematu polega na tym że neuron jedynie wyznacza ważoną sumę swoich wejść i przechodzi w stan pobudzenia wtedy gdy łączny sygnał wejściowy przekroczy pewien ustalony poziom progowy. x 1 x 2 w 1 w 2 e y Σ ϕ x n w n Próg Θ Prof. dr hab. Elżbieta Richter-Wąs 8

Sztuczny neuron sigmoidalny Prof. dr hab. Elżbieta Richter-Wąs 9

Struktura sztucznej sieci neuronowej Prof. dr hab. Elżbieta Richter-Wąs 10

Struktura sztucznej sieci neuronowej Neurony wejściowe, ukryte i wyjściowe musza pozostać wzajemnie połączone co stawia przed twórcą sieci problem wyboru jej struktury. Kluczową kwestią przy wyborze struktury sieci jest występowanie lub brak w tej strukturze sprzężenia zwrotnego. Proste sieci maja strukturę jednokierunkową (ang. feedforward): sygnał przepływa w nich tylko w jednym kierunku od wejść, poprzez kolejne neurony ukryte, osiągając ostatecznie neurony wyjściowe. Strukturę taką charakteryzuje zawsze stabilne zachowanie, co jest jej zaletą. Prof. dr hab. Elżbieta Richter-Wąs 11

Struktura sztucznej sieci neuronowej Sieć może mieć również wbudowane sprzężenie zwrotne (tzn. zawiera połączenia powrotne od późniejszych do wcześniejszych neuronów), wówczas może wykonać bardziej skomplikowane obliczenia, w szczególności takie, które maja charakter rekurencyjny Prof. dr hab. Elżbieta Richter-Wąs 12

Uczenie pojedynczego neuronu Na podstawie sygnału błędu δ oraz wektora wejściowego X możliwe jest takie skorygowanie wektora wag W, by neuron lepiej realizował zadaną funkcję y = f(x). Nowy wektor wag obliczany jest ze wzoru W = W + η δ X x 1 z w 1 w 2 w n δ - y gdzie η jest współczynnikiem liczbowym, decydującym o szybkości uczenia. Korekta W jest tym silniejsza im większy został odnotowany błąd. Prof. dr hab. Elżbieta Richter-Wąs 13

Uczenie z lub bez nauczyciela Często stosowaną metodą jest technika uczenia bez nauczyciela, zwaną unsupervised learning lub hebbian learning. Zasada tego uczenia polega na tym, że waga ω i (m), i-tego wejścia m-tego neuronu wzrasta podczas prezentacji j-tego wektora wejściowego X (j) proporcjonalnie do iloczynu i-tej składowej sygnału wejściowego tego x i (j) docierającego do rozważanej synapsy i sygnału wyjściowego rozważanego neuronu. przy czym oczywiście Wzmocnieniu w sieci ulegają te wagi, które są aktywne (duże x i (j) ) w sytuacji gdy ich neuron jest pobudzony (duże y m (j) ). Tego typu sieć jest zatem autoasocjacyjna : jeśli pewien wzór pobudzeń X jest sygnalizowany przez pewne m-te wyjście sieci, to w miarę upływu czasu ta sygnalizacja staje się coraz bardziej wyraźna. Prof. dr hab. Elżbieta Richter-Wąs 14

Uczenie z rywalizacją i sieci Kohonena Uczenie z rywalizacja (competitive learning) wprowadził Kohonen przy tworzeniu sieci neuronowych uczących się realizacji dowolnych odwzorowań X Y. Zasada uczenia z rywalizacja jest formalnie identyczna z regułą instar z dwoma dość istotnymi uzupełnieniami. Wektor wejściowy X jest przed procesem uczenia normalizowany tak, aby X = 1. Index poddawanego treningowi neuronu m* nie jest przypadkowy czy arbitralnie wybierany, jest to bowiem ten (i tylko ten) neuron którego sygnał wyjściowy y m* (j) jest największy. Przy każdorazowym podaniu sygnału wejściowego X (j) neurony rywalizują ze sobą i wygrywa ten, który uzyskał największy sygnał wyjściowy y m* (j). Tylko ten zwycięski neuron podlega uczeniu, którego efektem jest jeszcze lepsze dopasowanie wag W (m*)(j+1) do rozpoznawania obiektów podobnych do X (j). Prof. dr hab. Elżbieta Richter-Wąs 15

Uczenie z rywalizacją i sieci Kohonena Reguła uczenia Kohonena bywa często wzbogacana o dodatkowy element związany z topologią uczącej się sieci. Neurony w sieci są uporządkowane, można więc wprowadzić pojęcie sąsiedztwa. Uogólniona metoda samoorganizującej się sieci Kohonena polega na tym, że uczeniu podlega nie tylko neuron m* wygrywający w konkurencji z innymi neuronami sieci, ale także neurony które z nim sąsiadują. Formalnie regule można zapisać wzorem: formuła uczenia może być zapisana w formie: ω i (m*)(j+1) = ω i (m*)(j) + η (j) x i (j) ( 2 y m (j) -1 ) Prof. dr hab. Elżbieta Richter-Wąs 16

Uczenie z rywalizacją i sieci Kohonena Funkcjonowanie powyższego wzoru w istotny sposób oparto na fakcie, że y m (j) {0,1}. Wzór ten nazywamy regułą Hebb/Anti-Hebb. Funkcje h(m,m*) można definiować na wiele różnych sposobów, na przykład: 1 dla m=m* h(m,m*) = 0.5 dla m-m* =1 0 dla m-m* > 1 h(m,m*) = 1/ρ(m,m ) h(m,m*) = exp ( - [ρ(m,m )] 2 ) Prof. dr hab. Elżbieta Richter-Wąs 17

Uczenie z forsowaniem Omawiane dotychczas techniki uczenia bez nauczyciela mają bardzo interesującą odmianę polegającą na wykorzystaniu przytoczonych powyżej metod wówczas kiedy wektor wymaganych wartości sygnałów wyjściowych sieci Z (j) jest znany. Wszystkie wymienione powyżej metody uczenia dadzą się łatwo zastosować poprzez zamianę y przez stosowne z. Takie uczenie ma charakter forsowania poprawnych rozwiązań bez względu na to co robi sieć. Prof. dr hab. Elżbieta Richter-Wąs 18

Uczenie z forsowaniem Wyróżnić możemy następujące metody: metoda autoasocjacji: metoda przyrostowej autoasocjacji: metoda zbliżania wektora wag do wektora odpowiedzi: Wybór jednej z różnych możliwości podyktowany musi być ocena ich przydatności w konkretnym zadaniu. Brak jest tutaj konkretnej teorii, konieczne są eksperymenty i poszukiwania oparte na badaniach empirycznych. Prof. dr hab. Elżbieta Richter-Wąs 19

Uczenie nieliniowej sieci wielowarstwowej y 1 y 2 y 3 δ 1 δ 2 δ 3 Propagacja sygnału Propagacja błędu x 1 x 2 x 3 Prof. dr hab. Elżbieta Richter-Wąs 20

Zdolności uogólniania sieci neuronowej Podstawową cechą sieci neuronowej jest jej zdolność do uogólniania, a więc generowania właściwego rozwiązania dla danych, które nie pojawiły się w zestawie danych uczących. Sieć zostaje poddana uczeniu na zbiorze L z bieżącym sprawdzeniem stopnia uczenia na zbiorze V. Zdolność odtworzenia zbioru L przez sieć jest miarą zdolności zapamiętania danych uczących Zdolność do generowania właściwych rozwiązań dla danych należących do zbioru T, na których sieć nigdy nie była trenowana, jest miarą zdolności uogólniania. (Zakłada się że dane tworzące zarówno zbiór L jak i zbiór T są typowymi reprezentantami zbioru danych) Prof. dr hab. Elżbieta Richter-Wąs 21 T R L V R zbiór danych wejściowych T - zbiór testujący (testing) L - zbiór uczący (learning) V - zbiór danych sprawdzających (validation)

Cykla uczące i błąd veryfikacji W ogólnym przypadku wraz z upływem czasu uczenia błąd uczenia v L (W) maleje i błąd testowania v V (W) również (przy ustalonej wartości liczby próbek uczących p oraz miary VCdim). RYSUNEK Od pewnego momentu błąd veryfikacji pozostaje stały, natomiast błąd uczenia nadal maleje. W ostatnich fazach procesu uczenia nieregularności w danych odbiegające od cech charakterystycznych danego procesu zaczynają odgrywać role i powodują wzrost błędu testowania. Prof. dr hab. Elżbieta Richter-Wąs 22

Zdolności uogólniania sieci neuronowej Przy stałej liczbie próbek p i wzrastającej wartości miary VCdim błąd uczenia v L (W) maleje monotonicznie, a przedział ufności ε 1 rośnie. W efekcie maksymalny błąd uogólniania osiąga minimum. Zakres VCdim < h opt odpowiada nadmiarowości danych bieżących względem aktualnej wartości VCdim. Zakres VCdim > h opt odpowiada zbyt malej liczbie danych uczących przy aktualnej wartości VCdim. RYSUNEK Prof. dr hab. Elżbieta Richter-Wąs 23

Sieci CP (Counter Propagation) Sieć CP właściwie nie jest oryginalną propozycją, lecz stanowi kompilację sieci Kohonena i sieci Grossberga. Zestawienie tych sieci w strukturze sieci CP wprowadziło istotnie nową jakość sieć stosunkowo szybko się uczącą i mającą (potencjalnie) nieograniczony zakres możliwych odwzorowań pomiędzy sygnałem wejściowym X i wyjściowym Y. Y..Warstwa Grossberga....Warstwa Kohonena.. Prof. dr hab. Elżbieta Richter-Wąs 24 X

Sprzężenie zwrotne jako nowa jakość w strukturach sieci y 1 y 2 y n ω 11, ω 12,...,ω 1k ω 21, ω 22,...,ω 2k ω n1, ω n2,...,ω nk x 1 x 2 x n Sieć o takim schemacie nazywa się siecią autoasocjacyjną. W ramach tego sprzężenia każdy neuron jest połączony jednym z wejść także ze swoim własnym wyjściem, zatem zasada autoasocjacyjnosci odnosi się także do pojedynczych neuronów. Każdy neuron sieci ma także kontakt z pewnym, odpowiadającym mu sygnałem wejściowym x m (j), zatem zaciera się tu podział na warstwę wejściową i pozostałe warstwy sieci. W związku z tym neurony sieci Hopfielda nie tworzą wcale wyraźnie wydzielonych warstw, mogą być rozważane w dowolnej topologii. Prof. dr hab. Elżbieta Richter-Wąs 25

Natura procesów w sieci Hopfielda Uproszczenie to ma następująca interpretację: w chwili początkowej (j=0) do neuronów sieci (wszystkich lub wybranych) doprowadza się sygnały wejściowe x m (0) 0. w wyniku, na wyjściach neuronów sieci wytwarza się zestaw sygnałów wyjściowych Y (1). sygnały wejściowe zostają odłączone i aż do końca symulacji nie uczestniczą w obliczeniach (x m (j) 0) w sieci zaczyna rozwijać się pewien proces, polegający na wyznaczaniu kolejnych wartości Y (j+1) = Ξ ( Y (j) ) Prof. dr hab. Elżbieta Richter-Wąs 26

Natura procesów w sieci Hopfielda Proces wyznaczamy przez kolejne wartości Y (1), Y (2), Y (3),..., Y (j-1), Y (j), Y (j+1),... można obserwować w przestrzeni stanu, do której należą wszystkie wektory sygnałów wyjściowych z elementów sieci Y (j). W tej przestrzeni możliwe są wszystkie znane procesy, jakie związane są z realizacją nieliniowej rekurencyjnej zależności Y (j+1) = Ξ ( Y (j) ) stabilizowanie się przebiegów i ich zbieżność do określonych wartości Y* pojawianie się oscylacji wartości Y (j) i związanych z nimi cykli oraz orbit w przestrzeni Υ pojawianie się przebiegów rozbieżnych, wreszcie można w takim systemie przewidzieć możliwość pojawienia się chaosu. O wyborze jednej z tych możliwości decyduje zestaw współczynników wagowych ω i (m). Prof. dr hab. Elżbieta Richter-Wąs 27

Bazowe funkcje radialne Ilustracja podziału przestrzeni danych siec sigmoidalna + + + + + siec radialna Stanowi to naturalne uzupełnienie neuronu sigmoidalnego, umożliwiające w wypadku wystąpienia naturalnej kołowej symetrii danych wydatne zmniejszenie liczby neuronów potrzebnych do realizacji zadania klasyfikacyjnego. Prof. dr hab. Elżbieta Richter-Wąs 28

Sieć RBF Sieć RBF Ma ona strukturę dwuwarstwową, warstwa ukryta realizuje odwzorowanie nieliniowe realizowane przez neurony radialnej funkcji bazowej. Neuron wyjściowy jest liniowy, a jego rolą jest sumowanie wagowe sygnałów pochodzących od neuronów warstwy ukrytej. y w0 1 φ1 w1 φ2 w2 w3 φ3 w4 φ4 Ogólna postać sieci radialnej RBF x1 x3 x2 Prof. dr hab. Elżbieta Richter-Wąs 29

Sieć neuronowa radialna φ(r) = exp(-r 2 /2σ 2 ), φ(r) = 1/sqrt(r 2 +σ 2 ), φ(r) = sqrt(r 2 +σ 2 ); φ(r) = r 2 Wykresy funkcji bazowych: a) funkcja Gaussa; b) funkcja Hardy ego; c) funkcja wielomianowa; d) funkcja potęgowa. Prof. dr hab. Elżbieta Richter-Wąs 30

Metody uczenia Problem uczenia sieci przy wybranym typie radialnej funkcji bazowej składa się z dwu etapów: doboru centrów i parametrów kształtu funkcji bazowych doboru wag neuronów warstwy wyjściowej Podstawowa trudność to etap pierwszy. Stosuje się najczęściej: wybór losowy, samoorganizujący się proces podziału na klastry uczenie pod nadzorem. Prof. dr hab. Elżbieta Richter-Wąs 31

Sieć radialna a sieć sigmoidalna Sieć sigmoidalna: Działanie funkcji rozciąga się od określonego punktu w przestrzeni aż do nieskończoności, reprezentuje aproksymację globalną funkcji zadanej. Nie ma niemożności fizycznego powiązania obszaru aktywności neuronu z odpowiednim obszarem danych uczących, trudności z określeniem optymalnego punktu startowego z procesie uczenia. Sieć radialna: Sieć radialna: Bazuje na funkcjach mających wartość niezerową jedynie w określonej przestrzeni tylko wokół centrów, realizuje aproksymację typu lokalnego, której zasięg działania jest bardzo ograniczony. Można się spodziewać że zdolności do uogólniania są gorsze niż dla sieci sigmoidalnych. Łatwość powiązania parametrów funkcji bazowych z fizycznym rozmieszczeniem danych w obszarze parametrów. Łatwość uzyskania dobrych wartości startowych w procesie uczenia pod nadzorem. Prof. dr hab. Elżbieta Richter-Wąs 32

Schemat sieci ART y g 1 y g 2 y g n ω g 11, ω g 12,...,ω g 1k ω g 21, ω g 22,...,ω g 2k ω g n1, ω g n2,...,ω g nk y d 1 y d 2 y d 3 ω d 11, ω d 12,...,ω d 1k ω d 21, ω d 22,...,ω d 2k ω d n1, ω d n2,...,ω d nk x 1 x 2 x 3 Prof. dr hab. Elżbieta Richter-Wąs 33

Układ kontrolny sieci ART zewnętrzny sygnał włączający - górna warstwa układ kontrolny y k Y d Y g + + y x dolna warstwa x Działanie układu kontrolnego polega na tym, że jego sygnał dodatkowo pobudza (albo zwiększa czułość) neuronów dolnej warstwy. Bez tego dodatkowego sygnału neurony te nie są w stanie reagować na sygnały górnej warstwy Y g i pętla halucynacji ulega przerwaniu. Prof. dr hab. Elżbieta Richter-Wąs 34

Układ kontrolny sieci ART Strukturę układu kontrolnego można przedstawić następująco: y g 1 y g... 2 y g 3 1 1 1 Sygnał y k doprowadzony jest do wszystkich elementów dolnej (wejściowej) warstwy sieci i współuczestniczy w kształtowaniu ich sygnałów. y g y x -1 1 1 1 1 y k x 1 x 2... x n Prof. dr hab. Elżbieta Richter-Wąs 35

Układ orientujący Innym oryginalnym elementem sieci ART jest system orientujący (orienting system), którego celem jest sterowanie precyzją odwzorowania poszczególnych kategorii w sieci ART. zewnętrzny sygnał włączający górna warstwa reset _ Y d Y g układ kontrolny + _ dolna warstwa + system orientujący + X Prof. dr hab. Elżbieta Richter-Wąs 36

Sieć Pao Sieci bazujące na funkcjach pojedynczych sygnałów x i Reprezentacja rozszerzona składa się ze zbioru oryginalnego x i oraz zbioru funkcji pojedynczych elementów x i. Przykładami funkcji rozszerzających może być funkcja wielomianowa, funkcje ortogonalne: sinπx, cosπx, sin2πx, cos2πx, itp. Efektem takiego rozszerzenia jest rzutowanie wzorców wejściowych z przestrzeni N-wymiarowej w przestrzeń o większych wymiarach. Nie wprowadza to nowej informacji ale wzbogaca istniejącą. Prof. dr hab. Elżbieta Richter-Wąs 37

Sieć Pao Prof. dr hab. Elżbieta Richter-Wąs 38

Sieć sigma-pi Odmianą sieci neuronowej z rozszerzeniem funkcyjnym jest sieć sigma-pi, wykorzystującą składniki funkcyjne w odwzorowaniu danych wejściowych. Sieć zawiera 2 warstwy neuronów: warstwę ukrytą funkcyjną oraz warstwę wyjściową liniową. Każdy neuron warstwy ukrytej zawiera dwa sumatory, dwie funkcje aktywacji oraz jeden mnożnik. Wprowadzenie połączeń synaptycznych wyższego rzędu do struktury sieci umożliwia uproszczenie i przyspieszenie procesu uczenia z jednoczesnym zwiększeniem zdolności klasyfikacyjnych i aproksymacyjnych sieci. Prof. dr hab. Elżbieta Richter-Wąs 39

Wtrącanie szumu do danych uczących Metody przestawione poprzednio realizowały zwiększenie zdolności uogólniania poprzez oddziaływanie na samą architekturę sieci. Jest to podstawowa metoda umożliwiająca uzyskanie dobrych właściwości uogólniających sieci. Przy ustalonej minimalnej architekturze sieci jest możliwa dalsza poprawa poprzez odpowiednie przygotowanie zbioru danych uczących. Przy dobrze wytrenowanej sieci podstawowa jest zasada mówiąca że sygnały wyjściowe sieci powinny być niewrażliwe na zmianę wielkości wejściowych dopóty, dopóki zmiany te są zawarte w pewnych dopuszczalnych granicach przy założeniu, że sieć realizuje odwzorowanie gładkie. Podobne sygnały powinny generować podobne odpowiedzi nawet jeżeli nie wchodziły w skład wzorców uczących. Prof. dr hab. Elżbieta Richter-Wąs 40

Algorytmy genetyczne Podstawowy algorytm genetyczny, określany też jako klasyczny, powstał na przełomie lat 60-tych/70-tych, dzięki pracom Hollanda. Holland zainteresowany cechami naturalnej ewolucji, m.in. faktem że odbywa się ona na chromosomach a nie na żywych istotach, wierzył że odpowiedni program komputerowy może zrealizować algorytm rozwiązywania wielu problemów w sposób naśladujący ewolucję. Rozpoczął więc pracę nad algorytmami symulowanej ewolucji przebiegającej na chromosomach, stanowiących ciąg cyfr binarnych. Algorytmy te, wykorzystując analogiczne jak w naturalnej ewolucji mechanizmy selekcji oraz reprodukcji, zmierzały do rozwiązania danego problemu poprzez poszukiwanie najlepszego chromosomu na podstawie oceny jego przystosowania. Prof. dr hab. Elżbieta Richter-Wąs 41

Prof. dr hab. Elżbieta Richter-Wąs 42

Podstawowe pojęcia systemów rozmytych Warunek µf(u) = 1 oznacza pełną przynależność u do zbioru F, wartość µf(u)=0 oznacza brak tej przynależności. Wartości pośrednie µf(u) wyrażają przynależność częściową u do zbioru F. W odróżnieniu od algebry Boole a, która jednoznacznie klasyfikuje dane wejściowe przyporządkowując im w sposób nierozmyty odpowiedni zbiór, w przypadku algebry rozmytej tej samej wartości zmiennej wejściowej można przyporządkować różne zbiory z określoną wartością funkcji przynależności do zbioru. µf(u) niski sredni wysoki µf(u) niski sredni wysoki 160 170 180 system rozmyty cm 160 170 180 cm system przynależności ostrej Prof. dr hab. Elżbieta Richter-Wąs 43

Systemy rozmyte Blok rozmywania wejscie (zbiory rozmyte) Blok wnioskowania wyjscie (zbiory rozmyte) Blok wyostrzania wejscie wyjscie Baza regul Algorytm sterowania jest oparty o zbiory rozmyte i logikę rozmyta. Wprowadzane i wyprowadzane są dane ostre, dodatkowe bloki realizują funkcje rozmywania i wyostrzania. Blok wnioskowania może być realizowany przy pomocy sieci neuronowych pracujących z wartościami rozmytymi. Takie systemy nazywamy tez systemami rozmyto-neuronowymi. Prof. dr hab. Elżbieta Richter-Wąs 44

Inteligentny system obliczeniowy Prof. dr hab. Elżbieta Richter-Wąs 45

Uwagi końcowe Sztuczne sieci neuronowe maja następujące, podobne do mózgu cechy: zdolności pamięciowe, zwłaszcza pamięci adresowanej kontekstowo, skojarzeniowej umiejętność uczenia się na przykładach umiejętność generalizacji odporność na uszkodzenia sieci umiejętność równoległego przetwarzania informacji umiejętność pracy niealgorytmicznej mogą heurystycznie rozwiązywać problemy mogą poprawnie pracować przy pewnym poziomie uszkodzeń sieci Przyjmuje się powszechnie, że dzisiejsze sztuczne sieci neuronowe są pozbawione wielu cech odpowiadających wyższym czynnościom mózgowym, jak np. umiejętność abstrakcyjnego myślenia i świadomości. Prof. dr hab. Elżbieta Richter-Wąs 46