Sieć przesyłająca żetony CP (counter propagation)

Podobne dokumenty
Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

wiedzy Sieci neuronowe

Zastosowania sieci neuronowych

Uczenie sieci typu MLP

Uczenie sieci radialnych (RBF)

Sztuczne sieci neuronowe

8. Neuron z ciągłą funkcją aktywacji.

Lekcja 5: Sieć Kohonena i sieć ART

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

Uczenie sieci neuronowych i bayesowskich

synaptycznych wszystko to waży 1.5 kg i zajmuje objętość około 1.5 litra. A zużywa mniej energii niż lampka nocna.

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

Podstawy Sztucznej Inteligencji (PSZT)

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Metody Sztucznej Inteligencji II

Metody systemowe i decyzyjne w informatyce

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

SZTUCZNA INTELIGENCJA

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd.

Systemy Inteligentnego Przetwarzania wykład 7: Sieci RBF

Widzenie komputerowe

Elementy inteligencji obliczeniowej

Sztuczne Sieci Neuronowe

Inteligentne systemy przeciw atakom sieciowym

Sztuczna inteligencja

Rozpoznawanie obrazów

Podstawy sztucznej inteligencji

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Sieci M. I. Jordana. Sieci rekurencyjne z parametrycznym biasem. Leszek Rybicki. 30 listopada Leszek Rybicki Sieci M. I.

Wstęp do teorii sztucznej inteligencji

I EKSPLORACJA DANYCH

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Sztuczne sieci neuronowe i sztuczna immunologia jako klasyfikatory danych. Dariusz Badura Letnia Szkoła Instytutu Matematyki 2010

SIECI RBF (RADIAL BASIS FUNCTIONS)

Metody sztucznej inteligencji Zadanie 3: (1) klasteryzacja samoorganizująca się mapa Kohonena, (2) aproksymacja sieć RBF.

1 Klasyfikator bayesowski

Sieci neuronowe jako sposób na optymalizacje podejmowanych decyzji. Tomasz Karczyoski Wydział W-08 IZ

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Definicja perceptronu wielowarstwowego

Podstawy Sztucznej Inteligencji Sztuczne Sieci Neuronowe. Krzysztof Regulski, WIMiIP, KISiM, B5, pok. 408

6. Perceptron Rosenblatta

Sztuczne sieci neuronowe (SNN)

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;

Sztuczne sieci neuronowe Ćwiczenia. Piotr Fulmański, Marta Grzanek

Elementy kognitywistyki III: Modele i architektury poznawcze

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

1. Logika, funkcje logiczne, preceptron.

Wstęp do sieci neuronowych, wykład 9 Sieci rekurencyjne. Autoasocjator Hopfielda

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Temat: Sieci neuronowe oraz technologia CUDA

Wprowadzenie do Sieci Neuronowych Laboratorium 05 Algorytm wstecznej propagacji błędu

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Sztuczne Sieci Neuronowe. Wiktor Tracz Katedra Urządzania Lasu, Geomatyki i Ekonomiki Leśnictwa, Wydział Leśny SGGW

Wstęp do teorii sztucznej inteligencji Wykład II. Uczenie sztucznych neuronów.

PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH**

SIECI NEURONOWE Liniowe i nieliniowe sieci neuronowe

Optymalizacja systemów

SIECI KOHONENA UCZENIE BEZ NAUCZYCIELA JOANNA GRABSKA-CHRZĄSTOWSKA

Wyprowadzenie prawa Gaussa z prawa Coulomba

Systemy uczące się wykład 1

METODY SZTUCZNEJ INTELIGENCJI 2 Opis projektu

Zastosowania sieci neuronowych - automatyka identyfikacja sterowanie

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Elementy Sztucznej Inteligencji. Sztuczne sieci neuronowe cz. 2

Rozpoznawanie obrazów

Program MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r=

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Wstęp do sieci neuronowych, wykład 10 Sieci rekurencyjne. Autoasocjator Hopfielda

Metody probabilistyczne klasyfikatory bayesowskie

Sztuczne sieci neuronowe

Aby mówić o procesie decyzyjnym Markowa musimy zdefiniować następujący zestaw (krotkę): gdzie:

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Elementy modelowania matematycznego

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

SIECI REKURENCYJNE SIECI HOPFIELDA

Optymalizacja ciągła

Wstęp do sieci neuronowych, wykład 10 Sieci rekurencyjne. Autoasocjator Hopfielda

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Zastosowania sieci neuronowych

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Wstęp do sieci neuronowych, wykład 9 Sieci rekurencyjne. Autoasocjator Hopfielda

Rozwiązywanie równań nieliniowych

Optymalizacja optymalizacji

Systemy agentowe. Sieci neuronowe. Jędrzej Potoniec

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Sieci neuronowe i ich ciekawe zastosowania. Autor: Wojciech Jamrozy III rok SMP / Informatyka

Agnieszka Nowak Brzezińska Wykład III

METODY INTELIGENCJI OBLICZENIOWEJ wykład 5

Co to jest grupowanie

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce

wiedzy Sieci neuronowe (c.d.)

Ważne rozkłady i twierdzenia c.d.

Transkrypt:

Sieci neuropodobne IX, specyficzne architektury 1 Sieć przesyłająca żetony CP (counter propagation) warstwa Kohonena: wektory wejściowe są unormowane jednostki mają unormowane wektory wag jednostki są liniowe tzn. każda na swoim wyjściu produkuje: y j = i w ijx i = cos( {w j x}) na y j wykonywana jest operacja nieliniowa wybór maximum po jednostkach maximum zostaje, a reszta wyjść warstwy Kohonena jest zerowana warstwa Grossberga: otrzymuje na wejściu tylko jeden niezerowy sygnał od zwycięskiego neuronu z poprzedniej warstwy jednostki są liniowe i produkują wyjście: Y j = i w ijy i przy czym warto zauważyć, że tyko dla jednego i y i 0 Działanie całej sieci wygląda więc następująco: warstwa Kohonena dokonuje klasyfikacji wektora wejściowego, a warstwa Grossberga zwraca wektor skojarzony z dana klasą wejść. Jest to działanie tablicy przeglądowej (look-up table). Sieci neuropodobne IX, specyficzne architektury 2 Uczenie sieci CP Uczenie warstwy Kohonena: uczeniu w danym kroku podlega tylko jeden neuron: w (m )(j+1) i = w (m )(j) i gdzie: m spełnia warunek y (j) m = max m + η (j) ( x (j) i ( ) y (j) m w (m )(j) i ) Co nam dają te warunki? normalizacja wejść i wag największa wartość wyjścia sieci dla neuronu m zapewnia to, że wektor wag tego neuronu znajduje się najbliżej wektora bodźca na sferze jednostkowej. uczenie neuronu m szybkość nauki. zbieżność do klastrów jeśli w zbiorze uczącym występują jakieś skupienia, to wektory wag są modyfikowane w ten sposób, że dążą do wartości średnich dla poszczególnych skupień, przy czym my nie musimy wiedzieć a piori o istnieniu tych skupień. Uczenie warstwy Grossberga: w ij = η(y i z i )y j przy czym w każdym kroku uczeniu podlegają tylko te wagi w ij, które łaczą neuron wyjściowy i ty ze zwycięskim neuronem j tym z warstwy Kohonena.

Sieci neuropodobne IX, specyficzne architektury 3 Zastosowania sieci CP analiza statystyczna analiza skupień kompresja danych rozpoznawanie mowy aproksymacja funkcji Zaleta: Uczą się około 2 rzędy wielkości szybciej niż sieci ze wsteczną propagacją dając porównywalne wyniki. Sieci neuropodobne IX, specyficzne architektury 4 Jednostki z funkcjami o symetrii kołowej RBF Sieci z jednostkami RBF (RBFN) są hybrydowe: na ogół złożone są z dwóch warstw: wejściowej z jednostek o symetrii kołowej i wyjściowej jednostek liniowych. W odróżnieniu od dotychczas rozważanych sieci, jednostki wejściowe mają funkcję aktywacji w postaci funkcji o symetrii kołowej g c (x) = g( x µ c ; σ) gdzie: µ c centum, σ charakterystyczna szerokość, skala Najczęściej stosowaną postacią funkcji jest znormalizowany gauss: g j (x) = exp[ x µ j 2 /2σj 2 ] k exp[ x µ k 2 /2σk 2] gdzie x jest wektorem wejściowym, a µ j wektorem wag jednostki j tej. Normalizacja zapewnia to, że wyjścia są z przedziału 0 1 i sumują się do 1. Każda jednostka posiada pewne pole receptorowe o środku w µ j i szerokości σ j.

Sieci neuropodobne IX, specyficzne architektury 5 Co robi sieć RBF? Jeśli pola receptorowe jednostek nie zachodzą na siebie, to przy prezentacji konkretnego bodźca aktywna jest tylko jedna jednostka. Jeśli pola receptorowe na siebie zachodzą to aktywnych jest kilka jednostek, których pola receptorowe są najbliższe prezentowanemu bodźcowi w przestrzeni wejściowej. Wyjście z warstwy wejściowej jest podawane na liniową warstwę wyjściową. Można patrzeć na działanie takiej sieci w następujący sposób: warstwa wejściowa dokonuje klasyfikacji bodźców, a warstwa wyjściowa wykonuje na tych klasach pewną transformację liniową. Widać, że sieci RBF mogą realizować zadania podobne jak sieci CP. W kontekście twierdzenia o potencjalnych możliwościach sieci widać, że sieci RBF mogą potencjalnie odtwarzać dowolną funkcję X Y Sieci RBF mają dobre własności interpolacyjne, ale niezbyt dobrze extrapolują. Sieci neuropodobne IX, specyficzne architektury 6 Zastosowania sieci RBF kontekstowe przeszukiwanie baz danych rozpoznawanie twarzy rozpoznawanie zapachów interpolacja funkcji

Sieci neuropodobne IX, specyficzne architektury 7 Uczenie sieci RBF W sieci o typowej architekturze uczeniu podlegają: centra i szerokości jednostek wejściowych oraz wagi liniowych jednostek wyjściowych. Dla sieci RBF można wyprowadzić gradientową regułę optymalizacji tych parametrów, ale istnieje bardziej efektywy sposób uczenia. Każdą warstwę można uczyć niezależnie, polega to na : znalezieniu środków µ j i wybraniu szerokości σ j. Można to zrobić na kilka sposobów: tworzymy sieć z taka ilością jednostek ukrytych ile jest wektorów w zbiorze treningowym tak, że centrum każdej jednostki odpowiada jednemu wektorowi treningowemu. przeprowadzamy analizę skupień zbioru treningowego i dla każdego skupiska tworzymy jednostkę z centrum pokrywającym się ze średnią danego skupiska i szerekością proporcjonalną np. do wariancji. odpowiednik analizy skupień możemy przeprowadzić przy użyciu sieci Kohonena. następnie warstwę wyjściową trenujemy przy użyciu np. reguły delta. Przy wyborze σ j trzeba pamiętać o przekleństwie wymiaru wraz ze wzrostem wymiaru przestrzeni wejściowej zmniejsza się objętość jednostkowej kuli. Sieci neuropodobne IX, specyficzne architektury 8 Optymalizacja ilości jednostek ukrytych regularyzacja zanikanie wag rozrost sieci, zaczynamy od sieci z jednym neuronem ukrytym, który ma centum równe jednemu z wektorów treningowych, a potem: 1. przepuszczamy wszystkie wektory treningowe przez sieć 2. dla tego, który spowodował największy błąd dokładamy jednostkę 3. uczymy wagi warstwy wyjściowej 4. sprawdzamy czy całkowity błąd sieci jest już dostatecznie mały, jeśli nie to skaczemy do 1.

Sieci neuropodobne IX, specyficzne architektury 9 gdzie: Więcej o klasyfikacji Cel: każdej próbce trzeba przypisać klasę do której ona należy. Optymalny klasyfikator w statystyce to taki, który każdej próbce x przypisuje taką klasę C i, która ma największe prawdopodobieństwo a posteriori P (C i x). j i P (C i x) > P (C j x) Do obliczenia prawdopodobieństw P (C i x) stosuje się regułę Bayesa: P (C i x) = P (x C i)p (C i ) ( ) P (x) P (C i ) prawdopodobieństwo a priori przynależności do klasy C i. Może być oszacowane np. na podstawie częstości występowania danej klasy. P (x) prawdopodobieństwo a priori, że dana próbka to konkretny x. P (x C i ) prawdopodobieństwo a priori wylosowania x jako elementu klasy C i. Może być obliczone na podstawie rozkładu gęstości prawdopodobieństwa klasy C i. P (C i x) prawdopodobieństwo a posteriori, że konkretna próbka x należy do klasy C i. Sieci neuropodobne IX, specyficzne architektury 10 Klasyfikacja sieciami RBF (1) Jeżeli dla każdej klasy C k jesteśmy w stanie znaleźć funkcję radialną opisującą aprioryczne prawdopodobieństwo P (x C k ) to klasyfikacja polega na maksymalizacji prawdopodobieństwa a posteriori. Zgodnie z regółą Bayesa: możemy więc napisać P (C k x) = P (x C k)p (C k ) P (x) = P (C k x) = P (C k )g k (x) P (x C k )P (C k ) k P (x C k )P (C k ) gdzie P (x C k ) g k (x) = k P (x C k )P (C k ) Jest to postać znormalizowanej funkcji radialnej. P (C k ) można traktować jako wagi drugiej warstwy.

Sieci neuropodobne IX, specyficzne architektury 11 Klasyfikacja sieciami RBF (2) Jeżeli rozkładów prawdopodobieństwa P (x C k ) nie da się wyrazić jedną funkcją można zastosować model mieszany: oraz Oznaczając: P (x C k ) = g j (x) = P (x) = M P (x j)p (j C k ) j=1 M P (x j)p (j) j=1 M P (x j)p (j) j =1 P (x j )P (j ) = P (j x) dostajemy w kj = P (j C k)p (C k ) P (j) P (C k x) = = P (C k j) M w kj g j (x) Tak więc na wyjściu sieci z jednostkami RBF postaci g j i wagami w warstwie wyjściowej w kj otrzymujemy prawdopodobieństwo przynależności próbki x do klasy C k. j=1