Uczenie sieci typu MLP

Podobne dokumenty
Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

8. Neuron z ciągłą funkcją aktywacji.

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Uczenie sieci radialnych (RBF)

Podstawy Sztucznej Inteligencji (PSZT)

Zastosowania sieci neuronowych

Widzenie komputerowe

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

1. Logika, funkcje logiczne, preceptron.

Uczenie sieci neuronowych i bayesowskich

Optymalizacja ciągła

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Sztuczne sieci neuronowe

Sieć przesyłająca żetony CP (counter propagation)

METODY INŻYNIERII WIEDZY

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

KADD Minimalizacja funkcji

wiedzy Sieci neuronowe

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

2.4. Algorytmy uczenia sieci neuronowych

Sztuczna inteligencja

Elementy inteligencji obliczeniowej

Co to jest grupowanie

sieci jednowarstwowe w MATLABie LABORKA Piotr Ciskowski

WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice)

Uczenie Wielowarstwowych Sieci Neuronów o

Sztuczne sieci neuronowe Ćwiczenia. Piotr Fulmański, Marta Grzanek

Metody Sztucznej Inteligencji II

KADD Minimalizacja funkcji

BIOCYBERNETYKA SIECI NEURONOWE. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Podstawy sztucznej inteligencji

Temat: Sieci neuronowe oraz technologia CUDA

Sieci neuronowe jako sposób na optymalizacje podejmowanych decyzji. Tomasz Karczyoski Wydział W-08 IZ

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

Zastosowania sieci neuronowych - automatyka identyfikacja sterowanie

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ

Sieci neuronowe w Statistica

Optymalizacja optymalizacji

wiedzy Sieci neuronowe (c.d.)

SZTUCZNA INTELIGENCJA

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Projekt Sieci neuronowe

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Inteligentne systemy przeciw atakom sieciowym

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

Wstęp do sieci neuronowych, wykład 8 Uczenie nienadzorowane.

SIECI REKURENCYJNE SIECI HOPFIELDA

Wprowadzenie do Sieci Neuronowych Laboratorium 05 Algorytm wstecznej propagacji błędu

I EKSPLORACJA DANYCH

SIECI NEURONOWE Liniowe i nieliniowe sieci neuronowe

Sieci jednokierunkowe wielowarstwowe typu sigmoidalnego

DEKOMPOZYCJA HIERARCHICZNEJ STRUKTURY SZTUCZNEJ SIECI NEURONOWEJ I ALGORYTM KOORDYNACJI

Metody Rozmyte i Algorytmy Ewolucyjne

WYKŁAD 4 PLAN WYKŁADU. Sieci neuronowe: Algorytmy uczenia & Dalsze zastosowania. Metody uczenia sieci: Zastosowania

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

METODY INTELIGENCJI OBLICZENIOWEJ wykład 5

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

Zrealizować sieć neuronową (learnbpm) uczącą się odwzorowania z = x 2 + y 2 dla x i y zmieniających się od -1 do 1.

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym

10. Techniki minimalizacji a sieci neuronowe

Optymalizacja ciągła

6. Perceptron Rosenblatta

PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH**

Algorytmy przeszukiwania w zastosowaniu do perceptrona wielowarstwowego

Algorytmy wstecznej propagacji sieci neuronowych

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Podstawy Sztucznej Inteligencji

WYKŁAD 9 METODY ZMIENNEJ METRYKI

Optymalizacja systemów

Sztuczne sieci neuronowe (SNN)

Temat: ANFIS + TS w zadaniach. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Lekcja 5: Sieć Kohonena i sieć ART

Aproksymacja funkcji a regresja symboliczna

ĆWICZENIE 5: Sztuczne sieci neuronowe

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

IX. Rachunek różniczkowy funkcji wielu zmiennych. 1. Funkcja dwóch i trzech zmiennych - pojęcia podstawowe. - funkcja dwóch zmiennych,

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2013/2014

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

SIEĆ NEURONOWA JAKO NARZĘDZIE APROKSYMACJI I KLASYFIKACJI DANYCH. Jakub Karbowski Gimnazjum nr 17 w Krakowie

Metody Optymalizacji: Przeszukiwanie z listą tabu

Sztuczne siei neuronowe - wprowadzenie

Metody sztucznej inteligencji

Wstęp do głębokich sieci neuronowych. Paweł Morawiecki IPI PAN

Jakość uczenia i generalizacja

Sieć Hopfielda. Sieci rekurencyjne. Ewa Adamus. ZUT Wydział Informatyki Instytut Sztucznej Inteligencji i Metod Matematycznych.

Programowanie celowe #1

Optymalizacja (minimalizacja) funkcji. Plan wykładu: 1. Sformułowanie problemu, funkcja celu. 2. Metody bezgradientowe

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Transkrypt:

Uczenie sieci typu MLP

Przypomnienie budowa sieci typu MLP

Przypomnienie budowy neuronu Neuron ze skokową funkcją aktywacji jest zły!!! Powszechnie stosuje -> modele z sigmoidalną funkcją aktywacji - współczynnik nastromienia. Im większy tym bardziej skokowa funkcja M aktywacji z wix i w0 1 i f1 z 1 exp z 2 3 1 f z tgh z f z 2f z 1

Różniczkowalność funkcji sigmoidalnej Pochodne funkcji aktywacji df 1 x dx 1 1 f x 1 f x df x 1 2 2 2 dx f x df 3 x dx 1 1 2 f x 1 f x

Trochę o uczeniu Uczenie sieci MLP to optymalizacja wartości wag w celu minimalizacji błędu popełnianego przez sieć. Funkcja celu - kryterium, według którego można oceniać dokonany wybór rozwiązania najlepszego spośród dopuszczalnych rozwiązań (wariantów), czyli jak dany system w procesie swego działania zbliża się do osiągnięcia wyznaczonego celu. Działając zgodnie z zasadami ekonomii (zasadą oszczędności i zasadą wydajności) dąży się każdorazowo do maksymalizacji lub minimalizacji funkcji celu w zależności od postawionego celu działania. Funkcja celu określa więc w sposób formalny zależność między celem systemu (firmy) a środkami służącymi do jego realizacji. wg. portalwiedzy.onet.pl Jak zdefiniować funkcję celu? Stosując metody gradientowe funkcja celu musi spełniać warunek różniczkowalności!!!

Funkcja celu Błąd średniokwadratowy dla sieci o M wyjściach M 1 E y 2 i di 2 y rzeczywista wartość i-tego wyjścia sieci d wyliczona wartość i-tego wyjścia sieci i1 Całkowita wartość funkcji celu po prezentacji n n M przypadków uczących 1 E ma postać y 2 i xj di xj 2 j1 i1

Inne odmiany funkcji celu Funkcja z normą L 1 M 1 E yi d 2 Minimalizacja wszystkich błędów równomiernie Funkcja z normą wyższych M rzędów i1 1 E yi d 2 i1 2 i i K Minimalizacja największych błędów (małe błędy stają się nie istotne)

Inne odmiany funkcji celu. CD. Kombinacja dwóch powyższych (Karayiannis): M M 1 E y d y d 2 2 1 i i i i i1 i1 Dla =1 -> minimalizacja błędu średniokwadratowego Dla =0 -> minimalizacja błędu zdefiniowanego przez funkcję W praktyce uczymy zaczynając od =1 i stopniowo w trakcie uczenia zmniejszamy do 0 1 a ln cosh a Dla dużych zachodzi (a)= a

Problem uczenia sieci MLP Jak dobrać odpowiednie wartości wag? Jak wyznaczyć błąd popełniany przez warstwy ukryte? Jak więc uczyć warstwy ukryte by minimalizować ów błąd? Jak określić kierunek zmian wartości wag, czy + czy -, o jaką wartość zmieniać wagi?

Metody optymalizacji Stochastyczne Monte carlo Algorytmy genetyczne Algorytmy ewolucyjne Gradientowe Największego spadku (reguła delta) 1 pw W k W k W W - współczynnik ucenia p(w) kierunek i wartość zmian wektora W

Algorytm wstecznej propagacji błędu 1. Analiza sieci neuronowej o zwykłym kierunku przepływu sygnałów. Podanie na wejście danego wektora x i i wyznaczenie odpowiedzi każdego z nauronów dla każdej z warstw (odpowiednio d i dla wyjściowej i s i dla ukrytej). 2. Stworzenie sieci propagacji wstecznej zamieniając wejścia sieci na jej wyjścia oraz zamieniając funkcje aktywacji neuronu na pochodne oryginalnych funkcji aktywacji. Na wejście sieci należy podać różnicę sygnałów wyjściowego i oczekiwanego (y i -d i ) 3. Uaktualnienie wag odbywa się na podstawie wyników uzyskanych w punkcie 1 i 2 wg. zależności 4. Opisany proces powatarzaj aż błąd nie spadnie poniżej wartości progowej <threshold

Żródło rysunku i wzorów: Ossowski, Sieci neuronowe w ujęciu algorytmicznym, WNT Trochę wzorów Funkcja celu uwzględniając dwie warstwy ukryte: v i wyjścia warstwy ukrytej, co dalej możemy zapisać jako Uwaga sumowanie po K od 0 bo zakładamy że nasz wektor ma postać x=[1 x 1 x 2 x N ] T i odpowiednio v=[1 v 1 v 2 v K ] T Uwaga N-wejść, K- neuronów ukrytych i M wyjść z sieci

Żródło rysunku i wzorów: Ossowski, Sieci neuronowe w ujęciu algorytmicznym, WNT Wzory cd. Zmaina wag warstwy wy. Gdzie przyjmując: y d (2) i i i df u du (2) i (2) i Ostatecznie zmianę wag dla wa-wy 2 możemy zapisać jako: Dla warstwy ukrytej (nr 1) zależność ta przyjmuje postać: Gdzie zmiana wag wynikająca z wa-wy wyj (2), zmiana wag z wa-wy ukrytej(1)

Wzory cd.. Uwzględniając poszczególne składniki otrzymujemy Co dla poniższych oznaczeń: Pozwala zapisać pochodną funkcji kosztu w warstwie ukrytej jako Ostatecznie zmiana wag realizowana jest -jako: wsp. uczenia Żródło rysunku i wzorów: Ossowski, Sieci neuronowe w ujęciu algorytmicznym, WNT

Problem minimów lokalnych Rys. M. Kordos Search-based Algorithms for Multilayer Perceptrons PhD

Żródło rysunku i wzorów: Ossowski, Sieci neuronowe w ujęciu algorytmicznym, WNT Różne wersje algorytmów algorytmy gradientowe W sąsiedztwie najbliższego rozwiązania rozwijają funkcję celu E(W) w szereg Taylora (najczęściej do pierwszych 3 składników) Gdzie: Oraz pochodnych macierz drugich p wektor kierunkowy liczenia pochodnych zależny od W Optymalne rozwiązanie gdy g(w k )=0 i H(W k ) jest dodatnio określona (wszystkie wartości własne macierzy H są > 0) lub

Inne metody optymalizacji Algorytm największego spadku (rozwinięcie tylko do pierwszej pochodnej) Algorytm zmiennej metryki (wykorzystanie kwadratowego przybliżenia funkcji E(W) w sąsiedztwie W k ) Algorytm Levenberga-Marquardta (najlepsza, zastąpienie H(W) przez aproksymację G(W) z reguloaryzacją)

Dobór współczynnika uczenia Stały współczynnik uczenia W praktyce jeśli jest stosowany to jest on wyznaczany niezależnie dla każdej warstwy (n i -liczba wejść i-tego neuronu) Adaptacyjny dobór wsp. Uczenia Przyjmując jako błąd uczenia oraz (i+1), i współczynniki uczenia w iterazji i oraz i+1 oraz odpowiednio błąd uczenia (i+1), i, k w dopuszczalny wzrost wartości wsp if then else Gdzie d <1 (np. 0.7) oraz i >1 (np. 1.05) Żródło rysunku i wzorów: Ossowski, Sieci neuronowe w ujęciu algorytmicznym, WNT

Dobór współczynnika uczenia (inne metody) Dobór wsp. uczania przez minimalizację kierunkową Reguła delta-bar-delta doboru wsp. uczenia

W praktyce zastosowanie Rys. metody M. Kordos Search-based wielostartu Algorithms for Multilayer Perceptrons PhD Inicjalizacja wag Inicjalizacja wag wpływa na rozwiązanie zależy w którym miejscu funkcji powierzchni funkcji celu zaczniemy optymalizację Losowa PCA

Metody optymalizacji globalnej Dotychczasowe metody mają charakter lokalny (optymalizujemy w obrębie najbliższych rozwiązań) Metody globalne patrzą na problem całościowy i całościowo optymalizują sieć. Optymalizacja globalna to metody optymalizacji stochastycznej symulowane wyżarzania, algorytmy genetyczne i ewolucyjne

Przykład symulowane wyżarzanie 1. Start procesu z rozwiązania początkowego W, temperatura T=T max 2. Dopóki T>0 wykonaj L razy Wybierz nowe rozwiązanie W w pobliżu W Oblicz funkcję celu =E(W )-E(W) Jeżeli <= 0 to W=W W przeciwnym przypadku (>0) jeżeli e - /T >R to W=W (gdzie R to liczba losowa z przedziału [0,1]) 3. Zredukuj temperaturę T=rT (r współczynnik redukcji z przedziału [0,1]) 4. Po redukcji temperatury T do 0 ucz metodą gradientową