SZTUCZNE SIECI NEURONOWE METODY HEURYSTYCZNE 4 KRYTERIA ZATRZYMANIA AE KRYTERIUM ZADOWALAJĄCEGO POZIO- MU FUNKCJI PRZYSTOSOWANIA

Podobne dokumenty
METODY INTELIGENCJI OBLICZENIOWEJ wykład 5

METODY HEURYSTYCZNE 4

SZTUCZNE SIECI NEURONOWE

METODY INTELIGENCJI OBLICZENIOWEJ wykład 4

SZTUCZNE SIECI NEURONOWE

OCENA DZIAŁANIA AE. METODY HEURYSTYCZNE wykład 4 LOSOWOŚĆ W AE KRZYWE ZBIEŻNOŚCI ANALIZA STATYSTYCZNA:

METODY HEURYSTYCZNE 5

METODY HEURYSTYCZNE wykład 5

METODY HEURYSTYCZNE wykład 5

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

Literatura. Sztuczne sieci neuronowe. Przepływ informacji w systemie nerwowym. Budowa i działanie mózgu

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Sztuczne sieci neuronowe

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Metody Sztucznej Inteligencji II

Podstawy Sztucznej Inteligencji (PSZT)

wiedzy Sieci neuronowe

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

synaptycznych wszystko to waży 1.5 kg i zajmuje objętość około 1.5 litra. A zużywa mniej energii niż lampka nocna.

Wstęp do teorii sztucznej inteligencji Wykład II. Uczenie sztucznych neuronów.

Obliczenia Naturalne - Sztuczne sieci neuronowe

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

8. Neuron z ciągłą funkcją aktywacji.

Sztuczne sieci neuronowe

Uczenie sieci neuronowych i bayesowskich

Wstęp do sztucznych sieci neuronowych

Podstawy sztucznej inteligencji

SIECI NEURONOWE Liniowe i nieliniowe sieci neuronowe

Elementy Sztucznej Inteligencji. Sztuczne sieci neuronowe cz. 2

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Uczenie sieci typu MLP

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

SIECI KOHONENA UCZENIE BEZ NAUCZYCIELA JOANNA GRABSKA-CHRZĄSTOWSKA

Inteligentne systemy przeciw atakom sieciowym

Sztuczna inteligencja

Sztuczne sieci neuronowe (SNN)

ELEMENTY SZTUCZNEJ INTELIGENCJI. Sztuczne sieci neuronowe

MODELOWANIE RZECZYWISTOŚCI

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;

Temat: Sieci neuronowe oraz technologia CUDA

Zastosowania sieci neuronowych

Zastosowania sieci neuronowych

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD X: Sztuczny neuron

Inteligentne systemy informacyjne

SIECI REKURENCYJNE SIECI HOPFIELDA

Elementy inteligencji obliczeniowej

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Sieć Hopfielda. Sieci rekurencyjne. Ewa Adamus. ZUT Wydział Informatyki Instytut Sztucznej Inteligencji i Metod Matematycznych.

ZACHODNIOPOMORSKI UNIWERSYTET TECHNOLOGICZNY W SZCZECINIE

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Sztuczne sieci neuronowe Ćwiczenia. Piotr Fulmański, Marta Grzanek

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

SZTUCZNA INTELIGENCJA

wiedzy Sieci neuronowe (c.d.)

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Sztuczne sieci neuronowe

Widzenie komputerowe

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

Wykład 1: Wprowadzenie do sieci neuronowych

ĆWICZENIE 5: Sztuczne sieci neuronowe

Sieci M. I. Jordana. Sieci rekurencyjne z parametrycznym biasem. Leszek Rybicki. 30 listopada Leszek Rybicki Sieci M. I.

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

BIOCYBERNETYKA SIECI NEURONOWE. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

Wstęp do teorii sztucznej inteligencji

2.4. Algorytmy uczenia sieci neuronowych

METODY INŻYNIERII WIEDZY

PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH**

HAŁASU Z UWZGLĘDNIENIEM ZJAWISK O CHARAKTERZE NIELINIOWYM

1. Logika, funkcje logiczne, preceptron.

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Sieć przesyłająca żetony CP (counter propagation)

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2013/2014

Uczenie Wielowarstwowych Sieci Neuronów o

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Metody sztucznej inteligencji

Podstawy Sztucznej Inteligencji Sztuczne Sieci Neuronowe. Krzysztof Regulski, WIMiIP, KISiM, B5, pok. 408

SIECI RBF (RADIAL BASIS FUNCTIONS)

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd.

Rozdział 1 Sztuczne sieci neuronowe. Materiały do zajęć dydaktycznych - na podstawie dokumentacji programu Matlab opracował Dariusz Grzesiak

6. Perceptron Rosenblatta

ESI: Perceptrony proste i liniowe

Sztuczne sieci neuronowe. Uczenie, zastosowania

Lekcja 5: Sieć Kohonena i sieć ART

Seminarium magisterskie. Dyskusja nad tematem pracy magisterskiej pisanej pod kierunkiem pani Dr hab. Małgorzaty Doman

Elementy kognitywistyki III: Modele i architektury poznawcze

Sieci neuronowe jako sposób na optymalizacje podejmowanych decyzji. Tomasz Karczyoski Wydział W-08 IZ

Optymalizacja ciągła

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

I EKSPLORACJA DANYCH

Zastosowania sieci neuronowych - automatyka identyfikacja sterowanie

SIEĆ NEURONOWA JAKO NARZĘDZIE APROKSYMACJI I KLASYFIKACJI DANYCH. Jakub Karbowski Gimnazjum nr 17 w Krakowie

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Sztuczne Sieci Neuronowe. Wiktor Tracz Katedra Urządzania Lasu, Geomatyki i Ekonomiki Leśnictwa, Wydział Leśny SGGW

Sieci neuronowe w Statistica

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD XI: Sztuczne sieci neuronowe

Wstęp do teorii sztucznej inteligencji

Transkrypt:

METODY HEURYSTYCZNE wykład 4 KRYTERIA ZATRZYMANIA AE KRYTERIUM MAKSYMALNEGO KOSZTU Algorytm kończy działanie, anie, jeśli koszt algorytmu przekroczy założon oną wartość maksymalną K max. Często przyjęta odmiana przyjęcie pewnej maksymalnej dopuszczalnej liczby pokoleń algorytmu. Φ t max t 3 Zatrzymanie działania ania gdy AE znajdzie rozwiązanie zanie o wartości funkcji przystosowania określonej przez użytkownika jako zadowalająca Φ s. Φ Φ s t 4 KRYTERIUM MIN. SZYBKOŚCI POPRAWY KRYTERIUM ZADOWALAJĄCEGO POZIO- MU FUNKCJI PRZYSTOSOWANIA Zwykle nie jest łatwo (bez dostatecznie dobrej znajo- mości funkcji przystosowa- nia) określi lić wartość zadowalającą. AE może e działać dowolnie długo (należy y dodatkowo określi lić maksymalny koszt znalezienia rozwiązania). zania). Algorytm jest zatrzymywany, jeśli w kolejnych τ oblicze- niach wartości funkcji przystosowania nie uda się poprawić wyniku o więcej niż ε. Często ε = 0 - algorytm zatrzymywany, jeśli nie uda się uzyskać lepszego rozwiązania zania w kolejnych τ pokoleniach. Φ ε τ min. szybkość poprawy t 5 SZTUCZNE SIECI NEURONOWE 6

HISTORIA SSN 7 Bernard Widrow i Ted Hoff (960) - neuron typu Adaline z liniową funkcją aktywacji oraz algorytm uczenia LMS (Least( Least Mean Square), zwany regułą delty lub regułą Widrowa-Hoffa Hoffa. John Hopfield (98) teoria pamięci asocjacyjnej, jako istoty działania ania sieci rekurencyjnych (sieci Hopfielda). Paul Werbos (974); David Rumelhart,, Geoffrey Hinton, Ronald Williams (986) - wsteczna propagacja błęb łędów (backpropagation) pozwala na rozwiązywanie zywanie problemów liniowo nieseparowalnych. 8 Komórki nerwowe (neurony) Synapsa - przekazuje sygnał między aksonem a dendrytem (każda komórka nerwowa posiada średnio kilka tysięcy synaps). Dendryty zbierają sygnały y z innych komórek nerwowych. Ciało o komórki agreguje sygnały y wejściowe i tworzy sygnał wyjściowy. Akson wyprowadza sygnał wyjściowy i przekazuje go dalej. 9 Chemiczno-elektryczne elektryczne przekazywanie sygnałów: Pod wpływem przychodzących cych bodźców w wydzielane sąs neuroprzekaźniki niki. Neuroprzekaźniki oddziałuj ują na błonb onę komórki zmieniając c jej potencjał elektryczny. 0 STATYSTYKA: Liczba komórek nerwowych w mózgu: m ok. 0 Połą łączeń nerwowych ok. 0 0 4 ; 0 ; Walter Pitts, Warren McCulloch (943) opraco- wanie matematyczne pojęcia sztucznego neuronu. Udowodnili też,, iżi ich wynalazek jest w stanie odzwier- ciedlić w swym działaniu aniu dowolną funkcję logiczną. Donald Olding Hebb (949) - zasada uczenia się Hebba (Hebbian learning) ) dla sztucznych sieci neuronowych (SSN). Frank Rosenblatt (958) pierwszy funkcjonujący cy model SSN (perceptron) oraz pierwszy z algorytmów uczenia SSN. Poszczególne synapsy różnir nią się wielkości cią oraz możli li- wości cią gromadzenia neuroprzekaźnik ników w pobliżu błony synaptycznej. Dlatego taki sam impuls na wejściu ciu komórki może e po- wodować inne jej pobudzenie niż dla innego wejścia. Częstotliwo stotliwość biologicznego neuronu ok. kilkaset Hz. ZALETY SSN: Nie wymagają programowania (tylko uczenie); Mają zdolność uogólniania lniania; Są wysoce odporne na szumy i zniekształcenia sygnału; Pomagają wykrywać istotne powiązania pomiędzy danymi. Stosuje się je gdy istnieje duża a złożonoz onośćść zagadnienia i trudno jest jednoznacznie określi lić formalne kryteria,, dla stworzenia programu komputerowego.

KLASY ZASTOSOWAŃ: PREDYKCJA ze znajomości: przewidzieć : { f ( x ), f ( x ),..., f ( x )} f ( x n+ ) n k n k+ n KLASYFIKACJA I ROZPOZNAWANIE WZORCÓW Zaszeregowanie danych wejściowych do jednej z klas: bez jawnego definiowania związku zku między danymi wejściowymi a wyjściowymi 3 np. sieć pozwala na podstawie danych bilansowych stwierdzić,, czy dane przedsiębiorstwo należy y do zwyżkuj kujących gospodarczo, czy przeżywa stagnację czy też grozi mu regres. 4 APROKSYMACJA (interpolacja, ekstrapolacja) ze znajomości: odtworzyć: { x, f ( x )} i f ( x) i STEROWANIE ASOCJACJA Podanie danego wzorca na wejście powinno powodować pojawienie się odpowiadającego mu wzorca na wyjściu. KOJARZENIE DANYCH automatyzacja procesów w wnioskowania i wykrywanie istotnych powiąza zań między danymi. 5 6 FILTRACJA SYGNAŁÓW PRZYKŁADOWE ZASTOSOWANIA: OPTYMALIZACJA statyczna i dynamiczna, optymalizacja kombinato-ryczna i zagadnienia bardzo trudne obliczeniowo. 7 8

NIE NADAJĄ SIĘ DO: Perceptron (Rosenblatt 958): Przetwarzania informacji symbolicznej (np. edytory tekstu); Obliczeń o wymaganej wysokiej dokładno adności (sieć pracuje jakościowo, dając c wyniki przybliżone); Rozwiązywania zywania zagadnień,, gdzie rozumowanie jest przeprowadzanie wieloetapowo (a musi być udokumentowane). Układ posiadający wiele wejść i jedno wyjście: Wejście: n stanów wejsciowych x,...,x n Wyjście: 0 (-)) lub 9 Uwaga: pod pojęciem perceptronu rozumie się też czasem siec połą łączonych jednostek (neuronów). 0 Sprzętowo: Pojedynczy perceptron pozwala na: przetwarzanie jednostkowych informacji; podejmowanie prostych decyzji; przekazywanie wyników w sąsiadom. s siadom. Dopiero w połą łączeniu z innymi węzłami w uzyskuje się zdolność podejmowania złożonych z onych decyzji. Sygnał wyjściowy y i i-tego neuronu liniowego: w ij x j N y waga dla i ij j j= 0 dla j-ego ego wejścia i-tegotego neuronu; j-tyty sygnał wejściowy ciowy; liczba wejść w i-tym N = wx tym neuronie. Sygnał wyjściowy y i i-tego neuronu (ogólnie) lnie): N yi = ϕ( e) = ϕ wijx j + B j= e łączne pobudzenie neuronu (net value); ϕ funkcja aktywacji; W B próg (bias). neuronie liniowym e jest sygnałem wyjściowym UCZENIE SIECI NEURONOWYCH Uczenie zamiast programowania. Ta sama sieć może e służyćs do rozwiązywania zywania skrajnie różnych zadań. Uczenie sieci: Wymuszanie określonego lonego reagowania sieci na zadane sygnały y wejściowe (poprzez odpowiedni dobór r wag). Uczenie sieci: uczenie z nauczycielem (nadzorowane); uczenie z krytykiem; uczenie bez nauczyciela (nienadzorowane).). 3 Uczenie z nauczycielem (supervised learning) Podawanie sieci zestawów w sygnałów w WE wraz z prawidłowym sygnałem WY. Naśladowanie nauczyciela,, jakim jest ciąg uczący cy (podejście szkolne ). Zestawy sygnałów w (zwykle) powtarza się wielokrotnie, zaś sieć modyfikuje wagi na wejściach tak, by zmini- malizować błąd. Zmiana wagi na i-tym wejściu neuronu po pokazaniu j-ego obiektu uczącego cego jest proporcjonalna do popełnianego na tym etapie błęb łędu δ ( j ). 4

UCZENIE PERCEPTRONU: Sieć dwuwarstwowa wielokąty wypukłe e (simpleksy( simpleksy): Pojedynczy neuron (lub warstwa neuronów) typu per- ceptronowego jest w stanie rozdzielić przestrzeń obszarów wejściowych granicą decyzyjną na obszary (półprzestrzenie). zmienne prosta; ogólnie hiperpłaszczyzna aszczyzna. Sieci trzy- i więcej warstwowa dowolne obszary (w tym wielokąty niewypukłe i obszary wielospójne). 5 6 Perceptron może e prawidłowo klasyfikować sygnały, y, jeśli są liniowo separowalne: Poprawka wartości wagi dla perceptronu w j-ym kroku (regu( reguła a delta): w =ηδ x ( j) ( j) ( j) i i δ = z y ( j) ( j) ( j) 7 z wymagana odpowiedź neuronu; y uzyskana odpowiedź neuronu; x dana wejściowa dla i-tego wejścia; η - współczynnik uczenia (learning rate). 8 Waga: - dodatnia - sygnał pobudzający cy; - ujemna sygnał gaszący cy; - 0 - brak połą łączenia między neuronami. FUNKCJA AKTYWACJI Wartość f. aktywacji sygnał wyjściowy neuronu. liniowa f. aktywacji; nieliniowa f. aktywacji: Sygnały y wyjściowe: 0, (funkcje unipolarne) -, (funkcje bipolarne). 9 - f. skoku jednostkowego (progowa), np.: { gdy e ϕ ( e) = 0 0 gdy e< 0 - inna, np. typu sigmoidalnego (f. logistyczna): ϕ ( e) = + exp( β e) β współczynnik sterujący nachyleniem krzywej 30

WYMAGANE CECHY F. AKTYWACJI: Ciągłe e przejście pomiędzy wartości cią maksymalną a minimalną. Łatwa do obliczenia i ciągła a pochodna np. dla f. sigmoidalnej: ϕ ( e) = + exp( β e) WSPÓŁCZYNNIK β beta= 0.5 beta=0.5 beta= 0-0 -5 0 5 0 [ ] ϕ '( e) = β ϕ( e) ϕ( e) Możliwo liwość wprowadzenia do argumentu parametru β do ustalania kształtu tu krzywej. 3 BIAS 0.5 3 0-0 -5 0 5 0 bias=0 bias=- bias= 3 Bipolarny odpowiednik f. sigmoidalnej: exp( β e) exp( β e) ϕ ( e) = = tgh( β e) exp( βe) + exp( βe) [ ] [ ] ϕ'( e) = β + ϕ( e) ϕ( e) SIEĆ NEURONOWA: - układ połą łączonych neuronów (model warstwowy) 0.5 Sieć jednowarstwowa Sieć wielowarstwowa 0-0.5 - -0-5 0 5 0 beta=0.5 33 Sieć wielowarstwowa min. jedna warstwa ukryta. Zwykle: kilka warstw, połą łączenia każdy z każdym (min. liczba parametrów w do opisu). 34 RODZAJE NEURONÓW: warstwy WE (nie liczona); warstw ukrytych: efekty działania ania obserwowane pośrednio poprzez WY; pośredniczenie między WE a WY; niemożno ność dokładnego obliczenia błęb łędów; warstwy WY (rozwiązania zania stawianych zadań). Pamięć neuronu reprezentowana poprzez wagi. Sieć działa a jako całość ść. 35 Projektowanie sieci - problemy: ile warstw ukrytych? ile neuronów w w warstwach? Liczba neuronów w w warstwie WE: zależy y od liczby danych podawanych na wejście. Liczba neuronów w w warstwie WY: zależy y od liczby poszukiwanych rozwiąza zań. Sieć z warstwą ukrytą powinna nauczyć się roz- wiązywania większo kszości postawionych problemów. Zbyt wiele warstw ukrytych pogorszenie procesu uczenia (algorytm grzęźnie w szczegółach ach ). ). 36

Nieznane sąs problemy wymagające sieci z więcej niż 3 warstwami ukrytymi (zwykle lub ). Liczbę neuronów w w warstwie ukrytej można próbowa bować oszacować: Nu = Nwe Nwy Np Np.(L. Rutkowski, Metody i techniki sztucznej inteligencji, PWN, W-wa 006): Ciąg g uczący: cy: Wejście x 0 Oczekiwane wyjście d=f(x) [ ] y = sin( x), x 0, π 3 4 5 6 7 8 9 0 3 4 5 π π π 7π 4π 5π 5π π 3π 5π π 7π π π 6 3 4 6 3 4 6 3 4 3 6 4 3 3 0 0.5 0 0-0.5 3 3 Zwykle: : uczenie z początkowo małą liczbą neuronów w i stopniowe zwiększanie ich liczby. Zbyt wiele elementów w warstwy ukrytej: uczenie się na pamięć ęć. 37 3 5 38 Przykład: Rozpoznawanie znaków alfabetu WE - 35 (pikseli) WY -6 (liter) a co wewnątrz? Wstępnie pnie: 35 4 6 39 Ostatecznie: 35 9 6 40 Zwykle: : uczenie z początkowo małą liczbą neuronów i stopniowe zwiększanie ich liczby. Zbyt mało neuronów w w warstwie ukrytej sieć nie potrafi poprawnie odwzorować funkcji. UCZENIE SIECI NIELINIOWYCH Uczenie sieci minimalizacja funkcji błęb łędu. Zbyt wiele elementów w warstwy ukrytej: wydłużenie procesu uczenia; uczenie się na pamięć ęć (szczególnie, lnie, gdy liczba próbek w ciągu uczącym cym jest niewielka) - sieć poprawnie rozpoznaje tylko sygnały y zgodne z tymi w ciągu uczącym cym ( brak generalizacji przy dobrej interpolacji). 4 minimalizacja funkcji błęb łędu Zwykle gradientowe metody optymalizacji (np. metoda największego spadku). Warunek funkcja aktywacji jest ciągła. 4

Poprawka wartości wagi: w =ηδ dϕ( e) x de ( j ) ( j) ( j) i ( j) i j numer kroku uczenia; Funkcja logiczna XOR Schemat sieci: - - Jeśli neuron nie popełnia błęb łędu wagi nie sąs zmieniane. Poprawka wagi na WE jest tym większa, im większy jest błąd d na WY. Poprawka wagi na i-tym WE jest proporcjonalna do wielkości sygnału u na tym wejściu (x( i ). 43 Ciąg uczący cy: WE WE WY 0 0 0 0 0 0 Ciąg weryfikujący (np( np): WE WE 0.05 0.05 0.95 0.05 0.05 0.95 0.95 0.95 44 Rozpoznawanie znaków w X, 0, +, - Ciąg uczący cy: Wektor WE Wektor WY 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Nauczona sieć rozpoznaje symbole zniekształcone: Matryca znaków Liniowe rozwinięcie i zamiana na wektor WE Schemat sieci: 9-5 - 4 45 46 FILTROWANIE SYGNAŁÓW WE - wzorce sygnałów zaszumionych; WY sygnały y czyste np. sinus : WE WY Okolice zera mała a wartość sygnału u (trudno( trudności). Rozwiązanie zanie przesunięcie sygnału: Z: R. Tadeusiewicz: Elementarne wprowadzenie do techniki sieci neuronowych...,, PLJ, Warszawa, 998! 47 Z: R. Tadeusiewicz: Elementarne wprowadzenie do techniki sieci neuronowych...,, PLJ, Warszawa, 998 48

WSPÓŁCZYNNIK UCZENIA η learning rate Wartości: w przedziale 0.0 5.0 (typowo 0.8.0.0) METODA MOMENTUM (ang. pęd) p Nadanie uczeniu pewnej bezwładno adności; Zwiększenie szybkości uczenia bez zaburzenia stabilności algorytmu; bez wsp. momentum zbyt mały powolne uczenie sieci; zbyt duży gwałtowne zmiany parametrów w sieci. 49 wsp. momentum = 0.5 50 Dodatkowy składnik: zmiany wag zależą od błęb łędów aktualnych i poprzednich. JAK DŁUGO D UCZYĆ SIEĆ? η dϕ ( e) w = ηδ x + η w de ( j) ( j) ( j) ( j ) i ( j ) i i wartości w przedziale 0 0 (cz( często 0.9 ). Wagi: wartości początkowe zwykle losowo, często z zakresu -0., 0. (najlepiej bez zera). Liczba prezentacji ciągu uczącego cego konieczna do nauczenia sieci: prognozowanie finansowe: 0 9 synteza mowy: 0 0 0 rozpoznawanie mowy lub pisma odręcznego: 0 rozpoznawanie znaków Kanji: 0 0 3 0 5 5 Uważa a się,, iżi czas uczenia sieci rośnie wykład ad- niczo wraz ze wzrostem liczby elementów w sieci. Korzystne jest pokazywanie elementów w ciągu uczącego cego w różnej r kolejności ci. Zbyt długie d uczenie również może e skutkować utratą zdolności uogólniania: Malenie błęb łędu jest różne r dla różnie r wylosowanych wag początkowych (dla( tej samej sieci): 53 Ghaboussi, CISM 007 54

UCZENIE WARSTW UKRYTYCH Bezpośrednie wyznaczenie błęb łędów nie jest możliwe (sygnałów w WY z warstwy ukrytej nie ma z czym porówna wnać). Metoda wstecznej propagacji błęb łędów (backpropagation): Zmiana wagi jak przy sieci jednowarstwowej; Obliczanie δ sumowanie błęb łędów w z następnej warstwy Błędy w warstwach ukrytych sąs wyznaczane w sposób b przybliżony. 55 δ n ( j ) ( k) ( j) ( j ) m = w m δ k k = m numer neuronu w warstwie ukrytej n liczba neuronów w w warstwie następnej k; j numer kroku uczenia; ( j ) δ m ( j ) δ k błąd d popełniany przez neuron m; błąd d popełniany przez neuron w warstwie k ( j ) k k k 3 k n kn m δ ( j ) m δ ( kn )( j) w m znane nieznane obliczanie błęb łędów w warstwie WY; obliczanie błęb łędów w warstwie poprzedniej; itd. aża do warstwy pierwszej. 56 Uczenie z krytykiem (reinforcement learning): Odmiana uczenia nadzorowanego. Nauczyciel nie dysponuje pełną wiedzą na temat wszystkich prawidłowych odpowiedzi. Zamiast informacji o pożą żądanym WY, sieć dysponuje jedynie oceną efektu swego działania ania w ramach dwóch prostych kategorii. Ocena wzmocnienie (pozytywne lub negatywne) odpowiednie zmiany wag. 57 Uczenie z krytykiem (reinforcement learning): Optymalizacja zysków w na dłuższą metę. Np.: gry z przeciwnikiem, krytyką jest przegrana lub wygrana na końcu partii. Uczenie z krytykiem lub z wzmocnieniem pożą żądanych zachowań po dłuższym d okresie. Uczenie dojrzałe (nabieranie mądrości ). Bardziej uniwersalne w zastosowaniu podejście do problemu. Praktyczna realizacja jest bardziej skomplikowana. 58 Uczenie bez nauczyciela (unsupervisedupervised learning) Pożą żądana odpowiedź nie jest znana. Sieć uczy się poprzez analizę reakcji na pobudzenia; samoorganizacja struktury wszelkie regularności ci, linie podziału i inne charakterystyki danych wejściowych sieć musi wykryć sama. Zdolności do wykrywania skupisk obrazów wejścio cio-wych są wykorzystywane do ich klasyfikacji,, gdy klasy nie sąs z góry g ustalone. 59 Uczenie bez nauczyciela (unsupervisedupervised learning) Sieci pokazuje się kolejne przykłady bez określenia enia,, co trzeba z nimi zrobić. Donald Hebb (fizjolog i psycholog) w umyśle za- chodzą procesy wzmacniania połą łączeń między neuro- nami,, jeśli i zostały y one pobudzone jednocześnie. nie. Różne pobudzenie różnych r neu- ronów - połą łączenia między źródłami silnych sygnałów a neuronami, które na nie reagują są wzmacniane. W sieci stopniowo powstają wzorce poszczególnych typów sygnałów w rozpoznawane przez pewną część neuronów. Uczenie spontaniczne,, odkrywanie ciekawych struktur w przestrzeni danych, korelacja zachowań systemu ze zmianą tych struktur dominuje w okresie niemowlęcym cym. 60

Uczenie bez nauczyciela - wady SAMOUCZENIE SIECI Zwykle powolniejsze. Nie wiadomo, który neuron będzie b rozpoznawał jaki sygnał. Część sygnałów w może e być rozpoznawana przez więcej niż jeden neuron. Cała a wiedza, jaką sieć może e zdobyć jest zawarta w obiektach pokazywanych (muszą zawierać klasy podobieństwa stwa). Nie mogą to być obiekty całkiem przypadkowe, ale tworzyć skupiska wokół pewnych ośrodko rodków. Proces samouczenia utrwala i pogłę łębia wrodzone zdolności neuronów. 6 6 SAMOUCZENIE SIECI: Ciąg g uczący: cy: { () () ( N ) U = X, X,... X } X (j ) n-wymiarowy wektor danych wejściowych w j-ym kroku uczenia N liczba posiadanych pokazów. Reguła a uczenia dla m-tego neuronu w j-ym kroku: gdzie: w = w + ηx y ( m)( j+ ) ( m)( j) ( m) ( j) i i i m n ( j) ( m)( j) ( j) m = i i i= y w x 63 w = w + ηx y ( m)( j+ ) ( m)( j) ( m) ( j) i i i m n ( j) ( m)( j) ( j) m = i i i= y w x Część sygnałów w może nie być rozpoznawana przez ża- den neuron (sieć musi być większa niż przy nauczycielu zwykle przynajmniej 3 razy). Wielkość zmiany wagi liczona na podstawie iloczynu sygnału u na odpowiednim wejściu przez sygnał wyjściowy neuronu. Uczenie to zwie się też korelacyjnym zmierza do ta- kiego dopasowania wag, by uzyskać najlepszą kore- lację między sygnałami ami WE a zapamiętanym (w formie wag) wzorcem sygnału, na który dany neuron ma reagować. 64 KONKURENCJA W SIECIACH SAMOUCZĄCYCH CYCH WTA (Winner Takes All) - zwycięzca zca bierze wszystko: Najlepszy neuron niezerowa wartość sygnału u WY (zwykle ); Pozostałe e wyjścia sąs zerowane; Tylko najlepszy neuron jest uczony. Zasada WTA daje jednoznaczną odpowiedź sieci (co niekoniecznie musi być zaletą). Wszystkie sygnały y mniejsze niż ustalony próg brak rozpoznania. 65 Efekty: Neuron, który raz wygrał przy pokazaniu danego wzorca dalej będzie b wygrywał. Samouczenie jest skuteczniejsze i efektywniejsze (każdy neuron rozpoznaje jeden obiekt, pozostałe e neurony pozostają niezagospodarowane). Wysoce prawdopodobne jest, iż: i - nie będzie b grup neuronów w rozpoznających ten sam wzorzec; - nie będzie b klas nierozpoznanych przez żaden neuron. Niezagospodarowane neurony sąs gotowe rozpoznawać nowe wzorce. Po wykorzystaniu wszystkich neuronów w i pojawieniu się nowego wzorca przeciąganie którego regoś z neuronów w w jego stronę: 66

SIECI SAMOORGANIZUJĄCE SIĘ (Teuvo Kohonen) 67 Analiza skupień w analizy ekonomicznej (np. podobieństwo przedsiębiorstw rentowność ść). Kolektywność to co rozpoznaje neuron zależy w dużej mierze od tego, co rozpoznają inne neurony. Sąsiedztwo znaczenie ma wzajemne położenie neuronów w w warstwach. Zwykle sąsiedztwo s siedztwo -wymiarowe neurony w węzłach w regularnej siatki (ka( każdy neuron ma min. 4 sąsiads siadów). 68 Przykładowe sąsiedztwa: s siedztwa: Rozszerzone sąsiedztwo: siedztwo: Rozbudowane sąsiedztwo: siedztwo: Jednowymiarowe sąsiedztwo: siedztwo: 69 70 Gdy w procesie uczenia który ryś neuron zwycięż ęża: uczy się też (w w mniejszym stopniu) ) jego sąsiads siadów (niezależnie od ich wag początkowych! tkowych!). Neurony sąsiadujs siadujące rozpoznają sygnały z sąsiadujs siadujących podobszarów: 7 Tworzą odwzorowania sygnałów w WE w sygnały y WY, spełniaj niające pewne ogólne kryteria (nie zdeterminowa- ne przez twórc rcę ani użytkownika u sieci) samoorganizacja sieci. Inny (wy( wyższy) ) sposób samouczenia,, wprowadzający efekty koherencji i kolektywności. Koherencja (słown.. spójno jność,, spoistość ść, łączno czność) - sieć grupuje dane wejściowe wg wzajemnego podobień- stwa wykrywa automatycznie obiekty podobne do siebie nawzajem i inne od innych grup obiektów. Skutek: Sygnały y równomiernie r rozmieszczone w pewnym obsza- rze neurony zostają tak nauczone, by każdy podobszar sygnałów w był rozpoznawany przez inny neuron. 7

Po wytrenowaniu każdej praktycznej sytuacji odpowiada neuron, który jąj reprezentuje. Sąsiedztwo powoduje wykrywanie sytuacji podobnych do prezentowanych. W sieci powstaje wewnętrzny obraz świata zewnętrznego trznego. Sygnały y blisko siebie będąb wykrywane przez leżą żące blisko siebie neurony. Przykładowe zastosowania: robot dostosowujący zachowanie do zmiennego środowiska; systemy bankowe stworzenie modelu wiarygodnego kredytobiorcy. 73 SIECI REKURENCYJNE Zawierają sprzęż ężenia zwrotne: Po jednorazowym podaniu sygnału u WE długotrwały proces zmiany sygnału u WY, w efekcie stan równowagir wnowagi. 74 Waga sprzęż ężenia dodatnia sygnał zmienia się jednokierunkowo (aperiodycznie); Waga sprzęż ężenia ujemna sygnał zmienia się oscylacyjnie; Przy neuronach nieliniowych możliwe chaotyczne błądzenie sygnałów; Zachowania: stabilne (zbieganie( się sygnałów w do określonej wartości ci); niestabilne (warto( wartości sygnału u coraz większe ksze). Zastosowania: zadania optymalizacji (stany( stany równowagi r odpowiadają rozwiązaniom zaniom zadań); pamięci skojarzeniowe (drobny( drobny fragment informacji pozwala odtworzyć całą informację). 75 SIECI HOPFIELDA Każdy neuron jest związany zany z każdym innym na zasadzie obustronnego sprzęż ężenia zwrotnego. Zabroniono sprzęż ężeń zwrotnych obejmujących pojedynczy neuron. w Symetria współczynnik czynników w wagowych: xy =w yx X Y Skutek: zachodzące ce procesy sąs zawsze stabilne. w yx w xy 76