Neuron liniowy. Najprostsza sieć warstwa elementów liniowych

Podobne dokumenty
Neural networks. Krótka historia rozpoznawanie znaków alfanumerycznych.

Nowoczesne technk nformatyczne - Ćwczene 2: PERCEPTRON str. 2 Potencjał membranowy u wyznaczany jest klasyczne: gdze: w waga -tego wejśca neuronu b ba

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

Sieć przesyłająca żetony CP (counter propagation)


Wykład 2: Uczenie nadzorowane sieci neuronowych - I

Zestaw zadań 4: Przestrzenie wektorowe i podprzestrzenie. Liniowa niezależność. Sumy i sumy proste podprzestrzeni.

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

Nieeuklidesowe sieci neuronowe

Pokazać, że wyżej zdefiniowana struktura algebraiczna jest przestrzenią wektorową nad ciałem

Diagnostyka układów kombinacyjnych

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Rozwiązywanie zadań optymalizacji w środowisku programu MATLAB

Diagonalizacja macierzy kwadratowej

Wprowadzenie do Sieci Neuronowych Algorytm wstecznej propagacji błędu

Wstęp do metod numerycznych Faktoryzacja SVD Metody iteracyjne. P. F. Góra

Sztuczne sieci neuronowe

SZTUCZNA INTELIGENCJA

Sieci Neuronowe 1 Michał Bereta

Plan wykładu. Sztuczne sieci neuronowe. Neuronu dyskretny. Neuron dyskretny (perceptron prosty)

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

Systemy Inteligentnego Przetwarzania wykład 3: sieci rekurencyjne, sieci samoorganizujące się

Metody gradientowe poszukiwania ekstremum. , U Ŝądana wartość napięcia,

SYSTEMY UCZĄCE SIĘ WYKŁAD 5. LINIOWE METODY KLASYFIKACJI. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

5. Maszyna Turinga. q 1 Q. Konfiguracja: (q,α β) q stan αβ niepusta część taśmy wskazanie położenia głowicy

MATEMATYKA POZIOM ROZSZERZONY Kryteria oceniania odpowiedzi. Arkusz A II. Strona 1 z 5

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

Definicje ogólne

Modelowanie i obliczenia techniczne. Metody numeryczne w modelowaniu: Optymalizacja

EKONOMETRIA I Spotkanie 1, dn

Odtworzenie wywodu metodą wstępującą (bottom up)

Zaawansowane metody numeryczne

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

I. Elementy analizy matematycznej

dy dx stąd w przybliżeniu: y

SZTUCZNA INTELIGENCJA

Wprowadzenie do Sieci Neuronowych Sieci rekurencyjne

synaptycznych wszystko to waży 1.5 kg i zajmuje objętość około 1.5 litra. A zużywa mniej energii niż lampka nocna.

p Z(G). (G : Z({x i })),

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

SYSTEMY UCZĄCE SIĘ WYKŁAD 15. ANALIZA DANYCH WYKRYWANIE OBSERWACJI. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Różniczkowalność, pochodne, ekstremum funkcji. x 2 1 x x 2 k

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

CAŁKOWANIE NUMERYCZNE całki pojedyncze

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;

Proces narodzin i śmierci

Laboratorium ochrony danych

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

8. Neuron z ciągłą funkcją aktywacji.

V. WPROWADZENIE DO PRZESTRZENI FUNKCYJNYCH

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Lekcja 5: Sieć Kohonena i sieć ART

Badania sondażowe. Braki danych Konstrukcja wag. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada. Zajęcia 3

Wykład 2. Model Neuronu McCulocha-Pittsa Perceptron Liniowe Sieci Neuronowe

Oligopol dynamiczny. Rozpatrzmy model sekwencyjnej konkurencji ilościowej jako gra jednokrotna z pełną i doskonalej informacją

KONSPEKT WYKŁADU. nt. METODA ELEMENTÓW SKOŃCZONYCH TEORIA I ZASTOSOWANIA. Piotr Konderla

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Podstawy teorii falek (Wavelets)

architektura komputerów w. 3 Arytmetyka komputerów

Optymalizacja ciągła

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

Wykład Turbina parowa kondensacyjna

OGÓLNE PODSTAWY SPEKTROSKOPII

Sztuczna inteligencja

Modele wieloczynnikowe. Modele wieloczynnikowe. Modele wieloczynnikowe ogólne. α β β β ε. Analiza i Zarządzanie Portfelem cz. 4.

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Natalia Nehrebecka. Wykład 2

SIECI NEURONOWE Liniowe i nieliniowe sieci neuronowe

SIECI KOHONENA UCZENIE BEZ NAUCZYCIELA JOANNA GRABSKA-CHRZĄSTOWSKA

Twierdzenie Bezouta i liczby zespolone Javier de Lucas. Rozwi azanie 2. Z twierdzenia dzielenia wielomianów, mamy, że

SZTUCZNA INTELIGENCJA

Natalia Nehrebecka. Dariusz Szymański

wiedzy Sieci neuronowe

Metody Sztucznej Inteligencji II

Metody Numeryczne 2017/2018

wiedzy Sieci neuronowe (c.d.)

Sieci Neuronowe 2 Michał Bereta

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Elementy Sztucznej Inteligencji. Sztuczne sieci neuronowe cz. 2

liniowym w przeciwnym przypadku mówimy o programowaniu nieliniowym.

Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

Hipotezy o istotności oszacowao parametrów zmiennych objaśniających ˆ ) ˆ

Pattern Classification

ZASADA ZACHOWANIA MOMENTU PĘDU: PODSTAWY DYNAMIKI BRYŁY SZTYWNEJ

SYSTEMY UCZĄCE SIĘ WYKŁAD 7. KLASYFIKATORY BAYESA. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Statystyka Inżynierska

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Podstawy Sztucznej Inteligencji Sztuczne Sieci Neuronowe. Krzysztof Regulski, WIMiIP, KISiM, B5, pok. 408

METODY INTELIGENCJI OBLICZENIOWEJ wykład 5

Transkrypt:

Najprostsza jest jednostka lnowa: Neuron lnowy potraf ona rozpoznawać wektor wejścowy X = (x 1, x 2,..., x n ) T zapamętany we współczynnkach wagowych W = (w 1, w 2,..., w n ), Zauważmy, że y = W X Załóżmy, że wektor wejścowy wektor wag są znormalzowane X = 1 W = 1 wówczas wdać, że y = cos(φ) x 1 w 1 x 2 w 2. y.. x n w n Sec neuropodobne II, sec lnowe 2 Najprostsza seć warstwa elementów lnowych y 1 y 2 y k w (1) 1, w(1) 2,..., w(1) n w (2) 1, w(2) 2,..., w(2) n... w (k) 1, w(k) 2,..., w(k) n x 1 x 2... x n warstwa zawera k neuronów każdy neuron ma ten sam zestaw sygnałów wejścowych X = (x 1, x 2,..., x n ) T każdy neuron ma swój własny wektor wag W (m) = (w (m) 1, w (m) 2,..., w (m) wyjśce m-tego elementu można zapsać: y (m) = W (m) X = Na dzałane tej sec można patrzeć jak na: Grandmother Cell fltr lnowy n =1 w (m) x n )

Warstwa elementów lnowych realzuje odwzorowane lnowe Wyjśce sec zberzemy w wektor Y = (y 1, y 2,..., y k ) T w (1) 1 w (1) 2... w n (1) w (2) 1 w (2) 2... w (2) n Z wektorów wag zbudujemy macerz k n] W =... w (k) 1 w (k) 2... w n (k) Wdać, że Y = W X, czyl nasza warstwa dokonuje pewnego przekształcena lnowego X R n w Y R k zadanego macerzą W. Problem: jak znaleźć macerz W dla konkretnego odwzorowana? Sec neuropodobne II, sec lnowe 4 Uczene pojedynczego neuronu reguła delta Reguła delta jest przykładem uczena z nauczycelem. Zamast znajdować macerz W od razu można ją znaleźć teracyjne w procese uczena sec. Jeśl dla każdego wektora wejścowego X umemy podać porządaną wartość wyjśca neuronu z, to możemy oblczyć błąd jak ten neuron popełnł: δ = z y Okazuje se, że aby neuron lepej realzował nasze odwzorowane, należy skorygować jego wag w następujący sposób: Dlaczego? W = W + ηδx Dlaczego dodawać fragment wejśca X do wektora wag W? dlaczego δ? dlaczego η

Dowód zbeżnośc reguły delta (1) W procese uczena posługujemy sę cagem par {(X (j), z (j) )} j=1,..n opsującym wejśce rządane wyjśce sec. W j tym kroku seć popełna błąd δ (j) = z (j) y (j) gdze y (j) = W (j) X (j). Celem uczena jest jak najlepsze odtwarzane przez seć cągu uczącego w sense najmnejszych kwadratów, czyl mnmalzacja funkcj: Q = 1 N ( δ (j)) 2 1 N = (z (j) y (j)) 2 N = Q (j) 2 2 j=1 j=1 gdze wprowadzlśmy: Q (j) = 1 2 ( z (j) y (j)) 2 j=1 Sec neuropodobne II, sec lnowe 6 Dowód zbeżnośc reguły delta (2) Poneważ Q = Q(W ) węc w j tym kroku uczena musmy zmenać tą składową wektora wag w kerunku przecwnym do gradentu Q: w (j+1) w (j) = w (j) = Q(j) w = Q(j) y (j) = δ (j) x (j) y (j) w {}}{{}}{ Q (j) ( y = z (j) y (j)) = δ (j) y (j) = x (j) (j) w ostateczne: w (j) = δ (j) x (j) Poneważ Q jest unmodalną parabolodą elptyczną, węc ma jedno mnmum, a węc procedura mnmalzacj gradentowej jest zbeżna. Poneważ cąg uczący jest stochastyczny, węc dla zapewnena płynnejszej zbeżnośc szybkość zmany wektora wag jest kontrolowana przez parametr 0 < η < 1: w (j) = ηδ (j) x (j) Z powodów praktycznych stotne jest aby,j w (0) w (0) j. Dla lnowego odwzorowana y = f(x) mamy zagwarantowane, że znajdzemy W zapewnające dokładne dopasowane, zaś dla f nelnowego osągnemy najlepsze dopasowane w sense mnmum błędu średnokwadratowego.

Reguła delta: uwag Jak wpływa dobór cągu uczącego na to, czego seć sę nauczyła? Jeśl cąg uczący rozpna przestrzeń możlwych wejść, to seć dąży do globalnego mnmum. Jeśl w przestrzen możlwych wejść stneje podprzestrzeń ortogonalna do podprzestrzen wzorców w cągu uczącym, to seć dąży do mnmum parabolcznej rynny. Jak szybka jest zbeżność od czego zależy? Kolejne trajektore dla: η = 0.2, η = 0.0476, η = 0.049, η = 0.0505. Powerzchna: E = x 2 + 20y 2 Sec neuropodobne II, sec lnowe 8 Uczene sec elementów lnowych Reguła delta przenos sę w naturalny sposób na seć elementów lnowych w postac warstwy: w cągu uczącym {(X (j), Z (j) )} j=1,..n zamast wartośc z podajemy wektor wartośc porządanych Z zamast modyfkować wektor wag, modyfkujemy macerz wag W W (j+1) k = W (j) k + η (Z (j) Y (j)) ( X (j)) T Sec lnowe MADALINE (Many Adaptve Lnear Elements) z tym algorytmem uczena, są wykorzystywane jako fltry adaptacyjne np.: do tłumena echa w lnach telefoncznych do poprawana stosunku sygnału do szumu

Uczene bez nauczycela Reguła Hebba: Wzmocnenu ulegają te wag w (m)(j) wejśca x (j) jest duża podczas gdy neuron jest pobudzony ( y (j) m, dla których wartość jest duże): = w (m)(j) + ηx (j) y m (j) gdze: m numer neuronu, j numer kroku uczena, numer wejśca neuronu y (j) m = n =1 w (m)(j) x (j) Dlaczego ta reguła dzała? Jeśl w chwl początkowej, któryś neuron mał zestaw wag zblżony do prezentowanego sygnału to w następnych pokazach tego samego sygnału rozpoznawane go przez ten neuron będze coraz slnejsze. Seć tak uczona zaczyna klasyfkować sygnały. Ogranczena: przebeg uczena zależy od wartośc początkowych wag ne ma gwarancj, że jednej klase wzorców będze odpowadał jeden neuron ne ma gwarancj, że wszystke klasy wzorców będą mały oddzelne reprezentacje w postac oddzelnych zborów neuronów. Sec neuropodobne II, sec lnowe 10 Modyfkacje reguły Hebba przyrostowa reguła Hebba uzależnamy proces zmany wag od zman wartośc wejśca wyjśca w kolejnych krokach uczena: ] = w (m)(j) + η (x (j) x (j 1) )(y m (j) y m (j 1) ) gwazda wejść (Grossberg 1974: Instar tranng): w każdym kroku, uczenu rozpoznawana beżącego bodźca podlega tylko jeden wybrany neuron: = w (m)(j) przy czym z praktyk η = 0.1 λj wele nnych + η (j) (x (j) w (m)(j) )

Uczene z forsowanem Technk uczena bez nauczycela można zaadaptować do przypadku kedy znana jest porządana odpowedź. Pomysł sprowadza sę do podstawena w mejsce prawdzwej odpowedz sec y porządanych wartośc z: metoda Hebba: = w (m)(j) + ηx (j) z m (j) przyrostowa metoda Hebba: = w (m)(j) + η (x (j) ] x (j 1) )(z m (j) z(j 1) m ) Sec neuropodobne II, sec lnowe 12 Przekonajmy sę, że reguła Hebba z forsowanem dzała: Dla całej warstwy reguła ta wygląda tak: W (m)(j+1) = W (m)(j) + ηz (j) X (j)] T Efekt uczena: W = N j=1 ηz(j) X (j)] T + W (1) Nech W (1) = 0 oraz 1. wektory w cągu uczącym są ortonormalne ] { j X (j) T X (m) = wtedy po prezentacj bodźca X (m) seć odpowe: Y = W X (m) = N j=1 ηz(j) X (j)] T X (m) = ηz (j) 2. wektory w cągu uczącym są skrajne skorelowane tzn: X (j) = X + ɛ (j), a porządana odpowedź sec jest stale Z, wówczas: W = N j=1 ηz(j) X (j)] T N = j=1 ηz(j) X + ɛ (j)] T = ( ηz NX T + N ] ) j=1 ɛ (j) T tzn: seć tworzy reprezentację uśrednonego wzorca. W rzeczywstych sytuacjach oba efekty występują równocześne. Empryczne szacowana pojemność sec k elementowej jest N max k 2logk 1 dla j = m 0 dla j m

kontrolowane wartośc η (j) Przyspeszane uczena dodane składnka bezwładnośc: W (j+1) = W (j) + η 1 ( Z (j) Y (j)) X (j)] T + η2 M (j) gdze M (j) = W (j) W (j 1) wygładzane wykładncze: W (j+1) = W (j) + η 1 (1 η 2 ) ( Z (j) Y (j)) X (j)] T + η2 M (j) ] technka kumulowana błędów: zbór uczący dzel sę na podzbory o pewnej długośc η 3 (30 η 3 50) numerowanych ndeksam j = 0,...P skumulowany błąd: S (j ) = η 3(j +1) j=η 3j +1 η 1 ( Z (j) Y (j)) X (j)] T używając tej welkośc modyfkuje sę wag: W (j +1) = W (j ) + S (j ) ta korekta wag występuje w co η 3 kroku uczena. Ne ma teor mówącej, jak doberać parametry η 1, η 2. Zwykle uczene rozpoczyna sę od dużych wartośc, stopnowo je redukując. Sec neuropodobne II, sec lnowe 14 Uczene z rywalzacją: sec Kohonena Uczene na perwszy rzut oka wygląda dentyczne z nstar, uczenu w danym kroku podlega tylko jeden neuron: w (m )(j+1) ale są dwe zasadncze różnce: = w (m )(j) + η (j) ( x (j) w (m )(j) ) wektor wejścowy mus być znormalzowany: X = 1 neuron podlegający uczenu w danym kroku ne jest wyberany dowolne, lecz jest to ten ( m ), który dla danego bodźca produkuje najwększe wyjśce y (j) m = max m y m (j) Co nam dają te warunk? normalzacja najwększa wartość wyjśca sec dla neuronu m : y m = N ) =1 w(m x zapewna to, że wektor wag tego neuronu znajduje sę najblżej wektora bodźca na sferze jednostkowej. uczene neuronu m szybkość nauk. zbeżność do klastrów jeśl w zborze uczącym występują jakeś klastry, to wektory wag są modyfkowane w ten sposób, że dążą do wartośc średnch w klastrach, przy czym my ne musmy wedzeć a por o stnenu tych klastrów.

Sąsedztwo Neurony w tej sec mogą być uporządkowane. Można węc mówć o relacj sąsedztwa. Rozszerzenem orygnalnej koncepcj Kohonena jest uczene ne tylko jednego wygrywającego neuronu, lecz także jego sąsadów. = w (m)(j) Pojęce sąsedztwa może być różne np.: h(m, m ) = + η (j) h(m, m )( x (j) w (m)(j) ) 1 ρ(m, m ) albo h(m, m ) = exp( ρ(m, m ) 2 ) Szczególne cekawe efekty daje węcej nż jedno-wymarowe sąsedztwo: sec Kohonena mają własność odwzorowywana topografcznych własnośc zboru uczącego w przestrzen wag swoch neuronów. 4 1 2 3 w 1 1 5 4 5 6 2 3 6.D 2 w 2 w 1.B.C w 1 1 3.E.F.A 4 6 5 w 2 w 2 Sec neuropodobne II, sec lnowe 16 Ogranczena sec elementów lnowych seć może jedyne realzować lnowe odwzorowana X Y w odróżnenu od sec nelnowych, lnowe sec welowarstwowe ne mają sensu, bo złożene operacj lnowych da nam tak operację lnową