RBF sieci neuronowe o radialnych funkcjach bazowych

Podobne dokumenty
Sztuczne Sieci Neuronowe

UCZENIE MASZYNOWE III - SVM. mgr inż. Adam Kupryjanow

Regresja nieparametryczna series estimator

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Zastosowania sieci neuronowych

SIECI RBF (RADIAL BASIS FUNCTIONS)

Systemy Inteligentnego Przetwarzania wykład 7: Sieci RBF

Elementy inteligencji obliczeniowej

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

Uczenie sieci radialnych (RBF)

Rozpoznawanie obrazów

Zastosowania funkcji jądrowych do rozpoznawania ręcznie pisanych cyfr.

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Sieć przesyłająca żetony CP (counter propagation)

Optymalizacja ciągła

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Podstawy Sztucznej Inteligencji (PSZT)

Metody sztucznej inteligencji Zadanie 3: (1) klasteryzacja samoorganizująca się mapa Kohonena, (2) aproksymacja sieć RBF.

WYKŁAD 2. Problem regresji - modele liniowe

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

SZTUCZNA INTELIGENCJA

MATLAB Neural Network Toolbox przegląd

Sztuczne sieci neuronowe i sztuczna immunologia jako klasyfikatory danych. Dariusz Badura Letnia Szkoła Instytutu Matematyki 2010

Metody systemowe i decyzyjne w informatyce

Uczenie sieci neuronowych i bayesowskich

Porównanie skuteczności sieci MLP z regresją liniową na przykładzie danych epidemiologicznych

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Projekt Sieci neuronowe

SPOTKANIE 3: Regresja: Regresja liniowa

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Sieci neuronowe w Statistica

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Zawansowane modele wyborów dyskretnych

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

synaptycznych wszystko to waży 1.5 kg i zajmuje objętość około 1.5 litra. A zużywa mniej energii niż lampka nocna.

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

Analiza regresji elementy zaawansowane (cz. 2)

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

DOPASOWYWANIE KRZYWYCH

Jądrowe klasyfikatory liniowe

Metody Sztucznej Inteligencji II

I EKSPLORACJA DANYCH

7. Maszyny wektorów podpierajacych SVMs

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Lekcja 5: Sieć Kohonena i sieć ART

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Uczenie sieci typu MLP

Podstawy sztucznej inteligencji

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

1 Relacje i odwzorowania

SIECI NEURONOWE Liniowe i nieliniowe sieci neuronowe

Inteligentne systemy przeciw atakom sieciowym

PRÓBA ZASTOSOWANIA SIECI NEURONOWYCH DO PROGNOZOWANIA OSIADAŃ POWIERZCHNI TERENU POWSTAŁYCH NA SKUTEK EKSPLOATACJI GÓRNICZEJ**

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

wiedzy Sieci neuronowe

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH**

Przykładowe funkcje przejścia używane przy budowie sztucznych neuronów

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

SVM: Maszyny Wektorów Podpieraja cych

Uczenie ze wzmocnieniem

Sztuczne sieci neuronowe

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Metody systemowe i decyzyjne w informatyce

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Streszczenie. Słowa kluczowe: modele neuronowe, parametry ciągników rolniczych

Sztuczne sieci neuronowe

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Rozpoznawanie obrazów

1. Logika, funkcje logiczne, preceptron.

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Prawdopodobieństwo i rozkład normalny cd.

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Adrian Horzyk

SZTUCZNA INTELIGENCJA

Oracle Data Mining 10g

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Politechnika Warszawska

LOKALNA APROKSYMACJA POCHODNYCH Z UŻYCIEM NIEREGULARNIE ROZMIESZCZONYCH WĘZŁÓW LOCAL APPROXIMATION OF DERIVATIVES USING SCATTERED NODES

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

TEORETYCZNE PODSTAWY INFORMATYKI

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

BIOCYBERNETYKA SIECI NEURONOWE. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Podstawy opracowania wyników pomiarów z elementami analizy niepewności statystycznych

Metody systemowe i decyzyjne w informatyce

Prawdopodobieństwo i statystyka

Transkrypt:

RBF sieci neuronowe o radialnych funkcjach bazowych Jerzy Stefanowski Zakład Inteligentnych Systemów Wspomagania Decyzji Instytut Informatyki Politechnika Poznańska Wykład Uczenie maszynowe edycja 2010 1

Wprowadzenie Idea sieci RBF opiera się na rozwiązaniach statystycznych metod aproksymacji funkcji zmiennej liczbowej RBF ang. Radial Basis Function Statystyka aproksymacja nieparametryczna specjalnymi metodami lokalnymi Estymatory jądrowe oparte na funkcjach o symetrii kołowej Są także stosowane w zadaniach klasyfikacji, analizie szeregów czasowych, predykcji zmiennej liczbowej i niektórych numerycznych problemach modelowania złożonych systemów Alternatywne podejście niż MLP 2

Różnice MLP i RBF Aproksymacja lokalna vs. globalna Twierdzenia matem. uniwersalny aproksymacja dowolnej funkcji ciągłej z wystarczającą dokładnością. Twierdzenie Covera o liniowej separowalności wzorców w przekształconej przestrzeni wysoce wielowymiarowej Zdecydowanie prostsza topologia Warstwa ukryta z nieliniowym przekształceniem z funkcjami RBF Warstwa wyjściowa proste (liniowe) ważone sumowanie Prostsze algorytmy uczeni sieci RBF 3

Typowa topologia RBF x1 x2 x3 input layer (fan-out) y1 y2 output layer (linear weighted sum) hidden layer (weights correspond to cluster centre, output function usually Gaussian) 4

RBF Sieć RNF oprócz warstwy wejściowej dostarczającej dane x składa się z 2 warstw Z warstwy neuronów ukrytych (implementujących funkcje RBF) Warstwy wyjściowej (wiele neuronów) implementującej liniowe sumowanie (podobnie jak MLP) Uczenie sieci dwu etapowe 5

Zadanie aproksymacji numerycznej Niech będzie dany zbiór N punktów { x R m i = 1, K, N} i i odpowiadający mu zbiór N liczb rzeczywistych { R i = 1, K, N} d i Zadanie aproksymacji polega na znalezieniu funkcji f ( xi ) = di i = 1, K, N 6

Statystyka regresja nieparametryczna Statystka modele liniowe i zaawansowane (rozwijane od prawie 200 lat) Porównanie pojęć (Mark Orr: Introd. To RBF) 7

Klasyczne modele liniowe Aproksymacja funkcji Regresja parametryczna MNK Dane pomiarowe: (7,120),(9,125),(18,16), (11.5,140), (8,122),(11,135), (13,145), (17,162), (10,131), (19,170), (14,150), (12,142), (18.5,168), (15,154), (16,159) WZROST Wykres rozrzutu (Regrwzrost15.STA 2v*15c) y=88,689+4,305*x+eps 175 165 155 145 135 125 115 6 8 10 12 14 16 18 20 WIEK 8

Różne funkcje Trudniejsze funkcje regresja nieparametryczna 9

Aproksymacje lokalne regresja nieparametryczna Więcej J.Koronacki, J.Ćwik: Statystyczne systemy uczące się. Estymując funkcję regresji staramy się uwzględnić w modelu własności lokalne Składanie funkcji bazowych zdolnych lokalnie przybliżyć własności pewnych podobszarów dziedziny Regresyjne funkcje sklejane z węzłami Locally weighted regression p y = α + j = f 1 j ( x, β ) 10

Aproksymacja radialnymi funkcjami kołowymi Zadanie aproksymacji f ( xi ) = di i = 1, K, N Przyjmijmy funkcje liniową względem parametrów w wykorzystującą funkcje o symetrii kołowej RBF m i = f ( x) = w i ϕ( x c ) 1 i Radialna funkcja bazowa funkcja ϕ o postaci ϕ(x,c)= ϕ(r(x,c)), gdzie r jest odległością między punktami x i c. Punkt c nazywamy centrum Związek funkcji radialnym z funkcjami jądrowymi (kernals), z parametrem σ szerokością jądra 11

Własności radialnych funkcji bazowych Dyskusja w Koronacki,Ćwik rozdz. 5 Funkcja ϕ(r(x,c)) jak typowa funkcja jądrowa powinna być symetryczna i może mieć maksimum ok. c. Przykład typowej funkcji 2 u r ( u) = exp( ) 2 < u < Jeżeli dodatkowo jądro ϕ jest całkowalne na prostej i całka nie równa się zeru, to rodzina funkcji f(x) jest gęsta w przestrzeniu Lq funkcji rzeczywistych Rm całkowalnych w q-tej potędzie. Funkcje ciągłe w tej przestrzeni mogą być przybliżone funkcjami radialnymi choć liczba składników w funkcji może być duża. 12

Dokładne podejście analityczne do ustalenia wag wi Równanie funkcji f(x) z RBF ϕ dla kolejnych i można przekształcić do postaci macierzowej Jeden węzeł sieci na jeden wektor treningowy x, bez regularyzacji (centrum na wektorze) Dla odpowiednio wąskich funkcji ϕ zastosujmy standardowe przekształcenie Wymaganie wobec macierzy Φ w Lecz to rozwiązanie nie jest najlepsze Mocno podane na przeuczenie i o słabych własnościach generalizujących Niedogodne / nie efektywne obliczeniowo = Φ 1 d 13

Filozofia RBF MLP - dyskryminacja, LDA, aproksymacja stochastyczna. RBF = Radial Basis Functions (1988) - inne podejście. Uczenie jako problem aproksymacji, najlepszego dopasowania (rekonstrukcji) hiperpowierzchni do danych treningowych. Twierdzenie (Cover 1965): Jeśli przekształcić wzorce X={X (i) }, i=1.. p, nieliniową funkcją na wektory Φ(X (i) )={h(x (i) ) k }, k =1..M, M > p wzorce prawdopodobnie staną się liniowo separowalne: tj. istnieje płaszczyzna W T Φ(X (i) ) 0 dla X (i) C 1, W T Φ(X (i) )<0 dla X (i) C 2 14

Separowalność wielomianowa Jeśli wziąć funkcje wielomianowe: ( ) 12... r 1 1 Φ X = A X X L X A ii i i i ir 0 ii... i p 12 r to zamiast sep. liniowej mamy sep. wielomianową. Functional Link Networks (Pao), SVM i Kernel Methods - optymalizacja nieliniowego przekształcenia. 15

Funkcje radialne Przykłady: hr () = r= X X ( 2 2 σ r) α hr () = +, α > 0 i Radialna Inverse multiquadratic Multiquadratic Gauss Thin splines (cienkiej płytki) ( 2 2 σ r) hr () = +, 1> β > 0 hr () = e β ( r / σ ) hr = σr σr 2 ( ) ( ) ln( ) 2 16

Funkcja Gaussa Jedyna lokalna i separowalna f. radialna 2 2 r hr () = e = e ( i) T 1 ( i) ( X X ) ( X X ) 1 Σ /2σ 2 17

Funkcja współrzędnej radialnej h () r = r = X X i () i 18

Funkcje wielokwadratowe ( 2 2 σ r) hr () = +, α = 1; ( 2 2 σ r) α hr () = +, β = 1/2 β 19

Funkcje cienkiej płytki hr r r 2 ( ) = ( σ ) ln( σ ) 20

Budowanie sieci RBF Powrót do zadań konstruowania sieci RBF Zadanie dokładnego rozwiązanie odrzucamy! Możliwości Liczba K funkcji bazowych (neuronów ukrytych) powinna być dużo mniejsza niż n przykładów Centra funkcji bazowych c nie opieramy na danych treningowych ustalane w trakcie uczenia Funkcje bazowe nie muszą mieć takiej samej szerokości σ podobnie jak poprzednio dobieramy przez algorytm uczący Można wprowadzić dodatkowy element / próg 21

Ulepszona konstrukcja sieci RBF Funkcja Przykładowo K f ( x) = w0 + = w i i ϕ( x c 1 i ) ϕ( x; c, σ ) = exp( x c Jak konstruować sieć RBF (ile neuronów ukrytych) Jak dobierać parametry w, c, σ algorytmy uczenia sieci 2σ 2 2 ) 22

Działanie sieci RBF x w różnym stopniu pobudza lokalne funkcje Input Space Hidden Nodes Output Layer ** W Receptive Fields * * * * * * ** * * * * * * * * * * * * Bias 23

Uczenie sieci RBF Wyznaczenie centrów i parametrów funkcji ϕ Uczenie neuronów wyjściowych Jedno wyjście wyznaczenie wektora wag w 24

Wyznaczenia centrów Randomly Fixed (Lowe, 1989): Centra wybierane z danych treningowych w reprezentatywny sposób Using K-Means Cluster Centers (MacQueen, 1967, Moody and Darken, 1989): k RBF Samoorganizacja sieci Kohonena 25

Wybór szerokości σ funkcji bazowej Fixed: (Haykin, 1994), where d is the maximum distance between the chosen centers and M is the number of centers (RBF s). Distance Averaging (Moody and Darken, 1989): a reasonable estimate for the global width parameter is the average, which represents a global average over all Euclidean distances between the center of each unit i and that of its nearest neighbor j. Inne σ = d 2 M σ j = µ i µ j σ j = α µ i µ j 26

Uczenie sieci z jednym wyjściem Dany jest zbiór uczący { x i, t i } i = 1, K, N Dla każdego wzorca warstwa ukryta dostarcza ϕ1( x), K, ϕk ( x) Z których obliczamy odpowiedź y( x) = w K x + w 1 ϕ1( x) + K+ w2 ϕ ( ) Porównując odpowiedź z wartością docelową obliczamy ogólny błąd odpowiedzi E = 1 N ( t ( )) i 1 2 = i f xi Wektor wag minimalizujący E poszukuje się specjalnymi metodami rozwiązującymi układ równań liniowych (pseudoinwersja, specjalne wersje SVD) 2 0 27

Regularyzacja w sieciach RBF Nadmiar neuronów ukrytych przeuczenia i słaba generalizacja + niestabilność numeryczna funkcji aproksymacyjnej f Trick ze statystyki regularyzacja Nałożenie na funkcje kosztu/błędu tzw. kary powodującej wygładzenie funkcji f 1 N 2 1 = ( t f Py x i 1 i ( xi)) + λ ( ) = 2 2 E K k 2 dx 28

Wpływ regularyzacji Duża liczba f. bazowych o małej dyspersji bez regularyzacji i po regularyzacji (Ossowski 1996) 29

RBF w zadaniach klasyfikacje Globalne działanie MLP (hiperpłaszczyzny separujące) vs. lokalne sąsiedztwa RBF 30

Inaczej o różnicach z MLP MLP vs. RBF? * *? ** o * * * o o o o o? Global Mapping * * ** o * * * o o o o o Local Mapping 31