RBF sieci neuronowe o radialnych funkcjach bazowych Jerzy Stefanowski Zakład Inteligentnych Systemów Wspomagania Decyzji Instytut Informatyki Politechnika Poznańska Wykład Uczenie maszynowe edycja 2010 1
Wprowadzenie Idea sieci RBF opiera się na rozwiązaniach statystycznych metod aproksymacji funkcji zmiennej liczbowej RBF ang. Radial Basis Function Statystyka aproksymacja nieparametryczna specjalnymi metodami lokalnymi Estymatory jądrowe oparte na funkcjach o symetrii kołowej Są także stosowane w zadaniach klasyfikacji, analizie szeregów czasowych, predykcji zmiennej liczbowej i niektórych numerycznych problemach modelowania złożonych systemów Alternatywne podejście niż MLP 2
Różnice MLP i RBF Aproksymacja lokalna vs. globalna Twierdzenia matem. uniwersalny aproksymacja dowolnej funkcji ciągłej z wystarczającą dokładnością. Twierdzenie Covera o liniowej separowalności wzorców w przekształconej przestrzeni wysoce wielowymiarowej Zdecydowanie prostsza topologia Warstwa ukryta z nieliniowym przekształceniem z funkcjami RBF Warstwa wyjściowa proste (liniowe) ważone sumowanie Prostsze algorytmy uczeni sieci RBF 3
Typowa topologia RBF x1 x2 x3 input layer (fan-out) y1 y2 output layer (linear weighted sum) hidden layer (weights correspond to cluster centre, output function usually Gaussian) 4
RBF Sieć RNF oprócz warstwy wejściowej dostarczającej dane x składa się z 2 warstw Z warstwy neuronów ukrytych (implementujących funkcje RBF) Warstwy wyjściowej (wiele neuronów) implementującej liniowe sumowanie (podobnie jak MLP) Uczenie sieci dwu etapowe 5
Zadanie aproksymacji numerycznej Niech będzie dany zbiór N punktów { x R m i = 1, K, N} i i odpowiadający mu zbiór N liczb rzeczywistych { R i = 1, K, N} d i Zadanie aproksymacji polega na znalezieniu funkcji f ( xi ) = di i = 1, K, N 6
Statystyka regresja nieparametryczna Statystka modele liniowe i zaawansowane (rozwijane od prawie 200 lat) Porównanie pojęć (Mark Orr: Introd. To RBF) 7
Klasyczne modele liniowe Aproksymacja funkcji Regresja parametryczna MNK Dane pomiarowe: (7,120),(9,125),(18,16), (11.5,140), (8,122),(11,135), (13,145), (17,162), (10,131), (19,170), (14,150), (12,142), (18.5,168), (15,154), (16,159) WZROST Wykres rozrzutu (Regrwzrost15.STA 2v*15c) y=88,689+4,305*x+eps 175 165 155 145 135 125 115 6 8 10 12 14 16 18 20 WIEK 8
Różne funkcje Trudniejsze funkcje regresja nieparametryczna 9
Aproksymacje lokalne regresja nieparametryczna Więcej J.Koronacki, J.Ćwik: Statystyczne systemy uczące się. Estymując funkcję regresji staramy się uwzględnić w modelu własności lokalne Składanie funkcji bazowych zdolnych lokalnie przybliżyć własności pewnych podobszarów dziedziny Regresyjne funkcje sklejane z węzłami Locally weighted regression p y = α + j = f 1 j ( x, β ) 10
Aproksymacja radialnymi funkcjami kołowymi Zadanie aproksymacji f ( xi ) = di i = 1, K, N Przyjmijmy funkcje liniową względem parametrów w wykorzystującą funkcje o symetrii kołowej RBF m i = f ( x) = w i ϕ( x c ) 1 i Radialna funkcja bazowa funkcja ϕ o postaci ϕ(x,c)= ϕ(r(x,c)), gdzie r jest odległością między punktami x i c. Punkt c nazywamy centrum Związek funkcji radialnym z funkcjami jądrowymi (kernals), z parametrem σ szerokością jądra 11
Własności radialnych funkcji bazowych Dyskusja w Koronacki,Ćwik rozdz. 5 Funkcja ϕ(r(x,c)) jak typowa funkcja jądrowa powinna być symetryczna i może mieć maksimum ok. c. Przykład typowej funkcji 2 u r ( u) = exp( ) 2 < u < Jeżeli dodatkowo jądro ϕ jest całkowalne na prostej i całka nie równa się zeru, to rodzina funkcji f(x) jest gęsta w przestrzeniu Lq funkcji rzeczywistych Rm całkowalnych w q-tej potędzie. Funkcje ciągłe w tej przestrzeni mogą być przybliżone funkcjami radialnymi choć liczba składników w funkcji może być duża. 12
Dokładne podejście analityczne do ustalenia wag wi Równanie funkcji f(x) z RBF ϕ dla kolejnych i można przekształcić do postaci macierzowej Jeden węzeł sieci na jeden wektor treningowy x, bez regularyzacji (centrum na wektorze) Dla odpowiednio wąskich funkcji ϕ zastosujmy standardowe przekształcenie Wymaganie wobec macierzy Φ w Lecz to rozwiązanie nie jest najlepsze Mocno podane na przeuczenie i o słabych własnościach generalizujących Niedogodne / nie efektywne obliczeniowo = Φ 1 d 13
Filozofia RBF MLP - dyskryminacja, LDA, aproksymacja stochastyczna. RBF = Radial Basis Functions (1988) - inne podejście. Uczenie jako problem aproksymacji, najlepszego dopasowania (rekonstrukcji) hiperpowierzchni do danych treningowych. Twierdzenie (Cover 1965): Jeśli przekształcić wzorce X={X (i) }, i=1.. p, nieliniową funkcją na wektory Φ(X (i) )={h(x (i) ) k }, k =1..M, M > p wzorce prawdopodobnie staną się liniowo separowalne: tj. istnieje płaszczyzna W T Φ(X (i) ) 0 dla X (i) C 1, W T Φ(X (i) )<0 dla X (i) C 2 14
Separowalność wielomianowa Jeśli wziąć funkcje wielomianowe: ( ) 12... r 1 1 Φ X = A X X L X A ii i i i ir 0 ii... i p 12 r to zamiast sep. liniowej mamy sep. wielomianową. Functional Link Networks (Pao), SVM i Kernel Methods - optymalizacja nieliniowego przekształcenia. 15
Funkcje radialne Przykłady: hr () = r= X X ( 2 2 σ r) α hr () = +, α > 0 i Radialna Inverse multiquadratic Multiquadratic Gauss Thin splines (cienkiej płytki) ( 2 2 σ r) hr () = +, 1> β > 0 hr () = e β ( r / σ ) hr = σr σr 2 ( ) ( ) ln( ) 2 16
Funkcja Gaussa Jedyna lokalna i separowalna f. radialna 2 2 r hr () = e = e ( i) T 1 ( i) ( X X ) ( X X ) 1 Σ /2σ 2 17
Funkcja współrzędnej radialnej h () r = r = X X i () i 18
Funkcje wielokwadratowe ( 2 2 σ r) hr () = +, α = 1; ( 2 2 σ r) α hr () = +, β = 1/2 β 19
Funkcje cienkiej płytki hr r r 2 ( ) = ( σ ) ln( σ ) 20
Budowanie sieci RBF Powrót do zadań konstruowania sieci RBF Zadanie dokładnego rozwiązanie odrzucamy! Możliwości Liczba K funkcji bazowych (neuronów ukrytych) powinna być dużo mniejsza niż n przykładów Centra funkcji bazowych c nie opieramy na danych treningowych ustalane w trakcie uczenia Funkcje bazowe nie muszą mieć takiej samej szerokości σ podobnie jak poprzednio dobieramy przez algorytm uczący Można wprowadzić dodatkowy element / próg 21
Ulepszona konstrukcja sieci RBF Funkcja Przykładowo K f ( x) = w0 + = w i i ϕ( x c 1 i ) ϕ( x; c, σ ) = exp( x c Jak konstruować sieć RBF (ile neuronów ukrytych) Jak dobierać parametry w, c, σ algorytmy uczenia sieci 2σ 2 2 ) 22
Działanie sieci RBF x w różnym stopniu pobudza lokalne funkcje Input Space Hidden Nodes Output Layer ** W Receptive Fields * * * * * * ** * * * * * * * * * * * * Bias 23
Uczenie sieci RBF Wyznaczenie centrów i parametrów funkcji ϕ Uczenie neuronów wyjściowych Jedno wyjście wyznaczenie wektora wag w 24
Wyznaczenia centrów Randomly Fixed (Lowe, 1989): Centra wybierane z danych treningowych w reprezentatywny sposób Using K-Means Cluster Centers (MacQueen, 1967, Moody and Darken, 1989): k RBF Samoorganizacja sieci Kohonena 25
Wybór szerokości σ funkcji bazowej Fixed: (Haykin, 1994), where d is the maximum distance between the chosen centers and M is the number of centers (RBF s). Distance Averaging (Moody and Darken, 1989): a reasonable estimate for the global width parameter is the average, which represents a global average over all Euclidean distances between the center of each unit i and that of its nearest neighbor j. Inne σ = d 2 M σ j = µ i µ j σ j = α µ i µ j 26
Uczenie sieci z jednym wyjściem Dany jest zbiór uczący { x i, t i } i = 1, K, N Dla każdego wzorca warstwa ukryta dostarcza ϕ1( x), K, ϕk ( x) Z których obliczamy odpowiedź y( x) = w K x + w 1 ϕ1( x) + K+ w2 ϕ ( ) Porównując odpowiedź z wartością docelową obliczamy ogólny błąd odpowiedzi E = 1 N ( t ( )) i 1 2 = i f xi Wektor wag minimalizujący E poszukuje się specjalnymi metodami rozwiązującymi układ równań liniowych (pseudoinwersja, specjalne wersje SVD) 2 0 27
Regularyzacja w sieciach RBF Nadmiar neuronów ukrytych przeuczenia i słaba generalizacja + niestabilność numeryczna funkcji aproksymacyjnej f Trick ze statystyki regularyzacja Nałożenie na funkcje kosztu/błędu tzw. kary powodującej wygładzenie funkcji f 1 N 2 1 = ( t f Py x i 1 i ( xi)) + λ ( ) = 2 2 E K k 2 dx 28
Wpływ regularyzacji Duża liczba f. bazowych o małej dyspersji bez regularyzacji i po regularyzacji (Ossowski 1996) 29
RBF w zadaniach klasyfikacje Globalne działanie MLP (hiperpłaszczyzny separujące) vs. lokalne sąsiedztwa RBF 30
Inaczej o różnicach z MLP MLP vs. RBF? * *? ** o * * * o o o o o? Global Mapping * * ** o * * * o o o o o Local Mapping 31