Plan wykładu. Sztuczne sieci neuronowe. Problem dwuklasowy (N=1) Problem klasyfikacji. Wykład 4-5: Ocena jakości sieci neuronowej Sieci RBF

Plan wyładu Wyład 4-5: Ocena jaośc sec neuronowej Sec RBF Małgorzata Krętowsa Wydzał Informaty PB Metody oceny jaośc sec neuronowych roblem lasyfacj metody szacowana jaośc lasyfacj ocena jaośc lasyfacj Sec o radalnych funcjach bazowych Wrowadzene do sec RBF Porównane sec welowarstwowych sec RBF Teoretyczne odstawy dzałane sec RBF Problem lasyfacj Problem dwulasowy (N=) Przyorządowane danego wetora cech x do jednej z M las: K, K,.., K M 0. (x/k ) (x/k ) {x, x,..., x n } KLASYFIKATOR 0. K 0.0 x 0 5 c 0 5 x 3 4

Problem dwulasowy (N=) Metody oceny jaośc lasyfacj Zbór uczący zbór testowy Waldacja rzyżowa (ang. crossvaldaton) Metoda leave-one-out (Jacnfe) 5 6 Waldacja rzyżowa (-untowa) Leave-one-out zbór danych: Przyade szczególny waldacj rzyżowej Jeżel zbór uczący zawera wetorów cech wówczas metoda leave-one-out jest równoważna -untowej waldacj rzyżowej losowy odzał zboru danych na odzborów zbór danych: odzbór testowy W ratyce : =0 7 8

Ocena jaośc lasyfacj Ocena jaośc lasyfacj ( lasy) Jaość lasyfacj = Lczba orawne slasyfowanych rzyadów / Lczba wszystch analzowanych rzyadów Klasa => Decyzja K K... K M Klasa (0, ) n. choroba (ta, ne) Ta Ne K n n n M K n n n M... Wyn lasyfacj Ta Ne True ostve False Postve (TP) (FP) TP+FP False negatve (FN) True negatve (TN) FN+TN K M n M n M n MM TP+FN FP+TN Lczność n n... n M Czy jaość lasyfacj 0,95 jest dobra? 9 0 Ocena jaośc lasyfacj ( lasy) Ocena jaośc lasyfacj ( lasy) 0. (x/k ) (x/k 0 ) Efetywność = TP+TN / TP+FP+FN+TN - fracja orawne slasyfowanych rzyadów 0. TP TN FP FN 0.0 0 5 c 0 5 x Czułość = TP / TP+FN - fracja orawne slasyfowanych rzyadów choroby Secyfczność = TN / FP+TN - fracja orawne slasyfowanych rzyadów osób zdrowych (ang. accuracy, senstvty, secfcty)

Krzywa ROC (ang. Recever Oeratng Characterstcs) Sec o radalnych funcjach bazowych (RBF; ang. Radal Bass Functons) Krzywa ROC - obrazuje zależność omędzy czułoścą metody a wartoścą -secyfczność dla różnych wartośc rogowych Porównane jaośc dwóch metod lasyfacj => orównane welośc obszaru od rzywą ROC Sec dwuwarstwowe ( warstwa uryta) Przeływ nformacj od wejśca w erunu warstwy wyjścowej Bra wymany nformacj mędzy neuronam w jednej warstwe 3 4 Sec welowarstwowe a sec RBF Sec welowarstwowe a sec RBF Sec neuronowe welowarstwowe neurony w warstwach urytych sełnały rolę sumatorów mulsów dochodzących do nch z orzednej warstwy rezultat sumowana był nastęne rzetwarzany rzez tzw. funcję atywacj owodował obudzene neuronu na oreślonym ozome neuron rzeazywał swoją atywację - jao bodzec numeryczny do warstwy nastęnej lub na wyjśce Sec RBF wyznaczene atywacj, w neuronach warstwy urytej, odbywa sę na zasadze wyznaczena wartośc tzw. radalnej funcj bazowej (argumentem jest odległość x-c ) Warstwa wyjścowa sumuje atywacje neuronów warstwy urytej (osługując sę swom wagam) Wyn sumowana jest odawany jao wyn dzałana sec Sec welowarstwowe neuron rerezentuje herłaszczyznę może być wele warstw urytych Sec RBF neuron rerezentuje hersferę, doonującą odzału ołowego woół untu centralnego jedna warstwa uryta => uroszczene uczena sec 5 6

Radalne funcje bazowe Radalną funcją bazową (tyu RBF) nazywany funcję G( ) ostac: Przyłady radalnych funcj bazowych r Funcja Gaussa G( r) = ex σ G(x; c) = G (r(x,c)), gdze r(x,c)= x-c ={(x-c) T (x-c)} / oznacza to, że wartośc funcj - dla danego argumentu x - zależą tylo od odległośc jej argumentu od centrum c będącym arametrem tej funcj. (ojedyncza funcja radalna jest czasem nazywana jądrem (ang. ernel) a arametr σ szerooścą jądra). 7 8 Przyłady radalnych funcj bazowych Przyłady radalnych funcj bazowych α Funcje otęgowe G( r) = ( + r ), > 0 σ α Funcja slejana G( r) = ( r) ln( r) σ σ α= -0.5 9 0

Dzałane sec RBF Teoretyczne odstawy sec RBF (arosymacja) W secach RBF neurony erwszej warstwy oblczają - na odstawe odanego na wejśce wetora cech x, swoje atywacje jao wartość: G (x)=g(x, c ); G (x)=g(x, c );...; G H (x)=g(x,c H ) gdze G h - oznacza funcję radalną oblczoną względem centrum c h. Seć RBF dzała na zasadze welowymarowej nterolacj, tórej zadanem jest odwzorowane różnych wetorów wejścowych x (=,,.., ) z N wymarowej rzestrzen wejścowej w zbór lczb rzeczywstych d. Jest to równoważne oreślenu funcj radalnej F(x), dla tórej są sełnone warun nterolacj: Oblczone w ten sosób wartośc G,.., G H służą jao dane wejścowe dla warstwy wyjścowej, tóra oblcza z nch ważoną sumę. Przy założenu jednego neuronu w warstwe wyjścowej otrzymujemy: y(x)=w 0 +w G (x) +w G (x) +... + w H G H (x) F(x ) = d rzy czym funcja F(x) oreślona jest wzorem: F( x) = = w G ( x ) x Przy danych centrach c, c,..., c H arametrze σ ozostają nam tylo do wyznaczena wartośc wag. gdze x - wartośc wetorów centra funcj radalnej. Wybór rodzaju normy może być dowolny, w ratyce najczęścej norma euldesowa. Teoretyczne odstawy sec RBF Seć RBF - odstawy teoretyczne Załadając untów nterolacyjnych można otrzymać uład równań lnowych: G G L G W d G G L G W = d L L L L L L G G L G W d gdze G j =G( x j -x ) dotyczy funcj radalnej w centrum x. W ostac macerzowej: GW=d Rozwązane: W=G - d Wrowadzone założene dotyczące stnena neuronów urytych rowadz do uzysana sec o złych własnoścach uogólnających. Przy dużej lczbe danych uczących równej m lczbe funcj radalnych seć będze sę doasowywała do różnego rodzaju szumów neregularnośc wystęujących w danych. Wrowadzene czynna regularyzacj (roblem otymalzacj): L( F) = ( F( x ) d ) + λ PF = gdze λ wsółczynn regularyzacj, PF - czynn stablzujący arzący za bra gładośc funcj F (duże często owtarzające sę zmany nachyleń funcj arosymującej) 3 4

Regularyzacja Seć RBF - odstawy teoretyczne (lasyfacja) Twerdzene Covera (965) Złożony roblem lasyfacyjny zrzutowany nelnowo na rzestrzeń welowymarową może być rozdzelony za omocą searatora lnowego z węszym rawdoodobeństwem nż rzy rzutowanu na rzestrzeń o mnejszej lczbe wymarów. Wływ regularyzacj na odwzorowane danych rzy nadwymarowej lczbe funcj bazowych: a) bra regularyzacj; b) wyn z regularyzacją Udowodnono, że ażdy zbór wzorców losowo rozmeszczony w rzestrzen welowymarowej jest ϕ-searowalny z rawdoodobeństwem równym jeden, od warunem zastosowana odowedno dużego wymaru, na tóry rzutowana jest ta rzestrzeń, tj. rzestrzeń generowana rzez funcje bazowe ϕ. 5 6 Seć RBF - odstawy teoretyczne Seć RBF - roblem XOR Zatem stneje ta wetor w, że: w T ϕ(x) 0 dla x A w T ϕ(x) < 0 dla x B Rozważmy roblem XOR dla dwóch wymarów, tóry, ja wadomo, ne jest rozdzelny lnowo. gdze w T ϕ(x)=0 rerezentuje grancę omędzy lasam. W ratyce oznacza to, że zastosowane dwu warstw sec, jednej zawerającej funcje radalne wyjścowej warstwy lnowej zaewna rozwązane roblemu lasyfacj nelnowej. Zdefnujmy ewne rzeształcene rzestrzen x w rzestrzeń ϕ za omocą ary funcj Gaussowsch: ϕ (x) = e - x-c c =[;] 7 ϕ (x) = e - x-c c =[0;0] 8

Seć RBF - roblem XOR Seć RBF Tae rzeształcene wzorców x odowada ch rzutowanu na łaszczyznę ϕ - ϕ zobrazowaną onżej: y m = H = 0 G ( x) w m 9 30 Rodzaje sec RBF Sec HRBF Sec GRBF (ang. Generalzed Radal Bass Functon)- mnejsza lczba węzłów nż danych. Sec HRBF (ang. Hyer Radal Bass Functon)- ełna macerz obrotów salowana Q (wsółczynn wagowy, ze względu na różną zmenność w ażdej os; Q różne dla różnych centrów): Sec RBF Sec HRBF T T T x Q = ( Qx ) ( Qx ) = x Q Qx Oznaczając loczyn macerzy Q T Q jao macerz C otrzymujemy: x Q = = j= C x x j W szczególnośc, jeżel macerz Q jest dagonalna Q=, wówczas wagowa norma Euldesowa srowadza sę do normy lasycznej: x = x = Q x = j 3 3

Uczene sec RBF Uczene sec RBF odbywa sę w trybe nadzorowanym. Można tu wyróżnć dwa etay: dobór arametrów funcj bazowych (centra + dysersje) Eta I - wybór centrów funcj bazowych Losowy wybór centrów funcj bazowych Zastosowane rocesu samoorganzacj Wyorzystane dendrogramów Algorytm robablstyczny (HRBF) dobór wag neuronów warstwy wyjścowej 33 34 Losowy wybór centrów funcj bazowych Zastosowane rocesu samoorganzacj rozwązane najrostsze, wyorzystywane dla lasycznych sec radalnych losowy wybór centrów: w obszarze zmennośc wzorców uczących losowy wybór centrów sośród wzorców uczących (rosty daje dobre rezultaty) arametr dysersj jest jednaowy dla wszystch funcj bazowych jest oreślany jao: d σ = M gdze M - jest lczbą wszystch neuronów warstwe urytej; d jest masymalną odległoścą omędzy wybranym centram Gaussowsa funcja bazowa rzyjmuje ostać: ( ) x c G x c = ex d K 35 Proces samoorganzacj stosowany do danych uczących automatyczne dzel rzestrzeń na obszary Voronoa, rerezentujące oddzelne gruy danych centrum lastra jest utożsamane z centrum odowednej funcj radalnej lczba tych funcj równa jest lczbe lastrów może być orygowana rzez algorytm samoorganzacj Proces odzału danych na lastry może być rzerowadzony rzy użycu jednej z wersj algorytmu -średnch Proces ncjalzacj centrów: odbywa sę najczęścej losowo, rzy założenu rozładu równomernego w rocese doboru odowednch wetorów x ze zboru danych uczących, jao centrów. 36

Zastosowane rocesu samoorganzacj w rzyadu danych uczących rerezentujących funcję cągła: wstęne wartośc centrów umeszcza sę w untach odowadających wartoścom masymalnym mnmalnym funcj. Dane odowadające tym centrom oraz ch najblższemu otoczenu są usuwane ze zboru, a ozostałe centra są loowane równomerne w obszarze utworzonym rzez dane ozostające w zborze. o zarezentowanu -tego wzorca x() ze zboru uczącego jest wyberane najblższe centrum, tóre nastęne odlega atualzacj: wsółczynn uczena η() maleje w marę wzrostu, n. (T - stała l. eo) η( ) =η0 ( + T ) ażdy wetor uczący jest rezentowany lunastorotne, aż do ustalena wartośc centrów. c ( + ) = c ( ) + η( )[( x( ) c ( )] 37 Zastosowane rocesu samoorganzacj Dobór arametru dysersj funcj radalnych: Aby odwzorowane funcj realzowane rzez sec radalne było stosunowo głade: ola rececyjne wszystch funcj radalnych ownny orywać cały obszar danych wejścowych dwa ola mogą orywać sę tylo w neznacznym stonu. Proonowane rozwązana za wartość σ j j-tej funcj radalnej rzyjmuje sę odległość euldesową centrum c j od jego najblższego sąsada (tzn. nnego centrum) na wartość σ j wływa odległość j-tego centrum od jego P najblższych sąsadów (zwyle ne rzeracza trzech): σ = j P P = c j c 38 Konstruowane lastrów za omocą dendrogramów Na oczątu ażdy z wetorów trenngowych tworzy odrębny laster W rocese teracyjnym nastęuje łączene najblższych, w sense odowednej mary odległośc, sąsadów Procedura jest owtarzana do momentu: uzysana zadowalającej lczby lastrów lub najmnejsza odległość w teracj oaże sę zbyt duża, aby można było doonać ołączena Algorytm robablstyczny doboru arametrów funcj radalnych Element luczowy w jaośc sec: wstęny dobór lczby funcj bazowych Wymagana co do lczby neuronów można złagodzć rzez wrowadzene sec tyu HRBF realzującej odwzorowane z normą wagową Euldesa Wsółczynn macerzy Q są dodatowym arametram odlegającym doborow ułatwają arosymację danych uczących rzez seć radalną Taą samą doładność można uzysać w sec HRBF rzy mnejszej lczbe funcj bazowych 39 40

Seć HRBF Algorytm robablstyczny Założena: równomerny rozład danych uczących x w zborze uczącym ogranczene sę do dagonalnej macerzy salującej Q Proces adatacj arametrów: η - wsółczynn uczena (maleje w marę wzrostu : η = η 0 /) Wyres błędu lasyfacj w funcj lczby neuronów urytych dla sec RBF HRBF 4 T ϕ ( x) = ex [ x c ( )] F [ x c ( )] c ( ) + η[ ϕ ( x ) x c ( )] c ( + ) = ( η ) + η ϕ ( x ) F ( ) + η[ ϕ ( x )[ x c ( )][ x c ( )] F ( + ) = ( η ) + η ϕ ( x ) T = Q F f ( )] 4 Algorytm robablstyczny Eta II - uczene z nadzorem Cechy charaterystyczne: na ażdym etae algorytmu nastęuje równocześne adatacja centrów macerzy wagowej arametry wszystch funcj radalnych sec odlegają adatacj (w algorytme -średnch tylo jedno centrum odlegało adatacj) 43 Bazuje, odobne ja w secach sgmodalnych, na mnmalzacj funcj celu w ostac: E = e e = d = H f ( x ) = d w ϕ j = j j ( x c ) Można doonywać równolegle atualzacj wag, centrów dysersj (dowolne metody gradentowe) E w ( + ) = w ( ) ηw w E c ( + ) = c ( ) ηc c E σ ( + ) = σ ( ) η σ σ 44

Uczene sec RBF Dobór lczby funcj bazowych jest luczowym roblemem rzy właścwym rozwązanu roblemu arosymacj. Dobór właścwej lczby neuronów zależy od welu czynnów: wymarowośc roblemu, lczby danych uczących, funcj arosymowanej. Zaleca sę stosowane tzw. onstrutywnej metody doboru strutury sec, w tórej stonowo zwęsza sę lczbę funcj bazowych testuje błąd sec. 45 Seć RBF, zalety wady łatwy roces nau sec RBF (tj. dobór wag sec) w orównanu z algorytmam uczena ercetronu welowarstwowego w sec RBF funcja osztu oreślona jao błąd średnowadratowy osada jedno mnmum globalne łatwejszy dobór strutury sec ze względu na wystęowane tylo jednej warstwy urytej Łatwejsza nterretacja dzałana sec tj. oreślene udzału oszczególnych funcj bazowych w tworzenu globalnej funcj rzetwarzana sec dla rozwązana ewnych zadań oblczenowych uzysuje sę mnejszą lczbę wag w sec RBF nż wag w sec MLP ( dla netórych odwrotne) seć RBF, rzy nerawdłowo dobranych arametrach funcj bazowych, może łatwo utracć zdolność uogólnana atualny ozostaje roblem doboru lczby funcj bazowych 46