SZTUCZNA INTELIGENCJA WYKŁAD 5. SZTUCZNE SIECI NEURONOWE REGRESJA Częstochowa 4 Dr hab. nż. Grzegorz Dudek Wdzał Elektrczn Poltechnka Częstochowska
PROBLEM APROKSYMACJI FUNKCJI Aproksmaca funkc przblżane funkc, polegaące na wznaczanu dla dane funkc f() take funkc h(), która w określonm sense nalepe ą przblża. Przblżene w tm wpadku rozumane est ako mnmalzaca pewne funkc błędu. Często marą błędu est średn błąd kwadratow. Tpowe zadane aproksmac dan est zbór punktów (np. pomarowch) 7 Zakładam postać funkc aproksmuące, np. funkcę lnową: h ( ) a + b gdze a b to współcznnk, które należ tak dobrać, ab błąd aproksmac bł ak namnesz. 6 5 4 3 3 4 5 6 7
3 Błąd aproksmac (M oznacza lczbę punktów): ( ) mn ) ( M M e h E W wnku otrzmuem aproksmantę: Reprezentaca grafczna funkc aproksmuące: 3 4 5 6 7 3 4 5 6 7 e PROBLEM APROKSYMACJI FUNKCJI
MODEL NEURONU W przpadku aproksmac funkc welowmarowe, model ma postać: Jest to model neuronu, któr realzue funkcę: n h( ) g w 4
FUNKCJE AKTYWACJI Funkce naczęśce użwane ako funkce aktwac:. sgmodalna unpolarna: g( u) + ep( βu). sgmodalna bpolarna: g( u) lub g( u) tgh( βu) + ep( βu) 3. lnowa: g( u) βu.5 g(u) f(u).5 -.5 - -.5 - -.5 - -.5.5.5 u 5
SIEĆ NEURONOWA Poedncz neuron ma ogranczone zdolnośc aproksmacne. Ab aproksmować bardze złożone funkce łącz sę wele neuronów w seć. Funkce realzowane przez neuron daą po złożenu dobrą aproksmantę. Udowodnono, że seć taka, zwana welowarstwowm perceptronem, może aproksmować dowolną funkcę z dowolne małm błędem. Seć może posadać węce nż edną warstwę ukrtą oraz węce nż eden neuron na wścu. 6
7 Seć uczm na zborze trenngowm (uczącm) złożonm z wektorów weścowch (zmennch nezależnch) skoarzonch z nm wartośc pożądanch odpowedz (zmenna zależna). Seć może meć klka wść, wted mam do cznena z wektorem pożądane odpowedz. Każdą parę nazwam wzorcem uczącm. Uczene przebega teracne:. Na wstępe losuem wag sec doberam parametr uczena sec.. Na weśce sec podaem (prezentuem) -t wektor weścow. Składowe tego wektora są przemnażane przez wag perwsze warstw, następne sumowane przetwarzane przez funkce aktwac neuronów. Na wścu tch neuronów otrzmuem wektor v [v v v m ], którego składowe przemnażane są przez wag druge warstw, sumowane przetwarzane przez funkcę aktwac neuronu w warstwe wścowe. Otrzmuem wśce ŷ. Poneważ wag bł losowe, to co otrzmuem na wścu w perwszm kroku est przpadkowe. Możem wznaczć błąd sec: (),, (), (), (), ) ˆ ( + m k n k k m v w w g w g v w g e UCZENIE SIECI NEURONOWEJ
UCZENIE SIECI NEURONOWEJ Błąd ten służ do korekt wag. 3. W faze wsteczne propagac błędu błąd wędrue od wśca w kerunku weść. Naperw błąd przechodz na drugą stronę neuronu wścowego, wmaga to wznaczene pochodne funkc aktwac tego neuronu. Następne oblcza sę składowe tego błędu wnoszone przez poszczególne weśca neuronu wścowego modfkue sę wag zwązane z tm weścam. Dale sgnał błędu wędruą na drugą stronę neuronów ukrtch wkorzstwane są do adaptac wag zwązanch z weścam tch neuronów. Po adaptac wag błąd dla -tego wzorca uczącego będze mnesz. Szczegółow ops metod wsteczne propagac błędu można znaleźć w [Oso]. 4. Krok 3 powtarzam dla wszstkch wzorców uczącch. Prezentaca wszstkch wzorców ze zboru uczącego nazwa sę epoką. Trenng sec wmaga welu epok uczena. W efekce uczena mnmalzowan est błąd średnokwadratow po wszstkch wzorcach uczącch: E M e mn 8
ALGORYTM WSTECZNEJ PROPAGACJI BŁĘDU Celem est mnmalzaca funkc błędu sec: E m () () m n () e ( ˆ ) g w v + w v g w g k w () k, k + w () v Do znalezena mnmum stosue sę metodę gradentową zwaną metodą nawększego spadku, zgodne z którą przrost wag określa sę wg kerunku uemnego gradentu: w η E(w) gdze w est wektorem wag, η > współcznnkem uczena, a E E E E( w ),,..., () () () w, w, w m est gradentem błędu. E.8.6.4. w - gradent funkc błędu.5.5 w -.5 - -.5 - w - - - w - - 9
ALGORYTM WSTECZNEJ PROPAGACJI BŁĘDU Pochodne cząstkowe funkc błędu względem wag warstw wścwe: m () () () gdze u w v + w v. E w () g( u ( ˆ ) u () () ) v,,,..., m () ( ) g( u ) Wprowadźm oznaczene: δ ( ˆ ), stąd regułę aktualzac wag neuronu wścowego () u można zapsać: () () w ηδ v. Pochodne cząstkowe błędu względem wag warstw ukrte: E w () k, () () ˆ v g( u ) () g( u ) ( ˆ ) ( ˆ ) wk, () k,,..., m; k,,..., n () () v wk, u u () gdze u w n k () k, k.
ALGORYTM WSTECZNEJ PROPAGACJI BŁĘDU () () () ( ) g( u ) () g( u ) () () g( u ) E () Przmuąc oznaczene: δ ( ˆ ) w () k, δ w () k, otrzmue sę δ () () k u u u w wzór na aktualzacę wag neuronów warstw ukrte: () () w k, ηδ Po wznaczenu poprawek dla wag dokonue sę aktualzac wag: w( l + ) w( l) + w Metoda wsteczne propagac błędu wmaga, a b funkce aktwac bł różnczkowalne. Skuteczność metod zależ od kształtu funkc błędu (welomodalność, płaske obszar), punktu startowego wag, długośc kroku (η). Algortm utka w mnmach lokalnch. Istneą nne metod uczena, które w uproszczon sposób wznaczaą kerunek przesunęca wektora wag (algortm: zmenne metrk, Levenberga Marquardta, gradentów sprzężonch). k k,
ALGORYTM WSTECZNEJ PROPAGACJI BŁĘDU Przkładow przebeg błędu ego gradent w kolench epokach Mean Squared Error (mse) Best Tranng Performance s.9853 at epoch 3 - Tran Best 5 5 5 3 3 Epochs gradent.4..8.6.4. Gradent.497, at epoch 3 5 5 5 3 3 Epochs Po nauczenu sec sprawdzam e dzałane na nowm zborze danch zwanm testowm. Błęd wznaczone na tm zborze śwadczą o akośc dzałana sec.
PROBLEMY UCZENIA SIECI W procese uczena musm rozstrzgnąć klka problemów: ak długo seć ma sę uczć le pownno bć neuronów w warstwe ukrte ake pownn bć funkce aktwac neuronów aką metodę uczena wbrać cz w ak sposób wstępne przetworzć dane..8.6 Jeśl trenng est zbt krótk lub/ lczba neuronów zbt mała -. seć będze nedouczona (duże błęd), zbt dług trenng lub/ -.4 zbt duża lczba neuronów skutkue przeuczenem błęd -.6 uzskane na zborze uczącm będą blske, lecz błęd na -.8 - zborze testowm okażą sę duże. - -.5.5.4. 3
PROBLEMY UCZENIA SIECI Seć pownna posadać zdolność uogólnana (generalzac) zdobte wedz na nowe przkład, które ne uczestnczł w procese uczena. Ab wzmocnć tę zdolność w trakce uczena w każde epoce testue sę seć na tzw. zborze waldacnm. Jeśl błąd na tm zborze przestae maleć lub zaczna wzrastać, co oznacza, że seć trac zdolność uogólnana, przerwa sę trenng. Best Valdaton Performance s.3974 at epoch Mean Squared Error (mse) - - Tran Valdaton Test Best 5 5 5 6 Epochs 4
DOPASOWANIE MODELU Output ~.8*Target + 4. Output ~.8*Target + 4.5 5 4 3 5 4 3 Tranng: R.97 Data Ft Y T 3 4 5 Target Test: R.934 Data Ft Y T 3 4 5 Target Output ~.8*Target + 4 Output ~.86*Target + 3 5 4 3 5 4 3 Valdaton: R.9993 Data Ft Y T 3 4 5 Target All: R.956 Data Ft Y T 3 4 5 Target Współcznnk determnac: R M M ( ) ( ) ) gdze wartość średna pożądanch odpowedz (target). R, -,5 - dopasowane nezadowalaące,5 -,6 - dopasowane słabe,6 -,8 - dopasowane zadowalaące,8 -,9 - dopasowane dobre,9 -, - dopasowane bardzo dobre Lczba przpadków 5 Hstogram - Błąd Zero Error 5