Sztuczne sieci neuronowe Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyi,. 311
Wyład 3 PLAN: - Reetitio (brevis) - Algorytmy mięiej selecji: algorytmy ewolucyjne symulowane wyżarzanie -Zastosowanie sieci neuronowych do lasyfiacji statystycznej: statystyczny model lasyfiacji arosymacja a osteriori w sieciach MLP robabilistyczne sieci neuronowe - Oowieść o angurach
Reetitio W asecie architetury: zajmowaliśmy się tylo sieciami tyu feed-forward W asecie działania ojedynczego neuronu: rozważaliśmy tylo neurony sigmoidalne oraz radialne
Reetitio (cd.) W asecie uczenia: szczegółowo rzedstawiono tylo gradientowe algorytmy uczenia nadzorowanego: bacroagation (wraz z modyfiacjami inercyjnymi) (algorytm I rzędu) metodę zmiennej metryi (algorytm II rzędu) metodę gradientów srzężonych (algorytm I rzędu)
Algorytmy mięiej selecji Algorytmami mięiej selecji nazywamy algorytmy umożliwiające acetowanie wzrostu minimalizowanej funcji celu, o to by ewentualnie ominąć strefę rzyciągania minimum loalnego. Do najbardziej znanych należą metody bazujące na: Algorytmach ewolucyjnych (genetycznych) Symulowanym wyżarzaniu (odrężaniu)
Algorytmy ewolucyjne (AE) Pierwowzorem AE były algorytmy genetyczne (AG), tóre bazowały na zjawisu doboru naturalnego wystęującego w rzyrodzie ożywionej Podstawowa strutura danych: chromosom (ciąg genów). Dla chromosomów haloidalnych ojedynczy chromosom jest równoważny genotyowi
Genoty i fenoty w AE W AE chromosom rerezentuje jedno otencjalne rozwiązanie Znaczenie tego rozwiązania, czyli fenoty jest definiowane z zewnątrz rzez użytownia
AE w dziedzinie sieci neuronowych Fenotyami rozważanymi rzez nas są sieci neuronowe Chromosomami zaś są ewne rerezentacje sieci neuronowych oddane rzetwarzaniu w algorytmie ewolucyjnym
Podstawowe oeratory genetyczne Selecja (odowiada za dobór naturalny fenotyów) Krzyżowanie lub reombinacja (odowiada wymianie fragmentów chromosomów) Mutacja (odowiada rzyadowej zmienności genów w chromosomie)
Zadania oeratorów genetycznych Zadaniem selecji jest statystycznie bardziej rawdoodobny wybór tych fenotyów (a ośrednio tych chromosomów), tórych doasowanie (czyli funcja celu) jest więsza od ozostałych fenotyów oulacji Zadaniem rzyżowania i mutacji jest generowanie nowych otencjalnych rozwiązań.
Algorytmy genetyczne vs algorytmy ewolucyjne W AG chromosomy są zdefiniowane jao łańcuchy bitów. Transformacją taich chromosomów do rzestrzeni zadania zajmowały się somliowane funcje deodujące W AE ostuluje się zejście z rerezentacją chromosomów ta bliso rozwiązywanego zadania, ja to jest możliwe. Rerezentacje chromosomów ulegają więc znacznemu oszerzeniu. Najczęściej jedna stosuje się rerezentacje zmiennoozycyjne, w tórych chromosom to rosty ciąg liczb rzeczywistych
Tyowy algorytm ewolucyjny Inicjalizacja sztucznego świata; // małe creatio e nihilo Poolenie = 1; //Adam i Ewa Oblicz doasowanie; while (not warune_zaończenia) do Selecja; // homo homini luus est Krzyżowanie; // troszę rzyjemności z wymiany genów Mutacja; // ta zaewne owstały rasnoludi Inc (Poolenie); Oblicz doasowanie; end while; Mamy Poolenie NADKRASNALI; // Pora się obudzić
Oerator rzyżowania sieci neuronowych rodzice otome
Oerator mutacji sieci neuronowej rodzic otome
Cele stosowania AE w dziedzinie sieci neuronowych Uczenie sieci: doasowanie oreśla się jao f = 1 E znormalizowane Poszuiwanie otymalnej strutury sieci: roblem nauowo otwarty: nietrywialne definicje oeratorów genetycznych, tzw. roblem ermutacji: wiele różnych struturalnie sieci jest identyczna funcjonalnie)
Symulowane wyżarzanie ochodzenie metody Bazę stanowi analogia (znana fizyce statystycznej) tworzenia ryształu ciała stałego orzez owolne wymrażanie Minimalny stan energetyczny odowiadający ryształowi osiąga się tylo orzez owolne obniżanie temeratury, ta by w ażdej temeraturze dochodziło do sełnienia równowagi termicznej
Symulowane wyżarzanie ja stosować algorytm dla SN Przyisać funcji energetycznej wartość minimalizowanej funcji błędu SN Wyrażając temeraturę w jednostach energii można rzedstawić uczenie sieci neuronowej ja na nastęnym slajdzie.
Symulowane wyżarzanie - algorytm S = S 0 ; // rozwiązanie oczątowe T = T 0 // temeratura oczątowa while (not warune_ońca) do while (not stan_równowagi) do S = losowo_generowane_sąsiednie_rozwiązanie; E = E (S ) E (S); if ( E < 0) or (RND < e (- E/T)) then S = S ; end if; end while; Atualizacja T; end while; S znalezione rozwiązanie
Dobór temeratury w algorytmie symulowanego wyżarzania Dobór temeratury może być doonywany według wzoru: T ( t ) n T = 0 1+ ln gdzie: t n jest olejnym cylem rzetwarzania t n
Klasyfiacja statyczna Wynii lasyfiacji w roach orzednich nie wływają na lasyfiację w chwili bieżącej Przyładem jest lasyfiacja doonywana rzez WYTRENOWANĄ sieć neuronową
Klasyfiacja statystyczna - motywacja Klasyfiowane wetory cech są obarczone załóceniami owstałymi w różnego rodzaju rzetwarzaniu wstęnym Najczęściej załócenia są złożeniami niezależnych załóceń elementarnych, zatem wyniowe załócenia mają normalny rozład gęstości Rezultatem jest częściowe naładanie się w rzestrzeni cech regionów należących do oszczególnych las: lasyfiacja bezbłędna jest niemożliwym do sełnienia ideałem
Klasyfiacja statystyczna losowa lasa abstracji Wyeliminowanie determinizmu lasyfiacji daje odstawy do wrowadzenia ojęcia losowej lasy abstracji Losowa lasa abstracji wyznaczana jest orzez funcję ( C ) oreślającą gęstość rawdoodobieństwa rzynależności wetora do lasy C
Klasyfiacja statystyczna - cele Ponieważ dla wielu może zachodzić jednocześnie: ( C ) > 0, zatem wiele wetorów cech nie może być zawalifiowanych jednoznacznie do jednej tylo lasy Dlatego celem lasyfiacji statystycznej jest lasyfiacja, tórej odowiada najmniejsze rawdoodobieństwo nierawidłowej decyzji (uwzględniając również oszty błędnych decyzji w ostaci dodatowych wag).
Klasyfiacja statystyczna - oznaczenia ( C ) rozład oreślający losowe lasy abstracji P (C ) rawdoodobieństwo a riori lasy C () rozład rawdoodobieństwa wetora cech P (C ) rawdoodobieństwo a osteriori rzynależności do lasy C o zaobserwowaniu wetora cech
Reguła Bayes a Prawdoodobieństwo oniuncji zdarzeń zależnych (ierwsza ostać): P( C, ) = P( C ) ( ) Prawdoodobieństwo oniuncji zdarzeń zależnych (druga ostać): ( C, ) = ( C ) P( C ) P Wniose (reguła Bayes a): P ( C ) = ( C ) P( C ) ( )
Mianowni we wzorze Bayes a jest niezależny od lasy Ponieważ rawdoodobieństwo zdarzeń niezależnych wyraża się wzorem: ( ) = P( C, ) = ( C ) P( C ) Zatem mianowni wzoru Bayes a ełni tylo rolę normalizującą, by rawdoodobieństwa a osteriori sumowały się do jedności: P C = ( ) 1
Problem oreślenia reguły lasyfiacji w modelu z nieewnością losową Oreślenie reguły decyzyjnej jest w ogólności zależne od celu lasyfiacji Najczęściej rzyjmuje się minimalizację strat średnich wyniłych z błędnego zawalifiowania Czasami jedna minimalizować można straty masymalne, minimalne lub najbardziej rawdoodobne
Cel: minimalizacja strat średnich Średnia strata wyniła z sytuacji, iż wetor cech został zawalifiowany do lasy C j, oznaczana jao r j (), jest dana wyrażeniem: r j K ( ) = L ( ) j P C = 1 gdzie: L j oznacza stratę owstałą z zawalifiowania do lasy C j obrazu fatycznie należącego do lasy abstracji C.
Cel: minimalizacja strat średnich (cd.) Stosując wzór Bayes a otrzymujemy: r j ( ) = 1 ( ) K = 1 L j ( ) C P( C )
Założenie: straty ze wszystich błędnych decyzji są sobie równe Wówczas funcję strat L j można rzedstawić jao: Lj = 1 δ j Gdzie: δ j = 0 1 = j j
r j Straty średnie (cd.) Podstawiając wzór na L j do wzoru na r j () dostajemy: K K 1 ( ) ( ) ( ) ( ) ( ) C P C δ C P( C ) = = 1 = 1 Uwzględnienie wzoru na rawdoodobieństwo całowite oraz fatu, że δ j jest różne od zera tylo dla = j, rowadzi do: r j ( ) = 1 1 ( C ) P( C ) ( ) j j j
Wzór ońcowy na straty średnie Stosując jeszcze raz rawo Bayes a otrzymujemy ostatecznie: j ( ) ( ) = 1 C r P j
Klasyfiacja w modelu z nieewnością losową- odsumowanie δ ( ) ( C ) rj = 1 P r j j - funcja strat średnich owstałych rzy zalasyfiowaniu wetora cech jao należącego do lasy abstracji C j ( ) = C P( C ) > P( C ) j Reguła decyzyjna: wetor cech owinien być zalasyfiowany do tej lasy abstracji C, dla tórej rawdoodobieństwo a osteriori P (C ) jest najwięsze Cyran K. A., Jaroszewicz L. R., Automatic Image Recognition Based on Diffraction Method and Artificial Neural Networ, Stare Jabłoni 2000, j
Kryterium odrzucenia Ponadto w modelu z nieewnością losową można zdefiniować tzw. ryterium odrzucenia: ma P ( C ) θ < θ slasyfiu odrzu ć j
Podstawowy roblem lasyfiacji statystycznej a SN Ponieważ reguła decyzyjna oiera się na orównaniu rawdoodobieństw a osteriori rzynależności wetorów cech do las, zatem aby ją stosować należy znać te rawdoodobieństwa Ja zostanie oazane za chwilę, właściwie nauczone sieci neuronowe otrafią arosymować te rawdoodobieństwa z wzorców uczących.
Sieci neuronowe w lasyfiacji statystycznej - założenia Niech lasyfiator neuronowy uczony jest dużą liczbą rzyładów uczących w ostaci ar (, C j ) gdzie jest wetorem wejściowym (wetorem cech) a C j rawidłową lasą abstracji odowiadającą temu wetorowi. Indes j = 1,..., K, odowiada numerowi lasy abstracji, a K jest ilością las do rozoznania. Niech ary (, C j ) mają rozład rawdoodobieństw (, C j ) Niech y () będzie wartością ojawiającą się na -tym neuronie wyjściowym. Oczywiście zachodzi również: = 1,..., K.
Sieci neuronowe w lasyfiacji statystycznej - założenia (cd.) Wymagane odowiedzi sieci oznaczane rzez T j sełniają zależność: 1 T j = 0 = j j
Sieci neuronowe w lasyfiacji statystycznej roblem uczenia Uczenie jest minimalizacją sumy funcjonału błędu średniowadratowego liczonej o wszystich lasach i wszystich wetorach roorcjonalnie do ich rozładu rawdoodobieństw. Jest zatem minimalizacją wyrażenia E danego wzorem: E = ( ) ( ( )) 2, C T y d j j j
Sieci neuronowe w lasyfiacji statystycznej uczenie (cd.) Przedstawmy funcję błędu E jao: E = j ( )( ( )) 2, C T y d = E d j j Gdzie: E (, C )( T y ( ) ) = j j j 2
Sieci neuronowe w lasyfiacji statystycznej uczenie (cd.) Ponieważ E jest dodatnie dla dowolnego oraz, zatem minimalizując go minimalizuje się również E. Rozdzielając wyrażenie na E na dwie części dla: j = oraz j dostajemy: E = (, C ) 1 y ( ) ( ) 2 ( ) 2 + ( ), C j y j
Sieci neuronowe w lasyfiacji statystycznej uczenie (cd.) Kolejno rzeształcamy to wyrażenie: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 2, 2 1, y C y y C E + + = ( ) ( ) ( ) ( ) ( ) 2, 2, y y C C E + = ( ) ( ) ( ) ( ) ( ) ( ) 2 2 y y C C E + = ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 2 2 2 y y C C C C E + + + =
Sieci neuronowe w lasyfiacji statystycznej uczenie (cd.) Otrzymujemy ostatecznie: E = ( ) ( C ) ( 1 ( C ) ) + ( ) ( ( C ) y ( ) ) 2 Widać, że E jest minimalizowane gdy: ( ) ( ) C y =
SSN rzybliżają na wyjściach rawdoodobieństwa a osteriori E SSN generuje na wyjściu y dla wetora wejściowego bład E dany rzez: = ( ) ( C ) ( 1 ( C ) ) + ( ) ( ( C ) y ( ) ) 2 Ponieważ ierwszy sładni sumy nie zależy od y, błąd jest minimalizowany gdy: ( ) ( C ) y = Z drugiej strony uczenie SSN minimalizuje błąd E,, dlatego: właściwie wytrenowane SSN rzybliża rawdoodobieństwa a osteriori oszczególnych las abstracji C
Probabilistyczne sieci neuronowe Są dedyowane do zadań lasyfiacji statystycznej Uczenie jednorzebiegowe Są secjalizowanymi sieciami RBF dedyowanymi do generowania estymatorów jądrowych gęstości warunowych rawdoodobieństw wyorzystywanych w lasyfiacji statystycznej
Probabilistyczne sieci neuronowe - strutura Warstwa sumacyjna... M Warstwa wzorców......... Warstwa wejściowa... N Cechy charaterystyczne
Probabilistyczne sieci neuronowe - estymacja jądrowa Oznaczenia: zbiór V j ={(s) R N,1 s S j }wetorów cech należących do lasy C j ˆ ( C ) j = 1 S j ( s) V j h 1 ( s, j) N K h ( s) ( s, j)
Oowieść o angurach Tresowany angur osuwa się tylo do góry. Wchodzi na szczyt dowolnie wybranej góry i ma nadzieję, że wejdzie na Mont Everest (algorytm gradientowy) Tresowany angur jest ijany, chodzi tu i tam. W ońcu owoli trzeźwieje i stara się iść w górę w nadziei, że zdobywa Mont Everest (symulowane wyżarzanie) W Himalajach uszczono stado nie tresowanych angurów, tóre nie mają ojęcia co mają robić. Saczą tu i tam. Jedna co ewien zabija się angury lubiące saanie w dolinach w nadziei, że o wielu taich olowaniach, tóryś z angurów lubiących szczyty dotrze w obliże szczytu Mont Everest (algorytmy ewolucyjne)