POZNAN UNIVE RSITY OF TE CHNOLOGY ACADE MIC JOURNALS No 91 Electrical Engineering 2017 DOI 10.21008/j.1897-0737.2017.91.0017 Stanisław PŁACZEK* WIELOKRYTERIALNY DOBÓR PARAMETRÓW OPERATORA MUTACJI W ALGORYTMIE EWOLUCYJNYM UCZENIA SIECI NEURONOWEJ Imlementacja Algorytmów Ewolucyjnych (AE) do zadań uczenia Sztucznych Sieci Neuronowych (SSN) nie jest zadaniem łatwym. Zastosowanie algorytmów ewolucyjnych wyeliminowało ograniczenia algorytmów gradientowych lecz niestety naotykamy na szereg nowych roblemów. W artykule analizuje się dwuwarstwową sieć neuronową, w której, w charakterze genotyu rzyjmuje się dwa chromosomy ołączone szeregowo. Tworzy się całą oulację sieci neuronowych o indywidualnych własnościach chromosomów. oblicza się wartości funkcji celu oraz realizuje się roces selekcji. W roonowanym rozwiązaniu eliminuje się algorytm krzyżowania i stosuje się tylko mutację. Oerator mutacji, jego arametry mogą być identyczne dla dwóch chromosomów, różne i nieskorelowane lub różne i skorelowane. W artykule analizuje się różne charakterystyki algorytmu mutacji, zalety i wady. KEYWORDS: algorytmy genetyczne, algorytmy ewolucyjne, sztuczne sieci neuronowe, algorytmy uczenia sieci, algorytmy selekcji, krzyżowania, mutacji 1. PODSTAWOWE CHARAKTERYSTYKI Bazą Algorytmów Ewolucyjnych są dwa odstawowe czynniki mające największy wływ na jakość i zbieżność algorytmu: Oeratory wariacji, do których zaliczamy dwuarametryczne krzyżowanie oraz jednoarametryczną mutację. Oeratory działają w rzestrzeni genotyu i maja wływ na dywersyfikację członków oulacji, a tym samym na wrowadzenie do oulacji nowej jakości osobników. Selekcja, działająca w łaszczyźnie fenotyu aktywnie wływająca na średnią jakość doasowania osobników do funkcji celu Należy odkreśli, że nie wszystkie arametry AE są deterministyczne. Wręcz rzeciwnie, wiele z nich odlega różnym rozkładom statystycznym w zależności od otrzeb i ozycji w AE ( binarny, jednorodny, niejednorodny, normalny, Cauchy, wielomianowy). W rocesie selekcji, okolenie otomków * Akademia Finansów i Biznesu Vistula.
176 Stanisław Płaczek wybierane jest algorytmem stochastycznym czyli nawet najmniej doasowani osobnicy mają szansę bycia rodzicem nastęnego okolenia. Tym niemniej roces selekcji w sosób stochastyczny dąży do wyboru najleszych osobników i zawężania w ten sosób rzestrzeni oszukiwań. Proces ten nazywa się naorem selekcyjnym (selection ressure) i ma negatywny wływ na roces rzeszukiwania i zbieżności. Powyższa właściwość jest bardzo ważna w wielomodalnych funkcjach celu, którymi charakteryzują się funkcje celu SSN. Funkcja uczenia SSN zdefiniowana jest jako nieliniowa funkcja wag sieci oraz nieliniowej funkcji aktywacji minimalizującej błąd średniokwadratowy, dla każdego wektora uczącego,omiędzy wektorem wyjściowym Y a wektorem uczącym Z. W dwuwarstwowych SSN z nieliniowymi funkcjami aktywacji, funkcja celu charakteryzuje się wieloma maksimami oraz minimami. Celem każdego algorytmu uczenia SSN jest znalezienie globalnego minimum i uniknięcia zatrzymania się w lokalnym minimum dalekim od globalnego celu. W roonowanym rozwiązaniu zastosowania Algorytmu Ewolucyjnego do uczenia dwuwarstwowej SSN eliminuje się dwuargumentową oerację krzyżowania. Wykorzystuje się jednoargumentowy oerator mutacji. Powyższe ozwoli na skoncentrowanie się tylko na arametrach jednego oeratora i ich wływu na jakość rocesu uczenia. 2. STRUKTURA ALGORYTMU EVOLUCYJNEGO Dwuwarstwowe sieci neuronowe zdefiniowane są jako uniwersalne nieliniowe aroksymatory funkcji wielu zmiennych, realizujące funkcje nieliniowe w ostaci: Y = F(X) (1) gdzie: X wektor wejściowy sieci, Y wektor wyjściowy sieci, F realizowana funkcją wektorową wielu zmiennych. Algorytm uczenia sieci neuronowej jest zdeterminowanym algorytmem szeregowym oerującym na jednym egzemlarzu modelu sieci. Podstawowy model uczenia sieci w oarciu o AE jest diametralnie inny. Po ierwsze jest algorytmem stochastycznym, w którym decyzje co do orawy kierunku oszukiwać globalnego minimum są realizowane w dużym stoniu stochastycznie. Po drugie jest algorytmem równoległym oierającym na całej oulacji sieci neuronowych (rys. 1). Definiuje się zbiór (oulację) sieci z jednym wektorem wejściowym X, indywidualnymi wektorami wyjściowymi: Y i gdzie i = 1, 2, 3,... osize osize wielkość oulacji oraz wsólnym wektorem uczenia Z.
Wielokryterialny dobór arametrów oeratora mutacji w algorytmie... 177 2.1. Rerezentacja osobników Rys. 1. Struktura AE dla dwuwarstwowej sieci neuronowej Jedną z ierwszych, jeżeli nie najważniejszych decyzji, jest rerezentacja SSN jako osobnika oulacji. Każdy z osobników składa się z dwóch macierzy W1, W2 oraz funkcji aktywacji, tworząc w ten sosób nieliniową strukturę rzetwarzania informacji. Pierwotna, zaroonowana w Algorytmach Genetycznych, binarna struktura osobnika nie będzie odowiednia dla jego macierzowej struktury. Dla stosunkowo niedużych macierzy zawierających n. N 0 = 30 neuronów wejściowych, N 1 = 50 neuronów ukrytych oraz N 2 = 5, neuronów wyjściowych, macierz W1 zawiera 31*50 = 1550 wsółczynników wagowych. Natomiast macierz W2, 51*5=255 wsółczynników. Tak więc sumaryczna długość chromosomu, składającego się z 1550 genów, tylko dla jednej macierzy, wynosi 37200 bitów. Jest to wartość stosunkowo duża i oerowanie tak długimi ciągami nie jest otymalne z obliczeniowego unktu widzenia. Kod binarny do rerezentacji wsółczynników wagowych macierzy W1 nie jest więc odowiedni. Natomiast wyrażanie wsółczynników macierzy w liczbach rzeczywistych jest dobrym wyborem. Uwzględniając szeregowe rzetwarzanie sygnałów w każdej sieci, otymalną strukturą będą dwa chromosomy rerezentujące odowiednie macierze. Każdy chromosom zawiera zbiór genów rerezentujących stosowne wsółczynniki wagowe oraz funkcje aktywacji. W ten sosób stworzyliśmy zbiór (oulację) dwuchromosomowych osobników, z których każdy rerezentuje sieć neuronową o indywidualnych charakterystykach. 2.2. Funkcja celu Funkcja celu jest rerezentowana rzez zbiór indywidualnych funkcji celu osobników: 1 2 3 osize [,,,... ] (2)
178 Stanisław Płaczek Indywidualna funkcja celu jest zdefiniowana odobnie jak funkcja celu algorytmu wstecznej roagacji błędu: T min ( Y Z) ( Y Z) (3) gdzie: = 1, 2, 3,... osize oulacja (zbiór) osobników. W oarciu o wzór (3) obliczana jest indywidualna funkcja celu osobnika, która w kolejnych krokach algorytmu będzie rzetwarzana w kroku selekcji. Drugim oważnym roblemem, który musi rozstrzygnąć rojektant AE jest ilość otomków generowanych w rocedurze selekcji. Jeżeli ilość otomków będzie większa niż liczność odstawowej oulacji (rodziców), algorytm bardziej dokładnie będzie rzeszukiwał rzestrzeń rozwiązań. Z drugiej strony zwiększenie ilości otomków związane jest z większym nakładem obliczeniowym. W rzykładzie obliczeniowym rzyjmuje się identyczną liczność oulacji odstawowej i otomków. 2.3. Elementy Algorytmu Ewolucyjnego Istnieją zasadnicze różnice omiędzy algorytmem szeregowym uczenia sieci oraz AE. AE rzetwarza zbiór osobników w sosób równoległy. AE w kolejnych iteracjach nie oblicza orawek dla wsółczynników wagowych, tylko stosując selekcję i mutacje oblicza nowe wartości wsółczynników wagowych dla nowo owstałej oulacji otomków. AE są algorytmami stochastycznymi stosującymi dane generowane o różnych rozkładach. W schemacie na rys. 2 można wydzielić najważniejsze komonenty AE: Podstawowe arametry AE takie jak arametry SSN, wielkość oulacji, ty algorytmu mutacji, rawdoodobieństwo mutacji, wartość rozroszenia mutacji, kryterium stou, Poulacja oczątkowa, czyli zadanie zrandomizowanej wartości wag sieci z rzedziału ( 1;1) dla macierzyw1 oraz W2 dla całej oulacji, Obliczanie wartości funkcji celu dla każdego osobnika wg wzoru (3) oraz odstawowych charakterystyk jakości AE, Srawdzenie jakości uczenia w oarciu o kryterium stou, Modyfikacja funkcji celu z minimum na maksimum funkcji celu, Selekcja otomków metodą wielogwieździstej ruletki, W oarciu o rawdoodobieństwo mutacji, modyfikacja wybranych wag dla całej oulacji, Koiowanie nowo wygenerowanej oulacji otomków do zbioru rodziców. Podstawiając jako wektor X nowe wartości danych wejściowych z aczki danych uczących, cały roces owtarza się aż zostanie sełnione kryterium stou.
Wielokryterialny dobór arametrów oeratora mutacji w algorytmie... 179 2.4. Modyfikacja funkcji celu Rys. 2. Ogólna struktura algorytmu ewolucyjnego Algorytmy uczenia SSN oszukują minimum funkcji celu oisanej wzorem (3). Dla otrzeb AE zachodzi konieczność modyfikacji funkcji celu z minimum na maksimum, co sowodowane jest koniecznością obliczenia rawdoodobieństw w rocedurze selekcji. max[ ( x)] min[ ( x)] (4) Niestety, owyższe nie gwarantuje, że w trakcie realizacji AE, zawsze będzie sełniony warunek (x) 0. Najleiej dobrać taką dodatnią wartość C aby dla każdej lokalnej funkcji celu sełniony był warunek: C ( x) 0 (5) Okazuje się, że w raktyce bardzo trudno dobrać odowiednia stała wartość C. Zbyt duża wartość może wrowadzić niestabilność AE, natomiast zbyt mała wartości, może nie sełnić warunku (5). Najleszym rozwiązaniem może być rzyjęciem kroczącej wartości arametru C, czyli najgorszą ( największą) wartość funkcji celu w danej oulacji i danej iteracji: ( x ) ( x) 0 (6) max
180 Stanisław Płaczek W tym rzyadku, najmniej doasowana funkcja celu, w każdej iteracji rzyjmuje wartość zero. Ostatecznie, funkcją celu AE zdefiniowana zostaje wzorem (7): max{ max ( x) ( x)} (7) 2.5. Algorytm selekcji Celem rocesu selekcji jest wybór, do nastęnego okolenia (okolenia otomków) najleszych osobników z uli rodzicielskiej. Najleszych, znaczy najleiej doasowanych do funkcji celu. Przed rocesem selekcji stawia się dwa wzajemnie srzeczne cele. Z jednej struny wybiera się najleiej doasowane osobniki, co może skutkować bardzo szybką zbieżnością algorytmu do jednego z minimów lokalnych. Powyższe tłumaczy się ojawieniem dużej ilości suer osobników. Ten roces nazywany jest rzedwczesną zbieżnością lub resja selekcyjną. Z drugiej strony trzeba amiętać, żeby względnie długo rzeszukiwać całą rzestrzeń rozwiązań orzez dywersyfikację oulacji. Różne algorytmy selekcji osiadają swoje wady i zalety. W standardowej metodzie ruletki oczekiwana ilość osobników w oulacji otomków jest roorcjonalna do wielkości rawdoodobieństwa danego osobnika. Oczywiście, w raktycznej realizacji algorytmu selekcji w oszczególnych iteracjach ta zależność nie zawsze jest sełniona. Może się zdarzyć, że nawet osobniki o stosunkowo wysokim rawdoodobieństwie nie wystąią w oulacji otomków. Zostaną rzez roces selekcji ominięci. Tak więc orócz obciążenia selekcyjnego może wystąić również błąd selekcji różnica omiędzy rzeczywista ilością wyselekcjonowanych osobników a wartością oczekiwana. Najoularniejszą jest metoda uniwersalnej stochastycznej ruletki rys. 3. Rys. 3. Schemat uniwersalnej ruletki z jednoczesnym wyborem osobników do uli otomków Ruletka osiada osize strzałek, równomiernie rozłożonych na całym obwodzie koła ruletki. Kąt omiędzy strzałkami wynosi,
Wielokryterialny dobór arametrów oeratora mutacji w algorytmie... 181 2 i (8) osize Symulując rogramowo obrót ruletki orzez wylosowanie liczby rzyadkowej U(0,1) określono kat oczątkowy ustawienia ierwszej strzałki, każda nastęna wybierze swój sektor. Niektóre strzałki mogą wybrać dwa lub trzy razy dany sektor (wszystko zależy od rawdoodobieństwa doasowania). Z drugiej strony ozostałe strzałki mają równe szanse na wybór sektorów o małym rawdoodobieństwie. Ruletka w sosób równoległy dokona wyboru osobników do uli otomków zgodnie z oczekiwanymi wartościami. Znika roblem obciążenia selekcji. 2.6. Wybór algorytmu i arametrów mutacji Dla genu w1 ij lub w2 kj danego osobnika z oulacji osize, zdefiniować musimy jego domenę wartości. Standardową domeną liczb rzeczywistych jest cała oś liczbowa. W tej sytuacji wartości z rozkładu unimodalnego mogły by rzyjmować bardzo duże wartości dodatnie jak i ujemne. W raktyce jednak, wartości wag w macierzy ołączeń rzyjmują ograniczone wartości, tym bardziej jeżeli wektor danych wejściowych i wyjściowych jest wystandaryzowany w rzedziale [ 1;1]. Wykorzystując rawdoodobieństwo mutacji m wyselekcjonowano dany gen i zmieniono jego wartość na: w ij rand( a, b) (9) gdzie: a, b odowiednio dolna i górna granica domeny. Oisany algorytm mutacji jest bardzo rosty lecz obarczony wieloma wadami. Przede wszystkim, należy arbitralnie określić szerokość domeny. Również jego wływ na szybkość zbieżności AE jest negatywny. Mutacja o rozkładzie normalnym charakteryzuje się leszymi arametrami. Uwzględniając charakterystykę rozkładu normalnego, ograniczamy rzedział zmienności mutacji w zakresie ( w 3 ; w 3 ) (10) ij gdzie: standardowe rozroszenie, które musi określić rojektant. Zgodnie z arametrami rozkładu normalnego, w rzedziale zdefiniowanym owyżej, zawarte jest 99% wartości zmiennej. Mutację genu dla W1 oraz W2 obliczamy wg wzorów (11) i (12): w1 ( n 1) w1 ( n) N (0,1) (11) ik ik ij ij ij w2 ( n 1) w2 ( n) N (0,1) (12) W owyższych wzorach (11) i (12), dla wszystkich genów w oulacji wykorzystujemy ten sam rozkład normalny N(0,1).
182 Stanisław Płaczek W rzykładzie numerycznym wykorzystano owyższy algorytm mutacji o rozkładzie normalnym. 2.7. Parametry jakościowe algorytmu Algorytm Ewolucyjny sterowany jest wieloma arametrami i bardzo trudno uchwycić wływ oszczególnych arametrów na jakość rocesu uczenia, w tym na szybkość zbieżności. Należy również uwzględnić arametry charakteryzujące strukturę dwuwarstwowej sieci neuronowej. Ponieważ AE jest rocesem stochastycznym więc najleszą miara będą średnia oraz rozroszenie. Wartość minimalna i maksymalna funkcji doasowania w danej iteracji min V i osize V j osize { max i j } (13) max V i osize V j osize { max i j } (14) Różnica, czyli rozrzut max min (15) Średnia wartość funkcji doasowania dla całej oulacji. osize 1 aver i (16) osize i 1 Bardzo ważnym arametrem jest rozroszenie funkcji doasowania od wartości średniej. Wartość ta owinna się zmniejszać w miarę ostęu rocesu uczenia. Var 1 osize osize i 1 ( i aver ) 2 (17) W rocesie uczenia wartość arametru mutacji może być stała lub się zmieniać w funkcji nr iteracji. Powyższe jest zgodne z ogólnym sojrzeniem na AE. W ierwszym etaie uczenia, cała rzestrzeń rozważań owinna być rzeszukiwana, w celu wyeliminowania otencjalnych minimów lokalnych. W końcowym etaie należy koncentrować się na najbardziej rawdoodobnej rzestrzeni rozwiązania, czyli zawężać obszar rzeszukiwania. W rzykładzie numerycznym zastosowano: a iter ocze (18) gdzie: ocz zadana oczątkowa wartość rozroszenia arametru mutacji, iter bieżący numer iteracji rocesu uczenia. 3. PRZYKŁAD NUMERYCZNY I PODSUMOWANIE W charakterze rzykładu zastosowania AE do uczenia SSN zbadamy roces filtrowania zakłóconego sygnału szumem o rozkładzie normalnym.
Wielokryterialny dobór arametrów oeratora mutacji w algorytmie... 183 Rys. 4. Sygnał zniekształcony szumem gaussowskim użyty do testowania sieci W sieci neuronowej zmieniamy tylko jeden arametr ilość neuronów w warstwie ukrytej. Natomiast w AE oceniamy wływ arametrów oeratora mutacji o rozkładzie normalnym na szybkość zbieżności i jakość rocesu uczenia. Rys. 4 rzedstawia kształt sygnału użytego do uczenia sieci. Rys. 5. Kształt błędu uczenia najleszej sieci (osobnika) w funkcji iteracji Przyjmując większe rawdoodobieństwo mutacji, średnia ilość genów w dwóch chromosomach odlegających zmianie jest większa. Cały roces rzeszukiwania rzestrzeni rozwiązań jest bardziej dynamiczny. Niestety, wraz ze wzrostem dynamiki, wzrasta niebezieczeństwo ojawienia się oscylacji i niestabilności całego rocesu uczenia. W literaturze nie odaje się wskazówek teoretycznych związanych z zasadami doboru m. Na rys. 5 okazano zależność błędu uczenia najleszego osobnika w funkcji co dziesiątej iteracji. Na rys. 6 i 7 okazano jak ważny jest odział danych wejściowych na dane uczące i weryfikujące (testowe). Nauczona siec nie zawsze osiada zdolności generalizacji nabytych umiejętności. W trakcie rzebiegu AE, dokonuje się omiarów wielu wielkości zdefiniowanych wzorami (13 17).
184 Stanisław Płaczek Rys. 6. Porawny sygnał wyjściowy dla danych weryfikujących jakość uczenia sieci Rys. 7. Błędny sygnał wyjściowy dla danych weryfikujących jakość uczenia sieci Rys. 8. Zmiana rozroszenia doasowania w funkcji nr iteracji
Wielokryterialny dobór arametrów oeratora mutacji w algorytmie... 185 Rys. 9. Wływ arametrów sieci i AE na rzebieg rocesu uczenia Rysunek 8 rzedstawia zmianę dynamiki uczenia. Na oczątku osobnicy (sieci neuronowe) są rozroszone w całej rzestrzeni rozwiązań. W kolejnych iteracjach nastęuje koncentrowanie się osobników na najbardziej ersektywicznym rozwiązaniu. Przebieg tego rocesu owinien być stabilny i nie za szybko zbieżny do wartości minimalnej. Zbyt szybkie koncentrowanie się osobników wokół jednego rozwiązania, może skutkować znalezieniem lokalnego minimum. Na rys. 9 okazano zależność rocesu uczenia w funkcji niektórych arametrów sieci neuronowej i AE. Prawdoodobieństwo mutacji nie może być zbyt duże ani zbyt małe. Otymalną wartość trudno oszacować. LITERATURA [1] A.E. Eiben, J.E. Smith: Introduction to Evolutionary Comuting, Second Edition, Sringer 2003, 2015. [2] Michalewicz Z.: Genetic Algorithm + Data Structure = Evolutionary Programs, Sringer Verlag Berlin Haidelberg 1996. [3] Montana DJ, Davis L,: "Training Feedforward Neural Network Using Genetic Algorithms. Proceedings of the 1989 International Join Conference on Artificial Intelligence", Morgan Kaufmann Publishers, San Mateo, CA, 1989. [4] David E. Goldberg: Genetic Algorithms in Search, Otimization, and Machine Learning, Addison Veslay Publishing Comany, Inc. 1989. [5] Xinjie Yu, Mitsuo Gen: Introduction to Evolutionary Algorithm, Sringer London 2010. [6] Stefano Nolfi, Dario Floreano: Evolutionary Robotics, The MIT Press, Cambridge, Massachusetts, London.
186 Stanisław Płaczek MULTI BENCHMARK CHOICE OF MUTATION PARAMETERS IN EVOLUTIONARY ALGORITHM OF NEURAL NETWORK LEARNING The otimization of the learning algorithm in neural networks is not a trivial task. Considering the non linear characteristics of the activation functions, the entire task is multidimensional and non linear with a multimodal target function. Imlementing evolutionary comuting in the multimodal otimization tasks gives the develoer new and effective tools for seeking the global minimum. A develoer has to find otimal and simle transformation between the realization of a henotye and a genotye. In the article, a two layer neural network is analyzed. Two serially connected chromosomes reresent the genotye. In the first ste the oulation is created. In the main algorithm loo, a arent selection mechanism is used together with the fitness function. To evaluate the quality of evolutionary comuting rocess different measured characteristics are used. The final results are deicted using charts and tables. (Received: 27. 01. 2017, revised: 15. 02. 2017)