29-3-6 Budowa i własości sztuczch euroów i sieci Elemet, z którch buduje się euroow model Neuro - podstawow elemet sieci Własości eurou determiują: przjęta agregacja dach wejściowch oraz założoa fukcja wjścia x x w w 2 s= gw ( i, xi ) w, K, Zadaia??? = f Jak zróżicować te sgał? ( s) Agregacja liiowa x x w s = w i x i w 2 s g( wi, xi ) w... =, K, euro liiow = s agregacja dach wejściowch obliczeie wartości fukcji aktwacji W przpadku eurou liiowego jego zachowaie daje się łatwo ziterpretować Z euroem liiowm (i z imi euroami budowami a jego bazie) związaa jest jeszcze sprawa wrazu wolego w formule agregacji Czsta agregacja liiowa: s w x x x = wx i i w s g w 2 ( wi, xi ), K, w... ma wadę, polegającą a tm, że charakterstka eurou musi tu przechodzić przez początek układu = = s To adal jest euro liiow! Żeb zachować liiową postać wzoru opisującego euro dodaje się dodatkowe pseudowejście azwae BIAS, które zawsze dostarcza sgał Bogatsze możliwości daje agregacja afiicza (z wrazem wolm w formule): Wted agregacja jest adal liiowa: s = s = w x + w i i w i x i
29-3-6 W przpadku eurou ieliiowego ie jest tak łatwo, poieważ zagregowa (w taki lub i sposób) sgał wejściow może bć przetworzo prz użciu fukcji ieliiowej o teoretczie dowolm kształcie. Własości eurou determiują: przjęta agregacja dach wejściowch oraz założoa fukcja wjścia ---------------- Agregacja liiowa ---------- s = w i x i -------------- euro radial liiow x x w w 2 s= g( wi, xi ) w, K,... ( ) 2 s = w i x i euro ieliiow -------- = s = f ( s) Agregacja radiala Najstarsze prace dotczące sieci euroowch wkorzstwał jako charakterstkę eurou fukcję progową ( wszstko albo ic ). Warto odróżić dwie ieliiowe charakterstki eurou: uipolarą (po lewej) i bipolarą (po prawej) Potem wprowadzoo obszar mootoiczej zależości wejścia od wjścia, wzbogacając możliwości obliczeiowe sieci. Powierzchia odpowiedzi eurou Fukcja przejścia wiąże zagregowae wejścia do eurou z jego sgałem wjściowm x x2 2
x 29-3-6 Róże przkładowe fukcje, wkorzstwae jako fukcje przejścia Fukcje aktwacji eurou może bć dowola, ale ajczęściej stosowae są iżej podae kształt.,5,5-2,9-2,7-2,5-2,3-2, -,9 -,7 -,5 -,3 -, -,9 -,7 -,5 -,3 -,,,3,5,7,9,,3,5,7,9 2, 2,3 2,5 2,7 2,9 Liiowa -,5 Sigmoidala - Tagesoidala -,5 Gaussa Wkres sigmoid w zależości od parametru β β=,5 β= β=2,8,6,4,2 S - -5 5 f ( s) = + exp( βs) + - Fukcja tages hiperbolicz ma praktczie taki sam kształt, tlko jej wartości zmieiają się od - do +, a ie od do + jak w sigmoidzie β=,5 β= β=2,8,6,4,2 S - -5 5 exp( βs) exp( βs) f ( s) = tah( βs) = exp( βs) + exp( βs) Nieliiowe fukcje aktwacji też bwają róże: Dobierając współcziki wagowe wejść eurou moża wpłwać a kształt jego ieliiowej charakterstki! 3
29-3-6 Zapamiętajm: Najczęściej wkorzstwa jest taki model eurou: Najbardziej tpowa struktura sieci zbudowaej z takich elemetów: trójwarstwow perceptro o jedm wjściu x w. :=/(+exp(-.5*x)) x w 2... w s = wx i i.9.7.5.3. -. - -5 5 Sieć zbudowaa z takich euroów azwaa jest zwkle MLP (Multi-Laer Perceptro) Odmieie działającm elemetem użwam w iektórch tpach jest tzw. euro radial (wkorzstwa w sieciach RBF) x t r f Sposób separacji przestrzei dach przez: (a) euro sigmoidal, (b) euro radial... f x-t x t r Agregacja sgałów wejściowch w tm tpie eurou polega a obliczaiu odległości pomiędz obecm wektorem wejściowm X a ustalom podczas uczeia cetroidem pewego podzbioru T Rówież ieliiowa fukcja przejścia w tch euroach ma odmieą formę - dzwou gaussoid - czli jest fukcją iemootoiczą. Sztucz euro jest więc w sumie dosć prostą strukturą, dzięki czemu stosukowo łatwo jest stworzć sieć takich elemetów Sgał wejściowe x x x 2. w w 2 w Zmiee "wagi" Sał wjściow Wejścia x DEFINICJA NEURONU Wagi w x 3 w 2 liear w 3 Blok sumując Σ Blok aktwacji = f ( Σ ( x i * w i )) threshold sigmoid f fukcja ieliiowa f liear limited Wjście 4
29-3-6 Bwał prób budowaia sieci o architekturze ściśle dopasowaej do atur rozwiązwaeg o zadaia (tutaj pokazaa struktura sieci przezaczoa bła do rozpozawaia kodów pocztowch a kopertach) Nie zdało to jedak egzamiu i obecie prz budowie sztuczch sieci euroowch ajczęściej przjmuje się arbitralie, że ich budowa jest złożoa z warstw, podobie jak a przkład struktur euroowe zlokalizowae w siatkówce oka Rówież w korze mózgowej daje się zaobserwować warstwowa budowa Kora wzrokowa Warstwowość kor wzrokowej widać lepiej prz wborze małch jej fragmetów Połączeia do i od poszczególch warstw w mózgu Trzeba jedak dodać, że sieci euroowe w mózgu miewają też zaczie bardziej skomplikowaą strukturę Przkład: schemat kor móżdżku 5
29-3-6 Schemat sztuczej sieci euroowej (uproszczoej) Warstwa wejściowa x Warstwa ukrta (jeda lub dwie) Warstwa wjściowa Działaie sieci zależ od: przjętego modelu eurou, topologii (struktur) sieci, wartości parametrów eurou, ustalach w wiku uczeia Prawdziwe sieci euroowe mają zwkle bardzo wiele wejść, móstwo euroów ukrtch oraz ajczęściej kilka wjść. Tmczasem a prezetowach tu rsukach chętie stosujem schemat, w którm mam zaledwie dwa wejścia, jedo wjście oraz iewiele euroów ukrtch. sgał a wejściu r 2 x Dlaczego? Bo zbiór sgałów wejściowch dla sieci o dwóch wejściach moża łatwo pokazać w postaci puktu a płaszczźie, a wartość sgału a wjściu sieci moża sgalizować a przkład kolorem puktu mi max sgał a wejściu r W dużej sieci trudo jest przedstawić i prześledzić wszstkie połączeia Sieć trójwarstwowa (dwie warstw ukrte) Sieci z bardziej liczmi warstwami ukrtmi ie są szczególie gode poleceia! Poglądowe działaie sieci euroowej 6
29-3-6 Początek działaia sieci euroowej wiąże się z pojawieiem się a jej wejściach sgałów (czerwoe kropki) iosącch owe zadaie do rozwiązaia Sgał wejściowe (ie przetworzoe w żade sposób w warstwie wejściowej) są rozsłae do wszstkich euroów warstw ukrtej Po przetworzeiu sgałów przez euro warstw ukrtej powstają sgał pośredie, kierowae do euroów warstw wjściowej Neuro warstw wjściowej korzstają ze wstępie opracowaej iformacji pochodzącej z warstw ukrtej i obliczają końcowe wiki, będące rozwiązaiem postawioego zadaia Przkładow rozkład pobudzeń euroów w sieci Możliwości itelektuale sieci z większą lub miejszą liczbą warstw ilustruje za schemat Liebmaa 7
.. 9. 7. 5. 3. : =/ (+exp(-. 5*x)) -. - -5 5.. 9. 7. 5. 3. : =/ (+exp(-. 5*x)) -. - -5 5.. 9. 7. 5. 3 : =/ (+exp(-. 5*x)). -. - -5 5.. 9. 7. 5. 3 : =/ (+exp(-. 5*x)). -. - -5 5.. 9. 7. 5. 3. : =/ (+exp(-. 5*x)) -. - -5 5.. 9. 7. 5. 3. : =/ (+exp(-. 5*x)) -. - -5 5.. 9. 7. 5. 3. : =/ (+exp(-. 5*x)) -. - -5 5 29-3-6 Przkładowe rzeczwiste zachowaia sieci jedo-, dwu- oraz trójwarstwowej Niektóre zadaia rozpozawaia potrafią bć aprawdę paskude! Przkładowa zależość błędu popełiaego przez sieć od liczb euroów ukrtch Przpomijm, że obok różorodości wikającej z różego doboru liczb warstw jest jeszcze różorodość wikająca z faktu istieia w sieci euroów różch charakterstkach Błąd 9 8 7 6 5 4 3 2 2 4 6 8 2 4 6 8 2 Liczba euroów ukrtch Najbardziej tpowa struktura: sieć MLP Podstawowe właściwości: wiele wejść i wiele wjść jeda (rzadziej dwie) warstw ukrte ieliiowe charakterstki euroów ukrtch w formie sigmoid W warstwie wjściowej euro mogą bć liiowe lub także mogą mieć charakterstki sigmoidale Uczeie ajczęściej przeprowadzae metodą wsteczej propagacji błędów Często w różch warstwach sieci euro mają róże charakterstki, zarówo ieliiowe jak i liiowe 8
29-3-6 Sieć tpu RBF w zastosowaiu do klasfikacji (wkrwa i sgalizuje skupiska dach wejściowch) Jak uczć taką sieć? Elemet zbioru uczącego dzieloe są a grup elemetów podobch (metodą k-średich, która będzie zaraz opisaa). W charakterze wag euroów radialch stosowae są środki ciężkości każdej wróżioej grup. Przestrzeń sgałów wejściowch oraz wag Określeie wag euroów radialch metodą K-średich Dla próbek wejściowch x..., x x metodę k-meas wkorzstuje się do utworzeia k klastrów, prz czm dla każdego z ich zostaie wzaczo elemet modal, reprezetując umow środek całej grup w przestrzei cech. Metoda k-meas działa w sposób iteracj. W celu wszukaia ajlepszch lokalizacji dla środkowch puktów każdego z klastrów a początek przjmuje się lokalizacji przpadkowe, a potem się je doskoali, tak, ab optmalie dopasować każd wzorzec do klastra dach wejściowch, którego środek jest ajbliżej wzorca. Uproszczo obraz działaia metod k-meas ) Ustaleie środków poszczególch klas za pomocą pierwotch wartości m, m m K. Na początku są to wektor Krok przpadkowo rozrzucoe w przestrzei,..., sgałów wejściowch. 2) Wzaczeie odległości międz wszstkimi próbkami x, x,..., x ciągu, a wszstkimi środkami klas m, m m K, Krok 2,..., d 2 x, m ) = x m = ( x m ) +... + ( x m, dla,...,- oraz j=,...,k- 2 ij ( i j ip ) ) 2 ( i j i j jp 3) Połączeie w jedą grupę wszstkich tch sgałów wejściowch xi spośród próbek x, x... x, którch odległość od środka mj klas j jest miejsza od odległości tchże Krok 3 sgałów wejściowch xi od środków ml ich klas (l j) w celu utworzeia klas j. Czość ta wkowaia jest dla wszstkich umerów klas j=,...,k-. Przedstawim działaie tego algortmu w pięciu krokach 4) Zalezieie owch środków klas, poprzez wszukaie wśród sgałów xi tej próbki, której współrzęde są ajbliższe wartościom średim współrzędch wzaczom dla wszstkich sgałów wejściowch, które został ulokowae w klasie j. (W wariacie metod pozwalającm a Krok to, żeb 4 wzorzec klas mógł bć obiektem abstrakcjm, ie ależącm do zbioru próbek x, x,..., x środkiem klas j staje się po prostu pukt, którego współrzęde są wartościami średimi współrzędch elemetów xi przpisach do tej klas.) 5) Jeśli w ciągu ostatiej iteracji żade z elemetów xi ie zmieił swojej klas ależ zakończć proces klasterigu, w przeciwm Krok 5 przpadku trzeba wrócić do puktu 3. 9
29-3-6 Puktem wjścia do algortmu k średich jest zbiór dach, o którch sądzim, że tworzą k skupisk. Na rsuku k = 3. W losow sposób wbieram k puktów (rozrzucoch) i azwam te pukt prowizorczmi cetrami budowach skupisk. Na rsuku pukt wbrae jako cetra są ozaczoe zakiem X, a skupiska są azwae red, gree oraz blue Na podstawie odległości od wbrach cetrów skupisk z przpisami im azwami klas zalicza się wszstkie pukt do odpowiedich klas. Każd pukt wejściow jest zaliczo do tej klas której cetrum zajduje się ajbliżej ze wszstkich cetrów. Teraz dla każdej z klas wzacza się owe cetrum a podstawie średiej współrzędch wszstkich puktów przpisach do daej klas Dokouje się poowego przpisaia puktów do poszczególch klas i poowie wzacza się w poszczególch klasach średie. Czości powższe powtarza się tak długo, jak długo chociaż jede pukt zmiei swoją przależość do klas. Po przerwaiu algortmu ostatio użte średie wskazują cetra klas. Sieć z radialmi fukcjami bazowmi użwami pomociczo Zastosowaie RBF (zamiast MLP) spowoduje, że sieć euroowa zajdzie aproksmację lepiej dopasowaą do lokalch właściwości zbioru dach, ale gorzej ekstrapolującą. MLP RBF Fukcja bazowe Wik dopasowaia
29-3-6 Sieci RBF bwają admierie wrażliwe a awet ielicze błęd w dach uczącch Przkład dobrego i złego dopasowaia wartości wjściowch uzskiwach z sieci radialej Złe dostosowaie spowodowae tm, że fukcja charakterstcza jest zbt wąska Złe dostosowaie spowodowae tm, że fukcja charakterstcza zbt jest szeroka A tak wgląda struktura iej praktczie użteczej sieci klas GRNN warstwa wejściowa służ do wprowadzaia dach do sieci warstwa radiala każd z euroów reprezetuje grupę (skupieie) wstępujące w dach wejściowch warstwa regresja wzacza elemet iezbęde do obliczeia wartości wjściowej Połączeie w sieci GRNN właściwości euroów RBF (z charakterstką w formie fukcji Gaussa) oraz euroów MLP (z charakterstką sigmoidalą) pozwala modelować wjątkowo wrafiowae zależości ieliiowe) warstwa wjściowa wzacza odpowiedź sieci Idea działaia sieci realizującch regresję uogólioą (GRNN -Geeralized Regressio Neural Network) Wejściowe wektor uczące dzieloe są a skupieia - w szczególm przpadku każd wektor tworz oddziele skupieie, Dla każdego skupieia zaa jest wartość zmieej objaśiaej (wjście sieci), wartość zmieej objaśiaej dla dowolego wektora wejściowego szacowaa jest jako średia ważoa liczoa z wartości tej zmieej dla skupień - wagi uzależioe są od odległości wejścia od cetrów skupień. Porówaie idei obliczeń tradcjch i euroowch
29-3-6 Rozwiązwaie problemów prz pomoc sieci euroowej Porówaie idei obliczeń tradcjch i euroowch cd. idetfikacja problemu; wbór tpu sieci euroowej (liiowa, MLP, RBF,GRNN, Kohoea); określeie struktur sieci (liczba warstw, liczba euroów w warstwach); uczeie sieci (określeie wartości parametrów euroów). 2