Elementy kognitywistyki III: Modele i architektury poznawcze Wykład VII: Modelowanie uczenia się w sieciach neuronowych
Uczenie się sieci i trening nienaruszona struktura sieci (z pewnym ale ) nienaruszone reguły przekazywania aktywacji niezmieniona interpretacja jednostek lub wektorów doświadczenie wpływa na wartości wag Paradygmaty uczenia się (Rumelhart, Zipser, 1986): rozpoznawanie regularności: grupa wzorców pobudzeń związanych z pewnymi prawdopodob. system odkrywa statystycznie najistotniejsze cechy auto-kojarzenie: prezentowany zbiór wzorców przy prezentacji fragmentu wzorca system odzyskuje oryg. wzor.
kojarzenie wzorców: Uczenie się sieci i trening prezentowane są pary wzorców gdy zaprezentowany jest jeden element pary, system przywołuje na wyjściu drugi paradygmat klasyfikacyjny: prezentowany zbiór wzorców wraz z kategoriami do których każde z pobudzeń należy gdy prezentowany jest wzorzec (lub lekko zmodyfikowana wersja) system powinien go poprawnie sklasyfikować
Uczenie się sieci podział II bez nauczyciela (nienadzorowane; unsupervised): nie istnieje docelowe wyjście, do którego sieć ma się zbliżać przykład: uczenie się z rywalizacją [competititve learning] z nauczycielem (nadzorowane, supervised): w trakcie treningu prezentowane są pary wektorów wejścia i wyjścia sieć porównuje wyjście docelowe i faktycznie uzyskane i modyfikuje stosownie do różnicy wagi
Przykład I uczenie się hebbowskie Hebb (1949): gdy dwa powiązane neurony są aktywne, wzrasta siła połączenia pomiędzy nimi: czy będzie to uczenie z nauczycielem, czy bez? o ile powiązanie się wzmacnia i od czego to zależy? reguła (H): (i) znajdź iloczyn: aktywacji jednostki wejściowej, aktywacji powiązanej z nią jednostki wyjściowej oraz współczynnika uczenia się (1/liczba jedn. wejściowych) (ii) dodaj to do poprzedniej wagi połączenia (iii) wynik to nowa waga połączenia Przykład: trenujemy sieć regułą (H) tak, by odróżniała jedną parę wektorów od drugiej, reagując na wektory V1, V2-1, zaś na wektory V3, V4-0
Sieć jest przetrenowana wektorem V1 Przykład I uczenie się hebbowskie Para żeńska (wyjście=1): V1=<1,-1,-1,1>; V2=<1,1,1,1> Para męska (wyjście=0): V3=<1,-1,1,-1>; V4=<-1,-1,1,1,> Uczymy sieć rozpoznawania tych dwóch grup twarzy V1: (i) iloczyn: (a.we a.wy wsp.ucz) 1 1 1/4=0.25 (ii) poprzednia waga: 0 (sieć nie była jeszcze trenowana) (iii) nowa waga: 0 + 0.25 = 0.25 A-E: 1 1 x 0.25 + 0 = 0.25; B-E: -1 1 0.25 + 0 = -0.25 C-E: -1 1 0.25 + 0 = -0.25; D-E: 1 1 0.25 + 0 = 0.25
Zadanie: Sprawdzić wektory V1, V3. Przykład I uczenie się hebbowskie Para żeńska (wyjście=1): V1=<1,-1,-1,1>; V2=<1,1,1,1> Para męska (wyjście=0): V3=<1,-1,1,-1>; V4=<-1,-1,1,1,> V2: A-E: 1 1 x 0.25 + 0.25 = 0.5; B-E: 1 1 0.25 + -0.25 = 0 C-E: 1 1 0.25 + -0.25 = 0; D-E: 1 1 0.25 + 0.25 = 0.5 V3, V4: wagi bez zmian: wyjście to 0, więc zmiana wagi=0 Obliczenia: czy przetrenowana sieć będzie rozpoznawać twarze? V2: N = 1 0.5 + 1 0 + 1 0 + 1 0.5 = 1 OK. V4: N = -1 0.5 + -1 0 + 1 0 + 1 0.5 = 0 OK.
Przykład II uczenie się Delta w HL wagi są funkcją aktywacji wejściowej i wyjściowej nie ma informacji zwrotnej o różnicy pomiędzy tym, co sieć robi a tym co powinna osiągnąć nie ma możliwości uczenia się na błędach (E) Błąd = aktywacja docelowa aktywacja faktyczna (jednostki wyjściowej) Reguła (D): (i) ustal błąd (E) (ii) wylicz iloczyn: aktywacja wejściowa, błąd oraz wsp. uczenia się (iii) dodaj to do poprzedniej wagi (iv) wynikiem jest nowa waga
V1=<1,-1,1,-1> (wyjście=1) V2=<1,1,1,1> (wyjście=1) V3=<1,1,1,-1> (wyjście=-1) V4=<1,-1,-1,1,> (wyjście=-1) Próba 1 (V1): Przykład II uczenie się Delta (D) (i) N = 0 1 + 0-1 + 0 1 + 0-1 = 0; E = 1-0 = 1 (ii) iloczyn a.we. błąd wsp.ucz.: 1 1 0.25 = 0.25 (iii) wcześniejsza waga: 0 (iv) nowa waga: 0 + 0.25 = 0.25 A-E: 1 1 0.25 + 0 = 0.25; B-E: -1 1 0.25 + 0 = -0.25 C-E: 1 1 0.25 + 0 = 0.25; D-E: -1 1 0.25 + 0 = -0.25
V1=<1,-1,1,-1> (wyjście=1) V2=<1,1,1,1> (wyjście=1) V3=<1,1,1,-1> (wyjście=-1) V4=<1,-1,-1,1,> (wyjście=-1) Przykład II uczenie się Delta Próba 2 (V2): (i) N = 1 0.25 + 1-0.25 + 1 0.25 + 1-0.25 = 0; E = 1-0 = 1 (ii) iloczyn a.we. błąd wsp.ucz.: 1 1 0.25 = 0.25 (iii) wcześniejsza waga: 0.25 (iv) nowa waga: 0.25 + 0.25 = 0.5 A-E: 1 1 0.25 + 0.25 = 0.5; B-E: 1 1 0.25 + -0.25 = 0 C-E: 1 1 0.25 + 0.25 = 0.5; D-E: 1 1 0.25 + -0.25 = 0
Przykład II uczenie się Delta Wagi po pierwszym cyklu treningowym: -0.5, 0, 0.5, 0 wagi po 20 cyklach treningowych: -1,-1,2,1 obliczanie: (V3): N = 1-1 + 1-1 + 1 2 + -1 1 = -1 OK. Zadanie: Sprawdź poprawność sieci dla wektorów V1, V2, V4. uczenie się Delta można stosować, gdy wektory nie są ortogonalne, ale są liniowo rozdzielne gdy wektory nie są liniowo rozdzielne Delta będzie minimalizować błąd
Reprezentacje Poznanie obejmuje (m.in.) manipulacje (tworzenie, przekształcanie, usuwanie) na reprezentacjach jakiego rodzaju reprezentacje pojawiają się w modelach koneksjonistycznych? co determinuje to, co reprezentacje koneksjonistyczne reprezentują? Odmiany reprezentacji koneksjonistycznych: reprezentacje lokalne [local, punctate representations] aktywacja indywidualnej jednostki reprezentuje element w dziedzinie śmierć neuronów niedobór neuronów problem nowych pojęć
Rodzaje reprezentacji reprezentacje quasi-rozproszone wzór aktywacji w zbiorze jednostek reprezentuje element dziedziny; jednostki nie uczestniczą w innych reprezentacjach reprezentacje (w pełni) rozproszone [distributed r.] wzór aktywacji zbioru jednostek reprezentuje element dziedziny; jednostki mogą uczestniczyć w innych reprezentacjach Mikrocechy [microfeatures] Smolensky, 1988 modele koneksjonistyczne operują pomiędzy poziomem pojęciowym a neuronalnym (poziom podpojęciowy, subconceptual) reprezentacje: złożone wzorce aktywności wielu jednostek wzorce mają interpretację pojęciową (semantyczną) rola semantyczna jednostek: żadna lub mikrocechy
Mikrocechy. Kawa [w:] Smolensky 1991, s. 208-9, fig. 2-4.
Reprezentacje rozproszone dostęp za pośrednictwem treści (do pamięci), nie zaś za pośrednictwem jakiegoś arbitralnego adresu uzupełnianie wzorców, tj. zdolność do poprawnego rozpoznawania niepełnych danych wejściowych spontaniczna generalizacja: zdolność systemu do aktywacji węzłów powiązanych z docelowymi tolerancja dla błędów: zdolność do ignorowania fałszywych lub mylących danych wejściowych łagodna (stopniowa) degradacja: uszkodzony system nie przestaje działać, jego zdolności stopniowo ulegają degradacji ulepszone ponowne uczenie się: system zniszczony ponownie uczy się znacznie szybciej, niż za pierwszym razem
Bibliografia The MIT Encyclopedia of the Cognitive Sciences, R.A. Wilson, F.C. Keil (red.), The MIT Press, 2001. Anderson J., How Can the Human Mind Occur in the Physical Universe?, Oxford U.P., 2007. Carruthers P., The Architecture of the Mind, Oxford UP, 2006. Harnish R., Minds, Brains, Computers, 2002. Russell S.J., Norvig P., Artificial Intelligence a Modern Approach, Prentice Hall, 1995.