METODY HEURYSTYCZNE wykład 5 1
SSN cd. 2
KLASY ZASTOSOWAŃ: PREDYKCJA ze znajomości: przewidzieć : { f ( x ), f ( x ),..., f ( x )} f ( x ) n+ 1 n k n k+ 1 n bez jawnego definiowania związku zku między danymi wejściowymi a wyjściowymi 3
KLASYFIKACJA I ROZPOZNAWANIE WZORCÓW Zaszeregowanie danych wejściowych do jednej z klas: np.. sieć pozwala na podstawie danych bilansowych stwierdzić,, czy dane przedsiębiorstwo należy y do zwyżkuj kujących gospodarczo, czy przeżywa stagnację czy też grozi mu regres. 4
APROKSYMACJA (interpolacja, ekstrapolacja) ze znajomości: odtworzyć: { x, f ( x )} i f ( x) i ASOCJACJA Podanie danego wzorca na wejście powinno powodować pojawienie się odpowiadającego mu wzorca na wyjściu. 5
STEROWANIE KOJARZENIE DANYCH automatyzacja procesów w wnioskowania i wykrywanie istotnych powiąza zań między danymi. 6
FILTRACJA SYGNAŁÓW OPTYMALIZACJA statyczna i dynamiczna, optymalizacja kombinato-ryczna i zagadnienia bardzo trudne obliczeniowo. 7
Dobór r optymalnej struktury SSN: 3 główne g grupy algorytmów w pomocnych w utworzeniu sieci optymalnej : metody wzrostu; metody redukcji, metody optymalizacji dyskretnej. Metody wzrostu: - na początku procesu optymalizacji struktura sieci powinna być możliwie mała; - w kolejnych iteracjach sąs dodawane kolejne neurony ukryte (co powinno powodować zwiększenie sprawności działania ania sieci); - neurony sąs dodawane aża do osiągni gnięcia punktu optymalnego. 8
Metody redukcji na początku procesu optymalizacji struktura sieci powinna być możliwie złożonaz ona; w kolejnych iteracjach sąs usuwane kolejne neurony lub połą łączenia między nimi (co powinno powodować zwiększenie sprawności działania ania sieci); postępowanie powanie jest powtarzane aż do osiągni gnięcia punktu optymalnego. 9
Metody optymalizacji dyskretnej opierają się na założeniu, że e proces nauki sieci i wyboru architektury zachodzą równocześnie; czynnikiem ocenianym jest określona funkcja, reprezentująca jakość danej sieci; w kolejnych krokach sieci dobierane sąs tak, by dążd ążyć do maksymalizacji funkcji jakości; możliwe jest wykorzystanie AE jako metody optymalizacji. Żadna z tych metod nie jest idealna.. Często wybór której rejś z nich zależy y od rodzaju rozwiązywanego zywanego problemu. 10
Zwykle: : uczenie z początkowo małą liczbą neuronów i stopniowe zwiększanie ich liczby. Zbyt mało neuronów w w warstwie ukrytej sieć nie potrafi poprawnie odwzorować funkcji. Zbyt wiele elementów w warstwy ukrytej: wydłużenie procesu uczenia; uczenie się na pamięć ęć (szczególnie, gdy liczba próbek w ciągu uczącym cym jest niewielka) - sieć poprawnie rozpoznaje tylko sygnały y zgodne z tymi w ciągu uczącym cym (brak( generalizacji przy dobrej interpolacji). 11
Np Np.(L. Rutkowski, Metody i techniki sztucznej inteligencji, PWN, W-wa 2006): Ciąg g uczący: cy: Wejście x 0 Oczekiwane wyjście d=f(x) [ ] y = sin( x), x 0, 2π 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 π π π 7π 4π 5π 5π 2π 3π 5π 11π 7π π 2π 6 3 4 6 3 4 6 3 4 3 6 4 3 2 2 2 0 0.5 0 0-0.5 3 2 2 2 1 2 3 2 2 2 3 2 1 2 2 2 1 2 1 1 3 1 1 15 1 12
Dobór r próbek (ciąg g uczący) cy) wpływa na jakość nauczania: odpowiedź na ciąg uczący odpowiedź na ciąg testowy Ghaboussi, CISM 2007 13
JAK DŁUGO D UCZYĆ SIEĆ? Liczba prezentacji ciągu uczącego cego konieczna do nauczenia sieci: prognozowanie finansowe: 10 9 synteza mowy: 10 10 10 rozpoznawanie mowy lub pisma odręcznego: 10 rozpoznawanie znaków Kenji: 10 10 13 10 12 14
Uważa a się,, iżi czas uczenia sieci rośnie wykład ad- niczo wraz ze wzrostem liczby elementów w sieci. Korzystne jest pokazywanie elementów w ciągu uczącego cego w różnej r kolejności ci. Malenie błęb łędu jest różne r dla różnie r wylosowanych wag początkowych (dla( tej samej sieci): 15
Zbyt długie d uczenie również może e skutkować utratą zdolności uogólniania: Ghaboussi, CISM 2007 16
UCZENIE WARSTW UKRYTYCH Bezpośrednie wyznaczenie błęb łędów nie jest możliwe (sygnałów w WY z warstwy ukrytej nie ma z czym porówna wnać). Metoda wstecznej propagacji błęb łędów (backpropagation): Zmiana wagi jak przy sieci jednowarstwowej; Obliczanie δ sumowanie błęb łędów w z następnej warstwy Błędy w warstwach ukrytych sąs wyznaczane w sposób b przybliżony. 17
δ n ( j ) = w ( k) ( j) δ ( j ) m m k k = 1 m numer neuronu w warstwie ukrytej n liczba neuronów w w warstwie następnej k; j numer kroku uczenia; ( j) δ m ( j) δ k błąd d popełniany przez neuron m; błąd d popełniany przez neuron w warstwie k ( j ) k 1 k 2 k 3 k n k m δ ( j ) m δ n ( kn )( j) w m znane nieznane obliczanie błęb łędów w warstwie WY; obliczanie błęb łędów w warstwie poprzedniej; itd. aża do warstwy pierwszej. 18
UCZENIE SIECI NEURONOWYCH Zamiast programowania! Wymuszanie określonego reagowania sieci na zadane sygnały y wejściowe (poprzez odpowiedni dobór r wag). Ta sama sieć może e służyćs do rozwiązywania zywania skrajnie różnych r zadań. Warianty uczenia: uczenie bez nauczyciela (nienadzorowane); uczenie z nauczycielem (nadzorowane); uczenie z krytykiem. 19
Uczenie bez nauczyciela (uns unsupervisedupervised learning) Donald Hebb (fizjolog i psycholog) w umyśle za- chodzą procesy wzmacniania połą łączeń między neuro- nami,, jeśli i zostały y one pobudzone jednocześnie. nie. Pożą żądana odpowiedź nie jest znana. Sieć uczy się poprzez analizę reakcji na pobudzenia; samoorganizacja struktury wszelkie regularności ci, linie podziału i inne charakterystyki danych wejściowych sieć musi wykryć sama. Zdolności do wykrywania skupisk obrazów w wejściowych są wykorzystywane do ich klasyfikacji,, gdy klasy nie sąs z góry g ustalone. 20
Uczenie bez nauczyciela (uns Sieci pokazuje się kolejne przykłady bez określenia enia,, co trzeba z nimi zrobić. Różne pobudzenie różnych r neu- ronów - połą łączenia między źródłami silnych sygnałów a neuronami, które na nie reagują są wzmacniane. unsupervisedupervised learning) W sieci stopniowo powstają wzorce poszczególnych typów sygnałów w rozpoznawane przez pewną część neuronów. Uczenie spontaniczne,, odkrywanie ciekawych struktur w przestrzeni danych, korelacja zachowań systemu ze zmianą tych struktur dominuje w okresie niemowlęcym cym. 21
Uczenie bez nauczyciela - wady Zwykle powolniejsze. Nie wiadomo, który neuron będzie b rozpoznawał jaki sygnał. Część sygnałów w może e być rozpoznawana przez więcej niż jeden neuron. Część sygnałów w może nie być rozpoznawana przez ża- den neuron (sieć musi być większa niż przy nauczycielu zwykle przynajmniej 3 razy). 22
upervised learning) Uczenie z nauczycielem (supervised Podawanie sieci zestawów w sygnałów w WE wraz z prawidłowym sygnałem WY. Naśladowanie nauczyciela,, jakim jest ciąg uczący cy (podejście szkolne ). Zestawy sygnałów w (zwykle) powtarza się wielokrotnie, zaś sieć modyfikuje wagi na wejściach tak, by zmini- malizować błąd. Zmiana wagi na i-tym wejściu neuronu po pokazaniu j-ego obiektu uczącego cego jest proporcjonalna do popełnianego na tym etapie błęb łędu δ ( j ). 23
reinforcement learning): Uczenie z krytykiem (reinforcement Odmiana uczenia nadzorowanego. Nauczyciel nie dysponuje pełną wiedzą na temat wszystkich prawidłowych odpowiedzi. Zamiast informacji o pożą żądanym WY, sieć dysponuje jedynie oceną efektu swego działania ania w ramach dwóch prostych kategorii. Ocena wzmocnienie (pozytywne lub negatywne) odpowiednie zmiany wag. 24
reinforcement learning): Uczenie z krytykiem (reinforcement Optymalizacja zysków w na dłuższą metę. Np.: gry z przeciwnikiem, krytyką jest przegrana lub wygrana na końcu partii. Uczenie z krytykiem lub z wzmocnieniem pożą żądanych zachowań po dłuższym d okresie. Uczenie dojrzałe (nabieranie mądrości ). Bardziej uniwersalne w zastosowaniu podejście do problemu. Praktyczna realizacja jest bardziej skomplikowana. 25
SAMOUCZENIE SIECI Cała a wiedza, jaką sieć może e zdobyć jest zawarta w obiektach pokazywanych (muszą zawierać klasy podobieństwa stwa). Nie mogą to być obiekty całkiem przypadkowe, ale tworzyć skupiska wokół pewnych ośrodko rodków. Proces samouczenia utrwala i pogłę łębia wrodzone zdolności neuronów. 26
SAMOUCZENIE SIECI: Ciąg g uczący: cy: U = { X (1), X (2),... X ( N ) } X (j) n-wymiarowy wektor danych wejściowych w j-ymym kroku uczenia N liczba posiadanych pokazów. Reguła a uczenia dla m-tego tego neuronu w j-ymym kroku: ( m)( j+ 1) = ( m)( j) + ( m) ( j) i i i m w w ηx y gdzie: n ( j) ( m)( j) ( j) m = i i i= 1 y w x 27
( m)( j+ 1) = ( m)( j) + ( m) ( j) i i i m w w ηx y n ( j) ( m)( j) ( j) m = i i i= 1 y w x Wielkość zmiany wagi liczona na podstawie iloczynu sygnału u na odpowiednim wejściu przez sygnał wyjściowy neuronu. Uczenie to zwie się też korelacyjnym zmierza do ta- kiego dopasowania wag, by uzyskać najlepszą kore- lację między sygnałami ami WE a zapamiętanym (w formie wag) wzorcem sygnału, na który dany neuron ma reagować. 28
KONKURENCJA W SIECIACH SAMOUCZĄCYCH CYCH WTA (Winner Takes All) - zwycięzca zca bierze wszystko: Najlepszy neuron niezerowa wartość sygnału u WY (zwykle 1); Pozostałe e wyjścia sąs zerowane; Tylko najlepszy neuron jest uczony. Zasada WTA daje jednoznaczną odpowiedź sieci (co niekoniecznie musi być zaletą). Wszystkie sygnały y mniejsze niż ustalony próg brak rozpoznania. 29
Efekty: Neuron, który raz wygrał przy pokazaniu danego wzorca dalej będzie b wygrywał. Samouczenie jest skuteczniejsze i efektywniejsze (ka (każdy neuron rozpoznaje jeden obiekt, pozostałe e neurony pozostają niezagospodarowane). Wysoce prawdopodobne jest, iż: i - nie będzie b grup neuronów w rozpoznających ten sam wzorzec; - nie będzie b klas nierozpoznanych przez żaden neuron. Niezagospodarowane neurony sąs gotowe rozpoznawać nowe wzorce. Po wykorzystaniu wszystkich neuronów w i pojawieniu się nowego wzorca przeciąganie którego regoś z neuronów w w jego stronę: 30
SIECI SAMOORGANIZUJĄCE SIĘ (Teuvo Kohonen) Inny (wy( wyższy) ) sposób samouczenia,, wprowadzający efekty koherencji i kolektywności. Tworzą odwzorowania sygnałów w WE w sygnały y WY, spełniaj niające pewne ogólne kryteria (nie zdeterminowa- ne przez twórc rcę ani użytkownika u sieci) samoorganizacja sieci. Koherencja (słown.. spójno jność,, spoistość ść, łączno czność) - sieć grupuje dane wejściowe wg wzajemnego podobień- stwa wykrywa automatycznie obiekty podobne do siebie nawzajem i inne od innych grup obiektów. 31
Analiza skupień w analizy ekonomicznej (np( np. podobieństwo przedsiębiorstw rentowność ść). Kolektywność to co rozpoznaje neuron zależy w dużej mierze od tego, co rozpoznają inne neurony. Sąsiedztwo znaczenie ma wzajemne położenie neuronów w w warstwach. Zwykle sąsiedztwo s siedztwo 2-wymiarowe 2 neurony w węzłach w regularnej siatki (ka( każdy neuron ma min. 4 sąsiads siadów). 32
Przykładowe sąsiedztwa: s siedztwa: Rozbudowane sąsiedztwo: siedztwo: 33
Rozszerzone sąsiedztwo: siedztwo: Jednowymiarowe sąsiedztwo: siedztwo: 34
Gdy w procesie uczenia który ryś neuron zwycięż ęża: uczy się też (w w mniejszym stopniu) ) jego sąsiads siadów (niezależnie od ich wag początkowych! tkowych!). 35
Neurony sąsiadujs siadujące rozpoznają sygnały z sąsiadujs siadujących podobszarów: Skutek: Sygnały y równomiernie r rozmieszczone w pewnym obsza- rze neurony zostają tak nauczone, by każdy podobszar sygnałów w był rozpoznawany przez inny neuron. 36
Po wytrenowaniu każdej praktycznej sytuacji odpowiada neuron, który jąj reprezentuje. Sąsiedztwo powoduje wykrywanie sytuacji podobnych do prezentowanych. W sieci powstaje wewnętrzny obraz świata zewnętrznego trznego. Sygnały y blisko siebie będąb wykrywane przez leżą żące blisko siebie neurony. Przykładowe zastosowania: robot dostosowujący zachowanie do zmiennego środowiska; systemy bankowe stworzenie modelu wiarygodnego kredytobiorcy. 37
SIECI REKURENCYJNE Zawierają sprzęż ężenia zwrotne: Po jednorazowym podaniu sygnału u WE długotrwały proces zmiany sygnału u WY, w efekcie stan równowagir wnowagi. 38
Waga sprzęż ężenia dodatnia sygnał zmienia się jednokierunkowo (aperiodycznie); Waga sprzęż ężenia ujemna sygnał zmienia się oscylacyjnie; Przy neuronach nieliniowych możliwe chaotyczne błądzenie sygnałów; Zachowania: stabilne (zbieganie( się sygnałów w do określonej wartości ci); niestabilne (warto( wartości sygnału u coraz większe ksze). Zastosowania: zadania optymalizacji (stany( r rozwiązaniom zaniom zadań); pamięci skojarzeniowe (drobny( fragment informacji ). pozwala odtworzyć całą informację). stany równowagi odpowiadają 39
SIECI HOPFIELDA Każdy neuron jest związany zany z każdym innym na zasadzie obustronnego sprzęż ężenia zwrotnego. Zabroniono sprzęż ężeń zwrotnych obejmujących pojedynczy neuron. w Symetria współczynnik czynników w wagowych: xy =w yx X Y w yx w xy Skutek: zachodzące ce procesy sąs zawsze stabilne. 40
ZBIORY ROZMYTE I WNIOSKOWANIE PRZYBLIŻONE 41
1965 Lotfi A. Zadeh: Fuzzy sets In almost every case you can build the same product without fuzzy logic, but fuzzy is faster and cheaper. Prof. Lotfi Zadeh, UC Berkeley, Inventor of Fuzzy Logic 42
Metoda reprezentacji wiedzy wyrażonej w języku j naturalnym: Temperatura wynosi 29 o C informacja liczbowa - naturalna dla systemów w komputerowych. Jest dość ciepło informacja opisowa - naturalna dla człowieka. Klasyczna teoria zbiorów: : dowolny element należy lub nie należy do danego zbioru. Teoria zbiorów w rozmytych: element może częś ęściowo należeć do pewnego zbioru. 43
Zamiast dwóch wartości logicznych (prawda i fałsz) nieskończenie wiele wartości [0,1]. Np.: młody człowiek owiek : 1 A= młody μ 1 0.8 A= młody 0 30 klasycznie x [lata] 0 30 sposób rozmyty x [lata] Umożliwiaj liwiają formalne określenie pojęć nieprecyzyjnych i wieloznacznych: - wysoki hałas as, - małe e zarobki, - niskie zużycie paliwa. 44
Obszar rozważań X (the nierozmyty (np. p discourse) - zbiór the universe of discourse. płaca w UK i w Polsce). Zbiór r rozmyty w pewnej przestrzeni (niepustej) X - zbiór r par: {(, ( )); } A= x μ x x X A μ A (x) funkcja przynależno ności zbioru rozmytego A. x Funkcja przynależno ności przypisuje każdemu ele- mentowi x X stopień jego przynależno ności do zbioru rozmytego A 45
μ A (x)) = 1 pełna przynależność elementu x do ZR μ A (x)) = 0 brak przynależności x do ZR A; do ZR A; 0 < μ A (x) < 1 częściowa przynależność x do ZR A. Stopień przynależności to nie jest prawdopodobieństwo: młody w 80% to nie 4 młodych na 5 Symboliczny zapis ZR o skończonej liczbie elementów: A ( x ) ( x ) ( x ) ( x ) μ μ μ n μ A 1 A 2 A n A i = + +... + = x1 x2 xn i= 1 xi suma mnogościowa przyporządkowanie 46
Np. Ciepła woda na basenie : Obszar rozważań: X = [15, 21,..., 35] Zbiór rozmyty A (według osoby nr 1): 0.1 0.3 0.4 0.6 0.8 1 0.9 0.8 0.75 0.7 A = + + + + + + + + + 20 21 22 23 24 25 26 27 28 29 Według osoby nr 2: 0.2 0.4 0.6 0.8 1 0.8 0.6 0.4 0.2 A = + + + + + + + + 18 19 20 21 22 23 24 25 26 Jeśli X - przestrzeń o nieskończonej liczbie elementów, to zapis symboliczny: A = x μ A ( x ) x 47
Np. Zbiór liczb bliskich liczbie 7 : 1 μ ( x A ) = 1 + ( x 7) 2 μ (x ) 1 A 2 1 + ( x -7) = x 0 x -1-1 7 15 x lub x-7 1 jeżeli 4 x 10 μ A( x)= 3 0 w przeciwnym razie μ (x ) 1 0 0 7 x 14 48