Sieci jednokierunkowe wielowarstwowe typu sigmoidalnego

Wielkość: px
Rozpocząć pokaz od strony:

Download "Sieci jednokierunkowe wielowarstwowe typu sigmoidalnego"

Transkrypt

1 Sieci jednokierunkowe wielowarstwowe typu sigmoidalnego

2 Sieć jednowarstwowa Rys.1 Schemat sieci jednowarstwowej 2

3 Sieć jednowarstwowa Cechy sieci jednowarstwowej: Tworzą ją neurony ułożone w jednej warstwie, Każdy neuron ma polaryzację (waga wi0 prowadząca od sygnału jednostkowego) oraz wiele wag wij prowadzących od sygnałów wejściowych xj, Miarą dopasowania jest wartość funkcji celu (funkcji kosztu), Przy p wektorach uczących (x,d) i M neuronach wyjściowych, funkcję celu można zdefiniować, wykorzystując metrykę euklidesową: 1 p (k ) E y d (k ) 2 k p M ( yi ( k ) d i ( k ) ) 2 2 k 1 i 1 3

4 Sieć jednowarstwowa Cechy sieci jednowarstwowej (c.d.): Neurony ułożone w pojedynczej warstwie działają niezależnie od siebie, stąd możliwości takiej sieci są ograniczone do możliwości pojedynczych neuronów, Każdy neuron realizuje odwzorowanie funkcyjne: N yi f wij x j j 0 Zakładając, że funkcja sigmoidalna f( ) jest ciągłym przybliżeniem skoku jednostkowego można zauważyć, że sygnał wyjściowy neuronu (wartość 1 lub 0) będzie zależny od znaku wyrażenia: N w x j 0 4 ij j

5 Sieć jednowarstwowa Cechy sieci jednowarstwowej (c.d.): Sygnał wyjściowy yi przy ustalonych wartościach wag zależny jest od położenia wektora wejściowego x względem hiperpłaszczyzny dzielącej przestrzeń wielowymiarową na dwie podprzestrzenie, Zadanie klasyfikacyjne (sygnał 0 lub 1 przypisany sygnałowi wyjściowemu neuronu) może być zatem rozwiązane za pomocą pojedynczego neuronu, jeśli należy do klasy liniowo separowanych (np. problem logiczny AND, OR). 5

6 Sieć jednowarstwowa problem XOR Przykład 1 Ograniczone możliwości sieci jednowarstwowych na przykładzie realizacji dwuwejściowej funkcji logicznej XOR. Zbiór danych uczących dla problemu XOR: x x d

7 Sieć jednowarstwowa problem XOR Rys. 2 Ilustracja nieseparowalności liniowej danych uczących, odpowiadających problemowi logicznemu XOR 7

8 Sieć jednowarstwowa problem XOR Wyjaśnienie problemu nieseparowalności liniowej: Wewnątrz obszaru sygnał wyjściowy neuronu powinien być równy 1, a na zewnątrz 0, Takiego warunku nie można spełnić stosując podział obszaru przy użyciu jednej prostej (jednego neuronu) niezależnie od wartości współczynników tej prostej (wagi w10, w11, w12), Jednowarstwowy perceptron nie jest więc w stanie zrealizować nawet tak nieskomplikowanej funkcji, jaką jest XOR, Jak rozwiązać problem? Rozszerzając sieć. 8

9 Sieć jednowarstwowa problem XOR Rozwiązanie: Zwiększamy liczbę neuronów w warstwie o jeden, dobierając wagi obu neuronów w ten sposób, aby realizowały podział obszaru na części: u1 w11 x1 w12 x 2 w10 0 u1 w11 x1 w12 x 2 w10 0 i w zależności od wektora wejściowego: x x1, x 2 T (pierwszy neuron) oraz: u2 w21 x1 w22 x2 w20 0 i u2 w21 x1 w22 x2 w20 0 (drugi neuron). Dokładając na wyjściu dodatkową warstwę zawierającą jeden neuron, można zrealizować sumę logiczną odpowiadającą części wspólnej zbiorów: u1 0, u2 0 9

10 Sieć jednowarstwowa problem XOR Rys. 3 Rozwiązanie problemu nieliniowej separowalności przez złożenie dwóch separowalności liniowych 10

11 Sieć jednowarstwowa problem XOR Rys. 4 Struktura sieci neuronowej rozwiązująca problem XOR 11

12 Sieć jednowarstwowa problem XOR Wnioski: Każdy neuron w warstwie ukrytej wprowadza dodatkowy podział liniowy obszaru, przy czym granica podziału na części ui > 0 ui < 0 i uzależniona jest od wartości wag neuronu, Warstwa wyjściowa dokonuje wyboru odpowiedniej kombinacji liniowej (np. sumy logicznej) podobszarów, na które został podzielony obszar danych wejściowych przez neurony warstwy ukrytej. 12

13 Sieci jednowarstwowe Podsumowanie odnośnie sieci jednowarstwowych: Sieć jednowarstwowa ma niewielkie znaczenie praktyczne, lecz nadal się ją stosuje wszędzie tam, gdzie istnienie jednej warstwy jest wystarczające do określonego problemu, Architektura sieci jest prosta liczbę neuronów wejściowych określa wymiar wektora wejściowego x, a liczba neuronów wyjściowych jest zadawana przez wymiar wektora d, Uczenie sieci odbywa się zwykle z nauczycielem i jest dokładnym odpowiednikiem uczenia pojedynczego neuronu. 13

14 Sieć wielowarstwowa perceptronowa Rys. 5 Ogólny schemat sieci neuronowej dwuwarstwowej 14

15 Sieć wielowarstwowa perceptronowa Cechy: Tworzą ja neurony ułożone w wielu warstwach, Oprócz warstwy wejściowej i wyjściowej istnieje co najmniej jedna warstwa ukryta. Oznaczenia: Wagi neuronów warstwy ukrytej wskaźnik górny (1), natomiast warstwy wyjściowej wskaźnik górny (2), Sygnały wyjściowe neuronów warstwy ukrytej vj (j = 1, 2,, K) a warstwy wyjściowej yj (j = 1,2,, M), Zakładamy, że funkcja aktywacji neuronów jest dana w postaci sigmoidalnej unipolarnej bądź bipolarnej. 15

16 Sieć wielowarstwowa perceptronowa Cel uczenia: Określenie wartości wag wij(1) wij(2) wszystkich warstw sieci w taki sposób, aby przy zadanym wektorze wejściowym x uzyskać na wyjściu wartości sygnałów yi odpowiadające z dostateczną dokładnością wartościom zadanym di dla i = 1, 2,, M, Traktując jednostkowy sygnał polaryzujący jako jedną ze składowych wektora wejściowego x, wagi polaryzacji można włączyć do wektora wag poszczególnych neuronów obu warstw, 16

17 Sieć wielowarstwowa perceptronowa Przy takim oznaczeniu sygnał wyjściowy i-tego neuronu warstwy ukrytej daje się opisać funkcją: N (1 ) v i f wij x j j 0 w której wskaźnik 0 polaryzacji,vprzy czym 0 1, x0 1 odpowiada sygnałowi i wagom W przypadku warstwy wyjściowej k-ty neuron wytwarza sygnał wyjściowy opisany następująco: K ( 2) yk f wki vi i 0 K ( 2) N (1) f wki f wij x j i 0 j 0 17

18 Sieć wielowarstwowa perceptronowa Wniosek: Na wartość sygnału wyjściowego mają wpływ wagi obu warstw, podczas gdy sygnały wytwarzane w warstwie ukrytej nie zależą od wag warstwy wyjściowej. 18

19 Algorytm propagacji wstecznej Charakterystyka: Określa strategię doboru wag w sieci wielowarstwowej przy wykorzystaniu gradientowych metod optymalizacji, Podstawę stanowi funkcja celu, definiowana zwykle jako suma kwadratów różnic między aktualnymi wartościami sygnałów wyjściowych sieci a wartościami zadanymi, W przypadku pojedynczej próbki uczącej (x,d) funkcję celu definiuje się w postaci: 1 M E ( w) ( y k d k ) 2 2 k 1 W przypadku wielu próbek uczących j (j = 1,2,,p) funkcję celu stanowi suma E po wszystkich próbkach: 1 p M E ( w) ( y k ( j ) d k ( j ) ) 2 2 j 1 k 1 19

20 Algorytm propagacji wstecznej Fazy uczenia sieci: Prezentacja próbki uczącej x i obliczenie wartości sygnałów poszczególnych neuronów (dla danego wektora x obliczane są wartości sygnałów wyjściowych vi neuronów warstwy ukrytej, a następnie wartości yi odpowiadające neuronom warstwy wyjściowej; możliwe staje się określenie aktualnej wartości funkcji celu E(w)), Minimalizacja wartości tej funkcji. Najskuteczniejszymi metodami uczenia pozostają gradientowe metody optymalizacyjne (przy założeniu ciągłości funkcji), w których adaptacja wag (uczenie) odbywa się zgodnie ze wzorem: w(k 1) w(k ) w gdzie: w p (w) η - jest współczynnikiem uczenia się sieci, a p(w) kierunkiem w przestrzeni wielowymiarowej w. 20

21 Algorytm propagacji wstecznej Uczenie sieci wielowarstwowej przy zastosowaniu metod gradientowych wymaga wyznaczenia kierunku p(w) określenia wektora gradientu względem wag wszystkich warstw sieci (w przypadku wag warstwy wyjściowej zadanie to jest określone w sposób natychmiastowy, warstwy pozostałe wymagają zastosowania specjalnej strategii postępowania noszącej nazwę algorytmu propagacji wstecznej). W każdym cyklu uczącym wyróżniamy następujące etapy: Analiza sieci neuronowej o zwykłym kierunku przepływu sygnałów przy założeniu sygnałów wejściowych sieci równych elementom aktualnego wektora x. W wyniku analizy otrzymuje się wartości sygnałów wyjściowych neuronów warstw ukrytych oraz warstwy wyjściowej, a także odpowiednie pochodne funkcji aktywacji w poszczególnych warstwach. 21

22 Algorytm propagacji wstecznej Utworzenie sieci propagacji wstecznej przez odwrócenie kierunków przepływu sygnałów, zastąpienie funkcji aktywacji przez ich pochodne, a także przyłożenie na byłym wyjściu (obecnie wejściu) sieci wymuszenia w postaci odpowiedniej różnicy między wartością aktualną i zadaną. Dla tak utworzonej sieci należy obliczyć wartości odpowiednich różnic wstecznych, Adaptacja wag (uczenie sieci) odbywa się na podstawie wyników uzyskanych w poprzednich punktach dla sieci oryginalnej i sieci o propagacji wstecznej według odpowiednich wzorów, Opisany powyżej proces należy powtórzyć dla wszystkich wzorców uczących, kontynuując go do chwili spełnienia warunku zatrzymania algorytmu. Działanie algorytmu kończy się w momencie, w którym norma gradientu spadnie poniżej pewnej wartości ε, określającej dokładność procesu uczenia. 22

23 Algorytm propagacji wstecznej Pokażemy algorytm dla sieci dwuwarstwowej (rys. 5) Oznaczmy: N - liczba węzłów wejściowych, K liczba neuronów w warstwie ukrytej, M liczba neuronów w warstwie wyjściowej. 2 ů 1 é ( 2) E ę f wki vi d k ú 2 k 1 ë i 0 ű M 1 M é ę f 2 k 1 ęë K ů K ( 2) N (1) wki f wij x j d k ú úű j 0 i

24 Algorytm propagacji wstecznej Gradient otrzymujemy przez różniczkowanie E: E df (ui( 2) ) ( yi di ) vj ( 2) ( 2) wij du i gdzie K ui( 2) wij( 2) v j j 0 Wprowadźmy oznaczenie: d i( 2) df (ui( 2) ) ( yi di ) ( 2) dui Wtedy elementy gradientu względem wag neuronów warstwy wyjściowej mają postać: E ( 2) d i vj ( 2) wij 24

25 Algorytm propagacji wstecznej Elementy gradientu względem wag neuronów warstwy ukrytej: M dyk dvi E ( yk dk ) (1) (1) wij dv dw k 1 i ij Uwględniając poszczególne składniki otrzymujemy: M E df (u (k2) ) ( 2) df (u i(1) ) ( yk dk ) wki xj (1) ( 2) (1) wij du k dui k 1 Wprowadźmy oznaczenie: d i(1) df (uk( 2) ) ( 2) df (ui(1) ) ( yk dk ) wki ( 2) (1) duk dui k 1 M Wtedy elementy gradientu względem wag neuronów warstwy wyjściowej mają postać: E (1) d i xj (1) wij 25

26 Grafy przepływowe w zastosowaniu do generacji gradientu Charakterystyka ogólna: Stosując metodę grafów przepływowych odnoszących się do systemu, można podać bardzo proste reguły tworzenia składników gradientu, które obowiązują w tej samej postaci niezależnie od stopnie złożoności sieci. Wykorzystuje się przy tym zależności odnoszące się do zagadnienia wrażliwości systemu badanego metodą układów dołączonych. Pełna wrażliwość układu rozumiana jako pochodna dowolnego sygnału w tym układzie względem wartości wag może być określana na podstawie znajomości sygnałów w grafie zwykłym (oznaczonym przez G) oraz grafie dołączonym (oznaczonym przez Ĝ). 26

27 Grafy przepływowe w zastosowaniu do generacji gradientu Graf Ĝ jest zdefiniowany jako oryginalny graf G, którego kierunki wszystkich gałęzi zostały odwrócone. Opis liniowej gałęzi grafu G i odpowiadającej jej gałęzi grafu dołączonego Ĝ jest identyczny. W przypadku gałęzi nieliniowej f(x,k), gdzie x jest sygnałem wejściowym, a k parametrem, odpowiadająca jej gałąź grafu Ĝ staje się gałęzią zlinearyzowaną, o wzmocnieniu obliczonym dla aktualnego sygnału wejściowego x grafu G: f ( x, k ) x 27

28 Grafy przepływowe w zastosowaniu do generacji gradientu Zależności wrażliwościowe dowolnego sygnału wyjściowego v0 w grafu G względem parametrów gałęzi tego grafu można przedstawić w następujący sposób: Dla liniowej gałęzi wij grafu G dv0 v j vˆi dwij wij jest wzmocnieniem liniowej gałęzi skierowanej od węzła j-tego do i-tego, vj odpowiada sygnałowi j-tego węzła grafu G, v i odpowiada sygnałowi i-tego węzła grafu dołączonego Ĝ, dla którego sygnałem wejściowym jest wartość vˆ

29 Grafy przepływowe w zastosowaniu do generacji gradientu Dla nieliniowej gałęzi grafu G, łączącej l-ty węzeł z k-tym i opisanej funkcją vk = f(vl,k), wrażliwość względem parametru K określona jest zależnością: dv0 f (v, K ) vˆ k kl l dk K f kl (vl, K ) K - wyznacza się dla sygnału vl l-tego węzła w grafie G. 29

30 Grafy przepływowe w zastosowaniu do generacji gradientu Niech w oznacza wektor optymalizowanych parametrów (wag wi) układu opisanego w postaci grafu G w = [w1,w2,,wn]t, E(w) jest funkcją celu, gradient E(w), zapisany skrótowo jako (w) = E(w), zdefiniowany jest w postaci: é E ( w) E ( w) E ( w) ů g ( w) ę,, ú w w wn ű ë T g

31 Grafy przepływowe w zastosowaniu do generacji gradientu Przy założeniu definicji funkcji celu w uwzględniającej tylko jedną próbkę uczącą: postaci 1 M E ( w) ( y i d i ) 2 2 i 1 di jest wartością zadana i-tego neuronu wyjściowego, = 1,2,,M, gradient funkcji celu przyjmuje następującą postać: g ( w) [ g1 ( w), g 2 ( w),..., g n ( w)]t w której: M g k ( w) ( yi d i ) i 1 31 yi wk i

32 Grafy przepływowe w zastosowaniu do generacji gradientu Wnioski: Do określenia wektora gradientu wymagane są zatem pochodne sygnałów yi grafu względem wag wk (wrażliwości), pomnożone przez wartości funkcji błędu (yi - di). Dzięki zastosowaniu metody grafów wszystkie te operacje (włącznie z sumowaniem) mogą być przeprowadzone w jednym kroku za pomocą grafu G oraz dołączonego do niego grafu Ĝ, przy założeniu odpowiednich warunków pobudzenia grafu Ĝ. 32

33 Grafy przepływowe w zastosowaniu do generacji gradientu Rys. 6 Ilustracja sposobu tworzenia i pobudzenia grafu dołączonego a) Graf oryginalny G 33

34 Grafy przepływowe w zastosowaniu do generacji gradientu Rys 7 Ilustracja sposobu tworzenia i pobudzenia grafu dołączonego b) Graf dołączony Ĝ 34

35 Grafy przepływowe w zastosowaniu do generacji gradientu W odniesieniu do liniowej gałęzi grafu G opisanej wagą wij otrzymujemy: E ( w) v j vˆi wij W przypadku nieliniowej gałęzi grafu G opisanej funkcją wkl(vl,k) otrzymujemy: E ( w) w ( v, K ) vˆk kl l K K Podane zależności odnoszą się dowolnych systemów (liniowych, nieliniowych, rekurencyjnych itp.) 35

36 Grafy przepływowe w zastosowaniu do generacji gradientu Rys. 8 Ilustracja metody grafu dołączonego w zastosowaniu do generacji wektora gradientu dla sieci wielowarstwowej jednokierunkowej Graf wyjściowy sieci 36

37 Grafy przepływowe w zastosowaniu do generacji gradientu Rys. 9 Ilustracja metody grafu dołączonego w zastosowaniu do generacji wektora gradientu dla sieci wielowarstwowej jednokierunkowej Graf dołączony 37

38 Grafy przepływowe w zastosowaniu do generacji gradientu Poszczególne składowe wektora gradientu g(w) dla dowolnej warstwy neuronów wynoszą: Dla warstwy wyjściowej Dla k-tej warstwy ukrytej Dla pierwszej warstwy ukrytej 38 - E ( w) ( m 1) ( m ) v ûi j ( m) wij - E ( w) ( k 1) ( k ) v ûi j (k) wij - E ( w) (1) x u j i wij(1)

39 Grafy przepływowe w zastosowaniu do generacji gradientu Podsumowanie: Postać wzoru określającego odpowiedni składnik gradientu jest (przy zachowaniu odpowiednich oznaczeń sygnałów) identyczna, niezależnie od tego, w której warstwie neuronów znajduje się odpowiednia waga, Ważną zaletą metody grafów, poza znacznym uproszczeniem formuły, jest możliwość uwzględnienia ograniczeń równościowych nakładanych na dowolne wagi sieci, Uwzględnienie równościowych ograniczeń nakładanych na wagi (wij = wkl) nie tylko nie komplikuje zależności ogólnych, lecz wręcz przeciwnie, upraszcza je, przez zmniejszenie liczby zmiennych, 39

40 Grafy przepływowe w zastosowaniu do generacji gradientu Należy zauważyć, że wagi równościowe mogą dotyczyć tej samej warstwy lub warstw zupełnie różnych. Istota wzoru się nie zmienia się przy tym zupełnie. Jest to najistotniejsza różnica między metodą generacji gradientu opierającej się a grafach przepływu sygnałów a tradycyjnym podejściem klasycznym. 40

41 Algorytmy gradientowe uczenia sieci Charakterystyka ogólna: Zadanie uczenia sieci neuronowej na tym etapie traktowane będzie jako równoważne minimalizacji odpowiednio zdefiniowanej funkcji celu E(w), Metody gradientowe, których podstawą działania jest znajomość gradientu funkcji celu, są uważane za jedne z najskuteczniejszych w teorii optymalizacji, Opierają się one na rozwinięciu w szereg Taylora funkcji celu, E(w), w najbliższym sąsiedztwie znanego aktualnego punktu rozwiązania. 41

42 Algorytmy gradientowe uczenia sieci Ogólny algorytm optymalizacji w zastosowaniu do uczenia sieci przedstawić można w następującej postaci (zakłada się, że dana jest wartość początkowa wektora optymalizowanego wk = w0): Test na zbieżność i optymalność aktualnego rozwiązania wk. Jeżeli punkt wk spełnia warunki zatrzymania procesu ze względu na gradient koniec obliczeń. W przeciwnym razie przejście do punktu 2. Wyznaczenie wektora kierunku minimalizacji pk w punkcie rozwiązania wk Wyznaczenie takiego kroku ηk na kierunku pk, ze spełniony jest warunek: E ( wk k pk ) E ( wk ) Określenie nowego punktu rozwiązania wk+1 = wk + ηkpk oraz odpowiadającej mu wartości E(wk), g(wk) (ewentualnie H(wk) i powrót do początku. 42

43 Algorytm największego spadku Charakterystyka ogólna: Algorytm największego spadku otrzymuje się przy ograniczeniu się w rozwinięciu Taylora do liniowego przybliżenia funkcji E(w) w najbliższym sąsiedztwie znanego rozwiązania w. Aby była spełniona zależność E(wk+1) < E(wk) wystarczy dobrać g(wk)tp < 0. Przyjęcie wektora kierunkowego w postaci: pk g ( wk ) spełnia wymagany kierunek zmniejszania wartości funkcji celu. 43

44 Algorytm największego spadku Podsumowanie: Ograniczenie się w rozwinięciu Taylora do składnika pierwszego rzędu powoduje niewykorzystanie informacji o krzywiźnie funkcji zawartej w hesjanie. To sprawia, że metoda jest wolnobieżna (zbieżność liniowa). Wada ta oraz brak postępów minimalizacji w okolicy punktu optymalnego, gdzie gradient przyjmuje bardzo małe wartości, spowodowały, że metoda ta jest mało efektywna. Ze względu na jej prostotę, małe wymagania co do wielkości pamięci i stosunkowo małą złożoność obliczeniową pozostaje jednak nadal podstawową metodą stosowaną w uczeniu sieci wielowarstwowych. 44

45 Algorytm największego spadku Poprawy jej efektywności poszukuje się przez modyfikację wzoru określającego kierunek. Dobre wyniki przynosi zwykle zastosowanie metody uczenia z tzw. momentem. W przypadku zastosowania tej techniki aktualizacja wag sieci, następuje według zmienionej formuły określającej Δwk wk k pk ( wk wk 1 ) α jest współczynnikiem momentu, z przedziału [0,1] Pierwszy składnik tego wyrażenia odpowiada zwykłej metodzie uczenia największego spadku, natomiast drugi uwzględnia ostatnią zmianę wag i jest niezależny od aktualnej wartości gradientu. Wpływ wzrasta w sposób istotny na płaskich odcinkach funkcji celu oraz w pobliżu minimum lokalnego, gdzie wartość gradientu jest bliska 0. 45

46 Algorytm zmiennej metryki Charakterystyka ogólna: W metodzie tej wykorzystuje się kwadratowe przybliżenie funkcji E(w) w sąsiedztwie znanego rozwiązania wk. Ograniczając się do trzech pierwszych składników, otrzymujemy: E ( wk pk ) E ( wk ) g ( wk )T p k 1 T p k H ( wk ) pk 0( h3 ) 2 de( wk pk ) 0 dp k Minimum funkcji wymaga, aby: Warunek optymalności (po zróżniczkowaniu): g ( wk ) H ( wk ) pk 0 pk H wk g ( wk ) 1 więc: 46

47 Algorytm zmiennej metryki Jak wynika z poprzedniego wzoru, do wyznaczenia kierunku należy w każdym cyklu określić wartość gradientu g oraz hesjanu H w punkcie znanego (ostatniego) rozwiązania wk. Wzór ten jest zależnością czysto teoretyczną, gdyż określenie hesjanu w każdym kroku, w przypadku ogólnym jest trudne do spełnienia, Z tego powodu w praktycznych implementacjach algorytmu rezygnuje się z dokładnego wyznaczania hesjanu H(wk), a w zamian stosuje się przybliżenie G(wk) Jedną z najpopularniejszych metod jest przy tym metoda zmiennej metryki. W metodzie tej, w każdym kroku modyfikuje się hesjan lub jego odwrotność z kroku poprzedniego o pewną poprawkę. 47

48 Algorytm zmiennej metryki Jeżeli przez sk i rk oznaczymy odpowiednio przyrosty wektora w oraz gradientu w dwu kolejnych krokach iteracyjnych, to jest: sk wk wk 1, rk g ( wk ) g ( wk 1 ) a przez V macierz odwrotną przybliżonego hesjanu Vk G ( wk ), Vk 1 G ( wk 1 ) 1 1 To zgodnie z najefektywniejszą formułą Broydena-FletcheraGoldfarba-Shanno (BFGS) proces uaktualniania wartości macierzy V opisuje się zależnością rekurencyjną: é rkt Vk 1rk ů sk s Tk s k rktvk 1 Vk 1rk stk Vk Vk 1 ę1 T ú T T s r s r s ë k k ű k k k rk 48

49 Algorytm zmiennej metryki W innym znanym algorytmie Davidona-Fletchera-Powella (DFP) uaktualnienie hesjanu odbywa się według zależności: sk s Tk Vk 1rk rktvk 1 Vk Vk 1 T T sk rk rk Vk 1rk Podsumowanie: Metoda zmiennej metryki charakteryzuje zbieżnością niż metoda największego spadku. się szybszą Fakt, ze hesjan w każdym kroku spełnia warunek dodatniej określoności, daje nam pewność, że spełnienie warunku g (wk) = 0 odpowiada rozwiązaniu problemu optymalizacji. 49

50 Algorytm zmiennej metryki Metoda ta uważana jest obecnie za jedną z najlepszych technik optymalizacji funkcji wielu zmiennych. Jej wadą jest stosunkowo znaczna złożoność obliczeniowa (konieczność wyznaczenia w każdym cyklu n2 elementów hesjanu), a także duże wymagania w odniesieniu do pamięci przy przechowywaniu macierzy hesjanu, co w przypadku funkcji z dużą liczbą zmiennych może być poważnym problemem. 50

51 Algorytm Levenberga-Marquardta Charakterystyka ogólna: W metodzie tej dokładną wartość hesjanu H(w) zastępuję się jego wartością aproksymowaną G(w), określaną na podstawie informacji zawartej w gradiencie z uwzględnieniem czynnika regularyzującego. Funkcji celu w postaci odpowiadającej istnieniu jednego wzorca uczącego: 1 M 2 E ( w) ei ( w) 2 i 1 gdzie: ei = [yi(w)-di] 51

52 Algorytm Levenberga-Marquardta Przy zastosowaniu oznaczeń: é e1 ( w) ů ę e ( w) ú ú e( w) ę 2 ę... ú ę ú e ( w ) ë M ű é e1 ę w ę 1 ę e2 J ( w) ę w1 ę... ę em ę ë w1 e1 w2 e2 w2... em w2 e1 ů wn ú ú e2 ú... wn ú ú em ú... ú wn ű... Wektor gradientu i aproksymowana macierz odpowiadające funkcji celu określane są w postaci: g ( w) J ( w) e( w) T hesjanu G ( w) J ( w) J ( w) R ( w) T R(w) odpowiada składnikom rozwinięcia zawierającej wyższe pochodne względem w. 52 hesjanu H(w),

53 Algorytm Levenberga-Marquardta Istotą podejścia Levenberga-Marquardta jest aproksymacja R (w) za pomocą czynnika regularyzacyjnego v1, w którym v, zwany parametrem Levenberga-Marquardta, jest wielkością skalarną, zmienianą w trakcie procesu optymalizacyjnego. Aproksymowana macierz hesjanu w k-tym kroku algorytmu przyjmuje więc postać: G ( wk ) J ( wk ) J ( wk ) vk 1 T Na starcie procesu uczenia, gdy aktualna wartość wk jest daleka od rozwiązania (duża wartość wektora błędu e), przyjmuje się wartość parametru vk bardzo dużą w porównaniu z największą wartością własną macierzy [J(wk)]TJ (wk). W takim przypadku hesjan jest reprezentowany przede wszystkim przez czynnik regularyzacyjny: G ( wk ) vk 1 53

54 Algorytm Levenberga-Marquardta A poszukiwanie kierunku odbywa się zgodnie z metodą największego spadku: pk g ( wk ) vk Podsumowanie: O skuteczności działania algorytmu decyduje odpowiedni dobór wartości vk. Duża wartość początkowa vk w miarę postępów optymalizacji musi ulec redukcji aż do wartości zerowej przy rozwiązaniu aktualnym bliskim optymalnemu. Istnieją różne sposoby doboru tej wartości (np. metoda zaproponowana przez D. Marquardta) 54

55 Algorytm gradientów sprzężonych Charakterystyka ogólna: W metodzie tej podczas wyznaczania kierunku minimalizacyjnego rezygnuje się z bezpośredniej informacji o hesjanie. W zamian za to kierunek poszukiwań pk jest konstruowany w taki sposób, aby był ortogonalny oraz sprzężony do wszystkich poprzednich kierunków p0, p1,, pk-1. Zbiór wektorów pi, i = 0,1,, k, jest wzajemnie sprzężony względem macierzy G, jeżeli: pit Gp j 0, i j Wektor pk, który spełnia powyższe założenia ma postać: pk g k k 1 pk 1 gk = g(wk) oznacza aktualną wartość wektora gradientu. 55

56 Algorytm gradientów sprzężonych Z poprzedniego wzoru wynika, że nowy kierunek minimalizacyjny zależy tylko od wartości gradientu w punkcie rozwiązania wk oraz od poprzedniego kierunku poszukiwań pk-1, pomnożonego przez współczynnik sprzężenia βk-1. Współczynnik sprzężenia odgrywa bardzo ważną rolę, kumulując w sobie informacje o poprzednich kierunkach poszukiwań. Istnieje wiele reguł wyznaczania tego współczynnika. Najbardziej znane z nich to: k 1 g kt ( g k g k 1 ) g Tk 1 gk 1 k 1 56 g kt ( g k g k 1 ) pk 1 g k 1

57 Algorytm gradientów sprzężonych Podsumowanie: Ze względu na kumulację błędów zaokrąglania podczas kolejnych cykli obliczeniowych metoda ta w praktyce zatraca własność ortogonalności między wektorami kierunków minimalizacyjnych. Dlatego też po wykonaniu n iteracji (n przyjmuje się jako funkcję liczby zmiennych podlegających optymalizacji) przeprowadza się jej ponowny start, zakładając w pierwszym kroku kierunek minimalizacyjny zgodnie z algorytmem największego spadku w aktualnie osiągniętym punkcie rozwiązania. Metoda ta wykazuje zbieżność zbliżoną do liniowej i z tego powodu jest mniej skuteczna niż metoda zmiennej metryki, lecz zdecydowanie szybsza niż metoda największego spadku. Stosuje się ją powszechnie jako jedyny skuteczny algorytm optymalizacji przy bardzo dużej liczbie zmiennych, sięgających nawet kilkudziesięciu tysięcy. 57

58 Dobór współczynnika uczenia Informacje podstawowe: Poprzednie algorytmy określają jedynie kierunek, wzdłuż którego funkcja celu maleje, nie podając wielkości kroku, przy którym funkcja ta osiąga wartość minimalna na danym kierunku, Po określeniu właściwego kierunku pk należy wybrać na nim nowy punkt rozwiązania wk+1, dla którego spełniony będzie warunek E(wk+1) < E(wk). Pożądany jest taki dobór ηk, aby nowy punkt rozwiązania leżał możliwie blisko minimum funkcji E(w) na kierunku pk. Właściwy dobór współczynnika ηk ma ogromny wpływ na zbieżność algorytmu optymalizacyjnego do minimum funkcji celu. Im ηk bardziej odbiega od wartości, przy którym E(w) osiąga minimum na danym kierunku pk, tym większa liczba iteracji jest potrzebna do wyznaczenia optymalnego rozwiązania. 58

59 Dobór współczynnika uczenia Istnieje wiele sposobów doboru wartości η, zwanej w sieciach neuronowych współczynnikiem uczenia. Najprostszy z nich polega na przyjęciu stałej wartości η w całym procesie optymalizacyjnym. Jest to sposób rzadko stosowany, mało efektywny, gdyż nie uzależnia wartości współczynnika uczenia od aktualnego wektora gradientu, a więc i kierunku p w danej iteracji. Dobór η odbywa się zwykle oddzielnie dla każdej warstwy sieci przy wykorzystaniu różnych zależności empirycznych. Jednym z rozwiązań jest przyjęcie oszacowania minimalnej wartości współczynnika η dla każdej warstwy w postaci: 1 Ł min ni ni oznacza liczbę wejść i-tego neuronu w warstwie. 59

60 Dobór współczynnika uczenia Inną bardziej skuteczną metodą jest założenie adaptacyjnych zmian współczynnika η, dopasowujących się do aktualnych zmian wartości funkcji celu w czasie uczenia. W metodzie tej na podstawie porównania sumacyjnego błędu w i-tej iteracji z jej poprzednią wartością, gdzie: M (y 2 d ) j j j 1 określa się strategię zmian wartości współczynnika uczenia. W celu przyspieszenia procesu uczenia w metodzie powinno się dążyć do ciągłego zwiększania η, jednocześnie sprawdzając, czy błąd nie rośnie w porównaniu z błędem obliczanym przy starej wartości η. Dopuszcza się przy tym nieznaczny wzrost wartości tego błędu w stosunku do wartości z poprzedniej iteracji. 60

61 Dobór współczynnika uczenia Mimo pewnego zwiększenia nakładu obliczeniowego (potrzebnego do wyznaczenia dodatkowej wartości ) możliwe jest jednak istotne przyspieszenie procesu uczenia, W praktycznej realizacji tej metody należy uwzględnić mechanizmy kontroli i sterowania wartościami współczynników, dobierając je do specyfiki zadania, gdyż wartości optymalne przy jednej postaci funkcji mogą zamiast przyspieszania wprowadzić opóźnienie procesu uczenia przy zmianie funkcji. 61

62 Dobór współczynnika uczenia Najefektywniejszy, choć najbardziej złożony, sposób doboru współczynnika uczenia polega na minimalizacji kierunkowej funkcji celu na wyznaczonym wcześniej kierunku pk. Należy tak dobrać skalarną wartość ηk, aby nowe rozwiązanie wk+1 = wk + ηkpk odpowiadało minimum funkcji celu na danym kierunku pk. W rzeczywistości wyznaczone rozwiązanie wk+1 tylko z pewnym przybliżeniem odpowiada prawdziwemu minimum. Podyktowane jest to kompromisem między poniesionym nakładem obliczeniowym a wpływem dokładności wartości ηk na zbieżność algorytmu. Wśród najpopularniejszych metod wyznaczania minimum kierunkowego można wyróżnić metody bezgradientowe i gradientowe. 62

63 Dobór współczynnika uczenia W metodach bezgradientowych korzysta się jedynie z informacji o wartościach funkcji celu i wyznacza jej minimum w wyniku kolejnych podziałów założonego na wstępie zakresu wektora w. Przykładem takich metod są: metoda bisekcji, złotego podziału odcinka czy metoda Fibonacciego różniące się sposobem podziału kolejnych podzakresów. Lepszym rozwiązaniem jest zastosowanie metod gradientowych, w których oprócz wartości funkcji wykorzystuje się również jej pochodną wzdłuż wektora kierunku pk. Umożliwiają one znaczne przyspieszenie wyznaczenia minimum wzdłuż danego kierunku, gdyż opierają się na informacji o kierunku spadku wartości funkcji celu. W takim przypadku stosuje się zwykle wielomian aproksymujący trzeciego rzędu: P3 ( ) a3 3 a2 2 a1 a0 63

64 Dobór współczynnika uczenia Cztery współczynniki ai wielomianu można wyznaczyć, korzystając z informacji o wartości funkcji i jej pochodnej kierunkowej jedynie w dwu punktach. Przyrównując do zera pochodną wielomianu względem η otrzymuje się wzór określający ηmin w postaci: min a2 a22 3a2 a1 3a3 64

65 Metody heurystyczne uczenia sieci Informacje podstawowe: Oprócz algorytmów uczących implementujących wypróbowane metody optymalizacji nieliniowej funkcji celu, takie jak metoda zmiennej metryki, metoda Levenberga-Marquardta czy metoda gradientów sprzężonych, opracowano ogromną liczbę algorytmów typu heurystycznego, stanowiących modyfikację metody największego spadku bądź metody gradientów sprzężonych. Modyfikacje takie, opierające się na algorytmach powszechnie znanych, wprowadzają do nich pewne poprawki, przyspieszające (zdaniem autorów) działanie algorytmu. Nie mają one najczęściej ścisłego uzasadnienia teoretycznego, zwłaszcza przy doborze wartości parametrów sterujących działaniem poprawki, ale uwzględnione są w nich doświadczenia różnych autorów z zakresu prac nad sieciami neuronowymi. Do najbardziej znanych algorytmów heurystycznych należą quickprop S. Fahlmana oraz rprop R. Riedmillera i H. Brauna. 65

66 Algorytm Quickprop Charakterystyka ogólna: Quickprop zawiera elementy zabezpieczające przed utknięciem w płytkim minimum lokalnym, wynikającym z punktu pracy neuronu w nasyceniu krzywej sigmoidalnej, gdzie ze względu na pochodną funkcji aktywacji bliską zeru, postęp w uczeniu jest znikomy. Zmiana wagi wij w k-tym kroku algorytmu dokonuję się według następującej zależności: é E( w( k )) ů wij (k ) k ę wij (k ) ú ij( k ) wij ( k 1) ęë wij úű Składnik pierwszy odpowiada oryginalnemu algorytmowi największego spadku, Składnik ostatni czynnikowi momentu, Składnik środkowy minimalizacji wartości absolutnej wag, 66

67 Algorytm Quickprop Współczynnik, przyjmujący zwykle małe wartości (typowa wartość 10-4) - jest czynnikiem prowadzącym do redukcji wartości wag i ewentualnej ich eliminacji, Stała ηk jest współczynnikiem uczenia (przyjmuje w algorytmie 2 wartości: wartość stałą η0 na starcie uczenia gdy spełnione są określone warunki, albo wartość zerową) Ważną rolę w algorytmie pełni czynnik momentu, dostosowywany adaptacyjnie do aktualnych postępów w uczeniu. Zgodnie z algorytmem Fahlmana współczynnik momentu ij dobierany jest indywidualnie dla każdej wagi według wzoru: gdy ij ( k ) max lub gdy Sij (k ) wij ( k 1) ij ( k ) 0 max ij(k ) ij ( k ) w pozostałych przypa dkach 67

68 Algorytm Quickprop Przy czym: Sij (k ) E ( w( k )) wij ( k ) wij (k) ij Sij ( k ) S ij ( k 1) Sij ( k ) max - maksymalna wartość współczynnika momentu, przyjęta przez Fahlmana jako max = 1,75 Znana jest również uproszczona wersja algorytmu Quickprop, w której zmiany wartości wag odbywają się według wzoru: ij ( k ) wij ( k 1) wij (k ) E 0 wij dla w ij ( k 1) 0 w przeciwnym przypadku 68

69 Algorytm Quickprop S ij ( k ) ij ( k ) min, max S ( k 1 ) S ( k ) ij ij Gdzie: Sij (k ) E ( w( k )) wij Zmniejszeniu uległa liczba parametrów sterujących procesem uczenia i złożoność samej formuły uaktualniania wag. Jak wykazały wyniki, skuteczność zmodyfikowanego algorytmu jest porównywalna z oryginalnym algorytmem Fahlmana. 69

70 Algorytm RPROP Charakterystyka ogólna: W algorytmie tym przy zmianie wag uwzględnia się jedynie znak składowej gradientu, ignorując jej wartość: E ( w( k )) wij (k ) ij ( k ) sgn wij Współczynnik uczenia dobierany jest indywidualnie dla każdej wagi wij na podstawie zmian wartości gradientu: ij( k ) min(a ij (k 1), max ) dla Sij (k ) S ij (k 1) 0 max(b ij (k 1), min ) dla Sij (k ) S ij (k 1) 0 (k 1) w pozostałych przypadkach ij 70

71 Algorytm RPROP Sij (k ) E ( w( k )) wij Gdzie: a i b są stałymi: a = 1,2; b = 0,5, ηmin i ηmax oznaczają minimalną i maksymalną wartość współczynnika uczenia, równą odpowiednio 10-6 oraz 50, Funkcja sgn oznacza znak argumentu. Algorytm pozwala na znaczne przyspieszenie procesu uczenia w tych obszarach, w których nachylenie funkcji celu jest niewielkie. Zgodnie ze strategią doboru wag zakłada się ciągły wzrost współczynnika uczenia, jeśli w dwu kolejnych krokach znak gradientu jest taki sam, natomiast jego redukcję, gdy ten znak jest różny. 71

72 Porównanie efektywności algorytmów uczących Informacje podstawowe: Porównanie efektywności algorytmów uczących dokonuje się na podstawie określonych testów, stanowiących zwykle przyjęte standardy światowe. Do takich testów należą między innymi: problem logistyczny, problem parzystości, kodowania i dekodowania danych zero-jedynkowych, aproksymacji określonej postaci funkcji nieliniowej i wiele innych. Różne algorytmy uczące porównuje się między sobą pod względem liczby cykli uczących, liczby obliczeń funkcji celu, liczby mnożeń zmiennoprzecinkowych, wrażliwości na minima lokalne itp. 72

73 Porównanie efektywności algorytmów uczących Strategia wyboru kroku uczenia jest kluczowa dla efektywności algorytmu. Im lepsze przybliżenie wartości minimalnej funkcji celu w kierunku p, tym większy postęp uczenia w poszczególnych cyklach uczących i lepszy efekt uczenia. Z tego względu najlepsze wyniki gwarantuje metoda minimalizacji kierunkowej, zastosowana w każdym cyklu optymalizacyjnym do określenia właściwego kroku uczącego. Przy porównywaniu efektywności metod należy jednak uwzględnić wtedy dodatkowy nakład obliczeniowy, wymagany na etapie określania optymalnej wartości η. Nie jest możliwe jednoznaczne określenie, który algorytm jest bezwzględnie najlepszy. Otrzymane wyniki mogą się znacznie różnić między sobą, w zależności od typu zadania testowego, liczby danych uczących, wielkości sieci neuronowej, rodzaju użytej platformy obliczeniowej czy szczegółów rozwiązania poszczególnych etapów algorytmu. 73

74 Porównanie efektywności algorytmów uczących Algorytm Czas [s] Liczba cykli Liczba operacji x 106 Największego spadku z krokiem adaptacyjnym 57, ,50 Gradientów sprzężonych 19, ,75 Zmiennej metryki BFGS 10, ,02 LevenbergaMarquardta 1,87 6 0,46 RPROP 12, ,56 Tabela 1 - Porównanie efektywności algorytmów uczących (zestawienie danych, zaczerpnięte z toolboxu Neural Networks programu Matlab, uzyskane na komputerze Macintosh Powerbook 1400) 74

75 Porównanie efektywności algorytmów uczących Podsumowanie: Generalnie na podstawie wielu różnych badań testowych stwierdzono, że algorytmy newtonowskie, w tym metoda zmiennej metryki i Levenberga-Marquardta przewyższają pod względem efektywności zarówno metodę największego spadku, jak i metodę gradientów sprzężonych, ale ta zdecydowana przewaga zanika przy znacznym zwiększaniu rozmiarów sieci. Już przy 1000 wagach metoda gradientów sprzężonych zwykle dominuje nad pozostałymi. 75

76 Elementy optymalizacji globalnej Informacje podstawowe: W uczeniu sieci neuronowych sigmoidalnych, opierającym się na minimalizacji wartości funkcji celu, należy liczyć się z możliwości wystąpienia wielu minimów lokalnych nawet przy rozwiązywaniu stosunkowo prostych zadań technicznych. Wszystkie przedstawione wcześniej metody uczenia sieci są metodami lokalnymi, prowadzącymi do określonego minimum lokalnego funkcji celu, powiązanego z punktem startowym algorytmu. Tylko w przypadku znajomości minimum globalnego łatwo jest ocenić, czy osiągnięte minimum lokalne leży dostatecznie blisko rozwiązania idealnego. 76

77 Elementy optymalizacji globalnej Jeśli rozwiązanie lokalne jest niezadowalające, można powtórzyć proces uczenia przy innych wartościach startowych wag i innych parametrach procesu uczenia. Można przy tym pominąć osiągnięte rozwiązanie i rozpocząć proces uczenia od nowych, zwykle losowo wybranych wartości wag albo też dodać wartości losowe do aktualnie uzyskanych rozwiązań i kontynuować proces uczenia. Ostatnia technika (jog of weights) jest godna polecenia, gdyż stosując ją nie zatraca się uzyskanych już rezultatów uczenia. Dodanie losowych przyrostów wag odpowiada przemieszczeniu się rozwiązania z punktu minimum lokalnego do innego punktu obszaru funkcji celu. 77

78 Elementy optymalizacji globalnej Wobec losowych wartości tych przyrostów, nowy punkt daje pewne prawdopodobieństwo takiego przemieszczenia, które przy dalszym uczeniu wprowadzi nas w obszar leżący poza zasięgiem przyciągania poprzedniego minimum lokalnego. Przy rozwiązaniu rzeczywistych problemów technicznych nie można oczekiwać nawet przybliżonej znajomości minimum globalnego. Jeśli nie ma postępów w uczeniu, zachodzi potrzeba skorzystania z metod optymalizacji globalnej. Z wielu istniejących opracowań w tej dziedzinie przedstawione zostaną: Metoda symulowanego wyżarzania, Algorytmy genetyczne. 78

79 Algorytm symulowanego wyżarzania Charakterystyka ogólna: Metoda symulowanego wyżarzania opiera się na idei zaczerpniętej z mechaniki statycznej i nawiązuje do ciał fizycznych w procesie krzepnięcia z zastosowaniem wyżarzania przy temperaturze stopniowo zmniejszanej do zera. W procesie krzepnięcia rozżarzonego materiału, temperatura, jak wykazały badania, powinna być obniżana stopniowo, aż do wykrystalizowania się stanu stałego. Jeśli ochładzanie procesu jest zbyt szybkie, powstają znaczne nieregularności struktury, powodujące naprężenia wewnętrzne i sprawiające, że ogólny stan energetyczny ciała, odzwierciedlający naprężenia wewnętrzne, pozostaje na poziomie wyższym niż przy chłodzeniu powolnym. 79

80 Algorytm symulowanego wyżarzania Proces szybkiego ustalania się stanu termicznego materiału na poziomie wyższym niż normalny odpowiada utknięciu procesu optymalizacyjnego w minimum lokalnym. Energia stanu ciała reprezentuje funkcję celu, a absolutne minimum tej energii minimum globalne. W procesie powolnego wyżarzania, krystalizacji ciała towarzyszy globalne obniżanie energii, ale dopuszczalne są również stany, którym towarzyszy chwilowe jej podniesienie. Dzięki dopuszczeniu chwilowego wzrostu stanu energetycznego ciała możliwe jest opuszczenie pułapki minimum lokalnego, która może się pojawić w trakcie procesu. Dopiero obniżenie temperatury do zera absolutnego uniemożliwia jakiekolwiek podniesienie poziomu energetycznego. Możliwy jest wtedy tylko kierunek zmian energetycznych prowadzący do redukcji stanu energii ciała. 80

81 Algorytm symulowanego wyżarzania Typowy przebieg algorytmu symulowanego wyżarzania można przedstawić następująco: Dokonaj startu procesu z rozwiązania początkowego w przy założonej temperaturze początkowej T = Tmax Dopóki T > 0, wykonaj L razy następujące czynności: Wybierz nowe rozwiązanie w z sąsiedztwa w, Oblicz różnicę funkcji celu = E(w ) - E(w), Jeśli Ł 0, przyjmij w = w (obniżenie energii), W przeciwnym razie (gdy > 0) załóż, że w = w z prawdopodobieństwem exp(- /T), co oznacza generację liczby losowej R z zakresu (0,1) i porównanie jej z wartością exp(- /T); jeśli exp(- /T) > R, zaakceptuj nowe rozwiązanie przeciwnym wypadku nie. 81 w = w, w

82 Algorytm symulowanego wyżarzania Zredukuj temperaturę (T rt), przy współczynniku redukcji r dobieranym z zakresu (0,1) i wróć do punktu 2. Po zredukowaniu temperatury do wartości zerowej prowadź uczenie jedną z dowolnych, omówionych wcześniej metod deterministycznych, aż do uzyskania minimum funkcji celu. W algorytmie używa się oryginalnej nazwy temperatura do określenia parametru wpływającego na prawdopodobieństwo akceptacji wzrostu wartości funkcji celu, aczkolwiek z fizycznego punktu widzenia proces optymalizacji jest tylko analogią matematyczną do procesu do procesu krzepnięcia z wyżarzaniem. 82

83 Algorytm symulowanego wyżarzania Podsumowanie: Algorytm symulowanego wyżarzania wydaje się być koncepcyjnie bardzo prosty i logicznie uzasadniony. W rzeczywistości pozostaje do rozwiązania wiele problemów fundamentalnych, które decydują o jego przydatności praktycznej: problem czasu symulacji, wybór parametrów związanych z temperaturą startu Tmax, współczynnikiem r redukcji temperatury, liczbę cykli L przeprowadzanych na danym poziomie temperatury. 83

84 Algorytm symulowanego wyżarzania Metoda symulowanego wyżarzania jest szczególnie dobrze przystosowana do rozwiązywania wielomodalnych problemów kombinatorycznych o bardzo dużej liczbie rozwiązań, np. w maszynie Boltzmanna, w których stan systemu odpowiada jednemu rozwiązaniu. W typowych problemach uczenia sieci wielowarstwowej generalnie lepsze rezultaty uzyskuje się przy zastosowaniu stochastycznie sterowanej metody multistartu i algorytmów deterministycznych przedstawionych wcześniej. 84

85 Elementy algorytmów genetycznych Charakterystyka ogólna: Algorytmy te wzorują się na zasadach dziedziczenia cech w organizmach żywych i generują ciąg nowych wektorów w, zawierających zmienne optymalizowane w = [w1, w2,, wn]t, opierając się na trzech podstawowych operacjach: Selekcji, Krzyżowaniu, Mutacji. Kodowanie poszczególnych elementów wektora w może odbywać się w systemie binarnym bądź przy zastosowaniu naturalnej reprezentacji zmiennoprzecinkowej. 85

86 Elementy algorytmów genetycznych Ciąg operacji genetycznych (selekcja, krzyżowanie i mutacja) ma za zadanie taki dobór poszczególnych zmiennych wi wektora w, aby zmaksymalizować wartość tzw. funkcji przystosowania. Funkcję przystosowania F(w) definiuje się przy wykorzystaniu funkcji celu E(w) jako jej odwrotność (funkcja celu podlega minimalizacji, a funkcja przystosowania maksymalizacji). W fazie startowej algorytmu genetycznego inicjowana jest pewna populacja chromosomów (wektorów w). Tworzy się ją w sposób losowy, choć stosuję się również rozwiązania samonaprowadzające (jeśli można je określić wstępnie). Wielkość populacji jest uzależniona od liczby parametrów optymalizowanych i jest generalnie proporcjonalna do niej. Na podstawie wartości funkcji przystosowania chromosomy są wybierane (selekcjonowane) do tworzenia kolejnej generacji. 86

87 Elementy algorytmów genetycznych Selekcja chromosomów do parowania (tworzenia nowej generacji) może odbywać się według różnych zasad. Jedną z ogólnie stosowanych jest zasada elitarności, która automatycznie zachowuje kilka najlepiej przystosowanych chromosomów, a odrzuca najgorsze, zastępując je nowo utworzonym potomstwem, będącym skrzyżowaniem pary rodziców. Na etapie parowania chromosomów poszukuje się par rodziców, które dadzą potomstwo, dołączane następnie do populacji w ramach selekcji. Istnieje ogromna liczba metod parowania, od całkowicie losowego (zwykle spośród chromosomów najlepiej przystosowanych) przez parowanie wagowolosowe aż po system turniejowy. 87

88 Elementy algorytmów genetycznych W systemie turniejowym losuje się kilka chromosomów i wybiera z nich najlepiej przystosowane. Zwycięzcy kolejnych losowań tworzą pary do krzyżowania. W systemie wagowo-losowym włącza się do losowania informację o aktualnej wartości funkcji przystosowania. Losowanie odbywać się może na zasadzie koła fortuny, przy czym powierzchnia fragmentu koła odpowiadającego danemu chromosomowi jest proporcjonalna do jego względnej funkcji przystosowania. 88

89 Elementy algorytmów genetycznych Rys. 10 Schemat koła fortuny użytego do wyboru rodziców dla przyszłej generacji. 89

90 Elementy algorytmów genetycznych Proces krzyżowania polega na przecięciu pary chromosomów na dwie części i wymienieniu się odpowiednimi częściami w chromosomach rodziców (stosuje się również rozcięcia w kilku jednakowych miejscach rodziców, a następnie komplementarne odcinki zapisu zostają między nimi wymienione). Miejsce przecięcia podlega również losowaniu. Liczba nowych potomków jest równa liczbie odrzuconych w stadium selekcji. Zwykle dopuszcza się również transfer niektórych losowo wybranych chromosomów z populacji z pominięciem krzyżowania. 90

91 Elementy algorytmów genetycznych Ostatnią operacją genetyczną jest mutacja, czyli zamiana stanów pojedynczych bitów (przy kodowaniu binarnym) na przeciwny. W przypadku naturalnego kodowania dziesiętnego mutacja polega na zastąpieniu wylosowanego elementu wektora wartością losową. Mutacja zabezpiecza algorytm przed przedwczesnym zakończeniem (wyrównanie się wartości wszystkich chromosomów i funkcji celu), jak również przed wystąpieniem na danej pozycji we wszystkich chromosomach tej samej wartości. Należy jednak pamiętać, że mutacja niszczy w sposób losowy wektory już częściowo przystosowane. Musi być zatem stosowana z umiarem. 91

92 Elementy algorytmów genetycznych Podsumowanie: Ostateczne rozwiązanie przyjmuje się w postaci odpowiadającej chromosomowi o największym przystosowaniu. Zakończenie procesu genetycznego następuje z chwilą bądź to wygenerowania satysfakcjonującego nas rozwiązania, bądź z chwilą przekroczenia maksymalnej liczby generacji. Dobre wyniki uczenia uzyskuje się przy połączeniu algorytmów optymalizacji globalnej z algorytmami deterministycznymi. W pierwszym etapie uczenia sieci stosuje się wybrany algorytm optymalizacji globalnej, a po osiągnięciu określonego poziomu wartości funkcji celu przełącza się proces na optymalizację deterministyczną, stosując jeden z algorytmów lokalnych (algorytm największego spadku, zmiennej metryki itp.) 92

93 Metoda inicjacji wag Informacje podstawowe: Uczenie sieci neuronowych, nawet przy zastosowaniu najefektywniejszych algorytmów uczących, jest procesem trudnym i nie zawsze prowadzącym do właściwych wyników. Problemem są nieliniowości wprowadzane przez funkcje aktywacji, będące głównym powodem wytworzenia szeregu minimów lokalnych, w których może zatrzymać się proces uczenia. Wprawdzie zastosowanie odpowiedniej strategii postępowania (np. symulowane wyżarzanie, metoda multistartu, algorytmy genetyczne) zmniejszają prawdopodobieństwo zatrzymania procesu w minimum lokalnym, ale konsekwencją tego jest duży nakład pracy i znaczne wydłużenie czasu uczenia. 93

94 Metoda inicjacji wag Na wyniki uczenia ogromny wpływ ma dobór wstępnych wartości wag sieci. Pożądany byłby start z wartości wag zbliżonych do optymalnych. Unika się w ten sposób nie tylko zatrzymania się w niewłaściwym minimum lokalnym, ale jednocześnie znacznie przyspiesza proces uczenia. Niestety, w ogólnym przypadku nie istnieją metody doboru wag, zapewniające właściwy punkt startowy niezależnie od rodzaju zadani. Stąd w większości zastosowań używa się nadal głównie losowego doboru wag, przyjmując rozkład równomierny w określonym przedziale liczbowym. 94

95 Metoda inicjacji wag Zły dobór wartości losowych wag może prowadzić do zjawiska przedwczesnego nasycenia neuronów, w wyniku którego mimo upływu czasu błąd średniokwadratowy pozostaje prawie stały w procesie uczenia. Tego typu zjawisko nie oznacza minimum lokalnego, ale raczej stały punkt siodłowy funkcji celu. Jest on zwykle wynikiem zbyt dużych wartości startowych wag. Przy określonych sygnałach uczących, w węzłach sumacyjnych neuronów generowane są sygnały: ui wij x j j o wartościach odpowiadających głębokiemu nasyceniu funkcji sigmoidalnej aktywacji, przy czym polaryzacja nasycenia jest odwrotna od pożądanej. 95

96 Metoda inicjacji wag W punkcie nasycenia sygnał zwrotny generowany w metodzie propagacji wstecznej, jako proporcjonalny do pochodnej funkcji aktywacji f jest bliski zeru i zmiany x wartości wyprowadzające neuron ze stanu nasycenia są bardzo powolne. Proces uczenia utyka na długo w punkcie siodłowym. Należy zauważyć, że tylko część neuronów może być w stanie nasycenia, pozostałe znajdują się w zakresie liniowym i dla nich sygnał zwrotny uczący przyjmie normalną postać. Oznacza to, że wagi związane z tymi neuronami zmieniają się w sposób normalny i w ich przypadku proces uczenia prowadzi do szybkiej redukcji błędu. 96

97 Metoda inicjacji wag W efekcie neuron pozostający w nasyceniu nie bierze udziału w odwzorowaniu danych, zmniejszając w ten sposób efektywną liczbę neuronów sieci. W wyniku tego następuje ogromne spowalnianie procesu uczenia, powodujące, że stan nasycenia pewnych neuronów może trwać prawie nieprzerwanie aż do wyczerpania czasu iteracji. 97

98 Metoda inicjacji wag Podsumowanie: Inicjacja losowa, jako jedyna uniwersalna metoda przypisania wartości wstępnych wagom sieci, musi zapewnić na wstępie taki punkt pracy neuronów, który daleki jest od nasycenia. Osiąga się to przez ograniczenie zakresu wartości krańcowych w losowaniu. Oszacowania dolnego i górnego zakresu tego przedziału, proponowane przez różnych badaczy na podstawie wielu przeprowadzonych eksperymentów numerycznych, różnią się w szczegółach rozwiązania, ale prawie zawsze znajdują się w przedziale [0,1]. 98

Uczenie sieci typu MLP

Uczenie sieci typu MLP Uczenie sieci typu MLP Przypomnienie budowa sieci typu MLP Przypomnienie budowy neuronu Neuron ze skokową funkcją aktywacji jest zły!!! Powszechnie stosuje -> modele z sigmoidalną funkcją aktywacji - współczynnik

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

WYKŁAD 9 METODY ZMIENNEJ METRYKI

WYKŁAD 9 METODY ZMIENNEJ METRYKI WYKŁAD 9 METODY ZMIENNEJ METRYKI Kierunki sprzężone. Metoda Newtona Raphsona daje dobre przybliżenie najlepszego kierunku poszukiwań, lecz jest to okupione znacznym kosztem obliczeniowym zwykle postać

Bardziej szczegółowo

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia

Bardziej szczegółowo

Podstawy Sztucznej Inteligencji (PSZT)

Podstawy Sztucznej Inteligencji (PSZT) Podstawy Sztucznej Inteligencji (PSZT) Paweł Wawrzyński Uczenie maszynowe Sztuczne sieci neuronowe Plan na dziś Uczenie maszynowe Problem aproksymacji funkcji Sieci neuronowe PSZT, zima 2013, wykład 12

Bardziej szczegółowo

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ Maciej Patan Uniwersytet Zielonogórski WSTEP Zadanie minimalizacji bez ograniczeń f(ˆx) = min x R nf(x) f : R n R funkcja ograniczona z dołu Algorytm rozwiazywania Rekurencyjny

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metody kierunków poparwy (metoda Newtona-Raphsona, metoda gradientów sprzężonych) Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 28.03.2019 1

Bardziej szczegółowo

Algorytm genetyczny (genetic algorithm)-

Algorytm genetyczny (genetic algorithm)- Optymalizacja W praktyce inżynierskiej często zachodzi potrzeba znalezienia parametrów, dla których system/urządzenie będzie działać w sposób optymalny. Klasyczne podejście do optymalizacji: sformułowanie

Bardziej szczegółowo

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, 2013 Spis treści Przedmowa 7 1. Wstęp 9 1.1. Podstawy biologiczne działania neuronu 9 1.2. Pierwsze modele sieci neuronowej

Bardziej szczegółowo

Widzenie komputerowe

Widzenie komputerowe Widzenie komputerowe Uczenie maszynowe na przykładzie sieci neuronowych (3) źródła informacji: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym, WNT 1996 Zdolność uogólniania sieci neuronowej R oznaczenie

Bardziej szczegółowo

8. Neuron z ciągłą funkcją aktywacji.

8. Neuron z ciągłą funkcją aktywacji. 8. Neuron z ciągłą funkcją aktywacji. W tym ćwiczeniu zapoznamy się z modelem sztucznego neuronu oraz przykładem jego wykorzystania do rozwiązywanie prostego zadania klasyfikacji. Neuron biologiczny i

Bardziej szczegółowo

Metody numeryczne I Równania nieliniowe

Metody numeryczne I Równania nieliniowe Metody numeryczne I Równania nieliniowe Janusz Szwabiński szwabin@ift.uni.wroc.pl Metody numeryczne I (C) 2004 Janusz Szwabiński p.1/66 Równania nieliniowe 1. Równania nieliniowe z pojedynczym pierwiastkiem

Bardziej szczegółowo

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa

Bardziej szczegółowo

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji Minimalizacja funkcji n-wymiarowych Forma kwadratowa w n wymiarach Procedury minimalizacji Minimalizacja wzdłuż prostej w n-wymiarowej przestrzeni Metody minimalizacji wzdłuż osi współrzędnych wzdłuż kierunków

Bardziej szczegółowo

2.4. Algorytmy uczenia sieci neuronowych

2.4. Algorytmy uczenia sieci neuronowych 2.4. Algorytmy uczenia sieci neuronowych Prosta struktura sieci jednokierunkowych sprawia, że są najchętniej stosowane. Ponadto metody uczenia ich należą również do popularnych i łatwych w realizacji.

Bardziej szczegółowo

ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH

ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH Transport, studia I stopnia Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać ogólna równania nieliniowego Często występującym, ważnym problemem obliczeniowym

Bardziej szczegółowo

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Temat: Sztuczne Sieci Neuronowe Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Dr inż. Barbara Mrzygłód KISiM, WIMiIP, AGH mrzyglod@ agh.edu.pl 1 Wprowadzenie Sztuczne sieci neuronowe

Bardziej szczegółowo

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO. Rzeczywistość (istniejąca lub projektowana).. Model fizyczny. 3. Model matematyczny (optymalizacyjny): a. Zmienne projektowania

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

wiedzy Sieci neuronowe

wiedzy Sieci neuronowe Metody detekcji uszkodzeń oparte na wiedzy Sieci neuronowe Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski Wykład 7 Wprowadzenie Okres kształtowania się teorii sztucznych sieci

Bardziej szczegółowo

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:

Bardziej szczegółowo

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe Trening jednokierunkowych sieci neuronowych wykład 2. dr inż. PawełŻwan Katedra Systemów Multimedialnych Politechnika Gdańska

Bardziej szczegółowo

Iteracyjne rozwiązywanie równań

Iteracyjne rozwiązywanie równań Elementy metod numerycznych Plan wykładu 1 Wprowadzenie Plan wykładu 1 Wprowadzenie 2 Plan wykładu 1 Wprowadzenie 2 3 Wprowadzenie Metoda bisekcji Metoda siecznych Metoda stycznych Plan wykładu 1 Wprowadzenie

Bardziej szczegółowo

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu 1 Metody rozwiązywania równań nieliniowych. Postawienie problemu Dla danej funkcji ciągłej f znaleźć wartości x, dla których f(x) = 0. (1) 2 Przedział izolacji pierwiastka Będziemy zakładać, że równanie

Bardziej szczegółowo

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH Transport, studia I stopnia rok akademicki 2011/2012 Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Uwagi wstępne Układ liniowych równań algebraicznych można

Bardziej szczegółowo

Sztuczna inteligencja

Sztuczna inteligencja Sztuczna inteligencja Wykład 7. Architektury sztucznych sieci neuronowych. Metody uczenia sieci. źródła informacji: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym, WNT 1996 Podstawowe architektury

Bardziej szczegółowo

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335 Sztuczne sieci neuronowe Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335 Wykład 10 Mapa cech Kohonena i jej modyfikacje - uczenie sieci samoorganizujących się - kwantowanie wektorowe

Bardziej szczegółowo

Uczenie sieci neuronowych i bayesowskich

Uczenie sieci neuronowych i bayesowskich Wstęp do metod sztucznej inteligencji www.mat.uni.torun.pl/~piersaj 2009-01-22 Co to jest neuron? Komputer, a mózg komputer mózg Jednostki obliczeniowe 1-4 CPU 10 11 neuronów Pojemność 10 9 b RAM, 10 10

Bardziej szczegółowo

Temat: Sieci neuronowe oraz technologia CUDA

Temat: Sieci neuronowe oraz technologia CUDA Elbląg, 27.03.2010 Temat: Sieci neuronowe oraz technologia CUDA Przygotował: Mateusz Górny VIII semestr ASiSK Wstęp Sieci neuronowe są to specyficzne struktury danych odzwierciedlające sieć neuronów w

Bardziej szczegółowo

Programowanie celowe #1

Programowanie celowe #1 Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem

Bardziej szczegółowo

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

Metody Rozmyte i Algorytmy Ewolucyjne

Metody Rozmyte i Algorytmy Ewolucyjne mgr inż. Wydział Matematyczno-Przyrodniczy Szkoła Nauk Ścisłych Uniwersytet Kardynała Stefana Wyszyńskiego Podstawy optymalizacji Plan prezentacji 1 Podstawy matematyczne 2 3 Eliminacja ograniczeń Metody

Bardziej szczegółowo

Elementy inteligencji obliczeniowej

Elementy inteligencji obliczeniowej Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 4. Metody kierunków poprawy (metoda spadku wzdłuż gradientu) Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 21.03.2019 1 / 41 Plan wykładu Minimalizacja

Bardziej szczegółowo

Zastosowania sieci neuronowych

Zastosowania sieci neuronowych Zastosowania sieci neuronowych aproksymacja LABORKA Piotr Ciskowski zadanie 1. aproksymacja funkcji odległość punktów źródło: Żurada i in. Sztuczne sieci neuronowe, przykład 4.4, str. 137 Naucz sieć taką

Bardziej szczegółowo

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. zajecia.jakubw.pl/nai Literatura: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 997. PODSTAWOWE ZAGADNIENIA TECHNICZNE AI

Bardziej szczegółowo

Optymalizacja optymalizacji

Optymalizacja optymalizacji 7 maja 2008 Wstęp Optymalizacja lokalna Optymalizacja globalna Algorytmy genetyczne Badane czasteczki Wykorzystane oprogramowanie (Algorytm genetyczny) 2 Sieć neuronowa Pochodne met-enkefaliny Optymalizacja

Bardziej szczegółowo

ĆWICZENIE 15 BADANIE WZMACNIACZY MOCY MAŁEJ CZĘSTOTLIWOŚCI

ĆWICZENIE 15 BADANIE WZMACNIACZY MOCY MAŁEJ CZĘSTOTLIWOŚCI 1 ĆWICZENIE 15 BADANIE WZMACNIACZY MOCY MAŁEJ CZĘSTOTLIWOŚCI 15.1. CEL ĆWICZENIA Celem ćwiczenia jest poznanie podstawowych właściwości wzmacniaczy mocy małej częstotliwości oraz przyswojenie umiejętności

Bardziej szczegółowo

wiedzy Sieci neuronowe (c.d.)

wiedzy Sieci neuronowe (c.d.) Metody detekci uszkodzeń oparte na wiedzy Sieci neuronowe (c.d.) Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski Wykład 8 Metody detekci uszkodzeń oparte na wiedzy Wprowadzenie

Bardziej szczegółowo

6. Perceptron Rosenblatta

6. Perceptron Rosenblatta 6. Perceptron Rosenblatta 6-1 Krótka historia perceptronu Rosenblatta 6-2 Binarne klasyfikatory liniowe 6-3 Struktura perceptronu Rosenblatta 6-4 Perceptron Rosenblatta a klasyfikacja 6-5 Perceptron jednowarstwowy:

Bardziej szczegółowo

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.

Bardziej szczegółowo

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych inż. Marek Duczkowski Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych słowa kluczowe: algorytm gradientowy, optymalizacja, określanie wodnicy W artykule

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt

Bardziej szczegółowo

Wstęp do metod numerycznych Zadania numeryczne 2016/17 1

Wstęp do metod numerycznych Zadania numeryczne 2016/17 1 Wstęp do metod numerycznych Zadania numeryczne /7 Warunkiem koniecznym (nie wystarczającym) uzyskania zaliczenia jest rozwiązanie co najmniej 3 z poniższych zadań, przy czym zadania oznaczone literą O

Bardziej szczegółowo

8. PODSTAWY ANALIZY NIELINIOWEJ

8. PODSTAWY ANALIZY NIELINIOWEJ 8. PODSTAWY ANALIZY NIELINIOWEJ 1 8. 8. PODSTAWY ANALIZY NIELINIOWEJ 8.1. Wprowadzenie Zadania nieliniowe mają swoje zastosowanie na przykład w rozwiązywaniu cięgien. Przyczyny nieliniowości: 1) geometryczne:

Bardziej szczegółowo

Laboratorium 5 Przybliżone metody rozwiązywania równań nieliniowych

Laboratorium 5 Przybliżone metody rozwiązywania równań nieliniowych Uniwersytet Zielonogórski Wydział Informatyki, Elektrotechniki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych Elektrotechnika niestacjonarne-zaoczne pierwszego stopnia z tyt. inżyniera

Bardziej szczegółowo

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego IBS PAN, Warszawa 9 kwietnia 2008 Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego mgr inż. Marcin Jaruszewicz promotor: dr hab. inż. Jacek Mańdziuk,

Bardziej szczegółowo

SZTUCZNA INTELIGENCJA

SZTUCZNA INTELIGENCJA SZTUCZNA INTELIGENCJA WYKŁAD 13. PROBLEMY OPTYMALIZACYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska PROBLEMY OPTYMALIZACYJNE Optymalizacja poszukiwanie

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING NEURONOWE MAPY SAMOORGANIZUJĄCE SIĘ Self-Organizing Maps SOM Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki,

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 1. Optymalizacja funkcji jednej zmiennej Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 28.02.2019 1 / 54 Plan wykładu Optymalizacja funkcji jednej

Bardziej szczegółowo

Algorytmy ewolucyjne NAZEWNICTWO

Algorytmy ewolucyjne NAZEWNICTWO Algorytmy ewolucyjne http://zajecia.jakubw.pl/nai NAZEWNICTWO Algorytmy ewolucyjne nazwa ogólna, obejmująca metody szczegółowe, jak np.: algorytmy genetyczne programowanie genetyczne strategie ewolucyjne

Bardziej szczegółowo

Sztuczne sieci neuronowe

Sztuczne sieci neuronowe www.math.uni.lodz.pl/ radmat Cel wykładu Celem wykładu jest prezentacja różnych rodzajów sztucznych sieci neuronowych. Biologiczny model neuronu Mózg człowieka składa się z około 10 11 komórek nerwowych,

Bardziej szczegółowo

Wstęp do metod numerycznych 11. Minimalizacja: funkcje wielu zmiennych. P. F. Góra

Wstęp do metod numerycznych 11. Minimalizacja: funkcje wielu zmiennych. P. F. Góra Wstęp do metod numerycznych 11. Minimalizacja: funkcje wielu zmiennych P. F. Góra http://th-www.if.uj.edu.pl/zfs/gora/ 2012 Strategia minimalizacji wielowymiarowej Zakładamy, że metody poszukiwania minimów

Bardziej szczegółowo

PLAN WYKŁADU OPTYMALIZACJA GLOBALNA OPERATOR KRZYŻOWANIA ETAPY KRZYŻOWANIA

PLAN WYKŁADU OPTYMALIZACJA GLOBALNA OPERATOR KRZYŻOWANIA ETAPY KRZYŻOWANIA PLAN WYKŁADU Operator krzyżowania Operator mutacji Operator inwersji Sukcesja Przykłady symulacji AG Kodowanie - rodzaje OPTYMALIZACJA GLOBALNA Wykład 3 dr inż. Agnieszka Bołtuć OPERATOR KRZYŻOWANIA Wymiana

Bardziej szczegółowo

Co to jest grupowanie

Co to jest grupowanie Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie

Bardziej szczegółowo

Lekcja 5: Sieć Kohonena i sieć ART

Lekcja 5: Sieć Kohonena i sieć ART Lekcja 5: Sieć Kohonena i sieć ART S. Hoa Nguyen 1 Materiał Sieci Kohonena (Sieć samo-organizująca) Rysunek 1: Sieć Kohonena Charakterystyka sieci: Jednowarstwowa jednokierunkowa sieć. Na ogół neurony

Bardziej szczegółowo

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda Sieci neuropodobne 1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN Agenda Trochę neurobiologii System nerwowy w organizmach żywych tworzą trzy

Bardziej szczegółowo

SIECI REKURENCYJNE SIECI HOPFIELDA

SIECI REKURENCYJNE SIECI HOPFIELDA SIECI REKURENCYJNE SIECI HOPFIELDA Joanna Grabska- Chrząstowska Wykłady w dużej mierze przygotowane w oparciu o materiały i pomysły PROF. RYSZARDA TADEUSIEWICZA SPRZĘŻENIE ZWROTNE W NEURONIE LINIOWYM sygnał

Bardziej szczegółowo

Optymalizacja systemów

Optymalizacja systemów Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji

Bardziej szczegółowo

1 Równania nieliniowe

1 Równania nieliniowe 1 Równania nieliniowe 1.1 Postać ogólna równania nieliniowego Często występującym, ważnym problemem obliczeniowym jest numeryczne poszukiwanie rozwiązań równań nieliniowych, np. algebraicznych (wielomiany),

Bardziej szczegółowo

10. Techniki minimalizacji a sieci neuronowe

10. Techniki minimalizacji a sieci neuronowe 10. Techniki minimalizacji a sieci neuronowe 10-1 Błąd aproksymacji 10-2 Minimalizacja kosztu 10-3 Tryby minimalizacji 10-4 Metoda największego spadku 10-5 Gradient sprzężony 10-6 Metoda Newtona 10-7 Metody

Bardziej szczegółowo

Wprowadzenie Metoda bisekcji Metoda regula falsi Metoda siecznych Metoda stycznych RÓWNANIA NIELINIOWE

Wprowadzenie Metoda bisekcji Metoda regula falsi Metoda siecznych Metoda stycznych RÓWNANIA NIELINIOWE Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać ogólna równania nieliniowego Zazwyczaj nie można znaleźć

Bardziej szczegółowo

Algorytmy genetyczne w optymalizacji

Algorytmy genetyczne w optymalizacji Algorytmy genetyczne w optymalizacji Literatura 1. David E. Goldberg, Algorytmy genetyczne i ich zastosowania, WNT, Warszawa 1998; 2. Zbigniew Michalewicz, Algorytmy genetyczne + struktury danych = programy

Bardziej szczegółowo

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych. Wstęp do teorii sztucznej inteligencji Wykład III Modele sieci neuronowych. 1 Perceptron model najprostzszy przypomnienie Schemat neuronu opracowany przez McCullocha i Pittsa w 1943 roku. Przykład funkcji

Bardziej szczegółowo

Metody Sztucznej Inteligencji II

Metody Sztucznej Inteligencji II 17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału

Bardziej szczegółowo

Sieci neuronowe jako sposób na optymalizacje podejmowanych decyzji. Tomasz Karczyoski Wydział W-08 IZ

Sieci neuronowe jako sposób na optymalizacje podejmowanych decyzji. Tomasz Karczyoski Wydział W-08 IZ optymalizacje podejmowanych decyzji Tomasz Karczyoski Wydział W-08 IZ Czym są sieci neuronowe Struktura matematycznych oraz programowy lub sprzętowy model, realizujących obliczenia lub przetwarzanie sygnałów

Bardziej szczegółowo

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311 Sztuczne sieci neuronowe Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311 Wykład 7 PLAN: - Repetitio (brevis) -Algorytmy miękkiej selekcji: algorytmy ewolucyjne symulowane wyżarzanie

Bardziej szczegółowo

Sztuczne sieci neuronowe Ćwiczenia. Piotr Fulmański, Marta Grzanek

Sztuczne sieci neuronowe Ćwiczenia. Piotr Fulmański, Marta Grzanek Sztuczne sieci neuronowe Ćwiczenia Piotr Fulmański, Marta Grzanek Piotr Fulmański 1 Wydział Matematyki i Informatyki, Marta Grzanek 2 Uniwersytet Łódzki Banacha 22, 90-232, Łódź Polska e-mail 1: fulmanp@math.uni.lodz.pl,

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline. Wstęp do sieci neuronowych, wykład 3 Warstwy, jednostka Adaline. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 211-1-18 1 Pomysł Przykłady Zastosowanie 2

Bardziej szczegółowo

D. Miszczyńska, M.Miszczyński KBO UŁ 1 GRY KONFLIKTOWE GRY 2-OSOBOWE O SUMIE WYPŁAT ZERO

D. Miszczyńska, M.Miszczyński KBO UŁ 1 GRY KONFLIKTOWE GRY 2-OSOBOWE O SUMIE WYPŁAT ZERO D. Miszczyńska, M.Miszczyński KBO UŁ GRY KONFLIKTOWE GRY 2-OSOBOWE O SUMIE WYPŁAT ZERO Gra w sensie niżej przedstawionym to zasady którymi kierują się decydenci. Zakładamy, że rezultatem gry jest wypłata,

Bardziej szczegółowo

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych mgr inż. C. Dendek prof. nzw. dr hab. J. Mańdziuk Politechnika Warszawska, Wydział Matematyki i Nauk Informacyjnych Outline 1 Uczenie

Bardziej szczegółowo

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015 Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015 1 Metody numeryczne Dział matematyki Metody rozwiązywania problemów matematycznych za pomocą operacji na liczbach. Otrzymywane

Bardziej szczegółowo

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 16.01.2003 Algorytmy i Struktury Danych PIŁA ALGORYTMY ZACHŁANNE czas [ms] Porównanie Algorytmów Rozwiązyjących problem TSP 100 000 000 000,000 10 000 000

Bardziej szczegółowo

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać układu równań liniowych Układ liniowych równań algebraicznych

Bardziej szczegółowo

Zastosowania sieci neuronowych

Zastosowania sieci neuronowych Zastosowania sieci neuronowych klasyfikacja LABORKA Piotr Ciskowski zadanie 1. klasyfikacja zwierząt sieć jednowarstwowa żródło: Tadeusiewicz. Odkrywanie własności sieci neuronowych, str. 159 Przykład

Bardziej szczegółowo

5. Rozwiązywanie układów równań liniowych

5. Rozwiązywanie układów równań liniowych 5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a

Bardziej szczegółowo

Rozwiązywanie równań nieliniowych i ich układów. Wyznaczanie zer wielomianów.

Rozwiązywanie równań nieliniowych i ich układów. Wyznaczanie zer wielomianów. Rozwiązywanie równań nieliniowych i ich układów. Wyznaczanie zer wielomianów. Plan wykładu: 1. Wyznaczanie pojedynczych pierwiastków rzeczywistych równań nieliniowych metodami a) połowienia (bisekcji)

Bardziej szczegółowo

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 1 Kwantyzacja skalarna Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 10.05.005 Kwantyzacja polega na reprezentowaniu dużego zbioru wartości (być może nieskończonego) za pomocą wartości

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-11 1 Modelowanie funkcji logicznych

Bardziej szczegółowo

Metody Optymalizacji: Przeszukiwanie z listą tabu

Metody Optymalizacji: Przeszukiwanie z listą tabu Metody Optymalizacji: Przeszukiwanie z listą tabu Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje: wtorek

Bardziej szczegółowo

Matematyka stosowana i metody numeryczne

Matematyka stosowana i metody numeryczne Ewa Pabisek Adam Wosatko Piotr Pluciński Matematyka stosowana i metody numeryczne Konspekt z wykładu 6 Rozwiązywanie równań nieliniowych Rozwiązaniem lub pierwiastkiem równania f(x) = 0 lub g(x) = h(x)

Bardziej szczegółowo

Algorytmy sztucznej inteligencji

Algorytmy sztucznej inteligencji Algorytmy sztucznej inteligencji Dynamiczne sieci neuronowe 1 Zapis macierzowy sieci neuronowych Poniżej omówione zostaną części składowe sieci neuronowych i metoda ich zapisu za pomocą macierzy. Obliczenia

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Dystrybucje, wiadomości wstępne (I)

Dystrybucje, wiadomości wstępne (I) Temat 8 Dystrybucje, wiadomości wstępne (I) Wielkości fizyczne opisujemy najczęściej przyporządkowując im funkcje (np. zależne od czasu). Inną drogą opisu tych wielkości jest przyporządkowanie im funkcjonałów

Bardziej szczegółowo

Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009

Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009 Algorytmy genetyczne Paweł Cieśla 8 stycznia 2009 Genetyka - nauka o dziedziczeniu cech pomiędzy pokoleniami. Geny są czynnikami, które decydują o wyglądzie, zachowaniu, rozmnażaniu każdego żywego organizmu.

Bardziej szczegółowo

ALGORYTMY GENETYCZNE ćwiczenia

ALGORYTMY GENETYCZNE ćwiczenia ćwiczenia Wykorzystaj algorytmy genetyczne do wyznaczenia minimum globalnego funkcji testowej: 1. Wylosuj dwuwymiarową tablicę 100x2 liczb 8-bitowych z zakresu [-100; +100] reprezentujących inicjalną populację

Bardziej szczegółowo

LABORATORIUM 4: Algorytmy ewolucyjne cz. 2 wpływ operatorów krzyżowania i mutacji na skuteczność poszukiwań AE

LABORATORIUM 4: Algorytmy ewolucyjne cz. 2 wpływ operatorów krzyżowania i mutacji na skuteczność poszukiwań AE Instytut Mechaniki i Inżynierii Obliczeniowej Wydział Mechaniczny Technologiczny, Politechnika Śląska www.imio.polsl.pl METODY HEURYSTYCZNE LABORATORIUM 4: Algorytmy ewolucyjne cz. 2 wpływ operatorów krzyżowania

Bardziej szczegółowo

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311 Sztuczne sieci neuronowe Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311 PLAN: Wykład 5 - Metody doboru współczynnika uczenia - Problem inicjalizacji wag - Problem doboru architektury

Bardziej szczegółowo

Algorytmy genetyczne

Algorytmy genetyczne Algorytmy genetyczne Motto: Zamiast pracowicie poszukiwać najlepszego rozwiązania problemu informatycznego lepiej pozwolić, żeby komputer sam sobie to rozwiązanie wyhodował! Algorytmy genetyczne służą

Bardziej szczegółowo

Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra

Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa P. F. Góra http://th-www.if.uj.edu.pl/zfs/gora/ 2012 Uwarunkowanie zadania numerycznego Niech ϕ : R n R m będzie pewna funkcja odpowiednio wiele

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie

Bardziej szczegółowo

6. Klasyczny algorytm genetyczny. 1

6. Klasyczny algorytm genetyczny. 1 6. Klasyczny algorytm genetyczny. 1 Idea algorytmu genetycznego została zaczerpnięta z nauk przyrodniczych opisujących zjawiska doboru naturalnego i dziedziczenia. Mechanizmy te polegają na przetrwaniu

Bardziej szczegółowo

Przykładowe funkcje przejścia używane przy budowie sztucznych neuronów

Przykładowe funkcje przejścia używane przy budowie sztucznych neuronów Przykładowe funkcje przejścia używane przy budowie sztucznych neuronów Funkcja Wzór funkcji Wzór pochodnej Sigmoida f(s)=1/(1+e -(β*s) ) f (s)=β*(1- f(s))* f(s) Funkcje przejścia neuronu powinno się rozpatrywać

Bardziej szczegółowo

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, 2012 Spis treści Przedmowa do wydania drugiego Przedmowa IX X 1. Wstęp 1 2. Wybrane zagadnienia sztucznej inteligencji

Bardziej szczegółowo

1. Logika, funkcje logiczne, preceptron.

1. Logika, funkcje logiczne, preceptron. Sieci neuronowe 1. Logika, funkcje logiczne, preceptron. 1. (Logika) Udowodnij prawa de Morgana, prawo pochłaniania p (p q), prawo wyłączonego środka p p oraz prawo sprzeczności (p p). 2. Wyraź funkcję

Bardziej szczegółowo

Dobór parametrów algorytmu ewolucyjnego

Dobór parametrów algorytmu ewolucyjnego Dobór parametrów algorytmu ewolucyjnego 1 2 Wstęp Algorytm ewolucyjny posiada wiele parametrów. Przykładowo dla algorytmu genetycznego są to: prawdopodobieństwa stosowania operatorów mutacji i krzyżowania.

Bardziej szczegółowo

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga; Sieci Hopfielda Najprostsze modele sieci z rekurencją sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga; Modele bardziej złoŝone: RTRN (Real Time Recurrent Network), przetwarzająca sygnały w czasie

Bardziej szczegółowo

Wstęp do metod numerycznych Rozwiazywanie równań algebraicznych. P. F. Góra

Wstęp do metod numerycznych Rozwiazywanie równań algebraicznych. P. F. Góra Wstęp do metod numerycznych Rozwiazywanie równań algebraicznych P. F. Góra http://th-www.if.uj.edu.pl/zfs/gora/ 2010 Co to znaczy rozwiazać równanie? Przypuśmy, że postawiono przed nami problem rozwiazania

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo