Metody sztucznej inteligencji Zadanie 1: Perceptron Rosenblatt a w wersji nieliniowej

Podobne dokumenty
Metody sztucznej inteligencji Zadanie 3: (1) klasteryzacja samoorganizująca się mapa Kohonena, (2) aproksymacja sieć RBF.

6. FUNKCJE. f: X Y, y = f(x).

Obliczenia iteracyjne

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska

Zastosowania sieci neuronowych

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Metody Sztucznej Inteligencji II

Iteracyjne rozwiązywanie równań

Metody systemowe i decyzyjne w informatyce

Definicja i własności wartości bezwzględnej.

KONSPEKT FUNKCJE cz. 1.

Przykładowo, jeśli współrzędna x zmienia się od 0 do 8 co 1, a współrzędna y od 12 co 2 do 25, to punkty powinny wyglądać następująco:

Logarytmy. Funkcje logarytmiczna i wykładnicza. Równania i nierówności wykładnicze i logarytmiczne.

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1)

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Przekształcanie wykresów.

MATEMATYKA POZIOM ROZSZERZONY PRZYKŁADOWY ZESTAW ZADAŃ NR 1. Czas pracy 150 minut

MATEMATYKA POZIOM ROZSZERZONY PRZYKŁADOWY ZESTAW ZADAŃ NR 1. Czas pracy 150 minut

Lista 3 Funkcje. Środkowa częśd podanej funkcji, to funkcja stała. Jej wykresem będzie poziomy odcinek na wysokości 4.

Pochodna i różniczka funkcji oraz jej zastosowanie do rachunku błędów pomiarowych

Funkcje IV. Wymagania egzaminacyjne:

Elementy inteligencji obliczeniowej

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Metody numeryczne w przykładach

FUNKCJA KWADRATOWA. Zad 1 Przedstaw funkcję kwadratową w postaci ogólnej. Postać ogólna funkcji kwadratowej to: y = ax + bx + c;(


FUNKCJE. Kurs ZDAJ MATURĘ Z MATEMATYKI MODUŁ 5 Teoria funkcje cz.1. Definicja funkcji i wiadomości podstawowe

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Po zapoznaniu się z funkcją liniową możemy przyjśd do badania funkcji kwadratowej.

3. FUNKCJA LINIOWA. gdzie ; ół,.

MATLAB ŚRODOWISKO MATLABA OPIS, PODSTAWY

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień.

Analiza wielokryterialna wstęp do zagadnienia

FUNKCJA LINIOWA - WYKRES. y = ax + b. a i b to współczynniki funkcji, które mają wartości liczbowe

5 Błąd średniokwadratowy i obciążenie

8. Neuron z ciągłą funkcją aktywacji.

Wykład 4 Przebieg zmienności funkcji. Badanie dziedziny oraz wyznaczanie granic funkcji poznaliśmy na poprzednich wykładach.

VII. WYKRESY Wprowadzenie

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Ciągi liczbowe. Zbigniew Koza. Wydział Fizyki i Astronomii

Podstawy sztucznej inteligencji

Tydzień nr 9-10 (16 maja - 29 maja), Równania różniczkowe, wartości własne, funkcja wykładnicza od operatora - Matematyka II 2010/2011L

Rozwiązywanie równań nieliniowych

Agata Boratyńska ZADANIA Z MATEMATYKI, I ROK SGH GRANICA CIĄGU

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

Ćwiczenie nr 2: ZaleŜność okresu drgań wahadła od amplitudy

LUBELSKA PRÓBA PRZED MATURĄ poziom podstawowy MATEMATYKA LUTY Instrukcja dla zdającego. Czas pracy: 170 minut

Wstęp do metod numerycznych Zadania numeryczne 2016/17 1

Optymalizacja harmonogramów budowlanych - szeregowanie zadań. Mgr inż. Aleksandra Radziejowska AGH Akademia Górniczo-Hutnicza w Krakowie

Zagadnienia brzegowe dla równań eliptycznych

METODY INŻYNIERII WIEDZY

Inteligentne systemy przeciw atakom sieciowym

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.


LUBELSKA PRÓBA PRZED MATURĄ 2013

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Otrzymaliśmy w ten sposób ograniczenie na wartości parametru m.

Wyszukiwanie binarne

Funkcja liniowa - podsumowanie

det[a 1,..., A i,..., A j,..., A n ] + det[a 1,..., ka j,..., A j,..., A n ] Dowód Udowodniliśmy, że: det[a 1,..., A i + ka j,..., A j,...

Wprowadzenie do Sieci Neuronowych Laboratorium 05 Algorytm wstecznej propagacji błędu

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Optymalizacja ciągła

EGZAMIN MATURALNY Z MATEMATYKI

Rozdział 3. Granica i ciągłość funkcji jednej zmiennej

FUNKCJA LINIOWA - WYKRES

FUNKCJE. Rozwiązywanie zadań Ćw. 1-3 a) b) str Ćw. 5 i 6 str. 141 dodatkowo podaj przeciwdziedzinę.

1. Granice funkcji - wstępne definicje i obliczanie prostych granic

Ciągłość funkcji jednej zmiennej rzeczywistej. Autorzy: Anna Barbaszewska-Wiśniowska

========================= Zapisujemy naszą funkcję kwadratową w postaci kanonicznej: 2

Interpolacja. Marcin Orchel. Drugi przypadek szczególny to interpolacja trygonometryczna

Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/

EGZAMIN MATURALNY Z MATEMATYKI

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016 CZĘŚĆ 2. ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

x a 1, podając założenia, przy jakich jest ono wykonywalne. x a 1 = x a 2 ( a 1) = x 1 = 1 x.

Mgr Kornelia Uczeń. WYMAGANIA na poszczególne oceny-klasa VII-Szkoła Podstawowa

Ćw. nr 31. Wahadło fizyczne o regulowanej płaszczyźnie drgań - w.2

EGZAMIN MATURALNY Z MATEMATYKI

Ważną rolę odgrywają tzw. funkcje harmoniczne. Przyjmujemy następującą definicję. u = 0, (6.1) jest operatorem Laplace a. (x,y)

Matematyka dla DSFRiU zbiór zadań

1) 2) 3) 5) 6) 7) 8) 9) 10) 11) 12) 13) 14) 15) 16) 17) 18) 19) 20) 21) 22) 23) 24) 25)

Rozkład normalny, niepewność standardowa typu A

METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH

Metody numeryczne I Równania nieliniowe

Graficzne opracowanie wyników pomiarów 1

SPRAWDZIAN NR 1 GRUPA IMIĘ I NAZWISKO: KLASA: Wszelkie prawa zastrzeżone 1 ANNA KLAUZA

a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn x 1 x 2... x m ...

I Liceum Ogólnokształcące w Warszawie

Zmienne zależne i niezależne

Użycie przestrzeni papieru i odnośników - ćwiczenie

Transkrypt:

Metody sztucznej inteligencji Zadanie : Perceptron Rosenblatt a w wersji nieliniowej dr inż. Przemysław Klęsk Zbiór danych dla zadania do wykonania w domu Zgodnie z tym, co zostało podane na laboratoriach, dany jest pewien zbiór par { (xi,y i ) } () i=,...,i gdzie x i = (,x i,x i2 ) są punktami rozmieszczonymi losowo w prostokącie [, 2π] [, ] (pomijając zerową współrzędną ustawioną zawsze na ), natomiast y i {, } są numerami klas nadawanymi zgodnie z regułą: {, jeżeli sin x i > x i2 ; y i = (2), w przeciwnym razie. Zbiór ten pokazano na rys...8.6.4.2.2.4.6.8 2 3 4 5 6 7 x Rysunek : Zbiór danych. Jak widać zbiór ten nie jest separowalny liniowo, tzn. nie istnieje taka prosta, która by oddzielała punkty przynależne do różnych klas. 2 Normalizacja zmiennych wejściowych Do dalszej pracy potrzebne jest znormalizowanie zmiennych wejściowych niech obie zmienne x i zostaną znormalizowane do przedziału [, ]. Innymi

słowy należy przeskalować współrzędne każdego punktu x i w danym zbiorze, i tym samym zbiór ten nie będzie jest już zawarty w prostokącie [, 2π] [, ] awkwadracie[, ] [, ]. 3 Podniesienie wymiarowości przestrzeni wejściowej Aby za pomocą algorytmu uczenia perceptronu Rosenblatt a móc znaleźć krzywą separacji potrzeba będzie zastosować zabieg podniesienia wymiarowości przestrzeni wejściowej. Jeżeli dany zbiór nie jest separowalny liniowo w oryginalnej przestrzeni R n (u nas w zadaniu n =2), to można spróbować za pomocą pewnego odwzorowania podnieść ten zbiór do przestrzeni R m o wyższym wymiarze, m>n, i być może wówczas w tej nowej przestrzeni zbiór ten będzie już można separować liniowo tzn. za pomocą pewnej hiperpłaszczyzny. Innymi słowy każdemu punktowi x i =(,x i,...,x in ) należy przyporządkować pewien nowy dłuższy zestaw współrzędnych z i =(,z i,...,z im ). Nowe współrzędne nazywa się cechami, a nową nazywa się przestrzeń przestrzenią cech. Jak matematycznie należy to zrobić i jakie wielkości można wybrać jako cechy? Wyobraźmy sobie, że w naszej oryginalnej przestrzeni R n rozmieścimy m ustalonych punktów oznaczmy je jako c, c 2,...,c m. To rozmieszczenie może być przypadkowe, patrz rys. 2. Punkty c, c 2,...,c m zwykle nazywa się centrami..8.6.4.2.2.4.6.8.5.5 x Rysunek 2: Przykładowe losowe rozmieszczenie punktów c, c 2,...,c m (zaznaczone kolorem czarnym). Wówczas, jako cechy (z i,...,z im ) czyli współrzędne w przestrzeni o wyższym wymiarze dla danego punktu x i możemy obrać np. odległości od tego punktu do wszystkich centrów. I tak otrzymujemy nowy zbiór danych, przedstawiony poniżej w formie macierzy (takiej, z jakiej korzystaliśmy na lab- W praktyce używane będą pewne funkcje pokrewne funkcji odległości. Póki co w celu wyjaśnienia można mówić o zwykłej odległości. 2

oratoriach): z z 2 z m y z 2 z 22 z 2m y 2........, (3) z I z I2 z Im y I gdzie z ij jest odległością i-tego punktu od j-tego centrum: z ij = (x i c j ) 2 +(x i2 c j2 ) 2 + +(x in c jn ) 2. (4) I tak przygotowany nowy zbiór danych można by już poddać pod działanie zwykłego algorytmu perceptronu Rosenblatt a (poznanego na laboratoriach) w poszukiwaniu zestawu wag (w,w,...,w m ), który separuje liniowo nowy zbiór w przestrzeni R m za pomocą hiperpłaszczyzny o równaniu: w + w z + w 2 z 2 + + w m z m =, (5) które jest liniowym odpowiednikiem prostej z przestrzeni R 2. Warto wyobrazić sobie, że znaleziona liniowa granica separacji w przestrzeni cech tj. w przestrzeni R m odpowiada pewnej krzywoliniowej granicy w oryginalnej przestrzeni R n. W praktyce zamiast zwykłej funkcji odległości, patrz wzór (4), stosuje się nieco inne funkcje, ale bazujące na wyrażeniu odległości. I tak w faktycznej implementacji w miejsce funkcji (4) proszę zastosować tzw. jądrowe funkcje gaussowskie o wzorze: z ij =exp ( (x i c j ) 2 +(x i2 c j2 ) 2 + +(x in c jn ) 2 ) 2σ 2. (6) Jak można zauważyć, pod działaniem funkcji wykładniczej w liczniku znajduje się właśnie wyrażenie związane z odległością dokładnie jest to kwadrat odległości (pominięty został pierwiastek). Wykresem funkcji Gaussa jest krzywa o kształcie dzwonowym (jeżeli na oś argumentów nanieść właśnie wyrażenie związane z odległością). Patrz rys. 6. Krzywa ta osiąga wartość w punkcie, z.8.6.4.2 σ = σ =2 σ =3 2 4 6 8 (xi c j ) 2 + +(x in c jn ) 2 Rysunek 3: Jądrowe funkcje gaussowskie. tj. wtedy, gdy rozpatrywana odległość pomiędzy punktem x i a centrum c j jest 3

równa zeru, natomiast gdy ta odległość zmierza do nieskończoności, to krzywa Gaussa zbiega do wartości. O szerokości dzwonu decyduje parametr σ. Im większe σ, tym szersze zbocze dzwonu, im σ bliższe zeru, tym krzywa bliższa impulsowi w punkcie zero. Jak widać funkcja gaussowska jest tak naprawdę funkcją bliskości tzn. maleje wraz z odległością, co w niczym nie przeszkadza, aby stosować ją jako cechę. W trakcie wykonywania zadania w domu, wartości parametru σ trzeba będzie dobierać eksperymentalnie metodą prób i błędów, obserwując uzyskiwane granice separacji. Jednocześnie należy przy tym brać pod uwagę liczbę centrów m (tj. jak wiele ich rozstawiono). Jest to również parametr dobieralny. Jeżeli rozstawi się dużą liczbę centrów i będą one gęsto pokrywały oryginalną przestrzeń wejściową, to można wówczas ustawić stosunkowo małe σ. Każde centrum c j będzie wówczas miało mały lokalny zasięg i wartości cechy (związanej z tym centrum) bliskie jedności będą nadawane tylko tym punktom x i leżącym naprawdę blisko tego centrum. Nieco dalsze punkty będą miały tę cechę szybko wygaszoną do wartości bliskiej zeru. Natomiast w sytuacji przeciwnej, gdy rozstawimy mniej centrów, sugeruje się obdarzać je szerszym zasięgiem działania poprzez większe σ. 4 Warunek stopu Przeniesienie danego zbioru do przestrzeni cech przestrzeni o wyższej wymiarowości nie daje nam całkowitej pewności, że zbiór w tejże przestrzeni będzie już liniowo separowalny, a jedynie tylko taką nadzieję. W każdym razie separacja powinna być tam ułatwiona. Może jednakże istnieć pewna mała liczba punktów, które pomimo wielu iteracji algorytmu, nie będą klasyfikowane poprawnie. Istnieje więc groźba, że algorytm mógłby pracować w nieskończonej pętli, jako że zbiór aktualnie błędnie sklasyfikowanych punktów nigdy nie byłby pusty. Potrzeba zatem wprowadzić dodatkowy warunek stopu tj. ograniczenie na maksymalną liczbę iteracji k max. I tak algorytm należy przerywać wtedy, gdy zajdzie jedno z dwojga: zbiór błędnie sklasyfikowanych punktów będzie pusty lub licznik k aktualizacji wag osiągnie k max. 5 Sugerowane ustawienia i przykładowe wyniki Niech dany zbiór punktów będzie o rozmiarze I =. Należy eksperymentalnie metodą prób i błędów dobrać liczbę centrów m (a tym samym wymiarowość przestrzeni cech). Sugeruje się badać m wzakresieod2 do. Sugeruje się eksperymentować na wartościach σ wzakresieod do.. Górne ograniczenie na liczbę iteracji k max sugeruje się badać w zakresie od 5 do 5. Po zatrzymaniu się algorytmu uzyskujemy wektor wag (w,w,...,w m ). Krzywoliniową granicę separacji wykreślamy w oryginalnej przestrzeni, u nas w zadaniu w przestrzeni R 2. Wygodnie jest użyć do tego wykresu warstwicowego (poziomicowego) polecenia MATLABA: contour lub contourf. Wykres otrzymuje się w ten sposób, że każdy kreślony punkt siatki (z polecenia meshgrid) należy najpierw odwzorować do przestrzeni cech, a dopiero potem obliczyć, jaką wartość {, } zwraca dla niego perceptron w oparciu o wagi 4

(w,w,...,w m ) i nanieść do wykresu. Patrz rys. 4..8.6.4.2.2.4.6.8.5.5 x Rysunek 4: Wykres warstwicowy ilustrujący granicę separacji. warstwica na wysokości równej. Tylko jedna Dodatkowo, na podobnej zasadzie można wykreślić sobie również wykres powierzchniowy wyjścia perceptronu (polecenie surf zamiast contour). Przy czym dla lepszego zobrazowania działania perceptronu warto wówczas wyłączyć progowanie w pereceptronie tzn. przyciąganie do wartości lub. Czyli należałoby zwracać wartości samej sumy ważonej da to na wykresie powierzchnię o gładkim przebiegu. Patrz rysunki 5 i 6. 5

2 weighted sum 2 4.5.5.5 x.5 Rysunek 5: Wykres powierzchniowy sumy ważonej w +w z +w 2 z 2 + +w m z m perceptronu (bez progowania) narysowany nad układem zmiennych x,. Każdy punkt (x, ) z dziedziny [, ] [, ] zostaje najpierw odwzorowany w punkt (z,z 2,...,z m ), a dopiero później oblicza się dla niego wartość sumy ważonej i nanosi tę wartość na wykres..8.6.4 2 2.2 3 2 2.2.4 2 2.6.8 2.5.5 x Rysunek 6: Wykres warstwicowy sumy ważonej perceptronu (bez progowania). Większa liczba warstwic. 6