Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

Podobne dokumenty
Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

Wprowadzenie do Sieci Neuronowych Laboratorium 05 Algorytm wstecznej propagacji błędu

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 8 Uczenie nienadzorowane.

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych laboratorium 01 Organizacja zajęć. Perceptron prosty

8. Neuron z ciągłą funkcją aktywacji.

Elementy inteligencji obliczeniowej

Wstęp do sieci neuronowych, wykład 12 Wykorzystanie sieci rekurencyjnych w optymalizacji grafowej

Wstęp do sieci neuronowych, wykład 9 Sieci rekurencyjne. Autoasocjator Hopfielda

Uczenie sieci neuronowych i bayesowskich

Optymalizacja ciągła

wiedzy Sieci neuronowe

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Optymalizacja systemów

Wstęp do sieci neuronowych, wykład 04. Skierowane sieci neuronowe. Algorytmy konstrukcyjne dla sieci skierowanych

Metody systemowe i decyzyjne w informatyce

Wprowadzenie do Sieci Neuronowych Laboratorium 06 Algorytm wstecznej propagacji błędu

Wstęp do sieci neuronowych, wykład 10 Sieci rekurencyjne. Autoasocjator Hopfielda

Uczenie sieci typu MLP

Rozpoznawanie obrazów

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Wstęp do sieci neuronowych, wykład 10 Sieci rekurencyjne. Autoasocjator Hopfielda

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Podstawy Sztucznej Inteligencji (PSZT)

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

synaptycznych wszystko to waży 1.5 kg i zajmuje objętość około 1.5 litra. A zużywa mniej energii niż lampka nocna.

Rozpoznawanie obrazów

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Sztuczne sieci neuronowe i sztuczna immunologia jako klasyfikatory danych. Dariusz Badura Letnia Szkoła Instytutu Matematyki 2010

Wstęp do sieci neuronowych, wykład 01 Neuron biologiczny. Model perceptronu prostego.

Metody Sztucznej Inteligencji II

Wstęp do sieci neuronowych, wykład 9 Sieci rekurencyjne. Autoasocjator Hopfielda

Sieć przesyłająca żetony CP (counter propagation)

Wstęp do sieci neuronowych, wykład 01 Neuron biologiczny. Model perceptronu prostego.

Projekt Sieci neuronowe

Metody systemowe i decyzyjne w informatyce

SZTUCZNA INTELIGENCJA

Zastosowania sieci neuronowych

Sztuczne sieci neuronowe Ćwiczenia. Piotr Fulmański, Marta Grzanek

Sieci neuronowe w Statistica

Uczenie sieci radialnych (RBF)

KADD Minimalizacja funkcji

Elektroniczne materiały dydaktyczne do przedmiotu Wstęp do Sieci Neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Sztuczne sieci neuronowe

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Sztuczne Sieci Neuronowe

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Temat: Sieci neuronowe oraz technologia CUDA

Podstawy sztucznej inteligencji

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne.

KADD Minimalizacja funkcji

SIECI NEURONOWE Liniowe i nieliniowe sieci neuronowe

Widzenie komputerowe

Fuzja sygnałów i filtry bayesowskie

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

Inżynieria Wiedzy i Systemy Ekspertowe. Logika rozmyta. dr inż. Michał Bereta Politechnika Krakowska

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Aproksymacja funkcji a regresja symboliczna

I EKSPLORACJA DANYCH

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

Wstęp do sztucznych sieci neuronowych

Inteligentne systemy przeciw atakom sieciowym

Optymalizacja ciągła

BIOCYBERNETYKA SIECI NEURONOWE. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Rozpoznawanie obrazów

Wstęp do teorii sztucznej inteligencji Wykład II. Uczenie sztucznych neuronów.

Agnieszka Nowak Brzezińska Wykład III

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

1. Logika, funkcje logiczne, preceptron.

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Elementy Sztucznej Inteligencji. Sztuczne sieci neuronowe cz. 2

Metody systemowe i decyzyjne w informatyce

Prawdopodobieństwo geometryczne

Wprowadzenie do Sieci Neuronowych lista zadań 1

Wstęp do sieci neuronowych, wykład 13-14, Walidacja jakości uczenia. Metody statystyczne.

Zmienne losowe ciągłe i ich rozkłady

Wstęp do Sieci Neuronowych

Transformaty. Kodowanie transformujace

WYKŁAD 4 PLAN WYKŁADU. Sieci neuronowe: Algorytmy uczenia & Dalsze zastosowania. Metody uczenia sieci: Zastosowania

Dystrybucje, wiadomości wstępne (I)

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ

Systemy Inteligentnego Przetwarzania wykład 7: Sieci RBF

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

METODY INŻYNIERII WIEDZY

Transkrypt:

Wstęp do sieci neuronowych, wykład 3 Warstwy, jednostka ADALINE. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 218-1-15/22 Projekt pn. Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki

1 Pomysł Przykłady Zastosowanie 2 3 4 Filtrowanie obrazów Rozpoznawanie obrazów DFT Zadania

Pomysł Przykłady Zastosowanie 1 Pomysł Przykłady Zastosowanie 2 3 4 Filtrowanie obrazów Rozpoznawanie obrazów DFT Zadania

Pomysł Przykłady Zastosowanie Idea Radialne Funkcje Bazowe (ang. Radial Basis Function, ) Pojedynczy perceptron zachowuje pewną pasmowość, Dane czasami układają się koncentrycznie, Zmiana kształtu aktywacji perceptronu może zatem poprawić działanie.

Pomysł Przykłady Zastosowanie Idea 4 f(x) = exp(- (x - x ) 2 / (2 sigma 2 )) 4 2-2 -4 y 3 2 1-1 -2-3 -4-2 2 4-4 -4-3 -2-1 1 2 3 4 x

Pomysł Przykłady Zastosowanie Motywacja: Tw. Covera (1965) Złożony problem klasyfikacyjny zrzutowany nieliniowo na przestrzeń wielowymiarową jest liniowo separowalny z większym prawdopodobieństwem niż przy rzutowaniu na przestrzeń o mniejszej liczbie wymiarów. Prawdopodobieństwo P(N, m 1 ), że dwuklasowy problem klasyfikacyjny (zbiór uczący na rozmiar N) jest liniowo separowalny w przestrzeni o wymiarze m 1 wynosi ( ) 1 N 1 m 1 ( ) N 1 P(N, m 1 ) = 2 m m=

Pomysł Przykłady Zastosowanie Budowa Wejście x = (x 1,..., x n ) R n, Zwracana jest wartość pewnej funkcji zależnej od normy x, O( x) = φ( x ) Możemy dodatkowo wycentrować funkcję w punkcie x, zwracamy wówczas O( x) = φ( x x ) Zazwyczaj korzystamy z normy euklidesowej tj. x 2 = n i=1 Wyjście takiej jednostki często stanowi wejście do innego neuronu. x 2 i

Pomysł Przykłady Zastosowanie Norma euklidesowa f ( x) = x x 2 = (x x ) 2 + (y y ) 2 2 15 1 5 1 5 y -5-1 -1-5 x 5 1

Pomysł Przykłady Zastosowanie Hiperbola f (x) = a(x x ) 2 + b(y y ) 2 + c 25 2 15 1 5-1 -5 x 5 1-1 -5 y 5 1

Pomysł Przykłady Zastosowanie Hiperbola f (x) = ( a(x x ) 2 + b(y y ) 2 + c 2) d, d < 1.8.6.4.2 1 5 1 5 y -5-5 x -1-1

Pomysł Przykłady Zastosowanie Funkcja Gaussa f (x) = exp x x 2 2 2σ 2 f(x) = exp(- (x - x ) 2 / (2 sigma 2 )) 1.8.6.4.2-4 -3-2 -1 x 1 2 3 4-4 -3-2 -1 1 y 2 3 4

Pomysł Przykłady Zastosowanie Funkcja liniowo-logarytmiczna f (x) = c x x 2 ln(c x x ), c > 1 8 6 4 2 1 5 1 5 y -5-5 x -1-1

Pomysł Przykłady Zastosowanie Jak wykorzystać w zagadnieniach klasyfikacyjnych Ustalamy liczbę stosowanych funkcji, Dla każdej z nich losowo (jeżeli mamy informacje o koncentracji danych, to deterministycznie) ustalamy punkt centralny x, wariancję itp, Wyjścia podpinamy jako dodatkowe wejścia do perceptronu, Uczymy tak zbudowany rozszerzony perceptron.

Pomysł Przykłady Zastosowanie Jak wykorzystać w zagadnieniach klasyfikacyjnych 2 1.5 1.5-6 -4-2 2 4 6 2 4 6 8 1 12

Pomysł Przykłady Zastosowanie Jak wykorzystać w zagadnieniach klasyfikacyjnych out 2 1.5 1.5-6 -4-2 2 4 6 2 4 6 8 1 12

Pomysł Przykłady Zastosowanie Przykład 6 7 4 6 5 2 4 3-2 2 1-4 -6-6 -4-2 2 4 6 6 4 2-2 -4-6 -6-4 -2 2 4 6

y Pomysł Przykłady Zastosowanie Efekt 8 6 4 2-2 1.8.6.4.2-4 -8-6 8-6 -4-2 4 6-8 -8-6 -4-2 2 4 6 8 x x 2 4 6 8-8 -6-4 -2 2 y

y Pomysł Przykłady Zastosowanie Efekt 8 6 1 4.8.6 2.4.2-2 8 6-4 4 2-6 -8-8 -6-4 -2 2 4 6 8 x x -2-4 -6-8 8 6 4 2 y -2-4 -6-8

1 Pomysł Przykłady Zastosowanie 2 3 4 Filtrowanie obrazów Rozpoznawanie obrazów DFT Zadania

Zagadnienie Dany jest zbiór danych i każdy ma przyporządkowaną ciągłą kategorię (choć dość regularną w niewielkich otoczeniach) Chcemy stworzyć prosty system, który będzie w stanie nauczyć się (z pewnym przybliżeniem) szacować tę wartość tej kategorii.

Ang. Adaptive Linear Neuron lub Adaptive Linear Element Jednostka składa się z n wejść x 1,.., x n oraz n wag w 1,.., w n (+ ewentualnie próg w ), Identycznościowa postać funkcji aktywującej, Jednostka zwraca O( x) = n w i x i ( + 1 w ). i=1

Jednostka zwraca O( x) = n w i x i ( + w 1), i=1 Zwracane odpowiedzi są ciągłe, więc Adaline stosuje się do (lokalnego) przybliżania funkcji o wartościach rzeczywistych.

Uczenie Daną mamy próbkę uczącą wraz z poprawnymi odpowiedziami (E (i), C (i) ), przy czym C i są ciągłe, Chcemy znaleźć wagi jednostki liniowej w,.., w n tak, aby neuron możliwie wiernie modelował zależności w danych uczących.

Uczenie 4 w = [.42, -1.55, -2.34] 2 z -2-4 -1-5 x 5 1-4 -2 2 4 y

Funkcja błędu Co oznacza możliwie wiernie? (E 1, C 1 ),..., (E k, C k ) dane wejściowe z poprawnymi odpowiedziami, Funkcja błędu: ERROR(w,..., w n ) = k ( O(E i ) C i) 2, i=1 Im mniejsza wartość funkcji błędu, tym lepsze dopasowanie.

Funkcja błędu 5 5-5 -5-1 -1-15 2 4 6 8 1-15 2 4 6 8 1

Dana jest funkcja f : R n R, Chcemy znaleźć (numerycznie) jej minimum lokalne, Dodatkowo założymy, że f jest różniczkowalna.

Przypomnienie pochodnych Pochodna cząstkowa funkcji f : R n R po x i f f (x 1,.., x i 1, x i + h, x i+1,...x n ) f (x 1,..., x n ) (x 1,..., x n ) = lim x i h h

Przypomnienie pochodnych 25 Czym jest f x 1 (x )? Intuicyjnie: jest to kierunek, w którym funkcja rośnie zmieniając tylko pierwszą współrzędną, tj. przy pozostałych ustalonych. 2 15 1 5-6 -4-2 2 4 6 8

Przypomnienie pochodnych Czym jest gradient? [ f (x ),.., f ] (x )? x 1 x n Intuicyjnie: jest to wektor, w kierunku którego f w punkcie x rośnie najszybciej.

Przypomnienie pochodnych

Funkcja błędu DEMO: gra w minimum

(ang. Gradient Descent Algorithm, GDA) Chcemy znaleźć minimum funkcji f, Obliczamy gradient pochodnych cząstkowych, Robimy krok w przeciwną stronę.

5 4 3 2 1 6 4 2-2 -4-6 -6-4 -2 2 4 6

1 Rozpoczynamy w losowym / wybranym a (), 2 Dla każdej współrzędnej i = 1..n a (k+1) i = a (k) i gdzie η > jest stałą uczenia, 3 Powtarzamy krok 2, η f x i (a (k) )

Postęp algorytmu click

Uczenie (przyp.) Daną mamy próbkę uczącą wraz z poprawnymi odpowiedziami (E (i), C (i) ), przy czym C (i) są ciągłe, Chcemy znaleźć wagi jednostki liniowej w,.., w n, tak aby neuron możliwie wiernie modelował zależności w danych uczących.

Funkcja błędu (przyp.) Co oznacza możliwie wiernie? (E (1), C (1) ),..., (E (k), C (k) ) dane wejściowe z poprawnymi odpowiedziami, Funkcja błędu: ERROR(w,..., w n ) = k (O(E (i) ) C i) 2 i=1 Im mniejsza wartość funkcji błędu, tym lepsze dopasowanie.

Algorytm 1 Przypisujemy wagom małe, losowe wartości, 2 Losowo wybieramy przykład uczący E oraz poprawną odpowiedź C, 3 Obliczamy aktywację jednostki na przykładzie E = [e 1...e n ], e = +1 O = w i e i i 4 Korygujemy wagi (dla j =,..., n) w j := w j + η(c O) e j gdzie η > jest małą stałą uczenia. 5 Kończymy, jeżeli algorytm przebiegł określoną liczbę iteracji lub osiągnął odpowiednio niski błąd. W przeciwnym wypadku wracamy do 2.

Algorytm click

Wykres błędu 3 Error 25 2 Error 15 1 5 5 1 15 2 25 3 Iterations

algorytmu

algorytmu Zauważmy, że jest to algorytm spadku gradientowego. Określona jest funkcja błędu ERROR : R n R na przestrzeni wag. k n ERROR(w,..., w n ) = ( w i e (j) i C (j) ) 2 Chcemy znaleźć wagi w,..., w n, które minimalizują wartość tej funkcji. j=1 i=1

algorytmu Policzmy pochodne cząstkowe funkcji błędu po wagach, przy ustalonym przykładzie (E = (e 1,..., e n ), C): w j (O(E) C) 2 = w j ( i w i e i C) 2 = Zauważmy, że = 2( i w i e i C) w j ( i w i e i C) w j ( i w i e i C) = i w i e i C = e j w j w j

algorytmu Czyli pochodna cząstkowa upraszcza się do: w j (O(E) C) 2 = 2( i w i e i C)e j = 2(O(E) C)e j Gradient pochodnych cząstkowych wskazuje kierunek największego wzrostu funkcji błędu. Aby uzyskać największy spadek, należy odwrócić zwrot (przemnożyć przez 1).

Wielkość η Jaka powinna być stała uczenia?

Wielkość η Przyjmijmy oznaczenia: w wektor wag przed zmianą, E przykład uczący, C oczekiwana odpowiedź, O = we uzyskana odpowiedź, w = w + η(c O)E wektor wag po zmianie, ERROR( w) = E() błąd kwadratowy na wagach w.

Wielkość η Energia układu ERROR() = E() po zmianie (błąd, który chcemy zmniejszać): E(w ) = (w E C) 2 = ((w + η(c O)E)E C) 2 = ( (we C) + η(c O) E 2) 2 = ( E(w) 1/2 ηe(w) 1/2 E 2) 2 = ( E(w) 2ηE(w) E 2 + η 2 E(w) E 4) = E(w) ( 1 2η E 2 + η 2 E 4) = E(w) ( 1 + η E 2 (η E 2 2) )

Wielkość η Chcemy aby energia zmalała tj. E(w ) < E(w) Zatem musimy otrzymać: ( 1 + η E 2 (η E 2 2) ) < 1 η E 2 (η E 2 2) < Z naszych założeń mamy η > oraz norma E 2, zatem upraszczamy nierówność: η E 2 2 < < η < 2 E 2

Wielkość η 14 12 1 8 3 6 2 p(x,y) 4 1 2 4 3 2 1 y -1-2 -3-4 -1-2 -3-4 -5-5 x

Uwagi do algorytmu Dobór stałej uczenia: Małe η długie działanie, Duże η niestabilności, przeskakiwanie minimum, Tendencja do utykania w minimach lokalnych, Rozwiązanie: wielokrotne restarty algorytmu z losowych punktów startowych, Spowolnienia przy obszarach o małej pochodnej, Rozwiązanie: automatyczny dobór stałej uczenia, Ograniczenie modelowania tylko do zależności liniowych.

Funkcja aktywacji f (s) = σ(s) = 1 1 + exp( s), Jej pochodna wynosi: σ (s) = σ(s)(1 σ(s))

Reguła uczenia Uczenie za pomocą algorytmu spadku gradientowego Reguła uczenia taka sama jak przy Adaline, tylko inna pochodna dla kroku: w j (O(E) C) 2 = 2(O(E) C)e j σ (a), gdzie a = i w ie i, zaś σ (a) = σ(a)(1 σ(a))

Reguła uczenia Uczenie za pomocą algorytmu spadku gradientowego Reguła uczenia taka sama jak przy Adaline, tylko inna pochodna dla kroku: w j (O(E) C) 2 = 2(O(E) C)e j σ (a), gdzie a = i w ie i, zaś σ (a) = σ(a)(1 σ(a)) ( na tablicy)

Demo Demo w playground.tensorflow.org

Filtrowanie obrazów Rozpoznawanie obrazów DFT Zadania Zastosowania Adaline owanie zależności (lokalnie) liniowych, Adaptacyjne filtry liniowe.

Filtry liniowe Filtrowanie obrazów Rozpoznawanie obrazów DFT Zadania Oryginalny rysunek za http://en.wikipedia.org/, 211-9.

Rozpoznawanie obrazów Filtrowanie obrazów Rozpoznawanie obrazów DFT Zadania Chcemy rozpoznawać obraz po przesunięciu,

Filtrowanie obrazów Rozpoznawanie obrazów DFT Zadania Rozpoznawanie obrazów Po przesunięciu piksele mogą zmieniać się dowolnie, Amplituda transformaty Fouriera obrazu jest niewrażliwa na takie przesunięcia.

Filtrowanie obrazów Rozpoznawanie obrazów DFT Zadania DFT Dany sygnał (ciąg) x = (x,..., x N 1 ), Dyskretna transformata Fouriera sygnału x: DFT (x) = X = (X,..., X N 1 ) gdzie X j = N 1 k= x k ω kj N, ω N = exp(i 2π N ) = cos(2π N ) + i sin(2π N ) UWAGA. Zarówno x jak i DFT (x) mogą być zespolone.

Filtrowanie obrazów Rozpoznawanie obrazów DFT Zadania DFT Dany sygnał (ciąg) x = (x,..., x N 1 ), Dyskretna transformata Fouriera sygnału x: DFT (x) = X = (X,..., X N 1 ) X j = Y j + iz j, Y j, Z j R Amplituda DFT: A(X j ) = (Y 2 j + Z 2 j )

DFT Filtrowanie obrazów Rozpoznawanie obrazów DFT Zadania obraz DFT obraz DFT

DFT Filtrowanie obrazów Rozpoznawanie obrazów DFT Zadania DFT 1 log(dft)

DFT Filtrowanie obrazów Rozpoznawanie obrazów DFT Zadania DFT 1 log(dft)

DFT Filtrowanie obrazów Rozpoznawanie obrazów DFT Zadania out

Filtrowanie obrazów Rozpoznawanie obrazów DFT Zadania Zadania Dostosuj jednostkę tak, aby miała kształt eliptyczny (a nie kolisty). (*) Jak będzie działała jednostka korzystająca z normy pierwszej, trzeciej itp. (a nie zwykłej drugiej)? x p = ( x p i i ) 1 p Zaimplementuj algorytm spadku gradientowego dla funkcji p(x, y) = 2x 2 + 2y 2 + 2x + 2y + 2 ze stałą uczenia η 1 =.51 oraz η 1 =.49. Zaimplementuj algorytm spadku gradientowego dla funkcji p(x) = x 3 ze stałą uczenia η =.1, punkt startowy x = 3.

Filtrowanie obrazów Rozpoznawanie obrazów DFT Zadania Zadania Czym skutkuje dodanie progu (w ) do jednostki Adaline? (*) Zapoznaj się i zaimplementuj algorytm szybkiej transformaty Fouriera (fast Fourier transform, FFT) w klasyfikatorze graficznym. http://en.wikipedia.org/wiki/fast_fourier_transform. (*) Zapoznaj się z algorytmem regresji liniowej (least squares linear regression). http://pl.wikipedia.org/wiki/metoda_ najmniejszych_kwadrat%c3%b3w. Porównaj działanie (dla wymiarów 1 i 2) z algorytmem uczenia Adaline.