Elementy inteligencji obliczeniowej

Podobne dokumenty
Podstawy Sztucznej Inteligencji (PSZT)

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Metody Sztucznej Inteligencji II

Optymalizacja ciągła

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Uczenie sieci neuronowych i bayesowskich

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Podstawy sztucznej inteligencji

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wprowadzenie do Sieci Neuronowych Laboratorium 05 Algorytm wstecznej propagacji błędu

Inteligentne systemy przeciw atakom sieciowym

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

1. Logika, funkcje logiczne, preceptron.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

wiedzy Sieci neuronowe

Wrocław University of Technology. Uczenie głębokie. Maciej Zięba

Sztuczne sieci neuronowe Ćwiczenia. Piotr Fulmański, Marta Grzanek

Zastosowania sieci neuronowych

Definicja perceptronu wielowarstwowego

Wstęp do sieci neuronowych, wykład 04. Skierowane sieci neuronowe. Algorytmy konstrukcyjne dla sieci skierowanych

Widzenie komputerowe

Temat: Sieci neuronowe oraz technologia CUDA

Rozpoznawanie obrazów

Rozpoznawanie obrazów

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

SID Wykład 8 Sieci neuronowe

Projekt Sieci neuronowe

Uczenie sieci typu MLP

Sieci M. I. Jordana. Sieci rekurencyjne z parametrycznym biasem. Leszek Rybicki. 30 listopada Leszek Rybicki Sieci M. I.

wiedzy Sieci neuronowe (c.d.)

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

6. Perceptron Rosenblatta

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Sztuczne sieci neuronowe

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Metody systemowe i decyzyjne w informatyce

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

Lekcja 5: Sieć Kohonena i sieć ART

8. Neuron z ciągłą funkcją aktywacji.

Uczenie Wielowarstwowych Sieci Neuronów o

Prognozowanie kierunku ruchu indeksów giełdowych na podstawie danych historycznych.

synaptycznych wszystko to waży 1.5 kg i zajmuje objętość około 1.5 litra. A zużywa mniej energii niż lampka nocna.

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Optymalizacja ciągła

ELEMENTY SZTUCZNEJ INTELIGENCJI. Sztuczne sieci neuronowe

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

METODY INTELIGENCJI OBLICZENIOWEJ wykład 5

Metody Optymalizacji: Przeszukiwanie z listą tabu

Sztuczna inteligencja

Wprowadzenie do sieci neuronowych i zagadnień deep learning

Wstęp do sieci neuronowych laboratorium 01 Organizacja zajęć. Perceptron prosty

SIECI NEURONOWE Liniowe i nieliniowe sieci neuronowe

Technologie cyfrowe semestr letni 2018/2019

Algorytmy wstecznej propagacji sieci neuronowych


Sieć przesyłająca żetony CP (counter propagation)

Systemy agentowe. Sieci neuronowe. Jędrzej Potoniec

Optymalizacja systemów

Wstęp do sieci neuronowych, wykład 01 Neuron biologiczny. Model perceptronu prostego.

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Wprowadzenie do uczenia maszynowego

Sieć Hopfielda. Sieci rekurencyjne. Ewa Adamus. ZUT Wydział Informatyki Instytut Sztucznej Inteligencji i Metod Matematycznych.

Zastosowania sieci neuronowych

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

Sieci neuronowe i ich ciekawe zastosowania. Autor: Wojciech Jamrozy III rok SMP / Informatyka

SZTUCZNA INTELIGENCJA

METODY INŻYNIERII WIEDZY

Politechnika Warszawska

A Zadanie

Metody systemowe i decyzyjne w informatyce

Systemy agentowe. Sieci neuronowe. Jędrzej Potoniec

BIOCYBERNETYKA SIECI NEURONOWE. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Podstawy sztucznej inteligencji

Definicja pochodnej cząstkowej

RÓWNANIA NIELINIOWE Maciej Patan

Wstęp do głębokich sieci neuronowych. Paweł Morawiecki IPI PAN

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Wprowadzenie do Sieci Neuronowych Laboratorium 06 Algorytm wstecznej propagacji błędu

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Optymalizacja Ci gªa

Emergentne właściwości. sztucznych sieci neuronowych

Literatura. Sztuczne sieci neuronowe. Przepływ informacji w systemie nerwowym. Budowa i działanie mózgu

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

I EKSPLORACJA DANYCH

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2013/2014

Sztuczne Sieci Neuronowe

Wykład z Technologii Informacyjnych. Piotr Mika

Sztuczne sieci neuronowe

Systemy Inteligentnego Przetwarzania wykład 7: Sieci RBF

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Transkrypt:

Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19

Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego neuronu. { 1 if w0 + w 1 x 1 + w 2 x 2 +... w n x n > 0 o(x 1,..., x n ) = 1 otherwise w i to wagi o wartościach rzeczywistych, w 0 próg lub inaczej bias (interpretacja) Przykład modelowania z wykorzystaniem perceptronu [tablica]. Wektorowo: o(x) = sgn(w x) gdzie Przestrzeń hipotez: { 1 if y > 0 sgn(y) = 1 otherwise H = {w w R (n+1) } 2 / 19

Perceptron - ekspersyjność Perceptron reprezentuje hiperpłaszczyznę w n-wymiarowej przestrzeni. jak perceptron dzieli tę przestrzeń? jakie jest równanie tej płaszczyzny? jakie są ograniczenia takiego sformułowania? Liniowo separowalne zbiory przykładów. (przykład) Co jeszcze możemy reprezentować z wykorzystaniem perceptronu? Funkcje boolowskie (jakie?), Funkcje m-of-n, Co z tego wynika? Każda funkcja boolowska może być reprezentowana przez dwuwarstwową sieć złożoną z perceptronów. 3 / 19

Perceptron - algorytm uczący Problem - znajdź wektor wag w, który pozwoli zwrócić poprawną wartość ±1 dla każdego przykładu uczącego. Algorytmy uczące: perceptron rule, delta rule. Idea: Zacznij z losowymi wagami. Iteracyjnie stosuj perceptron do każdego przykładu uczącego, modyfikując wagi w przypadku popełnienia błędu. Powtarzaj powyższe aż wszystkie przykłady będą klasyfikowane poprawnie. Wagi są modyfikowane zgodnie z tzw. perceptron training rule: w i w i + w i gdzie w i = α(t o)x i 4 / 19

Perceptron training rule - przykład Jak zmienią się wagi gdy: t = o t = 1, zaś o = 1 t = 1, zaś o = 1 Czy dostrzegasz ograniczenie tego algorytmu uczącego? Algorytm zbiega w skończonej liczbie kroków tylko jeśli przykłady uczące są liniowo separowalne. 5 / 19

Delta rule Motywacja - liniowo nie separowalne zbiory danych. Idea algorytmu - użyj spadku gradientu aby przeszukać przestrzeń hipotez. Rozważmy liniowy perceptron (bez progowania): o(x) = w x oraz miarę błędu hipotezy w stosunku do zbioru przykładów D: Uwagi: E jest funkcją w E(w) = 1 (t d o d ) 2 2 d D Później podamy Bayesowskie wyjaśnienie postaci E 6 / 19

Spadek gradientu - wizualizacja Jak wygląda przestrzeń rozważanych hipotez (wag w)? Uwagi: Interpretacja? Kształt paraboli zależy od D. Jedno globalne optimum. 7 / 19

Spadek gradientu W jaki sposób wyznaczyć kierunek najszybszego spadku wzdłuż powierzchni indukowanej przez E? E(w) = [ E w 0, E w 1,..., E w n ] E(w) jest wektorem pochodnych cząstkowych E względem elementów w. Interpretacja? A co z E(w) Reguła ucząca dla spadku gradientu to: w w + w gdzie Pytania kontrolne: Jaka jest rola α? Dlaczego przed? w = α E(w) 8 / 19

Spadek gradientu - podsumowanie E(w) = [ E w 0, E w 1,..., E w n ] Reguła ucząca dla spadku gradientu to: gdzie Lub dla każdego parametru: gdzie w w + w w = α E(w) w i w i + w i w i = α E w i Najszybszy wzrost wartości E osiągany przez zmianę w i proporcjonalnie do E w i. 9 / 19

Algorytm uczący - delta rule Kluczowe pytanie: E w i =... [tablica] w i w i + w i w i = α E w i w i = α d D(t d o d )x id 10 / 19

Algorytm uczący - delta rule Dane wejściowe: zbiór uczący D składający się z przykładów (x, t). α prędkość uczenia. Algorytm: Inicjalizuj wagi w i małymi losowymi wartościami. Wykonuj dopóki warunek stopu nie jest spełniony: Inicjalizuj w i zerami. Dla każdego przykładu (x, t) D wykonuj: Wykorzystując x oblicz o Dla każdej wagi w i oblicz: w i w i + α(t o)x i Dla każdej wagi w i oblicz: w i w i + w i 11 / 19

Stochastyczny spadek gradientu Kiedys stosować metodę spadku gradientu (SGD): przestrzeń hipotez jest ciągła, błąd jest różniczkowalny względem parametrów hipotezy. Główne trudności w stosowaniu SGD: powolna zbieżność algorytmu, brak gwarancji znalezienia globalnego optimum. Popularny wariant metody: stochastic gradient descent. Wagi są aktualizowane po każdym przykładzie: w i = α(t d o d )x i Jakie są zalety stosowania E d (w) względem E(w)? 12 / 19

Regresja logistyczna Cel: dla wektora cech x zwróć ŷ = P(y = 1 x). Parametry: x R n, b R. Wyjście modelu: ŷ = σ(w T x + b) σ(z) = 1 1 + exp( z) Co się dzieje gdy z jest duże? A gdy małe? [tablica] 13 / 19

Regresja logistyczna - funkcja straty i kosztu Model: ŷ = σ(w T x + b), σ(z) = Funkcja straty (ang. loss function): 1 1 + exp( z) L(ŷ, y) = y log ŷ (1 y) log (1 ŷ) Rozważmy dwa przypadki gdy y = 1 i y = 0. [tablica] Funkcja kosztu (ang. cost function) J(w, b) = 1 m m L(ŷ i, y i ) i=1 Graf obliczeń [tablica]. 14 / 19

Regresja logistyczna jako jednowarstwowa sieć Algorytm uczący - spadek gradientu: w i w i + w i Propagacja przykładu: Wsteczna propogacja [tablica]: w i = α E w i z = w T x + b ŷ = a = σ(z) L w i = (a y)x i L = (a y) b 15 / 19

Regresja logistyczna - wektoryzacja Dlaczego? [demo] Chcemy pozbyć się dwóch pętli for [jakich?] Dla każdego przykładu uczącego x i obliczamy: Niech: Wtedy oraz: z i = w T x i + b a i = σ(z i ) X = x 1 x 2... x m Z = w T X + b A = σ(z) L w = 1 X(A Y )T m L b = 1 m sum(a Y ) 16 / 19

Sieć neuronowa Dwuwarstwowa sieć z jedną warstwą ukrytą: x 1 a [1] 1 a [1] 2 x 2 a [1] 3 a [2] 1 ŷ x 3 a [1] 4 z [1] 1 = w [1] T [1] 1 x + b 1, a[1] 1 = σ(z [1] 1 ) z [1] 2 = w [1] T [1] 2 x + b 2, a[1] 2 = σ(z [1] 2 ). ŷ = a [2] 1 = σ(w [2] T 1 a [1] + b [2] 1 ) 17 / 19

Sieć neuronowa Propagacja przykładu przez sieć: Dla m przykładów: z [1] = W [1] x + b [1] a [1] = σ(z [1] ) z [2] = W [2] a [1] + b [2] a [2] = σ(z [2] ) (1) Z [1] = W [1] x + b [1] A [1] = σ(z [1] ) Z [2] = W [2] A [1] + b [2] A [2] = σ(z [2] ) X = x 1 x 2... x m A [1] = a [1] 1 a [1] 2... a [1] m (2) 18 / 19

Wsteczna propagacja błędu - backprop h x i w hi a h w kh k a k L(a k,t k ) a h+1 x i+1 k+1 a h+2 x i+2 a k+1 L(a k+1,t k+1) a h+3 Wyprowadzenie algorytmu backprop: [tablica] 19 / 19