Uczenie ze wzmocnieniem

Podobne dokumenty
Uczenie ze wzmocnieniem

Uczenie ze wzmocnieniem

SPOTKANIE 11: Reinforcement learning

Optymalizacja ciągła

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Uczenie ze wzmocnieniem aplikacje

Uczenie ze wzmocnieniem aplikacje

SID Wykład 8 Sieci neuronowe

Uczenie sieci typu MLP

Problemy Decyzyjne Markowa

Uczenie ze wzmocnieniem

Uczenie ze wzmocnieniem

Elementy inteligencji obliczeniowej

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Metody systemowe i decyzyjne w informatyce

Systemy agentowe. Uwagi organizacyjne i wprowadzenie. Jędrzej Potoniec

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

OBLICZANIE POCHODNYCH FUNKCJI.

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ

Lokalna odwracalność odwzorowań, odwzorowania uwikłane

Rozpoznawanie obrazów

SPOTKANIE 3: Regresja: Regresja liniowa

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Uczenie ze wzmocnieniem

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Redukcja wariancji w metodach Monte-Carlo

wiedzy Sieci neuronowe

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

Optymalizacja ciągła

RBF sieci neuronowe o radialnych funkcjach bazowych

Metody Numeryczne Optymalizacja. Wojciech Szewczuk

Uczenie sieci neuronowych i bayesowskich

Sieć przesyłająca żetony CP (counter propagation)

Zawansowane modele wyborów dyskretnych

Stochastyczne zagadnienie rozdziału z dyskretnym rozkładem popytu

wiedzy Sieci neuronowe (c.d.)

Sztuczne sieci neuronowe. Uczenie, zastosowania

Aby mówić o procesie decyzyjnym Markowa musimy zdefiniować następujący zestaw (krotkę): gdzie:

Testy adaptacyjne dla problemu k prób

Sieci M. I. Jordana. Sieci rekurencyjne z parametrycznym biasem. Leszek Rybicki. 30 listopada Leszek Rybicki Sieci M. I.

(LMP-Liniowy model prawdopodobieństwa)

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 4. Równania różniczkowe zwyczajne podstawy teoretyczne

Optymalizacja. Symulowane wyżarzanie

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

10. Techniki minimalizacji a sieci neuronowe

Technologie informacyjne Wykład VII-IX

Algorytmy estymacji stanu (filtry)

Errata Zbioru zadań Zrozumieć fizykę cz. 1, pierwszego wydania

Wprowadzenie do uczenia maszynowego

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

Zastosowania sieci neuronowych

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Metody numeryczne I Równania nieliniowe

Przykładowe zadania na egzamin z matematyki - dr Anita Tlałka - 1

Rozpoznawanie obrazów

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Optymalizacja ciągła

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Deep Learning na przykładzie Deep Belief Networks

Wektor, prosta, płaszczyzna; liniowa niezależność, rząd macierzy

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Optymalizacja ciągła

4,5. Dyskretne zmienne losowe (17.03; 31.03)

Metody systemowe i decyzyjne w informatyce

Przestrzeń unitarna. Jacek Kłopotowski. 23 października Katedra Matematyki i Ekonomii Matematycznej SGH

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Dyskretne zmienne losowe

Metody systemowe i decyzyjne w informatyce

Rozpoznawanie obrazów

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Metody systemowe i decyzyjne w informatyce

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Bładzenie przypadkowe i lokalizacja

Kierunek: Matematyka Poziom studiów: Studia II stopnia Forma i tryb studiów: Stacjonarne

Rozpoznawanie obrazów

Uczenie sieci radialnych (RBF)

Kierunek: Matematyka Poziom studiów: Studia II stopnia Forma i tryb studiów: Stacjonarne

Kierunek: Matematyka Poziom studiów: Studia II stopnia Forma i tryb studiów: Stacjonarne

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

... prognozowanie nie jest celem samym w sobie a jedynie narzędziem do celu...

Metody Kompilacji Wykład 8 Analiza Syntaktyczna cd. Włodzimierz Bielecki WI ZUT

Fuzja sygnałów i filtry bayesowskie

Optymalizacja. Przeszukiwanie lokalne

XI Konferencja Metody Ilościowe w Badaniach Ekonomicznych

Matematyka ubezpieczeń majątkowych r.

Prawdopodobieństwo i statystyka

Kierunek: Matematyka Poziom studiów: Studia II stopnia Forma i tryb studiów: Stacjonarne

Numeryczne metody optymalizacji Optymalizacja w kierunku. informacje dodatkowe

Optymalizacja systemów

Problemy Decyzyjne Markowa

Metody systemowe i decyzyjne w informatyce

Elementy modelowania matematycznego

Podstawowe modele probabilistyczne

Ważne rozkłady i twierdzenia c.d.

Transkrypt:

Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019

O projekcie nr 2 roboty (samochody, odkurzacze, drony,...) gry planszowe, sterowanie (optymalizacja; windy,..) optymalizacja kombinatoryczna i szeregowanie (zagadnienie harmonogramowania,..) problemy marszrutyzacji finanse... Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 2 / 14

Aproksymacja funkcji Funkcja wartości stanu lub stanu-akcji nie zawsze to się da przedstawić jako tabela (macierz) (np. szachy lub tryktrak 10 20 ) Metody uogólniania (generalizacji) aproksymacja funkcja wartości jest parametryzowana wektorem wag w R d : ˆv(x, w) V π (x), gdzie w wektor wag supervised learning (przykład) x u, gdzie u jest wyrażenie liczbowe (aproksymacja funkcji) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 3 / 14

Aproksymacja funkcji Funkcja wartości stanu lub stanu-akcji nie zawsze to się da przedstawić jako tabela (macierz) (np. szachy lub tryktrak 10 20 ) Metody uogólniania (generalizacji) aproksymacja funkcja wartości jest parametryzowana wektorem wag w R d : ˆv(x, w) V π (x), gdzie w wektor wag supervised learning (przykład) x u, gdzie u jest wyrażenie liczbowe (aproksymacja funkcji) MC : X t G t TD(0) : X y R t+1 + γˆv(x t, w) n-krokowy TD(0) : X t G t:t+n DP : x E [R t+1 + γˆv(x t+1, w t) X t = x] dowolna metoda uczenia z nadzorem na podstawie przykładów (training set) Uczenie z nadzorem na powiększającym się zbiorze danych RL Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 3 / 14

Cel przewidywania VE Stany ważone: x : µ(x) 0 i x µ(x) = 1 często µ ułamek czasu, spędzonego w stanie x aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 4 / 14

Cel przewidywania VE Stany ważone: x : µ(x) 0 i x µ(x) = 1 często µ ułamek czasu, spędzonego w stanie x Błąd średniej wartości kwadratowej (mean squared value error): VE = x X µ(x) [V π (x) ˆv(x, w)] 2 (1) aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 4 / 14

Cel przewidywania VE Stany ważone: x : µ(x) 0 i x µ(x) = 1 często µ ułamek czasu, spędzonego w stanie x Błąd średniej wartości kwadratowej (mean squared value error): VE = x X µ(x) [V π (x) ˆv(x, w)] 2 (1) Pytanie: czy VE jest odpowiednim celem RL? globalny vs lokalny optimum aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 4 / 14

Cel przewidywania VE Stany ważone: x : µ(x) 0 i x µ(x) = 1 często µ ułamek czasu, spędzonego w stanie x Błąd średniej wartości kwadratowej (mean squared value error): VE = x X µ(x) [V π (x) ˆv(x, w)] 2 (1) Pytanie: czy VE jest odpowiednim celem RL? globalny vs lokalny optimum Zasady zachłanności metody gradientowe Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 4 / 14

Stochastyczna metoda gradientowa/semi-gradientowa w = (w 1, w 2,..., w d ) T ˆv(s, w) różniczkowalna funkcja przez w t będziemy oznaczać wektor wag na kroku t zakładamy, że stany pojawiają się w przykładach z takim samym rozkładem µ po którym minimizujemy VE: w t+1 =w t 1 2 α [V π (X t ) ˆv(X t, w t )] 2 = =w t + α [V π (X t ) ˆv(X t, w t )] ˆv(X t, w t ) (2) balans błędów w różnych stanach α: jeżeli n=1 α n =, ale n=1 α 2 n < zbieżność metody SGD do optimum lokalnego Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 5 / 14

SGD dla predykcji funkcji wartości stanu X t U t i U t jest aproksymacją V π (X t ) zaszumiona V π (X t ) aproksymowana za pomocą metody wsadowej zamiast V π (X t ) użyjemy U t : w t+1 = w t + α [U t ˆv(X t, w t )] ˆv(X t, w t ) (3) jeżeli U t : E [U t X t = x] = V π (X t ) (unbiased estimate) t, wtedy w t zbiega się do lokalnego optimum (dla α jak wyżej) Przykład: MC, cel U t = G t przyszły dochód spełnia wymagania bycia niezaszumioną funkcją t, wersja MC metody gradientowego spadku gwarantuje lokalnie optymalne rozwiązanie (patrz następny slajd) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 6 / 14

Algorithm Input: the policy π to be evaluated Input: differentialbe function ˆv : X R d R; initialize: w = 0; repeat Generate an episode X 0, A 0, R 1,...,R T, X T using π; for t = 0, 1,..., T 1 do w w + α [G t ˆv(X t, w)] ˆv(X t, w) end until forever; Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 7 / 14

Algorithm Input: π for evaluation, differential function ˆv : X + R R: ˆv(terminal, ) = 0; Initialize: w = 0; repeat initialize: X; repeat Choose A π( X); Take action A, observe R, X ; w w + α [R + γˆv(x, w) ˆv(X, w)] ˆv(X, w); X X until for each step of episode until X is terminal; until for each episode; Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 8 / 14

Losowy spacer z agregacją stanów. 1000 stanowy losowy spacer (numeracja od 1 z lewej). Wszystkie epizody zaczynają się w stanie 500. Krok do 100 stanów w lewo lub prawo (p = 0, 5). Jeżeli jesteśmy za blisko stanu terminalnego zmienia się prawdopodobieństwo trafienia do stanu terminalnego ( sumowanie brakujących prawdopodobieństw). Np. p(t 1 1, a) = 0.5 a p(t +1 950, a) = 0.25. Rysunek: α = 2 10 5. Agregacja stanów po 100; 100 000 epizodów Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 9 / 14

Metody liniowe ˆv(, w) liniowa funkcja wektora w, czyli dla każdego stanu istnieje wektor z(x) = (z 1 (x), z 2 (x),..., z d (x)) T d ˆv(x, w) = w T z(x) = w i z i (x) (4) i=1 z(x) wektor cech (np. robot prędkość, poziom naładowania,...) zastosowanie SGD do liniowej aproksymacji ˆv(x, w) = z(x): w t+1 = w t + α [U t ˆv(X t, w t )] z(x t ) zbieżność metody do (blisko) globalnego optimum (tylko jeden) pseudo-gradientowy TD(0) również jest zbieżna (w przypadku liniowej aproksymacji) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 10 / 14

Metody liniowe c.d. ] w t+1 =w t + α [R t+1 + γw T t z t+1 w T t z t z t = ] =w t + α [R t+1 z t z t (z t γz t+1 ) T w t aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 11 / 14

Metody liniowe c.d. ] w t+1 =w t + α [R t+1 + γw T t z t+1 w T t z t z t = ] =w t + α [R t+1 z t z t (z t γz t+1 ) T w t Po osiągnięciu stanu stabilnego E [w t+1 w t ] = w t + α(b A w t ) (5) [ ] gdzie b = E [R t+1 z t ] R d i A = E z t (z t γz t+1 ) T R d R d aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 11 / 14

Metody liniowe c.d. ] w t+1 =w t + α [R t+1 + γw T t z t+1 w T t z t z t = ] =w t + α [R t+1 z t z t (z t γz t+1 ) T w t Po osiągnięciu stanu stabilnego E [w t+1 w t ] = w t + α(b A w t ) (5) [ ] gdzie b = E [R t+1 z t ] R d i A = E z t (z t γz t+1 ) T R d R d Jeżeli system jest zbieżny, to zbiega się do w TD TD nieruchomy punkt (TD fixed point) w TD = A 1 b (6) aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 11 / 14

Metody liniowe c.d. ] w t+1 =w t + α [R t+1 + γw T t z t+1 w T t z t z t = ] =w t + α [R t+1 z t z t (z t γz t+1 ) T w t Po osiągnięciu stanu stabilnego E [w t+1 w t ] = w t + α(b A w t ) (5) [ ] gdzie b = E [R t+1 z t ] R d i A = E z t (z t γz t+1 ) T R d R d Jeżeli system jest zbieżny, to zbiega się do w TD = A 1 b (6) w TD TD nieruchomy punkt (TD fixed point) Można udowodnić, że: VE(w TD ) 1 1 γ min VE(w) (7) w aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 11 / 14

Metoda wsadowa dla 1000-stanowego losowego spaceru Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 12 / 14

Przybliżenia Fourier, coarse, tile Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 13 / 14

Sterowanie on-policy problem sterowanie funkcja wartości stan-akcja (parametryczna aproksymacja): ˆq(x, a, w) Q (x, a) (8) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 14 / 14

Sterowanie on-policy problem sterowanie funkcja wartości stan-akcja (parametryczna aproksymacja): ˆq(x, a, w) Q (x, a) (8) epizodyczne sterowanie semi-gradientową metodą TD(0): X t, A t U t (U t dla MC jest całkowity dochód, dla G t dla 1-krokowej SARSA) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 14 / 14

Sterowanie on-policy problem sterowanie funkcja wartości stan-akcja (parametryczna aproksymacja): ˆq(x, a, w) Q (x, a) (8) epizodyczne sterowanie semi-gradientową metodą TD(0): X t, A t U t (U t dla MC jest całkowity dochód, dla G t dla 1-krokowej SARSA) ogólna aktualizacja wektora w dla akcja-stan predykcji jest: w t+1 = w t + α [U t ˆq(X t, A t, w t )] ˆq(X t, A t, w t ) (9) 1-krokowa SARSA U t = T t+1 + γˆq(x t+1, A t+1, w t ) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 14 / 14