Uczenie ze wzmocnieniem

Podobne dokumenty
Uczenie ze wzmocnieniem

Uczenie ze wzmocnieniem

SPOTKANIE 11: Reinforcement learning

Uczenie ze wzmocnieniem

Uczenie ze wzmocnieniem aplikacje

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Uczenie ze wzmocnieniem aplikacje

Optymalizacja. Symulowane wyżarzanie

Problemy Decyzyjne Markowa

Uczenie ze wzmocnieniem

Systemy agentowe. Uczenie ze wzmocnieniem. Jędrzej Potoniec

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

Uczenie ze wzmocnieniem

1 Estymacja przedziałowa

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Numeryczne metody optymalizacji Optymalizacja w kierunku. informacje dodatkowe

Sztuczna inteligencja : Zbiory rozmyte cz. III

Techniki optymalizacji

Algorytmy MCMC i ich zastosowania statystyczne

Analiza Algorytmów 2018/2019 (zadania na laboratorium)

Uczenie sieci typu MLP

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Geometryczna zbieżność algorytmu Gibbsa

Centralne twierdzenie graniczne

Przestrzeń algorytmów klastrowania

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Dynamiczne stochastyczne modele równowagi ogólnej

Mechanika Kwantowa. Maciej J. Mrowiński. 24 grudnia Funkcja falowa opisująca stan pewnej cząstki ma następującą postać: 2 x 2 )

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Estymacja parametrów rozkładu cechy

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Analiza Algorytmów. Informatyka, WPPT, Politechnika Wroclawska. 1 Zadania teoretyczne (ćwiczenia) Zadanie 1. Zadanie 2. Zadanie 3

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Problemy Decyzyjne Markowa

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Metody inwersji Bayesowskiej -L7- IGF PAN, 21.IV.2005

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

Ilustracja metody Monte Carlo obliczania pola obszaru D zawartego w kwadracie [a,b]x[a,b]

Technologie Informatyczne Wykład VII

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym

Zadania do Rozdziału X

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Optymalizacja ciągła

Metody probabilistyczne

Instrukcje cykliczne (pętle) WHILE...END WHILE

Testowanie hipotez statystycznych.

Metody systemowe i decyzyjne w informatyce

Akwizycja i przetwarzanie sygnałów cyfrowych

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1

Optymalizacja Ci gªa

5 Błąd średniokwadratowy i obciążenie

Podstawowe I/O Liczby

WEKTORY I WARTOŚCI WŁASNE MACIERZY. = λ c (*) problem przybliżonego rozwiązania zagadnienia własnego dla operatorów w mechanice kwantowej

1 Funkcja wykładnicza i logarytm

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Ważne rozkłady i twierdzenia c.d.

Strategie ewolucyjne. Gnypowicz Damian Staniszczak Łukasz Woźniak Marek

SID Wykład 8 Sieci neuronowe

WYKŁAD 3. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

SPOTKANIE 3: Regresja: Regresja liniowa

Elementy inteligencji obliczeniowej

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Matematyka dyskretna - wykład - część Podstawowe algorytmy kombinatoryczne

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

FORECASTING THE DISTRIBUTION OF AMOUNT OF UNEMPLOYED BY THE REGIONS

Wprowadzenie. Data Science Uczenie się pod nadzorem

Superdyfuzja. Maria Knorps. Wydział Fizyki Technicznej i Matematyki stosowanej, Politechnika Gdańska

Algorytm Metropolisa-Hastingsa

Instrukcje pętli przykłady. Odgadywanie hasła. 1) Program pyta o hasło i podaje adres, gdy hasło poprawne lub komunikat o błędnym haśle.

P(F=1) F P(C1 = 1 F = 1) P(C1 = 1 F = 0) P(C2 = 1 F = 1) P(C2 = 1 F = 0) P(R = 1 C2 = 1) P(R = 1 C2 = 0)

ZASTOSOWANIE ALGORYTMÓW UCZENIA SIĘ ZE WZMOCNIENIEM WE WSPOMAGANIU PROCESÓW PODEJMOWANIA DECYZJI PODCZAS MANEWROWANIA STATKIEM

2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.

Algorytmy MCMC i ich zastosowania statystyczne

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 7 AiR III

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

WAE Jarosław Arabas Adaptacja i samoczynna adaptacja parametrów AE Algorytm CMA-ES

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Metamorfozy neutrin. Katarzyna Grzelak. Sympozjum IFD Zakład Czastek i Oddziaływań Fundamentalnych IFD UW. K.Grzelak (UW ZCiOF) 1 / 23

Planowanie eksperymentu 2 (k p) w 2 r blokach. Stanisław Jaworski, Wojciech Zieliński

Statystyka Matematyczna Anna Janicka

... prognozowanie nie jest celem samym w sobie a jedynie narzędziem do celu...

Lista. Przestrzenie liniowe. Zadanie 1 Sprawdź, czy (V, +, ) jest przestrzenią liniową nadr :

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

Generowanie liczb o zadanym rozkładzie. ln(1 F (y) λ

Matematyka I. Bezpieczeństwo jądrowe i ochrona radiologiczna Semestr zimowy 2018/2019 Wykład 9

(4) (b) m. (c) (d) sin α cos α = sin 2 k = sin k sin k. cos 2 m = cos m cos m. (g) (e)(f) sin 2 x + cos 2 x = 1. (h) (f) (i)

Sterowanie wielkością zamówienia w Excelu - cz. 3

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

3.4. Przekształcenia gramatyk bezkontekstowych

Funkcje dwóch zmiennych, pochodne cząstkowe

Geometria Lista 0 Zadanie 1

Twierdzenie o splocie

Co to jest model Isinga?

Bezgradientowe metody optymalizacji funkcji wielu zmiennych. informacje dodatkowe

Testowanie hipotez statystycznych.

Transkrypt:

Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019

Przypomnienia (1) Do tych czas: stan X t u, gdzie u cel aktualizacji: MC : X t G t TD(0) : X y R t+1 + γˆv(x t, w) n-krokowy TD(0) : X t G t:t+n DP : x E [R t+1 + γˆv(x t+1, w t ) X t = x] aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 2 / 15

Przypomnienia (1) Do tych czas: stan X t u, gdzie u cel aktualizacji: MC : X t G t TD(0) : X y R t+1 + γˆv(x t, w) n-krokowy TD(0) : X t G t:t+n DP : x E [R t+1 + γˆv(x t+1, w t ) X t = x] Próba prognozowania przez zastosowanie aproksymacji ˆv(x, w) V π (x) aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 2 / 15

Przypomnienia (1) Do tych czas: stan X t u, gdzie u cel aktualizacji: MC : X t G t TD(0) : X y R t+1 + γˆv(x t, w) n-krokowy TD(0) : X t G t:t+n DP : x E [R t+1 + γˆv(x t+1, w t ) X t = x] Próba prognozowania przez zastosowanie aproksymacji ˆv(x, w) V π (x) Cel prognozy VE = x X µ(x) [V π (x) ˆv(x, w)] 2, (1) gdzie µ t.zw. rozkład on-policy (dost. mały; ułamki czasu pobytu w stanie) aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 2 / 15

Przypomnienia (2) SGD (stochastic gradient method) w t+1 = w t + α [v π (X t ) ˆv(X t, w t )] ˆv(X t, w t ) (2) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 3 / 15

Sterowanie on-policy z zastosowaniem aproksymacji problem sterowanie funkcja wartości stan-akcja (parametryczna aproksymacja): ˆq(x, a, w) Q (x, a) (3) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 4 / 15

Sterowanie on-policy z zastosowaniem aproksymacji problem sterowanie funkcja wartości stan-akcja (parametryczna aproksymacja): ˆq(x, a, w) Q (x, a) (3) epizodyczne sterowanie semi-gradientową metodą TD(0): X t, A t U t (U t dla MC to całkowity dochód, dla 1-krokowej SARSA G t ) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 4 / 15

Sterowanie on-policy z zastosowaniem aproksymacji problem sterowanie funkcja wartości stan-akcja (parametryczna aproksymacja): ˆq(x, a, w) Q (x, a) (3) epizodyczne sterowanie semi-gradientową metodą TD(0): X t, A t U t (U t dla MC to całkowity dochód, dla 1-krokowej SARSA G t ) aktualizacja wektora w dla prognozy funkcji wartości akcja-stan jest: w t+1 = w t + α [U t ˆq(X t+1, A t t + 1, w t )] ˆq(X t, A t, w t ) (4) Na przykład, dla 1-krokowej SARSA U t = R t+1 + γˆq(x t+1, A t+1, w t ) (5) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 4 / 15

Algorithm Input: a differentiable function ˆq : S A R d R initialize: value-function w R d (arbitrary, e.g. by 0); repeat X, A initial state and action of episode (e.g. ɛ-greedy); repeat Take action A, observe R, X ; if X is terminal then w w + α [R ˆq(X, A, w)] ˆq(X, A, w); Go to next episode end Choose A as a function of ˆq(X,, w) (e.g. ɛ-greedy); w w + α [R + γˆq(x, A, w) ˆq(X, A, w)] ˆv(X, A, w); X X ; A A ; until for each step of episode; until for each episode; Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 5 / 15

Mountain Car task Jazda w górach słabym samochodem (czyli nawet przy pełnym gazieńie może wjechać na stromy stok). Wyjście?? Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 6 / 15

Mountain Car task Jazda w górach słabym samochodem (czyli nawet przy pełnym gazieńie może wjechać na stromy stok). Wyjście?? Rozpędzić się... aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 6 / 15

Mountain Car task c.d. przykład zadania ciągłej kontroli: za każdy krok nagroda jest -1; +1 dotarcie do celu trzy możliwe czynności: do przodu (max), do tyłu (max), zerowe otwarcie przepustnicy uproszczona fizyka (patrz https://mpatacchiola.github.io/blog/2017/08/14/ dissecting-reinforcement-learning-6.html): x t+1 =bound[x t + ẋ t+1 ] ẋ t+1 =bound [ẋ t + 0.001A t 0.0025 cos(3x t )] gdzie bound operator wymuszający ograniczenia: 1.2 x t+1 0.5, 0.07 ẋ t+1 0.07 Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 7 / 15

Eksperymenty Rysunek: Problem jazdy samochodem w górach aproksymacja Aproksymacja tile covering (dachówki; rozmiar każdej = 1 8 odcinka po każdej osi). Cost-to-go funkcję ( max a ˆq(x, a, w)) przybliżamy wektorami cech z(x, a) (po tile coding): ˆq(x, a, w) = w T z(x, a) = i w i x i (s, a) (6) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 8 / 15

Średnia nagroda w przypadku zadań ciągłych W przypadku niekończących się zadań o czym martwi się agent? Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 9 / 15

Średnia nagroda w przypadku zadań ciągłych W przypadku niekończących się zadań o czym martwi się agent? nagroda natychmiastowa i przyszła??? dyskontowanie nagrody??? aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 9 / 15

Średnia nagroda w przypadku zadań ciągłych W przypadku niekończących się zadań o czym martwi się agent? nagroda natychmiastowa i przyszła??? dyskontowanie nagrody??? Ocena polityki 1 h r(π) = lim E [R t A 0:t 1 π] h h t=1 = lim E [R t A 0:t 1 π] (7) h = x µ π (x) a π(a x) p(x, r x, a)r x,r gzie µ π (x) rozkład stanów i µ π (x) lim t Pr{X t = x A 0:t 1 π} aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 9 / 15

Średnia nagroda...(2) definicja dochodu w przypadku niekończącego zadania zróżnicowany dochód: G t = R t+1 r(π) + R t+2 r(π) +... (8) zróżnicowana funkcja wartości / stan-akcja: v π (x) = a π(a x) p(x, r x, a) [ r r(π) + v π (x ) ] x,r [ q π (x, a) = p(x, r x, a) r r(π) + π(x, a )q π (x, a ) x,r a v (x) = max π(a x) [ ] p(x, r x, a) r max r(π) + v (x ) a π a x,r q (x, a) = [ ] p(x, r x, a) r max r(π) + max q (x, a ) π x a,r ] Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 10 / 15

Średnie odchylenie (TD) δ t =R t+1 R t+1 + ˆv(X t+1, w t ) ˆv(X t, w t ) (9) δ t =R t+1 R t+1 + ˆq(X t+1, A t+1, w t ) ˆv(X t, A t, w t ) (10) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 11 / 15

Elekcyjność tras... kombinacja TD i Monte-Carlo TD(0) do TD(1) 0 < λ < 1 mogą być lepsze, niż skrajności aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 12 / 15

Elekcyjność tras... kombinacja TD i Monte-Carlo TD(0) do TD(1) 0 < λ < 1 mogą być lepsze, niż skrajności w metodzie n-krokowej G t:t+n = R t+1 + + γ n 1 R t+n + γ nˆv(x t+n, w t+n 1 ), 0 t T n (11) aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 12 / 15

Elekcyjność tras... kombinacja TD i Monte-Carlo TD(0) do TD(1) 0 < λ < 1 mogą być lepsze, niż skrajności w metodzie n-krokowej G t:t+n = R t+1 + + γ n 1 R t+n + γ nˆv(x t+n, w t+n 1 ), 0 t T n (11) obserwacja aktualizacja za pomocą średniej z kilku (n) kroków ((G t:t+2 + G t:t+4 ))...potrzebujemy tylko odpowiedni współczynnik. aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 12 / 15

Elekcyjność tras... kombinacja TD i Monte-Carlo TD(0) do TD(1) 0 < λ < 1 mogą być lepsze, niż skrajności w metodzie n-krokowej G t:t+n = R t+1 + + γ n 1 R t+n + γ nˆv(x t+n, w t+n 1 ), 0 t T n (11) obserwacja aktualizacja za pomocą średniej z kilku (n) kroków ((G t:t+2 + G t:t+4 ))...potrzebujemy tylko odpowiedni współczynnik. λ-dochód: gdzie λ [0; 1]. Gt λ = (1 λ) λ n 1 G t:t+n (12) n=1 aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 12 / 15

λ-dochodowy algorytm Wektor cech (off-line) [ ] w t+1 = w t + α Gt λ ˆv(X t, w t ) ˆv(X t, w t ), t = 0,..., T 1 (13) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 13 / 15

Algorytm TD(λ) Elekcyjność: wektor z t R d reprezentuje pamięć krótkoterminową (w t R d pamięć długoterminowa) z 1 =0 (14) z t =γλz t 1 + ˆv(X t, w t ), 0 t T, (15) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 14 / 15

Algorytm TD(λ) Elekcyjność: wektor z t R d reprezentuje pamięć krótkoterminową (w t R d pamięć długoterminowa) TD-odchylenie: z 1 =0 (14) z t =γλz t 1 + ˆv(X t, w t ), 0 t T, (15) δ t = R t+1 + γˆv(x t+1, w t ) ˆv(X t, w t ) (16) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 14 / 15

Algorytm TD(λ) Elekcyjność: wektor z t R d reprezentuje pamięć krótkoterminową (w t R d pamięć długoterminowa) TD-odchylenie: z 1 =0 (14) z t =γλz t 1 + ˆv(X t, w t ), 0 t T, (15) δ t = R t+1 + γˆv(x t+1, w t ) ˆv(X t, w t ) (16) aktualizacja wektora cech (wag): w t+1 = w t + αδ t z t (17) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 14 / 15

Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 15 / 15