Uczenie ze wzmocnieniem

Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019

Przypomnienia (1) Do tych czas: stan X t u, gdzie u cel aktualizacji: MC : X t G t TD(0) : X y R t+1 + γˆv(x t, w) n-krokowy TD(0) : X t G t:t+n DP : x E [R t+1 + γˆv(x t+1, w t ) X t = x] aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 2 / 15

Przypomnienia (1) Do tych czas: stan X t u, gdzie u cel aktualizacji: MC : X t G t TD(0) : X y R t+1 + γˆv(x t, w) n-krokowy TD(0) : X t G t:t+n DP : x E [R t+1 + γˆv(x t+1, w t ) X t = x] Próba prognozowania przez zastosowanie aproksymacji ˆv(x, w) V π (x) aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 2 / 15

Przypomnienia (1) Do tych czas: stan X t u, gdzie u cel aktualizacji: MC : X t G t TD(0) : X y R t+1 + γˆv(x t, w) n-krokowy TD(0) : X t G t:t+n DP : x E [R t+1 + γˆv(x t+1, w t ) X t = x] Próba prognozowania przez zastosowanie aproksymacji ˆv(x, w) V π (x) Cel prognozy VE = x X µ(x) [V π (x) ˆv(x, w)] 2, (1) gdzie µ t.zw. rozkład on-policy (dost. mały; ułamki czasu pobytu w stanie) aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 2 / 15

Przypomnienia (2) SGD (stochastic gradient method) w t+1 = w t + α [v π (X t ) ˆv(X t, w t )] ˆv(X t, w t ) (2) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 3 / 15

Sterowanie on-policy z zastosowaniem aproksymacji problem sterowanie funkcja wartości stan-akcja (parametryczna aproksymacja): ˆq(x, a, w) Q (x, a) (3) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 4 / 15

Sterowanie on-policy z zastosowaniem aproksymacji problem sterowanie funkcja wartości stan-akcja (parametryczna aproksymacja): ˆq(x, a, w) Q (x, a) (3) epizodyczne sterowanie semi-gradientową metodą TD(0): X t, A t U t (U t dla MC to całkowity dochód, dla 1-krokowej SARSA G t ) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 4 / 15

Sterowanie on-policy z zastosowaniem aproksymacji problem sterowanie funkcja wartości stan-akcja (parametryczna aproksymacja): ˆq(x, a, w) Q (x, a) (3) epizodyczne sterowanie semi-gradientową metodą TD(0): X t, A t U t (U t dla MC to całkowity dochód, dla 1-krokowej SARSA G t ) aktualizacja wektora w dla prognozy funkcji wartości akcja-stan jest: w t+1 = w t + α [U t ˆq(X t+1, A t t + 1, w t )] ˆq(X t, A t, w t ) (4) Na przykład, dla 1-krokowej SARSA U t = R t+1 + γˆq(x t+1, A t+1, w t ) (5) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 4 / 15

Algorithm Input: a differentiable function ˆq : S A R d R initialize: value-function w R d (arbitrary, e.g. by 0); repeat X, A initial state and action of episode (e.g. ɛ-greedy); repeat Take action A, observe R, X ; if X is terminal then w w + α [R ˆq(X, A, w)] ˆq(X, A, w); Go to next episode end Choose A as a function of ˆq(X,, w) (e.g. ɛ-greedy); w w + α [R + γˆq(x, A, w) ˆq(X, A, w)] ˆv(X, A, w); X X ; A A ; until for each step of episode; until for each episode; Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 5 / 15

Mountain Car task Jazda w górach słabym samochodem (czyli nawet przy pełnym gazieńie może wjechać na stromy stok). Wyjście?? Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 6 / 15

Mountain Car task Jazda w górach słabym samochodem (czyli nawet przy pełnym gazieńie może wjechać na stromy stok). Wyjście?? Rozpędzić się... aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 6 / 15

Mountain Car task c.d. przykład zadania ciągłej kontroli: za każdy krok nagroda jest -1; +1 dotarcie do celu trzy możliwe czynności: do przodu (max), do tyłu (max), zerowe otwarcie przepustnicy uproszczona fizyka (patrz https://mpatacchiola.github.io/blog/2017/08/14/ dissecting-reinforcement-learning-6.html): x t+1 =bound[x t + ẋ t+1 ] ẋ t+1 =bound [ẋ t + 0.001A t 0.0025 cos(3x t )] gdzie bound operator wymuszający ograniczenia: 1.2 x t+1 0.5, 0.07 ẋ t+1 0.07 Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 7 / 15

Eksperymenty Rysunek: Problem jazdy samochodem w górach aproksymacja Aproksymacja tile covering (dachówki; rozmiar każdej = 1 8 odcinka po każdej osi). Cost-to-go funkcję ( max a ˆq(x, a, w)) przybliżamy wektorami cech z(x, a) (po tile coding): ˆq(x, a, w) = w T z(x, a) = i w i x i (s, a) (6) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 8 / 15

Średnia nagroda w przypadku zadań ciągłych W przypadku niekończących się zadań o czym martwi się agent? Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 9 / 15

Średnia nagroda w przypadku zadań ciągłych W przypadku niekończących się zadań o czym martwi się agent? nagroda natychmiastowa i przyszła??? dyskontowanie nagrody??? aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 9 / 15

Średnia nagroda w przypadku zadań ciągłych W przypadku niekończących się zadań o czym martwi się agent? nagroda natychmiastowa i przyszła??? dyskontowanie nagrody??? Ocena polityki 1 h r(π) = lim E [R t A 0:t 1 π] h h t=1 = lim E [R t A 0:t 1 π] (7) h = x µ π (x) a π(a x) p(x, r x, a)r x,r gzie µ π (x) rozkład stanów i µ π (x) lim t Pr{X t = x A 0:t 1 π} aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 9 / 15

Średnia nagroda...(2) definicja dochodu w przypadku niekończącego zadania zróżnicowany dochód: G t = R t+1 r(π) + R t+2 r(π) +... (8) zróżnicowana funkcja wartości / stan-akcja: v π (x) = a π(a x) p(x, r x, a) [ r r(π) + v π (x ) ] x,r [ q π (x, a) = p(x, r x, a) r r(π) + π(x, a )q π (x, a ) x,r a v (x) = max π(a x) [ ] p(x, r x, a) r max r(π) + v (x ) a π a x,r q (x, a) = [ ] p(x, r x, a) r max r(π) + max q (x, a ) π x a,r ] Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 10 / 15

Średnie odchylenie (TD) δ t =R t+1 R t+1 + ˆv(X t+1, w t ) ˆv(X t, w t ) (9) δ t =R t+1 R t+1 + ˆq(X t+1, A t+1, w t ) ˆv(X t, A t, w t ) (10) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 11 / 15

Elekcyjność tras... kombinacja TD i Monte-Carlo TD(0) do TD(1) 0 < λ < 1 mogą być lepsze, niż skrajności aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 12 / 15

Elekcyjność tras... kombinacja TD i Monte-Carlo TD(0) do TD(1) 0 < λ < 1 mogą być lepsze, niż skrajności w metodzie n-krokowej G t:t+n = R t+1 + + γ n 1 R t+n + γ nˆv(x t+n, w t+n 1 ), 0 t T n (11) aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 12 / 15

Elekcyjność tras... kombinacja TD i Monte-Carlo TD(0) do TD(1) 0 < λ < 1 mogą być lepsze, niż skrajności w metodzie n-krokowej G t:t+n = R t+1 + + γ n 1 R t+n + γ nˆv(x t+n, w t+n 1 ), 0 t T n (11) obserwacja aktualizacja za pomocą średniej z kilku (n) kroków ((G t:t+2 + G t:t+4 ))...potrzebujemy tylko odpowiedni współczynnik. aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 12 / 15

Elekcyjność tras... kombinacja TD i Monte-Carlo TD(0) do TD(1) 0 < λ < 1 mogą być lepsze, niż skrajności w metodzie n-krokowej G t:t+n = R t+1 + + γ n 1 R t+n + γ nˆv(x t+n, w t+n 1 ), 0 t T n (11) obserwacja aktualizacja za pomocą średniej z kilku (n) kroków ((G t:t+2 + G t:t+4 ))...potrzebujemy tylko odpowiedni współczynnik. λ-dochód: gdzie λ [0; 1]. Gt λ = (1 λ) λ n 1 G t:t+n (12) n=1 aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 12 / 15

λ-dochodowy algorytm Wektor cech (off-line) [ ] w t+1 = w t + α Gt λ ˆv(X t, w t ) ˆv(X t, w t ), t = 0,..., T 1 (13) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 13 / 15

Algorytm TD(λ) Elekcyjność: wektor z t R d reprezentuje pamięć krótkoterminową (w t R d pamięć długoterminowa) z 1 =0 (14) z t =γλz t 1 + ˆv(X t, w t ), 0 t T, (15) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 14 / 15

Algorytm TD(λ) Elekcyjność: wektor z t R d reprezentuje pamięć krótkoterminową (w t R d pamięć długoterminowa) TD-odchylenie: z 1 =0 (14) z t =γλz t 1 + ˆv(X t, w t ), 0 t T, (15) δ t = R t+1 + γˆv(x t+1, w t ) ˆv(X t, w t ) (16) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 14 / 15

Algorytm TD(λ) Elekcyjność: wektor z t R d reprezentuje pamięć krótkoterminową (w t R d pamięć długoterminowa) TD-odchylenie: z 1 =0 (14) z t =γλz t 1 + ˆv(X t, w t ), 0 t T, (15) δ t = R t+1 + γˆv(x t+1, w t ) ˆv(X t, w t ) (16) aktualizacja wektora cech (wag): w t+1 = w t + αδ t z t (17) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 14 / 15

Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 15 / 15