Uczenie ze wzmocnieniem

Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019

Temporal Difference learning Uczenie oparte na różnicach czasowych Problemy predykcyjne (wieloetapowe) droga do domy, wakacje... TD MC + DP MC i TD oparte na doświadczeniu, MC generuje predykcje wartości V π dla stanu nieterminalnego X t na końcu epizodu, TD na następnym kroku MC metoda pierwszej wizyty (constant-α MC, α parametr kroku): V (X t ) V (X t ) + α [G t V (X t )] (1) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 2 / 14

Temporal Difference learning Uczenie oparte na różnicach czasowych Problemy predykcyjne (wieloetapowe) droga do domy, wakacje... TD MC + DP MC i TD oparte na doświadczeniu, MC generuje predykcje wartości V π dla stanu nieterminalnego X t na końcu epizodu, TD na następnym kroku MC metoda pierwszej wizyty (constant-α MC, α parametr kroku): V (X t ) V (X t ) + α [G t V (X t )] (1) algorytm TD (metoda TD(0); update wykonywany natychmiast po przejściu do stanu X t+1 i otrzymaniu nagrody R t+1 ): V (X t ) V (X t ) + α [R t+1 + γv (X t+1 ) V (X t )] (2) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 2 / 14

input π policy to be evaluated; initialization V (x) arbitrary (e.g. V (x) = 0 x X + ) ; Repeat (for each step of episode) A action given by π for X; Take action A, observe R, X ; X X ; until X is terminal V (X) V (x) + α [ R + γv (X ) V (X) ] Algorithm 1: TD(0) do estymacji V π Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 3 / 14

input π policy to be evaluated; initialization V (x) arbitrary (e.g. V (x) = 0 x X + ) ; Repeat (for each step of episode) A action given by π for X; Take action A, observe R, X ; X X ; until X is terminal V (X) V (x) + α [ R + γv (X ) V (X) ] Algorithm 2: TD(0) do estymacji V π V π =E π [G t X t = x] = (3) =E π [R t+1 + γg t+1 X t = x] = =E π [R t+1 + γv π (X t+1 ) X t = x] (4) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 3 / 14

TD-błąd TD błąd (TD error) : δ t = R t+1 + γv (X t+1 ) V (X t ) (5) błąd jest obliczany natychmiastowo po wykonaniu następnego kroku błąd V (X t ), obliczany w moment czasu t + 1 jeżeli V się nie zmienia w trakcie epizodu, to G t V (X t ) =R t+1 + γg t+1 V (X t ) + γv (X t+1 ) γv (X t+1 ) = =δ t + γ(g t+1 V (X t+1 )) = =δ t + γδ t+1 + γ 2 (G t+2 V (X t+2 )) = =δ t + γδ t+1 + γ 2 δ t+2 + + γ T t (G T V (X T )) = T 1 = k=t γ k t δ k (6) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 4 / 14

Podróż do domu Stan Ile czasu upłynęło Przewidywany czas do celu Oczekiwany czas (całkowity) wyjście z MiNI, 18:00 0 30 30 dojście do samochodu (windy!+ deszcz) 5 35 40 przejazd do zjazdu na wał M. 20 15 35 przejazd w. M.(korki) 30 10 40 zjazd z w.m. 40 3 43 dojazd do domu 43 0 43 Nagroda ile czasu upłynęło. Jeżeli γ = 1 dochód w każdym stanie to rzeczywisty czas do przejazdu, zaczynając z tego stanu. Wartość stanów to przewidywany czas do celu (rysunek). Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 5 / 14

Przykład Losowy spacer Stany A, B, C, D, E Dwa stany terminalne (z lewej od A i z prawej od E) Nagrody dla wszystkich przejść równe 0, poza przejściem z E do prawego terminalnego stanu (=1) start zawsze w C γ = 1 V π (C) =?? aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 6 / 14

Przykład Losowy spacer Stany A, B, C, D, E Dwa stany terminalne (z lewej od A i z prawej od E) Nagrody dla wszystkich przejść równe 0, poza przejściem z E do prawego terminalnego stanu (=1) start zawsze w C γ = 1 V π (C) =?? V π (A/B/D/E) =?? Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 6 / 14

Optymalność TD(0) Załóżmy, że mamy tylko ograniczoną ilość eksperymentów (10 epizodów, lub 100 kroków) powtarzać obliczania na epizodach póki metoda nie zbiegnie się do odpowiedzi 1 poprawki, opisane w (1) lub (2), są obliczane dla każdego t dla każdego odwiedzanego nie-terminalnego stanu, ale funkcja wartości stanu zmieniana tylko raz, sumując wszystkie przyrosty 2 powtarzamy krok 1 dla nowej funkcji wartości... 3 zbieżność metoda batch updating (metoda wsadowa???) zbieżna do rozwiązanie niezależnie od parametru kroku (step-size parameter) α, gdzie α jest wystarczająco małe constant-α MC również zbiega się (przy tych samych warunkach), ale do innego rozwiązania różnica pomiędzy tymi dwoma rozwiązaniami? Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 7 / 14

Przykład: spacer losowy przy metodzie wsadowej stosujemy metody wsadową w przypadku TD(0) i MC ze stałą α Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 8 / 14

Przykład: wieszcz Numer epizodu Epizod 1 A,0,B,0 2 B,1 3 B,1 4 B,1 5 B,1 6 B,1 7 B,1 8 B,0 Jak ma wyglądać model środowiska? V(B) =?? wartość optymalna dla V(A)?? Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 9 / 14

Sarsa: on-policy TD sterowanie (control) SARSA State-Action-Reward-State-Action eksploracja vs eksploatacja funkcja wartości akcji (action-value function) Q π (x, a) X t, A t, R t+1, X t+1, A t+1,r t+2,... po każdym przejściu (jeżeli X t+1 terminalny, to Q(X t+1, A t+1 ) = 0): Q(X t, A t ) Q(X t, A t ) + α [R t+1 + γq(x t+1, A t+1 ) Q(X t, A t )] Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 10 / 14

initialization Q(x, a) arbitrary x X and a A(x) ; Q(terminalState; ) = 0 Repeat (for each episode) Inititalize X; choose A from X using policy derived from Q (e.g., ɛ-greedy); Repeat (for each step of episode); Take action A, observe R and X ; choose A from X, using policy derived from Q (e.g. ɛ-greedy) ; Q(X, A) Q(X, A) + α [R + γq(x, A ) Q(X, A)]; X X ; A A ; until X is terminal; Algorithm 3: Algorytm Sarsa do oceny Q Q Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 11 / 14

Algorytm Q-learning Off-policy TD control Definicja Q-learning: [ Q(X t, A t ) Q(X t, A t ) + α R t+1 + γ max a ] Q(X t+1, a) Q(X t, A t ) (7) podkręca zbieżność polityka ma znaczenie (wciąż!) z prawdopodobieństwem 1 zbiega się do Q Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 12 / 14

initialization Q(x, a) arbitrary x X and a A(x) ; Q(terminalState; ) = 0 Repeat (for each episode) Inititalize X; Repeat (for each step of episode): choose A from X using policy derived from Q (e.g., ɛ-greedy); Take action A, observe R and X ; Q(X, A) Q(X, A) + α [R + γ max a Q(X, a) Q(X, A)]; X X ; until X is terminal; Algorithm 4: Algorytm Q-learning do oceny π π Example Cliff walking Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 13 / 14

Maximization Bias and Double Learning Przykład: dwa stany nie-terminalne A i B, 2 akcje lewo i prawo. (A,prawo) stan terminalny, r = 0 (A,lewo) = B, r=0 (B,lewo) wielu scieżek do stanu terminalnego, r = N( 0.1, 1) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 14 / 14

Maximization Bias and Double Learning case 1: Przykład: dwa stany nie-terminalne A i B, 2 akcje lewo i prawo. (A,prawo) stan terminalny, r = 0 (A,lewo) = B, r=0 (B,lewo) wielu scieżek do stanu terminalnego, r = N( 0.1, 1) Q 1 (X t, A t ) Q 1 (X t, A t ) + α[r t+1 + case 2: Q 1 i Q 2 zamienić miejscami + γq 2 (X t+1, arg max Q 1 (X t+1, a)) Q 1 (X t, A t )] a Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 14 / 14