Systemy agentowe. Uczenie ze wzmocnieniem. Jędrzej Potoniec

HTML
DOWNLOAD

Wielkość: px

Rozpocząć pokaz od strony:

Download "Systemy agentowe. Uczenie ze wzmocnieniem. Jędrzej Potoniec"

Edyta Janiszewska
6 lat temu
Przeglądów:

1 Systemy agentowe Uczenie ze wzmocnieniem Jędrzej Potoniec

2 Uczenie ze wzmocnieniem (ang. Reinforcement learning) dane Środowisko, w którym można wykonywać pewne akcje, które są nagradzane lub karane, ale nie koniecznie od razu.

3 Uczenie ze wzmocnieniem (ang. Reinforcement learning) dane Środowisko, w którym można wykonywać pewne akcje, które są nagradzane lub karane, ale nie koniecznie od razu. zadanie Znaleźć politykę, która w długiej perspektywie czasowej maksymalizuje nagrody.

4 Przykładowe środowiska, kary i nagrody A. Ge ron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017

5 Polityka (ang. policy) Dowolny algorytm, który mówi, jaką akcję wykonać.

6 Polityka (ang. policy) Dowolny algorytm, który mówi, jaką akcję wykonać. Polityka stochastyczna jeżeli jest w tym aspekt losowości.

7 Przykład polityki A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017

8 Toy example: cart pole

9 Toy example: cart pole Cel: wózek na środku, wahadło w pionie

10 Toy example: cart pole Cel: wózek na środku, wahadło w pionie Akcje: siła 1 w lewo, siła 1 w prawo A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017

11 Polityka za pomocą sieci neuronowej A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017

12 Obliczanie nagrody A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017

13 Policy gradient: REINFORCE 1 Zagraj w grę kilkukrotnie, w każdym kroku oblicz gradient wzmacniający wybraną akcję (tj. tak, jakby wybrana akcja była najlepsza możliwa)

14 Policy gradient: REINFORCE 1 Zagraj w grę kilkukrotnie, w każdym kroku oblicz gradient wzmacniający wybraną akcję (tj. tak, jakby wybrana akcja była najlepsza możliwa) 2 Oblicz nagrodę każdej akcji:

15 Policy gradient: REINFORCE 1 Zagraj w grę kilkukrotnie, w każdym kroku oblicz gradient wzmacniający wybraną akcję (tj. tak, jakby wybrana akcja była najlepsza możliwa) 2 Oblicz nagrodę każdej akcji: 1 Uwzględnij przyszłe nagrody przez discount ratio

16 Policy gradient: REINFORCE 1 Zagraj w grę kilkukrotnie, w każdym kroku oblicz gradient wzmacniający wybraną akcję (tj. tak, jakby wybrana akcja była najlepsza możliwa) 2 Oblicz nagrodę każdej akcji: 1 Uwzględnij przyszłe nagrody przez discount ratio 2 Dokonaj normalizacji odejmując średnią i dzieląc przez odchylenie standardowe (po wszystkich zdyskontowanych nagrodach)

17 Policy gradient: REINFORCE 1 Zagraj w grę kilkukrotnie, w każdym kroku oblicz gradient wzmacniający wybraną akcję (tj. tak, jakby wybrana akcja była najlepsza możliwa) 2 Oblicz nagrodę każdej akcji: 1 Uwzględnij przyszłe nagrody przez discount ratio 2 Dokonaj normalizacji odejmując średnią i dzieląc przez odchylenie standardowe (po wszystkich zdyskontowanych nagrodach) 3 Pomnóż gradienty przez odpowiadające im znormalizowane nagrody

18 Policy gradient: REINFORCE 1 Zagraj w grę kilkukrotnie, w każdym kroku oblicz gradient wzmacniający wybraną akcję (tj. tak, jakby wybrana akcja była najlepsza możliwa) 2 Oblicz nagrodę każdej akcji: 1 Uwzględnij przyszłe nagrody przez discount ratio 2 Dokonaj normalizacji odejmując średnią i dzieląc przez odchylenie standardowe (po wszystkich zdyskontowanych nagrodach) 3 Pomnóż gradienty przez odpowiadające im znormalizowane nagrody 4 Uśrednij i zaaplikuj gradienty

19 Proces decyzyjny Markowa A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017

20 Q-Value iteration Q k (s, a) wartość akcji a w stanie s w kroku k T (s, a, s ) prawdopodobieństwo przejścia s s przy akcji a R(s, a, s ) nagroda za przejście s s przy akcji a γ discount ration

21 Q-Value iteration Q k (s, a) wartość akcji a w stanie s w kroku k T (s, a, s ) prawdopodobieństwo przejścia s s przy akcji a R(s, a, s ) nagroda za przejście s s przy akcji a γ discount ration Q k+1 (s, a) s T (s, a, s ) [ ] R(s, a, s ) + γ max Q k (s, a ) a

22 Q-Value iteration Q k (s, a) wartość akcji a w stanie s w kroku k T (s, a, s ) prawdopodobieństwo przejścia s s przy akcji a R(s, a, s ) nagroda za przejście s s przy akcji a γ discount ration Q k+1 (s, a) s T (s, a, s ) [ ] R(s, a, s ) + γ max Q k (s, a ) a π (s) = arg max Q (a) a

23 Q-Value iteration Q k (s, a) wartość akcji a w stanie s w kroku k T (s, a, s ) prawdopodobieństwo przejścia s s przy akcji a R(s, a, s ) nagroda za przejście s s przy akcji a γ discount ration Q k+1 (s, a) s T (s, a, s ) [ ] R(s, a, s ) + γ max Q k (s, a ) a π (s) = arg max Q (a) a Eleganckie, ale kompletnie niepraktyczne

24 Q-Learning ( ) Q k+1 (s, a) (1 α)q k (s, a) + α r + γ max Q k (s, a ) a

25 Approximate Q-Learning Funkcja celu w uczeniu: y(s, a) = r + γ max a Q(s, a ) Q(s, a) to funkcja, której się uczymy (realizowana np. przez sieć neuronową) s to stan do którego przejdziemy po wykonaniu a w s

26 DeepMind Deep Q-Learning to samo co przed chwilą (prawie)

27 DeepMind Deep Q-Learning to samo co przed chwilą (prawie) replay memory

28 DeepMind Deep Q-Learning to samo co przed chwilą (prawie) replay memory dwie sieci: online i target

29 DeepMind Deep Q-Learning to samo co przed chwilą (prawie) replay memory dwie sieci: online i target online się uczy

30 DeepMind Deep Q-Learning to samo co przed chwilą (prawie) replay memory dwie sieci: online i target online się uczy target oblicza Q(s, a )

31 DeepMind Deep Q-Learning to samo co przed chwilą (prawie) replay memory dwie sieci: online i target online się uczy target oblicza Q(s, a ) okresowo kopiujemy online do target

Podobne dokumenty

Systemy agentowe. Sieci neuronowe. Jędrzej Potoniec

Systemy agentowe. Sieci neuronowe. Jędrzej Potoniec Systemy agentowe Sieci neuronowe Jędrzej Potoniec Perceptron (Rossenblat, 1957) A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017 Perceptron { 1 z 0 step(z) = 0 w przeciwnym przypadku