Uczenie ze wzmocnieniem aplikacje

HTML
DOWNLOAD

Wielkość: px

Rozpocząć pokaz od strony:

Download "Uczenie ze wzmocnieniem aplikacje"

Liliana Wojciechowska
6 lat temu
Przeglądów:

1 Uczenie ze wzmocnieniem aplikacje Na podstawie: AIMA ch21 oraz Reinforcement Learning (Sutton i Barto) Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 23 maja 2014

2 Problem decyzyjny Markova START

3 Rozwiązanie problemu decyzyjnego Markova

4 nieznany MDP brak f. nagrody i modelu przejść 3???? 2 1??? START??? 0.1?? ?

5 Uczenie ze wzmocnieniem Uczenie: pasywne ocena użyteczności danej polityki π aktywne znalezienie optymalnej polityki π eksploracja!

6 Rodzaje uczenia 1 Uczenie nadzorowane (nauczyciel) 1 klasyfikacja: stan [znana!] klasa decyzyjna 2 regresja: stan [znana!] wartość 2 Uczenie nienadzorowane (brak nauczyciela) 1 stan [nieznana!] klasa 3 Uczenie ze wzmocnieniem (krytyk) 1 stan [nieznana a priori!] kara / nagroda (wzmocnienie)

7 Podejścia do uczenia ze wzmocnieniem Równanie Bellman a: U(s) = R(s) + γ max a A(s) s U(s )P(s s, a) Podejścia: 1 agent odruchowy (direct policy search) uczy się polityki π : S A np. algorytm ewolucyjny 2 agent z funkcją użyteczności uczy się f. użyteczności U(s) np. adaptatywne programowanie dynamiczne (ADP), uczenie różnicowe (TDL) 3 agent z funkcją Q uczy się funkcji Q(s, a) np. Q-learning Który agent potrzebuje modelu świata?[zadanie 1]

8 Reguły uczenia TD-Learning U π (s) U π (s) + α ( R(s) + γu π (s ) U π (s) ) α współczynnik uczenia

9 Reguły uczenia TD-Learning U π (s) U π (s) + α ( R(s) + γu π (s ) U π (s) ) α współczynnik uczenia Q-Learning Q(s, a) Q(s, a) + α ( R(s) + γmax a Q(s, a ) Q(s, a) ) α współczynnik uczenia

10 Approksymator funkcji Liczba stanów: ADP działa rozsądnie dla problemów wielkości rzędu stanów. tryktrak (backgammon): szachy: Nie da się explicite rozważać tylu stanów

11 Approksymator funkcji Liczba stanów: ADP działa rozsądnie dla problemów wielkości rzędu stanów. tryktrak (backgammon): szachy: Nie da się explicite rozważać tylu stanów Aproksymator funkcji: Inna funkcja użyteczności stanu niż tablica Q lub U. Stan reprezentowany jako cechy f 1,..., f n. Aproksymator funkcji Û θ to np. liniowa kombinacja cech Û θ (s) = θ 1 f 1 (s) + θ 2 f 2 (s) + + θ n f n (s) Uczymy się tylko wartości parametrów θ = (θ 1, θ 2,..., θ n ).

12 Przypomnienie Generalizacja Aplikacje Bezpośrednie szukanie polityki Przykład ˆ θ (s) = θ1 pionk o w (s) + θ2 figur w centrum(s)+ U θ3 hetman?(s) + θ4 szach?(s) 1040 stanów 4 parametry

13 Aproksymator funkcji Aproksymator funkcji: musi być łatwo obliczalny,

14 Aproksymator funkcji Aproksymator funkcji: musi być łatwo obliczalny, kompresuje (dużą) przestrzeń stanów w (małą) liczbę parametrów, uogólniania wiedzę (stany odwiedzone vs. nieodwiedzone), Przykład: co stan mistrzowski gracz w tryktraka

15 Aproksymator funkcji Aproksymator funkcji: musi być łatwo obliczalny, kompresuje (dużą) przestrzeń stanów w (małą) liczbę parametrów, uogólniania wiedzę (stany odwiedzone vs. nieodwiedzone), Przykład: co stan mistrzowski gracz w tryktraka Kompromis: wielkość przestrzeni (jakość aproksymacji) vs. czas nauki

16 Reguła Widrow-Hoff a Bezpośrednia estymacja użyteczności START Przykład Dla naszego świata 4 3, niech: Û θ (x, y) = θ 0 + θ 1 x + θ 2 y Jeśli θ = (0.5, 0.2, 0.1), to ile wynosi Û θ (1, 1)?[zadanie 2]

17 Reguła Widrow-Hoff a Bezpośrednia estymacja użyteczności START Przykład Dla naszego świata 4 3, niech: Û θ (x, y) = θ 0 + θ 1 x + θ 2 y Jeśli θ = (0.5, 0.2, 0.1), to ile wynosi Û θ (1, 1)?[zadanie 2] Wykonaliśmy próbę od stanu (1, 1) i otrzymaliśmy wzmocnienie u(1, 1) = 0.4. Wniosek: Û θ (1, 1) = 0.8 to za dużo.

18 Reguła Widrow-Hoff a Bezpośrednia estymacja użyteczności Niech funkcja błędu: E(s) = 1 ) 2 (Ûθ (s) u(s) 2 Szukamy takich parametrów, które minimalizują błąd (gradient):

19 Reguła Widrow-Hoff a Bezpośrednia estymacja użyteczności Niech funkcja błędu: E(s) = 1 ) 2 (Ûθ (s) u(s) 2 Szukamy takich parametrów, które minimalizują błąd (gradient): θ i θ i α E(s) θ i ( ) ) (Ûθ (s) u(s) = θ i α θ i ( ) Ûθ (s) = θ i + α u(s) Û θ (s) θ i

20 Przykład Bezpośrednia estymacja użyteczności Przykład dla 4x3: ( ) Ûθ (s) θ i θ i + α u(s) Û θ (s) θ i Û θ (x, y) = θ 0 + θ 1 x + θ 2 y,

21 Przykład Bezpośrednia estymacja użyteczności Przykład dla 4x3: więc: ( ) Ûθ (s) θ i θ i + α u(s) Û θ (s) θ i Û θ (x, y) = θ 0 + θ 1 x + θ 2 y, θ 0 θ 0 + α(u(s) Û θ (s)) θ 1 θ 1 + α(u(s) Û θ (s))x θ 2 θ 2 + α(u(s) Ûθ(s))y

22 Przykład Bezpośrednia estymacja użyteczności Niech: (θ 0, θ 1, θ 2 ) = (0.5, 0.2, 0.1) u(1, 1) = 0.4 Pytania: θ 0 θ 0 + α(u(s) Û θ (s)) θ 1 θ 1 + α(u(s) Û θ (s))x θ 2 θ 2 + α(u(s) Ûθ(s))y 1 Ile będą wynosić wartości parametrów (θ 0, θ 1, θ 2 ) po aktualizacji (α = 0.25)? [zadanie 3]

23 Przykład Bezpośrednia estymacja użyteczności Niech: (θ 0, θ 1, θ 2 ) = (0.5, 0.2, 0.1) u(1, 1) = 0.4 Pytania: θ 0 θ 0 + α(u(s) Û θ (s)) θ 1 θ 1 + α(u(s) Û θ (s))x θ 2 θ 2 + α(u(s) Ûθ(s))y 1 Ile będą wynosić wartości parametrów (θ 0, θ 1, θ 2 ) po aktualizacji (α = 0.25)? [zadanie 3] 2 Ile wyniesie Ûθ(1, 1) po aktualizacji parametrów?[zadanie 4]

24 Przykład Bezpośrednia estymacja użyteczności Niech: (θ 0, θ 1, θ 2 ) = (0.5, 0.2, 0.1) u(1, 1) = 0.4 Pytania: θ 0 θ 0 + α(u(s) Û θ (s)) θ 1 θ 1 + α(u(s) Û θ (s))x θ 2 θ 2 + α(u(s) Ûθ(s))y 1 Ile będą wynosić wartości parametrów (θ 0, θ 1, θ 2 ) po aktualizacji (α = 0.25)? [zadanie 3] 2 Ile wyniesie Ûθ(1, 1) po aktualizacji parametrów?[zadanie 4] 3 Chcieliśmy, aby Û θ (1, 1) się zmieniło. Czy zmieniło się także Û θ (1, 2)? [zadanie 5]

25 Wybór aproksymatora wiedza dziedzinowa Generalizacja Agent uczy się szybciej z aproksymatorem funkcji, bo może generalizować. 2 1 START 1 Jeśli aproksymator funkcji ma postać Û θ (x, y) = θ 0 + θ 1 x + θ 2 y, to szybciej dla świata z nagrodą +1 w polu (10, 10). A co by było, gdyby +1 było w polu (5, 5)?[zadanie 6] 4

26 Wybór aproksymatora wiedza dziedzinowa Generalizacja Agent uczy się szybciej z aproksymatorem funkcji, bo może generalizować. 2 1 START 1 Jeśli aproksymator funkcji ma postać Û θ (x, y) = θ 0 + θ 1 x + θ 2 y, to szybciej dla świata z nagrodą +1 w polu (10, 10). A co by było, gdyby +1 było w polu (5, 5)?[zadanie 6] Wiedza dziedzinowa: możemy dodać do Û θ (x, y) składnik θ 3 f 3, gdzie 2 2 4

27 Uczenie różnicowe Wersja oryginalna U π (s) U π (s) + α ( R(s) + γu π (s ) U π (s) ) Z aproksymatorem funkcji ( ) θ i θ i + α R(s) + γûθ(s ) Ûθ(s) Û θ (s) θ i

28 Q-learning Wersja oryginalna Q(s, a) Q(s, a) + α ( R(s) + γmax a Q(s, a ) Q(s, a) ) Z aproksymatorem funkcji θ i θ i + α ( R(s) + γmax a ˆQ θ (s, a ) ˆQ θ (s, a) ) ˆQ θ (s, a) θ i

29 Warcaby (Artur Samuel, 1959) liniowa aproksymator funkcji: 16 cech wariant uczenia różnicowego (TDL)

30 Tryktak (Gerry Tesauro, 1992) TD-Gammon: wcześniej: uczenie ze wzmocnieniem było tylko teoretyczną ciekawostką Teraz: 2000 cytowań Poziom mistrzowski

Tryktak (Gerry Tesauro, 1992) Początkowo: uczył sieć neuronową reprezentującą Q(s, a) za pomocą przykładów od ekspertów żmudne, słaby program Potem: gra z samym sobą (ang.

31 Tryktak (Gerry Tesauro, 1992) Początkowo: uczył sieć neuronową reprezentującą Q(s, a) za pomocą przykładów od ekspertów żmudne, słaby program Potem: gra z samym sobą (ang. self-play) Uczenie różnicowe (TDL), kara/nagroda: tylko za ostatni stan Wejście (cechy): 24 wartości ( surowy stan planszy) + 40 węzłów w warstwie ukrytej 200,000 gier uczących (2 tygodnie uczenia)

32 Balansowanie tyczką / odwrócone wahadło (Michie, Chambers, 1968) ang. pole balanding / inverted pendulum Problem ciągły Co jest stanem?[zadanie 7] Jakie akcje są możliwe?

Balansowanie tyczką / odwrócone wahadło (Michie, Chambers, 1968) ang. pole balanding / inverted pendulum Problem ciągły Co jest stanem?[zadanie 7] Jakie akcje są możliwe?

33 Balansowanie tyczką / odwrócone wahadło (Michie, Chambers, 1968) ang. pole balanding / inverted pendulum Problem ciągły Co jest stanem?[zadanie 7] Jakie akcje są możliwe? Algorytm Boxes: Dyskretyzacja w pudełka Potrzeba jedynie 30 prób uczących, aby balansować przez godzinę Bez symulatora Negatywne wzmocnienie za ostatni (s, a) przed upadkiem. Dwie tyczki, Podwójna tyczka, Potrójna tyczka, UAV

Sterowanie dźwigami wind (Crites i Barto, 1996) ang. elevator dispatching problem Źródło: http://webdocs.cs.ualberta.ca/ sutton/book/ebook/node111.html 4 windy, 10 pięter, przestrzeń stanów: ca.

34 Sterowanie dźwigami wind (Crites i Barto, 1996) ang. elevator dispatching problem Źródło: sutton/book/ebook/node111.html 4 windy, 10 pięter, przestrzeń stanów: ca stanów. Przestrzeń akcji? Pewne uproszczenia: każda winda osobno: Multi Agent Reinforcement Learning Q-learning Stan reprezentowany przez sieć neuronową: 47 wejść, 20 węzłów ukrytych i 2 wyjścia

35 Bezpośrednie szukanie polityki Polityka π : S A Chcemy reprezentować π nie dla każdego stanu, ale w sposób bardziej zwięzły (np. zestaw parametrów θ) Np. możemy reprezentować politykę π jako zestaw aproksymatorów funkcji Q: π(s) = max a ˆQ θ (s, a), gdzie ˆQ θ jest np. sumą jakichś funkcji ważoną parametrami θ (vide poprzednia sekcja) Szukanie polityki = dostosowuj θ, tak aby poprawiać działanie π. Czyli: ucz się funkcji ˆQ θ. Czy to jest to samo, co Q-learning?[zadanie 8]

36 Reprezentacja polityki π(s) = max a ˆQ θ (s, a) W Q-learning u (z aproksymatorem funkcji) szukamy ˆQ θ, które jest możliwie bliskie Q. W szukaniu polityki szukamy θ, które powoduje, że π działa dobrze. Przykład: Czy ˆQ θ (s, a) = Q (s, a)/10 jest optymalnym rozwiązaniem?[zadanie 9] Problem: π(s) jest nieciągłą funkcją parametrów θ, jeśli akcje są dyskretne czasem minimalna zmiana w θ może spowodować, że π(s) przeskoczy z jednej akcji na inną. dlatego uczenie gradientowe π nie jest możliwe.

37 Polityka stochastyczna Dlatego używa się polityki stochastycznej π θ (s, a), reprezentującej prawd. wybrania akcji a w stanie s. Reprezentacja z użyciem funkcji softmax: π θ (s, a) = e ˆQ θ (s,a)/τ / a e ˆQ θ (s,a )/τ prawd. wyboru akcji b softmax (a = 10) τ = 1 τ = 2 τ = b

Podobne dokumenty

Uczenie ze wzmocnieniem aplikacje

Uczenie ze wzmocnieniem aplikacje Na podstawie: AIMA ch21 oraz Reinforcement Learning (Sutton i Barto) Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 22 maja 2013 Problem decyzyjny Markova