Uczenie ze wzmocnieniem

Podobne dokumenty
Uczenie ze wzmocnieniem

Uczenie ze wzmocnieniem

Uczenie ze wzmocnieniem aplikacje

Uczenie ze wzmocnieniem aplikacje

Problemy Decyzyjne Markowa

Problemy Decyzyjne Markowa

SPOTKANIE 11: Reinforcement learning

Uczenie ze wzmocnieniem

Optymalizacja. Przeszukiwanie lokalne

Aby mówić o procesie decyzyjnym Markowa musimy zdefiniować następujący zestaw (krotkę): gdzie:

Uczenie ze wzmocnieniem

Uczenie si e ze wzmocnieniem

Uczenie si e ze wzmocnieniem

Uczenie si e ze wzmocnieniem wst ep 1 Uczenie si e ze wzmocnieniem wst ep 2. Agent wykonuje przebiegi uczace

Optymalizacja ciągła

Systemy agentowe. Uczenie ze wzmocnieniem. Jędrzej Potoniec

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Uczenie ze wzmocnieniem

Laboratorium 5 Przybliżone metody rozwiązywania równań nieliniowych

Schemat programowania dynamicznego (ang. dynamic programming)

RÓWNANIA NIELINIOWE Maciej Patan

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

Wybrane podstawowe rodzaje algorytmów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Optymalizacja. Symulowane wyżarzanie

ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH

W rozpatrywanym tu przyk ladowym zagadnieniu 4x3 b edziemy przyjmować. Uczenie si e ze wzmocnieniem pasywne 3. γ = 1.

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Algorytmy klasyfikacji

Wprowadzenie Metoda bisekcji Metoda regula falsi Metoda siecznych Metoda stycznych RÓWNANIA NIELINIOWE

Metody Optymalizacji: Przeszukiwanie z listą tabu

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Programowanie dynamiczne

Kurs z NetLogo - część 4.

Optymalizacja. Wybrane algorytmy

1 S t r o n a. Teoria Gier Praca domowa 1 - rozwiązania

Optymalizacja ciągła

Algorytmy estymacji stanu (filtry)

Partition Search i gry z niezupełną informacją

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

METODA SYMPLEKS. Maciej Patan. Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Sztuczna Inteligencja Projekt

Elementy modelowania matematycznego

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Programowanie dynamiczne i algorytmy zachłanne

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Wykład 7 i 8. Przeszukiwanie z adwersarzem. w oparciu o: S. Russel, P. Norvig. Artificial Intelligence. A Modern Approach

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Metody probabilistyczne

Obliczenia iteracyjne

Dokąd on zmierza? Przemieszczenie i prędkość jako wektory

1 Równania nieliniowe

Elementy inteligencji obliczeniowej

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Rozwiązywanie równań nieliniowych

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Matematyka dyskretna. Andrzej Łachwa, UJ, /15

Metody probabilistyczne klasyfikatory bayesowskie

Wstęp do Informatyki zadania ze złożoności obliczeniowej z rozwiązaniami

9.9 Algorytmy przeglądu

1 Całki funkcji wymiernych

Matematyka stosowana i metody numeryczne

TEORIA GIER W EKONOMII WYKŁAD 6: GRY DWUOSOBOWE KOOPERACYJNE O SUMIE DOWOLNEJ

Programowanie od pierwszoklasisty do maturzysty. Grażyna Koba

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD II: Agent i jego środowisko

Aukcje groszowe. Podejście teoriogrowe

WYKŁAD 9 METODY ZMIENNEJ METRYKI

Weryfikacja hipotez statystycznych

Inteligentne Agenty. Na podstawie: AIMA ch2 i slajdów S. Russel a. Wojciech Jaśkowski. 14 marca

Optimizing Programs with Intended Semantics

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Bisymulacja. Niezawodność systemów współbieżnych i obiektowych. Grzegorz Maj Grzegorz Maj Bisymulacja

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1

Algorytm simplex i dualność

Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.

Metody numeryczne w przykładach

Analiza stanów gry na potrzeby UCT w DVRP

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Podstawy Sztucznej Inteligencji (PSZT)

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Algorytmy metaheurystyczne Wykład 6. Piotr Syga

Inteligentne Agenty. Na podstawie: AIMA ch2 i slajdów S. Russel a. Wojciech Jaśkowski. 18 marca Inteligentne Agenty

Optymalizacja systemów

Algorytmy mrówkowe. P. Oleksyk. Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Inteligentne systemy informatyczne

Uczenie sieci typu MLP

Metody numeryczne. Instytut Sterowania i Systemów Informatycznych Wydział Elektrotechniki, Informatyki i Telekomunikacji Uniwersytet Zielonogórski

Metody systemowe i decyzyjne w informatyce

PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE

ALGORYTM RANDOM FOREST

Iteracyjne rozwiązywanie równań

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

Program nauczania informatyki w gimnazjum Informatyka dla Ciebie. Modyfikacja programu klasy w cyklu 2 godzinnym

Wyszukiwanie binarne

Modelowanie Niepewności

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

Transkrypt:

Uczenie ze wzmocnieniem Na podstawie: AIMA ch2 Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 20 listopada 203

Problem decyzyjny Markova 3 + 2 0.8 START 0. 0. 2 3 4

MDP bez modelu przejść P(s s, a) 3 + 2 START 0.?? 0.8 0.? 2 3 4 Jak się nazywa takie środowisko? [zadanie ]

MDP bez funkcji nagrody R(s) 3???? 2??? START??? 0. 0.8 0. 2 3 4

MDP bez f. nagrody i bez modelu przejść 3???? 2??? START??? 0.?? 0.8 0.? 2 3 4

Wstęp Uczenie Pasywne Uczenie aktywne Uczenie ze wzmocnieniem Problem uczenia ze wzmocnieniem = MDP bez modelu przejść i bez funkcji nagrody = nieznany MDP Agent (gracz) musi nauczyć się: 2 czy ruch jest dobry czy zły dokąd prowadzą jego akcje (model przejść) przewidywać ruchy przeciwnika

Wzmocnienie Bez żadnej informacji ze środowiska agent nie ma podstaw, aby decydować, który jaki ruch wykonać Musi wiedzieć, że coś dobrego się stało, gdy zaszachował przeciwnika nagroda (reward), wzmocnienie (reinforcement) Wzmocnienie: W szachach tylko na końcu gry. W ping pongu: za każde odbicie W nauce pływania za przesuwanie się do przodu Cel: optymalna polityka

Aplikacje i przykłady W wielu domenach RL jest jedyną drogą, np. gry (kary/nagrody za wygraną/przegraną) kontroler helikoptera (kary/nagrody za rozbicie się/chybotanie się/nietrzymanie kierunku) Robot uczący się ruchu: http://www.youtube.com/watch?v=rzf8frsmny

Podejścia do RL Równanie Bellman a: Trzy podejścia do RL: U(s) = R(s) + γ max U(s )P(s s, a) a A s agent odruchowy (ang. direct policy search) Uczy się polityki π : S A 2 agent z funkcją użyteczności uczy się f. użyteczności U(s) i używa jej, aby wybierać akcje, które maksymalizują wartość oczekiwaną nagród 3 agent z funkcją Q Uczy się funkcji Q(s, a), która zwraca oczekiwaną użyteczność podjęcia danej akcji w danym stanie Który agent potrzebuje modelu świata?[zadanie 2]

Typy uczenia ze wzmocnieniem Typy uczenia ze wzmocnieniem: pasywne. Polityka π jest dana. Uczymy się tylko użyteczności stanów funkcja U (lub par: (stan, akcja): funkcja Q) aktywne. Musimy również nauczyć się polityki ( co mam robić? ) Eksploracja

Pasywne uczenie ze wzmocnieniem 3 + 3 0.82 0.868 0.92 + 2 2 0.762 0.660 0.705 0.655 0.6 0.388 2 3 4 2 3 4 Znane: Środowisko całkowicie obserwowalne polityka π (agent w stanie s wykonuje akcję π(s)) Nieznane: model przejść P(s s, a). funkcja nagrody R(s) Cel: Jak dobra jest ta polityka? znaleźć wartości funkcji użyteczności U π (s).

Pasywne uczenie ze wzmocnieniem (c.d) Jak policzyć użyteczność polityki? 3 + 3 0.82 0.868 0.92 + 2 2 0.762 0.660 0.705 0.655 0.6 0.388 2 3 4 2 3 4 Czy wystarczy skorzystać z rekurencyjnego wzoru, który już widzieliśmy (gdzie? [zadanie 3] )? U π (s) = R(s) + γ s U π (s )P(s s, π(s))

Pasywne uczenie ze wzmocnieniem (c.d) 3 + 3 0.82 0.868 0.92 + 2 2 0.762 0.660 0.705 0.655 0.6 0.388 2 3 4 2 3 4 Agent wykonuje serię eksperymentów (ang. trial) używając polityki π. Przykładowe eksperymenty (zebrane doświadczenie): (, ) 0.04 (, 2) 0.04 (, 3) 0.04 (, 2) 0.04 (, 3) 0.04 (2, 3) 0.04 (3, 3) 0.04 (4, 3) + 2 (, ) 0.04 (, 2) 0.04 (, 3) 0.04 (2, 3) 0.04 (3, 3) 0.04 (3, 2) 0.04 (3, 3) 0.04 (4, 3) + 3 (, ) 0.04 (2, ) 0.04 (3, ) 0.04 (3, 2) 0.04 (4, 2)

Pasywne uczenie ze wzmocnieniem (c.d) gdzie: Czyli: (Przypomnienie) użyteczność polityki w stanie s jest zdefiniowana jako: [ ] U π (s) = E γ t R(S t ), t=0 S t zmienna losowa w czasie t jestem w danym stanie γ współczynnik dyskontowy (przyjmiemy ) Użyteczność stanu = oczekiwana całkowita nagroda z tego stanu dalej (oczekiwana reward-to-go).

Algorytm: Bezpośrednia estymacja użyteczności (Widrow and Hoff, 960) Zauważmy: Próbka daje informację o reward-to-go dla danego stanu Wiele próbek estymacja U π (s) dla każdego stanu Przykład: (, ) 0.04 (, 2) 0.04 (, 3) 0.04 (, 2) 0.04 (, 3) 0.04 (2, 3) 0.04 (3, 3) 0.04 (4, 3) + 2 (, ) 0.04 (, 2) 0.04 (, 3) 0.04 (2, 3) 0.04 (3, 3) 0.04 (3, 2) 0.04 (3, 3) 0.04 (4, 3) + 3 (, ) 0.04 (2, ) 0.04 (3, ) 0.04 (3, 2) 0.04 (4, 2) Dla (3, 3) mamy próbki, czyli U π (3, 3) = (0.88 + 0.96 + 0.96)/3 0.93 Ile jest próbek i jakie mają wartości dla (, 3)? [zadanie 4]

Bezpośrednia estymacja użyteczności (c.d.) Bezpośrednia estymacja użyteczności: sprowadza problem (pasywgnego) RL do problemu uczenia nadzorowanego: stan: nagroda Nie uwzględnia informacji o zależnościach pomiędzy stanami. Użyteczności sąsiednich stanów nie są niezależne! Użyteczność stanu = nagroda w tym stanie + oczekiwana użyteczność jego następników, czyli: U π (s) = R(s) + γ s U π (s )P(s s, π(s)) Stracona okazja do nauki algorytm wolno zbiega.

Algorytm: Adaptatywne Programowanie Dynamiczne (ADP) Bierze pod uwagę zależności pomiędzy użytecznościami stanów. Bezpośrednio uczy się: modelu przejść P(s s, a) funkcji nagrody R(s)

Algorytm: Adaptatywne Programowanie Dynamiczne Agent ze stanu s wykonał akcję π[s] =a. dotarł do stanu s i otrzymał nagrodę r. procedure passive-adp(s, a, s, r ) if s jest nowym stanem then U[s ] r ; R[s ] r N[s, a] N[s, a] + M[s, s, a] M[s, s, a] + for w in znane następniki stanu s (tzn. M[w, s, a] > 0) do P(w s, a) M[w, s, a]/n[s, a] U Policy-Evaluation (π, P, U) return π[s ] Policy-Evaluation: układ równań lub iteracyjnie.

ADP Przykład Przykład: (, ) 0.04 (, 2) 0.04 (, 3) 0.04 (, 2) 0.04 (, 3) 0.04 (2, 3) 0.04 (3, 3) 0.04 (4, 3) + 2 (, ) 0.04 (, 2) 0.04 (, 3) 0.04 (2, 3) 0.04 (3, 3) 0.04 (3, 2) 0.04 (3, 3) 0.04 (4, 3) + 3 (, ) 0.04 (2, ) 0.04 (3, ) 0.04 (3, 2) 0.04 (4, 2) 3 2 2 3 + 4 Wykonaj ADP[zadanie 5] : R((, 3)) =? R((4, )) =? P((, 3) (, 2), góra) =? P((, 3) (, 2), dó l) =? P((2, 3) (, 3), prawo) =?

ADP wykresy Utility estimates 0.8 0.6 0.4 0.2 (4,3) (3,3) (,3) (,) (3,2) RMS error in utility 0.6 0.5 0.4 0.3 0.2 0. 0 0 20 40 60 80 00 Number of trials 0 0 20 40 60 80 00 Number of trials Uwagi: ADP implementuje ideę Oszacowania Maksymalnego Prawdopodobieństwa (Maximum Likelihood Estimation) Znajduje najbardziej prawdopodobny model (najlepiej pasujący do danych) ADP zbiega całkiem szybko (jest tylko ograniczony tym jak szybko potrafi nauczyć się modelu przejść). Policy-Evaluation jest dość wolne.

Uczenie różnicowe (TDL) ang. temporal difference (TD) learning (TDL) Pomysł: Użyj obserwacji (s a s ), aby zmodyfikować bezpośrednio użyteczności stanów, tak aby one współgrały z ograniczeniami. Przykład: Załóżmy, że U π (, 3) = 0.84 i U π (2, 3) = 0.94. Obserwacja: (, 3) góra (2, 3). Jeżeli to przejście zawsze ma miejsce, to oczekiwalibyśmy, że U π (, 3) = 0.04 + γu π (2, 3) = 0.90 Wniosek: U π (, 3) = 0.84 jest za małe o 0.90 0.84 = 0.06 Zwiększmy je trochę (α = 0.0), tzn. U π (, 3) = U π (, 3) + α0.06 = 0.846

Uczenie różnicowe (TDL) ogólnie Próbka: s a s i nagroda w stanie s to R(s). Początkowo U π (s) Oczekujemy, że U π (s) = R(s) + γu π (s ) Modyfikujemy U π (s) o ważoną (α) różnicę pomiędzy oczekiwanym U π a starym U π. Różnica: = U π (s) U π (s) Nowe U π (s): Uczenie różnicowe U π (s) = U π (s) + α U π (s) U π (s) + α ( R(s) + γu π (s ) U π (s) ) α współczynnik uczenia

Uczenie różnicowe (TDL) procedure passive-td(s, a, s, r ) if s jest nowym stanem then U[s ] r Uwagi: U[s] U[s] + α(r[s] + γu[s ] U[s]) return π[s ] Aktualizacja U[s] nie uwzględnia akcji dostępnych i modelu przejść, ale to się uśredni się. TDL nie potrzebuje modelu przejść, aby uaktualniać użyteczności stanów (rodzina metod model-free). jeżeli α w odpowiedni sposób zmniejsza się w czasie, to TDL gwarantuje zbieżność do optimum globalnego.

Uczenie różnicowe algorytm Utility estimates 0.8 0.6 0.4 0.2 (4,3) (3,3) (,3) (,) (2,) RMS error in utility 0.6 0.5 0.4 0.3 0.2 0. 0 0 00 200 300 400 500 Number of trials 0 0 20 40 60 80 00 Number of trials Uwagi: TD potrzebuje więcej obserwacji niż ADP i ma spore wahania, ale: TD jest prostszy i potrzebuje mniej obliczeń na obserwację

TD vs. ADP TD i ADP są podobne: oba dokonują lokalnych zmian, po to, aby użyteczność stanu z jego następnikami zgadzały się. Różnica : TD bierze pod uwagę tylko jednego następnika ADP bierze pod uwagę wszystkich następników (waży ich prawdopodobieństwami) Różnica 2: TD zmienia tylko jedną wartość użyteczności na obserwację ADP zmienia użyteczności tylu stanów, ile potrzeba, aby równania się zgadzały = TD można traktować jako aproksymację ADP. Z p. widzenia TD, ADP używa pseudodoświadczenia wygenerowanego na podstawie aktualnej wiedzy o środowisku.

TD vs. ADP c.d. Stąd: możliwe są rozwiązania pośrednie: np. TD, który generuje pewne pseudodoświadczenia (czyli aktualizuje więcej użyteczności stanów) lub ADP, który nie aktualizuje wszystkich użyteczności Prioritized sweeping (Moore i Atkeson, 993) aktualizuj użyteczności tylko niektórych stanów (tych, które prawd. najbardziej tego wymagają) Sens: skoro i tak model nie jest poprawny, to po co dokładnie liczyć użyteczności?

Aktywne uczenie ze wzmocnieniem 3 + 3 + 2 2 START 2 3 4 2 3 4 Polityka π jest nieznana.

ADP (przypomnienie) procedure passive-adp(s, a, s, r ) if s jest nowym stanem then U[s ] r ; R[s ] r N[s, a] N[s, a] + M[s, s, a] M[s, s, a] + for w in znane następniki stanu s (tzn. M[w, s, a] > 0) do P(w s, a) M[w, s, a]/n[s, a] U Policy-Evaluation (π, P, U) return π[s ]

ADP dla uczenia aktywnego Jak zmodyfikować ADP? Musimy nauczyć się całego modelu przejść, a nie tylko przejść określonych przez π. ADP sobie poradzi 2 Agent nie ma danej polityki, więc Policy-Evaluation musi skorzystać z pełnego wzoru Bellman a: U(s) = R(s) + γmax a s P(s s, a)u(s ) Można użyć Iteracji Wartości (albo Iteracji Polityki) 3 Jaką akcję powinien wybierać w każdym kroku?

Eksploracja 2 3 + RMS error, policy loss.5 0.5 RMS error Policy loss 2 0 0 50 00 50 200 250 300 350 400 450 500 Number of trials 2 3 4 Agent zachłanny utknął. Powód: model świata, dla którego wyznaczył optymalna politykę nie jest modelem prawdziwym. Akcje służą: Osiąganiu nagród (eksploatacja) Ulepszaniu modelu środowiska (eksploracja) Czysta eksploatacja = ryzyko wpadnięcia w rutynę W każdym kroku decyzja: eksploracja czy eksploatacja?

Problem wielorękiego bandyty Czy istnieje optymalna metoda eksploracji? co to znaczy optymalny? n automatów do gry. gra możliwa wypłata próbować inne automaty czy eksploatować ten, który daje rozsądne wyniki? oczekiwana wartość dla wszystkich możliwych światów (P(s s, a)) jest najlepsza

Gittins index rozwiązania są zwykle obliczeniowo bardzo trudne ( statystyczna teoria decyzji) jeśli wypłaty są niezależne od siebie i są dyskontowane w czasie, to rozwiązaniem jest Gittins index. Określa jak wartościowy jest wybór danej maszyny Dla sekwencyjnych problemów decyzyjnych Gittins indeks nie działa

Metoda ɛ-zachłanna Rozwiązanie rozsądne zapewniają, że każda akcja z każdego stanu jest wykonywana nieograniczoną liczbę razy. = gwarancja, że użyteczność U(s) zbiegnie w granicy do prawdziwej użyteczności stanów. Prostym przykładem jest metoda ɛ-zachłanna: z prawd. ɛ użyj optymalnej (zachłannej) akcji z prawd. ɛ użyj losowej akcji

Ciekawość i optymistyczna f. użyteczności Powyższe się zbiegnie, ale jest wolne. Lepiej w praktyce: użyj prostej funkcji eksploracji i optymistycznej wersji f. użyteczności np: ( ) U + (s) R(s) + γmax a f P(s s, a)u + (s ), N(s, a), s gdzie funkcja eksploracji waży użyteczność stanu i ciekawość (niewiedzę) { R + n < N e f (u, n) = u w przeciwnym wypadku R + optymistyczna nagroda (np. R + = max s R(s)) N e stała

Aktywny ADP z f. eksploracji (R + = 2, N e = 5) Utility estimates 2.2 2.8.6.4.2 0.8 0.6 (,) (,2) (,3) (2,3) (3,2) (3,3) (4,3) 0 20 40 60 80 00 Number of trials RMS error, policy loss.4.2 0.8 0.6 0.4 0.2 RMS error Policy loss 0 0 20 40 60 80 00 Number of trials

Aktywne TD Jak pasywne, ale: Musimy uczyć się modelu P(s s, a) tak jak ADP Potrzebna jakaś funkcja eksploracji do wyboru akcji. procedure active-td(s, a, r, s, r ) if s is new then U[s ] r N[s, a] N[s, a] + M[s, s, a] M[s, s, a] + for w in znane następniki stanu s (tzn. M[w, s, a] > 0) do P(w s, a) M[w, s, a]/n[s, a] U[s] U[s] + α(r + γu[s ] U[s]) return argmax a f (R(t) + γ w P(w s, a )U[w], N[w, a ])

Q-Learning (Watkins, 989) Zamiast U(s) uczymy się funkcji Q(s, a) użyteczność wykonania akcji a w stanie s. Zależność: U(s) = max a Q(s, a) Istotna zaleta: Nie trzeba uczyć się modelu przejść P(s s, a)! (metoda model-free) Ograniczenia do spełnienia: Q(s, a) = R(s) + γ s P(s s, a)max a Q(s, a ) Moglibyśmy użyć tego bezpośrednio konieczna nauka modelu przejść

Q-Learning Mamy przejście s a s z nagrodą r. Znamy aktualne wartości Q(s, a) oraz Q(s, a ) dla wszystkich a A(s). Oczekujemy, że spełnione będzie równanie: Q (s, a) = R(s) + γmax a Q(s, a ) Skoro jednak nie jest spełnione, to modyfikujemy Q(s, a) w stronę Q (s, a) Reguła modyfikacji Q-Learning Analogicznie jak w TD otrzymujemy Q(s, a) Q(s, a) + α ( R(s) + γmax a Q(s, a ) Q(s, a) ) Przykład [zadanie 6]

(TD) Q-Learning algorytm procedure active-td(s, a, r, s, r ) if s jest stanem terminalnym then Q[s, None] r N[s, a] N[s, a] + Q[s, a] Q[s, a] + α (r + γmax a Q[s, a ] Q[s, a]) return argmax a f (Q[s, a ], N[s, a ])