Uczenie ze wzmocnieniem

Podobne dokumenty
Uczenie ze wzmocnieniem

Uczenie ze wzmocnieniem

SPOTKANIE 11: Reinforcement learning

Uczenie ze wzmocnieniem

Uczenie ze wzmocnieniem

Problemy Decyzyjne Markowa

Systemy agentowe. Uczenie ze wzmocnieniem. Jędrzej Potoniec

Uczenie ze wzmocnieniem

Problemy Decyzyjne Markowa

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

3.4. Przekształcenia gramatyk bezkontekstowych

Generatory analizatorów

Uczenie ze wzmocnieniem aplikacje

Uczenie ze wzmocnieniem aplikacje

Metody Kompilacji Wykład 7 Analiza Syntaktyczna

STATYSTYKA MATEMATYCZNA

ZASTOSOWANIE ALGORYTMÓW UCZENIA SIĘ ZE WZMOCNIENIEM WE WSPOMAGANIU PROCESÓW PODEJMOWANIA DECYZJI PODCZAS MANEWROWANIA STATKIEM

Rodzinę F złożoną z podzbiorów zbioru X będziemy nazywali ciałem zbiorów, gdy spełnione są dwa następujące warunki.

Optymalizacja. Przeszukiwanie lokalne

Metody Kompilacji Wykład 8 Analiza Syntaktyczna cd. Włodzimierz Bielecki WI ZUT

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Projektowanie Scalonych Systemów Wbudowanych VERILOG

Wykład 6. Wyszukiwanie wzorca w tekście

Sztuczna Inteligencja i Systemy Doradcze

Rozpoznawanie obrazów

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym

Algorytm Grovera. Kwantowe przeszukiwanie zbiorów. Robert Nowotniak

Algorytmiczne Aspekty Teorii Gier Rozwiązania zadań

Projektowanie systemów pomiarowych. 02 Dokładność pomiarów

Języki formalne i automaty Ćwiczenia 3

Metody systemowe i decyzyjne w informatyce

Algorytmy mrówkowe. H. Bednarz. Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Inteligentne systemy informatyczne

Sieci M. I. Jordana. Sieci rekurencyjne z parametrycznym biasem. Leszek Rybicki. 30 listopada Leszek Rybicki Sieci M. I.

Optymalizacja ciągła

CLUSTERING. Metody grupowania danych

Ćwiczenie 3. Iteracja, proste metody obliczeniowe

Elementy inteligencji obliczeniowej

SPOTKANIE 3: Regresja: Regresja liniowa

Uczenie si e ze wzmocnieniem

Uczenie si e ze wzmocnieniem

Parsery LL(1) Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

Uczenie si e ze wzmocnieniem wst ep 1 Uczenie si e ze wzmocnieniem wst ep 2. Agent wykonuje przebiegi uczace

RÓWNANIA NIELINIOWE Maciej Patan

Wykład 7 i 8. Przeszukiwanie z adwersarzem. w oparciu o: S. Russel, P. Norvig. Artificial Intelligence. A Modern Approach

Metody systemowe i decyzyjne w informatyce

tum.de/fall2018/ in2357

Optymalizacja. Symulowane wyżarzanie

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

Optymalizacja ciągła

Obliczenia naukowe Wykład nr 2

Laboratorium 5 Przybliżone metody rozwiązywania równań nieliniowych

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Hard-Margin Support Vector Machines

Jak trudne jest numeryczne całkowanie (O złożoności zadań ciągłych)

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Scenariusz lekcji Ozobot w klasie: Spacer losowy po układzie współrzędnych

Matematyka dyskretna

Szkice rozwiązań zadań z arkuszy maturalnych zamieszczonych w 47. numerze Świata Matematyki, który można nabyć w sklepie na

Instrukcje cykliczne (pętle) WHILE...END WHILE

Matematyka stosowana i metody numeryczne

JAO - Wprowadzenie do Gramatyk bezkontekstowych

Gramatyka operatorowa

Problem komiwojażera ACO. Zagadnienie optymalizacyjne, polegające na znalezieniu minimalnego cyklu Hamiltona w pełnym grafie ważonym.

Sztuczna Inteligencja i Systemy Doradcze

Metody Obliczeniowe w Nauce i Technice

Techniki optymalizacji

Bezgradientowe metody optymalizacji funkcji wielu zmiennych. informacje dodatkowe

Matematyka ubezpieczeń majątkowych r.

11 Probabilistic Context Free Grammars

Ćwiczenia IV

SID Wykład 8 Sieci neuronowe

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Metody numeryczne I Równania nieliniowe

Elementy wspo łczesnej teorii inwersji

Matematyka ubezpieczeń majątkowych r.

Matematyka dyskretna - wykład - część Podstawowe algorytmy kombinatoryczne

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

0.1 Lewostronna rekurencja

2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego

KLUCZ PUNKTOWANIA ODPOWIEDZI

WYKŁAD Z ANALIZY MATEMATYCZNEJ I. dr. Elżbieta Kotlicka. Centrum Nauczania Matematyki i Fizyki

Algorytm FIREFLY. Michał Romanowicz Piotr Wasilewski

Zadania domowe. Ćwiczenie 2. Rysowanie obiektów 2-D przy pomocy tworów pierwotnych biblioteki graficznej OpenGL

Algorytmy stochastyczne, wykład 05 Systemy Liendenmayera, modelowanie roślin

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Stochastyczne zagadnienie rozdziału z dyskretnym rozkładem popytu

Uniwersalny, modułowy system paletyzujący

Systemy Wspomagania Decyzji

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Granica funkcji. 16 grudnia Wykład 5

STATYSTYKA MATEMATYCZNA

Badanie silnika skokowego

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Testy adaptacyjne dla problemu k prób

Wyjście Kierunek. P zasilanie zewnętrzne 12/24VDC. P040 wyjście impulsów kanał 0. COM0 0V P041 wyjście impulsów kanał 1. COM1 0V P042 kierunek kanał 0

WAE Jarosław Arabas Adaptacja i samoczynna adaptacja parametrów AE Algorytm CMA-ES

Deska Galtona. Adam Osękowski. Instytut Matematyki, Wydział Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Wprowadzenie Metoda bisekcji Metoda regula falsi Metoda siecznych Metoda stycznych RÓWNANIA NIELINIOWE

Transkrypt:

Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019

Temporal Difference learning Uczenie oparte na różnicach czasowych Problemy predykcyjne (wieloetapowe) droga do domy, wakacje... TD MC + DP MC i TD oparte na doświadczeniu, MC generuje predykcje wartości V π dla stanu nieterminalnego X t na końcu epizodu, TD na następnym kroku MC metoda pierwszej wizyty (constant-α MC, α parametr kroku): V (X t ) V (X t ) + α [G t V (X t )] (1) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 2 / 14

Temporal Difference learning Uczenie oparte na różnicach czasowych Problemy predykcyjne (wieloetapowe) droga do domy, wakacje... TD MC + DP MC i TD oparte na doświadczeniu, MC generuje predykcje wartości V π dla stanu nieterminalnego X t na końcu epizodu, TD na następnym kroku MC metoda pierwszej wizyty (constant-α MC, α parametr kroku): V (X t ) V (X t ) + α [G t V (X t )] (1) algorytm TD (metoda TD(0); update wykonywany natychmiast po przejściu do stanu X t+1 i otrzymaniu nagrody R t+1 ): V (X t ) V (X t ) + α [R t+1 + γv (X t+1 ) V (X t )] (2) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 2 / 14

input π policy to be evaluated; initialization V (x) arbitrary (e.g. V (x) = 0 x X + ) ; Repeat (for each step of episode) A action given by π for X; Take action A, observe R, X ; X X ; until X is terminal V (X) V (x) + α [ R + γv (X ) V (X) ] Algorithm 1: TD(0) do estymacji V π Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 3 / 14

input π policy to be evaluated; initialization V (x) arbitrary (e.g. V (x) = 0 x X + ) ; Repeat (for each step of episode) A action given by π for X; Take action A, observe R, X ; X X ; until X is terminal V (X) V (x) + α [ R + γv (X ) V (X) ] Algorithm 2: TD(0) do estymacji V π V π =E π [G t X t = x] = (3) =E π [R t+1 + γg t+1 X t = x] = =E π [R t+1 + γv π (X t+1 ) X t = x] (4) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 3 / 14

TD-błąd TD błąd (TD error) : δ t = R t+1 + γv (X t+1 ) V (X t ) (5) błąd jest obliczany natychmiastowo po wykonaniu następnego kroku błąd V (X t ), obliczany w moment czasu t + 1 jeżeli V się nie zmienia w trakcie epizodu, to G t V (X t ) =R t+1 + γg t+1 V (X t ) + γv (X t+1 ) γv (X t+1 ) = =δ t + γ(g t+1 V (X t+1 )) = =δ t + γδ t+1 + γ 2 (G t+2 V (X t+2 )) = =δ t + γδ t+1 + γ 2 δ t+2 + + γ T t (G T V (X T )) = T 1 = k=t γ k t δ k (6) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 4 / 14

Podróż do domu Stan Ile czasu upłynęło Przewidywany czas do celu Oczekiwany czas (całkowity) wyjście z MiNI, 18:00 0 30 30 dojście do samochodu (windy!+ deszcz) 5 35 40 przejazd do zjazdu na wał M. 20 15 35 przejazd w. M.(korki) 30 10 40 zjazd z w.m. 40 3 43 dojazd do domu 43 0 43 Nagroda ile czasu upłynęło. Jeżeli γ = 1 dochód w każdym stanie to rzeczywisty czas do przejazdu, zaczynając z tego stanu. Wartość stanów to przewidywany czas do celu (rysunek). Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 5 / 14

Przykład Losowy spacer Stany A, B, C, D, E Dwa stany terminalne (z lewej od A i z prawej od E) Nagrody dla wszystkich przejść równe 0, poza przejściem z E do prawego terminalnego stanu (=1) start zawsze w C γ = 1 V π (C) =?? aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 6 / 14

Przykład Losowy spacer Stany A, B, C, D, E Dwa stany terminalne (z lewej od A i z prawej od E) Nagrody dla wszystkich przejść równe 0, poza przejściem z E do prawego terminalnego stanu (=1) start zawsze w C γ = 1 V π (C) =?? V π (A/B/D/E) =?? Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 6 / 14

Optymalność TD(0) Załóżmy, że mamy tylko ograniczoną ilość eksperymentów (10 epizodów, lub 100 kroków) powtarzać obliczania na epizodach póki metoda nie zbiegnie się do odpowiedzi 1 poprawki, opisane w (1) lub (2), są obliczane dla każdego t dla każdego odwiedzanego nie-terminalnego stanu, ale funkcja wartości stanu zmieniana tylko raz, sumując wszystkie przyrosty 2 powtarzamy krok 1 dla nowej funkcji wartości... 3 zbieżność metoda batch updating (metoda wsadowa???) zbieżna do rozwiązanie niezależnie od parametru kroku (step-size parameter) α, gdzie α jest wystarczająco małe constant-α MC również zbiega się (przy tych samych warunkach), ale do innego rozwiązania różnica pomiędzy tymi dwoma rozwiązaniami? Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 7 / 14

Przykład: spacer losowy przy metodzie wsadowej stosujemy metody wsadową w przypadku TD(0) i MC ze stałą α Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 8 / 14

Przykład: wieszcz Numer epizodu Epizod 1 A,0,B,0 2 B,1 3 B,1 4 B,1 5 B,1 6 B,1 7 B,1 8 B,0 Jak ma wyglądać model środowiska? V(B) =?? wartość optymalna dla V(A)?? Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 9 / 14

Sarsa: on-policy TD sterowanie (control) SARSA State-Action-Reward-State-Action eksploracja vs eksploatacja funkcja wartości akcji (action-value function) Q π (x, a) X t, A t, R t+1, X t+1, A t+1,r t+2,... po każdym przejściu (jeżeli X t+1 terminalny, to Q(X t+1, A t+1 ) = 0): Q(X t, A t ) Q(X t, A t ) + α [R t+1 + γq(x t+1, A t+1 ) Q(X t, A t )] Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 10 / 14

initialization Q(x, a) arbitrary x X and a A(x) ; Q(terminalState; ) = 0 Repeat (for each episode) Inititalize X; choose A from X using policy derived from Q (e.g., ɛ-greedy); Repeat (for each step of episode); Take action A, observe R and X ; choose A from X, using policy derived from Q (e.g. ɛ-greedy) ; Q(X, A) Q(X, A) + α [R + γq(x, A ) Q(X, A)]; X X ; A A ; until X is terminal; Algorithm 3: Algorytm Sarsa do oceny Q Q Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 11 / 14

Algorytm Q-learning Off-policy TD control Definicja Q-learning: [ Q(X t, A t ) Q(X t, A t ) + α R t+1 + γ max a ] Q(X t+1, a) Q(X t, A t ) (7) podkręca zbieżność polityka ma znaczenie (wciąż!) z prawdopodobieństwem 1 zbiega się do Q Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 12 / 14

initialization Q(x, a) arbitrary x X and a A(x) ; Q(terminalState; ) = 0 Repeat (for each episode) Inititalize X; Repeat (for each step of episode): choose A from X using policy derived from Q (e.g., ɛ-greedy); Take action A, observe R and X ; Q(X, A) Q(X, A) + α [R + γ max a Q(X, a) Q(X, A)]; X X ; until X is terminal; Algorithm 4: Algorytm Q-learning do oceny π π Example Cliff walking Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 13 / 14

Maximization Bias and Double Learning Przykład: dwa stany nie-terminalne A i B, 2 akcje lewo i prawo. (A,prawo) stan terminalny, r = 0 (A,lewo) = B, r=0 (B,lewo) wielu scieżek do stanu terminalnego, r = N( 0.1, 1) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 14 / 14

Maximization Bias and Double Learning case 1: Przykład: dwa stany nie-terminalne A i B, 2 akcje lewo i prawo. (A,prawo) stan terminalny, r = 0 (A,lewo) = B, r=0 (B,lewo) wielu scieżek do stanu terminalnego, r = N( 0.1, 1) Q 1 (X t, A t ) Q 1 (X t, A t ) + α[r t+1 + case 2: Q 1 i Q 2 zamienić miejscami + γq 2 (X t+1, arg max Q 1 (X t+1, a)) Q 1 (X t, A t )] a Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem 2018-2019 14 / 14