Systemy agentowe. Uczenie ze wzmocnieniem. Jędrzej Potoniec

Podobne dokumenty
Systemy agentowe. Sieci neuronowe. Jędrzej Potoniec

Systemy agentowe. Sieci neuronowe. Jędrzej Potoniec

SPOTKANIE 11: Reinforcement learning

Systemy agentowe. Uwagi organizacyjne i wprowadzenie. Jędrzej Potoniec

Uczenie ze wzmocnieniem aplikacje

Uczenie ze wzmocnieniem aplikacje

Systemy agentowe. Uwagi organizacyjne. Jędrzej Potoniec

Problemy Decyzyjne Markowa

Uczenie ze wzmocnieniem

Problemy Decyzyjne Markowa

Uczenie ze wzmocnieniem

Uczenie ze wzmocnieniem

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

Wprowadzenie do sieci neuronowych i zagadnień deep learning

Wstęp do głębokich sieci neuronowych. Paweł Morawiecki IPI PAN

Uczenie ze wzmocnieniem

Wprowadzenie do uczenia maszynowego

Uczenie ze wzmocnieniem

Ćwiczenia laboratoryjne - 4. Projektowanie i harmonogramowanie produkcji metoda CPM-COST. Logistyka w Hutnictwie Ćw. L. 4

Aby mówić o procesie decyzyjnym Markowa musimy zdefiniować następujący zestaw (krotkę): gdzie:

Wrocław University of Technology. Uczenie głębokie. Maciej Zięba

Machine learning Lecture 6

Uczenie maszynowe w zastosowaniu do fizyki cząstek

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

Sztuczna inteligencja

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

METODA PERT. Maciej Patan. Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski

Ilustracja metody Monte Carlo obliczania pola obszaru D zawartego w kwadracie [a,b]x[a,b]

Zastosowania sieci neuronowych

Rozpoznawanie obrazów

Elementy inteligencji obliczeniowej

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Podstawy Sztucznej Inteligencji (PSZT)

Katowice GPW Zintegrowany system informatyczny do kompleksowego zarządzania siecią wodociągową. Jan Studziński

Metody systemowe i decyzyjne w informatyce

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

STRATEGIA DOBORU PARAMETRÓW SIECI NEURONOWEJ W ROZPOZNAWANIU PISMA

8. Neuron z ciągłą funkcją aktywacji.

Metody probabilistyczne

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Uczenie ze wzmocnieniem

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

SPOTKANIE 3: Regresja: Regresja liniowa

Metody selekcji cech

Drgania wymuszone - wahadło Pohla

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Elementy modelowania matematycznego

Optymalizacja ciągła

SVM: Maszyny Wektorów Podpieraja cych

Sieci M. I. Jordana. Sieci rekurencyjne z parametrycznym biasem. Leszek Rybicki. 30 listopada Leszek Rybicki Sieci M. I.

Schemat programowania dynamicznego (ang. dynamic programming)

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

PRZEKSZTAŁCANIE WZORÓW!

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

5.1 Stopa Inflacji - Dyskonto odpowiadające sile nabywczej

Analiza matematyczna i algebra liniowa Macierze

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Laboratorium 11. Regresja SVM.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Spacery losowe generowanie realizacji procesu losowego

Najprostsze z zadań z prawdopodobieństwa robi się korzystając z dystrybuanty. Zacznijmy od tego - tu mamy rozkład (wyniki pomiarów):

Uczenie Wielowarstwowych Sieci Neuronów o

Rozkłady prawdopodobieństwa

Analiza czasowo-kosztowa

ZASTOSOWANIE ALGORYTMÓW UCZENIA SIĘ ZE WZMOCNIENIEM WE WSPOMAGANIU PROCESÓW PODEJMOWANIA DECYZJI PODCZAS MANEWROWANIA STATKIEM

Excel: niektóre rozkłady ciągłe (1)

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd.

Parametryzacja obrazu na potrzeby algorytmów decyzyjnych

Symulacyjne metody wyceny opcji amerykańskich

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych

Deep Learning na przykładzie Deep Belief Networks

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

A=8; B=9; C=6. Min. Czas trwania Tgr. Wykonanie schematu pracy urządzenia w zespole

Sterowniki Programowalne (SP)

AUTO-ENKODER JAKO SKŠADNIK ARCHITEKTURY DEEP LEARNING

ALGORYTMY EWOLUCYJNE W OPTYMALIZACJI JEDNOKRYTERIALNEJ

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

SPOTKANIE 2: Wprowadzenie cz. I

Uczenie sieci neuronowych i bayesowskich

Twierdzenia graniczne fluktuacji procesów przebywania dla układów gałazkowych

ANALIZA CZASOWO-KOSZTOWA SIECI CPM-COST

Przetwarzanie obrazu

Pamięć i uczenie się Behawioryzm. Uczenie się jako wytwarzanie odruchów warunkowych

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

XI Konferencja Metody Ilościowe w Badaniach Ekonomicznych

Sieć przesyłająca żetony CP (counter propagation)

10. Techniki minimalizacji a sieci neuronowe

Ćwiczenia: Ukryte procesy Markowa lista 1 kierunek: matematyka, specjalność: analiza danych i modelowanie, studia II

Zadania 1. Czas pracy przypadający na jednostkę wyrobu (w godz.) M 1. Wyroby

Algorytmy stochastyczne Wykład 12, Uczenie parametryczne w sieciach bayesowskich

data mining machine learning data science

Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych

Układy stochastyczne

LUBELSKA PRÓBA PRZED MATURĄ 2018 poziom podstawowy

SCENARIUSZ ZAJĘĆ SZKOLNEGO KOŁA NAUKOWEGO Z PRZEDMIOTU MATEMATYKA PROWADZONEGO W RAMACH PROJEKTU AKADEMIA UCZNIOWSKA

6.3 Ekwiwalent za urlop

Transkrypt:

Systemy agentowe Uczenie ze wzmocnieniem Jędrzej Potoniec

Uczenie ze wzmocnieniem (ang. Reinforcement learning) dane Środowisko, w którym można wykonywać pewne akcje, które są nagradzane lub karane, ale nie koniecznie od razu.

Uczenie ze wzmocnieniem (ang. Reinforcement learning) dane Środowisko, w którym można wykonywać pewne akcje, które są nagradzane lub karane, ale nie koniecznie od razu. zadanie Znaleźć politykę, która w długiej perspektywie czasowej maksymalizuje nagrody.

Przykładowe środowiska, kary i nagrody A. Ge ron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017

Polityka (ang. policy) Dowolny algorytm, który mówi, jaką akcję wykonać.

Polityka (ang. policy) Dowolny algorytm, który mówi, jaką akcję wykonać. Polityka stochastyczna jeżeli jest w tym aspekt losowości.

Przykład polityki A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017

Toy example: cart pole

Toy example: cart pole Cel: wózek na środku, wahadło w pionie

Toy example: cart pole Cel: wózek na środku, wahadło w pionie Akcje: siła 1 w lewo, siła 1 w prawo A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017

Polityka za pomocą sieci neuronowej A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017

Obliczanie nagrody A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017

Policy gradient: REINFORCE 1 Zagraj w grę kilkukrotnie, w każdym kroku oblicz gradient wzmacniający wybraną akcję (tj. tak, jakby wybrana akcja była najlepsza możliwa)

Policy gradient: REINFORCE 1 Zagraj w grę kilkukrotnie, w każdym kroku oblicz gradient wzmacniający wybraną akcję (tj. tak, jakby wybrana akcja była najlepsza możliwa) 2 Oblicz nagrodę każdej akcji:

Policy gradient: REINFORCE 1 Zagraj w grę kilkukrotnie, w każdym kroku oblicz gradient wzmacniający wybraną akcję (tj. tak, jakby wybrana akcja była najlepsza możliwa) 2 Oblicz nagrodę każdej akcji: 1 Uwzględnij przyszłe nagrody przez discount ratio

Policy gradient: REINFORCE 1 Zagraj w grę kilkukrotnie, w każdym kroku oblicz gradient wzmacniający wybraną akcję (tj. tak, jakby wybrana akcja była najlepsza możliwa) 2 Oblicz nagrodę każdej akcji: 1 Uwzględnij przyszłe nagrody przez discount ratio 2 Dokonaj normalizacji odejmując średnią i dzieląc przez odchylenie standardowe (po wszystkich zdyskontowanych nagrodach)

Policy gradient: REINFORCE 1 Zagraj w grę kilkukrotnie, w każdym kroku oblicz gradient wzmacniający wybraną akcję (tj. tak, jakby wybrana akcja była najlepsza możliwa) 2 Oblicz nagrodę każdej akcji: 1 Uwzględnij przyszłe nagrody przez discount ratio 2 Dokonaj normalizacji odejmując średnią i dzieląc przez odchylenie standardowe (po wszystkich zdyskontowanych nagrodach) 3 Pomnóż gradienty przez odpowiadające im znormalizowane nagrody

Policy gradient: REINFORCE 1 Zagraj w grę kilkukrotnie, w każdym kroku oblicz gradient wzmacniający wybraną akcję (tj. tak, jakby wybrana akcja była najlepsza możliwa) 2 Oblicz nagrodę każdej akcji: 1 Uwzględnij przyszłe nagrody przez discount ratio 2 Dokonaj normalizacji odejmując średnią i dzieląc przez odchylenie standardowe (po wszystkich zdyskontowanych nagrodach) 3 Pomnóż gradienty przez odpowiadające im znormalizowane nagrody 4 Uśrednij i zaaplikuj gradienty

Proces decyzyjny Markowa A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017

Q-Value iteration Q k (s, a) wartość akcji a w stanie s w kroku k T (s, a, s ) prawdopodobieństwo przejścia s s przy akcji a R(s, a, s ) nagroda za przejście s s przy akcji a γ discount ration

Q-Value iteration Q k (s, a) wartość akcji a w stanie s w kroku k T (s, a, s ) prawdopodobieństwo przejścia s s przy akcji a R(s, a, s ) nagroda za przejście s s przy akcji a γ discount ration Q k+1 (s, a) s T (s, a, s ) [ ] R(s, a, s ) + γ max Q k (s, a ) a

Q-Value iteration Q k (s, a) wartość akcji a w stanie s w kroku k T (s, a, s ) prawdopodobieństwo przejścia s s przy akcji a R(s, a, s ) nagroda za przejście s s przy akcji a γ discount ration Q k+1 (s, a) s T (s, a, s ) [ ] R(s, a, s ) + γ max Q k (s, a ) a π (s) = arg max Q (a) a

Q-Value iteration Q k (s, a) wartość akcji a w stanie s w kroku k T (s, a, s ) prawdopodobieństwo przejścia s s przy akcji a R(s, a, s ) nagroda za przejście s s przy akcji a γ discount ration Q k+1 (s, a) s T (s, a, s ) [ ] R(s, a, s ) + γ max Q k (s, a ) a π (s) = arg max Q (a) a Eleganckie, ale kompletnie niepraktyczne

Q-Learning ( ) Q k+1 (s, a) (1 α)q k (s, a) + α r + γ max Q k (s, a ) a

Approximate Q-Learning Funkcja celu w uczeniu: y(s, a) = r + γ max a Q(s, a ) Q(s, a) to funkcja, której się uczymy (realizowana np. przez sieć neuronową) s to stan do którego przejdziemy po wykonaniu a w s

DeepMind Deep Q-Learning to samo co przed chwilą (prawie)

DeepMind Deep Q-Learning to samo co przed chwilą (prawie) replay memory

DeepMind Deep Q-Learning to samo co przed chwilą (prawie) replay memory dwie sieci: online i target

DeepMind Deep Q-Learning to samo co przed chwilą (prawie) replay memory dwie sieci: online i target online się uczy

DeepMind Deep Q-Learning to samo co przed chwilą (prawie) replay memory dwie sieci: online i target online się uczy target oblicza Q(s, a )

DeepMind Deep Q-Learning to samo co przed chwilą (prawie) replay memory dwie sieci: online i target online się uczy target oblicza Q(s, a ) okresowo kopiujemy online do target