Uczenie ze wzmocnieniem aplikacje

Podobne dokumenty
Uczenie ze wzmocnieniem aplikacje

Uczenie ze wzmocnieniem

Uczenie ze wzmocnieniem

Uczenie ze wzmocnieniem

SPOTKANIE 11: Reinforcement learning

Problemy Decyzyjne Markowa

Systemy agentowe. Uczenie ze wzmocnieniem. Jędrzej Potoniec

Podstawy Sztucznej Inteligencji (PSZT)

Problemy Decyzyjne Markowa

Uczenie sieci typu MLP

Uczenie ze wzmocnieniem

Optymalizacja ciągła

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Uczenie si e ze wzmocnieniem

Uczenie si e ze wzmocnieniem

Uczenie si e ze wzmocnieniem wst ep 1 Uczenie si e ze wzmocnieniem wst ep 2. Agent wykonuje przebiegi uczace

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SZTUCZNA INTELIGENCJA

Wprowadzenie do uczenia maszynowego

Uczenie ze wzmocnieniem

Uczenie ze wzmocnieniem generalizacja i zastosowania

Literatura. Sztuczne sieci neuronowe. Przepływ informacji w systemie nerwowym. Budowa i działanie mózgu

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

wiedzy Sieci neuronowe

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Systemy uczące się wykład 2

Sztuczna inteligencja

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

DOPASOWYWANIE KRZYWYCH

Kurs z NetLogo - część 4.

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

Uczenie sieci neuronowych i bayesowskich

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Modele i narzędzia optymalizacji w systemach informatycznych zarządzania

Metody klasyfikacji danych - część 1 p.1/24

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Systemy uczące się wykład 1

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Metody Optymalizacji: Przeszukiwanie z listą tabu

Numeryczne metody optymalizacji Optymalizacja w kierunku. informacje dodatkowe

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

A Zadanie

I EKSPLORACJA DANYCH

Prof. Stanisław Jankowski

Algorytmy klasyfikacji

Metody Inteligencji Sztucznej i Obliczeniowej

Metody Sztucznej Inteligencji II

Optymalizacja reguł decyzyjnych względem pokrycia

Zastosowania sieci neuronowych

Metody selekcji cech

Uczenie ze wzmocnieniem

Wojciech Jaśkowski. 6 marca 2014

Sieć przesyłająca żetony CP (counter propagation)

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Systemy ekspertowe. Generowanie reguł minimalnych. Część czwarta. Autor Roman Simiński.

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Optymalizacja. Przeszukiwanie lokalne

Systemy agentowe. Uwagi organizacyjne i wprowadzenie. Jędrzej Potoniec

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

TEORETYCZNE PODSTAWY INFORMATYKI

Optymalizacja optymalizacji

Pochodna funkcji. Niech f : A R, a A i załóżmy, że istnieje α > 0 taka, że

Spis treści WSTĘP... 9

Zastosowania sieci neuronowych - automatyka identyfikacja sterowanie

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Jacek Skorupski pok. 251 tel konsultacje: poniedziałek , sobota zjazdowa

Elementy inteligencji obliczeniowej

Elementy kognitywistyki III: Modele i architektury poznawcze

Sztuczna inteligencja i uczenie maszynowe w robotyce i systemach autonomicznych: AI/ML w robotyce, robotyka w AI/ML

Metody systemowe i decyzyjne w informatyce

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

wiedzy Sieci neuronowe (c.d.)

Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne.

WYKŁAD 4 PLAN WYKŁADU. Sieci neuronowe: Algorytmy uczenia & Dalsze zastosowania. Metody uczenia sieci: Zastosowania

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Projekt Sieci neuronowe

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD XI: Sztuczne sieci neuronowe

Podstawy Automatyki. wykład 1 ( ) mgr inż. Łukasz Dworzak. Politechnika Wrocławska. Instytut Technologii Maszyn i Automatyzacji (I-24)

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Aby mówić o procesie decyzyjnym Markowa musimy zdefiniować następujący zestaw (krotkę): gdzie:

Aproksymacja funkcji a regresja symboliczna

Drzewa decyzyjne i lasy losowe

Sieci M. I. Jordana. Sieci rekurencyjne z parametrycznym biasem. Leszek Rybicki. 30 listopada Leszek Rybicki Sieci M. I.

SID Wykład 7 Zbiory rozmyte

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Metody systemowe i decyzyjne w informatyce

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

Temat: ANFIS + TS w zadaniach. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Transkrypt:

Uczenie ze wzmocnieniem aplikacje Na podstawie: AIMA ch21 oraz Reinforcement Learning (Sutton i Barto) Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 22 maja 2013

Problem decyzyjny Markova 3 + 1 2 1 0.8 1 START 0.1 0.1 1 2 3 4

Rozwiązanie problemu decyzyjnego Markova 3 + 1 3 0.812 0.868 0.912 + 1 2 1 2 0.762 0.660 1 1 1 0.705 0.655 0.611 0.388 1 2 3 4 1 2 3 4

nieznany MDP brak f. nagrody i modelu przejść 3???? 2 1??? START??? 0.1?? 0.8 0.1? 1 2 3 4

Uczenie ze wzmocnieniem Uczenie: pasywne ocena użyteczności danej polityki π aktywne znalezienie optymalnej polityki π eksploracja!

Rodzaje uczenia 1 Uczenie nadzorowane (nauczyciel) 1 klasyfikacja: atrybuty [znana!] klasa decyzyjna 2 regresja: atrybuty [znana!] wartość 2 Uczenie nienadzorowane (brak nauczyciela) 1 atrybuty [nieznana!] wartość/klasa 3 Uczenie ze wzmocnieniem (krytyk) 1 akcja wzmocnienie (kara / nagroda)

Podejścia do uczenia ze wzmocnieniem Równanie Bellman a: Trzy podejścia: U(s) = R(s) + γ max U(s )P(s s, a) a A s 1 agent odruchowy (policy search) uczy się polityki π : S A 2 agent z funkcją użyteczności uczy się f. użyteczności U(s) przykłady: adaptatywne programowanie dynamiczne (ADP), uczenie różnicowe (TDL) 3 agent z funkcją Q uczy się funkcji Q(s, a) przykład: Q-learning Który agent potrzebuje modelu świata?[zadanie 1]

Reguły uczenia Uczenie różnicowe U π (s) U π (s) + α ( R(s) + γu π (s ) U π (s) ) α współczynnik uczenia Reguła modyfikacji Q-Learning Q(s, a) Q(s, a) + α ( R(s) + γmax a Q(s, a ) Q(s, a) )

Liczba stanów ADP działa rozsądnie dla problemów wielkości rzędu 10000 stanów. tryktrak: 10 20 szachy: 10 40 Nie da się explicite rozważać tylu stanów

Aproksymator funkcji Inna reprezentacja niż tablica (Q lub U). Np. liniowa kombinacja jakichś cech f 1,..., f n : Û θ (s) = θ 1 f 1 (s) + θ 2 f 2 (s) + + θ n f n (s) Uczymy się tylko parametrów θ.

Przypomnienie Generalizacja Szukanie polityki Przykład U θ (s) = θ1 l pionk o w (s) + θ2 l figur w centrum(s)+ θ3 hetman?(s) + θ4 szach?(s) 1040 stanów 6 parametrów Aplikacje

Aproksymator funkcji Aproksymator funkcji musi być łatwo obliczalny. Cechy: 1 kompresja (mała liczba stanów) 2 możliwość uogólniania wiedzy (stany odwiedzone vs. nieodwiedzone) 1 Przykład: co 10 12 stan mistrzowski gracz w tryktraka Kompromis: wielkość przestrzeni (jakoś aproksymacji) vs. czas nauki

Reguła Widrow-Hoff a Bezpośrednia estymacja użyteczności 3 + 1 2 1 1 START 1 2 3 4 Przykład. Dla naszego świata 4 3, niech: Û θ (x, y) = θ 0 + θ 1 x + θ 2 y (θ 0, θ 1, θ 2 ) = (0.5, 0.2, 0.1) = [zadanie 2] Wykonaliśmy przebieg od stanu (1, 1) i otrzymaliśmy sumaryczne wzmocnienie u(1, 1) = 0.4. Wniosek: Û θ (1, 1) = 0.8 to za dużo.

Reguła Widrow-Hoff a Bezpośrednia estymacja użyteczności 3 + 1 2 1 1 START 1 2 3 4 Przykład. Dla naszego świata 4 3, niech: Û θ (x, y) = θ 0 + θ 1 x + θ 2 y (θ 0, θ 1, θ 2 ) = (0.5, 0.2, 0.1) = [zadanie 2] Wykonaliśmy przebieg od stanu (1, 1) i otrzymaliśmy sumaryczne wzmocnienie u(1, 1) = 0.4. Wniosek: Û θ (1, 1) = 0.8 to za dużo.

Reguła Widrow-Hoff a Bezpośrednia estymacja użyteczności Definiujemy funkcję błędu: E(s) = 1 ) 2 (Ûθ (s) u(s) 2 Minimalizujemy błąd zgodnie z gradientem: θ i θ i α E(s) = θ i α θ i = θ i + α ( ) ) 2 1 2 (Ûθ (s) u(s) θ i ( u(s) Û θ (s) ) Ûθ (s) θ i

Reguła Widrow-Hoff a Bezpośrednia estymacja użyteczności U nas: więc w naszym przykładzie: ( ) Ûθ (s) θ i θ i + α u(s) Û θ (s) θ i Û θ (x, y) = θ 0 + θ 1 x + θ 2 y, θ 0 θ 0 + α(u(s) Û θ (s)) θ 1 θ 1 + α(u(s) Ûθ(s))x θ 2 θ 2 + α(u(s) Ûθ(s))y

Przykład Bezpośrednia estymacja użyteczności Niech: (θ 0, θ 1, θ 2 ) = (0.5, 0.2, 0.1) u(1, 1) = 0.4 Pytania: θ 0 θ 0 + α(u(s) Û θ (s)) θ 1 θ 1 + α(u(s) Û θ (s))x θ 2 θ 2 + α(u(s) Ûθ(s))y 1 Ile będą wynosić parametry (θ 0, θ 1, θ 2 ) po aktualizacji (α = 0.25)? [zadanie 3] 2 Ile wyniesie Ûθ(1, 1) po aktualizacji parametrów?[zadanie 4] 3 Chcieliśmy, aby Û θ (1, 1) się zmieniło. Czy zmieniło się także Û θ (1, 2)? [zadanie 5]

Przykład Generalizacja Agent uczy się szybciej z aproksymatorem funkcji, bo może generalizować. 3 2 1 START + 1 1 Jeśli aproksymator funkcji ma postać Û θ (x, y) = θ 0 + θ 1 x + θ 2 y, 1 2 3 to szybciej dla świata 10 10 z nagrodą +1 w polu (10, 10). A co by było, gdyby +1 było w polu (5, 5)?[zadanie 6] Możemy dodać do Û θ (x, y) składnik θ 3 f 3, gdzie f 3 = (x 5) 2 + (y 5) 2 4

Uczenie różnicowe Wersja oryginalna U π (s) U π (s) + α ( R(s) + γu π (s ) U π (s) ) Z aproksymatorem funkcji ( ) θ i θ i + α R(s) + γûθ(s ) Ûθ(s) Û θ (s) θ i

Q-learning Wersja oryginalna Q(s, a) Q(s, a) + α ( R(s) + γmax a Q(s, a ) Q(s, a) ) Z aproksymatorem funkcji θ i θ i + α ( R(s) + γmax a ˆQ θ (s, a ) ˆQ θ (s, a) ) ˆQ θ (s, a) θ i

Szukanie polityki (ang. policy search) Polityka π : S A Chcemy reprezentować π nie dla każdego stanu, ale w sposób bardziej zwięzły (np. zestaw parametrów θ) Np. możemy reprezentować politykę π jako zestaw aproksymatorów funkcji Q: π(s) = max a ˆQ θ (s, a), gdzie ˆQ θ jest np. sumą jakichś funkcji ważoną parametrami θ (vide poprzednia sekcja) Szukanie polityki = dostosowuj θ, tak aby poprawiać działanie π. Czyli: ucz się funkcji ˆQθ. Czy to jest to samo, co Q-learning?[zadanie 7]

Reprezentacja polityki π(s) = max a ˆQ θ (s, a) W Q-learning u (z aproksymatorem funkcji) szukamy ˆQ θ, które jest możliwie bliskie Q. W szukaniu polityki szukamy θ, które powoduje, że π działa dobrze. Przykład: Czy ˆQ θ (s, a) = Q (s, a)/10 jest optymalnym rozwiązaniem?[zadanie 8] Problem: π(s) jest nieciągłą funkcją parametrów θ, jeśli akcje są dyskretne czasem minimalna zmiana w θ może spowodować, że π(s) przeskoczy z jednej akcji na inną. dlatego uczenie gradientowe π nie jest możliwe.

Polityka stochastyczna Dlatego używa się polityki stochastycznej π θ (s, a), reprezentującej prawd. wybrania akcji a w stanie s. Reprezentacja z użyciem funkcji softmax: π θ (s, a) = e ˆQ θ (s,a)/τ / a e ˆQ θ (s,a )/τ prawd. wyboru akcji b 1.0 0.8 0.6 0.4 0.2 0.0 Zaleta: różniczkowalna softmax (a = 10) τ = 1 τ = 2 τ = 0.1 0 5 10 15 20 b

Warcaby (Artur Samuel, 1959) liniowa aproksymator funkcji: 16 cech wariant uczenia różnicowego (TDL)

Tryktak (Gerry Tesauro, 1992) TD-Gammon: wcześniej: uczenie ze wzmocnieniem było tylko teoretyczną ciekawostką Teraz: 2000 cytowań Poziom mistrzowski

Tryktak (Gerry Tesauro, 1992) Początkowo: uczył sieć neuronową reprezentującą Q(s, a) za pomocą przykładów od ekspertów żmudne, słaby program Potem: gra z samym sobą (ang. self-play) Uczenie różnicowe (TDL), kara/nagroda: ostatni stan Wejście (cechy): 24 wartości ( surowy stan planszy) + 40 węzłów w warstwie ukrytej 200,000 gier uczących (2 tygodnie uczenia)

Balansowanie tyczką / odwrócone wahadło (Michie, Chambers, 1968) ang. pole balanding / inverted pendulum Problem ciągły Co jest stanem?[zadanie 9] Jakie akcje są możliwe? Algorytm Boxes: Dyskretyzacja w pudełka Potrzeba jedynie 30 prób uczących, aby balansować przez godzinę Bez symulatora Negatywne wzmocnienie za ostatni (s, a) przed upadkiem. Dwie tyczki, Podwójna tyczka, Potrójna tyczka, UAV

Sterowanie dźwigami wind (Crites i Barto, 1996) ang. elevator dispatching problem Źródło: http://webdocs.cs.ualberta.ca/ sutton/book/ebook/node111.html 4 windy, 10 pięter, przestrzeń stanów: ca. 10 22 stanów. Przestrzeń akcji? Pewne uproszczenia: każda winda osobno: Multi Agent Reinforcement Learning Q-learning Stan reprezentowany przez sieć neuronową: 47 wejść, 20 węzłów ukrytych i 2 wyjścia