Sekwencyjne problemy decyzyjne

Podobne dokumenty
Sekwencyjne problemy decyzyjne

Problemy Decyzyjne Markowa

Problemy Decyzyjne Markowa

Wyk lad 7 Baza i wymiar przestrzeni liniowej

Wyk lad 7 Metoda eliminacji Gaussa. Wzory Cramera

Ekonomia matematyczna i dynamiczna optymalizacja

Wyk lad 8 macierzy i twierdzenie Kroneckera-Capellego

Uczenie si e ze wzmocnieniem

Wyk lad 9 Podpierścienie, elementy odwracalne, dzielniki zera

Uczenie si e ze wzmocnieniem

Uczenie si e ze wzmocnieniem wst ep 1 Uczenie si e ze wzmocnieniem wst ep 2. Agent wykonuje przebiegi uczace

Wyk lad 11 1 Wektory i wartości w lasne

Wyk lad 9 Baza i wymiar przestrzeni liniowej

Wyk lad 9 Przekszta lcenia liniowe i ich zastosowania

Metoda Simplex bez użycia tabel simplex 29 kwietnia 2010

Wyk lad 2 Podgrupa grupy

Mnożniki funkcyjne Lagrange a i funkcje kary w sterowaniu optymalnym

Zagadnienie Dualne Zadania Programowania Liniowego. Seminarium Szkoleniowe Edyta Mrówka

Mnożniki funkcyjne Lagrange a i funkcje kary w sterowaniu optymalnym

Wyk lad 12. (ii) najstarszy wspó lczynnik wielomianu f jest elementem odwracalnym w P. Dowód. Niech st(f) = n i niech a bedzie

Wyk lad 4 Warstwy, dzielniki normalne

Wyk lad 1 Podstawowe struktury algebraiczne

Wyk lad 3 Wielomiany i u lamki proste

Wyk lad 14 Cia la i ich w lasności

Wyk lad 4 Macierz odwrotna i twierdzenie Cramera

Suma i przeciȩcie podprzestrzeń, suma prosta, przestrzeń ilorazowa Javier de Lucas

Dyskretne modele populacji

w teorii funkcji. Dwa s lynne problemy. Micha l Jasiczak

Wyk lad 14 Formy kwadratowe I

Dyskretne modele populacji

Normy wektorów i macierzy

Niezmienniki i pó lniezmienniki w zadaniach

Niesimpleksowe metody rozwia zywania zadań PL. Seminarium Szkoleniowe Edyta Mrówka

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Iteracyjne rozwiązywanie równań

Wyk lad 5 W lasności wyznaczników. Macierz odwrotna

Rozdzia l 11. Przestrzenie Euklidesowe Definicja, iloczyn skalarny i norma. iloczynem skalarnym.

ep do matematyki aktuarialnej Micha l Jasiczak Wyk lad 3 Tablice trwania życia 2

WYK LAD 2: PODSTAWOWE STRUKTURY ALGEBRAICZNE, PIERWIASTKI WIELOMIANÓW, ROZK LAD FUNKCJI WYMIERNEJ NA U LAMKI PROSTE

Drzewa podstawowe poj

13. Równania różniczkowe - portrety fazowe

Aby mówić o procesie decyzyjnym Markowa musimy zdefiniować następujący zestaw (krotkę): gdzie:

Przestrzenie wektorowe, liniowa niezależność Javier de Lucas

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

Wyk lad 6 Podprzestrzenie przestrzeni liniowych

Metoda graficzna może być stosowana w przypadku gdy model zawiera dwie zmienne decyzyjne. Metoda składa się z dwóch kroków (zobacz pierwszy wykład):

Programowanie celowe #1

PODSTAWOWE W LASNOŚCI W ZBIORZE LICZB RZECZYWISTYCH

Wyk lad 5 Grupa ilorazowa, iloczyn prosty, homomorfizm

Niech X bȩdzie dowolnym zbiorem. Dobry porz adek to relacja P X X (bȩdziemy pisać x y zamiast x, y P ) o w lasnościach:

25 lutego 2013, godzina 23: 57 strona 1. P. Urzyczyn: Materia ly do wyk ladu z semantyki. Logika Hoare a

Zadania o liczbach zespolonych

SYSTEM DIAGNOSTYCZNY OPARTY NA LOGICE DOMNIEMAŃ. Ewa Madalińska. na podstawie prac:

Wyk lad 9 Baza i wymiar przestrzeni liniowej

Uczenie ze wzmocnieniem

MATEMATYKA DYSKRETNA - wyk lad 1 dr inż Krzysztof Bryś. Wprowadzenie

Matematyka A, klasówka, 24 maja zania zadań z kolokwium z matematyki A w nadziei, że pope lni lem wielu b le. rozwia

Schemat programowania dynamicznego (ang. dynamic programming)

Ekonometria - ćwiczenia 10

Sterowalność liniowych uk ladów sterowania

Indeks odwzorowania zmiennej zespolonej wzgl. krzywej zamknietej

Wyk lad 4 Dzia lania na macierzach. Określenie wyznacznika

W rozpatrywanym tu przyk ladowym zagadnieniu 4x3 b edziemy przyjmować. Uczenie si e ze wzmocnieniem pasywne 3. γ = 1.

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 4. Równania różniczkowe zwyczajne podstawy teoretyczne

Testowanie hipotez statystycznych

celu przyjmijmy: min x 0 = n t Zadanie transportowe nazywamy zbilansowanym gdy podaż = popyt, czyli n

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Testowanie hipotez statystycznych

Metody numeryczne I Równania nieliniowe

STATYSTYKA MATEMATYCZNA dla ZPM I dr inż Krzysztof Bryś wyk lad 1,2 KLASYCZNY RACHUNEK PRAWDOPODOBIEŃSTWA

STYSTYSTYKA dla ZOM II dr inż Krzysztof Bryś Wykad 1

Testowanie hipotez statystycznych

Wykład na Politechnice Krakowskiej w dniu 18 stycznia 2012 r. ZADAŃ I ALGORYTMÓW W OPTYMALIZACJI DYSKRETNEJ

ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH

P. Urzyczyn: Materia ly do wyk ladu z semantyki. Uproszczony 1 j. ezyk PCF

Jednorazowa sk ladka netto w przypadku stochastycznej stopy procentowej. Ubezpieczenie na ca le życie z n-letnim okresem odroczenia.

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1)

ANALIZA II 15 marca 2014 Semestr letni. Ćwiczenie 1. Czy dan a funkcjȩ da siȩ dookreślić w punkcie (0, 0) tak, żeby otrzymana funkcja by la ci ag la?

WYK LAD 5: GEOMETRIA ANALITYCZNA W R 3, PROSTA I P LASZCZYZNA W PRZESTRZENI R 3

3. Macierze i Układy Równań Liniowych

Spacery losowe generowanie realizacji procesu losowego

SPOTKANIE 11: Reinforcement learning

Statystyka w analizie i planowaniu eksperymentu

Grzegorz Mazur. Zak lad Metod Obliczeniowych Chemii UJ. 14 marca 2007

Wstęp do metod numerycznych Faktoryzacja QR i SVD. P. F. Góra

Jak matematyka pomaga w wyszukiwanie wzorca

Uczenie ze wzmocnieniem

Obliczenia iteracyjne

10. Wstęp do Teorii Gier

Algorytmika. Algorytmy. prof. dr hab. inż. Joanna Józefowska. Poznań, rok akademicki 2008/2009. Plan wyk ladu Poj

0.1 Sposȯb rozk ladu liczb na czynniki pierwsze

5. Rozwiązywanie układów równań liniowych

Microsoft EXCEL SOLVER

2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego

Zaawansowane metody numeryczne

7 zaokr aglamy do liczby 3,6. Bład względny tego przybliżenia jest równy A) 0,8% B) 0,008% C) 8% D) 100

Wykład 4. Określimy teraz pewną ważną klasę pierścieni.

Grupy i cia la, liczby zespolone

Transkrypt:

Sekwencyjne problemy decyzyjne W sekwencyjnych problemach decyzyjnych użyteczność dzia lań agenta nie zależy od pojedynczej decyzji, wyrażonej stanem, do którego ta decyzja doprowadzi laby agenta, ale raczej od ca lej sekwencji jego akcji. PRZYK LAD: agent znajduje sie w polu start, i może poruszać sie we wszystkich kierunkach miedzy kratkami. Jego dzia lalność kończy sie gdy osiagnie jedno z pól (4,2) lub (4,3), z wynikiem zaznaczonym w tych polach. 3 2 1 START + 1 1 1 2 3 4 Gdyby zagadnienie by lo w pe lni deterministyczne i tym samym wiedza agenta o jego po lożeniu pe lna to problem sprowadza lby sie do planowania dzia lań. Na przyk lad, dla powyższego zagadnienia przyk ladowego dobrym rozwiazaniem by lby nastepuj acy plan dzia lań: U-U-R-R-R. Ale równie dobry by lby plan: R-R-U-U-R. Jeśli w dodatku pojedyncze akcje nic nie kosztuja (czyli liczy sie tylko stan końcowy), to równie dobry jest nawet plan: R-R-R-L-L-L-U-U-R-R-R, i wiele innych. Podejmowanie z lożonych decyzji sekwencyjne problemy decyzyjne 1

Niepewność efektów dzia lań agenta Jednak po uwzglednieniu niepewności, wynik dzia lań agenta jest zgodny z jego intencja tylko z pewnym prawdopodobieństwem. Na przyk lad, możemy przyjać, że akcja U (Up) przenosi agenta na pożadan a pozycje w góre z prawdopodobieństwem 0.8, natomiast z prawdopodobieństwem 0.1 wykonuje ruch w lewo, i podobnie w prawo. Pewne jest tylko, że agent nie pójdzie w kierunku przeciwnym do zamierzonego. Aby uprościć analize przyjmijmy dodatkowo, że obecność ścian nie zmienia tego rozk ladu prawdopodobieństwa, a tylko spowoduje niewykonanie żadnego ruchu, gdyby wypad lo ruszyć sie w ściane. 0.8 0.1 0.1 W tej sytuacji możemy obliczać wartości oczekiwane sekwencji ruchów agenta. Ogólnie agent nie może mieć pewności, że po wykonaniu dowolnej z powyższych sekwencji znajdzie sie w pożadanym stanie terminalnym. Podejmowanie z lożonych decyzji sekwencyjne problemy decyzyjne 2

Polityka agenta W odróżnieniu od algorytmów planowania dzia lań, agent powinien wypracować swoja strategie nie w postaci konkretnej sekwencji dzia lań, lecz w postaci polityki, czyli schematu wyznaczajacego akcje, które powinny być podjete dla każdego konkretnego stanu, gdyby agent w nim sie znalaz l. Można określić optymalna polityke dla zagadnienia przyk ladowego. Zauważmy, że w punkcie (3,2) polityka nakazuje agentowi próbować ruchu w lewo, co pozornie nie ma sensu, ale pozwala agentowi ustrzec sie przed wyladowaniem w niepożadanym stanie (4,2). Podobna sytuacja jest w stanie (4,1). 3 2 1 1 2 3 4 + 1 1 Taka polityka wynika oczywiście z domyślnego przyjecia zerowego kosztu ruchów. Gdyby wynik agenta zależa l nie tylko od stanu końcowego ale również od liczby wykonanych ruchów, wtedy nie op laca loby mu sie stosować tak konserwatywnej polityki. Podejmowanie z lożonych decyzji sekwencyjne problemy decyzyjne 3

Uwzglednienie kosztów ruchu Przyjecie niezerowego kosztu ruchu, pomniejsza wynik uzyskany w stanach końcowych o sumaryczny koszt wszystkich ruchów. Oczywiście wp lywa to na kszta lt optymalnej polityki agenta. Na przyk lad, diagram przedstawia optymalna polityke uwzgledniaj ac a koszty ruchu w wysokości 1/25 jednostki. Zauważmy, że w stanach (4,1) i (3,2) polityka dyktuje teraz ruch bezpośrednio w kierunku stanu (4,3), pomimo ryzyka. Jednak w punktach (2,1) i (3,1) nadal zalecany jest ruch okreżny. 3 2 1 1 2 3 4 + 1 1 Formalnie, koszty ruchów wprowadza sie w postaci funkcji nagrody dla stanów R(s) = 0.04, w tym przypadku nagrody o wartości ujemnej, czyli kary. Suma nagród dla sekwencji stanów wyznacza użyteczność tej sekwencji. Podejmowanie z lożonych decyzji sekwencyjne problemy decyzyjne 4

Problemy decyzyjne Markowa Obliczanie polityki w postaci kompletnego odwzorowania stanów do zbioru akcji nazywane jest problemem decyzyjnym Markowa (MDP) jeśli prawdopodobieństwa przejść wynikajace z podejmowanych akcji zależa tylko od bieżacego stanu, a nie np. od historii. Mówimy wtedy, że problem posiada w lasność Markowa. Formalnie, problem decyzyjny Markowa jest określony przez: zbiór stanów ze stanem poczatkowym s 0 zbiór akcji Actions(s) możliwych w stanie s model przejść P(s s,a) funkcje nagrody R(s) (możliwe również: R(s,a),R(s,a,s )) Rozwiazaniem MDP jest polityka π(s) przyporzadkowuj aca każdemu stanowi ruch. Zauważmy, że w warunkach niepewności, każde podjecie dzia lania przez agenta zgodne z pewna polityka może skończyć sie inna ścieżka dzia lań, i innym wynikiem. Optymalna polityka π (s) nazywamy polityke osiagaj ac a najwyższa oczekiwana użyteczność. Podejmowanie z lożonych decyzji sekwencyjne problemy decyzyjne 5

Wp lyw funkcji nagrody na polityke agenta Zmienianie wartości nagrody dla stanów powoduje zmiane optymalnej polityki dla zagadnienia. Przy bardzo dużych negatywnych nagrodach (wysokich karach) zalecane jest jak najszybsze podażanie do stanu końcowego, obojetnie którego. Przy zbliżaniu sie nagrody do zera powraca pierwotna rozrzutna polityka. + 1 + 1 1 1 3 + 1 r = [ : 1.6284] 8 r = [ 0.4278 : 0.0850] + 1 + 1 2 1 1 1 1 r = [ 0.0480 : 0.0274] r = [ 0.0218 : 0.0000] 1 2 3 4 W przypadku dodatnich wartości nagrody agentowi przestaje sie op lacać w ogóle zmierzać w kierunku rozwiazania. Dzia lanie przynosi zyski, wiec należy dzia lać, a nie kończyć, zatem agent unika stanów terminalnych. Podejmowanie z lożonych decyzji sekwencyjne problemy decyzyjne 6

Problem horyzontu W problemach MDP stany nie posiadaja użyteczności, z wyjatkiem stanów końcowych. Możemy jednak mówić o użyteczności sekwencji (historii) stanów U h ([s 0,s 1,...,s n ]), jeśli odpowiada ona zastosowanej sekwencji akcji, i prowadzi do stanu końcowego. Jest ona wtedy równa uzyskanemu wynikowi końcowemu. Poprzednio zdefiniowaliśmy optymalna polityke na podstawie oczekiwanej użyteczności sekwencji stanów. Jednak wyznaczenie optymalnej polityki zależy od istotnej kwestii: czy mamy do dyspozycji nieskończony horyzont czasowy, czy też horyzont ograniczony do jakiejś skończonej liczby kroków? W tym drugim przypadku konkretna wartość horyzontu może wp lywać na kszta lt polityki optymalnej. W takich przypadkach mówimy, że optymalna polityka jest niestacjonarna. Dla problemów z nieskończonym horyzontem polityka optymalna jest stacjonarna. Obliczanie optymalnej polityki przy skończonych horyzontach jest trudniejsze, i na razie bedziemy rozważali zagadnienia z horyzontem nieskończonym. Podejmowanie z lożonych decyzji sekwencyjne problemy decyzyjne 7

Dyskontowanie Jak pokazuje rozważany wcześniej przyk lad, nieskończone sekwencje akcji moga sie zdarzać, a nawet moga stanowić optymalna polityke agenta. Rozważanie nieskończonych, albo choćby bardzo d lugich, sekwencji jest czasami konieczne, np. gdy zagadnienie nie posiada stanów terminalnych, albo gdy agent może ich nie osiagn ać. Jednak takie obliczenia sa k lopotliwe, ponieważ sumy nagród osiagaj a wtedy nieskończone wartości, które trudno jest porównywać. Jako jedno z rozwiazań tego problemu stosuje sie technike zwana dyskontowaniem (discounting) polegajac a na efektywnym zmniejszeniu wk ladu przysz lych nagród do użyteczności za pomoca wspó lczynnika 0 < γ < 1. Użyteczność sekwencji stanów H definiujemy jako U(H) = i γi R i, czyli: U h ([s 0,s 1,...,s n ]) = R(s 0 )+γr(s 1 )+γ 2 R(s 2 )+...+γ n R(s n ) Dla γ < 1 i R R max tak zefiniowane użyteczności sa zawsze skończone. Technika dyskontowania ma swoje intuicyjne uzasadnienie w wielu dziedzinach życia. Odzwierciedla ona mniejsze znaczenie nagród w odleg lej przysz lości. Podobnie, w ekonomii stosuje sie dyskontowanie w ocenie wartości inwestycji. Podejmowanie z lożonych decyzji sekwencyjne problemy decyzyjne 8

Polityki w laściwe i uśrednianie W przypadku nieskończonych sekwencji ruchów istnieja jeszcze inne możliwe podejścia poza dyskontowaniem. Na przyk lad, jako użyteczność sekwencji można przyjać średnia nagrode obliczana na jeden krok. Z kolei, jeśli zagadnienie posiada stany terminalne, to możliwe jest wyznaczenie polityki, która gwarantuje doprowadzenie agenta do jednego z tych stanów. Wtedy rozważanie użyteczności sekwencji nieskończonych nie wchodzi w gre. Polityki gwarantujace doprowadzenia agenta do któregoś ze stanów terminalnych nazywamy politykami w laściwymi. Podejmowanie z lożonych decyzji sekwencyjne problemy decyzyjne 9

W lasności użyteczności sekwencji stanów Funkcje użyteczności sekwencji stanów nazywamy separowalna jeśli: U([s 0,s 1,...,s n ]) = f(s 0,U([s 1,...,s n ])) Zauważmy, że dla naszego przyk ladowego zagadnienia 4 3 funkcja użyteczności jest separowalna, ponieważ można ja obliczać z wzoru: U h ([s 0,s 1,...,s n ]) = R(s 0 )+R(s 1 )+ +R(s n ) Mówimy, że funkcja użyteczności sekwencji stanów jest addytywna, gdy posiada nastepuj ac a w lasność: U h ([s 0,s 1,...,s n ]) = R(s 0 )+U h ([s 1,...,s n ]) Okazuje sie, że w wielu zagadnieniach praktycznych funkcje użyteczności sa addytywne. Na przyk lad, rozważajac funkcje kosztu w zagadnieniach przeszukiwania, domyślnie zak ladaliśmy, że sa one addytywne. Addytywność oznacza la tam, że poniesione koszty po prostu sie sumuja. Podejmowanie z lożonych decyzji sekwencyjne problemy decyzyjne 10

Obliczanie optymalnej polityki użyteczności stanów Do wyznaczania polityki optymalnej przyda lyby sie użyteczności stanów (np. takie jak na diagramie po lewej, jednak nie pytajmy na razie skad sie wzie ly). Moglibyśmy wtedy pos lużyć sie zasada MEU (maksymalnej oczekiwanej użyteczności), i dla każdego stanu wyznaczyć ruch, który maksymalizuje oczekiwana użyteczność. 3 0.812 0.868 0.918 + 1 3 + 1 2 0.762 0.660 1 2 1 1 0.705 0.655 0.611 0.388 1 1 2 3 4 1 2 3 4 Jednak w zagadnieniach MDP stany jako takie nie maja obiektywnych użyteczności! Użyteczność stanu zależy od polityki agenta, od tego co zamierza on w danym stanie zrobić. Jednocześnie polityka agenta zależy od użyteczności stanów. Użyteczność stanów można wiec wprowadzić na podstawie polityki. Podejmowanie z lożonych decyzji sekwencyjne problemy decyzyjne 11

Użyteczności stanów Użyteczność stanu ze wzgledu na dana polityke można zdefiniować jako wartość oczekiwana nagród uzyskanych przez dzia lanie zaczynajace sie w tym stanie: [ ] U π (s) = E γ t R(s t ) Przez S t oznaczamy tu zmienna losowa oznaczajac a stan w jakim agent znajdzie sie w kroku t po wystartowaniu ze stanu s i realizowaniu polityki π. Okazuje sie, że pomimo iż teoretycznie polityka optymalna π = argmax t=0 π U π (s) zależy od wyboru stanu poczatkowego, to dla procesów decyzyjnych posiadajacych w lasność Markowa, dla nieskończonych sekwencji i przy zastosowaniu dyskontowania, nie ma tej zależności. Polityka optymalna wyznaczajaca droge agenta jest taka sama niezależnie od punktu startowego. Jako użyteczność stanów U(s) bedziemy wiec przyjmować tak w laśnie określona użyteczność tego stanu ze wzgledu na polityke optymalna U π (s). Podejmowanie z lożonych decyzji sekwencyjne problemy decyzyjne 12

Programowanie dynamiczne Optymalna polityke π jako funkcje określona na zbiorze stanów można zwiazać z funkcja użyteczności stanów (jeszcze nieznana): π (s) = argmax a s P(s s,a)u(s ) gdzie P(s s,a) jest prawdopodobieństwem, że agent osiagnie stan s jeśli znajdzie sie w stanie s i zastosuje akcje a. Ponieważ użyteczność stanu chcemy określić jako wartość oczekiwana dyskontowanej sumy nagród sekwencji stanów, zatem można ja zwiazać z użytecznościami stanów sasiednich nastepuj acym równaniem (Bellman 1957): U(s) = R(s)+γmax a s P(s s,a)u(s ) Dla n stanów uzyskujemy wtedy n równań niestety nieliniowych ze wzgledu na obecność operatora max z n niewiadomymi. Rozwiazywanie tego równania nazywane jest programowaniem dynamicznym. Podejmowanie z lożonych decyzji iteracja wartości 13

n-krokowe problemy decyzyjne Gdyby w jakimś zagadnieniu stany końcowe by ly osiagane ze znanymi użytecznościami po dok ladnie n krokach, wtedy możma z równania Bellmana najpierw wyznaczyć użyteczności stanów w kroku n 1, potem w kroku n 2, itd., aż do stanu poczatkowego. Zagadnienie tego typu nazywane jest n-krokowym problemem decyzyjnym, i znalezienie jego rozwiazania jest stosunkowo proste. Niestety, w wiekszości zagadnień praktycznych nie możemy zak ladać sta lej, n-krokowej sekwencji kroków, np. ze wzgledu na pojawianie sie petli. Podejmowanie z lożonych decyzji iteracja wartości 14

Algorytm iteracji wartości Dla zagadnień, których nie można przedstawić w postaci powyższego n-krokowego problemu decyzyjnego, można obliczyć przybliżone wartości użyteczności stanów w procesie iteracyjnym zwanym iteracja wartości: U t+1 (s) = R(s)+γmax a s P(s s,a)u t (s ) W kroku (t = 0) przyjmujemy dowolne wartości użyteczności wszystkich stanów, i w kolejnych krokach algorytmu obliczamy kolejne ich przybliżenia. Algorytm można zatrzymać porównujac kolejne wartości użyteczności stanów, i oszacowujac w ten sposób b l ad. Optymalna polityka może być wyznaczona przez przybliżone wartości użyteczności, nawet przed ich zbiegnieciem sie. Podejmowanie z lożonych decyzji iteracja wartości 15

Algorytm iteracji wartości przyk lad Utility estimates 1 0.5 0-0.5 (4,3) (3,3) (2,3) (1,1) (3,1) (4,1) -1 (4,2) 0 5 10 15 20 25 30 Number of iterations Podejmowanie z lożonych decyzji iteracja wartości 16

Zbieżność algorytmu iteracji wartości W rozważanym przyk ladzie procedura iteracji wartości przyk ladnie zbieg la sie we wszystkich stanach. Pytanie jednak czy można liczyć, że tak bedzie zawsze? Okazuje sie, że tak. Algorytm iteracji wartości zawsze doprowadzi do osiagniecia ustalonych wartości użyteczności stanów, które sa jedynym rozwiazaniem równania Bellmana. Można określić liczbe iteracji algorytmu niezbedn a do osiagniecia dowolnie określonego b ledu ǫ, gdzie R max jest górnym ograniczeniem wartości nagrody: N = log(2r max /ǫ(1 γ))/log(1/γ) Podejmowanie z lożonych decyzji iteracja wartości 17

Zbieżność algorytmu iteracji wartości uwagi W praktyce w algorytmie iteracji wartości można stosować kryterium stopu: U i+1 U i < ǫ(1 γ)/γ W praktyce optymalna polityke algorytm wyznacza istotnie wcześniej, niż wartości użyteczności ustabilizuja sie z ma lymi b ledami. N rośnie w nieograniczony sposób, gdy γ zbliża sie do jedynki. Można przyspieszyć zbieżność zmniejszajac γ, ale to oznacza skrócenie horyzontu agenta i zaniedbanie efektów d lugofalowych. Dla γ = 1 jeśli w zagadnieniu istnieja stany terminalne, można wyprowadzić podobne do powyższych kryteria zbieżności i b ledów. Podejmowanie z lożonych decyzji iteracja wartości 18

Algorytm iteracji polityki Ponieważ czesto optymalna polityka jest wzglednie nieczu la na konkretne wartości funkcji użyteczności, można ja obliczać innym procesem iteracyjnym, zwanym iteracja polityki. Polega ona na wyborze dowolnej polityki poczatkowej π 0, a nastepnie cyklicznym, naprzemiennym, obliczaniu kolejnych przybliżeń uaktualnionych użyteczności, zgodnie z poniższym wzorem: U t+1 (s) = R(s)+γ s P(s s,π t (s))u t+1 (s ) oraz uaktualnionej polityki, zgodnie z wzorem: π t+1 (s) = argmax a s P(s s,a)u t (s ) W powyższych wzorach π t (s) oznacza akcje wyznaczona przez aktualna polityke π t dla stanu s. Zauważmy, że pierwszy wzór generuje uk lad równań liniowych, które można rozwiazać dok ladnie ze wzgledu na U t+1 (sa to dok ladne wartości użyteczności dla aktualnej przybliżonej polityki) w czasie O(n 3 ). Podejmowanie z lożonych decyzji iteracja polityki 19

Algorytm iteracji polityki (cd.) Algorytm iteracji polityki zatrzymuje sie, gdy krok aktualizacji polityki nic już nie zmienia. Ponieważ dla skończonej przestrzeni istnieje skończona liczba polityk, zatem algorytm na pewno zatrzyma sie. Dla ma lych przestrzeni stanów (n w O(n 3 )) powyższa procedura jest czesto najefektywniejsza. Jednak dla wiekszych przestrzeni czynnik O(n 3 ) powoduje znaczne spowolnienie procesu. Można wtedy stosować zmodyfikowana iteracje polityki polegajac a na iteracyjnej aktualizacji wartości użyteczności zamiast ich każdorazowego dok ladnego wyznaczania z wykorzystaniem uproszczonej aktualizacji Bellmana zgodnie z wzorem: U t+1 (s) = R(s)+γ s P(s s,π t (s))u t (s ) W porównaniu z oryginalnym równaniem Bellmana pominiete tu zosta lo obliczanie optymalnej akcji, ponieważ tutaj akcje wyznacza aktualna polityka. Tym samym obliczenie to jest prostsze, i można wykonać kilka kroków takich aktualizacji przed kolejnym krokiem iteracji polityki (czyli aktualizacja polityki). Podejmowanie z lożonych decyzji iteracja polityki 20

Brak pewnej informacji o stanie POMDP W ogólnym przypadku agent może nie być w stanie stwierdzić w jakim stanie znalaz l sie po wykonaniu akcji, a raczej może to stwierdzić z pewnym prawdopodobieństwem. Takie zagadnienia nazywamy cześciowo obserwowalnymi problemami decyzyjnymi Markowa (POMDP). W tych problemach agent musi obliczać oczekiwana użyteczność swoich akcji biorac pod uwage różne możliwe ich wyniki, jak również różne możliwe nowe informacje (nadal niekompletne), które może uzyskać, w zależności od tego w jakim stanie sie znajdzie. Rozwiazanie problemu decyzyjnego można otrzymać obliczajac rozk lad prawdopodobieństwa po wszystkich możliwych stanach, w których agent może sie potencjalnie znajdować, uwzgledniaj ac niepewna informacje o otoczeniu jaka uda lo mu sie zgromadzić. Jednak w ogólnym przypadku obliczenie to jest utrudnione ze wzgledu na fakt, że podjecie danej akcji spowoduje otrzymanie przez agenta jakichś nowych informacji, które moga zmienić jego posiadana wiedze w sposób trudny do uwzglednienia. Praktycznie agent musi brać pod uwage nowe informacje, jakie może otrzymać, na równi ze stanami, do których może trafić. Pojawia sie tu ponownie kwestia wartości informacji rozważana wcześniej. Podejmowanie z lożonych decyzji cześciowo obserwowalne MDP 21

POMDP formalizacja Zagadnienie POMDP jest zdefiniowane przez nastepuj ace elementy: zbiór stanów, jednak bez stanu poczatkowego s 0, zbiór akcji Actions(s) możliwych w stanie s, funkcje przejść: P(s s,a) rozk lad prawdopodobieństw przejścia do stanu s po wykonaniu akcji a w stanie s, funkcja nagrody: R(s), model czujników: P(e s) rozk lad prawdopodobieństw uzyskania obserwacji e (evidence), cześciowo b lednej, w stanie s, poczatkowy stan przekonań: b 0. W zagadnieniach POMDP brak jest za lożenia o znajomości stanu poczatkowego. Zamiast tego, wprowadza sie stan przekonań agenta b(s) (belief state), który jest rozk ladem prawdopodobieństw, że agent jest w pewnym stanie s. W chwili poczatkowej znamy jedynie poczatkowy stan przekonań b 0. Zadaniem jest obliczenie polityki, generujacej sekwencje ruchów o maksymalnej użyteczności. Oczywiście, w trakcie wykonywania tej sekwencji agent bedzie zmienia l swój stan przekonań, tak ze wzgledu na otrzymywane w ich wyniku obserwacje, jak i na skutek samego wykonywania akcji. Podejmowanie z lożonych decyzji cześciowo obserwowalne MDP 22

POMDP przyk lad Rozważmy ponownie przyk lad agenta w środowisku 4x3, jednak tym razem agent nie wie w jakim stanie poczatkowym sie znajduje, i musi przyjać równe prawdopodobieństwo 1 9 znajdowania sie w każdym z nieterminalnych stanów. Jaka może być teraz optymalna polityka? Rysunki poniżej przedstawiaja kolejne rozk lady prawdopodobieństw po lożenia agenta po wykonaniu przez niego kolejno po pieciu ruchów: w lewo, w góre, i w prawo. Jest to polityka niezwykle ostrożna i konserwatywna, ale rozrzutna. Jakkolwiek agent z prawdopodobieństwem 0.775 znajdzie sie w dobrym stanie terminalnym, to oczekiwana użyteczność tej sekwencji wynosi tylko 0.08. Podejmowanie z lożonych decyzji cześciowo obserwowalne MDP 23

Podejmowanie z lożonych decyzji cześciowo obserwowalne MDP 24

Rozwiazywanie problemów POMDP Kluczem do rozwiazania POMPD jest zrozumienie, że wybór optymalnej akcji zależy tylko od aktualnego stanu przekonań agenta. Ponieważ agent nie zna swojego stanu (i tak naprawde nigdy go nie pozna), zatem jego optymalna polityka musi być odwzorowaniem π (b) stanów przekonań na akcje. Kolejne stany przekonań możemy obliczać wed lug wzoru: b (s ) = αp(e s ) s P(s s,a)b(s) gdzie P(e s ) określa prawdopodobieństwo otrzymania obserwacji e w stanie s, a α jest pomocnicza sta la normalizujac a sume stanów przekonań do 1. Cykl roboczy agenta POMDP, zak ladajac, że obliczy l on swoja kompletna optymalna polityke π (b), jest wiec nastepuj acy: 1. Dla bieżacego stanu przekonań b, wykonaj akcje π (b). 2. Odbierz obserwacje e. 3. Przejdź do stanu przekonań b (s ), i potwórz cykl. Podejmowanie z lożonych decyzji cześciowo obserwowalne MDP 25

Przestrzeń stanów przekonań Ponieważ model MDP uwzglednia rozk lady prawdopodobieństw, i pozwala rozwiazywać takie zagadnienia, problemy POMDP można przekszta lcać na równoważne problemy MDP określone w przestrzeni przekonań. W tej przestrzeni operujemy na rozk ladzie prawdopodobieństw osiagniecia przez agenta zbioru przekonań b gdy obecnie posiada on zbiór przekonań b i wykona akcje a. Dla zagadnienia o n stanach, b sa n-elementowymi wektorami o wartościach rzeczywistych. Zauważmy, że przestrzeń stanów przekonań, do której zaprowadzi lo nas rozważanie zagadnień POMDP, jest przestrzenia ciag l a, w odróżnieniu od oryginalnego zagadnienia. Ponadto typowo jest to przestrzeń wielowymiarowa. Na przyk lad, dla świata 4 3 z poprzedniego przyk ladu, bedzie to przestrzeń 11-wymiarowa. Przedstawione wcześniej algorytmy iteracji wartości i iteracji polityki nie nadaja sie do rozwiazywania takich zagadnień. Ich rozwiazywanie jest ogólnie bardzo trudne obliczeniowo (PSPACE-trudne). Podejmowanie z lożonych decyzji cześciowo obserwowalne MDP 26

Przekszta lcenie POMDP do MDP P(e a,b) = s P(e a,s,b)p(s a,b) = s P(e s )P(s a,b) = s P(e s ) s P(s s,a)b(s) P(b b,a) = P(b a,b) = e P(b e,a,b)p(e a,b) = e P(b e,a,b) s P(e s ) s P(s s,a)b(s) gdzie P(b e,a,b) = { 1 gdy b (s ) = αp(e s ) s P(s s,a)b(s) 0 w przeciwnym wypadku Podejmowanie z lożonych decyzji cześciowo obserwowalne MDP 27

Powyższe równanie można traktować jako definicje modelu przejść dla przestrzeni stanów przekonań. Pozostaje jeszcze przedefiniować funkcje nagrody: ρ(b) = s b(s)r(s) i wszystkie powyżej zdefiniowane elementy sk ladaja sie na ca lkowicie obserwowalny proces Markowa (MDP) na przestrzeni stanów przekonań. Można udowodnić, że optymalna polityka π (b) dla tego MDP jest jednocześnie optymalna polityka dla oryginalnego zagadnienia POMDP. Podejmowanie z lożonych decyzji cześciowo obserwowalne MDP 28

Obliczanie optymalnej polityki POMDP Schemat algorytmu: definiujemy polityke π(b) dla regionów przestrzeni przekonań, gdzie dla jednego regionu polityka wyznacza jedna akcje. Nastepnie proces iteracyjny podobny do algorytmów iteracji wartości czy iteracji polityki aktualizuje granice regionów, i może wprowadzać nowe regiony. Obliczona tym algorytmem optymalna polityka agenta dla powyższego przyk ladu daje nastepuj ac a sekwencje akcji: [ L, U, U, R, U, U, (R, U, U)* ] (cyklicznie powtarzajaca sie nieskończona sekwencja R-U-U jest konieczna ze wzgledu na niepewność osiagniecia stanu terminalnego). Agent osiagnie pożadany stan docelowy z prawdopodobieństwem 0.866, a oczekiwana wartość użyteczności tego rozwiazania wynosi 0.38, czyli istotnie lepiej niż dla pierwotnie zaproponowanej naiwnej polityki (0.08). Podejmowanie z lożonych decyzji cześciowo obserwowalne MDP 29