Mixed-UCT: Zastosowanie metod symulacyjnych do poszukiwania równowagi Stackelberga w grach wielokrokowych

HTML
DOWNLOAD

Wielkość: px

Rozpocząć pokaz od strony:

Download "Mixed-UCT: Zastosowanie metod symulacyjnych do poszukiwania równowagi Stackelberga w grach wielokrokowych"

Anatol Stefaniak
6 lat temu
Przeglądów:

1 Mixed-UCT: Zastosowanie metod symulacyjnych do poszukiwania równowagi Stackelberga w grach wielokrokowych Jan Karwowski Zakład Sztucznej Inteligencji i Metod Obliczeniowych Wydział Matematyki i Nauk Informacyjnych PW 5 IV 2017 Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

2 Plan 1 Security Games 2 Elementy teorii gier 3 Mixed-UCT 4 Wyniki 5 Problemy Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

3 Security Games Obrońcy i atakujący Asymetria graczy Różne rodzaje przestrzeni Zwykle obrońca ma większą przestrzeń decyzyjną Brak jednolitej definicji Zazwyczaj równowaga Stackelberga Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

4 Cele Metoda dobrze działająca z grami wielokrokowymi Metoda dobrze skalująca się z rozmiarem gry Metoda łatwa do dostosowania do różnych modeli gry Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

5 Postać normalna gry o sumie (nie)zerowej Macierz wypłat gracza P1 P1/P2 a b c d A B C U P1 (A, b) = 4 U P2 (A, b) = 4 Macierz wypłat gracza P2 P1/P2 a b c d A B C U P2 (A, b) = 3 Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

6 Postać normalna gry o sumie (nie)zerowej Macierz wypłat gracza P1 P1/P2 a b c d A B C U P1 (A, b) = 4 U P2 (A, b) = 4 Macierz wypłat gracza P2 P1/P2 a b c d A B C U P2 (A, b) = 3 Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

7 Strategia mieszana E H T H 1 1 T 1 1 O H T H 1 1 T 1 1 Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

8 Równowaga Stackelberga Asymetryczni gracze: Leader, Follower Follower zna strategię Leadera w momencie wyboru swojej strategii. (Ale niekoniecznie wykonuje ruch po leaderze). Follower rozstrzyga remisy (swojej wypłaty) na korzyść Leadera Gra Equilibrium Obrońca Pr. U D 0.4 D D2 3 A1 A2 D D Atakujący Pr. U A U D 1 A A A1 A2 D D Zaburzone equilirbium Obrońca Pr. U D 0.39 D D2 15 Atakujący Pr. R A U D 0 A A Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

9 Równowaga Stackelberga Asymetryczni gracze: Leader, Follower Follower zna strategię Leadera w momencie wyboru swojej strategii. (Ale niekoniecznie wykonuje ruch po leaderze). Follower rozstrzyga remisy (swojej wypłaty) na korzyść Leadera Gra A1 A2 D D A1 A2 D D Dwupoziomowy problem optymalizacyjny arg max π d Π d U d (π d, R a (π d )) R a (π d ) = arg max πa Π a U a (π d, π a ) funkcja schodkowa Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

10 Gra na grafie i generator budynków Każdy z graczy operuje jednostkami chodzącymi po grafie Obaj wykonują ruch jednocześnie Nie widzą siebie nawzajem Przykładowa gra Generator budynków 1: A(5,-1) D(3,-12) 0: A(20,-1) D(3,-15) 4:A(-1) 3:A(-1) 10:A(-1) 9:A(-1) 11 1 D(-9) A(10) 2 D(-6) A(3) : A(-1), : A(30,-1) D(5,-10) 5:A(-1) 6:A(-1) 7:A(-1) Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

11 MCTS i UCT Próbkowanie losowe Wykorzystanie tylko symulacji gry Oszacowanie wypłaty Licznik odwiedzin Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

12 Mixed-UCT I Cele Znaleźć dobre przybliżenie strategi leadera w stanie równowagowym (w sensie wypłaty) Problemy Skrócić czas obliczeń w stosunku do metod dokładnych UCT wymaga gry z pełną informacją UCT podaje w wyniku pojedynczy ruch Equilibrium Stackelberga zaskakuje Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

13 Mixed-UCT II Zarys Zainicjuj strategię atakującego Ucz I2-UCT gry przeciw bieżącemu atakującemu Przekształć drzewo UCT w strategię Zwróć najlepszą z napotkanych strategii obrońcy Uaktualnij strategię atakującego Oblicz optymalną odpowiedź atakującego nie Warunki stopu tak I2UCT Jak wyliczać strategię obrońcy? Jak wyliczać odpowiedź atakującego? Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

14 Stan równowagowy Stackelberga (raz jeszcze) Defender Pr. Move E(R D ) 0.4 D D2 3 Attacker Pr. Move E(R A ) E(R D ) 1 A A Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

15 Uzyskiwanie strategii mieszanej v1: FullTree = p = 0.02 Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

16 Uzyskiwanie strategii mieszanej v2: BestPathFreq 0.1 c Sekwencje Liczniki a 1, a 2, a 3, b 1, b 2, b 3, c c 1, c 2, c 3, c podbij licznik Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

17 Uśrednianie atakującego Strategia atakującego jest średnią najlepszych odpowiedzi z h poprzednich iteracji MILP U R t sc R t sc R t sc R t sc R t R a b c d a b c d game Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

18 MILP: metoda do porównań MILP max q,z,a i X i X j Q R ijz ij s.t. j Q z ij = 1 ( i X ) j Q z i,j 1 ( j Q ) q j i X z ij 1 j Q q j = 1 ( j Q ) 0 (a i X C ij( h Q z ih)) ( j Q ) (a i X C ij( h Q z ih)) (1 q j )M z ij [0, 1] q j {0, 1} a R Złożoność X liczba strategii (sekwencji) obrońcy, Q liczba strategii (sekwencji) atakującego Solvery: O( X Q ) zmiennych, w tym Q binarnych. O( X + Q ) ograniczeń Gurobi 6.5 SCIP 3.1 Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

19 FullTree Mixed-UCT Uniform MILP Game Payoff Time Payoff Payoff Time Score mean sd [s] [s] % % % % % % % % % % % % % % % % % % % % % % % mean % Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

20 Czas obliczeń Mixed-UCT a x + bx 2 MILP cd x time[s] number of rounds Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

21 BestPath Mixed-UCT Uniform MILP Game Payoff Time Payoff Payoff Score mean sd mean Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

22 Przebiegi I Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

23 Przebiegi II Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

24 Przebiegi III Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

25 Przebiegi IV Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

26 Przebiegi V Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

27 Przebiegi VI Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

28 Przebiegi VII Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

29 Wnioski Działa dobrze w większości przypadków Skaluje się lepiej niż MILP Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

30 Minima lokalne Gra 15: A(-1) 11: A(-1) 3: A(-1) 7: A(-1) 6: A(-1) 12: A(-1) 4: A(-1) Metoda prawie deterministyczna Podąża w kierunku najlepszej wypłaty przy danym przeciwniku 14: A(-1) 10: A(-1) 0: A(-1) 9: A(-1) 5: A(-1) 13: A(-1) 8: A(-1) 1: A(-3,6) D(2,-9) Wypłata obrońcy 2: A(-3,8) D(2,-6) % ochrony celu 2 Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

31 Zatrzymywanie obliczeń Kryterium stopu? Restarty? Zmienne parametry uczenia? Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

32 * Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

33 (Koniec) Jan Karwowski (MiNI) Mixed-UCT 5 IV / 31

Podobne dokumenty

Zastosowanie metody UCT i drzewa strategii behawioralnej do aproksymacji stanu równowagowego Stackelberga w grach wielokrokowych

Zastosowanie metody UCT i drzewa strategii behawioralnej do aproksymacji stanu równowagowego Stackelberga w grach wielokrokowych Jan Karwowski Zakład Sztucznej Inteligencji i Metod Obliczeniowych Wydział