Zastosowanie metody UCT i drzewa strategii behawioralnej do aproksymacji stanu równowagowego Stackelberga w grach wielokrokowych

Podobne dokumenty
Mixed-UCT: Zastosowanie metod symulacyjnych do poszukiwania równowagi Stackelberga w grach wielokrokowych

Porównanie rozwiązań równowagowych Stackelberga w grach z wynikami stosowania algorytmu UCT

Security Games: zastosowanie UCT na tle dotychczasowych podejść do problemu

Teoria gier. wstęp Teoria gier Zdzisław Dzedzej 1

Outline 1 MCTS. 2 Jednoczesne ruchy. 3 Niepełna informacja. 4 Podsumowanie. Jan Karwowski April 5, / 30

10. Wstęp do Teorii Gier

Teoria gier. mgr Przemysław Juszczuk. Wykład 5 - Równowagi w grach n-osobowych. Instytut Informatyki Uniwersytetu Śląskiego

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Modelowanie motywów łańcuchami Markowa wyższego rzędu

SPOTKANIE 11: Reinforcement learning

Gry w postaci normalnej

Wyznaczanie strategii w grach

Teoria gier matematyki). optymalności decyzji 2 lub więcej Decyzja wpływa na wynik innych graczy strategiami

Punkty równowagi w grach koordynacyjnych

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

SZTUCZNA INTELIGENCJA

Modelowanie sytuacji konfliktowych, w których występują dwie antagonistyczne strony.

Seminarium IO. Zastosowanie algorytmu UCT w Dynamic Vehicle Routing Problem. Michał Okulewicz

Strategie ewolucyjne. Gnypowicz Damian Staniszczak Łukasz Woźniak Marek

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

11. Gry Macierzowe - Strategie Czyste i Mieszane

Proces rezerwy w czasie dyskretnym z losową stopą procentową i losową składką

Hard-Margin Support Vector Machines

Algorytm memetyczny w grach wielokryterialnych z odroczoną preferencją celów. Adam Żychowski

ALHE Jarosław Arabas Metaheurystyki w Rn Ewolucja różnicowa EDA CMAES Rój cząstek

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

D. Miszczyńska, M.Miszczyński KBO UŁ 1 GRY KONFLIKTOWE GRY 2-OSOBOWE O SUMIE WYPŁAT ZERO

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Tworzenie gier na urządzenia mobilne

Hyper-resolution. Śmieciarki w Manncheim

LEKCJA 4. Gry dynamiczne z pełną (kompletną) i doskonałą informacją. Grą dynamiczną jest każda gra w której gracze wykonują ruchy w pewnej kolejności.

SZTUCZNA INTELIGENCJA

Spacery losowe generowanie realizacji procesu losowego

Deep Learning na przykładzie Deep Belief Networks

Matematyka ubezpieczeń majątkowych r.

Drzewa decyzyjne i lasy losowe

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

TEORIA GIER W EKONOMII WYKŁAD 5: GRY DWUOSOBOWE KOOPERACYJNE O SUMIE NIESTAŁEJ

Ćwiczenia: Ukryte procesy Markowa lista 1 kierunek: matematyka, specjalność: analiza danych i modelowanie, studia II

Podstawy Sztucznej Inteligencji (PSZT)

Gry kwantowe na łańcuchach spinowych

TEORIA GIER WPROWADZENIE. Czesław Mesjasz

Wstęp do Sztucznej Inteligencji

Ustalona a preferowana kolejność ruchów w grze pojedynczej

MODELOWANIE STANÓW CZYNNOŚCIOWYCH W JĘZYKU SIECI BAYESOWSKICH

Wprowadzenie do teorii gier

Sztuczna Inteligencja i Systemy Doradcze

MAGICIAN. czyli General Game Playing w praktyce. General Game Playing

Gradient Coding using the Stochastic Block Model

Uczenie ze wzmocnieniem

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

OPISU MODUŁU KSZTAŁCENIA (SYLABUS) dla przedmiotu Teoria gier na kierunku Zarządzanie

Wykład 7 i 8. Przeszukiwanie z adwersarzem. w oparciu o: S. Russel, P. Norvig. Artificial Intelligence. A Modern Approach

Gry o sumie niezerowej

Sztuczna Inteligencja i Systemy Doradcze

Struktury danych i złozoność obliczeniowa. Prof. dr hab. inż. Jan Magott

TEORIA GIER W EKONOMII WYKŁAD 2: GRY DWUOSOBOWE O SUMIE ZEROWEJ. dr Robert Kowalczyk Katedra Analizy Nieliniowej Wydział Matematyki i Informatyki UŁ

Planowanie drogi robota, algorytm A*

MODELOWANIE RZECZYWISTOŚCI

Risk-Aware Project Scheduling. SimpleUCT

2010 W. W. Norton & Company, Inc. Oligopol

Teoretyczne podstawy informatyki

Prawdopodobieństwo i statystyka

Elementy Modelowania Matematycznego

MODELOWANIE RZECZYWISTOŚCI

POŁĄCZENIE ALGORYTMÓW SYMULACYJNYCH ORAZ DZIEDZINOWYCH METOD HEURYSTYCZNYCH W ZAGADNIENIACH DYNAMICZNEGO PODEJMOWANIA DECYZJI

Partition Search i gry z niezupełną informacją

Customer Attribution Models. czyli o wykorzystaniu machine learning w domu mediowym.

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Uczenie ze wzmocnieniem

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

Reguły decyzyjne na rynku konkurencyjnym w koncepcji gier opcyjnych

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Analiza Algorytmów 2018/2019 (zadania na laboratorium)

Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego

Parametr Λ w populacji ubezpieczonych ma rozkład dany na półosi dodatniej gęstością: 3 f

Strategie kwantowe w teorii gier

Elementy projektowania inzynierskiego Przypomnienie systemu Mathcad

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

tum.de/fall2018/ in2357

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

Algorytmy ewolucyjne (3)

Problemy Decyzyjne Markowa

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Strategie ewolucyjne (ang. evolu4on strategies)

Funkcja tworząca Funkcja charakterystyczna. Definicja i własności Funkcja tworząca momenty

TEORIA GIER DEFINICJA (VON NEUMANN, MORGENSTERN) GRA. jednostek (graczy) znajdujących się w sytuacji konfliktowej (konflikt interesów),w

Centralność w sieciach społecznych. Radosław Michalski Social Network Group - kwiecień 2009

Pojęcie szeregu nieskończonego:zastosowania do rachunku prawdopodobieństwa wykład 1

PRZEWODNIK PO PRZEDMIOCIE

N ma rozkład Poissona z wartością oczekiwaną równą 100 M, M M mają ten sam rozkład dwupunktowy o prawdopodobieństwach:

Heurystyczne metody przeszukiwania

Heurystyki. Strategie poszukiwań

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Optymalizacja ciągła

Przykład. 1 losuje kartę z potasowanej talii, w której połowa kart ma kolor czarny a połowa czerwony. Postać ekstensywna Postać normalna

XXXVIII Egzamin dla Aktuariuszy z 20 marca 2006 r.

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

Transkrypt:

Zastosowanie metody UCT i drzewa strategii behawioralnej do aproksymacji stanu równowagowego Stackelberga w grach wielokrokowych Jan Karwowski Zakład Sztucznej Inteligencji i Metod Obliczeniowych Wydział Matematyki i Nauk Informacyjnych PW 17 I 2018 Jan Karwowski (MiNI) 17 I 2018 1 / 26

Plan 1 Motywacja 2 Equilibrium Stackelberga 3 Metoda oparta o drzewo strategii 4 Wyniki Jan Karwowski (MiNI) 17 I 2018 2 / 26

Cele Equilibrium Stackelberga: Istniejące rozwiązania Oparte o LP i MILP Uniwersalne ale wolne i pamięciożerne lub wykorzystujące własności konkretnych gier do przyspieszenia i aproksymacji wyniku Macierze rosną wykładniczo względem liczby rund Nowe podejście Metoda dobrze działająca z dyskretnymi grami wielokrokowymi Metoda dobrze skalująca się z długością gry (szczególnie pamięć) Metoda łatwa do dostosowania do różnych rodzajów gier Rozwiązania przybliżone Jan Karwowski (MiNI) 17 I 2018 3 / 26

Postać normalna gry o sumie (nie)zerowej Macierz wypłat gracza P1 P1/P2 a b c d A 6 4 2 1 B 0 0 2 3 C 3 2 1 1 U P1 (A, b) = 4 U P2 (A, b) = 4 Macierz wypłat gracza P2 P1/P2 a b c d A 6 3 2 1 B 0 0 2 3 C 3 2 0 1 U P2 (A, b) = 3 Jan Karwowski (MiNI) 17 I 2018 4 / 26

Postać normalna gry o sumie (nie)zerowej Macierz wypłat gracza P1 P1/P2 a b c d A 6 4 2 1 B 0 0 2 3 C 3 2 1 1 U P1 (A, b) = 4 U P2 (A, b) = 4 Macierz wypłat gracza P2 P1/P2 a b c d A 6 3 2 1 B 0 0 2 3 C 3 2 0 1 U P2 (A, b) = 3 Jan Karwowski (MiNI) 17 I 2018 4 / 26

Strategia mieszana E H T H 1 1 T 1 1 O H T H 1 1 T 1 1 Strategia podstawowa (wybór jednego ruchu) π Strategia mieszana rozkład prawdopodobieństwa nad π σ Jan Karwowski (MiNI) 17 I 2018 5 / 26

Równowaga Stackelberga Asymetryczni gracze: Leader, Follower Follower zna strategię Leadera w momencie wyboru swojej strategii. (Ale niekoniecznie wykonuje ruch po leaderze). Follower rozstrzyga remisy (swojej wypłaty) na korzyść Leadera Gra Equilibrium Leader Pr. U l 0.4 L1 15 0.6 L2 3 F1 F2 L1-15 3 L2 3-15 Follower Pr. U f U l 1 F1 12 4.2 0 F2 12 7.8 F1 F2 L1 30 0 L2 0 20 Zaburzone equilirbium Leader Pr. U l 0.39 L1 3 0.61 L2 15 Follower Pr. U f U l 0 F1 11.7 4 1 F2 12.2 8 Jan Karwowski (MiNI) 17 I 2018 6 / 26

Równowaga Stackelberga Asymetryczni gracze: Leader, Follower Follower zna strategię Leadera w momencie wyboru swojej strategii. (Ale niekoniecznie wykonuje ruch po leaderze). Follower rozstrzyga remisy (swojej wypłaty) na korzyść Leadera Gra F1 F2 L1-15 3 L2 3-15 F1 F2 L1 30 0 L2 0 20 Dwupoziomowy problem optymalizacyjny arg max σ l Σ l U l (σ l, R f (σ l )) R f (σ l ) = arg max σf Σ f U f (σ l, σ f ) funkcja schodkowa Jan Karwowski (MiNI) 17 I 2018 6 / 26

Strategie followera Można pokazać, że dla dowolnego equilirbium (σ l, σ f ) układ (σ l, π f ) dla dowolnego π f mającego niezerowe prawdopodobieństwo w σ f też jest equilibrium. Wniosek: wystarczy rozważać tylko strategie podstawowe followera (ale mieszane leadera!!). Jan Karwowski (MiNI) 17 I 2018 7 / 26

Gry wielokrokowe I Gra i 1 i 2 h 1 h 2 m 1 m 2 h 3 m 1 m 2 i 3 i 4 i 6 i 7 i 8 i 9 h 4 h 5 h 6 h 7 h 8 h 9 h 10 h 11 h 12 h 13 h 14 h 15 h 16 h 17 i 5 Jan Karwowski (MiNI) 17 I 2018 8 / 26

Gry wielokrokowe II Gracz Gra i 1 i 2 i1 i2 m 1 m 2 h1 m1 h2 m2 m1 h3 m2 i3 i4 i6 i7 i8 i9 i 3 i 4 i 5 i 6 i 8 i 7 i 9 h4 h5 h6 h7 h8 h9 h10 h11 h12 h13 h14 h15 h16 h17 i5 Strategia podstawowa przypisanie akcji do każdego punktu decyzyjnego (information setu). Strategia zredukowana tylko potencjalnie osiągalne IS. Strategia mieszana rozkład prawdopodobieństwa nad strategiami podstawowymi Strategia behawioralna przypisanie rozkładu prawdopodobieństwa akcji w każdym punkcie decyzyjnym Jan Karwowski (MiNI) 17 I 2018 9 / 26

Security Games Obrońcy i atakujący Asymetria graczy Różne rodzaje przestrzeni Zwykle obrońca ma większą przestrzeń decyzyjną Brak jednolitej definicji Zazwyczaj równowaga Stackelberga Jan Karwowski (MiNI) 17 I 2018 10 / 26

Typowe podejście Przegląd wszystkich strategii followera i rozwiązanie LP poszukującego dobrego leadera MILP, który łączy przegląd followera i poszukiwanie leadera MILP max q,z,a i X j Q R ijz ij s.t. i X j Q z ij = 1 ( i X ) j Q z i,j 1 ( j Q ) q j i X z ij 1 j Q q j = 1 ( j Q ) 0 (a i X C ij( h Q z ih)) ( j Q ) (a i X C ij( h Q z ih)) (1 q j )M z ij [0, 1], q j {0, 1}, a R Praveen Paruchuri et al. Efficient Algorithms to Solve Bayesian Stackelberg Games for Security Applications.. In: AAAI. 2008, pp. 1559 1562 Jan Karwowski (MiNI) 17 I 2018 11 / 26

Pomysł Heurystyka wyboru interesujących strategii folllowera + przybliżone znalezienie strategii obrońcy. Szukanie leadera Strategia obrońcy musi spełniać ograniczenie wymuszające założoną odpowiedź followera. Jan Karwowski (MiNI) 17 I 2018 12 / 26

Przegląd strategii followera z użyciem UCT I UCT Levente Kocsis and Csaba Szepesvári. Bandit based monte-carlo planning. In: Machine Learning: ECML 2006. Springer, 2006, pp. 282 293 Metaheurystyka wyboru najlepszego ruchu w grze. 12 0.5 3 0.13 1 0.1 Estimated reward Visit counter 0.5 6 0.5 5 0.4 1 1 0 0.7 0.1 3 2 2 2 0.5 0.5 0.6 0.4 0.4 0.4 0 0 0.1 0.3 0.1 Jan Karwowski (MiNI) 17 I 2018 13 / 26

Przegląd strategii followera z użyciem UCT II Gra Stany etykietowane potencjalnie osiągalnymi stanami followera Wykonanie ruchu oznacza ustalenie decyzji w strategii podstawowej. Wynikiem gry jest zredukowana strategia podstawowa Jan Karwowski (MiNI) 17 I 2018 14 / 26

Przegląd strategii followera z użyciem UCT III Przegląd MCTS/UCT Selection Expansion Simulation Backpropagate defender s reward Return best defender s strategy Attacker s strategy Find defender s strategy and get defender s reward Defender s reward Update best defender s strategy Jan Karwowski (MiNI) 17 I 2018 15 / 26

Drzewo strategii obrońcy s1 m1, 0.8 m2, 0.2 m6, 0.0 s3 s2 s4 s9 sa m3, 1.0 m4, 0.5 m5, 0.5 m7, 1.0 m8, 0.3 m9, 0.4 ma, 0.3 s5 s6 s7 s8 sb sc sd se Jan Karwowski (MiNI) 17 I 2018 16 / 26

Dostosowanie strategii I Zarys metody Initialize defender s mixed strategy Does better attacker exist? Not found Found BAS Feasibility pass Adjust defender not to prefer BAS over DAS Store best defender strategy Stop condition? Positive pass No Improve defender payoff against DAS Yes Return best feasible defender strategy Jan Karwowski (MiNI) 17 I 2018 17 / 26

Dostosowanie strategii II Dostosowanie strategii w punkcie 1 Dodaj nowy ruch wraz ze ścieżką do liścia wychodzący z węzła 2 Zejdź do potomków 3 Dostosuj strategię w węźle Jan Karwowski (MiNI) 17 I 2018 18 / 26

Metoda dostosowywania węzła Struktury danych Moment wektor o długości równej liczbie ruchów Współczynnik normalizacji momentu Data: prob [0, 1] M probabilities vector, mom (R + {0}) M momentum vector, w momentum normalization factor, as R M assessments vector. All vectors contain values for i-th move at i-th position mom mom + as; w w + L 1 (as); prob max{prob + mom/w, 0}// max at each position prob normalizeorequal(prob)// Normalize vector values so their sum is 1 or as a fallback assign uniform probability Jan Karwowski (MiNI) 17 I 2018 19 / 26

Problemy Czy zbiega do optymalnej strategii Jan Karwowski (MiNI) 17 I 2018 20 / 26

MILP: metoda do porównań MILP max q,z,a i X i X j Q R ijz ij s.t. j Q z ij = 1 ( i X ) j Q z i,j 1 ( j Q ) q j i X z ij 1 j Q q j = 1 ( j Q ) 0 (a i X C ij( h Q z ih)) ( j Q ) (a i X C ij( h Q z ih)) (1 q j )M z ij [0, 1] q j {0, 1} a R Złożoność X liczba strategii (sekwencji) leadera, Q liczba strategii (sekwencji) followera O( X Q ) zmiennych, w tym Q binarnych. O( X + Q ) ograniczeń Jan Karwowski (MiNI) 17 I 2018 21 / 26

Gra na grafie i generator budynków Każdy z graczy operuje jednostkami chodzącymi po grafie Obaj wykonują ruch jednocześnie Nie widzą siebie nawzajem Przykładowa gra Generator budynków 1: A(5,-1) D(3,-12) 0: A(20,-1) D(3,-15) 4:A(-1) D(1) 3:A(-1) D(1) 10:A(-1) D(1) 9:A(-1) D(1) 11 1 D(-9) A(10) 2 D(-6) A(3) 4 3 5 6 7 8: A(-1),D(1) 8 9 10 0 2: A(30,-1) D(5,-10) 5:A(-1) D(1) 6:A(-1) D(1) 7:A(-1) D(1) 12 13 14 15 Jan Karwowski (MiNI) 17 I 2018 22 / 26

game New MixedUCT R MILP Sc Sc payoff p. max sd time sd payoff time payoff payoff time MU new game1-5 0.54 0.54 0 3108 136 0.51 1778-10.46 0.54 28053 1 1 game2-5 0.08 0.08 0 922 13 0.07 1661-7.21 0.08 107 1 1 game3a-5-4.5-4.5 0 1299 33-4.51 1480-13.97-4.5 31926 1 1 game3d-5 0.9 0.9 0 1047 15 0.9 1053-4.61 0.9 37870 1 1 game6-5 -4.87-4.87 0 1197 53-4.87 1211-13.91-4.87 5313 1 1 game6a-5-6 -6 0 1251 106-6 1403-13.84-6 5949 1 1 game6b-5 0.79 0.79 0 992 33 0.76 851-0.81 0.79 5547 0.98 1 sb-1-5 -0.76-0.08 1.33 2888 85-0.2 1151-2.79 0.03 232 0.92 0.72 sb-2-5 0 0 0 1574 38 0 1724-15.08 0 255 1 1 sb-20-5 1.29 1.29 0 1063 51 1 1050-1.28 1.29 0 0.89 1 sb-24-5 1.54 1.54 0.01 1889 44 0.92 1874 0.08 1.55 0 0.57 0.99 sb-3-5 0.47 0.49 0.03 1166 58 0.5 1002-8.55 0.5 0 1 1 sb-35-5 0.5 0.5 0 1027 22 0.5 1582-0.89 0.5 339 1 1 sb-39-5 0.05 0.06 0.01 1423 77 0.03 2100-17.06 0.09 0 1 1 sb-41-5 -2.88-2.88 0 1255 28-2.88 2240-5.07-2.85 0 0.99 0.99 sb-42-5 0 0 0 1947 44 0 1440-16.53 0 0 1 1 sb-56-5 1.09 1.1 0.01 2638 48 1.01 1676 0.52 1.6 0 0.45 0.53 sb-59-5 0.6 0.6 0 2718 44 0.6 1321-7.39 0.62 0 1 1 sb-64-5 0.12 0.13 0.01 1568 64 0.12 1698-11.81 0.16 0 1 1 sb-7-5 -0.77-0.77 0 1909 54-1 1053-9.7-0.77 0 0.97 1 sb-78-5 0.5 0.5 0 2017 167 0.31 1208-9.28 0.5 0 0.98 1 sb-82-5 0 0 0 3338 82 0 2498-10.66 0 0 1 1 sb-85-5 -0.89-0.89 0 1472 27-0.95 1456-1.79-0.89 0 0.93 1 sb-87-5 0.8 0.8 0 936 23 0.7 1202-1.66 0.8 0 0.96 1 sb-91-5 -5.62-5.62 0 2325 51-5.62 1852-5.97-5.62 0 1 1 sb-96-5 0.12 0.19 0.08 788 15 0.13 1876-10.15 0.19 0 0.99 0.99 sb-98-5 0 0 0 930 8 0 1102-13.02-0.3 0 1.02 1.02

Dalsze badania Gwarancje zbieżności Skalowanie się wraz ze wzrostem liczby kroków w grze Porównanie skalowania z innymi metodami Jan Karwowski (MiNI) 17 I 2018 24 / 26

* Jan Karwowski (MiNI) 17 I 2018 25 / 26

(Koniec) Jan Karwowski (MiNI) 17 I 2018 26 / 26