Porównanie rozwiązań równowagowych Stackelberga w grach z wynikami stosowania algorytmu UCT

Podobne dokumenty
Security Games: zastosowanie UCT na tle dotychczasowych podejść do problemu

Mixed-UCT: Zastosowanie metod symulacyjnych do poszukiwania równowagi Stackelberga w grach wielokrokowych

Zastosowanie metody UCT i drzewa strategii behawioralnej do aproksymacji stanu równowagowego Stackelberga w grach wielokrokowych

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

10. Wstęp do Teorii Gier

11. Gry Macierzowe - Strategie Czyste i Mieszane

Sztuczna Inteligencja i Systemy Doradcze

Teoria gier. wstęp Teoria gier Zdzisław Dzedzej 1

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Elementy Modelowania Matematycznego

Wyznaczanie strategii w grach

Teoria gier. Teoria gier. Odróżniać losowość od wiedzy graczy o stanie!

2010 W. W. Norton & Company, Inc. Oligopol

Tworzenie gier na urządzenia mobilne

Teoria gier. Wykład7,31III2010,str.1. Gry dzielimy

MODELOWANIE RZECZYWISTOŚCI

TEORIA GIER W EKONOMII WYKŁAD 2: GRY DWUOSOBOWE O SUMIE ZEROWEJ. dr Robert Kowalczyk Katedra Analizy Nieliniowej Wydział Matematyki i Informatyki UŁ

MAGICIAN. czyli General Game Playing w praktyce. General Game Playing

Teoria gier. dr Przemysław Juszczuk. Wykład 2 - Gry o sumie zero. Instytut Informatyki Uniwersytetu Śląskiego

TEORIA GIER W NAUKACH SPOŁECZNYCH. Gry macierzowe, rybołówstwo na Jamajce, gry z Naturą

Teoria gier. Jakub Cisło. Programowanie z pasją maja 2019

Gry o sumie niezerowej

Algorytmy metaheurystyczne Wykład 6. Piotr Syga

Teoria gier. prof. UŚ dr hab. Mariusz Boryczka. Wykład 4 - Gry o sumie zero. Instytut Informatyki Uniwersytetu Śląskiego

Wprowadzenie do teorii gier

TEORIA GIER DEFINICJA (VON NEUMANN, MORGENSTERN) GRA. jednostek (graczy) znajdujących się w sytuacji konfliktowej (konflikt interesów),w

TEORIA GIER W EKONOMII WYKŁAD 5: GRY DWUOSOBOWE KOOPERACYJNE O SUMIE NIESTAŁEJ

1. Opierał się wyłącznie na strategiach czystych, a, jak wiadomo, gra może mieć jedyne równowagi w strategiach mieszanych.

Teoria Gier - wojna, rybołówstwo i sprawiedliwość w polityce.

MODELOWANIE RZECZYWISTOŚCI

Algorytm memetyczny w grach wielokryterialnych z odroczoną preferencją celów. Adam Żychowski

Algorytmiczne Aspekty Teorii Gier Rozwiązania zadań

Risk-Aware Project Scheduling. SimpleUCT

LEKCJA 4. Gry dynamiczne z pełną (kompletną) i doskonałą informacją. Grą dynamiczną jest każda gra w której gracze wykonują ruchy w pewnej kolejności.

TEORIA GIER W NAUKACH SPOŁECZNYCH. Równowagi Nasha. Rozwiązania niekooperacyjne.

Modelowanie sytuacji konfliktowych, w których występują dwie antagonistyczne strony.

Uniwersytet Warszawski Teoria gier dr Olga Kiuila LEKCJA 3

Tworzenie gier na urządzenia mobilne

Badania operacyjne egzamin

POŁĄCZENIE ALGORYTMÓW SYMULACYJNYCH ORAZ DZIEDZINOWYCH METOD HEURYSTYCZNYCH W ZAGADNIENIACH DYNAMICZNEGO PODEJMOWANIA DECYZJI

Adam Meissner. SZTUCZNA INTELIGENCJA Gry dwuosobowe

KAROLINA KUJAWA DIONIZY KNAPIK. Teaching Games for Understanding

Ustalona a preferowana kolejność ruchów w grze pojedynczej

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Podejście memetyczne do problemu DCVRP - wstępne wyniki. Adam Żychowski

Elementy teorii gier. Badania operacyjne

Planowanie przedsięwzięć

Teoria gier matematyki). optymalności decyzji 2 lub więcej Decyzja wpływa na wynik innych graczy strategiami

Algorytmy genetyczne

Strategie kwantowe w teorii gier

Metody numeryczne Wykład 4

Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów

Algorytm Grovera. Kwantowe przeszukiwanie zbiorów. Robert Nowotniak

Skowrońska-Szmer. Instytut Organizacji i Zarządzania Politechniki Wrocławskiej Zakład Zarządzania Jakością r.

Problem straŝaka w drzewach. Agnieszka Skorupka Matematyka Stosowana FTiMS

Kwantowa implementacja paradoksu Parrondo

TEORIA GIER W EKONOMII WYKŁAD 6: GRY DWUOSOBOWE KOOPERACYJNE O SUMIE DOWOLNEJ

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych

Analiza stanów gry na potrzeby UCT w DVRP

Spacery losowe generowanie realizacji procesu losowego

Temat 1: Pojęcie gry, gry macierzowe: dominacje i punkty siodłowe

5. Rozwiązywanie układów równań liniowych

Dłuższy przykład: Dwie firmy, Zeus i Atena, produkują sprzęt muzyczny. Zeus jest większy, Atena jest ceniona za HF. Wprowadzają nowy produkt, np.

Sztuczna Inteligencja i Systemy Doradcze

Podstawy sztucznej inteligencji

Teoria gier. Strategie stabilne ewolucyjnie Zdzisław Dzedzej 1

Heurystyczne metody przeszukiwania

Wykład Ćwiczenia Laboratoriu m ,5 1,5 WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI CELE PRZEDMIOTU

Algorytmy stochastyczne laboratorium 03

Rozwiązywanie układów równań liniowych metody dokładne Materiały pomocnicze do ćwiczeń z metod numerycznych

Modelowanie Preferencji a Ryzyko. Dlaczego w dylemat więźnia warto grać kwantowo?

Porównanie wydajności CUDA i OpenCL na przykładzie równoległego algorytmu wyznaczania wartości funkcji celu dla problemu gniazdowego

Deep Learning na przykładzie Deep Belief Networks

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

Algorytmy ewolucyjne NAZEWNICTWO

Materiał dydaktyczny dla nauczycieli przedmiotów ekonomicznych. Mikroekonomia. w zadaniach. Gry strategiczne. mgr Piotr Urbaniak

Monte Carlo, bootstrap, jacknife

Planowanie drogi robota, algorytm A*

ZADANIE 1/GRY. Modele i narzędzia optymalizacji w systemach informatycznych zarządzania

Jak oceniać, gdy nic nie wiemy?

Algorytmy mrówkowe (optymalizacja kolonii mrówek, Ant Colony optimisation)

Metody SI w grach komputerowych Gra Policjanci i złodziej (Algorytmy przeszukiwania grafów)

Problemy Decyzyjne Markowa

Mikroekonomia. O czym dzisiaj?

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Grafy Alberta-Barabasiego

Teoria gier. mgr Przemysław Juszczuk. Wykład 5 - Równowagi w grach n-osobowych. Instytut Informatyki Uniwersytetu Śląskiego

Stochastyczne dynamiki z opóźnieniami czasowymi w grach ewolucyjnych

Marcel Stankowski Wrocław, 23 czerwca 2009 INFORMATYKA SYSTEMÓW AUTONOMICZNYCH

Algorytm Dijkstry znajdowania najkrótszej ścieżki w grafie

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Wstęp do Sztucznej Inteligencji

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Teoria gier matematyki). optymalności decyzji 2 lub więcej Decyzja wpływa na wynik innych graczy strategiami

Algorytmy ewolucyjne (3)

Metody uporządkowania

Konkurencja i kooperacja w dwuosobowych grach strategicznych. Anna Lamek

Transkrypt:

Porównanie rozwiązań równowagowych Stackelberga w grach z wynikami stosowania algorytmu UCT Jan Karwowski Zakład Sztucznej Inteligencji i Metod Obliczeniowych Wydział Matematyki i Nauk Informacyjnych PW 24 VI 2015 Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 1 / 31

1 Security Games 2 Algorytm 3 Teoria gier 4 Podsumowanie Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 2 / 31

Security Games Zastosowania Zabezpieczenie lotnisk przed zamachami Zabezpieczenie ruchomych celów Zabezpieczenie zasobów przed kradzieżą Model miejsca rozgrywki Zbiór miejsc, bez zadanych relacji przestrzennych Graf Przestrzeń ciągła Gracze Broniący Atakujący (jeden lub wielu) Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 3 / 31

Pursuer-Evader Game Gracze Ścigany Ścigający cel: znalezienie się w tym samym miejscu i czasie co Ścigany Grają przeciw sobie Czas (długość) gry może nie być ściśle określony Może się rozgrywać na grafie (znalezienie się w tym samym wierzchołku) lub w przestrzeni ciągłej (znalezienie się bliżej niż ɛ w pewnej metryce) Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 4 / 31

Model I Wybrany arbitralnie. Zarys Plansza Graf skierowany Wierzchołki: zwykłe, cele, punkty startowe, baza Krawędzie możliwości przemieszczenia Brak limitu czasu G = (V, E), E {(v, u) v, u V, v u} T V cele, S = subsetv punkty startowe, b V baza obrońców, (T {b}) S =. R A + (t), R A (v), R+ D (v), R D (t) wypłaty w wierzchołkach/celach Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 5 / 31

Model II Przykłady planszy, 0 baza 14:A(-1) 16 15:A(-1) 0:A(-1) 17 11:A(-1) 13:A(-1) 12:A(-1) 10:A(-1) 1: A(20,-1) D(5,-10) 9:A(-1) 8:A(-1) 5:A(-1) 3: A(5,-1) D(2,-15) 4: A(10,-1) D(2,-20) 6: A(-1) 1: A(3,-1) D(2,-10) 4: A(20,-1) D(30,-15) 7:A(-1) 6:A(-1) 3: A(5,-1) D(5,-5) 2: A(10,-1) D(5,-10) 0: A(2,-1) D(1,-8) 2: A(4,-1) D(2,-12) 7: A(-1) 8: A(-1) 9: A(-1) 5 Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 6 / 31

Model III Obrońca Stała liczba W każdej kolejce przesuwa każdą jednostkę na sąsiedni wierzchołek lub pozostaje w miejscu Atakujący W każdej kolejce może wprowadzić na planszę nową jednostkę. W każdej kolejce przesuwa każdą jednostkę na sąsiedni wierzchołek lub pozostaje w miejscu Jednostki są usuwane po złapaniu lub dotarciu do celu Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 7 / 31

Model IV Kolejka (Kolejność operacji ma znaczenie) 1 Każdy z graczy, niezależnie od siebie wybiera nowe pozycje dla swoich jednostek 2 Następuje przesunięcie 3 Jednostki ataku, które są w tym samym wierzchołku co jakaś jednostka obrony są zdjęte z planszy. Wyliczane są odpowiednie wypłaty. 4 Jednostki ataku, które są w celu przeprowadziły skuteczny atak. Wyliczane są odpowiednie wypłaty, jednostki są usuwane z planszy. Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 8 / 31

Implementacja modelu (widok obrońcy) Wariant B Stan Wektor od długości równej liczbie obrońców, wartości bieżący wierzchołek Ruch Wektor tej samej długości nowe pozycje Opcjonalnie: historia incydentów Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 9 / 31

1 Security Games 2 Algorytm 3 Teoria gier 4 Podsumowanie Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 10 / 31

UCT budowa drzewa na starcie gry Nigdy nie kopiujemy bieżącego stanu w symulacjach. Dochodzimy do n-tego poziomu drzewa. Algorithm: Przebieg modyfikacji UCT dla gier bez pełnej informacji for depth 1 maxdepth do for i 1... simcount do // Wykonuje odpowiednio dużą liczbę symulacji na poziomie depth State InitialState for d 1 depth 1 do // Zejście do poziomu depth w drzewie Best UCTBestMove(State) MakeMove(State, Best) SingleRun(State) Całość powtarzamy n razy. Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 11 / 31

Atakujący (przykładowy) Przewidywanie znalezienia się obrońcy w celu Rejestruje fakt pojawienia się atakującego w celu Dla każdego celu oblicza E(j) = (R j (t d j ) + P j d j )/t, t długość obserwacji, R j nagroda, P j kara, d j liczba obserwacji. Z prawdopodobieństwem 0, 2 wyprowadza atak z losowego startu do losowego celu. Start rozkład równomierny, cel ruletka z prawd. E(j). Wpuszczony atak nie zmienia celu. Dodatkowe możliwości Atakujący wie gdzie jest baza obrońców Atakujący odróżnia jednostki obrońcy Atakujący widzi obrońców w celach Atakujący widzi obrońców, którzy właśnie go złapali Atakujący zna wypłaty w celach Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 12 / 31

Gry testowe Gra 3: 2 obrońców 0: A(20,-1) D(3,-15) 10:A(-1) 3:A(-1) 9:A(-1) 1: A(5,-1) D(3,-12) 4:A(-1) 8 5:A(-1) 7:A(-1) 6:A(-1) 2: A(30,-1) D(3,-15) Gra 4: 1 oobrońca 5 3: A(5,-1) D(2,-15) 4: A(20,-1) D(2,-20) 6: A(-1) 0: A(2,-1) D(1,-8) 1: A(3,-1) D(2,-10) 2: A(4,-1) D(2,-12) Gra 5: 2 obrońców 14:A(-1) 16 0:A(-1) 15:A(-1) 17 11:A(-1) 12:A(-1) 13:A(-1) 1: A(20,-1) D(5,-10) 8:A(-1) 10:A(-1) 9:A(-1) 5:A(-1) 2: A(10,-1) 7:A(-1) D(5,-10) 6:A(-1) 4: A(20,-1) D(30,-15) 3: A(5,-1) D(5,-5) Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 13 / 31

Liczba skutecznych ataków Attack Situations Overall pay-off Random Game Config set mean med stddev mean med stddev avg pay-off 3A ex20-len2 0 0 0 102455.8 101805 2218.7-547124 3A ex15-len2 1 0 2.9 104847.4 101552 6519.9-547124 3A ex12-len4 0.8 0 1.5 107871.6 103169 12187-547124 3A ex7-len2 908.7 0 2863.4 82902.6 80123 48089.9-547124 3A ex4-len3 2486.2 5 4569 52859.1 79923 62337.1-547124 3B ex15-len2 0 0 0 102553.3 100966 3197.3-544089 3B ex12-len4 0.2 0 1.1 106392.3 104069 10478.7-544089 3B ex7-len2 557.7 4 2536.1 107031.5 103290 22436.9-544089 3B ex4-len3 1052.5 4 3311.9 75123 80126 45902.9-544089 4A ex12-len4 0 0 0 79981.9 79987 241.7-674773 4A ex7-len2 1907.2 0 8739.8 51276 79944 131656.6-674773 4A ex4-len3 3806.5 0 12022.3 19356 80125 192247.8-674773 4B ex7-len2 0 0 0 79950.3 79942 239.5-674925.6 4B ex4-len3 3829.9 0 12096 19511.1 79862 190970.3-674925.6 5A ex20-len2 0.8 0 1.9 80010.1 80064 218.9-522846.5 5A ex15-len2 1.2 0 2.1 80062 80118 274.5-522846.5 5A ex12-len4 356.6 4 1618.9 76033 79885 17669.8-522846.5 5A ex7-len2 1928 0 5852.2 59649.7 79951 60579.8-522846.5 5A ex4-len3 9084.2 12 11624.6-20358.3 79538 125375-522846.5 5B ex20-len2 2089.6 4 6617.7 83586.1 79908 13466-522190.5 5B ex15-len2 2 0 3.1 79936.9 79948 194-522190.5 5B ex12-len4 1169 2 5341.7 81385.2 79980 6734.9-522190.5 5B ex7-len2 1041.3 6 2596.7 68444.9 79836 28531.5-522190.5 5B ex4-len3 8270.5 21 10791.5-10813 79423 118137.9-522190.5 Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 14 / 31

Dobór współczynników Najlepszy ex dla danego len ba l2a l3a l4a l5a e2a e3a e4a e5a bb l2b l3b l4b l5b e2b e3b e4b e5b 2 10 10 10 12 12 7 10 10 7 4 4 7 10 10 4 7 10 7 3 10 10 10 10 15 8 12 8 15 4 4 5 7 10 5 8 4 7 5 10 10 10 10 10 10 10 8 15 5 5 7 8 8 5 8 5 12 10 10 10 10 10 10 10 8 7 12 4 5 8 7 7 4 8 7 12 20 10 10 10 10 10 10 12 12 12 4 8 7 8 12 4 8 12 7 40 10 10 12 12 10 10 12 15 15 4 5 7 10 12 4 5 15 8 Najlepszy len dla danego ex ba l2a l3a l4a l5a e2a e3a e4a e5a bb l2b l3b l4b l5b e2b e3b e4b e5b 4 10 10 10 20 2 40 10 2 20 10 20 2 10 20 10 5 10 20 5 10 10 10 2 20 40 2 10 20 5 10 2 10 20 3 40 5 20 7 10 10 10 10 10 2 20 10 2 5 5 2 3 10 5 2 10 2 8 10 2 10 10 2 10 10 3 3 5 20 10 5 5 5 10 40 40 10 10 10 10 10 10 10 2 2 40 10 20 2 40 3 40 10 5 2 12 10 10 10 10 10 10 20 20 20 3 5 10 40 20 40 20 20 20 15 2 10 10 10 10 20 2 40 5 2 3 40 5 20 20 3 40 2 Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 15 / 31

1 Security Games 2 Algorytm 3 Teoria gier 4 Podsumowanie Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 16 / 31

Gra w postaci normalnej (macierzowa) Nowe Ruch gracza 1 Ruch gracza 2 M 1 M 2 M 3 M 4 m 1 5 3 2-8 m 2 2 4 8 1 m 3-3 -4-2 100 Gra o sumie zerowej (stałej) ± jedna macierz Gra nie o sumie zerowej dwie macierze Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 17 / 31

Gra wielokrokowa w postaci macierzowej Nowe LL LR RL RR LL 1 0 2 3 LR 2 3 0-1 RL 2 1 1 0 RR 3 4 2-2 L P1 R P2 P2 L R L R P1 P1 P1 P1 L R L R L R L R P2 P2 P2 P2 P2 P2 P2 P2 L R L R L R L R L R L R L R L R 1 0 1 2 2 3 0-1 2 1 3 4 1 0 2-2 Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 18 / 31

Model Stackelberga Nowe Jednokrokowa gra nie o sumie zerowej. Dwóch graczy: Leader (tu: obrońca) Follower (atakujący) Założenie: Atakujący zna strategię obrońcy Równowaga Stackelberga Rozważam tylko strategie mieszane. Maksymalizujemy wypłatę obrońcy przy założeniu optymalnej odpowiedzi atakującego. Atakujący przy danej strategii broniącego wybiera strategię dającą najlepszą wypłatę (według swojej macierzy wypłat. W przypadku równoważnych wypłat wybiera opcję korzystniejszą dla obrońcy. Spostrzeżenie: zawsze istnieje deterministyczna strategia atakującego przy ustalonej strategii obrońcy (jeden najlepszy ruch). Basar and Olsder 1982 Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 19 / 31

Model Stackelberga Nowe Strategia atakującego Policz wartości oczekiwane wszystkich ruchów (wypłaty atakującego). Wybierz wszystkie optymalne zagrania, policz dla nich wypłaty obrońcy. Wybierz dowolny z ruchów najkorzystniejszych dla obrońcy. Jako strategię zwróć ten ruch z prawdopodobieństwem 1. Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 20 / 31

Rozwiązanie Nowe max q,z,a i X s.t. j Q R ijz ij i X j Q z ij = 1 ( i X ) j Q z i,j 1 ( j Q )q j i X z ij 1 j Q q j = 1 ( j Q )0 (a i X C ij( h Q z ih)) (1 q j )M z ij [0, 1] q j 0, 1 a R Q zbiór ruchów atakującego, X zb. ruchów obrońcy, R macierz wypłat obrońcy, C macierz wypłat atakującego. Paruchuri et al. 2008 Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 21 / 31

Uproszczony model SG Nowe Do porównania algorytmów potrzeba gry możliwej do wyrażenia w obu modelach. Jeden obrońca, jeden atakujący Gra do pierwszego incydentu lub do małego limitu kroków Atakujący od początku jest na planszy Równa liczba ruchów w każdej grze (ruchy po incydencie nie mają wpływu na wypłatę Open-Loop Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 22 / 31

Solver MILP Nowe http://scip.zib.de/ Rozwiązanie dokładne Czas dla przykładowej gry nr 3 z 5 krokami: 17394s (prawie 5 godzin), prawie 6GB pamięci. Dla gry 4 macierz problemu za duża, aby uruchomić solver dla sensownej liczby kroków (> 3). Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 23 / 31

Rozwiązanie Nowe Ruch Prawdopodobieństwo Wypłata 1 0, 0, 0, 0, 0 0.403846-15 3, 4, 5, 2, 2 0.596154 3 E(payoff ) = 4.269230769230773 Problem Słaba wypłata nie oznacza, że nie należy wykonywać ruchu!! 1 Przy optymalnej strategii atakującego Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 24 / 31

Modyfikacja UCT Nowe I Atakujący Użycie atakującego zgodnego z grą Stackelberga konieczność wyznaczenia rozkładu prawdopodobieństwa ruchów obrońcy. Problem Jak zamienić statystyki UCT na rozkład prawdopodobieństwa? Algorithm: Budowanie strategii w grze Stackelberga z użyciem UCT tree TrainUCT (randomattacker, nil) for i 1 m do attacker StackelbergAttacker(GetProbabilities(tree)) tree Damping(tree) tree TrainUCT (attacker, tree) strategy GetProbabilities(tree) Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 25 / 31

Zamiana drzewa w strategię Nowe Koduję krok gry jako element stanu. Algorithm: Prawdopodobieństwa ruchów moveprobabilities for leaf Leaves(uctTree) do probability 1 for node PathToRoot(leaf ) do probability probability Visits(node)/Visits(Siblings(node)) // Siblings zawiera również node moveprobabilities moveprobabilities {(PathToMove(PathToRoot(leaf )), probability)} Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 26 / 31

Wygaszanie starych wyników w drzewie Nowe for node Nodes do visits(node) c visits(node) quality(node) c quality(node) c [0, 1] Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 27 / 31

Ewaluacja Nowe Metoda Wyznacz rozkład prawdopodobieństwa ruchów obrońcy daną metodą Wyznacz strategię atakującego według tego rozkładu Oblicz wartość oczekiwaną wyniku obrońcy! UCT walczy z przeciwnikiem, którego być może jeszcze nie widziało Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 28 / 31

1 Security Games 2 Algorytm 3 Teoria gier 4 Podsumowanie Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 29 / 31

Wnioski Nowe Model Stackelberga jest trudny dla UCT Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 30 / 31

Literatura Nowe Basar, T. and G. J. Olsder (1982). Dynamic Noncooperative Game Theory. Academic Press Inc. Paruchuri, Praveen et al. (2008). Playing games for security: an efficient exact algorithm for solving Bayesian Stackelberg games. In: Proceedings of the 7th international joint conference on Autonomous agents and multiagent systems-volume 2. International Foundation for Autonomous Agents and Multiagent Systems, pp. 895 902. Jan Karwowski (MiNI) UCT vs Stackelberg 24 VI 2015 31 / 31