Mixed-UCT: Zastosowanie metod symulacyjnych do poszukiwania równowagi Stackelberga w grach wielokrokowych

Podobne dokumenty
Zastosowanie metody UCT i drzewa strategii behawioralnej do aproksymacji stanu równowagowego Stackelberga w grach wielokrokowych

Porównanie rozwiązań równowagowych Stackelberga w grach z wynikami stosowania algorytmu UCT

Security Games: zastosowanie UCT na tle dotychczasowych podejść do problemu

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

10. Wstęp do Teorii Gier

Teoria gier. wstęp Teoria gier Zdzisław Dzedzej 1

PODEJMOWANIE DECYZJI W WARUNKACH NIEPEŁNEJ INFORMACJI

D. Miszczyńska, M.Miszczyński KBO UŁ 1 GRY KONFLIKTOWE GRY 2-OSOBOWE O SUMIE WYPŁAT ZERO

Modelowanie sytuacji konfliktowych, w których występują dwie antagonistyczne strony.

Tworzenie gier na urządzenia mobilne

Hyper-resolution. Śmieciarki w Manncheim

Teoria gier matematyki). optymalności decyzji 2 lub więcej Decyzja wpływa na wynik innych graczy strategiami

Teoria Gier - wojna, rybołówstwo i sprawiedliwość w polityce.

Teoria gier. mgr Przemysław Juszczuk. Wykład 5 - Równowagi w grach n-osobowych. Instytut Informatyki Uniwersytetu Śląskiego

Deep Learning na przykładzie Deep Belief Networks

Wyznaczanie strategii w grach

Spacery losowe generowanie realizacji procesu losowego

TEORIA GIER W EKONOMII WYKŁAD 5: GRY DWUOSOBOWE KOOPERACYJNE O SUMIE NIESTAŁEJ

LEKCJA 4. Gry dynamiczne z pełną (kompletną) i doskonałą informacją. Grą dynamiczną jest każda gra w której gracze wykonują ruchy w pewnej kolejności.

Skowrońska-Szmer. Instytut Organizacji i Zarządzania Politechniki Wrocławskiej Zakład Zarządzania Jakością r.

TEORIA GIER W NAUKACH SPOŁECZNYCH. Równowagi Nasha. Rozwiązania niekooperacyjne.

Podstawy Sztucznej Inteligencji (PSZT)

Propedeutyka teorii gier

Gry w postaci normalnej

POŁĄCZENIE ALGORYTMÓW SYMULACYJNYCH ORAZ DZIEDZINOWYCH METOD HEURYSTYCZNYCH W ZAGADNIENIACH DYNAMICZNEGO PODEJMOWANIA DECYZJI

Wykład 7 i 8. Przeszukiwanie z adwersarzem. w oparciu o: S. Russel, P. Norvig. Artificial Intelligence. A Modern Approach

Wstęp do programowania

1. S³owo wstêpne Geologia gospodarcza g³ówne aspekty problematyki badawczej Zakres, treœæ i cel rozprawy...

Gry o sumie niezerowej

13. Teoriogrowe Modele Konkurencji Gospodarczej

11. Gry Macierzowe - Strategie Czyste i Mieszane

Teoria gier w ekonomii - opis przedmiotu

MODELOWANIE RZECZYWISTOŚCI

TEORIA GIER W EKONOMII. dr Robert Kowalczyk Katedra Analizy Nieliniowej Wydział Matematyki i Informatyki UŁ

MODELOWANIE RZECZYWISTOŚCI

Stochastyczne dynamiki z opóźnieniami czasowymi w grach ewolucyjnych

Adam Meissner. SZTUCZNA INTELIGENCJA Gry dwuosobowe

Aukcje groszowe. Podejście teoriogrowe

Modelowanie motywów łańcuchami Markowa wyższego rzędu

2010 W. W. Norton & Company, Inc. Oligopol

Rozwiązania gier o charakterze kooperacyjnym

Programowanie liniowe całkowitoliczbowe. Tadeusz Trzaskalik

Algorytm memetyczny w grach wielokryterialnych z odroczoną preferencją celów. Adam Żychowski

Uniwersytet Warszawski Teoria gier dr Olga Kiuila LEKCJA 3

Diagnozowanie sieci komputerowej na podstawie opinii diagnostycznych o poszczególnych komputerach sieci

TEORIA GIER W NAUKACH SPOŁECZNYCH. Gry macierzowe, rybołówstwo na Jamajce, gry z Naturą

Kurs z NetLogo - część 4.

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Teoria gier. Teoria gier. Odróżniać losowość od wiedzy graczy o stanie!

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

TEORIA GIER WPROWADZENIE. Czesław Mesjasz

Modele optymalizacyjne wspomagania decyzji wytwórców na rynku energii elektrycznej

OGRAĆ BUKMACHERA. DLACZEGO JEST TO MOŻLIWE? KAMIL STUPAK SKN BUSINESS ANALYTICS SGH

Typy algorytmów losowych. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Materiał dydaktyczny dla nauczycieli przedmiotów ekonomicznych. Mikroekonomia. w zadaniach. Gry strategiczne. mgr Piotr Urbaniak

Teoria gier. Wykład7,31III2010,str.1. Gry dzielimy

Analiza stanów gry na potrzeby UCT w DVRP

Przykład. 1 losuje kartę z potasowanej talii, w której połowa kart ma kolor czarny a połowa czerwony. Postać ekstensywna Postać normalna

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Wprowadzenie do teorii gier

Teoria gier. prof. UŚ dr hab. Mariusz Boryczka. Wykład 4 - Gry o sumie zero. Instytut Informatyki Uniwersytetu Śląskiego

Teoria Gier. Piotr Kuszewski 2018L

Elementy teorii wyboru publicznego. Marek Oramus

Ustalona a preferowana kolejność ruchów w grze pojedynczej

Strategie kwantowe w teorii gier

Teoria gier. dr Przemysław Juszczuk. Wykład 2 - Gry o sumie zero. Instytut Informatyki Uniwersytetu Śląskiego

Gry kwantowe na łańcuchach spinowych

TEORIA GIER DEFINICJA (VON NEUMANN, MORGENSTERN) GRA. jednostek (graczy) znajdujących się w sytuacji konfliktowej (konflikt interesów),w

PODSTAWY WSPOMAGANIA PODEJMOWANIA DECYZJI W ZARZĄDZANIU BEZPIECZEŃSTWEM. cz. 6. dr BOŻENA STARUCH

OPISU MODUŁU KSZTAŁCENIA (SYLABUS) dla przedmiotu Teoria gier na kierunku Zarządzanie

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Lista 5. Zadanie 3. Zmienne losowe X i (i = 1, 2, 3, 4) są niezależne o tym samym

Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów

Temat 1: Pojęcie gry, gry macierzowe: dominacje i punkty siodłowe

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Konkurencja i kooperacja w dwuosobowych grach strategicznych. Anna Lamek

MAGICIAN. czyli General Game Playing w praktyce. General Game Playing

Algorytmy mrówkowe w dynamicznych problemach transportowych

Rozwiązywanie układów równań liniowych metody dokładne Materiały pomocnicze do ćwiczeń z metod numerycznych

TEORIA GIER W EKONOMII WYKŁAD 2: GRY DWUOSOBOWE O SUMIE ZEROWEJ. dr Robert Kowalczyk Katedra Analizy Nieliniowej Wydział Matematyki i Informatyki UŁ

Rachunek prawdopodobieństwa Rozdział 6: Twierdzenia graniczne.

Dane są następujące reguły gry losowej: losujemy jedną kartę z pełnej talii (bez jokerów) i sprawdzamy wynik:

Jacek Skorupski pok. 251 tel konsultacje: poniedziałek , sobota zjazdowa

GRA Przykład. 1) Zbiór graczy. 2) Zbiór strategii. 3) Wypłaty. n = 2 myśliwych. I= {1,,n} S = {polować na jelenia, gonić zająca} S = {1,,m} 10 utils

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Punkty równowagi w grach koordynacyjnych

Teoria gier matematyki). optymalności decyzji 2 lub więcej Decyzja wpływa na wynik innych graczy strategiami

Lista zadań. Równowaga w strategiach czystych

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

Sieć Hopfielda. Sieci rekurencyjne. Ewa Adamus. ZUT Wydział Informatyki Instytut Sztucznej Inteligencji i Metod Matematycznych.

STRATEGIA PRZYBLIŻONA. Inna propozycja: szukanie optymalnej strategii metodą iteracyjną.

TEORIA GIER HISTORIA TEORII GIER. Rok 1944: powszechnie uznana data narodzin teorii gier. Rok 1994: Nagroda Nobla z dziedziny ekonomii

PRZEWODNIK PO PRZEDMIOCIE

Algorytmy i Struktury Danych, 2. ćwiczenia

Wykład na Politechnice Krakowskiej w dniu 18 stycznia 2012 r. ZADAŃ I ALGORYTMÓW W OPTYMALIZACJI DYSKRETNEJ

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Uniwersytet Warszawski Mikroekonomia zaawansowana Studia zaoczne dr Olga Kiuila LEKCJA 7

Technologie Informacyjne

dr inż. Cezary Wiśniewski Płock, 2006

Transkrypt:

Mixed-UCT: Zastosowanie metod symulacyjnych do poszukiwania równowagi Stackelberga w grach wielokrokowych Jan Karwowski Zakład Sztucznej Inteligencji i Metod Obliczeniowych Wydział Matematyki i Nauk Informacyjnych PW 5 IV 2017 Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 1 / 31

Plan 1 Security Games 2 Elementy teorii gier 3 Mixed-UCT 4 Wyniki 5 Problemy Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 2 / 31

Security Games Obrońcy i atakujący Asymetria graczy Różne rodzaje przestrzeni Zwykle obrońca ma większą przestrzeń decyzyjną Brak jednolitej definicji Zazwyczaj równowaga Stackelberga Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 3 / 31

Cele Metoda dobrze działająca z grami wielokrokowymi Metoda dobrze skalująca się z rozmiarem gry Metoda łatwa do dostosowania do różnych modeli gry Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 4 / 31

Postać normalna gry o sumie (nie)zerowej Macierz wypłat gracza P1 P1/P2 a b c d A 6 4 2 1 B 0 0 2 3 C 3 2 1 1 U P1 (A, b) = 4 U P2 (A, b) = 4 Macierz wypłat gracza P2 P1/P2 a b c d A 6 3 2 1 B 0 0 2 3 C 3 2 0 1 U P2 (A, b) = 3 Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 5 / 31

Postać normalna gry o sumie (nie)zerowej Macierz wypłat gracza P1 P1/P2 a b c d A 6 4 2 1 B 0 0 2 3 C 3 2 1 1 U P1 (A, b) = 4 U P2 (A, b) = 4 Macierz wypłat gracza P2 P1/P2 a b c d A 6 3 2 1 B 0 0 2 3 C 3 2 0 1 U P2 (A, b) = 3 Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 5 / 31

Strategia mieszana E H T H 1 1 T 1 1 O H T H 1 1 T 1 1 Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 6 / 31

Równowaga Stackelberga Asymetryczni gracze: Leader, Follower Follower zna strategię Leadera w momencie wyboru swojej strategii. (Ale niekoniecznie wykonuje ruch po leaderze). Follower rozstrzyga remisy (swojej wypłaty) na korzyść Leadera Gra Equilibrium Obrońca Pr. U D 0.4 D1 15 0.6 D2 3 A1 A2 D1-15 3 D2 3-15 Atakujący Pr. U A U D 1 A1 12 4.2 0 A2 12 7.8 A1 A2 D1 30 0 D2 0 20 Zaburzone equilirbium Obrońca Pr. U D 0.39 D1 3 0.61 D2 15 Atakujący Pr. R A U D 0 A1 11.7 4 1 A2 12.2 8 Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 7 / 31

Równowaga Stackelberga Asymetryczni gracze: Leader, Follower Follower zna strategię Leadera w momencie wyboru swojej strategii. (Ale niekoniecznie wykonuje ruch po leaderze). Follower rozstrzyga remisy (swojej wypłaty) na korzyść Leadera Gra A1 A2 D1-15 3 D2 3-15 A1 A2 D1 30 0 D2 0 20 Dwupoziomowy problem optymalizacyjny arg max π d Π d U d (π d, R a (π d )) R a (π d ) = arg max πa Π a U a (π d, π a ) funkcja schodkowa Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 7 / 31

Gra na grafie i generator budynków Każdy z graczy operuje jednostkami chodzącymi po grafie Obaj wykonują ruch jednocześnie Nie widzą siebie nawzajem Przykładowa gra Generator budynków 1: A(5,-1) D(3,-12) 0: A(20,-1) D(3,-15) 4:A(-1) 3:A(-1) 10:A(-1) 9:A(-1) 11 1 D(-9) A(10) 2 D(-6) A(3) 4 3 5 6 7 8: A(-1), 8 9 10 0 2: A(30,-1) D(5,-10) 5:A(-1) 6:A(-1) 7:A(-1) 12 13 14 15 Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 8 / 31

MCTS i UCT Próbkowanie losowe Wykorzystanie tylko symulacji gry 12 0.5 3 0.13 1 0.1 Oszacowanie wypłaty Licznik odwiedzin 0.5 6 0.5 5 0.4 1 1 0 0.7 0.1 3 2 2 2 0.5 0.5 0.6 0.4 0.4 0.4 0 0 0.1 0.3 0.1 Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 9 / 31

Mixed-UCT I Cele Znaleźć dobre przybliżenie strategi leadera w stanie równowagowym (w sensie wypłaty) Problemy Skrócić czas obliczeń w stosunku do metod dokładnych UCT wymaga gry z pełną informacją UCT podaje w wyniku pojedynczy ruch Equilibrium Stackelberga zaskakuje Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 10 / 31

Mixed-UCT II Zarys Zainicjuj strategię atakującego Ucz I2-UCT gry przeciw bieżącemu atakującemu Przekształć drzewo UCT w strategię Zwróć najlepszą z napotkanych strategii obrońcy Uaktualnij strategię atakującego Oblicz optymalną odpowiedź atakującego nie Warunki stopu tak I2UCT Jak wyliczać strategię obrońcy? Jak wyliczać odpowiedź atakującego? Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 11 / 31

Stan równowagowy Stackelberga (raz jeszcze) Defender Pr. Move E(R D ) 0.4 D1 15 0.6 D2 3 Attacker Pr. Move E(R A ) E(R D ) 1 A1 12 4.2 0 A2 12 7.8 Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 12 / 31

Uzyskiwanie strategii mieszanej v1: FullTree 75 0.7 10 0.1 15 0.3 15 5 2 100 15 5 = 0.85 50 25 0.4 0.25 7 3 0 10 0.9 5 0.2 0.9 0.7 29 21 0.5 19 0.2 6 0.4 4 0.1 3 2 0 1 0 0.9 7 3 0.9 0.1 2 0 1 2 0.25 p = 0.02 Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 13 / 31

Uzyskiwanie strategii mieszanej v2: BestPathFreq 0.1 c 1 0.7 0.3 Sekwencje Liczniki a 1, a 2, a 3,... 25 b 1, b 2, b 3,... 10 0.25 0 0.4 c 2 0.85 0.8 0.2 c 1, c 2, c 3,... 8 0.4 0.1 0 0 0.5 0.2 c 3 0.9 0.7 0.95 0.5 0.1 0 0.3 podbij licznik Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 14 / 31

Uśrednianie atakującego Strategia atakującego jest średnią najlepszych odpowiedzi z h poprzednich iteracji. 1 10 100 1000 MILP U R t sc R t sc R t sc R t sc R t R 1-1.57 1448 0.81 0.34 1436 0.98 0.48 1492 0.99 0.47 1611 0.99 0.54 28052-10.46 2 0.03 1049 0.99 0.05 1388 1 0.06 1113 1 0.07 1351 1 0.08 106-7.21 3-4.32 2319 0.99-4.34 1618 0.99-4.28 1786 1-4.28 1135 1-4.27 42946-13.97 3a -4.5 2003 1-4.53 1452 1-4.51 1230 1-4.5 1487 1-4.5 31926-13.97 3b 2.44 1838 0.96 2.57 2020 1 2.57 1382 1 2.58 1639 1 2.58 227-0.87 3c -1.52 1777 0.94-1.18 1724 0.99-1.07 1358 1-1.06 1169 1-1.06 41624-9.29 3d 0.84 2129 0.99 0.69 1595 0.96 0.9 1467 1 0.9 1218 1 0.9 37870-4.61 4-4.87 1777 1-4.87 1378 1-4.87 1995 1-4.87 1310 1-4.87 5312-13.91 4a -6 1681 1-6 1638 1-6 1637 1-6 1114 1-6 5949-13.84 4b 0.79 1788 1 0.79 1266 1 0.79 1639 1 0.79 1061 1 0.79 5546-0.81 4c -2.85 1783 1-2.85 1498 1-2.85 1494 1-2.85 1203 1-2.85 5928-9.23 4d 0.17 1948 1 0.17 1455 1 0.17 1391 1 0.16 1165 1 0.17 5155-4.55 game Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 15 / 31

MILP: metoda do porównań MILP max q,z,a i X i X j Q R ijz ij s.t. j Q z ij = 1 ( i X ) j Q z i,j 1 ( j Q ) q j i X z ij 1 j Q q j = 1 ( j Q ) 0 (a i X C ij( h Q z ih)) ( j Q ) (a i X C ij( h Q z ih)) (1 q j )M z ij [0, 1] q j {0, 1} a R Złożoność X liczba strategii (sekwencji) obrońcy, Q liczba strategii (sekwencji) atakującego Solvery: O( X Q ) zmiennych, w tym Q binarnych. O( X + Q ) ograniczeń Gurobi 6.5 SCIP 3.1 Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 16 / 31

FullTree Mixed-UCT Uniform MILP Game Payoff Time Payoff Payoff Time Score mean sd [s] [s] 1 0.03 0 1437-2.79 0.03 2350 100% 17 0.26 0.02 1705-7.95 0.37 409 99% 2 0 0 5258-15.08 0 593 100% 20 1.28 0.01 2199-1.28 1.29 2705 100% 24 1.13 0.17 2431 0.08 1.55 692 71% 3 0.46 0.05 2111-8.55 0.5 1684 100% 35 0.47 0.03 1117-0.89 0.5 34 98% 39 0.04 0.01 1376-17.06 0.09 204 100% 41-2.89 0.01 1661-5.07-2.85 3212 98% 42 0 0 2149-16.53 0 1861 100% 43 0 0 1236-17.4 0 361 100% 56 1.13 0.06 4410 0.52 1.6 1107 56% 59 0.55 0.01 1632-7.39 0.62 631 99% 64 0.08 0.01 1793-11.81 0.16 541 99% 7-0.79 0.05 1744-9.7-0.76 2464 100% 74 1.39 0.02 3379-0.09 1.47 88 95% 78 0.34 0.07 1379-9.28 0.5 2463 98% 82 0 0 1819-10.66 0 899 100% 85-0.98 0.02 3833-1.79-0.89 1531 90% 87 0.77 0 3395-1.66 0.8 8 99% 89 0.02 0.05 1151-13.78 0.21 172 99% 91-5.65 0.09 2096-5.97-5.62 118 91% 96 0 0 1409-10.15 0.19 82 98% mean -0.1 0.03 2178-7.8-0.02 1019 96% Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 17 / 31

Czas obliczeń 100000 10000 1000 Mixed-UCT a x + bx 2 MILP cd x time[s] 100 10 1 0.1 0.01 1 2 3 4 5 6 7 8 9 number of rounds Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 18 / 31

BestPath Mixed-UCT Uniform MILP Game Payoff Time Payoff Payoff Score mean sd 1-0.2 0.08 1150.77-2.79 0.03 0.92 17 0.33 0 1060.36-7.95 0.01 1.04 2 0 0 1723.67-15.08 0 1 20 1 0.06 1050.01-1.28 1.29 0.89 24 0.92 0 1873.81 0.08 1.55 0.57 3 0.5 0 1002.34-8.55 0.5 1 31 0 0 1129.1-7.02 0 1 35 0.5 0 1582.27-0.89 0.5 1 39 0.03 0 2100.06-17.06 0.09 1 41-2.88 0 2239.92-5.07-2.85 0.99 42 0 0 1440.14-16.53 0 1 43 0 0 1447.3-17.4 0 1 56 1.01 0.02 1676.38 0.52 1.6 0.45 59 0.6 0.01 1320.73-7.39 0.62 1 64 0.12 0.01 1698.35-11.81 0.16 1 7-1 0.08 1052.87-9.7-0.77 0.97 78 0.31 0.01 1207.51-9.28 0.5 0.98 82 0 0 2497.62-10.66 0 1 85-0.95 0.02 1456.07-1.79-0.89 0.93 87 0.7 0.02 1201.91-1.66 0.8 0.96 89 0.21 0 1291.88-13.78 0.21 1 91-5.62 0 1851.86-5.97-5.62 1 96 0.13 0.04 1876.05-10.15 0.19 0.99 98 0 0 1101.88-13.02-0.3 1.02 mean -0.14 0.01 1485.22-7.77-0.1 0.94 Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 19 / 31

Przebiegi I Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 20 / 31

Przebiegi II Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 21 / 31

Przebiegi III Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 22 / 31

Przebiegi IV Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 23 / 31

Przebiegi V Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 24 / 31

Przebiegi VI Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 25 / 31

Przebiegi VII Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 26 / 31

Wnioski Działa dobrze w większości przypadków Skaluje się lepiej niż MILP Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 27 / 31

Minima lokalne Gra 15: A(-1) 11: A(-1) 3: A(-1) 7: A(-1) 6: A(-1) 12: A(-1) 4: A(-1) Metoda prawie deterministyczna Podąża w kierunku najlepszej wypłaty przy danym przeciwniku 14: A(-1) 10: A(-1) 0: A(-1) 9: A(-1) 5: A(-1) 13: A(-1) 8: A(-1) 1: A(-3,6) D(2,-9) Wypłata obrońcy 2: A(-3,8) D(2,-6) % ochrony celu 2 Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 28 / 31

Zatrzymywanie obliczeń Kryterium stopu? Restarty? Zmienne parametry uczenia? Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 29 / 31

* Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 30 / 31

(Koniec) Jan Karwowski (MiNI) Mixed-UCT 5 IV 2017 31 / 31