Znajdowanie strategii w grach z niepełną informacją przez ewolucję sieci neuronowych, na przykładzie pokera Texas Hold em ze stałym limitem

Transkrypt

1 Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki Marek Kiszkis Nr albumu: Znajdowanie strategii w grach z niepełną informacją przez ewolucję sieci neuronowych, na przykładzie pokera Texas Hold em ze stałym limitem Praca licencjacka na kierunku MATEMATYKA Praca wykonana pod kierunkiem dra hab. Dominika Ślęzaka Instytut Matematyki Zakład Logiki Matematycznej Maj 2012

2 Oświadczenie kierującego pracą Potwierdzam, że niniejsza praca została przygotowana pod moim kierunkiem i kwalifikuje się do przedstawienia jej w postępowaniu o nadanie tytułu zawodowego. Data Podpis kierującego pracą Oświadczenie autora (autorów) pracy Świadom odpowiedzialności prawnej oświadczam, że niniejsza praca dyplomowa została napisana przeze mnie samodzielnie i nie zawiera treści uzyskanych w sposób niezgodny z obowiązującymi przepisami. Oświadczam również, że przedstawiona praca nie była wcześniej przedmiotem procedur związanych z uzyskaniem tytułu zawodowego w wyższej uczelni. Oświadczam ponadto, że niniejsza wersja pracy jest identyczna z załączoną wersją elektroniczną. Data Podpis autora (autorów) pracy

3 Streszczenie Praca jest opisem badań mających na celu znajdowanie strategii w grach z niepełną informacją przez ewolucję sieci neuronowych o ustalonej strukturze. Przedstawiony jest stan badań w tym temacie i wyniki eksperymentów przeprowadzonych w ramach pracy. Słowa kluczowe systemy decyzyjne, sieci neuronowe, algorytmy ewolucyjne, gry, strategie Dziedzina pracy (kody wg programu Socrates-Erasmus) 11.0 Matematyka, Informatyka 11.4 Sztuczna inteligencja Klasyfikacja tematyczna 91A35 Decision theory for games 92B20 Neural networks, artificial life and related topics 91A60 Probabilistic games; gambling Tytuł pracy w języku angielskim Finding robust strategies in imperfect information games with evolutionary neural networks, on the example of Fixed-Limit Texas Hold em

4

5 Spis treści Wstęp Struktura pracy Podstawowe pojęcia Gry Sieci neuronowe Algorytmy ewolucyjne Poker i strategie w pokerze Texas Hold em ze stałym limitem Texas Hold em bez limitu Strategie w pokerze Texas Hold em ze stałym limitem Strategie oparte na wiedzy (knowledge-based) Strategie oparte na symulacji rozgrywki Strategie przybliżające równowagę Nasha Strategie wykorzystujące słabości Inne podejścia Poprzednie prace Klasyfikacja wzorców zachowań w pokerze bez limitu: podejście ewolucyjne head-start [4] Opis modelu agenta Opis ewolucji Problemy z pracą Agenci pokera Texas Hold em bez limitu tworzeni przez ewolucję sieci neuronowych [9] Opis modelu agenta Problemy z pracą Znajdowanie silnych strategii pokera Texas Hold em przy użyciu ko-ewolucji Pareto i deterministycznego zagęszczania [10] Opis modelu agenta Opis ewolucji Zalety pracy Problemy z pracą Porównanie wyników Widoczne problemy Kosztowna symulacja Ciężko się dobrze porównać

6 4. Zakres eksperymentów Wyniki eksperymentów Opis eksperymentów Rezultaty Słabe wyniki Wnioski i praca na przyszłość

7 Wstęp Gry są coraz bardziej popularnym tematem badań. Nie powinno to nikogo dziwić wszak pojawiają się one w wielu dziedzinach nauki; na przykład w ekonomii, biologii, czy oczywiście, informatyce. Logicy już dawno zauważyli wartość gier i poza klasycznymi ich zastosowaniami w logice, jak gry Ehrenfeuchta Fraïsségo, nauczyli się wykorzystywać teorię gier do dziedzin, wydawałoby się, z grami niezwiązanych: modelowania systemów wieloagentowych czy obliczeń interaktywnych. A na styku teorii gier i projektowania algorytmów mamy algorytmiczną teorię gier. Chyba każdy z nas nieustannie w coś gra; czy to dla rozrywki i przyjemności, czy jako trening umysłu, wreszcie grają ludzie dla pieniędzy. Mamy tysiące istniejących gier do wyboru; wymyślamy też własne. Grać można samemu, we dwoje, lub z wieloma innymi graczami. Można nawet i z komputerem. Programy komputerowe grające w szachy grają, już od jakiegoś czasu, na poziomie przynajmniej porównywalnym z najlepszymi (ludzkimi) graczami na świecie. Łatwe gry można przy użyciu komputera rozwiązać, tzn. znaleźć strategię wygrywającą (jeśli istnieje), co pozwoli wygrać z każdym przeciwnikiem. Coraz więcej naukowców próbuje tworzyć wciąż lepsze programy (agentów) do gry w szachy, scrabble, pokera czy go. Koncepcyjnie, zasada działania takiego agenta jest prosta: wykonywać jak najlepsze ruchy. Niech agent przeszuka przestrzeń stanów gry i wybiera te ruchy, które są najlepsze. Tak naprawdę, używamy algorytmu minimax [13]. Jeśli przestrzeń stanów jest zbyt duża, stosujemy heurystyki, alfa-beta obcięcia. Ale co jeśli nie możemy tak po prostu przeszukać przestrzeni stanów? Jest tak na przykład w przypadku gier z niepełną informacją lub gier z elementem losowości. Do takich gier należy chociażby poker, brydż sportowy czy nawet scrabble, a prostym przykładem gry z niepełną informacją są statki. Nie mając pełnej informacji o stanie gry, nie możemy bezmyślnie użyć mocy obliczeniowej komputera do przejrzenia wszystkich możliwych stanów. Tworząc agenta do takiej gry, przed twórcą pojawia się jeden znaczny problem: skąd program komputerowy ma czerpać wiedzę? Jak go nauczyć grać? Szczególnie jeśli twórca programu nie jest ekspertem w tej dziedzinie. Weźmy brydża dojście do pewnego poziomu profesjonalizmu zajmuje przecież wiele lat. Istnieją setki książek na temat brydża, tysiące ludzi poświęca na jego naukę całe życie. Nie sposób przerobić tak wielkich ilości materiału, a nawet jeśli ma się tę wiedzę jak podzielić się nią z programem komputerowym? Może inne podejście byłoby bardziej odpowiednie? Na przykład: niech program sam się uczy. Niech przejrzy zapisy wszystkich dostępnych partii brydża i wywnioskuje, jakie ruchy są dobre w jakich sytuacjach. Niech uczy się też na swoich błędach i dopasowuje swoją strategię w miarę potrzeb. Ale to nadal wydaje się trudne do zrealizowania. Przeprowadzenie wystarczająco dużej ilości rozgrywek z graczami ludzkimi zajęłoby zbyt długo; ciężko też czasem jednoznacznie ocenić czy pojedynczy ruch jest zły czy dobry. Jest to wręcz niemożliwe, gdy nie znamy ogólnej strategii agenta. Należałoby więc raczej oceniać strategię jako całość. W tej pracy skupimy się na jeszcze całkiem innym podejściu do tego problemu: użyciu 5

8 algorytmów ewolucyjnych. Podejście to jest używane np. w [11], [10]. Idea jest prosta na początku tworzona jest populacja graczy. Następnie, przez wiele pokoleń, odbywa się ich ewolucja, w której przeżywają najlepsi gracze. Oni też rozmnażają się tworząc nowych agentów. Spodziewamy się, że w wyniku takiej ewolucji, stopniowo w miarę upływu czasu będziemy uzyskiwali coraz lepszych agentów; a dzięki technikom mającym na celu urozmaicenie populacji, sprawdzimy wiele możliwych strategii. Jednymi z ważniejszych pytań, na które powinniśmy sobie odpowiedzieć wybierając takie podejście, są np.: Jak reprezentować (modelować) strategie (agentów)? Od jakich agentów zaczynamy ewolucję? Jak mierzyć jakość agentów? Jak "rozmnażać" agentów? Kiedy powinniśmy zakończyć obliczenia? Skupiamy się na jednej grze pokerze Texas Hold em ze stałym limitem. Należy jednak podkreślić, że prezentowane tu podejście daje się z powodzeniem uogólnić na inne gry - jeśli tylko umiemy w satysfakcjonujący sposób odpowiedzieć na pytania postawione powyżej. Naszym celem jest zbadanie, do jakich wyników prowadzi podejście pokrótce opisane powyżej; poker został wybrany z powodu istniejącej już na ten temat literatury i prowadzonych badań próbujących stosować podejścia tego typu Struktura pracy Struktura niniejszej pracy jest następująca: Rozdział 1 opisuje postawowe pojęcia używane w tej pracy, z zakresu teorii gier, sieci neuronowych i algorytmów ewolucyjnych. Rozdział 2 jest wprowadzeniem w tematykę pokera. Opisujemy w nim zasady gry w pokera Texas Hold em ze stałym limitem i strategie w pokerze. Rozdział 3 jest analizą poprzednich prac traktujących o obliczaniu strategii gry w pokera przez ewolucję sieci neuronowych. Rozdział 4 opisuje zakres przeprowadzonych przez nas eksperymentów. W Rozdziale 5 prezentujemy wyniki tychże eksperymentów. Rozdział 6 zawiera wnioski i sugeruje prace na przyszłość w tym temacie. Głównym celem naszej pracy było poprawienie wyników Noble a [10]. Wyniki przeprowadzonych eksperymentów pokazują, że rzeczywiście udało się tego dokonać. Wykazaliśmy, że nawet niewielkie zmiany w matematycznym modelu strategii czy w stosowanych algorytmach mogą prowadzić do dużo lepszych wyników. Należy jednak zaznaczyć, że równie małe zmiany mogą też odnieść zgoła przeciwny skutek i doprowadzić do powstania szczególnie słabych strategii. Cała trudność polega więc na tym, żeby przewidzieć, jakie zmiany mogą polepszyć wyniki, a jakie - pogorszyć. Odpowiedzi na to pytanie szukaliśmy właśnie w ramach tej pracy. 6

9 Rozdział 1 Podstawowe pojęcia W tym rozdziale opiszemy pojęcia używane w pracy: podstawowe pojęcia teorii gier, sieci neuronowe i algorytmy ewolucyjne Gry Definicja 1 (Strategia) Strategia to opis zachowań gracza, definiujący jego działanie w każdej możliwej sytuacji (stanie gry). Na ogół, decyzja nie jest wybierana jednoznacznie, ale raczej obliczane są prawdopodobieństwa z jakimi agent wykonuje każdy ruch. Dzięki podejmowaniu każdej z decyzji z pewnym niezerowym prawdopodobieństwem, nawet najprostsza strategia nie jest całkowicie przewidywalna. Strategie dzielimy na statyczne i dynamiczne, w zależności od tego, czy zmieniają się w trakcie gry. Będziemy utożsamiać graczy z ich strategiami. Definicja 2 (Równowaga Nasha) Rozważmy grę, w której bierze udział n graczy o ustalonych strategiach. Jeśli żadnemu z graczy nie opłaca się zmienić strategii (przy ustalonych strategiach przeciwników), powiemy, że strategie te są w równowadze Nasha. Innymi słowy, strategie są w równowadze Nasha jeśli każdy gracz gra optymalnie w stosunku do danych przeciwników. Kolejnym kryterium podziału strategii jest możliwość odniesienia przewagi nad innymi graczami. Strategie przybliżające równowagę Nasha mają na celu jak najlepszą grę z najgorszym (dla nas) możliwym przeciwnikiem. Ich głównym celem jest nie przegrać. Z drugiej strony są strategie maksymalne, tj. wykorzystujące możliwie najbardziej słabości przeciwników. Zauważmy jednak, że oddalając się od równowagi Nasha, strategie maksymalne przejawiają pewne słabości, przez co same stają się podatne na wykorzystanie przez innych graczy. Rozważmy teraz elementy pewnego uniwersum U. Załóżmy, że mamy m kryteriów oceny jakości elementów U; czyli jakość oceniamy funkcją f : U R m. Kryteria oceny są, z założenia, nieporównywalne. Przyjmijmy też, dla ułatwienia, że większe wartości f oznaczają lepszą ocenę. Definicja 3 (Pareto dominacja) Niech û, ˆv U, f(û) = (u 1, u 2,..., u m ), f(ˆv) = (v 1, v 2,..., v m ). Powiemy że û Pareto-dominuje ˆv, wtedy i tylko wtedy gdy i : u i v i. 7

10 Nieformalnie mówiąc, û dominuje ˆv jeśli jest od niego lepszy przy każdym kryterium oceny. Zauważmy, że jeżeli û nie dominuje ˆv ani ˆv nie dominuje û, to dla pewnego j mamy u j > v j, i dla pewnego k mamy u k < v k, czyli û i ˆv są nieporównywalne. Definicja 4 (Front Pareto) Dla danego zbioru U U, frontem Pareto zbioru U nazywamy zbiór wszystkich elementów z U, które nie są zdominowane (w sensie Pareto) przez żaden inny element z U Sieci neuronowe Definicja 5 (Sieć neuronowa) (Sztuczną) siecią neuronową z jedną warstwą ukrytą, o wejściach X = {x 1, x 2,..., x n }, neuronach ukrytych Y = {y 1, y 2,..., y m } i wyjściach Z = {z 1, z 2,... z k }, z funkcją aktywacji h : R R, nazywamy parę funkcji f 1 : X Y R, f 2 : Y Z R. Funkcje te nazywamy wagami krawędzi sieci neuronowej. Definicja 6 Wartością [z] wyjścia z sieci neuronowej zdefiniowanej tak jak powyżej jest gdzie gdzie [x] R oznacza wartość wejścia x. ( ) [z] = h [y] f 2 (y, z) y Y ( ) [y] = h [x] f 1 (x, y) x X Należy wspomnieć, że nie ma chyba uniwersalnej definicji sieci neuronowej. Istnieją modele znacznie bardziej skomplikowane niż zdefiniowany powyżej, taka definicja jednak wystarcza w naszym przypadku. Obszerniejszy opis sieci neuronowych można znaleźć np. w [14]. Przykład 1 (Sieć neuronowa) Poniżej przedstawiamy przykładową sieć neuronową o trzech wejściach, dwóch neuronach ukrytych i jednym wyjściu. Dla jasności, pominięte zostały zerowe wagi. x y 1 x z y x 3 x 1+ x. Taka funkcja akty- Przyjmijmy że funkcja aktywacji jest zdefiniowana jako h(x) = wacji została użyta w pracy Noble a [10]. 8

11 Dla sieci neuronowej z powyższego przykładu, dla [x 1 ] = 0.11, [x 2 ] = 0.6, [x 3 ] = 0.26 mamy [y 1 ] = h([x 1 ] 0.32) = h(0.0352) = 0.034, [y 2 ] = h([x 2 ] ( 0.17) + [x 3 ] 1.09) = h( ) = h(0.1814) = i wreszcie [z 1 ] = h([y 1 ] ( 0.42) + [y 2 ] 0.72) = h( ) = h(0.0962) = Należy wspomnieć tutaj o jednej szczególnej własności sieci neuronowych. Jeśli traktujemy sieć neuronową jako aproksymację funkcji wielu zmiennych, to prawdziwe jest Twierdzenie 1 (Cybenko) Użycie dwóch warstw ukrytych umożliwia osiągnięcie dowolnej dokładności aproksymacji dowolnej funkcji, przy dostatecznie dużej liczbie neuronów ukrytych. A przy pewnych założeniach na aproksymowaną funkcję wystarczy jedna warstwa ukryta: Twierdzenie 2 (Cybenko, Hornik et al.) Dowolna ciągła nieliniowa funkcja może być zaproksymowana z żądaną dokładnością za pomocą sieci neuronowej z jedną warstwą ukrytą zawierającą dostatecznie dużo neuronów ukrytych. Dowody tych twierdzeń można znaleźć w [3] i [6]. Problemem jest jednak to, że powyższe twierdzenia są niekonstruktywne. Dzięki nim wiemy, że dowolną funkcję możemy aproksymować pewną siecią, nie wiemy jednak jaką. Co prawda istnieją pewne dobre praktyki sugerujące strukturę sieci odpowiednią dla danego problemu. Na przykład uznaje się, że liczba neuronów w warstwie ukrytej powinna być równa mniej więcej pierwiastkowi z iloczynu liczby neuronów wejściowych i wyjściowych. Dokładniejszy opis można znaleźć np. w [8] czy [16]. Należy jednak pamiętać, że są to jedynie wskazówki i nie ma żadnej gwarancji, że zastosowanie tych rad będzie prowadzić do osiągnięcia dobrych wyników w każdym problemie. Sieć która dobrze aproksymuje daną funkcję może mieć dowolnie wiele neuronów ukrytych. Nie jest znany żaden sposób na obliczanie takich sieci. Z pomocą przychodzą nam algorytmy ewolucyjne Algorytmy ewolucyjne Historia algorytmów ewolucyjnych sięga połowy XX wieku [1]. Idea działania takich algorytmów jest prosta - mają służyć do symulowania procesu ewolucji biologicznej. Algorytmy ewolucyjne mogą być użyte do przeszukiwania przestrzeni rozwiązań pewnego problemu w celu znalezienia optymalnego (lub prawie optymalnego) rozwiązania, zwłaszcza tam gdzie inne metody zawodzą (np. przestrzeń rozwiązań jest zbyt duża). Rozwiązania problemu traktujemy jako osobników w procesie ewolucji. Zarys działania algorytmu ewolucyjnego wygląda następująco: 1. Wylosowanie początkowej populacji osobników 2. Proces ewolucji, w którym w każdym pokoleniu następuje: (a) Ocena obecnej populacji (selekcja) (b) Najlepiej ocenione osobniki biorą udział w reprodukcji poprzez krzyżowania (wytworzenie nowego elementu na podstawie dwóch wybranych) i mutacje (drobne losowe zmiany w pojedynczym osobniku) (c) W populacji zostają nowe osobniki i te najlepsze z poprzedniego pokolenia. Osobniki o słabej ocenie są odrzucane. 9

12 3. Ewolucja kończy się, gdy zostaną spełnione pewne warunki końcowe, np. przeminięcie określonej liczby pokoleń lub uzyskanie osobników o odpowiednio wysokiej ocenie. Obszerniejszy opis algorytmów ewolucyjnych można znaleźć w [5]. W tej pracy chcemy modelować strategie do gry w pokera przez sieci neuronowe (o ustalonej strukturze) i dokonywać ewolucji tych strategii za pomocą algorytmu ewolucyjnego opisanego powyżej. Należy wspomnieć, że takie podejście było badane już od długiego czasu; obszerne prace na ten temat można znaleźć np. w [7] czy [15]. W naszym zastosowaniu, ewolucja sieci neuronowych nie będzie zmieniać struktury sieci: liczba warstw i neuronów ukrytych pozostaje ta sama. Mutacje wprowadzają losowe zmiany w połączeniach między neuronami, a w wyniku krzyżowania dwóch sieci (rodziców) powstaje sieć, w której waga każdego połączenia między neuronami jest średnią z wag odpowiednich połączeń u rodziców. 10

13 Rozdział 2 Poker i strategie w pokerze 2.1. Texas Hold em ze stałym limitem W tym podrozdziale opiszemy pokrótce zasady gry w Pokera Texas Hold em ze stałym limitem (Fixed-Limit Texas Hold em). Obszerniejsze opisy zasad znajdują się w źródłach, np. [17]. Rozgrywka składa się z wielu rozdań, w których uczestniczy od 2 do 10 graczy. Dopuszcza się zmiany graczy (przyjście nowego gracza lub opuszczenie stolika przez obecnego gracza), ale tylko pomiędzy rozdaniami (skład nie może zmieniać się podczas rozdania). W każdym rozdaniu jeden z graczy jest rozdającym (dealer), a dwóch kolejnych (na lewo od rozdającego, zgodnie z ruchem wskazówek zegara) wnosi do puli wymuszone stawki: tzw. małą ciemną i dużą ciemną. Następnie każdemu z graczy rozdawane są po dwie karty, poczynając od gracza na lewo od rozdającego i rozdając zgodnie z ruchem wskazówek zegara. Są to tzw. zakryte karty (hole cards), widoczne tylko ich właścicielom. W tym momencie zaczyna się pierwsza runda licytacji (pre-flop). W każdej z czterech rund licytacji, każdy z graczy ma do wyboru trzy możliwości: spasować (fold) Gracz który spasuje, traci wszystkie żetony, które wniósł do puli w tym rozdaniu i nie bierze już udziału w dalszej części rozdania. sprawdzić (call) Gracz może wyrównać wartość obecnego zakładu, wnosząc do puli odpowiednią ilość żetonów podbić stawkę (raise) Gracz może podbić wartość obecnego zakładu. W wersji pokera ze stałym limitem, można podbijać tylko o ustalone stawki, np. $1 w pierwszych dwóch rundach i $2 w kolejnych trzech rundach. Każdą rundę licytacji zaczyna gracz na lewo od gracza który wniósł dużą ciemną, a licytacja postępuje zgodnie z ruchem wskazówek zegara. Runda kończy się, jeśli wysokość zakładu zostanie ustalona przez graczy (po tym jak żaden z graczy nie ma zamiaru podbijać, czyli gdy wszyscy sprawdzą lub spasują). W wersji pokera ze stałym limitem mamy też dodatkowe ograniczenie: w jednej rundzie licytacji żaden gracz nie może podbić więcej niż trzy razy. Po pierwszej rundzie licytacji, rozdawany jest flop: trzy karty wspólne (community cards), widoczne dla każdego z graczy. Dochodzi wtedy do drugiej tury licytacji, w której biorą udział wszyscy gracze którzy dotychczas nie spasowali, i ponownie licytując, ustalają wysokość 11

14 zakładu. Ponownie, kiedy wszyscy aktywni gracze wniosą do puli taką samą ilość żetonów, wykładana jest czwarta karta (turn). Na tych samych zasadach dochodzi do trzeciej rundy licytacji, po której wykładana jest piąta karta (river), po czym ma miejsce ostatnia runda licytacji. Po ostatniej rundzie licytacji następuje wyłożenie kart w celu wyłonienia zwycięzcy. Wygrywa (i zdobywa wszystkie żetony z puli) ten z graczy, który z pięciu kart wspólnych i (swoich) dwóch zakrytych ułoży najlepszy układ. Zwycięzca może też zostać wyłoniony wcześniej, jeśli w którymkolwiek momencie wszyscy poza jednym graczem spasują. Możliwymi układami kart są, od najmocniejszego: Poker (5 kolejnych kart w jednym kolorze; np. 4 karo 8 karo) Kareta (4 karty tej samej wartości) Full (trójka i para) Kolor (5 kart w tym samym kolorze) Strit (5 kolejnych kart nie w kolorze) Trójka (3 karty tej samej wartości) Dwie pary Para Wysoka karta Jeśli więcej niż jeden gracz ma ten sam układ (np. karetę), wygrywa ten, który ma najwyższe karty. W przypadku remisu, pula jest dzielona pomiędzy zwycięzców. Nie będziemy tutaj wchodzić w szczegóły zasad, można je znaleźć w źródłach. Celem gry jest zdobycie jak największej liczby żetonów w całej rozgrywce Texas Hold em bez limitu Należy tutaj wspomnieć także o innej, bardziej popularnej odmianie pokera Texas Hold em: wersji bez limitu. Od opisanej powyżej różni się tylko tym, że stawki można podbijać dowolnie wysoko; gracz może nawet wnieść do puli wszystkie swoje żetony (tzw. wejście za wszystko, all in). Mimo że coraz więcej graczy wybiera wersję bez limitu, nie będziemy się nią zajmować, z kilku powodów. Po pierwsze, decyzja do podjęcia jest trudniejsza: jest więcej możliwych decyzji niż tylko pas, sprawdzenie, podbicie. Po drugie wydaje się, że nawet drobna zmiana strategii może mieć drastyczny wpływ na wynik, dużo większy niż w wersji ze stałym limitem. Nawet jeden zły ruch (np. wejście all-in w złym momencie) może zepsuć całą dobrą grę. Wersję bez limitu, jako trudniejszą, zostawiamy na przyszłe badania. Reszta naszych rozważań dotyczy tylko wersji pokera Texas Hold em ze stałym limitem Strategie w pokerze Texas Hold em ze stałym limitem W kontekście pokera ze stałym limitem, strategia (patrz definicja 1) odwzorowuje stan gry w jedną z trzech decyzji jaką podejmuje agent: pas, sprawdzenie, podbicie. 12

15 Strategie gry w pokera, zwłaszcza te zrealizowane w postaci programu komputerowego, są często określane mianem pokerbotów. Badania nad nimi są prowadzone już od długiego czasu. Pokrótce opiszemy teraz różne podejścia do pokerbotów prezentowane w publikacjach naukowych. Należy pamiętać, że przedstawiona tu lista możliwych podejść zdecydowanie nie jest kompletna, nie staramy się też opisywać ich zbyt szczegółowo. Dokładniejszy opis można znaleźć w [12], a niezmiernie dokładny przegląd w [2] Strategie oparte na wiedzy (knowledge-based) Do stworzenia strategii opartej na wiedzy potrzebny jest znawca tematu pokera. Taki znawca stara się zaprojektować wygrywającą strategię, korzystając ze swojej wiedzy i doświadczenia. Najprostszym przykładem jest zestaw pewnych reguł: np. jeśli masz parę asów, zawsze podbijaj albo jeśli obie twoje karty są niższe niż 9 i pewien gracz podbił, to spasuj. Trochę bardziej wyrafinowane jest użycie pewnych wskaźników opisujących np. siłę ręki gracza czy ryzyko jakie trzeba podjąć żeby pozostać w grze. Problemy są łatwe do zauważenia: jest niezwykle trudne stworzyć niesprzeczny zbiór reguł pokrywający wszystkie przypadki w grze. Dlatego, pokerboty tego typu często utożsamiają ze sobą zbyt wiele istotnie różnych stanów gry, podejmując w nich tę samą decyzję. Strategie powstałe w wyniku takiego podejścia są poza tym statyczne, a to może być wykorzystane przez innych graczy Strategie oparte na symulacji rozgrywki W tym podejściu staramy się przejrzeć drzewo gry w celu znalezienia najlepszego ruchu. W przeciwieństwie do tradycyjnego algorytmu minimax, drzewo gry przeglądamy losowo (ponieważ nie umiemy przewidzieć optymalnych ruchów pozostałych graczy, ani tego jakie karty zostaną rozdane). Symulujemy tak przebieg rozgrywki aż do wyłożenia kart, kiedy możemy ocenić ile żetonów wygramy lub przegramy, gdy gra potoczy się w ten sposób. Przeprowadzając taką losową symulację wiele razy, możemy estymować wartość oczekiwaną wygranej w zależności od decyzji podjętej na początku. Strategie powstałe w wyniku tego podejścia niestety (wbrew być może intuicji) nie są o wiele lepsze niż strategie oparte na wiedzy, potrafią wygrywać tylko ze słabymi, niedostosowującymi się przeciwnikami Strategie przybliżające równowagę Nasha W tym podejściu, przy pomocy rozważań z teorii gier, starano się obliczać strategie grające jak najlepiej z każdym możliwym przeciwnikiem. Powstałe w wyniku tego strategie, nawet jeśli nie przegrywają z dobrymi graczami, minimalnie wygrywają ze słabymi Strategie wykorzystujące słabości Kolejną kategorię tworzą strategie zupełnie z przeciwnego bieguna: starające się jak najbardziej wykorzystywać słabości przeciwników. Ważną cechą wspólną takich strategii jest modelowanie przeciwnika. Podejmują one decyzje na podstawie oczekiwanych decyzji innych graczy, które są przewidywane dzięki modelowaniu przeciwników. Modelowanie przeciwników można realizować na wiele różnych sposobów. Prostym przykładem modelu przeciwnika są statystyki mówiące np. jak często podejmuje on poszczególne 13

16 decyzje. Bardziej wyrafinowane podejście mogłoby przeanalizować zapisy rozgrywek dostępnych online i pogrupować strategie tam napotkane na podstawie, ogólnie mówiąc, stylu gry następnie starać się dopasować przeciwnika do znanych już modeli Inne podejścia Oczywiście, stosowane są też inne podejścia. Przykładem może być użycie sieci bayesowskich albo wnioskowanie z przypadków (case-based reasoning), w którym staramy się zapamiętywać wszystkie sytuacje napotkane w dotychczasowych grach, razem z najlepszymi ruchami w tych sytuacjach. Kiedy mamy do podjęcia nową decyzję (w nowej sytuacji), porównujemy ten przypadek z przypadkami napotkanymi wcześniej, wybierając ruch np. przy użyciu algorytmu k najbliższych sąsiadów. Na szczególną uwagę zasługuje jednak, według nas, jeszcze inne podejście, zaproponowane przez Noble a [10]. Jest to zastosowanie sieci neuronowych i algorytmów ewolucyjnych. Strategie przedstawiamy jako sieci neuronowe, które jako wejścia mają podłączone informacje na temat obecnego stanu gry (a być może także o przebiegu wcześniejszych rozgrywek z tymi samymi graczami), a wyjściami są relatywne prawdopodobieństwa podjęcia każdej z decyzji. Jednak wbrew, być może, oczekiwaniom, nie uczymy tych sieci na żadnych danych treningowych. Uczenie odbywa się poprzez ewolucję strategii. Idea ewolucji została pokrótce opisana w sekcji 1.3, szczegółowy opis jest zamieszczony w sekcji 3.3. Zastanówmy się, jakie są konsekwencje przyjęcia tego podejścia do problemu. Znaną własnością sieci neuronowych jest to, że neurony w warstwach pośrednich reprezentują pewne cechy stanu gry. Sieci uczą się obliczać te cechy, a na podstawie ich wartości podejmowana jest decyzja. Nie ma tu znaczenia czy sieci są uczone metodą propagacji wstecznej, czy w wyniku ewolucji: niestety, nie wiemy jakie cechy reprezentują te neurony. Spodziewamy się, że w wyniku ewolucji powstaną dobre strategie. Jednak wiemy że ciężko zrozumieć jak naprawdę działa taka sieć neuronowa, zwłaszcza gdy ma wiele wejść, wiele neuronów i połączeń między nimi. Musimy więc pogodzić się np. z tym, że nie będziemy umieli delikatnie zmienić otrzymanej strategii żeby poprawić jej działanie w przypadkach z którymi nie radzi sobie zbyt dobrze. Ale z drugiej strony nie wymaga to praktycznie żadnej wiedzy z dziedziny pokera. Strategie walczą między sobą, dosyć łatwo też ocenić która z nich jest lepsza. Nowe strategie powstają same w wyniku ewolucji. W przypadku, gdy ewolucja zaczyna się od losowych sieci, do stworzenia dobrych strategii wystarczy sama znajomość zasad pokera. Niestety, sieci neuronowe w tym przypadku są ciężkie do uczenia klasyczną metodą propagacji wstecznej. Wynika to stąd, że nie zawsze wiadomo jak stwierdzić, czy podjęta decyzja jest dobra czy zła. Ciężko ocenić jakość pojedynczej decyzji, np. kiedy agent gra zgodnie ze swoją taktyką, której nie znamy bądź nie rozumiemy. Nie jest to wielki problem w naszym przypadku chcemy, by uczenie odbywało się przez ewolucję. Dzięki temu omijamy wspomnianą wadę pokerbotów jako sieci neuronowych. Wydaje się więc, że tworzenie strategii pokera za pomocą algorytmów ewolucyjnych jest idealnym tematem do badań. Poprzednie prace z tego tematu pokazują, że w wyniku takiego podejścia powstają zaskakująco dobre strategie. W tej pracy chcielibyśmy potwierdzić zasadność tego podejścia w ogólności. Dokładniej zaś, chcemy pójść dalej i poprawić rezultaty pracy Noble a [10]. 14

17 Rozdział 3 Poprzednie prace Niniejszy rozdział przedstawia poprzednie publikacje mające szczególne znaczenie dla tej pracy. Wszystkie z nich próbują obliczać strategie gry w pokera za pomocą algorytmów ewolucyjnych. Każdą wymienioną pracę oceniamy pod względem następujących kryteriów: Reprezentacja strategii Modelowanie przeciwników Sposób oceniania agentów Wiarygodność oceny agentów Optymalizacje parametrów 3.1. Klasyfikacja wzorców zachowań w pokerze bez limitu: podejście ewolucyjne head-start [4] Opis modelu agenta Warto zauważyć, że autorzy skupiają się na wersji pokera Texas Hold em bez limitu, co jak zauważyliśmy jest trudniejszym wariantem pokera. Praca jest godna uwagi, mimo że nie modeluje strategii jako sieci neuronowe. Agenci rozważani w pracy podejmują jedną z pięciu możliwych decyzji (pas, sprawdzenie, małe / średnie / duże podbicie) na podstawie trzech czynników wynikających z przebiegu gry i z obecnego jej stanu: siły ręki, agresywności przeciwników i ryzyka. Te własności zasługują na krótkie wyjaśnienie. Siła ręki jest zdefiniowana jako prawdopodobieństwo zdarzenia "moja ręka jest najlepsza ze wszystkich przy stole", przy założeniu, że wszystkie karty przeciwników zostały wylosowane z rozkładem jednostajnym. Ryzyko jest to wartość starająca się opisać, jak bardzo ryzykowna jest (dla danego agenta) dalsza gra, czyli przynajmniej wyrównanie obecnej stawki. Jest ono wyliczane tylko na podstawie dwóch wartości: ilości żetonów w puli i wysokości obecnej stawki. 15

18 Agresywność Przy każdym ruchu przeciwnika jest przewidywana siła jego ręki. Konkretnie, agent sprawdza przy jakiej sile ręki on podjąłby taką samą decyzję (przy ustalonym ryzyku). Następnie, agresywność decyzji jest zdefiniowana jako różnica między estymowaną siłą ręki a wartością oczekiwaną siły ręki przeciwnika, przy założeniu że jego ręka jest wylosowana z rozkładu jednostajnego. Agresywność gracza jest wyliczana z agresywności podejmowanych przez niego decyzji. Zauważmy - wartość ta opisuje więc jak bardzo agresywny przeciwnik wydaje się być dla danego agenta. Agresywność nie jest używana bezpośrednio jako czynnik decyzyjny. Zamiast tego, siła ręki gracza jest odpowiednio modyfikowana przy uwzględnieniu średniej agresywności przeciwników. Warto zauważyć, że w przeciwieństwie do sieci neuronowych, estymowane własności stanu gry (siła ręki i ryzyko) są tu zdefiniowane explicite i wyliczane według ustalonych wzorów. Tej własności sieci neuronowe nie mają; starają się jedynie, w pewien sposób przy pomocy neuronów w warstwie pośredniej, uchwycić pewne cechy stanu gry (nie wiadomo tak naprawdę jakie). Oba czynniki (siła ręki, ryzyko) zostały znormalizowane do przedziału [0, 1]. Strategie są reprezentowane jako krotki funkcji [0, 1] 2 [0, 1], mówiące dla danej siły ręki i ryzyka z jakim (relatywnie) prawdopodobieństwem powinna być podjęta jaka akcja. Dokładniej, dla każdej możliwej decyzji d { pas, sprawdzenie, małe podbicie, średnie podbicie, duże podbicie } mamy osobną funkcję f d [0, 1] 2 [0, 1]. W każdym momencie, dla danego ryzyka r i siły ręki hs, agent podejmuje decyzję d z prawdopodobieństwem Opis ewolucji f d(r,hs) Σ d f d (r,hs). Na takich strategiach odbywała się ewolucja, która jednak została opisana niezbyt szczegółowo: nie wiemy ilu osobników znajdowało się w populacji, ile generacji składało się na proces ewolucji, ile gier / rozdań odbywało się w jednej generacji itd. Wiemy jednak, że autorzy rozważyli trzy różne typy agentów: data-driven, scratch i head-start (nazwy tak jak użyte w pracy), oznaczające odpowiednio: agentów nauczonych na danych treningowych bez użycia ewolucji, agentów wyewoluowanych z losowych funkcji i agentów wyewoluowanych z agenta data-driven. Eksperymenty pokazały, że strategie head-start najlepiej radziły sobie z każdym rodzajem przeciwników (tj. z agentami innych typów, z prostymi strategiami typu "zawsze pas" lub losową, a także z ludźmi), co nie powinno być zaskoczeniem dla czytelnika Problemy z pracą Problemów z tą pracą jest kilka, część z nich zauważyli sami autorzy. Przede wszystkim: Reprezentacja strategii Jedynymi czynnikami branymi pod uwagę przy podejmowaniu decyzji jest wspomniane już ryzyko i siła ręki gracza. W rezultacie, strategia jest opisana przez funkcję [0, 1] 2 [0, 1] 5. Wydaje się, że te informacje mogą być niewystarczające do podejmowania odpowiednich decyzji; zbyt dużo informacji o stanie gry jest pomijanych (np. potencjał ręki, czyli szanse na to że w następnej fazie gry siła ręki się polepszy, obecna faza gry, ilość graczy) lub ich znaczenie jest zmniejszone (np. duża agresywność pojedynczego gracza nie będzie właściwie zauważona). To może powodować, że zbyt wiele różnych sytuacji (w których oczekiwalibyśmy różnych 16

19 decyzji) zostanie utożsamionych i potraktowanych tak samo. Widać to na przykładzie agentów scratch, tj. ewoluowanych z losowych strategii: funkcje opisujące takich agentów są niezwykle proste. Taka reprezentacja strategii ma jedną zaletę: można łatwo przedstawić graficznie agenta i jest szansa na zrozumienie jego działania, co w przypadku sieci neuronowych jest praktycznie niemożliwe. Wydaje się jednak, że zaleta ta nie rekompensuje wad tak ubogiej reprezentacji. Modelowanie przeciwników Jedynym co można zakwalifikować jako modelowanie przeciwnika, jest ocena jego agresywności, która następnie jest mimo wszystko "gubiona" przez potraktowanie jej jako części oceny siły ręki. Nie są brane pod uwagę czynniki takie jak rozkład poszczególnych decyzji u przeciwników czy nawet decyzje podjęte przez nich w trakcie obecnego rozdania. Sposób oceniania agentów Agenci są oceniani według miejsca, które zajęli w rozgrywkach, a więc pojedynczą liczbą. Taki sposób nawet jeśli ocenia w pewien sposób czy agent A jest lepszy czy gorszy od B, nie ocenia tego jak bardzo jest on lepszy lub gorszy. Mogłoby to być akceptowalne w przypadku pokera Hold em ze stałym limitem, jednak w wersji bez limitu zyski lub straty mogą być ogromne. Wydaje się, że informacja na temat zysków / strat agenta w trakcie turnieju byłaby lepszym wyznacznikiem jego jakości. W szczególności agent, który często wygrywa minimalnie, ale od czasu do czasu przegrywa wszystkie swoje pieniądze przy takim sposobie oceniania dostaje wysoką ocenę; być może np. agent który często minimalnie przegrywa, ale od czasu do czasu bardzo znacząco wygrywa, powinien zostać oceniony lepiej. W pracy znajdujemy, że niewiarygodnie prymitywna strategia "zawsze pas" wcale nie wygląda źle na tle agentów wytworzonych w procesie ewolucji, co z jednej strony świadczy o jakości wyewoluowanych agentów, z drugiej jednak strony - gdyby wyniki przedstawić w postaci zysków / strat, nikt nie zwróciłby uwagi na taką strategię. Wiarygodność oceny agentów Właściwie wszystkie przeprowadzone eksperymenty porównują agentów powstałych w pracy między sobą. Jest zaledwie wspomniane, że agenci grali też przeciwko autorom. Brak jednak szczegółowych porównań np. z graczami on-line, lub z referencyjnymi strategiami innymi niż "zawsze pas" czy losową (więc na przykład z agentami powstałymi w innych pracach). W rezultacie ciężko jest obiektywnie ocenić jakość powstałych agentów. Optymalizacja parametrów Zostało przeprowadzonych bardzo niewiele eksperymentów sprawdzających np. inne funkcje liczące ryzyko czy agresywność, inne definicje małego / średniego / dużego zakładu, a nawet parametry samej ewolucji jak np. ilość generacji, ilość osobników w populacji czy częstość / rodzaj mutacji. Jest ewidentne, że nawet małe zmiany parametrów potencjalnie mogłyby prowadzić do lepszych wyników. 17

20 3.2. Agenci pokera Texas Hold em bez limitu tworzeni przez ewolucję sieci neuronowych [9] Ta publikacja opisuje wyniki prac kontynuowanych przez dwóch członków zespołu pracującego nad pracą wspomnianą powyżej. Widać jednak istotny postęp, w szczególności: Strategie są reprezentowane jako sieci neuronowe Rozważone są dodatkowe mechanizmy mające wspomagać ewolucję agentów: ko-ewolucja i galeria najlepszych wyników (hall of fame) Opis modelu agenta Strategie są reprezentowane przez sieci neuronowe o ustalonej strukturze: 35 neuronów wejściowych, 20 ukrytych, 5 wyjściowych - odpowiadających tym samym decyzjom co w poprzedniej pracy. Wejściami dla sieci są: ilość żetonów w puli, obecna wysokość zakładu, ilość przeciwników, odsetek wygrywających rąk, i dla każdego przeciwnika: ilość jego żetonów oraz jego całkowita i chwilowa agresywność. Aby obliczyć odsetek wygrywających rąk, wielokrotnie przeprowadzana jest symulacja wszystkich pozostałych kart. Dla każdego przypadku (po wylosowaniu przyszłych kart), można łatwo ocenić czy dana ręka wygra, zremisuje czy przegra jeśli dojdzie do pokazania kart. Odsetek wygrywających rąk ma być kompromisem pomiędzy siłą ręki a jej potencjałem. Agresywność gracza jest średnią z agresywności jego decyzji, gdzie pas ma agresywność 0, sprawdzenie - 1, a podbicie - x/bet jeśli agent podbił o x przy minimalnej wartości zakładu bet. Chwilowa agresywność jest liczona jako średnia agresywność z ostatnich 10 rozdań. Zostały więc rozwiązane problemy poprzedniej pracy: uboga reprezentacja strategii i prymitywne modelowanie przeciwników Problemy z pracą Reprezentacja strategii Wydaje się, że struktura sieci jest nietypowa (patrz sekcja 1.2 i [8], [16]): aż 25 neuronów pośrednich przy 35 wejściowych. Ponadto, w wejściach sieci nadal brakuje ważnych informacji o grze, np. ilości pozostałych żetonów, pozycji gracza. Być może zasadne byłoby też osobne wejście sieci na siłę ręki i osobne na jej potencjał, zamiast jednego na odsetek wygrywających rąk; są to współczynniki łatwe do obliczenia, znane i używane w środowisku pokerowym. Wiarygodność oceny agentów Podobnie jak w poprzedniej pracy, agenci są oceniani według miejsca zajętego w turnieju, co nie mówi nic o zyskach / stratach. Pomijając ten fakt, agenci są porównywani z najlepszymi agentami wyewoluowanymi z poprzedniej pracy (najlepszy data-driven, najlepszy head start i najlepszy scratch) oraz z następującymi strategiami referencyjnymi: zawsze pas, zawsze sprawdzaj, zawsze podbijaj, zawsze sprawdzaj lub podbijaj (50% szans na każdą z decyzji). Jest ewidentne, że takie referencyjne strategie mają mało wspólnego z rzeczywistością - można zaryzykować stwierdzenie, że nikt nie gra w pokera używając takich strategii. Z takimi przeciwnikami najlepsi wyewoluowani agenci zajmują średnio 3 miejsce w turnieju (agenci są oceniani w ten sam sposób co w poprzedniej pracy - średnie miejsce zajęte w turnieju). Niestety, trzeba przyznać - taki sposób przedstawienia wyników nie mówi zbyt wiele. 18

Pokazać jeszcze