TEORIA GIER GRA DEFINICJA (VON NEUMANN, MORGENSTERN) Gra składa się z zestawu reguł określających możliwości wyboru postępowania jednostek (graczy) znajdujących się w sytuacji konfliktowej (konflikt interesów),w której każda z jednostek stara się maksymalizować swój własny zysk i jednocześnie zminimalizować zysk pozostałych jednostek. Reguły gry określają ilość informacji dostępnych jednostkom oraz wysokość wygranych i przegranych.
ELEMENTY CHARAKTERYZUJĄCE GRĘ gracze: co najmniej dwóch (np. ludzie, firmy, państwa, gatunki) strategie: każdy z graczy ma do wyboru pewną określoną liczbę sposobów rozgrywania przez niego gry wynik gry: determinowany przez kombinację strategii wybranych przez graczy wypłaty: odpowiednie do wyniku przypadające każdemu graczowi zasady: ustalone i niezmienne w trakcie całej gry 2
PODZIAŁ GIER W ZALEZNOŚCI OD PRZYJĘTEGO KRYTERIUM () ze względu na liczbę graczy: bezosobowe (ang. zero-player games) gra w życie Convay s life, jednoosobowe (ang. one-player games) puzzle, pasjans, dwuosobowe (ang. two-player games) warcaby, szachy, backgammon, wieloosobowe (ang. multi-player games) brydż, poker, chińczyk ze względu na liczbę ruchów: jednochodowe papier-kamień-nożyce, wielochodowe szachy, warcaby, domino, brydż 3
PODZIAŁ GIER W ZALEZNOŚCI OD PRZYJĘTEGO KRYTERIUM (2) ze względu na zainteresowanie graczy wynikiem gry: antagonistyczne cele graczy są przeciwstawne; dążą oni do maksymalizowania swojej wygranej i, co za tym idzie, do minimalizowania wygranej przeciwnika, nieantagonistyczne (czasem nazywane grami z przyrodą) gracze, przynajmniej jeden, nie dąży do maksymalizowania swojej wygranej [teoria gier nieantagonistycznych wchodzi w zakres teorii podejmowania decyzji] 4
PODZIAŁ GIER W ZALEZNOŚCI OD PRZYJĘTEGO KRYTERIUM (3) ze względu na wygraną i przegraną: gry o sumie zerowej (ang. zero-sum games) wygrana jednego gracza oznacza przegraną drugiego [szachy, poker], gry o sumie niezerowej (ang. non-zero-sum games) ze względu na rodzaj współpracy graczy: kooperacyjne (ang. cooperative) gracze współpracują ze sobą (gry ekonomiczne), niekooperacyjne (ang. non-cooperative) 5
PODZIAŁ GIER W ZALEZNOŚCI OD PRZYJĘTEGO KRYTERIUM (4) ze względu na posiadaną informację: o pełnej informacji każdy gracz wybierając swój kolejny ruch posiada pełną informację o aktualnej sytuacji oraz o możliwościach przeciwnika [szachy, chińczyk], o niepełnej informacji każdy gracz wybierając swój kolejny ruch pozbawiony jest pełnej informacji o aktualnej sytuacji i możliwościach przeciwnika [domino, scrabble, brydż] 6
PODZIAŁ GIER W ZALEZNOŚCI OD PRZYJĘTEGO KRYTERIUM (5) ze względu na występowanie elementu losowości: całkowicie losowe ruletka, lotto, częściowo losowe brydż, scrabble, domino, zdeterminowane warcaby, szachy, go Każdą grę można scharakteryzować za pomocą kryteriów klasyfikacji: szachy: dwuosobowa, wielochodowa, antagonistyczna, o sumie zerowej, niekooperacyjna, o pełnej informacji, zdeterminowana ruletka: jednoosobowa, jednochodowa, nieantagonistyczna, o sumie zerowej, niekooperacyjna, o niepełnej informacji, całkowicie losowa 7
KOMPLETNA TEORIA RACJONALNEGO ROZGRYWANIA GIER w ogólnym ujęciu, możliwe jest opisywanie za pomocą pojęć z zakresu teorii gier, sytuacji społecznych: strategie korporacyjne, kampanie wyborcze, natura powinien zatem istnieć sposób właściwego postępowania w każdej sytuacji konfliktu i kooperacji czy istnieje? niestety nie, ponieważ:. nie zawsze znana jest: liczba graczy, ich strategie, wyniki i odpowiadające im wypłaty 2. nie zawsze spełnione jest założenie teorii gier o racjonalnym zachowaniu się graczy 3. trudno przewidzieć przebieg gry, w której interesy graczy nie są dokładnie przeciwstawne i takich, w których bierze udział więcej niż dwóch graczy 8
*GRA N-OSOBOWA[5] Załóżmy, że zadany jest pewien zbiór ruchów M = {m, m2,, mk}. W zbiorze M można wyróżnić n podzbiorów M, M2,, Mn, które w ogólnym przypadku nie muszą być rozłączne. Zbiór Mi jest zbiorem dopuszczalnych ruchów gracza Gi (i =, 2,, n). Gra polega na dowolnym wyborze przez graczy ruchów należących do zbioru ruchów dopuszczalnych dla danego gracza. Możliwe są dwa rodzaje ruchów: określone gracz wybiera w danym posunięciu ruch według określonych kryteriów, losowe wybór ruchu następuje według jakiegokolwiek mechanizmu losowego. Zespół ruchów wykonywanych od początku gry określa sytuację/stan gry bj B, B = {b, b2,, bl}. W zbiorze B można wydzielić podzbiór B B, którego elementami są sytuacje/stany końcowe. Wykonanie ruchu doprowadzają- 9
ce do sytuacji końcowej jest równoznaczne z zakończeniem gry. Każda sytuacja końcowa określa jednoznacznie wygrane i przegrane graczy oraz odpowiadają jej wypłaty pomiędzy graczami. Przyporządkowanie to wyznacza funkcję wypłat f, określoną na zbiorze sytuacji/stanów końcowych. Ruch gracza w każdym stanie jest przyporządkowany pewnym regułom (zależnym od sytuacji/stanu) oraz od możliwości gracza. Reguły te wyznaczają w zbiorze ruchów gracza Gi wydzielenie podzbioru M i M ruchów dozwolonych w danej sytuacji. Aby gra była określona, zadane powinny być: zbiory Mi, funkcja f, reguły wydzielania podzbiorów Mi w dowolnej sytuacji bj z uwzględnieniem możliwości gracza Gi. [porównaj z ELEMENTY CHARAKTERYZUJĄCE GRĘ] W tę definicję wpisują się wszystkie podziały gier poczynione wcześniej. 0
*GRAFICZNE PRZEDSTAWIENIE GRY +0-0 +2-2 +6 +2-6 -0 i i i i i i i i 2 2 2 2 2 2 2 2 i i i i 2 2 2 2 i i 2 Rys.. Drzewo gry [5]
Węzłom drzewa odpowiadają sytuacje/stany. Krawędzie opisane są elementami zbioru M i. Przy węzłach kolorowych podane są wartości wypłat im odpowiadających. Dowolna droga w drzewie gry reprezentuje partię gry (ciąg ruchów wykonywanych przez graczy). Liczba możliwych partii jest równa liczbie sytuacji/stanów końcowych [na rys.. jest ich osiem 8]. *STRATEGIA RUCHU I STRATEGIA PEŁNA GRY Strategia ruchu (np.: i, i 2 ; góra numer gracza; dół numer strategii ruchu w zbiorze strategii) gracza Gi to wybór jednego z możliwych w danej sytuacji/stanie ruchów. Strategia gry (strategia pełna gry) gracza Gi to zespół wytycznych, na podstawie których wybiera on ruchy w dowolnej sytuacji/stanie lub dokładniej niezależnie od posiadanej informacji o grze. 2
Wybór strategii gry dokonywany jest w oparciu o pewną funkcję decyzyjną określoną na zbiorze strategii, a opartą o informację, jaką gracz Gi posiada o grze. W przypadku gier jednochodowych strategie ruchu pokrywają się ze strategiami pełnymi. 3
*OBJETOŚĆ INFORMACYJNA I ZBIORY INFORMACYJNE Objętość informacyjna, jaką wykorzystuje gracz, wybierając kolejny ruch, to liczba sytuacji/stanów, w których dana gra może aktualnie się znajdować. +0-0 +2-2 +6 +2-6 -0 i i i i i i i i 2 2 2 2 2 2 2 2 i i i i 2 2 2 2 i i 2 Rys.2. Drzewo gry z zaznaczonym zbiorem informacyjnym 4
Jeżeli gracz G wykonując ruch trzeci nie zna ruchu gracza G2 w poprzednim posunięciu, nie może stwierdzić, w której z dwóch sytuacji (zaznaczone linią przerywaną na rys.2.) znajduje się aktualnie gra. Zbiorem informacyjnym nazywamy wszystkie sytuacje/stany wewnątrz zakreślonego (rys.2.) obszaru. Jeżeli gra jest gra o pełnej informacji, wtedy wszystkie zbiory informacyjne na drzewie gry składałyby się z jednej sytuacji. *MACIERZ GRY Rozpatrzmy grę, której drzewo gry pokazane jest na rys.2. Zgodnie z zasadami gry ruch gracza G2 nie jest znany graczowi G zanim wykona on drugie posunięcie. Liczba strategii ruchu gracza G = 2 w każdym posunięciu, Liczba strategii ruchu gracza G2 = 2 w każdym posunięciu, Liczba strategii pełnych dla gracza G = 4, Liczba strategii pełnych dla gracza G2 = 4, 5
Jeżeli oznaczymy przez Sij j-ty ciąg ruchów gracza Gi w danej partii, to dla gry dwuosobowej można zbudować macierz gry o wymiarach S x S 2, gdzie S i S 2 to liczby różnych ciągów ruchów gracza G i G2, możliwych do wykonania w danej grze. Elementami macierzy niech będą wartości wypłat. Każda partia kończy się po trzech ruchach. W każdym posunięciu gracze może wybrać jeden z dwóch możliwych ruchów. Gracz G dysponuje czterema różnymi ciągami ruchów: S = i, i ; S 2 = i, i 2; S 3 = i 2, i ; S4 = i 2, i 2. Gracz G2 dysponuje dwoma różnymi ciągami ruchów: S2 = i 2 ; S22 = i 2 2. 6
Macierz gry S ma następującą postać: S = S2 S22 S +0 +2 S2-0 -2 S3 +6-6 - S4 +2 0 7
*WYBÓR STRATEGII STATEGIE MAKSYMINOWA I MINIMAKSOWA Gracz G zainteresowany jest/dąży do znalezienia takiej strategii, która zapewni mu maksymalną wygraną (tu: wartości wypłat ze znakiem +) i jest to równoważne ze znalezieniem w macierzy takiego wiersza, którego najmniejszy element jest największy w porównaniu ze wszystkimi najmniejszymi elementami pozostałych wierszy w macierzy. Zatem, 8
strategia optymalna dla gracza G osiągnięta zostanie gdy: α* = max min aij i j gdzie: aij element macierzy gry; i =, 2,, l; j =, 2,, m; l liczba strategii pełnych gracza G; m liczba strategii pełnych gracza G2. Znaleziona w ten sposób strategia nazywa się strategią maksyminową [tu: S; α* = +2]. 9
Gracz G2 również zainteresowany jest/dąży do znalezienia takiej strategii, która zapewni mu maksymalną wygraną (tu: wartości wypłat ze znakiem -) i jest to równoważne ze znalezieniem w macierzy takiej kolumny, której największy element jest najmniejszym w porównaniu ze wszystkimi największymi elementami pozostałych wierszy w macierzy. Zatem, strategia optymalna dla gracza G2 osiągnięta zostanie gdy: β* = min max aij j i Znaleziona w ten sposób strategia nazywa się strategią minimaksową [tu: S22; β* = +2]. *PUNKT SIODŁOWY I WARTOŚĆ GRY 20
Jeżeli α* = max min aij = min max aij = β* i j j i wtedy, gra posiada punkt siodłowy, a element wyznaczony na podstawie powyższej równości nazywa się wartością gry [tu: α* = β* = +2]. Gry posiadające punkt siodłowy [tu: +2] są grami o pełnej informacji. 2
*STRATEGIE MIESZANE W przypadku, gdy gra nie posiada punktu siodłowego gracze wybierają swoje strategii gry w sposób losowy, aby przeciwnik nie był w stanie odkryć prawidłowości przy wyborze strategii. Wybór taki może być dokonywany za pomocą prawa rozkładu dyskretnej zmiennej losowej ξ. Zmienna losowa ξ przyjmuje wartości całkowite odpowiadające numerom strategii pełnych, którymi dysponuje gracz (pl oznaczają prawdopodobieństwa wyboru w danym posunięciu strategii i). Strategia określona jako ciąg wyborów strategii pełnych na podstawie powyższego zestawienia nazywa się strategią mieszaną. 22
WYZNACZANIE STRATEGII MIESZANYCH Dla danych: macierz gry S2 S22 S +0-5 S2-0 +5 prawdopodobieństwa wyboru strategii pełnych gracza G: p i p2, prawdopodobieństwa wyboru strategii pełnych gracza G2: q i q2. 23
Wartość oczekiwana wygranej G wynosi dla wyboru przez G2: S: +0p 0p2, S2: -5p + 5p2. zatem, wartość oczekiwana wygranej G wynosi: (+0p 0p2)q + (-5p + 5p2)q2 Wyznaczane są wartości p, p2, q i q2, dla których wartość oczekiwana wygranej gracza G osiągnie maksimum. W celu znalezienia maksimum warunkowego określana jest funkcja Lagrange a: L(p, p2, q, q2, λ, λ2) = (+0p 0p2)q + (-5p + 5p2)q2 + λ(p + p2 -) + λ2(q + q2 -) Aby znaleźć maksimum tej funkcji przyrównywane są do zera jej pochodne cząstkowe i po rozwiązaniu otrzymanego układu równań otrzymywane są wartości: p = /2 p2 = /2 q = /3 q2 = 2/3. 24
Następnie budowana jest funkcja Lagrange a dla gracza G2 i poszukiwane są wartości p, p2, q i q2, dla których funkcja ta osiąga minimum [tu: wartości te są takie same jak dla G]. 25
*TWIERDZENIE MINIMAKSOWE W teorii gier dowodzi się, że zawsze istnieje możliwość znalezienia minimaksowych i maksyminowych strategii mieszanych dla graczy w grze. Stanowi to podstawowe twierdzenie teorii gier twierdzenie minimaksowe. TW MINIMAKSOWE. W grze dwuosobowej określonej za pomocą macierzy gry zawsze istnieją optymalne strategie mieszane graczy G i G2, przy czym strategią optymalną gracza G jest jego maksyminowa strategia mieszana, zaś strategią optymalną gracza G2 jest jego minimaksowa strategia mieszana. 26
ROZWINIĘCIE ALGORYTMU MINIMAKSOWEGO[4] algorytm cięć αβ - opracowany przez Knutha i Moore a w 975r. [3] (polega na ograniczeniu przeszukiwania do najbardziej obiecującej części drzewa; stanowił podstawę dla ProbCut), ProbCut (wartości funkcji heurystycznej dla kolejnych węzłów nie są niezależne od siebie (są wysoce skorelowane []); idea działania ProbCut polega na dokonywaniu przybliżeń wartości węzłów leżących niżej w drzewie poprzez wartości węzłów leżących wyżej (na mniejszej głębokości), Multi-ProbCut [2] (rozszerzona wersja ProbCut, w której usunięto część wad ProbCut: zbyt radykalny w działaniu). 27
Literatura [] BURO M., ProbCut: An Effective Selective Extension of Alpha-Beta Algorithm. ICCA Journal 8(2), 995, pp. 7-76. [2] BURO M., Experiments with Multi-ProbCut and a New High-Quality Evaluation Function for Othello. Workshop on Game Tree Search, NEC Research Institute, 997. [3] KNUTH D.E., MOORE R.W., An Analisys of Alpha-Beta Pruning. Artificial Intelligence. Vol. 6, 975, pp. 293-326. [4] KWAŚNICKA H., SPIRYDOWICZ A., Uczący się Komputer Programowanie Gier Logicznych. Oficyna Wydawnicza Politechniki Wrocławskiej, 2004. [5] POSPIEŁOW D.A., Gry i Automaty. WNT, 968. 28