Przykład. 1 losuje kartę z potasowanej talii, w której połowa kart ma kolor czarny a połowa czerwony. Postać ekstensywna Postać normalna

Przykład Postać ekstensywna Postać normalna Na poczatku gry dwaj gracze wkładaja do puli po 1$. Następnie, gracz 1 losuje kartę z potasowanej talii, w której połowa kart ma kolor czarny a połowa czerwony.

Przykład Postać ekstensywna Postać normalna Gracz 1 patrzy na kolor karty (gracz 2 nie widzi karty) i podejmuje decyzję czy podbić stawkę dodajac 1$ do puli (raise) czy spasować (fold). Jeżeli spasuje, to wygrywa pieniadze w puli jeżeli karta jest czerwona i przegrywa jeżeli czarna. Jeżeli gracz 1 podbija stawkę, to ruch należy do gracza 2.

Przykład Postać ekstensywna Postać normalna Teraz gracz 2 musi zadecydować czy sprawdzić (meet) czy spasować (pass). Jeżel spasuje, to gra się kończy i gracz 1 wygrywa pieniadze w puli. Jeżeli sprawdza, to dokłada 1$ do puli i gra również się kończy. Gracz 1 pokazuje swoja kartę i wygrywa jeżeli ta karta jest czerwona; w przeciwnym wypadku przegrywa.

Przykład Postać ekstensywna Postać normalna Kluczowym faktem jest to, że gracz 1 zna kolor karty a gracz 2 nie. Gracz 1 dokładnie wie, w którym wierzchołku drzewa się znajduje. Natomiast gracz 2 nie potrafi powiedzieć w którym z dwóch wierzchołków się znajduje. Wierzchołki te tworza zbiór informacyjny gracza 2. Zbiór ten zawiera dwa wierzchołki. Gracz 1 posiada dwa zbiory informacyjne składajace się z pojedynczych wierzchołków.

Gry z dokładna informacja Postać ekstensywna Postać normalna Jeżeli wszystkie zbiory informacyjne obu graczy składaja się z pojedynczych wierzchołków, to gra posiada dokładna informację. W takim przypadku każdy gracz wie dokładnie w jakim wierzchołku drzewa się znajduje. Przykłady gier z dokładna informacja: Szachy, Kółko i krzyżyk, Reversi, Hex, Go

Strategia Postać ekstensywna Postać normalna Strategia i-tego gracza nazywamy przyporzadkowanie ruchu do każdego zbioru informacyjnego tego gracza. Strategia opisuje więc kompletny plan gry zadanego gracza. Przykładowa strategia (FR) dla gracza 1: jeżeli karta jest czerwona to spasuj i podbij w przeciwnym wypadku. Gracz 1 ma dokładnie 4 strategie: FR, FF, RF, RR.

Strategia Postać ekstensywna Postać normalna Przykładowa strategia (M) dla grcza 2: gracz 2 pasuje. Gracz 2 ma dokładnie 2 strategie M i P.

Strategia Postać ekstensywna Postać normalna Jeżeli każdy gracz wybierze strategię, to można obliczyć oczekiwana wypłatę dla każdego gracza. Dla pary strategii (FR, M) istnieja dwie możliwe ścieżki gry. Każda z nich może się z realizować z prawdopodobieństwem 0.5. Zatem oczekiwana wypłata gracza 1 wynosi 0.5*1-0.5*2=-0.5 a gracza 2 odpowiednio -0.5*1+2*0.5=0.5

Gra w postaci normalnej Postać ekstensywna Postać normalna Dla danej gry 2-osobowej niech S 1 = {α 1,..., α k } będzie zbiorem strategii gracza 1 a S 2 = {β 1,..., β l } będzie zbiorem strategii gracza 2. Niech a ij będzie oczekiwana wypłata gracza 1 a b ij oczekiwana wypłata gracza 2 jeżeli gracz 1 użyje α i a gracz 2 użyje β j. Wówczas gra może być przedstawiona w postaci normalnej: β 1 β 2... β l α 1 (a 11, b 11 ) (a 12, b 12 )... (a 1l, b 1l ) α 2 (a 21, b 21 ) (a 22, b 22 )... (a 2l, b 2l )............... α k (a k1, b k1 ) (a k2, b k2 )... (a kl, b kl )

Przykład Postać ekstensywna Postać normalna M P RF (0.5,-0.5) (0,0) RR (0,0) (1,-1) FR (-0.5,0.5) (1,-1) FF (0,0) (0,0)

Przykład Rozpatrzmy dylemat więźnia: Przyznaj się Nie przyznawaj się Przyznaj się (-4,-4) (-1,-5) Nie przyznawaj się (-5,-1) (-2,-2) Racjonalny gracz nigdy nie wybierze strategii Nie przyznawaj się, ponieważ strategia Przyznaj się jest lepsza dla każdej strategii drugiego gracza. Dlatego strategie Nie przyznawaj się moga być usunięte. W efekcie otrzymujemy unikalne rozwiazanie (Przyznaj się, Przyznaj się).

β 1 β 2... β n α 1 (a 11, b 11 ) (a 12, b 12 )... (a 1n, b 1n ) α 2 (a 21, b 21 ) (a 22, b 22 )... (a 2n, b 2n )............... α i (a i1, b i1 ) (a i2, b i2 )... (a in, b in )............... α m (a m1, b m1 ) (a m2, b m2 )... (a ml, b mn) Strategia α i jest zdominowana jeżeli istnieje inna strategia α j, taka że a jk a ik (z co najmniej jedna nierównościa >) dla każdeg k = 1,... n. Definicja dla gracza 2 jest taka sama. można usunać. Jeżeli w efekcie dla każdego gracza zostanie tylko jedna strategia, to otrzymamy rozwiazanie gry.

Przykład β 1 β 2 β 3 α 1 (3,6) (1,5) (2,4) α 2 (5,6) (2,3) (1,5) α 3 (3,3) (-2,4) (3,5) W tej grze nie występuja strategie zdominowane. Co powinni zrobić gracze?

Przykład Zaznaczamy za pomoca * najlepsze odpowiedzi na strategię każdego gracza, na przykład β 1 jest najlepsza odpowiedzia na α 1 : β 1 β 2 β 3 α 1 (3,6*) (1,5) (2,4) α 2 (5*,6*) (2*,3) (1,5) α 3 (3,3) (-2,4) (3*,5*) Pary strategii (α 2, β 1 ) i (α 3, β 3 ) maja ta własność, że strategia pierwszego gracza jest najlepsza odpowiedzia na strategię gracza drugiego i vice versa.

Parę strategii (α i, β j ) nazywamy equilibrium (para strategii w równowadze) jeżeli α i jest najlepsza odpowiedzia na β j i β j jest najlepsza odpowiedzia na α i. jest stabilnym rozwiazaniem gry. Żaden z graczy nie może zwiększyć swojej wypłaty poprzez zmianę strategii.

Uwagi 1 Gra może mieć wiele par strategii w równowadze, różnia- cych się wypłatami dla obu graczy. 2 nie musi być Pareto optymalne, tj. może istnieć inna para strategii dajaca większe wypłaty obu graczom (zobacz dylemat więźnia). 3 Istnieja gry, w którym para strategii w równowadze nie istnieje.

Przykład Dwaj gracze jednocześnie pokazuja 1 lub dwa palce. Jeżeli suma palców jest parzysta, gracz 1 wygrywa 1$ od gracza 2; w przeciwnym wypadku gracz 2 wygrywa 1$ od gracza 1. Ta gra nie posiada pary strategii w równowadze.

Strategie mieszane Gracz 1 wybiera I z prawdopodobieństwem p i II z prawdopodobieństwem 1 p. Gracz 2 wybiera I z prawdopodobieństwem q i II z prawdopodobieństwem 1 q. Wypłata dla gracza 2 jest wówczas następujaca: I II (p I,(1-p) II) 1 2p 2p 1 Najlepsza odpowiedź dla gracza 2 (tj. wybór q) zależy od p. Jeżeli p < 1 2,to gracz 2 powinien grać I (q = 1), jeżeli p > 1 2, to gracz 2 powinien grać II (q = 0). Ale, jeżeli p = 1 2, to dowolna randomizacja q [0, 1] pomiędzy I i II jest najlepsza odpowiedzia na p.

Strategie mieszane 1 if p < 1 2 B 2 (p) = [0, 1] if p = 1 2 0 if p > 1 2 1 if q > 1 2 B 1 (q) = [0, 1] if q = 1 2 0 if q < 1 2 Wartość p = 0.5 jest najlepsza odpowiedzia na q = 0.5 i vice versa.

Przykład 0.5 0.5 I II 0.5 I (1,-1) (-1,1) 0.5 II (-1,1) (1,-1) Obaj gracze powinni wybrać I lub II z jednakowym prawdopodobieństwem 0.5. Obaj gracze uzyskuja wówczas oczekiwana wypłatę równa 0. Jest to jedyne rozwiazanie tej gry.

Przykład w c w (0,0) (9*,1*) c (4*,4*) (5,3) Ta gra ma dwie różne pary strategii w równowadze. Para (w, c) jest lepsza dla gracza 1 a para (c, w) jest lepsza dla gracza 2.

Przykład 1 if p < 1 2 B 2 (p) = [0, 1] if p = 1 2 0 if p > 1 2 1 if q < 1 2 B 1 (q) = [0, 1] if q = 1 2 0 if q > 1 2 Gra ma trzy rozwiazania. Dwa z nich (w rogach) odpowiadaja parom czystych strategii w równowadze. Trzecia odpowiada mieszanym strategiom w równowadze z p = 0.5 i q = 0.5.

Eqilibrium Nasha Strategia mieszana gracza 1 nazywamy rozkład prawdopodobieństwa x = (p 1,..., p m ) na zbiorze strategii α 1,..., α m. Podobnie, strategia mieszana gracza 2 nazywamy rozkład prawdopodobieństwa q = (q 1,..., q n ) na zbiorze strategii β 1,..., β n. Wypłata gracza 1 wynosi: M 1 (x, y) = m n p i q j a ij i=1 j=1 a wypłata gracza 2 wynosi: M 2 (x, y) = m n p i q j b ij i=1 j=1

Nasha Parę strategii mieszanych (x, y ) nazywamy equilbrium (equiibrium Nasha) if jeżeli x jest najlepsza odpowiedzia na y i y jest najlepsza odpowiedzia na x : 1 M 1 (x, y ) M 1 (x, y ) for all x 2 M 2 (x, y ) M 2 (x, y) for all y Twierdzenie [Nash] Każda skończona gra dwuosobowa posiada equilibrium Nasha.

Gry o sumie zero Grę dwuosobowa nazywamy gra o sumie zero jeżeli a ij = b ij dla każdego i = 1,..., m i j = 1,..., n, tj. cele obu graczy sa dokładnie przeciwstawne. Każda taka grę można przedstawić podajac tylko wypłaty a ij pierwszego gracza. Dla strategi mieszanych x, y, wypłata gracza 1 wynosi M(x, y) a gracza 2 odpowiednio M(x, y). M P RF (0.5,-0.5) (0,0) RR (0,0) (1,-1) FR (-0.5,0.5) (1,-1) FF (0,0) (0,0) M P RF 0.5 0 RR 0 1 FR -0.5 1 FF 0 0

w grach o sumie zero Strategia max-min gracza 1 nazywamy następujac a strategię mieszana: v 1 = max x min M(x, β i ) i=1,...,m Strategia min-max gracza 1 nazywamy następujac a strategię mieszana: v 2 = min y max M(α i, y) i=1,...,n Theorem [von Neumann] Para strategii (x, y ) jest equilibrium wtedy i tylko wtedy gdy x jest strategia max-min gracza 1 a y jest strategia min-max gracza 2; v1 = v2 = v i każda gra o sumie zero ma unikalna wartość v.

Wyznaczanie equilibrium (przypadek 2 2) q 1 q β 1 β 2 p α 1 3 1 1 p α 2 2 4 max min{3p + 2(1 p), p + 4(1 p)} = max min{p + 2, 4 3p} p [0,1] p [0,1] min max{3q + 1(1 q), 2q + 4(1 q)} = min max{2q + 1, 4 2q} q [0,1] q [0,1]

Wyznaczanie equilibrium (przypadek 2 2) Gracz 1 powinien grać x = (0.5, 0.5), która gwarantuje mu oczekiwana wypłatę 2.5 a gracz 2 powinien grać y = (0.75, 0.25), która gwarantuje mu oczekiwana wypłatę -2.5.

Wyznaczanie equilibrium (przypadek 2 2) Rozwiazanie: Wartość gry wynosi 0.75 0.25 β 1 β 2 0.5 α 1 3 1 0.5 α 2 2 4 0.5 0.75 3 + 0.5 0.25 1 + 0.5 0.75 2 + 0.5 0.25 4 = 2.5

Wyznaczanie equilibrium [kamień, papier, scyzoryk] Obaj gracze wypowiadaja jednocześnie jedno z trzech słów: kamień, papier, scyzoryk. Wypłaty dla gracza 1 pokazane sa w poniższej tabeli: kamień papier scyzoryk kamień 0-1 1 papier 1 0-1 sczoryk -1 1 0

Wyznaczanie equilibrium w grach o sumie zero q 1 q 2 q 3 kamień papier scyzoryk p 1 kamień 0-1 1 p 2 papier 1 0-1 p 3 scyzoryk -1 1 0 Gracz 1 wyznacza rozkład p 1, p 2, p 3, taki że: max min{p 2 p 3, p 1 + p 3, p 1 p 2 } Gracz 2 wyznacza rozkład q 1, q 2, q 3, taki że: min max{ q 2 + q 3, q 1 q 3, q 1 + q 2 }

Wyznaczanie equilibrium w grach o sumie zero Dla gracza 1 otrzymujemy model: Dla gracza 2 otrzymujemy model: max v 1 p 2 p 3 v 1 p 1 + p 3 v 1 p 1 p 2 v 1 p 1 + p 2 + p 3 = 1 p 1, p 2, p 3 0 min v 2 q 2 + q 3 v 2 q 1 q 3 v 2 q 1 + q 2 v 2 q 1 + q 2 + q 3 = 1 q 1, q 2, q 3 0 Wynikiem jest x = (1/3, 1/3, 1/3) i y = (1/3, 1/3, 1/3) z v 1 = v 2 = 0.

Wyznaczanie equilibrium w grach o sumie zero q 1 q 2... q n β 1 β 2... β n p 1 α 1 a 11 a 12... a 1n p 2 α 2 a 21 a 22... a 2n.................. p m α m a m1 a m2... a mn P 1 : max v 1 p 1 a 11 + p 2 a 21 + + p ma m1 v 1 p 1 a 12 + p 2 a 22 + + p ma m2 v 1... p 1 a 1n + p 2 a 2n + + p ma mn v 1 p 1 + p 2 + + p m = 1 p 1,..., p m 0 P 2 : min v 2 q 1 a 11 + q 2 a 12 + + q na 1n v 2 q 1 a 21 + q 2 a 22 + + q na 2n v 2... q 1 a n1 + q 2 a n2 + + q na mn v 2 q 1 + q 2 + + q n = 1 q 1,..., q n 0

Przykład [Bitwa na morzu Bismarcka] Japoński generał Imamura ma wysłać transport piechoty przez Morze Bismarcka do Nowej Gwinei. Amerykański generał Kenney chce zbombardować transport. Imamura ma do wyboru dwie trasy: krótsza północna, trwajac a 2 dni lub dłuższa południowa, trwajac a 3 dni. Kenney musi postanowić na która z tych tras wysłać bombowce. Jeżeli wybierze zła trasę, to musi odwołać bombowce i wysłać je na właściwa trasę. Kenney może obserwować ruch Imamury przed podjęciem decyzji.

Indukcja wstecz (backward induction) SS SN NS NN S (-3,3*) (-3,3*) (-2,2) (-2,2) N (-1*,1) (-2*,2*) (-1*,1) (-2*,2*) Indukcja wstecz prowadzi do equilibrium (N, SN). Istnieje drugie equlibrium (N,NN), które daje takie samo rozwiazanie. Jednak strategia SN jest bezpieczniejsza dla Kenneya, ponieważ zawiera ona optymalny ruch dla każdego wierzchołka, który kontroluje. Zatem jeżeli Immamura popełni bład, to wypłata Kenneya będzie większa.

Przykład A B 1.a 8,7 C 2.a 2.b 7,2 6,3 l r l r 8,7 1/4 0 3/4 2.c 8,4 1.b 8,8 l r A B 4,1 7,2 6,3 4,0 0,0 8,4 8,8 0,8 lll llr lrl lrr rll rlr rrl rrr AA (4,1) (4,1) (4,1) (4,1) (7*,2*) (7,2*) (7*,2*) (7*,2*) AB (4,1) (4,1) (4,1) (4,1) (7*,2*) (7,2*) (7*,2*) (7,2*) BA (6*,3*) (6,3*) (4,0) (4,0) (6,3*) (6,3*) (4,0) (4,0) BB (6*,3*) (6,3*) (4,0) (4,0) (6,3*) (6,3*) (4,0) (4,0) CA (6*,6) (8*,7*) (6*,6) (8*,7*) (6,6) (8*,7*) (6,6) (8*,7*) CB (0,6) (2,7*) (0,6) (2,7*) (0,6) (2,7*) (0,6) (2,7*)

Perfekcyjne equilibria W każdej grze z dokładna informacja indukcja wstecz prowadzi do equilibrium w czystych strategiach. Gra na poprzednim slajdzie posiada wiele różnych equilibriów. Jednak tylko equilibrium (CA, rlr) jest racjonalne w następujacym sensie: wyznacza ono equilibrium w każdym poddrzewie gry (tj. ruch przez nie wyznaczony jest optymalny w każdym wierzchołku drzewa gry). Takie equilibrium nazywamy perfekcyjnym (subgame perfect). Indukcja wstecz prowadzi do perfekcyjnego equilibrium.

Strategie wygrywajace Rozważmy grę dwuosobowa z dokładna informacja bez zdarzeń losowych, w których jedynymi możliwymi wypłatami sa: 1 (1,-1) - gracz 1 wygrywa, gracz 2 przegrywa 2 (-1,1) - gracz 1 przegrywa, gracz 2 wygrywa 3 (0,0) - remis Gracz 1 ma strategię wygrywajac a jeżeli wygrywa niezależnie od strategii wybranej przez drugiego gracza. Inaczej mówiac, istnieje equilbrium dajace wypłaty (1,-1). Definicja dla gracza 2 jest podobna.

Strategie wygrywajace Twierdzenie. W każdej grze spełniajacej założenia podane na poprzednim slajdzie zachodzi dokładnie jeden z przypadków: 1 Gracz 1 ma strategię wygrywajac a. 2 Gracz 2 ma strategię wygrywajac a. 3 Każdy gracz ma strategię gwarantujac a remis. Jeżeli remis w grze nie jest możliwy, to jeden z graczy ma strategię wygrywajac a. Gra ma dokładna informację, zatem posiada parę czystych strategii w równowadze. Gra ma sumę zero, zatem posiada unikalna wartość 0, 1 lub -1. Jeżeli wartość ta wynosi 1, to zachodzi przypadek pierwszy, jeżeli -1, to zachodzi przypadek 2, jeżeli 0, to zachodzi przypadek 3.

Strategie wygrywajace 1 Który przypadek zachodzi dla gry w kółko i krzyżyk na planszy 3 3? 2 Opisana sytuacja jest prawdziwa dla szachów, jednak nie wiadomo który z trzech przypadków ma miejsce. 3 Wiadomo, że dla warcabów zachodzi przypadek 3. Zatem każdy gracz ma strategię gwarantujac a remis.

Przykład gry n-osobowej W grze bierze udział n państw. Każde państwo musi dokonać wyboru czy uchwalić prawo przeciwko zanieczyszczaniu powietrza czy nie. Koszt wdrożenia takiego prawa wynosi 3. Każde państwo, które nie kontroluje zanieczyszczeń zwiększa koszt każdego z pozostałych państwo o 1.

Przykład gry n-osobowej 1 W grze bierze udział n graczy. 2 Każdy gracz ma dwie strategie, S i = {tak, nie}, i = 1,..., n gdzie tak oznacza, że kraj uchwala prawo a nie oznacza, że nie uchwala. 3 Przykładowe koszty ponoszone przez państwa: C i (tak, tak,..., tak) = 3 dla i = 1,..., n C i (nie, nie,..., nie) = n dla i = 1,..., n C 1 (tak, nie,..., nie) = 3 + (n 1) i C i (tak, nie,..., nie) = n 1 dla i 1. C 1 (nie, tak,..., tak) = 1 and C i (nie, tak,..., tak) = 4 dla i 1. Co wydarzy się w tej grze, gdy państwa nie moga (lub nie chca) ze soba współpracować?