Teoria gier Gry powtarzane i ruchy strategiczne w stronę kooperacji 2011-12-06 Zdzisław Dzedzej 1
Agenda Na przykładach zanalizujemy wrażliwość gier dwuosobowych na: Kolejność ruchów graczy Wielokrotne rozgrywanie tej samej gry Możliwość komunikowania się przed grą (ruchy strategiczne). Podamy przykłady eksperymentów edukacyjnych. 2011-12-06 Zdzisław Dzedzej 2
Dylemat Więźnia Siedzieć, czy nie siedzieć? Oto jest pytanie. 2011-12-06 Zdzisław Dzedzej 3
Dylemat więźnia 1950-Melvin Dresher i Merill Flood (RAND Corporation) wymyślili grę, do której anegdotę wymyślił Albert W. Tucker (Stanford University): Dwaj aresztanci, podejrzewani o wspólne popełnienie przestępstwa, są przesłuchiwani w osobnych pokojach. Jeśli jeden z nich przyzna się, zostanie nagrodzony (+1), zaś wspólnik dostanie wysoki wyrok (-2). Jeżeli obaj przyznają się, dostaną łagodne wyroki (-1). Wiedzą, że nie przyznając się, zostaną uwolnieni. Ta gra jest równoważna dolnej, którą już badaliśmy A B A (0,0) (-2,1) B (1,-2) (-1,-1) A B A (3, 3) (-1,5) B (5,-1) (0, 0) 2011-12-06 Zdzisław Dzedzej 4
Dylemat Więźnia postać ogólna Oznaczenia C kooperacja (nie przyznawać się) D dezercja (przyznać się) R reward (nagroda) S sucker (wypłata frajera) T temptation (pokusa) U- uncooperative (niekooperacyjna) Inne interpretacje: dwa konkurujące sklepy. Właściciele decydują, czy obniżyć ceny, czy nie. Jeżeli drugi nie obniży, to przejmę klientów. Jeśli obaj obniżą, to po prostu zmaleją zyski. C D C (R, R) (S, T) D (T, S) (U, U) Warunki: T > R > U > S R ( S + T)/2 2011-12-06 Zdzisław Dzedzej 5
Dylemat Więźnia Dylemat Więźnia miał być przykładem gry, w której jedyna równowaga Nasha nie jest optymalna w sensie Pareto. Podejmowano wiele prób uzasadnienia argumentów za przyjęciem przez graczy strategii kooperacyjnej C. Jedną z możliwości jest analiza gry iterowanej. 2011-12-06 Zdzisław Dzedzej 6
Dylemat Więźnia- dwukrotny Przy dwukrotnym rozegraniu gry gracze mają po osiem strategii Oznaczamy je wg reguły np. A/AA - wybierz A w pierwszej grze, zaś w drugiej też A, A/AB w pierwszej A, w drugiej to, co przeciwnik w pierwszej, A/BA w drugiej inaczej niż przeciwnik w pierwszej, itd. Wypłaty obliczamy na postawie poprzedniej tabeli 2011-12-06 Zdzisław Dzedzej 7
Dylemat Więźnia- dwukrotny A/AA A/AB A/BA A/BB B/AA B/AB B/BA B/BB A/AA 0,0 0,0-2,1-2,1-2,1-2,1-4,2-4,2 A/AB 0,0 0,0-2,1-2,1-1,-1-1,-1-3,0-3,0 A/BA 1,-2 1,-2-1,-1-1,-1-2,1-2,1-4,2-4,2 A/BB 1,-2 1,-2-1,-1-1,-1-1,-1-1,-1-3,0-3,0 B/AA 1,-2-1,-1 1,-2-1,-1-1,-1-3,0-1,-1-3,0 B/AB 1,-2-1,-1 1,-2-1,-1 0,-3-2,-2 0,-3-2,-2 B/BA 2,-4 0,-3 2,-4 0,-3-1,-1-3,0-1,-1-3,0 B/BB 2,-4 0,-3 2,-4 0,-3 0,-3-2,-2 0,-3-2,-2 2011-12-06 Zdzisław Dzedzej 8
Komentarz Ta podgra znów ma równowagę niekooperacyjną Taki brak chęci do współpracy można uzasadnić efektem domina : w ostatniej grze nie opłaca się współpracować. Inny pomysł: odwołajmy się do przewidywań, co może zrobić Wiersz i dostosujmy do tego nasze działanie jako Kolumny A/BB B/BB A/BB -1, -1-3, 0 B/BB 0, -3-2, -2 2011-12-06 Zdzisław Dzedzej 9
Efekt domina W wielokrotnej grze w początkowej fazie może opłacać się grać strategię C w nadziei, że pozwoli to nawiązać zgodną współpracę prowadzącą do CC. Załóżmy, że mamy rozegrać kolejno 100 Dylematów Więźnia. W ostatniej partii: obaj gracze wiedzą, że strategia D dominuje C i nie będą rozgrywane dalsze partie, ze względu na które można by podtrzymywać kooperację, zatem wynikiem tej partii będzie DD. Gdy gracze uświadomią sobie, że 99 partia jest w zasadzie ostatnią, postąpią podobnie. Kontynuując to rozumowanie konsekwentnie dojdziemy do wniosku, że w ogóle nie da się kooperować. 2011-12-06 Zdzisław Dzedzej 10
Stonoga Rozważmy grę dwuosobową autorstwa R. Rosenthala Gracze: rektor uniwersytetu (U) i rektor politechniki (P) Bogaty i zwariowany ofiarodawca zaprasza rektorów do swego pałacu i stawia przed nimi walizkę pieniędzy ( 1 mld ). Bogacz oświadcza, że da pieniądze tylko jednej uczelni, a o tym której, zadecyduje gra: Najpierw U otrzyma propozycję przyjęcia 1. Jeśli ją odrzuci, rektor P otrzyma propozycję przyjęcia 10. Jeśli P ją odrzuci, U otrzyma propozycję 100, itd Pierwsze przyjęcie kończy grę. Jeśli nikt nie przyjmie 1mld, gra też się kończy. Kto otrzyma dar i w jakiej wysokości, zakładając, że obaj Rektorzy są racjonalnymi graczami? 2011-12-06 Zdzisław Dzedzej 11
Stonoga drzewo gry Narysujmy drzewo tej gry z doskonałą i pełną informacją: U P U P U P U U P U P 0,0 1,0 0,10 100,0 0,1000 10000,0 0,10000000 0,100000 1000000,0 100000000,0 0,1000000000 2011-12-06 Zdzisław Dzedzej 12
Stonoga rozwiązanie Stosując indukcję wsteczną, dostaniemy rozwiązanie: Politechnika nie dostanie nic, a uniwersytet 1. Równowaga ta nie jest optymalna 2011-12-06 Zdzisław Dzedzej 13
Dylemat Więźnia- metagra 1 stopnia Strategie Kolumny: I - wybierać A niezależnie od strategii Wiersza II wybierać taką strategię jakiej spodziewamy się po Wierszu III wybierać strategię przeciwną do spodziewanej po Wierszu IV wybierać B niezależnie od Wiersza Przy obliczaniu wypłat zakładamy, że Kolumna poprawnie przewiduje działanie Wiersza i dostosowuje do nich swoje działanie I: AA II: AB III: BA IV: BB A 0, 0 0, 0-2, 1-2, 1 B 1, -2-1, -1 1, -2-1, -1 2011-12-06 Zdzisław Dzedzej 14
Dylemat Więźnia- metagra 2 stopnia Na drugim poziomie Wiersz uzależnia swoją decyzję od przewidywania co do strategii Kolumny w metagrze 1 stopnia. Wiersz ma 16 strategii : np. oznaczenie BABB czytamy: Wiersz wybierze A w odpowiedzi na II, zaś B na wszystkie pozostałe. Obliczając wypłaty zakładamy, że Wiersz prawidłowo przewiduje decyzje Kolumny, a Kolumna prawidłowo przewiduje ostateczną decyzję Wiersza. Propozycja rozwikłania paradoksów racjonalności przez analizę metagier pochodzi od N. Howarda: N. Howard, Paradoxes of Rationality: Theory of Metagames and Political Behavior, MIT Univ. Press 1971 2011-12-06 Zdzisław Dzedzej 15
I: AA II: AB III: BA IV: BB I: AAAA 0, 0 0, 0-2, 1-2, 1 II: AAAB 0, 0 0, 0-2, 1-1, -1 III: AABA 0, 0 0, 0 1, -2-2, 1 IV: AABB 0, 0 0, 0 1, -2-1, -1 V: ABAA 0, 0-1, -1-2, 1-2, 1 VI: ABAB 0, 0-1, -1-2, 1-1, -1 VII: ABBA 0, 0-1, -1 1, -2-2, 1 VIII: ABBB 0, 0-1, -1 1, -2-1, -1 IX: BAAA 1, -2 0, 0-2, 1-2, 1 X: BAAB 1, -2 0, 0-2, 1-1, -1 XI: BABA 1, -2 0, 0 1, -2-2, 1 XII: BABB 1, -2 0, 0 1, -2-1, -1 XIII: BBAA 1, -2-1, -1-2, 1-2, 1 XIV: BBAB 1, -2-1, -1-2, 1-1, -1 XV: BBBA 1, -2-1, -1 1, -2-2, 1 XVI: BBBB 1, -2-1, -1 1, -2-1, -1 2011-12-06 Zdzisław Dzedzej 16
Komentarz Metodą dominacji wyznaczyliśmy równowagę czystą XII, II, która jest kooperacyjna (daje wynik 0,0) i optymalna w sensie Pareto. Można znaleźć jeszcze dwie równowagi czyste : IV, II, która jest kooperacyjna, oraz XVI, IV, która jest niekooperacyjna. Instrukcja: kooperuj wtedy i tylko wtedy, gdy jesteś przekonany, że twój przeciwnik będzie kooperował wtedy i tylko wtedy, gdy jest przekonany, że ty będziesz kooperował. W kontekście praktyki społecznej takie czytanie w myślach wydaje się mało skuteczne. 2011-12-06 Zdzisław Dzedzej 17
Iterowany Dylemat Więźnia Załóżmy, że po każdej partii Dylematu Więźnia kolejna partia nastąpi z prawdopodobieństwem p, gdzie 0 p 1. Wyobraźmy sobie, że przeciwnik w pierwszej grze zagra C, a następnie będzie grał C tak długo, aż ja zagram D i od tego momentu obaj gramy D. Nie grając D otrzymam wypłatę : R +pr+ p²r+ p³r+ = R/(1-p). Jeżeli m razy zagram C, a potem D, otrzymam: R pr p 2 R... p m 1 R p m T p m 1 U p m 2 U... R(1 (1 m p ) p) p m T p (1 m U p) 1 R p m R (1 1 p) p p m T p m 1 U 2011-12-06 Zdzisław Dzedzej 18
Iterowany Dylemat Więźnia Nie powinienem nigdy grać D, jeżeli spełniony jest warunek górny dla dowolnego m. Przekształcając go otrzymamy warunek dolny dający wartość progową p, gdy kooperacja ma sens ( przy założeniu, że drugi gracz też będzie kooperował). Dla naszego przykładu 1 wartość progowa wynosi, zaś dla wersji dolnej 2/5. Wniosek : w wersji powtarzanej kooperacja wprawdzie jest niepewna, ale możliwa. 1 R p p R p m R T T (1 1 p) p p m T p R U m 1 U 2011-12-06 Zdzisław Dzedzej 19
Eksperyment Axelroda Słabością powyższego rozumowania jest założenie o początkowym zachowaniu przeciwnika. Praktyczne eksperymenty i obserwacje wskazują, że ludzie rozgrywający Dylemat Więźnia wielokrotnie zwykle nie grają całkowicie niekooperacyjnie, nawet gdy ilość gier jest z góry określona. Istnieje dział teorii gier zajmujący się eksperymentowaniem przy użyciu programów komputerowych. Robert Axelrod zwrócił się do specjalistów o przygotowanie takich programów rozgrywających wielokrotnie Dylemat Więźnia i zorganizował turniej, do którego dopuszczono 14 programów, często bardzo skomplikowanych. 2011-12-06 Zdzisław Dzedzej 20
Eksperyment Axelroda Zwyciężył program Anatola Rapoporta WET ZA WET: W pierwszej partii zagraj C W każdej następnej zagraj tę strategię, którą przeciwnik zagrał w poprzedniej partii. Wyniki opublikowano, omówiono podając też przykład programu, który wygrałby z WET ZA WET. Ogłoszono drugi turniej, na który nadesłano 62 programy, wiele specjalnie do walki z WET ZA WET. A. Rapoport przysłał WET ZA WET bez żadnych zmian. Drugi turniej wygrał? WET ZA WET 2011-12-06 Zdzisław Dzedzej 21
Eksperyment Axelroda - wnioski Cechy strategii stosowanej przez WET ZA WET: Przyjazna zaczyna od kooperacji i nigdy nie zdradza jako pierwsza Odwetowa zdecydowanie karze zdradę przeciwnika Przebaczająca po ukaraniu zdrady jest gotowa do dalszej kooperacji Przejrzysta jej decyzje są spójne i łatwe do przewidzenia Można podobnymi metodami analizować inne gry o zbliżonych cechach np. chicken 2011-12-06 Zdzisław Dzedzej 22
Ruchy strategiczne Pytanie pierwsze: Jakie konsekwencje dla gracza może mieć fakt, że wykonuje ruch jako pierwszy? Dotychczas rozważaliśmy sytuację, gdy decyzja podejmowana była równocześnie, lub nie znaliśmy decyzji przeciwnika. 2011-12-06 Zdzisław Dzedzej 23
Przykład gra macierzowa A B A 3, -3 0, 0 B -1, 1 4, -4 Wartość tej gry macierzowej to 3/2, a strategie optymalne Wiersza 1/2A+1/2B, zaś Kolumny 5/8A+3/8B. Jeżeli Wiersz zaczyna A, to kolumna B 0,0 Jeżeli Wiersz B, to Kolumna A (-1,1) Wniosek: nie warto zaczynać Podobnie dla Kolumny. TW: W grach macierzowych zawsze tak jest, że nie warto zaczynać. 2011-12-06 Zdzisław Dzedzej 24
Przykład 2 -chicken A B A 3, 3 2, 4 B 4, 2 1, 1 Są dwie równowagi Nasha: AB 2, 4 oraz BA 4,2 Wiersz zacznie A, kolumna B 2,4 Wiersz zacznie B, kolumna A 4,2 Podobnie gdy zaczyna kolumna Każdy by chciał zaczynać! 2011-12-06 Zdzisław Dzedzej 25
Przykład 3 A B A 2, 3 4, 1 B 1, 2 3, 4 Wiersz A dominuje B, zatem równowaga Nasha AA nieoptymalna Jeśli zaczyna Wiersz A, to kolumna A i mamy 2,3 Jeśli zacznie Wiersz B, to kolumna B i mamy optimum Pareto! Jeśli zacznie Kolumna, to dostaniemy AA lub BA Obaj wolą, by zaczynał Wiersz. 2011-12-06 Zdzisław Dzedzej 26
Zobowiązania Często warunki gry nie dopuszczają, aby jeden z nich wykonywał ruch jako pierwszy. Jeżeli dopuścimy możliwość komunikacji między graczami, jeden z nich może zobowiązać się do określonego ruchu, np. w przykładzie 2 Wiersz daje słowo, że zagra B. Jeśli Kolumna weźmie to poważnie, musi zagrać A. Co zrobić, gdy Kolumna też podejmie zobowiązanie: zagram B!? Pozostaje problem wiarygodności graczy, 2011-12-06 Zdzisław Dzedzej 27
Thomas Schelling Można np. zablokować komunikację. Problemy uwiarygodnienia, a także analiza sposobów rozwiązywania konfliktów j. w. zawiera książka T. Schellinga The Strategy of Conflict, Oxford Univ. Press 1960. Nagroda Nobla z ekonomii 2005 r. 2011-12-06 Zdzisław Dzedzej 28
Groźba -przykład A B A 4, 3 3, 4 B 2, 1 1, 2 Gra ściśle rozwiązalna AB równowaga optymalna w sensie Pareto, Ale Wiersz po cichu marzy o AA. Którykolwiek gracz zaczyna, dojdziemy do AB. Wiersz może sformułować groźbę: jeśli zagrasz B, ja zagram B. Deklaruje działanie, które zaszkodzi Kolumnie oraz jest szkodliwe dla niego. Jeżeli Kolumna uwierzy, wybiera spośród BB i AA. Zatem zagra A. Podwyższyć wiarygodność można w grach powtarzanych wykonując tę groźbę. 2011-12-06 Zdzisław Dzedzej 29
Obietnica A B A 3, 3-1, 5 B 5, -1 0, 0 Gra odporna na groźby: Rozwiązanie BB, Np. zaczyna Kolumna, to Wierszowi zawsze opłaca się B - najgorzej dla Kolumny Nie ma czym straszyć Wiersz obiecuje: jeżeli zagrasz A, ja też zagram A DEF: W deklaruje działanie, które będzie korzystne dla Kolumny, ale niekorzystne dla niego. Jeżeli Kolumna uwierzy, ma do wyboru AA i BB, zatem wybierze AA. Uwiarygodnić obietnicę można również obniżając swoją wypłatę np. w BA z 5 do 3 ( deklarując wpłatę na cele społeczne itp..) 2011-12-06 Zdzisław Dzedzej 30
Połączenie A B A 3,3 1,5 B 4,0 0,2 Wynik gry AB 1,5 Groźba Wiersza: jeśli zagrasz B, ja zagram B nie działa, bo spośród BA i BB kolumna wybierze BB. Obietnica Wiersza: jeśli zagrasz A, ja gram A nie działa, bo na B wiersz też odpowie A. Jeżeli Wiersz połączy groźbę i obietnicę, to Kolumna ma wybór między AA i BB, zatem zagra A! będzie AA. Wiersz może uwiarygodnić groźbę, obniżając wypłatę AB z 1 do -1, zaś obietnicę obniżając w BA z 4 do 2. 2011-12-06 Zdzisław Dzedzej 31
Nie ma mocnych W programie WET Za WET można interpretować psychologicznie algorytm jako połączenie obietnicy i groźby. Są gry odporne na wszelkie kombinacje gróźb i obietnic. Proszę spróbować zanalizować przykład obok A B A 3,4 4,2 B 2,3 1,1 Rozwiązanie AA 3,4 2011-12-06 Zdzisław Dzedzej 32
Eksperyment - Hurtownik i detalista 9 10 11 12 0 0 0 0 0 8 22 27 34 42 16 32 42 56 70 20 30 42 61 78 28 26 43 69 93 9 10 11 12 0 0 0 0 0 8 28 23 16 8 16 48 38 24 10 20 54 42 23 6 28 62 45 19-5 Jeden gracz jest hurtownikiem określającym cenę towaru, drugi jest detalistą zamawiającym określoną ilość sztuk towaru. Tego typu grę nazywamy obustronnym monopolem. Górna macierz określa wypłaty hurtownika, dolna detalisty (w euro). Gdy gra jest rozgrywana raz, z pierwszym ruchem hurtownika, racjonalnym wynikiem jest cena 12 i zamówienie 16 sztuk, co daje wypłaty (10, 70). Taki wynik nazywa się punktem Bowleya. 2011-12-06 Zdzisław Dzedzej 33
Obustronny monopol -cd Przeprowadzono eksperyment: podzielono studentów na dwie grupy i hurtowników umieszczono w osobnym pomieszczeniu. Informacje o ruchach przekazywał prowadzący. Rozegrano wielokrotnie grę w parach, obserwując ewolucję zachowań. Wielu graczy grało punkt Bowleya lub sąsiedni 24,56 który też można tak nazwać. Inny typowy wynik, cena 11 lub 12, zamówienie 0 lub 8 można nazwać punktem oporu detalisty Jeżeli gracze znaliby nawzajem swoje wypłaty i chcieliby sprawiedliwej ceny, to przyjęliby punkt (42, 42) lub jego Paretooptymalną modyfikację (45,43) 2011-12-06 Zdzisław Dzedzej 34
Obustronny monopol -wyniki Typ końcowy Śr wypł. Hurt Śr. Wypł. Det. p. Bowleya (5) 656 242 p.równych zysk.(4) 513 484 p. Oporu(4) 263 160 Po kilku rundach pary stabilizowały swoje sposoby gry (15 partii). Po rozegraniu 15 gier udostępniono wypłaty, 10 par na 13 nie zmieniło sposobu gry. Obserwowano też sposoby reakcji na groźby (opór) wyniki były statystycznie rozrzucone. 2011-12-06 Zdzisław Dzedzej 35
O eksperymentach Więcej tego typu wyników można znaleźć w : L. Fouraker, S. Siegel, Bargaining and Group Decision Making, McGraw-Hill 1960. S. Siegel, D. Harnet, Bargaining behavior: a comparison between mature industrial personnel and college students, Operations Research 12(1964), 334-343. Analiza podatności gier 2x2 na posunięcia strategiczne jest w: A. Rapoport, M. Guyer, A taxonomy 0f 2x2 games, General Systems 11(1966), 203-214. A. Rapoport, M. Guyer, D. Gordon, The 2x2 Game, Univ. Of Michigan Press 1976 2011-12-06 Zdzisław Dzedzej 36
Literatura Robert Axelrod, The Evolution of Cooperation, Basic Books 1984. Nigel Howard, Paradoxes of Rationality: Theory of Metagames and Political Behavior, MIT Press 1971. Anatol Rapoport, Albert Chammah, Prisonner s Dilemma, Univ of Michigan Press 1966. Martin Shubik, Game theory, behavior, and the paradox of prisonner s dilemma: three solutions, Journal ofconflict Resolution 14(1970),, 181-194. Philip Straffin, The prisonner s dilemma, UMAP Journal 1(1980),101-103. 2011-12-06 Zdzisław Dzedzej 37
W planie... Schemat arbitrażowy Nasha. Strategie ewolucyjnie stabilne. Duopole i oligopole modele rynku. Gry n-osobowe wprowadzenie. 2011-12-06 Zdzisław Dzedzej 38