TEORIA GIER WNE UW, jesień 2011 PLAN PRZEDMIOTU 1. Indywidualne podejmowanie decyzji 2. Gry niekooperacyjne w postaci normalnej w postaci ekstensywnej 3. Gry z niekompletną informacją (w miarę możliwości).
LITERATURA PODSTAWOWA A, DIXIT, B. NALEBUFF, Myślenie strategiczne, Helion 2009 R. LUCE, H. RAIFFA, Gry i decyzje, PWN 1964 G. OWEN, Teoria gier, PWN 1975 M. MALAWSKI, H. SOSNOWSKA, A. WIECZOREK, Konkurencja i kooperacja: teoria gier w ekonomii i naukach społecznych, PWN 1997, 2004, 2006 J. WATSON, Strategia: wprowadzenie do teorii gier, WNT 2004 POMOCNICZA R.B. MYERSON, Game theory Analysis of conflict, Harvard UP 1991 K. BINMORE, Fun and Games, D.C.Heath 1992 M. OSBORNE, A. RUBINSTEIN, A course in game theory, MIT Press 1994 Ph. STRAFFIN, Teoria gier, Scholar 2001 A. MAS-COLELL i in., Microeconomic theory, Oxford UP 1995 H. P. YOUNG, Sprawiedliwy podział, Scholar 2003 R. GIBBONS, A primer in game theory, Harvester Wheatsheaf 1992 J. McMILLAN, Games, strategies and managers..., Oxford UP 1996
INDYWIDUALNE PODEJMOWANIE DECYZJI w warunkach: PEWNOŚCI NIEPEWNOŚCI RYZYKA ELEMENTY WSPÓLNE dla wszystkich trzech schematów: D zbiór dostępnych decyzji W zbiór możliwych wyników preferencja na W relacja spójna i przechodnia (w 1 w 2 oznacza decydent uważa wynik w 1 za nie gorszy od w 2 ). Ona wyznacza relacje ostrej preferencji i indyferencji : w 1 w 2 w 1 w 2 ale nie w 2 w 1, w 1 w 2 w 1 w 2 oraz w 2 w 1. Funkcja użyteczności u : W R reprezentuje preferencję na W gdy w 1, w 2 (w 1 w 2 u(w 1 ) u(w 2 )). W WARUNKACH PEWNOŚCI DECYZJA WYNIK SATYSFAKCJA czyli f : D W, f(d) = wynik decyzji d. W WARUNKACH NIEPEWNOŚCI Ω zbiór stanów świata (opisujący czynniki niepewne) DECYZJA WYNIK SATYSFAKCJA STAN ŚWIATA czyli F : D Ω W, F (d, ω) = wynik decyzji d gdy prawdziwym stanem świata jest ω.
Dominacja: Decyzja d dominuje decyzję d, gdy dla każdego stanu świata ω zachodzi F (d, ω) F (d, ω) ; d słabo dominuje d, gdy dla każdego stanu świata ω zachodzi F (d, ω) F (d, ω) oraz istnieje stan świata ω, w którym F (d, ω) F (d, ω). Bezpieczeństwo: Decyzja d jest bezpieczniejsza od decyzji d, gdy istnieje stan świata ω z taki, że dla każdego ω Ω zachodzi F (d, ω) F (d, ω z ). (Dla reprezentowanej przez u : min ω u(f (d, ω) > min ω u(f (d, ω) ; W WARUNKACH RYZYKA P rozkład prawdopodobieństwa na zbiorze Ω. Wtedy: min ω u(f (d, ω) poziom bezpieczeństwa decyzji d). LOTERIE : rozkłady prawdopodobieństwa na zbiorze wyników i L = (w 1, p 1 ; w 2, p 2 ;... ; w K, p K ) f : D L, f(d) = loteria będąca wynikiem decyzji d, której prawdopodobieństwami są p j = P({ω takich że F (d, ω) = w j }) ROZSZERZANIE PREFERENCJI NA ZBIÓR LOTERII Dowolną preferencję na zbiorze wyników W, która jest reprezentowana przez pewną funkcję użyteczności u : W R, można rozszerzyć na zbiór loterii L następująco: L, L L (L L sfeu(l ) Eu(L )) gdzie Eu(L) = oczekiwana użyteczność loterii L = (dla W skończonego) K k=1 p k u(w k ). Co więcej, każda preferencja na L W spełniająca zbiór postulatów racjonalności (postulaty von Neumanna - Morgensterna) jest takiej postaci.
Postulaty von Neumanna - Morgensterna Rozkład loterii złożonych (RLZ). Loteria złożona to obiekt postaci L = (L 1, p 1 ; L 2, p 2 ;... ; L J, p J ) gdzie każda L j jest pewną loterią na W (być może wynikiem pewnym). Odpowiada to loterii, w której część wygranych stanowią losy na inną loterię. Taką loterię można sprowadzić do loterii prostej licząc prawdopodobieństwa wyników na podstawie prawdopodobieństw warunkowych: p k = J p j q j,k gdzie q j,k jest prawdopodobieństwem wyniku w k na loterii L j. RLZ: Decydent jest indyferentny między dowolną loterią złożoną a uzyskanej z niej w powyższy sposób loterią prostą. Aksjomat niezależności (AN). Jeżeli L, L są dwiema loteriami złożonymi różniącymi się tylko jednym wynikiem: j=1 L = (L 1, p 1 ; L 2, p 2 ;... ; L J, p J ), L = (L 1, p 1 ; L 2, p 2 ;... ; L J, p J ) to L L L 1 L 1. (W szczególności tak musi być gdy L 1 i L 1 są pewnymi wynikami ze zbioru W (loteriami trywialnymi): jeśli decydent woli obiekt w 1 od w 2, to będzie też wolał loterię na której można wygrać w 1 od loterii, w której zamieniono wygraną w 1 na w 2, a wszystkie pozostałe nagrody i prawdopodobieństwa pozostały bez zmian). Ciągłość. Jeżeli L 1 L 2 L 3, to istnieje taka liczba λ ]0, 1[, że L 2 (L 1, λ ; L 3, 1 λ). (Dla wyników pewnych: Jeśli lepiej wygrać w 1 niż w 2, a w 2 lepiej niż w 3, to istnieje loteria z wygranymi {w 1, w 3 } dokładnie tak samo dobra, jak otrzymanie w 2 na pewno).
TWIERDZENIE VON NEUMANNA MORGENSTERNA: Każda preferencja na L W spełniająca warunki RLZ, AN i ciągłość jest reprezentowana przez pewną oczekiwaną użyteczność na zbiorze W. Tzn. istnieje funkcja u : W R taka że L, L L W (L L Eu(L ) Eu(L )) Uwaga: Jeżeli u reprezentuje pewną preferencję na W, to tę samą preferencję reprezentuje też każda funkcja h u, gdzie h jest dowolną funkcją rosnącą R R. Ale z reprezentowaniem preferencji już tak nie jest: tę samą pref. na L W co Eu reprezentują już tylko wartości oczekiwane funkcji użyteczności postaci j u gdzie j(x) = ax + b, a > 0. Racjonalizowalność: Przy danej funkcji użyteczności u na W decyzja ˆd jest racjonalizowalna, jeżeli istnieje rozkład prawdopodobieństwa P na zbiorze Ω, przy którym Eu(f( ˆd)) = max d D Eu(f(d)). GRA jako układ problemów IPD w warunkach niepewności Każdy gracz (i) ma swój zbiór decyzji D i, a wynik wyznaczają decyzje wszystkich graczy. Wówczas każdy gracz staje przed problemem decyzyjnym D i, W, Ω i, i gdzie W wspólny dla wszystkich zbiór wyników, i preferencje poszczególnych graczy na nim, a Ω i = D 1... D i 1 D i+1... D n czyli stanami świata dla każdego gracza i są układy decyzji wszystkich innych graczy. (Niepewność jest po wszystkich stronach, gdyż zakładamy jednoczesne podejmowanie decyzji przez wszystkich graczy). W prostym przypadku 2 graczy: Ω 1 = D 2, Ω 2 = D 1. Ze względu na tw. vnm wynikom gry przypisujemy ich użyteczność dla gracza i, reprezentującą jego preferencję na L W. Ona może jakoś uwzględniać ew. preferencje gracza i co do tego, czy wynik jest lepszy lub gorszy dla innych graczy; ale właśnie dlatego, że reprezentuje i, to ją stara się zmaksymalizować gracz i.
Przykład Gracze: { Wisła, Cracovia }, każdy z niech wybiera termin rozegrania swojego meczu w lidze: Zakładamy: Sobota lub Niedziela. każdy klub chce mieć jak najwięcej widzów na swoim meczu, w kibiców zawsze chodzi na każdy mecz Wisły, c kibiców zawsze chodzi na każdy mecz Cracovii, poza tym: s kibiców przyjdzie na mecz w sobotę, n kibiców przyjdzie na mecz w niedzielę, z tych dwóch grup w razie rozgrywania obu meczów tego samego dnia 2/3 przyjdzie na Wisłę, 1/3 na Cracovię. Problem decyzyjny Wisły : Problem decyzyjny Cracovii : Konwencja zapisu: Cr: S Cr: N D W S w + 2s 3 w + s N w + n w + 2n 3 W : S W : N D Cr S c + s 3 c + s N c + n c + n 3 Wisła Cracovia S N S w + 2s 3 ; c + s 3 w + s ; c + n N w + n ; c + s w + 2n 3 ; c + n 3
GRY W POSTACI NORMALNEJ DEFINICJA gry w postaci normalnej: G = (N, S 1,..., S n, u 1,..., u n ) N = {1, 2,..., n} zbiór graczy, S 1, S 2,..., S n zbiory strategii; S i zbiór strategii gracza i, u 1, u 2,..., u n funkcje wypłaty; u i : S R f. wypłaty gracza i. przy oznaczeniach S = S 1 S 2... S n zbiór strategii łącznych i u i (s 1, s 2,..., s n ) = u i (F (s 1, s 2,..., s n )). oraz : S i := S 1... S i 1 S i+1... S n zbiór strategii łącznych wszystkich graczy poza i-tym ( D i = S i, Ω i = S i ). Założenia: racjonalność wspólna wiedza graczy o grze: prawdziwe jest każde zdanie postaci gracz i 1 wie, że gracz i 2 wie, że... gracz i k zna grę (tj. wszystkie zbiory strategii i funkcje wypłat) wspólna wiedza graczy o ich racjonalności. Interpretacja: każdy z graczy wybiera strategię (decyzję) jeden raz i wszyscy wybierają jednocześnie, a przynajmniej bez wiedzy o wyborach innych graczy. Dominacja: strategia s i S i dominuje strategię s i, jeżeli dla każdej s i S i zachodzi u i (s i, s i ) > u i (s i, s i ); poziom bezpieczeństwa strategii: β(s i ) = min s i S i u i (s i, s i ); poziom bezpieczeństwa gracza: β i = max β(s i ) = max min u i (s i, s i ) s i S i s i S i s i S i
Konwencja zapisu dla gier 2-osobowych o skończonych zbiorach strategii (gier dwumacierzowych) : (S 1, S 2, A, B) gdzie A i B są macierzami wypłat odpowiednio graczy 1 i 2, wymiaru K L gdzie K = #S 1, L = #S 2 ; a kl to wypłata gracza 1 gdy on użyje swojej strategii numer k, a gracz 2 swojej strategii numer l, b kl to wypłata gracza 2 w tej samej sytuacji. Przykłady Dylemat więźnia : S 1 = {P 1, NP 1 }, S 2 = {P 2, NP 2 } ; u 1 (NP 1, NP 2 ) = u 2 (NP 1, NP 2 ) = 5, u 1 (P 1, P 2 ) = u 2 (P 1, P 2 ) = 2, u 1 (NP 1, P 2 ) = u 2 (P 1, NP 2 ) = 0, u 1 (P 1, NP 2 ) = u 2 (NP 1, P 2 ) = 6 NP 2 P 2 NP 1 5 ; 5 0 ; 6 P 1 6 ; 0 2 ; 2 Cykor : S 1 = {Z 1, NZ 1 }, S 2 = {Z 2, NZ 2 } ; u 1 (NZ 1, NZ 2 ) = u 1 (Kolizja) = u 2 (NZ 1, NZ 2 ) = 5, u 1 (Z 1, Z 2 ) = u 1 (Nic) = u 2 (Z 1, Z 2 ) = 0, u 1 (NZ 1, Z 2 ) = u 1 (1 2) = u 2 (Z 1, NZ 2 ) = 1, u 1 (Z 1, NZ 2 ) = u 1 (2 1) = u 2 (NZ 1, Z 2 ) = 1 Z 2 NZ 2 Z 1 0 ; 0-1 ; 1 NZ 1 1 ; -1-5 ; -5 Świnie : S a = {P a, NP a }, S b = {P b, NP b } NP b P b NP a 0 ; 0 5 ; -1 P a 2 ; 3 4 ; 2
Przykłady cd Aukcja (statyczna każdy uczestnik oferuje cenę do zapłacenia) : Gracze = uczestnicy aukcji, S i = [0, M i ] ; w(s 1,... s n ) = (k, p) gdzie: k gracz który dostaje obiekt, p cena którą płaci. u i (k, p) = 0 jeśli k i, v i p jeśli k = i gdzie v i waluacja gracza i (wartość którą przypisuje obiektowi) Eksploatacja wspólnego zasobu: Gracze = korzystający z zasobu (np. rybacy), S i = [0, M i ], u i (s 1,... s n ) = s i K( n s j ) gdzie s j intensywność eksploatacji przez gracza j, K wydajność zasobu malejąca funkcja łacznej eksploatacji. Gry umiejscowienia: Gracze = konkurenci, S i = P zbiór wszystkich punktów pewnego obszaru, u i (s 1,... s n ) = j=1 {p P : d(p,s i )=min j d(p,s j )} h(p) dµ gdzie h gęstość rozkładu klientów na obszarze P ; d odległość Iteracyjne usuwanie strategii zdominowanych Algorytm: START 1. Czy istnieje gracz który MA STRATEGIĘ ZDOMINOWANĄ? Jeśli TAK : USUŃ JĄ POWRÓC DO KROKU 1 Jeśli NIE : KONIEC Uwaga 0. Wynik tego algorytmu NIE ZALEŻY od kolejności usuwania strategii.
DEFINICJA : Strategia s i gracza i jest jego najlepszą odpowiedzią na łączną strategię s i pozostałych graczy, (ozn. s i = NO i (s i )), jeżeli dla każdej innej strategii s i S i zachodzi u i (s i, s i ) u i (s i, s i ). Uwaga 1. Jeżeli s i = NO i (s i ), to s i nie może być zdominowana. DEFINICJA: Układ strategii (strategia łączna) s = (s 1, s 2,... s n ) jest równowagą Nasha gry G = (N, S 1,..., S n, u 1,..., u n ), jeżeli dla każdego i = 1, 2,... n (czyli dla każdego i i każdej s i S i s i = NO i (s i ) u i (s 1,..., s i 1, s i, s i+1,... s n ) u i (s 1,... s i,... s n )). Uwaga 2. Związki z iteracyjnym usuwaniem strategii zdominowanych Niech G = (N, S 1,..., S n, u 1,..., u n ) i niech G (d) = (N, S 1(d),..., S n(d), u 1,..., u n ) będzie grą otrzymaną z G w wyniku IESD. Wówczas 1. Jeżeli s = s 1, s 2,... s n jest równowagą Nasha gry G, to i s i S i(d). (Strategie w równowadze nie mogą zostać usunięte w procesie IESD). 2. Jeżeli w G (d) wszystkie zbiory strategii są jednoelementowe: i S i(d) = {s i }, to s jest równowagą Nasha gry G i to jedyną, z (1). Uwaga 3. W grze dwumacierzowej (S 1, S 2, A, B) para s 1k, s 2l jest równowagą wtedy i tylko wtedy, gdy a kl = max j a jl (największy element l-tej kolumny A), b kl = max j b kj (największy element k-tego wiersza B). Uwaga 4. s = (s 1, s 2,... s n ) jest równowagą gry G dla każdego i u i (s) β i.
Problemy z równowagą Nasha 1. Nie zawsze istnieje (o tym dalej) 2. Gdy istnieje, bywa nieoptymalna 3. W tej samej grze może być ich wiele problem wyboru równowagi Przykład gra składania żądań: S 1 = S 2 = [0, 100], u i (s 1, s 2 ) = s i jeżeli s 1 + s 2 100, 0 w prz. prz., continuum równowag postaci (t, 100 t) (i dodatkowo jeszcze (100, 100)) Racjonalizowalność (D 1, D 2,..., D n ) zbiory takich strategii w grze G = (N, S 1,..., S n, u 1,..., u n ), że 1. i s i D i s i jest najlepszą odpowiedzią gracza i na pewien rozkład prawdopodobieństwa na strategiach z D i, 2. D i są maksymalnymi zbiorami o tej własności to zbiory strategii racjonalizowalnych w grze G. Uwaga 5. 1. i D i S i(d). (Strategie racjonalizowalne nie mogą zostać usunięte w procesie IESD). 2. W grze dwuosobowej: i D i = S i(d). 3. Jeżeli s = (s 1, s 2,... s n ) jest równowagą Nasha gry G, to i s i D i. Przykład (Myerson) s 21 s 22 s 23 s 11 3 ; 0 0 ; 2 0 ; 3 s 12 2 ; 0 1 ; 1 2 ; 0 s 13 0 ; 3 0 ; 2 3 ; 0 : w tej grze wszystkie strategie są racjonalizowalne, ale równowaga Nasha jest tylko jedna.
GRY W POSTACI NORMALNEJ przykłady gier dużych 1. Oligopol Bertranda Gracze = producenci tego samego wyrobu, S i = [0, [ ceny (więc strategie oznaczymy przez p i ), u i (p 1,... p n ) = (p i c i ) d i (p 1,... p n ) c i koszt jednostkowy gracza i, ZYSK, gdzie: d i (p 1,... p n ) popyt na produkt gracza i przy tych cenach (d i nie rośnie po p i i nie maleje po p j, j i). Wersja najbardziej naiwna: d i (p) = 0 gdy p i > min j p j, d i (p) = d(p i) J gdy p i = min p j j (J liczba tych producentów j dla których p j = p i ). Wersja trochę bardziej sensowna: np. d i (p 1,... p n ) = δ i αp i + β 1 n j i p j (α, β > 0). 2. Oligopol Cournota Gracze = producenci tego samego wyrobu, S i = [0, Q i ] wielkości produkcji (więc strategie oznaczymy przez q i ), u i (q 1,... q n ) = (p(q) c i )q i c i koszt jednostkowy gracza i, ZYSK, gdzie: Q = q 1 + q 2 +... + q n łączna produkcja, p(q) cena wyznaczona przez odwrotną funkcję popytu (co najmniej malejącą). Równowaga Nasha tej gry = równowaga Cournota (1857)
3. Pojedynek Gracze = dwaj oficerowie, S 1 = S 2 = [0, 1], (s i odległość z której gracz i oddaje strzał (jeśli dożyje)); Oznaczamy: p i (x) = P że i trafi gdy strzela z odległości x i zakładamy: p i malejące, p i (0) = 1, p i (1) = 0. u i (s 1, s 2 ) = P tego że to gracz i trafi przeciwnika. Przyjmujemy że gdy s 1 = s 2, każdy gracz strzeli pierwszy z prawdopodobieństwem 1/2. Pojedynek cichy : Pojedynek głośny : u 1 (s 1, s 2 ) = u 2 (s 1, s 2 ) = u 1 (s 1, s 2 ) = u 2 (s 1, s 2 ) = p 1 (s 1 ) ( ) s 1 > s 2, 1 p 2(s 1 ) 2 p 1 (s 1 ) s 1 = s 2, (1 p 2 (s 2 ))p 1 (s 1 ) s 1 < s 2, p 2 (s 2 ) ( ) s 1 < s 2, 1 p 1(s 2 ) 2 p 2 (s 2 ) s 1 = s 2, (1 p 1 (s 1 ))p 2 (s 2 ) s 1 > s 2 p 1 (s 1 ) s 1 > s 2, 1 2 [p 1(s 1 ) + 1 p 2 (s 1 )] s 1 = s 2, 1 p 2 (s 2 ) s 1 < s 2, p 2 (s 2 ) s 1 < s 2, 1 2 [p 2(s 2 ) + 1 p 1 (s 2 )] s 1 = s 2, 1 p 1 (s 1 ) s 1 > s 2 Przyjmując u i (s) = P trafienia P zostania trafionym, dostanie się grę o sumie zerowej. Np. pojedynek głośny u 1 (s 1, s 2 ) = u 2 (s 1, s 2 ) = 2p 1 (s 1 ) 1 s 1 > s 2, p 1 (s 1 ) p 2 (s 1 ) s 1 = s 2, 1 2p 2 (s 2 ) s 1 < s 2
4. Spółka Gracze = wspólnicy w spółce, S i = [0, M i ] poziom wysiłku wkładanego w pracę, u 1 (s 1, s 2,..., s n ) = r i Π(s 1, s 2,..., s n ) c i (s i ) gdzie Π(s 1, s 2,..., s n ) zysk spółki przy poziomach wysiłku s 1, s 2,..., s n, r i udziały graczy w spółce; r i > 0, r 1 + r 2 +... + r n = 1 c i (s i ) koszt wysiłku s i ponoszonego przez gracza i. TWIERDZENIE Debreu - Ky Fana - Glicksberga: Jeżeli gra w postaci normalnej G = (N, S 1, S 2,..., S n, u 1,..., u n ) spełnia następujące założenia: wszystkie zbiory strategii S i są zwarte i wypukłe, wszystkie funkcje wypłat u i : S R są ciągłe, każda funkcja wypłaty, u i (s i, s i ) jest wklęsłą funkcją zmiennej s i to G ma równowagę Nasha (w strategiach czystych). Przykłady: oligopol Bertranda wersja mniej naiwna; oligopol Cournota gdy zyski są wklęsłe względem q i (np. gdy odwrotna f. popytu jest liniowa); spółka z wklęsłą funkcją zysku i wypukłą funkcją kosztu wysiłku
DODATEK : ANALIZA OLIGOPOLU COURNOTA z liniowymi kosztami i liniową odwrotną funkcją popytu Model N = {1, 2,... n} gracze (producenci tego samego dobra), q 1, q 2,... q n ich strategie wielkości produkcji Funkcja kosztów: c i (q i ) = C i q i, C i > 0 Odwrotna funkcja popytu: p(q) = (A BQ) + = A BQ gdy A BQ, 0 gdy A BQ, A, B > 0. Założenia: i C i < A (inaczej gracz i nigdy nie produkuje), S i = [0, A C i B ] Funkcje wypłaty = zyski: u i (q) = u i (q 1,,... q n ) = (p(q) C i )q i = q i [(A B(q i + Q i ) + ) C i ] gdzie Q łączna produkcja wszystkich graczy, Q i wszystkich oprócz i-tego. Strategie q i > A C i B jak powyżej. są zdominowane przez 0 i wobec tego można przyjąć S i Monopol (n = 1) Funkcja wypłaty u(q) = q[(a Bq) + C] jest ciągła i wklęsła w przedziale ], więc osiąga w nim maximum w miejscu zerowym pochodnej: [0, A C B u (q) = A C 2Bq = 0, q opt = A C 2B optymalna wielkość produkcji monopolisty o kosztach C. W tym optimum: cena p = (A B A C 2B )+ = A + C 2, zysk u(q opt ) = Zachowanie zysku oligopolisty przy ustalonym Q i = j i q j (A C)2 4B. u i (q i, Q i ) = q i (A B(q i + Q i ) C i ) gdy q i + Q i A B C i q i gdy q i + Q i A B.
Jeżeli zatem Q i A C i B, to dla każdego dodatniego q i u i (q i, Q i ) 0 ; a jeżeli Q i < A C i B, to u i (q i, Q i ) = q i (A BQ i C i ) Bqi 2 funkcja kwadratowa na [0, A B Q i] z miejscami zerowymi w q i = 0 i q i = A C i B Q i. Stąd Najlepsza odpowiedź gracza i na Q i NO i (Q i ) = Równowaga w duopolu (n = 2) 0 gdy Q i A C i A C i 2B Q i 2 gdy Q i A C i B, B. (a) Gdy q 1 = 0, q 2 = NO 2 (0) = A C 2 2B i ten układ (0, A C 2 2B ) jest równowagą Nasha jeżeli NO ( ) A C2 1 2B = 0, tj. gdy C 1 > A+C 2 2. (Gracz o kosztach zbyt wysokich nie produkuje nic). (b) Analogicznie gdy C 2 > A+C 1 2 : q 1 = A C 1 2B, q 2 = 0. (c) W równowadze produkują obaj gracze gdy q 1, q 2 > 0, q 1 = A C 1 2B q 2 2 i q 2 = A C 2 2B q 1 2. Rozwiązanie: q 1 + q 2 = 1 3B (2A C 1 C 2 ), q 1 q 2 = C 2 C 1 B, q 1 = A 2C 1 + C 2 3B, q 2 = A 2C 2 + C 1 3B. W równowadze z punktu (c) : łączna produkcja Q = 2A C 1 C 2 3B cena p = A + C 1 + C 2, zyski u 1 (q 3 1, q 2 ) = (A 2C 1 + C 2 ) 2. 9B, Optymalność równowagi Cournota-Nasha w duopolu Równowagi (a) i (b) w oczywisty sposób są optymalne gracz o niższym koszcie produkcji uzyskuje maksymalny zysk monopolisty. Równowaga (c) nie jest : dla i = 1, 2
u i q i (q 1, q 2 ) = 0 ale u i q j (q 1, q 2 ) = Bq j < 0 dla j i, a więc pochodna zysku w równowadze w kierunku wektora ( 1, 1) u i ( 1, 1) (q 1, q 2 ) = u i q i (q 1, q 2 ) u i q j (q 1, q 2 ) = Bq j > 0 : jeśli obaj gracze nieco zmniejszą produkcję, ich zyski wzrosną. Symetryczny (C 1 =... C n = C) oligopol Cournota z n > 2 producentami Przy A > C w jedynej równowadze produkują wszyscy gracze i wobec tego i q i = A C 2B Q i 2 czyli 2Bq i + BQ i = A C. Stąd: n(a C) = (n + 1)BQ, Q = B(q i + Q) = A C, q i = W tej równowadze cena (A C) (n + 1)B. n(a C) (n + 1)B oraz dla każdego i p = A + nc n + 1, zyski u 1(q 1... q n ) = W granicy przy n dążenie do doskonałej konkurencji : w równowadze Cournota - Nasha p C, u 1 +... + u n 0. (A C)2 (n + 1) 2 B.
GRY O SUMIE ZEROWEJ I MACIERZOWE Gra (N, S 1,..., S n, u 1,..., u n ) jest grą o sumie stałej, jeżeli istnieje taka stała C że dla każdej strategii łącznej (s 1,..., s n ) S zachodzi n u i (s 1,..., s n ) = C. i=1 Gdy C = 0, gra jest o sumie zerowej. Gry dwuosobowe o sumie stałej gry ściśle konkurencyjne pojedynki (z wypłatami będącymi różnicą prawdopodobieństw trafienia), kobiety i koty przeciw myszom i mężczyznom (orzeł i reszka), papier - nożyce - kamień Gry macierzowe : Skończone gry dwuosobowe o sumie zerowej Proste przykłady gier macierzowych: Uwaga: 4 4 2 1 0 1 5 5 3 4 2 5 0 0 4 1 3 1. Poziomy bezpieczeństwa graczy w grze ściśle konkurencyjnej: β 1 β 2 = max min u 1 (s 1, s 2 ), s 1 S 1 s 2 S 2 = max min( u 1 (s 1, s 2 )) = min max u 1 (s 1, s 2 ) s 2 S 2 s 1 S 1 s 2 S 2 s 1 S 1 (i w szczególności w grze macierzowej z macierzą A : β 1 = max i min j zawsze spełniają nierówność: a ij, β 2 = min i β 1 β 2. max a ij ) j
2. Jeżeli w macierzy gry A istnieje element a ij największy w j-tej kolumnie i jednocześnie najmniejszy w i-tym wierszu A, to strategia nr i gracza 1 oraz strategia nr j gracza 2 stanowią równowagę gry o tej macierzy. Właściwości równowag w grach ściśle konkurencyjnych: Gdy (s 1, s 2 ), (ŝ 1, ŝ 2 ) są równowagami takiej gry, to u 1 (s 1, s 2 ) u 1 (ŝ 1, s 2 ) (bo s 1 jest NO 1 (s 2 )) u 1 (ŝ 1, s 2 ) = u 2 (ŝ 1, s 2 ) u 2 (ŝ 1, ŝ 2 ) = u 1 (ŝ 1, ŝ 2 ) (bo ŝ 2 jest NO 2 (ŝ 1 )) u 1 (ŝ 1, ŝ 2 ) u 1 (s 1, ŝ 2 ) (bo ŝ 1 jest NO 1 (ŝ 2 )) u 1 (s 1, ŝ 2 ) = u 2 (s 1, ŝ 2 ) u 2 (s 1, s 2 ) = u 1 (s 1, s 2 ) (bo s 2 jest NO 2 (s 1 )) i stąd u 1 (s 1, s 2 ) = u 1 (ŝ 1, ŝ 2 ) (i oczywiście też u 2 (s 1, s 2 ) = u 2 (ŝ 1, ŝ 2 )) równowagi są równoważne, (s 1, ŝ 2 ), (ŝ 1, s 2 ) też są równowagami ( równowagi są wymienne ), s 1 S 1 β(s 1 ) β(s 1 ) oraz s 2 S 2 β(s 2 ) β(s 2 ) strategie obu graczy w równowadze są ich najbezpieczniejszymi strategiami, β 1 (G) = β(s 1 ) = u 1 (s 1, s 2 ) = u 2 (s 1, s 2 ) = β(s 2 ) = β 2 (G). W grach ściśle konkurencyjnych tę wielkość wypłatę gracza 1 w równowadze nazwiemy wartością gry. Uwaga: Jeżeli w macierzy gry A istnieje element największy w swojej kolumnie i jednocześnie najmniejszy w swoim wierszu, to jest on wartością gry o tej macierzy. Wartości gier z powyższych przykładów: gry 3 3 : a 23 = 1, gra 4 2 nie ma równowagi (w strategiach czystych), β 1 = 2, β 2 = 4 < β 1 i równowagi i wartości trzeba szukać w strategiach mieszanych.
STRATEGIE MIESZANE Strategia mieszana to wybór strategii w sposób losowy. Gdy S i jest zbiorem strategii gracza i w grze G, to zbiorem jego strategii mieszanych jest S i zbiór wszystkich rozkładów prawdopodobieństwa na S i. Gdy S i jest skończony, np. m i -elementowy, to takie że j σ i,j 0, S i = (S i ) = {(σ i,1,... σ i,mi )} m i j=1 σ i,j = 1. σ i,k prawdopodobieństwo użycia przez gracza i jego strategii nr k. Rozszerzenie mieszane gry G: przy czym dla σ = (σ 1,..., σ n ) S u i (σ) = E P (σ) u i (s) = = m 1 k 1 =1 m 2 k 2 =1 G = (N, S 1,..., S n, u 1,..., u n ),... S u i(s)dp (σ) = (dla S skończonego) m n k n =1 (σ 1,k1 σ 2,k2... σ n,kn )u i (s 1,k1, s 2,k2,..., s n,kn ) Gra skończona = rozszerzenie mieszane gry G w której zbiory S i są skończone. Strategie czyste (gracza i) = elementy S i. Strategie mieszane (gracza i) = elementy S i. Nośnik strategii mieszanej σ i : S (σ i ) = {k : σ i,k > 0} zbiór strategii czystych wybieranych przy σ i z dodatnim P Strategie istotnie mieszane = elementy S i \ S i Strategie całkowicie mieszane = {σ i S i : S (σ i ) = S i }
PRZYKŁAD: W grze walka płci żona wybiera strategię mieszaną x = (x B, x T ), gdzie x B = 1 x T (tj. idzie na boks z prawdopodobieństwem x B ) a mąż strategię mieszaną y = (y T, y B ) gdzie y B = 1 y T. Wtedy spotkają się w teatrze z prawdopodobieństwem x T y T, na gali boksu z prawdopodobieństwem x B y B, z P = x T y B każde pójdzie tam gdzie woli; oczekiwane wypłaty : żony : 2x B y B + 0 + x T y B + 4x T y T, męża : 2x T y T + x B y T + 0 + 4x B y B. Ogólnie w grze dwumacierzowej (S 1, S 2, A, B) (w której A, B są macierzami K L), gdy gracz 1 używa strategii σ 1 = x = (x 1,..., x K ), a gracz 2 strategii σ 2 = y = (y 1,..., y L ), strategia łączna (k.l) jest wybierana z P x k y l, a wypłatami graczy 1 i 2 są u 1 (x, y) = u 2 (x, y) = K k=1 K k=1 L l=1 L l=1 x k y l u 1 (s 1,k, s 2,l ) = xay, x k y l u 2 (s 1,k, s 2,l ) = xby. Dominacja: Strategia σ i Si dominuje strategię τ i, jeżeli dla każdej σ i S i zachodzi u i (σ i, σ i ) > u i (τ i, σ i ). Równoważnie: dla każdej strategii czystej s i S i Poziom bezpieczeństwa strategii: β(σ i ) = Poziom bezpieczeństwa gracza: β i = max σ i S i u i (σ i, s i ) > u i (τ i, s i ). min u i (σ i, σ i ) = min u i (σ i, s i ). σ i S i s i S i β(σ i ) = max σ i S i Zawsze β i β i ; często β i > β i. min u i (σ i, σ i ). σ i S i
Stwierdzenie: 1. (Liniowość wypłaty ze względu na strategię mieszaną): Jeśli ρ i = (ρ i,1, ρ i,2,..., ρ i,k ) i τ i = (τ i,1, τ i,2,..., τ i,k ) są dwiema strategiami mieszanymi gracza i, to dla każdego c [0, 1] układ równań σ i,j = cρ i,j + (1 c)τ i,j j = 1,... k wyznacza strategię mieszaną σ i gracza i oraz dla każdego σ i zachodzi u i (σ i, σ i ) = cu i (ρ i, σ i ) + (1 c)u i (τ i, σ i ) S i 2. Stąd: Dla każdej łącznej strategii mieszanej graczy różnych od i, σ i S i istnieje strategia czysta s i S i będąca najlepszą odpowiedzią gracza i na σ i : σ i S i u i (s i, σ i ) u i (σ i, σ i ) (Najlepszej odpowiedzi zawsze można szukać wśród strategii czystych). 3. Podobnie: Dla każdej strategii mieszanej gracza i, σ i S i istnieje łączna strategia czysta s i S i taka że σ i S i u i (σ i, s i ) u i (σ i, σ i ). (Najgorszego przy danej własnej strategii stanu świata można zawsze szukać wśród łącznych strategii czystych pozostałych graczy). Uwaga: 1. Strategia (nawet czysta) może być zdominowana przez strategię mieszaną nie będąc zdominowana przez żadną czystą. 2. Jeżeli strategia czysta s i,k S i jest zdominowana, to każda strategia σ i Si taka że σ i,k > 0 też. 3. W grze dwuosobowej strategia (czysta lub mieszana) nie jest zdominowana wtedy i tylko wtedy, gdy jest najlepszą odpowiedzią na jakąś strategię drugiego gracza.
Stwierdzenie: W dowolnej równowadze (σ 1, σ 2,..., σ n ) gry G zachodzą nierówności i N u i (σ 1, σ 2,..., σ n ) β i β i. ZNAJDOWANIE RÓWNOWAG W STRATEGIACH MIESZANYCH ogólnie: trzeba zgadnąć nośniki strategii w równowadze, po czym rozwiązać dla każdego gracza i układ równań i nierówności: k, l S(σ i ) m S(σ i ) u i (s i,k, σ i ) = u i (s i,l, σ i ) u i (s i,m, σ i ) W grze dwumacierzowej 2 2 równowaga (x, y) w strategiach istotnie mieszanych musi zatem spełniać: x = NO 1 (y) xay max(e 11 Ay, e 12 Ay) e 11 Ay = e 12 Ay y = NO 2 (x) xby max(xbe 21, xbe 22 ) xbe 21 = xbe 22. Przykłady 1. Walka płci B T B 2 ; 4 0 ; 0 T 1 ; 1 4 ; 2 równowaga Nasha (x, y) w str. istotnie mieszanych musi spełniać czyli [1 0] 2 0 1 4 (x B x T ] 4 0 1 2 1 0 y B y T 2y B = y B + 4y T = [0 1] 2 0 1 4 = [x B x T ] 4 0 1 2, 4x B + x T = 2x T y B, y T a więc w tej równowadze: x B = 0, 2, x T = 0, 8, y B = 0, 8, y T = 0, 2. 0 1 2. Przykład Aumanna L P G 3 ; 1 1 ; 2 D 0 ; 3 2 ; 0
ta gra nie ma równowag w str. czystych, a równowaga w mieszanych spełnia 3y L + y P = 2y P, x G + 3x D = 2x G więc x G = 0, 75, x D = 0, 25, y L = 0, 25, y P = 0, 75. (Warto zauważyć że w równowadze obaj gracze otrzymują wypłaty 1,5 np. u 1 (x, y) = u 1 (G, y) = u 1 (D, y) = 0, 25 0 + 0, 75 2 tymczasem strategia najbezpieczniejsza dla każdego gracza jest nią (0,5, 0,5) gwarantuje każdemu z graczy oczekiwaną wypłatę 1, 5). TWIERDZENIE NASHA: Każda gra skończona ma równowagę Nasha (być może w strategiach mieszanych). Dowód : Określamy odwzorowanie h : S 1 S 2 S 1 S 2 następująco : h(x, y) = (x, y ) gdzie x k = x k + (e 1k Ay xay) + 1 + K j=1 (e 1j Ay xay) +, y l = y l + (xbe 2l xby) + 1 + L j=1 (xbe 2j xby) + Ono spełnia założenia tw. Brouwera więc ma punkt stały (x, y) : h(x, y) = (x, y). Ten punkt jest równowagą gry: x = NO 1 (y), gdyż ale ponieważ xay = x k = 0 e 1k Ay xay, x k > 0 e 1k Ay xay = x k K j=1(e 1j Ay xay) + 0 k : x k >0 x k (e 1k Ay), druga nierówność jest możliwa tylko wtedy gdy k (x k > 0 xay = e 1k Ay). Podobnie y = NO 2 (x). TWIERDZENIE: Prawie każda gra skończona ma nieparzystą liczbę równowag Nasha. (np. każda gra w której funkcje wypłaty wszystkich graczy, u i : S R, są różnowartościowe).
STRATEGIE MIESZANE W GRACH MACIERZOWYCH Uwaga : W grze o sumie stałej C oczywiście też dla każdej łącznej strategii mieszanej σ = (σ 1,..., σ n ) S zachodzi n i=1 u i (σ 1,..., σ n ) = C. Wobec tego rozszerzenie mieszane gry ściśle konkurencyjnej również jest grą ściśle konkurencyjną i wszystkie własności równowag w strategiach czystych przenoszą się także na nie: Właściwości równowag w grach ściśle konkurencyjnych: Gdy (σ 1, σ 2 ) S jest równowagą, to u 1 (σ 1, σ 2 ) = β(σ 1 ) oraz u 2 (σ 1, σ 2 ) = β(σ 2 ) ; u 1 (σ 1, σ 2 ) = β 1 i analogicznie u 2 (σ 1, σ 2 )(= u 1 (σ 1, σ 2 )) = β 2, a więc: strategie obu graczy w równowadze są ich najbezpieczniejszymi strategiami (spośród wszystkich strategii mieszanych), a wypłaty graczy w równowadze to ich poziomy bezpieczeństwa. W grach ściśle konkurencyjnych strategie najbezpieczniejsze nazwiemy optymalnymi, a wypłatę gracza 1 w równowadze (= przy użyciu przez obu graczy strategii optymalnych) nazwiemy wartością gry. równowagi są równoważne i wymienne. Matematyczna postać wartości gry macierzowej: Ponieważ zaś β 2 = max y S 2 v(g) = β 1 = max x S 1 β(x) = max x S 1 min( xay) = max( max x S 1 z istnienia równowagi wynika następujący fakt: max x (twierdzenie von Neumanna). min y y x xay = min y min xay y S2 xay) = min y max xay x max xay, x
ALGORYTMY szukania strategii optymalnych i wartości w grach macierzowych: Programowanie liniowe: Gra macierzowa z macierzą A wymiaru K L o wyrazach dodatnich wyznacza dwa zagadnienia programowania liniowego: program pierwotny zagadnienie gracza 1 : min(u 1 + u 2 +... u K ) przy ograniczeniach ua (1, 1,... 1), u R + K gracz 1 szuka jak największej dodatniej liczby v (czyli jak najmniejszej sumy współczynników u k równej 1/v) takiej by dla każdej strategii czystej nr l gracza 2 zachodziła nierówność xa (l) v czyli ua (l) 1 (A (l) = l-ta kolumna macierzy A) program dualny zagadnienie gracza 2 : max(w 1 + w 2 +... w L ) przy ograniczeniach Aw (1, 1,... 1), w R + L i wtedy gdy u i w są rozwiązaniami, v = 1 u 1 + u 2 +... u K = 1 w 1 + w 2 +... w L jest wartością gry, a strategie mieszane x = v u oraz y = v w są strategiami optymalnymi graczy 1 i 2. Fikcyjna rozgrywka Browna Robinson: x 1 dowolna strategia mieszana gracza 1, y 1 gracza 2; dla n > 1 definiujemy rekurencyjnie: a n = NO 1 (y n 1 ), b n = NO 2 (x n 1 ), Wtedy: x n = n 1 n x n 1 + 1 n a n, y n = n 1 n y n 1 + 1 n b n. każdy podciąg zbieżny ciągu x n zbiega do strategii optymalnej gracza 1, każdy podciąg zbieżny ciągu y n zbiega do strategii optymalnej gracza 2, ciąg v n = x n Ay n dąży do wartości gry A. Ten sam algorytm można zastosować też do innych gier, niekoniecznie ściśle konkurencyjnych; dla nich zachodzi następujące (słabsze) twierdzenie: jeżeli ciąg (x n, y n ) jest zbieżny, to jego granica jest równowagą Nasha.