Stanisław Kasjan i Piotr Malicki Matematyczne modele współpracy i konfliktu - teoria gier w praktyce (Kurs letni 2010) Materiały dydaktyczne dla studentów II-go roku matematyki Wydział Matematyki i Informatyki Uniwersytet Mikołaja Kopernika Toruń 2010 Projekt współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego
SPIS TREŚCI 2 Spis treści 1 Historia teorii gier 3 2 Gry w postaci ekstensywnej 4 3 Gry w postaci strategicznej 12 4 Gry kooperacyjne 24 5 Gry dwuosobowe o sumie zerowej 31 6 Zadania i problemy 43 Spis Literatury 54
1. Historia teorii gier 1. HISTORIA TEORII GIER 3 Pierwsze ogólniejsze opracowanie, w którym odnajdujemy idee teorii gier to Researches into the Mathematical Principles of the Theory of Wealth Antoina Augustina Cournota z roku 1838. W pracy tej Cournot rozważa model duopolu i pewną wersję punktu równowagi Nasha. Prawdziwy rozwój teorii gier nastąpił w wieku XX. Zajmował się nią między innymi Emil Borel a przede wszystkim John von Neumann, który opublikował na ten temat serię prac w roku 1928. W roku 1944 wraz z Oskarem Morgensternem wydał książkę The Theory of Games and Economic Behaviour. Zawierała ona m.in. metodę rozwiązywania gier macierzowych. W tym okresie teorią gier zajmował się polski matematyk Hugo Steinhaus, który napisał na ten temat pracę w roku 1925. Do początku lat 50-tych teoria gier więcej niż dwu - osobowych zajmowała się głównie grami kooperacyjnymi, problemami zawiązywania stabilnych koalicji. W roku 1951 John Nash wprowadził swoją definicję punktu równowagi niekooperacyjnej gry n-osobowej. W latach 50-tych teoria gier rozwijała się gwałtownie, wtedy powstały klasyczne dziś pojęcia takie jak: rdzeń, wartość Shapleya, gra w postaci ekstensywnej, gra powtarzana. Teorię gier zaczęto stosować w naukach politycznych. W roku 1965 Reinhard Selten wprowadził pojęcie punktu pełnej równowagi (subgame perfect equilibrium). Dwa lata później John Harsanyi rozwinął koncepcję gier z informacją kompletną i gier bayesowskich. Wprowadzenie i rozwinięcie pojęcia równowagi uhonorowano w roku 1994 nagrodą Nobla z ekonomii dla Harsanyi ego, Nasha i Seltena. W latach 70-tych teoria gier stosowana była w biologii, głównie dzięki pojęciu strategii ewolucyjnie stabilnych wprowadzonych przez Jaohna Maynarda Smitha. W roku 2005 nagrodę Nobla z ekonomii przyznano Robertowi Aumannowi i Thomasowi Schellingowi za analizę w ramach teorii gier, która może pomóc w rozwiązywaniu konfliktów w handlu i biznesie, a nawet uniknąć wojny. W roku 2007 nagrodę Nobla (też z ekonomii) za zastosowania teorii gier dostali Leonid Hurwicz, Eric S. Maskin, Roger B. Myerson. Podstawowym źródłem na podstawie którego przygotowano kurs jest książka [9]. Stamtąd zaczerpnięto też wiele przykładów i zadań. Opierano się również na [1], [3], [10], [2]. Niektóre przykłady i zadania zaczerpnięto z [4] i [8]. Korzystano też ze źródeł dostępnych w internecie.
2. GRY W POSTACI EKSTENSYWNEJ 4 2. Gry w postaci ekstensywnej Najprostsze fakty teorii gier dotyczą chyba tzw. gier w postaci ekstensywnej, czyli gier, w których gracze wykonują swoje ruchy po kolei. Przykładem takiej gry może być dwuosobowa gra w zbieranie kamieni, zwana w literaturze Nim, polegająca na tym, że ze zbioru n kamieni (najczęściej n = 5) dwaj gracze zabierają na zmianę po 1 lub 2 kamienie; przegrywa biorący ostatni kamień. Okazuje się, że gdy n = 5 gracz rozpoczynający może zagwarantować sobie wygraną. Jego strategia zwycięska nakazuje mu w pierwszym ruchu zabrać 1 kamień, a w następnym pozostawić 1 kamień przeciwnikowi - o ile jest to możliwe. Okaże się, że każda taka gra jest zdeterminowana, tzn. jeden z graczy może sobie zagwarantować wygraną (lub remis, jeśli reguły gry go dopuszczają). Taka gra oznacza tutaj grę, która jest skończona (reguły gry dopuszczają tylko skończoną liczbę możliwych przebiegów), gracze wykonują ruchy niejednocześnie i są w pełni informowani o dotychczasowym przebiegu gry, Z sytuacjami takimi rzadko spotykamy się w rzeczywistych zastosowaniach, pojęcie gry w postaci ekstensywnej modyfikuje się więc na różne sposoby (ruchy losowe, niekompletna informacja), my rozważać będziemy jednak model najprostszy. Bardziej życiowych przykładów dostarczają np. procesy negocjacji. Wyobraźmy sobie następującą sytuację. Dwaj właściciele domków położonych 200 m od siebie negocjują lokalizację doprowadzenia wodociągu w ich okolicę. Inwestycji tej każdy z nich przypisuje wartość 300, jednak korzyść ta zmniejszona będzie o 10 (odległość doprowadzenia od domu); trzeba bowiem na własny koszt doprowadzić stamtąd wodę do swojej posesji. Ponadto zakłada się, że ze względu na inflację szacowana korzyść maleje z czasem: jeśli decyzja zapadnie w k-tej rundzie negocjacji, to korzyść zdyskontować należy z czynnikiem δ k 1, gdzie δ = 0, 9. Jakie oferty należy składać, jakie akceptować? 2.1. Niech X będzie zbiorem niepustym. Jeśli h = (y 1,..., y k ) jest ciągiem skończonym o wyrazach w X oraz h = (x 1,..., x n,...) - przeliczalnym, to przez (h, h ) oznaczamy ciąg (y 1,..., y k, x 1,..., x n,...). Niech oznacza ciąg pusty o
2. GRY W POSTACI EKSTENSYWNEJ 5 długości 0. Dla danego ciągu przeliczalnego h przez l(h) oznaczamy jego długość. W zbiorze ciągów przeliczalnych wprowadzamy relację częściowego porządku określoną następująco: h h wtedy i tylko wtedy, gdy h = (h, h ) dla pewnego h. Mówimy, że h jest odcinkiem początkowym h. Dopuszczamy h =. Oczywiście h musi być ciągiem skończonym gdy h. Definicja. Zbiór ciągów przeliczalnych o wyrazach w X nazywamy zbiorem historii nad X, o ile (1) H, (2) z tego, że h h H wynika, że h H, (3) jeśli każdy skończony odcinek początkowy historii h o nieskończonej długości należy do H, to h H. Niech H będzie ustalonym zbiorem historii nad X. Interpretować go będziemy jako zbiór wszystkich możliwych przebiegów pewnej gry. Dla h H określamy h = {x X : (h, x) H}. O h = {x X : (h, x) H} myślimy jako o zbiorze ruchów dopuszczalnych po h, tzn. w sytuacji gdy dotychczasowy przebieg gry opisany jest przez h. Zbiorem historii zakończonych nazywamy zbiór Z(H) = {h H : h = }. Definicja. n-osobowa gra w postaci ekstensywnej jest to układ Γ = (H, P, u 1,..., u n ), gdzie H jest zbiorem historii nad pewnym zbiorem X, u i : Z(H) R dla i = 1,..., n oraz P : H \ Z(H) {1,..., n}. Graczy utożsamiamy z liczbami 1,..., n. P nazywamy funkcją gracza, określa ona który z graczy wykonuje ruch po danej historii. u 1,..., u n to funkcje wypłaty przypisujące każdej historii zakończonej układ wypłat dla poszczególnych graczy. Grę nazywamy skończoną, o ile skończony jest zbiór H. Przykład 1. Opisaną powyżej grę Nim n przedstawiamy następująco: Nim n = (H, P, u 1, u 2 ),
2. GRY W POSTACI EKSTENSYWNEJ 6 gdzie H składa się z ciągów o wyrazach 1 lub 2, których suma nie przekracza n, P(h) = 1 o ile l(h) jest liczbą parzystą, P(h) = 2 w przeciwnym wypadku, u 1 (h) = 1 gdy l(h) jest liczbą parzystą, u 1 (h) = 1 w przeciwnym wypadku. Strategia gracza jest to instrukcja zachowania w każdej sytuacji, która może zaistnieć w grze. Niech Γ = (H, P, u 1,..., u n ), będzie n-osobową grą w postaci ekstensywnej. Przykład 2. Negocjacje dotyczące lokalizacji doprowadzenia wody można modelować za pomocą następujacej gry w postaci ekstensywnej. zbiór ruchów X = [0, 200] {A, R}. Element x [0, 200] odpowiada propozycji zlokalizowania doprowadzenia wody w odległości x metrów od domku B i 200 x od C. A (odp. R) oznacza akceptację (odp. odrzucenie) propozycji. Zbiór historii składa się ze wszystkich ciągów jednej z następujących postaci: (x (1), R, x (2), R,..., R, x (k), A), (x (1), R, x (2), R,..., R, x (k), R,...), i wszystkich ich odcinków początkowych, gdzie x (j) [0, 200]. Kolejność wykonywania ruchów jest następująca: B składa propozycję, C akceptuje ją lub odrzuca, jeśli odrzuca - składa własną ofertę; B akceptuje lub odrzuca... Formalnie, P(h) = B gdy l(h) daje resztę 0 lub 1 przy dzieleniu przez 4, P(h) = C w przeciwnym wypadku. Funkcje wypłaty: jeśli h = (x (1), R, x (2), R,..., R, x (k), A), to u B (h) = δ k 1 (300 10x (k) ), u C (h) = δ k 1 (100+10x (k) ). Ponadto u B (h) = u C (h) = 0 dla nieskończonych historii h. Definicja. Niech H i = P 1 (i). Strategią gracza i w grze Γ nazywamy dowolną funkcję σ : H i X
2. GRY W POSTACI EKSTENSYWNEJ 7 taką, że σ(h) h dla dowolnej h H i. Zbiór wszystkich strategii gracza i w grze Γ oznaczamy S i (Γ). Historię h nazywamy zgodną ze strategią σ gracza i, o ile dla dowolnej h h takiej, że P(h ) = i zachodzi (h, σ(h )) h. Lemat. Dla dowolnego układu σ = (σ 1,..., σ n ) graczy 1,..., n w grze Γ istnieje dokładnie jedna historia zakończona zgodna z każdą ze strategii σ 1,..., σ n. Taką strategię nazywamy wynikiem stosowania układu σ i oznaczamy h σ. Używając tego przyporządkowania możemy zdefiniować funkcje wypłaty na zbiorze układów strategii, tj. określamy funkcje wzorem u i (σ) = u i (h σ ), i = 1,..., n. u i : S 1 (Γ)... S n (Γ) R 2.2. Rozważmy teraz klasę gier WPR składającą się ze skończonych gier dwuosobowych w postaci ekstensywnej Γ = (H, P, u 1, u 2 ) takich, że u 1 = u 2 oraz wartości u i należących do zbioru { 1, 0, 1}. Strategię σ i gracza i w takiej grze nazywamy zwycięską, o ile u i (h) 0 dla dowolnej historii zakończonej h zgodnej z σ i. Oznacza to, że stosując strategię σ i gracz i może zagwarantować sobie wygraną lub remis. Twierdzenie (Zermelo). W każdej grze z klasy WPR jeden z graczy posiada strategię zwycięską. Dowód zamieszczamy w 2.4. 2.3. Do dowodu tego twierdzenia przydatne będzie pojęcie podgry. Niech Γ = (H, P, u 1,..., u n ) oraz f H. Zbiór ciągów h takich, (f, h ) H oznaczmy przez H f oraz określmy funkcję ι f : H f H, h (f, h ). Podgrą Γ następującą po f nazywamy grę gdzie P f = P ι f, u f i = u i ι f. Γ f = (H f, P f, u f 1,..., u f n),
2. GRY W POSTACI EKSTENSYWNEJ 8 Jeśli σ i jest strategią gracza i w grze Γ, to σ f i = σ i ι f jest strategią gracza i w grze Γ f. 2.4. Dowód twierdzenia Zermela. Indukcja na H. Jeśli H = 1 (czyli H = { }, w grze nic się nie dzieje), to teza jest oczywista. Załóżmy teraz, że H > 1 i niech = {x 1,..., x t }. Możemy założyć, że P( ) = 1. Niech W i oznacza zbiór tych gier WPR, w których gracz i ma strategię zwycięską. Jeśli Γ xj W 1 dla pewnego j, to zwycięską dla 1 jest dowolna strategia σ 1 taka, że σ 1 ( ) = x j oraz σ x j 1 jest strategią zwycięską dla 1 w Γ xj. Wtedy Γ W 1. Jeśli zaś Γ xj W 2 dla dowolnego j = 1,..., t, to dowolna strategia σ 2 jest zwycięska dla 2 w Γ, o ile σ x j 2 jest zwycięska dla 2 w Γ xj dla dowolnego j. Wtedy Γ W 2. Uwaga. (1) Założenie skończoności gry jest potrzebne. Przykład niezdeterminowanej gry nieskończonej niełatwo wymyślić. (2) Oczywiście gry niedopuszczające remisu (u i (h) 0 dla dowolnego h) nie mogą jednocześnie należeć do W 1 i do W 2. Inne gry mogą, przykładem jest gra w kółko i krzyżyk. (3) Dowód twierdzenia jest konstruktywny, jednak w przypadku ciekawszych gier złożoność obliczeniowa problemu jest tak wielka, że jest on konstruktywny jedynie w teorii. Twierdzenie stosuje się bowiem również np. do gry w szachy, odpowiednio zmodyfikowanej tak, by była grą skończoną. Można na przykład przyjąć regułę, że jeśli na szachownicy po raz trzeci pojawia się ta sama konfiguracja, to gra kończy się remisem. 2.5. Równowaga w grach ekstensywnych. Niech Γ = (H, P, u 1,..., u n ) będzie grą w postaci ekstensywnej. Układ σ = (σ 1,..., σ n ) strategii w grze Γ jest punktem równowagi tej gry, jeśli żadnemu z graczy nie opłaca się odstąpić od swojej strategii przy założeniu, że nie uczynią tego pozostali. Formalnie: Definicja. Układ σ = (σ 1,..., σ n ) strategii graczy 1,..., n odpowiednio jest punktem równowagi gry Γ, gdy dla dowolnej strategii σ i gracza i zachodzi nierówność u i (σ i ) u i (σ i, σ i ). Zbiór punktów równowagi gry Γ oznaczamy Eq(Γ) Okazuje się, że lepiej
2. GRY W POSTACI EKSTENSYWNEJ 9 sprawdza się pewna modyfikacja tego pojęcia. Definicja. Układ σ = (σ 1,..., σ n ) strategii graczy 1,..., n odpowiednio jest punktem pełnej równowagi (subgame perfect equilibrium) gry Γ, o ile dla dowolnej historii h H indukowany układ σ h jest punktem równowagi Γ h. Zbiór punktów pełnej równowagi gry Γ oznaczamy SPE(Γ). Mówimy, że układ σ = (σ 1,..., σ n ) strategii w grze Γ ma własność pojedynczego odchylenia (one deviation property), o ile dla dowolnego i i dowolnej strategii σ i gracza i oraz historii h takiej, że σ i(h ) = σ(h ) dla każdej historii h takiej, że h h zachodzi warunek: u h i (σh ) u h i ((σh i, σ h i )). Jest oczywiste, że punkt pełnej równowagi ma własność pojedynczego odchylenia. Lemat. Niech Γ będzie grą skończoną. Układ strategii σ = (σ 1,..., σ n ) jest punktem pełnej równowagi gry Γ wtedy i tylko wtedy, gdy ma własność pojedynczego odchylenia. Dowód. Oczywiście wystarczy pokazać, że jest to warunek wystarczający. Załóżmy, że σ ma własność pojedynczego odchylenia. Ponieważ własność ta dziedziczona jest na indukowane układy strategii w podgrach, więc wystarczy pokazać, że σ jest punktem równowagi Γ. Załóżmy, że tak nie jest i niech σ i będzie strategią gracza i taką, że u i (σ) < u i (σ i, σ i ). Mówimy wtedy, że σ i jest korzystnym odchyleniem od σ i względem σ i. Wybierzmy σ i tak, by liczba historii h takich, że σ i (h) σ i(h) jest minimalna. Niech h będzie najdłuższą z tych historii. Określamy nową strategię σ i gracza i wzorem σ i (h) = { σ i (h), h h, σ i (h), h = h. Rozważmy dwa przypadki: 1. h h σ, tzn. h nie jest zgodna z σ, gdzie σ = (σ i, σ i ). Wtedy wyniki stosowania układów (σ i, σ i ) i (σ i, σ i) są równe, zatem σ i jest także korzystnym odchyleniem od σ i względem σ i, co przeczy wyborowi σ i. 2. h h σ. Z warunku pojedynczego odchylenia wynika, że u h i (σ h i, h σ i ) = u h i (σ h ) u h i (σ h i, σ h i ).
2. GRY W POSTACI EKSTENSYWNEJ 10 Z drugiej strony, ponieważ h jest zgodna zarówno z σ i jak i z σ i, to oraz Stąd u i (σ i, σ i ) = uh i (σ h i, h σ i ) u i (σ i, σ i) = u h i (σ h i, σ h i ), u i (σ i, σ i ) u i(σ i, σ i ) > u i(σ), zatem σ i jest korzystnym odchyleniem od σ, co przeczy wyborowi σ. Lemat powyższy można też udowodnić w nieco ogólniejszej wersji. Na przykład, zamiast skończoności gry wystarczy zakładać, że gra ma skończony horyzont, tzn. nie zawiera historii nieskończonej długości. Dowód w takim przypadku przebiega jak wyżej, po uprzednim udowodnieniu istnienia korzystnego odchylenia od σ i różniącego się od σ i tylko dla skończenie wielu historii. Założenia o skończoności horyzontu nie można już opuścić, można je jedynie osłabiać, np. założyć, że istnieją liczby a 1,..., a n takie, że u i (h) = a i dla dowolnej historii h nieskończonej długości oraz a i u i (h) dla dowolnej historii i dowolnego i = 1,..., n. Założenie to oznacza, że historie nieskończonej długości nie są konkurencyjne. Taka wersja lematu o pojedynczym odchyleniu znajduje zastosowanie np. w teorii gier targu z naprzemiennymi ofertami. Twierdzenie. Załóżmy, że Γ jest grą skończoną. Wtedy istnieje punkt pełnej równowagi w Γ. Dowód. Niech l(γ) będzie maksymalną długością historii w Γ. Przez indukcję na l(γ(h)) skonstruujemy dla dowolnej historii h H element R(h) Z(H) oraz - jeśli h / Z(H) - element x h h. Jeśli l(γ(h)) = 0, to przyjmujemy R h = h. Załóżmy, że dla historii h takich, że l(h) k elementy R(h) i x h są zdefiniowane i załóżmy, że l(γ(h)) = k + 1. Wtedy l(γ(h )) k dla dowolnej historii postaci h = (h, x), x h. Załóżmy, że P(h) = i. Niech x h będzie elementem h takim, że u i (R(h, x h )) = max x h u i(r(h, x)) oraz przyjmijmy R(h) = R(h, x h ). Definiujemy teraz strategię σ j gracza j wzorem: σ j (h) = x h dla h H j.
2. GRY W POSTACI EKSTENSYWNEJ 11 Wykażemy, że σ = (σ 1,..., σ n ) ma własność pojedynczego odchylenia, co na mocy powyższego lematu wystarczy do dowodu, że jest to pełny punkt równowagi. W tym celu najpierw zauważmy, że R(h) jest wynikiem stosowania układu σ h w grze Γ h, dla dowolnej historii h. Łatwo to wykazać przez indukcję na l(γ(h)). Niech teraz σ i będzie strategią gracza i oraz niech h będzie historią spełniającą warunek σ i(h ) = σ i (h ) dla każdej historii h takiej, że h h. Bez straty ogólności możemy założyć, że P(h) = i (w przeciwnym wypadku po prostu σi h = σ i h). Oznaczmy σ i (h) = x. Wtedy u h i (σh i, σ h i ) = u i(r(h, x)) u i (R(h, x h )) = u h i (σh ). Ostatnia nierówność wynika z wyboru x h = σ i (h). Dowód jest zakończony. 2.6. Gry targu z naprzemiennymi ofertami. Uogólniając przykład dotyczący lokalizacji doprowadzenia wody dochodzimy do wprowadzonych przez A. Rubinsteina gier targu z naprzemiennymi ofertami. Zakładamy, że gracze 1 i 2 negocjują wybór elementu ze zbioru X = X ψ = {(x 1, x 2 ) R 2 : x 1 0, x 2 0, x 2 ψ(x 1 )}, gdzie ψ : [0, b 1 ] R jest pewną ustaloną funkcją ciągłą i malejącą taką, że ψ(b 1 ) = 0. Ustalmy też czynnik dyskontujący δ (0, 1). Określamy grę Γ ψ,δ = (H, P, u 1, u 2 ), gdzie Zbiór historii składa się ze wszystkich ciągów jednej z następujących postaci: (p (1), R, p (2), R,..., R, p (k), A), (p (1), R, p (2), R,..., R, p (k), R,...), i wszystkich ich odcinków początkowych, gdzie p (j) X ψ. Kolejność wykonywania ruchów jest następująca: gracz 1 składa propozycję, gracz 2 akceptuje ją lub odrzuca, jeśli odrzuca - składa własną ofertę; gracz 1 akceptuje lub odrzuca... Formalnie, P(h) = B gdy l(h) daje resztę 0 lub 1 przy dzieleniu przez 4, P(h) = C w przeciwnym wypadku.
3. GRY W POSTACI STRATEGICZNEJ 12 Funkcje wypłaty: jeśli h = (p (1), R, p (2), R,...,R, p (k), A), to u 1 (h) = δ k 1 (x (k) ), u 2 (h) = δ k 1 (y (k) ), gdzie p (k) = (x (k), y (k) ). Ponadto u 1 (h) = u 2 (h) = 0 dla nieskończonych historii h. Twierdzenie (A. Rubinstein.) Załóżmy, że funkcja ψ jest dwukrotnie różniczkowalna w (0, b 1 ) i wklęsła, tzn. ψ (x) < 0 dla x (0, b 1 ). Wtedy (1) Istnieje dokładnie jedna (zależna od δ) para (x 1, x 2) [0, b 1 ] taka, że δψ(x 2 ) = ψ(x 1 ) oraz δx 1 = x 2. (2) Gra targu Γ ψ,δ ma punkty pełnej równowagi. Dokładniej, para strategii (σ 1, σ 2 ) jest punktem pełnej równowagi tej gry wtedy i tylko wtedy, gdy 1. σ 1 (p (1),..., R) = (x 1, ψ(x 1 )) σ 1 (p (1),..., p (k) ) = A gdy x (k) > x 2 σ 1 (p (1),..., p (k) ) = R gdy x (k) < x 2, 2. σ 2 (p (1),..., R) = (x 2, ψ(x 2)) σ 2 (p (1),..., p (k) ) = A gdy y (k) > ψ(x 1 ) σ 1 (p (1),..., p (k) ) = R gdy y (k) < ψ(x 1 ). Zauważmy, że punkt pełnej równowagi nie jest wyznaczony całkiem jednoznacznie - nie jest w pełni określone zachowanie graczy w sytuacjach x (k) = x 2, y (k) = ψ(x 1 ). 3. Gry w postaci strategicznej Definicja 3.1. n-osobową grą w postaci strategicznej nazywamy układ G = (S 1,..., S n, u 1,..., u n ), gdzie S 1,..., S n są niepustymi zbiorami, zwanymi zbiorami strategii graczy 1,..., n odpowiednio, zaś u i : S 1... S n R, i = 1,..., n są funkcjami zwanymi funkcjami wypłaty poszczególnych graczy. Grę G nazywamy skończoną, o ile wszystkie S 1,..., S n są skończone. Tak określona gra jest to model sytuacji, w której gracze 1,..., n wykonują jednocześnie ruch - wybierają element z odpowiedniego zbioru S i. Następnie
3. GRY W POSTACI STRATEGICZNEJ 13 każdy z nich otrzymuje wypłatę zależną od ruchów wykonanych przez wszystkich graczy. Wartości wypłat opisane są przez funkcje u i. Powiemy, że gry G = (S 1,..., S n, u 1,..., u n ) i G = (S 1,..., S n, u 1,..., u n) są izomorficzne, o ile istnieją bijekcje φ i : S i S i takie, że u i (φ 1(s 1 ),..., φ n (s n )) = u i (s 1,..., s n ), dla dowolnych s 1 S 1,...,s n S n, i = 1,..., n. Używać będziemy następujących oznaczeń. Niech S = S 1... S n. Dla elementu s S przez s i oznaczamy i-tą współrzędną s, czyli s = (s 1,..., s n ). Ponadto niech S i = S 1... S i 1 S i+1... S n oraz s i = (s 1,..., s i 1, s i+1,..., s n ) S 1. Dla danego elementu t S i przez (t, s i ) lub (s i, t) oznaczamy (s 1,..., s i 1, t, s i+1,..., s n ) S. Definicja 3.2. (1) Strategia s i S i jest najlepszą odpowiedzią na układ s i S i, o ile dla dowolnej t i S i zachodzi nierówność u i (s i, s i ) u i (t i, s i ). (2) Układ s S jest punktem równowagi G, o ile s i jest najlepszą odpowiedzią na s i dla dowolnego i = 1,...,n. Inaczej: gdy dla dowolnego i = 1,..., n i dowolnej strategii s i S i zachodzi nierówność u i (s ) u i (s i, s i). (3) Strategia s i S i dominuje strategię s i S i, o ile dla dowolnego układu t 1 S i zachodzi nierówność u i (s i, t i ) > u i (s i, t i ). (4) Strategia s i S i słabo dominuje strategię s i S i, o ile dla dowolnego układu t 1 S i zachodzi nierówność u i (s i, t i ) u i (s i, t i ) oraz istnieje układ t i taki, że nierówność jest ostra. Przypuśćmy, że G = (S 1, S 2, u 1, u 2 ) jest dwuosobową grą w postaci strategicznej. Załóżmy, że dla każdej strategii s 1 S 1 gracza 1 istnieje dokładnie jedna najlepsza odpowiedź gracza 2, oznaczmy ją r 2 (s 1 ). W ten sposób określić
3. GRY W POSTACI STRATEGICZNEJ 14 możemy tzw. funkcję reakcji gracza 2 r 2 : S 1 S 2. Załóżmy także, że istnieje podobna funkcja reakcji r 1 : S 2 S 1 gracza 1. W tej sytuacji para (s 1, s 2) jest punktem równowagi gry G wtedy i tylko wtedy, gdy r 2 (s 1) = s 2 i r 1 (s 2) = s 1. Znalezienie punktu równowagi sprowadza się zatem do rozwiązania równania r 2 (r 1 (s 2 )) = s 2 czyli do znalezienia punktu stałego funkcji r 2 r 1 : S 2 S 2. Problem w tym, że na ogół funkcje reakcji nie są dobrze zdefiniowane, niemniej idea powiązania punktów równowagi z punktami stałymi pewnych odwzorowań jest w teorii gier bardzo ważna. Z każdą grą w postaci ekstensywnej Γ stowarzyszyć możemy jej postać strategiczną, czyli grę w postaci strategicznej S(Γ) = (S 1 (Γ),..., S n (Γ), u 1,..., u n ), gdzie S(Γ) jest zbiorem wszystkich strategii gracza i w grze Γ oraz u i (σ) = u i (h σ ) dla i = 1,..., n i dowolnego σ S 1 (Γ)... S n (Γ), zob. 2.1. Przykład - zadanie. Znaleźć funkcje reakcji oraz punkty równowagi gry G = (S 1, S 2, u 1, u 2 ), gdzie S 1 = S 2 = [0, 1] oraz u 1 (x, y) = x 2 + 2xy + 6, u 2 (x, y) = y 2 + 4x 2 y. Dwuosobową grę skończoną wygodnie jest opisywać przy pomocy tabelki, w której ruchy gracza 1 odpowiadają wierszom, ruchy gracza 2 - kolumnom, zaś w polu na przecięciu danego wiersza i danej kolumny znajduje się para liczb - wartości funkcji wypłaty poszczególnych graczy. Przykłady. 1. Dylemat więźnia. L Z L 3,3 0,5 Z 5,0 1,1 Strategia Z dominuje L. Para (Z, Z) jest jedynym punktem równowagi tej gry. 2. BoS B S B 2,1 0,0 S 0,0 1,2
3. GRY W POSTACI STRATEGICZNEJ 15 Dominacja nie występuje; istnieją dwa punkty równowagi: (B, B), (S, S). 3. Gra bez punktu równowagi: a b a 2,1 0,3 b 1,4 1,2 Tego typu gry nazywa się także grami bimacierzowymi, zob. 3.3 poniżej. Ważnymi przykładami gier są gry opisujące zagadnienie oligopolu. Załóżmy, że na rynku funkcjonuje n producentów jednego towaru. W danym momencie każdy z nich ustala wielkość produkcji. Zakładamy, że całość wyprodukowanego towaru jest sprzedawana na rynku po cenie p(q) zależnej od podaży q. Wyprodukowanie q i jednostek towaru wiąże się dla producenta o numerze i z kosztem c i (q i ). Przyjmujemy, że zbiór możliwych poziomów produkcji i-tego producenta jest przedziałem S i = [a i, b i ]. Sytuację tę możemy modelować jako grę G = (S 1,..., S n, u 1,..., u n ), gdzie funkcja wypłaty - dochodu gracza i wyraża się wzorem u i (q 1,..., q n ) = q i p(q 1 +... + q n ) c i (q i ). Przykład - zadanie. Rozważmy duopol (tzn. oligopol dla n = 2) określony przez następujące dane: S 1 = S 2 = [0, 1], p(q) = 2 q, c 1 (q) = c 2 (q) = q. Co doradzić graczom? Czy istnieją funkcje reakcji, punkty równowagi? 3.3. Niech G = (S 1,..., S n, u 1,..., u n ) będzie n-osobową grą skończoną. Dla skończonego zbioru T oznaczmy T = {f : T [0, 1] : t T f(t) = 1}. Utożsamiać będziemy T z podzbiorem T w naturalny sposób. Mieszanym rozszerzeniem gry skończonej G nazywamy grę G = ( S 1,..., S n, ũ 1,..., ũ n ) gdzie ũ i : S 1... S n R dana jest wzorem ũ i (f 1,..., f n ) = f 1 (s 1 )...f n (s n ) (s 1,...,s n) S
3. GRY W POSTACI STRATEGICZNEJ 16 dla i = 1,..., n. Na ogół traktujemy S i jako podzbiór S i utożsamiając s S i z funkcją δ s : S i R taką, że δ s (t) = 0 gdy s t oraz δ s (s) = 1. Wygodna jest też następująca notacja: element f S i zapisujemy jako formalną kombinację wypukłą s S i f(s)s. Uwaga. ũ i jest funkcją liniową ze względu na każdą zmienną osobno. Wynika z tego, że dla dowolnych i, j = 1,..., n, f j S j zachodzi równość ponieważ S j jest powłoką wypukłą S j. max g S j ũ i (f j, g) = max s j S j ũ i (f j, s j ), Elementy S i nazywamy strategiami mieszanymi gracza i, zaś elementy S i S i - jego strategiami czystymi. Nośnikiem strategii f i S i nazywamy zbiór supp(f i ) = {s S i : f i (s) > 0}. Łatwo zauważyć, że dla danej macierzy A mieszane rozszerzenie gry g(a) izomorficzne jest z grą G(A). Wygodnie jest wprowadzić pojęcie gry bimacierzowej. Para macierzy A, B rozmiaru m n o współczynnikach rzeczywistych wyznacza grę dwuosobową g(a, B) = (S 1, S 2, u 1, u 2 ), gdzie S 1 = {1,..., m}, S 2 = {1,..., n}, u 1 (i, j) = A ij, u 2 (i, j) = B ij. Jej mieszane rozszerzenie oznaczamy G(A, B) i utożsamiamy z grą ( n, m, ξ A, ξ B ), gdzie k = {(x 1,..., x k ) R k + : k i=1 x i = 1} oraz ξ A (x, y) = xay T, ξ B (x, y) = xby T. Twierdzenie. (J. Nash). Mieszane rozszerzenie gry skończonej posiada punkt równowagi. 3.4. Twierdzenie to jest wnioskiem z ogólniejszego faktu. Twierdzenie. Przypuśćmy, że G = (S 1,..., S n, u 1,..., u n ) jest grą spełniającą następujące warunki. (a) S i jest zwartym i wypukłym podzbiorem przestrzeni euklidesowej R n i dla i = 1,..., n, (b) funkcje u i są ciągłe,
3. GRY W POSTACI STRATEGICZNEJ 17 (c) funkcja u i jest wklęsła ze względu na i-tą zmienną dla i = 1,..., n. Wtedy G ma punkt równowagi. Dowód. Niech S = S 1... S n. Określamy funkcję F : S S R wzorem F(s, t) = n i=1 u i(s, (s i, t i )). Jest to odwzorowanie ciągłe, wklęsłe ze względu na druga zmienną. Lemat. s jest punktem równowagi G wtedy i tylko wtedy, gdy F(s, s ) = max t S F(s, t). Dowód lematu. Przypuśćmy, że s jest punktem równowagi. niech t S. Wtedy dla każdego i zachodzi nierówność u i (s ) u i (s i, t i). Sumując te nierówności otrzymujemy F(s, s ) F(s, t). Implikację w druga stronę pokazujemy korzystając z nierówności F(s, s ) F(s, (s i, t i)). Załóżmy, że gra nie ma punktu równowagi, co na mocy lematu równoważne jest temu, że dla dowolnego s S istnieje t S takie, że F(s, s) < F(s, t). Niech U t oznacza zbiór {s S : F(s, s) < F(s, t)}. Z naszego założenia wynika, że S = t S U t. Zbiór S jest zwarty więc jest sumą skończenie wielu zbiorów U t, niech S = U t1... U tm dla pewnych t 1,..., t m S. Dla j = 1,..., m niech f j : S R będzie funkcją określoną wzorem f j (s) = max{0, F(t j, s) F(t j, t j )}. Są to funkcje ciągłe. Niech f = f 1 +... + f m. Funkcja f przyjmuje wartości dodatnie. Z wypukłości zbioru S wynika, że odwzorowanie φ : S S dane wzorem t m j=1 f j (t) f(t) t j
3. GRY W POSTACI STRATEGICZNEJ 18 jest dobrze określone. Ponieważ jest ciągłe, ma punkt stały na mocy twierdzenia Brouwera 1. Niech φ(s ) = s. Wtedy korzystając z wklęsłości F ze względu na drugą zmienną otrzymujemy F(s, s ) = F(s, φ(s )) = F(s, m j=1 f j (s ) f(s ) t j) m j=1 f j (s ) f(s ) F(s, t j ). Z definicji funkcji f j wynika, że współczynniki niezerowe występują w powyższej sumie tylko przy składnikach F(s, t j ) większych od F(s, s ). Ale to oznacza, że prawa strona tej nierówności jest większa od F(s, s ), co prowadzi do sprzeczności. Twierdzenie Nasha otrzymujemy jako natychmiastowy wniosek z powyższego twierdzenia. 3.5. W pewnych sytuacjach do poszukiwania punktów równowagi mieszanego rozszerzenia użyć można następującego lematu. Niech G = (S 1,..., S n, u 1,..., u n ) będzie grą skończoną a G jej mieszanym rozszerzeniem. Nośnikiem strategii f S i nazywamy zbiór supp(f) = {s S i : f(s) > 0}. Lemat. Niech f = (f 1,..., f n ) S 1... S n. Następujące warunki są równoważne: (a) f jest punktem równowagi G. (b) Dla dowolnego i dowolny element nośnika strategii f i jest najlepszą odpowiedzią na f i. Dowód. (a) (b) Przypuśćmy, że s supp(f i ) oraz ũ i (t, f i ) > ũ i (s, f i ) dla pewnego s S i. Określamy f i = f i f(s)s + f(s)t. Wtedy f i S i oraz ũ i (f i, f i) = ũ i (f) + f(s)(ũ i (t, f i ) ũ i (s, f i )) > ũ i (f), co przeczy założeniu, że f jest punktem równowagi G. (b) (a) Zakładając (b) stwierdzamy, że ũ i (f i, f i ) = max s S i ũ i (s, f i ) = max g S i ũ i (g, f i ) 1 Twierdzenie to mówi, że jeśli F : K K jest ciągłym przekształceniem zwartego i wypukłego podzbioru K przestrzeni euklidesowej, to f ma punkt stały.
3. GRY W POSTACI STRATEGICZNEJ 19 dla dowolnego i. Stąd f jest punktem równowagi. Wniosek. Jeśli f jest punktem równowagi oraz s, t supp(f i ), to ũ i (s, f i ) = ũ i (t, f i ). Przykład. Dylemat kierowcy: Dwa pojazdy jadące naprzeciwko znalazły się po dwóch stronach zwężenia jezdni. Ktoś musi ustąpić. Każdy ma do wyboru dwie strategie: G (jechać), i W (czekać). Niech e > 0 będzie czasem oczekiwania na decyzję w wypadku, gdy obaj zamierzają się nawzajem przepuścić, d > 0 - czas zużyty na wycofanie pojazdu ze środka zwężenia, t i - czas przejazdu przez zwężenie pojazdu i, i = 1, 2. Zakładamy, że: e < d, t 1, t 2 < 2d. Sytuację tę opisuje tabelka: G W G d t 2 2, d t 1 2 0, t 1 W t 2, 0 e t 2 2, e t 1 2 Jeśli np. obaj naraz ruszą (G,G), to jeden z nich będzie się musiał wycofać ze środka zwężenia. Przyjmujemy, że w drodze losowania rozstrzyga się który. Obaj stracą czas d; wartość d+ t 2 2 jest średnią arytmetyczną wartości d (strata w przypadku, gdy wycofuje się 2) i d + t 2 (gdy wycofuje się 1). Można więc interpretować to jako oczekiwaną wartość straty poniesionej przez gracza 1 w przypadku wybrania przez obu strategii G. Punktami równowagi mieszanego rozszerzenia tej gry są: gdzie (G, W), (W, G), θ 1 G + (1 θ 1 )W, θ 2 G + (1 θ 2 )W, θ i = e + t i 2 d + e. Przykład - zadanie Zbadać zbiór punktów równowagi mieszanego rozszerzenia gry zadanej przy pomocy tabelki (Hawk-Dove): H D H r c, r c 2r, 0 D 0, 2r w zależności od r, c > 0. 1 r, 1 r 2 2 3.6. Równowaga i strategie dominowane. Niech G = (S 1,..., S n, u 1,..., u n ) będzie grą w postaci strategicznej. Powiemy, że gra H = (T 1,..., T n, v 1,..., v n )
3. GRY W POSTACI STRATEGICZNEJ 20 powstała z G przez eliminację strategii dominowanych, o ile T i S i, i = 1,..., n, v i jest ograniczeniem u i oraz każda strategia ze zbioru S i \ T i jest dominowana w grze G dla i = 1,..., n. Dodatkowo zakładać będziemy, że G H. Niech Eq(G) oznacza zbiór punktów równowagi gry G. Twierdzenie. Przypuśćmy, że H powstaje z G przez eliminację strategii dominowanych. (a) Eq(G) Eq(H) (b) Jeśli dla dowolnego i oraz układu s i S i istnieje najlepsza odpowiedź gracza i na s i, to Eq(G) = Eq(H). (c) Jeśli G jest grą skończoną, to Eq( G) = Eq( H). Zauważmy, że warunek w (b) spełniony jest automatycznie, jeśli zbiory S i są zwarte oraz funkcje wypłaty ciągłe, np. w przypadku gier skończonych lub ich mieszanych rozszerzeń. Dowód. Zauważmy, że strategia dominowana nie jest najlepszą odpowiedzią na żaden układ strategii. Stąd jeśli s = (s 1,..., s n ) Eq(G), to s i nie należą do zbiorów S i \T i, bo te składają się ze strategii dominowanych. Zatem s T 1... T n i oczywiście s Eq(H); udowodniliśmy (a). (b) Przypuśćmy, że s = (s 1,..., s n ) Eq(H). Każda najlepsza odpowiedź na s i w grze G należy do T i, bo nie jest dominowana. Stąd s i jest najlepszą odpowiedzią na s i w grze G, nie tylko w H. Wnioskujemy, że s = (s 1,..., s n ) Eq(G). (c) Wynika z lematu 3.3 i znów z faktu, że najlepsza odpowiedź na dowolny układ strategii należy do T i. Usunięcie strategii dominowanych nie zmienia więc zbioru punktów równowagi. Można w pewnych sytuacjach uprościć tą metodą grę. Proces ten można iterować. Ciągiem eliminacyjnym dla gry G = (S 1,..., S n, u 1,..., u n ) nazywamy ciąg gier G = G 0, G 1, G 2,... o własnościach: 1. G i+1 powstaje z G i przez eliminację strategii dominowanych lub G i+1 = G i dla i 0. 2. Jeśli G i+1 = G i, to G j+1 = G j dla wszystkich j i. Stosować będziemy oznaczenia: G i = (S i 1,..., S i n, u 1,..., u n ); użycie tych samych oznaczeń dla u i i jej ograniczeń nie prowadzi do nieporozumień.
3. GRY W POSTACI STRATEGICZNEJ 21 Jeśli zbiory Si = m=1 Sm i, i = 1,..., n, są niepuste, to określamy grę G, zwaną wynikiem ciągu eliminacyjnego (G m ) m, w której zbiorami strategii są Si, i = 1,..., n zaś funkcje wypłaty są ograniczeniami u i. Zauważmy, że w przypadku skończonej gry G gra G jest zawsze określona. Zwróćmy też uwagę, że G zależy od ciągu eliminacyjnego w ogólnej sytuacji. Poniżej (5.5) pokażemy, że przy pewnym założeniu maksymalności ciągu eliminacyjnego jego wynik zależy już tylko od wyjściowej gry G. Tymczasem zanotować możemy Wniosek. Jeśli G jest grą skończoną i G wynikiem ciągu eliminacyjnego gry G, to Eq( G) = Eq( G ). Szczególnie łatwe są gry, w których eliminując strategie dominowane doprowadzić można do jednoelementowych zbiorów strategii - gry takie mają jedyny punkt równowagi, który można znaleźć efektywnie i znaleźć argumentację skłaniającą graczy do używania tworzących go strategii (argumentacja: nie użyję strategii dominowanych, bo to nieopłacalne; przeciwnik wie, że jestem racjonalny, wie zatem, że nie użyję więc strategii dominowanych...). W tej sytuacji mówimy, że gra jest rozwiązalna przez iterowaną eliminację strategii dominowanych. 2. Przykład 1. a b c e 8,3 6,4 15,0 f 9,1 5,2 6,3 g 3,2 4,3 5,4 h 2,66 3,10 4,8 Kolejność eliminacji: 1. g (dominowana przez f) 2. h (dominowana przez f) 3. a (dominowana przez b) 4. f (dominowana przez e) 5. c (dominowana przez b) Jedynym punktem równowagi jest (e,b). Przykład 2. 2 Poszukiwanie punktów równowagi nazywa się niekiedy rozwiązywaniem gry.
3. GRY W POSTACI STRATEGICZNEJ 22 a b c e 8,3 6,4 15,0 f 9,1 7,2 6,3 g 3,2 4,3 5,4 h 2,66 3,10 4,8 W tym przykładzie nie możemy wyeliminować f (krok 4.) Wynikiem ciągu eliminacji jest gra opisaną przez tabelkę: b c e 6,4 15,0 f 7,2 6,3 Ta gra nie ma punktów równowagi, jej mieszane rozszerzenie (a co za tym idzie także mieszane rozszerzenie gry wyjściowej) ma jedyny punkt równowagi ( 1b + 4c, 9 f). Można znaleźć go metodą opisaną w 3.5. 5 5 10 10 Przykład 3. Rozważmy duopol, w którym dwie firmy wybierają poziom produkcji z przedziału [0, 1]. Funkcja ceny p wyraża się wzorem p(q) = 2 q, gdzie q oznacza podaż. Koszt produkcji dla obu firm opisany jest przez tę samą funkcję c(q i ) = q i. Rozważamy zatem grę G = (S 1, S 2, u 1, u 2 ), w której S 1 = S 2 = [0, 1] oraz u i (q 1, q 2 ) = (2 q 1 q 2 )q i q i = (1 q 1 q 2 )q i. Niech dane będą ciągi (a n ), (b n ) określone rekurencyjnie a 0 = 0, b 0 = 1, a n+1 = (1 b n )/2, b n+1 = (1 a n )/2. Można pokazać, że (a n ) jest niemalejący, (b n ) nierosnący oraz ich wspólna granica równa jest 1. 3 Niech G m = (S1 m, S2 m, u 1, u 2 ), gdzie Si m = [a m, b m ], i = 1, 2. Wtedy (G m ) m jest ciągiem eliminacyjnym dla G oraz Si = { 1 } dla i = 1, 2. 3 Stąd gra G ma jedyny punkt równowagi ( 1, 1 ). 3 3 b) Rozważmy duopol, w którym firmy wybierają strategie ze zbioru [a n, b n ], oraz p(q) = 2 q, c 1 (q) = c 2 (q) = q. Wykazać, że strategie ze zbioru [a n, b n ] \ [a n+1, b n+1 ] są dominowane. 3.7 Eliminowanie strategii słabo dominowanych. Z punktu widzenia teoretycznego eliminowanie strategii słabo dominowanych nie ma tak dobrych własności jak opisane powyżej. Na przykład można zgubić punkt równowagi: gra
3. GRY W POSTACI STRATEGICZNEJ 23 d e f a 1,3 1,3 2,1 b 0,1 0,2 2,2 ma jedyny punkt równowagi (b, f) ale strategia b jest c 7,0 7,1 0,3 słabo dominowana przez a. (Zadanie: opisać punkty równowagi mieszanego rozszerzenia tej gry). Ponadto wynik iterowanej eliminacji strategii słabo dominowanych może zależeć od kolejności eliminacji, nawet przy odpowiednim założeniu maksymalności ciągu eliminacyjnego. Na przykład w grze L R U 3,1 2,0 M 4,0 1,1 D 4,4 2,4 można najpierw wyeliminować U (słabo dominowaną przez D), następnie L (przez R) i wreszcie M (przez D). Zostaje jedna strategia dla każdego gracza: D i R odpowiednio. Można jednak najpierw usunąć M (słabo dominowaną przez D), następnie R i na końcu U. Zostają strategie D i L. Jednak eliminacja strategii słabo dominowanej jest dobrze uzasadnioną operacją gracza planującego ruch: z dwóch strategii, z których pierwsza przynosi w każdej sytuacji zysk nie mniejszy niż druga, a czasem nawet większy, należy wybrać pierwszą. Przykład. Paradoks przewodniczącego: trzyosobowe jury wybiera jedną z trzech możliwości a,b,c w drodze głosowania. Wybrana zostaje możliwość, która otrzyma większość głosów. W przypadku, gdy każdy członek jury zagłosuje na inną możliwość o wyborze decyduje przewodniczący - 3. Indywidualne rankingi poszczególnych członków jury ilustruje tabelka. 1 2 3 a b c b c a c a b Zatem gracz 1 najwyżej ceni a, najmniej c itd. Przyjmijmy, że zadowolenie poszczególnych członków jury z werdyktu mierzymy liczbą równą 2 w wypadku, gdy wybrana zostaje możliwość, którą dany członek jury ceni najwyżej, 1 - gdy wybrana zostanie ta średnia, 0 - gdy najmniej ceniona. Rozważmy zatem grę 3-osobową, w której każdy z graczy ma trzy strategie a,b,c, zaś wypłaty ilustrują tabelki:
4. GRY KOOPERACYJNE 24 3:c a b c a 2,0,1 0,1,2 0,1,2 b 0,1,2 1,2,0 0,1,2 c 0,1,2 0,1,2 0,1,2 3:a a b c a 2,0,1 2,0,1 2,0,1 b 2,0,1 1,2,0 0,1,2 c 2,0,1 0,1,2 0,1,2 3:b a b c a 2,0,1 1,2,0 0,1,2 b 1,2,0 1,2,0 1,2,0 c 2,0,1 1,2,0 0,1,2 Można przeprowadzić eliminację strategii słabo dominowanych. 1. Gracz 1 eliminuje c (dominowaną słabo przez a). 2. Gracz 2 eliminuje a i c (dominowane słabo przez b). 3. Gracz 3 eliminuje a i b (dominowane słabo przez c). 4. Gracz 1 eliminuje a (dominowaną słabo przez b). Każdemu graczowi zostanie jedyna strategia: b,,b i c graczom 1,2, i 3 odpowiednio. Wynikiem gry będzie wtedy wybór b. Zauważmy, że efekt ten możemy rozumieć tak, że gracze 1 i 2 zadziałali wspólnie przeciwko przewodniczącemu. Trójka (b,b,c) jest punktem równowagi powyższej gry 3-osobowej. 4. Gry kooperacyjne w postaci funkcji charakterystycznej 4.1. Niech n będzie liczba naturalną. Przez N = {1, 2,..., n} oznaczamy zbiór wszystkich graczy n-osobowej gry. Każdy niepusty podzbiór zbioru N (włącznie z samym zbiorem N) nazywamy koalicją. Definicja. Grą n-osobową w postaci funkcji charakterystycznej nazywamy dowolną funkcję v : 2 N R taką, że v( ) = 0 oraz spełniony jest warunek jeśli C 1... C k = N jest rozbiciem N na parami rozłączne zbiory, to v(n) v(c 1 ) +... + v(c k ).
4. GRY KOOPERACYJNE 25 Genezę tego pojęcia wyjaśnimy w części 5. W literaturze spotyka się często nieco inną definicję gry kooperacyjnej w postaci funkcji charakterystycznej, mianowicie wymaga się by v była funkcją superaddytywną, tzn. spełniała warunek v(a B) v(a) + v(b) dla dowolnych rozłącznych koalicji A,B. Oczywiście superaddytywność wraz z warunkiem v( ) = 0 implikuje warunek powyższej definicji. Definicja. Imputacją (podziałem) w n-osobowej grze v nazywamy dowolny wektor x = (x 1,...,x n ) R N taki, że: 1. x i v({i}) dla wszystkich i N, 2. x i = v(n). i N Imputację interpretować można jako podział wspólnego dobra v(n) pomiędzy graczy, satysfakcjonujący każdego z nich z osobna. Zbiór imputacji gry v oznaczamy przez E(v). Dla uproszczenia zapisu będziemy pisali x(a) = i A x i, gdy x R N, A N. Definicja. Niech x i y będą imputacjami, a A - koalicją. Mówimy, że x dominuje y przez A (ozn. x A y), gdy: 1. x i > y i dla wszystkich i A, 2. x(a) v(a). Mówimy, że x dominuje y (x y), gdy x A y dla pewnej koalicji A. Niech x, y będą imputacjami. Gracze należący do koalicji A takiej, że x A y wybierając x zapewniają sobie zysk większy niż ten, który mogliby osiągnąć wybierając y. Definicja. Rdzeniem gry v nazywamy zbiór wszystkich imputacji niedominowanych. Rdzeń gry v oznaczamy przez C(v).
4. GRY KOOPERACYJNE 26 Rdzeń rozumiemy jako zbiór możliwych podziałów, które nie mogą być zakwestionowane przez żadną koalicję. Gry kooperacyjne, które to rozważamy określa się również jako gry kooperacyjne z przekazywalnymi wypłatami (transferable payoff). Chodzi o to, że wartości mogą być swobodnie przekazywane miedzy graczami, co może być ważne dla utrzymania trwałości koalicji. Twierdzenie. Załóżmy, że v jest grą kooperacyjną w postaci funkcji charakterystycznej, x R N. Wtedy x C(v) wtedy i tylko wtedy, gdy (a) x(a) v(a) dla dowolnej A N, (b) x(n) = v(n). Dowód. Załóżmy, że x spełnia warunki (a) i (b). Niech A = {i}. Z warunku (a) wiemy, że x i v({i}), czyli wszystkie wektory spełniające (a) oraz (b) są imputacjami. Przypuśćmy, że istnieje y E(v), y i > x i dla dowolnych i A. Wtedy y i > v(a). i A Zatem niemożliwe jest, by y A x. Stąd x nie jest dominowana. Przypuśćmy teraz, że y nie spełnia (a) lub (b). Jeśli nie spełnia (b) to nie jest imputacją. Przypuśćmy, że nie jest spełniony warunek (a). Wtedy istnieje pewien niepusty zbiór A N taki, że y i = v(a) ε, gdzie ε > 0. Przyjmijmy i A α = v(n) v(a) i N\A v({i}). Wtedy α 0. Niech a będzie liczbą elementów zbioru A. Zdefiniujmy wektor z R N wzorem: { yi + ε, jeśli i A, z i = a v({i}) + α, jeśli i / A. n a
4. GRY KOOPERACYJNE 27 Widać, że z jest imputacją, ponadto z A y. Wobec tego, y jest dominowana. Przykład. Niech N = {1, 2, 3} oraz c [0, 1]. Przypuśćmy, że v(a) = 0 dla koalicji jednoosobowych A, v(a) = c jeśli A ma dwa elementy oraz v(n) = 1. Wtedy C(v) jest niepusty wtedy i tylko wtedy, gdy c 2 3. 4.2. Przypomnijmy teraz inną, pochodzącą od von Neumanna i Morgensterna, koncepcję rozwiązywania gier kooperacyjnych - pojęcie zbioru stabilnego. Definicja. Niech X E(v). Zbiór X nazywamy stabilnym, o ile: 1. x,y X x y, (wewnętrzna stabilność) 2. z E(v)\X x X x z. (zewnętrzna stabilność) Związek tego pojęcia z rdzeniem podaje następujący fakt. Twierdzenie. Załóżmy, że v jest grą kooperacyjną w postaci funkcji charakterystycznej. (a) C(v) jest podzbiorem każdego zbioru stabilnego. (b) Jeśli C(v) jest zbiorem stabilnym, to jest jedynym zbiorem stabilnym. Dowód. (a) Niech X będzie zbiorem stabilnym oraz niech y C(v). Przypuśćmy, że y / X. Zatem istnieje z X takie, że z y. Otrzymujemy sprzeczność, ponieważ y jest niedominowaną imputacją. (b) Niech X będzie zbiorem stabilnym. Z (a) wiemy, że C(v) X. Załóżmy, że C(v) X. Weźmy x X \ C(v). Wówczas istnieje y C(v) takie, że y x, ponieważ C(v) jest zbiorem stabilnym. Mamy sprzeczność z wewnętrzną stabilnością zbioru X, zatem C(v) jest jedynym zbiorem stabilnym. 4.3. Zmierzamy do podania pewnego kryterium na istnienie elementów rdzenia. Niech C oznacza zbiór wszystkich koalicji w N. Dla A N przez 1 A R N oznaczamy wektor charakterystyczny zbioru A, tzn. { 1 i A, (1 A ) i = 0 i / A.
4. GRY KOOPERACYJNE 28 Definicja. Układ (λ A ) A C [0, 1] jest zbalansowanym układem wag, jeśli λ A 1 A = 1 N. A C Definicja. Gra v jest zbalansowana, jeśli λ A v(a) v(n) dla każdego A C zbalansowanego układu wag. Przypomnijmy, że zbiór D R N nazywamy stożkiem wypukłym, o ile x,y D a,b 0 ax + by D. Niech C 1, C 2 będą niepustymi podzbiorami w R n. Mówimy, że hiperpłaszczyzna H oddziela C 1, C 2, jeśli C 1 jest zawarty w jednej półprzestrzeni domkniętej wyznaczonej przez H, a C 2 leży w drugiej półprzestrzeni domkniętej wyznaczonej przez H. Twierdzenie. (Bondareva Shapley) Gra kooperacyjna v ma niepusty rdzeń wtedy i tylko wtedy, gdy jest zbalansowana. Dowód. Niech v będzie grą koalicyjną oraz niech x C(v). Załóżmy, że (λ A ) A C jest zbalansowanym zbiorem wag. Wtedy x i x i = v(n). A C λ A v(a) A C λ A x(a) = i N A i λ A = i N Zatem v jest zbalansowana. Załóżmy, że v jest zbalansowana. Wtedy nie ma zbalansowanego układu wag (λ A ) A C takiego, że: λ A v(a) > v(n). Niech A C P = { (1 N, z) R N R, z > v(n) }. Jest to zbiór wypukły. Niech M będzie zbiorem wszystkich kombinacji liniowych wektorów (1 A, v(a)) R N R, A N z nieujemnymi współczynnikami. Wówczas M jest wypukłym stożkiem.
4. GRY KOOPERACYJNE 29 Wykażemy, że zbiory P i M są rozłączne. Załóżmy, że (1 N, v(n) + ǫ)) M. Wtedy istnieją nieujemne λ A takie, że λ A (1 A, v(a)) = (1 N, v(n) + ǫ) A C co prowadzi do sprzeczności z założeniem, że v jest zbalansowana. Na podstawie odpowiedniego twierdzenia o oddzielaniu zbiorów wypukłych, rozdzielając zbiory P i M hiperpłaszczyzną, stwierdzamy, że istnieje niezerowy wektor (α N, α) R N R taki, że: ( ) (α N, α) y 0 > (α N, α) (1 N, v(n) + ǫ) dla każdego y M i ǫ > 0, gdzie : R N R N R jest standardowym iloczynem skalarnym w R N R. Przypuśćmy, że α = 0. Wtedy α N 1 N < 0. Ponadto, (1 N, v(n)) M, zatem Otrzymujemy sprzeczność z ( ). Zatem α 0. Wtedy α < 0, ponieważ α N 1 N + α v(n) 0 ǫ>0 α N 1 N + α (v(n) + ǫ) < 0 Wskażemy teraz element rdzenia gry v. Niech x = α N α. Dla dowolnego A N, korzystając z lewej strony nierówności ( ) mamy: (α N, α) (1 A, v(a)) 0. Następujące nierówności są równoważne: α N 1 A + α v(a) 0, α N α 1 A v(a) 0, α N α 1 A v(a), x(a) = x 1 A v(a). Ponadto, korzystając z prawej strony nierówności ( ), dla dowolnego ǫ > 0, otrzymujemy: (α N, α) (1 N, v(n) + ǫ) < 0, α N 1 N + α (v(n) + ǫ) < 0, α N α 1 N v(n) ǫ < 0, α N α 1 N < v(n) + ǫ, x(n) = x 1 N < v(n) + ǫ.
4. GRY KOOPERACYJNE 30 Stąd x(n) = v(n). Wśród gier w postaci funkcji charakterystycznej możemy wyróżnić gry wypukłe. Definicja. Gra v jest wypukła, jeśli dla wszystkich A, B N. v(a) + v(b) v(a B) + v(a B) Zauważmy, że gra wypukła spełnia warunek superaddytywności (4.1). Dowód poniższego zadania potraktujmy jako zadanie. Twierdzenie. Jeśli gra v jest wypukła, to ma niepusty rdzeń. 4.4. Pojęcia gry kooperacyjnej w postaci funkcji charakterystycznej można użyć m.in. do modelowania rynku z przekazywalnymi wypłatami. Rynek z przekazywalnymi wypłatami jest to układ gdzie: M = (N, l, (ω i ) i N, (f i ) i N ), N jest skończonym zbiorem zwanym zbiorem graczy. Często przyjmujemy N = {1,..., n}. l jest liczbą naturalną - liczbą dóbr. ω i R l + - wektor opisujący wyposażenie gracza i w poszczególne dobra. f i : R l + R - funkcja produkcji, wartość f i(z) interpretujemy jako dochód, który może osiągnąć gracz i przy założeniu, że wyposażenie gracza i opisane jest przez wektor z. Zakładamy, że f i są ciągłe, wklęsłe i niemalejące ze względu na naturalny częściowy porządek zdefiniowany w R l + po współrzędnych. Przypuśćmy, że zawiązuje się koalicja S N. W obrębie S gracze wymieniają się posiadanymi dobrami tak by osiągnąć w sumie maksymalny dochód. Formalizując tę ideę definiujemy v M (S) = max { f i (z i ) : z i R l +, z i = ω i }. (z i ) i S i S i S i S
5. GRY DWUOSOBOWE O SUMIE ZEROWEJ 31 W ten sposób zdefiniowaliśmy grę w postaci funkcji charakterystycznej stowarzyszoną z rynkiem M. Używając twierdzenia Bonderevey-Shapleya można wykazać, że ta gra ma niepusty rdzeń. 5. Gry dwuosobowe o sumie zerowej, gry macierzowe 5.1. Mówimy, że gra G = (S 1,..., S n, u 1,..., u n ) jest grą o sumie zero, gdy u 1 +... + u n jest funkcja stałą równą zeru. Jeśli G = (S 1, S 2, u 1, u 2 ) jest taką grą, to u 2 = u 1 i zapisujemy G jako G = (S 1, S 2, u 1 ). Szczególnie łatwą do badania klasę gier tworzą skończone gry dwuosobowe o sumie zero, zwane też grami macierzowymi. Dla danej macierzy A rozmiaru m n o współczynnikach rzeczywistych definiujemy grę dwuosobową o sumie zero g(a) = (S 1, S 2, u 1 ), gdzie S 1 = {1,..., m}, S 2 = {1,..., n} oraz u 1 (i, j) = A ij. Grę tę możemy interpretować następująco: gracz 1 wybiera wiersz, gracz 2 kolumnę macierzy A, następnie gracz 2 płaci pierwszemu kwotę zapisaną w miejscu (i, j) macierzy A. Łatwo zauważyć, że dowolna skończona, dwuosobowa o sumie zero jest izomorficzna z grą g(a) dla pewnej macierzy A, co usprawiedliwia nazwę gry macierzowe. Wartością dolną (odp. górną) gry G = (S 1, S 2, u) nazywamy wartość (odp. sup s 1 S 1 inf s 2 S 2 u(s 1, s 2 ) inf sup u(s 1, s 2 ).) s 2 S 2 s 1 S 1 Oznaczamy te wartości odpowiednio v(g) i v(g). Jeśli są one równe, to ich wspólną wartość nazywamy wartością gry i oznaczamy v(g). Uwaga. Łatwo wykazać, że zawsze zachodzi nierówność v(g) v(g). Strategią optymalną gracza 1 nazywamy s 1 S 1 taką, że inf s 2 S 2 u(s 1, s 2 ) = max s 1 S 1 inf u(s 1, s 2 ). s 2 S 2
5. GRY DWUOSOBOWE O SUMIE ZEROWEJ 32 Strategią optymalną gracza 2 nazywamy s 2 S 2 taką, że sup u(s 1, s 2 ) = min sup u(s 1, s 2 ). s 1 S 1 s 2 S 2 s 1 S 1 Strategie optymalne gracza 1 (odp. 2) nazywamy strategiami maksyminimalnymi (odp. minimaksymalnymi). Pojęcia te zilustrujemy na prostych przykładach. Przykład 1. Niech A = 1 0 1 2 3 1 0 1 0 Strategiami optymalnymi graczy 1 i 2 w grze g(a) są odpowiednio 2 i 3. Wartość dolna równa jest wartości górnej i wynosi 1. Zauważmy, że strategie optymalne tworzą w tym przypadku punkt równowagi gry. W przypadku gier macierzowych zawsze istnieją strategie optymalne, ale nie zawsze istnieje wartość. Przykład 2. Niech A = [ 1 2 3 0 Strategiami optymalnymi graczy 1 i 2 są 1 i 2 odpowiednio. Nie tworzą one jednak punktu równowagi. Związane jest to, jak zobaczymy poniżej, z faktem, że gra g(a) nie ma wartości: jej wartość dolna wynosi 1, zaś górna 2. By dostrzec różnicę między tymi przykładami zauważmy przede wszystkim, że strategie optymalne są strategiami najostrożniejszymi, minimalizującymi ryzyko. Każdy z graczy może więc domniemywać, że przeciwnik wybierze właśnie strategię optymalną. Ale o ile w przykładzie 1 przypuszczenie takie utwierdza jego samego w zamiarze użycia strategii optymalnej (równowaga), o tyle w przykładzie 2 tak nie jest: gracz 2 może próbować przechytrzyć przeciwnika, (spodziewając się, że ten wybierze strategię 1) i wybierze swoją strategię 1. Twierdzenie. Załóżmy, że G = (S 1, S 2, u) jest dwuosobową grą o sumie zero. (1) Przypuśćmy, że G ma wartość v oraz s 1 S 1, s 2 S 2 są strategiami optymalnymi graczy 1 i 2 odpowiednio. Wtedy (s 1, s 2 ) jest punktem równowagi gry G oraz u(s 1, s 2 ) = v. ]..
5. GRY DWUOSOBOWE O SUMIE ZEROWEJ 33 (2) Przypuśćmy, że strategie s 1 S 1, s 2 S 2 spełniają warunek inf u(s 1, s 2) sup u(s 1, s 2 ). s 2 S 2 s 1 S 1 Wtedy s 1, s 2 są strategiami optymalnymi graczy 1 i 2 odpowiednio. (3) Załóżmy, że gra G posiada punkt równowagi (s 1, s 2 ). Wtedy G posiada wartość oraz s 1, s 2 są strategiami optymalnymi graczy 1 i 2 odpowiednio. Dowód. (1) Z naszych założeń wynika, że inf u(s s 2 S 2 1, s 2 ) = max s 1 S 1 Stąd inf u(s 1, s 2 ) = min sup u(s 1, s 2 ) = sup u(s 1, s s 2 S 2 s 2 S 2 2) = v. s 1 S 1 s 1 S 1 u(s 1, s 2 ) sup s 1 S 1 u(s 1, s 2 ) = inf s 2 S 2 u(s 1, s 2) u(s 1, s 2) dla dowolnych s 1 S 1, s 2 S 2. Wynikają stąd nierówności u(s 1, s 2 ) u(s 1, s 2 ) u(s 1, s 2) oraz równość u(s 1, s 2 ) = v, co kończy dowód (1). (2) Zauważmy, że w tej sytuacji v(g) = sup s 1 S 1 inf u(s 1, s 2 ) inf sup u(s 1, s 2 ) = v(g) s 2 S 2 s 2 S 2 s 1 S 1 co wobec faktu, że v(g) v(g) oznacza, że powyższe nierówności są równościami. W szczególności wartość gry G istnieje. Ponadto inf u(s 1, s 2) = max s 2 S 2 s 1 S 1 inf u(s 1, s 2 ), s 2 S 2 zatem s 1 jest strategią maksyminimalną. Podobnie wykazać można, że s 2 jest strategią minimaksymalną. (3) Wiemy, że u(s 1, s 2 ) u(s 1, s 2 ) u(s 1, s 2) dla dowolnych s 1 S 1, s 2 S 2. Stąd Teza wynika z punktu (2). sup s 1 S 1 u(s 1, s 2) u(s 1, s 2) inf s 2 S 2 u(s 1, s 2 ).