Markowoskie Stacjonarne Równowagi w Stochastycznych Grach Supermodularnych w Niepe ln a Prywatnȩ i Publiczn a Informacj a

Markowoskie Stacjonarne Równowagi w Stochastycznych Grach Supermodularnych w Niepe ln a Prywatnȩ i Publiczn a Informacj a Lukasz Balbus, Kevin Reffett i Lukasz Woźny Statystyka Matematyczna Wis la, 3-7 grudnia 2012 Uniwersytet Zielonogórski Arizona State University, USA Szko la G lówna Handlowa w Warszawie 1

Powi azania teorii gier ze statystyk a matematyczn a: W statystyce wystȩpuje dwóch graczy: statystyk i natura Statystyk nie wie do czego natura d aży, ale może za lożyć że zna rozk lad zachowań natury (podejście bayesowskie) zak lada że natura gra przeciwko niemu (podejście minimaksowe) W standardowej teorii gier każdy z graczy zna siȩ nawzajem, zna swój cel i swoje możliwości Gracze nie wiedz a tylko jak przeciwnicy zagraj a, czyli jakie zastosuj a strategie. 2

Podstawowy problem: znaleźć równowagȩ Nasha tzn. taki profil strategii: W i (x 1,..., x i 1, x i, x i+1,..., x n) W i (x 1,..., x i 1, x i, x i+1,..., x n) i,xi W podejściu minimaksowym równowaga Nasha to punkt siod lowy czyli para strategii: natura: bierze zbiór najmniej korzystny statystyk: wybiera optymaln a strategiȩ na zbiór najmniej korzystny 3

Gra bayesowska, interpretacje: Jest n graczy. Indeks gracza (np. każdy gracz to statystyk) i {1, 2,..., n}. Kolejnym marionetkowym graczem jest natura. Każdy gracz wie do czego zmierza przeciwnik, ale nie wie do czego zmierza natura (wiemy tylko że wybiera parametr θ o znanym rozk ladzie a-priori.). Inna interpretacja to mamy graczy i {1, 2,..., n} i nieznany parametr zak lócaj acy θ o znanym rozk ladzie a-priori. 4

Gra bayesowska -opis gry Co obserwuje i -ty gracz? Publiczny sygna l (szok) z Z (przedzia l w przestrzenii wektorowej zawieraj acy 0 wyposażony w σ-cia lo zbiorów borelowskich Z) Prywatny sygna l (subiektywna reakcja na szok) θ i Θ i (Θ i jest przestrzeni a polsk a) Gracz i obserwuje (z, θ i ), ale nie zna prywatnych sygna lów pozosta lych graczy θ j (j i). Oznaczmy θ := (θ 1,..., θ n ). Przyjmijmy tradycyjnie θ i = θ j. j i 5

Gracz i zna (z, θ i ). Ale nadal nie zna θ i... Za lóżmy, że uważa że rozk lad na Θ := n i=1 Θ i jest Q( z) (rozk lad a-priori). Ponieważ gracz zna dodatkowo θ i, uważa, że rozk lad a-posteriori na prywatnych sygna lach reszty graczy to Q i ( z, θ i ) (czyli regularny rozk lad warunkowy Q na Θ i pod warunkiem θ i Θ i oraz z Z) 6

Gracz i zna (z, θ i ). Co może zrobić? Gracz wybiera a i ze domkniȩtego zbioru strategii dopuszczalnych A i R k Zbiór strategii dopuszczalnych dla gracza i oznaczamy jako Ã i (z, θ i ) (zależy od publicznego i jego prywatnego sygna lu). 7

Gracz i zna (z, θ i ), Q i ( z, θ i ), wybiera akcjȩ a i Ã(z, θ i ). Co otrzymuje? Otrzymuje dzienn a wyp latȩ r i (z, (θ i, θ i ), (a i, a i (θ i ))). Ale ponieważ gracz zna θ i, nie jest w stanie przewidzieć ile otrzyma, nawet gdyby zna l strategiȩ pozosta lych graczy (zazwyczaj jej nie zna). Ale gracz zna rozk lad a posteriori Q i i z tego powodu dzienny cel to maksymalizacja dziennej oczekiwanej użyteczności = R i (z, θ i, (a i, a i )) = Θ i r i (z, (θ i, θ i ), (a i, a i (θ i )))Q(dθ i θ i) 8

Rozważmy problem graczy w wielu krokach t N := {1, 2,...}. Z tego powodu W każdym kroku t gracze obserwuj a (z t, θ t i ), Uważaj a że rozk lad na Θ i jest Q i ( z t, θ t i ), Wybieraj a akcje a i Ã(z t, θ t i ), i oczekuj a dziennej wyp laty R i (z t, θ t i, at i, at i ). Publiczny sygna l jest aktualizowany z t z t+1 i gra przechodzi do kroku t + 1. 9

Jak wygl ada aktualizacja, czyli zmiana z z t na z t+1? Zak ladamy, że z t jest lańcuchem Markowa sterowanym przez graczy o prawdopodobieństwie przejścia q( z, (θ i, θ i ), a) Czyli dla każdego (z t, θ t, a t ) z t+1 q( z t, (θ t i, θt i ), (at i, at i (θt i )) Ponieważ θ i jest nieznane dla gracza i, może on jedynie oczekiwać, że z t+1 Θ i q( z t, (θ t i, θ i), (a t i, at i (θ i))q(dθ j z t, θ t i ) 10

Ostateczny cel gracza: każdy gracz maksymalizuje γ i (z, θ i )(π) := E z,θ i,π i t=1 R i (z t, θ t i, at )β t 1 gdzie π i jest strategi a dla gracza i, natomiast π jest profilem. Rozważamy nastȩpuj ace problemy: Znalezienia algorytmu numerycznego na znalezienie stacjonarnej markowowskiej równowag Nasha w dyskontowanej grze stochastycznej. Rozważamy zbiór podobnych problemów parametryzowanych przez uporz adkowany zbiór Ω i prezentujemy rezultaty porównawcze dla równowag Nasha. 11

Dlaczego gry stochastyczne: Obszerna literatura na tym polu: Pierwsza praca: Shapley (1955) Istnienie równowagi przy różnych za lożeniach: Metrens i Parthasarathy (2003), Maitra i Sudderth (2007), wcześniej Amir (1996), Curtat (1996), Nowak (2003,2006,2010) Bayesowskie gry supermodularne : Vives (1990), Van Zandt (2010) Przyk lad gry w której nie istnieje równowaga: Levy (2012) Istnienie skorelowanych strategii: Duffy, Geanakoplos, Mas Collel, Lennan (1994), 12

Harris, Renny, Robson (1995), Nowak Raghavan (1992), Duggan (2012)... Metody obliczeniowe APS (iteracja zbiorów równowag): Abreu, Pearce and Strachetti (1990) Metody iteracyjne: Nowak, Szajowski (2003), Balbus, Nowak (2004), Balbus, Reffett and Woźny (2012),

Za lożenie 1: r i (z, θ, ) jest ci ag la w A, oraz r i (,, a) jest mierzalna na Z Θ Ã multifunkcja o wartościach niepustych, zwartych bȩd acych krat a zupe ln a, r i przyjmuje wartości w [0, M], f. supermodularna w a i, i ma rosn ace przyrosty w (a i, a i ) (kardynalne komplementarności patrz Curtat (1996)) oraz r i (, θ i, a) 0 (z = 0 stan bankructwa). Ponadto, r i jest rosn aca w a i. q jest w postaci q( z, θ, a) = p( z, θ, a)+(1 p(z z, θ, a))δ 0 ( ) gdzie δ 0 ( ) jest miar a skupion a w stanie bankructwa. p jest miar a t.z. p(z z, θ, a) < 13

0 oraz p(z 0, θ, a) 0 (stan bankructwa jest poch laniaj acy) dla wszystkich funkcji mierzalnych o wartościach [0, M] (zbiór takich funkcji to V) v p(v z, θ, a) ma kardynalne komplementarności i jest rosn aca w a. Ponadto p(v z, θ, ) jest ci ag la i p(v,, a) jest mierzalna.

Z równań Bellmana p. Bertsekas Shreve (1978) znalezienie stacjonarnej markowowskiej równowagi redukuje siȩ do gry jednokrokowej parametryzowanej przez v i V z wyp lat a W i (z, θ i, a i, σ i ) := (1 β)r i (z, θ i, (a i, σ i ))+ gdzie +βe(v i z, θ i, (a i, σ i )) = Θ i Z E(v i z, θ i, (a i, σ i )) = Θ i v i (z, θ i )q(dz z, θ, a i, σ i )Q i (dθ i z, θ i ) 14

Z tego powodu redukujemy ten problem do znalezienia punktu sta lego multifunkcji: z Φ(v, σ) = P(v, σ) T (v, σ), P i (v, σ) = arg max W i (z, θ i, a i, σ i ) a Ã i (z,θ i ) oraz T i (v, σ) = P := max W i (z, θ i, a i, σ i ) a Ã i (z,θ i ) n i=1 P i T := n i=1 T i. 15

Tzn. f jest stacjonarn a równowag a, a v jest odpowiedni a wyp lat a wtedy i tylko wtedy gdy (v, f ) Φ(v, f ) Możemy znaleźć ekstremalne selekcje: najmniejsz a i najwiȩksz a Φ(v, σ) = P(v, σ) T (v, σ), Φ(v, σ) = P(v, σ) T (v, σ). Obie istniej a z kardynalnych komplementarności (p. Topkis (1978), Milgrom and Roberts (1990), Curtat (1996)). 16

Podobne problemy: Nowak and P.Szajowski (2003), Balbus and Nowak (2004), P.Szajowski (2006), Balbus, Reffett i Woźny (2012) W odróżnieniu od ww modeli my nie liczymy równowag w grach pomocniczych, a redukujemy nasz problem do serii problemów maksymalizacyjnych. 17

Twierdzenie 1: Iteracje prowadz ace do równowagi Najwiȩksza równowaga: i dla t 1 (f 0, v 0 ) = (max Ã(z, θ), M) (f t+1, v t+1 ) = Φ(v t, σ t ). Wtedy oba f t i v t s a rosn ace w t. Najwiȩksza równowaga (wartość i strategia) (v, f ) = lim t (v t, σ t ). Najmniejsza równowaga: i dla t 1 (f 0, v 0 ) = (0, 0) (f t+1, v t+1 ) = Φ(v t, σ t ). Wtedy oba f t i v t s a rosn ace w t. Najmniejsza równowaga (wartość i strategia) to (v, f ) = lim t (v t, σ t ). 18

Dowód bazuje na tw. Tarskiego i Tarskiego i Kantorowicza.

Probem z pogranicza statystyki i teorii gier: Poprzednio za lożyliśmy znajomość rozk ladu a-priori θ Q( z). teraz go nie znamy, czyli operator Φ(f, v )(θ, z) zależy od Q. Za lóżmy że w kroku t gracz zna historiȩ gry do momentu t 1 w l acznie, w szczególności zna (θ 1 i, θ2 i,..., θt 1 i ) a w kroku t zna jedynie (z t, θi t ), a nie zna θ i t. Nie zna również rozk ladu a priori Q. 19

Gracz ma dwa problemy: Estymacja rozk ladu Q Maksymalizacja swojej funkcji użyteczności. Podobny problem przedstawia Minjárez Sosa i Vega-Amaya (2009), podobnie jak wcześniej Gordienko (1985), Gordienko i Minjares-Sosa (1998), Altman i Schwarz (1991). 20

Algorytm: Praca Balbus,Reffett, Woźny (2013) pokazuje istnienie odpowiedniej równowagi jako ci ag iteracji (f (z, θ; Q), v (z, θ; Q) Φ(f, v; Q)(z, θ i ). (i) Gracz i obserwuje (z 1, θ 1 i ) (ii) każdy gracz zgaduje Q i ( z) i wybiera strategiȩ (f (z 1, θ 1 ; Q), (iii) W kroku t gracz nie zna Q i, ale zna (θ 1 i, θ2 i,..., θt 1 i ) (iv) Problem: znajdź (szybko zbieżny) estymator Q( z t, θ t ) w oparciu o szereg czasowy { (θ i τ, θτ i )} t τ=1 (zt można potraktować jako sta l a). 21

(v) Oblicza (f t+1, v t+1 ) = Φ(f t, v t ; ˆQ t ), (vi) Przechodzi do nastȩpnego kroku,

Uproszczony model: Gra jednoosobowa (proces decyzyjny) Levhariego Mirmana: Populacja ryb odnawia siȩ zgodnie z regu l a z t+1 = ɛ t (z t a t ) θ, gdzie ɛ t ma rozk lad Lognormalny o (0, s 2 ). Zysk z po lowu dziennego dla rybaka to n.p. ln(a t ). Gracz nie zna θ, ale gdyby j a zna l uży lby strategii a t (z t, θ) = (1 g(θ))z t z t a t = g(θ)z t Wiȩc po zlogarytmowaniu mamy proces ARIMA(1,1,0) postaci Z t+1 = θ Z t + ln(g(θ))θ + E t, gdzie Z t = ln(z t ), E t ln(ɛ t ). Dla {ˆθ t } t=1 ci ag estymatorów θ. Pytanie: Co można powiedzieć o strategii a t (z t, θ t ) = (1 g(ˆθ t ))z t? 22