Markowoskie Stacjonarne Równowagi w Stochastycznych Grach Supermodularnych w Niepe ln a Prywatnȩ i Publiczn a Informacj a

Podobne dokumenty
Konstruktywne metody znajdowania równowag w dużych gospodarkach.

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Mnożniki funkcyjne Lagrange a i funkcje kary w sterowaniu optymalnym

Metoda Simplex bez użycia tabel simplex 29 kwietnia 2010

Statystyka w analizie i planowaniu eksperymentu

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Teoria miary WPPT IIr. semestr zimowy 2009 Wyk lady 6 i 7. Mierzalność w sensie Carathéodory ego Miara Lebesgue a na prostej

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

STATYSTYKA MATEMATYCZNA dla ZPM I dr inż Krzysztof Bryś wyk lad 1,2 KLASYCZNY RACHUNEK PRAWDOPODOBIEŃSTWA

STYSTYSTYKA dla ZOM II dr inż Krzysztof Bryś Wykad 1

Dyskretne modele populacji

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Procesy Stochastyczne - Zestaw 1

Testowanie hipotez statystycznych

Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów

Niech X bȩdzie dowolnym zbiorem. Dobry porz adek to relacja P X X (bȩdziemy pisać x y zamiast x, y P ) o w lasnościach:

Algorytmy MCMC i ich zastosowania statystyczne

Stochastyczne dynamiki z opóźnieniami czasowymi w grach ewolucyjnych

POCHODNA KIERUNKOWA. DEFINICJA Jeśli istnieje granica lim. to granica ta nazywa siȩ pochodn a kierunkow a funkcji f(m) w kierunku osi l i oznaczamy

Dyskretne modele populacji

Zastosowania twierdzeń o punktach stałych

Teoria gier. mgr Przemysław Juszczuk. Wykład 5 - Równowagi w grach n-osobowych. Instytut Informatyki Uniwersytetu Śląskiego

Teoria Gier - wojna, rybołówstwo i sprawiedliwość w polityce.

Liczba 2, to jest jedyna najmniejsza liczba parzysta i pierwsza. Oś liczbowa. Liczba 1, to nie jest liczba pierwsza

T O P O L O G I A WPPT I, sem. letni WYK LAD 8. Wroc law, 21 kwietnia D E F I N I C J E Niech (X, d) oznacza przestrzeń metryczn a.

Sterowanie optymalne dla uk ladów nieliniowych. Zasada maksimum Pontriagina.

Mnożniki funkcyjne Lagrange a i funkcje kary w sterowaniu optymalnym

Zagadnienie Dualne Zadania Programowania Liniowego. Seminarium Szkoleniowe Edyta Mrówka

Funkcje wielu zmiennych

0.1 Sposȯb rozk ladu liczb na czynniki pierwsze

Zestaw nr 7 Ekstremum funkcji jednej zmiennej. Punkty przegiȩcia wykresu. Asymptoty

Teoria gier. Łukasz Balbus Anna Jaśkiewicz

ANALIZA II 15 marca 2014 Semestr letni. Ćwiczenie 1. Czy dan a funkcjȩ da siȩ dookreślić w punkcie (0, 0) tak, żeby otrzymana funkcja by la ci ag la?

Wyk lad 6 Podprzestrzenie przestrzeni liniowych

28 maja, Problem Dirichleta, proces Wienera. Procesy Stochastyczne, wykład 14, T. Byczkowski, Procesy Stochastyczne, PPT, Matematyka MAP1126

Pawe l G ladki. Problem przetargu.

Elementy analizy funkcjonalnej PRZESTRZENIE LINIOWE

Rozdzia l 10. Najważniejsze normalne logiki modalne

Wyk lad 9 Baza i wymiar przestrzeni liniowej

Wprowadzenie z dynamicznej optymalizacji

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Przyczynowość Kointegracja. Kointegracja. Kointegracja

5 Błąd średniokwadratowy i obciążenie

11. Gry Macierzowe - Strategie Czyste i Mieszane

STATYSTYKA

Dolne oszacowania wartości rekordowych

Wykład Ćwiczenia Laboratoriu m ,5 1,5 WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI CELE PRZEDMIOTU

Rozdzia l 9. Zbiory liczb porz adkowych. Liczby porz adkowe izolowane i graniczne

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Po wprowadzeniu zmiennych uzupe lniaj acych otrzymamy równoważny mu problem w postaci kanonicznej:

Zadania z Rachunku Prawdopodobieństwa - 12

GRA Przykład. 1) Zbiór graczy. 2) Zbiór strategii. 3) Wypłaty. n = 2 myśliwych. I= {1,,n} S = {polować na jelenia, gonić zająca} S = {1,,m} 10 utils

1 Przestrzenie metryczne

Testowanie hipotez statystycznych

Imputacja brakujacych danych binarnych w modelu autologistycznym 1

Wyk lad 7 Baza i wymiar przestrzeni liniowej

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Uogolnione modele liniowe

Kurs z NetLogo - część 4.

2010 W. W. Norton & Company, Inc. Oligopol

Estymacja gęstości prawdopodobieństwa metodą selekcji modelu

Wyk lad 3. Natalia Nehrebecka Dariusz Szymański. 13 kwietnia, 2010

Ekonomia matematyczna i dynamiczna optymalizacja

Wyk lad 9 Baza i wymiar przestrzeni liniowej

Niesimpleksowe metody rozwia zywania zadań PL. Seminarium Szkoleniowe Edyta Mrówka

Statystyczna analiza danych

Testowanie hipotez statystycznych

Modele zapisane w przestrzeni stanów

Rachunek prawdopodobieństwa Rozdział 4. Zmienne losowe

Rozdzia l 6. Wstȩp do statystyki matematycznej. 6.1 Cecha populacji generalnej

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

ep do matematyki aktuarialnej Micha l Jasiczak Wyk lad 2 Tablice trwania życia

Wyk lad 5. Analiza dla informatyków 1 DANI LI1 Pawe l Domański szkicowe notatki do wyk ladu. 1. Granice niew laściwe

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Statystyka i eksploracja danych

TEORIA GIER W EKONOMII WYKŁAD 5: GRY DWUOSOBOWE KOOPERACYJNE O SUMIE NIESTAŁEJ

Wyk lad 12. (ii) najstarszy wspó lczynnik wielomianu f jest elementem odwracalnym w P. Dowód. Niech st(f) = n i niech a bedzie

NIEPEWNOŚCI POMIAROWE

Geometryczna zbieżność algorytmu Gibbsa

20PLN dla pierwszych 50 sztuk oraz 15PLN dla dalszych. Zysk ze sprzedaży biurka wynosi 40PLN dla pierwszych 20 sztuk oraz 50PLN dla dalszych.

Modelowanie Preferencji a Ryzyko. Dlaczego w dylemat więźnia warto grać kwantowo?

Fuzja sygnałów i filtry bayesowskie

Egzamin z Wstępu do Teorii Gier. 19 styczeń 2016, sala A9, g Wykładowca: dr Michał Lewandowski. Instrukcje

Elementy modelowania matematycznego

Rozdzia l 1. Podstawowe elementy teorii krat

TEORIA GIER W NAUKACH SPOŁECZNYCH. Równowagi Nasha. Rozwiązania niekooperacyjne.

Aukcje groszowe. Podejście teoriogrowe

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Elementy Modelowania Matematycznego

Schemat programowania dynamicznego (ang. dynamic programming)

SPOTKANIE 11: Reinforcement learning

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Suma i przeciȩcie podprzestrzeni, przestrzeń ilorazowa Javier de Lucas

Tworzenie gier na urządzenia mobilne

Modele lokalizacyjne

Uniwersytet Warszawski Teoria gier dr Olga Kiuila LEKCJA 3

w teorii funkcji. Dwa s lynne problemy. Micha l Jasiczak

Transkrypt:

Markowoskie Stacjonarne Równowagi w Stochastycznych Grach Supermodularnych w Niepe ln a Prywatnȩ i Publiczn a Informacj a Lukasz Balbus, Kevin Reffett i Lukasz Woźny Statystyka Matematyczna Wis la, 3-7 grudnia 2012 Uniwersytet Zielonogórski Arizona State University, USA Szko la G lówna Handlowa w Warszawie 1

Powi azania teorii gier ze statystyk a matematyczn a: W statystyce wystȩpuje dwóch graczy: statystyk i natura Statystyk nie wie do czego natura d aży, ale może za lożyć że zna rozk lad zachowań natury (podejście bayesowskie) zak lada że natura gra przeciwko niemu (podejście minimaksowe) W standardowej teorii gier każdy z graczy zna siȩ nawzajem, zna swój cel i swoje możliwości Gracze nie wiedz a tylko jak przeciwnicy zagraj a, czyli jakie zastosuj a strategie. 2

Podstawowy problem: znaleźć równowagȩ Nasha tzn. taki profil strategii: W i (x 1,..., x i 1, x i, x i+1,..., x n) W i (x 1,..., x i 1, x i, x i+1,..., x n) i,xi W podejściu minimaksowym równowaga Nasha to punkt siod lowy czyli para strategii: natura: bierze zbiór najmniej korzystny statystyk: wybiera optymaln a strategiȩ na zbiór najmniej korzystny 3

Gra bayesowska, interpretacje: Jest n graczy. Indeks gracza (np. każdy gracz to statystyk) i {1, 2,..., n}. Kolejnym marionetkowym graczem jest natura. Każdy gracz wie do czego zmierza przeciwnik, ale nie wie do czego zmierza natura (wiemy tylko że wybiera parametr θ o znanym rozk ladzie a-priori.). Inna interpretacja to mamy graczy i {1, 2,..., n} i nieznany parametr zak lócaj acy θ o znanym rozk ladzie a-priori. 4

Gra bayesowska -opis gry Co obserwuje i -ty gracz? Publiczny sygna l (szok) z Z (przedzia l w przestrzenii wektorowej zawieraj acy 0 wyposażony w σ-cia lo zbiorów borelowskich Z) Prywatny sygna l (subiektywna reakcja na szok) θ i Θ i (Θ i jest przestrzeni a polsk a) Gracz i obserwuje (z, θ i ), ale nie zna prywatnych sygna lów pozosta lych graczy θ j (j i). Oznaczmy θ := (θ 1,..., θ n ). Przyjmijmy tradycyjnie θ i = θ j. j i 5

Gracz i zna (z, θ i ). Ale nadal nie zna θ i... Za lóżmy, że uważa że rozk lad na Θ := n i=1 Θ i jest Q( z) (rozk lad a-priori). Ponieważ gracz zna dodatkowo θ i, uważa, że rozk lad a-posteriori na prywatnych sygna lach reszty graczy to Q i ( z, θ i ) (czyli regularny rozk lad warunkowy Q na Θ i pod warunkiem θ i Θ i oraz z Z) 6

Gracz i zna (z, θ i ). Co może zrobić? Gracz wybiera a i ze domkniȩtego zbioru strategii dopuszczalnych A i R k Zbiór strategii dopuszczalnych dla gracza i oznaczamy jako à i (z, θ i ) (zależy od publicznego i jego prywatnego sygna lu). 7

Gracz i zna (z, θ i ), Q i ( z, θ i ), wybiera akcjȩ a i Ã(z, θ i ). Co otrzymuje? Otrzymuje dzienn a wyp latȩ r i (z, (θ i, θ i ), (a i, a i (θ i ))). Ale ponieważ gracz zna θ i, nie jest w stanie przewidzieć ile otrzyma, nawet gdyby zna l strategiȩ pozosta lych graczy (zazwyczaj jej nie zna). Ale gracz zna rozk lad a posteriori Q i i z tego powodu dzienny cel to maksymalizacja dziennej oczekiwanej użyteczności = R i (z, θ i, (a i, a i )) = Θ i r i (z, (θ i, θ i ), (a i, a i (θ i )))Q(dθ i θ i) 8

Rozważmy problem graczy w wielu krokach t N := {1, 2,...}. Z tego powodu W każdym kroku t gracze obserwuj a (z t, θ t i ), Uważaj a że rozk lad na Θ i jest Q i ( z t, θ t i ), Wybieraj a akcje a i Ã(z t, θ t i ), i oczekuj a dziennej wyp laty R i (z t, θ t i, at i, at i ). Publiczny sygna l jest aktualizowany z t z t+1 i gra przechodzi do kroku t + 1. 9

Jak wygl ada aktualizacja, czyli zmiana z z t na z t+1? Zak ladamy, że z t jest lańcuchem Markowa sterowanym przez graczy o prawdopodobieństwie przejścia q( z, (θ i, θ i ), a) Czyli dla każdego (z t, θ t, a t ) z t+1 q( z t, (θ t i, θt i ), (at i, at i (θt i )) Ponieważ θ i jest nieznane dla gracza i, może on jedynie oczekiwać, że z t+1 Θ i q( z t, (θ t i, θ i), (a t i, at i (θ i))q(dθ j z t, θ t i ) 10

Ostateczny cel gracza: każdy gracz maksymalizuje γ i (z, θ i )(π) := E z,θ i,π i t=1 R i (z t, θ t i, at )β t 1 gdzie π i jest strategi a dla gracza i, natomiast π jest profilem. Rozważamy nastȩpuj ace problemy: Znalezienia algorytmu numerycznego na znalezienie stacjonarnej markowowskiej równowag Nasha w dyskontowanej grze stochastycznej. Rozważamy zbiór podobnych problemów parametryzowanych przez uporz adkowany zbiór Ω i prezentujemy rezultaty porównawcze dla równowag Nasha. 11

Dlaczego gry stochastyczne: Obszerna literatura na tym polu: Pierwsza praca: Shapley (1955) Istnienie równowagi przy różnych za lożeniach: Metrens i Parthasarathy (2003), Maitra i Sudderth (2007), wcześniej Amir (1996), Curtat (1996), Nowak (2003,2006,2010) Bayesowskie gry supermodularne : Vives (1990), Van Zandt (2010) Przyk lad gry w której nie istnieje równowaga: Levy (2012) Istnienie skorelowanych strategii: Duffy, Geanakoplos, Mas Collel, Lennan (1994), 12

Harris, Renny, Robson (1995), Nowak Raghavan (1992), Duggan (2012)... Metody obliczeniowe APS (iteracja zbiorów równowag): Abreu, Pearce and Strachetti (1990) Metody iteracyjne: Nowak, Szajowski (2003), Balbus, Nowak (2004), Balbus, Reffett and Woźny (2012),

Za lożenie 1: r i (z, θ, ) jest ci ag la w A, oraz r i (,, a) jest mierzalna na Z Θ Ã multifunkcja o wartościach niepustych, zwartych bȩd acych krat a zupe ln a, r i przyjmuje wartości w [0, M], f. supermodularna w a i, i ma rosn ace przyrosty w (a i, a i ) (kardynalne komplementarności patrz Curtat (1996)) oraz r i (, θ i, a) 0 (z = 0 stan bankructwa). Ponadto, r i jest rosn aca w a i. q jest w postaci q( z, θ, a) = p( z, θ, a)+(1 p(z z, θ, a))δ 0 ( ) gdzie δ 0 ( ) jest miar a skupion a w stanie bankructwa. p jest miar a t.z. p(z z, θ, a) < 13

0 oraz p(z 0, θ, a) 0 (stan bankructwa jest poch laniaj acy) dla wszystkich funkcji mierzalnych o wartościach [0, M] (zbiór takich funkcji to V) v p(v z, θ, a) ma kardynalne komplementarności i jest rosn aca w a. Ponadto p(v z, θ, ) jest ci ag la i p(v,, a) jest mierzalna.

Z równań Bellmana p. Bertsekas Shreve (1978) znalezienie stacjonarnej markowowskiej równowagi redukuje siȩ do gry jednokrokowej parametryzowanej przez v i V z wyp lat a W i (z, θ i, a i, σ i ) := (1 β)r i (z, θ i, (a i, σ i ))+ gdzie +βe(v i z, θ i, (a i, σ i )) = Θ i Z E(v i z, θ i, (a i, σ i )) = Θ i v i (z, θ i )q(dz z, θ, a i, σ i )Q i (dθ i z, θ i ) 14

Z tego powodu redukujemy ten problem do znalezienia punktu sta lego multifunkcji: z Φ(v, σ) = P(v, σ) T (v, σ), P i (v, σ) = arg max W i (z, θ i, a i, σ i ) a à i (z,θ i ) oraz T i (v, σ) = P := max W i (z, θ i, a i, σ i ) a à i (z,θ i ) n i=1 P i T := n i=1 T i. 15

Tzn. f jest stacjonarn a równowag a, a v jest odpowiedni a wyp lat a wtedy i tylko wtedy gdy (v, f ) Φ(v, f ) Możemy znaleźć ekstremalne selekcje: najmniejsz a i najwiȩksz a Φ(v, σ) = P(v, σ) T (v, σ), Φ(v, σ) = P(v, σ) T (v, σ). Obie istniej a z kardynalnych komplementarności (p. Topkis (1978), Milgrom and Roberts (1990), Curtat (1996)). 16

Podobne problemy: Nowak and P.Szajowski (2003), Balbus and Nowak (2004), P.Szajowski (2006), Balbus, Reffett i Woźny (2012) W odróżnieniu od ww modeli my nie liczymy równowag w grach pomocniczych, a redukujemy nasz problem do serii problemów maksymalizacyjnych. 17

Twierdzenie 1: Iteracje prowadz ace do równowagi Najwiȩksza równowaga: i dla t 1 (f 0, v 0 ) = (max Ã(z, θ), M) (f t+1, v t+1 ) = Φ(v t, σ t ). Wtedy oba f t i v t s a rosn ace w t. Najwiȩksza równowaga (wartość i strategia) (v, f ) = lim t (v t, σ t ). Najmniejsza równowaga: i dla t 1 (f 0, v 0 ) = (0, 0) (f t+1, v t+1 ) = Φ(v t, σ t ). Wtedy oba f t i v t s a rosn ace w t. Najmniejsza równowaga (wartość i strategia) to (v, f ) = lim t (v t, σ t ). 18

Dowód bazuje na tw. Tarskiego i Tarskiego i Kantorowicza.

Probem z pogranicza statystyki i teorii gier: Poprzednio za lożyliśmy znajomość rozk ladu a-priori θ Q( z). teraz go nie znamy, czyli operator Φ(f, v )(θ, z) zależy od Q. Za lóżmy że w kroku t gracz zna historiȩ gry do momentu t 1 w l acznie, w szczególności zna (θ 1 i, θ2 i,..., θt 1 i ) a w kroku t zna jedynie (z t, θi t ), a nie zna θ i t. Nie zna również rozk ladu a priori Q. 19

Gracz ma dwa problemy: Estymacja rozk ladu Q Maksymalizacja swojej funkcji użyteczności. Podobny problem przedstawia Minjárez Sosa i Vega-Amaya (2009), podobnie jak wcześniej Gordienko (1985), Gordienko i Minjares-Sosa (1998), Altman i Schwarz (1991). 20

Algorytm: Praca Balbus,Reffett, Woźny (2013) pokazuje istnienie odpowiedniej równowagi jako ci ag iteracji (f (z, θ; Q), v (z, θ; Q) Φ(f, v; Q)(z, θ i ). (i) Gracz i obserwuje (z 1, θ 1 i ) (ii) każdy gracz zgaduje Q i ( z) i wybiera strategiȩ (f (z 1, θ 1 ; Q), (iii) W kroku t gracz nie zna Q i, ale zna (θ 1 i, θ2 i,..., θt 1 i ) (iv) Problem: znajdź (szybko zbieżny) estymator Q( z t, θ t ) w oparciu o szereg czasowy { (θ i τ, θτ i )} t τ=1 (zt można potraktować jako sta l a). 21

(v) Oblicza (f t+1, v t+1 ) = Φ(f t, v t ; ˆQ t ), (vi) Przechodzi do nastȩpnego kroku,

Uproszczony model: Gra jednoosobowa (proces decyzyjny) Levhariego Mirmana: Populacja ryb odnawia siȩ zgodnie z regu l a z t+1 = ɛ t (z t a t ) θ, gdzie ɛ t ma rozk lad Lognormalny o (0, s 2 ). Zysk z po lowu dziennego dla rybaka to n.p. ln(a t ). Gracz nie zna θ, ale gdyby j a zna l uży lby strategii a t (z t, θ) = (1 g(θ))z t z t a t = g(θ)z t Wiȩc po zlogarytmowaniu mamy proces ARIMA(1,1,0) postaci Z t+1 = θ Z t + ln(g(θ))θ + E t, gdzie Z t = ln(z t ), E t ln(ɛ t ). Dla {ˆθ t } t=1 ci ag estymatorów θ. Pytanie: Co można powiedzieć o strategii a t (z t, θ t ) = (1 g(ˆθ t ))z t? 22