TEORIA GIER I PRAKTYKA NEGOCJACJI: SYMULACJE W OPARCIU O GRĘ PLANSZOWĄ DYPLOMACJA Teoria gier statycznych Strategie zdominowane Iterowane wykreślanie Gry o sumie zerowej vs niezerowej, dylemat więźnia, chicken Równowaga Nasha Gry z niepełną informacją [bonus: Schemat arbitrażowy Nasha] Elementy teorii gier kooperacyjnych Teoria gier dynamicznych Przetarg ultymatywny, przetarg naprzemiennych ofert Zaufanie, oszustwo, reputacja [bonus: gry dynamiczne z niepełną informacją]
Stosunki międzynarodowe: teoria neorealistyczna Negocjacje BATNA Stosunek do ryzyka Cierpliwość Style negocjacji Określanie i powiększanie obszaru zainteresowań stron Reputacja/zaufanie Emocje, zdrada, reputacja. Etyka w negocjacjach.
JAK ZALICZYĆ ZAJĘCIA? Udział w grze dyplomacja online (30 punktów). o Do 20 punktów zdobyć można za samą aktywność. 5 punktów kary za każdy przegapiony lub nonsensowny ruch. o Do 10 punktów będzie można zdobyć w zależności od wyników. Zwycięzca każdej partii dostanie 10/k punktów, gdzie k będzie liczbą gier, które uda się danemu studentowi ukończyć w ciągu semestru, a pozostali dostaną punkty w proporcji do liczby baz posiadanych na koniec partii (w szczególności gracze wyeliminowani wcześniej zero). Egzamin końcowy (40 punktów) Prace domowe/kartkówki/aktywność na zajęciach (30 punktów)
PIERWSZA WOJNA ŚWIATOWA https://www.youtube.com/watch?v=-3ujj5kxili https://www.youtube.com/watch?v=cqfdnmc7 VAc (i następne części)
Wykaz używanych skrótów i oznaczeń dyplomacyjnych Reguły gry: https://www.wizards.com/avalonhill/rules/diplo macy.pdf A armia F flota AT, DE, FR, GB, IT, RU, TR skróty krajów Używamy trzyliterowych, pisanych małą literą skrótów nazw, np. ber=berlin mun>ber ruch z Monachium do Berlina H holds (jednostka zostaje w miejscu) S supports (jednostka wspiera w obronie lub ataku), np. bur S (par>gas)
GRY W POSTACI NORMALNEJ DEFINICJA Gra G = (N, S 1,..., S n, u 1,..., u n ) N = {1, 2,..., n} zbiór graczy, S 1, S 2,..., S n zbiory strategii; S i zbiór strategii gracza i, u 1, u 2,..., u n funkcje wypłaty; u i : S R to funkcja wypłaty gracza i. Założenia: racjonalność wspólna wiedza graczy o grze: gracz i 1 wie, że gracz i 2 wie, że... gracz i k zna wszystkie zbiory strategii i funkcję wypłat analogiczne wspólna wiedza graczy o ich racjonalności każdy z graczy dokonuje jednokrotnego wyboru swojej strategii, nie wiedząc jak wybierają inni. Podziękowanie: część materiałów oparta jest o slajdy dr. Marcina Malawskiego, wykorzystane za jego zgodą.
STRATEGIE I WYPŁATY W DYPLOMACJI (UWAGA: do odwołania ignorujemy negocjacje) N = (Austria,, Turcja) u i (s 1, s 2,..., s n ) = 1 gdy i wygrał i 0 w przeciwnym przypadku. Pojedyncza strategia danego gracza s i to przepis co ma robić dla każdej możliwej dotychczasowej historii gry. Nawet jeśli ograniczono liczbę lat gry (i np. wygrywają wszyscy, który do tego czasu nie zostali wyeliminowani), zbiór S i jest gargantuiczny. Np. przyjmując dla uproszczenia, że wiosną 1914 każda jednostka ma cztery możliwe ruchy, mamy 4 22 1,8 10 13 historii pierwszego ruchu. Przyjmując, że jesienią 1914 znów cztery możliwe ruchy, mamy około 4 1,8 1013 możliwych planów działania jesienią dla pojedynczej jednostki. Zatem typowy gracz (dysponujący trzema jednostkami) ma około 4 3 (4 1,8 1013 ) 3 strategii już w (mało interesującej) grze ograniczonej do jednego roku (o ile zapomnimy o ucieczkach i uzupełnieniach). Ta liczba w rozwinięciu dziesiętnym nie zmieści nam się na slajdach.
STRATEGIE I AKCJE Ogromna liczba strategii jest dość typowa dla gier dynamicznych (podobnie w szachach). Dużo łatwiej rozważać zbiór AKCJI gracza i po danej historii H, oznaczany A i (H). W grach statycznych (jednoczesnych), takich jak np. jednokrotna gra papier-nożyce-kamień, zbiór akcji i zbiór strategii są tożsame, bo jedyna możliwa historia jest pusta.
Możliwe akcje Francuzów (jeśli nie mają więcej jednostek niż widać. Uwaga: zawsze przyjmujemy, że jednostki poza widoczną mapą nie mają wpływu): (par>bre, bur>bel) (par>bre, bur>gas) (par>bre, bur S (par>gas)) [nie wszystkie akcje mają jakikolwiek sens]
ANALIZA POJEDYNCZEGO RUCHU Na razie skupimy się na zbiorach akcji. Będziemy traktować pojedynczy ruch tak, jakby był całą grą. Jeśli tak naprawdę gra się po nim nie kończy, to skąd mamy wiedzieć jakie są wypłaty? Powinniśmy używać prawdopodobieństw końcowego sukcesu, ale nawet tego nie znamy nawet w przybliżeniu (z wyjątkiem niektórych przypadków, gdy jest ono bliskie 0). Naturalną uproszczoną funkcją wypłat jest ta przypisująca dla każdej kombinacji akcji graczy ich zmiany w posiadanej liczbie baz. A więc u Niemcy = 2 gdy Niemcy po tym ruchu stracą dwie bazy itp. UWAGA 1: To ma jakiś sens raczej w zastosowaniu do ruchu jesiennego. UWAGA 2: W praktyce nie zawsze im więcej baz w krótkim okresie tym lepiej. A na pewno użyteczność nie rośnie liniowo.
UWAGA 3: Tak naprawdę zdecydowanie nie jest wszystko jedno, które bazy mamy i gdzie stoją nasze jednostki
PRZYKŁAD Austria\Rosja gal>bud gal>vie gal coś innego [co nie daje szans zdobycia bazy] bud>vie 1;1 0;0 0;0 bud>gal lub bud holds lub 0;0 1;1 0;0 bud sup. sth. bud>gdzieś indziej [gdzie nie ma szans zdobycia bazy] 1;1 1;1 0;0
UWAGA 1: zakładamy, że działania innych jednostek nie mają wpływu na tę interakcję. W szczególności jeśli AT i RU mają inne jednostki, to wiersze i kolumny powyższej macierzy nie odpowiadają dostępnym graczom akcjom (ale takie rozbicie na osobne gry bez wzajemnego wpływu jest b. wygodne) UWAGA 2: jak widać, czasem warto kolapsować różne możliwe akcje, które (dla ustalonej akcji przeciwnika) dają te same efekty
Uwaga: nie należy zbyt pochopnie definiować strategii i wrzucać zbyt wiele do kategorii inne, które można pominąć Przyjmijmy, że RU i IT są w sojuszu i można ich traktować jako jednego gracza. Czy AT może obronić wszystkie swoje bazy? Ponieważ ma tylko dwie armie, nie może skierować armii do wszystkich baz. Na oko wystarczy rozważać następujące strategie (pozostałe nie będą lepsze): AT\RU+IT ven>tri, gal>vie ven>tri, gal>bud bud H, vie>tri 1;1 0;0 vie H, bud>tri 0;0 1;1 vie H, bud H 1;1 1;1
Ostatnia strategia AT nigdy nie da lepszego efektu niż pierwsza, a czasem da gorszy. Pierwsza i druga są równie dobre: AT ocali bazę jeśli zgadnie co zrobią RU+IT (albo inaczej mówiąc RU+IT bazę zdobędą jeśli zgadną co zrobi AT). A może AT może zrobić jeszcze coś innego?
Armie AT wzajemnie się blokują, więc bez wsparcia nie można wejść do żadnej z ich baz! Czy RU+IT mają na to dobrą odpowiedź? Tak! gal>vie w połączeniu z ven S (vie>tri)! (albo analogicznie dla bud). Więc dostajemy macierz gry: AT\RU+IT ven>tri, gal>vie ven>tri, gal>bud gal>vie, ven S (vie>tri) gal>bud, ven S (bud>tri) bud H, vie>tri 1;1 0;0 1;1 0;0 vie H, bud>tri 0;0 1;1 0;0 1;1 vie>tri, 0;0 0;0 1;1 1;1 bud>tri vie H, bud H 1;1 1;1 0;0 0;0
DOMINACJA Niech S i oznacza zbiór strategii łącznych innych graczy poza graczem i. Powiemy, że strategia s i S i dominuje strategie s i jeżeli dla każdej s i S i zachodzi u i (s i, s i ) > u i (s i, s i ). Czyli s i zawsze da lepszy efekt niż s i Gdy zastąpimy znak > znakiem (lecz dla przynajmniej jednej s i nierówność będzie ostra) otrzymujemy definicję słabej dominacji. Czyli nigdy s i nie opłaci nam się lepiej niż s i, a dla przynajmniej jednej kombinacji strategii pozostałych opłaci się gorzej. Nie należy używać strategii ściśle zdominowanych. Ale użycie słabo zdominowanych może mieć pewien sens, zob. niżej: (G,L) daje obydwu graczom lepszy efekt niż (D,P) i nie mają powodu od swojej strategii odstąpić, o ile nie spodziewają się odstąpienia przeciwnika. L P G 1;1 1;1 D 1; 1 0;0
ITEROWANE USUWANIE STRATEGII (SŁABO) ZDOMINOWANYCH IE(W)DS Jeśli inny gracz ma strategię (słabo) zdominowaną, to można o niej zapomnieć wykreślić ją z macierzy gry. Wtedy może się okazać, że któraś z naszych strategii staje się zdominowana itd. Takie postępowanie może znacznie ułatwić analizę gry.
PRZYKŁAD WYKREŚLANIA SŁABO ZDOMINOWANYCH Austria\Rosja gal>bud gal>vie gal coś innego [co nie daje szans zdobycia bazy] bud>vie 1;1 0;0 0;0 bud>gal lub bud holds lub bud sup. 0;0 1;1 0;0 sth. bud>gdzieś indziej [gdzie nie ma szans zdobycia bazy] 1;1 1;1 0;0
IEWDS: PRZYKŁAD Austriacy mogą próbować zdobyć dwie bazy: rum i bul. Ale (con>bul, aeg>gre) słabo dominuje każdą inną strategię TR i sev>rum słabo dominuje każdą inną strategię RU. Więc można zapomnieć o szansie zdobycia dwóch baz. Po wykreśleniu stosownych wierszy i kolumn atak na rum ze wsparciem (dający gwarancję zdobycia jednej) słabo dominuje każdą inną opcję AT.
DEFINICJA: Strategia s i gracza i jest jego najlepszą odpowiedzią na łączną strategie s i pozostałych graczy, (ozn. s i = BR i (s i )) jeżeli dla każdej innej strategii s i S i zachodzi u i (s i, s i ) u i (s i, s i ). Uwaga 1. Jeżeli s i = BR i (s i ), to s i nie może być zdominowana (ale może słabo). DEFINICJA: Układ strategii (strategia łączna) s = (s 1, s 2,... s n ) jest równowagą Nasha gry G = (N, S 1,..., S n, u 1,..., u n ) jeżeli dla każdego i = 1, 2,... n mamy s i = BR i (s i ), czyli dla każdego i i każdej s i S i u i (s 1,, s i 1, s i, s i+1, s n ) u i (s 1,, s i, s n ). Uwaga 2. Strategie w równowadze nie mogą zostać usunięte w procesie IEDS (ale mogą w IEWDS) Problemy z równowagą Nasha 1. Nie zawsze istnieje 2. Gdy istnieje, bywa nieoptymalna w sensie Pareto 3. W tej samej grze może być ich wiele
AT\RU+IT ven>tri, gal>vie ven>tri, gal>bud gal>vie, ven S (vie>tri) gal>bud, ven S (bud>tri) bud H, vie>tri 1;1* 0*;0 1;1* 0*;0 vie H, bud>tri 0*;0 1;1* 0*;0 1;1* vie>tri, bud>tri 0*;0 0*;0 1;1* 1;1* vie H, bud H 1;1* 1;1* 0*;0 0*;0 Wypłaty odpowiadające BR danego gracza oznaczono gwiazdką. Ponieważ nie ma dwóch gwiazdek dla tej samej pary strategii nie ma równowagi Nasha.
IT\AT tri>ven tri>alb ven>tri 0*;0* 1; 0,8 ven>pie 0,8;1 0,2;0,2 (uwaga: przyjmujemy, że jednostki gdzieś indziej mogą coś zdziałać, ale nie od razu zdobyć bazę. To coś ma, przyjmijmy arbitralnie, wartość 0,2) Wybór strategii dominujących prowadzi do jedynej równowagi, w której wypłaty są Paretozdominowane przez wypłaty osiągane dla pewnej nie-równowagowej kombinacji strategii. Tego typu sytuację nazywamy czasem dylematem więźnia.
GRY O SUMIE ZEROWEJ Gra (N, S 1,..., S n, u 1,..., u n ) jest grą o sumie stałej, jeśli istnieje taka stała C, że dla każdej strategii łącznej (s 1,..., s n ) S zachodzi Σ i u i (s 1,..., s n ) = C. Częściej mówi się o grach o sumie zerowej, co na jedno wychodzi, bo odjęcie stałej od wszystkich wypłat danej osoby nie zmienia gry. W dwuosobowych grach o sumie zerowej nie ma miejsca na współpracę zysk innego gracza jest tożsamy z moją stratą. Są to gry ściśle konkurencyjne. Dla innych gier ważne negocjacje!
Dotychczas rozważaliśmy głównie gry o sumie zerowej. Cała gra w dyplomację, o ile jest tylko jeden zwycięzca, jest taką grą. Lokalny konflikt także, jeśli wszystkie bazy są już zajęte i jedynym celem jest maksymalizacja liczby baz. Ale na początku są i bazy neutralne. DE\GB nth>hol nth>bel ruh>hol 0;0 1;1 ruh>bel 1;1 0;0 gra (anty)koordynacji w ogóle nie ma konfliktu
GB\RU nwy H nwy>swe nth>nwy 0;1 1;1 coś innego 0;1 0;1 Rosji jest wszystko jedno co się zdarzy, ale GB nie zmienna suma.
Właściwości równowag w grach ściśle konkurencyjnych Gdy (s 1, s 2 ), (r 1, r 2 ) są równowagami takiej gry, to u 1 (s 1, s 2 ) u 1 (r 1, s 2 ) (bo s 1 jest BR 1 (s 2 )) u 1 (r 1, s 2 )= u 2 (r 1, s 2 ) u 2 (r 1, r 2 ) = u 1 (r 1, r 2 ) (bo r 2 jest BR 2 (r 1 )) u 1 (r 1, r 2 ) u 1 (s 1, r 2 ) (bo r 1 jest BR 1 (r 2 )) u 1 (s 1, r 2 )= u 2 (s 1, r 2 ) u 2 (s 1, s 2 ) = u 1 (s 1, s 2 ) (bo s 2 jest BR 2 (s 1 )) i stąd u 1 (s 1, s 2 ) = u 1 (r 1, r 2 ) i oczywiście u 2 (s 1, s 2 ) = u 2 (r 1, r 2 ) (wszystkie równowagi są równie dobre), (s 1, r 2 ), (r 1, s 2 ) też są równowagami ( równowagi są wymienne ), W grach ściśle konkurencyjnych tę wielkość wypłatę gracza 1 w równowadze nazwiemy wartością gry.
STRATEGIE MIESZANE Strategia mieszana to wybór strategii w sposób losowy. Gdy S i jest zbiorem strategii gracza i w grze G, to zbiorem jego strategii mieszanych jest S i * : zbiór wszystkich rozkładów prawdopodobieństwa na S i. Będziemy rozważać tylko gry ze skończoną liczbą strategii, wówczas przez σ i,k oznaczymy prawdopodobieństwo użycia przez gracza i jego strategii nr k. Elementy S i będziemy nazywać strategiami czystymi. Strategią nieczystą będziemy nazywać tylko wyjątkową podłość. Nośnik strategii mieszanej to zbiór strategii czystych wybieranych z dodatnim prawdopodobieństwem. Oczekiwana wypłata ze strategii mieszanej będzie średnią z wypłat ze strategii czystych, ważoną ich prawdopodobieństwami.
Austria\Rosja q: gal>bud (1 q): gal>vie p: bud>vie 1;1 0;0 (1 p): bud>gal 0;0 1;1 [p, q to prawd. zagrania danej strategii] Wypłata RU: pq+(1 p)(1 q) Kiedy gracz zechce grać jakąś strategię czystą z dodatnim prawdopodobieństwem? Kiedy żadna inna strategia czysta nie przynosi mu średnio rzecz biorąc więcej. Załóżmy, że p=0,7. Wówczas gal>bud przyniesie średnio 0,7, a gal>vie średnio 0,3. Więc RU nie zechce mieszać jedyną BR jest gal>bud. Ale BR AT (gal>bud)=bud>gal, a BR RU (bud>gal)=gal>vie itd. Stąd wnioskujemy jak szukać równowag w strategiach mieszanych.
ZNAJDOWANIE RÓWNOWAG W STRATEGIACH MIESZANYCH Krok pierwszy: ustalić nośniki. Krok drugi: rozwiązać układ nierówności na σ i,k by żadna strategia czysta należąca do nośnika nie dawała mniej niż jakaś inna strategia czysta. W naszym przypadku EU RU (gal>bud)=p= (1 p)=eu RU (gal>vie), stąd p=0,5 I analogicznie q=0,5 Ale nie zawsze mieszać należy z równymi prawdopodobieństwami. Np. przyjmijmy, że RU woli pozyskać bud niż vie, bo obok ma bazę w rum, więc zdoła bud utrzymać. Natomiast jeśli zdobędzie vie, to ocenia, że z pr. 0,5 szybko straci go na rzecz Niemiec.
AT\RU q: gal>bud (1 q): gal>vie p: bud>vie 1;1 0;0 (1 p): bud>gal 0;0 1;0,5 W wyliczeniu q nic się nie zmienia Rosja nadal rzuca uczciwą monetą. Ale AT już nie! EU RU (gal>bud) = p = 0,5(1 p) = EU RU (gal>vie), stąd p=1/3. To jest nieintuicyjne przy zmianie wypłat RU zachowanie zmienia tylko AT. Uwaga: Niektóre strategie (nawet jeśli nie są zdominowane) mogą nie należeć do nośnika równowagowej strategii mieszanej. To główna trudność w szukaniu równowag w strategiach mieszanych w większych grach. TWIERDZENIE NASHA: Każda gra skończona ma równowagę Nasha (być może w strategiach mieszanych).
AT\RU+IT ven>tri, gal>vie ven>tri, gal>bud gal>vie, ven S (vie>tri) gal>bud, ven S (bud>tri) bud H, vie>tri 1;1 0;0 1;1 0;0 vie H, bud>tri 0;0 1;1 0;0 1;1 vie>tri, 0;0 0;0 1;1 1;1 bud>tri vie H, bud H 1;1 1;1 0;0 0;0 Brak równowagi w strategiach czystych Szukamy równowagi w strategiach mieszanych. 1. Wartość gry musi wynosić 0,5 (dlaczego?). 2. Właśnie tyle musi przynosić każda strategia AT, a każda strategia RU+IT: 0,5 (dlaczego?) 3. rodzina równowag: p 1 =p 2, p 3 =p 4, q 1 = q 4, q 2 =q 3
GRY Z NIEPEŁNĄ INFORMACJĄ Czasem nie wiemy jaka jest struktura wypłat innych graczy (a oni wiedzą). W rozważanym przykładzie możemy nie wiedzieć czy Włochy i Rosja współpracują, czy wręcz przeciwnie nienawidzą się (albo nie chcą się zdradzić ze swym sojuszem). W tym ostatnim przypadku współpraca mogłaby być dla nich de facto wykluczona.
AT uważa, że gra z pr. w w tę grę: AT\RU+IT 1 ven>tri, gal>vie ven>tri, gal>bud gal>vie, ven S (vie>tri) gal>bud, ven S (bud>tri) bud H, vie>tri 1;1 0;0 1;1 0;0 vie H, bud>tri 0;0 1;1 0;0 1;1 vie>tri, 0;0 0;0 1;1 1;1 bud>tri vie H, bud H 1;1 1;1 0;0 0;0 i z prawdopodobieństwem 1 w w tę: AT\RU+IT 2 ven>tri, gal>vie ven>tri, gal>bud gal>vie, ven S (vie>tri) gal>bud, ven S (bud>tri) bud H, vie>tri 1;1 0;0 1;-5 0;-5 vie H, bud>tri 0;0 1;1 0;-5 1;-5 vie>tri, 0;0 0;0 1;-5 1;-5 bud>tri vie H, bud H 1;1 1;1 0;-5 0;-5 (Wartość 5 jest arbitralna. 1 albo 100 da te same teoretyczne przewidywania.) Jak znaleźć optymalne strategie? Ta sama logika wzajemnie
optymalnych odpowiedzi: RU+IT typu 1 oraz RU+IT typu 2 wybierają BR na strategię mieszaną gracza AT. AT wybiera BR na strategię mieszaną wynikającą ze strategii obu typów przeciwnika i ich postrzeganej częstości. Niech q i, i=1, 4 oznaczają parametry strategii mieszanej gracza RU+IT typu 1 i podobnie z r i dla typu 2. q i, i=1, 4 dla gracza AT jak wcześniej. Dla uproszczenia przyjmijmy, że vie i bud są traktowane symetrycznie, zatem p 1 =p 2, q 1 =q 2, q 3 =q 4, r 1 =r 2 =0,5, r 3 =r 4 =0 (zdominowane) Wypłaty ze strategii AT: 1: w(q 1 +q 3 ) 0,5(1 w) = 0,5 2: w(q 2 +q 4 ) 0,5(1 w) = 0,5 3: w(q 3 +q 4 )= 2wq 3 4: w(q 1 +q 2 ) (1 w)= 2wq 1 (1 w) Jeśli q 3 <q 1, lub w<0,5, to strat. 3 dominuje pozostałe.
Wypłaty RU+IT typu 1: 1: p 1 +p 4 2: p 2 +p 4 = p 1 +p 4 3: p 1 +p 3 4: p 2 +p 4 = p 1 +p 3 Gdy p 4 >p 3, ten gracz wybierze tylko strategie 1 i 2, wtedy strategia 3 AT dominuje pozostałe, więc RU+IT typu 1 wybierałby jednak tylko strategie 3 i 4. Zatem p 3 p 4. Przypadek 1: p 3 >p 4. Wtedy q 1 =q 2 =0, q 3 =q 4 =0,5 Wypłaty ze strategii AT: 1, 2: 0,5, 3: w, 4: (1 w) To jest zgodne z p 3 p 4 gdy w 0,5. Przypadek 1a: w<0,5: p 3 =1 Przypadek 1b: w=0,5: p 3 p 4 (nic nowego) Przypadek 2: p 3 =p 4.
Przypadek 2a: p 3 =p 4 >0 Wypłaty AT ze strategii 3 i 4 równe: 2wq 3 = 2wq 1 (1 w) q 3 = q 1 +(1 w)/2w ale i q 3 =0,5 q 1, więc q 1 +(1 w)/2w=0,5 q 1 q 1 =0,25 (1 w)/4w, co jest możliwe (tj. q 1 pozostaje w dopuszczalnym przedziale [0,1]) dla w z przedziału [1/2,1]. Wtedy wypłata AT ze strategii 4 wyniesie 2w(0,25 (1 w)/4w) (1 w)= 0,5w+0,5(1 w) (1 w)=0,5, czyli ze wszystkich tyle samo. Przypadek 2b: p 3 =p 4 =0. To oznacza, że trzecia i czwarta strategia nie mogą przynieść więcej niż pierwsza lub druga. 0,5 2wq 3 0,5 2wq 1 (1 w) lecz dodajmy stronami:
ponieważ 2wq 3 2wq 1 (1 w)=1, musimy mieć w dwie równości. Co znów daje ten sam wniosek: q 1 =0,25 (1 w)/4w. Podsumowując, im bardziej AT wierzy we współpracę rosyjsko-włoską (większe w), tym częściej oni powinni wchodzić do Triestu (a nie wspierać podstępnie austriacki atak) gdy faktycznie współpracują. Natomiast AT powinien wybierać vie>tri, bud>tri jeśli uważa tę współpracę za mało prawdopodobną i mieszać (ale przy tym wybierać (vie H, bud H) nie częściej niż vie>tri, bud>tri) gdy uważa za prawdopodobną.
Uff, teraz trochę prostszy przykład gry z niepełną informacją. Francja obiecuje coś Niemcom. Niemcy mogą uwierzyć lub nie (i stosownie wybrać ruchy). Macierz wypłat: Niemcy\Francja dotrzymać zdradzić wierzyć 1;1 2;2 c nie wierzyć 0;0 0; c c to znany tylko Francuzom francuski koszt zdradzenia (wynikający z wewnętrznej uczciwości albo chęci ochrony swojej reputacji). Przyjmijmy dla uproszczenia: 0 z pr. w (nieuczciwy) c = { 2 w p. p. (uczciwy) Dla uczciwej FR zdrada jest ściśle zdominowana. Oznaczmy pr. dotrzymania przez nieuczciwego przez q. Wypłaty DE: Wierzyć: w[q 2(1 q)]+1 w = 1 3w(1 q) Nie wierzyć: 0
Przypadek 1: Niemcy wierzą, czyli p=1 Wówczas nieuczciwa FR zdradza, czyli q=0. Wypłata DE: 1 3w 0 (bo inaczej nie chcieliby wierzyć). Czyli to możliwe gdy w 1/3. Nieuczciwa FR ma wypłatę 2. Przypadek 2: Niemcy czasem wierzą, 1>p>0. Wówczas nieuczciwa FR zdradza, czyli q=0. Wypłata DE: 1 3w =0 (bo inaczej nie chcieliby mieszać). Czyli to możliwe tylko gdy w=1/3. Nieuczciwa FR ma wypłatę 2p. Przypadek 3: Niemcy nie wierzą, czyli p=0. Wówczas nieuczciwej FR wszystko jedno. 1 3w(1 q) 0, 3w(1 q) 1, q 1 1/(3w) Czyli Niemcy ufają, gdy nieuczciwych mało nieuczciwi na tym zyskują. Od pewnego momentu Niemcy nie ufają. Wtedy im więcej jest w przyrodzie nieuczciwych (w duże), tym częściej nieuczciwy udaje uczciwego (q duże). W szczególnym przypadku DE ufają czasem.
NIEKOMPLETNA INFORMACJA: JESZCZE JEDEN PRZYKŁAD Czy Włosi powinni zajmować Tunis czy próbować Grecję? IT\TR bul>gre [w+(1 w)q] bul sth else [(1 w)(1 q)] ion>tun [p] 1;2 1;1+b ion>gre [1 p] 0;1 1,2;0,8+b b to znany tylko TR pożytek z sth else. 0 z pr. w b = { 0,5 w p. p. Gdy b=0, bul sth else jest zdominowane, więc nie będzie grane.
Wypłaty gracza IT: ion>tun: 1 ion>gre: 1,2(1 w)(1 q) Wypłaty gracza TR typu 2: bul>gre: 1+p bul sth else: 1+0,5 0,2(1 p) Przypadek 1: p=1. Musi być 1,2(1 w)(1 q) 1. Ale q będzie 1, więc to spełnione na pewno Przypadek 2: 1>p>0. Czyli 1,2(1 w)(1 q)=1. q=1 5/[6(1 w)]. Musi zachodzić w 1/6. Jeśli 0<q<1, to musi być 1+p=1,3 0,2p, czyli p=3/8 jeśli q=0 (w=1/6), to może być 1+p<1,3 0,2p, p<3/8 Przypadek 3: p=0. Musi być 1,2(1 w)(1 q) 1. q=0, 1,2(1 w) 1, czyli musi zachodzić w 1/6.
Podsumowując: najbardziej prawdopodobne jest ion>tun, bul>gre, które jest NE w grze z pełną informacją (dla obu typów TR). Jednak gdy jest wysokie pr., że TR odniesie duże korzyści z ruchu sth else (w 1/6), istnieją inne równowagi.
GRY Z NIEKOMPLETNĄ INFORMACJĄ: PRZYPADEK CONTINUUM TYPÓW. REINTERPRETACJA STRATEGII MIESZANYCH DE\GB nth>bel [q] [k g /x] nth>hol [1 q] [(x k g )/x] ruh>hol [p] [(x k d )/x] 2+d;1 0;0 ruh>bel [1 p] [k d /x] 0;0 1;2+g Zmodyfikujmy nieco naszą grę (anty)- koordynacji. Każdy z graczy chętniej zająłby Holandię (np. bo graniczy z bazą w Kilonii). Najpierw załóżmy, że g=d=0, czyli gra z kompletną informacją. Mamy trzy równowagi
(hol,bel), (bel,hol) i mieszana (p=2/3, q=1/3). Ta ostatnia może wynikać nie z mieszania explicite, a z istnienia continuum typów, które wybierają strategie czyste. Załóżmy, że d i g mają rozkład jednostajny na [0,x]. Tylko DE zna d, tylko GB zna g. Duża wartość d (większa od pewnej krytycznej wartości k d, co zdarzy się z pr. (x k d )/x) skłania DE do gry (hol). Duża wartość g (większa od pewnej krytycznej wartości k g, co zdarzy się z pr. (x k g )/x) skłania GB do gry (hol). Pokażemy, że dla małego x równowaga gry z niekompletną informacją zbiega do mieszanej równowagi gry z kompletną informacją, czyli tak (x k d )/x jak i (x k g )/x zbiegają do 2/3 przy x zbiegającym do 0. Oczekiwane wielkości wypłat DE wyniosą: hol: k g (2+d)/x bel: (x k g )/x
Zatem DE powinny wybrać (hol) gdy d (x 3k g )/k g. Ta wielkość to właśnie poszukiwane k d. Podobnie wypłaty GB wyniosą: bel: (x k d )/x hol: k d /(2+g)x Stąd możemy wyznaczyć k g =(x 3k d )/k d. Teraz mamy układ dwóch równań na k g, k d. Widzimy, że k d = k g Zatem k d 2 +3k d =x. Dla x zbiegającego do zera i dodatniego k d, wyraz k d 2 staje się zaniedbywalnie mały, zatem k d x/3 i oczywiście k g x/3, zatem (x k d )/x, (x k g )/x zbiegają do 2/3, CBDO. To przykład ogólnej prawidłowości (Harsanyi, 1973), pokazujący, że strategia w równowagach mieszanych to sytuacja niepewności co do akcji przeciwnika wynikającej niekoniecznie z randomizowania explicite, ale być może z (drobnej) wątpliwości co do jego preferencji.
GRY W POSTACI EKSTENSYWNEJ (DRZEWA GRY) Niektórzy z graczy mogą podejmować decyzje wiedząc coś o decyzjach innych graczy. To oznacza, że tamte są wcześniejsze czas gra rolę. Dopuszczamy także możliwość, że gracz podejmuje decyzje wielokrotnie. Nadal zakładamy wspólną wiedzę o grze (graczach, możliwych akcjach i wypłatach), racjonalność i wspólną wiedzę o racjonalności, DEFINICJA: (N, W, (W 1,...,W n,w 0,W K ), I, (u 1,, u n ), P) gdzie N = {1, 2,..., n} zbiór graczy, W = (W,E) drzewo gry (graf skierowany spójny bez cykli): W wierzchołki (sytuacje w grze), E łuki (przejścia między nimi), W 1,W 2,...,W n rozbicie zbioru W na zbiory decyzyjne graczy : W = W1... W n W 0 W K. W j zbiór wierzchołków w których decyzję (o wyborze akcji) podejmuje gracz j, W K zbiór wierzchołków końcowych (liści),
W 0 zbiór wierzchołków, w których następuje posunięcie losowe Nadto: A zbiór akcji nazw łuków, A(w) zbiór akcji odpowiadających łukom wychodzącym z wierzchołka w, I struktura informacyjna rozbicie każdego ze zbiorów W 1,..., W n na zbiory informacyjne (W j = I j,1... I j,kj ), u 1, u 2,..., u n funkcje wypłaty u i : W K R funkcja wypłaty gracza i. P rodzina rozkładów prawdopodobieństwa wyników posunięć losowych: dla każdego w W0 mamy P w rozkład na A(w) Struktura informacyjna pozwala modelować stan (nie)wiedzy gracza: gracz nie potrafi powiedzieć w którym z wierzchołków danego zbioru informacyjnego się znajduje.
Dwa ruchy: wiosna, jesień DE bel hol GB GB b h b h DE tutaj podobnie b h GB GB b h b h 0;0 1;1 1;1 0;0 Przerywana linia obejmuje wszystkie wierzchołki w tym samym zbiorze informacyjnym GB nie wie czy DE wybrał bel czy hol. To kto pierwszy się rusza jest arbitralne; ważne, że ten drugi i tak nie wie jak ruszył się pierwszy.
Matka Natura FR uczciwa [1 w] FR nieuczciwa [w] DE DE wierzyć nw w nie wierzyć FR zdradzić d -2;0 1,1 z. dotrz. z. d. z. d. 0;-2 0;0-2;2 1;1 0;0 0;0 Niemcy\Francja dotrzymać zdradzić wierzyć 1;1 2;2 c nie wierzyć 0;0 0; c
W grach z niepełną informacją możliwe są sytuacje, w których aktualnie decydujący gracz nie zna całej dotychczasowej historii gry = są to gry z co najmniej jednym więcej-niż-jednoelementowym zbiorem informacyjnym. Ale zakładamy, że gracze znają swoje obecne opcje, własne przeszłe ruchy i nigdy nie zapominają. Dlaczego poniższe zbiory informacyjne są niepoprawne?
Gracz 1 Gracz 2 Gracz 1 Gracz 2
Strategia w grze w postaci ekstensywnej funkcja s j : Wj A taka że (1) w W j s j (w) A(w), (2) w,w I j,k s j (w) = s j (w ). = kompletny plan rozegrania całej gry. Strategie łączne jak w postaci normalnej, s = (s 1, s 2,..., s n ). Jeśli nie ma posunięć losowych, strategia łączna jednoznacznie wyznacza wierzchołek końcowy, w którym gra się skończy. Jeśli są można określić rozkład prawdopodobieństwa na możliwych końcach gry i stąd wartości oczekiwane wypłaty. Każdą grę w postaci drzewa można zatem zapisać także w postaci macierzy (i vice versa). Stąd na drzewa przenoszą się pojęcia dominacji i słabej dominacji najlepszej odpowiedzi równowagi Nasha
Podgra gry w postaci ekstensywnej to dowolne poddrzewo W = (W,E ) drzewa W (= dowolny wierzchołek w i cała część drzewa W następująca po w) o ile nie przecinamy żadnego zbioru informacyjnego gry. Ćwiczenie: wróć do drzew gry z poprzednich stron i zidentyfikuj wszystkie podgry. Każda strategia (czysta lub mieszana) w grze wyznacza strategię w dowolnej jej podgrze (przez obcięcie). Równowaga stabilna względem podgier (doskonała, Subgame-Perfect Nash Equilibrium, SPNE): Równowaga Nasha (s 1, s 2,, s n ) w grze w postaci ekstensywnej stanowi SPNE jeśli po obcięciu do dowolnej podgry wyznacza w tej podgrze równowagę.
DE zaufać nie ufać GB 0;0 dotrzymać zdradzić 1;1-1;2 DE samolubnie ofiarnie GB 0;2 ukarać zazgrzytać zębami i odpuścić 1; 1 1;0 Ćwiczenie: znajdź równowagi powyższych gier. Które z nich są SPNE? Jak warunek stabilności względem podgier ma się do eliminacji strategii słabo zdominowanych? Ćwiczenie: rozważ rodzinę gier dynamicznych z pełną informacją, w której każdy z graczy ma zawsze dwie możliwe akcje, A lub B, i wypłaty
zależą tylko od podjętych akcji. Podaj przykładową funkcję wypłaty, która spowoduje, że a) opłaca się ruszać jako pierwszemu b) nie opłaca się ruszać jako pierwszemu c) kolejność ruchów nie ma znaczenia Czy można podać ogólne warunki na f. wypłaty, które spowodują, że gra należy do typu a), b) lub c)?
RÓWNOWAGA SEKWENCYJNA (SEQUENTIAL EQUILIBRIUM) Tym razem oszczędzamy formalizmów. Oprócz Strategii każdy z graczy w każdym zbiorze informacyjnym formułuje Przekonania (Beliefs) tj. rozkład prawdopodobieństwa na należących do tego zbioru wierzchołkach. W równowadze te przekonania muszą być rozsądne, w obliczu tego jakie strategie są grane. Natomiast strategie muszą maksymalizować oczekiwaną wartość pod warunkiem przekonań. Rozsądne przekonania w zbiorach informacyjnych, które zostaną osiągnięte z niezerowym prawdopodobieństwem można wyznaczyć korzystając z Wzoru Bayesa, w pozostałych przy pomocy bardziej skomplikowanego rozumowania, którego nie będziemy analizować. W każdym razie równowagi sekwencyjne są stabilne względem podgier.
PRZYKŁAD Natura czyni GE uczciwymi lub nie (GE znają swój typ, pozostali znają tylko rozkład, np. 50/50). Następnie GE oszukują AT lub nie. Po czym FR musi zdecydować czy wierzyć GE czy nie, A GE czy dotrzymać czy nie. Matka Natura GE uczciwe [1 w] GE nieuczciwe [w] GE GE nie oszukać AT o. o. nie oszukać AT FR w n w nie wierzyć GE nie wierzyć nie
FR powinna aktualizować swoje przekonania co do typu GE obserwując jego akcję wobec AT. Jeśli w równowadze uczciwe GE oszukują AT z prawdopodobieństwem 0, a nieuczciwe z prawdopodobieństwem p, to FR, obserwując, że AT została oszukana wnioskuje, że GE są nieuczciwe, a gdy AT nie została oszukana, powinna wierzyć, że GE są uczciwe z prawdopodobieństwem (1 w)/[(1 w)+pw]. Nieuczciwe GE mogą zyskać na udawaniu uczciwych, przynajmniej na początku, o ile naprawdę uczciwych jest dostatecznie dużo (zakładamy, że FR jest skłonna uwierzyć gdy jest dostatecznie pewna uczciwości GE oraz że GE zyskują gdy FR im wierzy).
GRY PRZETARGU (targowania się) Założenia: Dwóch graczy. Do podziału jest ciasto o początkowej wielkości 1. Gracz 1 zaczyna propozycją podziału: (k 1, k 2 ) gdzie k 1 + k 2 = 1. Kto odrzucił w chwili t propozycję drugiego, ten w t +1 składa własną. Pierwsza przyjęta propozycja kończy grę. Wynik gry: (a, b, t); t N czas; a, b otrzymane części ciasta (a + b = 1). Ciasto jest pożądane: u 1 (k 1, k 2, t) > u 1 (k 1 ε, k 2 +ε, t) oraz u 2 (k 1, k 2, t) < u 2 (k 1 ε, k 2 +ε, t) dla dowolnych k 1, k 2 i t oraz ε > 0 Cias to pieniądz: u i (k 1, k 2, t) > u i (k 1, k 2, t + 1). Np. u i (k 1, k 2, t) = δ t 1 k i gdzie δ 1, δ 2 (0, 1) współczynniki dyskonta graczy 1 i 2 miary niecierpliwości ( o ile bardziej lubię świeże ciasto od wyschniętego ).
ZASTOSOWANIE DYPLOMACYJNE A i B próbują sformować koalicję przeciwko C. Muszą dogadać się co do podziału zdobytych baz. Jednemu z nich (przyjmijmy: A) może się bardziej spieszyć. Interpretacje opóźnienia i niechęci do niego: 1.[pomiędzy rundami] Tylko jedna propozycja na rundę. C może bardziej zagrażać A niż B, albo bazy C będące w zasięgu A mogą zostać łatwiej przejęte przez jeszcze innego gracza każdy ruch zwłoki więcej kosztuje A niż B. 2.[w obrębie rundy] Wiele propozycji na rundę. A może bardziej zależeć by szybko skończyć negocjacje niż B, bo np. chce zdążyć pogadać z innymi, musi się uczyć do egzaminu, nie chcę wyjść na chciwca itp.
Przetarg Stahla ograniczony w czasie. Np. runda się niedługo kończy. W zadanym z góry momencie T przy braku porozumienia pozostałe ciasto zostaje podzielone w ustalonych z góry proporcjach K 1,K 2, K 1 + K 2 = 1. Ta gra jest skończona i jedyną SPNE łatwo znaleźć rozwiązując od końca (indukcja wsteczna). Ćwiczenie: Austria i Niemcy negocjują warunki sojuszu przeciw Rosji. Każda runda zmniejsza postrzeganą przez Austrię wartość sojuszu o 20% a przez Niemcy o 10%. Jeśli się nie dogadają w ciągu dwóch rund, w t = 3 automatycznie podzielą się po równo (przed uwzględnieniem dyskonta). Narysuj drzewo gry i znajdź SPNE. A co by było, gdyby propozycje mogła składać tylko Austria? Uwaga 1: wysoka BATNA popłaca. Uwaga 2: inicjatywa w negocjacjach popłaca
Przetarg Rubinsteina bez ograniczenia czasu trwania. Możliwa jest wieczna niezgoda, (0, 0, ). u i (0, 0, ) = 0. Oznaczamy: x (t) = (x 1 (t),1 x 1 (t) ) propozycja gracza 1 złożona w nieparzystej chwili t, y (t) = (y 1 (t), 1 y 1 (t) ) propozycja gracza 2 złożona w parzystej chwili t.
Każdy podział ciasta (a, 1 a) może być osiągnięty w pewnej równowadze Nasha. Oto dające ją strategie: Gracz 1 (s 1 ): Zawsze proponuję (a, 1 a), na (y 1 (t), 1 y 1 (t) ) zgadzam się wtedy i tylko wtedy gdy y 1 (t) a Gracz 2 (s 2 ): Zawsze proponuję (a, 1 a), na (x 1 (t),1 x 1 (t) )) zgadzam się wtedy i tylko wtedy gdy 1 x 1 (t) 1 a. Żadna z powyższych równowag nie jest doskonała. s 2 nie jest najlepszą odp. gracza 2 na s 1 w podgrze następującej po propozycji x (1) = (x 1 (1),1 x 1 (1) ), gdzie 1 x 1 (1) (δ 2 (1 a), (1 a) Jedyną równowagą doskonałą modelu z dyskontem jest para strategii: Gracza 1: Zawsze proponuję podział (x 1, 1 x 1 ), zgadzam się na podział (y 1, 1 y 1 ) y 1 δ 1 x 1 ; Gracza 2: Zawsze proponuję podział (y 1, 1 y 1 ), zgadzam się na podział (x 1, 1 x 1 ) 1 x 1 δ 2 (1 y 1 ), przy czym y 1 = δ 1 x 1, 1 x 2 = δ 2 (1 y 2 )
Rozwiązanie tego układu równań: x 1 = 1 δ 2, x 1 δ 1 δ 2 = δ 2(1 δ 1 ) 2 1 δ 1 δ 2 y 1 = δ 1(1 δ 2 ), y 1 δ 1 δ 2 = 1 δ 1 2 1 δ 1 δ 2 Np. przy δ 1 = 5/6, δ 2 = 4/5 x 1 =3/5, x 2 =2/5, y 1 = y 2 =1/2 i w grze, w której pierwszą propozycję składa gracz 1, dostanie 60% ciasta, gdy zaś gracz 2 podzielą się po równo. Uwaga 2b: Inicjatywa wciąż popłaca. Ćwiczenie: rozwiąż analogiczną grę, w której tylko co trzecią propozycję wysuwa gracz 2. Uwaga 3: Cierpliwość popłaca. Przy ustalonym δ 1 : gdy δ 2 rośnie, to y 2 i x 2 rosną. Uwaga: pierwsza propozycja zawsze zostanie przyjęta rozwiązanie będzie efektywne. W ogólności nie jest to prawdą w przetargach z niepełną informacją.
GRY KOOPERACYJNE Zamiast skupiać się na możliwych strategiach graczy możemy spróbować określić co dana koalicja może uzyskać jeśli będzie optymalnie kooperować. UWAGA: Taki rodzaj analizy ma sens jeśli spodziewamy się, że gracze dotrzymają zobowiązań DEFINICJA: Gra kooperacyjna (z wypłatami ubocznymi) para (N, v) gdzie N = {1, 2,..., n} zbiór graczy, Ɲ zbiór wszystkich podzbiorów N (koalicji), v: Ɲ R funkcja charakterystyczna (spełniająca v( ) = 0). Interpretacja : v(s) to co może łącznie uzyskać koalicja S niezależnie od działań pozostałych. Każdą grę niekooperacyjną można naturalnie przedstawić jako kooperacyjną, zakładając, że członkowie S maksymalizują sumę swoich wypłat, a pozostali minimalizują tę sumę.
Za v(s) przyjmujemy wartość takiej gry (o sumie stałej). Ćwiczenie: każdy z trzech graczy, A, B i C, jednocześnie decyduje czy zachować się dobrze czy źle. Jeśli wszyscy zachowają się dobrze, wszyscy mają wypłatę 4. Złe zachowanie zwiększa wypłatę gracza o 1, ale zmniejsza wypłatę każdego z pozostałych o 2. Przekształć tę grę na kooperacyjną. Gra prosta to taka, że każda koalicja ma wartość 0 lub 1, v(n) = 1 i gdy S jest podzbiorem T, to v(s) v(t). Przykład (gra ważonej większości) Koalicja mająca ponad połowę baz wygrywa grę (v = 1, zaś w p.p. v = 0). Wyznacz funkcję charakterystyczną gdy: a) IT ma 8 baz, RU 10, TR 16 b) AT ma 5 baz, DE 8, FR 10, GB 11
DEFINICJA: Podział w grze (N, v) to wektor x = (x 1, x 2,... x n ) taki że N x i = v(n) i=1 Oznaczmy X S = j S x j. Podział x jest koalicyjnie racjonalny jeżeli dla wszystkich koalicji S mamy X S v(s). Szczególnie przekonująca jest indywidualna racjonalność (warunek spełniony dla jednoelementowych koalicji: x i v i. Zbiór wszystkich podziałów koalicyjnie racjonalnych w grze (N, v) nazywamy rdzeniem (core) tej gry i oznaczamy C(v). Niestety rdzeń bywa pusty. Np. łatwo wykazać, że każda gra v o sumie stałej (tzn. dla wszystkich S, v(s) + v(n \ S) = v(n)) ma pusty rdzeń, C(v) =, chyba że jest addytywna, S v(s) = Σ j S v(j) (czyli koalicje nie mają w ogóle znaczenia, a gra jest niezbyt ciekawa).
Rdzeń bywa też dziwny /mało przekonujący. Ćwiczenie: znajdź rdzeń każdej z gier z przykładu z poprzedniej strony. WARTOŚCI GIER KOOPERACYJNYCH Wartość to funkcja przypisująca każdej grze podział w tej grze. Wartość Shapleya gry (N, v) to podział w tej grze, φ(v) = (φ 1 (v),, φ n (v)), dany wzorem (s 1)! (n s)! φ i (v) = (v(s) v(s\i)) n! S i Gdzie n oznacza liczbę wszystkich graczy w grze a s liczebność koalicji s. Interpretacja: gracze dołączają w losowej kolejności (wszystkie permutacje jednakowo prawdopodobne) i każdy otrzymuje swoją wartość dodaną.
Ćwiczenie Czy wartość Shapleya musi należeć do rdzenia jeśli ten jest niepusty? TWIERDZENIE Shapleya: Jedyną wartością spełniającą łącznie 1. równoprawność: jeżeli gracze i, j są wymienni w grze v (wymiana jednego na drugiego nie zmienia v koalicji), to ϕ i (v) = ϕ j (v), 2. warunek gracza zerowego: jeżeli i jest graczem zerowym (dodanie go do dowolnej koalicji nie zmienia jej v), to ϕ i (v) = 0, 3. addytywność: dla gry z = v + w mamy ϕ(z) = ϕ(v) + ϕ (w) jest wartość Shapleya. Przykład. AT ma 5 baz, DE 13, FR 16. DE i AT są skłócone, poniosą więc łączny psychiczny koszt wyceniany na a 1 jeśli stworzą dwuosobową koalicję. Wyznacz wartość Shapleya. Ile musi wynosić a by rdzeń był niepusty?