Algorytmy szukania równowag w grach dwumacierzowych

Podobne dokumenty
11/22/2014. Jeśli stała c jest równa zero to takie gry nazywamy grami o sumie zerowej.

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

Problem plecakowy (KNAPSACK PROBLEM).

Zaawansowane metody numeryczne

RÓWNOWAGA STACKELBERGA W GRACH SEKWENCYJNYCH

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

Wykład 1 Zagadnienie brzegowe liniowej teorii sprężystości. Metody rozwiązywania, metody wytrzymałości materiałów. Zestawienie wzorów i określeń.

Diagonalizacja macierzy kwadratowej

7. Wykład VII: Warunki Kuhna-Tuckera

Sortowanie szybkie Quick Sort

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

MIKROEKONOMIA Prof. nadzw. dr hab. Jacek Prokop

Instrukcja do ćwiczeń laboratoryjnych z przedmiotu: Badania operacyjne. Temat ćwiczenia: Problemy rozkroju materiałowego, zagadnienia dualne

1.1 Analiza decyzji- tablica decyzyjna, klasyfikacja

Pokazać, że wyżej zdefiniowana struktura algebraiczna jest przestrzenią wektorową nad ciałem

Przykład 5.1. Kratownica dwukrotnie statycznie niewyznaczalna

Zestaw zadań 4: Przestrzenie wektorowe i podprzestrzenie. Liniowa niezależność. Sumy i sumy proste podprzestrzeni.

Definicje ogólne

u u u( x) u, x METODA RÓŻNIC SKOŃCZONYCH, METODA ELEMENTÓW BRZEGOWYCH i METODA ELEMENTÓW SKOŃCZONYCH

n liczba zmiennych decyzyjnych c współczynniki funkcji celu a współczynniki przy zmienych decyzyjnych w warunkach

Laboratorium ochrony danych

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

5. Pochodna funkcji. lim. x c x c. (x c) = lim. g(c + h) g(c) = lim

Badania operacyjne w logistyce i zarządzaniu produkcją

Rozwiązywanie zadań optymalizacji w środowisku programu MATLAB

Podstawy teorii falek (Wavelets)

Wstęp do metod numerycznych Faktoryzacja SVD Metody iteracyjne. P. F. Góra

ZASTOSOWANIE KLASYCZNEGO ALGORYTMU GENETYCZNEGO DO ROZWIĄZANIA ZBILANSOWANEGO ZAGADNIENIA TRANSPORTOWEGO

Natalia Nehrebecka. Wykład 2

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

1 Analiza decyzji- tablica decyzyjna, klasyfikacja problemów

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

65120/ / / /200

SYSTEMY UCZĄCE SIĘ WYKŁAD 5. LINIOWE METODY KLASYFIKACJI. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Modele wieloczynnikowe. Modele wieloczynnikowe. Modele wieloczynnikowe ogólne. α β β β ε. Analiza i Zarządzanie Portfelem cz. 4.

I. Elementy analizy matematycznej

Diagnostyka układów kombinacyjnych

Oligopol dynamiczny. Rozpatrzmy model sekwencyjnej konkurencji ilościowej jako gra jednokrotna z pełną i doskonalej informacją

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

Weryfikacja hipotez dla wielu populacji

ZAGADNIENIE TRANSPORTOWE

Twierdzenie Bezouta i liczby zespolone Javier de Lucas. Rozwi azanie 2. Z twierdzenia dzielenia wielomianów, mamy, że

SYSTEMY UCZĄCE SIĘ WYKŁAD 7. KLASYFIKATORY BAYESA. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Natalia Nehrebecka. Zajęcia 4

OPTYMALNY SYSTEM REKRUTACJI KANDYDATÓW DO SZKÓŁ. 1. Wstęp

Statystyka Inżynierska

p Z(G). (G : Z({x i })),

ALGEBRY HALLA DLA POSETÓW SKOŃCZONEGO TYPU PRINJEKTYWNEGO

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Analiza danych. Analiza danych wielowymiarowych. Regresja liniowa. Dyskryminacja liniowa. PARA ZMIENNYCH LOSOWYCH

Programowanie Równoległe i Rozproszone

Statystyka. Zmienne losowe

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Sztuczne sieci neuronowe

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Prawdopodobieństwo i statystyka r.

Wyszukiwanie. Wyszukiwanie

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Wykład z Podstaw matematyki dla studentów Inżynierii Środowiska. Wykład 8. CAŁKI NIEOZNACZONE. ( x) 2 cos2x

ZESTAW ZADAŃ Z INFORMATYKI

KRZYWA BÉZIERA TWORZENIE I WIZUALIZACJA KRZYWYCH PARAMETRYCZNYCH NA PRZYKŁADZIE KRZYWEJ BÉZIERA

-Macierz gęstości: stany czyste i mieszane (przykłady) -równanie ruchu dla macierzy gęstości -granica klasyczna rozkładów kwantowych

Prawdopodobieństwo geometryczne

MATEMATYKA POZIOM ROZSZERZONY Kryteria oceniania odpowiedzi. Arkusz A II. Strona 1 z 5

Wprowadzenie do Sieci Neuronowych Sieci rekurencyjne

Arytmetyka finansowa Wykład z dnia

Proces narodzin i śmierci

Grupowanie. Wprowadzenie. Metody hierarchiczne. Modele mieszane (mixture models) Metody najmniejszych kwadratów. Zastosowania

max Wydział Elektroniki studia I st. Elektronika III r. EZI Technika optymalizacji Dr inż. Ewa Szlachcic

Matematyka finansowa r. Komisja Egzaminacyjna dla Aktuariuszy. LXVIII Egzamin dla Aktuariuszy z 29 września 2014 r.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

Funkcje i charakterystyki zmiennych losowych

Egzamin poprawkowy z Analizy II 11 września 2013

Metody Numeryczne 2017/2018

Natalia Nehrebecka. Dariusz Szymański

aij - wygrana gracza I bij - wygrana gracza II

Pattern Classification

dy dx stąd w przybliżeniu: y

Proste modele ze złożonym zachowaniem czyli o chaosie

V. TERMODYNAMIKA KLASYCZNA

XXX OLIMPIADA FIZYCZNA ETAP III Zadanie doświadczalne

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

Metoda wyznaczania najtańszych 1-diagnozowalnych struktur opiniowania diagnostycznego

Zmodyfikowana technika programowania dynamicznego

Algorytmy. i podstawy programowania. eci. Proste algorytmy sortowania tablic. 4. Wskaźniki i dynamiczna alokacja pami

Krzysztof Borowski Zastosowanie metody wideł cenowych w analizie technicznej

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

Fizyka cząstek elementarnych

Metody gradientowe poszukiwania ekstremum. , U Ŝądana wartość napięcia,

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

Prąd elektryczny U R I =

Dobór zmiennych objaśniających

Transkrypt:

Rozdzał 2 Algorytmy szukana równowag w grach dwumacerzowych 2. Algorytm Lemke-Howsona Dzseszy wykład pośwęcony będze temu, ak szukać równowag w grach dwumacerzowych. Poneważ temu były uż w wększośc pośwęcone wczorasze ćwczena, węc w tym momence znamy uż pewen algorytm szukana równowag. Z grubsza można go opsać następuąco:. Wykreślamy ze zborów strateg te stratege, które są zdomnowane. 2. Wśród strateg, które nam zostały, rozważamy wszystke możlwe podzbory, dla tych podzborów: (a) rozwązuąc pewne układy równań, określamy, ake stratege skoncentrowane na wybranych przez nas zborach mogą być w równowadze; (b) sprawdzamy, czy rzeczywśce są równowagą. Ne trzeba być genuszem, żeby zauważyć, że tak algorytm, chocaż wygodny do oblczeń na paperze (tablcy), będze dla ger o wększych zborach strateg czystych bardzo wolny. Jeśl bowem w dane grze ne ma strateg zdomnowanych (a tak będze bardzo często), to w drugm kroku algorytmu będzemy musel rozważyć ako nośnk strateg w równowadze wszystke podzbory zboru strateg czystych, czyl dla gry z n strateg. gracza m drugego wykonać drug krok algorytmu 2 n+m razy, co oznacza, że ten algorytm będze mał wykładnczą złożoność, to ne tylko w akchś nagorszych, zdegenerowanych przypadkach, ale dla wększośc ger. Stąd powstała potrzeba znalezena akegoś nnego, bardze efektywnego algorytmu. Zanm dodzemy do samego algorytmu szukana równowag, spróbumy przedstawć problem szukana równowag w alternatywne postac, dostosowane do stosowana algorytmów geometrycznych (tego typu, co algorytm sympleks dla programowana lnowego), czyl przy pomocy pewnego układu nerównośc. Nech tradycyne A m n oznacza macerz wypłat perwszego gracza, a B m n macerz wypłat drugego. Nech µ = [µ,..., µ m ] będze strategą meszaną w równowadze., a σ = [σ,..., σ n ] 2. gracza. Dodatkowo, przez v oznaczymy wypłatę w te równowadze perwszego z graczy, a przez v 2 drugego.

Zgodne z tym, co pokazalśmy na ćwczenach, dla strateg w równowadze muszą być spełnone następuące warunk: { a σ = v dla z nośnka µ a σ v dla spoza nośnka, (To perwsze, to dokładne układ równośc z ćwczeń; nerównośc w drugm werszu zagwarantuą nam, że µ będze nalepszą odpowedzą na σ). Podobne dla drugego gracza: { b µ = v 2 dla z nośnka σ b µ v 2 dla spoza nośnka, Ponadto, poneważ v v 2 są wypłatam w równowadze (µ, σ), węc dodatkowo mus być spełnone a µ σ = v oraz b µ σ = v 2. Przymmy teraz sobe = µ v 2 oraz y = σ v. Dla takch y, warunk podane wcześne będą mplkować: { a także: a y = dla z nośnka a y dla spoza nośnka + y = v v v 2 + v 2 v v 2 = v 2 + v = { b = dla z nośnka y b dla spoza nośnka y, (2.) a y + b y. (2.2) Okazue sę, że ten układ warunków (plus założene o neuemnośc y), uż wystarczy do polczena strateg w równowadze. Dokładne, prawdzwe będze take twerdzene: [ ] 0 A Twerdzene 2. Nech z = [, y] T, q = [,..., ] T m+n oraz C = B T dodatkowo załóżmy, że C > 0. Dowolne nezerowe rozwązane z następuącego problemu: 0 znadź z take, że: z 0, (2.3) ma taką własność, że µ = o macerzach wypłat A B. q Cz 0, (2.4) z T (q Cz) = 0, (2.5) oraz σ = y y est równowagą w grze dwumacerzowe Uwaga 2. Założene, że C > 0 ne ograncza nas zbytno, bo stratege w równowadze w grze dwumacerzowe z macerzam wypłat A, B pozostaą w równowadze w grze z macerzam A + c, B + c, gdze c est pewną stałą. Żeby węc znaleźć równowagę w grze z macerzam, w których są elementy uemne, wystarczy do tych macerzy dodać pewną stałą dodatną, otrzymuąc w ten sposób grę spełnaącą założena naszego twerdzena, a ednocześne posadaącą równowag take same ak w grze wyścowe. Dowód: =: Jeśl rozpszemy warunek (2.5), dostanemy 0 = = ( a y ) + y ( + y a y 9 b ) (2.6) b y,

czyl równość (2.2). Warunek (2.4) zapsany w postac układu nerównośc będze wyglądał tak: { a y 0 (2.7) b 0, czyl są to lekko osłabone warunk (2.), które zapsałem wcześne. Dla odmany, warunek (2.3) oznacza, że µ v 2 0 oraz σ v 0, co mus być spełnone, eśl µ σ będą rozkładam prawdopodobeństwa, a macerz C (czyl w konsekwenc wypłaty obu graczy) będze neuemna. Wnosek z tego tak, że równowaga Nasha na pewno będze rozwązanem problemu sformułowanego w twerdzenu. = : Druga część dowodu mus być taka, że mamy pokazać, że ne ma rozwązań tego problemu, które ne dawałyby równowag Nasha. No to załóżmy ne wprost, że µ =, σ = y y, [, y]t est nezerowym rozwązanem naszego problemu, ale µ σ ne tworzą równowag Nasha. Jak uż wcześne napsalśmy, warunek (2.5) można zapsać ako (2.6). Borąc pod uwagę to, że wszystke 0, y 0 oraz dodatkowo spełnone są warunk (2.7), żeby suma w (2.6) była równa 0, każdy z e elementów mus być równy 0. To z kole oznacza, że { a y tylko wtedy, gdy = 0 b tylko wtedy, gdy y = 0. A zatem (2.7) możemy zapsać w mocnesze postac: { a y = eśl > 0 a y < eśl = 0, oraz { b = eśl y > 0 b < eśl y = 0, co est równoważne warunkom: a σ = =: v y dla z nośnka µ a σ < v dla spoza nośnka, { b µ = =: v 2 dla z nośnka σ b µ < v 2 dla spoza nośnka, czyl warunkom, które mus spełnać równowaga Nasha, co oznacza sprzeczność, bo zakładalśmy, że µ σ ne tworzą równowag. Teraz, co wynka z udowodnonego twerdzena? Otóż problem, który poawł sę w powyższym twerdzenu należy do pewne znane klasy problemów, dla które stneą algorytmy podobne do algorytmu sympleks, służące do ego rozwązywana. Dla dowolne macerzy kwadratowe C problem opsany nerównoścam (2.3 2.5) nazywa sę problemem komplementarnośc lnowe (LCP), formułue sę go następuąco: Nech C będze macerzą l l (kwadratową), a q wektorem l złożonym z samych edynek. Znadź z l, spełnaący: z 0, q Cz 0, z T (q Cz) = 0. Dwa perwsze warunk nazywamy ogranczenam lnowym, trzec warunkem komplementarnośc lnowe. 0

Algorytm rozwązywana takch problemów wymyśll Lemke Howson. Na początek spróbuę wytłumaczyć, aka est ogólna dea tego algorytmu. Zbór wektorów w odpowedne przestrzen l-wymarowe spełnaących zestaw lnowych ogranczeń (dwa perwsze warunk zadaące LCP), est wypukłym weloścanem. Równość w każdym z tych lnowych warunków oznacza, że w danym momence esteśmy na odpowedne ścane tego weloścanu; eśl spełnone est naraz l z nch, esteśmy ednocześne na l ścanach, czyl w werzchołku. Teraz zauważmy, że warunek (2.6) oznacza właśne tyle, że eśl znaleźlśmy rozwązane naszego problemu, to w co namne l z tych warunków est równość, węc esteśmy w werzchołku. A zatem nasz algorytm ma znaleźć eden z werzchołków naszego weloścanu. Istotne est ednak to, że ne każdy werzchołek będze rozwązanem. Rozwązanam będą tylko te werzchołk, dla których spełnony będze warunek (2.6), który mów, że rozwązane mus być częścą wspólną l ścan o l różnych ndeksach (stneą dwe ścany o każdym z ndeksów od do l edną ścaną o ndekse est ścana spełnaąca warunek z = 0, drugą spełnaąca c z = ). Stąd kolene krok algorytmu będą polegały na przechodzenu (wzdłuż krawędz) od werzchołka do werzchołka do momentu, w którym będze spełnony warunek komplementarnośc. Zacznemy przy tym od edynego znanego nam rozwązana naszego problemu (ale rozwązana, które zgodne z twerdzenem nas ne nteresue), czyl samych zer. Formalne algorytm Lemke-Howsona będzemy wykonywać przy pomocy następuące tablcy: z z 2... z l c c 2... c l r c 2 c 22... c 2l r 2.... r 3 c l c l2... c ll r 4 Elementy te tablcy będzemy oznaczać przez d. Tablca ta reprezentue układ równań q Cz = r, gdze r est zmenną równą -te współrzędne q Cz, c z. Zmenne u góry tablcy są równe zero, wartośc pozostałych są równe temu, co sto w l +. kolumne tablcy. Startuemy z punktu z = 0, który est rozwązanem LCP, ale ne generue równowag Nasha, w kolenych krokach algorytmu wykonuemy następuące operace:. Wyberamy (dowolną, np. perwszą) kolumnę macerzy 0. Zapamętuemy, która to była kolumna (czyl zmenna z akm ndeksem w ne stała). 2. Wyberamy tak wersz 0, że d 0 0 < 0 oraz d 0,l+ d 0 0 nazywamy testem namneszego lorazu). est namnesze (tę regułę 3. Wymenamy zmenną bazową (z prawe w werszu 0 ) ze zmenną nebazową (u góry w werszu 0 ), stosuąc te same reguły zmany tablcy przy wymane zmennych co w algorytme sympleks w zeszłym tygodnu (ak wtedy, d 0 0 z tyldą oznaczaą wartośc d 0 0 po wymane zmennych): d 0 0 = d 0 0 d 0 = d 0 d 0 0 0

d 0 = d 0 d 0 0 0 d = d d 0 d 0 d 0 0 poza tym. Jeśl numer zmenne opuszczaące bazę r był nny nż zmenne z perwszego punktu, zmenną z tym numerem wyberamy w następnym kroku ako tę, która wedze do bazy. Wyberamy kolumnę, w które sto zmenna o tym numerze wracamy do punktu 2. Jeśl numer zmenne opuszczaące bazę był tak sam ak numer perwsze wybrane przez nas, to algorytm sę kończy, a my możemy odczytać z tablcy rozwązane LCP. Robmy to w następuący sposób: te ze zmennych z, które pozostały u góry tablcy maą wartość 0, pozostałe maą wartośc równe tym w l +. kolumne tablcy. Sens takego łańcuszka, oraz warunku kończącego algorytm, est tak: naszym celem est znalezene takego punktu, w którym dla każdego ndeksu albo zmenna z, albo -ta współrzędna q Cz, r będze równa zero. W zwązku z tym, eśl na którymś kroku wyzerowalśmy zmenną o ndekse, z lub r, to sprawdzamy, czy druga z tych zmennych też est wyzerowana eśl tak, staramy sę wymenć tę drugą na zmenną o takm ndekse, że w dane chwl an z an r ne est wyzerowana. W ten sposób otrzymalbyśmy sytuacę, w które zarówno edna ze zmennych z, r, ak edna ze zmennych z, r est wyzerowana. Jeśl na danym kroku to nam sę ne udae, to wymenamy edną ze zmennych o ndekse (które w takm wypadku są obe u góry tablcy, czyl ch wartość est ustawona na zero) na akąś nną zmenną (dzęk czemu ednocześne na żadnym kroku algorytmu ne ma węce nż ednego ndeksu takego, że zarówno zmenna r o takm ndekse, ak zmenna z o takm ndekse, est wyzerowana). Powtarzamy to tak długo, aż u góry (wśród zmennych wyzerowanych) będze sę znadowało po edne zmenne o każdym ndekse, czyl będze spełnony warunek komplementarnośc. Przykład 2 Mamy znależć równowagę w grze dwumacerzowe z macerzam wypłat: A = [ 5 5 0 3 W takm przypadku macerz C =. Zapszmy teraz wszystko w po- stac tabelk. 2 Tego ne było na wykładze. ], B = 0 0 5 5 0 0 0 3 2 3 0 0 0 2 0 0 0 2 7 0 0 0 [ 2 2 3 2 7 z z 2 z 3 z 4 z 5 0 0 5 5 0 r 0 0 3 r 2 2 3 0 0 0 r 3 2 0 0 0 r 4 2 7 0 0 0 r 5 ]. 2

Nech k =, co oznacza, że ako zmenną wchodzącą do bazy wyberamy z. Używaąc testu namneszego lorazu wyberamy r 4 ako zmenną, którą usunemy z bazy. Po perwsze wymane zmennych dostaemy: r 4 z 2 z 3 z 4 z 5 0 0 5 5 0 r 0 0 3 r 2 4 4 5 2 0 0 0 3 4 r 3 0 0 0 z 4 3 0 0 0 3 r 2 4 5 Koleną zmenną wchodzącą do bazy będze z 4, a usuwaną r 2. Po druge zamane zmennych dostaemy: r 4 z 2 z 3 r 2 z 5 0 0 35 5 65 3 0 0 4 4 5 3 r z 4 2 0 0 0 3 4 r 3 0 0 0 z 4 3 0 0 0 3 r 2 4 5 Następne wymenamy z 2 z r 5, co dae nam nową tablcę: r 4 r 5 z 3 r 2 z 5 0 0 35 5 65 0 0 2 3 7 52 26 Dale wymenamy z 5 z r, co dae: 3 r 3 z 4 5 6 0 0 0 r 3 3 3 5 0 0 0 z 26 52 2 3 0 0 0 z 3 26 2 r 4 r 5 z 3 r 2 r 0 0 7 3 3 65 0 0 2 3 7 52 26 3 z 65 5 2 3 7 z 3 3 65 65 4 5 6 0 0 0 r 3 3 3 5 0 0 0 z 26 52 2 3 0 0 0 z 3 26 2 I to uż konec, bo zmenna k-ta (czyl o numerze równym numerow perwsze zmenne, która weszła do bazy r ) została usunęta z bazy. Stąd rozwązanem LCP est z = ( 5, 3, 0, 7, 3 ). Po normalzac otrzymuemy równowagę Nasha w wyścowe grze µ = 52 26 65 65 ( 5, 6 7 ), ν = (0,, 3 ). 0 0 Uwaga 2.2 Algorytm Lemke-Howsona ma wykładnczą złożoność oblczenową. W przypadku zastosowana tego algorytmu do rozwązywana dowolnych problemów komplementarnośc lnowe było to udowodnone uż w latach sedemdzesątych. To, że złożoność szukana równowag Nasha przy użycu tego algorytmu też est w nagorszym przypadku wykładncza udowodnl dopero Savan von Stengel cztery lata temu 3, co sugerue, że w wększośc przypadków algorytm est ednak w marę szybk. To o tyle 3 Czyl ne w 999 roku, ak m sę wydawało na wykładze. 3

dobrze, że nestety w przypadku problemu komplementarnośc lnowe ne ma znanych algorytmów, które byłyby szybsze (nawet w teor). Istneą natomast pewne algorytmy szukana równowag w pewnych klasach ger dwumacerzowych, które dzałaą w welomanowym czase. O pewnych z nch opowem za tydzeń. Uwaga 2.3 Inną wadą algorytmu Lemke-Howsona est to, że ne znadue on wszystkch równowag Nasha. Jeśl rozpoczne sę go w uż znalezone równowadze, można znaleźć nną, ale ne ma gwaranc, że tą drogą znadze sę wszystke równowag (któreś mogą zostać pomnęte). Problem w tym, że ne są znane algorytmy, które efektywne (nawet eśl za kryterum efektywnośc przyąć średn czas znalezena równowag dla gry o zadanym rozmarze) znadywałyby wszystke równowag w zadane grze. Te, które są znane, są w mneszym lub wększym stopnu zblżone do algorytmu z początku wykładu, polegaącego na przeszukwanu po kole wszystkch możlwych nośnków strateg graczy, po odrzucenu strateg slne zdomnowanych (lub w bardze wyrafnowane forme na przeszukwanu wszystkch werzchołków weloścanu określonego przez warunk (2.3) (2.4), których est mne nż możlwych par nośnków strateg w równowadze, ale mmo wszystko ch lczba rośne wykładnczo wraz ze wzrostem lczby strateg czystych graczy). 2.2 Gry macerzowe Jak wemy z ostatnego wykładu, naszybszy znany algorytm lczena równowag w grach dwumacerzowych ma wykładnczą złożoność. Stąd naturalnym pytanem est to, czy przynamne dla akchś klas ger dwumacerzowych da sę to oblczać szybce. Odpowedź est twerdząca o pewne duże klase ger, dla których da sę to zrobć, opowem w perwsze częśc dzseszego wykładu. Zacznemy od ogólne defnc takch ger, późne spróbuemy dość do tego, w ak sposób przyspeszyć lczene równowag w takch grach. Defnca 2. Grą dwuosobową o sume zerowe nazwemy dowolną grę dwuosobową (X, Y, u, u 2 ), w które u 2 u. Taką grę można opsać przy pomocy trók (X, Y, u), gdze: X zbór strateg gracza., Y zbór strateg gracza 2., u : X Y R ogranczona funkca wypłaty. Gra rozgrywana est w następuący sposób: gracze nezależne od sebe wyberaą X oraz y Y, następne gracz 2. płac graczow. kwotę u(, y). Defnca 2.2 Grą macerzową nazywamy grę dwuosobową o sume zerowe, eśl zbory strateg graczy są skończone. W takm wypadku wypłaty w te grze da sę opsać przy pomocy edne macerzy A, w które będą wypłaty gracza. (wypłaty 2. gracza będą równe A). Szczególność ger o sume zerowe ne polega na tym, że funkce wypłat spełnaą pewną elegancką matematyczne własność, ale na tym, w ak sposób można tę własność znterpretować. Manowce: nteresy graczy są dokładne przecwstawne, a stąd możemy sę spodzewać, że drug gracz będze grał przecwko nam (będze sę starał zmnmalzować naszą wypłatę, bo to będze ednocześne oznaczało zmaksymalzowane ego). Tego ne moglśmy sę spodzewać w przypadku nnych ger, gdze każdy stara sę poprawć swoą wypłatę, a ne szkodzć nnym (chyba że gracze bylby Polakam). Spróbumy zobaczyć na przykładze, ak w takm raze pownn zachowywać sę gracze w grze o sume zerowe. 4

Przykład: Rozważamy następuącą sytuacę: dwóch dowódców arm przecwnych państw A B walczy o dwa forty (masta) na terene państwa A, każdy ma przy tym do dyspozyc po dwa oddzały. Zadanem każdego z dowódców est rozmeszczene swoch oddzałów w poszczególnych fortach (przydzelene do ataku na poszczególne forty) generał arm A w ten sposób, żeby ak nawęce fortów pozostało w rękach państwa A, generał B tak, żeby przeąć ak nawęce fortów. Wedzą przy tym, że prawdopodobeństwo zdobyca fortu zależy od stosunku atakuących do bronących w następuący sposób: eśl nkt ne atakue fortu, to pozostae on w posadanu państwa A; eśl ktoś atakue fort, a nkt go ne bron, fort zostae zdobyty (z prawdopodobeństwem ); eśl atakuących est mne nż bronących, fort pozostae w posadanu państwa A (z prawdopodobeństwem ); eśl atakuących est tylu, lu bronących, to fort zostae zdobyty z prawdopodobeństwem 4 ; eśl stosunek atakuących do bronących est równy 2 :, to fort zostae zdobyty z prawdopodobeństwem 3 4. Wypłatam generała B będą wartośc oczekwane lczby zdobytych fortów (gracza A, oczywśce mnus lczba straconych). W zwązku z tym tabela ego wypłat graczy będze przedstawać sę następuąco (stratege w kolumnach to stratege generała B, w werszach generała A): 20 02 20 0.25 0.75 0.5 02 0.75 0.25 Z założena, że gracz A będze starał sę maksymalne zmneszyć wypłatę gracza B możemy wywnoskować, że raconalnym postępowanem gracza B będze wybrane take strateg, że będze dawała nawyższą wypłatę przy założenu, że przecwnk będze sę starał ą zmnmalzować, czyl take że mn y u(, y) = ma Podobne, gracz A wyberze taką strategę y, że ma u(, y ) = mn y mn y u(, y). ma u(, y). W naszym przykładze to będze oznaczać, że oba gracze wyborą strategę. Zastanówmy sę teraz, co gracze wybralby, gdyby mogl używać strateg meszanych. Zgodne ze znanym nam uż twerdzenem Nasha, dowolna gra dwumacerzowa (a gra macerzowa est e szczególnym przypadkem) ma równowagę w strategach meszanych. W te grze równowagą (edyną) będze para strateg µ = ( 2 5, 5, 2 5 ) oraz σ = ( 5, 3 5, 5 ). Okazue sę, że te stratege będą optymalne w sense, który opsałem powyże, eśl będzemy rozpatrywać stratege meszane 4. Jak sę za chwlę okaże, tak będze zawsze, eśl 4 Pownenem napsać, że sprawdzene tego faktu pozostawam czytelnkom ako proste ćwczene, bo tak sę zwykle psze, eśl przelczene czegoś est żmudne męczące, a tak, ak mogl zobserwować wszyscy obecn na wykładze, est w tym przypadku 5

gra o sume zerowe będze mała równowagę. Naraze ednak zrekaptulumy wszystko, co zroblśmy dla naszego przykładu, wprowadzaąc odpowedne defnce. Defnca 2.3 Wartość, którą gracz. może sobe zapewnć, nazywana wartoścą dolną gry, est równa v = sup nf u(, y). X y Y Wartość namnesze straty ponesone przez gracza 2., którą może sobe zapewnć, nazywana est wartoścą górną gry est równa v = nf sup y Y X u(, y). Stratege, przy pomocy których gracze zapewnaą sobe wypłaty ne gorsze od (odpowedno) wartośc dolne (gracz.) wartośc górne (gracz 2.) nazywamy strategam bezpeczeństwa graczy. Prawdzwe będze następuące twerdzene. Twerdzene 2.2 W dowolne grze o sume zerowe prawdzwe będą następuące fakty:. v v. 2. Jeśl gra ma równowagę Nasha, to v = v (tę wspólną wartość nazywamy wartoścą gry), a stratege w równowadze są strategam bezpeczeństwa. Dowód:. nf y u(, y) u(, y 0 ) dla dowolnych X y 0 obustronne nf y0 sup, dostaemy Y. Nakładaąc nf y 0 sup nf y u(, y) nf y 0 sup u(, y 0 ), tyle że wyrażene pod nfmum z lewe strony ne zależy od y 0, węc to edno nfmum można pomnąć, dostaąc: sup nf y u(, y) nf y 0 sup u(, y 0 ), czyl nerówność, którą melśmy udowodnć. 2. Nech (, y ) będze tą równowagą. Z defnc równowag Nasha mamy u(, y) u(, y ) u(, y ). Oczywśce, skoro nerównośc są prawdzwe dla dowolnych y, na lewą stronę możemy nałożyć nfmum po y, a na prawą supremum po : nf y u(, y) u(, y ) sup u(, y ). Jeśl teraz zamenmy z lewe strony na supremum po, możemy tylko powększyć wartość po lewe, dzęk czemu nerówność pozostane prawdzwa. Podobne y z prawe możemy zamenć na nfmum po y, otrzymuąc: sup nf u(, y) y u(, y ) nf y 6 sup u(, y).

Ale to oznacza, że v v. Poneważ przecwna nerówność est zawsze prawdzwa, dostaemy v = v. Skoro mamy równość pomędzy wartoścą górną dolną, to mamy także równośc we wszystkch powyższych nerównoścach, w szczególnośc: nf y u(, y) = sup nf y u(, y) oraz sup u(, y ) = nf y sup u(, y), co oznacza, że y są strategam bezpeczeństwa. W tym momence możemy powrócć do algorytmów szukana równowag w grach (dwu-) macerzowych, zauważaąc, że zamast lczyć, czy dana para (µ, σ ) est równowagą w grze macerzowe, możemy polczyć oddzelne, czy µ est strategą bezpeczeństwa dla. gracza, czy σ est strategą bezpeczeństwa dla 2. Jak sę okaże, to uprośc nam oblczena. Zacznmy od zapsana, co oznacza, że µ est strategą bezpeczeństwa: mn σ u(µ, σ) = ma µ mn u(µ, σ). σ A węc szukamy µ, maksymalzuącego mn σ u(µ, σ). Tę ostatną welkość możemy rozpsać ako mn σ µ a = mn µ a, σ gdze ostatna równość wynka z tego, że średna ważona klku welkośc (a tak możemy rozumeć sumę z lewe strony) est ne mnesza od namnesze z tych welkośc, przy czym, eśl przymemy za σ przy namnesze z welkośc edynkę, to dostanemy równość. µ maksymalzuące tę ostatną welkość, to nacze µ, maksymalzuące v przy założenu, że µ a v (w ten sposób pozbywamy sę ostatnego mnmum). Tyle że take zadane maksymalzacyne est programem lnowym 5, a każdy program lnowy esteśmy w stane rozwązać w czase welomanowym. 5 Problem programowana lnowego to nalepe znany problem optymalzacyny (w zwązku z tym, eśl ktoś z państwa w przyszłośc zapsze sę na zaęca z optymalzac, to tam będze to bardzo dokładne omówone (boda przez pół semestru)) Ogólne można go zapsać następuąco: Znaleźć maksmum m c = przy ogranczenach m a b dla =,..., n, = Macerzowo możemy zapsać to następuąco: 0 Dla zadanych C m, A m n, b n zmaksymalzować C T przy ogranczenach A T B, 0. Istnee wele algorytmów rozwązywana problemów programowana lnowego, z których nabardze znanym naczęśce stosowanym est algorytm sympleks. Algorytm sympleks ma w nagorszym raze wykładnczą złożoność, ale stneą twerdzena, mówące o tym, że przy pewnych założenach wartość oczekwana czasu dzałana sympleksu est welomanowa. Ponadto stneą nne algorytmy, ak algorytm Karmarkara, które maą złożoność welomanową zawsze, ale ne stosue sę ch, bo w wększośc przypadków mmo te welomanowe złożonośc, są wolnesze od sympleksu. 7

2.3 Równowag przyblżone skorelowane Poneważ szukane równowag Nasha okazue sę być dosyć trudnym zadanem, czasem próbue sę temu zaradzć przez powększene zboru możlwych rozwązań. Pomysłów na powększene tego zboru stnee wele, ale dwa zyskały szczególne powodzene ze względu na swoą prostotę. Perwszy z tych sposobów polega na tym, że zamast szukać strateg, spełnaących układ nerównośc defnuących równowagę Nasha, będzemy szukać takch strateg, że te nerównośc będą spełnone w pewnym przyblżenu. Dokładne, dla ustalonego ε > 0, stratege µ σ maą spełnać układ nerównośc u (µ, σ ) u (µ, σ )( ε) dla dowolne strateg µ, u 2 (µ, σ ) u 2 (µ, σ)( ε) dla dowolne strateg σ. Take stratege będzemy nazywać ε-równowagam. 6 Netrudno zauważyć, że w wększośc ger zbory równowag przyblżonych będą dużo wększe nż zbory równowag Nasha (na ogół będze ch neskończene wele, podczas gdy tych drugch w typowych grach est skończona lczba), co mogłoby sugerować, że znaleźć ε-równowagę będze dużo łatwe nż równowagę. Nestety, okazue sę, że dla ogólnych ger dwumacerzowych algorytmy o złożonośc welomanowe stneą tylko dla -równowag, czyl rozwązań bardzo mało dokładnych. Jeśl chodz o mnesze wartośc 2 ε, stneą algorytmy pozwalaące na znalezene ε-równowag w czase lepszym nż wykładnczy, ale gorszym nż welomanowy. Być może ednak uda sę skonstruować szybsze algorytmy w przyszłośc. Drug sposób pochodz od Aumanna, polega na powększenu zboru rozwązań w nny sposób. Manowce: równowaga Nasha w strategach meszanych (w grze dwumacerzowe) składa sę z dwóch rozkładów prawdopodobeństwa, ednym skuponym na zborze strateg czystych ednego gracza, drugm na drugego. Pomysł Aumanna polega na tym, żeby te dwa rozkłady prawdopodobeństwa zastąpć ednym, na produkce kartezańskm zborów strateg obu graczy, ednocześne zostawaąc warunk optymalnośc w zasadze take ak w przypadku równowag Nasha. Konkretne równowagą skorelowaną będze tak rozkład prawdopodobeństwa na parach strateg obu graczy, z którego eśl wylosuemy parę strateg (, y) każdego z graczy ponformuemy o tym, aka est ego współrzędna, to żaden z nch ne zmen strateg, którą mu zaproponowano, na nną (przy założenu, że przecwnk pozostane przy wylosowane strateg). Jeśl macerzam wypłat w nasze grze będą A B, to rozkład p na X Y będze równowagą skorelowaną wtedy tylko wtedy, gdy będze spełnał nerównośc a p b p a p dla każdych, X, b p dla każdych, Y. 6 Alernatywne ε-równowag można defnować przy pomocy warunków u (µ, σ ) u (µ, σ ) ε, u 2 (µ, σ ) u 2 (µ, σ) ε (tak sę e zwykle defnue), ednak my będzemy używać formy multplkatywne, która est zgodna z nomenklaturą stosowaną zwykle przy omawanu algorytmów aproksymacynych.

Netrudno zauważyć, że są to nerównośc lnowe, a zatem tu też (podobne ak w przypadku równowag Nasha w grach macerzowych) do znalezena rozwązana można zastosować programowane lnowe. 2.4 Szukane równowag w grach n-osobowych W przypadku ger węce nż dwóch graczy w lczenu równowag napotykamy klka różnych trudnośc. Po perwsze, eśl graczy est welu (a w ewentualnych zastosowanach teor ger do modelowana rzeczywstośc tak zwykle będze) sam ops gry stae sę trudną sprawą lczba welkośc opsuących grę rośne bowem wykładnczo wraz ze wzrostem lczby graczy. W zwązku z tym, nawet przy zastosowanu bardzo szybkego algorytmu szukana równowag, ch lczene będze neefektywne. Tego problemu w ogólnośc ne dae sę wyelmnować. Jest natomast wele typów ger, dla których ops gry może być zrobony w nny sposób nż przy pomocy welowymarowych macerzy wypłat, to tak, aby zwększane lczby graczy ne powodowało gwałtownego wzrostu złożonośc opsu gry. Dla takch ger często stneą szybke algorytmy lczena równowag (na ogół równowag przyblżonych lub skorelowanych, rzadze równowag Nasha). Drugm problemem 7, ak poawa sę przy lczenu równowag dla ger węce nż dwóch graczy, est to, że tego problemu ne dae sę uż sprowadzć do pewnego układu warunków, z których tylko eden ne est lnowy (ak w przypadku LCP). Tuta, eśl spróbuemy podeść do szukana równowag w podany sposób, dostanemy nelnowy odpowednk problemu komplementarnośc lnowe, tzn. problem znalezena z takego, że: z 0, f(z) 0, z f (z) = 0 =,..., n, gdze f est pewną nelnową funkcą o wartoścach z R n. To ne est banalny problem, akkolwek stneą algorytmy dla ger n-osobowych oparte na tym spostrzeżenu (nektóre z nch są uogólnenam algorytmu Lemke-Howsona te powstały na początku lat sedemdzesątych), tyle że akurat te algorytmy są bardzo trudne do zamplementowana. W zwązku z tym stosue sę nne podeśce manowce, ak pokazalśmy na ednym z wcześneszych wykładów, problem szukana równowag w grze est równoważny (właścwe pokazalśmy tylko wynkane w edną stronę, ale prawdzwe est w obe) pewnemu problemow szukana punktu stałego. W zwązku z tym do szukana równowag w grach n-osobowych stosue sę algorytmy szukana punktu stałego funkc cągłe na zborze zwartym. Nabardze znanym algorytmem tego rodzau est algorytm Scarfa (oczywśce o wykładncze złożonośc). 7 Tego ne było na wykładze. 9