1. Opierał się wyłącznie na strategiach czystych, a, jak wiadomo, gra może mieć jedyne równowagi w strategiach mieszanych.

Rozdział 4 Uczenie się w grach Na dzisiejszym wykładzie robimy krok w tył w stosunku do tego, o czym mówiliśmy przez ostatnie tygodnie. Dotychczas mówiliśmy o dowolnych grach wieloetapowych, dziś opowiem o grach które mają nieskończenie wiele etapów tylko formalnie, bo na każdym z tych etapów jest rozgrywana ta sama gra jednoetapowa. Celem będzie stwierdzenie, czy grać w taką grę można się nauczyć, a jeśli można, to w jakim sensie do jakiego rozwiązania doprowadzi nas używanie odpowiednich, samouczących się algorytmów. Pomysł tego rodzaju, że równowagę w grze można znaleźć przy pomocy pewnej procedury uczenia się grania w tę grę, jest prawie równie stary jak sama teoria gier. Pierwszy algorytm tego rodzaju powstał na początku lat pięćdziesiątych, czyli w czasie, kiedy dopiero tworzono podstawowe pojęcia teorii gier. Przypominają sobie być może Państwo taką prostą procedurkę z 1. listy zadań, która polegała na tym, że gracze grający w pewną grę dwumacierzową zmieniali na przemian swoje strategie w ten sposób, że dostosowywali się do strategii poprzednika, zmieniając swoją strategię na najlepszą odpowiedź na to, co zagrał ostatnio przeciwnik, i tak na przemian. Jak sobie być może Państwo przypominają, taka prosta procedurka nie musiała być zbieżna, ale jeśli była, to kończyła się w równowadze Nasha. en mechanizm, choć niekiedy skuteczny, miał dwie zasadnicze wady: 1. Opierał się wyłącznie na strategiach czystych, a, jak wiadomo, gra może mieć jedyne równowagi w strategiach mieszanych. 2. Nie wykorzystywał w żaden sposób tego, co się działo na poprzednich krokach jego działania, nie uczył się (przez co bardzo łatwo się zapętlał, nie prowadząc do żadnego rozwiązania). Na pomysł tego, jak udoskonalić tego typu algorytm tak, żeby nie miał powyższych mankamentów, wpadł Brown, a dowód zbieżności zaproponowanego przez niego algorytmu podała Robinson. Jest to algorytm dla gier macierzowych (czyli o sumie zerowej), opisanych macierzą A rozmiaru n m. Wygląda on następująco: Algorytm Browna-Robinson: Na początku algorytmu: X = [x 1,..., x n ] := 0, Y = [y 1,..., y m ] := 0. Dla każdego kolejnego kroku: Wybieramy i takie, że x i = max i n x i. (Jeśli jest ich więcej niż jedno, to wybieramy najmniejszy z takich indeksów). 32

Y := Y + A(i, ). Wybieramy j takie, że y j = min j m y j. (Jeśli jest ich więcej niż jedno, to wybieramy najmniejszy z takich indeksów). X := X + (A(, j )). Intuicyjnie sens takiej procedury jest następujący: na każdym kroku gracze wybierają najlepszą odpowiedź na strategię mieszaną przeciwnika, w której gra on poszczególne strategie z częstotliwością taką, z jaką ich używał na dotychczasowych krokach algorytmu. Jest to więc najprostsze możliwe uogólnienie procedury z 1. listy zadań na strategie mieszane. Jednak dla takiego algorytmu prawdziwe jest już twierdzenie: wierdzenie 4.1 (Robinson, 1951) Jeśli X k oznacza wartość X po k przejściach algorytmu, a Y k wartość Y, to empiryczne rozkłady, z jakimi grają w przeciągu trwania algorytmu gracze zbiegają do równowagi w grze macierzowej z macierzą wypłat pierwszego gracza A, a Xk k i Y k k zbiegają do wartości tej gry. ego twierdzenia nie będę dowodził. Nie będę tego robić z dwóch powodów. Po pierwsze, choć ten algorytm jest bardzo intuicyjnym sposobem uczenia się grania w daną grę, to dowód nie jest błyskawiczny. Z drugiej strony, ma on pewne wady, które zostały wyeliminowane do pewnego stopnia w późniejszych algorytmach, o których będę jeszcze mówił na wykładzie. Pierwszą wadą tego algorytmu jest ograniczona stosowalność jakkolwiek klasa gier, dla których przy pomocy algorytmu Browna i Robinson można dostać w granicy równowagę, jest większa od zbioru gier (jedno)macierzowych, to w ogólności już zbieżność nie ma miejsca. Bardzo prosty przykład gry dwumacierzowej, dla której nie tyle nie jest on zbieżny do równowagi, ile w ogóle nie jest zbieżny, podał Shapley. Wygląda on następująco: Przykład: Rozważmy grę dwumacierzową z macierzami wypłat A = B = 0 0 1 1 0 0 0 1 0 1 0 0 0 1 0 0 0 1 oraz. Nietrudno policzyć, że jedyną równowagą w tej grze jest µ = ( 1 3, 1 3, 1 3 ) i σ = ( 1, 1, 1 ). Niestety, jeśli zastosujemy do niej algorytm Browna-Robinson (oczywiście 3 3 3 zmodyfikowany dla gier dwumacierzowych), to będzie on przeskakiwał po kolei z pary strategii (1, 1) do (1, 3), dalej do (3, 3), (3, 2), (2, 2), (2, 1), żeby na koniec powrócić do (1, 1). W każdej z tych par strategii będzie jednak spędzał coraz więcej czasu (ilość czasu spędzonego w danej parze strategii będzie rosła wykładniczo), dzięki czemu empiryczne rozkłady strategii granych przez poszczególnych graczy nie będą tworzyć ciągu zbieżnego. Drugą wadą algorytmu jest to, że jego zbieżność do równowagi jest bardzo wolna. W związku z tym gdzieś od końca lat 90. zaczęły się rozwijać alternatywne algorytmy uczenia się w grach, oparte na wykorzystaniu pojęcia regret (żalu). Samo pojęcie nie ma żadnego związku z grami i definiuje się je dla dużo większej klasy algorytmów w następujący sposób: Niech algorytm H na każdym swoim kroku t wybiera rozkład prawdopodobieństwa na pewnym zbiorze alternatyw (akcji) X = {1, 2,..., N}, p t. 33

Po wybraniu p t algorytm dostaje informację o tym, jaka strata wiążała się z wybraniem każdej z alternatyw na tym kroku w postaci wektora l t długości N 1 (gdzie l t i jest stratą z wybrania i-tej alternatywy). Na podstawie tego wylicza stratę ze stosowania algorytmu H na t-tym kroku, l t H = N i=1 p t il t i oraz skumulowaną stratę na wszystkich krokach algorytmu do, L H = t=1 l t H. Mając policzoną tę stratę, stara się ją porównać z innymi możliwymi algorytmami, które mógł stosować, i, patrząc na to, o ile ona jest większa od najmniejszej z tych, z którymi porównuje, ewaluuje swój algorytm. Regret to właśnie różnica pomiędzy stratą poniesioną przy pomocy algorytmu H a najmniejszą ze strat, które mógł ponieść stosując alternatywne algorytmy: R = L H L min. Oczywiście trudno sobie wyobrazić porównywanie z wszystkimi możliwymi algorytmami, których zawsze jest nieskończenie wiele. W związku z tym porównuje się nie z dowolnymi algorytmami, ale z takimi, które są albo bardzo proste, albo są niewielką modyfikacją algorytmu H. W zależności od tego, z algorytmami jakiego typu porównujemy, definiujemy różne rodzaje żalu. Najprostszym jest external regret (żal zewnętrzny), w którym stratę poniesioną przez nasz algorytm porównujemy z najmniejszą ze strat poniesionych przez algorytmy polegające na graniu jednej i tej samej akcji na każdym kroku. Można to zapisać następująco: R = max i X L H L i. Drugi rodzaj żalu, który nas będzie interesował, to tzw. swap regret 2, który definiujemy następująco: [ N ] R sw = max p t i(li t lj) t. j X i=1 t=1 Interpretacja nie jest już tak naturalna, jak w przypadku żalu zewnętrznego. utaj rozważamy modyfikacje naszego algorytmu, polegające na tym, że każdą akcję zamieniamy z jakąś inną (albo nie zamieniamy jej w ogóle), ale graną z tym samym prawdopodobieństwem co akcja zamieniana w wyjściowym algorytmie 3. Mając tak zdefiniowane pojęcie regret, wróćmy do gier, na początek o sumie zerowej. Będziemy grać raz za razem w grę macierzową o macierzy wypłat A oraz zbiorach strategii graczy X 1 = {1,..., n} i X 2 = {1,..., m}. Przyjmijmy, że stratą gracza 1. na t-tym etapie tej gry, jeśli gracz 2. stosuje strategię q t będzie minus wypłatą oczekiwaną gracza 1 4, l t,1 i = m j=1 ( a ij )qj. t Podobnie stratą gracza 2. na t-tym etapie gry, jeśli = n i=1 a ij p t i. Przy tak gracz 1. stosuje strategię p t będzie jego wypłata oczekiwana 5 l t,2 j 1 Zwykle zakłada się, że l t [0, 1] N, ale oczywiście można to uogólnić na straty z dowolnego przedziału ograniczonego. 2 u już nie podejmuję się tłumaczenia nazwy na polski. Jakkolwiek bym to zrobił, i tak będzie to wyglądało śmiesznie. 3 Czyli na przykład dla algorytmu, który na etapie 1. wybiera rozkład p 1 = (0.25, 0, 0, 0.25, 0.5), a na drugim p 2 = (0.2, 0.3, 0, 0.5, 0), rozważamy tylko takie algorytmy, w których prawdopodobieństwa wybrania poszczególnych alternatyw są takie same, ale w innej kolejności, i w dodatku zamiana kolejności na obu krokach jest taka sama, np: q 1 = (0, 0, 0.25, 0.5, 0.25) i q 2 = (0.3, 0, 0.2, 0, 0.5), ewentualnie takie, w których któreś dwa prawdopodobieństwa zostały zsumowane, np: r 1 = (0.5, 0, 0, 0, 0.5) i r 2 = (0.7, 0, 0.3, 0, 0). 4 Minus bierze się stąd, że gracz 1. maksymalizuje swoją wypłatę, a tutaj chcemy, żeby minimalizował stratę. 5 u bez minusa, bo gracz 2. w grze o sumie zerowej minimalizuje. 34

zdefiniowanych funkcjach straty prawdziwe będzie następujące twierdzenie: wierdzenie 4.2 Niech v będzie wartością gry macierzowej o macierzy A i niech gracz 1. gra w tę grę przez etapów, używając procedury ON z external regret R. Wtedy średnia wypłata gracza 1. na tych etapach (niezależnie od zachowania przeciwnika) jest nie gorsza niż v R. Podobny rezultat jest przwdziwy dla drugiego gracza. Dowód: Dowód przeprowadzamy tylko dla 1. gracza. Ponieważ rozważamy tutaj external regret, to L min = min i X1 L i. Niech q będzie rozkładem prawdopodobieństwa na X 2 takim że q j = 1 t=1 q t j, czyli (jak w algorytmie Browna-Robinson) rozkładem odpowiadającym częstości, z jaką grane są poszczególne strategie na wszystkich dotychczasowych etapach gry. Jak każdy rozkład na X 2, q jest strategią mieszaną gracza 2. w grze macierzowej zdefiniowanej za pomocą macierzy A. Z definicji wartości gry 6, v jest wypłatą, którą gracz 1. może sobie zapewnić, niezależnie od strategii gracza 2. A zatem gracz 1. ma strategię (czystą) i, taką że A stąd v u 1 (δ[i], q) = a ij q j = 1 a ij qj t = 1 j X 2 j X 2 t=1 L i. L min v. Podstawiając to do wzoru na external regret, dostajemy L ON R + L min R v. Jednak L ON to z definicji sumaryczna strata z kroków algorytmu, a więc średnią wypłatą będzie L ON v R, a to właśnie mieliśmy udowodnić. W takim razie wystarczy, że znajdziemy procedurę, dla której żal po kolejnych krokach będzie wzrastał wyraźnie wolniej niż liniowo (wystarczy proporcjonalnie do ), aby mieć dobry algorytm uczenia się grania w grę macierzową. Co jest szczególnie budujące w tym twierdzeniu, to to, że nie precyzujemy, jakiego konkretnie algorytmu musi używać gracz wystarczy, żeby jego external regret był dostatecznie mały. Nie mówimy też, że przeciwnik, jak w algorytmie Browna-Robinson, musi używać takiej samej procedury tutaj gwarantujemy sobie zysk bliski wartości gry niezależnie od tego, jak zachowa się przeciwnik. Podobne twierdzenie (chociaż słabsze, i korzystające z pojęcia swap regret) jest prawdziwe dla dowolnych gier n-osobowych (już nie o sumie zerowej). Znowu straty gracza i definiujemy jako minus jego wypłaty oczekiwane przy ustalonej strategii przeciwnika. Konkretnie, w grze n-osobowej (X 1, X 2,..., K n, u 1, u 2,..., u n ), jeśli gracze na etapie t używają strategii zrandomizowanych p t = (p t,1, p t,2,..., p t,n ), to stratę gracza i na etapie t ze stosowania strategii czystej k definiujemy jako l t,i k = u i (δ[k], p t, i ). (utaj u i (q i, p i ) oznacza wypłatę gracza i, gdy on sam stosuje strategię q i, a pozostali grają zgodnie z p 7 ). Przy tak zdefiniowanych stratach będziemy mogli udowodnić następujące twierdzenie: 6 A raczej z definicji wartości dolnej. 7 ego typu oznaczenie często stosuje się w teorii gier. 35

wierdzenie 4.3 Jeśli każdy z graczy w grze n-osobowej, zdefiniowanej przy pomocy funkcji wypłat u i, i = 1,..., n używa przez kolejnych kroków procedury iteracyjnej, której swap regret jest R, to rozkład empiryczny strategii granych przez graczy przy pomocy tych procedur jest R -równowagą skorelowaną8 w powyższej grze. Dowód: 9 Pokażemy, że spełniona jest nierówność dla gracza i definiująca R-równowagę skorelowaną. W definicji swap regret mamy powiedziane, że modyfikując algorytm akcje wymieniamy między sobą. Niech F : X i X i będzie ustaloną funkcją, przy pomocy której robimy tę modyfikację. Ponieważ swap regret jest maksimum po wszystkich możliwych modyfikacjach algorytmu, to na pewno prawdziwa będzie nierówność R L ON L ON,F, gdzie ON jest algorytmem stosowanym przez gracza i, a L ON,F oznacza stratę poniesioną na krokach przez algorytm ON zmodyfikowany przy pomocy funkcji F. Jeśli teraz rozpiszemy sobie prawą stronę powyższej nierówności, dostaniemy + u i (s i, s i ) dp t,1 (s 1 ) dp t,n (s n ) X 1 X n t=1 t=1 u i (F (s i ), s i ) dp t,1 (s 1 ) dp t,n (s n ). X 1 X n Oznaczmy teraz przez Q rozkład empiryczny (na X 1 X n ) strategii granych przez graczy na pierwszych krokach. Można go oczywiście uzyskać jako średnią arytmetyczną łącznych rozkładów strategii graczy na wszystkich krokach. Zapisując ostatnie wyrażenie przy pomocy Q dostaniemy [ ] u i (s i, s i ) dq(s i, s i ) + u i (F (s i ), s i ) dq(s i, s i ). X 1 X n X 1 X n Ale to oznacza, że u i (s i, s i ) dq(s i, s i ) u i (F (s i ), s i ) dq(s i, s i ) R X 1 X n X 1 X n, co mieliśmy udowodnić. 8 ε-równowagę skorelowaną definiujemy analogicznie do ε-równowag Nasha. ε-równowagą skorelowaną nazywamy rozkład prawdopodobieństwa p ε na produkcie przestrzeni strategii czystych graczy X 1 X n, spełniający dla każdego i n warunki u i (s i, s i ) dp ε (s i, s i ) u i (f(s i ), s i ) dp ε (s i, s i ) ε X 1 X n X 1 X n dla dowolnej funkcji f : X i X i, czyli spełniający warunki definiujące równowagę skorelowaną z dokładnością do ε. Osoby, które pamiętają, jak definiowaliśmy równowagę skorelowaną dla gier dwumacierzowych, zapewne pamiętają trochę inne nierówności niż te powyżej (z dokładnością do ε). am po pierwsze występowały sumy, nie całki (ale każdą całkę po zbiorze skończonym można zapisać przy pomocy sumy). Po drugie tam nie pojawiała się żadna funkcja f. Zamiast tego pojawiał się warunek dla każdych k, k X i. yle że ta funkcja f, to właśnie przypisanie k, k. Zapis, jaki stosujemy tutaj, będzie wygodny dla zrozumienia dowodu właśnie omawianego twierdzenia. 9 Nie było go na wykładzie, bo zabrakło czasu. 36

Uwaga 4.1 Oczywiście konsekwencją powyższego twierdzenia jest to, że jeśli gracze stosują strategie, których swap regret rośnie subliniowo wraz ze wzrostem, to graniczny rozkład strategii graczy jest (już nie ε) równowagą skorelowaną. Uwaga 4.2 W przypadku tego twierdzenia (i powyższej uwagi) też nie mamy powiedzianego, jakie konkretnie procedury mieliby stosować gracze. W szczególności każdy z nich może stosować inną procedurę iteracyjną uczenia się. Jeśli tylko swap regret będzie odpowiednio ograniczony, otrzymany rozkład będzie odpowiednią ε-równowagą skorelowaną. Oczywiście oba powyższe twierdzenia, jak i uwagi do nich, mają charakter trochę teoretyczny. Żeby można było je rzeczywiście zastosować, potrzebujemy jakichś konkretnych procedur, dla których regret będzie rósł odpowiednio wolno. akich procedur powstało wiele (dziedzina rozwija się na poważnie od stosunkowo niedawna, ale stosunkowo oznacza tutaj połowę lat 90., był więc czas na stworzenie większej ich liczby). Ja na wykładzie podam tylko jedną z nich. Jej własności (to, że dla niej w odpowiedni sposób ograniczony jest external regret) oraz jej modyfikacji, pozwalającej na podobne ograniczenie swap regret, będą podane jako twierdzenia, ale bez dowodów. Polynomial Weigths Algorithm Na początku algorytmu: wi 1 := 1 oraz p 1 i := 1 dla i X. N Dla t = 1 do : wi t := wi t 1 (1 ηli t 1 ), p t i := wt i i X wt i dla i X. η jest tutaj parametrem algorytmu. Odpowiednie jego dobranie gwarantuje jego lepsze własności, dokładniej: wierdzenie 4.4 Jeśli η = min { } ln N, 1 2, to external regret dla powyższego algorytmu po krokach jego działania jest ograniczony z góry przez 2 ln N (przy założeniu, że straty na kolejnych krokach są z przedziału [0, 1]). Znajomość powyższego algorytmu pozwala nam także na stworzenie algorytmu, dla którego swap regret po krokach będzie odpowiednio mały. Będzie on wyglądał następująco: Uruchamiamy jednocześnie N kopii procedury iteracyjnej A. Na każdym kroku t: k-ta kopia A zwraca rozkład qk t = (qk,1, t..., qk,n) t na X. p t obliczamy rozwiązując układ N równań postaci p t j = N i=1 p t iqij. t Za A bierzemy algorytm o wolno rosnącym external regret. Prawdziwe jest bowiem następujące twierdzenie: wierdzenie 4.5 Jeśli external regret dla algorytmu A po krokach jest R, to swap regret dla powyższego algorytmu jest ograniczony z góry przez N R. W szczególności, jeśli jako algorytm A w powyższej procedurze wykorzystamy Polynomial Weigths Algorithm, swap regret jest równy co najwyżej 2N ln N. 37