UNIWERSYTET LSKI TEORIA GIER W UJCIU SYSTEMÓW MROWISKOWYCH WYDZIA TECHNIKI. praca licencjacka INSTYTUT INFORMATYKI. autor : promotor :

Transkrypt

1 UNIWERSYTET LSKI WYDZIA TECHNIKI INSTYTUT INFORMATYKI TEORIA GIER W UJCIU SYSTEMÓW MROWISKOWYCH praca licencjacka autor : promotor : Tomasz Rostaski dr Urszula Boryczka Sosnowiec 2003

2 Teoria gier w ujciu systemów mrowiskowych 2 Spis tre ci. Wstp Teoria gier Definicja teorii gier Definicja gry i przyjte zaoenia Reguy gry Gry w postaci rozwinitej i normalnej Gry dwuosobowe o sumie zerowej Zasada dominacji Zasada minimaksu Strategie mieszane Gry dwuosobowe o sumie niezerowej Kryterium Pareto Gry nienegocjacyjne Gry negocjacyjne Gry wieloosobowe Funkcja charakterystyczna Podzia J2dro gry Rozwi2zanie von Neumanna-Morgensterna Wektor Shapleya Nukleolus Punkt Gately ego Teoria gier a gry komputerowe Systemy mrówkowe i mrowiskowe Geneza powstania systemów mrówkowych Naturalne zachowania mrówek Jak zachowuj2 si wirtualne mrówki? Definicja systemu mrówkowego Algorytm z feromonem staym Algorytm z feromonem ;rednim Algorytm z feromonem cyklicznym System mrowiskowy Uaktualnianie ;ladu feromonowego w systemie mrowiskowym Regua lokalnego uaktualniania ;ladu feromonowego Regua globalnego uaktualniania feromonu Odrczna symulacja algorytmu mrowiskowego dla problemu TSP Zastosowanie systemów mrowiskowych w analizie gier Opis i zasady gry Hexxagon Omówienie zastosowanego w programie algorytmu Dokumentacja programu Wymagania sprztowe Instalacja programu Dokumentacja uytkownika Dokumentacja techniczna

3 Teoria gier w ujciu systemów mrowiskowych 3 5. Opis eksperymentu Badanie wpywu parametrów algorytmu na uzyskane wyniki Badanie wyników uzyskanych podczas rozgrywki pomidzy dwoma algorytmami mrowiskowymi Porównanie algorytmu mrowiskowego z algorytmem zachannym Analiza i podsumowanie otrzymanych wyników Wnioski Literatura... 74

4 Teoria gier w ujciu systemów mrowiskowych 4 WSTP. Nadrzdnym tematem pracy jest zbadanie przydatno;ci algorytmu, opartego na systemie mrowiskowym, do rozwi2zywania problemów teorii gier. Algorytm mrowiskowy zosta zastosowany do analizy gry planszowej Hexxagon, omówionej dokadnie w rozdziale 3 niniejszej pracy. Praca zostaa podzielona na dwie cz;ci: teoretyczn2 i praktyczn2. Cz;F teoretyczna obejmuje dwa pierwsze rozdziay i przedstawia zagadnienia zwi2zane z teori2 gier i systemami mrowiskowymi. Cz;F praktyczna obejmuje rozdzia dotycz2cy sposobów zastosowania algorytmu mrowiskowego do analizy gier, dokumentacj za2czonego programu oraz szczegóowy opis wykonanych eksperymentów i ich wyniki, których podsumowanie zamyka prac. Pierwszy rozdzia pracy zawiera wprowadzenie do teorii gier, obejmuj2c pojcia i metody stosowane podczas analizy gier, zarówno dwuosobowych, jak i wieloosobowych. Omawiane pojcia ilustrowane s2 przykadami gier uzupenionych ich analiz2. Rozdzia kolejny obejmuje genez powstania systemu mrówkowego, jego zasad dziaania oraz modyfikacje zakogczone powstaniem systemu mrowiskowego. Rozdzia trzeci zawiera omówienie zasad analizowanej gry, ilustrowanych przykadowymi zagraniami oraz sposób jej implementacji z wykorzystaniem systemu mrowiskowego. Na nastpny, czwarty, rozdzia skada si dokumentacja za2czonego do pracy programu, która zawiera wymagania sprztowe programu, dokadny opis instalacji programu i jego interfejsu oraz jego konfiguracj i sposób korzystania. Rozdzia pi2ty to zaoenia i cele przeprowadzonych eksperymentów, uzupenione ich szczegóowym opisem oraz uzyskanymi wynikami. Praca kogczy si omówieniem otrzymanych wyników i wyci2gniciem wniosków, wzbogaconych prognoz2 na przyszo;f.

5 Teoria gier w ujciu systemów mrowiskowych 5 1. TEORIA GIER. Codziennemu yciu czowieka towarzysz2 nieustanne sytuacje wspóoddziaywania, czyli sytuacje, w których kady z uczestników dokonuje wyboru midzy dostpnymi dziaaniami, przy czym podjte przez niego dziaanie ma wpyw na innych uczestników sytuacji i ich decyzje. KoGcowy wynik uzyskany przez kadego z uczestników zaleny jest wic od wszystkich wyborów dokonanych przez uczestników. W zaleno;ci od sytuacji, poszczególni jej uczestnicy mog2 d2yf do uzyskania tego samego rezultatu (np. dwie osoby, które nad wszystko preferuj2 wspólny sposób spdzania wolnego czasu) mówimy wówczas o zgodno;ci interesów lub do zgoa odmiennych wyników, czego przykadem mog2 byf wszelkie gry zespoowe (kada z druyn d2y do przeciwnego wyniku). Zachowanie si ludzi w sytuacjach konfliktu interesów stanowi przedmiot analizy teorii gier. Teoria ta zmierza do sformuowania matematycznej zasady racjonalnego zachowania si w tego typu sytuacjach. Badania nie obejmuj2 czynnika moralnej poprawno;ci podejmowanych przez graczy decyzji, tote rozwi2zania uwaane powszechnie za niesprawiedliwe mog2 byf (i niejednokrotnie s2) uznawane za dobre Definicja teorii gier. Teoria gier jest teori2 matematyczn2, d22c2 do znalezienia optymalnego rozwi2zania sytuacji konfliktowej. Nie bada przyczyny powstania konfliktu interesów, ani nie d2y do opisu postpowania ludzi w tej sytuacji, poniewa ludzie nierzadko zachowuj2 si w sposób irracjonalny i nieprzewidywalny, a kada teoria z zaoenia ma byf uniwersaln2. Niestety istniej2 problemy o zbyt zoonej naturze, których nie da si rozwi2zaf za pomoc2 teorii gier lub rozwi2zanie jest zbyt kosztowne Definicja gry i przyj!te za"o#enia. Teoria gier zajmuje si rozwi2zywaniem konfliktów, które nosz2 nazw gier. Zanim jednak przejdziemy do analizy konkretnych przykadów gier, musimy zdaf sobie, czym jest gra w ujciu teorii gier i czym si ona charakteryzuje. Nie kada sytuacja konfliktowa moe byf uznana za gr w pojciu tej teorii.

6 Teoria gier w ujciu systemów mrowiskowych 6 Zatem, moemy mówif o grze w przypadku konfliktu charakteryzuj2cego si [1], [2]: co najmniej dwiema stronami graczami. Gr2 w ujciu teorii gier nie jest wic totolotek, czy pasjans, poniewa losu (czy przypadku) w adnej mierze nie moemy uwaaf za gracza; kady z graczy ma co najmniej dwie drogi (strategie) do wyboru; wynik gry zaley od dokonanych wyborów strategii przez wszystkich graczy; kademu wynikowi gry przyporz2dkowana jest wypata (poprzez wypat rozumiemy wygran2 lub przegran2, któr2 otrzymuje gracz w wyniku gry); gracze znaj2 wszystkie moliwe strategie, zarówno swoje, jak i przeciwnika (ale nie musz2 wiedzief, któr2 z nich wygra przeciwnik); kady z graczy stara si zmaksymalizowaf swoj2 wygran2 (nie analizujemy przypadków filantropii w;ród graczy), w tym celu analizuje moliwe posunicia zarówno swoje jak i przeciwnika i na podstawie tych danych dokonuje wyboru strategii. Skoro ju zdefiniowali;my pojcie gry, przyst2pmy do dokonania podziau gier. Ze wzgldu na liczb graczy, gry moemy podzielif na: dwuosobowe; wieloosobowe (n-osobowe). WeNmy gr w szachy. Jest ona dwuosobowa. Co si natomiast stanie jeeli za plecami kadego z graczy stanie sztab pomocników? Gra pozostanie dalej dwuosobow2, poniewa mamy do czynienia z konfliktem interesów dwóch stron (dwóch sztabów, z których jeden kontroluje biae, a drugi czarne figury) Regu"y gry. W celu opisania (poznania) jakiej; gry, prócz dobrej woli, konieczne jest poznanie jej regu oraz celu. Nie moemy zajmowaf si analiz2 gry, je;li nie wiemy w którym momencie si ona kogczy. Kolejno ruchów. Bardzo wan2 informacj2 w opisie gry jest równie kolejno;f ruchów graczy (wykaz kolejno;ci ruchów). W grach spotykanych na co dzieg, mamy do czynienia z ustalon2 kolejno;ci2 (np. kolejno;f ruchów okre;lona zgodnie z ruchem wskazówek zegara).

7 Teoria gier w ujciu systemów mrowiskowych 7 Wykaz moliwych dziaa w kadym ruchu. Wan2 cech2, towarzysz2c2 analizie gier jest liczba dziaag dostpnych w kadym ruchu. Liczba dostpnych ruchów determinuje zoono;f gry. Przykadowo w grze w kóko i krzyyk gracz rozpoczynaj2cy ma do wyboru jedno z 9 moliwych miejsc na postawienie znaku. Liczba ta maleje o 1 w kadym kolejnym ruchu. Natomiast w przypadku gry w szachy moliwych posunif rozpoczynaj2cych jest kilkadziesi2t. Poziom poinformowania gracza. Ze wzgldu na posiadan2 przez gracza informacj o posuniciach przeciwnika (lub wielu przeciwników) gry moemy podzielif na [1]: gry z pen informacj (penym poinformowaniu gracza) kady z graczy nie tylko zna wszystkie strategie swoje i przeciwników oraz zna warto;ci wypat do których one prowadz2, ale ponadto wie jakiego wyboru strategii dokonali poprzedzaj2cy go gracze; gry z niepen informacj gracz ma niepen2 informacje o dokonanych wyborach strategii, b2dn wcale tej wiedzy nie posiada. Stany kocowe gry i wypaty. Kada gra musi byf opisana przez wykaz stanów jej zakogczenia, wraz z odpowiadaj2cymi im wypatami. Wypata jest to nagroda (lub kara) jak2 moe otrzymaf gracz w wyniku gry i jest zapisywana za pomoc2 liczb (dodatnich i ujemnych). W przypadku gier o pieni2dze wypat2 s2 konkretne zyski i straty, natomiast w przypadku gier o niematerialnych zyskach, jak np. presti, staramy si przyporz2dkowaf im odpowiednie warto;ci liczbowe (np. zyskanie prestiu 1, jego utrata -1, remis 0) Strategia. Zdefiniujmy pojcie strategii. Przez strategi uwaamy kompletny plan postpowania dla gracza. Na strategi skadaj2 si wszystkie jego posunicia, jakie powinien wybraf na kadym etapie gry.

8 Teoria gier w ujciu systemów mrowiskowych 8 Regua maksymalizacji oczekiwanej uytecznoci. W teorii gier przyjmujemy zaoenie, e gracz kieruje si chci2 zdobycia maksymalnego moliwego do zdobycia zysku. Zatem gracz wybiera t2 strategi, która daje oczekiwan2 maksymaln2 oczekiwan2 uyteczno;f (OU) [2], co moemy zapisaf za pomoc2 wzoru: OU = n i= 1 p u( i w i ) gdzie: w i oznacza i-ty uzyskany wynik, a p i prawdopodobiegstwo uzyskania tego wyniku p 1 +p p n = Gry w postaci rozwini!tej i normalnej. Przed przyst2pieniem do analizy gry wygodnie jest zapisaf j2 w jakiej; postaci dogodnej do dalszej analizy. W teorii gier mamy do wyboru jeden z dwóch sposobów zapisu gry, które zostan2 omówione poniej. Rozwini$ta posta gry. Metoda zapisu polega na wykre;leniu drzewa gry. Drzewo takie musi speniaf nastpuj2ce warunki [1], [2], [15]: zawiera jeden wierzchoek; kady wewntrzny wze przypisany jest graczowi; krawdzie wychodz2ce z wierzchoka oznaczaj2 moliwe strategie gracza; skogczona liczba li;ci (wzów kogcowych) wraz z przypisanymi im wypatami, zapisanymi w postaci: (w 1, w 2,..., w n ), gdzie w i oznacza wypat dla i-tego gracza. Rozpatrzmy gr trzyosobow2, w której kady z graczy ma do wyboru drog w lewo lub w prawo, a kady z graczy dokonuje wyboru jednokrotnie. Drzewo takiej gry moe mief postaf przedstawion2 na rys.1.

9 Teoria gier w ujciu systemów mrowiskowych 9 Rys. 1. Prosta gra 3-osobowa z pe)n+ informacj+ (Gra 2.1). Przeanalizujmy przebieg tej gry. Kady gracz bdzie si stara wybraf tak2 drog, która moe mu zapewnif najwiksz2 wygran2, b2dn najmniejsz2 przegran2, przeanalizuje wic moliwe ruchy przeciwników. I tak gracz I wybierze drog w lewo (poniewa w najgorszym wypadku otrzyma 1, w przypadku wyboru drogi w lewo musiaby si liczyf z moliwo;ci2 przegranej -2). Gracz II wybierze drog w prawo (bo moe mu daf 2 zamiast 0 lub -1). Graczowi III nie pozostao nic innego jak tylko wybranie drogi w prawo (bo przynosi strat 1 a nie -3). Przebieg gry bdzie mia postaf L, P, L z wypat2 (1, 0, -1). Wybory dokonane przez graczy zostay zaznaczone na drzewie pogrubion2 lini2. Dowolna gra zoona ze skogczonej liczby ruchów (tur) i posunif w kadym ruchu moe zostaf przedstawiona w postaci rozwinitej [2]. Je;li wenmiemy pod uwag gr w szachy i ogrom dostpnych w niej ruchów i posunif (niektóre partie mog2 trwaf nawet kilkaset tur), to zauwaymy, e przedstawienie jej w postaci drzewiastej byoby co najmniej kopotliwe i czasochonne. Rozwini$ta posta gry z niepen% informacj%. Drzewo gry z niepen2 informacj2 ma postaf analogiczn2 do tego dla gry z pen2 informacj2, z t2 tylko rónic2, e zaznaczamy na nim tzw. zbiory informacyjne. Zatem naley dopisaf dodatkowe kryteria [1]: wzy nale2ce do graczy podzielone s2 na zbiory informacyjne, gracz wie, w którym zbiorze informacyjnym si znajduje, nie wie jednak w którym wnle;

10 Teoria gier w ujciu systemów mrowiskowych 10 z kadego z wzów nale2cych do tego samego zbioru informacyjnego wychodzi ta sama liczba krawdzi, oznaczonych w ten sam sposób, co uniemoliwia rozpoznanie wierzchoka po liczbie i opisie krawdzi. Moemy zatem powiedzief, e mamy do czynienia z gr2 o penej informacji, jeeli kady z wierzchoków drzewa naley do innego zbioru informacyjnego. Drzewo dla gry z niepen2 informacj2 moe mief postaf przedstawion2 na rys.2. Rys. 2. Prosta gra 3-osobowa z niepe)n+ informacj+ (Gra 2.2). Zaómy e kady z graczy nie ma nawet adnej informacji o dostpnych strategiach pozostaych graczy. Przeanalizujmy przebieg gry. Gracz I, podobnie jak w grze z rys.1, wybiera drog w lewo (bo w najgorszym wypadku zyska 1, a nie straci 2 jak w drugim przypadku). Gracz II rozwaa, który kierunek jest dla niego generalnie korzystniejszy: L moe daf 0 lub 1 gdy gracz I wybierze L lub 0 gdy I wybierze P; natomiast P odpowiednio 0 lub 2 niezalenie od wyboru gracza I. Jest oczywiste, e gracz II wybierze kierunek w prawo. Z kolei gracz III wybieraj2c L moe otrzymaf -1, -1, 0 lub 2, natomiast wybieraj2c P: -1, -3, 2 lub 2. Gracz III moe zaryzykowaf lub zagraf asekurancko. My przyjmiemy e gracz III nie ma duszy hazardzisty, wic wybra L. Zatem przebieg gry mia postaf: L, P, L. W tym przypadku przebieg gry nie róni si w zaleno;ci od poziomu poinformowania graczy. Normalna posta gry. Bez trudu moemy zauwayf, e opis gry w postaci drzewiastej, w przypadku bardziej rozbudowanych gier, ni gra 2.1 lub gra 2.2, moe byf nieco nieczytelny, czy kopotliwy

11 Teoria gier w ujciu systemów mrowiskowych 11 (np. gdy drzewo gry zawiera kilkadziesi2t wzów). W celu wyeliminowania tej niedogodno;ci wprowadzono inny sposób opisu gry. Sposób ten wykorzystuje fakt, e kad2 gr mona opisaf za pomoc2 strategii i wypat im odpowiadaj2cych [1], [2], [3]. Podej;cie to zwalnia nas z pamitania caego drzewa ruchów i pozwala si skupif tylko na analizie wypat przy pewnych kombinacjach strategii graczy. Rozpatrzmy przypadek gry dwuosobowej, z niepen2 informacj2, której postaf rozwinita przedstawiona jest na rys.3. R 1 (2,-2) R 2 (-3,3) Q 1 R 3 (1,-1) R 1 (-3,3) Q 2 R 2 (-1,1) R 3 (0,0) Rys. 3. Gra dwuosobowa z niepe)n+ informacj+ (Gra 2.3). Gracz I w grze tej ma do wyboru dwie strategie A 1 i A 2, gdzie A 1 odpowiada wyborowi Q 1, a A 2 Q 2. Gracz II posiada zatem strategi na kade z ewentualnych posunif gracza 1 (tutaj na Q 1 i Q 2 ). Opis kadej strategii gracza II musi wic mief postaf: B i (R i, R j ), gdzie R i oznacza odpowiedn na Q 1, a R j na Q 2. Zatem gracz II posiada 9 strategii: B 1 (R 1, R 1 ), B 4 (R 2, R 1 ), B 7 (R 3, R 1 ), B 2 (R 1, R 2 ), B 5 (R 2, R 2 ), B 8 (R 3, R 2 ), B 3 (R 1, R 3 ), B 6 (R 2, R 3 ), B 9 (R 3, R 3 ). Sam zapis strategii nie pozwala na peen opis gry, dlatego wprowadza si przedstawienie tabelaryczne, w którym wiersze oznaczaj2 strategie gracza I, a kolumny strategie gracza II. Jest ona przedstawiona przez tab.1. Strategie gracza I Strategie gracza II B 1 B 2 B 3 B 4 B 5 B 6 B 7 B 8 B 9 A 1 2,-2 2,-2 2,-2-3,3-3,3-3,3 1,-1 1,-1 1,-1 A 2-3,3-1,1 0,0-3,3-1,1 0,0-3,3-1,1 0,0 Tab. 1. Tablica gry 2.3.

12 Teoria gier w ujciu systemów mrowiskowych 12 Tabel t mona jeszcze upro;cif, otrzymuj2c tzw. macierz gry tab.2. R 1 R 2 R 3 Q 1 2,-2-3,3 1,-1 Q 2-3,3-1,1 0,0 Tab. 2. Macierz dla gry2.3. Skoro wiemy, jak wygl2da macierz gry dla gier wieloosobowych, warto si zastanowif, jak wygl2da ta macierz dla gier o wikszej liczbie graczy. Macierz ta ma postaf analogiczn2 do tej dla dwóch graczy. Macierz dla gry 2.2 bdzie miaa postaf jak w tab.3. strategie gracza A R 1 (L) R 2 (P) strategie gracza B S 1 (L) S 2 (P) S 1 (L) S 2 (P) strategie gracza C Q 1 (L) 1,0,-1 2,-1,-1 1,0,-1 1,2,-3 Q 2 (P) 1,0,-1-2,0,2-1,2,-1-2,0,0 Tab. 3. Macierz gry.2.2 Skoro ju wiemy, jak wygl2da normalna postaf gry, nic nie stoi na przeszkodzie do przeksztacenia dowolnej gry z postaci rozwinitej do postaci normalnej, zgodnie z zasad2: Kada gra w postaci rozwinitej, jeeli tylko ma sko!czon liczb ruchów i posuni% moe zosta% przeksztacona w posta% normaln. Dziki moliwo;ci konwersji pomidzy oboma typami opisu gry, dla kadej z gier mamy moliwo;f dostosowania sposobu opisu do specyfiki opisywanej gry, jak i do sposobu dalszej jej analizy Gry dwuosobowe o sumie zerowej. Istnieje taka podgrupa gier, w której zysk jednego gracza wi2e si z utrat2 tej samej kwoty przez drugiego. Zatem suma zysków i strat uzyskanych w wyniku kadej ze strategii wynosi 0. Suma ta jest wic staa dla danej gry. Gr tak2 nazywamy gr2 o sumie zerowej [1], [2]. W przypadku tego typu gier konieczne jest przyjcie dwóch zaoeg: kady z graczy zna wszystkie strategie swoje i przeciwnika; gracze s2 racjonalni w wyborze strategii (stosuj2 zasad oczekiwanej uyteczno;ci). Przykadami gier o sumie zerowej s2 analizowane wcze;niej gry 2.1 i 2.2 (z t2 rónic2, e gry te s2 trzyosobowe). Rozdzia ten pozwoli znalenf odpowiedn na pytanie dlaczego gracz III wybra, jak to okre;lili;my, strategi asekuranck2.

13 Teoria gier w ujciu systemów mrowiskowych Zasada dominacji. Rozpatrzmy gr dwuosobow2 o macierzy wypat przedstawionej w tab.4. R 1 R 2 R 3 Q 1 (-1,1) (5,-5) (0,0) Q 2 (-1,1) (2,-2) (1,-1) Q 3 (0,0) (5,-5) (2,-2) Tab. 4. Macierz wyp)at gry dwuosobowej o sumie zerowej (Gra 2.4). W przypadku gier o sumie zerowej nie jest konieczne zapisywanie wypat dla obu graczy wystarczy tylko zapisaf wypaty dla pierwszego gracza, poniewa wypata dla drugiego gracza jest ta sama co do warto;ci, ale o przeciwnym znaku. Zatem macierz ta moe mief postaf jak w tab.5. R 1 R 2 R 3 Q Q Q Tab. 5. Drugi sposób zapisu macierzy gry 2.4. Prze;ledNmy jak powinni si zachowaf obaj gracze. Moemy zauwayf, e strategia Q 3 dla gracza 1 jest generalnie korzystniejsza od pozostaych (za kadym razem daje najwysz2 wypat). Strategi tak2 nazywamy strategi2 dominuj2c2. Przestudiujmy zatem strategie dostpne drugiemu z graczy. Moemy zauwayf, e strategia R 2 jest fatalna w skutkach, a jedyn2 strategi2 przynosz2c2 korzy;f jest R 1. Zatem gracz 2 równie posiada strategi dominuj2c2 pozostae. Oczywistym jest, e gra skogczy si wynikiem (0,0), taka bowiem warto;f wypaty odpowiada parze strategii Q 3 -R 1. Moemy sformuowaf nastpuj2c2 definicj: strategia S dominuje strategi T, jeeli kada z wypat, osiganych dla strategii S, jest co najmniej tak korzystna jak wypaty dla strategii T [1]. Ponadto tzw. kryterium dominacji mówi, e: strategia zdominowana nie zostanie nigdy wybrana przez racjonalnego gracza [2]. Moemy zatem zauwayf, e je)li obaj gracze posiadaj po jednej strategii dominujcej, wówczas zasada dominacji w zupeno)ci okre)la rozwizanie gry. Co si zatem dzieje, jak tylko jeden z graczy posiada strategi dominuj2c2? Gracz posiadaj2cy takow2 strategi, wybierze j2 poniewa jest graczem racjonalnym. Drugi z graczy przewidzi takie dziaanie i wybierze najlepsz2 dostpn2 strategi przeciwko strategii dominuj2cej pierwszego gracza. Naley zatem rozszerzyf zdefiniowane uprzednio stwierdzenie do nastpuj2cego: Je)li obaj gracze posiadaj po jednej strategii dominujcej lub posiada j tylko jeden z nich, wówczas zasada dominacji w zupeno)ci okre)la rozwizanie gry.

14 Teoria gier w ujciu systemów mrowiskowych 14 Kryterium dominacji pozwala zatem na byskawiczne znalezienie wyniku gry w przypadku wyst2pienia co najmniej jednej strategii dominuj2cej w;ród strategii jednego z graczy. Rzeczywisto;F jest jednak nieubagana i przypadki gier zawieraj2cych strategie dominuj2ce s2 niezmiernie rzadkie Zasada minimaksu. Zastosowanie w grze strategii, która moe przynie;f maksymalny zysk nie jest racjonalne, poniewa kady rozs2dny przeciwnik (a zakadamy, e tylko z takimi mamy do czynienia) bez trudu je przewidzi i skutecznie zablokuje, doprowadzaj2c nieroztropnego gracza, zamiast do maksymalnej wygranej, do moliwie najwikszej przegranej. Co zatem pocz2f? Naley prze;ledzif kad2 z dostpnych strategii pod k2tem warto;ci przegranych i znalenf tak2 strategi, po której zastosowaniu moliwa przegrana jest najmniejsz2 z moliwych. Gracz pierwszy wypisuje wszystkie najmniejsze warto)ci z wiersza (najwiksze przegrane), a nastpnie wybierze najwiksz z tych warto)ci (najmniejsz2 przegran2). Nazwiemy j2 maksyminem. Gracz 2 wypisuje najwiksze warto)ci z kolumn (najwiksze przegrane) i wybiera najmniejsz z nich, nazywan2 miniminem [1], [2]. Przedstawione strategie nazwiemy odpowiednio maksyminow2 i minimaksow2, a ponadto moemy o nich powiedzief, e maksymalizuj2 poziom bezpieczegstwa graczy, tote nazwiemy je równie strategiami bezpieczegstwa. Zdefiniowali;my pojcie, naley zatem sprawdzif je w praktyce. Rozwamy gr przedstawion2 w tab.6. R 1 R 2 R 3 R 4 Q Q Q Q Tab. 6. Macierz gry (Gra 2.5) Prze;ledNmy zatem strategie pierwszego gracza pod k2tem najwikszych przegranych: Q 1 Q 2 Q 3 Q Jak moemy zaobserwowaf, gracz 1 powinien wybraf strategi Q3, poniewa w adnym wypadku nie przyniesie mu ona strat. Strategia ta jest zatem strategi2 maksyminow2 i j2 wybierze gracz racjonalny.

15 Teoria gier w ujciu systemów mrowiskowych 15 Jak zatem wygl2da sprawa u gracza 2? R 1 R 2 R 3 R Gracz 2 wybierze wic strategi minimaksow2, czyli strategi R2. Gra bdzie miaa nastpuj2ce rozwi2zanie (2, -2). Dlaczego? Moemy zauwayf, e adnemu z graczy nie opaca si odst2pif od swojej strategii bezpieczegstwa, o ile nie uczyni tego przeciwnik. O dwóch takich strategiach powiemy, e s2 w równowadze, a odpowiadaj2cy im punkt macierzy wypat nazwiemy punktem siodowym [1], [2]. Moemy przytoczyf, za Straffinem [1], nastpuj2c2 definicj: wynik gry (dla gracza 1) nazywamy punktem siodowym, je)li warto)% wypaty, w tym punkcie, jest mniejsza lub równa kadej warto)ci w jego wierszu, a wiksza lub równa kadej warto)ci w jego kolumnie. Zatem w przypadku kadej gry, z par2 strategii bezpieczegstwa, rozwi2zaniem bdzie wypata w punkcie siodowym, oczywi;cie przy zaoeniu racjonalno;ci graczy. Okazuje si, e jest prostszy sposób na znalezienie punktu siodowego: naley zaznaczyf najwiksz2 warto;f dla wierszy macierzy i najmniejsz2 dla kolumn. Jeeli najmniejsza warto)% z minimów równa si najwikszej warto)ci z maksimów, wówczas gra posiada punkt siodowy, na przeciciu kolumny i wiersza odpowiadajcym tym warto)ciom [1]. Rozwamy gr opisan2 przez tab.7. R 1 R 2 R 3 Q 1 (5,-5) (10,-10) (5,-5) 5 Q 2 (-50,50) (100,-100) (0,0) -50 Q 3 (5,-5) (20,-20) (5,-5) Tab. 7. Macierz gry 2.6. Otrzymali;my a 4 punkty siodowe, co jest wynikiem prawidowym kada gra moe mief wiele punktów siodowych. Gra ta posiada dwie pary strategii w równowadze. Ponadto kade dwa punkty siodowe, tej samej gry, maj2 tak2 sam2 wypat. Zatem jeeli obaj gracze wybior dowolne strategie zawierajce punkty siodowe, to gra zako!czy si w punkcie siodowym. Niestety w praktyce spotkamy wiele gier nie posiadaj2cych punktu siodowego. Musimy sobie wówczas radzif inaczej.

16 Teoria gier w ujciu systemów mrowiskowych Strategie mieszane. W przypadku gier, w których aden z graczy nie posiada strategii dominuj2cej oraz nie da si zastosowaf zasady minimaksu (np. gdy wszystkie strategie gracza s2 minimaksowe), wówczas konieczne staje si zastosowanie tzw. strategii mieszanych. Za strategi mieszan2 uznajemy pewien zbiór strategii czystych A 1, A 2,..., A n (czyli nie mieszanych), z których kada jest wybierana z pewnym prawdopodobiegstwem p 1, p 2,..., p n (kade p i T 0, p 1 + p p n = 1), a sum A 1 p 1 + A 2 p A n p n nazwiemy warto)ci oczekiwan gry [2]. Podobnie, jak w przypadku strategii prostych, równie tutaj moemy mówif o strategiach minimaksowych i maksyminowych. Ponadto mog2 wyst2pif pary strategii w równowadze, podobnie jak to miao miejsce w przypadku gier z punktem siodowym. Rozpatrzmy gr przedstawion2 w tab.8. B 1 B 2 A 1 (-7,7) (7,-7) A 2 (7,-7) (-7,7) Tab. 8. Gra 2.7. Na pierwszy rzut oka moemy zauwayf, e gra nie ma punktu siodowego, a ponadto warto;f wypat jest tak dobrana, e nie da si zastosowaf jakiegokolwiek racjonalnego sposobu wyboru strategii. Zaómy, e gracz 1 zastosuje nastpuj2c2 strategi mieszan2: ½ A 1 + ½ A 2. Policzmy oczekiwan2 warto;f gry w tym wypadku: ½ 7 + ½ (-7) = 0. Podobnie ma si sprawa w przypadku drugiego z graczy oczekiwana warto;f strategii mieszanej ½ B 1 + ½ B 2 wyniesie 0. Aby wyznaczyf prawdopodobiegstwo stosowania strategii czystych w obrbie strategii mieszanych dla gracza 1, naley okre;lif warto;f bezwzgldn2 z rónicy pomidzy poszczególnymi wypatami, a nastpnie dokonaf zamiany tych warto;ci miejscami i podzielif przez sum tych warto;ci [1], [2]. Analogicznie postpuje drugi gracz. Musimy jednocze;nie zaznaczyf, e sposób ten mona stosowaf tylko w przypadku gier bez punktu siodowego (w takim przypadku metoda jest nieskuteczna), naley wic dokonaf odpowiedniego sprawdzenia wcze;niej. Prze;ledNmy ten proces na przykadzie tab.9. B 1 B 2 A 1 (2,-2) (-3,3) 2-(-3) = 5 3 3/8 A 2 (0,0) (3,-3) 0-3 = -3 =3 5 5/8-2-0 = -2 =2 3-(-3) = /8 2/8 Tab. 9. Obliczanie prawdopodobie?stwa stosowania strategii czystych dla przyk)adowej gry.

17 Teoria gier w ujciu systemów mrowiskowych 17 Policzyli;my ju warto;ci prawdopodobiegstwa, ale jak zastosowaf teori mieszan2 w praktyce? W przypadku prawdopodobiegstwa ½ naley wykonaf rzut symetryczn2 monet2, przypisuj2c np. awersowi strategi z indeksem 1, a rewersowi t2 z indeksem 2. W innych przypadkach naley sobie radzif w inny sposób (np. przez ci2gnicie somek lub skorzystanie z generatora liczb pseudolosowych), maj2c na uwadze fakt, e w przypadku nielosowego wyboru strategii, istnieje zawsze niebezpieczegstwo przejrzenia zamiarów przez przeciwnika, które w przypadku losowo;ci nie bdzie miao miejsca. Kryterium wartoci oczekiwanej. W przypadku odkrycia przez gracza strategii mieszanej przeciwnika (strategie czyste, prawdopodobiegstwo stosowania) i pewno;ci o jej stosowaniu, niezalenie od podejmowanych ruchów, naley zastosowaf strategi daj2c2 najwiksz2 oczekiwan2 wypat. Zasad t2 nazywamy kryterium warto;ci oczekiwanej [1] Gry dwuosobowe o sumie niezerowej. Dotychczas zajmowali;my si grami o sumie zerowej, czyli takimi w których w przypadku zysku jednego z graczy drugi automatycznie traci. W rzeczywisto;ci spotkamy jednak gry, w których, przy odpowiednim doborze strategii, obaj gracze zyskuj2. W takiej sytuacji mówimy o cz;ciowej (lub penej) zbieno;ci interesów. Gry o sumie niezerowej moemy podzielif na [2]: gry negocjacyjne (gry targu) w których gracze mog2 porozumiewaf si ze sob2 i decydowaf o ewentualnym podjciu wspódziaania; gry nienegocjacyjne gracze nie maj2 moliwo;ci porozumiewania si midzy sob2. Jeden z badaczy teorii gier, John Nash, udowodni, e kada z gier dwuosobowych o sumie niezerowej ma co najmniej jedn2 równowag dla strategii czystych lub mieszanych, st2d te pojawio si pojcie równowagi Nasha w analizie tego typu gier [1] Kryterium Pareto. Wynik gry uznajemy za nieoptymalny w sensie Pareto, je;li gra ma inny wynik, daj2cy obu graczom wypaty nie mniejsze. Je;li takiej wypaty gra nie posiada, wówczas mówimy o optymalno;ci gry w sensie Pareto.

18 Teoria gier w ujciu systemów mrowiskowych 18 Kryterium Pareto mówi natomiast, e tylko wynik optymalny w sensie Pareto moe zosta% zaakceptowany jako rozwizanie gry [1]. O grze dwuosobowej powiemy, e jest rozwi2zywalna w ;cisym sensie, je;li: ma co najmniej jedno rozwi2zanie optymalne w sensie Pareto; w przypadku wikszej liczby równowag, s2 one ekwiwalentne i wymienne Gry nienegocjacyjne. W przypadku gier nienegocjacyjnych, moemy, w pewnym uproszczeniu powiedzief, e gracze tocz2cy rozgrywk albo nie wiedz2 o swoim istnieniu albo zachowuj2 si tak jakby o nim nie wiedzieli. W przypadku gier, w których wspódziaanie lub jego próba przynosi wiksze zyski ni brak tej wspópracy, oczywistym jest, e obaj gracze wybior2 strategie kooperacji, co moe zobrazowaf przykad z tab.10. B 1 B 2 A 1 (8,8) (3,5) A 2 (5,3) (0,0) Tab. 10. Macierz wyp)at gry 2.8. W przypadku tej gry oczywisty jest fakt, e gracz 1 wybierze strategi A 1, a gracz 2 B 2, a gra zakogczy si wypat2 (8,8). Zastanówmy si natomiast, co bdzie w przypadku gry przedstawionej w tab.11, a zwanej dylematem winnia [1], [4]. B 1 B 2 A 1 (4,4) (2,6) A 2 (6,2) (1,1) Tab. 11. Macierz wyp)at dla gry 2.9. W tym przypadku problem si nieco komplikuje. Najlepszym moliwym wynikiem do osi2gnicia przez obu graczy jest wybranie strategii A 1, B 1, co spowoduje wypat (4,4). Jednocze;nie trudno nie uwierzyf, e który; z graczy nie odst2pi od tej strategii na rzecz przeciwnej, co daoby mu tylko wypat 6 zamiast 4. W rzeczywisto;ci moe si okazaf, e nie tylko jeden z graczy odst2pi od tej strategii, ale uczyni2 to obaj, wówczas gra zakogczy si wynikiem (1,1), co jest wynikiem najgorszym z moliwych. Wynik optymalny (4,4) nie jest wic wynikiem stabilnym (w równowadze), co prowadzi graczy do odstpstwa. Dochodzimy do wniosku, e rozwi2zanie, wydawaoby si rozs2dne, moe w przypadku gier nienegocjacyjnych nie zostaf osi2gnite [13].

19 Teoria gier w ujciu systemów mrowiskowych Gry negocjacyjne. W przypadku gier negocjacyjnych gracze nie tylko maj2 mono;f umawiania si co do wyboru strategii, ale umow t2 mog2 uzaleniaf od pewnych dodatkowych opat. Mamy wic do czynienia z wewntrzn2 rozgrywk2 pomidzy graczami, co powoduje, e gry negocjacyjne czsto nazywamy grami targu [2] Gry wieloosobowe. Dotychczas zajmowali;my si grami dwuosobowymi. W dalszej cz;ci rozdziau zajmiemy si grami, w których liczba graczy jest wiksza lub równa 3. Nazywamy je grami wieloosobowymi albo ogólnie n-osobowymi. Kad2 tak2 gr moemy zapisaf w postaci normalnej, b2dn rozwinitej, analogicznie jak miao to miejsce w grach dwuosobowych. Ponadto niejednokrotnie podczas ich analizy skorzystamy z wcze;niej przedstawionych zasad i pojf (min. strategie dominuj2ce, mieszane, minimaksowe). Gry wieloosobowe równie moemy podzielif na: negocjacyjne; nienegocjacyjne. Gry negocjacyjne z kolei moemy podzielif na: bez wypat ubocznych gracze tworz2 koalicje (koordynuj2 swoje dziaania) w celu osi2gnicia pewnego ukadu wypat, jednake nie mog2 ofiarowywaf sobie apówek nie przewidzianych w macierzy wypat, za przyst2pienie do koalicji; z wypatami ubocznymi dziaania maj2ce na celu ofiarowywanie dodatkowych wypat za do2czenie do koalicji (przekupstwo) s2 dozwolone [1], [2], [15]. W przypadku gdy gracze nie maj2 moliwo;ci zawi2zywania koalicji, b2dn nie maj2 adnej ku temu motywacji (adnego zwi2zanego z tym zysku), to gra moe byf jednoznacznie okre;lona (jej przebieg i wypaty). Natomiast gdy dopu;cimy moliwo;f zawi2zywania koalicji oraz wypaty uboczne, wówczas nie jeste;my w stanie jednoznacznie przewidzief przebiegu gry i uzyskanych wypat. Moemy jedynie ustalif, jakie wypaty byyby moliwe dla koalicji, w momencie ich utworzenia [1], [2].

20 Teoria gier w ujciu systemów mrowiskowych 20 Moemy zauwayf, e analiza gier wieloosobowych jest procesem trudniejszym ni to miao miejsce w przypadku gier dwuosobowych. Z tego powodu koniecznym jest wprowadzenie dodatkowych pojf i zasad. W tym miejscu naley dokonaf pewnego formalizmu zapisu gry, który nie by konieczny w przypadku gier dwuosobowych. Poprzez gr wieloosobow2 G rozumiemy trójk uporz2dkowan2: G = <N, K, v(k)>, gdzie N zbiór wszystkich graczy (których oznaczamy liczbami naturalnymi 1, 2,..., n), koalicj2 nazwiemy dowolny podzbiór K zbioru N, przy czym rozpatrujemy zarówno podzbiory zero elementowe koalicja pusta oraz koalicj pen2 (N), natomiast v(k) to funkcja charakterystyczna. Ponadto warto;f gry dla koalicji K oznacza 2czn2 wypat, jak2 sobie ona zapewni, niezalenie od dziaag pozostaych koalicji [2]. Przy tak zdefiniowanej grze, moemy mówif o jej poznaniu tylko w przypadku: poznania wszystkich koalicji, które si mog2 utworzyf; poznania warto;ci gry dla tych koalicji Funkcja charakterystyczna. Poprzez funkcj charakterystyczn2 rozumiemy tak2 funkcj v, która kadej moliwej koalicji przypisuje osi2gan2 przez ni2 warto;f gry, co oznaczamy przez v(k). Funkcja ta ma nastpuj2ce wa;ciwo;ci: a) v(6) = 0, b) v ( K L) v( K ) + ( Lv ), dla dowolnych koalicji K i L (superaddytywno)% funkcji) n c) ponadto zaoymy v( N) > v( i), co wykluczy z naszych rozwaag gry, w których i= 1 2czna wypata dla koalicji penej jest równa wypatom osi2gnitym przez niekooperuj2cych graczy (w tym przypadku kady gra na wasn2 rk, nie ma wic potrzeby analizy takiej gry i nazywamy j2 nieistotn2). Ponadto je;li dla wszystkich koalicji K N speniony jest warunek: v ( K) + v( N K) = ( Nv ) to mamy do czynienia z gr2 o sumie staej, a je;li v(n) = 0 to z gr2 o sumie zerowej. Przyjrzyjmy si funkcji charakterystycznej gry satelitów komunikacyjnych, sformuowanej w 1977 przez McDonalda [1]. W grze bior2 udzia 3 koncerny mog2ce wysyaf swoje satelity na orbit: Western Union (WU), Hughes Aircraft (HA) i General

21 Teoria gier w ujciu systemów mrowiskowych 21 Telephone (GT), a warto;ci funkcji charakterystycznej (w milionach dolarów) dla koalicji s2 nastpuj2ce: v(6) = 0, v(wu,ha) = 8, v(gt) = 1, v(ha,gt) = 8,2, v(wu) = 3, v(wu,gt) = 6,5, v(ha) = 2; v(wu,ha,gt) = 11,2. gra satelitów komunikacyjnych (gra 2.10) Ju na pierwszy rzut oka widzimy, e gra nie naley do gier o sumie staej (poniewa 8+1 Y 8,2+3 Y 6,5+2 Y11,2), widzimy równie, e funkcja charakterystyczna jest superaddytywna. Rozwi2zanie gry te nasuwa si nam na pierwszy rzut oka koalicja pena Podzia. Przez pojcie podziau (imputacji) rozumiemy n-wymiarowy wektor wypat x = (x 1,..., x n ), speniaj2cy warunki: n a) xi i= 1 = v( N ), (kryterium zbiorowej racjonalno;ci) b) v( i) x i i= 1,.., n (kryterium indywidualnej racjonalno;ci). Moemy powiedzief, e funkcja charakterystyczna okre;la wszystkie moliwe podziay, a poszukiwanie rozwi2zania polega na wyrónieniu w;ród caego zbioru imputacji, takiego zbioru podziaów, przy którym kady osi2gnity wynik z poza tego podzbioru bdzie nieracjonalny [1]. Rozpatrzmy gr polegaj2c2 na dowolnym podziale 30 zotych na 3 osoby (pierwotnie gra polegaa na podziale dolara i zostaa zdefiniowana w 1944 roku przez Johna von Neumanna i Oskara Morgensterna [6] ). Zakadamy, e do przegosowania podziau potrzebna jest zgoda co najmniej 2 graczy. Przykadowymi podziaami mog2 byf: (15,15,0), (0,15,15), (15,0,15), które s2 optymalne pod k2tem zawartych koalicji dwuosobowych, odpowiednio koalicji (1,2), (2,3) i (1,3). Funkcj charakterystyczn2 tej gry mona zapisaf w postaci: v(1,2) = 30 v(2,3) = 30 v(1,3) = 30 v(1) = 0 v(2) = 0 v(3) = 0 v(1,2,3) = 30 podzia 30 zotych (gra 2.11)

22 Teoria gier w ujciu systemów mrowiskowych 22 O dwóch grach powiemy, e s2 strategicznie równowane, jeeli wypaty pierwszej mona przeksztacif w wypaty drugiej [1] przez: dodanie do wypat pewnej staej warto;ci; pomnoenie przez sta2 warto;f. Przytoczona powyej gra jest strategicznie równowana z jej pierwowzorem (podziaem dolara), poniewa wystarczy wszystkie wypaty przemnoyf przez sta2 warto;f: 5/3 i otrzymamy podzia dolara. Moemy powiedzief, e rozwi2zanie jednej gry poci2ga za sob2 rozwi2zanie wszystkich gier jej strategicznie równowanych J%dro gry. Je;li podzia ma byf racjonalny dla kadej z koalicji K z osobna, to musi on byf niezdominowany i speniaf, dla kadej koalicji, warunek [2]: ik x v K)(, i Zbiór imputacji speniaj2cych go nazywamy jdrem (rdzeniem) gry [1]. Zatem kady z podziaów nale2cy do j2dra gry, moe w pewnych warunkach, staf si rozwi2zaniem gry. Moemy powiedzief, e j2dro gry jest to zbiór potencjalnych rozwi2zag gry, przez co uznajemy je za rozwi2zanie gry [2], [15]. J2dro moe zawieraf jeden lub wiele podziaów, moe byf te puste. Niestety okazuje si, e kada istotna gra o sumie staej ma puste j2dro, podobnie jak i wiele gier o sumie niestaej. Musimy zatem znalenf jaki; inny sposób na znalezienie rozwi2zania Rozwi%zanie von Neumanna-Morgensterna. Jeeli x = (x 1,..., x n ) oraz y = (y 1,..., y n ) s2 podziaami gry wieloosobowej G i spenione s2 warunki: a) x i > yi (podzia x jest korzystniejszy od y dla kadego gracza), ik b) x i v( K) (podzia ten jest dla koalicji K osi2galny), ik to mówimy, e przedzia x dominuje y ze wzgldu na koalicj K [2].

23 Teoria gier w ujciu systemów mrowiskowych 23 Ze wzgldu na moliwe wzajemne dominowanie si podziaów, sformuowano zasad: jeeli istnieje taki zbiór R podziaów w n-osobowej grze G, e: a) aden podzia xr nie dominuje adnego podziau yr ze wzgldu na adn2 koalicj K, b) dla kadego podziau zr, istnieje taki podzia xr, który go dominuje dla pewnej koalicji, to o takim zbiorze moemy powiedzief, e jest stabilny oraz e jest NM-rozwizaniem gry (czyli rozwi2zaniem Neumanna-Morgensterna) [2], [6]. St2d jeeli jaka; gra zawiera wiele NM-rozwi2zaG, to s2 one wszystkie równie dobre i nie wyróniamy adnego z nich (nie wnikamy, czy jakie; rozwi2zanie jest moralnie prawidowe). Rozwi2zanie nazywamy niesymetrycznym (dyskryminujcym), jeeli wyrónia jednego z graczy (na korzy;f lub niekorzy;f) i przeznacza mu okre;lon2 wypat [2]. Koalicj heretyck (lub herezj2) nazywamy podzia nie nale2cy do przyjtego rozwi2zania (niezgodny z przyjtymi zasadami), a graczy jej dokonuj2cych heretykami. Jeeli herezja przeciwko NM-rozwi2zaniu okazaa si samobójcza (reakcja pozostaych graczy doprowadzia do powstania nowej koalicji, a co najmniej jeden z heretyków straci na takim obrocie sprawy), wówczas mówimy o mocnym NM-rozwi2zaniu, natomiast jeeli istnieje chof jedna herezja, która nie jest samobójcza, wówczas o NM-rozwi2zaniu mówimy, e jest sabe [1]. Zbiór wszystkich stabilnych wektorów wypat (silnych NM-rozwi2zaG) w danej strukturze koalicyjnej nazywamy zbiorem przetargowym Aumanna-Maschlera dla teje struktury [1]. Aumann i Maschler udowodnili, e taki zbiór nigdy nie jest zbiorem pustym. Zastanówmy si ponownie nad gr (podzia 30 zotych). Przedstawione wcze;niej podziay (15,15,0), (0,15,15) i (15,0,15) nale2 do NM-rozwi2zaG. Rozpatrzmy nastpuj2c2 sytuacj gracze 1 i 2 przegosowali podzia (15,15,0), na co gracz 3 zaproponowa graczowi 1 podzia (20,0,10), na co ten si zgodzi utworzona zostaa wic koalicja heretycka. Gracz 2 zareagowa na ni2 proponuj2c graczowi 3 podzia (0,15,15), który tamten zaproponowa. Moemy zauwayf, e dla gracza 1 wej;cie w herezj okazao si samobójcze. Gra zakogczy si podziaem (0,15,15), poniewa aden z graczy, pomny na do;wiadczenie gracza 1 nie zgodzi si na koalicj heretyck2. Rozwi2zanie (15,15,0), (0,15,15), (15,0,15) jest wic rozwi2zaniem mocnym i tworzy zbiór przetargowy Aumanna-Maschlera.

24 Teoria gier w ujciu systemów mrowiskowych 24 Rozpatrzmy podzia 30 zotych na innych zasadach. Gracze 1 i 2 umawiaj2 si, e gracz 3 otrzyma 5 zotych, a reszt podziel2 midzy sob2. Zaómy, e gracze 1 i 2 ustalili nastpuj2cy podzia: (15,10,5). Wówczas gracz 3 moe graczowi 2 zaproponowaf podzia (0,15,15), na który ten si zgodzi. Natomiast gracz 1 zaproponuje graczowi 2 kolejny podzia, na który gracze 2 i 3 mog2 odpowiedzief kolejnymi koalicjami heretyckimi. Zaómy, e gra zakogczya si wypat2 (10,15,5). Moemy zauwayf, e herezja okazaa si dla jednego z heretyków korzystna, a drugi na niej nic nie straci. W praktyce bardzo mao gier nie posiada NM-rozwi2zaG, w wikszo;ci przypadków rozwi2zag tych jest a za duo (niejednokrotnie nawet nieskogczenie wiele), by móc je wszystkie przeanalizowaf Wektor Shapleya. Shapley [7] udowodni, e dla kadej gry wieloosobowej, mona wskazaf jeden ukad wypat, który jest racjonalny dla zbioru graczy, poniewa jest odzwierciedleniem ukadu si (i spenia wszystkie 3 aksjomaty przytoczone poniej). Podzia taki nazywamy wektorem Shapleya, a wypat z nim zwi2zan2 wartoci% Shapleya [1]. W celu jego znalezienia, musimy zdefiniowaf i obliczyf si Z kadego z graczy, przy czym je)li gracze odgrywaj tak sam rol, wówczas ich siy s równe (aksjomat 1). Za si gracza przyjmujemy warto;f u;rednion2 z jego wkadów wnoszonych do penej koalicji, przy wszystkich moliwych historiach jej powstania. Warto;F ta stanowi wypat dla tego gracza. Je)li v(k) = v(k - i) dla wszystkich koalicji K, wówczas o graczu i mówimy, e jest nieistotnym (jego do2czenie do koalicji nie wpywa na wzrost wypaty) a jego sia wynosi 0 (aksjomat 2). Ponadto: [ v + w] = [ ] + [ wv ], co oznacza, e wypata dla i-tego i i gracza w grze bdcej sum dwóch gier wynosi sum wypat otrzymanych w tych grach rozgrywanych niezalenie (aksjomat 3). Jeeli za B i przyjmiemy wypat dla i-tego gracza, to zachodzi: a) > v(i), i n i b) v( N ), i= 1 i = a zatem ukad (B 1,..., B n ) jest racjonalny dla koalicji, jak i dla kadego z graczy. Podzia ten moemy przyj2f za rozwi2zanie gry [1]. Teoria Shapleya przyporz2dkowuje wic kadej grze tylko jedno rozwi2zanie racjonalne. i

25 Teoria gier w ujciu systemów mrowiskowych 25 Zastanówmy si ponownie nad gr (polegaj2c2 na podziale 30 zotych na 3 graczy). Naturalny jest fakt, e sia poszczególnych graczy jest taka sama, naley zatem dokonaf podziau (10,10,10). ZwróFmy uwag, e rozwi2zanie to postrzegane przez ludzi jest jako uczciwe. Rozpatrzmy bardziej zoony problem, a mianowicie gr dan2 nastpuj2c2 funkcj2 charakterystyczn2: v(a) = v(b) = v(c) = 0, v(a,b) = 2, V(A,C) = 4, V(B,C) = 6, V(A,B,C) = 7. gra 2.12 Musimy rozpatrzyf wkad kadego z graczy w koalicj pen2 we wszystkich moliwych historiach jej powstania, co moemy zapisaf w postaci tab. 12. wkad graczy koalicja A B C ABC ACB BAC BCA CAB CBA suma Tab. 12. Wk)ady wnoszone przez graczy do koalicji pe)nej. Prze;ledNmy proces obliczania wkadu gracza A do koalicji ABC: A: v(a) - v(6) = 0, B: v(a,b) v(a) = 2 0 = 2, C: v(c,a,b) V(A,B) = 7 2 = 5. Si2 gracza jest u;redniona warto;f z wkadów wnoszonych do koalicji penej, a zatem: B(A,B,C) = 1/6 (8,14,20) = (8/6, 14/6, 20/6) = ( 1, 2, 3 ) Liczba koalicji do przeanalizowania w celu znalezienia wektora Shapleya, wynosi n! (gdzie n to liczba graczy). W przypadku 3 graczy dokonali;my analizy 6 historii powstania koalicji, w przypadku 4 graczy bd2 to 24, a w przypadku koalicji. Naturalnym wydaje si postawienie pytania: czy mona w inny, atwiejszy sposób znalej% warto)% Shapleya? Moemy skupif si tylko na jednym, i-tym graczu i jego wkadzie w pen2 koalicj [1]. Wiemy, e wnoszony przez niego wkad wynosi v(k) v(k - i) oraz, e jest on taki sam dla wszystkich uporz2dkowag, w których jest on poprzedzany przez k-1 graczy

26 Teoria gier w ujciu systemów mrowiskowych 26 (nale2cych do koalicji K) oraz, e po nim wystpuje n-k graczy nie nale2cych do tej koalicji. Liczba takich uporz2dkowag wynosi (k-1)!(n-k)!. Warto;F Shapleya dla i-tego gracza mona wyrazif wzorem: 1 i = n! ik [( k 1)!( n k)!( v( K) v( K i))] Prze;ledNmy zastosowanie wzoru dla gracza A gry 2.12 tab.13. koalicja K (k-1)!(n-k)! v(k)-v(k-i) iloczyn A 1*2=1 0-0=0 0 AB 1*1=1 2-0=2 2 AC 1*1=1 4-0=4 4 ABC 2*1=2 7-6=1 2 suma: 8 Tab. 13. Wk)ad wniesiony przez gracza A do koalicji pe)nej dla gry Otrzymamy zatem: = 8 = 8 = 1, A 3! 6 3 co jest zgodne z wcze;niejszymi wyliczeniami dla gry Z faktu przydzielenia kadej grze tylko jednego rozwi2zania, wynika nie uwzgldnienie wpywu na wynik indywidualnych cech graczy, jak np. umiejtno;f targowania si. Dodatkowo teoria Shapleya wymaga przywi2zywania tej samej wagi do wzrostu wypaty kadego z graczy (w przeciwnym razie obliczenie warto;ci ;redniego wkadu w koalicj nie miaoby sensu). Ponadto otrzymany podzia nie naley do j2dra gry (niezalenie od tego czy jest ono zbiorem pustym czy nie). Mimo tych mankamentów, warto;f Shapleya jest najwaniejsz2 i najcz;ciej stosowan2 metod2 sprawiedliwego podziau w teorii gier Nukleolus. Dla kadego podziau x i kadej koalicji K zdefiniowano pojcie przekroczenia (rónicy) [1] jako: e ( x) = v K)(. K x i ik Interpretujemy je jako rónic pomidzy warto;ci2 wypaty jak2 czonkowie koalicji K otrzymaliby po zdecydowaniu si na wspódziaanie we wasnym interesie, a wypat2 otrzyman2 w ramach podziau x. Moemy powiedzief, e rónica ta okre;la miar niezadowolenia czonków koalicji K z podziau x [1].

27 Teoria gier w ujciu systemów mrowiskowych 27 Naley wic znalenf imputacj x, która zminimalizuje najwiksz2 rónic (co mona zinterpretowaf jako uciszenie najbardziej niezadowolonej grupy graczy), czyli zabierze cz;f wypaty pozostaym koalicjom, daj2c tej najbardziej pokrzywdzonej. Proces przeprowadzamy do momentu, w którym obnienie któregokolwiek z przekroczeg spowoduje wzrost rónicy dla innych koalicji. Podzia w ten sposób otrzymany nazywamy nukleolusem gry i oznaczamy przez greck2 liter ] [1]. Nukleolus moemy stosowaf dla gier maj2cych zarówno pusty (wtedy rónica jest dodatnia), jak i niepusty rdzeg (wówczas przekroczenie jest ujemne). Rozpatrzmy gr o nastpuj2cej funkcji charakterystycznej: v(a) = v(b) = v(c) = 0 v(a,b) = 60, v(a,c) = 80, v(b,c) = 100, v(a,b,c) = 105. gra Obliczmy warto;ci przekroczeg dla dowolnego podziau, niech to bdzie (20, 35, 50): e A (x) = 0 20 = -20, e B (x) = 0 35 = -35, e C (x) = 0 50 = -50, e AB (x) = 60 (20+35) = 5, e AC (x) = 80 (20+50) = 10, e BC (x) = 100 (35+50) = 15, e ABC (x) = 105 ( ) = 0. Zauwamy, e dla koalicji jednoosobowych przekroczenie jest ujemne, a dla koalicji penej wynosi 0. Najwiksza warto;f przekroczenia wynosi 15 dla koalicji B,C. Naley zatem zmniejszyf wypat dla gracza A i przekazaf t2 kwot koalicji B, C. Zabierzmy graczowi A 5 jednostek i dajmy B (bo e AC (x)>e AB (x)), otrzymamy wic podzia (15, 35, 55). Policzmy przekroczenia dla tej imputancji: e AB (x) = 60 (20+35) = 10, e AC (x) = 80 (20+50) = 10, e BC (x) = 100 (35+50) = 10. Przy takich warto;ciach przekroczeg oczywiste jest, e zmniejszenie jednego z nich poci2gnie za sob2 zwikszenie pozostaych. Dotarli;my do najmniejszych, moliwych do uzyskania warto;ci, zatem nukleolus dla tej gry ma postaf: M = (15, 35, 55)

28 Teoria gier w ujciu systemów mrowiskowych 28 Nukleolus posiada szereg zalet, w przeciwiegstwie do wektora Shapleya jest stosunkowo atwy do obliczenia, zawsze naley do rdzenia (jeeli on istnieje) i do zbioru przetargowego Aumanna-Maschlera (jest stabilny) [1] Punkt Gately ego. Zdefiniujmy pojcie skonno)ci do zerwania penej koalicji i-tego gracza jako (w przypadku podziau x): x v( N i) j i i di ( x) =. x v( i) Zatem punktem Gately ego bdzie podzia minimalizuj2cy maksymaln2 skonno;f do zerwania koalicji penej [1]. Prze;ledNmy proces wyszukiwania punktu Gately ego dla gry 2.13, dla podziau (20, 35, 50): d d d xb + xc v( B, C) ( x) = = = = = 0,75 x v( A) , A A x A + xc v( A, C) ( x) = = = = = 0,286 x v( B) , B B x A + xb v( A, B) ( x) = = = = = 0,1 x v( C) C C Na podstawie otrzymanych wyników moemy stwierdzif, e wszyscy gracze s2 zadowoleni z podziau (20, 35, 50), a skonno;f do zerwania koalicji penej jest ujemna. Naley zatem przypuszczaf, e aden z graczy nie bdzie czyni adnych kroków w celu zerwania koalicji, a zadowoli si otrzyman2 wypat2. i 1.8. Teoria gier a gry komputerowe. Teoria gier daje bardzo wiele instrumentów su2cych analizie gier. Pozwalaj2 one zarówno na zakwalifikowanie rozpatrywanej gry do jednej z wielu kategorii oraz na znalezienie jej rozwi2zania. Przed przyst2pieniem do implementacji konkretnego przykadu gry, dobrze jest sobie u;wiadomif z jakiego typu gr2 mamy do czynienia, ilu graczy angauje oraz czy daje im równe szanse na wygran2. Najcz;ciej gry o sumie zerowej s2 postrzegane jako gry sprawiedliwe, poniewa wygrana jednego gracza poci2ga za sob2 przegran2 drugiego. Gry o sumie niezerowej mog2 okazaf si niesprawiedliwymi, bowiem mog2 preferowaf

29 Teoria gier w ujciu systemów mrowiskowych 29 którego; z graczy. Sprawiedliwo;F gry w przypadku porównywania ze sob2 dwóch konkurencyjnych algorytmów ma ogromne znaczenie. W przypadku gry niesprawiedliwej preferuj2cej jednego z graczy, analiza moe prowadzif do faszywych wniosków sprawiaj2c wraenie, e skuteczniejszym wydaje si tak naprawd sabszy z nich. Teoria ta pokazuje równie wiele sposobów na rozwi2zanie gry. Jednym z cz;ciej stosowanych algorytmów, w przypadku komputerowych gier planszowych, jest algorytm bazuj2cy na zasadzie minimaksu. Polega on na przewidzeniu (np. poprzez analiz drzewa gry) najgronniejszego z ruchu przeciwnika i skutecznym jego zablokowaniu, b2dn zawczasu zminimalizowaniu skutków nim wywoanych. Algorytm ten jest niezwykle skuteczny przy rozgrywce z racjonalnym przeciwnikiem (kieruj2cym si maksymalnym zyskiem). Z faktu niedoskonao;ci czowieka, który nierzadko przeoczy jakiego; pionka czy moliwo;f ruchu, wynika niejednokrotnie wykonanie ruchu nieoptymalnego (nieracjonalnego), co moe byf (i jest) zaskakuj2ce z punktu widzenia algorytmu minimaksowego, skutkiem czego mog2 byf jego sabsze od przewidywanych wyniki. Podsumowuj2c, teoria gier daje bardzo wiele moliwo;ci i metod su2cych analizie gier, niezalenie od ich typu czy liczby graczy. Niestety nie wszystkie proste metody analizy s2 skuteczne przy wszystkich typach gier, a dodatkowo nierzadko taka analiza jest procesem dugotrwaym i mudnym. Dlatego opracowano (i wci2 si opracowuje) kolejne metody znalezienia rozwi2zag. Niejednokrotnie wydaj2 si one duo bardziej skomplikowane, pozwalaj2 jednak na szybsze znalezienie rozwi2zag ni wielogodzinne zmagania z problemem tradycyjnymi metodami. W niniejszej pracy nie zaprezentowano wszystkich dostpnych metod, a jedynie te najistotniejsze z punktu widzenia rozpatrywanego tematu i historii teorii gier.

30 Teoria gier w ujciu systemów mrowiskowych SYSTEMY MRÓWKOWE I MROWISKOWE Geneza powstania systemów mrówkowych. Istnieje wiele problemów algorytmicznych trudno rozwi2zywalnych, czyli takich których rozwi2zanie uzyskiwane jest w czasie ponadwielomianowym (wykadniczym a N, N!, N N ). Dla takich algorytmów czas oczekiwania na wynik, nawet przy maej liczbie danych jest niezmiernie duy (np. 20! = 2, , = 1, ) co sprawia, e algorytmy takie nie s2 wykorzystywane. Niektóre z tego typu problemów s2 jednak niezmiernie istotne, jak np. problemy wyszukiwania najkrótszej drogi, problemy szeregowania i dopasowywania (np. ukadanie rozkadu zajf), czy analiza zdag w rachunku zdag. Problemy te s2 na tyle wane, e podejmuje si próby skonstruowania algorytmów, które dawayby szans znalezienia rozwi2zania, zgodnie z zasad2: jak nie mona mie% dokadnego wyniku w rozsdnym czasie, to naley zadowoli% si przyblionym wynikiem osignitym w czasie co najwyej wielomianowym. Algorytmy takie nazywamy algorytmami aproksymacyjnymi [8]. Jednym z takich algorytmów jest zaproponowany przez Marco Dorigo i Gianniego DiCaro algorytm mrówkowy, bazuj2cy na rzeczywistych zachowaniach mrówczych Naturalne zachowania mrówek. W trakcie badag prowadzonych nad mrówkami zauwaono ich skonno;f do znajdowania minimalnej drogi 2cz2cej mrowisko ze Nródem pokarmu. Odkryto, e poruszaj2ce si mrówki pozostawiaj2 za sob2 pewn2 substancj chemiczn2, nazwan2 feromonem oraz e wyczuwaj2 jego stenie wokó siebie i wykazuj2 tendencj do poruszania si drog2 oznaczon2 najwiksz2 ilo;ci2 feromonu. Mówimy, e poruszaj2 si w tunelu osmotycznym. Moemy zatem powiedzief, e mrówki wykorzystuj2 feromon do po;redniej komunikacji midzy sob2 (co nazywamy stygmergi2) [9]. Feromon, podobnie jak kada rozlana, czy rozpylona substancja po pewnym czasie znika (wyparowuje), powoduj2c konieczno;f ponownego wyszukiwania najlepszej trasy. Mrówka id2c po poywienie zostawia za sob2 ;lad feromonowy, czyni2c to równie podczas powrotu. Mrówka która posza najkrótsz2 drog2, najszybciej wróci do mrowiska, zostawi zatem najwicej feromonu na swej drodze, co spowoduje, e pozostae pójd2 jej

31 Teoria gier w ujciu systemów mrowiskowych 31 ;ladem. Zaleno;F t potwierdzaj2 badania przeprowadzone przez Deneubourga i Grassé a [9] Jak zachowuj% si$ wirtualne mrówki? Mrówki komputerowe zachowuj2 si niemale tak samo, jak ich rzeczywiste poprzedniczki. Pod2aj2c odkadaj2 ;lad feromonowy, potrafi2 rozróniaf poziom jego stenia i wykazuj2 tendencje do wybierania ;cieek o najwikszej jego ilo;ci. Istniej2 pewne rónice midzy wirtualnymi mrówkami a ich rzeczywistymi odpowiedniczkami, a mianowicie: nasze mrówki yj2 w ;wiecie dyskretnym, a nie ci2gym, posiadaj2 stan wewntrzny pamitaj2 zadania wykonane w przeszo;ci, posiadaj2 lepszy wzrok, co powoduje, e s2 w stanie okre;lif odlego;ci dziel2ce je od kadego z dostpnych miast (wzów grafu), warto;f odkadanego feromonu moe byf zalena od problemu oraz moe on byf odkadany w inny sposób ni w rzeczywisto;ci (np. po znalezieniu rozwi2zania), w zaleno;ci od problemu, mona wyposaaf mrówki w dodatkowe umiejtno;ci, takie jak np. optymalizacja lokalna. mrówki wirtualne umieraj2 po zakogczeniu zadania Definicja systemu mrówkowego. Pod pojciem systemu mrówkowego (AS Ant System) [11] rozumiemy: system wieloagentowy jego dziaanie opiera si na pracy wielu wirtualnych mrówek zwanych agentami; system rozproszony kada z mrówek-agentów umieszczana jest w innym miejscu przestrzeni rozwi2zag, jednake wszystkie d22 do tego samego celu (znalezienia optymalnego rozwi2zania); algorytm realizowany równolegle wszystkie mrówki pracuj2 nad znalezieniem rozwi2zania w tym samym czasie i wykonuj2 swoje ruchy jednocze;nie; system jest propabilistyczny (albo inaczej stochastyczny) oparty na niedeterministycznym sposobie wyboru ;cieki przez kad2 z mrówek, na podstawie obliczonej uprzednio warto;ci prawdopodobiegstwa;

32 Teoria gier w ujciu systemów mrowiskowych 32 czas w systemie jest symulowany w sposób dyskretny, co oznacza, e kada z mrówek osi2gnie kolejny punkt w tym samym czasie, niezalenie od pokonanej odlego;ci. Nie mierzymy czasu pobytu mrówek w miastach; system posiadajcy dodatnie sprzenie zwrotne kada z mrówek po przej;ciu wybran2 drog2 zostawia na niej ;lad feromonowy, co wywiera wpyw na zachowanie si kolejnych mrówek. Znalezienie optymalnego rozwi2zania problemu uzalenione jest od wspódziaania wszystkich agentów; kada mrówka moe odwiedzif kade miasto tylko jeden raz. Raz odwiedzone miasto staje si tabu (zabronione).w tym celu wyposaona jest w tablic tabu i przed dokonaniem wyboru drogi sprawdza w niej, czy miasto docelowe nie zostao wcze;niej przez ni2 odwiedzone. W;ród algorytmów mrówkowych moemy wyrónif nastpuj2ce rodzaje [10]: algorytm z feromonem staym, algorytm z feromonem ;rednim, algorytm z feromonem cyklicznym Algorytm z feromonem staym. W tym algorytmie kada mrówka podczas przej;cia z miasta i do miasta j pozostawi na krawdzi ;lad feromonowy o wielko;ci Q 1 zgodnie ze wzorem: k i, j `a przyrost feromonu. Q ( t, t + 1) = mrówka przesza do z miasta i do j - nie przesza W algorytmie tym stosuje si wzmocnienie lokalne, polegaj2ce na wzmocnieniu ;ladu feromonowego, nie uzaleniaj2c jego wielko;ci od cakowitej dugo;ci przebytej trasy. Prowadzi to do zwikszania ;ladu nawet na najduszych trasach, co nie wpywa korzystnie na osi2gane wyniki. Ponadto po kadym kroku nastpuje wyparowanie ze ;cieek cz;ci feromonu, a po kadym penym cyklu przebiegu algorytmu feromon zostaje usunity cakowicie. Powoduje to niemono;f korzystania z do;wiadczeg poprzedniczek, przez mrówki w kolejnym cyklu algorytmu.

33 Teoria gier w ujciu systemów mrowiskowych Algorytm z feromonem rednim. W algorytmie tym, po kadym kroku mrówki nakadana jest na drog warto;f feromonu zalena od jej dugo;ci, zgodnie ze wzorem: Q k i, j ( t, t + 1) = 0 Q2 = Q ( i, j) 1 1 gdzie, d ij oznacza dugo;f ;cieki midzy miastem i a j; = d ij 2 - mrówka przesza do z miasta i do j - nie przesza Zastosowanie feromonu ;redniego poprawia mankamenty algorytmu ze staym feromonem, powoduj2c rozrónienie w ilo;ci nakadanego feromonu na przebyte ;cieki krótsze i dusze. Wad2 tej metody jest to, e po kadym cyklu pracy algorytmu feromon jest zerowany, podobnie jak w przypadku feromonu staego Algorytm z feromonem cyklicznym. Cykliczny sposób nakadania feromonu zosta zaproponowany w celu poprawy wad feromonu staego i ;redniego. Mrówka nie odkada ;ladu feromonowego na ;ciek w trakcie jej przechodzenia, tylko po zakogczeniu caej iteracji. Nazywamy to globalnym wzmocnieniem. Ponadto nakadana warto;f feromonu jest odwrotnie proporcjonalna do dugo;ci przebytej, trasy, co powoduje odoenie najwikszego ;ladu feromonowego na drogi globalnie najkrótsze, a nie lokalnie, jak to miao miejsce w przypadku algorytmu z feromonem ;rednim. Odkadany po kadym cyklu feromon wyraa si wzorem: 1 k Q3 i, j ( t, t + 1) = Lk 0 - mrówka przesza do z miasta i do j - nie przesza gdzie L k oznacza dugo;f przebytej trasy W trakcie badag nad wpywem warto;ci Q 3 na dziaanie algorytmu odkryto, e warto;f ta nie ma wikszego wpywu na jego przebieg, tote w celu uproszczenia rachunków przyjmuje si Q 3 = 1. Zastosowanie feromonu cyklicznego umoliwia mrówkom korzystanie z do;wiadczenia poprzedniczek oraz promuje tylko najkrótsze trasy, czyli stanowi istotn2 popraw mankamentów algorytmów z feromonem staym i ;rednim.

34 Teoria gier w ujciu systemów mrowiskowych System mrowiskowy. System mrowiskowy (ACS Ant Colony System) powsta w drodze ewolucji algorytmów opartych na systemie mrówkowym z feromonem cyklicznym. Podstawowe rónice midzy tymi systemami to: zmiana reguy przej;f dla kadej z mrówek. Mrówka dokonuje wyboru pomidzy najkrótsz2 moliw2 drog2, co nazywamy eksploatacj2 (algorytm zachanny, determinizm), a eksploracj2 czyli wyborem drogi na zasadzie koa fortuny (kadej drodze odpowiada pewien przedzia liczbowy, o szeroko;ci proporcjonalnej do prawdopodobiegstwa wyboru jej przez mrówk, czyli stosunku ilo;ci feromonu, do dugo;ci drogi). Wyboru pomidzy eksploatacj2, a eksploracj2 dokonuje mrówka poprzez wygenerowanie liczby losowej q (a wa;ciwie pseudolosowej, bo komputer z natury jest deterministyczny) i porównanie z wcze;niej ustalon2 warto;ci2 q 0. Je;li qcq 0 to mamy do czynienia z eksploatacj2, w przeciwnym przypadku eksploracj2. regu globalnego uaktualniania feromonu stosujemy tylko dla tych ;cieek, które stanowi2 najlepsz2 osi2gnit2 tras. Mówimy, e najlepsza mrówka (lider) lub kilka mrówek (elita), w nagrod moe pooyf swój ;lad feromonowy. mrówki poszukuj2c rozwi2zania, w trakcie cyklu, stosuj2 regu lokalnego uaktualniania ;ladu feromonowego. Kada mrówka po przej;ciu ;cieki zmniejsza warto;f ;ladu feromonowego, czyni2c ;ciek mniej atrakcyjn2, zmuszaj2c pozostae mrówki do poszukiwania odmiennego rozwi2zania. Regua przej w systemie mrowiskowym. Regu przej;f w systemie, mona zapisaf za pomoc2 wzoru: S arg max { ( i, j ) ( i, j) } q q p ( i, j) q > q k = jj k ( i ) ( i, j) ( i, j) p ( i, j) [ ( i, j) ( i, j) k = jj k i) 0 k ( j J k i ] (eksploatacja) (eksploracja), j J ( i) gdzie: a oznacza warto;f feromonu d[i,j]=1/d ij odwrotno;f odlego;ci R wspóczynnik reguluj2cy, czy waniejszy ma byf ;lad feromonowy, czy odwrotno;f odlego;ci. J k (i) zbiór miast, które mrówka moe odwiedzif, czyli te, które nie znajduj2 si w tablicy tabu 0 0 ( )

35 Teoria gier w ujciu systemów mrowiskowych 35 Przedstawiona regua, nazywana pseudolosow2 regu2 proporcjonalno;ci (Random Proportional Rule) pozwala mrówce na dokonanie wyboru pomidzy najkrótsz2 moliw2 drog2 (zachowanie deterministyczne, zachanne) jako eksploatacja znalezionego wcze;niej rozwi2zania albo na poszukiwanie nowego. Wyboru dokonuje si w sposób niedeterministyczny poprzez wygenerowanie liczby pseudolosowej q z zakresu [0,1] i porównanie z zaoon2 warto;ci2 q 0. Dziaanie takie powoduje wprowadzenie dodatkowej losowo;ci, co jak si okazuje, wpywa na dalsz2 popraw uzyskiwanych wyników Uaktualnianie ladu feromonowego w systemie mrowiskowym. W systemie mrowiskowym stosuje si zarówno aktualizacj lokaln2, dokonywan2 po kadym kroku algorytmu, jak i uaktualnienie globalne dokonywane po kadym cyklu pracy algorytmu. Dziaania te maj2 na celu dalsz2 popraw wyników uzyskiwanych w wyniku pracy algorytmu Regua lokalnego uaktualniania ladu feromonowego. Regua ta polega na dokonaniu zmiany warto;ci feromonu dla przebytej ;cieki przez kad2 mrówk, co spowoduje zmniejszenie jej atrakcyjno;ci i zmusi pozostae mrówki do poszukiwania innej drogi. Regu t2 moemy zapisaf w postaci wzoru: = ( 1 ) ( t) + ( t, t + 1) ij ij gdzie 1-g symbolizuje wyparowywanie feromonu (g jest wspóczynnikiem po;wiaty feromonowej i 0cgc1). ij Regua globalnego uaktualniania feromonu. Globalne uaktualnienie warto;ci feromonu nastpuje dopiero po zakogczeniu caego cyklu i dokonywane jest w ramach nagrody przez najlepsz2 mrówk-lidera lub kilka najlepszych mrówek (elita), a wyraa si wzorem: ( 1) ( t) + ( t, nt ) ij ij ij + gdzie Q oznacza po;wiat feromonow2 i 0cQc1, 1-Q okre;la wyparowywanie feromonu, natomiast a ij (t, t+n) wyraa si wzorem: 1 ij ( t, t + n) = LK 0 a L K to najkrótsza droga uzyskana w cyklu. i, j L i, j L K K

36 Teoria gier w ujciu systemów mrowiskowych Odr!czna symulacja algorytmu mrowiskowego dla problemu TSP. Problem komiwojaera (Traveling Salesman Problem TSP) polega na znalezieniu optymalnej drogi 2cz2cej okre;lon2 liczb miast. W kadym mie;cie komiwojaer moe pojawif si tylko raz, a po pokonaniu trasy znajdzie si w mie;cie pocz2tkowym. Deterministyczny algorytm rozwi2zania problemu polega na znalezieniu wszystkich cykli grafu (wierzchokami s2 miasta, a krawdzie to drogi), a nastpnie wyodrbnienia najkrótszego z nich. Zoono;F takiego algorytmu wynosi n!, co sprawia e jest on praktycznie nieuyteczny. Podczas analizy problemu TSP korzystamy z algorytmów niedeterministycznych, podaj2cych przyblione rozwi2zanie w akceptowalnym czasie. Jednym z nich jest algorytm mrowiskowy. Prze;ledNmy jeden cykl pracy tego algorytmu dla 5 miast i 3 agentów (mrówek). Przy zaoeniu, odparowywania feromonu ze wszystkich krawdzi grafu po kadym cyklu. Algorytm sowny i-tego kroku j-tej mrówki: 1. Mrówka losuje warto;f wspóczynnika q (liczba z przedziau 0-1). 2. Porównanie z q 0. Jeeli q>q 0 eksploracja, w przeciwnym wypadku eksploatacja. 3. Oblicza warto;f p k (i,j), dla kadego dostpnego miasta, a nastpnie na tej podstawie tworzy odpowiedni przedzia prawdopodobiegstw wyboru miast. 4. Losuje liczb z wyznaczonego przedziau i odpowiadaj2ce mu miasto. 5. Kieruje si do wybranego miasta. 6. Dokonuje lokalnego uaktualnienia ;ladu feromonowego po kroku algorytmu. Przyjmiemy nastpuj2ce warto;ci parametrów: R = 7 g = 0,2 q 0 = 0,75 a 0 = 0,002 `a = a 0 = 0,002 oraz regu przej;cia opisan2 nastpuj2cym wzorem: S arg max j J ( i) k = { ( i, j) [ ( i, j) ] } s q q0, q > q 0

37 Teoria gier w ujciu systemów mrowiskowych 37 gdzie s wybierane przy pomocy wzoru: ( i, j) [ ( i, j)] p ( i, j) [ ( i, j) [ ( i, j)] k = jj k i ) 0 k ( j J i k ] j J ( i) ( ) Rozkad miast przedstawia rys.4. Rys. 4. Rozk)ad miast. Agenci zostan2 umieszczeni w losowo wybranych miastach, co przedstawia tab.14. mrówka: miasto: Tab. 14. Miasta pocz+tkowe mrówek. Pocz2tkow2 zawarto;f macierzy feromonu i odlego;ci obrazuje tab.15. macierz odleg"o ci macierz feromonowa Tab. 15. Pocz+tkowe zawartoeci macierzy odleg)oeci i feromonu. KROK 1: Mrówka 1. TABU(1) = {3} 1. Mrówka losuje warto;f wspóczynnika q (liczba z przedziau 0-1). Wylosowaa 0, Porównanie z q 0 =0,75. q>q 0 eksploracja.

38 Teoria gier w ujciu systemów mrowiskowych Oblicza warto;f p k : 7 0 (1/16) 3,1) = 7 7 [(1/16) + (1/ 6) + (1/ 4) p k ( , = = 0, , = + (1/ 8) ] pk(3,1) = 0, pk(3,2) = 0, pk(3,4) = 0,4688 pk(3,5) = 0, , ,5243 0, , Losuje liczb z przedziau [0; 0,53153]. Wylosowaa: 0,2353, co odpowiada zakresowi p k (3,4). 5. Mrówka skieruje si wic do miasta Dokona lokalnego uaktualnienia ;ladu feromonowego po tym kroku algorytmu, zgodnie ze wzorem: Zatem: Mrówka 2. ij = ( 1) ij ( t) + ij (, tt + 1) wyparowywanie = ( 1 0,2) = ij 0 + 0,2 0 = 0, , 2 TABU(2) = {1} q = 0,98 pk(1,2) = 0, pk(1,3) = 0,05488 pk(1,4) = 0,9379 pk(1,5) = 0, Wylosowano: 0,2353. Mrówka wybierze si do miasta 4. Uaktualnienie feromonu jw. 0 0 Mrówka 3. TABU = {4} q = 0,33. Mrówka wybierze najblisze miasto 5.

39 Teoria gier w ujciu systemów mrowiskowych 39 Naley jeszcze dokonaf odparowania feromonu z pozostaych krawdzi. Zatem macierz feromonu bdzie miaa postaf jak tab.16. macierz feromonowa ,8 0 0, , ,8 0 0,8 0 0, , Tab. 16. Macierz feromonu po pierwszym kroku algorytmu. KROK 2. Mrówka w mie cie TABU q pk(i,j) wylosowana liczba do miasta 1 4 3,4 0, ,4 0,8 (4,2) = 0,01937 (4,3) = 0, , (4,5) = 0, ,5 0,83 (5,1) = 0,28525 (5,2) = 0, , (5,3) = 0,48238 Tab. 17. Tabelaryczne przedstawienie drugiego kroku algorytmu. macierz feromonowa ,64 0 0,64 0 0,8 0 0, ,64 0 0,64 0 0, , Tab. 18. Macierz feromonu podrugim kroku algorytmu. KROK 3. Mrówka w mie cie TABU q pk(i,j) wylosow. liczba do miasta 1 5 3,4,5 0,82 (5,1) = 0,04282 (5,2) = 0, , ,3,4 0,92 (3,2) = 0,88224 (3,5) = 0, , ,4,5 0, Tab. 19. Tabelaryczne przedstawienie drugiego kroku algorytmu. macierz feromonowa ,51 0 0,51 0 0,64 0 0, ,77 0 0,51 0 0, ,64 0 0, , Tab. 20. Macierz feromonu po trzecim kroku algorytmu. KROK 4. Mrówka w mie cie TABU q pk(i,j) wylosow. liczba do miasta 1 2 2,3,4, ,2,3, ,3,4, Tab. 21. Tabelaryczne przedstawienie drugiego kroku algorytmu.

40 Teoria gier w ujciu systemów mrowiskowych 40 macierz feromonowa ,61 0 0,61 0 0,51 0 0, ,62 0 0,41 0 0, ,51 0 0, , Tab. 22. Macierz feromonu po trzecim kroku algorytmu. KROK 5. ZakoGczenie algorytmu powrót do punktu wyj;cia. Mrówka Trasa D)ugoEG Tab. 23. D)ugoEG tras przebytych przez mrówki Najlepsze uzyskane trasy przedstawia rys.5. Rys. 5 Najlepsze (najkrótsze) uzyskane trasy. Najgorsz2 uzyskan2 tras obrazuje rys.6. Rys. 6. Najgorsza otrzymana trasa. UAKTUALNIENIE GLOBALNE stosujemy dla najlepszej mrówki, w naszym przypadku s2 to dwie mrówki 1 i 2. ij = ( 1) ij ( t) + i, j ( t, t + n), wyparowywanie 1/ L ij ( t, t + n) = 0 k i, j L k i, j L k 12 = ( 1) ij ( t) + 1/ 42 = 0,8 0, ,24 = 0,488 0, ,24 = 0,24098 = 1) ( t) + 1/ 42 = 0,8 0,61 + 0,24 = 0,4880, ,24 0, ( ij 0 = 14 = ( 1) ij ( t) + 1/ 42 = 0,8 0, ,24 = 0,408 0, ,24 = 0,24082

41 Teoria gier w ujciu systemów mrowiskowych = ( 1) ij ( t) + 1/ 42 = 0,8 0, ,24 = 0,328 0, ,24 = 0, Uaktualnion2 macierz feromonu, po pierwszym cyklu algorytmu, przedstawia tab.24. macierz feromonowa , , , , , , , , , , Tab. 24. Macierz feromonu po zako?czeniu algorytmu. Podsumowanie. Wyniki osi2gnite przy zastosowaniu tylko trzech agentów-mrówek i jednego cyklu algorytmu s2 tylko o 16²/ 3 % gorsze od wyniku optymalnego (trasy o dugo;ci 36). Zwikszenie liczby mrówek (do liczby równej liczbie miast) i przeprowadzenie kolejnych cykli algorytmu wpynie na znaczne poprawienie uzyskanych wyników. Nawet na podstawie tak krótkiej analizy zachowania si algorytmu mrowiskowego, uzasadnione jest stwierdzenie, i jest on idealny w rozwi2zywaniu problemu komiwojaera i problemów mu podobnych.

42 Teoria gier w ujciu systemów mrowiskowych ZASTOSOWANIE SYSTEMÓW MROWISKOWYCH W ANALIZIE GIER. Przydatno;F algorytmu mrowiskowego w rozwi2zywaniu strategicznych gier planszowych zostanie sprawdzona na przykadzie gry Hexxagon. Gra Hexxagon, napisana w 1992 roku przez Argo Games dla komputerów PC, staa si szybko jedn2 z najpopularniejszych komputerowych gier planszowych. O ci2gej ogromnej popularno;ci gry ;wiadczyf moe ogromna ilo;f serwisów internetowych jej po;wiconych, umoliwiaj2cych rozgrywk przez internet, a take dua liczba prywatnych projektów, zaimplementowanych w rónych jzykach programowania i pod róne systemy operacyjne, umoliwiaj2cych rozgrywk rónej liczbie graczy Opis i zasady gry Hexxagon. Hexxagon jest gr2 planszow2, w któr2 moe graf dwóch, trzech, czy sze;ciu graczy. Plansza do gry ma ksztat sze;ciok2ta, podzielonego na 61 sze;ciok2tnych pól. Przedstawia j2 rys.7. Rys. 7 Plansza do gry Hexxagon

43 Teoria gier w ujciu systemów mrowiskowych 43 Pocz2tkowe rozmieszczenie pionków na planszy przedstawia rys.8. dla 2 graczy dla 3 graczy Rys. 8. Startowe rozmieszczenie pionów Gracze wykonuj2 swoje ruchy naprzemiennie. Kady pion moe wykonywaf dwa typy ruchów zobrazowane na rys.9.: klonowanie na s2siednie pole (oznaczone kolorem ciemnoszarym), skok przez jedno pole (na pole jasnoszare). Rys. 9. MoJliwe ruchy pionka. Postawienie pionka na polu s2siaduj2cym z pionem przeciwnika powoduje w2czenie wrogiego pionka do wasnej druyny. Gra kogczy si w momencie zajcia caej planszy. Wygrywa gracz maj2cy najwicej pionów Omówienie zastosowanego w programie algorytmu. W celu przeprowadzenia implementacji gry, musimy dokonaf ponumerowania pól planszy. Zastosowany sposób numeracji pól przedstawia rys.10.

44 Teoria gier w ujciu systemów mrowiskowych 44 Rys. 10. Numeracja pól planszy. Zastosowanie takiej, nietypowej, numeracji uatwia proces analizy poszczególnych posunif, poniewa kady z pionków moe ruszyf si tylko na pola o nastpuj2cej numeracji wzgldnej liczonej od jego aktualnej pozycji, co obrazuje rys.11. Rys. 11. Numeracja pól, na które mojna wykonag ruch. Zastosowanie algorytmu mrowiskowego w analizie gry. Plansz do gry moemy przedstawif za pomoc2 grafu, którego wierzchokami bd2 pola planszy, a krawdziami wszystkie moliwe drogi pomidzy nimi. Przydatno;F algorytmów mrowiskowych w procesach znajdowania najkrótszej drogi w grafie jest nie do zanegowania. Zatem w przypadku naszej gry równie zastosujemy ten algorytm, jednake w nieco zmienionej formie. Mrówka bdzie penia funkcj pionka. W tym celu zostanie wyposaona w dodatkowe umiejtno;ci, min. moliwo;f sklonowania siebie. Waciwoci mrówki-pionka. Z punktu widzenia analizowanego problemu, uzasadnionym jest wyposaenie mrówki w pewne dodatkowe umiejtno;ci i zwikszenie jej wiedzy. Bdzie ona pamitaf nie tylko swoj2 bie2c2 pozycj, ale równie ca2 przebyt2 do tej pory drog. Kada z mrówek bdzie odnotowywaa ponadto liczb przejtych wrogich pionków i liczb powoanych do ycia mrówek.

45 Teoria gier w ujciu systemów mrowiskowych 45 Umiejtno;ci naszych mrówek oprócz wyboru drogi, przemieszczania si i odkadania feromonu, bd2 poszerzone o moliwo;f przejmowania pionków przeciwnika i powoywania do ycia kolejnych. Regua przejcia. Mrówka dokonuj2c wyboru ruchu musi wzi2f pod uwag warto;f zysku wywoanego ruchem (ilo;ci punktów zdobytych). Nastpnie dokona obliczenia wspóczynników prawdopodobiegstwa (zalenych od zysku i warto;ci feromonu na analizowanej ;ciece) kadego moliwego ruchu, a nastpnie dokonuje wyboru na zasadzie ruletki. Regu przej;cia opisuje wzór: S = arg max { ( t ) zysk j ij p k ( i, j) ( i, j ) } q q > q q 0 0 prawdopodobiegstwo wyboru pola: gdzie: zysk(i, j) = jwolne_otoczenie p jotoczenie_dalsze k ( i, j) = ij ( t) zysk(, ji ) punkt + typ _ ruchu punkt 1, pion _ przeciwnika _ na _ polu _ j punkt = 0, przeciwnie 1, kolonowanie typ _ ruchu = 0, skok wolne_otoczenie = {x, xotoczenie " xtabu} otoczenie = ssiedztwo ssiedztwo2 ssiedztwo = {i±1, i±10, i±11} ssiedztwo2 = {i±22,.., i±20, i±12, i±9, i±2 } Tablica TABU. Tablica TABU jest tablic2 jednowymiarow2, indeksowan2 numerami pól. S2 w niej zapisane informacje o polach, które s2 zabronione. Polem zabronionym jest pole, na którym znajduje si ju jaka; mrówka lub pole wy2czone z planszy. Tablica ta jest wspólna dla obu kast mrówek.

46 Teoria gier w ujciu systemów mrowiskowych 46 Macierz feromonu. Macierze feromonowe s2 osobne dla obu mrowisk (graczy). Standardowa macierz feromonow2 jest tablic2 2-wymiarow2, indeksowan2 numerami miast (tutaj pól planszy). Fragment macierzy feromonowej dla rozpatrywanego problemu przedstawia tab X X X X X X X X X X X X X X X X X X X X X X X X X X 12 X X X X X X X X X X X X X X X X X X X X X X X X X 13 X X X X X X X X X X X X X X X X X X X X X X X X 14 X X X X X X X X X X X X X X X X X X X X X X X X 15 X X X X X X X X X X X X X X X X X X X X X X X X 21 X X X X X X X X X X X X X X X X X X X X X X X X 22 X X X X X X X X X X X X X X X X X X X X X X 23 X X X X X X X X X X X X X X X X X X X X 24 X X X X X X X X X X X X X X X X X X X X 25 X X X X X X X X X X X X X X X X X X X X X 26 X X X X X X X X X X X X X X X X X X X X X X 31 X X X X X X X X X X X X X X X X X X X X X 32 X X X X X X X X X X X X X X X X X X X X 33 X X X X X X X X X X X X X X X X X 34 X X X X X X X X X X X X X X X X X 35 X X X X X X X X X X X X X X X X X 36 X X X X X X X X X X X X X X X X X X X 37 X X X X X X X X X X X X X X X X X X X X X 41 X X X X X X X X X X X X X X X X X X X X X X 42 X X X X X X X X X X X X X X X X X X X X 43 X X X X X X X X X X X X X X X X X 44 X X X X X X X X X X X X X X X X X 45 X X X X X X X X X X X X X X X X X 46 X X X X X X X X X X X X X X X X X 47 X X X X X X X X X X X X X X X X X X X 48 X X X X X X X X X X X X X X X X X X X X X Tab. 25. Macierz feromonu jako tablica n*n wymiarowa. Pola zaznaczone symbolem X s2 polami nie wykorzystywanymi. Zatem w powyszym fragmencie jedynie 149 z 729 komórek bdzie uywanych, co oznacza prawie 5-krotnie wiksz2 zajto;f pamici w stosunku do zakadanej. Z tego powodu koniecznym byo zastosowanie innego sposobu jej pamitania. Wykorzystano tablic list jednokierunkowych, indeksowan2 numerami pól. Listy zawieraj2 numery pól s2siednich i warto;f feromonu na nich odoonego. Lokalna aktualizacja feromonu. Ze wzgldu na wykonywanie ruchów na zmian przez przedstawicielki przeciwnych graczy, aktualizacja lokalna bdzie dokonywana przez kad2 mrówk po wykonaniu przez ni2 ruchu. W programie zosta zaimplementowany tzw. feromon ;redni. Zatem lokalne uaktualnienie ;ladu wyraa si wzorem: gdzie: ( t, t + 1) = (1 ) ( t) + ij ij ij 61 liczba pól planszy = 0 przyrost _ punktów 61

47 Teoria gier w ujciu systemów mrowiskowych 47 Aktualizacja globalna. Po kadej wygranej rozgrywce globalna aktualizacja feromonu dokonywana bdzie przez wszystkie mrówki na caej przebytej drodze. W ten sposób wyróniona zostanie caa sekwencja ruchów od pozycji startowej a do ostatniego ruchu. W celu wikszego zmobilizowania mrówek aktualizacja bdzie równie wykonywana w przypadku zwikszenia uzyskanej liczby punktów w kolejnej partii. Globalne wzmocnienie okre;la wzór: gdzie: M K ( i, j) = 61 0 ( t, t + n) = (1 ) t)( + ij i, j L K i, j L K ij ij K L k droga zapamitana przez najlepsz2 mrówk M ilo;f zdobytych pionów przeciwnika 61 liczba pól planszy

48 Teoria gier w ujciu systemów mrowiskowych DOKUMENTACJA PROGRAMU 4.1. Wymagania sprz!towe. Program HexxAntGon jest programem napisanym dla systemów Windows, pocz2wszy od wersji 95. Minimalne wymagania sprztowe: system operacyjny Windows 95/98/Me/2000/XP, 7 MB wolnej pamici RAM, 2 MB wolnego miejsca na HDD, procesor 486DX lub lepszy, karta graficzna SVGA i rozdzielczo;f obrazu 800x600 lub wysza. Program by testowany przy nastpuj2cych konfiguracjach sprztowych: Intel 486DX2 50MHz, 20MB RAM, 3dfx VoodooRush, Windows 95 OSR2, Intel Celeron 466MHz, 128MB RAM, Riva TNT2, Windows 2000, AMD Duron 850MHz, 256MB RAM, G-Force2 MX400, Windows Uwaga! Program zosta wyposaony w plik pomocy w formacie CHM. Format ten jest standardem pomocy w systemie Windows poczwszy od wersji 98. W przypadku uywania systemu Windows 95 wymagane jest doinstalowanie tego skadnika (HTML Help 1.31 Update), który jest dostpny bezpatnie na stronie Microsoftu Instalacja programu. Program zostaje dostarczony wraz z programem instalacyjnym stworzonym za pomoc2 programu InstallShield Express For Delphi 5, dostpnego na pycie instalacyjnej pakietu Borland Delphi. Instalator przeprowadza instalacj programu w interakcji z uytkownikiem prosz2c min. o podanie katalogu docelowego. Po skopiowaniu plików do wskazanego katalogu instalator, za zgod2 uytkownika, tworzy grup programu w menu Start i skrót na pulpicie. Program jest dostarczony tylko i wy2cznie w wersji instalacyjnej, tote nie jest moliwe uruchomienie lub zainstalowanie programu z pominiciem instalatora.

49 Teoria gier w ujciu systemów mrowiskowych Dokumentacja u#ytkownika. Program HexxAntGon powsta w celu przeprowadzenia analizy korzy;ci pyn2cych z wykorzystania algorytmu mrowiskowego w analizie strategicznych gier planszowych, na przykadzie gry Hexxagon. Program umoliwia porównanie algorytmu mrowiskowego z algorytmem zachannym oraz moliwo;f zmierzenia si uytkownika z jednym z wymienionych algorytmów. Gówne okno programu. Po uruchomieniu program zgasza si za pomoc2 okna przedstawionego na rys.12. Rys. 12. Okno g)ówne programu. W oknie tym uytkownik dokonuje wyboru poszczególnych opcji programu za pomoc2 systemu menu. Menu zostao podzielone na 4 cz;ci. Menu Plik zawiera 2 opcje Rozpocznij gr i WyjdJ; menu Eksperyment zawiera ustawienia eksperymentu, jego rozpoczcie i wyniki; Opcje ustawienia algorytmu i planszy; natomiast Pomoc zawiera pomoc programu i informacje o programie. Dodatkowo program wyposaony jest w system podpowiedzi realizowany w pasku stanu znajduj2cym si na dole kadego okna.

50 Teoria gier w ujciu systemów mrowiskowych 50 Ustawienia algorytmu. Ustawienia programu s2 dostpne z menu Opcje. Okno ustawieg ma postaf jak na rys.13. Rys. 13. Okno ustawie? algorytmu. Uytkownik moe w nim dokonaf wyboru parametrów zastosowanego algorytmu mrowiskowego. Moliwe jest ustawienie globalnych parametrów zwi2zanych z feromonem oraz okre;lenie parametrów algorytmu mrowiskowego kontroluj2cego gracza. Poszczególne parametry algorytmu mrowiskowego zostay omówione w rozdziale 2 pracy. Dodatkowo uytkownik moe okre;lif sposób kontrolowania graczy. Moliwe jest kontrolowanie gracza 1 przez algorytm mrowiskowy lub uytkownika (opcja nieaktywna w przypadku eksperymentu), natomiast gracz 2 moe byf kontrolowany przez algorytm mrowiskowy b2dn algorytm zachanny. Algorytm zachanny nie jest konfigurowalny, dlatego wybranie takiego sposobu kontrolowania gracza spowoduje wy2czenie opcji ustawieg algorytmu dla gracza 2. Dodatkowo moliwe jest dokonanie wyboru uywanego przez algorytm generatora liczb pseudolosowych. Dostpny jest standardowy generator liczb pseudolosowych jzyka C oraz generator Mersenne Twister [16]. W celu uatwienia procesu konfiguracji algorytmu okno zostao wyposaone w pasek stanu wy;wietlaj2cy podpowiedzi. W podpowiedziach podane s2 przedziay liczbowe poszczególnych parametrów algorytmu.

51 Teoria gier w ujciu systemów mrowiskowych 51 Ustawienia planszy. Rys. 14. Okno ustawie? planszy. Ustawienia planszy dostpne s2 z menu Opcje, co powoduje wy;wietlenie planszy do gry (rys.14). W oknie tym uytkownik dokonuje zmian planszy, poprzez wy2czenie poszczególnych pól z rozgrywki. Pól na których umieszczone s2 pionki nie mona wy2czyf z rozgrywki. Dokonane ustawienia dotycz2 zarówno pojedynczej gry, jak i przeprowadzanego eksperymentu. Pojedyncza gra. Wybranie opcji Rozpocznij gr z menu Plik spowoduje rozpoczcie pojedynczej rozgrywki. W zaleno;ci od wybranego sposobu kontrolowania gracza, rozgrywka bdzie przebiegaf pomidzy dwoma graczami kontrolowanymi przez algorytm mrowiskowy (rys.15) lub pomidzy uytkownikiem a algorytmem (rys.16), wybranym w ustawieniach algorytmu (rys.13). W drugim przypadku gracz kontroluje czerwone pionki. Ruchu pionka dokonuje si poprzez kliknicie na wybranym pionku (co spowoduje jego nieznaczne rozja;nienie), a nastpnie wskazaniu pola na które ma nast2pif ruch. Ruch mona wykonywaf na pole s2siednie (klonowanie) lub skacz2c przez jedno pole. Wybranie pola, na które nie jest moliwy ruch spowoduje wy;wietlenie odpowiedniego komunikatu.

52 Teoria gier w ujciu systemów mrowiskowych 52 Rys. 15. Okno rozgrywki w trybie komputer komputer. Rys. 16. Okno rozgrywki w trybie gracz komputer. Ustawienia eksperymentu. Okno ustawieg eksperymentu dostpne z menu Eksperyment przedstawia rys.17. Rys. 17. Okno ustawie? eksperymentu.

53 Teoria gier w ujciu systemów mrowiskowych 53 Uytkownik dokonuje w nim ustawienia liczby gier skadaj2cych si na eksperyment, ustawieg algorytmu i okre;la gracza rozpoczynaj2cego rozgrywki. Zaznaczenie opcji automatyczne wyniki spowoduje automatyczne otwarcie okna wyników po zakogczeniu eksperymentu, natomiast zaznaczenie pola wy)wietl parametry zaowocuje wy;wietleniem warto;ci parametrów q 0 i R poniej legendy na formie wyników. Zapamitanie ustawieg dokonuje si przez naci;nicie przycisku Ustaw, natomiast przycisk WyjdJ zamyka okno bez zapamitywania zmian. Pasek stanu, umieszczony u dou okna wy;wietla podpowiedzi do analizowanych przez uytkownika opcji. Eksperyment. W celu rozpoczcia eksperymentu naley z menu Eksperyment wybraf opcj Rozpocznij, co spowoduje wy;wietlenie okna przedstawionego na rys.18. Rys. 18. Okno eksperymentu. Zostao ono wyposaone w 2 przyciski i pasek postpu. Przycisk Start umoliwia rozpoczcie eksperymentu, natomiast przycisk WyjdJ powoduje zamknicie okna. Nie jest moliwe zamknicie okna przed zakogczeniem eksperymentu. W przypadku zaznaczonej w ustawieniach eksperymentu opcji automatyczne wyniki, po zakogczeniu eksperymentu automatycznie zostanie wy;wietlone okno wyników. Dodatkowo w pasku stanu znajduj2cym si na dole okna wy;wietlane s2 podpowiedzi. Wyniki eksperymentu. Dostp do okna wyników realizowany jest dwojako. Zaznaczenie opcji automatyczne wyniki w ustawieniach eksperymentu spowoduje automatyczne otwarcie okna po zakogczeniu eksperymentu. Drugim sposobem dotarcia do wyników ostatniego zakogczonego eksperymentu jest wybranie z menu Eksperyment opcji Wyniki. Okno wyników ma postaf jak na rys.19.

54 Teoria gier w ujciu systemów mrowiskowych 54 Rys. 19. Okno wyników eksperymentu. Jak mona zauwayf po lewej stronie wykresu znajduj2 si dwa przyciski oznaczone strzakami. S2 one aktywne (widoczne) w przypadku przeprowadzenia wikszej ni 10 liczby gier w obrbie eksperymentu. Naci;nicie przycisku spowoduje wy;wietlenie wyników kolejnych 10 gier, natomiast naci;nicie spowoduje wy;wietlenie 10 poprzednich. Dodatkowo okno zostao wzbogacone przez 3 przyciski: Drukuj, Zapisz i WyjdJ. Naci;nicie przycisku WyjdN spowoduje zamknicie okna, natomiast przyci;nicie przycisku Drukuj spowoduje wydrukowanie wykresu, poprzedzone otwarciem okna dialogowego (rys.20) w którym uytkownik proszony jest o potwierdzenie decyzji. Naci;nicie przycisku Tak spowoduje natychmiastowe wydrukowanie wykresu. Rys. 20. Okno opcji drukowania. Naci;nicie przycisku Zapisz, umieszczonego w oknie wyników spowoduje otwarcie okna dialogowego su2cego zapisaniu na dysk wykresu, w postaci pliku graficznego (rys.21).

55 Teoria gier w ujciu systemów mrowiskowych 55 Rys. 21. Okno dialogowe zapisywania wykresu. W oknie dialogowym naley podaf nazw oraz wybraf typ pliku. Wykres moe zostaf zapisany w formacie Windows Meta File (*.wmf) lub jako bitmapa (*.bmp). Inne formaty graficzne nie s2 obsugiwane. Naci;nicie przycisku Anuluj spowoduje rezygnacj z zapisu pliku, zamknicie okna i powrót do okna wyników.

56 Teoria gier w ujciu systemów mrowiskowych Dokumentacja techniczna. Program HexxAntGon zosta zaimplementowany w ;rodowisku Borland C++Builder w wersji 5.0. Kod programu zosta podzielony na 10 moduów, zwi2zanych z poszczególnymi oknami programu. S2 to: about.cpp modu zawieraj2cy kod zwi2zany z obsug2 okna O programie. eksperyment.cpp zawiera funkcje odpowiedzialne za przebieg eksperymentu i podpowiedzi, wykorzystuje modu plansza.cpp. hexx.cpp kod odpowiedzialny za inicjalizacj wszystkich okien programu podczas jego uruchomienia. okno_start.cpp zbiór procedur odpowiedzialnych za obsug gównego okna programu, jego menu i podpowiedzi. plansza.cpp modu zawieraj2cy wszystkie funkcje bd2ce implementacj2 algorytmu mrowiskowego i algorytmu zachannego, wizualizacj przebiegu rozgrywki, obsug trybu uytkownika oraz funkcje pomocnicze. ust_eksperyment.cpp procedury su2ce wy;wietleniu obecnych ustawieg eksperymentu, ich modyfikacji i zapamitaniu. ust_plansze.cpp zbiór funkcji su2cych dokonaniu zmian wygl2du planszy. ustawienia.cpp procedury odpowiedzialne za modyfikacj parametrów algorytmu, ustawienie kontroli graczy, wybór generatora liczb pseudolosowych oraz ich zapamitanie. wyniki.cpp zbiór funkcji odpowiedzialnych za wizualizacj wyników uzyskanych w przeprowadzonym eksperymencie. mt19937int.c modu zawieraj2cy implementacj generatora liczb pseudolosowych Mersenne Twister autorstwa Makoto Matsumoto i Takuji Nishimury [16].

57 Teoria gier w ujciu systemów mrowiskowych 57 Waniejsze struktury danych wykorzystane w programie. Nazwa struktury Typ struktury lista struct * mrówka class Zmienne sk"adowe nr_pola feromon Typ zmiennej int float nast. lista * droga Zastosowanie zmiennej sk"adowej plansza.cpp numer pola ssiadujcego z polem o numerze równym identyfikatorowi listy okre+la warto+, feromonu na kraw-dzi pomi-dzy polem o numerze nr_pola a polem o numerze = identyfikatorowi listy wska/nik na nast-pny element listy tablica zawierajca drog- przebyt dotychczas przez mrówk- numer pola na którym, w danym momencie, znajduje si- mrówka liczba przej-tych pionów przeciwnika po2o0enie int[pola] int licznik int kasta int przynale0no+, mrówki do gracza Tab. 26. Struktury danych wykorzystane w programie. Zastosowanie struktury struktura jest list jednokierunkowa, u0ywan w tablicy s2u0cej jako macierz feromonu klasa mrówka okre+la zachowanie i umiej-tno+ci ka0dej z mrówek. W programie wykorzystuje sitablic- 61 mrówek. Nazwa struktury mrówka Rodzaj struktury class Funkcje sk"adowe Typ wyniku Typ parametrów plansza.cpp mrówka - - ~mrówka - - policz_zysk int int policz_pk float int wybierz_pole int int przejmij_pola void int aktualizuj_feromon_lokalnie void int, int aktualizuj_feromon_globalnie void void aktualizuj_feromon void int, int, int Tab. 27. Metody klasy mrówka. Nazwa struktury mrówka Rodzaj struktury Funkcje zaprzyjagnione Typ wyniku Typ parametru plansza.cpp znajdz_mrowke int int class wykonaj_ruch void int ustaw_warto+ci void void przejmij void int Tab. 28. Funkcje zaprzyjannione z klas+ mrówka. Nazwa struktury Typ struktury plansza.cpp Klasy zaprzyjagnione (typ klasy) mrówka class TFrm_plansza Tab. 29. Klasy zaprzyjannione z klas+ mrówka.

58 Teoria gier w ujciu systemów mrowiskowych 58 Wymienione powyej funkcje zostay dokadnie opisane w punkcie Omówienie najwaniejszych funkcji programu. Istotne zmienne wyst$puj%ce w systemie. Zmienna Typ Zastosowanie eksperyment.cpp koniec bool informuje o zatrzymaniu eksperymentu ile_razy int przechowuje liczb- gier tworzcych eksperyment kolej int okre+la który z graczy ma wykona, ruch points int[2] zawiera punkty zdobyte przez obu graczy w bie0cej grze plansza.cpp beta int[2] przechowuje warto+, wspó2czynnika 8 dla graczy 1 i 2 q0 int[2] przechowuje warto+, wspó2czynnika q 0 dla gracza 1 i 2 alfa float przechowuje warto+, wspó2czynnika : algorytmu delta_tau float przechowuje warto+, wspó2czynnika ; algorytmu tau0 float przechowuje warto+, wspó2czynnika 0 algorytmu eksperyment bool informuje o trybie pracy (eksperyment / rozgrywka) generator int zawiera informacje o wybranym generatorze liczb pseudolosowych TABU int[100] tablica Tabu Tag int informacja o sposobie kontroli gracza 1 Tag2 int informacja o sposobie kontroli gracza 2 ruch int numer pola na które gracz-u0ytkownik wykonuje ruch kolej int numer gracza wykonujcego ruch pola const int okre+la liczb- pól planszy max_tabu const int okre+la liczb- pól tablicy TABU maks float zawiera warto+, wspó2czynnika pk dla wybranego ruchu punkty int[2] liczba punktów ka0dego z graczy ssiedztwo const int[3] tablica pomocnicza, wyk. przy planowaniu ruchu ssiedztwo2 const int[6] tablica pomocnicza, wyk. przy planowaniu ruchu wygrane int zawiera liczb- wygranych gier przez gracza 1 w obr-bie eksperymentu last_points int[2] przechowuje liczb- zdobytych punktów w poprzedniej grze macierz_feromonu lista[max_tabu]* zawiera macierz feromonu tab_mrowek mrówka[pola] tablica mrówek ust_plansze.cpp ile_razy int okre+la liczb- gier sk2adajcych si- na eksperyment Tab. 30. Zmienne wystopuj+ce w programie. Omówienie najwaniejszych funkcji programu. Najistotniejsze funkcje programu HexxAntGon zostay zaimplementowane w module plansza.cpp, wewn2trz klasy mrówka lub jako funkcje zaprzyjannione z t2 klas2. Pozostae funkcje (znajduj2ce si w pozostaych moduach) peni2 jedynie funkcje

59 Teoria gier w ujciu systemów mrowiskowych 59 pomocnicze, bd2c reakcj2 na zachowanie si uytkownika (naci;nicie okre;lonego przycisku) b2dn systemu (zdarzenia). Nie wydaje si wic koniecznym dokadne przedstawienie tyche funkcji. Nazwa funkcji Typ wyniku Typ parametru Zastosowanie eksperyment.cpp, okno_start.cpp, ustawienia.cpp, ust_eksperyment.cpp, wyniki.cpp funkcja odpowiedzialna za wy+wietlenie Hint void TObject * podpowiedzi w pasku stanu znajdujcym si- u do2u okna. eksperyment.cpp funkcja odpowiedzialna za przeprowadzenie przeprowadz_eksp void char okre+lonej w ustawieniach eksperymentu liczby gier. plansza.cpp kod programu odpowiedzialny za przeprowadzenie Timer1Timer void TObject * pojedynczej rozgrywki w trybie komputer komputer. Image0xxClick void TObject * procedura odpowiedzialna za reakcj- na wybranie pola xx przez gracza i wywo2anie procedury rusz_si-(xx). wyswietl void void procedura s2u0ca wy+wietleniu stanu rozgrywki na ekranie (procedura wy+wietlajca ca2 plansz- i punktacj-). wypisz void int funkcja odpowiedzialna za wy+wietlenie konkretnego ruchu na ekranie (wy+wietla pion na aktualnym polu). rusz_si- void int procedura odpowiadajca za wykonanie ruchu przez pion nale0cy do u0ytkownika (rozró0nia czy gracz wybra2 ju0 pion i chce go przemie+ci,, czy dokonuje tego wyboru). przejmij void int funkcja przejmujca piony gracza sterowanego komputerem, znajdujce si- na polach ssiadujcych z polem w2a+nie zaj-tym przez gracza u0ytkownika. znajdz_mrowke int int funkcja odpowiedzialna za znalezienie mrówki znajdujcej si- na podanym polu planszy, zaprzyja/niona z klas mrówka wykonaj_ruch void int fragment kodu odpowiedzialny za wykonanie ruchu przez gracza kontrolowanego przez komputer, zaprzyja/niony z klas mrówka ustaw_wartosci void void kod programu odpowiedzialny za inicjalizacjstruktur u0ywanych pó/niej przez funkcje klasy mrówka i pozosta2e funkcje nadzorujce rozgrywk-. stworz_feromon void void procedura odpowiadajca za stworzenie dynamicznej struktury reprezentujcej macierz feromonow, uruchamiana jednorazowo przy starcie programu posprzataj void void funkcja odpowiedzialna za usuni-cie z pami-ci u0ytych struktur dynamicznych, uruchamiana podczas zamykania programu Tab. 31. ObjaEnienie funkcji ujytych w programie.

60 Teoria gier w ujciu systemów mrowiskowych 60 plansza.cpp klasa mrówka mrówka - - konstruktor klasy inicjujcy pola po2o0enie, licznik, kasta, droga obiektu tej klasy ~mrówka - - destruktor klasy mrówka. Ze wzgl-du na typy w2a+ciwo+ci (zmiennych) klasy zastosowano destruktor pusty. policz_zysk int int funkcja s2u0ca obliczeniu zysku wywo2anego ruchem na okre+lone pole. policz_pk float int funkcja dokonujca obliczenia warto+ci wspó2czynnika pk zwizanego z okre+lonym ruchem. Funkcja wykorzystuje zdefiniowane uprzednio funkcje policz_zysk i policz_strate wybierz_pole int int funkcja dokonujca wyboru pola na które ma nastpi, ruch, by by2 on najefektywniejszy. Funkcja korzysta z funkcji policz_pk przejmij_pola void int procedura odpowiedzialna za przej-cie pionów przeciwnika znajdujcych si- na polach ssiadujcych z polem w2a+nie zaj-tym. aktualizuj_feromon_lokalnie void int, int procedura odpowiedzialna za dokonanie lokalnej aktualizacji feromonu na w2a+nie przebytej kraw-dzi aktualizuj_feromon_globalnie void void procedura s2u0ca globalnemu zaktualizowaniu feromonu. W tym celu wykorzystuje funkcjaktualizuj_feromon aktualizuj_feromon void int, int, int Funkcja dokonujca lokalnego zaktualizowania feromonu, w obr-bie aktualizacji globalnej. Tab. 32. ObjaEnienie metod klasy mrówka.

61 Teoria gier w ujciu systemów mrowiskowych OPIS EKSPERYMENTU. Celem powstania programu HexxAntGon jest sprawdzenie przydatno;ci algorytmów mrowiskowych do analizy (i kontrolowania gracza) w strategicznych grach planszowych. Program umoliwia porównanie wyników uzyskiwanych przez algorytm mrowiskowy w grze przeciwko drugiemu algorytmowi mrowiskowemu lub algorytmowi zachannemu. Badania nad algorytmem mrowiskowym zostay podzielone na dwie cz;ci. W cz;ci pierwszej zostan2 ustalone optymalne warto;ci parametrów algorytmu i ich wpyw na uzyskane wyniki. Zostan2 one nastpnie wykorzystane w drugiej cz;ci, która obejmuje analiz gry Badanie wp"ywu parametrów algorytmu na uzyskane wyniki. Proces analizy parametrów algorytmu bdzie przebiega w dwóch etapach. W pierwszym zostanie wyznaczona optymalna warto;f wspóczynnika R, natomiast w drugim optymalna warto;f q 0. Uzyskane w ten sposób warto;ci zostan2 uyte w nastpnych eksperymentach. Badanie wartoci wspóczynnika D. Optymalna warto;f wspóczynnika R zostanie wyznaczona w rozgrywce z algorytmem zachannym i przy warto;ciach pozostaych wspóczynników przedstawionych w tab.33. Parametr Warto H : 0,01 0 0,002 q0 100 Tab. 33. Zastosowane wartoeci parametrów. Zbadane zostan2 warto;ci R bd2ce liczbami naturalnymi z przedziau [1, 20], a kryterium bdzie ;rednia liczba wygranych gier spo;ród serii 10 eksperymentów po 100 gier kady. Otrzymane wyniki przedstawia tab. 34. Nr eksperymentu Krednia liczba Beta wygranych partii ,9

62 Teoria gier w ujciu systemów mrowiskowych 62 Nr eksperymentu Krednia liczba Beta wygranych partii , , , , , , , , ,5 Tab. 34. Otrzymane wyniki. Zaleno;F warto;ci ;redniej od warto;ci wspóczynnika R, otrzyman2 w wyniku eksperymentu, przedstawia rys.22. Liczba wygranych gier w % Wykres zale#no ci pomi!dzy warto cil wspó"czynnika M a liczbl wygranych gier 1,9 4 41, , ,4 74,5 68,5 79, ,9 51, Warto H wspó"czynnika beta 29,5 Rys. 22. Wykres zalejnoeci wygranych gier od wartoeci wspó)czynnika P. Z uzyskanej zaleno;ci jednoznacznie wynika, e najbardziej korzystn2 jest warto;f z przedziau <10, 15>. W dalszych badaniach zostan2 przyjte dwie warto;ci z tego przedziau 10 i 14.

63 Teoria gier w ujciu systemów mrowiskowych 63 Badanie wartoci wspóczynnika q 0. Eksperyment maj2cy na celu wyznaczenie optymalnej warto;ci wspóczynnika q 0 zostanie przeprowadzony w rywalizacji z algorytmem zachannym. Warto;ci parametrów przedstawia tab.35. Parametr Warto H : 0,01 0 0, Tab. 35. Zastosowane wartoeci parametrów. Na eksperyment skadaf si bdzie 10 serii po 100 gier kada. Uzyskane warto;ci przedstawia tab.36, natomiast rys.23 przedstawia zaleno;f minimalnej, ;redniej i maksymalnej warto;ci wygranych gier od ustalonej warto;ci wspóczynnika q 0. Nr eksperymentu Liczba wygranych partii q rednio min. max , , , , , , , , , , , Tab. 36. Otrzymane wyniki.

64 Teoria gier w ujciu systemów mrowiskowych 64 Zale#no H wygranych gier od warto ci wspó"czynnika q0 80 liczba wygranych gier Warto H wspó"czynnika q0 Warto+, +rednia Warto+, min. Warto+, maks. Rys. 23. ZaleJnoEG liczby wygranych gier od wartoeci q 0 Z otrzymanej zaleno;ci moemy wnioskowaf, e najkorzystniejsz2 warto;ci2 q 0 jest 100, co oznacza czysto deterministyczne zachowanie mrówki. Uzyskany wynik jest zrozumiay, poniewa w rozpatrywanym problemie algorytm zachanny jest w stanie znalenf optymalne rozwi2zanie, natomiast niedeterministyczny algorytm mrowiskowy znajdzie rozwi2zanie przyblione, a wic nieco gorsze. Deterministyczne ustawienie algorytmu mrowiskowego ma na celu wyrównanie szans obu zawodników Badanie wyników uzyskanych podczas rozgrywki pomi!dzy dwoma algorytmami mrowiskowymi. Bardzo wanym aspektem gry, z punktu widzenia teorii gier, jest jej sprawiedliwo;f b2dn jej brak. Za gr sprawiedliw2 uwaamy tak2, w której prawdopodobiegstwo wygrania dla kadego, równorzdnego gracza jest identyczne. W celu sprawdzenia tej cechy dokonano porównania wyników uzyskanych przez dwóch równorzdnych graczy, w tym wypadku dwóch algorytmów mrowiskowych o tych samych parametrach. Podczas do;wiadczenia zastosowano warto;ci parametrów przedstawione w tab.37. Parametr Warto H : 0,01 0 0, q0 75 Tab. 37. Zastosowane wartoeci parametrów.

65 Teoria gier w ujciu systemów mrowiskowych 65 Otrzymane wyniki: w przypadku rozpoczcia rozgrywki przez gracza 1 przedstawia tab.38. w przypadku rozpoczcia przez gracza 2 tab.39. Liczba wygranych Nr eksperymentu partii Wygrane rednio % Gracz ,5 50,4 Gracz ,5 49,6 Tab. 38. Liczba wygranych gier przez graczy przy rozpoczynaj+cym graczu 1. Liczba wygranych Nr eksperymentu partii Wygrane rednio % Gracz ,6 49,8 Gracz ,4 50,2 Tab. 39. Liczba wygranych gier przez graczy przy rozpoczynaj+cym graczu 2. Mona zauwayf, e liczba wygranych gier w % przez kadego z graczy d2y do wyrównania si na poziomie 50%, co moe ;wiadczyf o sprawiedliwo;ci gry. W celu zweryfikowania uzyskanych wyników zdecydowano si na powtórzenie eksperymentu przy nieco zmodyfikowanych warto;ciach parametrów, przedstawionych w tab.40. Wyniki eksperymentu: Parametr Warto H : 0,01 0 0, q0 75 Tab. 40. Zastosowane wartoeci parametrów. w przypadku rozpoczcia przez gracza 1 wyniki przedstawia tab.41. w przypadku rozpoczcia przez gracza 2 tab.42. Liczba wygranych Nr eksperymentu partii Wygrane rednio % Gracz ,1 49,8 Gracz ,1 50,2 Tab. 41. Liczba wygranych gier przez graczy. Liczba wygranych Nr eksperymentu partii Wygrane rednio % Gracz ,5 49,9 Gracz ,5 50,1 Tab. 42. Liczba wygranych gier przez graczy.

66 Teoria gier w ujciu systemów mrowiskowych 66 Otrzymane wyniki potwierdzaj2 postawion2 uprzednio tez i rozpatrywana gra jest gr2 sprawiedliw2, zapewniaj2c2 kademu z równorzdnych graczy takie samo prawdopodobiegstwo wygrania, pod warunkiem rozegrania dostatecznej liczby gier. Z punktu widzenia wyników gry nie jest istotn2 kolejno;f rozpoczynania kadej z partii. Dodatkowo zdecydowano si na analiz wyników w przypadku dwóch nierównorzdnych graczy. Tab.43 zawiera zastosowane warto;ci parametrów. Gracz 1 Gracz 2 Parametr Warto H Parametr Warto H : 0,01 : 0,01 0 0, , q0 75 q0 85 Tab. 43. Zastosowane wartoeci parametrów. Wyniki otrzymane przy rozpoczynaj2cym graczu 1 przedstawia tab.44. Liczba wygranych Nr eksperymentu partii Wygrane rednio % Gracz ,9 Gracz ,1 Tab. 44. Liczba wygranych gier przez graczy. Na podstawie uzyskanych wyników mona zauwayf, e gracz 2 posiada wiksze prawdopodobiegstwo wygranej. Natomiast w przypadku parametrów przedstawionych w tab. 45 i rozpoczynaj2cym graczu 1 otrzymano wyniki zamieszczone w tab.46. Gracz 1 Gracz 2 Parametr Warto H Parametr Warto H : 0,01 : 0,01 0 0, , q0 75 q0 100 Tab. 45. Zastosowane wartoeci parametrów. Liczba wygranych Nr eksperymentu partii Wygrane rednio % Gracz ,3 2,3 Gracz ,7 97,7 Tab. 46. Liczba wygranych gier przez graczy.

67 Teoria gier w ujciu systemów mrowiskowych 67 Moemy zauwayf, e w przypadku dwóch nierównorzdnych graczy prawdopodobiegstwo wygrania gry zmienia si diametralnie. Rozpatrywana gra cechuje si zatem preferowaniem graczy bardziej deterministycznych. Gracz deterministyczny, w przypadku rozpatrywanej gry, jest to gracz kieruj2cy si najwikszym zyskiem uzyskanym w danym ruchu. Z punktu teorii gier gracza takiego nazywamy graczem racjonalnym i tylko takich graczy rozpatrujemy, dlatego w dalszej cz;ci eksperymentu algorytmowi zachannemu zostanie przeciwstawiony deterministyczny algorytm mrowiskowy Porównanie algorytmu mrowiskowego z algorytmem zach"annym. Stosuj2c algorytmy heurystyczne, naley sobie odpowiedzief na pytanie, czy jest to opacalne. Pytanie to jest szczególnie istotne w przypadku problemów dla których istniej2 proste algorytmy takie jak np. algorytm zachanny. W takim przypadku istnieje ryzyko, e zastosowanie bardziej zoonego algorytmu heurystycznego moe daf gorsze wyniki i okazaf si nieopacalne. W celu uzyskania odpowiedzi na to pytanie zdecydowano si na przeprowadzenie odpowiedniej serii eksperymentów. Zostao przeprowadzonych 20 eksperymentów po 999 gier kady, pomidzy algorytmem zachannym a deterministycznym algorytmem mrowiskowym. Tab.47 zawiera zastosowane parametry algorytmu. Gracz 1 Parametr Warto H : 0,01 0 0, q0 100 Tab. 47.Zastosowane wartoeci parametrów. W wyniku przeprowadzonej serii eksperymentów, gdzie gracz 1 kontrolowany by przez algorytm mrowiskowy, natomiast gracz 2 przez algorytm zachanny, otrzymano w przypadku rozpoczcia rozgrywek przez gracza 1 wyniki przedstawione w tab.48. w przypadku rozpoczcia przez gracza 2 w tab.49.

68 Teoria gier w ujciu systemów mrowiskowych 68 Liczba wygranych Nr eksperymentu partii Wygrane rednio % Gracz ,17 Gracz ,83 Tab. 48. Liczba wygranych gier przez graczy. Liczba wygranych Nr eksperymentu partii Wygrane rednio % Gracz ,17 Gracz ,83 Tab. 49. Liczba wygranych gier przez graczy. Po zmianie warto;ci wspóczynnika R, przedstawionej w tab.50 i: przy rozpoczynaj2cym graczu 1 otrzymano wyniki zamieszczone w tab.51. w przypadku rozpoczynania przez gracza 2 w tab.52. Gracz 1 Parametr Warto H : 0,01 0 0, q0 100 Tab. 50..Zastosowane wartoeci parametrów. Liczba wygranych Nr eksperymentu partii Wygrane rednio % Gracz ,5 53,00 Gracz ,5 47,00 Tab. 51. Liczba wygranych gier przez graczy. Liczba wygranych Nr eksperymentu partii Wygrane rednio % Gracz ,2 52,97 Gracz ,8 47,03 Tab. 52. Liczba wygranych gier przez graczy. W wyniku przeprowadzonych eksperymentów potwierdzona zostaje teza, i algorytm heurystyczny jest algorytmem daj2cym lepsze wyniki w przypadku rozpatrywanej gry. Zatem zastosowanie algorytmu mrowiskowego okazao si opacalne. Postanowiono dokonaf minimalnej zmiany parametrów algorytmu mrowiskowego przedstawionej w tab.53, w celu wyrównania szans algorytmu zachannego. Gracz 1 Parametr Warto H : 0,01 0 0, q0 98 Tab. 53. Zastosowane wartoeci parametrów.

69 Teoria gier w ujciu systemów mrowiskowych 69 Otrzymane wyniki: w przypadku rozpoczcia rozgrywek przez gracza 1 zawiera tab.54. w przypadku rozpoczcia przez gracza 2 tab.55. Liczba wygranych Nr eksperymentu partii Wygrane rednio % Gracz ,8 57,44 Gracz ,2 42,56 Tab. 54. Liczba wygranych gier przez graczy. Liczba wygranych Nr eksperymentu partii Wygrane rednio % Gracz ,7 57,43 Gracz ,3 42,57 Tab. 55. Liczba wygranych gier przez graczy. Tak niewielka zmiana nie wpyna w najmniejszym stopniu na osi2gnite wyniki, w zwi2zku z czym zdecydowano si na dalsz2 redukcj warto;ci wspóczynnika q 0, co obrazuje tab.56. Wyniki serii eksperymentów: Gracz 1 Parametr Warto H : 0,01 0 0, q0 97 Tab. 56. Zastosowane wartoeci parametrów. w przypadku rozpoczcia przez gracza 1 przedstawia tab.57. w przypadku rozpoczcia przez gracza 2 tab.58. Liczba wygranych Nr eksperymentu partii Wygrane rednio % Gracz ,2 48,47 Gracz ,8 51,53 Tab. 57. Liczba wygranych gier przez graczy. Liczba wygranych Nr eksperymentu partii Wygrane rednio % Gracz ,7 48,42 Gracz ,3 51,58 Tab. 58. Liczba wygranych gier przez graczy.

70 Teoria gier w ujciu systemów mrowiskowych 70 Zmniejszenie warto;ci q 0 do 98 spowodowao wzrost wygranej liczby gier przez algorytm zachanny, co jest zwi2zane z wykonywaniem przez algorytm mrowiskowy pewnych ruchów losowo wybranych. Zgodnie z teori2 gier, gracza wykonuj2cego ruchy losowe nazywamy graczem nieracjonalnym. Teoria gier nie zajmuje si analiz2 tego typu gier. Z tego powodu analiza wyników przy mniejszych warto;ciach q 0 nie bdzie przeprowadzana Analiza i podsumowanie otrzymanych wyników. Gównym celem pracy byo zbadanie przydatno;ci algorytmu mrowiskowego w rozwi2zywaniu strategicznych gier planszowych na przykadzie gry Hexxagon, któr2 poprzedzia jej analiza. W wyniku serii eksperymentów ustalono, e rozpatrywana gra jest gr2 sprawiedliw2 z perspektywy teorii gier, a wynik poszczególnej rozgrywki nie zaley od kolejno;ci jej rozpoczcia. Ponadto zauwaono pewn2 prawidowo;f w samym przebiegu eksperymentów: wygrane graczy maj2 charakter sinusoidalny, tzn. po kilku wygranych grach przez jednego z nich nastpuje seria zwycistw przeciwnika, co przedstawia rys.24. Rys. 24. Zestawienie liczby uzyskanych punktów przez graczy podczas eksperymentu. Kolor czerwony oznacza Gracza 1, natomiast niebieski Gracza 2. Po wstpnej fazie analizy gry, przeprowadzono wa;ciwe porównanie algorytmu mrowiskowego z zachannym. Przed przyst2pieniem do fazy eksperymentów postawiono pytanie: czy tak zaadoptowany algorytm mrowiskowy okae si skuteczny? Otrzymane wyniki przedstawione na rys.25 pozwalaj2 na jednoznaczn2 odpowiedn.

Pokazać jeszcze