A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe1 Analiza decyzyjna(ad): tablica decyzyjna, klasyfikacja problemów W celu formalizacji i klasyfikacji problemów decyzyjnych wprowadzimy tzw tablicę decyzyjną. Niech decydent(lub grupa decydentów) ma osiągnąć pewien cel(np. zysk z uprawy swojego pola). Aby go osiągnąć podjmuje pewne działania, które nazywamy strategiami, alternatywami decyzyjnymi lub decyzjami. Zakładamy, żeilośćtychdziałańjest midziałaniateoznaczymy a 1,a 2,...,a m.podejmując dane działanie jego wynik zależy od zewnętrznych dla decydenta n czynników, którenazywamystanaminaturyioznaczamyprzez θ 1,θ 2,...,θ n.pełnyopiskonsekwencjidladecydentapodjęciadziałaniaa i wsytuacji,gdywystąpistannatury θ j oznaczaćbędziemyprzez X ij izapisujesięwpostacinastępującejtablicydecyzyjnej: Alternatywy Stany natury decyzyjne θ 1 θ 2... θ a 1 X 11 X 12... X 1n a 2 X 21 X 22... X 2n....... a m X m1 X m2... X mn Tab. 1: Ogólna postać tablicy decyzyjnej Przykład 1. Rozważmy osobę, która ma przygotować omlet z 6 jajek. Właśnie wbiłajużdomiski5jaj,któreokazałysiędobrymiizastanawiasięcozrobićz szóstym jajkiem, które może być albo dobre albo zepsute. Tablica 2 podaje możliwe sposoby działania i opis konsekwencji tych działań. Alternatywy Stan natury decyzyjne jajko dobre jajko zepsute zbićjajkodomiski omletz6jaj niemaomletu i 5 jajek zniszczonych zbićjajkodo omletz6jaj omletz5jajek doinnegonaczynia inaczyniedoumycia inaczyniedoumycia wyrzucić jajko omlet z 6 jajek omlet z 5 jajek i jedno jajko zniszczone Tab. 2: Pełny opis konsekwencji problemu decyzyjnego przygotowanie omletu W analizie decyzji stosuje się tablice decyzyjne w których zamiast pełnego opisukonsekwencji X ij używasięmiarywartościkonsekwencji v(x ij )oznaczanej dalejprzez v ij dla i = 1,...,m;j = 1,...,ninazywanejdalejużytecznością.
A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe2 Miaratapowinnaspełniaćwarunek,że v ij > v kl,gdydladecydentabardziej sprzyjającesąkonsekwencje X ij niżkonsekwencje X kl (mówisięrównież,żedecydentpreferujekonsekwencje X ij wstosunkudokonsekwencji X kl ).Dlatego dalej będą używane tablice decyzyjne w których konsekwencje zostaną zastąpione użytecznością. Postać taką podano w tablicy 3. Alternatywy Stany natury decyzyjne θ 1 θ 2... θ a 1 v 11 v 12... v 1n a 2 v 21 v 22... v 2n....... a m v m1 v m2... v mn Tab. 3: Postać ogólna tablicy decyzyjnej, w której konsekwencje zastąpiono użytecznością Typy problemów decyzyjnych Wyróżnia się trzy typy problemów decyzyjnych: Problemy decyzyjne w warunkach pewności. Występuje tylko jeden stan natury, którego wystąpienie jest pewne- tablica decyzyjna ma tylko jedną kolumnę. Problemy decyzyjne w warunkach ryzyka. Znane jest prawdopodobieństwo wystąpienia każdego stanu natury. Dla dyskretnych stanów natury θ 1,θ 2,...,θ n prawdopodobieństwaichwystąpieniaoznaczamyprzezp(θ 1 ),P(θ 2 ),...,P(θ n ). Problemy decyzyjne w warunkach niepewności. Znane są sposoby postępowania decydenta i potrafimy zidentyfikować wszystkie możliwe stany natury ale nie wiemy nic o prawdziwym stanie natury. W zależności od typu problemu decyzyjnego stosowane są różne kryteria wyboru decyzji optymalnej(rozwiązania optymalnego). Kryteria wyboru decyzji w warunkach pewności W problemach w warunkach pewności decyzją optymalną jest alternatywa o najbardziej sprzyjającej dla decydenta wartości użyteczności(co sprowadza się do wyboru elementu maksymalnego lub minimalnego w tablicy decyzyjnej o jednej kolumnie).
A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe3 Kryteria wyboru decyzji w problemach w warunkach ryzyka W problemach w warunkach ryzyka racjonalne kryterium wyboru optymalnej decyzjipoleganawyborzetakiejalternatywydecyzyjnej a k,któramaksymalizuje (lub minimalizuje, gdy użyteczność jest kosztem) wartość średnią użyteczności tj. n j=1 P(θ j )v kj = m max i=1 n P(θ j )v ij Przykład 2. Sprzedawca truskawek kupuje na plantacji koszyczek truskawek za 3zł.asprzedajeza8zł.Sprzedanykoszykprzynosimuzatem5zł.zyskuanie sprzedany stratę 3zł. Z doświadczenia wie, że dzienny popyt może wynosić 10, 11,12lub13koszyczków.Z90obserwacji,którezgromadziłwie,żew18przypadkachdziennypopytkształtowałsięnapoziomie10,w36napoziomie11,w 27napoziomie12iw9napoziomie13koszyczków.Jeśliprzez a i oznaczymy alternatywęzakupnaplantacji 10 + (i 1)koszyczkówtruskawek,przez θ i -popytdziennynapoziomie 10 + (i 1)(i = 1,2,3,4)koszyczkówaużytecznością będzie dzienny zysk sprzedawcy, to tablicą decyzyjną jest tablica 4. W tej tablicy j=1 Zysk θ 1 θ 2 θ 3 θ 4 EV(a i ) a 1 50 50 50 50 50 a 2 47 55 55 55 53.4 a 3 44 52 60 60 53.6 a 4 41 49 57 65 51.4 Rozkład 0.2 0.4 0.3 0.1 Tab. 4: Tablica decyzyjna sprzedawcy truskawek EV(a i )oznaczawartośćśredniąużytecznościalternatywy a i.decyzjąoptymalnąjestwybóralternatywy a 3,któradajemaksymalnyoczekiwanyzyskwynoszący EV(a 3 ) = 53.6. Niech X będzie dyskretną zmienną losową rozkładu stanów natury(tj. wielkości popytu na truskawki w problemie sprzedawcy truskawek) przyjmującą wartości q,q + 1,...,Qorozkładzie P(x)dla x = q,q + 1,...,Qidystrybuancie F(x) = P(X x).wartośćśredniaużytecznościalternatywy a i,jestwartością średniąfunkcjizmiennejlosowej X.Oznaczmyprzez d(z),z = q,q + 1,...,Q wartość średnią zysku sprzedawcy, gdy zakupił na plantacji z koszyczków truskawek(tj. EV(a i ) = d(z),gdzie z = 10+i 1,i = 1,2,3,4).Oznaczmyprzez azysk jaki osiąga sprzedawca z jednego sprzedanego koszyczka a przez b stratę na jednymniesprzedanymkoszyczku(dlarozpatrywanegoprzykładu a = 5,b = 3).Załóżmy, że sprzedawca zakupił z 1 koszyczków(jego średni zysk wynosi d(z 1)). Dokupienie dodatkowo jednego koszyczka truskawek przyniesie stratę b jeśli popyt
A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe4 xbędzie x z 1.Prawdopodobieństwotegozdarzeniawynosi P(X z 1). Natomiastprzyniesiezysk ajeślipopyt xbędzie x > z 1.Tozdarzeniema prawdopodobieństwo 1 F(z 1). Mamy zatem rekurencyjny wzór: d(z) = d(z 1)+a[1 F(z 1)] bf(z 1) = d(z 1)+a (a+b)f(z 1) (z = q +1,q +2,...,Q.) Dla z = qmamy d(q) = aq. Dla sprzedawcy truskawek mamy: EV(a 1 ) = d(z = 10) = 5 10 = 50 EV(a 2 ) = d(11) = d(10)+5 (5+3)F(10) = 50+5 8 2 10 = 53.4 EV(a 3 ) = d(12) = d(11)+5 8F(11) = 58.4 8 6 10 = 53.6 EV(a 4 ) d(13) = d(12)+5 8F(12) = 58.6 8 9 10 = 51.4 Optymalną strategię można również wyznaczyć wzorem analitycznym. Jeśli strategiąoptymalnąjestwybóralternatywypolegającejnazakupie k koszyczków, to z własności maksimum lokalnego mamy, że d(k ) d(k 1) F(k 1) a a+b d(k ) d(k +1) a a+b F(k ) Stąd mamy F(k 1) a a+b F(k ) Wartość k spełniającatęnierównośćjestoptymalnądecyzją.tenostatnisposób wyznaczania alternatywy optymalnej jest najoszczędniejszy. Dla sprzedawcy truskawek mamy a a+b = 5 3+5 = 0.425 i 0.4 = F(11) 0.425 F(12) = 0.9, czylioptymalnąalternatywąjestzakup12koszyczków (k = 12). W problmach w warunkach ryzyka wprowadza się pojęcie oczekiwanej wartości pewnej informacji(evpi). Sposób jej obliczania podamy na przykładzie problemu sprzedawcy truskawek. Załóżmy, że sprzedawca może z całą pewnością przewidzieć zajście danego stanu natury(ma pewną prognozę odnośnie stanów natury).wtedypowinienwybieraćalterntywę a 1 dlastanu θ 1, a 2 dla θ 2, a 3 dla θ 3 i a 4 dla θ 4.Ponieważznarozkładprawdopodobieństwastanównatury,towartość oczekiwana użyteczności wyniesie wtedy: 50 0.2+55 0.4+60 0.3+65 0.1 = 56,5.
A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe5 Bez znajomości tej prognozy wartość oczekiwana zysku wynosi 53,6. Różnica 56.5-53.6=2.9 definiuje oczekiwaną wartość pewnej informacji, czyli EVPI=2.9. Wartość tę możemy interpretować jako maksymalną kwotę, którą można wydać za pewną prognozę. Kryteria wyboru decyzji w warunkach niepewności Danajesttablicadecyzyjnadlaproblemuzfunkcjąużyteczności v ij (funkcjątą może być zysk lub koszt). Kryterium Walda- wybór alternatywy dla której najmniej sprzyjający rezultat jest dla decydenta najkorzystniejszy(maksymalizacja minimalnego zysku,gdyużyteczność v ij jestzyskiem).dlakażdejalternatywy a i, i = 1,...,mwyznaczasiędwiewielkości:najbardziejsprzyjającydladecydentarezultat o i oraznajmniejsprzyjającyrezultat s i.jeśliużyteczność v ij jestzyskiem,to o i = max{v ij }oraz s i = min{v ij } j j natomiast,gdyużyteczność v ij jestkosztem,to o i = min{v ij }oraz s i = max{v ij }. j j Decyzjąoptymalnąjestalternatywa a k taka,że s k = max i s i = max i min j {v ij }jeśli v ij jestnp.zyskiem lub s k = mins i = minmax{v ij }jeśli v ij jestnp.kosztem i i j Kryterium to jest najbardziej konserwatywne- decydent wybiera alternatywę, w której najgorszy(najmniej sprzyjający) rezultat będzie dla niego najkorzystniejszy spośród wszystkich alternatyw. Nie wszyscy decydenci wykazują taką postawę względem ryzyka. Niektórzy decydenci mogą preferować alternatywy dla których najbardziej sprzyjający rezultat jest najkorzystniejszytj,wybieraćalternatywę a k dlaktórej o k = maxo i = max max{v ij } i i j Większość decydentów wykazuje mniej skrajne postawy. Kryterium następne(hurwicza) zakłada, że postawę decydenta wykazywaną we wszystkich problemach można scharakteryzować przez pewien współczynnik(nazywany współczynnikiem ostrożności).
A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe6 Kryterium Hurwicza- wybór alternatywy o najkorzystniejszej dla decydenta średniej ważonej z najmniej i najbardziej sprzyjającego rezultatu(maksymalizacja-gdy v ij jestzyskiem-średniejważonejznajmniejinajbardziej sprzyjającegorezultatu).jeśli v ij jestzyskiem,todecyzjąoptymalnąjest alternatywa a k taka,że αs k +(1 α)o k = max{αs i +(1 α)o i } = max{αmin{v ij }+(1 α)max{v ij }}, i i j j gdzie α jest współczynnikiem charakteryzującym decydenta. Dla α = 1 kryterium jest identyczne z kryterium Walda, czyli jest najbardziej zachowawczym, dla α = 0 mamy najbardziej optymistyczne kryterium. Wartości αzprzedziału(0,1)pozwalająnamodelowaniepostawpośrednich.jeśli v ij jestkosztem,todecyzjąoptymalnąjestalterntywa a k taka,że αs k +(1 α)o k = min{αs i +(1 α)o i } = min{αmax{v ij }+(1 α)min{v ij }}. i i j j Kryterium Savage a- minimalizacja maksymalnego żalu. Na podstawie tablicydecyzyjnej [v ij ]konstruujesięnowątablicę [r ij ]następująco: r ij = { max m l=1 {v ij } v ij jeśli v ij jestzyskiem, v ij min m l=1{v ij } jeśli v ij jestkosztem. Element r ij tejtablicyjestróżnicąpomiędzyużytecznościąnajlepszejdecyzjijakąnależałobypodjąćprzywystąpieniustanu θ j apodjętądecyzją(dla v ij zysku)imożebyćinterpretowanyjako żal zniepodjęcianajlepszej decyzji.wtablicy r ij dowyborudecyzjioptymalnejstosujesiękryterium Walda(dlakosztów).Decyzjąoptymalnąjest a k takie,że s k = min{s i } = min{max{r ij }}. i i j Kryterium Laplace a(1825)- maksymalizacja(lub minimalizacja, gdy użyteczność jest kosztem) wartości średniej. Optymalną decyzją jest wybór takiejalternatywy a k,że n 1 n n v kj = max m { 1 i=1 n v ij}. j=1 Przykład 3. Ośrodek wczasowy przygotowuje zapasy żywności na nadchodzący weekend.możliwestanynatury θ 1,θ 2,θ 3,θ 4 odpowiadająodpowiednioprzyjazdowi 100,150,200i250turystów.Alternatywydecyzyjnyme a 1,a 2,a 3,a 4 toprzygotowanie(zakup) zapasów dla odpowiednio 100, 150, 200 i 250 turystów. Użyteczność v ij będącakosztemzwiązanymzpodjęciemalternatywy a i iwystąpieniemstanu θ j podana jest w tablicy 5. Optymalną decyzją stosując kryterium Walda jest wybór j=1
A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe7 v ij θ 1 θ 2 θ 3 θ 4 s i o i a 1 5 10 18 25 25 5 a 2 8 7 8 23 23 7 a 3 21 18 12 21 21 12 a 4 30 22 19 15 30 15 Tab. 5: Tablica decyzyjna dla ośrodka wczasowego r ij θ 1 θ 2 θ 3 θ 4 s i a 1 0 3 10 10 10 a 2 3 0 0 8 8 a 3 16 8 4 6 16 a 4 25 12 11 0 25 Tab.6:Tablicawartości [r ij ]dlaośrodkawczasowego alternatywy a 3,dlakryteriumHurwicza,gdywspółczynnik α = 0.5alternatywą optymalnąjest a 4.DlakryteriumSavage amusimynajpierwwyznaczyćtablicę r ij,którąpodanowtablicy6.decyzjąoptymalnąjestwtymprzypadkuwybór alternatywy a 2. Drzewa decyzyjne- DD Do analizy problemów decyzyjnych szczególnie w sytuacjach, gdy mamy do czynienia z decyzjami wieloetapowymi szczególnie stosuje się tzw. drzewa decyzyjne. Ich definicję i zastosowanie podamy na przykładzie. Przykład 4. Inwestor T.B. Puckett nabył firmę produkującą materiały tekstylne. Teraz zastanawia się nad przyszłością tej firmy. Rozważa trzy warianty decyzji: 1. Rozbudować fabrykę i produkować lekkie, trwałe materiały, przeznaczone na rynek wojskowy, na którym nie ma dużej zagranicznej konkurencji. 2. Utrzymać ststus quo, nadal produkując materiały tekstylne, w której to branży istnieje ostra zagraniczna konkurencja. 3. Natychmiast sprzedać fabrykę. W przypadku wyboru jednego z pierwszych dwóch wariantów decyzji fabryka zostaniesprzedanaporoku.zyskzesprzedażyfabrykiporokuzależyodwarunkówna rynku zagranicznym i od losów ustawy o embargu handlowym. Sytuacja decyzyjna jest przedstawiona w tabeli decyzyjnej 7. Rozważany problem możemy zapisać w postaci drzewa decyzyjnego(rys.), w którym wyróżniamy węzły: decyzyjne(oznaczone kwadratem), losowe(oznaczone
A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe8 Stany natury Dobre warunki na Złe warunki na Decyzja rynku zagranicznym rynku zagranicznym Rozbudować 800000zł. 500000zł. Utrzymać stan obecny 1300000zł. -150000zł. Sprzedać natychmiast 320000zł. 320000zł. Tab. 7: Tablica decyzyja firmy Puckett większymi kółkami) oraz końcowe(oznaczone małymi kólłkami). Z węzła decyzyjnego1wychodzą3krawędziedowęzłówlosowych2,3i4.krawędzieteoznaczają alternatywy decyzyjne. Z każdego węzła losowego wychodzą dwie krawędzie odpowiadające możliwym stanom natury tj. dobrym z prawdopodobieństem 0.7 i złym z prawdopodobieństwem 0,3 warunkom na rynkach zagranicznych. Węzły końcowe mają przypisane wartości zysku odpowiadającego sytuacji, gdy decydent podejmie jakąś decyzję i zajdzie określany stan natury. Liczby przy węzłach losowych są wartościami oczekiwanymi zysku przy wyborze przez decydenta odpowiedniej decyzji. Z drzewa decyzyjnego możemy odczytać, że decyzją optymalna dla pana Packetta jest wybór alternatywy zachować stan obecny, która daje mu oczekiwany zysk wynoszacy 865000zł. Rozważymy teraz sytuację, gdy w problemie decyzyjnym oprócz danych prawdopodobieństw stanów, które nazywa się prawdopodobieństwami a priori dysponujemy dodatkowymi informacjami tzw. prawdopodobieństwami a posteriori. W rozważanym poprzednio problemie załóżmy, że pan Packett wynajął firmę kosultingową do opracowania raportu o politycznej i rynkowej sytuacji w przyszłości. Raport będzie albo pozytywny(p) albo negatywny(n), wskazując na dobre(g) albo złe(p) przyszłe warunki na rynku zagranicznym. Warunkowe prawdopodobieństwa uzyskania każdej z ocen stanu rynku przy danych stanach natury są następujące: Pr(P/g) = 0.7 Pr(N/g) = 0.3; Pr(P/p) = 0.2, Pr(N/p) = 0.8. Te prawdopodobieństwa warunkowe pozwalają wyznaczyć(korzystając ze wzoru
A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe9 Dobre warunki(0.7) 710000zł. 800000zł. Rozbudować 2 Złe warunki(0.3) 500000zł. 1 Status quo 865000zł. Dobre warunki(0.7) 3 Złe warunki(0.3) 1700000zł. -150000zł. Sprzedać Dobre warunki(0.7) 320000zł. 320000zł. 4 Złe warunki(0.3) 320000zł. Rys. 1: Drzewo decyzyjne Puckett Bayes a) prawdopodobieństwa a posteriori. P r(p/g)p r(g) Pr(g/P) = Pr(P/g)Pr(g)+Pr(P/p)Pr(p) (1) (0.7)(0.7) = (0.7)(0.7) +(0.2)(0.3) (2) = 0.891 (3) Pr(p/P) = 0.109 (4) P r(n/g)p r(g) Pr(g/N) = Pr(N/g)Pr(g)+Pr(N/p)Pr(p) (5) (0.3)(0.7) = (0.3)(0.7) +(0.8)(0.3) (6) = 0.467 (7) Pr(p/N) = 0.533. (8)
A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe10 Znajomość tych prawdopodobieństw pozwala na skonstruowanie drzewa decyzyjnego z prawdopodobieństwami a posteriori i przeprowadzenie analizy w celu wyznaczenia strategii optymalnej. Nowe drzewo decyzyjne ma węzeł początkowy(jest to węzeł losowy) 1, z którego wychodzą dwie krawędzie odpowiadającę dwóm możliwym stanom natury(raport pozytywny lub negatywny). Następnie mamydwawęzłydecyzyjne2i3zktórychwychodząpotrzykrawędzieodpowiadające decyzjom, jakie decydent może podjąc. Krawędzie te prowadzą do węzłów losowych 4,5,6,7,8 i 9, z każego z nich wychodzą po dwie krawędzie(odpowiadające dwóm stanom natury) do węzłów końcowych. Drzewo decyzyjne wraz wartościami oczekiwanych wypłat(zysku) dla węzłów podaje rys.. 1141850 2 Pozytywny Pr(P)=0.55 Rozbudowa 767300 Status quo 1141950 Sprzedaz 320000 4 5 6 Pr(g/P)=0.891 Pr(p/P)=0.109 Pr(g/P)=0.891 Pr(p/P)=0.109 Pr(g/P)=0.891 Pr(p/P)=0.109 800000 500000 1300000 150000 320000 320000 1 916117.5 Pr(N)=0.45 Negatywny 3 640100 Rozbudowa 640000 527150 Status quo 7 8 Pr(g/N)=0.467 Pr(p/N)=0.533 Pr(g/N)=0.467 Pr(p/N)=0.533 800000 500000 1300000 150000 Sprzedaz 320000zł. 9 Pr(g/N)=0.467 Pr(p/N)=0.533 320000 320000 Rys. 2: Drzewo decyzyjne z prawdopodobieństwami a posteriori Z analizy dzrzewa możemy odczytać strategię optymalną. Jeśli raport będzie pozytywny, to decydent powinien wybrać alternetywę Status quo, która przy-
A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe11 niesie mu największy oczekiwany zysk 1141950zł. Natomiast w przypadku otrzymania rapotru negatywnego powinien wybrać alternatywę Rozbudować, dla której oczekiwany zysk wynosi 640100zł. Takie postępowanie jest optymalne, decydent w ten sposób zapewnia sobie oczekiwany zysk wynoszący 916117.5zł. Bez tej dodatkowej informacji(znajomości prawdopodobieństw a posteriori ) jego oczekiwany zysk wynosi tylko 865000zł. Gry dwuosobowe o sumie zerowej W poprzednio rozpatrywanych sytuacjach decyzyjnych na efekty działań decydenta miały wpływ stany natury. Obecnie zajmiemy się sytuacjami, gdy na działania decydenta ma wpływ nie natura, którą możemy traktować jako pasywnego oponenta lecz inny racjonalnie działający decydent. W teorii gier obu decydentów nazywamy graczami. Zajmować się będziemy tylko grami dwuosobowymi o sumie zerowej. W takich grach podejmowane przez obu graczy decyzje nazywane sa strategiami. Efekt(użyteczność) podjęcia strategii i przez jednego gracza, gdy drugi gracz wybrał strategię j nazywa się wypłatą i oznaczamy przez [w ij ], i = 1,...,m; j = 1,...,n.Wgrachosumiezerowypłata(wygrana)dla jednego gracza jest równa przegranej drugiego. Przykład5.Mamydwóchgraczy:gracza1igracza2.Każdyznichdysponuje trzema strategiami 1,2 i 3. Macierz wypłat podaje tabela 8 Macierz wypłat Gracz 2 Strategie 1 2 3 1 1 2 4 Gracz1 2 1 0 5 3 0 1-1 Tab.8:Macierzwypłatgry1 Macierz wypłat tej gry jest dość specyficzna i rozwiązanie otrzymamy wykorzystując koncepcję strategii zdominowanych. Mówimy, że strategia i jest zdominowana przez strategię k jeśli strategia k jest co najmniej tak dobra jak i(a czasami lepsza), bez względu na to, co zrobi oponent(drugi gracz). Formalnie strategię i będziemy nazywać strategią zdominowaną przez strategię k, jeśli j=1,...,n w ij w kj oraz l w il < w kl. Natomiast k nazywamy strategią dominującą, jeśli: j=1,...,n w kj = max i {w ij }.
A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe12 Strategie, które nie są zdominowane przez inne strategie nazywamy strategiami niezdominowanymi. Racjonalnie działający decydent będzie dokonywał wyboru spośród strategii niezdominowanych. Strategia 3 jest dla gracza 1 zdominowaną przez strategię 1, gdyż bez względu na to jaką strategię wybierze gracz 2 wypłatagracza1jestprzywyborzestrategii3nieniższaniżwypłataprzywyborze strategii 1. Zatem wiersz trzeci odpowiadający strategii zdominowanej możemy skreślić z macierzy wypłat. Zredukowana macierz wypłat jest podana w tablicy 9. Ponieważ zakładamy racjonalność obu graczy, to gracz 2 też ma strategię zdomi- 1 2 3 1 1 2 4 2 1 0 5 Tab. 9: Zredukowana macierz gry11 nowaną 3. Jest ona zdominowana zarówno przez strategię 1 jak i przez strategię 2. Eliminujemy strategię 3 gracza 2 co daje macierz wypłat 10: Teraz strategia 2 1 2 1 1 2 2 1 0 Tab. 10: Zredukowana macierz gry12 dla gracza 1 jest zdominowana przez strategię 1. Eliminując zdominowaną strategięmamymacierzwypłatpodanąwtablicy11:strategia2dlagracza2jet 1 2 1 1 2 Tab. 11: Zredukowana macierz gry13 zdominowana przez strategię 1 zatem powinna być wyeliminowana. Ostatecznie obaj gracze powinni wybierać strategie 1. Gracz 1 otrzyma wtedy wypłatę 1, ta wartość jest przegraną gracza 2. Jest to wartość gry. Jeśli wartość gry jest 0, to nazywa się grą sprawiedliwą(rozważana gra nie jest grą sprawiedliwą, gdyż jej wartość wynosi 1). Koncepcja zdominowanych strategii pozwala na redukcję wymiaru macierzy wypłat i w niektórych przypadkach pozwala wyznaczyć rozwiązanie gry. Jednak w większości przypadków potrzebujemy innego podejścia, które zaprezentjemy na dwu kolejnych przykładach. Przykład 6. Rozpatrzymy teraz grę o macierzy wypłat podanej w tablicy 12 Wtejgrzegracz1stosującstrategię1możewygrać6alemożerównieżprzegrać 3(wypłata-3). Stosując strategię 3 może wygrać 5 ale może przegrać 4. Natomiastwstrategii2jegowygranabezwzględunatocozrobigracz2będzieco
A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe13 Macierz wypłat Gracz 2 Strategie 1 2 3 Minimum 1-3 -2 6-3 Gracz1 2 2 0 2 0 max 3 5-2 -4-4 Maximum 5 0 6 min Tab.12:Macierzwypłatgry2 Macierz wypłat Gracz 2 Strategie 1 2 3 Minimum 1 0-2 2-2 max Gracz1 2 5 4-3 -3 3 2 3-4 -4 Maximum 5 4 2 min Tab.13:Gra3-niemapunktusiodłowego najmniej0.analizującstrategiedlagracza2mamy,żewstrategiach1i3jego maksymalna przegrana wynosi odpowiednio 5 i 6. natomiast w strategii 2 tylko zero. Obaj gracze powinni zatem wybrać strategię 2, gdyż każdemu z nich zapewnia ona w najgorszym przypadku najlepszy wynik. Jest to tzw. kryterium minimaksowe standardowo proponowane w teorii gier do wyboru strategii optymalnej. Według tego kryterium gracz 1 powinien wybrać strategię,dla której minimalnawypłatajestnajwiększa(tj. max i min j {w ij })agracz2strategiędlaktórejmaksymalnawypłatagracza1jestjestnajmniejsza(tj. min i max j {w ij }).W analizowanym przykładzie strategią max min jest strategia 2 gracza 1 a strategią minmaxjeststrategia2dlagracza2.wartośćgryjestrówna0,czylijesttogra sprawiedliwa.wtejgrzetensamelementmacierzywypłat(w 22 = 0)jestjednocześnie wartością max min i wartością min max, czyli mamy element, który jest najmniejszy w wierzsu i jednocześnie największy w kolumnie. Taki punkt, jesli istnieje, nazywa się punktem siodłowym. Jesli gra ma punkt siodłowy, to obaj gracza powinni do wyboru strategii optymalnej stosować odpowiednio max min i minmaxstrategie.jednakniekażdagraposiadapunktsiodłowy-takąjestnp. gra3. Wrozważanejpoprzedniogrzewartościmax i min j w ij = 2 2 = min i max j w ij
A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe14 niesąrównecooznacza,żegranieposiadapunktusiodłowego.wtejgrzeinformacja o tym jaką strategię wybierze jeden z graczy pozwala drugiemu poprawić swoją pozycję. Koncepcja rozwiazania optymalnego w tego typu grach oparta jest na pojęciu strategii miesznych, które charakteryzują się tym, że żaden z graczy nie może wydedukować jaką strategię użyje oponent. Strategie mieszane dla gry bez punktu siodłowego Dla gier nie posiadających punktu siodłowego dla każdego z graczy wyznacza się rozkłady prawdopodobieństwa na zbiorach ich strategii. Niech: x i = prawdopodobieństwo,żegracz1użyjestrategiii(i = 1,...,m), y j = prawdopodobieństwo,żegracz2użyjestrategiij(j = 1,...,n), gdzie m i=1 x i = 1, n j=1 y j = 1.Wartości x i,i = 1,...,moraz y j,j = 1...,n nazywamy strategiami mieszanymi natomiast oryginalne strategie strategiami czystymi. W trakcie gry każdy z graczy wybiera strategię czystą jednak powinienwybieraćjąwpewienlosowysposóbzgodnyzrozkładem (x 1,x 2,...,x m )dla gracza1irozkładem (y 1,y 2,...,y n )dlagracza2.np.jesli (x 1,x 2,x 3 ) = ( 1, 1,0) 2 2 a (y 1,y 2,y 3 ) = (0, 1, 1),togracz1niepowinienwybieraćstrategiiczystej3a 2 2 wybór strategii 2 lub 3 rozstrzygnąć rzucając monetą. Analogicznie gracz 2 nie powinien wybierać czystej strategii 1 a wybór pomiędzy strategiami 2 i 3 rozstrzygnąć rzucając monetą. Przy stosowaniu strategii mieszanych przez każdego z graczy oczekiwaną wygraną gracza 1 jest Oczekiwana wypłata gracza 1 = m n w ij x i y j, i=1 j=1 gdzie w ij jestwypłatąjeśligracz1używaczystejstrategii iagracz2używa czystej strategii j. W rozpatrywanej poprzednio grze 3 jeśli gracze 1 i 2 stosująodpowiedniostrategiemieszane (x 1,x 2,x 3 ) = ( 1 2, 1 2,0)i(y 1,y 2,y 3 ) = (0, 1 2, 1 2 ) tooczekiwanawypłatagracza1wynosi 1 4 ( 2 + 2 + 4 3) = 1 4.Minimaksowe (min max) ktyterium dla strategii mieszanych mówi, że gracz powinien wybierać strategię mieszaną, która minimalizuje jego maksymalne oczekiwane straty. Równoważnie, jeśli rozważamy wygraną gracza 1(a nie przegraną gracza 2 co jest równoważne) to kryterium to jest maksyminowe(max min), tj. maksymalizuje się minimalną oczekiwaną wypłatę gracza 1. Przez minimalną oczekiwaną wypłatę rozumie się najmniejszą możliwą wypłatę, którę można uzyskać przy dowolnej strategii miesznej, podjętej przez oponenta. Zatem mieszna strategia dla gracza 1 jest optymalną, jeśli minimalna oczekiwana wypłata jest maksymalna. Wartość tą oznaczamy przez w. Dla gracza 2 podobnie optymalną strategią mieszaną jest strategia, która minimalizuje maksymalną oczekiwaną wartość przegranej. Wartość tę oznacza się przez w. Dla gier nie posiadających punktu siodłowego jeśli
A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe15 tylko rozpatruje się czyste strategie, to nie ma rozwiązania stabilnego. Zachodzi wtedy nierówność w < w i gracze mogą zmieniać strategie, aby poprawić swoją pozycję. Dla strategii mieszanych koniecznym warunkiem, aby rozwiązanie optymalnebyłostabilnejestrówność w = w.wgrachosumiezerowejtenwarunek jest zawsze spełniony. Twierdzenie 1. Para strategii miesznych dla graczy jest optymalną dając stabilnerozwiązanieprzykryteriumminimaksowym,(minmax),gdy w = w = w. Stosując te strategie żaden z graczy nie może poprawić swojej pozycji zmieniając jednostronnie swoją strategię. Zastosowanie programowania liniowego do wyznaczenia rozwiązania gry Rozwiązanie dowolnej gry w strategiach miesznych można wyznaczyć rozwiazując pewne zagadnienie programowania liniowego. Rozważymy najpierw jak wyznaczyć optymalną strategię mieszaną gracza 1. Oczekiwana wypłata gracza 1 = m n w ij x i y j, i=1 j=1 istrategia (x 1,x 1,...,x m )jestoptymalnąjeśli m i=1 n w ij x i y j w = w j=1 dlakażdejstrategii(y 1,y 2,...,y n )gracza2.tanierównośćmusirównieżzachodzić dlaczystychstrategiitj. (y 1,y 2,...,y n )takich,żejednawspółrzędna y j = 1a reszta jest zerami. Zatem mamy: m w ij x i wdla j = 1,...,n. i=1 Co więcej ten zbiór nierówności implikuje wyjściową nierówność: n m y j ( w ij x i ) j=1 i=1 n y j w = w, i=1 ponieważ n j=1 y j = 1.Spełnienietychnnierównościjestrównoważnespełnieniu wyjściowejnierównościdlakażdejstrategiiy 1,y 2,...,y n.wyznaczenieoptymalnej strategii może być zatem sprowadzone do rozwiązania następującego zagadnienia
A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe16 programowania liniowego: x m+1 max w 11 x 1 +w 21 x 2 +,+w m1 x m x m+1 0 w 12 x 1 +w 22 x 2 +,+w m2 x m x m+1 0 w 1n x 1 +w 2n x 2 +,+w mn x m x m+1 0 x 1 +x 2 + +x m = 1 x i 0,dla i = 1,2,...,m. Zmienna x m+1 zastępujenieznanąwartość wiwrozwiązaniuoptymalnymbędzie jej równa. Jednak na tę zmienną nie jest nałożony warunek nieujemności. Analogiczne rozumowanie prowadzi do następującego modelu wyznaczania optymalnej strategii gracza2: y n+1 max w 11 y 1 +w 12 y 2 +,+w 1n y n y n+1 0 w 21 y 1 +w 22 y 2 +,+w 2n y n y n+1 0 w m1 y 1 +w m2 y 2 +,+w mn y n y n+1 0 y 1 +y 2 + +y n = 1 y i 0,dla i = 1,2,...,n. Problem wyznaczenia optymalnej strategii mieszanej dla gracza 1 jest dualnym do problemu wyznaczania strategii opotymalnej gracza 2. Z twierdzeń o dualności wiemy,żedlaoptymalnychrozwiązań x m+1oraz y n+1tychzagadnieńmamy,że x m+1 = y n+1czyli x m+1 = y n+1. Zokreslenia wi wmamy,że w = x m+1oraz y n+1 = wskądotrzymujemyrówność w = w. Pozostaje jeszcze jeden element do rozpatrzenia. W podanych modelach liniowychzmienne x m+1,y n+1niesąnieujemne.jeślijestoczywiste,że w 0,to można stosować sympleks. Jeśli tak nie jest należy zastosować jedną z następujących modyfikacji: zamienić zmienną dowolną różnicą dwu zmiennych nieujemnych, zamienić rolami graczy tak, aby wypłata gracza 1 była nieujemna, dodać do macierzy wypłat pewną stałą(równą np. maksymalnej wartości modułów ujemnych wartości macierzy wypłat), tak aby wartość gry w była nieujemną- dodanie stałej nie może zmienić optymalnych strategii, a po rozwiązaniu gry modyfikujemy jej wartość o tę wielkość.
A. Kasperski, M. Kulej, BO: Analiza decyzji, drzewa decyzyjnie, gry dwuosobowe17 Ostatni sposób jast najczęściej stosowany. Zastosujmy teraz programowanie liniowe do wyznaczenia optymalnych strategii mieszanych dla gry 3. Przyjmiemy, żewartośćgryjestnieujemnatj. w 0(okażesiężetakrzeczywiściejest)czyli nie będziemy stosować modyfikacji macierzy wypłat. Przykład7.Wtejgrzestrategia3dlagracza1jestzdominowanązatempowinna być wyeliminowana. Macierz wypłat po usunieciu strategii 3 gracza 1 jest podana wtablicy14modeleliniowedlagracza1igracza2sąnastępujące: Macierz wypłat Gracz 2 Strategie 1 2 3 1 0-2 2 Gracz1 2 5 4-3 Tab. 14: Gra 3 po wyeliminowaniu zdominowanej strategii 3. x 3 max 5x 2 x 3 0 2x 1 +4x 2 x 3 0 2x 1 3x 2 x 3 0 x 1 +x 2 = 1 x 1, x 2 0. y 4 min 2y 2 +2y 3 y 4 0 5y 1 +4y 2 3y 3 y 4 0 y 1 +y 2 +y 3 = 1 y 1, y 2, y 3 0. Rozwiązując te modele otrzymujemy dla bgracza 1 optymalne strategie mieszane x 1 = 7, 11 x 2 = 4 iwartośćgry w = 11 x 3 = 2.Dlagracza2mamy 11 y 1 = 0, y2 = 5, 11 y 3 = 6 oraz w = 11 y 4 = 2.Torozwiązaniemożnaotrzymaćzrozwiązania 11 modelu dla gracza 1 dlatego wystarcza rozwiązać tylko jeden z tych modeli, aby otrzymać strategie optymalne dla obu graczy. Rozwiązania zostały otrzymane przy założeniu,że w 0.Jeśliniejestspełnionetozałożenie,tomodelmożeniemieć rozwiązania dopuszczalnego. Aby tego uniknąć dodajemy do macierzy wypłat stałą 3 i odpowiednio modyfikujemy ograniczaenia. Po rozwiązaniu tylko wartość gry zmnieszamy o 3.