Kurs z NetLogo - część 4. Mateusz Zawisza Zakład Wspomagania i Analizy Decyzji Instytut Ekonometrii Szkoła Główna Handlowa Seminarium Wieloagentowe Warszawa, 10.01.2011
Agenda spotkań z NetLogo 15. listopada 2010 29. listopada 2010 Praca z gotowym modelem z biblioteki NetLogo zapoznanie się z elementami interejsu użytkownika symulacji, np. przycisków, wykresów, suwaków 13. grudnia 2010 Budowa własnego modelu: pisanie procedur w jezyku NetLogo tworzenie elementów interfejsu użytkownika symulacji 10. stycznia 2011 (poniedziałek, godz. 18.45, 5C-C) Techniczne aspekty uczenia się agentów Poznanie algorytmu Fictitious Play Implementacja Fictitious Play na przykładzie gry koordynacyjnej w NetLogo
Cechy modelu wieloagentowego za Gilbert (2008) Ontologiczne odwzorowanie Możliwość modelowania obiektów świata rzeczywistego (np. przedsiębiorstw) w spsób bezpośredni poprzez tworzenie odpowiednich klasy obiektów, a nie przy pomocy np. równań matematycznych Heterogeniczni agenci Reprezentacja środowiska przykładem środowiska jest grid, a więc lokalizacja agentów, ale także wszystkie publicznie dostępne informacje, np. ceny Interakcje agentów Ograniczona racjonalność agenci nie maksymalizuja swojej funkcji dobrobytu explicite, ale posługują się prostymi regułami decyzyjnymi Uczenie się agentów
Czym jest model uczenia? Na model uczenia się składaja się dwa procesy: proces zbierania danych potrzebnych do podjęcia decyzji, tj. jakie informacje sa zbierane i w jaki sposóbaktualizowane? proces decyzyjny warunkowany zebrana informacja Warunek uczenia się agentów: gra musi być grana wielokrotnie jeśli gra jest pojedyńcza, nie ma mowy o uczeniu się
Po co potrzebujemy algorymów uczenia się agentów? za Fudenberg, Levine (1998) Tradycyjna Teoria Gier koncentruje się na wyszukiwaniu równowag Nasha, niewiele mówiac jak gracze maja osiagać konkretne stany równowagowe, szczególnie gdy równowagi sa liczne, a gracze nie sa hiperracjonalni Teoria uczenia się pozwala na objaśnienie wielu równowag, jako wynik długotrwałego procesu uczenia się agentów o ograniczonych zdolnościach poznawczych Algorytmy uczenia się pozwalaja skupić się tylko na tych równowagach, do których zbiega proces uczenia się i uznać pozostałe równowagi jako nieciekawe
Sposoby modelowania uczenia się za Gilbert (2008) indywidualne - przez własne doświadczenie ewolucyjne/populacyjne - poprzez proces umierania i rodzenia - najlepsze gatunki sa promowane w wyniku ewolucji społeczne - gracze naśladuja lub sa uczeni przez innych graczy, a także dziela się wiedza z innymi graczami
Model na dziś populacja N graczy w każdym okresie t = 0, 1,..., T max gracze sa dobierani w pary i graja następujac a grę koordynacyjna A B A 1,1 0,0 B 0,0 1,1 w okresie stratowym t = 0 każdemu graczowi i przypisywana jest jedna z dwóch strategii: A lub B
Proces uczenia Fictitious Play Wagi przywiazywane do strategi i zasada ich aktualizacji każdry z graczy przywiazuje określona wagę do strategii A i B: η ia (t) i η ib (t). w okresie t = 0 wagi sa inicjowane na zero, tj. η ia (0) = 0 i η ib (0) = 0. w okresie t + 1 wagi sa aktualizowane zgodnie z tym co zagrał przeciwnik i-tego gracza - gracz j η ia (t + 1) = η ib (t + 1) = { ηia (t)+1 dla s j (t) = A η ia (t) dla s j (t) = B { ηib (t)+1 dla s j (t) = B η ib (t) dla s j (t) = A
Proces uczenia Fictitious Play Subiektywne prawdopopodobieństwa rozkładu strategi w populacji wyobrażenie i-tego gracza o rozkładzie strategii granych w populacji w okresie t, określone jest przez µ ia (t) i µ ib (t) µ ia = µ ib = η ia (t) η ia (t)+η ib (t) η ib (t) η ia (t)+η ib (t)
Proces uczenia Fictitious Play Reguły decyzyjne wyboru strategii Oczekiwana wypłata z grania strategii A równa jest 1µ ia + 0µ ib = µ ia. Analogicznie, wypłata z grania strategii B wynosi: µ ib. Ponieważ µ ia +µ ib = 1, to reguła decyzyjna maksymalizujaca wypłatę ma postać: dla gracza, grajacego dotychczas A: { B gdy µib (t) > 0.5 s i (t) = A wpp. dla gracza, grajacego dotychczas B: { A gdy µia (t) > 0.5 s i (t) = B wpp.