Zastosowania algorytmu uczenia się ze wzmocnieniem. Temporal Difference Learning. na przykładzie konkretnego systemu TD-GAMMON

Transkrypt

1 Wrocław, 25. sycznia 2007 Zaawansowane Meody Szucznej Ineligencji Poliechnika Wrocławska Wydział Inforayki i Zarządzania V rok sudiów Zasosowania algoryu uczenia się ze wzocnienie Teporal Difference Learning na przykładzie konkrenego syseu TD-GAMMON Auor dokuenu: STAWARZ Paweł Prowadzący: dr Maciej Piasecki Indeks: Daa wygłoszenia: Daa dosarczenia:

2 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon Spis reści ABSTRAKT...3 WPROWADZENIE...4 TEMPORAL DIFFERENCE LEARNING...5 WSTĘP...5 DEFINICJA ALGORYTMU...7 TD-GAMMON...0 WSTĘP...0 WYKORZYSTANIE TD-LEARNING...2 WYNIKI EKSPERYMENTÓW...4 LITERATURA...5 Paweł Sawarz, / 5

3 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon Absrak W niniejszej pracy zaprezenowany zosanie algory uczenia się ze wzocnienie Teporal Difference Learning. Po króki wprowadzeniu doyczący nadzorowanego i nienadzorowanego uczenia zajiey się opise działania ego algoryu jak również jego foralnyi podsawai. Zwróciy akże uwagę na jego korzyści. Nasępnie zapoznay się ze spekakularnyi wynikai zasosowania ego algoryu w prakyce na przykładzie gry backgaon. Paweł Sawarz, / 5

4 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon Wprowadzenie Algoryy uczące się są jednyi z najbardziej popularnych podejść wykorzysania echnik szucznej ineligencji we współczesny świecie. Rozwijane niealże od kilkudziesięciu la doczekały się już różnych swoich odian. Idea powsawania ego ypu algoryów wzięła się z obserwacji procesu uczenia się człowieka. Poprzez analogię do rzeczywisych procesów poznawczych próbowano wypracować eody skuecznie uczące się określonych zadań. Wydzielono przy y dwie zasadnicze klasy algoryów bazujących na nadzorowany albo nienadzorowany uczeniu. Pierwsza klasa algoryów zakłada, że proces uczenia się jes w pewien sposób nadzorowany (np. przez nauczyciela). Chodzi uaj o syuacje, w kórych uczeń (algory) kszałuje swoje przyszłe zachowanie (sposób w jaki wykonuje powierzone zadania) na podsawie przedsawionych u przykładów. Najczęściej algoryy e wykorzysują w procesie uczenia zdefiniowany przez nauczyciela zbiór przykładów uczących. Każdy aki przykład składa się zazwyczaj z zesawu ierzalnych cech go opisujących oraz właściwego sposobu posępowania. Na przykład w procesie klasyfikacji obieków, każdy obiek ze zbioru uczącego jes już odgórnie sklasyfikowany, a zadanie ucznia jes nauczenie się poprawnej (najlepiej suprocenowej) klasyfikacji ych obieków, aby na ej podsawie óc klasyfikować inne, niewidziane wcześniej, obieky. Wykorzysuje się przy y częso zw. zbiór przykładów esowych, aby zweryfikować sopień ineligencji wyuczonego algoryu. Zbiór en zawierałby, w przypadku klasyfikacji obieków, nieznane uczniowi poprawnie sklasyfikowane obieky. Druga klasa algoryów, bazujących na nienadzorowany uczeniu, zakłada z kolei, że proces uczenia się nie jes w żaden sposób nadzorowany. Jes o pewnego rodzaju uczenie się na zasadzie prób i błędów. Uczeń nie dysponuje żadnyi poprawnyi przykładai zachowań. Jego zadanie jes saodzielne ukszałowanie własnego prawidłowego posępowania. Jedyny założenie jes fak, że w rakcie nauki, w wyniku wykonywania określonych działań, środowisko zewnęrzne ucznia odpowiada pewnyi bodźcai pozyywnyi i negaywnyi. Dzięki eu uczeń oże czuć się nagradzany w syuacji gdy zacznie osiągać cel, jak również przeciwnie karcony w syuacji gdy od ego celu zacznie znacznie zbaczać. Dlaego eż ówi się również o zw. algoryach uczenia się ze wzocnienie. Wzocnienie jes w y przypadku każdy bodziec zewnęrzny środowiska, w kóry uczeń się uczy. Bardzo ławo znaleźć analogię poiędzy wyienionyi wyżej klasai algoryów uczących się a prawdziwy życie. Już od wczesnych la, każde dziecko podlega zarówno nienadozorowaneu jak i nadzorowaneu uczeniu. W procesie nadzorowanego uczenia bardzo częso uczesniczą rodzice będący w roli nauczycieli. To oni sanowią.in. wzorce uczące dla swojego dziecka, kóre podglądając je sara się jak najlepiej odwzorować. Naoias nienadzorowane uczenie przejawia się najczęściej podczas saodzielnej zabawy, w kórej dziecko doznaje nowych osobliwych wrażeń. Na przykład wciskając przyciski swoich elekronicznych zabawek doświadcza efeków audio-wizualnych, kóre wzbudzają w ni upodobanie, a inny raze doykając gorącego pieca doświadcza poparzenia, kóre wzbudza w ni srach przed ponowny aki doświadczenie. Paweł Sawarz, / 5

5 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon Teporal Difference Learning Wsęp W dalszej części pracy zajiey się wybrany algorye uczenia się ze wzocnienie Teporal Difference Learning. Algory en znany również pod nazwai TD-Learning bądź TD(λ) zaliczany jes do klasy przyrosowych procedur uczących ukierunkowanych na predykcję w nie do końca poznanych syseach, zn. akich, w kórych nie znany jes rzeczywisy sposób działania dla określonego sanu, w kóry oże się znajdować. Procedury e wykorzysują swoje przeszłe doświadczenie do przewidywania przyszłego zachowania obserwowanego syseu. Pojęcie ich przyrosowości zosanie lepiej przybliżone w dalszej części pracy. Po ewenualne szczegóły doyczące zasad działania algoryu TD-Learning waro zajrzeć do pracy R. S. Suon`a [], w kórej ożna znaleźć dość foralny jego opis. W pracy ej Suon udowadnia iędzy innyi, iż algory en wykazuje lepsze wykorzysanie zdobywanego doświadczenia od innych znanych doychczas eod uczenia oraz jes bardziej opyalny (pod względe szybkości obliczeń i zajęości paięci) i szybciej zbieżny do docelowego rozwiązania będącego osaeczny odele obserwowanego syseu. W celu rozjaśnienia ogących pojawić się we wsępie wąpliwości wyobraźy sobie nasępujące nie do końca poznane przez nas sysey, w kórych oawiana dalej eoda uczenia ogłaby jak najbardziej znaleźć zasosowanie. Pierwszy przykłade oże być ocena pozycji szachowej (Rysunek.) pod kąe wygranej jednej ze sron. Niealże nieskończoność królewskiej gry nie pozwala na z pewnością ocenić ilionów podobnych syuacji, ponieważ porzebowalibyśy w y celu rozwinąć z każdej akiej pozycji całe drzewo gry i dopiero na jego podsawie oglibyśy swierdzić czy przy najlepszej grze obu sron ożliwa jes czyjaś wygrana. W większości przypadków jednak rozwinięcie całego drzewa gry graniczy z cude ze względu na bardzo duży współczynnik rozgałęzienia. W przyoczony przykładzie ay do czynienia z pozycją, w kórej białe ają przewagę aerialną (posiadają jednego pionka więcej). Okazuje się jednak, że suprocenowa ocena ej pozycji nie jes do końca ożliwa. Jeżeli założyy, że białe znajdują się na ruchu, o w prosu sposób ogą one doprowadzić do syuacji, kóra uważana jes przez szachisów za wygraną (grając heane z pola f7 na pole e7 z szache zuszają czarne do wyiany heanów doprowadzając do syuacji, w kórej białe bez przeszkód ogą wykorzysać przewagę pionka wędrując ni do pola przeiany znajdującego się na ósej linii). Jeżeli jednak założyy, że czarne znajdują się na ruchu, o sprawa nie jes już ak oczywisa, ponieważ czarne ogą wykorzysać swojego heana w celu wiecznego szachowania białego króla i urzyania np. reisu. Kolejny prosy przykłade oże być prognoza pogody, a właściwie jej szczególny przypadek, w kóry oceniany jes bieżący układ chur (Rysunek 2.) pod kąe ożliwości pojawienia się deszczu. Oczywiście w pewnych skrajnych syuacjach jeseśy w sanie swierdzić czy będzie padać czy nie, ale io wszysko nie wszyskie przypadki będą dla nas ak klarowne. Właściwie prognozowanie deszczu dla pewnych układów Paweł Sawarz, / 5

6 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon chur oże się sprowadzać jedynie do wróżenia z fusów. Jedno jes naoias pewne wszelkie zjawiska pogodowe wynikające z bieżących warunków aosferycznych nie są przez nas do końca poznane. Rysunek. Czy dana pozycja szachowa oże prowadzić do wygranej kórejś ze sron? Rysunek 2. Czy dany układ chur oże prowadzić do deszczu? Inny przykłade oże być akże prognozowanie zachowań cen akcji na giełdzie wynikających z bieżących warunków ekonoicznych. Nigdy nie ożey być w su procenach pewni czy nasze przypuszczenia są rzeczywiście słuszne. Rysunek 3. Czy dane warunki ekonoiczne ogą prowadzić do poprawy warunków na giełdzie? Modelowanie wszyskich powyższych syseów sprowadza się osaecznie do nienadzorowanego uczenia, w kóry wykorzysujey wszelkie zdobye doświadczenia w rakcie ich obserwacji do przyszłego przewidywania ich działania. Waro jeszcze wsponieć, iż algory Teporal Difference Learning w odróżnieniu od doychczasowych klasycznych eod uczenia nie porównuje bieżącej predykcji z właściwą odpowiedzią dla danego przykładu, ylko porównuje kolejne predykcje aż do oenu uzyskania właściwej odpowiedzi sąd eż jego nazwa Paweł Sawarz, / 5

7 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon eporal-difference-learning co ożna dosłownie przełuaczyć jako uczenie opare na różnicach czasowych. Zasadniczy założenie w ej eodzie jes fak, że właściwa odpowiedź syseu jes obserwowalna dopiero po określonej sekwencji danych wejściowych. Dlaego eż poiędzy kolejnyi wejściai w procesie uczenia wykorzysywane są ylko i wyłącznie predykcje uczącego się algoryu. Dla przykładu ożna przyoczyć ponownie proble prognozy pogody. Załóży, że naszy zadanie jes przewidywanie w każdy dniu ygodnia czy w najbliższą soboę będzie padał deszcz. W klasyczny podejściu predykcję z każdego dnia ygodnia porównalibyśy z osaeczny wyjście (wzocnienie), kóre jes obserwowalne dopiero w soboę i na ej podsawie wyniknęłyby ewenualne ziany w uczony syseie. W podejściu TD-Learning naoias predykcję każdego dnia ygodnia porównywalibyśy z predykcją z dnia nasępnego. W en sposób w syuacji gdy na przykład w poniedziałek przewidywalibyśy, że w soboę będzie padać z prawdopodobieńswe 50%, a we worek z prawdopodobieńswe 80%, o drugie podejście spowodowałoby wzros predykcji dla podobnych poniedziałków w przyszłości, naoias o pierwsze spowodowałoby wzros lub spadek w zależności od właściwego sanu na soboę. W przykładzie y uwidacznia się przy okazji jedna z korzyści płynąca ze sosowania algoryu uczenia TD-Learning w porównaniu do doychczas znanych w procesie uczenia nie usiy czekać do osaecznego wyjścia obserwowanego syseu, a co za y idzie nie usiy składować w paięci wszyskich obserwacji. Dzięki eu w syseach, w kórych właściwe wzocnienie przychodzi po dość długi czasie, ożey zaoszczędzić sporo paięci. Drugą zaleą jes sa fak obliczeń obliczenia wpływające na ewenualne ziany syseu uczącego ogą być dokonywane w rakcie obserwacji kolejnych wejść (sanów obserwowanego syseu), a nie, ak jak w przypadku doychczasowych eod, dopiero po orzyaniu osaecznej odpowiedzi. Wszyskie zaley podejścia TD(λ) uwidaczniają się ak naprawdę w zw. probleach wielokrokowych (ulisep predicion probles), w kórych inforacja o prawidłowości poszczególnych predykcji uzyskiwana jes po więcej niż jedny kroku (każdy krok, o kolejna obserwacja syseu). W każdy aki kroku uzyskiwana jes ylko częściowa inforacja odpowiadająca prawidłowości predykcji, na kórą składa się nowa obserwacja wejściowa wraz z nową dla niej predykcją. W ego ypu probleach TD(λ) wprowadza szereg niespoykanych doychczas ożliwości uczenia wyrażanych różnyi warościai paraeru λ. Naoias w probleach jednokrokowych (single-sep predicion probles) działanie oawianego algoryu sprowadza się właściwie do działania doychczas już znanych. Meoda TD(λ) zosała bardzo poyślnie wykorzysana w 992 roku w prograie TD-GAMMON grający na bardzo wysoki pozioie w grę backgaon. Sukces ego prograu doprowadził do zwiększenia zaineresowania ą eodą w zasosowaniu w różnych grach sraegicznych. Realizacja ego prograu zosanie jeszcze w iarę szczegółowo oówiona w osaniej części pracy. Definicja algoryu Załóży, że rozważay wielokrokowy proble predykcyjny, w kóry każde doświadczenie składa się z sekwencji obserwacji x, x, 2 K, x (gdzie każdy x jes wekore rzeczywiso-liczbowych danych Paweł Sawarz, / 5

8 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon wejściowych doyczących obserwacji syseu w chwili ) zakończonych osaeczny rzeczywisoliczbowy wyjście z (wzocnienie). Dla każdej sekwencji obserwacji uczeń generuje odpowiadającą i sekwencję predykcji P, P2,..., P szacujących osaeczne wyjście z syseu. W ogólności każda predykcja P oże być funkcją wszyskich poprzedzających ją obserwacji oraz wekora odyfikowalnych paraerów (wag) w P( x, x,, x, 2 w) założyć, że x oraz paraerów w ( x w) P jes funkcją obserwacji K. Jednakże dla uproszczenia dalszych rozważań ławiej będzie P,. Suon swierdza, że wszyskie inne przypadki ogą być zawsze sprowadzone do ego uproszczonego. Każdy algory uczenia się definiowany jes poprzez regułę akualizacji paraerów w : gdzie w w + = w, () w jes wekore zian wekora wag w wynikających z obserwacji w chwili. W y oencie zakładay jednak, że każda akualizacja paraerów w nasępuje dopiero po pełnej sekwencji obserwacji zakończonych osaeczny wzocnienie. Jak się później okaże ożna rozważać również dwa inne przypadki: bardziej przyrosowy, w kóry akualizacja paraerów wysępuje po każdej obserwacji i niej przyrosowy, w kóry akualizacja wysępuje po cały zbiorze uczący, j. wielu sekwencjach obserwacji. Zani wyprowadziy ogólny wzór na przyros w w podejściu TD-Learning, wyjdziey najpierw od podejścia nadzorowanego uczenia i pokażey, iż jes o szczególny przypadek całej rodziny procedur uczących TD ( λ). Zauważy, że w nadzorowany uczeniu nasze doświadczenie wyrażone byłoby sekwencją par ( x, z), ( x, z),, ( x, 2 K z), a przyros w zależałby od błędu iędzy predykcją P a osaeczny wyjście z : ( z P ) wp w = α, (2) gdzie α jes współczynnikie uczenia (dodania liczba rzeczywisa) i gradien pochodnych cząskowych przyros wag jes wekore P względe kolejnych składowych wekora w. Zauważy, że w każdej chwili zależy od wzocnienia z, co jednocześnie oznacza, że poszczególne przyrosy nie w ogą być wyznaczane dopóki warość ego wzocnienia nie zosanie poznana. Dlaego eż wszyskie obserwacje i predykcje pojawiające się w rakcie doświadczenia uszą być skrzęnie groadzone w paięci do saego końca, w kóry dopiero pojawia się cały proces obliczeniowy związany z akualizacją wekora paraerów w innyi słowy akualizacja a nie oże odbywać się przyrosowo. Okazuje się jednak, iż procedura TD-Learning oże doprowadzić do ego saego sposobu akualizacji wag (2) w sposób bardziej przyrosowy. Zauważy, że ( P ) = ( P P ) P w z k+ k, (3) k= Paweł Sawarz, / 5

9 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon gdzie przyjujey z definicji, iż wyprowadzić wzór na akualizację wag w : def P + = z. Wykorzysując równania ()-(3) ożey w en sposób w w+ = w+ = α k= = w k = w+ ( z P) P = w+ α ( P P ) ( P P ) P = w+ α( P P) k+ k = α w w = k= + = k= w k+ P k k w P = (4) orzyując osaecznie nasępujący wzór na przyros wag: w + w k= ( P P ) = α Pk. (5) Jak widać obliczanie kolejnych w rzeczywiście oże odbywać się w sposób przyrosowy, ponieważ zależy on od różnicy dwóch kolejnych predykcji oraz suy wszyskich gradienów predykcji, kóra oże być obliczana w sposób jak najbardziej przyrosowy (z każda kolejną predykcją). Okazuje się, że w równaniu (5) przedsawiliśy ylko szczególny przypadek procedury uczącej TD ( λ) dla λ =. Cała rodzina procedur uczących TD ( λ) wyraża się nasępująco: w k + λ w k= ( P P ) = α Pk, (6) gdzie λ [ 0; ]. Jak widać w rodzinie ej uwzględnione jes wykładnicze ważenie osanich predykcji. Predykcje bliższe wzocnienia są ważone z większą wagą niż e, kóre odbywały się na say począku doświadczenia. Predykcje e ogą być ważone w sposób inny niż wykładniczy, aczkolwiek główną jego zaleą jes fak, że powyższe wyliczenia ogą odbywać się w sposób jak najbardziej przyrosowy. Korzysając z równania (6), załóży, że e = P k = k λ w k, (7) a wedy w = + ( P P ) e α. (8) Idąc dalej y rope orzyujey, że e λ, (8) + + k k + = wpk = λ λ wpk + wp + = λe + wp + k= k= Paweł Sawarz, / 5

10 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon co oznacza, że kolejne warości paraeru e ogą być wyliczane w sposób przyrosowy na podsawie poprzedniej jej warości oraz bieżącego gradienu predykcji P w. Powyższy fak w isocie w znaczny sposób uławia ipleenację oawianego u algoryu jak również sprawia, że wszyskie, wydawałoby się zagawane obliczenia odbywają się w bardzo króki czasie. Suon w swojej pracy [] bardzo szczegółowo oawia wszyskie ajniki algoryu TD-Learning. Wykazuje on iędzy innyi w swoich eksperyenach (związanych ze spacere losowy) zależności średniego błędu predykcji najlepiej wyuczonego syseu od fakycznych warości obserwowanego syseu dla różnych warości paraeru α (współczynnika uczenia) oraz paraeru λ (paraeru TD-Learning) Rysunek 4. TD-Gaon Wsęp Rysunek 4. Średni błąd predykcji w zależności od warości paraerów α oraz λ. Waro zauważyć, że eksperyeny Suona wykazały, iż syse uczący najlepiej odwzorowuje obserwowany syse dla warości paraerów α = 0. 3, λ = 0. 3 (zn. z najniejszy błęde), naoias najbardziej uogólnia en syse dla warości λ = wraz z duży współczynnikie uczenia α. W niniejszej części pracy skupiy się już na prakyczny zasosowaniu algoryu uczenia się ze wzocnienie TD-Learning. Jak o już wcześniej zosało wsponiane, TD-Gaon jes najbardziej spekakularny wynikie ego zasosowania. Wyniki eksperyenów przeprowadzonych przez wórcę, Gerarda Tesauro, przeszły jego nawe najśielsze oczekiwania. TD-Gaon jes prograe grający w grę backgaon. Progra nauczył się w nią grać dzięki eodzie uczenia TD-Learning. Zani jednak przejdziey do oówienia niekórych szczegółów projekowych ego prograu, przyoczyy sobie najważniejsze zasady gry backgaon. Gra backgaon jes jedną z najpopularniejszych (obok szachów) gier planszowych, w kórą grają ysiące, a oże nawe iliony osób na cały świecie. W grę backgaon rozgrywane są przeróżne iędzynarodowe urnieje i regularne isrzoswa świaa. Podobno profesjonalnych graczy w backgaon Paweł Sawarz, / 5

11 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon jes o wiele więcej niż profesjonalnych graczy w szachy. Jes o gra sraegiczna nie pozbawiona jednak pewnego eleenu losowości. W pozycji począkowej na planszy znajduje się 5 pionków jasnego koloru oraz 5 pionków koloru cienego (Rysunek 5.) każdy z dwóch graczy dysponuje jedny kolore pionków. Rysunek 5. Pozycja począkowa gry backgaon. Na planszy znajdują się 24 pola (w kszałcie szpiczasych rójkąów), na kórych oże znajdować się dowolna liczba pionków ylko jednego koloru. Gracze wykonują ruchy na przeian. Pierwszeńswo gry jes losowane przez rzu sześcienną koską przez każdego z graczy gracz z większa liczbą oczek zaczyna. Ruch gracza składa się na rzu dwoa sześciennyi koskai oraz odpowiednie przeieszczenie pionków. Jasne pionki przesuwają się przeciwnie do kierunku ruchu wskazówek zegara, naoias ciene pionki przesuwają się zgodnie z y kierunkie. Liczba wyrzuconych oczek decyduje o y, o ile pól do przodu (z perspekywy danego koloru) ogą zosać przeieszczone pionki. Jeżeli przykładowo wyrzucone zosaną liczby 6 i 3, oznacza o, że gracz oże przeieścić jednego pionka o łączną liczbę 9 pól do przodu, albo dwa pionki odpowiednio o 6 oraz 3 pola. Jeżeli na obu koskach wyrzucona zosała a saa liczba oczek, wówczas gracz przeieszcza swoje pionki, ak jakby wyrzucił czery razy ę liczbę. Pionek oże zosać przeieszczony na inne pole ylko i wyłącznie wedy, gdy soi na ni dowolna liczba pionków ego saego koloru albo co najwyżej jeden pionek przeciwnika. Jeżeli na dany polu znajdował się jeden pionek przeciwnika, o w wyniku ego ruchu, pionek en jes zbijany i rafia na zw. belkę pozycję, z kórej rozpoczyna podróż dookoła planszy. Jeżeli na belce znajdują się jakiekolwiek pionki gracza, o jes on zobowiązany do ruchu nii w pierwszej kolejności. Cele gry każdego z graczy jes przeransporowanie wszyskich pionków do osaniej kwary planszy (sześć osanich pól podróży), z kórego nasępnie wykonywana jes ewakuacja pionów poza planszę (Rysunek 6.). Gracz, kóry jako pierwszy pozbędzie się wszyskich swoich pionków wygrywa grę. Rysunek 6. Końcówka gry backgaon. Paweł Sawarz, / 5

12 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon Po przejrzeniu powyższych podsawowych zasad gry backgaon ożey sobie odpowiedzieć na pyanie: jak bardzo złożona jes a gra? Oczywise jes, iż liczba ożliwych rozieszczeń 30 pionków na 26 polach (24 + belka + iejsce poza planszą) jes bardzo duża. Ogrony jes również współczynnik rozgałęzienia analizowanego drzewa gry. Zakładając, że gracz będący na ruchu wyrzucił już odpowiednią liczbę oczek, o średnio rzecz biorąc oże on wykonać swój ruch na około 20 różnych sposobów. Wchodząc jednak głębiej w drzewo gry ożna zauważyć, że z każdy pozioe pojawia się około 36*20=720 ożliwych rozgałęzień (36 o liczba różnych kobinacji wyrzuconych oczek na obu koskach). Chociaż pod koniec gry współczynnik rozgałęzienia zaczyna się znacznie zniejszać, o jednak jego średnia warość urzyuje się w granicach 400. Ławo zae wyobrazić sobie, iż coraz głębsza analiza akiego drzewa gry saje się bardzo uciążliwa a przede wszyski czasochłonna. Dlaego eż porzebna na jes odpowiednia heurysyka skuecznie oceniająca określony san gry backgaon, aby wykorzysać ją na odpowiedni pozioie drzewa gry. Doskonały sposobe odnalezienia ej heurysyki okazało się wykorzysanie w y celu procedur uczących TD(λ) w połączeniu z rójwarswową siecią neuronową uczoną z wykorzysanie wsecznej propagacji błędów dla poprzedzających warsw. Wykorzysanie TD-Learning Gra backgaon w oczywisy sposób oże być rozuiana jako wielokrokowy proble predykcyjny, w kóry wzocnienie (osaeczny wynik gry) nasępuje po sekwencji określonych ruchów zieniających san rozieszczenia pionków na planszy. Jak o zosało pokazane w poprzedni rozdziale algory uczenia TD-Learning doskonale nadaje się do ego ypu probleów. Algory en zosał zaaplikowany w wersji TD- GAMMON 0.0 do uczenia rójwarswowej sieci neuronowej (Rysunek 7.), w kórej warswa wyjściowa składała się z -3 neuronów, warswa ukrya z oraz warswa wejściowa ze 98. W uproszczeniu wyjście ej sieci iało oszacowywać osaeczny wynik gry dla określonych sanów gry (rozieszczeń pionków na planszy). Liczba neuronów w warswie ukryej była najprawdopodobniej dobierana eksperyenalnie, naoias w warswie wejściowej zależała ściśle od sposobu kodowania akualnego sanu gry. Rysunek 7. Srukura rójwarswowej sieci neuronowej z pełnyi połączeniai poiędzy warswai. Paweł Sawarz, / 5

13 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon W pierwszej wersji (0.0) Gerard Tesauro wykorzysał najprosszy i najbardziej surowy sposób reprezenacji sanu planszy nie wykorzysujący żadnej dodakowej wiedzy na ea dodakowych cech gry backgaon. Z każdy z 24 pól planszy sowarzyszonych było 8 neuronów po 4 neurony dla każdego koloru pionków. Zesaw 4 neuronów określał liczbę pionków danego koloru znajdujących się na y polu w nasępujący sposób: jeśli na polu nie znajdują się żadne pionki, o każdy z neuronów przyjuje warość 0, jeśli na polu znajduje się dokładnie jeden pionek, o pierwszy neuron przyjuje warość, a pozosałe warość 0, jeśli na polu znajdują się dokładnie dwa pionki, o pierwsze dwa neurony przyjują warość, a pozosałe dwa warość 0, jeśli na polu znajdują się co najniej rzy pionki, o pierwsze rzy neurony przyjują warość, n 3 naoias osani warość, gdzie n oznacza liczbę pionków znajdujących się na y polu. 2 Powyższy sposób kodowania rozieszczenia pionków na planszy zapewnia na już w ej chwili 8*24=92 neuronów wejściowych. Dwa kolejne neurony wyznaczały odpowiednio liczbę jasnych oraz cienych n pionków znajdujących się na belce przyjując warość, gdzie n jes liczbą pionków na ej belce. 2 Dwa kolejne neurony wyznaczały z kolei odpowiednio liczbę jasnych oraz cienych pionków, kóre zosały n już szczęśliwie usunięe z planszy przyjując warość, gdzie n jes liczbą usunięych pionków. 5 Dwa osanie neurony wyznaczały naoias w sposób binarny kolor, kóry jes na ruchu. Dla powyższego sposobu reprezenacji planszy, sieć neuronowa przyjując odpowiednie warości wejściowe obliczała swoje wyjście w klasyczny sposób. Z każdy połączenie poiędzy neuronai warswy wejściowej a neuronai warswy ukryej, a akże poiędzy neuronai warswy ukryej a neuronai warswy wyjściowej, uożsaiony jes pewien odyfikowalny paraer (waga) przyjujący warości rzeczywisoliczbowe. Wyjście każdego neuronu warswy ukryej bądź wyjściowej wyznaczane jes jako warość sigoidalnej funkcji dla warości arguenu będącego suą iloczynów wyjść neuronów poprzedzającej warswy z odpowiadającyi i wagai (na połączeniach). Po ewenualne szczegóły działania sieci neuronowych waro zajrzeć do [3]. Mając już zaprojekowaną sieć neuronową usiy się jeszcze zasanowić w jaki sposób będziey ją uczyć. Tesauro zaproponował nasępujący sposób uczenia: sieć neuronowa gra jak najwięcej parii z saą sobą. W wersji 0.0 wybór ruchu ograniczał się do analizy ylko i wyłącznie pierwszego poziou drzewa. Oczywiście wybierany był zawsze en ruch, dla kórego san planszy po jego wykonaniu był najlepiej oceniany przez sieć. Każda gra rakowana była jako oddzielne doświadczenie składające się z sekwencji obserwacji (poszczególnych pozycji) oraz osaecznego wzocnienia (wyniku gry). Tesauro skorzysał akże z najbardziej przyrosowego scheau uczenia TD(λ), zn. wszyskie akualizacje wag nasępowały po każdy ruchu. San począkowy sieci, zn. wszyskie odyfikowalne wagi zosały wybrane w sposób losowy Paweł Sawarz, / 5

14 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon jako ałe warości rzeczywiso-liczbowe. Wynikie ego była całkowicie losowa gra ego prograu na począku. Jednakże już po kilkuse rozegranych pariach zaczął być zauważalny ciągły wzros jego uiejęności. Wyniki eksperyenów Ku wielkieu zaskoczeniu, po rozegraniu gier z say sobą, TD-Gaon 0.0 nauczył się grać równie ocno jak najlepszy znany do ej pory inny progra grający w backgaon (wykorzysujący bardziej wyrafinowane cechy gry) Neurogaon, progra Tesaura opary również na sieci neuronowej, ale nie uczony eodą TD(λ). Najbardziej zadziwiający był fak, że TD-Gaon bez żadnej wyszukanej wiedzy ógł rzeczywiście dorównać najlepszy swoi konkureno. Oczywisy nasępswe ego sukcesu była konynuacja ych eksperyenów z wykorzysanie wyspecjalizowanych cech gry backgaon w wersji TD-Gaon.0, kóre jak się ożna spodziewać zakończyły się jeszcze większy sukcese. Siła gry TD-Gaon.0 była już nieporównywalnie większa od innych znanych prograów grających w backgaon i zaczęła poważnie zagrażać prawdziwy arcyisrzo ej gry. Kolejne wersje ego prograu były ulepszane pod kąe drzewa przeszukiwań (głębokość, wybór kolejności analizowanych węzłów) oraz odpowiedni dobore liczby neuronów w warswie ukryej. Wyniki eksperyenów poszczególnych wersji zosały zesawione w abeli (Rysunek 8.). Wersja Liczba neuronów w w. ukryej Liczba gier reningowych Przeciwnik TD-Gaon Inne progray TD-Gaon TD-Gaon Roberie, Magriel Różni arcyisrzowie Wynik dorównał najlepszeu -3 pk / 5 gier -7 pk / 38 gier TD-Gaon Roberie - pk / 40 gier TD-Gaon Kazaros +6 pk / 20 gier Rysunek 8. Wyniki eksperyenów przeprowadzane z kolejnyi wersjai prograu TD-Gaon. Kolejne wersje prograu TD-Gaon wykazywały znaczny wzros uiejęności gry. W dwóch osanich pozycjach abeli z Rysunku 8. przedsawiono wyniki gier z dwoa najlepszyi graczai backgaon. Kazaros ówczesny isrz świaa po równej grze, osaecznie przegrał sześcioa punkai. Waro jeszcze na zakończenie dodać jako ciekawoskę fak, iż progra TD-Gaon przyczynił się do ziany sposobu doychczasowego yślenia o grze począkowej. TD-Gaon nauczył się grać pewne owarcia całkowicie inaczej od ówczesnych isrzów. Okazało się, iż podejście ego prograu zosało później dokładnie przeanalizowane, a wielcy isrzowie zaczęli czerpać z niego wiedzę. Paweł Sawarz, / 5

15 Zaawansowane Meody Szucznej Ineligencji Wrocław, 25. sycznia 2007 Zasosowania algoryu uczenia się ze wzocnienie TD-Learning na przykładzie konkrenego syseu TD-Gaon Lieraura [] Richard S. Suon. Learning o Predic by he Mehods of Teporal Differences. Machine Learning 3: 9-44, 988 Kluwer Acadeic Publishers, Boson. [2] Richard S. Suon, Andrew G. Baro. Reinforceen Learning: An Inroducion... TD-Gaon. MIT Press, Cabridge, MA, 998, A Bradford Book. [3] Ryszard Tadeusiewicz. Sieci neuronowe. Warszawa, Akadeicka Oficyna Wydawnicza RM, 993. Paweł Sawarz, / 5