Alfa-beta Ulepszenie minimax Liczba wierzchołk ow w drzewie gry. maksymalnie wd. minimalnie wbd/2c + wdd/2e Algorytmy przeszukiwania drzewa gry 5

Podobne dokumenty
METODY SZTUCZNEJ INTELIGENCJI 2 Opis projektu

Metoda ewolucyjnego doboru współczynników funkcji oceniającej w antywarcabach

Algorytmy dla gier dwuosobowych

Metody klasyfikacji danych - część 1 p.1/24

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Optymalizacja optymalizacji


POŁĄCZENIE ALGORYTMÓW SYMULACYJNYCH ORAZ DZIEDZINOWYCH METOD HEURYSTYCZNYCH W ZAGADNIENIACH DYNAMICZNEGO PODEJMOWANIA DECYZJI

Optymalizacja ciągła

ATOLL. Wykonali: Aleksandra Kuchta, Łukasz Wójcik, Sztuczna Inteligencja, Semestr trzeci, Kierunek Informatyka, Wydział Informatyki i Zarządzania,

Asocjacyjna reprezentacja danych i wnioskowanie

WPROWADZENIE DO SZTUCZNEJ INTELIGENCJI

Matlab podstawy + testowanie dokładności modeli inteligencji obliczeniowej

Tworzenie gier na urządzenia mobilne

Jakość uczenia i generalizacja

Podstawy OpenCL część 2

3. MINIMAX. Rysunek 1: Drzewo obrazujące przebieg gry.

Narzędzia AI. Jakub Wróblewski Pokój SZTUCZNA INTELIGENCJA (ARTIFICIAL INTELLIGENCE)

Algorytmy i struktury danych

Uczenie sieci radialnych (RBF)

Testowanie modeli predykcyjnych

Algorytm selekcji Hoare a. Łukasz Miemus

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

PRZEWODNIK PO PRZEDMIOCIE

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Wykład 7 i 8. Przeszukiwanie z adwersarzem. w oparciu o: S. Russel, P. Norvig. Artificial Intelligence. A Modern Approach

1. Znajdowanie miejsca zerowego funkcji metodą bisekcji.

Elementy inteligencji obliczeniowej

WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice)

Wstęp do programowania INP001213Wcl rok akademicki 2017/18 semestr zimowy. Wykład 9. Karol Tarnowski A-1 p.

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Metody SI w grach komputerowych Gra Policjanci i złodziej (Algorytmy przeszukiwania grafów)

WYMAGAJĄCA REFLEKSU GRA DLA KAŻDEGO 2 5 GRACZY W WIEKU OD 4 LAT

, a ilość poziomów czynnika A., b ilość poziomów czynnika B. gdzie

ALGORYTM RANDOM FOREST


Rekurencje. Jeśli algorytm zawiera wywołanie samego siebie, jego czas działania moŝe być określony rekurencją. Przykład: sortowanie przez scalanie:

SZKOLENIE : Grupowe poradnictwo zawodowe i warsztaty aktywizacyjne w praktyce

Spadające jabłuszka. licencja CC-BY-SA Uznanie autorstwa Na tych samych warunkach 3.0 Polska. Strona 51

Programowanie w VB Proste algorytmy sortowania

Adam Meissner. SZTUCZNA INTELIGENCJA Gry dwuosobowe

Elementy modelowania matematycznego

Systemy uczące się wykład 2

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

Projekt Sieci neuronowe

Dodatkowo planowane jest przeprowadzenie oceny algorytmów w praktycznym wykorzystaniu przez kilku niezależnych użytkowników ukończonej aplikacji.

Zadanie 1: Piętnastka

AGAJĄCA REFLEKSU GRA DLA KAŻDEGO DLA 2 5 GRACZY OD 4. ROKU Ż

Pole wielokąta. Wejście. Wyjście. Przykład

IMPREZOWA GRA PEŁNA AKCJI DLA 2 5 GRACZY OD 4. ROKU ŻYCIA

Pobieranie prób i rozkład z próby

A Ż D E GO D L A 2 5 DLA K O D 4 . JĄ ZASADY GRY

ANALIZA JAKOŚCIOWA I ILOŚCIOWA TESTÓW SZKOLNYCH MATERIAŁ SZKOLENIOWY

Sztuczna Inteligencja i Systemy Doradcze

Heurystyki. Strategie poszukiwań

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji

Projekt zaliczeniowy gra PENTAGO

Dobble? Co to takiego?

Analiza obrazu. wykład 3. Marek Jan Kasprowicz Uniwersytet Rolniczy 2009

Przedmiotowe Zasady Oceniania III LO w Łomży. Algorytmika. Klasy II-III

Sortowanie. Bartman Jacek Algorytmy i struktury

TEORETYCZNE PODSTAWY INFORMATYKI

Twój wynik: 4 punktów na 6 możliwych do uzyskania (66,67 %).

RÓWNANIA NIELINIOWE Maciej Patan

SCENARIUSZ LEKCJI. - pracować w sposób wytrwały i samodzielny, - pracować zgodnie z pozytywnymi postawami etycznymi, - dobrze organizować pracę,

Stefan Sokołowski SZTUCZNAINTELIGENCJA. Inst. Informatyki UG, Gdańsk, 2009/2010

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Pawnographic chess. (Sztuczna inteligencja) Wydzia ł Informatyki i Zarządzania Informatyka. Pozna ń, 25 lutego 2008 r.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Metody Sztucznej Inteligencji II

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

Algorytm grupowania danych typu kwantyzacji wektorów

Laboratorium 5 Przybliżone metody rozwiązywania równań nieliniowych

Lekcja 5: Sieć Kohonena i sieć ART

Wprowadzenie do uczenia maszynowego

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013

Wyznaczanie strategii w grach

Zawartosc. Cel gry. 4 Planszetki 1 Moneta Kultury 104 Karty, podzielone na 3 Epoki oraz 6 Domen: Epoka III. Epoka II. Epoka I

Metody Statystyczne. Metody Statystyczne. #8 Błąd I i II rodzaju powtórzenie. Dwuczynnikowa analiza wariancji

PRZYBLI ONE METODY ROZWI ZYWANIA RÓWNA

Scenariusz zajęć otwartych dla nauczycieli Publicznego Gimnazjum w Pajęcznie prowadzonych przez Iwonę Jędrzejewską

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Wojciech Skwirz

Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny?

REKURENCJA W JĘZYKU HASKELL. Autor: Walczak Michał

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Metryczka. Jolanta Fabjańczuk Szkoła Podstawowa im. Edwarda Szymańskiego w Stoczku ul. Węgrowska Stoczek

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

POSZUKIWANIE ZER FUNKCJI F(x). Zad. 2. Korzystając z metody punktu stałego znaleźć miejsce zerowe funkcji f(x) =

WIELOCZUJNIKOWE NADZOROWANIE STANU NARZĘDZI

Programowanie Funkcyjne. Prezentacja projektu, 7 stycznia 2008, Juliusz Sompolski

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Gra: Partnerstwo biznesowe

Międzynarodowy Turniej Piłki Nożnej LUBLIN 2014

SZTUCZNA INTELIGENCJA

Przedmiotem rozważań są zależności pomiędzy obliczeniami maszynowymi a ludzką inteligencją

Testowy dokument raz dwa trzy

Metody numeryczne I Równania nieliniowe

Transkrypt:

Zastosowanie metody Samuela doboru współczynników funkcji oceniajacej w programie grajacym w anty-warcaby Daniel Osman promotor: dr hab. inż. Jacek Mańdziuk 1

Spis treści Algorytmy przeszukiwania drzewa gry opis algorytmów wyniki Uczenie si e gry w anty-warcaby funkcja oceny metoda Samuela algorytm T D(λ) wyniki 2

Anty-warcaby Zasady jak w warcabach Celem jest pozbycie si e własnych pionków 3

Algorytmy przeszukiwania drzewa gry Minimax Alfa-beta Tablica transpozycji Heurystyka historyczna Iteracyjne pogłebianie MTD(f), MTD-bi 4

Alfa-beta Ulepszenie minimax Liczba wierzchołków w drzewie gry maksymalnie minimalnie w d w d/2 + w d/2 Algorytmy przeszukiwania drzewa gry 5

Tablica transpozycji Służy do zapami etywania: oceny stanu gry dokładności tej oceny najlepszego ruchu dla tego stanu Implementacja w postaci tablicy haszujacej Algorytmy przeszukiwania drzewa gry 6

Heurystyka historyczna Oceniać ruchy niezależnie od stanu Wykorzystywać oceny do sortowania kolejności odwiedzania nast epników Możliwych ruchów jest nie wi ecej niż 32 x 32 = 24 Algorytmy przeszukiwania drzewa gry 7

Iteracyjne pogł ebianie Przeszukiwanie drzewa gry kolejno na gł ebokość d 0, (d 0 + k), (d 0 + 2k), (d 0 + 3k),... Można zatrzymać obliczenia w dowolnym momencie Lepsze posortowanie dzi eki tablicy transpozycji Algorytmy przeszukiwania drzewa gry 8

MTD(f) Funkcja MT : (Memory enhanced Test) alfa-beta z zerowym oknem szybkie ustalenie ograniczenia górnego albo dolnego Funkcja MT D(f) wielokrotne wywoływanie funkcji M T w celu ustalenia szukanej wartości parametr f: przybliżenie poczatkowe Najszybszy znany dzisiaj algorytm przeszukiwania drzewa gry Algorytmy przeszukiwania drzewa gry 9

MTD-bi Bisekcja Zalety prosty, szybki i tak samo dokładny jak minimax niepotrzebne przybliżenie poczatkowe można stosować z ciagł a funkcja oceny Wady MTD-step Algorytmy przeszukiwania drzewa gry

Wyniki 12 12 czas [s] 8 6 4 8 6 4 2 2 0 6 8 12 14 0 glebokosc drzewa MM AB TT TT+MO Średni czas oczekiwania na ruch w zależności od gł ebokości drzewa Algorytmy przeszukiwania drzewa gry 11

Wyniki czas [s] 70 60 50 40 30 70 60 50 40 30 0 11 12 13 14 15 glebokosc drzewa 0 AB HH TT+MO TT+MO+HH Średni czas oczekiwania na ruch w zależności od gł ebokości drzewa Algorytmy przeszukiwania drzewa gry 12

Wyniki 7 6 5 MTD F MTD C ID TT+MO+HH 7 6 5 czas [s] 4 3 4 3 2 2 1 1 0 8 9 glebokosc drzewa 0 Średni czas oczekiwania na ruch w zależności od gł ebokości drzewa Algorytmy przeszukiwania drzewa gry 13

Wyniki czas [s] 22 18 16 14 12 8 6 4 2 0 TT+MO+HH MTD-bi 8 9 11 12 13 glebokosc drzewa 22 18 16 14 12 8 6 4 2 0 Średni czas oczekiwania na ruch w zależności od gł ebokości drzewa Algorytmy przeszukiwania drzewa gry 14

Uczenie Arthur L. Samuel 15

Funkcja oceniajaca Ocena stanu s: S(s, w) = w 1 x 1 (s) + w 2 x 2 (s) +... + w n x n (s) x i - heurystyki Samuela w i - wagi funkcji oceniajacej Uczenie polega na doborze wag w i Uczenie 16

Metoda Samuela Bład funkcji oceniajacej: P (t+1) P (t) Uczenie 17

Temporal difference learning Algorytm T D(λ) ) t w (t) = α (P (t+1) P (t) i=1 dla λ = 1: metoda Widrowa-Hoffa dla λ = 0: metoda Samuela λ t i w P (i) Uczenie 18

Opis przeprowadzonych doświadczeń Gracz uczacy sie Przeciwnicy Gł ebokość przeszukiwania drzewa gry: d = 4 19

Problem z remisami Opis przeprowadzonych doświadczeń

Problem z remisami Zastosowane rozwiazania: pełna implementacja remisów gra z wieloma przeciwnikami Wzrost skuteczności uczenia Opis przeprowadzonych doświadczeń 21

Grupa treningowa - grupa testowa Trening (zdobywanie doświadczenia) jak gracz uczacy sie radzi sobie z bezpośrednimi przeciwnikami Testowanie (możliwość generalizacji) jak gracz uczacy sie radzi sobie z nowymi przeciwnikami Opis przeprowadzonych doświadczeń 22

Paramety α i λ Faza I α = 1.0e 4 λ = 0.95 Faza II α = 1.0e 5 λ = 0.7 Wynik zgodny z rezultatami innych badaczy Opis przeprowadzonych doświadczeń 23

TD(λ) liczba wygranych 18 16 14 12 8 6 4 2 0 wygrane srednia remisy 0 500 00 1500 00 0 liczba gier 18 16 14 12 8 6 4 2 liczba punktow 48 44 40 36 32 28 24 16 12 8 4 0 8 wygrane 4 srednia 0 0 400 600 800 00 10 1400 1600 0 liczba gier 48 44 40 36 32 28 24 16 12 Liczba wygranych gracza uczacego sie w grupie treningowej ( przeciwników) oraz liczba zdobytych punktów w grupie testowej (16 przeciwników). Opis przeprowadzonych doświadczeń 24

Metody treningu Skład grupy treningowej liczba przeciwników jakość przeciwników Czy zmieniać przeciwników? Jak długo trenować? Opis przeprowadzonych doświadczeń 25

Metody treningu liczba wygranych 0 90 80 70 60 50 40 30 wygrane srednia remisy 0 90 80 70 60 50 40 30 liczba wygranych 16 14 12 8 6 4 2 wygrane srednia remisy 16 14 12 8 6 4 2 0 0 2 4 6 8 0 0 0 0 400 600 800 00 10 1400 1600 0 liczba gier x 00 liczba gier Zastosowanie mało efektywnej metody treningu Opis przeprowadzonych doświadczeń 26

Ulepszenia Uczenie na porażkach Algorytm TDLeaf Uczenie na ruchach przewidzianych przez gracza uczacego sie Opis przeprowadzonych doświadczeń 27

Ulepszenia liczba wygranych 0 90 80 70 60 50 40 30 0 wygrane srednia remisy 0 2 4 6 8 0 liczba gier x 00 0 90 80 70 60 50 40 30 liczba punktow 48 44 40 36 32 28 24 16 12 8 4 0 8 punkty 4 srednia 0 0 400 600 800 00 10 1400 1600 0 liczba gier 48 44 40 36 32 28 24 16 12 Najlepszy uzyskany wynik: trening na grupie zróżnicowanych jakościowo przeciwnikach,,000 gier, uczenie na porażkach. Opis przeprowadzonych doświadczeń 28

Zwi ekszenie gł ebokości przeszukiwania drzewa gry liczba wygranych 8 6 4 2 0 wygrane srednia 0 0 400 600 800 00 0 liczba gier 8 6 4 2 liczba punktow 48 44 40 36 32 28 24 16 12 8 4 0 8 punkty 4 srednia 0 0 400 600 800 00 10 1400 1600 0 liczba gier 48 44 40 36 32 28 24 16 12 Gł ebokość przeszukiwania drzewa gry d = 6 Opis przeprowadzonych doświadczeń 29

Zanotowany post ep w nauczaniu 0 90 wygrane srednia 0 90 0 90 wygrane srednia 0 90 80 80 80 80 liczba wygranych 70 60 50 40 30 70 60 50 40 30 liczba wygranych 70 60 50 40 30 70 60 50 40 30 0 0 2 4 6 8 0 0 0 2 4 6 8 0 liczba gier x 00 liczba gier x 00 Gracz losowy - gracz uczacy sie (trening) Opis przeprowadzonych doświadczeń 30

Porównanie z innymi programami zestaw współczynników wygrane przegrane remisy wynik dla TD-GAC program 1 - poziom novice TD-GAC (niski poziom) 0 0 0 : TD-GAC (średni poziom) 0 0 0 : TD-GAC (wysoki poziom) 1 2 7 program 2 - poziom weak 4 1 2 : 51 2 TD-GAC (niski poziom) 0 0 1 1 2 : 1 2 TD-GAC (średni poziom) 1 0 0 1 : 0 TD-GAC (wysoki poziom) 0 0 1 1 2 : 1 2 program 2 - poziom normal TD-GAC (niski poziom) 0 1 0 0 : 1 TD-GAC (średni poziom) 1 0 0 1 : 0 TD-GAC (wysoki poziom) 0 0 1 1 2 : 1 2 program 2 - poziom strong TD-GAC (niski poziom) 0 1 0 0 : 1 TD-GAC (średni poziom) 0 1 0 0 : 1 TD-GAC (wysoki poziom) 0 0 1 1 2 : 1 2 Opis przeprowadzonych doświadczeń 31

Gra z ludźmi zestaw współczynników wygrane przegrane remisy wynik dla TD-GAC gracz 1 TD-GAC (niski poziom) 3 2 5 5 1 2 : 41 2 TD-GAC (średni poziom) 3 4 3 4 1 2 : 51 2 TD-GAC (wysoki poziom) 9 0 1 9 1 2 : 1 2 gracz 2 TD-GAC (niski poziom) 5 4 1 5 1 2 : 41 2 TD-GAC (średni poziom) 6 4 0 6 : 4 TD-GAC (wysoki poziom) 8 2 0 8 : 2 gracz 3 TD-GAC (niski poziom) 3 5 2 4 : 6 TD-GAC (średni poziom) 5 5 0 5 : 5 TD-GAC (wysoki poziom) 3 5 2 4 : 6 gracz 4 TD-GAC (niski poziom) 2 6 2 3 : 7 TD-GAC (średni poziom) 0 7 3 TD-GAC (wysoki poziom) 4 5 1 1 1 2 : 81 2 4 1 2 : 51 2 Opis przeprowadzonych doświadczeń 32

Arthur L. Samuel Żył w latach 1901-1990 Jeden z pionierów sztucznej inteligencji Napisał program grajacy w warcaby w 1959 Rote learning Generalization learning (Temporal difference learning) 33

Podsumowanie T D(λ) jako obiecujaca metoda nauczania Automatyzacja doboru wag bez udziału człowieka Wiele miejsca na popraw e wieksza gł ebokość przeszukiwania drzewa gry różne funkcje oceny w zależności od sytuacji na planszy 34