POŁĄCZENIE ALGORYTMÓW SYMULACYJNYCH ORAZ DZIEDZINOWYCH METOD HEURYSTYCZNYCH W ZAGADNIENIACH DYNAMICZNEGO PODEJMOWANIA DECYZJI

Podobne dokumenty
RISK-AWARE PROJECT SCHEDULING

RISK-AWARE PROJECT SCHEDULING

RISK-AWARE PROJECT SCHEDULING

Risk-Aware Project Scheduling. SimpleUCT

RISK-AWARE PROJECT SCHEDULING

Systems Research Institute Polish Academy of Sciences

MAGICIAN: GUIDED UCT. Zastosowanie automatycznie generowanej funkcji oceny w GGP

MAGICIAN. czyli General Game Playing w praktyce. General Game Playing

K.Pieńkosz Badania Operacyjne Wprowadzenie 1. Badania Operacyjne. dr inż. Krzysztof Pieńkosz

Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem przedsięwzięcia z wykorzystaniem metod sieciowych PERT i CPM

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

MAGICIAN: A GGP Agent. Analiza zależności w opisie reguł gier GGP

Analiza stanów gry na potrzeby UCT w DVRP

Obliczenia równoległe w General Game Playing

Mixed-UCT: Zastosowanie metod symulacyjnych do poszukiwania równowagi Stackelberga w grach wielokrokowych

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

DYPLOM POST-MBA: STRATEGICZNE ZARZĄDZANIE PROJEKTAMI

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

The game of NoGo. The state-of-art algorithms. Arkadiusz Nowakowski.

DWUKROTNA SYMULACJA MONTE CARLO JAKO METODA ANALIZY RYZYKA NA PRZYKŁADZIE WYCENY OPCJI PRZEŁĄCZANIA FUNKCJI UŻYTKOWEJ NIERUCHOMOŚCI

AI i ML w grach. Przegląd zagadnień i inspiracje systemów human-like

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

Algorytm memetyczny w grach wielokryterialnych z odroczoną preferencją celów. Adam Żychowski

Alfa-beta Ulepszenie minimax Liczba wierzchołk ow w drzewie gry. maksymalnie wd. minimalnie wbd/2c + wdd/2e Algorytmy przeszukiwania drzewa gry 5

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Instytut Badań Systemowych Polskiej Akademii Nauk. Streszczenie rozprawy doktorskiej

Metody przeszukiwania

5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i

Identyfikacja i pomiar ryzyka pierwszy krok w zarządzaniu ryzykiem.

CogGGP kognitywnie inspirowany agent GGP podejście nr 1 wyniki eksperymentalne

Porównanie rozwiązań równowagowych Stackelberga w grach z wynikami stosowania algorytmu UCT

MAGICIAN: GUIDED UCT. Ekstrakcja uniwersalnej funkcji ewaluacyjnej z rezultatów symulacji UCT

ALGORYTMY EWOLUCYJNE W OPTYMALIZACJI JEDNOKRYTERIALNEJ

Algorytm memetyczny dla rzeczywistego problemu planowania tras pojazdów

Dwaj gracze na przemian kładą jednakowe monety na stole tak, aby na siebie nie nachodziły Przegrywa ten, kto nie może dołożyć monety

Schemat programowania dynamicznego (ang. dynamic programming)

BUDOWANIE PARTNERSTWA PONADNARODOWEGO. Wrocław, 13 maja 2010r.

Wstęp do Sztucznej Inteligencji

Plan. Struktura czynności myślenia (materiał, operacje reguły)

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD III: Problemy agenta

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

TEORIA GIER DEFINICJA (VON NEUMANN, MORGENSTERN) GRA. jednostek (graczy) znajdujących się w sytuacji konfliktowej (konflikt interesów),w

Beer Game i Shop Floor Game efektywne zarządzanie łańcuchem dostaw

Aurea BPM. Unikalna platforma dla zarządzania ryzykiem Warszawa, 25 lipca 2013

Krzysztof Wawrzyniak Quo vadis BS? Ożarów Mazowiecki, styczeń 2014

STUDIA PODYPLOMOWE Zarządzanie Projektami

General Game Playing. Aktualnie stosowane algorytmy i metody konstrukcji agentów

Głównym zadaniem tej fazy procesu zarządzania jest oszacowanie wielkości prawdopodobieństwa i skutków zaistnienia zidentyfikowanych uprzednio ryzyk.

Zarządzanie projektami. Zarządzanie ryzykiem projektu

Podejmowanie decyzji w warunkach ryzyka. Tomasz Brzęczek Wydział Inżynierii Zarządzania PP

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

Reforma regulacyjna sektora bankowego

Algorytmy konstrukcyjne dla problemu harmonogramowania projektu z ograniczonymi zasobami. Marcin Klimek *

Techniki optymalizacji

Wojciech Skwirz

Efektywno ć gier dydaktycznych w procesie kształcenia

Specjalność Optymalizacja Decyzji Menedżerskich. Katedra Badań Operacyjnych Uniwersytetu Łódzkiego

Procedura postępowania w przypadku niewypłacalności Członka Giełdowej Izby Rozrachunkowej

Bogdan Kępka. Bogdan Kępka

Wielokryterialne wspomaganie decyzji Redakcja naukowa Tadeusz Trzaskalik

MiNI-Player podsumowanie dotychczasowych badao

PODEJMOWANIE DECYZJI KIEROWNICZYCH W PROCESIE NEGOCJACJI BIZNESOWYCH. Autor: mgr inż. Viktoriia Gromova. Wrocław 2012 r.

Teoria gier. prof. UŚ dr hab. Mariusz Boryczka. Wykład 4 - Gry o sumie zero. Instytut Informatyki Uniwersytetu Śląskiego

MODEL OPTYMALIZACYJNY SYNCHRONIZACJI LINII TRAMWAJOWYCH

Wykład Zarządzanie projektami Zajęcia 7 Zarządzanie ryzykiem. dr Stanisław Gasik s.gasik@vistula.edu.pl

Narzędzia AI. Jakub Wróblewski Pokój SZTUCZNA INTELIGENCJA (ARTIFICIAL INTELLIGENCE)

Zarządzanie ryzykiem

Specjalność Optymalizacja Decyzji Menedżerskich. Katedra Badań Operacyjnych Uniwersytetu Łódzkiego

Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów

Strategia identyfikacji, pomiaru, monitorowania i kontroli ryzyka w Domu Maklerskim Capital Partners SA

Zaplanować projekt fundraisingowy i przeprowadzić go przez wszystkie etapy realizacji nie tracąc z pola widzenia założonych efektów;

SZTUCZNA INTELIGENCJA

Algorytm Genetyczny. zastosowanie do procesów rozmieszczenia stacji raportujących w sieciach komórkowych

Poniższy program może być skrócony do 1 dnia lub kilkugodzinnej prezentacji.

Techniki optymalizacji

Organizacyjny aspekt projektu

Statystyczne Zarządzanie Jakością

Stochastyczne dynamiki z opóźnieniami czasowymi w grach ewolucyjnych

Reforma regulacyjna sektora bankowego

1. Problem badawczy i jego znaczenie. Warszawa,

Wykład 1 Sprawy organizacyjne

Procedura obsługi niewypłacalności

Droga żółwia SPIS TREŚCI

Obliczenia równoległe i rozproszone. Praca zbiorowa pod redakcją Andrzeja Karbowskiego i Ewy Niewiadomskiej-Szynkiewicz

CogGGP - kognitywnie inspirowany agent GGP - opis architektury

STUDIA PODYPLOMOWE ZARZĄDZANIE PROJEKTAMI Edycja 2011/2012

Metoda UCT w stochastycznych problemach transportowych

Symulacja wyników finansowych i wartości spółki za pomocą modelu zysku rezydualnego. Karol Marek Klimczak

Tomasz AMBROZIAK, Dariusz PYZA WYBRANE ASPEKTY MODELOWANIA SYSTEMÓW PRZEWOZOWYCH

Uczenie ze wzmocnieniem aplikacje

Wsparcie narzędziowe zarządzania ryzykiem w projektach

Wybrane podstawowe rodzaje algorytmów

AUTOMATYZACJA PROCESÓW DYSKRETNYCH 2016

PODSTAWY ZARZĄDZANIA PROJEKTAMI

Grzegorz Karpiuk Gra Fabryka Aut Wprowadzenie do zarządzania projektami.

Metody optymalizacji dyskretnej

Heurystyczne metody przeszukiwania

Algorytmy klasyfikacji

Polityka zarządzania ryzykiem w Uniwersytecie Mikołaja Kopernika w Toruniu

Transkrypt:

POŁĄCZENIE ALGORYTMÓW SYMULACYJNYCH ORAZ DZIEDZINOWYCH METOD HEURYSTYCZNYCH W ZAGADNIENIACH DYNAMICZNEGO PODEJMOWANIA DECYZJI mgr inż. Karol Walędzik k.waledzik@mini.pw.edu.pl prof. dr hab. inż. Jacek Mańdziuk j.mandziuk@mini.pw.edu.pl

GRA? 2

CZY COŚ WIĘCEJ? 3

DYNAMICZNE PROBLEMY DECYZYJNE? 4

MCTS + HEURYSTYKA =? Uniwersalność Dostrojenie do problemu Szerokie przeszukiwanie Identyfikacja obiecujących kierunków Inteligentne próbkowanie Dziedzinowe ukierunkowanie 5

HIPOTEZY 1. Algorytmy symulacyjne, a w szczególności UCT, popularne głównie w obszarze gier, mogą być skuteczną metodą rozwiązywania złożonych dynamicznych problemów decyzyjnych samodzielnie lub jako elementy podejścia hybrydowego. 2. Możliwe jest skonstruowanie podejścia hybrydowego łączącego metody symulacyjne oraz dziedzinowe metody heurystyczne, uzyskując metodę skuteczniejszą od każdego z tych podejść stosowanego samodzielnie. 6

CO DALEJ? Przeszukiwanie drzew metodą Monte Carlo (MCTS) Dynamiczne problemy decyzyjne General Game Playing Risk-Aware Project Scheduling Problem Wnioski Pytania 7

PRZESZUKIWANIE DRZEW METODĄ MONTE CARLO MONTE CARLO TREE SEARCH (MCTS)

PRZESZUKIWANIE DRZEW METODĄ MONTE CARLO 9

UCT (UPPER CONFIDENCE BOUNDS APPLIED TO TREES) Na bazie UCB1 dla problemu K-rękiego bandyty Polityka selekcji: a = argmax a A s Q s, a + C ln N(s N s, a 10

GENERAL GAME PLAYING

GENERAL GAME PLAYING 12

GAME DESCRIPTION LANGUAGE 13

MAGICIAN

MAGICIAN 15

GUIDED UCT 16

FUNKCJA EWALUACYJNA 17

GAME DESCRIPTION LANGUAGE 18

PRZYKŁADOWA FUNKCJA EWALUACYJNA 0,33*cell(2, 2, x) + -0,33*cell(2, 2, o) + -0,10*cell(?, 1, x) + 0,10*(cell(2,?, x)-cell(2,?, o))... 19

REZULTATY EKSPERYMENTALNE

GRY Wybrane spośród 13 wstępnie ewaluowanych: Szachy najbardziej złożone Warcaby wyjątkowo dobre wstępne wyniki Othello najgorsze wstępne wyniki Connect4, Connect5 (Go-Moku) mieszane wyniki, średnia złożoność 21

MTD(F) (MIN-MAX) VS. UCT 22

GUIDED UCT VS. UCT 23

MTD(F) (MIN-MAX) VS. GUIDED UCT 24

MTD(F) (MIN-MAX) VS. WIELOWĄTKOWE GUIDED UCT 25

WERSJA TURNIEJOWA 26

SPOSTRZEŻENIA Przynajmniej w części przypadków możliwa budowa skutecznej funkcji ewaluacyjnej Skuteczność algorytmów zależna od charakterystyki gry oraz limitów czasowych Oba algorytmy silniejsze niż referencyjne MCTS Istnieją problemy, dla których GUCT silniejsze niż MTD(f) 27

RISK-AWARE PROJECT SCHEDULING PROBLEM PROBLEM HARMONOGRAMOWANIA PROJEKTÓW Z UWZGLĘDNIENIEM RYZYK

PROBLEM HARMONOGRAMOWANIA PROJEKTÓW Z OGRANICZONYMI ZASOBAMI (RCPSP) 29

RISK-AWARE PROJECT SCHEDULING RAPSP = SRCPSP + RYZYKA + ODPOWIEDZI NA RYZYKA RYZYKO warunki materializacji ODPOWIEDŹ NA RYZYKO specjalny rodzaj zadania prawdopodobieństwo materializacji efekt materializacji transformacja stanu projektu realizacja nie jest konieczna do zakończenia projektu efekty realizacji 30

STRATEGIE RAPSP

STRATEGIE RAPSP 32

HEURISTIC SOLVER Harmonogram bazowy: lista odpowiedzi na ryzyko do natychmiastowego wykonania przypisanie czasów rozpoczęcia wszystkim zadaniom Konstrukcja: reaktywnie w każdym punkcie decyzyjnym na bazie deterministycznej wersji projektu poprzez wypróbowanie dostępnych kombinacji odpowiedzi na ryzyka i funkcji priorytetyzujących zadania z równoległym schematem generowania harmonogramu 33

GRASP Bazowa reguła: lista odpowiedzi na ryzyko do natychmiastowego wykonania lista priorytetyzująca zadań Konstrukcja: reaktywnie w każdym punkcie decyzyjnym poprzez próby zastosowania różnych kombinacji odpowiedzi na ryzyka oraz GRASP 34

GRASP Harmonogram dla RCPSP Aktualizacja zbioru elitarnego Optymalizacja lokalna (podwójna justyfikacja) Analiza Monte Carlo Harmonogram RCPSP Strategia SRCPSP 35

BASIC UCT 36

BASIC UCT: UPROSZCZONY STAN PROJEKTU 37

PROACTIVE UCT 38

HEURYSTYKA REAKTYWNA Miara reaktywnej skuteczności odpowiedzi na ryzyko 39

SYNERGIA ProUCT + HS: ponowne wykorzystanie harmonogramu bazowego punktowe szacunki czasu realizacji zadań na podstawie symulacji MCTS ProUCT + GRASP: ponowne wykorzystanie list priorytetyzujących punktowe szacunki czasu realizacji zadań na podstawie symulacji MCTS pamięć podręczna zbiorów elitarnych w drzewie MCTS 40

REZULTATY EKSPERYMENTALNE

INSTANCJE TESTOWE Instancje RCPSP (PSPLib) Instancje SRCPSP Efekty ryzyka niedostępności zasobu nieodnawialnego Czasowe Permanentne Budżet odpowiedzi na ryzyka Współdzielony Dedykowany Współdzielony NSH SEP FSH 42

SEP & NSH Relatywne czasy realizacji ProUCT-HS < HS < BasicUCT ProUCT-GRASP < GRASP < BasicUCT ProUCT-HS < ProUCT-GRASP GRASP HS Liczba wygranych 43

SEP & NSH Relatywne czasy realizacji Liczba wygranych 44

FSH Relatywne i skorygowane czasy realizacji Odsetek porażek 45

SPOSTRZEŻENIA Skuteczność zależna od charakterystyki instancji Niskie korelacje rezultatów poszczególnych metod BasicUCT dominujące przy bardzo wysokim prawdopodobieństwie porażki ProUCT najsilniejsze przekrojowo 46

PODSUMOWANIE

EFEKTY SYNERGII? Dwa dynamiczne problemy decyzyjne GGP RAPSP Dwie hybrydowe metody GUCT + generowanie funkcji ewaluacyjnej ProUCT + HS/GRASP

A HIPOTEZY? 1. Algorytmy symulacyjne, a w szczególności UCT, popularne głównie w obszarze gier, mogą być skuteczną metodą rozwiązywania złożonych dynamicznych problemów decyzyjnych samodzielnie lub jako elementy podejścia hybrydowego. 2. Możliwe jest skonstruowanie podejścia hybrydowego łączącego metody symulacyjne oraz dziedzinowe metody heurystyczne, uzyskując metodę skuteczniejszą od każdego z tych podejść stosowanego samodzielnie. 49

A HIPOTEZY? 1. Algorytmy symulacyjne, a w szczególności UCT, popularne głównie w obszarze gier, mogą być skuteczną metodą rozwiązywania złożonych dynamicznych problemów decyzyjnych samodzielnie lub jako elementy podejścia hybrydowego. 2. Możliwe jest skonstruowanie podejścia hybrydowego łączącego metody symulacyjne oraz dziedzinowe metody heurystyczne, uzyskując metodę skuteczniejszą od każdego z tych podejść stosowanego samodzielnie. GUCT zwykle skuteczniejsze od UCT w niektórych przypadkach skuteczniejsze od min-max ProUCT: skuteczniejsze od BasicUCT (poza skrajnymi przypadkami) konsekwentnie skuteczniejsze od GRASP / HS

DZIĘKUJĘ 51

ORYGINALNE WYNIKI ROZPRAWY 1. Dwa nowe sposoby łączenia MCTS i metod heurystycznych 2. Agent GGP skuteczniejszy niż MCTS z heurystyką historyczną, w tym: a. mechanizm budowy funkcji ewaluacyjnej w GGP b. hybrydowy algorytm łączący wykorzystanie UCT oraz funkcji ewaluacyjnej 3. Problem harmonogramowania projektu z uwzględnieniem ryzyk (RAPSP) 4. Pięć strategii rozwiązywania RAPSP, w tym strategie hybrydowe 52