Outline 1 MCTS. 2 Jednoczesne ruchy. 3 Niepełna informacja. 4 Podsumowanie. Jan Karwowski April 5, / 30
|
|
- Eleonora Katarzyna Kurowska
- 6 lat temu
- Przeglądów:
Transkrypt
1 Outline 1 MCTS 2 Jednoczesne ruchy 3 Niepełna informacja 4 Podsumowanie Jan Karwowski April 5, / 30
2 Problem drzewo duże. nie mieści się w całości w pamięci stany, akcje wartości w liściach stałe losowe, nieznany rozkład ścieżka do najlepszego liścia liczba graczy informacja Jan Karwowski April 5, / 30
3 Min-max i αβ Jan Karwowski April 5, / 30
4 MCTS 1 Powtarzaj 1 Selekcja (tree policy) 2 Ekspansja 3 Symulacja (playout, default policy) rozkład jednostajny lub heurystyka 4 Propagacja 2 Wybierz najlepszy ruch na podstawie zebranych danych Selection Expansion Simulation Backpropagation Tree Policy Default Policy (Źródło: Browne et al. A Survey of MCTS Methods) Jan Karwowski April 5, / 30
5 Selekcja/Ekspansja 1 Jeśli węzeł ma jakiś nieodwiedzony ruch, wybierz jeden z nich i dodaj do drzewa (ekspansja) 2 W przeciwnym przypadku: wybierz najlepszy ruch według aktualnie zebranych statystyk i wykonaj selekcję na niższym poziomie (selekcja) Jan Karwowski April 5, / 30
6 Typowe użycie MCTS 1 Wykonaj MCTS dla bieżącego stanu gry 2 Po upływie zadanego czasu wykonaj najlepszy ruch według aktualnej oceny 3 Przenieś zebrane informacje (poddrzewo) do MCTS w nowym stanie Selection Expansion Simulation Backpropagation Tree Policy Default Policy Jan Karwowski April 5, / 30
7 Zalety MCTS możliwość przerwania obliczeń w dowolnym momencie brak heurystyk związanych z konkretną grą asymetryczna budowa drzewa w pamięci Jan Karwowski April 5, / 30
8 Propagacja z każdego kroku vs propagacja z liścia wypłata nie ma wpływu na ruchy poniżej dyskontowanie możliwość przerwania symulacji przed liściem Jan Karwowski April 5, / 30
9 Multi-armed bandit-problem n automatów, każdy z wypłatami z pewnego (innego) rozkładu z pewną wartością oczekiwaną kolejne losowania niezależne jaką przyjąć strategię, żeby zmaksymalizować wypłatę, mają zerową wiedzę o tych rozkładach? w każdym kroku pozyskujemy nową wiedzę o jednym (wybranym w danym kroku) rozkładzie Jan Karwowski April 5, / 30
10 Selekcja: UCB1 zbierane dane n i licznik odwiedzin i-tego ruchu z węzła, Q i suma wypłat z symulacji dotąd wybór akcji najlepszy ruch według, N = n i Q i n i + C 2 ln N Eksploracja vs. eksploatacja Auer, Cesa-Bianchi, Fischer. Finite-time analysis of the multiarmed bandit problem (2002) n i Jan Karwowski April 5, / 30
11 UCB1+MCTS=UCT Dowód: (Theorem 6) Dla UCT zastosowanego do MDP prawdopodobieństwo błędnej oceny ruchu w korzeniu zbiega do 0 wraz ze wzrostem liczby iteracji. Koscis, Szepesvari. Bandit based Monte-Carlo planning (2006) Jan Karwowski April 5, / 30
12 Selekcja: Bayesian UCT P i każdy węzeł zawiera estymację rozkładu prawdopodobieństwa wypłat dla ruchu i. B i = µ i + 2 ln N/n i µ i = E(P i ) Wersja 2: B i = µ i + 2 ln Nσ i uzależnienie eksploracji od odchylenia std bieżącej estymacji. Tesauro, Rajan, Segal. Bayesian Inference in Monte-Carlo Tree Search (2012) Jan Karwowski April 5, / 30
13 Selekcja: EXP3 (wypłaty z [0,1]) początkowe wartości w i (1) = 1 wybór akcji z prawdopodobieństwem p i (t) = (1 γ) w i(t) wj + γ K aktualizacja ˆx j (t) = x j (t)/p j (t) dla wybranego ruchu, 0 w p.p.; w j (t + 1) = w j (t)exp(γˆx j (t)/k) Szybka reakcja na spadek wypłaty, niedeteminizm. Nauka online. Auer, Cesa-Bianchi, Freund, Schapire. The nonstochastic multiarmed bandit problem. (2002) Jan Karwowski April 5, / 30
14 Konstrukcja drzewa Estimated reward Visit counter Jan Karwowski April 5, / 30
15 Proste zrównoleglenie Leaf parallelization w kroku symulacji uruchom n niezależnych przebiegów i propaguj uśrednioną wartość. Root parallelization wykonaj równolegle n procesów MCTS, na koniec sklej drzewa i wybierz najlepszy ruch. Wady brak komunikacji między procesami wielokrotne wyliczanie tej samej informacji, konieczność czekania na wszystkie procesy. Jan Karwowski April 5, / 30
16 Zrównoleglenie (MPI) proces master: 1 dla każdego z n slave ów: wykonaj selekcję w aktualnym drzewie, wyślij sekwencję ruchów do slave 2 czekaj na wyliczenie wyniku gry przez slave 1 odbierz wynik 2 aktualizuj drzewo 3 wykonaj selekcję i wyślij kolejną sekwencję procesy slave wykonuj zadaną sekwencję aż do liścia. Cazenave, Jouandeau. A Parallel Monte-Carlo Tree Search Algorithm. (2008) Jan Karwowski April 5, / 30
17 Zrównoleglenie (Tree parallelization) symetryczne procesy, wspólne drzewo mutex w każdym węźle drzewa na dostęp do statystyk przebiegi jak w klasycznym MCTS virtual loss dodatkowa kara na wybór ruchu, który został wybrany przez inny wątek, ale wyniki nie zostały przepropagowane. Fig. 5. Performance of the dif erent parallelization methods Jan Karwowski April 5, / 30
18 Nested MCTS jeden gracz, statyczne wypłaty 1 Parametr: głębokość przeszukiwania; L 2 Jeśli L = 1 1 Wykonaj losowe symulacje po wykonaniu każdego ruchu, zwróć najlepszy wynik i ruch 3 Jeśli L > 1 1 Wykonaj nested MCTS(L-1) dla każdego ruchu, zwróć najlepszy wynik i ruch. Procedurę można powtarzać wielokrotnie, zapamiętując najlepsze ruchy miedzy iteracjami. wybór według maksimum łatwe zrównoleglenie Cazenave. Nested Monte-Carlo Search. (2009) Cazenave, Jouandeau. Parallel Nested Monte-Carlo search (2009) Jan Karwowski April 5, / 30
19 Dwóch graczy: Ruchy naprzemienne standardowe MCTS, propagowanie całego wektora wypłat (dla każdego gracza). Polityka wyboru względem gracza wykonującego ruch. przy odpowiednio dobranej selekcji zbiega do strategii min-max. (Przy założeniu zbudowania pełnego drzewa). Jan Karwowski April 5, / 30
20 Dwóch graczy: Ruchy jednoczesne równowaga Nasha strategie mieszane SM-MCTS Lisy, Kovarik, Lanctot, Bosansky. Convergence of Monte Carlo Tree Search in Simultaneous Move Games. (2013) Jan Karwowski April 5, / 30
21 SM-MCTS (node h) if hȃz then return u 1 (h) elseif hȃt and Ȃ(i,j ) ȂA 1 (h) A 2 (h) not previouslyselected then Choose oneofthepreviouslyunselected (i,j ) and h 0 T (h,i,j ) Add h 0 to T u 1 Rollout(h 0 ) X h 0 X h 0 + u 1 ; n h 0 n h Update(h,i,j,u 1 ) return RetVal(u 1,X h 0,n h 0) (i,j ) Select(h) h 0 T (h,i,j ) u 1 SM-MCTS(h 0 ) X h X h + u 1 ; n h n h + 1 Update(h,i,j,u 1 ) return RetVal(u 1,X h,n h ) Użycie UCB1 nie gwarantuje zbieżności do NE (Decoupled UCT) Update propaguje: wartość z pojedynczej symulacji, średnią z węzła (po uwzględnieniu wartości z dołu). Jan Karwowski April 5, / 30
22 Wyniki Exploitability WC_RM WC_RMM 1e+02 1e+04 1e+06 1e+02 1e+04 1e+06 t Method Exp3 Exp3M RM RMM Lisy, Kovarik, Lanctot, Bosansky. Convergence of Monte Carlo Tree Search in Simultaneous Move Games. (2013) Jan Karwowski April 5, / 30
23 Gry z niepełną informacją Gracz Ԃ Gra i 1 i 2 i 1 i 2 m 1 m 2 h 1 h 2 h 3 m 1 m 2 m 1 m 2 i 3 i 4 i 6 i 7 i 8 i 9 i 3 i 4 i 5 i 6 i 8 i 7 i 9 h 4 h 5 h 6 h 7 h 8 h 9 h 10 h 11 h 12 h 13 h 14 h 15 h 16 h 17 i 5 Jan Karwowski April 5, / 30
24 Perfect Informaion MC (Determinized UCT) W obecnym punkcie decyzyjnym wylosuj dopuszczalny pełny stan wykonaj trening UCT z pełną informacją Wady Powtórz losowanie stanu startowego wielokrotnie Uśrednij wszystkie drzewa i zwróć najlepszy ruch decyzje w poddrzewach na podstawie pełnej informacji (założenie, że możemy podjąć różne decyzje w stanach, których nie rozróżniamy). przeciwnik może w rzeczywistej grze kierować grę do poddrzewa odpowiadającego jego preferencją, bez ujawniania nam tej informacji. Jan Karwowski April 5, / 30
25 SO-ISMCTS Trening UCT na drzewie widzianym przez jednego gracza jak trening gry dla dwóch graczy przeciwnik wybiera ujawniana informację (nieujawniana jest losowana). Gracz Ԃ Gra i 1 i 2 i 1 i 2 m 1 m 2 h 1 h 2 h 3 m 1 m 2 m 1 m 2 i 3 i 4 i 6 i 7 i 8 i 9 i 3 i 4 i 5 i 6 i 8 i 7 i 9 h 4 h 5 h 6 h 7 h 8 h 9 h 10 h 11 h 12 h 13 h 14 h 15 h 16 h 17 i 5 Jan Karwowski April 5, / 30
26 MO-ISMCTS Trening na zbiorze drzew, po jednym dla każdego gracza. W danym kroku selekcji używamy drzewa zadanego gracza. Jan Karwowski April 5, / 30
27 Porównanie Fig. 7. Heat map showing the results of the LOTR:C playing strength experiment. A white square would indicate a 100% win rate for the specif ed Light player algorithm against the specif ed Dark player algorithm, while a black squarewould indicatea100% win ratefor Dark against Light. Shadesof gray interpolate between these two extremes. Cowling, Powley, Whitehouse. Information Set Monte Carlo Tree Search. (2012) Jan Karwowski April 5, / 30
28 GIB: licytacje brydżowe z PIMC Ginsberg. GIB: Imperfect information in a computationally challenging game. (2001) Analiza PIMC Long et al. Understanding the Success of Perfect Information Monte Carlo Sampling in Game Tree Search. (2010) Figure 3: Performance of PIMC search against a Nash equilibrium. Darker regions indicate a greater average loss for PIMC. Disambiguation is fxedat0.3, bias at 0.75and correlationat 0.5infgures a,band c respectively. Jan Karwowski April 5, / 30
29 Inne kierunki MCTS + Funkcja oceny pozycji w fazie symulacji Agregacja stanów/ruchów Inne modelowanie przeciwnika Nie wymuszanie zagrania wszystkich ruchów przed selekcją w węźle Jan Karwowski April 5, / 30
30 Podsumowanie przeszukiwanie bardziej obiecujących obszarów gry niezależność od heurystyk dziedzinowych modyfikacje do różnych gier: jeden gracz wielu graczy niepełna informacja ruchy równoczesne Browne et al. A Survey of Monte Carlo Tree Search Methods. (2012) Jan Karwowski April 5, / 30
Zastosowanie metody UCT i drzewa strategii behawioralnej do aproksymacji stanu równowagowego Stackelberga w grach wielokrokowych
Zastosowanie metody UCT i drzewa strategii behawioralnej do aproksymacji stanu równowagowego Stackelberga w grach wielokrokowych Jan Karwowski Zakład Sztucznej Inteligencji i Metod Obliczeniowych Wydział
Mixed-UCT: Zastosowanie metod symulacyjnych do poszukiwania równowagi Stackelberga w grach wielokrokowych
Mixed-UCT: Zastosowanie metod symulacyjnych do poszukiwania równowagi Stackelberga w grach wielokrokowych Jan Karwowski Zakład Sztucznej Inteligencji i Metod Obliczeniowych Wydział Matematyki i Nauk Informacyjnych
Porównanie rozwiązań równowagowych Stackelberga w grach z wynikami stosowania algorytmu UCT
Porównanie rozwiązań równowagowych Stackelberga w grach z wynikami stosowania algorytmu UCT Jan Karwowski Zakład Sztucznej Inteligencji i Metod Obliczeniowych Wydział Matematyki i Nauk Informacyjnych PW
Seminarium IO. Zastosowanie algorytmu UCT w Dynamic Vehicle Routing Problem. Michał Okulewicz
Seminarium IO Zastosowanie algorytmu UCT w Dynamic Vehicle Routing Problem Michał Okulewicz 05.11.2013 Plan prezentacji Przypomnienie Problem DVRP Algorytm UCT Zastosowanie algorytmu UCT/PSO w DVRP Zastosowanie
The game of NoGo. The state-of-art algorithms. Arkadiusz Nowakowski.
The game of NoGo The state-of-art algorithms Arkadiusz Nowakowski arkadiusz.nowakowski@us.edu.pl Faculty of Computer Science and Materials Science University of Silesia, Poland Sosnowiec 28.11.2016 Plan
POŁĄCZENIE ALGORYTMÓW SYMULACYJNYCH ORAZ DZIEDZINOWYCH METOD HEURYSTYCZNYCH W ZAGADNIENIACH DYNAMICZNEGO PODEJMOWANIA DECYZJI
POŁĄCZENIE ALGORYTMÓW SYMULACYJNYCH ORAZ DZIEDZINOWYCH METOD HEURYSTYCZNYCH W ZAGADNIENIACH DYNAMICZNEGO PODEJMOWANIA DECYZJI mgr inż. Karol Walędzik k.waledzik@mini.pw.edu.pl prof. dr hab. inż. Jacek
Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2
Metody teorii gier ALP520 - Wykład z Algorytmów Probabilistycznych p.2 Metody teorii gier Cel: Wyprowadzenie oszacowania dolnego na oczekiwany czas działania dowolnego algorytmu losowego dla danego problemu.
Obliczenia równoległe w General Game Playing
Obliczenia równoległe w General Game Playing promotor: prof. dr hab. Jacek Mańdziuk 1/66 Plan Krótkie przypomnienie GGP/MiNI-Player Motywacja Pomysł 2012 Pomysł 2013 Porównanie Podsumowanie 2/66 General
Wysokość drzewa Głębokość węzła
Drzewa Drzewa Drzewo (ang. tree) zbiór węzłów powiązanych wskaźnikami, spójny i bez cykli. Drzewo posiada wyróżniony węzeł początkowy nazywany korzeniem (ang. root). Drzewo ukorzenione jest strukturą hierarchiczną.
Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova
Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova M. Czoków, J. Piersa 2010-12-21 1 Definicja Własności Losowanie z rozkładu dyskretnego 2 3 Łańcuch Markova Definicja Własności Losowanie z rozkładu
Strategie ewolucyjne (ang. evolu4on strategies)
Strategie ewolucyjne (ang. evolu4on strategies) Strategia ewolucyjna (1+1) W Strategii Ewolucyjnej(1 + 1), populacja złożona z jednego osobnika generuje jednego potomka. Kolejne (jednoelementowe) populacje
11. Gry Macierzowe - Strategie Czyste i Mieszane
11. Gry Macierzowe - Strategie Czyste i Mieszane W grze z doskonałą informacją, gracz nie powinien wybrać akcję w sposób losowy (o ile wypłaty z różnych decyzji nie są sobie równe). Z drugiej strony, gdy
Sztuczna Inteligencja i Systemy Doradcze
Sztuczna Inteligencja i Systemy Doradcze Przeszukiwanie przestrzeni stanów gry Przeszukiwanie przestrzeni stanów gry 1 Gry a problemy przeszukiwania Nieprzewidywalny przeciwnik rozwiązanie jest strategią
Risk-Aware Project Scheduling. SimpleUCT
Risk-Aware Project Scheduling SimpleUCT DEFINICJA ZAGADNIENIA Resource-Constrained Project Scheduling (RCPS) Risk-Aware Project Scheduling (RAPS) 1 tryb wykonywania działań Czas trwania zadań jako zmienna
Kompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
Drzewa binarne. Drzewo binarne to dowolny obiekt powstały zgodnie z regułami: jest drzewem binarnym Jeśli T 0. jest drzewem binarnym Np.
Drzewa binarne Drzewo binarne to dowolny obiekt powstały zgodnie z regułami: jest drzewem binarnym Jeśli T 0 i T 1 są drzewami binarnymi to T 0 T 1 jest drzewem binarnym Np. ( ) ( ( )) Wielkość drzewa
Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa
Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa M. Czoków, J. Piersa 2012-01-10 1 Łańcucha Markowa 2 Istnienie Szukanie stanu stacjonarnego 3 1 Łańcucha Markowa 2 Istnienie Szukanie stanu stacjonarnego
Tworzenie gier na urządzenia mobilne
Katedra Inżynierii Wiedzy Teoria podejmowania decyzji w grze Gry w postaci ekstensywnej Inaczej gry w postaci drzewiastej, gry w postaci rozwiniętej; formalny opis wszystkich możliwych przebiegów gry z
TEORIA GIER DEFINICJA (VON NEUMANN, MORGENSTERN) GRA. jednostek (graczy) znajdujących się w sytuacji konfliktowej (konflikt interesów),w
TEORIA GIER GRA DEFINICJA (VON NEUMANN, MORGENSTERN) Gra składa się z zestawu reguł określających możliwości wyboru postępowania jednostek (graczy) znajdujących się w sytuacji konfliktowej (konflikt interesów),w
MAGICIAN. czyli General Game Playing w praktyce. General Game Playing
MAGICIAN czyli General Game Playing w praktyce General Game Playing 1 General Game Playing? Cel: stworzenie systemu umiejącego grać/nauczyć się grać we wszystkie gry Turniej w ramach AAAI National Conference
SID Wykład 4 Gry Wydział Matematyki, Informatyki i Mechaniki UW
SID Wykład 4 Gry Wydział Matematyki, Informatyki i Mechaniki UW slezak@mimuw.edu.pl Gry a problemy przeszukiwania Nieprzewidywalny przeciwnik rozwiazanie jest strategia specyfikujac a posunięcie dla każdej
Sztuczna Inteligencja i Systemy Doradcze
Sztuczna Inteligencja i Systemy Doradcze Przeszukiwanie przestrzeni stanów algorytmy ślepe Przeszukiwanie przestrzeni stanów algorytmy ślepe 1 Strategie slepe Strategie ślepe korzystają z informacji dostępnej
Równoległe symulacje Monte Carlo na współdzielonej sieci
Równoległe symulacje Monte Carlo na współdzielonej sieci Szymon Murawski, Grzegorz Musiał, Grzegorz Pawłowski Wydział Fizyki, Uniwersytet im. Adama Mickiewicza 12 maja 2015 S. Murawski, G. Musiał, G. Pawłowski
Strategie kwantowe w teorii gier
Uniwersytet Jagielloński adam.wyrzykowski@uj.edu.pl 18 stycznia 2015 Plan prezentacji 1 Gra w odwracanie monety (PQ penny flip) 2 Wojna płci Definicje i pojęcia Równowagi Nasha w Wojnie płci 3 Kwantowanie
Podstawy sztucznej inteligencji
wykład II Problem solving 03 październik 2012 Jakie problemy możemy rozwiązywać? Cel: Zbudować inteligentnego agenta planującego, rozwiązującego problem. Szachy Kostka rubika Krzyżówka Labirynt Wybór trasy
Teoria gier. Teoria gier. Odróżniać losowość od wiedzy graczy o stanie!
Gry dzielimy ze względu na: liczbę graczy: 1-osobowe, bez przeciwników(np. pasjanse, 15-tka, gra w życie, itp.), 2-osobowe(np. szachy, warcaby, go, itp.), wieloosobowe(np. brydż, giełda, itp.); wygraną/przegraną:
Drzewo. Drzewo uporządkowane ma ponumerowanych (oznaczonych) następników. Drzewo uporządkowane składa się z węzłów, które zawierają następujące pola:
Drzewa Drzewa Drzewo (ang. tree) zbiór węzłów powiązanych wskaźnikami, spójny i bez cykli. Drzewo posiada wyróżniony węzeł początkowy nazywany korzeniem (ang. root). Drzewo ukorzenione jest strukturą hierarchiczną.
Teoria gier. Wykład7,31III2010,str.1. Gry dzielimy
Wykład7,31III2010,str.1 Gry dzielimy Wykład7,31III2010,str.1 Gry dzielimy ze względu na: liczbę graczy: 1-osobowe, bez przeciwników(np. pasjanse, 15-tka, gra w życie, itp.), Wykład7,31III2010,str.1 Gry
Porządek symetryczny: right(x)
Porządek symetryczny: x lef t(x) right(x) Własność drzewa BST: W drzewach BST mamy porządek symetryczny. Dla każdego węzła x spełniony jest warunek: jeżeli węzeł y leży w lewym poddrzewie x, to key(y)
Wykład 7 i 8. Przeszukiwanie z adwersarzem. w oparciu o: S. Russel, P. Norvig. Artificial Intelligence. A Modern Approach
(4g) Wykład 7 i 8 w oparciu o: S. Russel, P. Norvig. Artificial Intelligence. A Modern Approach P. Kobylański Wprowadzenie do Sztucznej Inteligencji 177 / 226 (4g) gry optymalne decyzje w grach algorytm
Elementy Modelowania Matematycznego
Elementy Modelowania Matematycznego Wykład 12 Teoria gier II Spis treści Wstęp Oligopol, cła oraz zbrodnia i kara Strategie mieszane Analiza zachowań w warunkach dynamicznych Indukcja wsteczna Gry powtarzane
Punkty równowagi w grach koordynacyjnych
Uniwersytet Śląski w Katowicach, Instytut Informatyki ul. Będzińska 39 41-200 Sosnowiec 9 grudnia 2014, Chorzów 1 Motywacja 2 3 4 5 6 Wnioski i dalsze badania Motywacja 1 są klasą gier, w których istnieje
Analiza stanów gry na potrzeby UCT w DVRP
Analiza stanów gry na potrzeby UCT w DVRP Seminarium IO na MiNI 04.11.2014 Michał Okulewicz based on the decision DEC-2012/07/B/ST6/01527 Plan prezentacji Definicja problemu DVRP DVRP na potrzeby UCB Analiza
< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >
Typy indeksów Indeks jest zakładany na atrybucie relacji atrybucie indeksowym (ang. indexing field). Indeks zawiera wartości atrybutu indeksowego wraz ze wskaźnikami do wszystkich bloków dyskowych zawierających
Teoria gier. mgr Przemysław Juszczuk. Wykład 5 - Równowagi w grach n-osobowych. Instytut Informatyki Uniwersytetu Śląskiego
Instytut Informatyki Uniwersytetu Śląskiego Wykład 5 - Równowagi w grach n-osobowych Figure: Podział gier Definicje Formalnie, jednoetapowa gra w postaci strategicznej dla n graczy definiowana jest jako:
SPOTKANIE 11: Reinforcement learning
Wrocław University of Technology SPOTKANIE 11: Reinforcement learning Adam Gonczarek Studenckie Koło Naukowe Estymator adam.gonczarek@pwr.edu.pl 19.01.2016 Uczenie z nadzorem (ang. supervised learning)
Algorytm memetyczny w grach wielokryterialnych z odroczoną preferencją celów. Adam Żychowski
Algorytm memetyczny w grach wielokryterialnych z odroczoną preferencją celów Adam Żychowski Definicja problemu dwóch graczy: P 1 (minimalizator) oraz P 2 (maksymalizator) S 1, S 2 zbiory strategii graczy
Monte Carlo, bootstrap, jacknife
Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I
Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:
Heurystyki. Strategie poszukiwań
Sztuczna inteligencja Heurystyki. Strategie poszukiwań Jacek Bartman Zakład Elektrotechniki i Informatyki Instytut Techniki Uniwersytet Rzeszowski DLACZEGO METODY PRZESZUKIWANIA? Sztuczna Inteligencja
UCT. Wybrane modyfikacje i usprawnienia
UCT Wybrane modyfikacje i usprawnienia UCT UCT Sposób wybierania kolejnego ruchu podczas symulacji (UCT): Q(s,a) średni dotychczasowy wynik pary stan-ruch N liczba wizyt w danym stanie/wykonań danej akcji
Algorytmy ewolucyjne `
Algorytmy ewolucyjne ` Wstęp Czym są algorytmy ewolucyjne? Rodzaje algorytmów ewolucyjnych Algorytmy genetyczne Strategie ewolucyjne Programowanie genetyczne Zarys historyczny Alan Turing, 1950 Nils Aall
Modelowanie Preferencji a Ryzyko. Dlaczego w dylemat więźnia warto grać kwantowo?
Modelowanie Preferencji a Ryzyko Dlaczego w dylemat więźnia warto grać kwantowo? Marek Szopa U n iwe r s y t e t Ś l ą s k i INSTYTUT FIZYKI im. Augusta Chełkowskiego Zakład Fizyki Teoretycznej Klasyczny
Modelowanie hierarchicznych struktur w relacyjnych bazach danych
Modelowanie hierarchicznych struktur w relacyjnych bazach danych Wiktor Warmus (wiktorwarmus@gmail.com) Kamil Witecki (kamil@witecki.net.pl) 5 maja 2010 Motywacje Teoria relacyjnych baz danych Do czego
O wielorękich bandytach, nieuczciwych kasynach i sprytnych statystykach. Łukasz Czekaj
O wielorękich bandytach, nieuczciwych kasynach i sprytnych statystykach Łukasz Czekaj Plan prezentacji Eksploracja vs Eksploatacja Motywacje Rozwinięcie problemu Algorytmy Optymalizacja Bayesowska Model
Podstawy programowania 2. Temat: Drzewa binarne. Przygotował: mgr inż. Tomasz Michno
Instrukcja laboratoryjna 5 Podstawy programowania 2 Temat: Drzewa binarne Przygotował: mgr inż. Tomasz Michno 1 Wstęp teoretyczny Drzewa są jedną z częściej wykorzystywanych struktur danych. Reprezentują
Teoria gier matematyki). optymalności decyzji 2 lub więcej Decyzja wpływa na wynik innych graczy strategiami
Teoria gier Teoria gier jest częścią teorii decyzji (czyli gałęzią matematyki). Teoria decyzji - decyzje mogą być podejmowane w warunkach niepewności, ale nie zależą od strategicznych działań innych Teoria
Optymalizacja. Przeszukiwanie lokalne
dr hab. inż. Instytut Informatyki Politechnika Poznańska www.cs.put.poznan.pl/mkomosinski, Maciej Hapke Idea sąsiedztwa Definicja sąsiedztwa x S zbiór N(x) S rozwiązań, które leżą blisko rozwiązania x
Metody Rozmyte i Algorytmy Ewolucyjne
mgr inż. Wydział Matematyczno-Przyrodniczy Szkoła Nauk Ścisłych Uniwersytet Kardynała Stefana Wyszyńskiego Podstawowe operatory genetyczne Plan wykładu Przypomnienie 1 Przypomnienie Metody generacji liczb
TEORIA GIER W EKONOMII WYKŁAD 5: GRY DWUOSOBOWE KOOPERACYJNE O SUMIE NIESTAŁEJ
TEORI GIER W EKONOMII WYKŁD 5: GRY DWUOSOOWE KOOPERCYJNE O SUMIE NIESTŁEJ dr Robert Kowalczyk Katedra nalizy Nieliniowej Wydział Matematyki i Informatyki UŁ Gry dwumacierzowe Skończoną grę dwuosobową o
Kurs z NetLogo - część 4.
Kurs z NetLogo - część 4. Mateusz Zawisza Zakład Wspomagania i Analizy Decyzji Instytut Ekonometrii Szkoła Główna Handlowa Seminarium Wieloagentowe Warszawa, 10.01.2011 Agenda spotkań z NetLogo 15. listopada
Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych
Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2013/14 Znajdowanie maksimum w zbiorze
Teoria gier. wstęp. 2011-12-07 Teoria gier Zdzisław Dzedzej 1
Teoria gier wstęp 2011-12-07 Teoria gier Zdzisław Dzedzej 1 Teoria gier zajmuje się logiczną analizą sytuacji, gdzie występują konflikty interesów, a także istnieje możliwość kooperacji. Zakładamy zwykle,
Uniwersytet Warszawski Teoria gier dr Olga Kiuila LEKCJA 3
LEKCJA 3 Wybór strategii mieszanej nie jest wyborem określonych decyzji, lecz pozornie sztuczną procedurą która wymaga losowych lub innych wyborów. Gracze mieszają nie dlatego że jest im obojętna strategia,
Algorytm hybrydowy dla alokacji portfela inwestycyjnego przy ograniczonych zasobach
Adam Stawowy Algorytm hybrydowy dla alokacji portfela inwestycyjnego przy ograniczonych zasobach Summary: We present a meta-heuristic to combine Monte Carlo simulation with genetic algorithm for Capital
Strategie ewolucyjne. Gnypowicz Damian Staniszczak Łukasz Woźniak Marek
Strategie ewolucyjne Gnypowicz Damian Staniszczak Łukasz Woźniak Marek Strategie ewolucyjne, a algorytmy genetyczne Podobieństwa: Oba działają na populacjach rozwiązań Korzystają z zasad selecji i przetwarzania
Indeksy. Wprowadzenie. Indeksy jednopoziomowe indeks podstawowy indeks zgrupowany indeks wtórny. Indeksy wielopoziomowe
1 Plan rozdziału 2 Indeksy Indeksy jednopoziomowe indeks podstawowy indeks zgrupowany indeks wtórny Indeksy wielopoziomowe Indeksy typu B-drzewo B-drzewo B+ drzewo B* drzewo Wprowadzenie 3 Indeks podstawowy
Ekonometryczne modele nieliniowe
Ekonometryczne modele nieliniowe Wykład 10 Modele przełącznikowe Markowa Literatura P.H.Franses, D. van Dijk (2000) Non-linear time series models in empirical finance, Cambridge University Press. R. Breuning,
Badania operacyjne egzamin
Imię i nazwisko:................................................... Nr indeksu:............ Zadanie 1 Załóżmy, że Tablica 1 reprezentuje jeden z kroków algorytmu sympleks dla problemu (1)-(4). Tablica
Problemy Decyzyjne Markowa
Problemy Decyzyjne Markowa na podstawie AIMA ch17 i slajdów S. Russel a Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 18 kwietnia 2013 Sekwencyjne problemy decyzyjne Cechy sekwencyjnego
Modelowanie motywów łańcuchami Markowa wyższego rzędu
Modelowanie motywów łańcuchami Markowa wyższego rzędu Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki 23 października 2008 roku Plan prezentacji 1 Źródła 2 Motywy i ich znaczenie Łańcuchy
Algorytmy równoległe: prezentacja i ocena efektywności prostych algorytmów dla systemów równoległych
Algorytmy równoległe: prezentacja i ocena efektywności prostych algorytmów dla systemów równoległych Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2018/19 Problem: znajdowanie
8. Drzewa decyzyjne, bagging, boosting i lasy losowe
Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane
Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych
Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2014/15 Znajdowanie maksimum w zbiorze
Metody przeszukiwania
Metody przeszukiwania Co to jest przeszukiwanie Przeszukiwanie polega na odnajdywaniu rozwiązania w dyskretnej przestrzeni rozwiązao. Zwykle przeszukiwanie polega na znalezieniu określonego rozwiązania
Algorytmy metaheurystyczne Wykład 6. Piotr Syga
Algorytmy metaheurystyczne Wykład 6 Piotr Syga 10.04.2017 Wprowadzenie Inspiracje Wprowadzenie ACS idea 1 Zaczynamy z pustym rozwiązaniem początkowym 2 Dzielimy problem na komponenty (przedmiot do zabrania,
Algorytmy dla gier dwuosobowych
Algorytmy dla gier dwuosobowych Wojciech Dudek Seminarium Nowości Komputerowe 5 czerwca 2008 Plan prezentacji Pojęcia wstępne (gry dwuosobowe, stan gry, drzewo gry) Algorytm MiniMax Funkcje oceniające
Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski
: idea Indeksowanie: Drzewo decyzyjne, przeszukiwania binarnego: F = {5, 7, 10, 12, 13, 15, 17, 30, 34, 35, 37, 40, 45, 50, 60} 30 12 40 7 15 35 50 Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski
prowadzący dr ADRIAN HORZYK /~horzyk e-mail: horzyk@agh tel.: 012-617 Konsultacje paw. D-13/325
PODSTAWY INFORMATYKI WYKŁAD 8. prowadzący dr ADRIAN HORZYK http://home home.agh.edu.pl/~ /~horzyk e-mail: horzyk@agh agh.edu.pl tel.: 012-617 617-4319 Konsultacje paw. D-13/325 DRZEWA Drzewa to rodzaj
Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re
Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem
Algorytmy metaheurystyczne Wykład 11. Piotr Syga
Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,
Drzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Każdy węzeł w drzewie posiada 3 pola: klucz, adres prawego potomka i adres lewego potomka. Pola zawierające adresy mogą być puste.
Drzewa binarne Każdy węzeł w drzewie posiada pola: klucz, adres prawego potomka i adres lewego potomka. Pola zawierające adresy mogą być puste. Uporządkowanie. Zakładamy, że klucze są różne. Klucze leżące
Wyznaczanie strategii w grach
Wyznaczanie strategii w grach Dariusz Banasiak Katedra Informatyki Technicznej W4/K9 Politechnika Wrocławska Definicja gry Teoria gier i konstruowane na jej podstawie programy stanowią jeden z głównych
Symulacje geometrycznych sieci neuronowych w środowisku rozproszonym
Symulacje geometrycznych sieci neuronowych w środowisku rozproszonym Jarosław Piersa, Tomasz Schreiber {piersaj, tomeks}(at)mat.umk.pl 2010-07-21 1 2 Dany podzbiór V R 3. N neuronów należących do V N Poiss(c
RISK-AWARE PROJECT SCHEDULING
RISK-AWARE PROJECT SCHEDULING SIMPLEUCT CZ. 2 KAROL WALĘDZIK DEFINICJA ZAGADNIENIA RESOURCE-CONSTRAINED PROJECT SCHEDULING (RCPS) Karol Walędzik - RAPS 3 RISK-AWARE PROJECT SCHEDULING (RAPS) 1 tryb wykonywania
Wykład 2. Drzewa poszukiwań binarnych (BST)
Wykład 2 Drzewa poszukiwań binarnych (BST) 1 O czym będziemy mówić Definicja Operacje na drzewach BST: Search Minimum, Maximum Predecessor, Successor Insert, Delete Struktura losowo budowanych drzew BST
Uczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019 Temporal Difference learning Uczenie oparte na różnicach czasowych Problemy predykcyjne (wieloetapowe) droga do
Uczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Na podstawie: AIMA ch2 Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 20 listopada 203 Problem decyzyjny Markova 3 + 2 0.8 START 0. 0. 2 3 4 MDP bez modelu przejść
Seminarium Zakładowe IDSS. Równoległe obliczenia metaheurystyczne z wykorzystaniem klastra obliczeniowego
Seminarium Zakładowe IDSS Równoległe obliczenia metaheurystyczne z wykorzystaniem klastra obliczeniowego Krzysztof Kowalczykiewicz Marek Kubiak Dawid Weiss Przemysław Wesołek Motywacje raz jeszcze... Zagospodarowanie
Prawdopodobieństwo i statystyka
Wykład VII: Metody specjalne Monte Carlo 24 listopada 2014 Transformacje specjalne Przykład - symulacja rozkładu geometrycznego Niech X Ex(λ). Rozważmy zmienną losową [X ], która przyjmuje wartości naturalne.
Algorytmy i struktury danych
POLITECHNIKA KRAKOWSKA - WIEiK KATEDRA AUTOMATYKI i TECHNIK INFORMACYJNYCH Algorytmy i struktury danych www.pk.edu.pl/~zk/aisd_hp.html Wykładowca: dr inż. Zbigniew Kokosiński zk@pk.edu.pl Wykład 5: Algorytmy
Drzewa czerwono-czarne.
Binboy at Sphere http://binboy.sphere.p l Drzewa czerwono-czarne. Autor: Jacek Zacharek Wstęp. Pojęcie drzewa czerwono-czarnego (red-black tree) zapoczątkował Rudolf Bayer w książce z 1972 r. pt. Symmetric
CLUSTERING II. Efektywne metody grupowania danych
CLUSTERING II Efektywne metody grupowania danych Plan wykładu Wstęp: Motywacja i zastosowania Metody grupowania danych Algorytmy oparte na podziałach (partitioning algorithms) PAM Ulepszanie: CLARA, CLARANS
ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 2014/2015. Drzewa BST c.d., równoważenie drzew, kopce.
POLITECHNIKA WARSZAWSKA Instytut Automatyki i Robotyki ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 204/205 Język programowania: Środowisko programistyczne: C/C++ Qt Wykład 2 : Drzewa BST c.d., równoważenie
10. Wstęp do Teorii Gier
10. Wstęp do Teorii Gier Definicja Gry Matematycznej Gra matematyczna spełnia następujące warunki: a) Jest co najmniej dwóch racjonalnych graczy. b) Zbiór możliwych dezycji każdego gracza zawiera co najmniej
2012-01-16 PLAN WYKŁADU BAZY DANYCH INDEKSY - DEFINICJE. Indeksy jednopoziomowe Indeksy wielopoziomowe Indeksy z użyciem B-drzew i B + -drzew
0-0-6 PLAN WYKŁADU Indeksy jednopoziomowe Indeksy wielopoziomowe Indeksy z użyciem B-drzew i B + -drzew BAZY DANYCH Wykład 9 dr inż. Agnieszka Bołtuć INDEKSY - DEFINICJE Indeksy to pomocnicze struktury
wykład V uzupełnienie notatek: dr Jerzy Białkowski Programowanie C/C++ Język C++ klasy i obiekty wykład V dr Jarosław Mederski Spis Język C++ - klasy
i obiekty Programowanie i obiekty uzupełnienie notatek: dr Jerzy Białkowski i obiekty 1 2 3 4 i obiekty Obiektowość języka C++ Na tym wykładzie poznamy: ˆ Klasa (w języku C++ rozszerzenie struktury, typ
Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów
Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów Jacek Miękisz Instytut Matematyki Stosowanej i Mechaniki Uniwersytet Warszawski Warszawa 14
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci neuronowe Sieci neuronowe w SAS Enterprise Miner Węzeł Neural Network Do
Partition Search i gry z niezupełną informacją
MIMUW 21 stycznia 2010 1 Co to jest gra? Proste algorytmy 2 Pomysł Algorytm Przykład użycia 3 Monte Carlo Inne spojrzenie Definicja Co to jest gra? Proste algorytmy Grą o wartościach w przedziale [0, 1]
Kolejka priorytetowa. Często rozważa się kolejki priorytetowe, w których poszukuje się elementu minimalnego zamiast maksymalnego.
Kolejki Kolejka priorytetowa Kolejka priorytetowa (ang. priority queue) to struktura danych pozwalająca efektywnie realizować następujące operacje na zbiorze dynamicznym, którego elementy pochodzą z określonego
Sztuczna Inteligencja i Systemy Doradcze
ztuczna Inteligencja i ystemy Doradcze Przeszukiwanie przestrzeni stanów Przeszukiwanie przestrzeni stanów 1 Postawienie problemu eprezentacja problemu: stany: reprezentują opisy różnych stanów świata
Wykład 6. Drzewa poszukiwań binarnych (BST)
Wykład 6 Drzewa poszukiwań binarnych (BST) 1 O czym będziemy mówić Definicja Operacje na drzewach BST: Search Minimum, Maximum Predecessor, Successor Insert, Delete Struktura losowo budowanych drzew BST
Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010
Algorytmy równoległe Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka Znajdowanie maksimum w zbiorze n liczb węzły - maksimum liczb głębokość = 3 praca = 4++ = 7 (operacji) n - liczność
Optymalizacja. Przeszukiwanie tabu
dr inż. Instytut Informatyki Politechnika Poznańska www.cs.put.poznan.pl/mkomosinski, Maciej Hapke Naturalny sposób powstania algorytmu Algorytm największego spadku niezdolność wyjścia z lokalnych optimów!
3. MINIMAX. Rysunek 1: Drzewo obrazujące przebieg gry.
3. MINIMAX. Bardzo wygodną strukturą danych pozwalającą reprezentować stan i przebieg gry (szczególnie gier dwuosobowych) jest drzewo. Węzły drzewa reprezentują stan gry po wykonaniu ruchu przez jednego
Algorytmiczne Aspekty Teorii Gier Rozwiązania zadań
Algorytmiczne Aspekty Teorii Gier Rozwiązania zadań Bartosz Gęza 19/06/2009 Zadanie 2. (gra symetryczna o sumie zerowej) Profil prawdopodobieństwa jednorodnego nie musi być punktem równowagi Nasha. Przykładem