O wielorękich bandytach, nieuczciwych kasynach i sprytnych statystykach. Łukasz Czekaj

Podobne dokumenty
Machine learning Lecture 5

SPOTKANIE 11: Reinforcement learning

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Analiza stanów gry na potrzeby UCT w DVRP

Podstawowe modele probabilistyczne

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.

Prawdopodobieństwo i statystyka r.

Drzewa decyzyjne i lasy losowe

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Matematyka ubezpieczeń majątkowych r.

Optymalizacja ciągła

Uczenie ze wzmocnieniem

POŁĄCZENIE ALGORYTMÓW SYMULACYJNYCH ORAZ DZIEDZINOWYCH METOD HEURYSTYCZNYCH W ZAGADNIENIACH DYNAMICZNEGO PODEJMOWANIA DECYZJI

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Redukcja wariancji w metodach Monte-Carlo

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Metody systemowe i decyzyjne w informatyce

Szeregi czasowe, analiza zależności krótkoi długozasięgowych

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Algorytmy estymacji stanu (filtry)

Uczenie ze wzmocnieniem

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Rozpoznawanie obrazów

Agata Boratyńska Statystyka aktuarialna... 1

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

EGZAMIN MAGISTERSKI, Biomatematyka

Gry w postaci normalnej

Metody Obliczeniowe w Nauce i Technice

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Dane są następujące reguły gry losowej: losujemy jedną kartę z pełnej talii (bez jokerów) i sprawdzamy wynik:

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

5 Błąd średniokwadratowy i obciążenie

Matematyka ubezpieczeń majątkowych r.

Podejmowanie decyzji w warunkach ryzyka. Tomasz Brzęczek Wydział Inżynierii Zarządzania PP

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Metody systemowe i decyzyjne w informatyce

Zastosowania sieci neuronowych

Metody probabilistyczne klasyfikatory bayesowskie

Algorytmy zrandomizowane

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Techniki optymalizacji

Parametr Λ w populacji ubezpieczonych ma rozkład dany na półosi dodatniej gęstością: 3 f

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Rachunek prawdopodobieństwa i statystyka

Rachunek prawdopodobieństwa Rozdział 6: Twierdzenia graniczne.

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Risk-Aware Project Scheduling. SimpleUCT

Rachunek prawdopodobieństwa Rozdział 6: Twierdzenia graniczne.

Matematyka ubezpieczeń majątkowych r.

11. Gry Macierzowe - Strategie Czyste i Mieszane

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

WYKŁAD: Szeregi czasowe II. Zaawansowane Metody Uczenia Maszynowego

Aukcje groszowe. Podejście teoriogrowe

Uczenie ze wzmocnieniem aplikacje

Fuzja sygnałów i filtry bayesowskie

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Systemy agentowe. Uczenie ze wzmocnieniem. Jędrzej Potoniec

SPOTKANIE 3: Regresja: Regresja liniowa

XI Konferencja Metody Ilościowe w Badaniach Ekonomicznych

Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów

Problemy Decyzyjne Markowa

Estymacja gęstości prawdopodobieństwa metodą selekcji modelu

Algorytmy klasyfikacji

METODY STATYSTYCZNE W BIOLOGII

Wojciech Skwirz

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Stosowana Analiza Regresji

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

METODY SZTUCZNEJ INTELIGENCJI algorytmy ewolucyjne

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Rozpoznawanie obrazów

Monte Carlo, bootstrap, jacknife

Zasady analizy algorytmów

Badania operacyjne egzamin

Współczesna technika inwersyjna - dokad zmierzamy? Wojciech Dȩbski

STATYSTYKA MATEMATYCZNA

Testowanie hipotez statystycznych

Dynamiczne stochastyczne modele równowagi ogólnej

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

EGZAMIN MAGISTERSKI, czerwiec 2015 Biomatematyka

Outline 1 MCTS. 2 Jednoczesne ruchy. 3 Niepełna informacja. 4 Podsumowanie. Jan Karwowski April 5, / 30

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

TEORIA GIER W EKONOMII WYKŁAD 5: GRY DWUOSOBOWE KOOPERACYJNE O SUMIE NIESTAŁEJ

Ważne rozkłady i twierdzenia c.d.

Metody systemowe i decyzyjne w informatyce

Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła

Transkrypt:

O wielorękich bandytach, nieuczciwych kasynach i sprytnych statystykach Łukasz Czekaj

Plan prezentacji Eksploracja vs Eksploatacja Motywacje Rozwinięcie problemu Algorytmy Optymalizacja Bayesowska

Model

Model Bandyta ma K ramion Każde ramię i płaci 1 PLN z prawdopodobieństwem p i Nie znamy {p i } ale wiemy, że są stałe w czasie W każdym kroku t wybieramy ramię a t którym gramy Na podstawie naszego wyboru otrzymujemy wygraną: r t ~ Bernouli(p a(t) ) W jaki sposób grać, aby zmaksymalizować wygraną? Możemy rozważać koszt gry c Szukamy strategi π która minimalizuje stratę: R t = p * t - E[ sum t r π(t) ]

Model Mamy skończony budżet i w ramach tego budżetu chcemy osiągnąć największe zyski (ROI). Jednocześnie optymalizujemy i robimy użytek z naszej wiedzy. Pokrewne problemy: Optymalizacja funkcji przy założonym budżecie użytek z naszej wiedzy będziemy robić później (optymalizacja Bayesowska będzie w dalszej części). Minimalizacja wariancji estymatora przy założonym budżecie (optymalne projektowanie eksperymentu, aktywne uczenie http://burrsettles.com/pub/settles.activelearning.pdf)

Podejście naiwne (zachłanne) Gra trwa T rund (liczbę rund znamy na początku) Na początku gramy każdym ramieniem N razy (faza eksploracji K N < T) Pozostały czas gramy ramieniem które wypadło najlepiej w fazie eksploracji (eksploatacja)

Podejście naiwne (zachłanne) N= T 2/3 (log T) 1/3 R T O(T2/3 (log T) 1/3 ) na koniec gry Czy możemy grać lepiej (strategie adaptatywne)? O ile lepiej możemy grać (ograniczenie dolne na R T )?

Podejście naiwne - dlaczego to działa Dla każdego ramienia zachodzi S n - N p ε i wybieramy złe ramię => dużo nie tracimy: R T N+O(ε (T-KN)) Jakie jest prawdopodobieństwo, że tracimy dużo, tj.: S n - N p > ε? Ograniczenie Hoeffdinga: P( S n - N p ε ) 1 exp(-2 ε 2 N) E[R T ] = E[R T ok]p(ok) + E[R T bad]p(bad) ε=(2 log T/N) 1/2, N = T 2/3 (log T) 1/3 => R T O(T2/3 (log T) 1/3 )

Algorytm ε-zachłanny Z prawdopodobieństwem (1 - ε), na podstawie dotychczasowych obserwacji wybierz ramię z największym prawdopodobieństwem wygranej. Z prawdopodobieństwem ε wybierz losowe ramię. ε t ~ t -1/3 R t O(t 2/3 (log t) 1/3 ) w każdym momencie gry Czy można lepiej Co jeśli kasyno oszukuje? Algorytm może przynieść duże straty: R T = o(t) o tym jeszcze będzie później Eksplorujemy przestrzeń parametrów w sposób nieefektywny.

Górny przedział ufności (UCB1) Wybierz każde ramię raz W każdej rundzie t: Oblicz średnią wartość ramienia: wt (a) Oblicz przedział ufności dla ramienia: r t (a) = (2 log T/n t (a)) 1/2 Graj optymistycznie, tj. wybierz ramię: arg max a w t (a)+r t (a) Lepsze szacowanie przedziału ufności UCB-tuned

Górny przedział ufności (UCB1) R t O((Kt (log T)) 1/2 ) Jeśli coś wiemy o p i : R t O(log T)[ a 1/ (a)]

Jak dobry może być algorytm Rodzina wrednych Bandytów: I i ={p 0 =1/2,p 1 =1/2,,p i =(1+ε)/2,,p K =1/2} Trudno powiedzieć z którym bandytą mamy do czynienia: p(a)-q(a) ε T 1/2 Algorytm: A i <=> i R T Ω((K T) 1/2 ) Nawet jeśli coś wiemy o p i : R t Ω(log t)

Eksploracja vs eksploatacja Eksploatacja wykorzystaj dotychczasowe dane do podjęcia najlepszej decyzji Eksploracja zgromadź więcej danych Najlepsza strategia długoterminowa nie musi być lokalnie optymalna. Od czasu do czasu warto wyjść poza strefę komfortu oraz inne życiowe prawdy.

Eksploracja vs eksploatacja Jeśli bez końca eksplorujemy to nasze straty będą liniowe w czasie.

Motywacje Marketing: optymalizacja cen, optymalizacja asortymenty, optymalizacja komunikatów/reklam, optymalizacja układu strony (Amazon, Yahoo!) Koszty biznesowe nieoptymalnego działania Optymalizacja portfolio (np. przydział środków na projekty R&D) Optymalizacja terapii, testy kliniczne

Warianty Przestrzeń parametrów jest dyskretna czy ciągła? Czy jest jakaś korelacja przestrzenna między bandytami/ramionami? Bliskie i implikuje bliskie p i? Czy mamy jakąś dodatkową wiedzę o rozkładzie p i? Czy p i zmienia się w czasie (stacjonarność vs niestacjonarność)? Czy p i zależy od poprzednich ewaluacji (markowość)? Czy jest dodatkowy kontekst od którego zależy wygrana (np. informacje o użytkowniku do którego adresujemy reklamę, parametry reklamy)? Bandyta przeciwnik (adversarial bandit) nieuczciwe kasyno zna historię naszych ruchów oraz algorytm i na tej podstawie ustala p i w następnej rundzie. Opóźnienia informacji o wygranej (np. poznajemy wygraną 10 rund później, CTR). Możliwość przeprowadzenia kilku gier równolegle Skończony/otwarty horyzont czasowy. Inne modele straty (np. probably approximately correct).

Algorytm Bayesowski Czy możemy zrobić użytek z naszej wiedzy o rozkładzie wygranych {p i }, korelacjach między bandytami, znajomości kontekstu? Strata Bayesowska/strukturalna BR t = E ϴ [p * t - E[ sum t r π(t) ]] ϴ parametry od których zależy wygrana

Algorytm Bayesowski Wyznacz rozkład aposteriori prawdopodobieństwa wygranej p i, przy założeniu dotychczasowych obserwacji (do chwili t). Policz wartość oczekiwaną zysku dla każdego i: r * i = E[Σ t >t r i p i ] Optymalizuj względem i

Algorytm Bayesowski Elastyczność, można uwzględnić: wiedzę aprioi zmienne ciągłe i dyskretne strukturę (korelacje, warunek Lipschitza) zmienność w czasie kontekst szum/brak szumu (optymalizacja funkcji deterministycznych: rozkład aprioi klasa funkcji) Duża złożoność obliczeniowa (aproksymacja przy użyciu MCTS), dla niektórych przypadków łatwiej

Algorytm Bayesowski Heurystyka: bądź optymistą wybieraj najbardziej obiecujące ramię Funkcja użyteczności (np. UCB, p. poprawy)

Próbkowanie Thompsona Wylosuj p i z rozkładu a posteriori, przy założeniu dotychczasowych obserwacji (do chwili t). Wyznacz i optymalne dla wylosowanego p i Algorytm łatwy do implementacji i tani obliczeniowo Równoległe eksperymenty losujemy wiele p i Wyniki eksperymentów potwierdzają skuteczność w porównaniu z innymi algorytmami R T = O( (T K log T) 1/2 ) rt - rozkład Bernoullego, rozkład jednorodny a priori rt - rozkład Gaussa, rozkład jednorodny a priori

Hedge, EXP3, EXP4, EXP... Wybierz ramię i z prawdopodobieństwem: p i,t =(1-γ) w i,t /Σ j w j,t +γ/k Aktualizacja wag: w i,t+1 = w i,t exp(γ r i / K) w i,t+1 = w i,t exp(γ r i / p i,t K) Gra z przeciwnikiem (adversial bandit): Na początku rundy przeciwnik ustala wypłaty ri, przeciwnik może znać historię ruchów. Gracz wybiera ramię i otrzymuje wypłatę; gracz nie zna ri Rt = r * t - E[ sum t r π(t) ] R T O( sqrt(t K log(k)) ); jeśli istnieje optymalna strategia, jesteśmy w stanie się jej nauczyć

Niestacjonarność Kasyno co jakiś czas manipuluje przy bandytach Zmiana skuteczności leków (np. nabywanie odporności przez bakterie) Zmiana zachowań użytkowników serwisów internetowych Zapominanie starych wyników (UCB, EXP): Wykładnicze dyskontowanie Okno Restart Wykrywanie zmian strukturalnych (EXP.R)

Kontekst Kontekst bandyty i kontekst gracza: Podobni bandyci dają podobne wygrane Podobni gracze mają podobne szczęści Posiadamy dodatkowe informacje które możemy wykorzystać: Dane pacjenta, historia choroby, dawka leku Historia przeglądania, kategoryzacja produktów Parametry układu treści na stronie, kategoryzacja tematyczna treści

Kontekst Dla skończonej liczby kontekstów redukcja do KC niezależnych ramion; nie korzystamy z informacji o podobieństwie. Korelacje, ograniczenie/ciągłość Lipschitza: r x -r y L x-y Dyskretyzacja: RT R T (S) + DE(S) Adaptatywna dyskretyzacja rozmiar siatki zależy od przedziału ufności RT O(T d+1/d+2 (log T) 1/d+2 ) Podział przestrzeni przy użyciu drzewa/podejście hierarchiczne (BAST, HOO)

Kontekst Adaptatywna dyskretyzacja: DIviding RECTangles - DIRECT, Perttunen at al. 1993

Kontekst Model liniowy LinUCB (niezależna parametryzacja) arg max a w t (a)+r t (a) w t (a) = x t,a θ t,a, r t (a) = α sqrt(x t,a A t,a -1 x t,a ) θ t,a =A t,a -1b t,a A t,a = A t-1,a + x t,a x t,a b t,a = b t-1,a + x t,a r t,a

Optymalizacja Bayesowka Wprowadzenie Optymalizacja funkcji f(x) której ewaluacja jest kosztowna: długi czas obliczania funkcji optymalizacja meta parametrów w uczeniu maszynowym czynnik ludzki (np. uczenie preferencji, modelowanie materiałów 3D https://arxiv.org/pdf/1012.2599.pdf) adaptatywny eksperyment, testy A/B Przeszukiwanie drzew metodami monte carlo (MCTS) geologia, ekologia Optymalizacja f(x) przy założonym budżecie minimalizacja liczby wywołań f(x)

Optymalizacja Bayesowka Założenia Założenia odnośnie gładkości optymalizowanej funkcji Rozkład prawdopodobieństwa służy do modelowania niewiedzy

Optymalizacja Bayesowka Rozkład apriori funkcji Założenia odnośnie gładkości optymalizowanej funkcji f ciągłość w sensie Lipschitza: f(x) f(y) L x-y Rozkład apriori powinien umożliwiać łatwą aktualizację wraz z nadchodzącymi danymi oraz łatwe obliczanie odchylenia od wartości średniej Lasy losowe (SMAC) Proces Gaussowski f ~ GP( m, k ), gdzie: m wartości średnie k funkcja kowariancji, np. RBF ~ exp( - x-x 2/2θ 2 )

Optymalizacja Bayesowka Rozkład apriori funkcji (scikit-learn)

Optymalizacja Bayesowka Rozkład apriori funkcji (E. Brochu, V. M. Cora, N. de Freitas, 2010)

Optymalizacja Bayesowka Algorytm Dla danego kroku t mamy zbiór danych: D t ={(x 1,y 1 ),,(x t,y t )} Optymalizujemy funkcję użyteczności dla rozkładu aposteriori: x t+1 = argmax x u(f D t ) Obliczamy y t+1 = f(x t+1 ) D t+1 = D t + {(x t+1,y t+1 )} Funkcja użyteczności: np. UCB = μ(x) + std(x) Rozkład aposteriori dla x t+1 μ(x t+1 )=k T K -1 y σ 2 (x t+1 ) = k(x t+1,x t+1 )-k T K -1 k

Optymalizacja Bayesowka Algorytm (E. Brochu, V. M. Cora, N. de Freitas, 2010)

Optymalizacja Bayesowka Pakiety w Pythonie Ogólnego przeznaczenia: bayesian-optimization https://github.com/fmfn/bayesianoptimization pygpgo http://pygpgo.readthedocs.io/en/latest hyperopt http://hyperopt.github.io/hyperopt/ Automatyczne uczenie maszynowe optymalizacja pipeline (preprocessing, wybór modelu i optymalizacja metaparametrów) autosklearn https://github.com/automl/auto-sklearn

Literatura Introduction to Multi-Armed Bandits, A. Slivkins Regret Analysis of Stochastic and Nonstochastic Multiarmed Bandit Problems, S. Bubeck, N. Cesa-Bianchi Gambling in a rigged casino: The adversarial multi-armed bandit problem, P. Auer, N. Cesa-Bianchi, Y. Freund, R. E. Schapire An Empirical Evaluation of Thompson Sampling, O. Chapelle, L. Li A Tutorial on Thompson Sampling, D. J. Russo, B. Van Roy, A. Kazerouni, I. Osband, Z. Wen

Literatura A Survey of Online Experiment Design with the Stochastic Multi-Armed Bandit, G. Burtini, J. Loeppky, R. Lawrence A Survey on Contextual Multi-armed Bandits,Li Zhou A Tutorial on Bayesian Optimization of Expensive Cost Functions, with Application to Active User Modeling and Hierarchical Reinforcement Learning, E. Brochu, V. M. Cora, N. de Freitas Taking the Human Out of the Loop: A Review of Bayesian Optimization, B. Shahriari, K. Swersky, Z. Wang, et. al. Multi-Armed Bandit Algorithms and Empirical Evaluation, J. Vermorel, M. Mohri Algorithms for the multi-armed bandit problem, V. Kuleshov, D. Precup https://dataorigami.net/blogs/napkin-folding/79031811-multi-armed-bandits