O wielorękich bandytach, nieuczciwych kasynach i sprytnych statystykach. Łukasz Czekaj
|
|
- Karolina Łuczak
- 6 lat temu
- Przeglądów:
Transkrypt
1 O wielorękich bandytach, nieuczciwych kasynach i sprytnych statystykach Łukasz Czekaj
2 Plan prezentacji Eksploracja vs Eksploatacja Motywacje Rozwinięcie problemu Algorytmy Optymalizacja Bayesowska
3 Model
4 Model Bandyta ma K ramion Każde ramię i płaci 1 PLN z prawdopodobieństwem p i Nie znamy {p i } ale wiemy, że są stałe w czasie W każdym kroku t wybieramy ramię a t którym gramy Na podstawie naszego wyboru otrzymujemy wygraną: r t ~ Bernouli(p a(t) ) W jaki sposób grać, aby zmaksymalizować wygraną? Możemy rozważać koszt gry c Szukamy strategi π która minimalizuje stratę: R t = p * t - E[ sum t r π(t) ]
5 Model Mamy skończony budżet i w ramach tego budżetu chcemy osiągnąć największe zyski (ROI). Jednocześnie optymalizujemy i robimy użytek z naszej wiedzy. Pokrewne problemy: Optymalizacja funkcji przy założonym budżecie użytek z naszej wiedzy będziemy robić później (optymalizacja Bayesowska będzie w dalszej części). Minimalizacja wariancji estymatora przy założonym budżecie (optymalne projektowanie eksperymentu, aktywne uczenie
6 Podejście naiwne (zachłanne) Gra trwa T rund (liczbę rund znamy na początku) Na początku gramy każdym ramieniem N razy (faza eksploracji K N < T) Pozostały czas gramy ramieniem które wypadło najlepiej w fazie eksploracji (eksploatacja)
7 Podejście naiwne (zachłanne) N= T 2/3 (log T) 1/3 R T O(T2/3 (log T) 1/3 ) na koniec gry Czy możemy grać lepiej (strategie adaptatywne)? O ile lepiej możemy grać (ograniczenie dolne na R T )?
8 Podejście naiwne - dlaczego to działa Dla każdego ramienia zachodzi S n - N p ε i wybieramy złe ramię => dużo nie tracimy: R T N+O(ε (T-KN)) Jakie jest prawdopodobieństwo, że tracimy dużo, tj.: S n - N p > ε? Ograniczenie Hoeffdinga: P( S n - N p ε ) 1 exp(-2 ε 2 N) E[R T ] = E[R T ok]p(ok) + E[R T bad]p(bad) ε=(2 log T/N) 1/2, N = T 2/3 (log T) 1/3 => R T O(T2/3 (log T) 1/3 )
9 Algorytm ε-zachłanny Z prawdopodobieństwem (1 - ε), na podstawie dotychczasowych obserwacji wybierz ramię z największym prawdopodobieństwem wygranej. Z prawdopodobieństwem ε wybierz losowe ramię. ε t ~ t -1/3 R t O(t 2/3 (log t) 1/3 ) w każdym momencie gry Czy można lepiej Co jeśli kasyno oszukuje? Algorytm może przynieść duże straty: R T = o(t) o tym jeszcze będzie później Eksplorujemy przestrzeń parametrów w sposób nieefektywny.
10 Górny przedział ufności (UCB1) Wybierz każde ramię raz W każdej rundzie t: Oblicz średnią wartość ramienia: wt (a) Oblicz przedział ufności dla ramienia: r t (a) = (2 log T/n t (a)) 1/2 Graj optymistycznie, tj. wybierz ramię: arg max a w t (a)+r t (a) Lepsze szacowanie przedziału ufności UCB-tuned
11 Górny przedział ufności (UCB1) R t O((Kt (log T)) 1/2 ) Jeśli coś wiemy o p i : R t O(log T)[ a 1/ (a)]
12 Jak dobry może być algorytm Rodzina wrednych Bandytów: I i ={p 0 =1/2,p 1 =1/2,,p i =(1+ε)/2,,p K =1/2} Trudno powiedzieć z którym bandytą mamy do czynienia: p(a)-q(a) ε T 1/2 Algorytm: A i <=> i R T Ω((K T) 1/2 ) Nawet jeśli coś wiemy o p i : R t Ω(log t)
13 Eksploracja vs eksploatacja Eksploatacja wykorzystaj dotychczasowe dane do podjęcia najlepszej decyzji Eksploracja zgromadź więcej danych Najlepsza strategia długoterminowa nie musi być lokalnie optymalna. Od czasu do czasu warto wyjść poza strefę komfortu oraz inne życiowe prawdy.
14 Eksploracja vs eksploatacja Jeśli bez końca eksplorujemy to nasze straty będą liniowe w czasie.
15 Motywacje Marketing: optymalizacja cen, optymalizacja asortymenty, optymalizacja komunikatów/reklam, optymalizacja układu strony (Amazon, Yahoo!) Koszty biznesowe nieoptymalnego działania Optymalizacja portfolio (np. przydział środków na projekty R&D) Optymalizacja terapii, testy kliniczne
16 Warianty Przestrzeń parametrów jest dyskretna czy ciągła? Czy jest jakaś korelacja przestrzenna między bandytami/ramionami? Bliskie i implikuje bliskie p i? Czy mamy jakąś dodatkową wiedzę o rozkładzie p i? Czy p i zmienia się w czasie (stacjonarność vs niestacjonarność)? Czy p i zależy od poprzednich ewaluacji (markowość)? Czy jest dodatkowy kontekst od którego zależy wygrana (np. informacje o użytkowniku do którego adresujemy reklamę, parametry reklamy)? Bandyta przeciwnik (adversarial bandit) nieuczciwe kasyno zna historię naszych ruchów oraz algorytm i na tej podstawie ustala p i w następnej rundzie. Opóźnienia informacji o wygranej (np. poznajemy wygraną 10 rund później, CTR). Możliwość przeprowadzenia kilku gier równolegle Skończony/otwarty horyzont czasowy. Inne modele straty (np. probably approximately correct).
17 Algorytm Bayesowski Czy możemy zrobić użytek z naszej wiedzy o rozkładzie wygranych {p i }, korelacjach między bandytami, znajomości kontekstu? Strata Bayesowska/strukturalna BR t = E ϴ [p * t - E[ sum t r π(t) ]] ϴ parametry od których zależy wygrana
18 Algorytm Bayesowski Wyznacz rozkład aposteriori prawdopodobieństwa wygranej p i, przy założeniu dotychczasowych obserwacji (do chwili t). Policz wartość oczekiwaną zysku dla każdego i: r * i = E[Σ t >t r i p i ] Optymalizuj względem i
19 Algorytm Bayesowski Elastyczność, można uwzględnić: wiedzę aprioi zmienne ciągłe i dyskretne strukturę (korelacje, warunek Lipschitza) zmienność w czasie kontekst szum/brak szumu (optymalizacja funkcji deterministycznych: rozkład aprioi klasa funkcji) Duża złożoność obliczeniowa (aproksymacja przy użyciu MCTS), dla niektórych przypadków łatwiej
20 Algorytm Bayesowski Heurystyka: bądź optymistą wybieraj najbardziej obiecujące ramię Funkcja użyteczności (np. UCB, p. poprawy)
21 Próbkowanie Thompsona Wylosuj p i z rozkładu a posteriori, przy założeniu dotychczasowych obserwacji (do chwili t). Wyznacz i optymalne dla wylosowanego p i Algorytm łatwy do implementacji i tani obliczeniowo Równoległe eksperymenty losujemy wiele p i Wyniki eksperymentów potwierdzają skuteczność w porównaniu z innymi algorytmami R T = O( (T K log T) 1/2 ) rt - rozkład Bernoullego, rozkład jednorodny a priori rt - rozkład Gaussa, rozkład jednorodny a priori
22 Hedge, EXP3, EXP4, EXP... Wybierz ramię i z prawdopodobieństwem: p i,t =(1-γ) w i,t /Σ j w j,t +γ/k Aktualizacja wag: w i,t+1 = w i,t exp(γ r i / K) w i,t+1 = w i,t exp(γ r i / p i,t K) Gra z przeciwnikiem (adversial bandit): Na początku rundy przeciwnik ustala wypłaty ri, przeciwnik może znać historię ruchów. Gracz wybiera ramię i otrzymuje wypłatę; gracz nie zna ri Rt = r * t - E[ sum t r π(t) ] R T O( sqrt(t K log(k)) ); jeśli istnieje optymalna strategia, jesteśmy w stanie się jej nauczyć
23 Niestacjonarność Kasyno co jakiś czas manipuluje przy bandytach Zmiana skuteczności leków (np. nabywanie odporności przez bakterie) Zmiana zachowań użytkowników serwisów internetowych Zapominanie starych wyników (UCB, EXP): Wykładnicze dyskontowanie Okno Restart Wykrywanie zmian strukturalnych (EXP.R)
24 Kontekst Kontekst bandyty i kontekst gracza: Podobni bandyci dają podobne wygrane Podobni gracze mają podobne szczęści Posiadamy dodatkowe informacje które możemy wykorzystać: Dane pacjenta, historia choroby, dawka leku Historia przeglądania, kategoryzacja produktów Parametry układu treści na stronie, kategoryzacja tematyczna treści
25 Kontekst Dla skończonej liczby kontekstów redukcja do KC niezależnych ramion; nie korzystamy z informacji o podobieństwie. Korelacje, ograniczenie/ciągłość Lipschitza: r x -r y L x-y Dyskretyzacja: RT R T (S) + DE(S) Adaptatywna dyskretyzacja rozmiar siatki zależy od przedziału ufności RT O(T d+1/d+2 (log T) 1/d+2 ) Podział przestrzeni przy użyciu drzewa/podejście hierarchiczne (BAST, HOO)
26 Kontekst Adaptatywna dyskretyzacja: DIviding RECTangles - DIRECT, Perttunen at al. 1993
27 Kontekst Model liniowy LinUCB (niezależna parametryzacja) arg max a w t (a)+r t (a) w t (a) = x t,a θ t,a, r t (a) = α sqrt(x t,a A t,a -1 x t,a ) θ t,a =A t,a -1b t,a A t,a = A t-1,a + x t,a x t,a b t,a = b t-1,a + x t,a r t,a
28 Optymalizacja Bayesowka Wprowadzenie Optymalizacja funkcji f(x) której ewaluacja jest kosztowna: długi czas obliczania funkcji optymalizacja meta parametrów w uczeniu maszynowym czynnik ludzki (np. uczenie preferencji, modelowanie materiałów 3D adaptatywny eksperyment, testy A/B Przeszukiwanie drzew metodami monte carlo (MCTS) geologia, ekologia Optymalizacja f(x) przy założonym budżecie minimalizacja liczby wywołań f(x)
29 Optymalizacja Bayesowka Założenia Założenia odnośnie gładkości optymalizowanej funkcji Rozkład prawdopodobieństwa służy do modelowania niewiedzy
30 Optymalizacja Bayesowka Rozkład apriori funkcji Założenia odnośnie gładkości optymalizowanej funkcji f ciągłość w sensie Lipschitza: f(x) f(y) L x-y Rozkład apriori powinien umożliwiać łatwą aktualizację wraz z nadchodzącymi danymi oraz łatwe obliczanie odchylenia od wartości średniej Lasy losowe (SMAC) Proces Gaussowski f ~ GP( m, k ), gdzie: m wartości średnie k funkcja kowariancji, np. RBF ~ exp( - x-x 2/2θ 2 )
31 Optymalizacja Bayesowka Rozkład apriori funkcji (scikit-learn)
32 Optymalizacja Bayesowka Rozkład apriori funkcji (E. Brochu, V. M. Cora, N. de Freitas, 2010)
33 Optymalizacja Bayesowka Algorytm Dla danego kroku t mamy zbiór danych: D t ={(x 1,y 1 ),,(x t,y t )} Optymalizujemy funkcję użyteczności dla rozkładu aposteriori: x t+1 = argmax x u(f D t ) Obliczamy y t+1 = f(x t+1 ) D t+1 = D t + {(x t+1,y t+1 )} Funkcja użyteczności: np. UCB = μ(x) + std(x) Rozkład aposteriori dla x t+1 μ(x t+1 )=k T K -1 y σ 2 (x t+1 ) = k(x t+1,x t+1 )-k T K -1 k
34 Optymalizacja Bayesowka Algorytm (E. Brochu, V. M. Cora, N. de Freitas, 2010)
35 Optymalizacja Bayesowka Pakiety w Pythonie Ogólnego przeznaczenia: bayesian-optimization pygpgo hyperopt Automatyczne uczenie maszynowe optymalizacja pipeline (preprocessing, wybór modelu i optymalizacja metaparametrów) autosklearn
36 Literatura Introduction to Multi-Armed Bandits, A. Slivkins Regret Analysis of Stochastic and Nonstochastic Multiarmed Bandit Problems, S. Bubeck, N. Cesa-Bianchi Gambling in a rigged casino: The adversarial multi-armed bandit problem, P. Auer, N. Cesa-Bianchi, Y. Freund, R. E. Schapire An Empirical Evaluation of Thompson Sampling, O. Chapelle, L. Li A Tutorial on Thompson Sampling, D. J. Russo, B. Van Roy, A. Kazerouni, I. Osband, Z. Wen
37 Literatura A Survey of Online Experiment Design with the Stochastic Multi-Armed Bandit, G. Burtini, J. Loeppky, R. Lawrence A Survey on Contextual Multi-armed Bandits,Li Zhou A Tutorial on Bayesian Optimization of Expensive Cost Functions, with Application to Active User Modeling and Hierarchical Reinforcement Learning, E. Brochu, V. M. Cora, N. de Freitas Taking the Human Out of the Loop: A Review of Bayesian Optimization, B. Shahriari, K. Swersky, Z. Wang, et. al. Multi-Armed Bandit Algorithms and Empirical Evaluation, J. Vermorel, M. Mohri Algorithms for the multi-armed bandit problem, V. Kuleshov, D. Precup
Machine learning Lecture 5
Machine learning Lecture 5 Marcin Wolter IFJ PAN 21 kwietnia 2017 Uczenie -sprawdzanie krzyżowe (cross-validation). Optymalizacja parametrów metod uczenia maszynowego. Deep learning 1 Uczenie z nauczycielem
SPOTKANIE 11: Reinforcement learning
Wrocław University of Technology SPOTKANIE 11: Reinforcement learning Adam Gonczarek Studenckie Koło Naukowe Estymator adam.gonczarek@pwr.edu.pl 19.01.2016 Uczenie z nadzorem (ang. supervised learning)
REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój
1 REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 2 DOTYCHCZASOWE MODELE Regresja liniowa o postaci: y
Analiza stanów gry na potrzeby UCT w DVRP
Analiza stanów gry na potrzeby UCT w DVRP Seminarium IO na MiNI 04.11.2014 Michał Okulewicz based on the decision DEC-2012/07/B/ST6/01527 Plan prezentacji Definicja problemu DVRP DVRP na potrzeby UCB Analiza
Podstawowe modele probabilistyczne
Wrocław University of Technology Podstawowe modele probabilistyczne Maciej Zięba maciej.zieba@pwr.edu.pl Rozpoznawanie Obrazów, Lato 2018/2019 Pojęcie prawdopodobieństwa Prawdopodobieństwo reprezentuje
Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych
Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych mgr inż. C. Dendek prof. nzw. dr hab. J. Mańdziuk Politechnika Warszawska, Wydział Matematyki i Nauk Informacyjnych Outline 1 Uczenie
Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.
Kwantyle Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p, że P(X x p ) p P(X x p ) 1 p Możemy go obliczyć z dystrybuanty: Jeżeli F(x p ) = p, to x p jest kwantylem rzędu p Jeżeli F(x p )
Prawdopodobieństwo i statystyka r.
Zadanie. Niech (X, Y) ) będzie dwuwymiarową zmienną losową, o wartości oczekiwanej (μ, μ, wariancji każdej ze współrzędnych równej σ oraz kowariancji równej X Y ρσ. Staramy się obserwować niezależne realizacje
Drzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa
Systemy uczace się 2009 1 / 32 Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa Hung Son Nguyen Wydział Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski email: son@mimuw.edu.pl Grudzień
Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2
Metody teorii gier ALP520 - Wykład z Algorytmów Probabilistycznych p.2 Metody teorii gier Cel: Wyprowadzenie oszacowania dolnego na oczekiwany czas działania dowolnego algorytmu losowego dla danego problemu.
Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017
Metody eksploracji danych 2. Metody regresji Piotr Szwed Katedra Informatyki Stosowanej AGH 2017 Zagadnienie regresji Dane: Zbiór uczący: D = {(x i, y i )} i=1,m Obserwacje: (x i, y i ), wektor cech x
Matematyka ubezpieczeń majątkowych r.
Matematyka ubezpieczeń majątkowych 0.0.005 r. Zadanie. Likwidacja szkody zaistniałej w roku t następuje: w tym samym roku z prawdopodobieństwem 0 3, w następnym roku z prawdopodobieństwem 0 3, 8 w roku
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Uczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Na podstawie: AIMA ch2 Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 20 listopada 203 Problem decyzyjny Markova 3 + 2 0.8 START 0. 0. 2 3 4 MDP bez modelu przejść
POŁĄCZENIE ALGORYTMÓW SYMULACYJNYCH ORAZ DZIEDZINOWYCH METOD HEURYSTYCZNYCH W ZAGADNIENIACH DYNAMICZNEGO PODEJMOWANIA DECYZJI
POŁĄCZENIE ALGORYTMÓW SYMULACYJNYCH ORAZ DZIEDZINOWYCH METOD HEURYSTYCZNYCH W ZAGADNIENIACH DYNAMICZNEGO PODEJMOWANIA DECYZJI mgr inż. Karol Walędzik k.waledzik@mini.pw.edu.pl prof. dr hab. inż. Jacek
komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW
Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,
Redukcja wariancji w metodach Monte-Carlo
14.02.2006 Seminarium szkoleniowe 14 lutego 2006 Plan prezentacji Wprowadzenie Metoda losowania warstwowego Metoda próbkowania ważonego Metoda zmiennych kontrolnych Metoda zmiennych antytetycznych Metoda
zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych
zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych 1. [E.A 5.10.1996/zad.4] Funkcja gęstości dana jest wzorem { 3 x + 2xy + 1 y dla (x y) (0 1) (0 1) 4 4 P (X > 1 2 Y > 1 2 ) wynosi:
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym
Szeregi czasowe, analiza zależności krótkoi długozasięgowych
Szeregi czasowe, analiza zależności krótkoi długozasięgowych Rafał Weron rweron@im.pwr.wroc.pl Definicje Mając dany proces {X t } autokowariancję definiujemy jako : γ(t, t ) = cov(x t, X t ) = = E[(X t
Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.
Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,
Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I
Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:
Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11
Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)
WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska
Wrocław University of Technology WYKŁAD 2 i 3 Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne autor: Maciej Zięba Politechnika Wrocławska Pojęcie prawdopodobieństwa Prawdopodobieństwo
Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.
Stopy zbieżności Stopę zbieżności ciagu zmiennych losowych a n, takiego, że a n oznaczamy jako a n = o p (1 p 0 a Jeśli n p n α 0, to a n = o p (n α i mówimy a n zbiega według prawdopodobieństwa szybciej
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 13 i 14 1 / 15 MODEL BAYESOWSKI, przykład wstępny Statystyka
Algorytmy estymacji stanu (filtry)
Algorytmy estymacji stanu (filtry) Na podstawie: AIMA ch15, Udacity (S. Thrun) Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 21 kwietnia 2014 Problem lokalizacji Obserwowalność? Determinizm?
Uczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019 Przypomnienia (1) Do tych czas: stan X t u, gdzie u cel aktualizacji: MC : X t G t TD(0) : X y R t+1 + γˆv(x t,
STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010
STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Agata Boratyńska Statystyka aktuarialna... 1
Agata Boratyńska Statystyka aktuarialna... 1 ZADANIA NA ĆWICZENIA Z TEORII WIAROGODNOŚCI Zad. 1. Niech X 1, X 2,..., X n będą niezależnymi zmiennymi losowymi z rozkładu wykładniczego o wartości oczekiwanej
Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne
Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora
EGZAMIN MAGISTERSKI, Biomatematyka
Biomatematyka 91...... Zadanie 1. (8 punktów) Liczebność pewnej populacji jest opisana równaniem różniczkowym: dn = r N(α N)(N β), (1) dt w którym, N(t) oznacza liczebność populacji w chwili t, a r > 0
Gry w postaci normalnej
Gry w postaci normalnej Rozgrzewka Przykład 1. (Dylemat więźnia) Dwóch przestępców, którzy zorganizowali napad na bank, zostało tymczasowo aresztowanych i czeka ich rozprawa. Jeżeli obaj będa zeznawać
Metody Obliczeniowe w Nauce i Technice
Metody Obliczeniowe w Nauce i Technice 15. Obliczanie całek metodami Monte Carlo Marian Bubak Department of Computer Science AGH University of Science and Technology Krakow, Poland bubak@agh.edu.pl dice.cyfronet.pl
SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania
SIMR 7/8, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania. Dana jest gęstość prawdopodobieństwa zmiennej losowej ciągłej X : { a( x) dla x [, ] f(x) = dla pozostałych x Znaleźć: i) Wartość parametru
Dane są następujące reguły gry losowej: losujemy jedną kartę z pełnej talii (bez jokerów) i sprawdzamy wynik:
Elementy teorii gier Dane są następujące reguły gry losowej: losujemy jedną kartę z pełnej talii (bez jokerów) i sprawdzamy wynik: wylosowanie karty w kolorze czerwonym (kier lub karo) oznacza wygraną
Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa
Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa Wojciech Niemiro 1 Uniwersytet Warszawski i UMK Toruń XXX lat IMSM, Warszawa, kwiecień 2017 1 Wspólne prace z Błażejem Miasojedowem,
5 Błąd średniokwadratowy i obciążenie
5 Błąd średniokwadratowy i obciążenie Przeprowadziliśmy 200 powtórzeń przebiegu próbnika dla tego samego zestawu parametrów modelowych co w Rozdziale 1, to znaczy µ = 0, s = 10, v = 10, n i = 10 (i = 1,...,
Matematyka ubezpieczeń majątkowych r.
Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka
Podejmowanie decyzji w warunkach ryzyka. Tomasz Brzęczek Wydział Inżynierii Zarządzania PP
Podejmowanie decyzji w warunkach ryzyka Tomasz Brzęczek Wydział Inżynierii Zarządzania PP Ryzyko decyzyjne. Przez ryzyko decyzyjne rozumiemy zmienność wyniku decyzji przedsiębiorstwa spowodowaną losowością
Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.
Wykład 4 Rozkłady i ich dystrybuanty Dwa typy zmiennych losowych Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x, x 2,...}, to mówimy, że jest to zmienna dyskretna.
Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski
Modelowanie zależności pomiędzy zmiennymi losowymi Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski P Zmienne losowe niezależne - przypomnienie Dwie rzeczywiste zmienne losowe X i Y
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Zastosowania sieci neuronowych
Zastosowania sieci neuronowych aproksymacja LABORKA Piotr Ciskowski zadanie 1. aproksymacja funkcji odległość punktów źródło: Żurada i in. Sztuczne sieci neuronowe, przykład 4.4, str. 137 Naucz sieć taką
Metody probabilistyczne klasyfikatory bayesowskie
Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin
Algorytmy zrandomizowane
Algorytmy zrandomizowane http://zajecia.jakubw.pl/nai ALGORYTMY ZRANDOMIZOWANE Algorytmy, których działanie uzależnione jest od czynników losowych. Algorytmy typu Monte Carlo: dają (po pewnym czasie) wynik
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Techniki optymalizacji
Techniki optymalizacji Dokładne algorytmy optymalizacji Maciej Hapke maciej.hapke at put.poznan.pl Problem optymalizacji kombinatorycznej Problem optymalizacji kombinatorycznej jest problemem minimalizacji
Parametr Λ w populacji ubezpieczonych ma rozkład dany na półosi dodatniej gęstością: 3 f
Zadanie. W kolejnych latach t =,,,... ubezpieczony charakteryzujący się parametrem ryzyka Λ generuje N t szkód. Dla danego Λ = λ zmienne N, N, N,... są warunkowo niezależne i mają (brzegowe) rozkłady Poissona:
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy
Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.
Literatura Krysicki W., Bartos J., Dyczka W., Królikowska K, Wasilewski M., Rachunek Prawdopodobieństwa i Statystyka Matematyczna w Zadaniach, cz. I. Leitner R., Zacharski J., Zarys matematyki wyŝszej
Rachunek prawdopodobieństwa i statystyka
Rachunek prawdopodobieństwa i statystyka Momenty Zmienna losowa jest wystarczająco dokładnie opisana przez jej rozkład prawdopodobieństwa. Względy praktyczne dyktują jednak potrzebę znalezienia charakterystyk
Rachunek prawdopodobieństwa Rozdział 6: Twierdzenia graniczne.
Rachunek prawdopodobieństwa Rozdział 6: Twierdzenia graniczne. 6.2. Centralne Twierdzenie Graniczne Katarzyna Rybarczyk-Krzywdzińska semestr zimowy 2015/2016 Słabe prawo wielkich liczb przypomnienie Słabe
SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Risk-Aware Project Scheduling. SimpleUCT
Risk-Aware Project Scheduling SimpleUCT DEFINICJA ZAGADNIENIA Resource-Constrained Project Scheduling (RCPS) Risk-Aware Project Scheduling (RAPS) 1 tryb wykonywania działań Czas trwania zadań jako zmienna
Rachunek prawdopodobieństwa Rozdział 6: Twierdzenia graniczne.
Rachunek prawdopodobieństwa Rozdział 6: Twierdzenia graniczne. 6.2. Centralne Twierdzenie Graniczne Katarzyna Rybarczyk-Krzywdzińska semestr zimowy 2015/2016 Słabe prawo wielkich liczb przypomnienie Słabe
Matematyka ubezpieczeń majątkowych 1.10.2012 r.
Zadanie. W pewnej populacji każde ryzyko charakteryzuje się trzema parametrami q, b oraz v, o następującym znaczeniu: parametr q to prawdopodobieństwo, że do szkody dojdzie (może zajść co najwyżej jedna
11. Gry Macierzowe - Strategie Czyste i Mieszane
11. Gry Macierzowe - Strategie Czyste i Mieszane W grze z doskonałą informacją, gracz nie powinien wybrać akcję w sposób losowy (o ile wypłaty z różnych decyzji nie są sobie równe). Z drugiej strony, gdy
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
WYKŁAD: Szeregi czasowe II. Zaawansowane Metody Uczenia Maszynowego
WYKŁAD: Szeregi czasowe II Zaawansowane Metody Uczenia Maszynowego Zwroty indeksów finansowych Y t : indeks finansowy w momencie t (wartość waloru, kurs walutowy itp). Określimy zwrot indeksu finansowego
Aukcje groszowe. Podejście teoriogrowe
Aukcje groszowe Podejście teoriogrowe Plan działania Aukcje groszowe Budowa teorii Sprawdzenie teorii Bibliografia: B. Platt, J. Price, H. Tappen, Pay-to-Bid Auctions [online]. 9 lipca 2009 [dostęp 3.02.2011].
Uczenie ze wzmocnieniem aplikacje
Uczenie ze wzmocnieniem aplikacje Na podstawie: AIMA ch21 oraz Reinforcement Learning (Sutton i Barto) Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 23 maja 2014 Problem decyzyjny Markova
Fuzja sygnałów i filtry bayesowskie
Fuzja sygnałów i filtry bayesowskie Roboty Manipulacyjne i Mobilne dr inż. Janusz Jakubiak Katedra Cybernetyki i Robotyki Wydział Elektroniki, Politechnika Wrocławska Wrocław, 10.03.2015 Dlaczego potrzebna
Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne
Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład
Systemy agentowe. Uczenie ze wzmocnieniem. Jędrzej Potoniec
Systemy agentowe Uczenie ze wzmocnieniem Jędrzej Potoniec Uczenie ze wzmocnieniem (ang. Reinforcement learning) dane Środowisko, w którym można wykonywać pewne akcje, które są nagradzane lub karane, ale
SPOTKANIE 3: Regresja: Regresja liniowa
Wrocław University of Technology SPOTKANIE 3: Regresja: Regresja liniowa Adam Gonczarek Studenckie Koło Naukowe Estymator adam.gonczarek@pwr.wroc.pl 22.11.2013 Rozkład normalny Rozkład normalny (ang. normal
XI Konferencja Metody Ilościowe w Badaniach Ekonomicznych
Rafał M. Łochowski Szkoła Główna Handlowa w Warszawie O górnym ograniczeniu zysku ze strategii handlowej opartej na kointegracji XI Konferencja Metody Ilościowe w Badaniach Ekonomicznych Zależność kointegracyjna
Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów
Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów Jacek Miękisz Instytut Matematyki Stosowanej i Mechaniki Uniwersytet Warszawski Warszawa 14
Problemy Decyzyjne Markowa
Problemy Decyzyjne Markowa na podstawie AIMA ch17 i slajdów S. Russel a Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 18 kwietnia 2013 Sekwencyjne problemy decyzyjne Cechy sekwencyjnego
Estymacja gęstości prawdopodobieństwa metodą selekcji modelu
Estymacja gęstości prawdopodobieństwa metodą selekcji modelu M. Wojtyś Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Wisła, 7 grudnia 2009 Wstęp Próba losowa z rozkładu prawdopodobieństwa
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Wojciech Skwirz
1 Regularyzacja jako metoda doboru zmiennych objaśniających do modelu statystycznego. 2 Plan prezentacji 1. Wstęp 2. Część teoretyczna - Algorytm podziału i ograniczeń - Regularyzacja 3. Opis wyników badania
Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa
Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa M. Czoków, J. Piersa 2012-01-10 1 Łańcucha Markowa 2 Istnienie Szukanie stanu stacjonarnego 3 1 Łańcucha Markowa 2 Istnienie Szukanie stanu stacjonarnego
Stosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
METODY SZTUCZNEJ INTELIGENCJI algorytmy ewolucyjne
METODY SZTUCZNEJ INTELIGENCJI algorytmy ewolucyjne dr hab. inż. Andrzej Obuchowicz, prof. UZ Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski A. Obuchowicz: MSI - algorytmy ewolucyjne
Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova
Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova M. Czoków, J. Piersa 2010-12-21 1 Definicja Własności Losowanie z rozkładu dyskretnego 2 3 Łańcuch Markova Definicja Własności Losowanie z rozkładu
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Monte Carlo, bootstrap, jacknife
Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział
Zasady analizy algorytmów
Zasady analizy algorytmów A więc dziś w programie: - Kilka ważnych definicji i opisów formalnych - Złożoność: czasowa i pamięciowa - Kategorie problemów - Jakieś przykłady Problem: Zadanie możliwe do rozwiązania
Badania operacyjne egzamin
Imię i nazwisko:................................................... Nr indeksu:............ Zadanie 1 Załóżmy, że Tablica 1 reprezentuje jeden z kroków algorytmu sympleks dla problemu (1)-(4). Tablica
Współczesna technika inwersyjna - dokad zmierzamy? Wojciech Dȩbski
Współczesna technika inwersyjna - dokad zmierzamy? Wojciech Dȩbski 24.5.2 Pomiar bezpośredni IGF, 24.5.2 IGF - Pomiar pośredni IGF, 24.5.2 IGF - 2 Interpretacja matematyczna m m + dm m d + dd d = G(m)
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
Testowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
Dynamiczne stochastyczne modele równowagi ogólnej
Dynamiczne stochastyczne modele równowagi ogólnej mgr Anna Sulima Instytut Matematyki UJ 8 maja 2012 mgr Anna Sulima (Instytut Matematyki UJ) Dynamiczne stochastyczne modele równowagi ogólnej 8 maja 2012
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012
Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków
Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych
Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych Probabilistic Topic Models Jakub M. TOMCZAK Politechnika Wrocławska, Instytut Informatyki 30.03.2011, Wrocław Plan 1. Wstęp
Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)
Wykład 4 Próbkowanie i rozkłady próbkowe µ = średnia w populacji, µ=ey, wartość oczekiwana zmiennej Y σ= odchylenie standardowe w populacji, σ =(Var Y) 1/2, pierwiastek kwadratowy wariancji zmiennej Y,
EGZAMIN MAGISTERSKI, czerwiec 2015 Biomatematyka
Biomatematyka Rozpatrzmy chorobę, która rozprzestrzenia się za pośrednictwem nosicieli, u których nie występują jej symptomy. Niech C(t) oznacza liczbę nosicieli w chwili t. Zakładamy, że nosiciele są
Outline 1 MCTS. 2 Jednoczesne ruchy. 3 Niepełna informacja. 4 Podsumowanie. Jan Karwowski April 5, / 30
Outline 1 MCTS 2 Jednoczesne ruchy 3 Niepełna informacja 4 Podsumowanie Jan Karwowski April 5, 2018 1 / 30 Problem drzewo duże. nie mieści się w całości w pamięci stany, akcje wartości w liściach stałe
Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka
Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE Joanna Sawicka Plan prezentacji Model Poissona-Gamma ze składnikiem regresyjnym Konstrukcja optymalnego systemu Bonus- Malus Estymacja
Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.
Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki. Zaj ecia 5 Natalia Nehrebeceka 04 maja, 2010 Plan zaj eć 1 Rachunek prawdopodobieństwa Wektor losowy Wartość oczekiwana Wariancja Odchylenie
TEORIA GIER W EKONOMII WYKŁAD 5: GRY DWUOSOBOWE KOOPERACYJNE O SUMIE NIESTAŁEJ
TEORI GIER W EKONOMII WYKŁD 5: GRY DWUOSOOWE KOOPERCYJNE O SUMIE NIESTŁEJ dr Robert Kowalczyk Katedra nalizy Nieliniowej Wydział Matematyki i Informatyki UŁ Gry dwumacierzowe Skończoną grę dwuosobową o
Ważne rozkłady i twierdzenia c.d.
Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym
Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła
Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła autokorelacji Łukasz Dębowski ldebowsk@ipipan.waw.pl Instytut Podstaw Informatyki PAN autokorelacji p. 1/25 Zarys referatu Co to sa procesy