Uczenie ze wzmocnieniem
|
|
- Bartosz Kozak
- 6 lat temu
- Przeglądów:
Transkrypt
1 Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych
2 Przypomnienia (1) Do tych czas: stan X t u, gdzie u cel aktualizacji: MC : X t G t TD(0) : X y R t+1 + γˆv(x t, w) n-krokowy TD(0) : X t G t:t+n DP : x E [R t+1 + γˆv(x t+1, w t ) X t = x] aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
3 Przypomnienia (1) Do tych czas: stan X t u, gdzie u cel aktualizacji: MC : X t G t TD(0) : X y R t+1 + γˆv(x t, w) n-krokowy TD(0) : X t G t:t+n DP : x E [R t+1 + γˆv(x t+1, w t ) X t = x] Próba prognozowania przez zastosowanie aproksymacji ˆv(x, w) V π (x) aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
4 Przypomnienia (1) Do tych czas: stan X t u, gdzie u cel aktualizacji: MC : X t G t TD(0) : X y R t+1 + γˆv(x t, w) n-krokowy TD(0) : X t G t:t+n DP : x E [R t+1 + γˆv(x t+1, w t ) X t = x] Próba prognozowania przez zastosowanie aproksymacji ˆv(x, w) V π (x) Cel prognozy VE = x X µ(x) [V π (x) ˆv(x, w)] 2, (1) gdzie µ t.zw. rozkład on-policy (dost. mały; ułamki czasu pobytu w stanie) aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
5 Przypomnienia (2) SGD (stochastic gradient method) w t+1 = w t + α [v π (X t ) ˆv(X t, w t )] ˆv(X t, w t ) (2) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
6 Sterowanie on-policy z zastosowaniem aproksymacji problem sterowanie funkcja wartości stan-akcja (parametryczna aproksymacja): ˆq(x, a, w) Q (x, a) (3) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
7 Sterowanie on-policy z zastosowaniem aproksymacji problem sterowanie funkcja wartości stan-akcja (parametryczna aproksymacja): ˆq(x, a, w) Q (x, a) (3) epizodyczne sterowanie semi-gradientową metodą TD(0): X t, A t U t (U t dla MC to całkowity dochód, dla 1-krokowej SARSA G t ) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
8 Sterowanie on-policy z zastosowaniem aproksymacji problem sterowanie funkcja wartości stan-akcja (parametryczna aproksymacja): ˆq(x, a, w) Q (x, a) (3) epizodyczne sterowanie semi-gradientową metodą TD(0): X t, A t U t (U t dla MC to całkowity dochód, dla 1-krokowej SARSA G t ) aktualizacja wektora w dla prognozy funkcji wartości akcja-stan jest: w t+1 = w t + α [U t ˆq(X t+1, A t t + 1, w t )] ˆq(X t, A t, w t ) (4) Na przykład, dla 1-krokowej SARSA U t = R t+1 + γˆq(x t+1, A t+1, w t ) (5) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
9 Algorithm Input: a differentiable function ˆq : S A R d R initialize: value-function w R d (arbitrary, e.g. by 0); repeat X, A initial state and action of episode (e.g. ɛ-greedy); repeat Take action A, observe R, X ; if X is terminal then w w + α [R ˆq(X, A, w)] ˆq(X, A, w); Go to next episode end Choose A as a function of ˆq(X,, w) (e.g. ɛ-greedy); w w + α [R + γˆq(x, A, w) ˆq(X, A, w)] ˆv(X, A, w); X X ; A A ; until for each step of episode; until for each episode; Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
10 Mountain Car task Jazda w górach słabym samochodem (czyli nawet przy pełnym gazieńie może wjechać na stromy stok). Wyjście?? Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
11 Mountain Car task Jazda w górach słabym samochodem (czyli nawet przy pełnym gazieńie może wjechać na stromy stok). Wyjście?? Rozpędzić się... aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
12 Mountain Car task c.d. przykład zadania ciągłej kontroli: za każdy krok nagroda jest -1; +1 dotarcie do celu trzy możliwe czynności: do przodu (max), do tyłu (max), zerowe otwarcie przepustnicy uproszczona fizyka (patrz dissecting-reinforcement-learning-6.html): x t+1 =bound[x t + ẋ t+1 ] ẋ t+1 =bound [ẋ t A t cos(3x t )] gdzie bound operator wymuszający ograniczenia: 1.2 x t+1 0.5, 0.07 ẋ t Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
13 Eksperymenty Rysunek: Problem jazdy samochodem w górach aproksymacja Aproksymacja tile covering (dachówki; rozmiar każdej = 1 8 odcinka po każdej osi). Cost-to-go funkcję ( max a ˆq(x, a, w)) przybliżamy wektorami cech z(x, a) (po tile coding): ˆq(x, a, w) = w T z(x, a) = i w i x i (s, a) (6) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
14 Średnia nagroda w przypadku zadań ciągłych W przypadku niekończących się zadań o czym martwi się agent? Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
15 Średnia nagroda w przypadku zadań ciągłych W przypadku niekończących się zadań o czym martwi się agent? nagroda natychmiastowa i przyszła??? dyskontowanie nagrody??? aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
16 Średnia nagroda w przypadku zadań ciągłych W przypadku niekończących się zadań o czym martwi się agent? nagroda natychmiastowa i przyszła??? dyskontowanie nagrody??? Ocena polityki 1 h r(π) = lim E [R t A 0:t 1 π] h h t=1 = lim E [R t A 0:t 1 π] (7) h = x µ π (x) a π(a x) p(x, r x, a)r x,r gzie µ π (x) rozkład stanów i µ π (x) lim t Pr{X t = x A 0:t 1 π} aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
17 Średnia nagroda...(2) definicja dochodu w przypadku niekończącego zadania zróżnicowany dochód: G t = R t+1 r(π) + R t+2 r(π) +... (8) zróżnicowana funkcja wartości / stan-akcja: v π (x) = a π(a x) p(x, r x, a) [ r r(π) + v π (x ) ] x,r [ q π (x, a) = p(x, r x, a) r r(π) + π(x, a )q π (x, a ) x,r a v (x) = max π(a x) [ ] p(x, r x, a) r max r(π) + v (x ) a π a x,r q (x, a) = [ ] p(x, r x, a) r max r(π) + max q (x, a ) π x a,r ] Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
18 Średnie odchylenie (TD) δ t =R t+1 R t+1 + ˆv(X t+1, w t ) ˆv(X t, w t ) (9) δ t =R t+1 R t+1 + ˆq(X t+1, A t+1, w t ) ˆv(X t, A t, w t ) (10) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
19 Elekcyjność tras... kombinacja TD i Monte-Carlo TD(0) do TD(1) 0 < λ < 1 mogą być lepsze, niż skrajności aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
20 Elekcyjność tras... kombinacja TD i Monte-Carlo TD(0) do TD(1) 0 < λ < 1 mogą być lepsze, niż skrajności w metodzie n-krokowej G t:t+n = R t γ n 1 R t+n + γ nˆv(x t+n, w t+n 1 ), 0 t T n (11) aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
21 Elekcyjność tras... kombinacja TD i Monte-Carlo TD(0) do TD(1) 0 < λ < 1 mogą być lepsze, niż skrajności w metodzie n-krokowej G t:t+n = R t γ n 1 R t+n + γ nˆv(x t+n, w t+n 1 ), 0 t T n (11) obserwacja aktualizacja za pomocą średniej z kilku (n) kroków ((G t:t+2 + G t:t+4 ))...potrzebujemy tylko odpowiedni współczynnik. aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
22 Elekcyjność tras... kombinacja TD i Monte-Carlo TD(0) do TD(1) 0 < λ < 1 mogą być lepsze, niż skrajności w metodzie n-krokowej G t:t+n = R t γ n 1 R t+n + γ nˆv(x t+n, w t+n 1 ), 0 t T n (11) obserwacja aktualizacja za pomocą średniej z kilku (n) kroków ((G t:t+2 + G t:t+4 ))...potrzebujemy tylko odpowiedni współczynnik. λ-dochód: gdzie λ [0; 1]. Gt λ = (1 λ) λ n 1 G t:t+n (12) n=1 aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
23 λ-dochodowy algorytm Wektor cech (off-line) [ ] w t+1 = w t + α Gt λ ˆv(X t, w t ) ˆv(X t, w t ), t = 0,..., T 1 (13) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
24 Algorytm TD(λ) Elekcyjność: wektor z t R d reprezentuje pamięć krótkoterminową (w t R d pamięć długoterminowa) z 1 =0 (14) z t =γλz t 1 + ˆv(X t, w t ), 0 t T, (15) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
25 Algorytm TD(λ) Elekcyjność: wektor z t R d reprezentuje pamięć krótkoterminową (w t R d pamięć długoterminowa) TD-odchylenie: z 1 =0 (14) z t =γλz t 1 + ˆv(X t, w t ), 0 t T, (15) δ t = R t+1 + γˆv(x t+1, w t ) ˆv(X t, w t ) (16) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
26 Algorytm TD(λ) Elekcyjność: wektor z t R d reprezentuje pamięć krótkoterminową (w t R d pamięć długoterminowa) TD-odchylenie: z 1 =0 (14) z t =γλz t 1 + ˆv(X t, w t ), 0 t T, (15) δ t = R t+1 + γˆv(x t+1, w t ) ˆv(X t, w t ) (16) aktualizacja wektora cech (wag): w t+1 = w t + αδ t z t (17) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
27 Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 15
Uczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019 O projekcie nr 2 roboty (samochody, odkurzacze, drony,...) gry planszowe, sterowanie (optymalizacja; windy,..) optymalizacja
Uczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019 Temporal Difference learning Uczenie oparte na różnicach czasowych Problemy predykcyjne (wieloetapowe) droga do
SPOTKANIE 11: Reinforcement learning
Wrocław University of Technology SPOTKANIE 11: Reinforcement learning Adam Gonczarek Studenckie Koło Naukowe Estymator adam.gonczarek@pwr.edu.pl 19.01.2016 Uczenie z nadzorem (ang. supervised learning)
Uczenie ze wzmocnieniem
Na podstawie: AIMA ch Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 6 maja 06 Na podstawie: AIMA ch Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 6 maja 06 3 START 3
Uczenie ze wzmocnieniem aplikacje
Uczenie ze wzmocnieniem aplikacje Na podstawie: AIMA ch21 oraz Reinforcement Learning (Sutton i Barto) Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 22 maja 2013 Problem decyzyjny Markova
Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa
Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa Wojciech Niemiro 1 Uniwersytet Warszawski i UMK Toruń XXX lat IMSM, Warszawa, kwiecień 2017 1 Wspólne prace z Błażejem Miasojedowem,
Uczenie ze wzmocnieniem aplikacje
Uczenie ze wzmocnieniem aplikacje Na podstawie: AIMA ch21 oraz Reinforcement Learning (Sutton i Barto) Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 23 maja 2014 Problem decyzyjny Markova
Optymalizacja. Symulowane wyżarzanie
dr hab. inż. Instytut Informatyki Politechnika Poznańska www.cs.put.poznan.pl/mkomosinski, Maciej Hapke Wyżarzanie wzrost temperatury gorącej kąpieli do takiej wartości, w której ciało stałe topnieje powolne
Problemy Decyzyjne Markowa
Problemy Decyzyjne Markowa na podstawie AIMA ch17 i slajdów S. Russel a Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 18 kwietnia 2013 Sekwencyjne problemy decyzyjne Cechy sekwencyjnego
Uczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Na podstawie: AIMA ch2 Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 20 listopada 203 Problem decyzyjny Markova 3 + 2 0.8 START 0. 0. 2 3 4 MDP bez modelu przejść
Systemy agentowe. Uczenie ze wzmocnieniem. Jędrzej Potoniec
Systemy agentowe Uczenie ze wzmocnieniem Jędrzej Potoniec Uczenie ze wzmocnieniem (ang. Reinforcement learning) dane Środowisko, w którym można wykonywać pewne akcje, które są nagradzane lub karane, ale
Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa
Systemy uczace się 2009 1 / 32 Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa Hung Son Nguyen Wydział Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski email: son@mimuw.edu.pl Grudzień
Uczenie ze wzmocnieniem
Na podstawie: AIMA ch Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 5 maja 04 Na podstawie: AIMA ch Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 5 maja 04 3 START 3
1 Estymacja przedziałowa
1 Estymacja przedziałowa 1. PRZEDZIAŁY UFNOŚCI DLA ŚREDNIEJ (a) MODEL I Badana cecha ma rozkład normalny N(µ, σ) o nieznanym parametrze µ i znanym σ. Przedział ufności: [ ( µ x u 1 α ) ( σn ; x + u 1 α
Statystyka matematyczna. Wykład III. Estymacja przedziałowa
Statystyka matematyczna. Wykład III. e-mail:e.kozlovski@pollub.pl Spis treści Rozkłady zmiennych losowych 1 Rozkłady zmiennych losowych Rozkład χ 2 Rozkład t-studenta Rozkład Fischera 2 Przedziały ufności
Numeryczne metody optymalizacji Optymalizacja w kierunku. informacje dodatkowe
Numeryczne metody optymalizacji Optymalizacja w kierunku informacje dodatkowe Numeryczne metody optymalizacji x F x = min x D x F(x) Problemy analityczne: 1. Nieliniowa złożona funkcja celu F i ograniczeń
Sztuczna inteligencja : Zbiory rozmyte cz. III
Instytut Informatyki Uniwersytetu Śląskiego lab 3 Notacja Zadeha: symboliczny zapis zbioru rozmytego dla przestrzeni dyskretnej. Dla X jest przestrzenią o skończonej liczbie elementów X = {x 1, x 2,...,
Techniki optymalizacji
Techniki optymalizacji Symulowane wyżarzanie Maciej Hapke maciej.hapke at put.poznan.pl Wyżarzanie wzrost temperatury gorącej kąpieli do takiej wartości, w której ciało stałe topnieje powolne zmniejszanie
Algorytmy MCMC i ich zastosowania statystyczne
Algorytmy MCMC i ich zastosowania statystyczne Wojciech Niemiro Uniwersytet Mikołaja Kopernika, Toruń i Uniwersytet Warszawski Statystyka Matematyczna Wisła, grudzień 2010 Wykład 2 1 Podstawowe idee symulacji
Analiza Algorytmów 2018/2019 (zadania na laboratorium)
Analiza Algorytmów 2018/2019 (zadania na laboratorium) Wybór lidera (do 9 III) Zadanie 1 W dowolnym języku programowania zaimplementuj symulator umożliwiający przetestowanie algorytmu wyboru lidera ELECT
Uczenie sieci typu MLP
Uczenie sieci typu MLP Przypomnienie budowa sieci typu MLP Przypomnienie budowy neuronu Neuron ze skokową funkcją aktywacji jest zły!!! Powszechnie stosuje -> modele z sigmoidalną funkcją aktywacji - współczynnik
Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska
Porównanie modeli statystycznych Monika Wawrzyniak Katarzyna Kociałkowska Jaka jest miara podobieństwa? Aby porównywać rozkłady prawdopodobieństwa dwóch modeli statystycznych możemy użyć: metryki dywergencji
Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski
Modelowanie zależności pomiędzy zmiennymi losowymi Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski P Zmienne losowe niezależne - przypomnienie Dwie rzeczywiste zmienne losowe X i Y
Geometryczna zbieżność algorytmu Gibbsa
Geometryczna zbieżność algorytmu Gibbsa Iwona Żerda Wydział Matematyki i Informatyki, Uniwersytet Jagielloński 6 grudnia 2013 6 grudnia 2013 1 / 19 Plan prezentacji 1 Algorytm Gibbsa 2 Tempo zbieżności
Centralne twierdzenie graniczne
Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski Wykład 4 Ważne uzupełnienie Dwuwymiarowy rozkład normalny N (µ X, µ Y, σ X, σ Y, ρ): f XY (x, y) = 1 2πσ X σ Y 1 ρ 2 { [ (x ) 1
Przestrzeń algorytmów klastrowania
20 listopada 2008 Plan prezentacji 1 Podstawowe pojęcia Przykłady algorytmów klastrowania 2 Odległość algorytmów klastrowania Odległość podziałów 3 Dane wejściowe Eksperymenty Praca źródłowa Podstawowe
Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova
Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova M. Czoków, J. Piersa 2010-12-21 1 Definicja Własności Losowanie z rozkładu dyskretnego 2 3 Łańcuch Markova Definicja Własności Losowanie z rozkładu
Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne
Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład
Dynamiczne stochastyczne modele równowagi ogólnej
Dynamiczne stochastyczne modele równowagi ogólnej mgr Anna Sulima Instytut Matematyki UJ 8 maja 2012 mgr Anna Sulima (Instytut Matematyki UJ) Dynamiczne stochastyczne modele równowagi ogólnej 8 maja 2012
Mechanika Kwantowa. Maciej J. Mrowiński. 24 grudnia Funkcja falowa opisująca stan pewnej cząstki ma następującą postać: 2 x 2 )
Mechanika Kwantowa Maciej J. Mrowiński 4 grudnia 11 Zadanie MK1 Funkcja falowa opisująca stan pewnej cząstki w chwili t = ma następującą postać: A(a Ψ(x,) = x ) gdy x [ a,a] gdy x / [ a,a] gdzie a +. Wyznacz
Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014
Estymacja przedziałowa - przedziały ufności dla średnich Wrocław, 5 grudnia 2014 Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja Przedziałem ufności dla paramertu
Estymacja parametrów rozkładu cechy
Estymacja parametrów rozkładu cechy Estymujemy parametr θ rozkładu cechy X Próba: X 1, X 2,..., X n Estymator punktowy jest funkcją próby ˆθ = ˆθX 1, X 2,..., X n przybliżającą wartość parametru θ Przedział
Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe
Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe Trening jednokierunkowych sieci neuronowych wykład 2. dr inż. PawełŻwan Katedra Systemów Multimedialnych Politechnika Gdańska
Analiza Algorytmów. Informatyka, WPPT, Politechnika Wroclawska. 1 Zadania teoretyczne (ćwiczenia) Zadanie 1. Zadanie 2. Zadanie 3
Analiza Algorytmów Informatyka, WPPT, Politechnika Wroclawska 1 Zadania teoretyczne (ćwiczenia) Zadanie 1 Niech k będzie dodatnią liczbą całkowitą. Rozważ następującą zmienną losową Pr[X = k] = (6/π 2
Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017
Metody eksploracji danych 2. Metody regresji Piotr Szwed Katedra Informatyki Stosowanej AGH 2017 Zagadnienie regresji Dane: Zbiór uczący: D = {(x i, y i )} i=1,m Obserwacje: (x i, y i ), wektor cech x
Problemy Decyzyjne Markowa
na podstawie AIMA ch17 i slajdów S. Russel a Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 18 kwietnia 2015 na podstawie AIMA ch17 i slajdów S. Russel a Wojciech Jaśkowski Instytut Informatyki,
Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn
Wykład 10 Estymacja przedziałowa - przedziały ufności dla średniej Wrocław, 21 grudnia 2016r Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja 10.1 Przedziałem
Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
Metody inwersji Bayesowskiej -L7- IGF PAN, 21.IV.2005
Metody inwersji Bayesowskiej -L7- Podejście optymalizacyjne i probabilistyczne podobieństwa i różnice (C) G(m) d obs + λ m m apr = min d obs m apr d th = d true + ɛ obs = m true + ɛ apr = G(m) + ɛ th G(m)
Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3
Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3 Andrzej Rutkowski, Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-11-05 Projekt
Ilustracja metody Monte Carlo obliczania pola obszaru D zawartego w kwadracie [a,b]x[a,b]
Ilustracja metody Monte Carlo obliczania pola obszaru D zawartego w kwadracie [a,b]x[a,b] Dagna Bieda, Piotr Jarecki, Tomasz Nachtigall, Jakub Ciesiółka, Marek Kubiczek Metoda Monte Carlo Metoda Monte
Technologie Informatyczne Wykład VII
Technologie Informatyczne Wykład VII A. Matuszak (1) 22 listopada 2007 A. Matuszak (1) Technologie Informatyczne Wykład VII A. Matuszak (2) Technologie Informatyczne Wykład VII (Rekursja) albo rekursja
Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym
Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym Jan Karwowski Wydział Matematyki i Nauk Informacyjnych PW 17 XII 2013 Jan Karwowski
Zadania do Rozdziału X
Zadania do Rozdziału X 1. 2. Znajdź wszystkie σ-ciała podzbiorów X, gdy X = (i) {1, 2}, (ii){1, 2, 3}. (b) Znajdź wszystkie elementy σ-ciała generowanego przez {{1, 2}, {2, 3}} dla X = {1, 2, 3, 4}. Wykaż,
Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych
Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych mgr inż. C. Dendek prof. nzw. dr hab. J. Mańdziuk Politechnika Warszawska, Wydział Matematyki i Nauk Informacyjnych Outline 1 Uczenie
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Metody probabilistyczne
Metody probabilistyczne. Twierdzenia graniczne Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 20.2.208 / 26 Motywacja Rzucamy wielokrotnie uczciwą monetą i zliczamy
Instrukcje cykliczne (pętle) WHILE...END WHILE
Instrukcje cykliczne (pętle) Pętle pozwalają na powtarzanie fragmentu kodu programu. PĘTLE LOGICZNE WHILE...END WHILE While (warunek)...... End While Pętla będzie się wykonywała dopóki warunek jest spełniony.
Testowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium Zadanie nr 3 Osada autor: A Gonczarek Celem poniższego zadania jest zrealizowanie fragmentu komputerowego przeciwnika w grze strategiczno-ekonomicznej
Akwizycja i przetwarzanie sygnałów cyfrowych
Akwizycja i przetwarzanie sygnałów cyfrowych Instytut Teleinformatyki ITI PK Kraków 21 luty 2011 Analiza czas - częstotliwość analiza częstotliwościowa: problem dla sygnału niestacjonarnego zwykła transformata
Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1
Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1 Konrad Miziński, nr albumu 233703 1 maja 2015 Zadanie 1 Parametr λ wyestymowano jako średnia z próby: λ = X n = 3.73 Otrzymany w
Optymalizacja Ci gªa
Institute of Computing Science Poznan University of Technology Optymalizacja Ci gªa Rozszerzenia SGD Mateusz Lango Michaª Kempka June 13, 2018 Gradient Descent - przypomnienie 1 x t+1 = x t η f (x t )
5 Błąd średniokwadratowy i obciążenie
5 Błąd średniokwadratowy i obciążenie Przeprowadziliśmy 200 powtórzeń przebiegu próbnika dla tego samego zestawu parametrów modelowych co w Rozdziale 1, to znaczy µ = 0, s = 10, v = 10, n i = 10 (i = 1,...,
Podstawowe I/O Liczby
Podstawowe I/O Liczby Informatyka Jolanta Bachan Implementacja algorytmów, cd. I/O: Keyboard in, screen out, no loops Jolanta Bachan 2 Implementacja algorytmów, cd. I/O: Keyboard in, screen out, no loops
WEKTORY I WARTOŚCI WŁASNE MACIERZY. = λ c (*) problem przybliżonego rozwiązania zagadnienia własnego dla operatorów w mechanice kwantowej
WEKTORY I WARTOŚCI WŁASNE MACIERZY Ac λ c (*) ( A λi) c nietrywialne rozwiązanie gdy det A λi problem przybliżonego rozwiązania zagadnienia własnego dla operatorów w mechanice kwantowej A - macierzowa
1 Funkcja wykładnicza i logarytm
1 Funkcja wykładnicza i logarytm 1. Rozwiązać równania; (a) x + 3 = 3 ; (b) x 2 + 9 = 5 ; (c) 3 x 1 = 3x 2 2. Rozwiązać nierówności : (a) 2x 1 > 2 ; (b) 3x 4 2x + 3 > x + 2 ; (c) 3 x > 1. 3. Znając wykres
Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.
Wstęp do sieci neuronowych, wykład 3 Warstwy, jednostka Adaline. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 211-1-18 1 Pomysł Przykłady Zastosowanie 2
Ważne rozkłady i twierdzenia c.d.
Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby
Strategie ewolucyjne. Gnypowicz Damian Staniszczak Łukasz Woźniak Marek
Strategie ewolucyjne Gnypowicz Damian Staniszczak Łukasz Woźniak Marek Strategie ewolucyjne, a algorytmy genetyczne Podobieństwa: Oba działają na populacjach rozwiązań Korzystają z zasad selecji i przetwarzania
SID Wykład 8 Sieci neuronowe
SID Wykład 8 Sieci neuronowe Wydział Matematyki, Informatyki i Mechaniki UW slezak@mimuw.edu.pl Sztuczna inteligencja - uczenie Uczenie się jest procesem nastawionym na osiaganie rezultatów opartych o
WYKŁAD 3. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki
WYKŁAD 3 Witold Bednorz, Paweł Wolff 1 Instytut Matematyki Uniwersytet Warszawski Rachunek Prawdopodobieństwa, WNE, 2010-2011 Schemmat Bernouliego Rzucamy 10 razy moneta, próba Bernouliego jest pojedynczy
STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009
STATYSTYKA MATEMATYCZNA WYKŁAD 10 14 grudnia 2009 PARAMETRY POŁOŻENIA Przypomnienie: Model statystyczny pomiaru: wynik pomiaru X = µ + ε 1. ε jest zmienną losową 2. E(ε) = 0 pomiar nieobciążony, pomiar
SPOTKANIE 3: Regresja: Regresja liniowa
Wrocław University of Technology SPOTKANIE 3: Regresja: Regresja liniowa Adam Gonczarek Studenckie Koło Naukowe Estymator adam.gonczarek@pwr.wroc.pl 22.11.2013 Rozkład normalny Rozkład normalny (ang. normal
Elementy inteligencji obliczeniowej
Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego
zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych
zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych 1. [E.A 5.10.1996/zad.4] Funkcja gęstości dana jest wzorem { 3 x + 2xy + 1 y dla (x y) (0 1) (0 1) 4 4 P (X > 1 2 Y > 1 2 ) wynosi:
Matematyka dyskretna - wykład - część Podstawowe algorytmy kombinatoryczne
A. Permutacja losowa Matematyka dyskretna - wykład - część 2 9. Podstawowe algorytmy kombinatoryczne Załóżmy, że mamy tablice p złożoną z n liczb (ponumerowanych od 0 do n 1). Aby wygenerować losową permutację
WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska
Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):
FORECASTING THE DISTRIBUTION OF AMOUNT OF UNEMPLOYED BY THE REGIONS
FOLIA UNIVERSITATIS AGRICULTURAE STETINENSIS Folia Univ. Agric. Stetin. 007, Oeconomica 54 (47), 73 80 Mateusz GOC PROGNOZOWANIE ROZKŁADÓW LICZBY BEZROBOTNYCH WEDŁUG MIAST I POWIATÓW FORECASTING THE DISTRIBUTION
Wprowadzenie. Data Science Uczenie się pod nadzorem
Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych
Superdyfuzja. Maria Knorps. Wydział Fizyki Technicznej i Matematyki stosowanej, Politechnika Gdańska
VI Matematyczne Warsztaty KaeNeMów p. 1/2 Superdyfuzja Maria Knorps maria.knorps@gmail.com Wydział Fizyki Technicznej i Matematyki stosowanej, Politechnika Gdańska VI Matematyczne Warsztaty KaeNeMów p.
Algorytm Metropolisa-Hastingsa
Seminarium szkoleniowe, 25 kwietnia 2006 Plan prezentacji 1 Problem Metoda MCMC 2 Niezależny algorytm Metropolisa-Hastingsa Bła dzenie losowe Zbieżność procedury Metropolisa-Hastingsa Problem Metoda MCMC
Instrukcje pętli przykłady. Odgadywanie hasła. 1) Program pyta o hasło i podaje adres, gdy hasło poprawne lub komunikat o błędnym haśle.
Instrukcje pętli przykłady. Odgadywanie hasła. 1) Program pyta o hasło i podaje adres, gdy hasło poprawne lub komunikat o błędnym haśle. Sub Hasla1() Dim wzor_hasla As String Dim haslo As String Dim adres
P(F=1) F P(C1 = 1 F = 1) P(C1 = 1 F = 0) P(C2 = 1 F = 1) P(C2 = 1 F = 0) P(R = 1 C2 = 1) P(R = 1 C2 = 0)
Sieci bayesowskie P(F=) F P(C = F = ) P(C = F = 0) C C P(C = F = ) P(C = F = 0) M P(M = C =, C = ) P(M = C =, C = 0) P(M = C = 0, C = ) P(M = C = 0, C = 0) R P(R = C = ) P(R = C = 0) F pali papierosy C
ZASTOSOWANIE ALGORYTMÓW UCZENIA SIĘ ZE WZMOCNIENIEM WE WSPOMAGANIU PROCESÓW PODEJMOWANIA DECYZJI PODCZAS MANEWROWANIA STATKIEM
PRACE WYDZIAŁU NAWIGACYJNEGO nr 22 AKADEMII MORSKIEJ W GDYNI 2008 MIROSŁAW ŁĄCKI Akademia Morska w Gdyni Katedra Nawigacji ZASTOSOWANIE ALGORYTMÓW UCZENIA SIĘ ZE WZMOCNIENIEM WE WSPOMAGANIU PROCESÓW PODEJMOWANIA
2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.
Zadania z Procesów Stochastycznych 1 1. Udowodnij, że z prawdopodobieństwem 1 trajektorie procesu Poissona są niemalejące, przyjmują wartości z Z +, mają wszystkie skoki równe 1 oraz dążą do nieskończoności.
Algorytmy MCMC i ich zastosowania statystyczne
Algorytmy MCMC i ich zastosowania statystyczne Wojciech Niemiro Uniwersytet Mikołaja Kopernika, Toruń i Uniwersytet Warszawski Statystyka Matematyczna Wisła, grudzień 2010 Wykład 1 1 Co to jest MCMC? 2
Cyfrowe przetwarzanie obrazów i sygnałów Wykład 7 AiR III
1 Niniejszy dokument zawiera materiały do wykładu z przedmiotu Cyfrowe Przetwarzanie Obrazów i Sygnałów. Jest on udostępniony pod warunkiem wykorzystania wyłącznie do własnych, prywatnych potrzeb i może
Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.
Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ
Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.
Wstęp do sieci neuronowych, wykład 3 Warstwy, jednostka ADALINE. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 218-1-15/22 Projekt pn.
WAE Jarosław Arabas Adaptacja i samoczynna adaptacja parametrów AE Algorytm CMA-ES
WAE Jarosław Arabas Adaptacja i samoczynna adaptacja parametrów AE Algorytm CMA-ES Dynamika mutacyjnego AE Mutacja gaussowska σ=0.1 Wszystkie wygenerowane punkty Wartość średnia jakości punktów populacji
Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego
Rozdział 1 Statystyki Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego X = (X 1,..., X n ). Uwaga 1 Statystyka jako funkcja wektora zmiennych losowych jest zmienną losową
Metamorfozy neutrin. Katarzyna Grzelak. Sympozjum IFD Zakład Czastek i Oddziaływań Fundamentalnych IFD UW. K.Grzelak (UW ZCiOF) 1 / 23
Metamorfozy neutrin Katarzyna Grzelak Zakład Czastek i Oddziaływań Fundamentalnych IFD UW Sympozjum IFD 2008 6.12.2008 K.Grzelak (UW ZCiOF) 1 / 23 PLAN Wprowadzenie Oscylacje neutrin Eksperyment MINOS
Planowanie eksperymentu 2 (k p) w 2 r blokach. Stanisław Jaworski, Wojciech Zieliński
Planowanie eksperymentu 2 (k p) w 2 r blokach Stanisław Jaworski, Wojciech Zieliński 1. Wstęp W praktyce często możemy spotkać się z sytuacją, kiedy nie jest możliwe wykonanie pełnego eksperymentu czynnikowego
Statystyka Matematyczna Anna Janicka
Statystyka Matematyczna Anna Janicka wykład X, 9.05.206 TESTOWANIE HIPOTEZ STATYSTYCZNYCH II: PORÓWNYWANIE TESTÓW Plan na dzisiaj 0. Przypomnienie potrzebnych definicji. Porównywanie testów 2. Test jednostajnie
... prognozowanie nie jest celem samym w sobie a jedynie narzędziem do celu...
4 Prognozowanie historyczne Prognozowanie - przewidywanie przyszłych zdarzeń w oparciu dane - podstawowy element w podejmowaniu decyzji... prognozowanie nie jest celem samym w sobie a jedynie narzędziem
Lista. Przestrzenie liniowe. Zadanie 1 Sprawdź, czy (V, +, ) jest przestrzenią liniową nadr :
Lista Przestrzenie liniowe Zadanie 1 Sprawdź, czy (V, +, ) jest przestrzenią liniową nadr : V = R[X], zbiór wielomianów jednej zmiennej o współczynnikach rzeczywistych, wraz ze standardowym dodawaniem
SPOTKANIE 4: Klasyfikacja: Regresja logistyczna
Wrocław University of Technology SPOTKANIE 4: Klasyfikacja: Regresja logistyczna Szymon Zaręba Studenckie Koło Naukowe Estymator 179226@student.pwr.wroc.pl 23.11.2012 Rozkład dwupunktowy i dwumianowy Rozkład
Generowanie liczb o zadanym rozkładzie. ln(1 F (y) λ
Wprowadzenie Generowanie liczb o zadanym rozkładzie Generowanie liczb o zadanym rozkładzie wejście X U(0, 1) wyjście Y z zadanego rozkładu F (y) = 1 e λy y = ln(1 F (y) λ = ln(1 0,1563 0, 5 0,34 Wprowadzenie
Matematyka I. Bezpieczeństwo jądrowe i ochrona radiologiczna Semestr zimowy 2018/2019 Wykład 9
Matematyka I Bezpieczeństwo jądrowe i ochrona radiologiczna Semestr zimowy 2018/2019 Wykład 9 Przykład z fizyki Rozpatrzmy szeregowe połączenie dwu elementów elektronicznych: opornika i diody półprzewodnikowej.
(4) (b) m. (c) (d) sin α cos α = sin 2 k = sin k sin k. cos 2 m = cos m cos m. (g) (e)(f) sin 2 x + cos 2 x = 1. (h) (f) (i)
(3) (e) sin( θ) sin θ cos( θ) cos θ sin(θ + π/) cos θ cos(θ + π/) sin θ sin(θ π/) cos θ cos(θ π/) sin θ sin(θ ± π) sin θ cos(θ ± π) cos θ sin(θ ± π) sin θ cos(θ ± π) cos θ (f) cos x cos y (g) sin x sin
Sterowanie wielkością zamówienia w Excelu - cz. 3
Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
3.4. Przekształcenia gramatyk bezkontekstowych
3.4. Przekształcenia gramatyk bezkontekstowych Definicje Niech będzie dana gramatyka bezkontekstowa G = G BK Symbol X (N T) nazywamy nieużytecznym w G G BK jeśli nie można w tej gramatyce
Funkcje dwóch zmiennych, pochodne cząstkowe
Wykłady z matematyki inżynierskiej Funkcje dwóch zmiennych, pochodne cząstkowe JJ, IMiF UTP 17 f (x, y) DEFINICJA. Funkcja dwóch zmiennych określona w zbiorze D R 2, to przyporządkowanie każdemu punktowi
Geometria Lista 0 Zadanie 1
Geometria Lista 0 Zadanie 1. Wyznaczyć wzór na pole równoległoboku rozpiętego na wektorach u, v: (a) nie odwołując się do współrzędnych tych wektorów; (b) odwołując się do współrzędnych względem odpowiednio
Twierdzenie o splocie
Twierdzenie o splocie g(t) = (s h) (t) G(f ) = S(f ) H(f ) (1) To twierdzenie działa też w drugą stronę: G(f ) = (S H) (f ) g(t) = s(t) h(t) (2) Zastosowania: zamiana splotu na mnożenie daje wgląd w okienkowanie
Co to jest model Isinga?
Co to jest model Isinga? Fakty eksperymentalne W pewnych metalach (np. Fe, Ni) następuje spontaniczne ustawianie się spinów wzdłuż pewnego kierunku, powodując powstanie makroskopowego pola magnetycznego.
Bezgradientowe metody optymalizacji funkcji wielu zmiennych. informacje dodatkowe
Bezgradientowe metody optymalizacji funkcji wielu zmiennych informacje dodatkowe Wybór kierunku poszukiwań Kierunki bazowe i ich modyfikacje metody bezgradientowe. Kierunki oparte na gradiencie funkcji
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 4 Wrocław, 17 października 2011 Temat. Weryfikacja hipotez statystycznych dotyczących wartości oczekiwanej w dwóch populacjach o rozkładach normalnych. Model 3. Porównanie średnich