SPOTKANIE 11: Reinforcement learning
|
|
- Roman Leśniak
- 6 lat temu
- Przeglądów:
Transkrypt
1 Wrocław University of Technology SPOTKANIE 11: Reinforcement learning Adam Gonczarek Studenckie Koło Naukowe Estymator
2 Uczenie z nadzorem (ang. supervised learning) na podstawie obserwacji świata s t algorytm generuje decyzję a t 2/29
3 Problem wielorękiego bandyty (ang. multi-armed bandit) algorytm generuje decyzję a t, świat ją ocenia i generuje nagrodę R t 2/29
4 Problem wielorękiego bandyty z kontekstem (ang. contextual multi-armed bandit) na podstawie obserwacji świata s t algorytm generuje decyzję a t, świat ją ocenia i generuje nagrodę R t 2/29
5 Uczenie ze wzmocnieniem (ang. reinforcement learning) na podstawie obserwacji świata s t algorytm generuje decyzję a t, świat ją ocenia i generuje nagrodę R t, decyzja zmienia stan świata na s t+1 2/29
6 Przykłady zastosowań Programowanie robotów Boty do gier Zarządzanie portfelem Sterowanie pojazdami Sterowanie produkcją HCI Badania operacyjne Reklamy online 3/29
7 Podstawowe pojęcia Algorytm (agent) uczenia z wzmocnieniem podczas swojego działania korzysta co najmniej z jednej z następujących informacji: 4/29
8 Podstawowe pojęcia Algorytm (agent) uczenia z wzmocnieniem podczas swojego działania korzysta co najmniej z jednej z następujących informacji: Model świata opis sposobu reakcji świata na decyzje podejmowane przez algorytm 4/29
9 Podstawowe pojęcia Algorytm (agent) uczenia z wzmocnieniem podczas swojego działania korzysta co najmniej z jednej z następujących informacji: Model świata opis sposobu reakcji świata na decyzje podejmowane przez algorytm Taktyka (ang. policy) funkcja/rozkład reprezentujący sposób podejmowania decyzji przez algorytm 4/29
10 Podstawowe pojęcia Algorytm (agent) uczenia z wzmocnieniem podczas swojego działania korzysta co najmniej z jednej z następujących informacji: Model świata opis sposobu reakcji świata na decyzje podejmowane przez algorytm Taktyka (ang. policy) funkcja/rozkład reprezentujący sposób podejmowania decyzji przez algorytm Funkcja oceny (ang. value function) funkcja oceniająca jak dobre są dany stan i/lub decyzja 4/29
11 Model świata Stan świata s t generowany jest z rozkładu zależnego od poprzedniego stanu i decyzji algorytmu s t+1 p(s t+1 s t, a t ) 5/29
12 Model świata Stan świata s t generowany jest z rozkładu zależnego od poprzedniego stanu i decyzji algorytmu s t+1 p(s t+1 s t, a t ) Nagroda (ang. reward) R t generowana jest z rozkładu zależnego od stanu i decyzji algorytmu R t+1 p(r t+1 s t, a t ) 5/29
13 Model świata Stan świata s t generowany jest z rozkładu zależnego od poprzedniego stanu i decyzji algorytmu s t+1 p(s t+1 s t, a t ) Nagroda (ang. reward) R t generowana jest z rozkładu zależnego od stanu i decyzji algorytmu R t+1 p(r t+1 s t, a t ) Świat modelujemy np. za pomocą tensorów/macierzy: P a ss = p(s t+1 = s s t = s, a t = a) R a s = E [R t+1 s t = s, a t = a] 5/29
14 Taktyka Taktyką π nazywamy rozkład decyzji warunkowany danym stanem świata: a t p(a t s t ) 6/29
15 Taktyka Taktyką π nazywamy rozkład decyzji warunkowany danym stanem świata: a t p(a t s t ) Taktykę możemy modelować np. za pomocą macierzy: π(a s) = p(a t = a s t = s) 6/29
16 Zwrot Zwrotem (ang. return) G t nazywamy całkowitą zdyskontowaną nagrodę w kroku t G t = R t+1 + γr t+2 + γ 2 R t = γ i R t+i+1 i=0 7/29
17 Zwrot Zwrotem (ang. return) G t nazywamy całkowitą zdyskontowaną nagrodę w kroku t G t = R t+1 + γr t+2 + γ 2 R t = γ i R t+i+1 i=0 Stopa dyskontowa (ang. discount) γ [0, 1] to procentowa bieżąca wartość przyszłych nagród 7/29
18 Zwrot Zwrotem (ang. return) G t nazywamy całkowitą zdyskontowaną nagrodę w kroku t G t = R t+1 + γr t+2 + γ 2 R t = γ i R t+i+1 i=0 Stopa dyskontowa (ang. discount) γ [0, 1] to procentowa bieżąca wartość przyszłych nagród γ blisko 0 zależy nam na krótkoterminowym zysku 7/29
19 Zwrot Zwrotem (ang. return) G t nazywamy całkowitą zdyskontowaną nagrodę w kroku t G t = R t+1 + γr t+2 + γ 2 R t = γ i R t+i+1 i=0 Stopa dyskontowa (ang. discount) γ [0, 1] to procentowa bieżąca wartość przyszłych nagród γ blisko 0 zależy nam na krótkoterminowym zysku γ blisko 1 zależy nam na odległych zyskach 7/29
20 Funkcja oceny Funkcją oceny stanu (ang. state-value function) nazywamy oczekiwany zwrot w danym stanie przy obraniu taktyki π: v π (s) = E π [G t s t = s] 8/29
21 Funkcja oceny Funkcją oceny stanu (ang. state-value function) nazywamy oczekiwany zwrot w danym stanie przy obraniu taktyki π: v π (s) = E π [G t s t = s] Funkcją oceny decyzji (ang. action-value function) nazywamy oczekiwany zwrot w danym stanie i przy danej decyzji, przy obraniu taktyki π: q π (s, a) = E π [G t s t = s, a t = a] 8/29
22 Proces Decyzyjny Markowa (MDP) Procesem Decyzyjnym Markowa (ang. Markov Decision Process) nazywamy piątkę S, A, P a ss, Ra s, γ 9/29
23 Proces Decyzyjny Markowa (MDP) Procesem Decyzyjnym Markowa (ang. Markov Decision Process) nazywamy piątkę S, A, P a ss, Ra s, γ S skończony zbiór stanów świata 9/29
24 Proces Decyzyjny Markowa (MDP) Procesem Decyzyjnym Markowa (ang. Markov Decision Process) nazywamy piątkę S, A, P a ss, Ra s, γ S skończony zbiór stanów świata A skończony zbiór decyzji 9/29
25 Proces Decyzyjny Markowa (MDP) Procesem Decyzyjnym Markowa (ang. Markov Decision Process) nazywamy piątkę S, A, P a ss, Ra s, γ S skończony zbiór stanów świata A skończony zbiór decyzji Pss a tensor prawdopodobieństw modelujący dynamikę świata 9/29
26 Proces Decyzyjny Markowa (MDP) Procesem Decyzyjnym Markowa (ang. Markov Decision Process) nazywamy piątkę S, A, P a ss, Ra s, γ S skończony zbiór stanów świata A skończony zbiór decyzji Pss a tensor prawdopodobieństw modelujący dynamikę świata R a s macierz nagród dla par stan-decyzja 9/29
27 Proces Decyzyjny Markowa (MDP) Procesem Decyzyjnym Markowa (ang. Markov Decision Process) nazywamy piątkę S, A, P a ss, Ra s, γ S skończony zbiór stanów świata A skończony zbiór decyzji Pss a tensor prawdopodobieństw modelujący dynamikę świata R a s macierz nagród dla par stan-decyzja γ stopa dyskontowa z przedziału [0, 1] 9/29
28 MDP przykład Zakładamy pewien model świata 10/29
29 MDP przykład Dla każdego stanu mamy zbiór dopuszczalnych decyzji 10/29
30 MDP przykład Zakładamy, że p(s t+1 = s s t = s, a t = a) {0, 1} 10/29
31 MDP przykład Zakładamy, że nagroda R t związana jest ze stanem 10/29
32 MDP przykład Możemy przyjąć pewną taktykę π(a s) 10/29
33 MDP przykład Jak policzyć funkcję oceny? 10/29
34 Równanie Bellmana Funkcja oceny stanu może być zdekomponowana na natychmiastową wypłatę i funkcję oceny w następnym stanie: [ v π (s) = E π Rt+1 + γr t+2 + γ 2 R t s t = s ] = E π [R t+1 + γv π (s t+1 ) s t = s] 11/29
35 Równanie Bellmana Funkcja oceny stanu może być zdekomponowana na natychmiastową wypłatę i funkcję oceny w następnym stanie: [ v π (s) = E π Rt+1 + γr t+2 + γ 2 R t s t = s ] = E π [R t+1 + γv π (s t+1 ) s t = s] Podobny wyrażenie zachodzi dla funkcji oceny decyzji: q π (s, a) = E π [R t+1 + γq π (s t+1, a t+1 ) s t = s, a t = a] 11/29
36 Równanie Bellmana (2) Zachodzi następująca zależność: v π (s) = E π [R t+1 + γv π (s t+1 ) s t = s] [ = π(a s) R a s + γ Pss a v π(s ) a s = π(a s)r a s +γ π(a s)pss a v π (s ) a }{{} s a }{{} R π (s) P π (s,s ) ] 12/29
37 Równanie Bellmana (2) Zachodzi następująca zależność: v π (s) = E π [R t+1 + γv π (s t+1 ) s t = s] [ = π(a s) R a s + γ Pss a v π(s ) a s = π(a s)r a s +γ π(a s)pss a v π (s ) a }{{} s a }{{} R π (s) P π (s,s ) Dostajemy następujące wektorowe równanie: v π = R π + γp π v π które ma analityczne rozwiązanie: v π = (I γp π ) 1 R π ] 12/29
38 Równanie Bellmana (3) Równanie możemy zapisać także w postaci: v π (s) = π(a s)pss a [Ra s + γv π (s )] a s = p(s, a s) [R a s + γv π (s )] a s = E s,a [R + γv π (s ) s] 13/29
39 Równanie Bellmana (3) Równanie możemy zapisać także w postaci: v π (s) = π(a s)pss a [Ra s + γv π (s )] a s = p(s, a s) [R a s + γv π (s )] a s = E s,a [R + γv π (s ) s] Podobnie dla funkcji oceny decyzji q: q π (s, a) = E s,a [R + γq π(s, a ) s, a] 13/29
40 MDP przykład (2) Funkcja oceny stanu v π dla γ = 0 14/29
41 MDP przykład (2) Funkcja oceny stanu v π dla γ = /29
42 MDP przykład (2) Funkcja oceny stanu v π dla γ = /29
43 MDP przykład (2) Funkcja oceny stanu v π dla γ = 1 14/29
44 Optymalna funkcja oceny Optymalną funkcją oceny stanu (ang. optimal state-value function) nazywamy maksimum z funkcji oceny stanu dla wszystkich taktyk π: v (s) = max v π (s) π 15/29
45 Optymalna funkcja oceny Optymalną funkcją oceny stanu (ang. optimal state-value function) nazywamy maksimum z funkcji oceny stanu dla wszystkich taktyk π: v (s) = max v π (s) π Optymalną funkcją oceny decyzji (ang. optimal action-value function) nazywamy maksimum z funkcji oceny decyzji dla wszystkich taktyk π: q (s, a) = max q π (s, a) π 15/29
46 Optymalna taktyka Dla każdego MDP istnieje optymalna taktyka (ang. optimal policy) π taka, że: v π (s) = v (s) q π (s, a) = q (s, a) 16/29
47 Optymalna taktyka Dla każdego MDP istnieje optymalna taktyka (ang. optimal policy) π taka, że: v π (s) = v (s) q π (s, a) = q (s, a) Gdy znamy wartości q (s, a) wtedy optymalna taktyka ma postać: 1 jeśli a = arg max a q (s, a) π (a s) = 0 w.p.p. 16/29
48 Równanie optymalności Bellmana Dla optymalnej funkcji oceny stanu zachodzi następująca rekurencja: v (s) = max a = max a q (s, a) [ R a s + γ s P a ss v (s ) = max E s [R a a s + γv (s ) s, a] ] 17/29
49 Równanie optymalności Bellmana Dla optymalnej funkcji oceny stanu zachodzi następująca rekurencja: v (s) = max a = max a q (s, a) [ R a s + γ s P a ss v (s ) = max E s [R a a s + γv (s ) s, a] ] Podobnie dla optymalnej funkcji oceny decyzji: q (s, a) = E s [ R a s + γ max a ] q (s, a ) s, a 17/29
50 MDP przykład (3) Optymalna funkcja oceny stanu v (s) dla γ = 1 18/29
51 MDP przykład (3) Optymalna taktyka π (a s) 18/29
52 Dwa fundamentalne problemy 1. Planowanie (ang. planning) Znany jest model świata Algorytm wykonuje obliczenia w oparciu o model Celem jest znalezienie optymalnej taktyki 19/29
53 Dwa fundamentalne problemy 1. Planowanie (ang. planning) Znany jest model świata Algorytm wykonuje obliczenia w oparciu o model Celem jest znalezienie optymalnej taktyki 2. Uczenie ze wzmocnieniem Nie znamy modelu świata Obliczenia w oparciu o obserwacje świata Celem jest znalezienie optymalnej taktyki 19/29
54 Podejścia do uczenia ze wzmocnieniem 1. Oparte na taktyce (ang. policy-based RL) Szukamy bezpośrednio optymalnej taktyki π (a s) 20/29
55 Podejścia do uczenia ze wzmocnieniem 1. Oparte na taktyce (ang. policy-based RL) Szukamy bezpośrednio optymalnej taktyki π (a s) 2. Oparte na funkcji oceny (ang. value-based RL) Estymujemy optymalną funkcję oceny akcji q (s, a) Na jej podstawie wyznaczamy optymalną taktykę 20/29
56 Podejścia do uczenia ze wzmocnieniem 1. Oparte na taktyce (ang. policy-based RL) Szukamy bezpośrednio optymalnej taktyki π (a s) 2. Oparte na funkcji oceny (ang. value-based RL) Estymujemy optymalną funkcję oceny akcji q (s, a) Na jej podstawie wyznaczamy optymalną taktykę 3. Oparte na modelu świata (ang. model-based RL) Uczymy się modelu świata Na jego podstawie robimy planowanie 20/29
57 Problemy wielkiej skali W praktycznych problemach przestrzeń S jest olbrzymia Warcaby: stanów Szachy: stanów Sterowanie robotem: ciągła przestrzeń stanów 21/29
58 Problemy wielkiej skali W praktycznych problemach przestrzeń S jest olbrzymia Warcaby: stanów Szachy: stanów Sterowanie robotem: ciągła przestrzeń stanów Nie jest wtedy możliwe modelowanie każdej kombinacji stanów i decyzji przy pomocy macierzy/tensorów 21/29
59 Problemy wielkiej skali W praktycznych problemach przestrzeń S jest olbrzymia Warcaby: stanów Szachy: stanów Sterowanie robotem: ciągła przestrzeń stanów Nie jest wtedy możliwe modelowanie każdej kombinacji stanów i decyzji przy pomocy macierzy/tensorów Trzeba zaproponować inne modele odpowiednio dla: taktyki, funkcji oceny lub modelu świata Modele liniowe Sieci neuronowe Procesy Gaussa Drzewa decyzyjne... 21/29
60 Aproksymacja funkcji oceny Zakładamy, że rzeczywistą (nieznaną) funkcję oceny decyzji przybliżamy modelem opisanym przez θ: q π (s, a) q(s, a; θ) 22/29
61 Aproksymacja funkcji oceny Zakładamy, że rzeczywistą (nieznaną) funkcję oceny decyzji przybliżamy modelem opisanym przez θ: q π (s, a) q(s, a; θ) Kryterium uczenia definiujemy jako błąd śreniokwadratowy: J(θ) = 1 2 E s,a [ (qπ (s, a) q(s, a; θ)) 2] 22/29
62 Aproksymacja funkcji oceny Zakładamy, że rzeczywistą (nieznaną) funkcję oceny decyzji przybliżamy modelem opisanym przez θ: q π (s, a) q(s, a; θ) Kryterium uczenia definiujemy jako błąd śreniokwadratowy: J(θ) = 1 2 E s,a [ (qπ (s, a) q(s, a; θ)) 2] Liczymy gradient kryterium uczenia: θ J(θ) = E s,a [(q π (s, a) q(s, a; θ)) θ q(s, a; θ)] 22/29
63 Aproksymacja gradientu Rzeczywistą q π (s, a) możemy przybliżyć na wiele sposobów. Tutaj skorzystamy z równań Bellmana. 23/29
64 Aproksymacja gradientu Rzeczywistą q π (s, a) możemy przybliżyć na wiele sposobów. Tutaj skorzystamy z równań Bellmana. Korzystając z równania Bellmana mamy: θ J(θ) = E s,a [(q π (s, a) q(s, a; θ)) θ q(s, a; θ)] = E s,a [(E s,a [R + γq π(s, a ) s, a] q(s, a; θ)) θ q(s, a; θ)] = E s,a,s,a [(R + γq π(s, a ) q(s, a; θ)) θ q(s, a; θ)] E s,a,s,a [(R + γq(s, a ; θ) q(s, a; θ)) θ q(s, a; θ)] 23/29
65 Aproksymacja gradientu Rzeczywistą q π (s, a) możemy przybliżyć na wiele sposobów. Tutaj skorzystamy z równań Bellmana. Korzystając z równania Bellmana mamy: θ J(θ) = E s,a [(q π (s, a) q(s, a; θ)) θ q(s, a; θ)] = E s,a [(E s,a [R + γq π(s, a ) s, a] q(s, a; θ)) θ q(s, a; θ)] = E s,a,s,a [(R + γq π(s, a ) q(s, a; θ)) θ q(s, a; θ)] E s,a,s,a [(R + γq(s, a ; θ) q(s, a; θ)) θ q(s, a; θ)] Alternatywnie korzystając z równania optymalności Bellmana mamy: [ ] θ J(θ) E s,a,s (R + γ max q(s, a ; θ) q(s, a; θ)) θ q(s, a; θ) a 23/29
66 Algorytm SARSA Algorytm SARSA korzysta z aproksymacji gradientu przy pomocy równania Bellmana 24/29
67 Algorytm SARSA Algorytm SARSA korzysta z aproksymacji gradientu przy pomocy równania Bellmana Do optymalizacji używamy algorytmu SGD, przybliżając wartość oczekiwaną pojedynczą próbką s, a, s, a : θ θ + η(r + γq(s, a ; θ) q(s, a; θ)) θ q(s, a; θ) 24/29
68 Algorytm SARSA Algorytm SARSA korzysta z aproksymacji gradientu przy pomocy równania Bellmana Do optymalizacji używamy algorytmu SGD, przybliżając wartość oczekiwaną pojedynczą próbką s, a, s, a : θ θ + η(r + γq(s, a ; θ) q(s, a; θ)) θ q(s, a; θ) Do generowania decyzji a, a stosuje się taktykę zachłanną albo ɛ-zachłanną (ang. ɛ-greedy): ɛ/m + 1 ɛ jeśli a = arg max a q(s, a; θ) π(a s) = ɛ/m w.p.p. 24/29
69 Algorytm SARSA Algorytm SARSA korzysta z aproksymacji gradientu przy pomocy równania Bellmana Do optymalizacji używamy algorytmu SGD, przybliżając wartość oczekiwaną pojedynczą próbką s, a, s, a : θ θ + η(r + γq(s, a ; θ) q(s, a; θ)) θ q(s, a; θ) Do generowania decyzji a, a stosuje się taktykę zachłanną albo ɛ-zachłanną (ang. ɛ-greedy): ɛ/m + 1 ɛ jeśli a = arg max a q(s, a; θ) π(a s) = ɛ/m w.p.p. Taktyka ɛ-zachłanna pozwala zachować balans między eksploracją i eksploatacją (ang. exploration exploitation trade-off ) 24/29
70 Algorytm Q-learning Algorytm Q-learning korzysta z aproksymacji gradientu przy pomocy równania optymalności Bellmana 25/29
71 Algorytm Q-learning Algorytm Q-learning korzysta z aproksymacji gradientu przy pomocy równania optymalności Bellmana Do optymalizacji używamy algorytmu SGD, przybliżając wartość oczekiwaną pojedynczą próbką s, a, s : θ θ + η(r + γ max a q(s, a ; θ) q(s, a; θ)) θ q(s, a; θ) 25/29
72 Algorytm Q-learning Algorytm Q-learning korzysta z aproksymacji gradientu przy pomocy równania optymalności Bellmana Do optymalizacji używamy algorytmu SGD, przybliżając wartość oczekiwaną pojedynczą próbką s, a, s : θ θ + η(r + γ max a q(s, a ; θ) q(s, a; θ)) θ q(s, a; θ) Do generowania decyzji a stosuje się taktykę ɛ-zachłanną (ang. ɛ-greedy): 25/29
73 Przykład - gry na Atari Mnih et al. Human-level control through deep reinforcement learning. Nature 518, , /29
74 Przykład (2) Zastosowano wersję algorytmu Q-learning. Jako model q(s, a; θ) użyto głęboką sieć konwolucyjną (ang. deep covolutional neural network). 27/29
75 Przykład (3) 28/29
76 Podsumowanie Połączenie algorytmów RL i modeli nieliniowych prowadzi często do problemów ze zbieżnością i/lub silnych oscylacji algorytmu uczącego. Wymaga to umiejętnej implementacji, w szczególności dekorelowania danych. 29/29
77 Podsumowanie Połączenie algorytmów RL i modeli nieliniowych prowadzi często do problemów ze zbieżnością i/lub silnych oscylacji algorytmu uczącego. Wymaga to umiejętnej implementacji, w szczególności dekorelowania danych. Rozwój technik uczenia ze wzmocnieniem jest kluczowym elementem do stworzenia sztucznej inteligencji. 29/29
Uczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Na podstawie: AIMA ch2 Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 20 listopada 203 Problem decyzyjny Markova 3 + 2 0.8 START 0. 0. 2 3 4 MDP bez modelu przejść
Bardziej szczegółowoUczenie ze wzmocnieniem aplikacje
Uczenie ze wzmocnieniem aplikacje Na podstawie: AIMA ch21 oraz Reinforcement Learning (Sutton i Barto) Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 22 maja 2013 Problem decyzyjny Markova
Bardziej szczegółowoUczenie ze wzmocnieniem aplikacje
Uczenie ze wzmocnieniem aplikacje Na podstawie: AIMA ch21 oraz Reinforcement Learning (Sutton i Barto) Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 23 maja 2014 Problem decyzyjny Markova
Bardziej szczegółowoSystemy agentowe. Uczenie ze wzmocnieniem. Jędrzej Potoniec
Systemy agentowe Uczenie ze wzmocnieniem Jędrzej Potoniec Uczenie ze wzmocnieniem (ang. Reinforcement learning) dane Środowisko, w którym można wykonywać pewne akcje, które są nagradzane lub karane, ale
Bardziej szczegółowoUczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019 Temporal Difference learning Uczenie oparte na różnicach czasowych Problemy predykcyjne (wieloetapowe) droga do
Bardziej szczegółowoUczenie ze wzmocnieniem
Na podstawie: AIMA ch Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 6 maja 06 Na podstawie: AIMA ch Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 6 maja 06 3 START 3
Bardziej szczegółowoSchemat programowania dynamicznego (ang. dynamic programming)
Schemat programowania dynamicznego (ang. dynamic programming) Jest jedną z metod rozwiązywania problemów optymalizacyjnych. Jej twórcą (1957) był amerykański matematyk Richard Ernest Bellman. Schemat ten
Bardziej szczegółowoProblemy Decyzyjne Markowa
Problemy Decyzyjne Markowa na podstawie AIMA ch17 i slajdów S. Russel a Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 18 kwietnia 2013 Sekwencyjne problemy decyzyjne Cechy sekwencyjnego
Bardziej szczegółowoProblemy Decyzyjne Markowa
na podstawie AIMA ch17 i slajdów S. Russel a Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 18 kwietnia 2015 na podstawie AIMA ch17 i slajdów S. Russel a Wojciech Jaśkowski Instytut Informatyki,
Bardziej szczegółowoUczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019 Przypomnienia (1) Do tych czas: stan X t u, gdzie u cel aktualizacji: MC : X t G t TD(0) : X y R t+1 + γˆv(x t,
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Bardziej szczegółowoAby mówić o procesie decyzyjnym Markowa musimy zdefiniować następujący zestaw (krotkę): gdzie:
Spis treści 1 Uczenie ze wzmocnieniem 2 Proces decyzyjny Markowa 3 Jak wyznaczyć optymalną strategię? 3.1 Algorytm iteracji funkcji wartościującej 3.2 Algorytm iteracji strategii 4 Estymowanie modelu dla
Bardziej szczegółowoUczenie ze wzmocnieniem
Na podstawie: AIMA ch Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 5 maja 04 Na podstawie: AIMA ch Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 5 maja 04 3 START 3
Bardziej szczegółowoUczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019 O projekcie nr 2 roboty (samochody, odkurzacze, drony,...) gry planszowe, sterowanie (optymalizacja; windy,..) optymalizacja
Bardziej szczegółowoPodstawy Sztucznej Inteligencji (PSZT)
Podstawy Sztucznej Inteligencji (PSZT) Paweł Wawrzyński Uczenie maszynowe Sztuczne sieci neuronowe Plan na dziś Uczenie maszynowe Problem aproksymacji funkcji Sieci neuronowe PSZT, zima 2013, wykład 12
Bardziej szczegółowoSPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Bardziej szczegółowoOpenAI Gym. Adam Szczepaniak, Kamil Walkowiak
OpenAI Gym Adam Szczepaniak, Kamil Walkowiak Plan prezentacji Programowanie agentowe Uczenie przez wzmacnianie i problemy związane z rozwojem algorytmów Charakterystyka OpenAI Gym Biblioteka gym Podsumowanie
Bardziej szczegółowoAlgorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa
Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa Wojciech Niemiro 1 Uniwersytet Warszawski i UMK Toruń XXX lat IMSM, Warszawa, kwiecień 2017 1 Wspólne prace z Błażejem Miasojedowem,
Bardziej szczegółowoROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH
Transport, studia I stopnia Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać ogólna równania nieliniowego Często występującym, ważnym problemem obliczeniowym
Bardziej szczegółowoWykład 4 Wybór najlepszej procedury. Estymacja parametrów re
Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem
Bardziej szczegółowoZagadnienia optymalizacji i aproksymacji. Sieci neuronowe.
Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. zajecia.jakubw.pl/nai Literatura: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 997. PODSTAWOWE ZAGADNIENIA TECHNICZNE AI
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
Bardziej szczegółowoElementy inteligencji obliczeniowej
Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego
Bardziej szczegółowoProgramowanie dynamiczne. Tadeusz Trzaskalik
Programowanie dynamiczne Tadeusz Trzaskalik 9.. Wprowadzenie Słowa kluczowe Wieloetapowe procesy decyzyjne Zmienne stanu Zmienne decyzyjne Funkcje przejścia Korzyści (straty etapowe) Funkcja kryterium
Bardziej szczegółowoPodstawowe modele probabilistyczne
Wrocław University of Technology Podstawowe modele probabilistyczne Maciej Zięba maciej.zieba@pwr.edu.pl Rozpoznawanie Obrazów, Lato 2018/2019 Pojęcie prawdopodobieństwa Prawdopodobieństwo reprezentuje
Bardziej szczegółowoOptymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Bardziej szczegółowoMetody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017
Metody eksploracji danych 2. Metody regresji Piotr Szwed Katedra Informatyki Stosowanej AGH 2017 Zagadnienie regresji Dane: Zbiór uczący: D = {(x i, y i )} i=1,m Obserwacje: (x i, y i ), wektor cech x
Bardziej szczegółowoSztuczna inteligencja i uczenie maszynowe w robotyce i systemach autonomicznych: AI/ML w robotyce, robotyka w AI/ML
Sztuczna inteligencja i uczenie maszynowe w robotyce i systemach autonomicznych: AI/ML w robotyce, robotyka w AI/ML Piotr Skrzypczyński Instytut Automatyki, Robotyki i Inżynierii Informatycznej, Politechnika
Bardziej szczegółowoKADD Minimalizacja funkcji
Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego
Bardziej szczegółowoAproksymacja. j<k. L 2 p[a, b] l 2 p,n X = Lemat 1. Wielomiany ortogonalne P 0,P 1,...,P n tworza przestrzeni liniowej Π n. Dowód.
Metody numeryczne Paweł Zieliński p. 1/19 Lemat 1. Wielomiany ortogonalne P 0,P 1,...,P n tworza bazę przestrzeni liniowej Π n. Dowód. Lemat 2. Dowolny wielomian Q j stopnia j niższego od k jest prostopadły
Bardziej szczegółowoZrównoleglona optymalizacja stochastyczna na dużych zbiorach danych
Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych mgr inż. C. Dendek prof. nzw. dr hab. J. Mańdziuk Politechnika Warszawska, Wydział Matematyki i Nauk Informacyjnych Outline 1 Uczenie
Bardziej szczegółowoWrocław University of Technology. Wprowadzenie cz. I. Adam Gonczarek. Rozpoznawanie Obrazów, Lato 2015/2016
Wrocław University of Technology Wprowadzenie cz. I Adam Gonczarek adam.gonczarek@pwr.edu.pl Rozpoznawanie Obrazów, Lato 2015/2016 ROZPOZNAWANIE OBRAZÓW / WZORCÓW Definicja z Wikipedii 2/39 ROZPOZNAWANIE
Bardziej szczegółowoMetoda Monte Carlo. Jerzy Mycielski. grudzien Jerzy Mycielski () Metoda Monte Carlo grudzien / 10
Metoda Monte Carlo Jerzy Mycielski grudzien 2012 Jerzy Mycielski () Metoda Monte Carlo grudzien 2012 1 / 10 Przybliżanie całek Powiedzmy, że mamy do policzenia następującą całkę: b f (x) dx = I a Założmy,
Bardziej szczegółowoIX. Rachunek różniczkowy funkcji wielu zmiennych. 1. Funkcja dwóch i trzech zmiennych - pojęcia podstawowe. - funkcja dwóch zmiennych,
IX. Rachunek różniczkowy funkcji wielu zmiennych. 1. Funkcja dwóch i trzech zmiennych - pojęcia podstawowe. Definicja 1.1. Niech D będzie podzbiorem przestrzeni R n, n 2. Odwzorowanie f : D R nazywamy
Bardziej szczegółowoMetody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1
Normy wektorów i macierzy (5.3.1) Niech 1 X =[x x Y y =[y1 x n], oznaczają wektory przestrzeni R n, a yn] niech oznacza liczbę rzeczywistą. Wyrażenie x i p 5.3.1.a X p = p n i =1 nosi nazwę p-tej normy
Bardziej szczegółowoWstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium Zadanie nr 3 Osada autor: A Gonczarek Celem poniższego zadania jest zrealizowanie fragmentu komputerowego przeciwnika w grze strategiczno-ekonomicznej
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych
Bardziej szczegółowo1 Równania nieliniowe
1 Równania nieliniowe 1.1 Postać ogólna równania nieliniowego Często występującym, ważnym problemem obliczeniowym jest numeryczne poszukiwanie rozwiązań równań nieliniowych, np. algebraicznych (wielomiany),
Bardziej szczegółowoUczenie sieci typu MLP
Uczenie sieci typu MLP Przypomnienie budowa sieci typu MLP Przypomnienie budowy neuronu Neuron ze skokową funkcją aktywacji jest zły!!! Powszechnie stosuje -> modele z sigmoidalną funkcją aktywacji - współczynnik
Bardziej szczegółowoZ52: Algebra liniowa Zagadnienie: Zastosowania algebry liniowej Zadanie: Operatory różniczkowania, zagadnienie brzegowe.
Z5: Algebra liniowa Zagadnienie: Zastosowania algebry liniowej Zadanie: Operatory różniczkowania zagadnienie brzegowe Dyskretne operatory różniczkowania Numeryczne obliczanie pochodnych oraz rozwiązywanie
Bardziej szczegółowoMetody probabilistyczne klasyfikatory bayesowskie
Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin
Bardziej szczegółowoSztuczna inteligencja
Wstęp do Robotyki c W. Szynkiewicz, 2009 1 Sztuczna inteligencja Inteligencja to zdolność uczenia się i rozwiązywania problemów Główne działy sztucznej inteligencji: 1. Wnioskowanie: Wykorzystanie logiki
Bardziej szczegółowoWYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska
Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):
Bardziej szczegółowoZASTOSOWANIE ZASADY MAKSIMUM PONTRIAGINA DO ZAGADNIENIA
ZASTOSOWANIE ZASADY MAKSIMUM PONTRIAGINA DO ZAGADNIENIA DYNAMICZNYCH LOKAT KAPITAŁOWYCH Krzysztof Gąsior Uniwersytet Rzeszowski Streszczenie Celem referatu jest zaprezentowanie praktycznego zastosowania
Bardziej szczegółowoSztuczna Inteligencja Tematy projektów Sieci Neuronowe
PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia
Bardziej szczegółowoZastosowania sieci neuronowych
Zastosowania sieci neuronowych aproksymacja LABORKA Piotr Ciskowski zadanie 1. aproksymacja funkcji odległość punktów źródło: Żurada i in. Sztuczne sieci neuronowe, przykład 4.4, str. 137 Naucz sieć taką
Bardziej szczegółowoWprowadzenie Metoda bisekcji Metoda regula falsi Metoda siecznych Metoda stycznych RÓWNANIA NIELINIOWE
Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać ogólna równania nieliniowego Zazwyczaj nie można znaleźć
Bardziej szczegółowoSPOTKANIE 2: Wprowadzenie cz. I
Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie
Bardziej szczegółowoAproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Bardziej szczegółowokomputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW
Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,
Bardziej szczegółowoOptymalizacja systemów
Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji
Bardziej szczegółowoLaboratorium 5 Przybliżone metody rozwiązywania równań nieliniowych
Uniwersytet Zielonogórski Wydział Informatyki, Elektrotechniki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych Elektrotechnika niestacjonarne-zaoczne pierwszego stopnia z tyt. inżyniera
Bardziej szczegółowoWSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH
WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH Dobrze przygotowane sprawozdanie powinno zawierać następujące elementy: 1. Krótki wstęp - maksymalnie pół strony. W krótki i zwięzły
Bardziej szczegółowoElementy modelowania matematycznego
Elementy modelowania matematycznego Łańcuchy Markowa: zagadnienia graniczne. Ukryte modele Markowa. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ KLASYFIKACJA STANÓW Stan i jest osiągalny
Bardziej szczegółowoWYKŁAD 9 METODY ZMIENNEJ METRYKI
WYKŁAD 9 METODY ZMIENNEJ METRYKI Kierunki sprzężone. Metoda Newtona Raphsona daje dobre przybliżenie najlepszego kierunku poszukiwań, lecz jest to okupione znacznym kosztem obliczeniowym zwykle postać
Bardziej szczegółowoOptymalizacja ciągła
Optymalizacja ciągła 5. Metody kierunków poparwy (metoda Newtona-Raphsona, metoda gradientów sprzężonych) Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 28.03.2019 1
Bardziej szczegółowoI. KARTA PRZEDMIOTU CEL PRZEDMIOTU
I. KARTA PRZEDMIOTU 1. Nazwa przedmiotu: SYSTEMY WSPOMAGANIA DECYZJI. Kod przedmiotu: Ecs 3. Jednostka prowadząca: Wydział Mechaniczno-Elektryczny. Kierunek: Mechatronika 5. Specjalność: Techniki Komputerowe
Bardziej szczegółowoInterpolacja, aproksymacja całkowanie. Interpolacja Krzywa przechodzi przez punkty kontrolne
Interpolacja, aproksymacja całkowanie Interpolacja Krzywa przechodzi przez punkty kontrolne Aproksymacja Punkty kontrolne jedynie sterują kształtem krzywej INTERPOLACJA Zagadnienie interpolacji można sformułować
Bardziej szczegółowo11. 11. OPTYMALIZACJA KONSTRUKCJI
11. OPTYMALIZACJA KONSTRUKCJI 1 11. 11. OPTYMALIZACJA KONSTRUKCJI 11.1. Wprowadzenie 1. Optymalizacja potocznie i matematycznie 2. Przykład 3. Kryterium optymalizacji 4. Ograniczenia w zadaniach optymalizacji
Bardziej szczegółowodoc. dr Beata Pułska-Turyna Zarządzanie B506 mail: mgr Piotr J. Gadecki Zakład Badań Operacyjnych Zarządzania B 505.
doc. dr Beata Pułska-Turyna Zakład Badań Operacyjnych Zarządzanie B506 mail: turynab@wz.uw.edu.pl mgr Piotr J. Gadecki Zakład Badań Operacyjnych Zarządzania B 505. Tel.: (22)55 34 144 Mail: student@pgadecki.pl
Bardziej szczegółowoWIELOKRYTERIALNE PORZĄDKOWANIE METODĄ PROMETHEE ODPORNE NA ZMIANY WAG KRYTERIÓW
Uniwersytet Ekonomiczny we Wrocławiu WIELOKRYTERIALNE PORZĄDKOWANIE METODĄ PROMETHEE ODPORNE NA ZMIANY WAG KRYTERIÓW Wprowadzenie Wrażliwość wyników analizy wielokryterialnej na zmiany wag kryteriów, przy
Bardziej szczegółowoRozkład normalny, niepewność standardowa typu A
Podstawy Metrologii i Technik Eksperymentu Laboratorium Rozkład normalny, niepewność standardowa typu A Instrukcja do ćwiczenia nr 1 Zakład Miernictwa i Ochrony Atmosfery Wrocław, listopad 2010 r. Podstawy
Bardziej szczegółowo5.1 Stopa Inflacji - Dyskonto odpowiadające sile nabywczej
5.1 Stopa Inflacji - Dyskonto odpowiadające sile nabywczej Stopa inflacji, i, mierzy jak szybko ceny się zmieniają jako zmianę procentową w skali rocznej. Oblicza się ją za pomocą średniej ważonej cząstkowych
Bardziej szczegółowoMatematyka bankowa 1 1 wykład
Matematyka bankowa 1 1 wykład Dorota Klim Department of Nonlinear Analysis, Faculty of Mathematics and Computer Science, University of Łódź, Banacha 22, 90-238 Łódź, Poland E-mail address: klimdr@math.uni.ldz.pl
Bardziej szczegółowoRozdział 1 PROGRAMOWANIE LINIOWE
Wprowadzenie do badań operacyjnych z komputerem Opisy programów, ćwiczenia komputerowe i zadania. T. Trzaskalik (red.) Rozdział 1 PROGRAMOWANIE LINIOWE 1.2 Ćwiczenia komputerowe Ćwiczenie 1.1 Wykorzystując
Bardziej szczegółowo10. Wstęp do Teorii Gier
10. Wstęp do Teorii Gier Definicja Gry Matematycznej Gra matematyczna spełnia następujące warunki: a) Jest co najmniej dwóch racjonalnych graczy. b) Zbiór możliwych dezycji każdego gracza zawiera co najmniej
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym
Bardziej szczegółowoPROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE
D: PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE I. Strategia zachłanna II. Problem przetasowań w genomie III. Sortowanie przez odwrócenia IV. Algorytmy przybliżone V. Algorytm zachłanny
Bardziej szczegółowoKombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych
Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych Mateusz Kobos, 07.04.2010 Seminarium Metody Inteligencji Obliczeniowej Spis treści Opis algorytmu i zbioru
Bardziej szczegółowoRozwiązywanie równań nieliniowych
Rozwiązywanie równań nieliniowych Marcin Orchel 1 Wstęp Przykłady wyznaczania miejsc zerowych funkcji f : f(ξ) = 0. Wyszukiwanie miejsc zerowych wielomianu n-tego stopnia. Wymiar tej przestrzeni wektorowej
Bardziej szczegółowoFuzja sygnałów i filtry bayesowskie
Fuzja sygnałów i filtry bayesowskie Roboty Manipulacyjne i Mobilne dr inż. Janusz Jakubiak Katedra Cybernetyki i Robotyki Wydział Elektroniki, Politechnika Wrocławska Wrocław, 10.03.2015 Dlaczego potrzebna
Bardziej szczegółowo1. Podstawowe pojęcia
1. Podstawowe pojęcia Sterowanie optymalne obiektu polega na znajdowaniu najkorzystniejszej decyzji dotyczącej zamierzonego wpływu na obiekt przy zadanych ograniczeniach. Niech dany jest obiekt opisany
Bardziej szczegółowoWrocław University of Technology. Uczenie głębokie. Maciej Zięba
Wrocław University of Technology Uczenie głębokie Maciej Zięba UCZENIE GŁĘBOKIE (ang. deep learning) = klasa metod uczenia maszynowego, gdzie model ma strukturę hierarchiczną złożoną z wielu nieliniowych
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 autorzy: A. Gonczarek, J.M. Tomczak Zbiory i funkcje wypukłe Zad. 1 Pokazać, że następujące zbiory są wypukłe: a) płaszczyzna S = {x
Bardziej szczegółowoMatematyka stosowana i metody numeryczne
Ewa Pabisek Adam Wosatko Piotr Pluciński Matematyka stosowana i metody numeryczne Konspekt z wykładu 6 Rozwiązywanie równań nieliniowych Rozwiązaniem lub pierwiastkiem równania f(x) = 0 lub g(x) = h(x)
Bardziej szczegółowoRys Wykres kosztów skrócenia pojedynczej czynności. k 2. Δk 2. k 1 pp. Δk 1 T M T B T A
Ostatnim elementem przykładu jest określenie związku pomiędzy czasem trwania robót na planowanym obiekcie a kosztem jego wykonania. Związek ten określa wzrost kosztów wykonania realizacji całego przedsięwzięcia
Bardziej szczegółowoInstytut Konstrukcji i Eksploatacji Maszyn Katedra Logistyki i Systemów Transportowych. Badania operacyjne. Dr inż.
Instytut Konstrukcji i Eksploatacji Maszyn Katedra Logistyki i Systemów Transportowych Badania operacyjne Dr inż. Artur KIERZKOWSKI Wprowadzenie Badania operacyjne związana jest ściśle z teorią podejmowania
Bardziej szczegółowoSystem bonus-malus z mechanizmem korekty składki
System bonus-malus z mechanizmem korekty składki mgr Kamil Gala Ubezpieczeniowy Fundusz Gwarancyjny dr hab. Wojciech Bijak, prof. SGH Ubezpieczeniowy Fundusz Gwarancyjny, Szkoła Główna Handlowa Zagadnienia
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 9
Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności
Bardziej szczegółowoModele i narzędzia optymalizacji w systemach informatycznych zarządzania
Politechnika Poznańska Modele i narzędzia optymalizacji w systemach informatycznych zarządzania Joanna Józefowska POZNAŃ 2010/11 Spis treści Rozdział 1. Metoda programowania dynamicznego........... 5
Bardziej szczegółowoMetoda najmniejszych kwadratów
Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K
Bardziej szczegółowoAlgorytmy ewolucyjne optymalizacji wielokryterialnej sterowane preferencjami decydenta
Algorytmy ewolucyjne optymalizacji wielokryterialnej sterowane preferencjami decydenta Dr Janusz Miroforidis MGI Metro Group Information Technology Polska Sp. z o.o. listopad 2010 Wprowadzenie Plan prezentacji
Bardziej szczegółowoKolokwium ze statystyki matematycznej
Kolokwium ze statystyki matematycznej 28.05.2011 Zadanie 1 Niech X będzie zmienną losową z rozkładu o gęstości dla, gdzie 0 jest nieznanym parametrem. Na podstawie pojedynczej obserwacji weryfikujemy hipotezę
Bardziej szczegółowoTechniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I
Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:
Bardziej szczegółowoOptymalizacja ciągła
Optymalizacja ciągła 1. Optymalizacja funkcji jednej zmiennej Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 28.02.2019 1 / 54 Plan wykładu Optymalizacja funkcji jednej
Bardziej szczegółowoMetody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015
Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015 1 Metody numeryczne Dział matematyki Metody rozwiązywania problemów matematycznych za pomocą operacji na liczbach. Otrzymywane
Bardziej szczegółowoRozwiązywanie układów równań liniowych
Rozwiązywanie układów równań liniowych Marcin Orchel 1 Wstęp Jeśli znamy macierz odwrotną A 1, to możęmy znaleźć rozwiązanie układu Ax = b w wyniku mnożenia x = A 1 b (1) 1.1 Metoda eliminacji Gaussa Pierwszy
Bardziej szczegółowoEkonometria - ćwiczenia 10
Ekonometria - ćwiczenia 10 Mateusz Myśliwski Zakład Ekonometrii Stosowanej Instytut Ekonometrii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa 14 grudnia 2012 Wprowadzenie Optymalizacja liniowa Na
Bardziej szczegółowoWokół wyszukiwarek internetowych
Wokół wyszukiwarek internetowych Bartosz Makuracki 23 stycznia 2014 Przypomnienie Wzór x 1 = 1 d N x 2 = 1 d N + d N i=1 p 1,i x i + d N i=1 p 2,i x i. x N = 1 d N + d N i=1 p N,i x i Oznaczenia Gdzie:
Bardziej szczegółowo1 Metody rozwiązywania równań nieliniowych. Postawienie problemu
1 Metody rozwiązywania równań nieliniowych. Postawienie problemu Dla danej funkcji ciągłej f znaleźć wartości x, dla których f(x) = 0. (1) 2 Przedział izolacji pierwiastka Będziemy zakładać, że równanie
Bardziej szczegółowoProgramowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
Bardziej szczegółowoEgzamin z Metod Numerycznych ZSI, Grupa: A
Egzamin z Metod Numerycznych ZSI, 06.2005. Grupa: A Nazwisko: Imię: Numer indeksu: Ćwiczenia z: Data: Część 1. Test wyboru, max 36 pkt Zaznacz prawidziwe odpowiedzi literą T, a fałszywe N. Każda prawidłowa
Bardziej szczegółowoMatematyka ubezpieczeń majątkowych r.
Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka
Bardziej szczegółowoTeoria gier. wstęp. 2011-12-07 Teoria gier Zdzisław Dzedzej 1
Teoria gier wstęp 2011-12-07 Teoria gier Zdzisław Dzedzej 1 Teoria gier zajmuje się logiczną analizą sytuacji, gdzie występują konflikty interesów, a także istnieje możliwość kooperacji. Zakładamy zwykle,
Bardziej szczegółowoEksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Bardziej szczegółowoWyprowadzenie prawa Gaussa z prawa Coulomba
Wyprowadzenie prawa Gaussa z prawa Coulomba Natężenie pola elektrycznego ładunku punktowego q, umieszczonego w początku układu współrzędnych (czyli prawo Coulomba): E = Otoczmy ten ładunek dowolną powierzchnią
Bardziej szczegółowo