SPOTKANIE 11: Reinforcement learning
|
|
- Roman Leśniak
- 7 lat temu
- Przeglądów:
Transkrypt
1 Wrocław University of Technology SPOTKANIE 11: Reinforcement learning Adam Gonczarek Studenckie Koło Naukowe Estymator
2 Uczenie z nadzorem (ang. supervised learning) na podstawie obserwacji świata s t algorytm generuje decyzję a t 2/29
3 Problem wielorękiego bandyty (ang. multi-armed bandit) algorytm generuje decyzję a t, świat ją ocenia i generuje nagrodę R t 2/29
4 Problem wielorękiego bandyty z kontekstem (ang. contextual multi-armed bandit) na podstawie obserwacji świata s t algorytm generuje decyzję a t, świat ją ocenia i generuje nagrodę R t 2/29
5 Uczenie ze wzmocnieniem (ang. reinforcement learning) na podstawie obserwacji świata s t algorytm generuje decyzję a t, świat ją ocenia i generuje nagrodę R t, decyzja zmienia stan świata na s t+1 2/29
6 Przykłady zastosowań Programowanie robotów Boty do gier Zarządzanie portfelem Sterowanie pojazdami Sterowanie produkcją HCI Badania operacyjne Reklamy online 3/29
7 Podstawowe pojęcia Algorytm (agent) uczenia z wzmocnieniem podczas swojego działania korzysta co najmniej z jednej z następujących informacji: 4/29
8 Podstawowe pojęcia Algorytm (agent) uczenia z wzmocnieniem podczas swojego działania korzysta co najmniej z jednej z następujących informacji: Model świata opis sposobu reakcji świata na decyzje podejmowane przez algorytm 4/29
9 Podstawowe pojęcia Algorytm (agent) uczenia z wzmocnieniem podczas swojego działania korzysta co najmniej z jednej z następujących informacji: Model świata opis sposobu reakcji świata na decyzje podejmowane przez algorytm Taktyka (ang. policy) funkcja/rozkład reprezentujący sposób podejmowania decyzji przez algorytm 4/29
10 Podstawowe pojęcia Algorytm (agent) uczenia z wzmocnieniem podczas swojego działania korzysta co najmniej z jednej z następujących informacji: Model świata opis sposobu reakcji świata na decyzje podejmowane przez algorytm Taktyka (ang. policy) funkcja/rozkład reprezentujący sposób podejmowania decyzji przez algorytm Funkcja oceny (ang. value function) funkcja oceniająca jak dobre są dany stan i/lub decyzja 4/29
11 Model świata Stan świata s t generowany jest z rozkładu zależnego od poprzedniego stanu i decyzji algorytmu s t+1 p(s t+1 s t, a t ) 5/29
12 Model świata Stan świata s t generowany jest z rozkładu zależnego od poprzedniego stanu i decyzji algorytmu s t+1 p(s t+1 s t, a t ) Nagroda (ang. reward) R t generowana jest z rozkładu zależnego od stanu i decyzji algorytmu R t+1 p(r t+1 s t, a t ) 5/29
13 Model świata Stan świata s t generowany jest z rozkładu zależnego od poprzedniego stanu i decyzji algorytmu s t+1 p(s t+1 s t, a t ) Nagroda (ang. reward) R t generowana jest z rozkładu zależnego od stanu i decyzji algorytmu R t+1 p(r t+1 s t, a t ) Świat modelujemy np. za pomocą tensorów/macierzy: P a ss = p(s t+1 = s s t = s, a t = a) R a s = E [R t+1 s t = s, a t = a] 5/29
14 Taktyka Taktyką π nazywamy rozkład decyzji warunkowany danym stanem świata: a t p(a t s t ) 6/29
15 Taktyka Taktyką π nazywamy rozkład decyzji warunkowany danym stanem świata: a t p(a t s t ) Taktykę możemy modelować np. za pomocą macierzy: π(a s) = p(a t = a s t = s) 6/29
16 Zwrot Zwrotem (ang. return) G t nazywamy całkowitą zdyskontowaną nagrodę w kroku t G t = R t+1 + γr t+2 + γ 2 R t = γ i R t+i+1 i=0 7/29
17 Zwrot Zwrotem (ang. return) G t nazywamy całkowitą zdyskontowaną nagrodę w kroku t G t = R t+1 + γr t+2 + γ 2 R t = γ i R t+i+1 i=0 Stopa dyskontowa (ang. discount) γ [0, 1] to procentowa bieżąca wartość przyszłych nagród 7/29
18 Zwrot Zwrotem (ang. return) G t nazywamy całkowitą zdyskontowaną nagrodę w kroku t G t = R t+1 + γr t+2 + γ 2 R t = γ i R t+i+1 i=0 Stopa dyskontowa (ang. discount) γ [0, 1] to procentowa bieżąca wartość przyszłych nagród γ blisko 0 zależy nam na krótkoterminowym zysku 7/29
19 Zwrot Zwrotem (ang. return) G t nazywamy całkowitą zdyskontowaną nagrodę w kroku t G t = R t+1 + γr t+2 + γ 2 R t = γ i R t+i+1 i=0 Stopa dyskontowa (ang. discount) γ [0, 1] to procentowa bieżąca wartość przyszłych nagród γ blisko 0 zależy nam na krótkoterminowym zysku γ blisko 1 zależy nam na odległych zyskach 7/29
20 Funkcja oceny Funkcją oceny stanu (ang. state-value function) nazywamy oczekiwany zwrot w danym stanie przy obraniu taktyki π: v π (s) = E π [G t s t = s] 8/29
21 Funkcja oceny Funkcją oceny stanu (ang. state-value function) nazywamy oczekiwany zwrot w danym stanie przy obraniu taktyki π: v π (s) = E π [G t s t = s] Funkcją oceny decyzji (ang. action-value function) nazywamy oczekiwany zwrot w danym stanie i przy danej decyzji, przy obraniu taktyki π: q π (s, a) = E π [G t s t = s, a t = a] 8/29
22 Proces Decyzyjny Markowa (MDP) Procesem Decyzyjnym Markowa (ang. Markov Decision Process) nazywamy piątkę S, A, P a ss, Ra s, γ 9/29
23 Proces Decyzyjny Markowa (MDP) Procesem Decyzyjnym Markowa (ang. Markov Decision Process) nazywamy piątkę S, A, P a ss, Ra s, γ S skończony zbiór stanów świata 9/29
24 Proces Decyzyjny Markowa (MDP) Procesem Decyzyjnym Markowa (ang. Markov Decision Process) nazywamy piątkę S, A, P a ss, Ra s, γ S skończony zbiór stanów świata A skończony zbiór decyzji 9/29
25 Proces Decyzyjny Markowa (MDP) Procesem Decyzyjnym Markowa (ang. Markov Decision Process) nazywamy piątkę S, A, P a ss, Ra s, γ S skończony zbiór stanów świata A skończony zbiór decyzji Pss a tensor prawdopodobieństw modelujący dynamikę świata 9/29
26 Proces Decyzyjny Markowa (MDP) Procesem Decyzyjnym Markowa (ang. Markov Decision Process) nazywamy piątkę S, A, P a ss, Ra s, γ S skończony zbiór stanów świata A skończony zbiór decyzji Pss a tensor prawdopodobieństw modelujący dynamikę świata R a s macierz nagród dla par stan-decyzja 9/29
27 Proces Decyzyjny Markowa (MDP) Procesem Decyzyjnym Markowa (ang. Markov Decision Process) nazywamy piątkę S, A, P a ss, Ra s, γ S skończony zbiór stanów świata A skończony zbiór decyzji Pss a tensor prawdopodobieństw modelujący dynamikę świata R a s macierz nagród dla par stan-decyzja γ stopa dyskontowa z przedziału [0, 1] 9/29
28 MDP przykład Zakładamy pewien model świata 10/29
29 MDP przykład Dla każdego stanu mamy zbiór dopuszczalnych decyzji 10/29
30 MDP przykład Zakładamy, że p(s t+1 = s s t = s, a t = a) {0, 1} 10/29
31 MDP przykład Zakładamy, że nagroda R t związana jest ze stanem 10/29
32 MDP przykład Możemy przyjąć pewną taktykę π(a s) 10/29
33 MDP przykład Jak policzyć funkcję oceny? 10/29
34 Równanie Bellmana Funkcja oceny stanu może być zdekomponowana na natychmiastową wypłatę i funkcję oceny w następnym stanie: [ v π (s) = E π Rt+1 + γr t+2 + γ 2 R t s t = s ] = E π [R t+1 + γv π (s t+1 ) s t = s] 11/29
35 Równanie Bellmana Funkcja oceny stanu może być zdekomponowana na natychmiastową wypłatę i funkcję oceny w następnym stanie: [ v π (s) = E π Rt+1 + γr t+2 + γ 2 R t s t = s ] = E π [R t+1 + γv π (s t+1 ) s t = s] Podobny wyrażenie zachodzi dla funkcji oceny decyzji: q π (s, a) = E π [R t+1 + γq π (s t+1, a t+1 ) s t = s, a t = a] 11/29
36 Równanie Bellmana (2) Zachodzi następująca zależność: v π (s) = E π [R t+1 + γv π (s t+1 ) s t = s] [ = π(a s) R a s + γ Pss a v π(s ) a s = π(a s)r a s +γ π(a s)pss a v π (s ) a }{{} s a }{{} R π (s) P π (s,s ) ] 12/29
37 Równanie Bellmana (2) Zachodzi następująca zależność: v π (s) = E π [R t+1 + γv π (s t+1 ) s t = s] [ = π(a s) R a s + γ Pss a v π(s ) a s = π(a s)r a s +γ π(a s)pss a v π (s ) a }{{} s a }{{} R π (s) P π (s,s ) Dostajemy następujące wektorowe równanie: v π = R π + γp π v π które ma analityczne rozwiązanie: v π = (I γp π ) 1 R π ] 12/29
38 Równanie Bellmana (3) Równanie możemy zapisać także w postaci: v π (s) = π(a s)pss a [Ra s + γv π (s )] a s = p(s, a s) [R a s + γv π (s )] a s = E s,a [R + γv π (s ) s] 13/29
39 Równanie Bellmana (3) Równanie możemy zapisać także w postaci: v π (s) = π(a s)pss a [Ra s + γv π (s )] a s = p(s, a s) [R a s + γv π (s )] a s = E s,a [R + γv π (s ) s] Podobnie dla funkcji oceny decyzji q: q π (s, a) = E s,a [R + γq π(s, a ) s, a] 13/29
40 MDP przykład (2) Funkcja oceny stanu v π dla γ = 0 14/29
41 MDP przykład (2) Funkcja oceny stanu v π dla γ = /29
42 MDP przykład (2) Funkcja oceny stanu v π dla γ = /29
43 MDP przykład (2) Funkcja oceny stanu v π dla γ = 1 14/29
44 Optymalna funkcja oceny Optymalną funkcją oceny stanu (ang. optimal state-value function) nazywamy maksimum z funkcji oceny stanu dla wszystkich taktyk π: v (s) = max v π (s) π 15/29
45 Optymalna funkcja oceny Optymalną funkcją oceny stanu (ang. optimal state-value function) nazywamy maksimum z funkcji oceny stanu dla wszystkich taktyk π: v (s) = max v π (s) π Optymalną funkcją oceny decyzji (ang. optimal action-value function) nazywamy maksimum z funkcji oceny decyzji dla wszystkich taktyk π: q (s, a) = max q π (s, a) π 15/29
46 Optymalna taktyka Dla każdego MDP istnieje optymalna taktyka (ang. optimal policy) π taka, że: v π (s) = v (s) q π (s, a) = q (s, a) 16/29
47 Optymalna taktyka Dla każdego MDP istnieje optymalna taktyka (ang. optimal policy) π taka, że: v π (s) = v (s) q π (s, a) = q (s, a) Gdy znamy wartości q (s, a) wtedy optymalna taktyka ma postać: 1 jeśli a = arg max a q (s, a) π (a s) = 0 w.p.p. 16/29
48 Równanie optymalności Bellmana Dla optymalnej funkcji oceny stanu zachodzi następująca rekurencja: v (s) = max a = max a q (s, a) [ R a s + γ s P a ss v (s ) = max E s [R a a s + γv (s ) s, a] ] 17/29
49 Równanie optymalności Bellmana Dla optymalnej funkcji oceny stanu zachodzi następująca rekurencja: v (s) = max a = max a q (s, a) [ R a s + γ s P a ss v (s ) = max E s [R a a s + γv (s ) s, a] ] Podobnie dla optymalnej funkcji oceny decyzji: q (s, a) = E s [ R a s + γ max a ] q (s, a ) s, a 17/29
50 MDP przykład (3) Optymalna funkcja oceny stanu v (s) dla γ = 1 18/29
51 MDP przykład (3) Optymalna taktyka π (a s) 18/29
52 Dwa fundamentalne problemy 1. Planowanie (ang. planning) Znany jest model świata Algorytm wykonuje obliczenia w oparciu o model Celem jest znalezienie optymalnej taktyki 19/29
53 Dwa fundamentalne problemy 1. Planowanie (ang. planning) Znany jest model świata Algorytm wykonuje obliczenia w oparciu o model Celem jest znalezienie optymalnej taktyki 2. Uczenie ze wzmocnieniem Nie znamy modelu świata Obliczenia w oparciu o obserwacje świata Celem jest znalezienie optymalnej taktyki 19/29
54 Podejścia do uczenia ze wzmocnieniem 1. Oparte na taktyce (ang. policy-based RL) Szukamy bezpośrednio optymalnej taktyki π (a s) 20/29
55 Podejścia do uczenia ze wzmocnieniem 1. Oparte na taktyce (ang. policy-based RL) Szukamy bezpośrednio optymalnej taktyki π (a s) 2. Oparte na funkcji oceny (ang. value-based RL) Estymujemy optymalną funkcję oceny akcji q (s, a) Na jej podstawie wyznaczamy optymalną taktykę 20/29
56 Podejścia do uczenia ze wzmocnieniem 1. Oparte na taktyce (ang. policy-based RL) Szukamy bezpośrednio optymalnej taktyki π (a s) 2. Oparte na funkcji oceny (ang. value-based RL) Estymujemy optymalną funkcję oceny akcji q (s, a) Na jej podstawie wyznaczamy optymalną taktykę 3. Oparte na modelu świata (ang. model-based RL) Uczymy się modelu świata Na jego podstawie robimy planowanie 20/29
57 Problemy wielkiej skali W praktycznych problemach przestrzeń S jest olbrzymia Warcaby: stanów Szachy: stanów Sterowanie robotem: ciągła przestrzeń stanów 21/29
58 Problemy wielkiej skali W praktycznych problemach przestrzeń S jest olbrzymia Warcaby: stanów Szachy: stanów Sterowanie robotem: ciągła przestrzeń stanów Nie jest wtedy możliwe modelowanie każdej kombinacji stanów i decyzji przy pomocy macierzy/tensorów 21/29
59 Problemy wielkiej skali W praktycznych problemach przestrzeń S jest olbrzymia Warcaby: stanów Szachy: stanów Sterowanie robotem: ciągła przestrzeń stanów Nie jest wtedy możliwe modelowanie każdej kombinacji stanów i decyzji przy pomocy macierzy/tensorów Trzeba zaproponować inne modele odpowiednio dla: taktyki, funkcji oceny lub modelu świata Modele liniowe Sieci neuronowe Procesy Gaussa Drzewa decyzyjne... 21/29
60 Aproksymacja funkcji oceny Zakładamy, że rzeczywistą (nieznaną) funkcję oceny decyzji przybliżamy modelem opisanym przez θ: q π (s, a) q(s, a; θ) 22/29
61 Aproksymacja funkcji oceny Zakładamy, że rzeczywistą (nieznaną) funkcję oceny decyzji przybliżamy modelem opisanym przez θ: q π (s, a) q(s, a; θ) Kryterium uczenia definiujemy jako błąd śreniokwadratowy: J(θ) = 1 2 E s,a [ (qπ (s, a) q(s, a; θ)) 2] 22/29
62 Aproksymacja funkcji oceny Zakładamy, że rzeczywistą (nieznaną) funkcję oceny decyzji przybliżamy modelem opisanym przez θ: q π (s, a) q(s, a; θ) Kryterium uczenia definiujemy jako błąd śreniokwadratowy: J(θ) = 1 2 E s,a [ (qπ (s, a) q(s, a; θ)) 2] Liczymy gradient kryterium uczenia: θ J(θ) = E s,a [(q π (s, a) q(s, a; θ)) θ q(s, a; θ)] 22/29
63 Aproksymacja gradientu Rzeczywistą q π (s, a) możemy przybliżyć na wiele sposobów. Tutaj skorzystamy z równań Bellmana. 23/29
64 Aproksymacja gradientu Rzeczywistą q π (s, a) możemy przybliżyć na wiele sposobów. Tutaj skorzystamy z równań Bellmana. Korzystając z równania Bellmana mamy: θ J(θ) = E s,a [(q π (s, a) q(s, a; θ)) θ q(s, a; θ)] = E s,a [(E s,a [R + γq π(s, a ) s, a] q(s, a; θ)) θ q(s, a; θ)] = E s,a,s,a [(R + γq π(s, a ) q(s, a; θ)) θ q(s, a; θ)] E s,a,s,a [(R + γq(s, a ; θ) q(s, a; θ)) θ q(s, a; θ)] 23/29
65 Aproksymacja gradientu Rzeczywistą q π (s, a) możemy przybliżyć na wiele sposobów. Tutaj skorzystamy z równań Bellmana. Korzystając z równania Bellmana mamy: θ J(θ) = E s,a [(q π (s, a) q(s, a; θ)) θ q(s, a; θ)] = E s,a [(E s,a [R + γq π(s, a ) s, a] q(s, a; θ)) θ q(s, a; θ)] = E s,a,s,a [(R + γq π(s, a ) q(s, a; θ)) θ q(s, a; θ)] E s,a,s,a [(R + γq(s, a ; θ) q(s, a; θ)) θ q(s, a; θ)] Alternatywnie korzystając z równania optymalności Bellmana mamy: [ ] θ J(θ) E s,a,s (R + γ max q(s, a ; θ) q(s, a; θ)) θ q(s, a; θ) a 23/29
66 Algorytm SARSA Algorytm SARSA korzysta z aproksymacji gradientu przy pomocy równania Bellmana 24/29
67 Algorytm SARSA Algorytm SARSA korzysta z aproksymacji gradientu przy pomocy równania Bellmana Do optymalizacji używamy algorytmu SGD, przybliżając wartość oczekiwaną pojedynczą próbką s, a, s, a : θ θ + η(r + γq(s, a ; θ) q(s, a; θ)) θ q(s, a; θ) 24/29
68 Algorytm SARSA Algorytm SARSA korzysta z aproksymacji gradientu przy pomocy równania Bellmana Do optymalizacji używamy algorytmu SGD, przybliżając wartość oczekiwaną pojedynczą próbką s, a, s, a : θ θ + η(r + γq(s, a ; θ) q(s, a; θ)) θ q(s, a; θ) Do generowania decyzji a, a stosuje się taktykę zachłanną albo ɛ-zachłanną (ang. ɛ-greedy): ɛ/m + 1 ɛ jeśli a = arg max a q(s, a; θ) π(a s) = ɛ/m w.p.p. 24/29
69 Algorytm SARSA Algorytm SARSA korzysta z aproksymacji gradientu przy pomocy równania Bellmana Do optymalizacji używamy algorytmu SGD, przybliżając wartość oczekiwaną pojedynczą próbką s, a, s, a : θ θ + η(r + γq(s, a ; θ) q(s, a; θ)) θ q(s, a; θ) Do generowania decyzji a, a stosuje się taktykę zachłanną albo ɛ-zachłanną (ang. ɛ-greedy): ɛ/m + 1 ɛ jeśli a = arg max a q(s, a; θ) π(a s) = ɛ/m w.p.p. Taktyka ɛ-zachłanna pozwala zachować balans między eksploracją i eksploatacją (ang. exploration exploitation trade-off ) 24/29
70 Algorytm Q-learning Algorytm Q-learning korzysta z aproksymacji gradientu przy pomocy równania optymalności Bellmana 25/29
71 Algorytm Q-learning Algorytm Q-learning korzysta z aproksymacji gradientu przy pomocy równania optymalności Bellmana Do optymalizacji używamy algorytmu SGD, przybliżając wartość oczekiwaną pojedynczą próbką s, a, s : θ θ + η(r + γ max a q(s, a ; θ) q(s, a; θ)) θ q(s, a; θ) 25/29
72 Algorytm Q-learning Algorytm Q-learning korzysta z aproksymacji gradientu przy pomocy równania optymalności Bellmana Do optymalizacji używamy algorytmu SGD, przybliżając wartość oczekiwaną pojedynczą próbką s, a, s : θ θ + η(r + γ max a q(s, a ; θ) q(s, a; θ)) θ q(s, a; θ) Do generowania decyzji a stosuje się taktykę ɛ-zachłanną (ang. ɛ-greedy): 25/29
73 Przykład - gry na Atari Mnih et al. Human-level control through deep reinforcement learning. Nature 518, , /29
74 Przykład (2) Zastosowano wersję algorytmu Q-learning. Jako model q(s, a; θ) użyto głęboką sieć konwolucyjną (ang. deep covolutional neural network). 27/29
75 Przykład (3) 28/29
76 Podsumowanie Połączenie algorytmów RL i modeli nieliniowych prowadzi często do problemów ze zbieżnością i/lub silnych oscylacji algorytmu uczącego. Wymaga to umiejętnej implementacji, w szczególności dekorelowania danych. 29/29
77 Podsumowanie Połączenie algorytmów RL i modeli nieliniowych prowadzi często do problemów ze zbieżnością i/lub silnych oscylacji algorytmu uczącego. Wymaga to umiejętnej implementacji, w szczególności dekorelowania danych. Rozwój technik uczenia ze wzmocnieniem jest kluczowym elementem do stworzenia sztucznej inteligencji. 29/29
Uczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Na podstawie: AIMA ch2 Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 20 listopada 203 Problem decyzyjny Markova 3 + 2 0.8 START 0. 0. 2 3 4 MDP bez modelu przejść
Uczenie ze wzmocnieniem aplikacje
Uczenie ze wzmocnieniem aplikacje Na podstawie: AIMA ch21 oraz Reinforcement Learning (Sutton i Barto) Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 22 maja 2013 Problem decyzyjny Markova
Uczenie ze wzmocnieniem aplikacje
Uczenie ze wzmocnieniem aplikacje Na podstawie: AIMA ch21 oraz Reinforcement Learning (Sutton i Barto) Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 23 maja 2014 Problem decyzyjny Markova
Systemy agentowe. Uczenie ze wzmocnieniem. Jędrzej Potoniec
Systemy agentowe Uczenie ze wzmocnieniem Jędrzej Potoniec Uczenie ze wzmocnieniem (ang. Reinforcement learning) dane Środowisko, w którym można wykonywać pewne akcje, które są nagradzane lub karane, ale
Uczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019 Temporal Difference learning Uczenie oparte na różnicach czasowych Problemy predykcyjne (wieloetapowe) droga do
Uczenie ze wzmocnieniem
Na podstawie: AIMA ch Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 6 maja 06 Na podstawie: AIMA ch Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 6 maja 06 3 START 3
Schemat programowania dynamicznego (ang. dynamic programming)
Schemat programowania dynamicznego (ang. dynamic programming) Jest jedną z metod rozwiązywania problemów optymalizacyjnych. Jej twórcą (1957) był amerykański matematyk Richard Ernest Bellman. Schemat ten
Problemy Decyzyjne Markowa
Problemy Decyzyjne Markowa na podstawie AIMA ch17 i slajdów S. Russel a Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 18 kwietnia 2013 Sekwencyjne problemy decyzyjne Cechy sekwencyjnego
Problemy Decyzyjne Markowa
na podstawie AIMA ch17 i slajdów S. Russel a Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 18 kwietnia 2015 na podstawie AIMA ch17 i slajdów S. Russel a Wojciech Jaśkowski Instytut Informatyki,
Uczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019 Przypomnienia (1) Do tych czas: stan X t u, gdzie u cel aktualizacji: MC : X t G t TD(0) : X y R t+1 + γˆv(x t,
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Aby mówić o procesie decyzyjnym Markowa musimy zdefiniować następujący zestaw (krotkę): gdzie:
Spis treści 1 Uczenie ze wzmocnieniem 2 Proces decyzyjny Markowa 3 Jak wyznaczyć optymalną strategię? 3.1 Algorytm iteracji funkcji wartościującej 3.2 Algorytm iteracji strategii 4 Estymowanie modelu dla
Uczenie ze wzmocnieniem
Na podstawie: AIMA ch Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 5 maja 04 Na podstawie: AIMA ch Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 5 maja 04 3 START 3
Uczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019 O projekcie nr 2 roboty (samochody, odkurzacze, drony,...) gry planszowe, sterowanie (optymalizacja; windy,..) optymalizacja
Podstawy Sztucznej Inteligencji (PSZT)
Podstawy Sztucznej Inteligencji (PSZT) Paweł Wawrzyński Uczenie maszynowe Sztuczne sieci neuronowe Plan na dziś Uczenie maszynowe Problem aproksymacji funkcji Sieci neuronowe PSZT, zima 2013, wykład 12
SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak
OpenAI Gym Adam Szczepaniak, Kamil Walkowiak Plan prezentacji Programowanie agentowe Uczenie przez wzmacnianie i problemy związane z rozwojem algorytmów Charakterystyka OpenAI Gym Biblioteka gym Podsumowanie
Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa
Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa Wojciech Niemiro 1 Uniwersytet Warszawski i UMK Toruń XXX lat IMSM, Warszawa, kwiecień 2017 1 Wspólne prace z Błażejem Miasojedowem,
ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH
Transport, studia I stopnia Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać ogólna równania nieliniowego Często występującym, ważnym problemem obliczeniowym
Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re
Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem
Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.
Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. zajecia.jakubw.pl/nai Literatura: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 997. PODSTAWOWE ZAGADNIENIA TECHNICZNE AI
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
Elementy inteligencji obliczeniowej
Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego
Programowanie dynamiczne. Tadeusz Trzaskalik
Programowanie dynamiczne Tadeusz Trzaskalik 9.. Wprowadzenie Słowa kluczowe Wieloetapowe procesy decyzyjne Zmienne stanu Zmienne decyzyjne Funkcje przejścia Korzyści (straty etapowe) Funkcja kryterium
Podstawowe modele probabilistyczne
Wrocław University of Technology Podstawowe modele probabilistyczne Maciej Zięba maciej.zieba@pwr.edu.pl Rozpoznawanie Obrazów, Lato 2018/2019 Pojęcie prawdopodobieństwa Prawdopodobieństwo reprezentuje
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017
Metody eksploracji danych 2. Metody regresji Piotr Szwed Katedra Informatyki Stosowanej AGH 2017 Zagadnienie regresji Dane: Zbiór uczący: D = {(x i, y i )} i=1,m Obserwacje: (x i, y i ), wektor cech x
Sztuczna inteligencja i uczenie maszynowe w robotyce i systemach autonomicznych: AI/ML w robotyce, robotyka w AI/ML
Sztuczna inteligencja i uczenie maszynowe w robotyce i systemach autonomicznych: AI/ML w robotyce, robotyka w AI/ML Piotr Skrzypczyński Instytut Automatyki, Robotyki i Inżynierii Informatycznej, Politechnika
KADD Minimalizacja funkcji
Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego
Aproksymacja. j<k. L 2 p[a, b] l 2 p,n X = Lemat 1. Wielomiany ortogonalne P 0,P 1,...,P n tworza przestrzeni liniowej Π n. Dowód.
Metody numeryczne Paweł Zieliński p. 1/19 Lemat 1. Wielomiany ortogonalne P 0,P 1,...,P n tworza bazę przestrzeni liniowej Π n. Dowód. Lemat 2. Dowolny wielomian Q j stopnia j niższego od k jest prostopadły
Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych
Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych mgr inż. C. Dendek prof. nzw. dr hab. J. Mańdziuk Politechnika Warszawska, Wydział Matematyki i Nauk Informacyjnych Outline 1 Uczenie
Wrocław University of Technology. Wprowadzenie cz. I. Adam Gonczarek. Rozpoznawanie Obrazów, Lato 2015/2016
Wrocław University of Technology Wprowadzenie cz. I Adam Gonczarek adam.gonczarek@pwr.edu.pl Rozpoznawanie Obrazów, Lato 2015/2016 ROZPOZNAWANIE OBRAZÓW / WZORCÓW Definicja z Wikipedii 2/39 ROZPOZNAWANIE
Metoda Monte Carlo. Jerzy Mycielski. grudzien Jerzy Mycielski () Metoda Monte Carlo grudzien / 10
Metoda Monte Carlo Jerzy Mycielski grudzien 2012 Jerzy Mycielski () Metoda Monte Carlo grudzien 2012 1 / 10 Przybliżanie całek Powiedzmy, że mamy do policzenia następującą całkę: b f (x) dx = I a Założmy,
IX. Rachunek różniczkowy funkcji wielu zmiennych. 1. Funkcja dwóch i trzech zmiennych - pojęcia podstawowe. - funkcja dwóch zmiennych,
IX. Rachunek różniczkowy funkcji wielu zmiennych. 1. Funkcja dwóch i trzech zmiennych - pojęcia podstawowe. Definicja 1.1. Niech D będzie podzbiorem przestrzeni R n, n 2. Odwzorowanie f : D R nazywamy
Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1
Normy wektorów i macierzy (5.3.1) Niech 1 X =[x x Y y =[y1 x n], oznaczają wektory przestrzeni R n, a yn] niech oznacza liczbę rzeczywistą. Wyrażenie x i p 5.3.1.a X p = p n i =1 nosi nazwę p-tej normy
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium Zadanie nr 3 Osada autor: A Gonczarek Celem poniższego zadania jest zrealizowanie fragmentu komputerowego przeciwnika w grze strategiczno-ekonomicznej
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych
1 Równania nieliniowe
1 Równania nieliniowe 1.1 Postać ogólna równania nieliniowego Często występującym, ważnym problemem obliczeniowym jest numeryczne poszukiwanie rozwiązań równań nieliniowych, np. algebraicznych (wielomiany),
Uczenie sieci typu MLP
Uczenie sieci typu MLP Przypomnienie budowa sieci typu MLP Przypomnienie budowy neuronu Neuron ze skokową funkcją aktywacji jest zły!!! Powszechnie stosuje -> modele z sigmoidalną funkcją aktywacji - współczynnik
Z52: Algebra liniowa Zagadnienie: Zastosowania algebry liniowej Zadanie: Operatory różniczkowania, zagadnienie brzegowe.
Z5: Algebra liniowa Zagadnienie: Zastosowania algebry liniowej Zadanie: Operatory różniczkowania zagadnienie brzegowe Dyskretne operatory różniczkowania Numeryczne obliczanie pochodnych oraz rozwiązywanie
Metody probabilistyczne klasyfikatory bayesowskie
Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin
Sztuczna inteligencja
Wstęp do Robotyki c W. Szynkiewicz, 2009 1 Sztuczna inteligencja Inteligencja to zdolność uczenia się i rozwiązywania problemów Główne działy sztucznej inteligencji: 1. Wnioskowanie: Wykorzystanie logiki
WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska
Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):
ZASTOSOWANIE ZASADY MAKSIMUM PONTRIAGINA DO ZAGADNIENIA
ZASTOSOWANIE ZASADY MAKSIMUM PONTRIAGINA DO ZAGADNIENIA DYNAMICZNYCH LOKAT KAPITAŁOWYCH Krzysztof Gąsior Uniwersytet Rzeszowski Streszczenie Celem referatu jest zaprezentowanie praktycznego zastosowania
Sztuczna Inteligencja Tematy projektów Sieci Neuronowe
PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia
Zastosowania sieci neuronowych
Zastosowania sieci neuronowych aproksymacja LABORKA Piotr Ciskowski zadanie 1. aproksymacja funkcji odległość punktów źródło: Żurada i in. Sztuczne sieci neuronowe, przykład 4.4, str. 137 Naucz sieć taką
Wprowadzenie Metoda bisekcji Metoda regula falsi Metoda siecznych Metoda stycznych RÓWNANIA NIELINIOWE
Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać ogólna równania nieliniowego Zazwyczaj nie można znaleźć
SPOTKANIE 2: Wprowadzenie cz. I
Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW
Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,
Optymalizacja systemów
Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji
Laboratorium 5 Przybliżone metody rozwiązywania równań nieliniowych
Uniwersytet Zielonogórski Wydział Informatyki, Elektrotechniki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych Elektrotechnika niestacjonarne-zaoczne pierwszego stopnia z tyt. inżyniera
WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH
WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH Dobrze przygotowane sprawozdanie powinno zawierać następujące elementy: 1. Krótki wstęp - maksymalnie pół strony. W krótki i zwięzły
Elementy modelowania matematycznego
Elementy modelowania matematycznego Łańcuchy Markowa: zagadnienia graniczne. Ukryte modele Markowa. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ KLASYFIKACJA STANÓW Stan i jest osiągalny
WYKŁAD 9 METODY ZMIENNEJ METRYKI
WYKŁAD 9 METODY ZMIENNEJ METRYKI Kierunki sprzężone. Metoda Newtona Raphsona daje dobre przybliżenie najlepszego kierunku poszukiwań, lecz jest to okupione znacznym kosztem obliczeniowym zwykle postać
Optymalizacja ciągła
Optymalizacja ciągła 5. Metody kierunków poparwy (metoda Newtona-Raphsona, metoda gradientów sprzężonych) Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 28.03.2019 1
I. KARTA PRZEDMIOTU CEL PRZEDMIOTU
I. KARTA PRZEDMIOTU 1. Nazwa przedmiotu: SYSTEMY WSPOMAGANIA DECYZJI. Kod przedmiotu: Ecs 3. Jednostka prowadząca: Wydział Mechaniczno-Elektryczny. Kierunek: Mechatronika 5. Specjalność: Techniki Komputerowe
Interpolacja, aproksymacja całkowanie. Interpolacja Krzywa przechodzi przez punkty kontrolne
Interpolacja, aproksymacja całkowanie Interpolacja Krzywa przechodzi przez punkty kontrolne Aproksymacja Punkty kontrolne jedynie sterują kształtem krzywej INTERPOLACJA Zagadnienie interpolacji można sformułować
11. 11. OPTYMALIZACJA KONSTRUKCJI
11. OPTYMALIZACJA KONSTRUKCJI 1 11. 11. OPTYMALIZACJA KONSTRUKCJI 11.1. Wprowadzenie 1. Optymalizacja potocznie i matematycznie 2. Przykład 3. Kryterium optymalizacji 4. Ograniczenia w zadaniach optymalizacji
doc. dr Beata Pułska-Turyna Zarządzanie B506 mail: mgr Piotr J. Gadecki Zakład Badań Operacyjnych Zarządzania B 505.
doc. dr Beata Pułska-Turyna Zakład Badań Operacyjnych Zarządzanie B506 mail: turynab@wz.uw.edu.pl mgr Piotr J. Gadecki Zakład Badań Operacyjnych Zarządzania B 505. Tel.: (22)55 34 144 Mail: student@pgadecki.pl
WIELOKRYTERIALNE PORZĄDKOWANIE METODĄ PROMETHEE ODPORNE NA ZMIANY WAG KRYTERIÓW
Uniwersytet Ekonomiczny we Wrocławiu WIELOKRYTERIALNE PORZĄDKOWANIE METODĄ PROMETHEE ODPORNE NA ZMIANY WAG KRYTERIÓW Wprowadzenie Wrażliwość wyników analizy wielokryterialnej na zmiany wag kryteriów, przy
Rozkład normalny, niepewność standardowa typu A
Podstawy Metrologii i Technik Eksperymentu Laboratorium Rozkład normalny, niepewność standardowa typu A Instrukcja do ćwiczenia nr 1 Zakład Miernictwa i Ochrony Atmosfery Wrocław, listopad 2010 r. Podstawy
5.1 Stopa Inflacji - Dyskonto odpowiadające sile nabywczej
5.1 Stopa Inflacji - Dyskonto odpowiadające sile nabywczej Stopa inflacji, i, mierzy jak szybko ceny się zmieniają jako zmianę procentową w skali rocznej. Oblicza się ją za pomocą średniej ważonej cząstkowych
Matematyka bankowa 1 1 wykład
Matematyka bankowa 1 1 wykład Dorota Klim Department of Nonlinear Analysis, Faculty of Mathematics and Computer Science, University of Łódź, Banacha 22, 90-238 Łódź, Poland E-mail address: klimdr@math.uni.ldz.pl
Rozdział 1 PROGRAMOWANIE LINIOWE
Wprowadzenie do badań operacyjnych z komputerem Opisy programów, ćwiczenia komputerowe i zadania. T. Trzaskalik (red.) Rozdział 1 PROGRAMOWANIE LINIOWE 1.2 Ćwiczenia komputerowe Ćwiczenie 1.1 Wykorzystując
10. Wstęp do Teorii Gier
10. Wstęp do Teorii Gier Definicja Gry Matematycznej Gra matematyczna spełnia następujące warunki: a) Jest co najmniej dwóch racjonalnych graczy. b) Zbiór możliwych dezycji każdego gracza zawiera co najmniej
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym
PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE
D: PROBLEM: SORTOWANIE PRZEZ ODWRÓCENIA METODA: ALGORYTMY ZACHŁANNE I. Strategia zachłanna II. Problem przetasowań w genomie III. Sortowanie przez odwrócenia IV. Algorytmy przybliżone V. Algorytm zachłanny
Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych
Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych Mateusz Kobos, 07.04.2010 Seminarium Metody Inteligencji Obliczeniowej Spis treści Opis algorytmu i zbioru
Rozwiązywanie równań nieliniowych
Rozwiązywanie równań nieliniowych Marcin Orchel 1 Wstęp Przykłady wyznaczania miejsc zerowych funkcji f : f(ξ) = 0. Wyszukiwanie miejsc zerowych wielomianu n-tego stopnia. Wymiar tej przestrzeni wektorowej
Fuzja sygnałów i filtry bayesowskie
Fuzja sygnałów i filtry bayesowskie Roboty Manipulacyjne i Mobilne dr inż. Janusz Jakubiak Katedra Cybernetyki i Robotyki Wydział Elektroniki, Politechnika Wrocławska Wrocław, 10.03.2015 Dlaczego potrzebna
1. Podstawowe pojęcia
1. Podstawowe pojęcia Sterowanie optymalne obiektu polega na znajdowaniu najkorzystniejszej decyzji dotyczącej zamierzonego wpływu na obiekt przy zadanych ograniczeniach. Niech dany jest obiekt opisany
Wrocław University of Technology. Uczenie głębokie. Maciej Zięba
Wrocław University of Technology Uczenie głębokie Maciej Zięba UCZENIE GŁĘBOKIE (ang. deep learning) = klasa metod uczenia maszynowego, gdzie model ma strukturę hierarchiczną złożoną z wielu nieliniowych
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 autorzy: A. Gonczarek, J.M. Tomczak Zbiory i funkcje wypukłe Zad. 1 Pokazać, że następujące zbiory są wypukłe: a) płaszczyzna S = {x
Matematyka stosowana i metody numeryczne
Ewa Pabisek Adam Wosatko Piotr Pluciński Matematyka stosowana i metody numeryczne Konspekt z wykładu 6 Rozwiązywanie równań nieliniowych Rozwiązaniem lub pierwiastkiem równania f(x) = 0 lub g(x) = h(x)
Rys Wykres kosztów skrócenia pojedynczej czynności. k 2. Δk 2. k 1 pp. Δk 1 T M T B T A
Ostatnim elementem przykładu jest określenie związku pomiędzy czasem trwania robót na planowanym obiekcie a kosztem jego wykonania. Związek ten określa wzrost kosztów wykonania realizacji całego przedsięwzięcia
Instytut Konstrukcji i Eksploatacji Maszyn Katedra Logistyki i Systemów Transportowych. Badania operacyjne. Dr inż.
Instytut Konstrukcji i Eksploatacji Maszyn Katedra Logistyki i Systemów Transportowych Badania operacyjne Dr inż. Artur KIERZKOWSKI Wprowadzenie Badania operacyjne związana jest ściśle z teorią podejmowania
System bonus-malus z mechanizmem korekty składki
System bonus-malus z mechanizmem korekty składki mgr Kamil Gala Ubezpieczeniowy Fundusz Gwarancyjny dr hab. Wojciech Bijak, prof. SGH Ubezpieczeniowy Fundusz Gwarancyjny, Szkoła Główna Handlowa Zagadnienia
Stanisław Cichocki. Natalia Nehrebecka. Wykład 9
Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności
Modele i narzędzia optymalizacji w systemach informatycznych zarządzania
Politechnika Poznańska Modele i narzędzia optymalizacji w systemach informatycznych zarządzania Joanna Józefowska POZNAŃ 2010/11 Spis treści Rozdział 1. Metoda programowania dynamicznego........... 5
Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K
Algorytmy ewolucyjne optymalizacji wielokryterialnej sterowane preferencjami decydenta
Algorytmy ewolucyjne optymalizacji wielokryterialnej sterowane preferencjami decydenta Dr Janusz Miroforidis MGI Metro Group Information Technology Polska Sp. z o.o. listopad 2010 Wprowadzenie Plan prezentacji
Kolokwium ze statystyki matematycznej
Kolokwium ze statystyki matematycznej 28.05.2011 Zadanie 1 Niech X będzie zmienną losową z rozkładu o gęstości dla, gdzie 0 jest nieznanym parametrem. Na podstawie pojedynczej obserwacji weryfikujemy hipotezę
Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I
Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:
Optymalizacja ciągła
Optymalizacja ciągła 1. Optymalizacja funkcji jednej zmiennej Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 28.02.2019 1 / 54 Plan wykładu Optymalizacja funkcji jednej
Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015
Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015 1 Metody numeryczne Dział matematyki Metody rozwiązywania problemów matematycznych za pomocą operacji na liczbach. Otrzymywane
Rozwiązywanie układów równań liniowych
Rozwiązywanie układów równań liniowych Marcin Orchel 1 Wstęp Jeśli znamy macierz odwrotną A 1, to możęmy znaleźć rozwiązanie układu Ax = b w wyniku mnożenia x = A 1 b (1) 1.1 Metoda eliminacji Gaussa Pierwszy
Ekonometria - ćwiczenia 10
Ekonometria - ćwiczenia 10 Mateusz Myśliwski Zakład Ekonometrii Stosowanej Instytut Ekonometrii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa 14 grudnia 2012 Wprowadzenie Optymalizacja liniowa Na
Wokół wyszukiwarek internetowych
Wokół wyszukiwarek internetowych Bartosz Makuracki 23 stycznia 2014 Przypomnienie Wzór x 1 = 1 d N x 2 = 1 d N + d N i=1 p 1,i x i + d N i=1 p 2,i x i. x N = 1 d N + d N i=1 p N,i x i Oznaczenia Gdzie:
1 Metody rozwiązywania równań nieliniowych. Postawienie problemu
1 Metody rozwiązywania równań nieliniowych. Postawienie problemu Dla danej funkcji ciągłej f znaleźć wartości x, dla których f(x) = 0. (1) 2 Przedział izolacji pierwiastka Będziemy zakładać, że równanie
Programowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
Egzamin z Metod Numerycznych ZSI, Grupa: A
Egzamin z Metod Numerycznych ZSI, 06.2005. Grupa: A Nazwisko: Imię: Numer indeksu: Ćwiczenia z: Data: Część 1. Test wyboru, max 36 pkt Zaznacz prawidziwe odpowiedzi literą T, a fałszywe N. Każda prawidłowa
Matematyka ubezpieczeń majątkowych r.
Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka
Teoria gier. wstęp. 2011-12-07 Teoria gier Zdzisław Dzedzej 1
Teoria gier wstęp 2011-12-07 Teoria gier Zdzisław Dzedzej 1 Teoria gier zajmuje się logiczną analizą sytuacji, gdzie występują konflikty interesów, a także istnieje możliwość kooperacji. Zakładamy zwykle,
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Wyprowadzenie prawa Gaussa z prawa Coulomba
Wyprowadzenie prawa Gaussa z prawa Coulomba Natężenie pola elektrycznego ładunku punktowego q, umieszczonego w początku układu współrzędnych (czyli prawo Coulomba): E = Otoczmy ten ładunek dowolną powierzchnią