Uczenie ze wzmocnieniem
|
|
- Laura Kowalczyk
- 4 lat temu
- Przeglądów:
Transkrypt
1 Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych
2 Temporal Difference learning Uczenie oparte na różnicach czasowych Problemy predykcyjne (wieloetapowe) droga do domy, wakacje... TD MC + DP MC i TD oparte na doświadczeniu, MC generuje predykcje wartości V π dla stanu nieterminalnego X t na końcu epizodu, TD na następnym kroku MC metoda pierwszej wizyty (constant-α MC, α parametr kroku): V (X t ) V (X t ) + α [G t V (X t )] (1) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
3 Temporal Difference learning Uczenie oparte na różnicach czasowych Problemy predykcyjne (wieloetapowe) droga do domy, wakacje... TD MC + DP MC i TD oparte na doświadczeniu, MC generuje predykcje wartości V π dla stanu nieterminalnego X t na końcu epizodu, TD na następnym kroku MC metoda pierwszej wizyty (constant-α MC, α parametr kroku): V (X t ) V (X t ) + α [G t V (X t )] (1) algorytm TD (metoda TD(0); update wykonywany natychmiast po przejściu do stanu X t+1 i otrzymaniu nagrody R t+1 ): V (X t ) V (X t ) + α [R t+1 + γv (X t+1 ) V (X t )] (2) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
4 input π policy to be evaluated; initialization V (x) arbitrary (e.g. V (x) = 0 x X + ) ; Repeat (for each step of episode) A action given by π for X; Take action A, observe R, X ; X X ; until X is terminal V (X) V (x) + α [ R + γv (X ) V (X) ] Algorithm 1: TD(0) do estymacji V π Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
5 input π policy to be evaluated; initialization V (x) arbitrary (e.g. V (x) = 0 x X + ) ; Repeat (for each step of episode) A action given by π for X; Take action A, observe R, X ; X X ; until X is terminal V (X) V (x) + α [ R + γv (X ) V (X) ] Algorithm 2: TD(0) do estymacji V π V π =E π [G t X t = x] = (3) =E π [R t+1 + γg t+1 X t = x] = =E π [R t+1 + γv π (X t+1 ) X t = x] (4) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
6 TD-błąd TD błąd (TD error) : δ t = R t+1 + γv (X t+1 ) V (X t ) (5) błąd jest obliczany natychmiastowo po wykonaniu następnego kroku błąd V (X t ), obliczany w moment czasu t + 1 jeżeli V się nie zmienia w trakcie epizodu, to G t V (X t ) =R t+1 + γg t+1 V (X t ) + γv (X t+1 ) γv (X t+1 ) = =δ t + γ(g t+1 V (X t+1 )) = =δ t + γδ t+1 + γ 2 (G t+2 V (X t+2 )) = =δ t + γδ t+1 + γ 2 δ t γ T t (G T V (X T )) = T 1 = k=t γ k t δ k (6) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
7 Podróż do domu Stan Ile czasu upłynęło Przewidywany czas do celu Oczekiwany czas (całkowity) wyjście z MiNI, 18: dojście do samochodu (windy!+ deszcz) przejazd do zjazdu na wał M przejazd w. M.(korki) zjazd z w.m dojazd do domu Nagroda ile czasu upłynęło. Jeżeli γ = 1 dochód w każdym stanie to rzeczywisty czas do przejazdu, zaczynając z tego stanu. Wartość stanów to przewidywany czas do celu (rysunek). Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
8 Przykład Losowy spacer Stany A, B, C, D, E Dwa stany terminalne (z lewej od A i z prawej od E) Nagrody dla wszystkich przejść równe 0, poza przejściem z E do prawego terminalnego stanu (=1) start zawsze w C γ = 1 V π (C) =?? aria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
9 Przykład Losowy spacer Stany A, B, C, D, E Dwa stany terminalne (z lewej od A i z prawej od E) Nagrody dla wszystkich przejść równe 0, poza przejściem z E do prawego terminalnego stanu (=1) start zawsze w C γ = 1 V π (C) =?? V π (A/B/D/E) =?? Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
10 Optymalność TD(0) Załóżmy, że mamy tylko ograniczoną ilość eksperymentów (10 epizodów, lub 100 kroków) powtarzać obliczania na epizodach póki metoda nie zbiegnie się do odpowiedzi 1 poprawki, opisane w (1) lub (2), są obliczane dla każdego t dla każdego odwiedzanego nie-terminalnego stanu, ale funkcja wartości stanu zmieniana tylko raz, sumując wszystkie przyrosty 2 powtarzamy krok 1 dla nowej funkcji wartości... 3 zbieżność metoda batch updating (metoda wsadowa???) zbieżna do rozwiązanie niezależnie od parametru kroku (step-size parameter) α, gdzie α jest wystarczająco małe constant-α MC również zbiega się (przy tych samych warunkach), ale do innego rozwiązania różnica pomiędzy tymi dwoma rozwiązaniami? Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
11 Przykład: spacer losowy przy metodzie wsadowej stosujemy metody wsadową w przypadku TD(0) i MC ze stałą α Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
12 Przykład: wieszcz Numer epizodu Epizod 1 A,0,B,0 2 B,1 3 B,1 4 B,1 5 B,1 6 B,1 7 B,1 8 B,0 Jak ma wyglądać model środowiska? V(B) =?? wartość optymalna dla V(A)?? Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
13 Sarsa: on-policy TD sterowanie (control) SARSA State-Action-Reward-State-Action eksploracja vs eksploatacja funkcja wartości akcji (action-value function) Q π (x, a) X t, A t, R t+1, X t+1, A t+1,r t+2,... po każdym przejściu (jeżeli X t+1 terminalny, to Q(X t+1, A t+1 ) = 0): Q(X t, A t ) Q(X t, A t ) + α [R t+1 + γq(x t+1, A t+1 ) Q(X t, A t )] Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
14 initialization Q(x, a) arbitrary x X and a A(x) ; Q(terminalState; ) = 0 Repeat (for each episode) Inititalize X; choose A from X using policy derived from Q (e.g., ɛ-greedy); Repeat (for each step of episode); Take action A, observe R and X ; choose A from X, using policy derived from Q (e.g. ɛ-greedy) ; Q(X, A) Q(X, A) + α [R + γq(x, A ) Q(X, A)]; X X ; A A ; until X is terminal; Algorithm 3: Algorytm Sarsa do oceny Q Q Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
15 Algorytm Q-learning Off-policy TD control Definicja Q-learning: [ Q(X t, A t ) Q(X t, A t ) + α R t+1 + γ max a ] Q(X t+1, a) Q(X t, A t ) (7) podkręca zbieżność polityka ma znaczenie (wciąż!) z prawdopodobieństwem 1 zbiega się do Q Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
16 initialization Q(x, a) arbitrary x X and a A(x) ; Q(terminalState; ) = 0 Repeat (for each episode) Inititalize X; Repeat (for each step of episode): choose A from X using policy derived from Q (e.g., ɛ-greedy); Take action A, observe R and X ; Q(X, A) Q(X, A) + α [R + γ max a Q(X, a) Q(X, A)]; X X ; until X is terminal; Algorithm 4: Algorytm Q-learning do oceny π π Example Cliff walking Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
17 Maximization Bias and Double Learning Przykład: dwa stany nie-terminalne A i B, 2 akcje lewo i prawo. (A,prawo) stan terminalny, r = 0 (A,lewo) = B, r=0 (B,lewo) wielu scieżek do stanu terminalnego, r = N( 0.1, 1) Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
18 Maximization Bias and Double Learning case 1: Przykład: dwa stany nie-terminalne A i B, 2 akcje lewo i prawo. (A,prawo) stan terminalny, r = 0 (A,lewo) = B, r=0 (B,lewo) wielu scieżek do stanu terminalnego, r = N( 0.1, 1) Q 1 (X t, A t ) Q 1 (X t, A t ) + α[r t+1 + case 2: Q 1 i Q 2 zamienić miejscami + γq 2 (X t+1, arg max Q 1 (X t+1, a)) Q 1 (X t, A t )] a Maria Ganzha (Wydział Matematyki i Nauk Informatycznych) Uczenie ze wzmocnieniem / 14
Uczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019 O projekcie nr 2 roboty (samochody, odkurzacze, drony,...) gry planszowe, sterowanie (optymalizacja; windy,..) optymalizacja
Bardziej szczegółowoUczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Maria Ganzha Wydział Matematyki i Nauk Informatycznych 2018-2019 Przypomnienia (1) Do tych czas: stan X t u, gdzie u cel aktualizacji: MC : X t G t TD(0) : X y R t+1 + γˆv(x t,
Bardziej szczegółowoSPOTKANIE 11: Reinforcement learning
Wrocław University of Technology SPOTKANIE 11: Reinforcement learning Adam Gonczarek Studenckie Koło Naukowe Estymator adam.gonczarek@pwr.edu.pl 19.01.2016 Uczenie z nadzorem (ang. supervised learning)
Bardziej szczegółowoUczenie ze wzmocnieniem
Na podstawie: AIMA ch Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 6 maja 06 Na podstawie: AIMA ch Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 6 maja 06 3 START 3
Bardziej szczegółowoUczenie ze wzmocnieniem
Uczenie ze wzmocnieniem Na podstawie: AIMA ch2 Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 20 listopada 203 Problem decyzyjny Markova 3 + 2 0.8 START 0. 0. 2 3 4 MDP bez modelu przejść
Bardziej szczegółowoProblemy Decyzyjne Markowa
Problemy Decyzyjne Markowa na podstawie AIMA ch17 i slajdów S. Russel a Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 18 kwietnia 2013 Sekwencyjne problemy decyzyjne Cechy sekwencyjnego
Bardziej szczegółowoSystemy agentowe. Uczenie ze wzmocnieniem. Jędrzej Potoniec
Systemy agentowe Uczenie ze wzmocnieniem Jędrzej Potoniec Uczenie ze wzmocnieniem (ang. Reinforcement learning) dane Środowisko, w którym można wykonywać pewne akcje, które są nagradzane lub karane, ale
Bardziej szczegółowoUczenie ze wzmocnieniem
Na podstawie: AIMA ch Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 5 maja 04 Na podstawie: AIMA ch Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 5 maja 04 3 START 3
Bardziej szczegółowoProblemy Decyzyjne Markowa
na podstawie AIMA ch17 i slajdów S. Russel a Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 18 kwietnia 2015 na podstawie AIMA ch17 i slajdów S. Russel a Wojciech Jaśkowski Instytut Informatyki,
Bardziej szczegółowoAlgorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa
Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa Wojciech Niemiro 1 Uniwersytet Warszawski i UMK Toruń XXX lat IMSM, Warszawa, kwiecień 2017 1 Wspólne prace z Błażejem Miasojedowem,
Bardziej szczegółowo3.4. Przekształcenia gramatyk bezkontekstowych
3.4. Przekształcenia gramatyk bezkontekstowych Definicje Niech będzie dana gramatyka bezkontekstowa G = G BK Symbol X (N T) nazywamy nieużytecznym w G G BK jeśli nie można w tej gramatyce
Bardziej szczegółowoGeneratory analizatorów
Generatory analizatorów Generator analizatora leksykalnego flex ( http://www.gnu.org/software/flex/ ) Generator analizatora składniowego bison ( http://www.gnu.org/software/bison/ ) Idea ogólna Opis atomów
Bardziej szczegółowoUczenie ze wzmocnieniem aplikacje
Uczenie ze wzmocnieniem aplikacje Na podstawie: AIMA ch21 oraz Reinforcement Learning (Sutton i Barto) Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 22 maja 2013 Problem decyzyjny Markova
Bardziej szczegółowoUczenie ze wzmocnieniem aplikacje
Uczenie ze wzmocnieniem aplikacje Na podstawie: AIMA ch21 oraz Reinforcement Learning (Sutton i Barto) Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 23 maja 2014 Problem decyzyjny Markova
Bardziej szczegółowoMetody Kompilacji Wykład 7 Analiza Syntaktyczna
Metody Kompilacji Wykład 7 Analiza Syntaktyczna Parsowanie Parsowanie jest to proces określenia jak ciąg terminali może być generowany przez gramatykę. Włodzimierz Bielecki WI ZUT 2/57 Parsowanie Dla każdej
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
Bardziej szczegółowoZASTOSOWANIE ALGORYTMÓW UCZENIA SIĘ ZE WZMOCNIENIEM WE WSPOMAGANIU PROCESÓW PODEJMOWANIA DECYZJI PODCZAS MANEWROWANIA STATKIEM
PRACE WYDZIAŁU NAWIGACYJNEGO nr 22 AKADEMII MORSKIEJ W GDYNI 2008 MIROSŁAW ŁĄCKI Akademia Morska w Gdyni Katedra Nawigacji ZASTOSOWANIE ALGORYTMÓW UCZENIA SIĘ ZE WZMOCNIENIEM WE WSPOMAGANIU PROCESÓW PODEJMOWANIA
Bardziej szczegółowoRodzinę F złożoną z podzbiorów zbioru X będziemy nazywali ciałem zbiorów, gdy spełnione są dwa następujące warunki.
3. Funkcje borelowskie. Rodzinę F złożoną z podzbiorów zbioru X będziemy nazywali ciałem zbiorów, gdy spełnione są dwa następujące warunki. (1): Jeśli zbiór Y należy do rodziny F, to jego dopełnienie X
Bardziej szczegółowoOptymalizacja. Przeszukiwanie lokalne
dr hab. inż. Instytut Informatyki Politechnika Poznańska www.cs.put.poznan.pl/mkomosinski, Maciej Hapke Idea sąsiedztwa Definicja sąsiedztwa x S zbiór N(x) S rozwiązań, które leżą blisko rozwiązania x
Bardziej szczegółowoMetody Kompilacji Wykład 8 Analiza Syntaktyczna cd. Włodzimierz Bielecki WI ZUT
Metody Kompilacji Wykład 8 Analiza Syntaktyczna cd Analiza Syntaktyczna Wstęp Parser dostaje na wejściu ciąg tokenów od analizatora leksykalnego i sprawdza: czy ciąg ten może być generowany przez gramatykę.
Bardziej szczegółowoTTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction
TTIC 31210: Advanced Natural Language Processing Kevin Gimpel Spring 2019 Lecture 9: Inference in Structured Prediction 1 intro (1 lecture) Roadmap deep learning for NLP (5 lectures) structured prediction
Bardziej szczegółowoProjektowanie Scalonych Systemów Wbudowanych VERILOG
Projektowanie Scalonych Systemów Wbudowanych VERILOG OPIS BEHAWIORALNY proces Proces wątek sterowania lub przetwarzania danych, niezależny w sensie czasu wykonania, ale komunikujący się z innymi procesami.
Bardziej szczegółowoWykład 6. Wyszukiwanie wzorca w tekście
Wykład 6 Wyszukiwanie wzorca w tekście 1 Wyszukiwanie wzorca (przegląd) Porównywanie łańcuchów Algorytm podstawowy siłowy (naive algorithm) Jak go zrealizować? Algorytm Rabina-Karpa Inteligentne wykorzystanie
Bardziej szczegółowoSztuczna Inteligencja i Systemy Doradcze
Sztuczna Inteligencja i Systemy Doradcze Przeszukiwanie przestrzeni stanów algorytmy ślepe Przeszukiwanie przestrzeni stanów algorytmy ślepe 1 Strategie slepe Strategie ślepe korzystają z informacji dostępnej
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 3 Regresja logistyczna autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest zaimplementowanie modelu
Bardziej szczegółowoZastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym
Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym Jan Karwowski Wydział Matematyki i Nauk Informacyjnych PW 17 XII 2013 Jan Karwowski
Bardziej szczegółowoAlgorytm Grovera. Kwantowe przeszukiwanie zbiorów. Robert Nowotniak
Wydział Fizyki Technicznej, Informatyki i Matematyki Stosowanej Politechnika Łódzka 13 listopada 2007 Plan wystapienia 1 Informatyka Kwantowa podstawy 2 Opis problemu (przeszukiwanie zbioru) 3 Intuicyjna
Bardziej szczegółowoAlgorytmiczne Aspekty Teorii Gier Rozwiązania zadań
Algorytmiczne Aspekty Teorii Gier Rozwiązania zadań Bartosz Gęza 19/06/2009 Zadanie 2. (gra symetryczna o sumie zerowej) Profil prawdopodobieństwa jednorodnego nie musi być punktem równowagi Nasha. Przykładem
Bardziej szczegółowoProjektowanie systemów pomiarowych. 02 Dokładność pomiarów
Projektowanie systemów pomiarowych 02 Dokładność pomiarów 1 www.technidyneblog.com 2 Jak dokładnie wykonaliśmy pomiar? Czy duża / wysoka dokładność jest zawsze konieczna? www.sparkfun.com 3 Błąd pomiaru.
Bardziej szczegółowoJęzyki formalne i automaty Ćwiczenia 3
Języki formalne i automaty Ćwiczenia 3 Autor: Marcin Orchel Spis treści Spis treści... 1 Wstęp teoretyczny... 2 Algorytm LL(1)... 2 Definicja zbiorów FIRST1 i FOLLOW1... 3 Konstrukcja tabeli parsowania
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 3 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba Cel zadania Celem zadania jest zaimplementowanie algorytmów
Bardziej szczegółowoAlgorytmy mrówkowe. H. Bednarz. Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Inteligentne systemy informatyczne
Algorytmy mrówkowe H. Bednarz Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Inteligentne systemy informatyczne 13 kwietnia 2015 1 2 3 4 Przestrzeń poszukiwań Ograniczenia
Bardziej szczegółowoSieci M. I. Jordana. Sieci rekurencyjne z parametrycznym biasem. Leszek Rybicki. 30 listopada Leszek Rybicki Sieci M. I.
Sieci M. I. Jordana Sieci rekurencyjne z parametrycznym biasem Leszek Rybicki 30 listopada 2007 Leszek Rybicki Sieci M. I. Jordana 1/21 Plan O czym będzie 1 Wstęp do sieci neuronowych Neurony i perceptrony
Bardziej szczegółowoOptymalizacja ciągła
Optymalizacja ciągła 1. Optymalizacja funkcji jednej zmiennej Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 28.02.2019 1 / 54 Plan wykładu Optymalizacja funkcji jednej
Bardziej szczegółowoCLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Bardziej szczegółowoĆwiczenie 3. Iteracja, proste metody obliczeniowe
Ćwiczenie 3. Iteracja, proste metody obliczeniowe Instrukcja iteracyjna ( pętla liczona ) Pętla pozwala na wielokrotne powtarzanie bloku instrukcji. Liczba powtórzeń wynika z definicji modyfikowanej wartości
Bardziej szczegółowoElementy inteligencji obliczeniowej
Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego
Bardziej szczegółowoSPOTKANIE 3: Regresja: Regresja liniowa
Wrocław University of Technology SPOTKANIE 3: Regresja: Regresja liniowa Adam Gonczarek Studenckie Koło Naukowe Estymator adam.gonczarek@pwr.wroc.pl 22.11.2013 Rozkład normalny Rozkład normalny (ang. normal
Bardziej szczegółowoUczenie si e ze wzmocnieniem
Uczenie sie ze wzmocnieniem W wielu dziedzinach trudno jest sformu lować precyzyjne funkcje oceny, pozwalajace agentowi ocenić skuteczność, lub poprawność jego akcji, z wyjatkiem gdy osiagnie on stan docelowy.
Bardziej szczegółowoUczenie si e ze wzmocnieniem
Uczenie sie ze wzmocnieniem W wielu dziedzinach trudno jest sformu lować precyzyjne funkcje oceny, pozwalajace agentowi ocenić skuteczność, lub poprawność jego akcji, z wyjatkiem gdy osiagnie on stan docelowy.
Bardziej szczegółowoParsery LL(1) Teoria kompilacji. Dr inż. Janusz Majewski Katedra Informatyki
Parsery LL() Teoria kompilacji Dr inż. Janusz Majewski Katedra Informatyki Zadanie analizy generacyjnej (zstępującej, top-down) symbol początkowy już terminale wyprowadzenie lewostronne pierwszy od lewej
Bardziej szczegółowoWstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3
Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3 Andrzej Rutkowski, Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-11-05 Projekt
Bardziej szczegółowoUczenie si e ze wzmocnieniem wst ep 1 Uczenie si e ze wzmocnieniem wst ep 2. Agent wykonuje przebiegi uczace
Uczenie sie ze wzmocnieniem W wielu dziedzinach trudno jest sformu lować precyzyjne funkcje oceny, pozwalajace agentowi ocenić skuteczność, lub poprawność jego akcji, z wyjatkiem gdy osiagnie on stan docelowy.
Bardziej szczegółowoRÓWNANIA NIELINIOWE Maciej Patan
RÓWNANIA NIELINIOWE Maciej Patan Uniwersytet Zielonogórski Przykład 1 Prędkość v spadającego spadochroniarza wyraża się zależnością v = mg ( 1 e c t) m c gdzie g = 9.81 m/s 2. Dla współczynnika oporu c
Bardziej szczegółowoWykład 7 i 8. Przeszukiwanie z adwersarzem. w oparciu o: S. Russel, P. Norvig. Artificial Intelligence. A Modern Approach
(4g) Wykład 7 i 8 w oparciu o: S. Russel, P. Norvig. Artificial Intelligence. A Modern Approach P. Kobylański Wprowadzenie do Sztucznej Inteligencji 177 / 226 (4g) gry optymalne decyzje w grach algorytm
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba Cel zadania Celem zadania jest implementacja klasyfikatorów
Bardziej szczegółowotum.de/fall2018/ in2357
https://piazza.com/ tum.de/fall2018/ in2357 Prof. Daniel Cremers From to Classification Categories of Learning (Rep.) Learning Unsupervised Learning clustering, density estimation Supervised Learning learning
Bardziej szczegółowoOptymalizacja. Symulowane wyżarzanie
dr hab. inż. Instytut Informatyki Politechnika Poznańska www.cs.put.poznan.pl/mkomosinski, Maciej Hapke Wyżarzanie wzrost temperatury gorącej kąpieli do takiej wartości, w której ciało stałe topnieje powolne
Bardziej szczegółowoLinear Classification and Logistic Regression. Pascal Fua IC-CVLab
Linear Classification and Logistic Regression Pascal Fua IC-CVLab 1 aaagcxicbdtdbtmwfafwdgxlhk8orha31ibqycvkdgpshdqxtwotng2pxtvqujmok1qlky5xllzrnobbediegwcap4votk2kqkf+/y/tnphdschtadu/giv3vtea99cfma8fpx7ytlxx7ckns4sylo3doom7jguhj1hxchmy/irhrlgh67lxb5x3blis8jjqynmedqujiu5zsqqagrx+yjcfpcrydusshmzeluzsg7tttiew5khhcuzm5rv0gn1unw6zl3gbzlpr3liwncyr6aaqinx4wnc/rpg6ix5szd86agoftuu0g/krjxdarph62enthdey3zn/+mi5zknou2ap+tclvhob9sxhwvhaqketnde7geqjp21zvjsfrcnkfhtejoz23vq97elxjlpbtmxpl6qxtl1sgfv1ptpy/yq9mgacrzkgje0hjj2rq7vtywnishnnkzsqekucnlblrarlh8x8szxolrrxkb8n6o4kmo/e7siisnozcfvsedlol60a/j8nmul/gby8mmssrfr2it8lkyxr9dirxxngzthtbaejv
Bardziej szczegółowoOptymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Bardziej szczegółowoObliczenia naukowe Wykład nr 2
Obliczenia naukowe Wykład nr 2 Paweł Zieliński Katedra Informatyki, Wydział Podstawowych Problemów Techniki, Politechnika Wrocławska Literatura Literatura podstawowa [1] D. Kincaid, W. Cheney, Analiza
Bardziej szczegółowoLaboratorium 5 Przybliżone metody rozwiązywania równań nieliniowych
Uniwersytet Zielonogórski Wydział Informatyki, Elektrotechniki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych Elektrotechnika niestacjonarne-zaoczne pierwszego stopnia z tyt. inżyniera
Bardziej szczegółowoWstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.
Wstęp do sieci neuronowych, wykład 3 Warstwy, jednostka Adaline. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 211-1-18 1 Pomysł Przykłady Zastosowanie 2
Bardziej szczegółowoHard-Margin Support Vector Machines
Hard-Margin Support Vector Machines aaacaxicbzdlssnafiyn9vbjlepk3ay2gicupasvu4iblxuaw2hjmuwn7ddjjmxm1bkcg1/fjqsvt76fo9/gazqfvn8y+pjpozw5vx8zkpvtfxmlhcwl5zxyqrm2vrg5zw3vxmsoezi4ogkr6phieky5crvvjhriqvdom9l2xxftevuwcekj3lktmhghgniauiyutvrwxtvme34a77kbvg73gtygpjsrfati1+xc8c84bvraowbf+uwnipyehcvmkjrdx46vlykhkgykm3ujjdhcyzqkxy0chur6ax5cbg+1m4bbjptjcubuz4kuhvjoql93hkin5hxtav5x6yyqopnsyuneey5ni4keqrxbar5wqaxbik00icyo/iveiyqqvjo1u4fgzj/8f9x67bzmxnurjzmijtlybwfgcdjgfdtajwgcf2dwaj7ac3g1ho1n4814n7wwjgjmf/ys8fenfycuzq==
Bardziej szczegółowoJak trudne jest numeryczne całkowanie (O złożoności zadań ciągłych)
Jak trudne jest numeryczne całkowanie (O złożoności zadań ciągłych) Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki leszekp@mimuw.edu.pl Horyzonty 2014 17-03-2014 Będlewo Zadania numeryczne
Bardziej szczegółowoIMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,
Bardziej szczegółowoScenariusz lekcji Ozobot w klasie: Spacer losowy po układzie współrzędnych
Scenariusz lekcji Ozobot w klasie: Spacer losowy po układzie współrzędnych Opracowanie scenariusza: Richard Born Adaptacja scenariusza na język polski: mgr Piotr Szlagor Tematyka: Informatyka, Matematyka,
Bardziej szczegółowoMatematyka dyskretna
Matematyka dyskretna Wykład 4: Podzielność liczb całkowitych Gniewomir Sarbicki Dzielenie całkowitoliczbowe Twierdzenie: Dla każdej pary liczb całkowitych (a, b) istnieje dokładnie jedna para liczb całkowitych
Bardziej szczegółowoSzkice rozwiązań zadań z arkuszy maturalnych zamieszczonych w 47. numerze Świata Matematyki, który można nabyć w sklepie na
Szkice rozwiązań zadań z arkuszy maturalnych zamieszczonych w 47. numerze Świata Matematyki, który można nabyć w sklepie na www.swiatmatematyki.pl 1. Wypiszmy początkowe potęgi liczby Zestaw podstawowy
Bardziej szczegółowoInstrukcje cykliczne (pętle) WHILE...END WHILE
Instrukcje cykliczne (pętle) Pętle pozwalają na powtarzanie fragmentu kodu programu. PĘTLE LOGICZNE WHILE...END WHILE While (warunek)...... End While Pętla będzie się wykonywała dopóki warunek jest spełniony.
Bardziej szczegółowoMatematyka stosowana i metody numeryczne
Ewa Pabisek Adam Wosatko Piotr Pluciński Matematyka stosowana i metody numeryczne Konspekt z wykładu 6 Rozwiązywanie równań nieliniowych Rozwiązaniem lub pierwiastkiem równania f(x) = 0 lub g(x) = h(x)
Bardziej szczegółowoJAO - Wprowadzenie do Gramatyk bezkontekstowych
JAO - Wprowadzenie do Gramatyk bezkontekstowych Definicja gramatyki bezkontekstowej Podstawowymi narzędziami abstrakcyjnymi do opisu języków formalnych są gramatyki i automaty. Gramatyka bezkontekstowa
Bardziej szczegółowoGramatyka operatorowa
Gramatyki z pierwszeństwem operatorów Teoria kompilacji Dr inŝ. Janusz Majewski Katedra Informatyki Gramatyka operatorowa Definicja: G = G BK jest gramatyką operatorową (i) (ii) G jest gramatyką
Bardziej szczegółowoProblem komiwojażera ACO. Zagadnienie optymalizacyjne, polegające na znalezieniu minimalnego cyklu Hamiltona w pełnym grafie ważonym.
Problem komiwojażera ACO Zagadnienie optymalizacyjne, polegające na znalezieniu minimalnego cyklu Hamiltona w pełnym grafie ważonym. -Wikipedia Problem do rozwiązania zazwyczaj jest przedstawiany jako
Bardziej szczegółowoSztuczna Inteligencja i Systemy Doradcze
ztuczna Inteligencja i ystemy Doradcze Przeszukiwanie przestrzeni stanów Przeszukiwanie przestrzeni stanów 1 Postawienie problemu eprezentacja problemu: stany: reprezentują opisy różnych stanów świata
Bardziej szczegółowoMetody Obliczeniowe w Nauce i Technice
7. Równania nieliniowe (non-linear equations) Marian Bubak Department of Computer Science AGH University of Science and Technology Krakow, Poland bubak@agh.edu.pl dice.cyfronet.pl Contributors Dawid Prokopek
Bardziej szczegółowoTechniki optymalizacji
Techniki optymalizacji Metaheurystyki oparte na algorytmach lokalnego przeszukiwania Maciej Hapke maciej.hapke at put.poznan.pl GRASP Greedy Randomized Adaptive Search Procedure T.A. Feo, M.G.C. Resende,
Bardziej szczegółowoBezgradientowe metody optymalizacji funkcji wielu zmiennych. informacje dodatkowe
Bezgradientowe metody optymalizacji funkcji wielu zmiennych informacje dodatkowe Wybór kierunku poszukiwań Kierunki bazowe i ich modyfikacje metody bezgradientowe. Kierunki oparte na gradiencie funkcji
Bardziej szczegółowoMatematyka ubezpieczeń majątkowych r.
Zadanie. W pewnej populacji kierowców każdego jej członka charakteryzują trzy zmienne: K liczba przejeżdżanych kilometrów (w tysiącach rocznie) NP liczba szkód w ciągu roku, w których kierowca jest stroną
Bardziej szczegółowo11 Probabilistic Context Free Grammars
11 Probabilistic Context Free Grammars Ludzie piszą i mówią wiele rzeczy, a ich wypowiedzi mają zawsze jakąś określoną strukture i regularność. Celem jest znalezienie i wyizolowanie tego typu struktur.
Bardziej szczegółowoĆwiczenia IV
Ćwiczenia IV - 17.10.2007 1. Spośród podanych macierzy X wskaż te, których nie można wykorzystać do estymacji MNK parametrów modelu ekonometrycznego postaci y = β 0 + β 1 x 1 + β 2 x 2 + ε 2. Na podstawie
Bardziej szczegółowoSID Wykład 8 Sieci neuronowe
SID Wykład 8 Sieci neuronowe Wydział Matematyki, Informatyki i Mechaniki UW slezak@mimuw.edu.pl Sztuczna inteligencja - uczenie Uczenie się jest procesem nastawionym na osiaganie rezultatów opartych o
Bardziej szczegółowoWstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy
Bardziej szczegółowoMetody numeryczne I Równania nieliniowe
Metody numeryczne I Równania nieliniowe Janusz Szwabiński szwabin@ift.uni.wroc.pl Metody numeryczne I (C) 2004 Janusz Szwabiński p.1/66 Równania nieliniowe 1. Równania nieliniowe z pojedynczym pierwiastkiem
Bardziej szczegółowoElementy wspo łczesnej teorii inwersji
Elementy wspo łczesnej teorii inwersji Metoda optymalizacyjna (2) W. Debski, 8.01.2015 Liniowy problem odwrotny m est (λ) = m apr + (G T G + λi) 1 G T ( dobs G m apr) +δ d est d o = + λ I ( G T G + λi
Bardziej szczegółowoMatematyka ubezpieczeń majątkowych r.
Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka
Bardziej szczegółowoMatematyka dyskretna - wykład - część Podstawowe algorytmy kombinatoryczne
A. Permutacja losowa Matematyka dyskretna - wykład - część 2 9. Podstawowe algorytmy kombinatoryczne Załóżmy, że mamy tablice p złożoną z n liczb (ponumerowanych od 0 do n 1). Aby wygenerować losową permutację
Bardziej szczegółowoInteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe
Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe Trening jednokierunkowych sieci neuronowych wykład 2. dr inż. PawełŻwan Katedra Systemów Multimedialnych Politechnika Gdańska
Bardziej szczegółowo0.1 Lewostronna rekurencja
0.1 Lewostronna rekurencja Sprawdź czy poniższa gramatyka E jest zgodna z LL(1), tzn. czy umożliwia przeprowadzenie analizy bez powrotu z wyprzedzeniem o jeden symbol. Wyjaśnienie pojęcia LL(1): Pierwsze
Bardziej szczegółowo2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego
2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego Gramatyka Gramatyką G nazywamy czwórkę uporządkowaną G = gdzie: N zbiór symboli nieterminalnych, T zbiór symboli terminalnych, P zbiór
Bardziej szczegółowoKLUCZ PUNKTOWANIA ODPOWIEDZI
Egzamin maturalny maj 009 MATEMATYKA POZIOM ROZSZERZONY KLUCZ PUNKTOWANIA ODPOWIEDZI Zadanie. a) Wiadomości i rozumienie Matematyka poziom rozszerzony Wykorzystanie pojęcia wartości argumentu i wartości
Bardziej szczegółowoWYKŁAD Z ANALIZY MATEMATYCZNEJ I. dr. Elżbieta Kotlicka. Centrum Nauczania Matematyki i Fizyki
WYKŁAD Z ANALIZY MATEMATYCZNEJ I dr. Elżbieta Kotlicka Centrum Nauczania Matematyki i Fizyki http://im0.p.lodz.pl/~ekot Łódź 2006 Spis treści 1. CIĄGI LICZBOWE 2 1.1. Własności ciągów liczbowych o wyrazach
Bardziej szczegółowoAlgorytm FIREFLY. Michał Romanowicz Piotr Wasilewski
Algorytm FIREFLY Michał Romanowicz Piotr Wasilewski Struktura prezentacji 1. Twórca algorytmu 2. Inspiracja w przyrodzie 3. Algorytm 4. Zastosowania algorytmu 5. Krytyka algorytmu 6. Porównanie z PSO Twórca
Bardziej szczegółowoZadania domowe. Ćwiczenie 2. Rysowanie obiektów 2-D przy pomocy tworów pierwotnych biblioteki graficznej OpenGL
Zadania domowe Ćwiczenie 2 Rysowanie obiektów 2-D przy pomocy tworów pierwotnych biblioteki graficznej OpenGL Zadanie 2.1 Fraktal plazmowy (Plasma fractal) Kwadrat należy pokryć prostokątną siatką 2 n
Bardziej szczegółowoAlgorytmy stochastyczne, wykład 05 Systemy Liendenmayera, modelowanie roślin
Algorytmy stochastyczne, wykład 5, modelowanie roślin Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 214-3-2 1 2 3 ze stosem Przypomnienie gramatyka to system (Σ, A, s,
Bardziej szczegółowokomputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW
Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,
Bardziej szczegółowoStochastyczne zagadnienie rozdziału z dyskretnym rozkładem popytu
Stochastyczne zagadnienie rozdziału z dyskretnym rozkładem popytu Marcin Anholcer Uniwersytet Ekonomiczny w Poznaniu 19 marca 2013, Ustroń Marcin Anholcer Stochastyczne zagadnienie rozdziału 1/ 15 1 Zagadnienie
Bardziej szczegółowoUniwersalny, modułowy system paletyzujący
Uniwersalny, modułowy system paletyzujący Wstęp Układy pozycjonujące mogą być sterowane z głównego PLC kontrolującego całość procesu lub za pomocą lokalnego sterownika, który poprzez wejścia/wyjścia komunikuje
Bardziej szczegółowoSystemy Wspomagania Decyzji
Regresja Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności January 24, 2014 1 Wprowadzenie 2 Regresja liniowa 3 Regresja nieliniowa 4 Regresja logistyczna 5 Estymacja parametrów 6 Podsumowanie
Bardziej szczegółowoMetody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017
Metody eksploracji danych 2. Metody regresji Piotr Szwed Katedra Informatyki Stosowanej AGH 2017 Zagadnienie regresji Dane: Zbiór uczący: D = {(x i, y i )} i=1,m Obserwacje: (x i, y i ), wektor cech x
Bardziej szczegółowoGranica funkcji. 16 grudnia Wykład 5
Granica funkcji 16 grudnia 2010 Tw. o trzech funkcjach Twierdzenie Niech f, g, h : R D R będa funkcjami takimi, że lim f (x) = lim h(x), x x 0 x x0 gdzie x 0 D. Jeżeli istnieje otoczenie punktu x 0 w którym
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne
Bardziej szczegółowoBadanie silnika skokowego
Badanie silnika skokowego Badany silnik skokowy jest silnikiem reluktancyjnym z użłobkowanym wirnikiem wykonanym ze stali magnetycznie miękkiej (wirnik bierny). Dane znamionowe silnika skokowego: Typ:
Bardziej szczegółowoWstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.
Wstęp do sieci neuronowych, wykład 3 Warstwy, jednostka Adaline. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 13-1- Projekt pn. Wzmocnienie potencjału dydaktycznego
Bardziej szczegółowoTesty adaptacyjne dla problemu k prób
Instytut Matematyczny Polskiej Akademii Nauk Oddział Wrocław Problem testowania Problem Testowania Weryfikacja hipotezy Notacja Pomocnicza statystyka rangowa Załóżmy, że X l1,..., X lnl, l = 1,..., k,
Bardziej szczegółowoWyjście Kierunek. P zasilanie zewnętrzne 12/24VDC. P040 wyjście impulsów kanał 0. COM0 0V P041 wyjście impulsów kanał 1. COM1 0V P042 kierunek kanał 0
Moduł pozycjonowania 1. Podłączenie Moduł pozycjonowania zapewnia sterowanie impulsowe napędem. Sterownik Master K 120S posiada wbudowany moduł pozycjonowania umoŝliwiający sterowanie dwoma napędami jednocześnie.
Bardziej szczegółowoWAE Jarosław Arabas Adaptacja i samoczynna adaptacja parametrów AE Algorytm CMA-ES
WAE Jarosław Arabas Adaptacja i samoczynna adaptacja parametrów AE Algorytm CMA-ES Dynamika mutacyjnego AE Mutacja gaussowska σ=0.1 Wszystkie wygenerowane punkty Wartość średnia jakości punktów populacji
Bardziej szczegółowoDeska Galtona. Adam Osękowski. Instytut Matematyki, Wydział Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski
a schemat Bernoulliego Instytut Matematyki, Wydział Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski XV Festiwal Nauki, 21 września 2011r. a schemat Bernoulliego Schemat Bernoulliego B(n, p)
Bardziej szczegółowoSPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Bardziej szczegółowoWprowadzenie Metoda bisekcji Metoda regula falsi Metoda siecznych Metoda stycznych RÓWNANIA NIELINIOWE
Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać ogólna równania nieliniowego Zazwyczaj nie można znaleźć
Bardziej szczegółowo