Optymalizacja Ci gªa

Podobne dokumenty
Optymalizacja ciągła

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Elementy inteligencji obliczeniowej

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Optymalizacja systemów

5. Metody Newtona. 5.1 Wzór Taylora

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Optymalizacja ciągła

Metody systemowe i decyzyjne w informatyce

Optymalizacja ciągła

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

4. (Stochastic) Gradient Descent

Rozpoznawanie obrazów

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Optymalizacja ciągła

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

1 Funkcje dwóch zmiennych podstawowe pojęcia

Metody Rozmyte i Algorytmy Ewolucyjne

Praca dyplomowa magisterska

Metody Optymalizacji: Przeszukiwanie z listą tabu

Metody systemowe i decyzyjne w informatyce

Podstawy programowania. Wykład: 13. Rekurencja. dr Artur Bartoszewski -Podstawy programowania, sem 1 - WYKŁAD

Fuzja sygnałów i filtry bayesowskie

Dopasowywanie modelu do danych

WYKŁAD 9 METODY ZMIENNEJ METRYKI

Metody systemowe i decyzyjne w informatyce

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

Przegląd metod optymalizacji wielowymiarowej. Funkcja testowa. Funkcja testowa. Notes. Notes. Notes. Notes. Tomasz M. Gwizdałła

Uczenie ze wzmocnieniem

wiedzy Sieci neuronowe (c.d.)

Kompensacja wyprzedzająca i opóźniająca fazę. dr hab. inż. Krzysztof Patan, prof. PWSZ

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Aproksymacja funkcji a regresja symboliczna

13. Funkcje wielu zmiennych pochodne, gradient, Jacobian, ekstrema lokalne.

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

STRATEGIA DOBORU PARAMETRÓW SIECI NEURONOWEJ W ROZPOZNAWANIU PISMA

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Wprowadzenie do Sieci Neuronowych Laboratorium 05 Algorytm wstecznej propagacji błędu

Modyfikacja schematu SCPF obliczeń energii polaryzacji

Maciej Piotr Jankowski

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

ROZWIĄZYWANIE UKŁADÓW RÓWNAŃ NIELINIOWYCH PRZY POMOCY DODATKU SOLVER PROGRAMU MICROSOFT EXCEL. sin x2 (1)

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ

Techniki Optymalizacji: Optymalizacja wypukła

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień.

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Pobieranie prób i rozkład z próby

SPOTKANIE 11: Reinforcement learning

KADD Minimalizacja funkcji

Programowanie nieliniowe. Badania operacyjne Wykład 3 Metoda Lagrange a

INSTRUKCJA DO ĆWICZENIA NR 1

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Metody numeryczne II

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Wstęp do metod numerycznych Algebraiczna metoda gradientów sprzężonych. P. F. Góra

Kwantyzacja wektorowa. Kodowanie różnicowe.

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

10. Wstęp do Teorii Gier

2. Optymalizacja jednowymiarowa

Metoda największej wiarogodności

Obliczanie pozycji obiektu na podstawie znanych elementów orbity. Rysunek: Elementy orbity: rozmiar wielkiej półosi, mimośród, nachylenie

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 8 AiR III

Wstęp do metod numerycznych 11. Minimalizacja: funkcje wielu zmiennych. P. F. Góra

3. Metoda najszybszego spadku

Funkcje. Piotr Zierhoffer. 7 października Institute of Computer Science Poznań University of Technology

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Estymacja parametrów modelu Hestona - dokumentacja implementacji

Metody numeryczne II

II. FUNKCJE WIELU ZMIENNYCH

Równania nieliniowe, nieliniowe układy równań, optymalizacja

Definicja pochodnej cząstkowej

Rozpoznawanie obrazów

Uczenie ze wzmocnieniem

Algorytmy wstecznej propagacji sieci neuronowych

CMAES. Zapis algorytmu. Generacja populacji oraz selekcja Populacja q i (t) w kroku t generowana jest w następujący sposób:

Rozwiazywanie układów równań liniowych. Ax = b

Jak puttować skutecznie z każdej odległości

Optymalizacja ciągła

Równania nieliniowe, nieliniowe układy równań, optymalizacja

Zadania laboratoryjne i projektowe - wersja β

jeśli nie jest spełnione kryterium zatrzymania, to nowym punktem roboczym x(t+1) staje i następuje przejście do 1)

Wykład Budowa atomu 3

Funkcje dwóch zmiennych

WAE Jarosław Arabas Adaptacja i samoczynna adaptacja parametrów AE Algorytm CMA-ES

Wprowadzenie do Sieci Neuronowych Laboratorium 06 Algorytm wstecznej propagacji błędu

Wnioskowanie statystyczne. Statystyka w 5

Rozkłady statystyk z próby. Statystyka

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 7 AiR III

6. Klasyczny algorytm genetyczny. 1

Wstęp do metod numerycznych 12. Minimalizacja: funkcje wielu zmiennych. P. F. Góra

. Funkcja ta maleje dla ( ) Zadanie 1 str. 180 b) i c) Zadanie 2 str. 180 a) i b)

Kalibracja. W obu przypadkach jeśli mamy dane, to możemy znaleźć równowagę: Konwesatorium z Ekonometrii, IV rok, WNE UW 1

Zastosowanie uczenia głębokiego do gry w szachy. Stanisław Kaźmierczak

Za pierwszy niebanalny algorytm uważa się algorytm Euklidesa wyszukiwanie NWD dwóch liczb (400 a 300 rok przed narodzeniem Chrystusa).

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Transkrypt:

Institute of Computing Science Poznan University of Technology Optymalizacja Ci gªa Rozszerzenia SGD Mateusz Lango Michaª Kempka June 13, 2018

Gradient Descent - przypomnienie 1 x t+1 = x t η f (x t ) f - funkcja, która chcemy optymalizować x t - wektor, argument w iteracji t f (x t ) - gradient z minimalizowanej funkcji η - learning rate / step size

SGD 2 W UM zwykle minimalizujemy funkcję straty majac a postać sumy. min θ L(θ) = N (y i f (x i ; θ)) 2 i=1

SGD 2 W UM zwykle minimalizujemy funkcję straty majac a postać sumy. min θ L(θ) = N (y i f (x i ; θ)) 2 Teoretycznie chcielibyśmy nawet zminimalizować ja na całej populacji! [ min L(θ) = E x,y pdane (y f (x; θ)) 2 ] θ Co się wtedy dzieje z gradientem? Użyj estymacji gradientu! i=1 θ L(θ) = E x,y pdane [ θ (y f (x; θ)) 2] (1)

Stochastic Gradient Descent 3 θ INICJALIZUJ while warunek stopu nie jest spełniony do Wylosuj obserwację ze zbioru danych x i, y i Oblicz bład dla wylosowanej obserwacji l i (x i, y i ; θ) oraz jego gradient θ l i (x i, y i ; θ) θ θ η θ l i (x i, y i ; θ) Przesuń θ w kierunku minimum end while

SGD a GD 4

SGD a GD 5

Lekarstwo na miotanie? 6 Problem Jak sprawić żeby algorytmem mniej miotało?

Lekarstwo na miotanie? 6 Problem Jak sprawić żeby algorytmem mniej miotało?

Inny pomysł - dodać bezwładność! 7 Momentum (pęd): v t+1 = µv t η L t (Θ t ) µ [0, 1) Θ t+1 = Θ t + v t+1

Momentum - efekt? 8 Problem Jaki jest efekt zastosowania momentum (poetycko mówiac)?

Momentum - efekt? 8 Problem Jaki jest efekt zastosowania momentum (poetycko mówiac)? Algorytm nie jest już piechurem idacym w kierunku spadajacego gradientu, lecz kula, która nabiera prędkokości (pędu) i stacza się w dół. Problem Jaki jest efekt z bardziej technicznej perspektywy?

Momentum - efekt? 8 Problem Jaki jest efekt zastosowania momentum (poetycko mówiac)? Algorytm nie jest już piechurem idacym w kierunku spadajacego gradientu, lecz kula, która nabiera prędkokości (pędu) i stacza się w dół. Problem Jaki jest efekt z bardziej technicznej perspektywy? gradient w kierunku gdzie występuja oscylacje jest tłumiony gradient w kierunki gdzie zmiany sa konsystentne (chociażby małe) jest wzmacniany (akumulowany) - nabieramy pędu!

Momentum! 9 UWAGA! Momentum to nie moment tylko PED. Moment tłumaczymy jako...

Momentum! 9 UWAGA! Momentum to nie moment tylko PED. Moment tłumaczymy jako... moment! (lub torque).

Nesterov momentum - kula znajaca przyszłość! 10

Nesterov Accelerated Gradient (NAG) 11 Zwykłe momentum: v t+1 = µv t η L t (Θ t ) Nesterov: v t+1 = µv t η L t (Θ t + µv t ) µ [0, 1) Θ t+1 = Θ t + v t+1

Nesterov graficznie 12 Slajd zapożyczony z prezentacji o RMSprop G. Hintona

13 Więcej techcznicznych informacji o momentum: https://distill.pub/2017/momentum/

Miotanie to nie jedyny problem! 14 rzadkie i zaszumione dane (powiazane z miotaniem) trzeba wybrać learning rate (η)! duża wrażliwość na skalę różnych współrzędnych także duża wrażliwość na skalę gradientów różnych współrzędnych

RMSProp i Adagrad 15 Często chcielibyśmy by η była różna dla różnych współrzędnych i najlepiej by dobierała się automatycznie (albo chociaż semi-automatycznie). Z pomoca przychodza nam dwa podobne algorytmy: RMSProp (Root Mean Square ) i Adagrad (Adaptive Gradient)

RMSProp i Adagrad 16 Adagrad RMSprop: G t = t L t (Θ t ) 2 i=1 G t = 0.9 G t 1 + 0.1 L t (Θ t ) 2 = 0.1 Θ t+1 = Θ t t 0.9 T i L t (Θ t ) 2 i=1 η Gt + ɛ g t

RMSProp i Adagrad 17 Problem Jaki efekt uzyskujemy? (intuicyjnie) 1 stoi też za tym teoria i 20 stron dowodu

RMSProp i Adagrad 17 Problem Jaki efekt uzyskujemy? (intuicyjnie) Współrzędne gdzie gradienty sa rzadkie i małe sa wzmacniane - dzięki temu algorytm jest bardziej wrażliwy na rzadkie reprezentacje (taka była zreszta motywacja). Jednocześnie współrzędne oscylujace nie sa wcale wzmacniane gdyż interesuja nas kwadraty gradientów. 1. Dodatkowo, należy zauważyć, że mianownik rośnie nam z czasem - rozwiazuje to do pewnego stopnia problem obniżania eta w czasie optymalizajci. 1 stoi też za tym teoria i 20 stron dowodu

RMSProp i Adagrad 18 Problem Jaka różnicę wprowadza RMSProp względem Adagrad?

RMSProp i Adagrad 18 Problem Jaka różnicę wprowadza RMSProp względem Adagrad? RMSProp ma ograniczona pamięć co do gradientów co pozwala mu na większa adaptację w przypadku mneiej stacjonarnych danych. Dodatkowo nie zmniejsza η tak agresywnie jak Adagrad, który często przez to za szybko spowalnia optymalizację.

Automagia - Adam 19 Niestety zarówno RMSprop jak i Adagrad wymagaja dobrania globalnej η. Najpopularniejszym rozwiazaniem, które do pewnego stopnia rozwiazuje ten problem jest algorytm Adam - jest on rozwinięciem omówionych algorytmów. Sa też algorytmy, które zupełnie rezygnuja z tradycyjnego dobierania η, lecz ich działanie jest bardziej egzotyczne, np. CoCoB (działa znakomicie chociaż jest zdecydowanie mniej znany).

Fuzja! 20 UWAGA! Większość wymienionych metod można łaczyć gdyż sa niezależne od siebie (i najczęściej się to faktycznie robi!) np. minibatch + momentum + RMSProp.

Klepać czy nie klepać? 21 Większość z popularnych algorytmów jest już zaimplementowana we frameworkach. Niestety często dochodzi (tak, naprawdę to się dzieje) do sytuacji gdzie jedyne co mamy to vanilla sgd, którego już się nie używa więc warto jak zaimplementować np. RMSProp co nie wymaga specjalnej finezji i zaawansowania.

Zatem klepać! 22