Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Podobne dokumenty
Optymalizacja ciągła

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Optymalizacja ciągła

Uczenie sieci typu MLP

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ

Podstawy Sztucznej Inteligencji (PSZT)

Optymalizacja ciągła

Elementy inteligencji obliczeniowej

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Metody Rozmyte i Algorytmy Ewolucyjne

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

1 Pochodne wyższych rzędów

5. Metody Newtona. 5.1 Wzór Taylora

Metody Numeryczne Optymalizacja. Wojciech Szewczuk

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Definicja pochodnej cząstkowej

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

WYKŁAD 9 METODY ZMIENNEJ METRYKI

Własności statystyczne regresji liniowej. Wykład 4

5. Metody stochastyczne (symulowane wyżarzanie, algorytmy genetyczne) -> metody Monte Carlo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Uczenie sieci radialnych (RBF)

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

KADD Minimalizacja funkcji

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania

Własności estymatorów regresji porządkowej z karą LASSO

SVM: Maszyny Wektorów Podpieraja cych

Numeryczna algebra liniowa. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1

Entropia Renyi ego, estymacja gęstości i klasyfikacja

IX. Rachunek różniczkowy funkcji wielu zmiennych. 1. Funkcja dwóch i trzech zmiennych - pojęcia podstawowe. - funkcja dwóch zmiennych,

Algorytm grupowania danych typu kwantyzacji wektorów

Optymalizacja systemów

SZTUCZNA INTELIGENCJA

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Metody numeryczne I Równania nieliniowe

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Pochodna funkcji. Pochodna funkcji w punkcie. Różniczka funkcji i obliczenia przybliżone. Zastosowania pochodnych. Badanie funkcji.

Co to jest grupowanie

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Metody Optymalizacji: Przeszukiwanie z listą tabu

Optymalizacja ciągła

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

Optymalizacja (minimalizacja) funkcji. Plan wykładu: 1. Sformułowanie problemu, funkcja celu. 2. Metody bezgradientowe

Optymalizacja Ci gªa

Aproksymacja funkcji a regresja symboliczna

Rozpoznawanie obrazów

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Metoda Karusha-Kuhna-Tuckera

Numeryczna algebra liniowa

Metody Ekonometryczne

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Estymacja w regresji nieparametrycznej

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Funkcje wielu zmiennych

ZAGADNIENIA DO EGZAMINU MAGISTERSKIEGO

Komputerowa Analiza Danych Doświadczalnych

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

2.1. Postać algebraiczna liczb zespolonych Postać trygonometryczna liczb zespolonych... 26


Układy równań liniowych. Krzysztof Patan

2. ZASTOSOWANIA POCHODNYCH. (a) f(x) = ln 3 x ln x, (b) f(x) = e2x x 2 2.

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Stosowana Analiza Regresji

Redukcja wariancji w metodach Monte-Carlo

1.1 Klasyczny Model Regresji Liniowej

KADD Minimalizacja funkcji

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Lokalna odwracalność odwzorowań, odwzorowania uwikłane

Rozkłady wielu zmiennych

Maszyny wektorów podpierajacych w regresji rangowej

Metody systemowe i decyzyjne w informatyce

Metody Obliczeniowe w Nauce i Technice

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Metoda gradientu prostego

Optymalizacja a uczenie się

Teoretyczne podstawy informatyki

Politechnika Wrocławska, Wydział Informatyki i Zarządzania. Optymalizacja

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Metody systemowe i decyzyjne w informatyce

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

Metody systemowe i decyzyjne w informatyce

Matematyka z el. statystyki, # 4 /Geodezja i kartografia I/

13. Funkcje wielu zmiennych pochodne, gradient, Jacobian, ekstrema lokalne.

SPOTKANIE 11: Reinforcement learning

SZTUCZNA INTELIGENCJA

Zastosowania sieci neuronowych

Wprowadzenie Metoda bisekcji Metoda regula falsi Metoda siecznych Metoda stycznych RÓWNANIA NIELINIOWE

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

x x 1. Przedmiot identyfikacji System x (1) x (2) : x (s) a 1 a 2 : a s mierzone, a = zestaw współczynników konkretyzujacych F ()

1.3. Optymalizacja geometrii czasteczki

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Funkcje analityczne. Wykład 3. Funkcje holomorficzne. Paweł Mleczko. Funkcje analityczne (rok akademicki 2016/2017) z = x + iy A

Jak trudne jest numeryczne całkowanie (O złożoności zadań ciągłych)

Metody systemowe i decyzyjne w informatyce

Regresja nieparametryczna series estimator

Wprowadzenie do uczenia maszynowego

Komputerowa Analiza Danych Doświadczalnych

y f x 0 f x 0 x x 0 x 0 lim 0 h f x 0 lim x x0 - o ile ta granica właściwa istnieje. f x x2 Definicja pochodnych jednostronnych

Transkrypt:

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych mgr inż. C. Dendek prof. nzw. dr hab. J. Mańdziuk Politechnika Warszawska, Wydział Matematyki i Nauk Informacyjnych

Outline 1 Uczenie maszynowe za pomoca 2

Outline 1 Uczenie maszynowe za pomoca 2

Typowy przypadek zastosowania optymalizacji w uczeniu maszynowym Cel Minimalizacja funkcji F zależnej od elementów zbioru uczacego (x i, y i ) n i=1 na zbiorze parametrów W. Przykłady F(w) = n i=1 (y i H(x i, w)) 2 F(w) = λω(w) + n i=1 (y i H(x i, w)) 2 F(w) = n i=1 log(1 + ey i H(x i,w) )

Typowy przypadek zastosowania optymalizacji w uczeniu maszynowym Cel Minimalizacja funkcji F zależnej od elementów zbioru uczacego (x i, y i ) n i=1 na zbiorze parametrów W. Strategie metody pierwszego i drugiego rzędu (skalowalność względem liczby zmiennych) metody quasi newtonowskie on line i batch learning

Strategie Metody pierwszego rzędu przybliżenie funkcji F funkcja liniowa (rozwinięcie w szereg Taylora) typowe wymagania pamięciowe: o(d) brak modelowania zależności pomiędzy zmiennymi

Strategie Metody drugiego rzędu przybliżenie funkcji F funkcja kwadratowa (rozwinięcie w szereg Taylora) typowe wymagania pamięciowe: o(d 2 ) modelowanie zależności (kowariancji) pomiędzy zmiennymi dodatkowe wymagania na funkcję F

Strategie Batch learning dostosowanie wag po przetworzeniu pełnego zbioru możliwość pełnego zrównoleglenia obliczeń dla ustalonego wektora wag możliwość utknięcia w lokalnym minimum On line learning dostosowanie wag po każdym elemencie zbioru uczacego problemy ze zrównolegleniem obliczeń zmniejszona możliwość utknięcia w lokalnym minimum

Outline 1 Uczenie maszynowe za pomoca 2

Gradient Descent Cel Minimalizacja funkcji F (wypukłej, różniczkowalnej i lipschitzowsko ciagłej) na zbiorze W. Algorytm wybierz w 0 W jako punkt startowy Iteruj: w (k+1) := Π W (w (k) α (k) F(w (k) )), gdzie Π W (z) stanowi projekcję z w zbiór W : Π W (v) = arg min w W ( w v )

Subgradient Descent Cel [Gradient Descent] bez założenia o różniczkowalności Algorytm [Gradient Descent], zamiast gradientu należy użyć podgradientu: g (k) F(w (k) ) = {g : v W F(v) F(w (k) ) v w (k), g }, równego gradientowi w punktach różniczkowalności.

Outline 1 Uczenie maszynowe za pomoca 2

Stochastic Gradient Descent Cel Minimalizacja wartości oczekiwanej funkcji F (wypukłej i lipschitzowsko cg ze stała G) na zbiorze W. Algorytm wybierz w 0 W jako punkt startowy Iteruj: wybierz estymator podgradientu g (k), tak, aby E[g (k) ] F (w (k) ) wykonaj krok w (k+1) := Π W (w (k) α (k) g (k) ) w (k) = 1 k k i=1 w (k) LUB losowo wybierz w (i)

Stochastic Gradient Descent Algorytm: porównanie z wersja niestochastyczna... Iteruj: wybierz estymator podgradientu g (k), tak, aby E[g (k) ] F (w (k) ) komentarz: gdy F zależne od zbioru uczacego estymator na podstawie 1 obserwacji (i.i.d.)... w (k) = 1 k k i=1 w (i) komentarz: Uśrednianie redukuje wariancję ale wymaga wypukłości względem W Stochastic Gradient Descent jest metoda aproksymacji stochastycznej (SA).

Stochastic Gradient Descent: oszacowania błędów Główne równanie E[F( w (k) )] F(w ) w 0 w + k i=1 (αi ) 2 E[ g (k) 2 ] k i=1 αi Przypadek ustalonych (niezmiennych) kroków gradientowych α = w G w kroku K: E[F( w (K ) )] F(w ) G w K K α = ɛ s.t. E[F( w (k) )] F(w ) ɛ with k = G2 w 2 G 2 ɛ 2

Outline 1 Uczenie maszynowe za pomoca 2

Założenia Cel arg min w W E z[f (w, z)] = arg min w W F(w) na podstawie nieobciażonych estymatorów F(w) oraz F(w). Optymalizacja na podstawie próbki z 1... z n i.i.d. g (k) = w f (w (k), z (k) ) Zawężenie: optymalizacja wypukła f jest f. wypukła W jest zbiorem wypukłym

Stochastyczna optymalizacja wypukła przykłady L2 regularyzowana regresja logistyczna np. wykrywanie spamu, klasyfikacja LASSO, LASSO grupowane np. klasyfikacja z wyborem zmiennych liniowy SVM niskorzędowa dekompozycja macierzy np. systemy rekomendacji filmów (Netflix)

Podejścia do problemu optymalizacji stochastycznej Sample Average Approximation minimalizacja ˆF(w) = 1 m m i=1 f (w, z i) podstawia: kryterium minimalizacji ryzyka empirycznego (Empirical Risk Minimization) wykorzystuje skończona próbkę Stochastic Approximation parametry zmieniane na podstawie estymatorów w każdej iteracji wymaga świeżej próbki najprostsza metoda: jednoprzebiegowy SGD inne metody: quasi drugiego rzędu (quasi Newton SGD), Stochastic Mirror Descent

Podejście łaczone: SA w kroku SAA Podejście łaczone iteracyjna minimalizacja ˆF(w) = 1 m m i=1 f (w, z i) w środku SAA: metoda SA (np. SGD) stosowana do celu empirycznego z użyciem przykładów uczacych z i wypróbkowanych ze zb. uczacego używa skończonej próbki, pozwalajac jednocześnie na większa ilość iteracji niż mamy obserwacji. Intuicyjne pytanie... Skoro wynik SGD jest zdefiniowany jako w (k) = 1 k k i=1 w (i) czy można próbować dzielić go na podproblemy?

, [Zinkevich 2010] Założenia Cel c 1...c n (wypukła) strata zwiazana z obserwacjami 1...n. stały wsp. kroku gradientu α p komputerów Minimalizacja ryzyka całkowitego ĉ(w) = 1 m m i=1 ci (w)

Własności c i gdzie L jest wypukła c i (w) = λ 2 w 2 + L(x i, y i, w, x i ), lipschitzowsko cg względem w ( L (x,y) (x, y, y ) L G) z lipschitzowsko ograniczonym gradientem ( y L (x,y) (x, y, y ) L c )

, [Zinkevich 2010] Założenia c 1...c n (wypukła) strata zwiazana z obserwacjami 1...n. stały wsp. kroku gradientu α p komputerów minimalizacja komunikacji pomiędzy maszynami

, [Zinkevich 2010] Algorytm Niech T = m p Losowy podział i mieszanie przykładów uczacych, tak aby na każdej maszynie było ich przynajmniej T Równolegle na każdej maszynie i: inicjalizacja w i,0 = 0 iteracja przez zbiór c i,1...c i,t z każdorazowa modyfikacja wag w i,k+1 = w i,k α w c i,k (w i,k ) w = 1 p k i=1 w (i,t )

Wybór kroku α Twierdzenie Niech c t.ż. y L (x,y) (x, y, y ) L c. Jeśli α ( x i 2 c + λ) 1 wtedy krok gradientowy dla c i jest odwzorowaniem zwężajacym ze stała lipschitzowska 1 αλ. Jednorodne zwężenie α powinno generować zwężenie względem wszystkich c i : α = min( x i 2 c + λ) 1 i

Oszacowanie błędu Twierdzenie Niech α α i T = ln p ln αλ 2αλ. Wtedy: E w [c(w)] min c(w) 8αG2 c L + 8αG2 w pλ pλ c L + (2αG 2 ) Jak praktycznie kontrolować średni bład? α α 2 T 2T E w[c(w)] min w c(w) Ew [c(w)] minw c(w) 2

Dziękuję za uwagę Dziękuję za uwagę