Wprowadzenie do uczenia maszynowego Jakub Tomczak 2014
ii
Rozdział 1 Pojęcia podstawowe 1.1 Wprowadzenie. Zmienne losowe ˆ Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy predykcję poprzez poznanie zjawiska lub naśladowanie zjawiska. ˆ W celu formalnego opisania zjawiska posługiwać się będziemy pojęciem zmiennej losowej. Rysunek 1.1: Idea reprezentowania stanu świata za pomocą związków między różnymi wielkościami. ˆ Chcielibyśmy móc mierzyć nasze przekonanie (ang. belief ) związane z obserwacją świata x. ˆ Postulaty dot. miary przekonania b(x) podane przez Coxa: 1. Siła przekonania wyrażona za pomocą liczb rzeczywistych, np. 0 b(x) 1. 1
2 ROZDZIAŁ 1. POJĘCIA PODSTAWOWE 2. Jakościowa zgodność ze zdrowym rozsądkiem, tj. b(x) + b( x) = 1. 3. Spójność, tzn. jeśli konkluzja może być otrzymana w różny sposób, to każdy z tych sposobów musi dawać tę samą odpowiedź, tj. b(x, y z) = b(x z) b(y x, z) = b(y z) b(x y, z). ˆ Okazuje się, że miara przekonania musi spełniać zasady rachunku prawdopodobieństwa, tj.: reguła brzegowa (ang. sum rule) p(x) = y p(x, y) reguła łańcuchowa (ang. product rule) p(x, y) = p(x y) p(y) ˆ Rozpatrzmy prosty przykład dla zmiennych dyskretnych: p(x, y) y = 1y = 2 x = 3 0.3 0.2 0.5 p(x) x = 2 x = 1 0.2 0.1 0.1 0.1 0.3 0.2 p(y) 0.6 0.4 Rysunek 1.2: Przykład rozkładów prawdopodobieństwa. ˆ Przykład zastosowania reguły łańcuchowej: p(x y = 2) = p(x, y = 2) p(y = 2) ˆ Dla zmiennych ciągłych rozkład prawdopodobieństwa zadany jest przy pomocy funkcji gęstości. ˆ Interesuje nas, że zmienna losowa przyjmuje wartości z ustalonego zakresu (a, b): p(x (a, b)) = b a p(x)dx ˆ Funkcja gęstości p(x) całkuje się do 1 i spełnia reguły rachunku prawdopodobieństwa: reguła brzegowa: p(x) = p(x, y)dy reguła łańcuchowa: p(x, y) = p(x y)p(y)
1.1. WPROWADZENIE. ZMIENNE LOSOWE 3 p(x, y) y = 1y = 2 p(x y = 2) x = 3 0.3 0.2 0.5 x = 2 x = 1 0.2 0.1 0.1 0.1 0.25 0.25 p(y) 0.6 0.4 p(x, y = 2) Rysunek 1.3: Przykład zastosowania reguł rachunku prawdopodobieństwa. Rysunek 1.4: Przykład funkcji gęstości i rozkładu prawdopodobieństwa (dystrybuanty).
4 ROZDZIAŁ 1. POJĘCIA PODSTAWOWE 1.2 Wnioskowanie ˆ Zakładamy dwa rodzaje zmiennych losowych: Zmienne wejściowe (ang. inputs): x Zmienne wyjściowe (ang. outputs): y ˆ Zmienne mają wspólny rozkład p(x, y), który dla nas jest nieznany. ˆ Wiemy, że istnieje zależność między zmiennymi x i y. ˆ Zakładamy, że ta zależność może być przybliżona zależnością funkcyjną y = f(x), tj. ustalonemu x odpowiada dokładnie jedna wartość y. Rysunek 1.5: Idea wnioskowania, tj. istnienia zależności między zmiennymi. ˆ Wyznaczenie wartości y na podstawie x nazywamy podejmowaniem decyzji (ang. decision making), wnioskowaniem (ang. inference) albo predykcją (ang. prediction). ˆ W celu znalezienia zależności f(x) minimalizować będziemy ryzyko: R[f] = L(y, f(x)) p(x, y)dxdy = E x,y [ L(y, f(x)) ].
1.3. MODELOWANIE 5 ˆ L oznacza funkcję straty (ang. loss function): 1, jeśli y f(x) L(y, f(x)) = 0, w p.p. (klasyfikacja) L(y, f(x)) = ( y f(x) ) 2 (regresja) ˆ Można pokazać, że w celu minimalizacji ryzyka R[f] wystarczy minimalizować E y [ L(y, f(x)) x ]. f (x) = arg max p(y x) y [ ] f (x) = E y y x = y p(y x)dy (klasyfikacja) (regresja) 1.3 Modelowanie ˆ Najogólniej relacja pomiędzy zmiennymi x i y może być opisana przy pomocy łącznego rozkładu p(x, y). Wtedy rozkład warunkowy p(y x), na podstawie którego wnioskujemy, wyznaczamy z zależności: p(y x) = p(x, y) p(x) = p(x, y) y p(x, y) ˆ Zakładamy, że rzeczywisty rozkład p(x, y) może być zamodelowany poprzez p(x, y θ ), gdzie parametry θ nie są dla nas znane. ˆ Znana jest jedynie postać modelu p(x, y θ). ˆ Przykładowo p(x, y θ) = N (x, y µ, Σ), gdzie postać modelu to rozkład normalny, a parametry θ = {µ, Σ}. ˆ Modele generujące (ang. generative models) modelujemy osobno rozkłady p(x y, θ) i p(y θ). Wtedy p(x, y θ) = p(x y, θ) p(y θ), skąd p(y x, θ) = p(x y, θ) p(y θ) y p(x y, θ) p(y θ). ˆ Modele dyskryminujące (ang. discriminative models) bezpośrednio modelujemy rozkład warunkowy na zmienną decyzyjną, p(y x, θ). ˆ Modele funkcyjne (ang. discriminant functions) bezpośrednio modelujemy zależność funkcyjną y = f(x; θ), bez korzystania z prawdopodobieństw.
6 ROZDZIAŁ 1. POJĘCIA PODSTAWOWE 1.4 Uczenie Rysunek 1.6: Idea modelowania. ˆ Dysponujemy ciągiem niezależnych obserwacji D = {(x 1, y 1 ),..., (x N, y N )}, wygenerowanych z rzeczywistego rozkładu p(x, y). ˆ Uczenie polega na optymalizowaniu względem θ wybranej funkcji kosztu dopasowującej model p(x, y θ) do obserwacji D. ˆ Definiujemy wiarygodność (ang. likelihood) parametrów przy danym ciągu obserwacji: N p(d θ) = p(x n, y n θ) ˆ Wartość wiarygodności mówi o pewności z jaką nasz model o ustalonych parametrach θ mógł wygenerować obserwacje D. ˆ Niepewność parametru θ będziemy modelować rozkładem a priori p(θ) (ang. prior). ˆ Reguły prawdopodobieństwa (wzór Bayesa) pozwalają modyfikować niepewność parametru poprzez uwzględnienie obserwacji. ˆ Otrzymujemy rozkład a posteriori (ang. posterior): p(θ D) = p(d θ)p(θ) p(d) posterior likelihood prior ˆ Można pokazać, że jeśli θ jest rzeczywistym parametrem, który odpowiada za generowanie danych, to jeśli p(θ ) > 0, wtedy: lim p(θ D n) = δ(θ θ ) n
1.5. SYSTEMY DYNAMICZNE 7 Rysunek 1.7: Idea uwzględnienia niepewności parametrów w modelowaniu. ˆ Uczenie częstościowe (ang. frequentist learning) wyznaczenie estymatora punktowego parametrów θ: estymacja maksymalnej wiarygodności (ang. maximum likelihood estimation, ML): θ ML = arg max p(d θ), θ estymacja maksymalnej a posteriori (ang. maximum a posteriori estimation, MAP): θ MAP = arg max p(θ D). θ ˆ Uczenie bayesowskie (ang. Bayesian learning) wyznaczenie rozkładu predykcyjnego (ang. predictive distribution), tj. wycałkowanie względem nieznanych parametrów: p(y x, D) = 1.5 Systemy dynamiczne p(y x, θ) }{{} model p(θ D) dθ. }{{} posterior ˆ Dotychczas rozważaliśmy zjawiska, które nie zależały od czasu, tj. zakładaliśmy, że obserwowane dane są generowane niezależnie z tego samego rozkładu (independent and identically distributed i.i.d.). Jednakże w wielu przypadkach założenie to jest nieprawdziwe. Dlatego też rozważa się sytuacje dla danych sekwencyjnych. ˆ Dane sekwencyjne zazwyczaj pojawiają się przy okazji pomiarów szeregów czasowych, np. pomiarów opadów deszczu w kolejnych dniach na zadanym obszarze, dzienne wartości kursu walut, czy wartości cech akustycznych w kolejnych klatkach nagrania mowy. Sekwencyjność danych może nie zależeć od czasu, np. kolejność nukleotydów w DNA, kolejność liter czy wyrazów w tekście pisanym.
8 ROZDZIAŁ 1. POJĘCIA PODSTAWOWE ˆ Warto również rozróżnić pomiędzy rozkładami stacjonarnymi a niestacjonarnymi. W przypadku stacjonarnym dane ewoluują w czasie, ale rozkład, z którego są generowane, pozostaje bez zmian. Natomiast w przypadku niestacjonarnym rozkład jest zmienny w czasie. ˆ Istnieje wiele sposobów pozwalających na modelowanie danych sekwencyjnych, np.: modelowanie deterministyczne: * równania różniczkowe (czas ciągły): * równania różnicowe (czas dyskretny): modelowanie probabilistyczne: dx dt = f(x) x n+1 = f(x n ) * modele (łańcuchy) Markowa, tzn. rozkład dla obecnego stanu zależy od stanów poprzednich, na przykład model Markowa pierwszego rzędu: i funkcja wiarygodności: * Systemy dynamiczne (szum: η x, η y ): p(x n+1 x 1,..., x n ) = p(x n+1 x n ) N p(x 1,..., x N ) = p(x 1 ) p(x n x n 1 ) n=2 x n+1 = f(x n, η x ) y n+1 = g(x n+1, η y ) oraz ich szczególny przypadek Liniowych Systemów Dynamicznych (zakłada się szum gaussowski η x i η y ): p(x n+1 x n ) = N (x n+1 Ax n, Σ x ) p(y n+1 x n+1 ) = N (y n+1 Bx n+1, Σ y )
Rozdział 2 Podstawowe problemy 2.1 Wstęp ˆ Interesuje nas poznanie rozważanego zjawiska. W tym celu chcemy odkryć zależności między wielkościami występującymi w zjawisku. Przez x X, gdzie X = X 1... X D, oznaczamy wielkości wejściowe (wejścia), zaś przez y Y wielkości wyjściowe (wyjście). Zależność zapisujemy jako f : X Y. x f(x) y Rysunek 2.1: Diagram blokowy opisujący rozpatrywaną zależność zjawiska. Przykłady: x cukier drożdże woda f(x) y etanol Rysunek 2.2: Diagram blokowy opisujący zależność zjawiska chemicznego. ˆ Opisanie zależności za pomocą zadanej klasy modeli nazywamy modelowaniem. ˆ W przypadku, gdy rozpatrujemy modele parametryczne (tj. takie, w których skończony zestaw parametrów koduje informacje o zjawisku), to wybór modelu polega na ustaleniu (uczeniu) parametrów. Wyszczególniamy parametry w R D w modelu ȳ(x; w). 9
10 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY x zdjęcie f(x) y twarz Rysunek 2.3: Diagram blokowy opisujący zależność zjawiska rozpoznawania twarzy. ˆ Zjawisko znane jest wyłącznie poprzez obserwacje (dane): D = {(x n, y n )} N. Ważne jest, czy rozważane zjawisko można traktować jako statyczne (zależność sekwencyjna danych jest pomijalna), czy sekwencyjne (w szczególnym przypadku dynamiczne, tj. sekwencyjność jest wyrażona poprzez zależność czasową). ˆ Czasem w literaturze przedmiotu złożony proces składający się z przeprowadzenia eksperymentu (zebranie danych), wyboru klasy modeli oraz uczenia nazywa się identyfikacją systemów. 2.2 Zjawiska deterministyczne ˆ W najprostszym przypadku mamy sytuację, gdy dokładnie wiemy jaka zależność nas interesuje, tj. znamy klasę modelu. Mniej restrykcyjny przypadek zakłada, że rzeczywistość może być prawie idealnie opisana pewną klasą modelu (patrz przykład z produkcją etanolu). ˆ Przypadek ten określany jest jako obiekt (zjawisko) w klasie modeli. ˆ Zadanie znalezienia opisu zjawiska w klasie modeli polega więc na dopasowaniu modelu do danych. ˆ Inne przykłady: wyznaczanie trendu liniowego (mimo że zjawisko może być silnie nieliniowe, to często wyznaczenie trendu liniowego jest wystarczające, żeby pobieżnie poznać charakter zjawiska), poznanie reguł gry w karty. ˆ W praktyce przypadek zjawiska w klasie modeli jest rzadko spotykany ze względu na występujące zakłócenia lub niemożność wyizolowania zjawiska, co wiąże się z niemożnością obserwacji wszystkich czynników wpływających na zjawisko. ˆ Wówczas rozpatruje się przypadek wyboru optymalnego modelu. Warto zaznaczyć, iż nadal traktujemy zjawisko jako deterministyczne, tj. zależności w nim występujące nie są losowe, ale dopuszczamy występowanie zakłóceń zewnętrznych.
2.2. ZJAWISKA DETERMINISTYCZNE 11 ˆ Wybór modelu (parametrycznego) polega na znalezieniu wartości parametrów, dla których dla występuje najlepsze dopasowanie modelu do danych. W tym celu należy zdefiniować funkcję dopasowania modelu do danych, np. (przyjmujemy zapis: ȳ(x n ; w) = ȳ n, ȳ(x; w) = ȳ): Q(w) = y ȳ 2 2 N = (y n ȳ n ) 2 (norma euklidesowa (l 2 )) Q(w) = y ȳ 1 N = y n ȳ n (norma l 1 ) ˆ Liniowe zadanie najmniejszych kwadratów. W przypadku, gdy model możemy wyrazić za pomocą funkcji bazowych φ(x), to wówczas dla kryterium kwadratowego (normy euklidesowej) mamy: Q(w) = y Φw 2 2 Licząc gradient i przyrównując do zera: w Q(w) = 0 otrzymujemy formę zamkniętą rozwiązania: w = (Φ Φ) 1 Φ y. ˆ Forma zamknięta może być uciążliwa do policzenia ze względu na problem z odwróceniem macierzy Φ Φ. Dodatkowo, w przypadku danych napływających w strumieniu danych, przydatne byłoby zastosowanie technik uczenia przyrostowego. W tym celu można stosować metodę optymalizacji stochastycznej (ang. stochastic gradient descent): w := w η w Q n (w) gdzie Q n (w) = (y n ȳ n ) 2. Dla modelu liniowego z funkcjami bazowymi: ( ) w := w η y n φ(x n ) w φ(x n ). ˆ Liniowe zadanie najmniejszych kwadratów z regularyzacją l 2. W celu uniknięcia zbytniego dopasowania (ang. overfitting) modyfikuje się kryterium kwadratowe poprzez dodanie drugiej normy na parametry, czyli regularyzacji: Q(w) = y Φw 2 2 + λ w 2 2,
12 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY gdzie λ > 0 współczynnik regularyzacji. Licząc gradient i przyrównując do zera otrzymyjemy formę zamkniętą rozwiązania (I macierz jednostkowa): w = (Φ Φ + λi) 1 Φ y. ˆ Dodanie regularyzacji powoduje ściąganie wartości parametrów do 0. Siła ściągania zależy od wartości λ. 2.3 Zjawiska probabilistyczne ˆ Bardziej naturalnym podejściem do modelowania jest założenie wprost, iż rozpatrywane wielkości są stochastyczne (są zmiennymi losowymi) ze względu na występujące zakłócenia i/lub niemożność obserwacji wszystkich wielkości występujących w zjawisku. ˆ Alternatywną formą reprezentowania zależności między zmiennymi losowymi są probabilistyczne modele grafowe, w których węzły reprezentują zmienne losowe, zaś krawędzie (łuki) warunkowe zależności stochastyczne. x y Rysunek 2.4: Probabilistyczny model grafowy opisujący rozpatrywaną zależność zjawiska. w x y Rysunek 2.5: Probabilistyczny model grafowy dla modelu parametrycznego opisującego rozpatrywaną zależność zjawiska. ˆ Przed przejściem do modelowania i uczenia wprowadzimy podstawowe techniki pojęcia na przykładzie obserwacji pojedynczej wielkości x, która jest zmienną losową. Możemy myśleć o obserwacji pewnej wielkości przy zakłóceniach z związanych z pomiarem. Zakłócenie może mieć np. charaketer addytywny.
2.3. ZJAWISKA PROBABILISTYCZNE 13 ˆ Załóżmy, że posiadamy N pomiarów D = {x n } N, które są niezależne i są generowane z tego samego rozkładu p(x) (tzw. założenie iid, ang. independent and identically distributed). ˆ Dalej przyjmujemy, że będziemy modelować rozkład prawdopodobieństwa zmiennej x za pomocą modelu p(x w) o parametrach w. ˆ Estymacja ML. Dopasowanie modelu do danych będziemy wyrażać za pomocą funkcji wiarygodności (lub krótko wiarygodności): l(w) = p(d w) N = p(x n w). Wartości parametrów będziemy szukali poprzez maksymalizację wiarygodności: w ML = arg max p(d w). w Otrzymane wartości nazywane są estymatorami maksymalnej wiarygodności. Ze względów praktycznych często wygodniej jest operować na negatywnym logarytmie wiarygodności (logarytm nie zmienia monotoniczności funkcji oraz jest funkcją wklęsłą): Licząc gradient i przyrównując do zera: log l(w) = log p(d w) N = log p(x n w). w log l(w) = 0 N w log p(x n w) = 0 otrzymamy wartości parametrów minimalizujące negatywny logarytm wiarygodności. ˆ Estymacja MAP. Dodatkowo możemy posiadać wiedzę aprioryczną (przed dokonaniem obserwacji) dot. wartości parametrów, p(w). Jest to rozkład a priori na parametry. Wówczas korzystając ze wzoru Bayesa możemy wyznaczyć rozkład a posteriori na parametry: p(w D) = p(d w)p(w) p(d) Wyznaczenie wartości parametrów maksymalizujących rozkład a posteriori: w MAP = arg max p(w D) w
14 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY prowadzi do estymatorów maksymalnego a posteriori (MAP). Wygodniej jest wyznaczać wartości parametrów dla logarytmu z rozkładu a posteriori: log p(w D) = log p(d w)p(w) p(d) = log p(d w)p(w) log p(d) Licząc następnie gradient i przyrównując do zera: = log p(d w) + log p(w) log p(d). w log p(w D) = 0 w log p(d w) + w log p(w) w log p(d) = 0 w log p(d w) + w log p(w) = 0. ˆ Estymacja Bayesa. W wielu zastosowaniach, np. w ekonomii czy medycynie, przyjęcie jednych wartości może wiązać się z dodatkowym kosztem lub stratą, dlatego też wprowadza się funkcję straty: L : W W R +. Wówczas definiuje się oczekiwaną funkcji strat, czyli tzw. ryzyko: R[w B ] = L(w, w B )p(w, x)dwdx = L(w, w B )p(w x)dw p(x)dx = E w,x [L(w, w B )] gdzie w B poszukiwane wartości parametrów. Zwróćmy uwagę, iż wystarczy rozpatrywać rozkład warunkowy, co prowadzi do ryzyka warunkowego: R[w B x] = L(w, w B )p(w x)dw = E w x [L(w, w B )]. Wówczas interesuje nas znalezienie takich wartości parametrów, które minimalizują ryzyko warunkowe: w B = arg min R[w B x]. w Wartości parametrów minimalizujące ryzyko warunkowe nazywa się estymatorami Bayesa. Zauważmy, że dla funkcji straty L(w, w B ) = δ(w w B ), gdzie δ( ) jest deltą Diraca, otrzymujemy przypadek estymatora MAP.
2.4. PROBLEM REGRESJI 15 Biorąc inną funkcję straty, tj. L(w, w B ) = (w w B ) 2, otrzymujemy estymator średniej a posteriori. Licząc ryzyko warunkowe: R[w B x] = E w x [(w w B ) 2 ] = E w x [w 2 ] 2w B E w x [w] + wb. 2 Wówczas licząc gradient po w B i przyrównując do zera otrzymujemy: wb R[w B x] = 0 2E w x [w] + 2w B = 0 w B = wp(w x)dw = E w x [w] 2.4 Problem regresji ˆ Rozkład normalny (ang. normal distribution) zadaje rozkład prawdopodobieństwa na zmiennej ciągłej x. x N (x µ, σ 2 ) oznacza, że zmienna została wygenerowana z rozkładu normalnego. Funkcja gęstości: Parametryzacja: N (x µ, σ 2 ) = 1 σ 2π exp ( ) (x µ)2 2σ 2 Parametr µ pokrywa się z wartością oczekiwaną (także z modą i medianą), tj. E[x] = µ Parametr σ 2 pokrywa się z wariancją, tj. var[x] = σ 2 ˆ Wielowymiarowy rozkład normalny (ang. multivariate normal distribution) zadaje rozkład na wektorze x R D Funkcja gęstości: Parametryzacja: N (x µ, Σ) = ( 1 (2π) D/2 Σ exp 1 ) 1/2 2 (x µ) Σ 1 (x µ)
16 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY Wektor parametrów µ pokrywa się z wartością oczekiwaną, tj. E[x] = µ Macierz parametrów Σ pokrywa się z kowariancją wektora x, tj. cov[x] = Σ Macierz Σ jest symetryczna i dodatnio określona. ˆ Problem regresji. Zmienne wejściowe (ang. input variables): x X (zazwyczaj X = R D lub X = {0, 1} D ). Zmienna wyjściowa (ang. target variable): y R. Problem: dla zadanego ciągu uczącego D = {(x n, y n )} N przewidzieć wartość y dla nowego x. Zgodnie z teorią decyzji pokazaliśmy, że wystarczy znać rozkład warunkowy p(y x), zatem musimy go modelować. ˆ Model regresji liniowej. Modelem regresji liniowej (ang. linear regression) nazywamy następujące wyrażenie: y = f(x, w) + ε gdzie funkcja f(x, w) = w φ(x) jest kombinacją liniową M funkcji bazowych φ m (x). Zmienna ε N (ε 0, β 1 ) modeluje niepewność obserwacji y. Zatem model rozkładu warunkowego p(y x) ma następującą postać: p(y x, w, β) = N (y w T φ(x), β 1 ). Parametrami modelu regresji liniowej są w R M i β R. Wartości funkcji φ 1 (x),..., φ M (x) nazywane są cechami (ang. features) wyekstrahowanymi z obserwacji x. Przykładowe cechy mogą mieć postać: φ 1 (x) = x (1), φ 2 (x) = ln(x (3) ), φ 3 (x) = x (3) x (2). Dzięki ekstrakcji cech mamy możliwość użycia nieliniowych przekształceń danych wejściowych oraz dalsze rozważania nie są zależne od postaci φ. Model regresji liniowej stosujemy: Gdy zbiór cech φ 1 (x),..., φ M (x) wynika w sposób naturalny. Inaczej istnieją lepsze modele.
2.4. PROBLEM REGRESJI 17 Gdy dane są wysokowymiarowe, N << D i potrafimy podać pewien niskowymiarowy sensowny zbiór cech. Gdy decydującym czynnikiem jest czas wyliczenia odpowiedzi modelu. ˆ Estymacja maksymalnej wiarygodności (ML) dla regresji liniowej Dysponujemy danymi X = {x 1,..., x N }, y = {y 1,..., y N }. Warunkowa funkcja wiarygodności jest następująca: N p(y X, w, β) = N (y n w φ(x n ), β 1 ). Logarytm funkcji wiarygodności N ln p(y X, w, β) = ln N (y n w φ(x n ), β 1 ) = N 2 ln β N ln(2π) βj(w) 2 gdzie J(w) jest sumą kwadratów błędów, J(w) = 1 N (y n w φ(x n )) 2. 2 Logarytm funkcji wiarygodności jest funkcją celu, którą optymalizujemy względem parametrów w. Przyrównując gradient z logarytmu funkcji wiarygodności do zera N ln p(y X, w, β) = y n φ(x n ) w i rozwiązując względem w otrzymujemy N φ(x n )φ(x n ) = 0 w ML = (Φ Φ) 1 Φ y (równania normalne) Φ = φ 1 (x 1 ) φ 2 (x 1 ) φ M (x 1 )...... φ 1 (x N ) φ 2 (x N ) φ M (x N ) (design matrix) Optymalizując względem β: 1 β ML = 1 N N ( yn wmlφ(x n ) ) 2.
18 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY ˆ Estymacja ML: Rozwiązanie numeryczne. Algorytm gradientu prostego: Initialize w repeat for i = 1 M do w i w i α w i J(w) end for until convergence Dla przypadku regresji: J(w) = 1 N (y n w φ(x n )) 2 2 w i J(w) = N ( yn w i φ i (x n ) ) φ i (x n ). ˆ Estymator maksymalnej a posteriori dla regresji liniowej. Rozkład a priori parametrów uwzględnia przekonania odnośnie parametrów przed zaobserowaniem danych, p(w m 0, S 0 ) = N (w m 0, S 0 ). Rozkład a posteriori parametrów uaktualnienie apriorycznych przekonań o parametrach poprzez uwzględnienie danych, p(w y) p(y w) }{{} likelihood Estymator maksymalnej a posteriori (MAP): p(w). }{{} prior w MAP = arg max p(w y). w Rozkład a priori oraz wiarygodność są rozkładami normalnymi, tj. mamy do czynienia z liniowym modelem gaussowskim, więc (przy ustalonym β): p(w y) = N (w m N, S N ) m N = S N ( S 1 0 m 0 + βφ y ) S 1 N = S 1 0 + βφ Φ Skąd estymator MAP: w MAP = m N.
2.4. PROBLEM REGRESJI 19 Zakładając, że parametry są niezależnymi zmiennymi losowymi o jednakowej precyzji α 1, otrzymujemy szczególny przypadek m 0 = 0, S 0 = α 1 I, m N = βs N Φ y S 1 N = αi + βφ Φ ˆ Estymator MAP a regularyzacja Tichonowa. Zauważmy, że licząc logarytm z rozkładu a posteriori otrzymujemy sumę kwadratów błędów oraz dodatkowe wyrażenie: ln p(w y) = β N ( yn w φ(x n ) ) 2 α 2 2 w w +const. }{{}}{{} regularyzacja βj(w) Taki sam wynik otrzymamy, jeżeli w estymacji ML dodamy wyrażenie zwane regularyzatorem Tichonowa: gdzie λ parametr regularyzacji. J(w) + λ 2 w w. }{{} reg. Tichonowa Rozwiązując względem w: w λ = (λi + Φ Φ) 1 Φ y. Zauważmy, że w MAP = w λ dla λ = α β. Model ten nazywa się regresją grzbietową (ang. ridge regression).