Wprowadzenie do uczenia maszynowego. Jakub Tomczak

Podobne dokumenty
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

SPOTKANIE 3: Regresja: Regresja liniowa

Metody systemowe i decyzyjne w informatyce

Rozpoznawanie obrazów

Rozpoznawanie obrazów

WYKŁAD 2. Problem regresji - modele liniowe

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce

Podstawowe modele probabilistyczne

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Metody systemowe i decyzyjne w informatyce

WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Metody systemowe i decyzyjne w informatyce

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Rozpoznawanie obrazów

Ważne rozkłady i twierdzenia c.d.

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Metody systemowe i decyzyjne w informatyce

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Fuzja sygnałów i filtry bayesowskie

Optymalizacja systemów

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Optymalizacja ciągła

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Procesy stochastyczne

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Agata Boratyńska Statystyka aktuarialna... 1

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Procesy stochastyczne

Wykład 3 Jednowymiarowe zmienne losowe

Weryfikacja hipotez statystycznych

Metoda największej wiarogodności

Modele zapisane w przestrzeni stanów

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

SPOTKANIE 7: Redukcja wymiarów: PCA, Probabilistic PCA

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Rachunek prawdopodobieństwa (Elektronika, studia niestacjonarne) Wykład 3

x x 1. Przedmiot identyfikacji System x (1) x (2) : x (s) a 1 a 2 : a s mierzone, a = zestaw współczynników konkretyzujacych F ()

Metoda najmniejszych kwadratów

Zawansowane modele wyborów dyskretnych

Statystyka i eksploracja danych

Metoda największej wiarygodności

Stanisław Cichocki. Natalia Nehrebecka

Metody systemowe i decyzyjne w informatyce

6. Identyfikacja wielowymiarowych systemów statycznych metodanajmniejszychkwadratów

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Prawdopodobieństwo i statystyka

Wnioskowanie bayesowskie

Prawdopodobieństwo i statystyka

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Jądrowe klasyfikatory liniowe

Elementy inteligencji obliczeniowej

Metoda największej wiarygodności

Prawdopodobieństwo i statystyka

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Rozkłady wielu zmiennych

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Metody probabilistyczne

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Prawdopodobieństwo i statystyka r.

KADD Minimalizacja funkcji

Prawdopodobieństwo i statystyka

Dynamiczne stochastyczne modele równowagi ogólnej

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Układy stochastyczne

#09. Systemy o złożonej strukturze

Wprowadzenie do analizy korelacji i regresji

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Matematyka ubezpieczeń majątkowych r.

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =

1 Gaussowskie zmienne losowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Dystrybucje. Marcin Orchel. 1 Wstęp Dystrybucje Pochodna dystrybucyjna Przestrzenie... 5

Rachunek Prawdopodobieństwa i Statystyka

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Metody probabilistyczne klasyfikatory bayesowskie

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Transkrypt:

Wprowadzenie do uczenia maszynowego Jakub Tomczak 2014

ii

Rozdział 1 Pojęcia podstawowe 1.1 Wprowadzenie. Zmienne losowe ˆ Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy predykcję poprzez poznanie zjawiska lub naśladowanie zjawiska. ˆ W celu formalnego opisania zjawiska posługiwać się będziemy pojęciem zmiennej losowej. Rysunek 1.1: Idea reprezentowania stanu świata za pomocą związków między różnymi wielkościami. ˆ Chcielibyśmy móc mierzyć nasze przekonanie (ang. belief ) związane z obserwacją świata x. ˆ Postulaty dot. miary przekonania b(x) podane przez Coxa: 1. Siła przekonania wyrażona za pomocą liczb rzeczywistych, np. 0 b(x) 1. 1

2 ROZDZIAŁ 1. POJĘCIA PODSTAWOWE 2. Jakościowa zgodność ze zdrowym rozsądkiem, tj. b(x) + b( x) = 1. 3. Spójność, tzn. jeśli konkluzja może być otrzymana w różny sposób, to każdy z tych sposobów musi dawać tę samą odpowiedź, tj. b(x, y z) = b(x z) b(y x, z) = b(y z) b(x y, z). ˆ Okazuje się, że miara przekonania musi spełniać zasady rachunku prawdopodobieństwa, tj.: reguła brzegowa (ang. sum rule) p(x) = y p(x, y) reguła łańcuchowa (ang. product rule) p(x, y) = p(x y) p(y) ˆ Rozpatrzmy prosty przykład dla zmiennych dyskretnych: p(x, y) y = 1y = 2 x = 3 0.3 0.2 0.5 p(x) x = 2 x = 1 0.2 0.1 0.1 0.1 0.3 0.2 p(y) 0.6 0.4 Rysunek 1.2: Przykład rozkładów prawdopodobieństwa. ˆ Przykład zastosowania reguły łańcuchowej: p(x y = 2) = p(x, y = 2) p(y = 2) ˆ Dla zmiennych ciągłych rozkład prawdopodobieństwa zadany jest przy pomocy funkcji gęstości. ˆ Interesuje nas, że zmienna losowa przyjmuje wartości z ustalonego zakresu (a, b): p(x (a, b)) = b a p(x)dx ˆ Funkcja gęstości p(x) całkuje się do 1 i spełnia reguły rachunku prawdopodobieństwa: reguła brzegowa: p(x) = p(x, y)dy reguła łańcuchowa: p(x, y) = p(x y)p(y)

1.1. WPROWADZENIE. ZMIENNE LOSOWE 3 p(x, y) y = 1y = 2 p(x y = 2) x = 3 0.3 0.2 0.5 x = 2 x = 1 0.2 0.1 0.1 0.1 0.25 0.25 p(y) 0.6 0.4 p(x, y = 2) Rysunek 1.3: Przykład zastosowania reguł rachunku prawdopodobieństwa. Rysunek 1.4: Przykład funkcji gęstości i rozkładu prawdopodobieństwa (dystrybuanty).

4 ROZDZIAŁ 1. POJĘCIA PODSTAWOWE 1.2 Wnioskowanie ˆ Zakładamy dwa rodzaje zmiennych losowych: Zmienne wejściowe (ang. inputs): x Zmienne wyjściowe (ang. outputs): y ˆ Zmienne mają wspólny rozkład p(x, y), który dla nas jest nieznany. ˆ Wiemy, że istnieje zależność między zmiennymi x i y. ˆ Zakładamy, że ta zależność może być przybliżona zależnością funkcyjną y = f(x), tj. ustalonemu x odpowiada dokładnie jedna wartość y. Rysunek 1.5: Idea wnioskowania, tj. istnienia zależności między zmiennymi. ˆ Wyznaczenie wartości y na podstawie x nazywamy podejmowaniem decyzji (ang. decision making), wnioskowaniem (ang. inference) albo predykcją (ang. prediction). ˆ W celu znalezienia zależności f(x) minimalizować będziemy ryzyko: R[f] = L(y, f(x)) p(x, y)dxdy = E x,y [ L(y, f(x)) ].

1.3. MODELOWANIE 5 ˆ L oznacza funkcję straty (ang. loss function): 1, jeśli y f(x) L(y, f(x)) = 0, w p.p. (klasyfikacja) L(y, f(x)) = ( y f(x) ) 2 (regresja) ˆ Można pokazać, że w celu minimalizacji ryzyka R[f] wystarczy minimalizować E y [ L(y, f(x)) x ]. f (x) = arg max p(y x) y [ ] f (x) = E y y x = y p(y x)dy (klasyfikacja) (regresja) 1.3 Modelowanie ˆ Najogólniej relacja pomiędzy zmiennymi x i y może być opisana przy pomocy łącznego rozkładu p(x, y). Wtedy rozkład warunkowy p(y x), na podstawie którego wnioskujemy, wyznaczamy z zależności: p(y x) = p(x, y) p(x) = p(x, y) y p(x, y) ˆ Zakładamy, że rzeczywisty rozkład p(x, y) może być zamodelowany poprzez p(x, y θ ), gdzie parametry θ nie są dla nas znane. ˆ Znana jest jedynie postać modelu p(x, y θ). ˆ Przykładowo p(x, y θ) = N (x, y µ, Σ), gdzie postać modelu to rozkład normalny, a parametry θ = {µ, Σ}. ˆ Modele generujące (ang. generative models) modelujemy osobno rozkłady p(x y, θ) i p(y θ). Wtedy p(x, y θ) = p(x y, θ) p(y θ), skąd p(y x, θ) = p(x y, θ) p(y θ) y p(x y, θ) p(y θ). ˆ Modele dyskryminujące (ang. discriminative models) bezpośrednio modelujemy rozkład warunkowy na zmienną decyzyjną, p(y x, θ). ˆ Modele funkcyjne (ang. discriminant functions) bezpośrednio modelujemy zależność funkcyjną y = f(x; θ), bez korzystania z prawdopodobieństw.

6 ROZDZIAŁ 1. POJĘCIA PODSTAWOWE 1.4 Uczenie Rysunek 1.6: Idea modelowania. ˆ Dysponujemy ciągiem niezależnych obserwacji D = {(x 1, y 1 ),..., (x N, y N )}, wygenerowanych z rzeczywistego rozkładu p(x, y). ˆ Uczenie polega na optymalizowaniu względem θ wybranej funkcji kosztu dopasowującej model p(x, y θ) do obserwacji D. ˆ Definiujemy wiarygodność (ang. likelihood) parametrów przy danym ciągu obserwacji: N p(d θ) = p(x n, y n θ) ˆ Wartość wiarygodności mówi o pewności z jaką nasz model o ustalonych parametrach θ mógł wygenerować obserwacje D. ˆ Niepewność parametru θ będziemy modelować rozkładem a priori p(θ) (ang. prior). ˆ Reguły prawdopodobieństwa (wzór Bayesa) pozwalają modyfikować niepewność parametru poprzez uwzględnienie obserwacji. ˆ Otrzymujemy rozkład a posteriori (ang. posterior): p(θ D) = p(d θ)p(θ) p(d) posterior likelihood prior ˆ Można pokazać, że jeśli θ jest rzeczywistym parametrem, który odpowiada za generowanie danych, to jeśli p(θ ) > 0, wtedy: lim p(θ D n) = δ(θ θ ) n

1.5. SYSTEMY DYNAMICZNE 7 Rysunek 1.7: Idea uwzględnienia niepewności parametrów w modelowaniu. ˆ Uczenie częstościowe (ang. frequentist learning) wyznaczenie estymatora punktowego parametrów θ: estymacja maksymalnej wiarygodności (ang. maximum likelihood estimation, ML): θ ML = arg max p(d θ), θ estymacja maksymalnej a posteriori (ang. maximum a posteriori estimation, MAP): θ MAP = arg max p(θ D). θ ˆ Uczenie bayesowskie (ang. Bayesian learning) wyznaczenie rozkładu predykcyjnego (ang. predictive distribution), tj. wycałkowanie względem nieznanych parametrów: p(y x, D) = 1.5 Systemy dynamiczne p(y x, θ) }{{} model p(θ D) dθ. }{{} posterior ˆ Dotychczas rozważaliśmy zjawiska, które nie zależały od czasu, tj. zakładaliśmy, że obserwowane dane są generowane niezależnie z tego samego rozkładu (independent and identically distributed i.i.d.). Jednakże w wielu przypadkach założenie to jest nieprawdziwe. Dlatego też rozważa się sytuacje dla danych sekwencyjnych. ˆ Dane sekwencyjne zazwyczaj pojawiają się przy okazji pomiarów szeregów czasowych, np. pomiarów opadów deszczu w kolejnych dniach na zadanym obszarze, dzienne wartości kursu walut, czy wartości cech akustycznych w kolejnych klatkach nagrania mowy. Sekwencyjność danych może nie zależeć od czasu, np. kolejność nukleotydów w DNA, kolejność liter czy wyrazów w tekście pisanym.

8 ROZDZIAŁ 1. POJĘCIA PODSTAWOWE ˆ Warto również rozróżnić pomiędzy rozkładami stacjonarnymi a niestacjonarnymi. W przypadku stacjonarnym dane ewoluują w czasie, ale rozkład, z którego są generowane, pozostaje bez zmian. Natomiast w przypadku niestacjonarnym rozkład jest zmienny w czasie. ˆ Istnieje wiele sposobów pozwalających na modelowanie danych sekwencyjnych, np.: modelowanie deterministyczne: * równania różniczkowe (czas ciągły): * równania różnicowe (czas dyskretny): modelowanie probabilistyczne: dx dt = f(x) x n+1 = f(x n ) * modele (łańcuchy) Markowa, tzn. rozkład dla obecnego stanu zależy od stanów poprzednich, na przykład model Markowa pierwszego rzędu: i funkcja wiarygodności: * Systemy dynamiczne (szum: η x, η y ): p(x n+1 x 1,..., x n ) = p(x n+1 x n ) N p(x 1,..., x N ) = p(x 1 ) p(x n x n 1 ) n=2 x n+1 = f(x n, η x ) y n+1 = g(x n+1, η y ) oraz ich szczególny przypadek Liniowych Systemów Dynamicznych (zakłada się szum gaussowski η x i η y ): p(x n+1 x n ) = N (x n+1 Ax n, Σ x ) p(y n+1 x n+1 ) = N (y n+1 Bx n+1, Σ y )

Rozdział 2 Podstawowe problemy 2.1 Wstęp ˆ Interesuje nas poznanie rozważanego zjawiska. W tym celu chcemy odkryć zależności między wielkościami występującymi w zjawisku. Przez x X, gdzie X = X 1... X D, oznaczamy wielkości wejściowe (wejścia), zaś przez y Y wielkości wyjściowe (wyjście). Zależność zapisujemy jako f : X Y. x f(x) y Rysunek 2.1: Diagram blokowy opisujący rozpatrywaną zależność zjawiska. Przykłady: x cukier drożdże woda f(x) y etanol Rysunek 2.2: Diagram blokowy opisujący zależność zjawiska chemicznego. ˆ Opisanie zależności za pomocą zadanej klasy modeli nazywamy modelowaniem. ˆ W przypadku, gdy rozpatrujemy modele parametryczne (tj. takie, w których skończony zestaw parametrów koduje informacje o zjawisku), to wybór modelu polega na ustaleniu (uczeniu) parametrów. Wyszczególniamy parametry w R D w modelu ȳ(x; w). 9

10 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY x zdjęcie f(x) y twarz Rysunek 2.3: Diagram blokowy opisujący zależność zjawiska rozpoznawania twarzy. ˆ Zjawisko znane jest wyłącznie poprzez obserwacje (dane): D = {(x n, y n )} N. Ważne jest, czy rozważane zjawisko można traktować jako statyczne (zależność sekwencyjna danych jest pomijalna), czy sekwencyjne (w szczególnym przypadku dynamiczne, tj. sekwencyjność jest wyrażona poprzez zależność czasową). ˆ Czasem w literaturze przedmiotu złożony proces składający się z przeprowadzenia eksperymentu (zebranie danych), wyboru klasy modeli oraz uczenia nazywa się identyfikacją systemów. 2.2 Zjawiska deterministyczne ˆ W najprostszym przypadku mamy sytuację, gdy dokładnie wiemy jaka zależność nas interesuje, tj. znamy klasę modelu. Mniej restrykcyjny przypadek zakłada, że rzeczywistość może być prawie idealnie opisana pewną klasą modelu (patrz przykład z produkcją etanolu). ˆ Przypadek ten określany jest jako obiekt (zjawisko) w klasie modeli. ˆ Zadanie znalezienia opisu zjawiska w klasie modeli polega więc na dopasowaniu modelu do danych. ˆ Inne przykłady: wyznaczanie trendu liniowego (mimo że zjawisko może być silnie nieliniowe, to często wyznaczenie trendu liniowego jest wystarczające, żeby pobieżnie poznać charakter zjawiska), poznanie reguł gry w karty. ˆ W praktyce przypadek zjawiska w klasie modeli jest rzadko spotykany ze względu na występujące zakłócenia lub niemożność wyizolowania zjawiska, co wiąże się z niemożnością obserwacji wszystkich czynników wpływających na zjawisko. ˆ Wówczas rozpatruje się przypadek wyboru optymalnego modelu. Warto zaznaczyć, iż nadal traktujemy zjawisko jako deterministyczne, tj. zależności w nim występujące nie są losowe, ale dopuszczamy występowanie zakłóceń zewnętrznych.

2.2. ZJAWISKA DETERMINISTYCZNE 11 ˆ Wybór modelu (parametrycznego) polega na znalezieniu wartości parametrów, dla których dla występuje najlepsze dopasowanie modelu do danych. W tym celu należy zdefiniować funkcję dopasowania modelu do danych, np. (przyjmujemy zapis: ȳ(x n ; w) = ȳ n, ȳ(x; w) = ȳ): Q(w) = y ȳ 2 2 N = (y n ȳ n ) 2 (norma euklidesowa (l 2 )) Q(w) = y ȳ 1 N = y n ȳ n (norma l 1 ) ˆ Liniowe zadanie najmniejszych kwadratów. W przypadku, gdy model możemy wyrazić za pomocą funkcji bazowych φ(x), to wówczas dla kryterium kwadratowego (normy euklidesowej) mamy: Q(w) = y Φw 2 2 Licząc gradient i przyrównując do zera: w Q(w) = 0 otrzymujemy formę zamkniętą rozwiązania: w = (Φ Φ) 1 Φ y. ˆ Forma zamknięta może być uciążliwa do policzenia ze względu na problem z odwróceniem macierzy Φ Φ. Dodatkowo, w przypadku danych napływających w strumieniu danych, przydatne byłoby zastosowanie technik uczenia przyrostowego. W tym celu można stosować metodę optymalizacji stochastycznej (ang. stochastic gradient descent): w := w η w Q n (w) gdzie Q n (w) = (y n ȳ n ) 2. Dla modelu liniowego z funkcjami bazowymi: ( ) w := w η y n φ(x n ) w φ(x n ). ˆ Liniowe zadanie najmniejszych kwadratów z regularyzacją l 2. W celu uniknięcia zbytniego dopasowania (ang. overfitting) modyfikuje się kryterium kwadratowe poprzez dodanie drugiej normy na parametry, czyli regularyzacji: Q(w) = y Φw 2 2 + λ w 2 2,

12 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY gdzie λ > 0 współczynnik regularyzacji. Licząc gradient i przyrównując do zera otrzymyjemy formę zamkniętą rozwiązania (I macierz jednostkowa): w = (Φ Φ + λi) 1 Φ y. ˆ Dodanie regularyzacji powoduje ściąganie wartości parametrów do 0. Siła ściągania zależy od wartości λ. 2.3 Zjawiska probabilistyczne ˆ Bardziej naturalnym podejściem do modelowania jest założenie wprost, iż rozpatrywane wielkości są stochastyczne (są zmiennymi losowymi) ze względu na występujące zakłócenia i/lub niemożność obserwacji wszystkich wielkości występujących w zjawisku. ˆ Alternatywną formą reprezentowania zależności między zmiennymi losowymi są probabilistyczne modele grafowe, w których węzły reprezentują zmienne losowe, zaś krawędzie (łuki) warunkowe zależności stochastyczne. x y Rysunek 2.4: Probabilistyczny model grafowy opisujący rozpatrywaną zależność zjawiska. w x y Rysunek 2.5: Probabilistyczny model grafowy dla modelu parametrycznego opisującego rozpatrywaną zależność zjawiska. ˆ Przed przejściem do modelowania i uczenia wprowadzimy podstawowe techniki pojęcia na przykładzie obserwacji pojedynczej wielkości x, która jest zmienną losową. Możemy myśleć o obserwacji pewnej wielkości przy zakłóceniach z związanych z pomiarem. Zakłócenie może mieć np. charaketer addytywny.

2.3. ZJAWISKA PROBABILISTYCZNE 13 ˆ Załóżmy, że posiadamy N pomiarów D = {x n } N, które są niezależne i są generowane z tego samego rozkładu p(x) (tzw. założenie iid, ang. independent and identically distributed). ˆ Dalej przyjmujemy, że będziemy modelować rozkład prawdopodobieństwa zmiennej x za pomocą modelu p(x w) o parametrach w. ˆ Estymacja ML. Dopasowanie modelu do danych będziemy wyrażać za pomocą funkcji wiarygodności (lub krótko wiarygodności): l(w) = p(d w) N = p(x n w). Wartości parametrów będziemy szukali poprzez maksymalizację wiarygodności: w ML = arg max p(d w). w Otrzymane wartości nazywane są estymatorami maksymalnej wiarygodności. Ze względów praktycznych często wygodniej jest operować na negatywnym logarytmie wiarygodności (logarytm nie zmienia monotoniczności funkcji oraz jest funkcją wklęsłą): Licząc gradient i przyrównując do zera: log l(w) = log p(d w) N = log p(x n w). w log l(w) = 0 N w log p(x n w) = 0 otrzymamy wartości parametrów minimalizujące negatywny logarytm wiarygodności. ˆ Estymacja MAP. Dodatkowo możemy posiadać wiedzę aprioryczną (przed dokonaniem obserwacji) dot. wartości parametrów, p(w). Jest to rozkład a priori na parametry. Wówczas korzystając ze wzoru Bayesa możemy wyznaczyć rozkład a posteriori na parametry: p(w D) = p(d w)p(w) p(d) Wyznaczenie wartości parametrów maksymalizujących rozkład a posteriori: w MAP = arg max p(w D) w

14 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY prowadzi do estymatorów maksymalnego a posteriori (MAP). Wygodniej jest wyznaczać wartości parametrów dla logarytmu z rozkładu a posteriori: log p(w D) = log p(d w)p(w) p(d) = log p(d w)p(w) log p(d) Licząc następnie gradient i przyrównując do zera: = log p(d w) + log p(w) log p(d). w log p(w D) = 0 w log p(d w) + w log p(w) w log p(d) = 0 w log p(d w) + w log p(w) = 0. ˆ Estymacja Bayesa. W wielu zastosowaniach, np. w ekonomii czy medycynie, przyjęcie jednych wartości może wiązać się z dodatkowym kosztem lub stratą, dlatego też wprowadza się funkcję straty: L : W W R +. Wówczas definiuje się oczekiwaną funkcji strat, czyli tzw. ryzyko: R[w B ] = L(w, w B )p(w, x)dwdx = L(w, w B )p(w x)dw p(x)dx = E w,x [L(w, w B )] gdzie w B poszukiwane wartości parametrów. Zwróćmy uwagę, iż wystarczy rozpatrywać rozkład warunkowy, co prowadzi do ryzyka warunkowego: R[w B x] = L(w, w B )p(w x)dw = E w x [L(w, w B )]. Wówczas interesuje nas znalezienie takich wartości parametrów, które minimalizują ryzyko warunkowe: w B = arg min R[w B x]. w Wartości parametrów minimalizujące ryzyko warunkowe nazywa się estymatorami Bayesa. Zauważmy, że dla funkcji straty L(w, w B ) = δ(w w B ), gdzie δ( ) jest deltą Diraca, otrzymujemy przypadek estymatora MAP.

2.4. PROBLEM REGRESJI 15 Biorąc inną funkcję straty, tj. L(w, w B ) = (w w B ) 2, otrzymujemy estymator średniej a posteriori. Licząc ryzyko warunkowe: R[w B x] = E w x [(w w B ) 2 ] = E w x [w 2 ] 2w B E w x [w] + wb. 2 Wówczas licząc gradient po w B i przyrównując do zera otrzymujemy: wb R[w B x] = 0 2E w x [w] + 2w B = 0 w B = wp(w x)dw = E w x [w] 2.4 Problem regresji ˆ Rozkład normalny (ang. normal distribution) zadaje rozkład prawdopodobieństwa na zmiennej ciągłej x. x N (x µ, σ 2 ) oznacza, że zmienna została wygenerowana z rozkładu normalnego. Funkcja gęstości: Parametryzacja: N (x µ, σ 2 ) = 1 σ 2π exp ( ) (x µ)2 2σ 2 Parametr µ pokrywa się z wartością oczekiwaną (także z modą i medianą), tj. E[x] = µ Parametr σ 2 pokrywa się z wariancją, tj. var[x] = σ 2 ˆ Wielowymiarowy rozkład normalny (ang. multivariate normal distribution) zadaje rozkład na wektorze x R D Funkcja gęstości: Parametryzacja: N (x µ, Σ) = ( 1 (2π) D/2 Σ exp 1 ) 1/2 2 (x µ) Σ 1 (x µ)

16 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY Wektor parametrów µ pokrywa się z wartością oczekiwaną, tj. E[x] = µ Macierz parametrów Σ pokrywa się z kowariancją wektora x, tj. cov[x] = Σ Macierz Σ jest symetryczna i dodatnio określona. ˆ Problem regresji. Zmienne wejściowe (ang. input variables): x X (zazwyczaj X = R D lub X = {0, 1} D ). Zmienna wyjściowa (ang. target variable): y R. Problem: dla zadanego ciągu uczącego D = {(x n, y n )} N przewidzieć wartość y dla nowego x. Zgodnie z teorią decyzji pokazaliśmy, że wystarczy znać rozkład warunkowy p(y x), zatem musimy go modelować. ˆ Model regresji liniowej. Modelem regresji liniowej (ang. linear regression) nazywamy następujące wyrażenie: y = f(x, w) + ε gdzie funkcja f(x, w) = w φ(x) jest kombinacją liniową M funkcji bazowych φ m (x). Zmienna ε N (ε 0, β 1 ) modeluje niepewność obserwacji y. Zatem model rozkładu warunkowego p(y x) ma następującą postać: p(y x, w, β) = N (y w T φ(x), β 1 ). Parametrami modelu regresji liniowej są w R M i β R. Wartości funkcji φ 1 (x),..., φ M (x) nazywane są cechami (ang. features) wyekstrahowanymi z obserwacji x. Przykładowe cechy mogą mieć postać: φ 1 (x) = x (1), φ 2 (x) = ln(x (3) ), φ 3 (x) = x (3) x (2). Dzięki ekstrakcji cech mamy możliwość użycia nieliniowych przekształceń danych wejściowych oraz dalsze rozważania nie są zależne od postaci φ. Model regresji liniowej stosujemy: Gdy zbiór cech φ 1 (x),..., φ M (x) wynika w sposób naturalny. Inaczej istnieją lepsze modele.

2.4. PROBLEM REGRESJI 17 Gdy dane są wysokowymiarowe, N << D i potrafimy podać pewien niskowymiarowy sensowny zbiór cech. Gdy decydującym czynnikiem jest czas wyliczenia odpowiedzi modelu. ˆ Estymacja maksymalnej wiarygodności (ML) dla regresji liniowej Dysponujemy danymi X = {x 1,..., x N }, y = {y 1,..., y N }. Warunkowa funkcja wiarygodności jest następująca: N p(y X, w, β) = N (y n w φ(x n ), β 1 ). Logarytm funkcji wiarygodności N ln p(y X, w, β) = ln N (y n w φ(x n ), β 1 ) = N 2 ln β N ln(2π) βj(w) 2 gdzie J(w) jest sumą kwadratów błędów, J(w) = 1 N (y n w φ(x n )) 2. 2 Logarytm funkcji wiarygodności jest funkcją celu, którą optymalizujemy względem parametrów w. Przyrównując gradient z logarytmu funkcji wiarygodności do zera N ln p(y X, w, β) = y n φ(x n ) w i rozwiązując względem w otrzymujemy N φ(x n )φ(x n ) = 0 w ML = (Φ Φ) 1 Φ y (równania normalne) Φ = φ 1 (x 1 ) φ 2 (x 1 ) φ M (x 1 )...... φ 1 (x N ) φ 2 (x N ) φ M (x N ) (design matrix) Optymalizując względem β: 1 β ML = 1 N N ( yn wmlφ(x n ) ) 2.

18 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY ˆ Estymacja ML: Rozwiązanie numeryczne. Algorytm gradientu prostego: Initialize w repeat for i = 1 M do w i w i α w i J(w) end for until convergence Dla przypadku regresji: J(w) = 1 N (y n w φ(x n )) 2 2 w i J(w) = N ( yn w i φ i (x n ) ) φ i (x n ). ˆ Estymator maksymalnej a posteriori dla regresji liniowej. Rozkład a priori parametrów uwzględnia przekonania odnośnie parametrów przed zaobserowaniem danych, p(w m 0, S 0 ) = N (w m 0, S 0 ). Rozkład a posteriori parametrów uaktualnienie apriorycznych przekonań o parametrach poprzez uwzględnienie danych, p(w y) p(y w) }{{} likelihood Estymator maksymalnej a posteriori (MAP): p(w). }{{} prior w MAP = arg max p(w y). w Rozkład a priori oraz wiarygodność są rozkładami normalnymi, tj. mamy do czynienia z liniowym modelem gaussowskim, więc (przy ustalonym β): p(w y) = N (w m N, S N ) m N = S N ( S 1 0 m 0 + βφ y ) S 1 N = S 1 0 + βφ Φ Skąd estymator MAP: w MAP = m N.

2.4. PROBLEM REGRESJI 19 Zakładając, że parametry są niezależnymi zmiennymi losowymi o jednakowej precyzji α 1, otrzymujemy szczególny przypadek m 0 = 0, S 0 = α 1 I, m N = βs N Φ y S 1 N = αi + βφ Φ ˆ Estymator MAP a regularyzacja Tichonowa. Zauważmy, że licząc logarytm z rozkładu a posteriori otrzymujemy sumę kwadratów błędów oraz dodatkowe wyrażenie: ln p(w y) = β N ( yn w φ(x n ) ) 2 α 2 2 w w +const. }{{}}{{} regularyzacja βj(w) Taki sam wynik otrzymamy, jeżeli w estymacji ML dodamy wyrażenie zwane regularyzatorem Tichonowa: gdzie λ parametr regularyzacji. J(w) + λ 2 w w. }{{} reg. Tichonowa Rozwiązując względem w: w λ = (λi + Φ Φ) 1 Φ y. Zauważmy, że w MAP = w λ dla λ = α β. Model ten nazywa się regresją grzbietową (ang. ridge regression).