Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy predykcję poprzez poznanie zjawiska lub naśladowanie zjawiska. W celu formalnego opisania zjawiska posługiwać się będziemy pojęciem zmiennej losowej. Rysunek 1: Idea reprezentowania stanu świata za pomocą związków między różnymi wielkościami. Chcielibyśmy móc mierzyć nasze przekonanie (ang. belief ) związane z obserwacją świata x. Postulaty dot. miary przekonania b(x) podane przez Coxa: 1. Siła przekonania wyrażona za pomocą liczb rzeczywistych, np. 0 b(x) 1. 2. Jakościowa zgodność ze zdrowym rozsądkiem, tj. b(x) + b( x) = 1. 3. Spójność, tzn. jeśli konkluzja może być otrzymana w różny sposób, to każdy z tych sposobów musi dawać tę samą odpowiedź, tj. b(x, y z) = b(x z) b(y x, z) = b(y z) b(x y, z). Okazuje się, że miara przekonania musi spełniać zasady rachunku prawdopodobieństwa, tj.: 1
reguła brzegowa (ang. sum rule) p(x) = y p(x, y) reguła łańcuchowa (ang. product rule) p(x, y) = p(x y) p(y) Rozpatrzmy prosty przykład dla zmiennych dyskretnych: p(x, y) y = 1y = 2 p(x) x = 3 x = 2 x = 1 0.3 0.2 0.2 0.1 0.1 0.1 0.5 0.3 0.2 p(y) 0.6 0.4 Rysunek 2: Przykład rozkładów prawdopodobieństwa. Przykład zastosowania reguły łańcuchowej: p(x y = 2) = p(x, y = 2) p(y = 2) Dla zmiennych ciągłych rozkład prawdopodobieństwa zadany jest przy pomocy funkcji gęstości. Interesuje nas, że zmienna losowa przyjmuje wartości z ustalonego zakresu (a, b): p(x (a, b)) = b a p(x)dx Funkcja gęstości p(x) całkuje się do 1 i spełnia reguły rachunku prawdopodobieństwa: reguła brzegowa: p(x) = p(x, y)dy reguła łańcuchowa: p(x, y) = p(x y)p(y) 2
p(x, y) y = 1y = 2 p(x y = 2) x = 3 0.3 0.2 0.5 x = 2 x = 1 0.2 0.1 0.1 0.1 0.25 0.25 p(y) 0.6 0.4 p(x, y = 2) Rysunek 3: Przykład zastosowania reguł rachunku prawdopodobieństwa. Rysunek 4: Przykład funkcji gęstości i rozkładu prawdopodobieństwa (dystrybuanty). 3
2 Wnioskowanie Zakładamy dwa rodzaje zmiennych losowych: Zmienne wejściowe (ang. inputs): x Zmienne wyjściowe (ang. outputs): y Zmienne mają wspólny rozkład p(x, y), który dla nas jest nieznany. Wiemy, że istnieje zależność między zmiennymi x i y. Zakładamy, że ta zależność może być przybliżona zależnością funkcyjną y = f(x), tj. ustalonemu x odpowiada dokładnie jedna wartość y. Rysunek 5: Idea wnioskowania, tj. istnienia zależności między zmiennymi. Wyznaczenie wartości y na podstawie x nazywamy podejmowaniem decyzji (ang. decision making), wnioskowaniem (ang. inference) albo predykcją (ang. prediction). W celu znalezienia zależności f(x) minimalizować będziemy ryzyko: R[f] = L(y, f(x)) p(x, y)dxdy [ ] = E x,y L(y, f(x)). 4
L oznacza funkcję straty (ang. loss function): 1, jeśli y f(x) L(y, f(x)) = 0, w p.p. (klasyfikacja) L(y, f(x)) = ( y f(x) ) 2 (regresja) Można pokazać, że w celu minimalizacji ryzyka R[f] wystarczy minimalizować E y [ L(y, f(x)) x ]. f (x) = arg max p(y x) y [ ] f (x) = E y y x = y p(y x)dy (klasyfikacja) (regresja) 3 Modelowanie Najogólniej relacja pomiędzy zmiennymi x i y może być opisana przy pomocy łącznego rozkładu p(x, y). Wtedy rozkład warunkowy p(y x), na podstawie którego wnioskujemy, wyznaczamy z zależności: p(y x) = p(x, y) p(x) = p(x, y) y p(x, y) Zakładamy, że rzeczywisty rozkład p(x, y) może być zamodelowany poprzez p(x, y θ ), gdzie parametry θ nie są dla nas znane. Znana jest jedynie postać modelu p(x, y θ). Przykładowo p(x, y θ) = N (x, y µ, Σ), gdzie postać modelu to rozkład normalny, a parametry θ = {µ, Σ}. Modele generujące (ang. generative models) modelujemy osobno rozkłady p(x y, θ) i p(y θ). Wtedy p(x, y θ) = p(x y, θ) p(y θ), skąd p(y x, θ) = p(x y, θ) p(y θ) y p(x y, θ) p(y θ). Modele dyskryminujące (ang. discriminative models) bezpośrednio modelujemy rozkład warunkowy na zmienną decyzyjną, p(y x, θ). Modele funkcyjne (ang. discriminant functions) bezpośrednio modelujemy zależność funkcyjną y = f(x; θ), bez korzystania z prawdopodobieństw. 5
Rysunek 6: Idea modelowania. 4 Uczenie Dysponujemy ciągiem niezależnych obserwacji D = {(x 1, y 1 ),..., (x N, y N )}, wygenerowanych z rzeczywistego rozkładu p(x, y). Uczenie polega na optymalizowaniu względem θ wybranej funkcji kosztu dopasowującej model p(x, y θ) do obserwacji D. Definiujemy wiarygodność (ang. likelihood) parametrów przy danym ciągu obserwacji: N p(d θ) = p(x n, y n θ) n=1 Wartość wiarygodności mówi o pewności z jaką nasz model o ustalonych parametrach θ mógł wygenerować obserwacje D. Niepewność parametru θ będziemy modelować rozkładem a priori p(θ) (ang. prior). Reguły prawdopodobieństwa (wzór Bayesa) pozwalają modyfikować niepewność parametru poprzez uwzględnienie obserwacji. Otrzymujemy rozkład a posteriori (ang. posterior): p(θ D) = p(d θ)p(θ) p(d) posterior likelihood prior Można pokazać, że jeśli θ jest rzeczywistym parametrem, który odpowiada za generowanie danych, to jeśli p(θ ) > 0, wtedy: lim p(θ D n) = δ(θ θ ) n 6
Rysunek 7: Idea uwzględnienia niepewności parametrów w modelowaniu. Uczenie częstościowe (ang. frequentist learning) wyznaczenie estymatora punktowego parametrów θ: estymacja maksymalnej wiarygodności (ang. maximum likelihood estimation, ML): θ ML = arg max p(d θ), θ estymacja maksymalnej a posteriori (ang. maximum a posteriori estimation, MAP): θ MAP = arg max p(θ D). θ Uczenie bayesowskie (ang. Bayesian learning) wyznaczenie rozkładu predykcyjnego (ang. predictive distribution), tj. wycałkowanie względem nieznanych parametrów: 5 Systemy dynamiczne p(y x, D) = p(y x, θ) }{{} model p(θ D) dθ. }{{} posterior Dotychczas rozważaliśmy zjawiska, które nie zależały od czasu, tj. zakładaliśmy, że obserwowane dane są generowane niezależnie z tego samego rozkładu (independent and identically distributed i.i.d.). Jednakże w wielu przypadkach założenie to jest nieprawdziwe. Dlatego też rozważa się sytuacje dla danych sekwencyjnych. Dane sekwencyjne zazwyczaj pojawiają się przy okazji pomiarów szeregów czasowych, np. pomiarów opadów deszczu w kolejnych dniach na zadanym obszarze, dzienne wartości kursu walut, czy wartości cech akustycznych w kolejnych klatkach nagrania mowy. Sekwencyjność danych może nie zależeć od czasu, np. kolejność nukleotydów w DNA, kolejność liter czy wyrazów w tekście pisanym. 7
Warto również rozróżnić pomiędzy rozkładami stacjonarnymi a niestacjonarnymi. W przypadku stacjonarnym dane ewoluują w czasie, ale rozkład, z którego są generowane, pozostaje bez zmian. Natomiast w przypadku niestacjonarnym rozkład jest zmienny w czasie. Istnieje wiele sposobów pozwalających na modelowanie danych sekwencyjnych, np.: modelowanie deterministyczne: równania różniczkowe (czas ciągły): równania różnicowe (czas dyskretny): modelowanie probabilistyczne: dx dt = f(x) x n+1 = f(x n ) modele (łańcuchy) Markowa, tzn. rozkład dla obecnego stanu zależy od stanów poprzednich, na przykład model Markowa pierwszego rzędu: i funkcja wiarygodności: Systemy dynamiczne (szum: η x, η y ): p(x n+1 x 1,..., x n ) = p(x n+1 x n ) N p(x 1,..., x N ) = p(x 1 ) p(x n x n 1 ) n=2 x n+1 = f(x n, η x ) y n+1 = g(x n+1, η y ) oraz ich szczególny przypadek Liniowych Systemów Dynamicznych (zakłada się szum gaussowski η x i η y ): p(x n+1 x n ) = N (x n+1 Ax n, Σ x ) p(y n+1 x n+1 ) = N (y n+1 Bx n+1, Σ y ) 8