Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym z parametrem θ [0, 1], gdzie zmienna x przyjmuje wartość 1, jeśli pojawiająca się wiadomość jest spamem. Pewien użytkownik otagował N wiadomości. Korzystając z metody największej wiarygodności wyznaczyć estymator parametru θ. Zad. 2 Populacja studentów Politechniki Wrocławskiej została podzielona na trzy grupy: 1. Studenci osiągający średnią do 3.5. 2. Studenci osiągający średnią od 3.5 do 4.5. 3. Studenci osiągający średnią powyżej 4.5. Populacja studentów opisana jest wektorem losowym x = (x 1 x 2 x 3 ) T, przyjmującym trzy wartości (1 0 0) T, gdy student należy do pierwszej grupy, (0 1 0) T, gdy student należy do drugiej grupy i (0 0 1) T, gdy student należy do trzeciej grupy. Rozkład zmiennej x wyraża się za pomocą rozkładu wielopunktowego o wektorze parametrów θ = (θ 1 θ 2 θ 3 ) T. Z populacji studentów wybrano N obserwacji. Korzystając z metody największej wiarygodności wyliczyć estymator parametrów θ. Zad. 3 Alarm samochodowy uzależnia swoje działanie od czujnika badającego poziom ultradźwięków w kabinie. Czujnik przed rozpoczęciem działania wymaga kalibracji. Przyjęto, że pomiary dokonywane przez czujnik są realizacjami zmiennej losowej x o rozkładzie normalnym N (x µ, σ 2 ). Dokonano N pomiarów, gdy w kabinie nie występował żaden ruch. Korzystając z metody największej wiarygodności wyznaczyć estymatory parametrów µ i σ 2. Zad. 4 Charakterystyka wybranego słowa wypowiadanego przez człowieka opisana jest wektorem losowym cech x = (x 1... x D ) T przyjmującym wartości z wielowymiarowego rozkładu normalnego 1
N (x µ, Σ). Pobrano N próbek danego słowa wypowiadanego przez różne osoby. Korzystając z metody największej wiarygodności wyznaczyć estymatory µ i Σ. Jaka przykładowa metoda może być zastosowana do ekstrakcji wektora cech x z fali dźwiękowej? Zad. 5 Niech zmienna losowa x {0, 1} oznacza odpowiednio porażkę lub zwycięstwo Śląska Wrocław w meczu. Zmienna x opisana jest rozkładem dwupunktowym B(x θ). Zebrano wyniki N spotkań. Przyjmując rozkład a priori Beta(θ a, b), wyznaczyć estymator MAP (maksymalnego a posteriori) parametru θ. Jak można zinterpretować parametry a i b? Teoria decyzji Zad. 6 (regresja) Dla zmiennych losowych x, y R o łącznym rozkładzie prawdopodobieństwa p(x, y) wyznaczyć optymalny model y(x) minimalizujący ryzyko (średnią stratę) w podejmowaniu decyzji. Przyjąć kwadratową funkcję straty L(y, y) = 1 2 (y y)2. Zad. 7 (klasyfikacja) Dla zmiennych losowych x R, y {1,..., L} o łącznym rozkładzie prawdopodobieństwa p(x, y) wyznaczyć optymalny model y(x) minimalizujący ryzyko (średnią stratę) w podejmowaniu decyzji. Przyjąć zero-jedynkową funkcję straty 0, y = y L(y, y) = 1, y y. Zad. 8 Zmienna losowa T {0, 1} oznacza czy zajazd udostępnia pokoje dla turystów, zmienna S {0, 1} oznacza czy jest sezon turystyczny, zmienna L {0, 1} oznacza czy jest ładna pogoda. Dane są następujące prawdopodobieństwa p(t = 1 S = 1, L = 1) = 0.9, p(t = 1 S = 0, L = 1) = 0.3 oraz p(s = 1 L = 1) = 0.2. Należy wyznaczyć p(t = 1 L = 1) i p(t = 0 L = 1) i na tej podstawie podjąć decyzję czy zajazd udostępnia pokoje dla turystów, jeśli wiemy, że jest ładna pogoda. Model regresji liniowej Zad. 9 Na przełomie roku zebrano N obserwacji D = {(x n, y n )} N n=1, gdzie x n oznacza cenę euro, a y n cenę dolara. Przyjmując model y = φ(x) T w + ε, 2
gdzie w = (w 0... w M 1 ) T, φ(x) = (φ 0 (x)... φ M 1 (x)) T, ε N (ε 0, σ 2 ). Korzystając z metody największej wiarygodności dopasować model regresji liniowej do ciągu obserwacji D wyznaczyć estymatory w i σ 2. Jaką dodatkową informację wnosi ten model w porównaniu do modelu z zadania 4 (lista nr 2)? Zad. 10 Dla problemu jak w zadaniu 10 dodatkowo przyjąć, że znany jest rozkład a priori wektora parametrów w, p(w) = N (w 0, α 2 I), gdzie α jest znane. Ponadto znamy wartość σ 2. Korzystając ze wzoru Bayesa wyznaczyć rozkład a posteriori p(w D), a następnie wyznaczyć estymator wektora parametrów maksymalizujący ten rozkład (estymator MAP). Jaki jest związek podanego podejścia z zadaniem najmniejszych kwadratów z regularyzacją Tichonowa? 3
Rozkład dwupunktowy: DODATEK B(x θ) = θ x (1 θ) 1 x, gdzie x {0, 1} i θ [0, 1] E[x] = θ Var[x] = θ(1 θ) Rozkład wielopunktowy: D D M(x θ) = θ x d d, gdzie x d {0, 1} i θ d [0, 1] dla każdego d = 1, 2,..., D, θ d = 1 d=1 d=1 E[x d ] = θ d Var[x d ] = θ d (1 θ d ) Rozkład normalny: N (x µ, σ 2 ) = 1 { exp 2π σ E[x] = µ Var[x] = σ 2 } (x µ)2 2σ 2 Rozkład normalny wielowymiarowy: { 1 1 N (x µ, Σ) = (2π) D/2 Σ exp 1 } 1/2 2 (x µ)t Σ 1 (x µ), gdzie x jest wektorem D-wymiarowym, µ D-wymiarowy wektor średnich, Σ macierz D D kowariancji E[x] = µ Cov[x] = Σ Rozkład beta: Γ(a + b) Beta(x a, b) = Γ(a)Γ(b) xa 1 (1 x) b 1, gdzie x [0, 1] oraz a > 0 i b > 0, Γ(x) = E[x] = Var[x] = a a+b ab (a+b) 2 (a+b+1) 0 t x 1 e t dt Rozkład brzegowy: Dla rozkładu ciągłego: p(x) = p(x, y)dy i dla rozładu dyskretnego: p(x) = y p(x, y) 4
Rozkład warunkowy: p(y x) = p(x, y) p(x) Rozkład brzegowy i warunkowy dla wielowymiarowego rozkładu normalnego: Załóżmy, że x N (x µ, Σ), gdzie x = x a x b, µ = µ a µ b wtedy mamy następujące zależności: p(x a ) = N (x a µ a, Σ a ), p(x a x b ) = N (x a ˆµ a, ˆΣ a ), gdzie ˆµ a = µ a + Σ c Σ 1 b (x b µ b ), ˆΣ a = Σ a Σ c Σ 1 b Σ T c. Twierdzenie Bayesa:, Σ = Σ a Estymator największej wiarygodności: Σ T c Σ c Σ b, p(y x) = p(x y)p(y) p(x) Danych jest N niezależnych realizacji D = {x 1... x N } wektora losowego x o rozkładzie p(x θ). Funkcją wiarygodności nazywamy następującą funkcję: N p(d θ) = p(x n θ). n=1 Zlogarytmowaną funkcję p(d θ) możemy określić zależnością: N log p(d θ) = log p(x n θ). n=1 Estymatorem największej wiarygodności nazywamy θ ML takie, że Estymator maksymalnego a posteriori: p(d θ ML ) = max p(d θ). θ Dane są rozkład a priori p(θ) parametru θ oraz N niezależnych realizacji D = {x 1... x N } wektora losowego x o rozkładzie p(x θ). Estymatorem maksymalnego a posteriori (MAP) nazywamy θ MAP maksymalizujący rozkład a posteriori: p(θ MAP D) = max p(θ D). θ 5
Ryzyko w podejmowaniu decyzji: Ryzyko (średnią stratę) definiujemy jako następujący funkcjonał: gdzie L(, ) oznacza funkcję straty. Wybrane własności wektorów i macierzy: R[y] = L(y, y(x)) p(x, y)dxdy, Dane są wektory x, y i macierz A symetryczna i dodatnio określona. Zachodzą wtedy następujące własności: ˆ y (x y)t A(x y) = 2A(x y) ˆ (x y)t A 1 (x y) A ˆ ln det(a) A = A 1 = A 1 (x y)(x y) T A 1 6