Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym z parametrem θ [0, 1], gdzie zmienna y przyjmuje wartość 1, jeśli pojawiająca się wiadomość jest spamem. Pewien użytkownik otagował N wiadomości, które przyszły do niego na pocztę. Korzystając z metody największej wiarygodności wyliczyć estymator parametru θ. Zad. 2 Populacja studentów Politechniki Wrocławskiej została podzielona na trzy grupy: 1. Studenci osiągający średnią do 3.5. 2. Studenci osiągający średnią od 3.5 do 4.5. 3. Studenci osiągający średnią powyżej 4.5. Populacja studentów opisana jest wektorem losowym y = (y 1 y 2 y 3 ) T, przyjmującym trzy wartości (1 0 0), gdy student należy do pierwszej grupy, (0 1 0), gdy student należy do drugiej grupy i (0 0 1), gdy student należy do trzeciej grupy. Rozkład zmiennej y wyraża się za pomocą rozkładu wielomianowego o wektorze parametrów θ = (θ 1 θ 2 θ 3 ) T. Z populacji studentów wybrano N obserwacji. Korzystając z metody największej wiarygodności wyliczyć estymator parametrów θ. Zad. 3 Alarm samochodowy uzależnia swoje działanie od czujnika badającego poziom ultradźwięków w kabinie. Czujnik przed rozpoczęciem działania wymaga kalibracji. Przyjęto, że pomiary dokonywane przez czujnik są realizacjami zmiennej losowej y o rozkładzie normalnym N (y µ, σ 2 ). Dokonano N pomiarów, gdy w kabinie nie występował żaden ruch. Korzystając z metody największej wiarygodności wyznaczyć estymatory parametrów µ i σ 2. System alarmowy podejmuje decyzję o uruchomieniu alarmu, jeśli dla pomiaru y F (y) > 1 α, gdzie F (y) oznacza dystrybuantę rozkładu N (y µ, σ 2 ), zaś α [0, 1] oznacza poziom istotności. Dla α = 0.05 wyznaczyć wartość y max, powyżej której alarm się włącza. 1
Zad. 4 Charakterystyka wybranego słowa wypowiadanego przez człowieka opisana jest wektorem losowym cech y = (y 1... y D ) T przyjmującym wartości z wielowymiarowego rozkładu normalnego N (y µ, Σ). Pobrano N próbek danego słowa wypowiadanego przez różne osoby. Korzystając z metody największej wiarygodności wyznaczyć estymatory µ i Σ. Jaka przykładowa metoda może być zastosowana do wyodrębnienia (ekstrakcji) wektora cech y z fali dźwiękowej? Zad. 5 Odsetek zdjęć z oznaczonymi tagami na wybranym koncie użytkownika pewnego portalu społecznościowego opisany jest zmienną losową y o rozkładzie Beta(y a, b). Dla celów statystycznych wybrano N użytkowników. Korzystając z metody momentów wyznaczyć estymatory parametrów a i b. Krzywa regresji. Model regresji liniowej Zad. 6 W pewnej populacji ludzi znaleźć zależność wzrostu u i wagi y. Zmienne opisane są dwuwymiarowym rozkładem normalnym N (u, y µ, Σ). Wyznaczyć warunkowy rozkład wagi w zależności od wzrostu, a następnie wyznaczyć krzywą regresji (regresja I rodzaju). Zad. 7 Zależność utargu w barze y zależy od liczby klientów u i kontekstu w oznaczającego, czy jest weekend, czy nie (w {0, 1}), możemy wyrazić w następujący sposób y = (1 w)(k 0 u + z 0 ) + w(k 1 u + z 1 ), gdzie z 0 N (z 0 0, σ0), 2 z 1 N (z 1 0, σ1), 2 oraz p(w = 1) = 3. Przyjmując k 7 0 = 10 i k 1 = 50 wyznaczyć rozkład warunkowy p(y u), a następnie wyznaczyć krzywą regresji. Zad. 8 Na przełomie roku zebrano N obserwacji {(u n, y n )} N, gdzie u n oznacza cenę euro, a y n cenę dolara. Przyjmując model y = φ(u) T a + z, gdzie a = (a 0... a M 1 ) T, φ(u) = (φ 0 (u)... φ M 1 (u)) T, z N (z 0, σ 2 ). Korzystając z metody największej wiarygodności dopasować model regresji liniowej (regresja II rodzaju) do ciągu obserwacji wyznaczyć estymatory a i σ 2. Jaką dodatkową informację wnosi ten model w porównaniu do modelu z zadania 4 (lista nr 2)? Zad. 9 Dla problemu jak w zadaniu 8 dodatkowo przyjąć, że znany jest rozkład a priori wektora parametrów a, p(a) = N (a 0, α 2 I), gdzie α jest znane. Ponadto znamy wartość σ 2. Korzystając ze 2
wzoru Bayesa wyznaczyć rozkład a posteriori p(a y, u), a następnie wyznaczyć estymator wektora parametrów maksymalizujący ten rozkład (estymator MAP, tzn. maksymalnego a posteriori). Jaką należy przyjąć funkcję straty w funkcjonale ryzyka, aby otrzymać estymator MAP? Jaki jest związek podanego podejścia z zadaniem najmniejszych kwadratów z regularyzacją Tichonowa? Zadanie klasyfikacji Zad. 10 Dany jest słownik wyrazów W = {w 1,..., w D }. Każda wiadomość kodowana jest jako wektor zerojedynkowy u = (u 1... u D ), gdzie u d = 1, jeśli wyraz w d występuje w wiadomości. Ponadto, każdy wyraz opisany jest następującym rozkładem warunkowym p(u d y) = Bern(u d θ 0 d )1 y Bern(u d θ 1 d )y, gdzie y {0, 1} oraz y = 1 oznacza, że wiadomość jest spamem. Zmienna y jest zmienną losową o rozkładzie Bern(y θ). Przyjmujemy, że wszystkie zmienne losowe są niezależne. Zebrano N otagowanych wiadomości e-mail. Korzystając z metody największej wiarygodności wyznaczyć estymatory θ j d dla d = 1, 2,..., D oraz j = 0, 1, i estymator θ. Następnie korzystając ze wzoru Bayesa wyznaczyć rozkład p(y u) i podać regułę decyzyjną czy nowo pojawiająca się wiadomość u zostanie zaklasyfikowana jako spam. Zad. 11 Dany jest alfabet L = {l 1... l K }, gdzie każda litera opisana jest wektorem cech u = (u 1... u D ) o rozkładzie normalnym wielowymiarowym N (u µ k, Σ k ), gdzie y = (y 1... y K ) jest wektorem złożonym z samych zer i jednej jedynki y k = 1, jeśli wektor cech u opisuje literę l k. Wektor y opisany jest rozkładem wielomianowym Multi(y θ). Dysponujemy ciągiem treningowym {(u n, y n )} N. Korzystając z metody największej wiarygodności wyznaczyć estymatory parametrów µ k, Σ k i θ k, dla k = 1, 2,..., K. Następnie korzystając ze wzoru Bayesa wyznaczyć rozkład p(y u) i podać regułę klasyfikacji nowo pojawiającej się litery. Zad. 12 W problemie jak w zadaniu nr 10 przyjmujemy dodatkowo, że parametry θ j d dla d = 1, 2,..., D, j = 0, 1, oraz θ są zmiennymi losowymi o rozkładach a priori Beta(θ j d aj d, bj d ) i Beta(θ a, b). Zebrano N otagowanych wiadomości e-mail. Korzystając z metody MAP wyznaczyć estymatory θ j d dla d = 1, 2,..., D oraz j = 0, 1, i estymator θ. 3
Zadanie domowe (5 pkt.) Dane mamy wartości estymatorów: µ N = 1 N oraz σn 2 = 1 N N x n N (x n µ N ) 2. Wykorzystując nową obserwację x N+1 wyznaczyć zależności rekurencyjne na µ N+1 i σ 2 N+1. 4
Rozkład zero-jedynkowy: DODATEK Bern(x θ) = θ x (1 θ) 1 x, gdzie x {0, 1} i θ [0, 1] E[x] = θ Var[x] = θ(1 θ) Rozkład wielomianowy: D Multi(x θ) = θ x d d, gdzie x d {0, 1} i θ d [0, 1] dla każdego d = 1, 2,..., D, E[x d ] = θ d d=1 Var[x d ] = θ d (1 θ d ) Rozkład normalny: N (x µ, σ 2 ) = 1 { (x } µ)2 exp 2π σ 2σ 2 E[x] = µ Var[x] = σ 2 Rozkład normalny wielowymiarowy: 1 1 { N (x µ, Σ) = (2π) D/2 Σ exp 1 } 1/2 2 (x µ)t Σ 1 (x µ), D θ d = 1 gdzie x jest wektorem D-wymiarowym, µ D-wymiarowy wektor średnich, Σ macierz D D kowariancji E[x] = µ Cov[x] = Σ Rozkład beta: Γ(a + b) Beta(x a, b) = Γ(a)Γ(b) xa 1 (1 x) b 1, gdzie x [0, 1] oraz a > 0 i b > 0, Γ(x) = E[x] = Var[x] = a a+b ab (a+b) 2 (a+b+1) 0 t x 1 e t dt d=1 Rozkład brzegowy: Dla rozkładu ciągłego: p(x) = p(x, y)dy i dla rozładu dyskretnego: p(x) = y p(x, y) 5
Rozkład warunkowy: p(y x) = p(x, y) p(x) Rozkład brzegowy i warunkowy dla wielowymiarowego rozkładu normalnego: Załóżmy, że x N (x µ, Σ), gdzie x = [ xa x b ], µ = [ µa µ b wtedy mamy następujące zależności: p(x a ) = N (x a µ a, Σ a ), p(x a x b ) = N (x a ˆµ a, ˆΣ a ), gdzie ˆµ a = µ a + Σ c Σ 1 b (x b µ b ), ˆΣ a = Σ a Σ c Σ 1 b Σ T c. Twierdzenie Bayesa: ], Σ = Estymator największej wiarygodności: [ Σa Σ c Σ T c Σ b ] p(y x) = p(x y)p(y) p(x) Danych jest N niezależnych realizacji x 1... x N wektora losowego x o rozkładzie p(x θ). Funkcją wiarygodności nazywamy następującą funkcję: L(θ) =, N p(x n θ). Zlogarytmowaną funkcję L(θ) możemy określić zależnością: l(θ) = N log p(x n θ). Estymatorem największej wiarygodności nazywamy θ ML takie, że Estymator maksymalnego a posteriori: l(θ ML ) = max l(θ). θ Dane są rozkład a priori p(θ) parametru θ oraz N niezależnych realizacji X = [x 1... x N ] wektora losowego x o rozkładzie p(x θ). Estymatorem maksymalnego a posteriori (MAP) nazywamy θ MAP maksymalizujący rozkład a posteriori: p(θ MAP X) = max p(θ X). θ 6
Estymator ten jest równoważny minimalizacji funkcjonału ryzyka: [ ] R(θ) = E θ X δ(θ θ). Wybrane własności wektorów i macierzy: Dane są wektory x, y i macierz A symetryczna i dodatnio określona. Zachodzą wtedy następujące własności: y (x y)t A(x y) = 2A(x y) (x y)t A 1 (x y) A = A 1 (x y)(x y) T A 1 ln det(a) A = A 1 7