Wrocław University of Technology WYKŁAD 2 i 3 Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne autor: Maciej Zięba Politechnika Wrocławska
Pojęcie prawdopodobieństwa Prawdopodobieństwo reprezentuje pewne przekonanie dotyczące zjawisk występujących w świecie. Przekonanie to wyraża się pewną wartością rzeczywistą z przedziału [0, 1]. Przyjmuje się, że suma przekonań odnośnie wszystkich możliwych zdarzeń dotyczących danego zjawiska jest równa 1. Możliwe zdarzenia reprezentowane są za pomocą zmiennej decyzyjnej X. Zmienna decyzyjna X przyjmuje wartości ze zbioru wartości X, gdzie każdy element zbioru reprezentuje jedno ze zdarzeń elementarnych. Przykład: rzut kostką sześcienną X = {1, 2, 3, 4, 5, 6}, gdzie każdy element odpowiada liczbie wyrzuconych oczek. 2/37
Pojęcie prawdopodobieństwa Częstościowa interpretacja prawdopodobieństwa Interpretacja częstościowa (ang. frequentist interpretation). Podstawą do wyznaczenia prawdopodobieństwa jest częstotliwość pojawiania się zdarzeń w przeszłości. Rzuciłem monetą 15 razy: 3 razy wypadła 1 2 razy wypadła 2, 2 razy wypadła 3 3 razy wypadła 4, 2 razy wypadła 5, 3 razy wypadła 6. Prawdopodobieństwo wylosowania 6 jest równe: p(x = 6) = p(6) = 3 15 = 1 5. 3/37
Pojęcie prawdopodobieństwa Bayesowska interpretacja prawdopodobieństwa Interpretacja Bayesowska (ang. Bayesian interpretation). Prawdopodobieństwo stanowi określony ilościowo stopień niepewności. Podstawą ustalenia prawdopodobieństwa nie jest doświadczenie, tylko informacja. Mamy informację, że ze względu na własności fizyczne kostek prawdopodobieństwo wylosowania 6 jest równe 1 6. Dla jednej na pięć kostek wykorzystywanych w kasynach prawdopodobieństwo wylosowania 6 równe 1 3. Prawdopodobieństwo wylosowania 6 jest równe: p(6) = 4 5 1 6 + 1 5 1 3 = 1 5. 4/37
Dyskretne zmienne losowe Zbiór możliwych wartości X jest co najwyżej przeliczalny. Suma wszystkich prawdopodobieństw równa się 1: p(x = x) = p(x) = 1. x X x X Jeżeli dany jest podzbiór A X, to wówczas: p(x) = 1 p(x), x A x A gdzie A stanowi dopełnienie zbioru A. Każdy rozkład dyskretny dla M-elementowego zbioru X można opisać M 1 parametrami. 5/37
Podstawowe reguły prawdopodobieństwa Niech dane będą dwie zmienne losowe Y i X: Prawdopodobieństwo, że zmienna losowa X przyjmie wartość x, lub też zmienna losowa Y będzie równa y: p(x = x Y = y) = p(x y) = p(x) + p(y) p(x y). Prawdopodobieństwo, że zmienna X przyjmie wartość x, i zmienna losowa Y będzie równa y - reguła łańcuchowa (ang. product rule): p(x y) = p(x, y) = p(x y)p(y) = p(y x)p(x). Jeżeli zmienne losowe są wzajemnie niezależne, to wówczas p(x, y) = p(x)p(y). 6/37
Podstawowe reguły prawdopodobieństwa Prawdopodobieństwo, że zmienna losowa X przyjmie wartość x - reguła brzegowa (ang. sum rule): p(x) = y Y p(x, y) = y Y p(x y)p(y). Prawdopodobieństwo, że zmienna losowa X przyjmie wartość x pod warunkiem, że zmienna losowa Y była równa y. p(x y) = p(x, y), p(y) > 0. p(y) Wykorzystując regułę brzegową i regułę łańcuchową możemy zdefiniować tzn. regułę Bayesa (ang. Bayes rule, theorem): p(x y) = p(y x)p(x) x X p(y x )p(x ). 7/37
Podstawowe reguły prawdopodobieństwa Przykład 1 Mamy do dyspozycji trzy niesymetryczne monety: m 1, m 2, m 3. Prawdopodobieństwa uzyskania reszki, dla każdej z monet są równe: 1 3 dla m 1, 1 2 dla m 2, 1 4 dla m 3. 1. W pierwszej kolejności wykonywany jest rzut monetą m 1. 2. Jeżeli wypadnie reszka, to wykonywany jest rzut monetą m 2, 3. w przeciwnym wypadku rzucamy monetą m 3. Zmienna losowa X reprezentuje pierwszy, a Y drugi rzut. 8/37
Podstawowe reguły prawdopodobieństwa Przykład 1 Jakie jest prawdopodobieństwo, że w pierwszym i drugim rzucie wypadnie reszka? 9/37
Podstawowe reguły prawdopodobieństwa Przykład 1 Jakie jest prawdopodobieństwo, że w pierwszym i drugim rzucie wypadnie reszka? p(y = r, X = r) = p(y = r X = r) p(x = r) = = 1 2 1 3 = 1 6 9/37
Podstawowe reguły prawdopodobieństwa Przykład 1 Jakie jest prawdopodobieństwo, że w pierwszym i drugim rzucie wypadnie reszka? p(y = r, X = r) = p(y = r X = r) p(x = r) = = 1 2 1 3 = 1 6 Jakie jest prawdopodobieństwo, że w drugim rzucie wypadnie reszka? 9/37
Podstawowe reguły prawdopodobieństwa Przykład 1 Jakie jest prawdopodobieństwo, że w pierwszym i drugim rzucie wypadnie reszka? p(y = r, X = r) = p(y = r X = r) p(x = r) = = 1 2 1 3 = 1 6 Jakie jest prawdopodobieństwo, że w drugim rzucie wypadnie reszka? p(y = r) = p(y = r X = x)p(x = x) = x {r,o} = 1 2 1 3 + 1 4 2 3 = 1 3 9/37
Podstawowe reguły prawdopodobieństwa Przykład 1 Jakie jest prawdopodobieństwo, że w pierwszym i drugim rzucie wypadnie reszka? p(y = r, X = r) = p(y = r X = r) p(x = r) = = 1 2 1 3 = 1 6 Jakie jest prawdopodobieństwo, że w drugim rzucie wypadnie reszka? p(y = r) = p(y = r X = x)p(x = x) = x {r,o} = 1 2 1 3 + 1 4 2 3 = 1 3 Jakie jest prawdopodobieństwo, że w pierwszym rzucie wypadnie reszka, jeżeli wiemy, że w drugim wypadnie orzeł? 9/37
Podstawowe reguły prawdopodobieństwa Przykład 2 Rozważamy problem wykonywania testów diagnostycznych dotyczących raka piersi. 10/37
Podstawowe reguły prawdopodobieństwa Przykład 2 Rozważamy problem wykonywania testów diagnostycznych dotyczących raka piersi. Jeżeli pacjentka ma raka piersi (Y = 1) to prawdopodobieństwo, że test diagnostyczny dał wynik pozytywny ( X = 1) wynosi: p(x = 1 Y = 1) = 0.8 10/37
Podstawowe reguły prawdopodobieństwa Przykład 2 Rozważamy problem wykonywania testów diagnostycznych dotyczących raka piersi. Jeżeli pacjentka ma raka piersi (Y = 1) to prawdopodobieństwo, że test diagnostyczny dał wynik pozytywny ( X = 1) wynosi: p(x = 1 Y = 1) = 0.8 Prawdopodobieństwo, że kobieta ma raka wynosi: p(y = 1) = 0.004 10/37
Podstawowe reguły prawdopodobieństwa Przykład 2 Rozważamy problem wykonywania testów diagnostycznych dotyczących raka piersi. Jeżeli pacjentka ma raka piersi (Y = 1) to prawdopodobieństwo, że test diagnostyczny dał wynik pozytywny ( X = 1) wynosi: p(x = 1 Y = 1) = 0.8 Prawdopodobieństwo, że kobieta ma raka wynosi: p(y = 1) = 0.004 Jeżeli pacjentka nie ma raka (Y = 0) to prawdopodobieństwo że test dał wynik pozytywny (błędnie wykazał raka, X = 1) jest równe: p(x = 1 Y = 0) = 0.1 10/37
Podstawowe reguły prawdopodobieństwa Przykład 2 Jakie jest prawdopodobieństwo że pacjentka ma ma raka piersi (Y = 1), jeżeli test diagnostyczny wyszedł pozytywny (X = 1)? 11/37
Podstawowe reguły prawdopodobieństwa Przykład 2 Jakie jest prawdopodobieństwo że pacjentka ma ma raka piersi (Y = 1), jeżeli test diagnostyczny wyszedł pozytywny (X = 1)? Wykorzystując regułę Bayesa możemy wyliczyć: p(y = 1 X = 1) = p(x = 1 Y = 1)p(Y = 1) p(x = 1) 11/37
Podstawowe reguły prawdopodobieństwa Przykład 2 Jakie jest prawdopodobieństwo że pacjentka ma ma raka piersi (Y = 1), jeżeli test diagnostyczny wyszedł pozytywny (X = 1)? Wykorzystując regułę Bayesa możemy wyliczyć: p(x = 1 Y = 1)p(Y = 1) p(y = 1 X = 1) = p(x = 1) p(x = 1 Y = 1)p(Y = 1) = p(x = 1 Y = 0)p(Y = 0) + p(x = 1 Y = 1)p(Y = 1) 11/37
Podstawowe reguły prawdopodobieństwa Przykład 2 Jakie jest prawdopodobieństwo że pacjentka ma ma raka piersi (Y = 1), jeżeli test diagnostyczny wyszedł pozytywny (X = 1)? Wykorzystując regułę Bayesa możemy wyliczyć: = p(x = 1 Y = 1)p(Y = 1) p(y = 1 X = 1) = p(x = 1) p(x = 1 Y = 1)p(Y = 1) p(x = 1 Y = 0)p(Y = 0) + p(x = 1 Y = 1)p(Y = 1) 0.8 0.004 = 0.8 0.004 + 0.1 0.996 = 0.031 11/37
Podstawowe reguły prawdopodobieństwa Przykład 2 Jakie jest prawdopodobieństwo że pacjentka ma ma raka piersi (Y = 1), jeżeli test diagnostyczny wyszedł pozytywny (X = 1)? Wykorzystując regułę Bayesa możemy wyliczyć: = p(x = 1 Y = 1)p(Y = 1) p(y = 1 X = 1) = p(x = 1) p(x = 1 Y = 1)p(Y = 1) p(x = 1 Y = 0)p(Y = 0) + p(x = 1 Y = 1)p(Y = 1) 0.8 0.004 = 0.8 0.004 + 0.1 0.996 = 0.031 Prawdopodobieństwo że pacjenta ma raka, jeżeli test diagnostyczny był pozytywny wynosi 0.031!!!! 11/37
Ciągłe zmienne losowe Rozkład prawdopodobieństwa opisany jest funkcją gęstości p(x). Prawdopodobieństwo, że zmienna losowa X przyjmuje wartości z przedziału [a, b]: Rozkład jednostajny funkcja gęstości b p(a X b) = p(x)dx a Funkcja skumulowanej gęstości prawdopodobieństwa (dystrybuanta): p(x b) = P (b) = b p(x)dx dystrybuanta Funkcja gęstości spełnia reguły: brzegową: p(x) = p(x, y)dy łańcuchową: p(x, y) = p(x y)p(y) 12/37
Własności rozkładów prawdopodobieństwa Wartość oczekiwana Typową własnością rozkładu jest wartość oczekiwana (średnia), którą dla rozkładu dyskretnego definiuje się następująco: E[X] = x X x p(x), dla rozkładu ciągłego definiuje się następująco: E[X] = x p(x)dx, x X Wartość oczekiwana dla rozkładu dwupunktowego (rzut monetą): E[X] = 1 θ + 0 (1 θ) = θ. Wartość oczekiwana dla rozkładu jednostajnego: E[X] = b a 1 b a xdx = a + b 2 13/37
Własności rozkładów prawdopodobieństwa Wariancja i odchylenie standardowe Wariancja jest własnością która opisuje rozpiętość rozkładu (jak bardzo odchylają się wartości x od średniej) i definiuje się następująco: V ar[x] = E[(X E[X]) 2 ] = E[X 2 ] (E[X]) 2 Odchylenie standardowe definiowane jest jako pierwiastek z wariancji: std[x] = V ar[x] Wariancja dla rozkładu dwupunktowego: V ar[x] = θ (1 θ). Wariancja dla rozkładu jednostajnego: V ar[x] = (b a)2 12 14/37
Własności rozkładów prawdopodobieństwa Korelacja i kowariancja Miarą liniowej zależności pomiędzy zmienną losową X i Y jest kowariancja zadana wzorem: cov[x, Y ] = E[(X E[X])(Y E[Y ])] = E[XY ] E[X]E[Y ]. Kowariancja przyjmuje wartości z przedziału [0, ), w praktyce wygodniej jest operować na znormalizowanej postaci kowariancji nazywanej korelacją: corr[x, Y ] = cov[x, Y ] V ar[x]v ar[y ], która przyjmuje wartości z przedziału [ 1, 1]. corr[x, Y ] = 1 wtedy, i tylko wtedy gdy zmienne losowe X i Y są liniowo zależne, t.j. istnieją takie wartości parametrów a i b, dla których zachodzi Y = ax + b. Jeżeli zmienne losowe X i Y są niezależne, t.j. p(x, Y ) = p(x)p(y ), wówczas corr[x, Y ] = 0. 15/37
Własności rozkładów prawdopodobieństwa Korelacja i kowariancja Zmienna X pochodzi z rozkładu jednostajnego na przedziale [0, 1], zmienna Y z rozkładu jednostajnego na przedziale [ 2, 2]. Ile wynosi corr[x, Y ]?. 16/37
Własności rozkładów prawdopodobieństwa Korelacja i kowariancja Zmienna X pochodzi z rozkładu jednostajnego na przedziale [0, 1], zmienna Y z rozkładu jednostajnego na przedziale [ 2, 2]. Ile wynosi corr[x, Y ]? Y = 4 X 2 corr[x, Y ] = 1. 16/37
Własności rozkładów prawdopodobieństwa Korelacja i kowariancja Niech dana jest zmienna X rozkładu jednostajnego na przedziale [ 1, 1], oraz zmienna Y = X 2. Ile wynosi corr[x, Y ]?. 17/37
Własności rozkładów prawdopodobieństwa Korelacja i kowariancja Niech dana jest zmienna X rozkładu jednostajnego na przedziale [ 1, 1], oraz zmienna Y = X 2. Ile wynosi corr[x, Y ]? corr[x, Y ] = E[XY ] E[X]E[Y ] = E[X3 ] E[X]E[X 2 ] = 0. V ar[x]v ar[y ] V ar[x]v ar[x2 ] 17/37
Podstawowe rozkłady prawdopodobieństwa Rozkłady dyskretne Rozkład dwupunktowy (ang. Bernoulli distribution): Zmienna losowa X Ber(θ) przyjmuje wartości ze zbioru: X = {0, 1}. Funkcja rozkładu prawdopodobieństwa: Ber(x θ) = θ I(x=1) (1 θ) I(x=0) = θ x (1 θ) 1 x Rozkład ma interpretację pojedynczego rzutu monetą. Parametr θ reprezentuje prawdopodobieństwo sukcesu w rzucie monetą. Podstawowe własności rozkładu: E[X] = θ, V ar[x] = θ (1 θ). 18/37
Podstawowe rozkłady prawdopodobieństwa Rozkłady dyskretne Rozkład dwumianowy (Bernoulliego, ang. binomial distribution): Zmienna losowa X Bin(n, θ) przyjmuje wartości ze zbioru: X = {0, 1,..., n}. Funkcja rozkładu prawdopodobieństwa: ( ) n Bin(x n, θ) = θ x (1 θ) n x, gdzie x ( ) n = x Rozkład ma interpretację n-krotnego rzutu monetą. n! x!(n x)! Parametr θ reprezentuje prawdopodobieństwo sukcesu w rzucie monetą. Podstawowe własności rozkładu: E[X] = nθ, V ar[x] = nθ (1 θ). 19/37
Podstawowe rozkłady prawdopodobieństwa Rozkłady dyskretne Rozkład wielopunktowy (ang. categorical, multinoulli distribution): Wektor zmiennych losowych X Cat(θ) przyjmuje wartości ze zbioru: X = {0, 1} K, x X spełnia warunek K i=1 x i = 1. Funkcja rozkładu prawdopodobieństwa: Cat(x, θ) = K i=1 θ I(xi=1) i Rozkład ma interpretację rzutu K-wymiarową kostką. Parametr θ i reprezentuje prawdopodobieństwo wypadnięcia i oczek. Podstawowe własności rozkładu: E[X j ] = θ j, V ar[x j ] = θ j (1 θ j ), cov[x j, X i ] = θ j θ i 20/37
Podstawowe rozkłady prawdopodobieństwa Rozkłady dyskretne Rozkład wielomianowy (ang. multinominal distribution): Wektor zmiennych losowych X Mu(n, θ) przyjmuje wartości ze zbioru: X = {0, 1,..., n} K, x X spełnia warunek K i=1 x i = n. Funkcja rozkładu prawdopodobieństwa: ( ) n K ( ) Mu(x n, θ) = θ xi i x 1... x, n n! = K x 1,... x K x 1!... x K! i=1 Rozkład ma interpretację n-krotnego rzutu K-wymiarową kostką. Parametr θ i reprezentuje prawdopodobieństwo wypadnięcia i oczek. Podstawowe własności rozkładu: E[X j ] = nθ j, V ar[x j ] = nθ j (1 θ j ), cov[x j, X i ] = nθ j θ i. 21/37
Podstawowe rozkłady prawdopodobieństwa Rozkłady ciągłe Rozkład Gaussa (ang. Gaussian distribution): Zmienna losowa X N (µ, σ 2 ) przyjmuje wartości ze zbioru liczb rzeczywistych. Funkcja rozkładu prawdopodobieństwa: N (x µ, σ 2 ) = 1 (x µ)2 e 2σ 2 2πσ 2 Podstawowe własności rozkładu: E[X] = µ, V ar[x] = σ 2. Rozkład N (0, 1) nazywany jest rozkładem normalnym. Stosowany w modelowaniu ze względu na własności analityczne. 22/37
Podstawowe rozkłady prawdopodobieństwa Rozkłady ciągłe Wielowymiarowy rozkład Gaussa: Wektor zmiennych losowych X N (µ, Σ) przyjmuje wartości ze zbioru R K. Funkcja rozkładu prawdopodobieństwa: N (x µ, Σ) = 1 Σ 1 (x µ) (2π) K/2 Σ 1 e (x µ)t Podstawowe własności rozkładu: E[X] = µ, cov[x] = Σ. Istotną własnością rozkładu jest macierz precyzji Λ = Σ 1. 23/37
Podstawowe rozkłady prawdopodobieństwa Rozkłady ciągłe Rozkład Gamma (ang. gamma distribution): Funkcja rozkładu prawdopodobieństwa: Ga(x a, b) = ba Γ(b) xa 1 e bx, gdzie czynnik normujący Γ(b) zdefiniowany jest następująco: Γ(b) = 0 u b 1 e u du. Podstawowe własności rozkładu: E[X] = a b, V ar[x] = a b 2. 24/37
Podstawowe rozkłady prawdopodobieństwa Rozkłady ciągłe Rozkład Beta (ang. beta distribution): Funkcja rozkładu prawdopodobieństwa: Beta(x a, b) = xa 1 (1 x) b 1, B(a, b) gdzie czynnik normujący B(a, b) zdefiniowany jest następująco: B(a, b) = Γ(a)Γ(b) Γ(a + b) Podstawowe własności rozkładu: E[X] = a a + b, V ar[x] = ab (a + b) 2 (a + b + 1). 25/37
Funkcja wiarygodności Dysponujemy szeregiem niezależnych obserwacji (danymi) D = {(x n )} N n=1. Rozpatrujemy model, który generuje dane z pewnego rozkładu p(x θ). Funkcja wiarygodności (ang. likelihood function) określa, na ile wiarygodne jest to, że dane D zostały wygenerowane z rozkładu p(x, θ): p(d θ) = N p(x n θ). n=1 26/37
Funkcja wiarygodności Przykład Dysponujemy ciągiem obserwacji D = {0.24, 0.32, 0.21, 0.2, 0.87, 0.23, 0.12, 0.01} Chcemy ocenić, czy bardziej wiarygodne jest, że dane zostały wygenerowane: z rozkładu N (0, 1), czy też z rozkładu N (1, 0.1). Wartości funkcji wiarygodności N (D µ, σ 2 ) dla rozkładów wynoszą: N (D 0, 1) = 0.00037608, N (D 1, 0.1) = 2.15 10 20. 27/37
Funkcja wiarygodności Przykład Dysponujemy ciągiem obserwacji D = {0.24, 0.32, 0.21, 0.2, 0.87, 0.23, 0.12, 0.01} Chcemy ocenić, czy bardziej wiarygodne jest, że dane zostały wygenerowane: z rozkładu N (0, 1), czy też z rozkładu N (1, 0.1). Wartości funkcji wiarygodności N (D µ, σ 2 ) dla rozkładów wynoszą: N (D 0, 1) = 0.00037608, N (D 1, 0.1) = 2.15 10 20. 27/37
Funkcja wiarygodności Przykład Dysponujemy ciągiem obserwacji dotyczących rzutu monetą D = {o, o, o, r, r, o, r, o, r} Chcemy ocenić, czy bardziej wiarygodne jest, że dane zostały wygenerowane: z rozkładu Ber(x 0.5), czy też z rozkładu Ber(x 0.75). Wartości funkcji wiarygodności Ber(D θ) dla rozkładów wynoszą: Ber(D 0.5) = 0.5 9 = 0.001953125, Ber(D 0.75) = 0.75 4 0.25 5 = 0.00030899. 28/37
Funkcja wiarygodności Przykład Dysponujemy ciągiem obserwacji dotyczących rzutu monetą D = {o, o, o, r, r, o, r, o, r} Chcemy ocenić, czy bardziej wiarygodne jest, że dane zostały wygenerowane: z rozkładu Ber(x 0.5), czy też z rozkładu Ber(x 0.75). Wartości funkcji wiarygodności Ber(D θ) dla rozkładów wynoszą: Ber(D 0.5) = 0.5 9 = 0.001953125, Ber(D 0.75) = 0.75 4 0.25 5 = 0.00030899. 28/37
Estymator maksymalnej wiarygodności Interesuje nas znalezienie takich parametrów θ rozkładu p(x θ), dla których funkcja wiarygodności p(d θ) dla danego zbioru danych D przyjmuje wartość najwyższą. Formalnie, zadanie to formułujemy jako zadanie optymalizacji: ˆθ MLE = arg max θ p(d θ) = arg max θ N p(x n θ), n=1 gdzie ˆθ MLE nazywany jest estymatorem maksymalnej wiarygodności (ang. maximal likelihood estimate, MLE). W praktyce definiuje się alternatywne zadanie optymalizacji, dla którego optymalne rozwiązanie jest równoważne optymalnemu rozwiązaniu rozważanego zadania: ˆθ MLE = arg min θ log p(d θ) = arg min θ N log p(x n θ), n=1 29/37
Estymator maksymalnej wiarygodności Przykład Funkcja wiarygodności dla rozkładu Gaussa wynosi: N (D µ, σ 2 ) = N n=1 1 (xn µ)2 e 2σ 2 2πσ 2 Negatywny logarytm z funkcji wiarygodności: log N (D µ, σ 2 ) = 1 2σ 2 N (x n µ) 2 N 2 log σ2 N 2 n=1 Estymator MLE parametru µ jest równy: log 2π µ MLE = 1 N N n=1 Estymator MLE parametru σ 2 jest równy: σ 2 MLE = 1 N x n N (x n µ MLE ) 2 n=1 30/37
Estymator maksymalnej wiarygodności Przykład Funkcja wiarygodności dla rozkładu dwupunktowego wynosi: N Ber(D θ) = θ xn (1 θ) (1 xn) n=1 Negatywny logarytm z funkcji wiarygodności: N log Ber(D θ) = {x n log θ + (1 x n ) log(1 θ)} n=1 Estymator MLE parametru θ jest równy: gdzie m oznacza liczbę sukcesów. θ MLE = m N, 31/37
Estymator maksymalnego a posteriori Wprowadzenie Załóżmy, że dysponujemy ciągiem obserwacji dotyczących rzutu monetą D = {r, r, r, r, r}. Jeżeli wykonamy estymację parametrów MLE parametru θ wówczas: θ MLE = m N = 5 5 = 1. W rezultacie otrzymujemy rozkład dwupunktowy dla którego prawdopodobieństwo wypadnięcia reszki wynosi 1. W celu rozwiązania tego problemu załóżmy, że parametr θ charakteryzuje się niepewnością. Innymi słowy zakładamy pewien rozkład prawdopodobieństwa a priori na parametr p(θ). 32/37
Estymator maksymalnego a posteriori Interesuje nas znalezienie takich parametrów θ, dla których prawdopodobieństwo a posteriori p(θ D) dla danego zbioru danych D przyjmuje wartość najwyższą. Formalnie, zadanie to formułujemy jako zadanie optymalizacji: ˆθ MAP = arg max p(θ D), θ gdzie ˆθ MAP nazywany jest estymatorem maksymalnego a posteriori (ang. maximal a posteriori estimate, MAP). Korzystając z reguły Bayesa mamy, że: Więc ostatecznie mamy, że: p(θ D) = p(θ)p(d θ) p(d) ˆθ MAP = arg max p(θ)p(d θ). θ 33/37
Estymator maksymalnego a posteriori Przykład Wprowadźmy rozkład na parametr θ: Beta(θ a, b) = Γ(a + b) Γ(a)Γ(b) θa 1 (1 θ) b 1. Wówczas mamy następujący rozkład a posteriori: p(θ D) = gdzie l = N m. Γ(a + b + N) Γ(a + m)γ(b + l) θm+a 1 (1 θ) l+b 1, Interpretacja a i b: aprioryczna liczba obserwacji. Estymator MAP: ˆθ MAP = m + a 1 N + a + b 2 34/37
Uczenie Bayesowskie i częstościowe Celem uczenia jest znalezienie rozkładu generującego p(x D), który określa, jakie jest prawdopodobieństwo, że dana obserwacja x wygenerowana została z danych D. W przypadku podejścia częstościowego konstrukcja rozkładu przebiega następująco: W pierwszym kroku wykonywana jest estymacja parametrów ˆθ z wykorzystaniem metody MLE lub MAP. W drugim kroku wstawiamy estymator ˆθ do rozkładu i mamy: p(x D) = p(x ˆθ) W przypadku podejścia Bayesowskiego następuje wycałkowanie względem parametrów θ: p(x D) = p(x θ)p(θ D)dθ 35/37
Uczenie Bayesowskie Przykład Interesuje nas znalezienie wartości p(x = r D): p(x = r D) = Podsumowując: = 1 0 1 0 p(x = r θ)p(θ D)dθ θp(θ D)dθ = m + a N + a + b Przykład: D = {r, r, r, r, r, o, r} a = 2, b = 3 θ MLE = m N ˆθ MAP = m + a 1 N + a + b 2 p(x = r D) = m + a N + a + b θ MLE = 6 7 ˆθ MAP = 7 10 p(x = r D) = 2 3 36/37
Literatura Należy zapoznać się z treścią książki (Rozdział 3, 5 i 6): Murphy, Kevin P. Machine learning: a probabilistic perspective. MIT Press, 2012. 37/37