WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Transkrypt

1 Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska

2 Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami (klasami), które przyjmują wartości nominalne. Celem uczenia jest skonstruowanie klasyfikatora separującego obiekty należące do różnych klas. Klasyfikator konstruowany jest tak, aby możliwe było przewidywanie klas nowych, niesklasyfikowanych obserwacji. 2/27

6 Probabilistyczna reprezentacja wiedzy Wiedza reprezentowania jest w postaci rozkładów prawdopodobieństwa. Proces podejmowania decyzji odbywa się poprzez wybór najbardziej prawdopodobnego wariantu. Przykład: p(176, 85 rugbista) = 0.17; p(176, 85 skoczek) = Wniosek: bardziej prawdopodobne jest, że jeśli osoba jest rugbistą, to ma 176 cm wzrostu i waży 85 kg. 3/27

7 Probabilistyczna reprezentacja wiedzy Wiedza reprezentowania jest w postaci rozkładów prawdopodobieństwa. Proces podejmowania decyzji odbywa się poprzez wybór najbardziej prawdopodobnego wariantu. Przykład: p(176, 85 rugbista) = 0.17; p(176, 85 skoczek) = Wniosek: bardziej prawdopodobne jest, że jeśli osoba jest rugbistą, to ma 176 cm wzrostu i waży 85 kg. 3/27

8 Podejmowanie decyzji w warunkach niepewności Niech dana będzie zmienna losowa Y reprezentującą klasę, a Y oznacza zbiór możliwych klas. Niech wektor zmiennych losowych X reprezentuje wektor cech, a X niech reprezentuje przestrzeń możliwych wartości wektorów. Z reguły Bayesa możemy zapisać wzór na prawdopodobieństwo, że obiekt opisany wektorem cech x należy od klasy y. p(y = y X = x) = p(y = y)p(x = x Y = y). p(x = x) p(y x) = p(y)p(x y) p(x) = p(y)p(x y) y Y p(y )p(x y ). Interesuje nas znalezienie takiej klasy y Y, dla której wartość prawdopodobieństwa p(y x) jest najwyższa: arg max p(y x) = arg max p(y)p(x y). y Y y Y 4/27

9 Podejmowanie decyzji w warunkach niepewności Przykład Rozważamy osobę, która ma 176 cm wzrostu i waży 85 kg (x = [176, 85]) i chcemy określić, czy osoba jest rugbistą, czy też skoczkiem. Dla każdego y mamy dane prawdopodobieństwa p(x y): p(176, 85 rugbista) = 0.17, p(176, 85 skoczek) = Prawdopodobieństwa p(y) są następujące: p(skoczek) = 0.2, p(rugbista) = 0.8. Natomiast p(y)p(x y) są równe: p(176, 85 skoczek)p(skoczek) = = p(176, 85 rugbista)p(rugbista) = = /27

10 Podejmowanie decyzji w warunkach niepewności Przykład Rozważamy osobę, która ma 176 cm wzrostu i waży 85 kg (x = [176, 85]) i chcemy określić, czy osoba jest rugbistą, czy też skoczkiem. Dla każdego y mamy dane prawdopodobieństwa p(x y): p(176, 85 rugbista) = 0.17, p(176, 85 skoczek) = Prawdopodobieństwa p(y) są następujące: p(skoczek) = 0.2, p(rugbista) = 0.8. Natomiast p(y)p(x y) są równe: p(176, 85 skoczek)p(skoczek) = = p(176, 85 rugbista)p(rugbista) = = /27

11 Podejmowanie decyzji w warunkach niepewności Przykład Jeżeli chcemy znać dokładną wartość prawdopodobieństwa, że osoba która ma 176 cm wzrostu i waży 85 kg (x = [176, 85]) to rugbista, wówczas korzystamy ze wzoru Bayesa: p(176, 85 rugbista)p(rugbista) p(rugbista 176, 85) = = p(176, 85) p(176, 85 rugbista)p(rugbista) = p(176, 85 rugbista)p(rugbista) + p(176, 85 skoczek)p(skoczek) = = W sposób analogiczny wyznacza się prawdopodobieństwo, że osoba która ma 176 cm wzrostu i waży 85 kg (x = [176, 85]) to skoczek. 6/27

12 Klasyfikator Naiwnego Bayesa Przykład Jedna z najpowszechniej stosowanych probabilistycznych metod klasyfikacji. Centralnym założeniem tej metody jest to, że zakłada ona niezależność pomiędzy cechami: p(x) = p(x 1 ) p(x M ) Możemy więc przedstawić p(y x) w następującej postaci: p(y x) = p(y)p(x 1 y) p(x M y). p(x 1 ) p(x M ) Rozpatrując przywołany przykład mamy: p(rugbista 176, 85) = p(rugbista)p(176 rugbista)p(85 rugbista). p(176)p(85) 7/27

13 Klasyfikator Naiwnego Bayesa Procedura uczenia czystościowego W praktyce nie mamy danych rozkładów prawdopodobieństw p(y), p(x 1 y),..., p(x M y). Mamy natomiast dane zawarte w zbiorze treningowym D = {(x n, y n )} N n=1. Zakładamy więc, że każdy z rozkładów jest opisany pewnymi parametrami: p(y θ), p(x 1 y, θ),..., p(x M y, θ). Proces uczenia odbywa się poprzez estymację MLE lub MAP parametrów rozkładów θ. Przyjmijmy dla naszego przykładu następujące rozkłady: rozkład dwupunktowy dla p(y θ). rozkłady Gaussa dla p(x1 y, θ), p(x 2 y, θ). Dodatkowo, przyjmijmy że wykonujemy estymację MLE. 8/27

14 Procedura estymacji rozkładu dla klasy Procedura uczenia czystościowego Mamy dwie możliwe wartości klasy. Kodujemy je w ten sposób, że jedna wartość odpowiada 1 a druga 0. Zakładamy, że rozkład p(y θ) jest rozkładem dwupunktowym: p(y θ) = θ y (1 θ) 1 y Parametr θ ma interpretację prawdopodobieństwa wystąpienia pierwszej wartości klasy. Estymator MLE dla parametru θ: θ MLE = m N, gdzie m oznacza liczbę obserwacji należących do klasy etykietowanej 1. 9/27

15 Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa rugbista skoczek rugbista skoczek rugbista rugbista skoczek skoczek rugbista skoczek skoczek rugbista skoczek rugbista 10/27

16 Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa rugbista skoczek rugbista skoczek rugbista rugbista skoczek skoczek rugbista skoczek skoczek rugbista skoczek rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y 10/27

17 Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa rugbista skoczek rugbista skoczek rugbista rugbista skoczek skoczek rugbista skoczek skoczek rugbista skoczek rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y Przyjmujemy kodowanie 1 rugbista, 0 skoczek. 10/27

18 Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa rugbista skoczek rugbista skoczek rugbista rugbista skoczek skoczek rugbista skoczek skoczek rugbista skoczek rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y Przyjmujemy kodowanie 1 rugbista, 0 skoczek. Wykonujemy estymację MLE dla parametru θ: θ MLE = 7 14 = /27

21 Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa rugbista skoczek rugbista skoczek rugbista rugbista skoczek skoczek rugbista skoczek skoczek rugbista skoczek rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y Przyjmujemy kodowanie 1 rugbista, 0 skoczek. Wykonujemy estymację MLE dla parametru θ: Wynika z tego że: θ MLE = 7 14 = 1 2. p(y = 1) = θ = 1 = p(y = 0). 2 10/27

22 Procedura estymacji rozkładu dla atrybutów Procedura uczenia czystościowego Zakładamy, że rozkład p(x i y, θ) dla pojedynczego, i-tego atrybutu jest rozkładem Gaussa: p(x i y, θ) = N (x i µ y, σ y ) Parametr θ = [µ, σ 2 ] reprezentuje średnią i odchylenie standardowe rozkładu normalnego. Estymator MLE dla parametru µ y : µ y = 1 N I(y n = y)x n. N y n=1 gdzie N y oznacza liczbę obserwacji należących do klasy y. Estymator MLE dla parametru σ 2 y: σy 2 = 1 N I(y n = y)(x n µ y ) 2 N y n=1 11/27

23 Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa rugbista skoczek rugbista skoczek rugbista rugbista skoczek skoczek rugbista skoczek skoczek rugbista skoczek rugbista 12/27

24 Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa rugbista skoczek rugbista skoczek rugbista rugbista skoczek skoczek rugbista skoczek skoczek rugbista skoczek rugbista Interesuje nas znalezienie rozkładu p(x 1 y, θ) dla atrybutu Wzrost: 12/27

25 Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa rugbista skoczek rugbista skoczek rugbista rugbista skoczek skoczek rugbista skoczek skoczek rugbista skoczek rugbista Interesuje nas znalezienie rozkładu p(x 1 y, θ) dla atrybutu Wzrost: Przyjmujemy rozkład normalny N (x i µ y, σ y ). 12/27

26 Procedura estymacji rozkładu dla atrybutów Przykład Interesuje nas znalezienie rozkładu p(x 1 y, θ) dla atrybutu Wzrost: Wzrost Waga Klasa rugbista skoczek rugbista skoczek rugbista rugbista skoczek skoczek rugbista skoczek skoczek rugbista skoczek rugbista Przyjmujemy rozkład normalny N (x i µ y, σ y ). Wykonujemy estymację MLE dla parametrów dot. rugbistów (y = 1): µ 1 = , σ1 2 = 29.57, 1 p(x 1 y = 1) = e (x ) π /27

27 Procedura estymacji rozkładu dla atrybutów Przykład Interesuje nas znalezienie rozkładu p(x 1 y, θ) dla atrybutu Wzrost: Wzrost Waga Klasa rugbista skoczek rugbista skoczek rugbista rugbista skoczek skoczek rugbista skoczek skoczek rugbista skoczek rugbista Przyjmujemy rozkład normalny N (x i µ y, σ y ). Wykonujemy estymację MLE dla parametrów dot. rugbistów (y = 1): µ 1 = , σ1 2 = 29.57, 1 p(x 1 y = 1) = e (x ) π Wykonujemy estymację MLE dla parametrów dot. skoczków (y = 0): µ 0 = , σ0 2 = p(x 1 y = 1) = e (x ) π /27

28 Procedura estymacji rozkładu dla atrybutów Atrybut nominalny Zakładamy, że rozkład p(x i y, θ) dla pojedynczego, i-tego atrybutu nominalnego jest rozkładem wielopunktowy: p(x i = j y, θ) = θ j,y, gdzie estymator MLE dla θ j,y wynosi: θ j,y = m j,y N y gdzie m j,y stanowi liczbę obserwacji dla obiektów należących do klasy y i dla których x i = j, natomiast N y to liczba obiektów należących do klasy y. 13/27

29 Procedura estymacji rozkładu dla atrybutów CHAPTER 2. OVERVIEW OF CLASSIFICATION METHODS 28 Atrybut nominalny - przykład Credit amount Employment status Personal status Credit status (class) A 2,3 : x 13000$ A 4,3 : full-time job A 5,2 : married B 1,2 :bad A 2,1 : x<4000$ A 4,1 : unemployment A 5,2 : married B 1,1 :good A 2,1 : x<4000$ A 4,3 : full-time job A 5,1 : single B 1,1 :good A 2,2 :4000$applex<13000$ A 4,2 : part-time job A 5,1 : single B 1,1 :good A 2,3 : x 13000$ A 4,3 : full-time job A 5,3 : divorced B 1,2 :bad A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,2 :bad A 2,2 :4000$applex<13000$ A 4,2 : part-time job A 5,3 : divorced B 1,2 :bad A 2,2 :4000$applex<13000$ A 4,1 : unemployment A 5,1 : single B 1,2 :bad A 2,1 : x<4000$ A 4,2 : part-time job A 5,3 : divorced B 1,1 :good A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,1 :good A 2,2 :4000$applex<13000$ A 4,3 : full-time job A 5,2 : married B 1,1 :good A 2,2 :4000$applex<13000$ A 4,3 : full-time job A 5,3 : divorced B 1,1 :good Do której Table klasy 2.1: Exemplary należy obiekt training klient set for który creditchce scoring kredyt classification powyżej problem 4000$, jest żonaty i ma stałą pracę na pełen etat? Decision rules and trees Decision rules and trees are nonparametric classifiers which have one fundamental advantage: 14/27

30 Klasyfikator GDA Rozpatrujemy klasyfikator Gaussowskiej Analizy Dyskryminacyjnej (ang. Gaussian Discriminative Analysis, GDA). Interesuje nas znalezienie takiej klasy y Y, dla której wartość prawdopodobieństwa p(y x) jest najwyższa: arg max p(y x) = arg max p(y)p(x y). y Y y Y Zakładamy, że p(y) modelujemy rozkładem dwupunktowym: p(y θ) = θ y (1 θ) 1 y Zakładamy, że p(x y) modelujemy wielowymiarowym rozkładem Gaussa: 1 N (x µ y, Σ y ) = (2π) M 2 Σ y 1 2 e 1 2 (x µ y )T Σ 1 y (x µ y ) 15/27

31 Wielowymiarowy rozkład Gaussa Własności rozkładu Funkcja rozkładu prawdopodobieństwa: 1 N (x µ, Σ) = (2π) M 2 Σ 1 2 Podstawowe własności rozkładu: E[X] = µ, cov[x] = Σ. e (x µ)t Σ 1 (x µ) Estymatory MLE dla parametrów są następujące: ˆµ MLE = 1 N N x n, n=1 ˆΣ MLE = 1 N (x n ˆµ N MLE )(x n ˆµ MLE ) T. n=1 16/27

32 Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa rugbista skoczek rugbista skoczek rugbista rugbista skoczek skoczek rugbista skoczek skoczek rugbista skoczek rugbista 17/27

33 Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa rugbista skoczek rugbista skoczek rugbista rugbista skoczek skoczek rugbista skoczek skoczek rugbista skoczek rugbista Interesuje nas znalezienie rozkładów p(x y) dla rugbistów (y = 1) i skoczków (y = 0). 17/27

34 Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa rugbista skoczek rugbista skoczek rugbista rugbista skoczek skoczek rugbista skoczek skoczek rugbista skoczek rugbista Interesuje nas znalezienie rozkładów p(x y) dla rugbistów (y = 1) i skoczków (y = 0). Przyjmujemy rozkład normalny N (x µ y, Σ y ). 17/27

35 Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa rugbista skoczek rugbista skoczek rugbista rugbista skoczek skoczek rugbista skoczek skoczek rugbista skoczek rugbista Interesuje nas znalezienie rozkładów p(x y) dla rugbistów (y = 1) i skoczków (y = 0). Przyjmujemy rozkład normalny N (x µ y, Σ y ). Wykonujemy estymację MLE dla parametrów dot. rugbistów (y = 1): [ ] µ 1 = [184.29, 91.14], Σ 1 = /27

36 Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa rugbista skoczek rugbista skoczek rugbista rugbista skoczek skoczek rugbista skoczek skoczek rugbista skoczek rugbista Interesuje nas znalezienie rozkładów p(x y) dla rugbistów (y = 1) i skoczków (y = 0). Przyjmujemy rozkład normalny N (x µ y, Σ y ). Wykonujemy estymację MLE dla parametrów dot. rugbistów (y = 1): [ ] µ 1 = [184.29, 91.14], Σ 1 = Wykonujemy estymację MLE dla parametrów dot. skoczków (y = 0): [ ] µ 0 = [176.00, 64.86], Σ 0 = /27

37 Procedura estymacji rozkładu dla atrybutów Przykład µ 0 = [176.00, 64.86] [ ] Σ 0 = µ 1 = [184.29, 91.14] [ ] Σ 1 = /27

40 Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 19/27

41 Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? M = M 19/27

42 Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? M = M 2. Ile parametrów trzeba oszacować, aby wyuczyć GDA? 19/27

43 Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? M = M 2. Ile parametrów trzeba oszacować, aby wyuczyć GDA? M + 2 (M + 1) M 2 = M + M 2 19/27

44 Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? M = M 2. Ile parametrów trzeba oszacować, aby wyuczyć GDA? M + 2 (M + 1) M 2 = M + M 2 3. Naiwny Bayes jest szczególnym przypadkiem klasyfikatora GDA, jakie warunki muszą spełniać parametry? 19/27

45 Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? M = M 2. Ile parametrów trzeba oszacować, aby wyuczyć GDA? M + 2 (M + 1) M 2 = M + M 2 3. Naiwny Bayes jest szczególnym przypadkiem klasyfikatora GDA, jakie warunki muszą spełniać parametry? Dla każdej z klas macierz Σ y musi być diagonalna 19/27

46 Modele probabilistyczne stosowane do klasyfikacji Modele generujące (ang. generative models) modelujemy osobno rozkłady p(y) i p(x y). Wtedy p(x, y) = p(x y)p(y), wtedy: p(y x) = p(y)p(x y) p(x) Przykład:GDA, Naiwny Bayes. = p(y)p(x y) y Y p(y )p(x y ). Modele dyskryminujące (ang. discriminative models) bezpośrednio modelujemy rozkład warunkowy na klasę: Przykład:Regresja logistyczna. p(y x) 20/27

47 Regresja logistyczna Modelujemy rozkład p(y = 1 x) następująco: p(y = 1)p(y = 1 x) p(y = 1 x) = p(y = 1)p(y = 1 x) + p(y = 0)p(y = 0 x) 1 = = σ(f(x, w)) 1 + exp ( f(x, w)) gdzie funkcja σ( ) nazywana jest sigmoidalną funkcją logistyczną, f(x, w) definiuje się następująco: f(x, w) = M w m x m = w T x, m=1 i posiada następującą interpretację: f(x, w) = ln p(y = 1)p(y = 1 x) p(y = 0)p(y = 0 x). 21/27

48 Regresja logistyczna Własności funkcji logistycznej Przyjmuje wartości z przedziału [0, 1], σ( ) = 0, σ( ) = 1. Przyjmuje wartość 1 2 dla 0, σ(0) = 1 2. Spełnia następującą własność: prawdą jest więc że: σ( a) = 1 σ(a), p(y = 0 x) = 1 p(y = 1 x) = σ( f(x, w)) Daje możliwość wyrażenia pochodnej poprzez postać funkcji: dσ(a) da = σ(a)(1 σ(a)). 22/27

49 Regresja logistyczna Uczenie Procedura uczenia sprowadza się do znalezienia wartości parametrów w modelu: p(y = 1 w, x) = exp ( w T x) = σ(wt x) Proces estymacji w odbywa się na drodze maksymalizacji funkcji wiarygodności na podstawie danych D = {(x n, y n )} N n=1: gdzie σ n = σ(w T x n ). p(y N n=1 X N n=1, w) = N n=1 Negatywny logarytm z funkcji wiarygodności: ln p(y N n=1 X N n=1, w) = σ yn n (1 σ n ) 1 yn, N (y n ln σ n + (1 y n ) ln (1 σ n )) n=1 Rozwiązanie analityczne nie jest możliwe. 23/27

50 Regresja logistyczna Uczenie - metoda Gradientu Prostego Algorytm gradientu prostego: Initialize w repeat w w α E(w) until convergence Funkcja celu: Gradient: E(w) = N (y n ln σ n + (1 y n ) ln (1 σ n )) n=1 E(w) = Funkcja celu jest wypukła. N (σ n y n )x n n=1 24/27

51 Integracja modeli probabilistycznych Niech dany będzie zbiór pewnych modeli (źródeł wiedzy, ekspertów) probabilistycznych: M = {m 1, m 2,..., m K }. Dla każdego modelu mamy prawdopodobieństwo a priori p(m k ). Dla każdego modelu jesteśmy wstanie wyznaczyć prawdopodobieństwo a posteriori na klasę p(y x, m k ). Prawdopodobieństwo a posteriori dla zintegrowanego zespołu modeli jesteśmy w stanie wyznaczyć wykorzystując regułę brzegową: K p(y x) = p(y x, m k )p(m k ). k=1 25/27

52 Selekcja modeli probabilistycznych Naszym celem jest wybranie najbardziej wiarygodnego modelu m z M. Korzystając z reguły Bayesa możemy zapisać prawdopodobieństwo, że model został wybrany dla zadanego zbioru danych. p(m D) = p(d m)p(m), P (D) gdzie p(d m) reprezentuje wiarygodność, że dane D zostały wygenerowane z modelu m. Wybieramy ten model, dla którego wartość prawdopodobieństwa p(m D) jest najwyższa. 26/27

53 Literatura Należy zapoznać się z treścią książki (Rozdział 4 i 7): Murphy, Kevin P. Machine learning: a probabilistic perspective. MIT Press, /27