WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Wrocław University of Technology WYKŁAD 3 Klasyfikacja: modele probabilistyczne Maciej Zięba Politechnika Wrocławska

Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami (klasami), które przyjmują wartości nominalne. Celem uczenia jest skonstruowanie klasyfikatora separującego obiekty należące do różnych klas. Klasyfikator konstruowany jest tak, aby możliwe było przewidywanie klas nowych, niesklasyfikowanych obserwacji. 2/28

Podstawowe problemy Klasyfikacja: Rozpoznawanie znaków Cel: Dane: Określenie, jaki znak (cyfra, litera) znajduje się na obrazku. Zestaw obrazków treningowych reprezentujących różne znaki wraz z korespondującymi etykietami. Wydobywane są cechy obrazka różnicujące reprezentowane znaki. Na podstawie cech i wykorzystując dane treningowe wykonywana jest klasyfikacja obrazka do najbardziej prawdopodobnego znaku. 3/28

Podstawowe problemy Klasyfikacja: Detekcja obiektów Cel: Dane: Wykrycie obiektu na obrazie. Obraz na którym bada się wystąpienie obiektu, oraz zestaw obrazów treningowych przedstawiających dany obiekt. Do analizy obrazu wykorzystuje się okno przesuwne. W każdym kroku obraz z okna przesuwnego klasyfikowany jest jako obiekt poszukiwany lub nie. 4/28

Podstawowe problemy Klasyfikacja: Detekcja SPAMU Cel: Dane: Zbadać, czy dana wiadomość jest SPAMEM. Zestaw zawierający zaetykietowane wiadomości mailowe. Wydobywane są cechy (występowanie słów) różnicujące SPAM od zwykłej poczty. Klasyfikacja nowej wiadomości odbywa się z wykorzystaniem wydobytych cech. 5/28

Podstawowe problemy Klasyfikacja: Credit Scoring Cel: Dane: Zbadać zdolność kredytową klienta bankowego. Charakterystyki klientów bankowych pochodzące z systemów informatycznych i kwestionariuszy. Wydobywane są cechy mające wpływ na decyzje kredytowe. Klasyfikatory do oceny zdolności kredytowej są powszechnie stosowanym narzędziem. 6/28

Probabilistyczna reprezentacja wiedzy Wiedza reprezentowania jest w postaci rozkładów prawdopodobieństwa. Proces podejmowania decyzji odbywa się poprzez wybór najbardziej prawdopodobnego wariantu. Przykład: p(176, 85 rugbista) = 0.17; p(176, 85 skoczek) = 0.01. Wniosek: bardziej prawdopodobne jest, że jeśli osoba jest rugbistą, to ma 176 cm wzrostu i waży 85 kg. 7/28

Podejmowanie decyzji w warunkach niepewności Niech dana będzie zmienna losowa Y reprezentującą klasę, a Y oznacza zbiór możliwych klas. Niech wektor zmiennych losowych X reprezentuje wektor cech, a X niech reprezentuje przestrzeń możliwych wartości wektorów. Z reguły Bayesa możemy zapisać wzór na prawdopodobieństwo, że obiekt opisany wektorem cech x należy od klasy y. p(y = y X = x) = p(y = y)p(x = x Y = y). p(x = x) p(y x) = p(y)p(x y) p(x) = p(y)p(x y) y Y p(y )p(x y ). Interesuje nas znalezienie takiej klasy y Y, dla której wartość prawdopodobieństwa p(y x) jest najwyższa: arg max p(y x) = arg max p(y)p(x y). y Y y Y 8/28

Podejmowanie decyzji w warunkach niepewności Przykład Rozważamy osobę, która ma 176 cm wzrostu i waży 85 kg (x = [176, 85]) i chcemy określić, czy osoba jest rugbistą, czy też skoczkiem. Dla każdego y mamy dane prawdopodobieństwa p(x y): p(176, 85 rugbista) = 0.17, p(176, 85 skoczek) = 0.01. Prawdopodobieństwa p(y) są następujące: p(skoczek) = 0.2, p(rugbista) = 0.8. Natomiast p(y)p(x y) są równe: p(176, 85 skoczek)p(skoczek) = 0.01 0.2 = 0.002. p(176, 85 rugbista)p(rugbista) = 0.17 0.8 = 0.136. 9/28

Podejmowanie decyzji w warunkach niepewności Przykład Jeżeli chcemy znać dokładną wartość prawdopodobieństwa, że osoba która ma 176 cm wzrostu i waży 85 kg (x = [176, 85]) to rugbista, wówczas korzystamy ze wzoru Bayesa: p(176, 85 rugbista)p(rugbista) p(rugbista 176, 85) = = p(176, 85) p(176, 85 rugbista)p(rugbista) = p(176, 85 rugbista)p(rugbista) + p(176, 85 skoczek)p(skoczek) 0.136 = 0.002 + 0.136 = 0.136 0.138 0.98. W sposób analogiczny wyznacza się prawdopodobieństwo, że osoba która ma 176 cm wzrostu i waży 85 kg (x = [176, 85]) to skoczek. 10/28

Klasyfikator Naiwnego Bayesa Przykład Jedna z najpowszechniej stosowanych probabilistycznych metod klasyfikacji. Centralnym założeniem tej metody jest to, że zakłada ona niezależność pomiędzy cechami: p(x) = p(x 1 ) p(x M ) Możemy więc przedstawić p(y x) w następującej postaci: p(y x) = p(y)p(x 1 y) p(x M y). p(x 1 ) p(x M ) Rozpatrując przywołany przykład mamy: p(rugbista 176, 85) = p(rugbista)p(176 rugbista)p(85 rugbista). p(176)p(85) 11/28

Klasyfikator Naiwnego Bayesa Procedura uczenia czystościowego W praktyce nie mamy danych rozkładów prawdopodobieństw p(y), p(x 1 y),..., p(x M y). Mamy natomiast dane zawarte w zbiorze treningowym D = {(x n, y n )} N n=1. Zakładamy więc, że każdy z rozkładów jest opisany pewnymi parametrami: p(y θ), p(x 1 y, θ),..., p(x M y, θ). Proces uczenia odbywa się poprzez estymację MLE lub MAP parametrów rozkładów θ. Przyjmijmy dla naszego przykładu następujące rozkłady: rozkład dwupunktowy dla p(y θ). rozkłady Gaussa dla p(x1 y, θ), p(x 2 y, θ). Dodatkowo, przyjmijmy że wykonujemy estymację MLE. 12/28

Procedura estymacji rozkładu dla klasy Procedura uczenia czystościowego Mamy dwie możliwe wartości klasy. Kodujemy je w ten sposób, że jedna wartość odpowiada 1 a druga 0. Zakładamy, że rozkład p(y θ) jest rozkładem dwupunktowym: p(y θ) = θ y (1 θ) 1 y Parametr θ ma interpretację prawdopodobieństwa wystąpienia pierwszej wartości klasy. Estymator MLE dla parametru θ: θ MLE = m N, gdzie m oznacza liczbę obserwacji należących do klasy etykietowanej 1. 13/28

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista 14/28

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y 14/28

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y Przyjmujemy kodowanie 1 rugbista, 0 skoczek. 14/28

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y Przyjmujemy kodowanie 1 rugbista, 0 skoczek. Wykonujemy estymację MLE dla parametru θ: θ MLE = 7 14 = 1 2. 14/28

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y Przyjmujemy kodowanie 1 rugbista, 0 skoczek. Wykonujemy estymację MLE dla parametru θ: Wynika z tego że: θ MLE = 7 14 = 1 2. p(y = 1) = θ = 1 = p(y = 0). 2 14/28

Procedura estymacji rozkładu dla atrybutów Procedura uczenia czystościowego Zakładamy, że rozkład p(x i y, θ) dla pojedynczego, i-tego atrybutu jest rozkładem Gaussa: p(x i y, θ) = N (x i µ y, σ y ) Parametr θ = [µ, σ 2 ] reprezentuje średnią i odchylenie standardowe rozkładu normalnego. Estymator MLE dla parametru µ y : µ y = 1 N I(y n = y)x n. N y n=1 gdzie N y oznacza liczbę obserwacji należących do klasy y. Estymator MLE dla parametru σ 2 y: σy 2 = 1 N I(y n = y)(x n µ y ) 2 N y n=1 15/28

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista 16/28

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(x 1 y, θ) dla atrybutu Wzrost: 16/28

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(x 1 y, θ) dla atrybutu Wzrost: Przyjmujemy rozkład normalny N (x i µ y, σ y ). 16/28

Procedura estymacji rozkładu dla atrybutów Przykład Interesuje nas znalezienie rozkładu p(x 1 y, θ) dla atrybutu Wzrost: Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Przyjmujemy rozkład normalny N (x i µ y, σ y ). Wykonujemy estymację MLE dla parametrów dot. rugbistów (y = 1): µ 1 = 184.29, σ1 2 = 29.57, 1 p(x 1 y = 1) = e (x 184.29)2 2 29.57 2π 29.57 16/28

Procedura estymacji rozkładu dla atrybutów Przykład Interesuje nas znalezienie rozkładu p(x 1 y, θ) dla atrybutu Wzrost: Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Przyjmujemy rozkład normalny N (x i µ y, σ y ). Wykonujemy estymację MLE dla parametrów dot. rugbistów (y = 1): µ 1 = 184.29, σ1 2 = 29.57, 1 p(x 1 y = 1) = e (x 184.29)2 2 29.57 2π 29.57 Wykonujemy estymację MLE dla parametrów dot. skoczków (y = 0): µ 0 = 176.00, σ0 2 = 49.67. 1 p(x 1 y = 1) = e (x 176.00)2 2 49.67 2π 49.67 16/28

Procedura estymacji rozkładu dla atrybutów Atrybut nominalny Zakładamy, że rozkład p(x i y, θ) dla pojedynczego, i-tego atrybutu nominalnego jest rozkładem wielopunktowy: p(x i = j y, θ) = θ j,y, gdzie estymator MLE dla θ j,y wynosi: θ j,y = m j,y N y gdzie m j,y stanowi liczbę obserwacji dla obiektów należących do klasy y i dla których x i = j, natomiast N y to liczba obiektów należących do klasy y. 17/28

Procedura estymacji rozkładu dla atrybutów CHAPTER 2. OVERVIEW OF CLASSIFICATION METHODS 28 Atrybut nominalny - przykład Credit amount Employment status Personal status Credit status (class) A 2,3 : x 13000$ A 4,3 : full-time job A 5,2 : married B 1,2 :bad A 2,1 : x<4000$ A 4,1 : unemployment A 5,2 : married B 1,1 :good A 2,1 : x<4000$ A 4,3 : full-time job A 5,1 : single B 1,1 :good A 2,2 :4000$applex<13000$ A 4,2 : part-time job A 5,1 : single B 1,1 :good A 2,3 : x 13000$ A 4,3 : full-time job A 5,3 : divorced B 1,2 :bad A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,2 :bad A 2,2 :4000$applex<13000$ A 4,2 : part-time job A 5,3 : divorced B 1,2 :bad A 2,2 :4000$applex<13000$ A 4,1 : unemployment A 5,1 : single B 1,2 :bad A 2,1 : x<4000$ A 4,2 : part-time job A 5,3 : divorced B 1,1 :good A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,1 :good A 2,2 :4000$applex<13000$ A 4,3 : full-time job A 5,2 : married B 1,1 :good A 2,2 :4000$applex<13000$ A 4,3 : full-time job A 5,3 : divorced B 1,1 :good Do której Table klasy 2.1: Exemplary należy obiekt training klient set for który creditchce scoring kredyt classification powyżej problem 4000$, jest żonaty i ma stałą pracę na pełen etat? 2.3.2 Decision rules and trees Decision rules and trees are nonparametric classifiers which have one fundamental advantage: 18/28

Klasyfikator GDA Rozpatrujemy klasyfikator Gaussowskiej Analizy Dyskryminacyjnej (ang. Gaussian Discriminative Analysis, GDA). Interesuje nas znalezienie takiej klasy y Y, dla której wartość prawdopodobieństwa p(y x) jest najwyższa: arg max p(y x) = arg max p(y)p(x y). y Y y Y Zakładamy, że p(y) modelujemy rozkładem dwupunktowym: p(y θ) = θ y (1 θ) 1 y Zakładamy, że p(x y) modelujemy wielowymiarowym rozkładem Gaussa: 1 N (x µ y, Σ y ) = (2π) M 2 Σ y 1 2 e 1 2 (x µ y )T Σ 1 y (x µ y ) 19/28

Wielowymiarowy rozkład Gaussa Własności rozkładu Funkcja rozkładu prawdopodobieństwa: 1 N (x µ, Σ) = (2π) M 2 Σ 1 2 Podstawowe własności rozkładu: E[X] = µ, cov[x] = Σ. e (x µ)t Σ 1 (x µ) Estymatory MLE dla parametrów są następujące: ˆµ MLE = 1 N N x n, n=1 ˆΣ MLE = 1 N (x n ˆµ N MLE )(x n ˆµ MLE ) T. n=1 20/28

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista 21/28

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładów p(x y) dla rugbistów (y = 1) i skoczków (y = 0). 21/28

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładów p(x y) dla rugbistów (y = 1) i skoczków (y = 0). Przyjmujemy rozkład normalny N (x µ y, Σ y ). 21/28

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładów p(x y) dla rugbistów (y = 1) i skoczków (y = 0). Przyjmujemy rozkład normalny N (x µ y, Σ y ). Wykonujemy estymację MLE dla parametrów dot. rugbistów (y = 1): [ ] 29.57 13.39 µ 1 = [184.29, 91.14], Σ 1 = 13.39 31.14 21/28

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładów p(x y) dla rugbistów (y = 1) i skoczków (y = 0). Przyjmujemy rozkład normalny N (x µ y, Σ y ). Wykonujemy estymację MLE dla parametrów dot. rugbistów (y = 1): [ ] 29.57 13.39 µ 1 = [184.29, 91.14], Σ 1 = 13.39 31.14 Wykonujemy estymację MLE dla parametrów dot. skoczków (y = 0): [ ] 49.67 17.29 µ 0 = [176.00, 64.86], Σ 0 = 17.29 17.13 21/28

Procedura estymacji rozkładu dla atrybutów Przykład µ 0 = [176.00, 64.86] [ ] 49.67 17.29 Σ 0 = 17.29 17.13 µ 1 = [184.29, 91.14] [ ] 29.57 13.39 Σ 1 = 13.39 31.14 22/28

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 23/28

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 1 + 2 2 M = 1 + 4 M 23/28

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 1 + 2 2 M = 1 + 4 M 2. Ile parametrów trzeba oszacować, aby wyuczyć GDA? 23/28

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 1 + 2 2 M = 1 + 4 M 2. Ile parametrów trzeba oszacować, aby wyuczyć GDA? 1 + 2 M + 2 (M + 1) M 2 = 1 + 3 M + M 2 23/28

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 1 + 2 2 M = 1 + 4 M 2. Ile parametrów trzeba oszacować, aby wyuczyć GDA? 1 + 2 M + 2 (M + 1) M 2 = 1 + 3 M + M 2 3. Naiwny Bayes jest szczególnym przypadkiem klasyfikatora GDA, jakie warunki muszą spełniać parametry? 23/28

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 1 + 2 2 M = 1 + 4 M 2. Ile parametrów trzeba oszacować, aby wyuczyć GDA? 1 + 2 M + 2 (M + 1) M 2 = 1 + 3 M + M 2 3. Naiwny Bayes jest szczególnym przypadkiem klasyfikatora GDA, jakie warunki muszą spełniać parametry? Dla każdej z klas macierz Σ y musi być diagonalna 23/28

Modele probabilistyczne stosowane do klasyfikacji Modele generujące (ang. generative models) modelujemy osobno rozkłady p(y) i p(x y). Wtedy p(x, y) = p(x y)p(y), wtedy: p(y x) = p(y)p(x y) p(x) Przykład:GDA, Naiwny Bayes. = p(y)p(x y) y Y p(y )p(x y ). Modele dyskryminujące (ang. discriminative models) bezpośrednio modelujemy rozkład warunkowy na klasę: Przykład:Regresja logistyczna. p(y x) 24/28

Regresja logistyczna Modelujemy rozkład p(y = 1 x) następująco: p(y = 1)p(x y = 1) p(y = 1 x) = p(y = 1)p(x y = 1) + p(y = 0)p(x y = 0) 1 = = σ(f(x, w)) 1 + exp ( f(x, w)) gdzie funkcja σ( ) nazywana jest sigmoidalną funkcją logistyczną, f(x, w) definiuje się następująco: f(x, w) = M w m x m = w T x, m=1 i posiada następującą interpretację: f(x, w) = ln p(y = 1)p(x y = 1) p(y = 0)p(x y = 0). 25/28

Regresja logistyczna Własności funkcji logistycznej Przyjmuje wartości z przedziału [0, 1], σ( ) = 0, σ( ) = 1. Przyjmuje wartość 1 2 dla 0, σ(0) = 1 2. Spełnia następującą własność: prawdą jest więc że: σ( a) = 1 σ(a), p(y = 0 x) = 1 p(y = 1 x) = σ( f(x, w)) Daje możliwość wyrażenia pochodnej poprzez postać funkcji: dσ(a) da = σ(a)(1 σ(a)). 26/28

Regresja logistyczna Uczenie Procedura uczenia sprowadza się do znalezienia wartości parametrów w modelu: p(y = 1 w, x) = 1 1 + exp ( w T x) = σ(wt x) Proces estymacji w odbywa się na drodze maksymalizacji funkcji wiarygodności na podstawie danych D = {(x n, y n )} N n=1: gdzie σ n = σ(w T x n ). p(y N n=1 X N n=1, w) = N n=1 Negatywny logarytm z funkcji wiarygodności: ln p(y N n=1 X N n=1, w) = σ yn n (1 σ n ) 1 yn, N (y n ln σ n + (1 y n ) ln (1 σ n )) n=1 Rozwiązanie analityczne nie jest możliwe. 27/28

Regresja logistyczna Uczenie - metoda Gradientu Prostego Algorytm gradientu prostego: Initialize w repeat w w α E(w) until convergence Funkcja celu: Gradient: E(w) = N (y n ln σ n + (1 y n ) ln (1 σ n )) n=1 E(w) = Funkcja celu jest wypukła. N (σ n y n )x n n=1 28/28