WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Podobne dokumenty
WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Rozpoznawanie obrazów

Rozpoznawanie obrazów

Podstawowe modele probabilistyczne

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce

WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska

WYKŁAD 2. Problem regresji - modele liniowe

WYKŁAD 6. Reguły decyzyjne

Metody systemowe i decyzyjne w informatyce

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Metody systemowe i decyzyjne w informatyce

SPOTKANIE 3: Regresja: Regresja liniowa

WYKŁAD 1. Wprowadzenie w tematykę kursu

Metody systemowe i decyzyjne w informatyce

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Rozpoznawanie obrazów

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Optymalizacja systemów

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Wprowadzenie do uczenia maszynowego. Jakub Tomczak

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

1 Klasyfikator bayesowski

Jądrowe klasyfikatory liniowe

Testowanie hipotez statystycznych.

Modele zapisane w przestrzeni stanów

Fuzja sygnałów i filtry bayesowskie

Klasyfikacja naiwny Bayes

Wprowadzenie. Data Science Uczenie się pod nadzorem

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Metody probabilistyczne klasyfikatory bayesowskie

Metody systemowe i decyzyjne w informatyce

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Rozpoznawanie obrazów

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Metoda największej wiarygodności

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Komputerowa analiza danych doświadczalnych

1.1 Wstęp Literatura... 1

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Klasyfikacja metodą Bayesa

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Metody Rozmyte i Algorytmy Ewolucyjne

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Własności statystyczne regresji liniowej. Wykład 4

Ważne rozkłady i twierdzenia c.d.

Testowanie hipotez statystycznych.

Komputerowa analiza danych doświadczalnych

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Elementy modelowania matematycznego

Metoda najmniejszych kwadratów

Wykład 3 Jednowymiarowe zmienne losowe

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

2. Empiryczna wersja klasyfikatora bayesowskiego

Testowanie hipotez statystycznych.

Wnioskowanie bayesowskie

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

PROCESY STOCHASTYCZNE. PEWNE KLASY PROCESÓW STOCHASTYCZNYCH Definicja. Procesem stochastycznym nazywamy rodzinę zmiennych losowych X(t) = X(t, ω)

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Regresyjne metody łączenia klasyfikatorów

Prawdopodobieństwo i statystyka r.

Testowanie hipotez statystycznych. Wprowadzenie

Wrocław University of Technology. Uczenie głębokie. Maciej Zięba

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Agata Boratyńska Statystyka aktuarialna... 1

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Elementy inteligencji obliczeniowej

Algorytmy estymacji stanu (filtry)

Metoda największej wiarogodności

Zmienne losowe ciągłe i ich rozkłady

Agnieszka Nowak Brzezińska Wykład III

Weryfikacja hipotez statystycznych

SPOTKANIE 2: Wprowadzenie cz. I

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wstęp. Regresja logistyczna. Spis treści. Hipoteza. powrót

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Procesy stochastyczne

Parametr Λ w populacji ubezpieczonych ma rozkład dany na półosi dodatniej gęstością: 3 f

Komputerowa analiza danych doświadczalnych

Zmienne losowe ciągłe i ich rozkłady

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Prawdopodobieństwo i statystyka

Transkrypt:

Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska

Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami (klasami), które przyjmują wartości nominalne. Celem uczenia jest skonstruowanie klasyfikatora separującego obiekty należące do różnych klas. Klasyfikator konstruowany jest tak, aby możliwe było przewidywanie klas nowych, niesklasyfikowanych obserwacji. 2/27

Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami (klasami), które przyjmują wartości nominalne. Celem uczenia jest skonstruowanie klasyfikatora separującego obiekty należące do różnych klas. Klasyfikator konstruowany jest tak, aby możliwe było przewidywanie klas nowych, niesklasyfikowanych obserwacji. 2/27

Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami (klasami), które przyjmują wartości nominalne. Celem uczenia jest skonstruowanie klasyfikatora separującego obiekty należące do różnych klas. Klasyfikator konstruowany jest tak, aby możliwe było przewidywanie klas nowych, niesklasyfikowanych obserwacji. 2/27

Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami (klasami), które przyjmują wartości nominalne. Celem uczenia jest skonstruowanie klasyfikatora separującego obiekty należące do różnych klas. Klasyfikator konstruowany jest tak, aby możliwe było przewidywanie klas nowych, niesklasyfikowanych obserwacji. 2/27

Probabilistyczna reprezentacja wiedzy Wiedza reprezentowania jest w postaci rozkładów prawdopodobieństwa. Proces podejmowania decyzji odbywa się poprzez wybór najbardziej prawdopodobnego wariantu. Przykład: p(176, 85 rugbista) = 0.17; p(176, 85 skoczek) = 0.01. Wniosek: bardziej prawdopodobne jest, że jeśli osoba jest rugbistą, to ma 176 cm wzrostu i waży 85 kg. 3/27

Probabilistyczna reprezentacja wiedzy Wiedza reprezentowania jest w postaci rozkładów prawdopodobieństwa. Proces podejmowania decyzji odbywa się poprzez wybór najbardziej prawdopodobnego wariantu. Przykład: p(176, 85 rugbista) = 0.17; p(176, 85 skoczek) = 0.01. Wniosek: bardziej prawdopodobne jest, że jeśli osoba jest rugbistą, to ma 176 cm wzrostu i waży 85 kg. 3/27

Podejmowanie decyzji w warunkach niepewności Niech dana będzie zmienna losowa Y reprezentującą klasę, a Y oznacza zbiór możliwych klas. Niech wektor zmiennych losowych X reprezentuje wektor cech, a X niech reprezentuje przestrzeń możliwych wartości wektorów. Z reguły Bayesa możemy zapisać wzór na prawdopodobieństwo, że obiekt opisany wektorem cech x należy od klasy y. p(y = y X = x) = p(y = y)p(x = x Y = y). p(x = x) p(y x) = p(y)p(x y) p(x) = p(y)p(x y) y Y p(y )p(x y ). Interesuje nas znalezienie takiej klasy y Y, dla której wartość prawdopodobieństwa p(y x) jest najwyższa: arg max p(y x) = arg max p(y)p(x y). y Y y Y 4/27

Podejmowanie decyzji w warunkach niepewności Przykład Rozważamy osobę, która ma 176 cm wzrostu i waży 85 kg (x = [176, 85]) i chcemy określić, czy osoba jest rugbistą, czy też skoczkiem. Dla każdego y mamy dane prawdopodobieństwa p(x y): p(176, 85 rugbista) = 0.17, p(176, 85 skoczek) = 0.01. Prawdopodobieństwa p(y) są następujące: p(skoczek) = 0.2, p(rugbista) = 0.8. Natomiast p(y)p(x y) są równe: p(176, 85 skoczek)p(skoczek) = 0.01 0.2 = 0.002. p(176, 85 rugbista)p(rugbista) = 0.17 0.8 = 0.136. 5/27

Podejmowanie decyzji w warunkach niepewności Przykład Rozważamy osobę, która ma 176 cm wzrostu i waży 85 kg (x = [176, 85]) i chcemy określić, czy osoba jest rugbistą, czy też skoczkiem. Dla każdego y mamy dane prawdopodobieństwa p(x y): p(176, 85 rugbista) = 0.17, p(176, 85 skoczek) = 0.01. Prawdopodobieństwa p(y) są następujące: p(skoczek) = 0.2, p(rugbista) = 0.8. Natomiast p(y)p(x y) są równe: p(176, 85 skoczek)p(skoczek) = 0.01 0.2 = 0.002. p(176, 85 rugbista)p(rugbista) = 0.17 0.8 = 0.136. 5/27

Podejmowanie decyzji w warunkach niepewności Przykład Jeżeli chcemy znać dokładną wartość prawdopodobieństwa, że osoba która ma 176 cm wzrostu i waży 85 kg (x = [176, 85]) to rugbista, wówczas korzystamy ze wzoru Bayesa: p(176, 85 rugbista)p(rugbista) p(rugbista 176, 85) = = p(176, 85) p(176, 85 rugbista)p(rugbista) = p(176, 85 rugbista)p(rugbista) + p(176, 85 skoczek)p(skoczek) 0.136 = 0.002 + 0.136 = 0.136 0.138 0.98. W sposób analogiczny wyznacza się prawdopodobieństwo, że osoba która ma 176 cm wzrostu i waży 85 kg (x = [176, 85]) to skoczek. 6/27

Klasyfikator Naiwnego Bayesa Przykład Jedna z najpowszechniej stosowanych probabilistycznych metod klasyfikacji. Centralnym założeniem tej metody jest to, że zakłada ona niezależność pomiędzy cechami: p(x) = p(x 1 ) p(x M ) Możemy więc przedstawić p(y x) w następującej postaci: p(y x) = p(y)p(x 1 y) p(x M y). p(x 1 ) p(x M ) Rozpatrując przywołany przykład mamy: p(rugbista 176, 85) = p(rugbista)p(176 rugbista)p(85 rugbista). p(176)p(85) 7/27

Klasyfikator Naiwnego Bayesa Procedura uczenia czystościowego W praktyce nie mamy danych rozkładów prawdopodobieństw p(y), p(x 1 y),..., p(x M y). Mamy natomiast dane zawarte w zbiorze treningowym D = {(x n, y n )} N n=1. Zakładamy więc, że każdy z rozkładów jest opisany pewnymi parametrami: p(y θ), p(x 1 y, θ),..., p(x M y, θ). Proces uczenia odbywa się poprzez estymację MLE lub MAP parametrów rozkładów θ. Przyjmijmy dla naszego przykładu następujące rozkłady: rozkład dwupunktowy dla p(y θ). rozkłady Gaussa dla p(x1 y, θ), p(x 2 y, θ). Dodatkowo, przyjmijmy że wykonujemy estymację MLE. 8/27

Procedura estymacji rozkładu dla klasy Procedura uczenia czystościowego Mamy dwie możliwe wartości klasy. Kodujemy je w ten sposób, że jedna wartość odpowiada 1 a druga 0. Zakładamy, że rozkład p(y θ) jest rozkładem dwupunktowym: p(y θ) = θ y (1 θ) 1 y Parametr θ ma interpretację prawdopodobieństwa wystąpienia pierwszej wartości klasy. Estymator MLE dla parametru θ: θ MLE = m N, gdzie m oznacza liczbę obserwacji należących do klasy etykietowanej 1. 9/27

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista 10/27

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y 10/27

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y Przyjmujemy kodowanie 1 rugbista, 0 skoczek. 10/27

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y Przyjmujemy kodowanie 1 rugbista, 0 skoczek. Wykonujemy estymację MLE dla parametru θ: θ MLE = 7 14 = 1 2. 10/27

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y Przyjmujemy kodowanie 1 rugbista, 0 skoczek. Wykonujemy estymację MLE dla parametru θ: θ MLE = 7 14 = 1 2. 10/27

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y Przyjmujemy kodowanie 1 rugbista, 0 skoczek. Wykonujemy estymację MLE dla parametru θ: θ MLE = 7 14 = 1 2. 10/27

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y Przyjmujemy kodowanie 1 rugbista, 0 skoczek. Wykonujemy estymację MLE dla parametru θ: Wynika z tego że: θ MLE = 7 14 = 1 2. p(y = 1) = θ = 1 = p(y = 0). 2 10/27

Procedura estymacji rozkładu dla atrybutów Procedura uczenia czystościowego Zakładamy, że rozkład p(x i y, θ) dla pojedynczego, i-tego atrybutu jest rozkładem Gaussa: p(x i y, θ) = N (x i µ y, σ y ) Parametr θ = [µ, σ 2 ] reprezentuje średnią i odchylenie standardowe rozkładu normalnego. Estymator MLE dla parametru µ y : µ y = 1 N I(y n = y)x n. N y n=1 gdzie N y oznacza liczbę obserwacji należących do klasy y. Estymator MLE dla parametru σ 2 y: σy 2 = 1 N I(y n = y)(x n µ y ) 2 N y n=1 11/27

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista 12/27

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(x 1 y, θ) dla atrybutu Wzrost: 12/27

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(x 1 y, θ) dla atrybutu Wzrost: Przyjmujemy rozkład normalny N (x i µ y, σ y ). 12/27

Procedura estymacji rozkładu dla atrybutów Przykład Interesuje nas znalezienie rozkładu p(x 1 y, θ) dla atrybutu Wzrost: Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Przyjmujemy rozkład normalny N (x i µ y, σ y ). Wykonujemy estymację MLE dla parametrów dot. rugbistów (y = 1): µ 1 = 184.29, σ1 2 = 29.57, 1 p(x 1 y = 1) = e (x 184.29)2 2 29.57 2π 29.57 12/27

Procedura estymacji rozkładu dla atrybutów Przykład Interesuje nas znalezienie rozkładu p(x 1 y, θ) dla atrybutu Wzrost: Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Przyjmujemy rozkład normalny N (x i µ y, σ y ). Wykonujemy estymację MLE dla parametrów dot. rugbistów (y = 1): µ 1 = 184.29, σ1 2 = 29.57, 1 p(x 1 y = 1) = e (x 184.29)2 2 29.57 2π 29.57 Wykonujemy estymację MLE dla parametrów dot. skoczków (y = 0): µ 0 = 176.00, σ0 2 = 49.67. 1 p(x 1 y = 1) = e (x 176.00)2 2 49.67 2π 49.67 12/27

Procedura estymacji rozkładu dla atrybutów Atrybut nominalny Zakładamy, że rozkład p(x i y, θ) dla pojedynczego, i-tego atrybutu nominalnego jest rozkładem wielopunktowy: p(x i = j y, θ) = θ j,y, gdzie estymator MLE dla θ j,y wynosi: θ j,y = m j,y N y gdzie m j,y stanowi liczbę obserwacji dla obiektów należących do klasy y i dla których x i = j, natomiast N y to liczba obiektów należących do klasy y. 13/27

Procedura estymacji rozkładu dla atrybutów CHAPTER 2. OVERVIEW OF CLASSIFICATION METHODS 28 Atrybut nominalny - przykład Credit amount Employment status Personal status Credit status (class) A 2,3 : x 13000$ A 4,3 : full-time job A 5,2 : married B 1,2 :bad A 2,1 : x<4000$ A 4,1 : unemployment A 5,2 : married B 1,1 :good A 2,1 : x<4000$ A 4,3 : full-time job A 5,1 : single B 1,1 :good A 2,2 :4000$applex<13000$ A 4,2 : part-time job A 5,1 : single B 1,1 :good A 2,3 : x 13000$ A 4,3 : full-time job A 5,3 : divorced B 1,2 :bad A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,2 :bad A 2,2 :4000$applex<13000$ A 4,2 : part-time job A 5,3 : divorced B 1,2 :bad A 2,2 :4000$applex<13000$ A 4,1 : unemployment A 5,1 : single B 1,2 :bad A 2,1 : x<4000$ A 4,2 : part-time job A 5,3 : divorced B 1,1 :good A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,1 :good A 2,2 :4000$applex<13000$ A 4,3 : full-time job A 5,2 : married B 1,1 :good A 2,2 :4000$applex<13000$ A 4,3 : full-time job A 5,3 : divorced B 1,1 :good Do której Table klasy 2.1: Exemplary należy obiekt training klient set for który creditchce scoring kredyt classification powyżej problem 4000$, jest żonaty i ma stałą pracę na pełen etat? 2.3.2 Decision rules and trees Decision rules and trees are nonparametric classifiers which have one fundamental advantage: 14/27

Klasyfikator GDA Rozpatrujemy klasyfikator Gaussowskiej Analizy Dyskryminacyjnej (ang. Gaussian Discriminative Analysis, GDA). Interesuje nas znalezienie takiej klasy y Y, dla której wartość prawdopodobieństwa p(y x) jest najwyższa: arg max p(y x) = arg max p(y)p(x y). y Y y Y Zakładamy, że p(y) modelujemy rozkładem dwupunktowym: p(y θ) = θ y (1 θ) 1 y Zakładamy, że p(x y) modelujemy wielowymiarowym rozkładem Gaussa: 1 N (x µ y, Σ y ) = (2π) M 2 Σ y 1 2 e 1 2 (x µ y )T Σ 1 y (x µ y ) 15/27

Wielowymiarowy rozkład Gaussa Własności rozkładu Funkcja rozkładu prawdopodobieństwa: 1 N (x µ, Σ) = (2π) M 2 Σ 1 2 Podstawowe własności rozkładu: E[X] = µ, cov[x] = Σ. e (x µ)t Σ 1 (x µ) Estymatory MLE dla parametrów są następujące: ˆµ MLE = 1 N N x n, n=1 ˆΣ MLE = 1 N (x n ˆµ N MLE )(x n ˆµ MLE ) T. n=1 16/27

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista 17/27

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładów p(x y) dla rugbistów (y = 1) i skoczków (y = 0). 17/27

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładów p(x y) dla rugbistów (y = 1) i skoczków (y = 0). Przyjmujemy rozkład normalny N (x µ y, Σ y ). 17/27

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładów p(x y) dla rugbistów (y = 1) i skoczków (y = 0). Przyjmujemy rozkład normalny N (x µ y, Σ y ). Wykonujemy estymację MLE dla parametrów dot. rugbistów (y = 1): [ ] 29.57 13.39 µ 1 = [184.29, 91.14], Σ 1 = 13.39 31.14 17/27

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładów p(x y) dla rugbistów (y = 1) i skoczków (y = 0). Przyjmujemy rozkład normalny N (x µ y, Σ y ). Wykonujemy estymację MLE dla parametrów dot. rugbistów (y = 1): [ ] 29.57 13.39 µ 1 = [184.29, 91.14], Σ 1 = 13.39 31.14 Wykonujemy estymację MLE dla parametrów dot. skoczków (y = 0): [ ] 49.67 17.29 µ 0 = [176.00, 64.86], Σ 0 = 17.29 17.13 17/27

Procedura estymacji rozkładu dla atrybutów Przykład µ 0 = [176.00, 64.86] [ ] 49.67 17.29 Σ 0 = 17.29 17.13 µ 1 = [184.29, 91.14] [ ] 29.57 13.39 Σ 1 = 13.39 31.14 18/27

Procedura estymacji rozkładu dla atrybutów Przykład µ 0 = [176.00, 64.86] [ ] 49.67 17.29 Σ 0 = 17.29 17.13 µ 1 = [184.29, 91.14] [ ] 29.57 13.39 Σ 1 = 13.39 31.14 18/27

Procedura estymacji rozkładu dla atrybutów Przykład µ 0 = [176.00, 64.86] [ ] 49.67 17.29 Σ 0 = 17.29 17.13 µ 1 = [184.29, 91.14] [ ] 29.57 13.39 Σ 1 = 13.39 31.14 18/27

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 19/27

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 1 + 2 2 M = 1 + 4 M 19/27

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 1 + 2 2 M = 1 + 4 M 2. Ile parametrów trzeba oszacować, aby wyuczyć GDA? 19/27

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 1 + 2 2 M = 1 + 4 M 2. Ile parametrów trzeba oszacować, aby wyuczyć GDA? 1 + 2 M + 2 (M + 1) M 2 = 1 + 3 M + M 2 19/27

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 1 + 2 2 M = 1 + 4 M 2. Ile parametrów trzeba oszacować, aby wyuczyć GDA? 1 + 2 M + 2 (M + 1) M 2 = 1 + 3 M + M 2 3. Naiwny Bayes jest szczególnym przypadkiem klasyfikatora GDA, jakie warunki muszą spełniać parametry? 19/27

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 1 + 2 2 M = 1 + 4 M 2. Ile parametrów trzeba oszacować, aby wyuczyć GDA? 1 + 2 M + 2 (M + 1) M 2 = 1 + 3 M + M 2 3. Naiwny Bayes jest szczególnym przypadkiem klasyfikatora GDA, jakie warunki muszą spełniać parametry? Dla każdej z klas macierz Σ y musi być diagonalna 19/27

Modele probabilistyczne stosowane do klasyfikacji Modele generujące (ang. generative models) modelujemy osobno rozkłady p(y) i p(x y). Wtedy p(x, y) = p(x y)p(y), wtedy: p(y x) = p(y)p(x y) p(x) Przykład:GDA, Naiwny Bayes. = p(y)p(x y) y Y p(y )p(x y ). Modele dyskryminujące (ang. discriminative models) bezpośrednio modelujemy rozkład warunkowy na klasę: Przykład:Regresja logistyczna. p(y x) 20/27

Regresja logistyczna Modelujemy rozkład p(y = 1 x) następująco: p(y = 1)p(y = 1 x) p(y = 1 x) = p(y = 1)p(y = 1 x) + p(y = 0)p(y = 0 x) 1 = = σ(f(x, w)) 1 + exp ( f(x, w)) gdzie funkcja σ( ) nazywana jest sigmoidalną funkcją logistyczną, f(x, w) definiuje się następująco: f(x, w) = M w m x m = w T x, m=1 i posiada następującą interpretację: f(x, w) = ln p(y = 1)p(y = 1 x) p(y = 0)p(y = 0 x). 21/27

Regresja logistyczna Własności funkcji logistycznej Przyjmuje wartości z przedziału [0, 1], σ( ) = 0, σ( ) = 1. Przyjmuje wartość 1 2 dla 0, σ(0) = 1 2. Spełnia następującą własność: prawdą jest więc że: σ( a) = 1 σ(a), p(y = 0 x) = 1 p(y = 1 x) = σ( f(x, w)) Daje możliwość wyrażenia pochodnej poprzez postać funkcji: dσ(a) da = σ(a)(1 σ(a)). 22/27

Regresja logistyczna Uczenie Procedura uczenia sprowadza się do znalezienia wartości parametrów w modelu: p(y = 1 w, x) = 1 1 + exp ( w T x) = σ(wt x) Proces estymacji w odbywa się na drodze maksymalizacji funkcji wiarygodności na podstawie danych D = {(x n, y n )} N n=1: gdzie σ n = σ(w T x n ). p(y N n=1 X N n=1, w) = N n=1 Negatywny logarytm z funkcji wiarygodności: ln p(y N n=1 X N n=1, w) = σ yn n (1 σ n ) 1 yn, N (y n ln σ n + (1 y n ) ln (1 σ n )) n=1 Rozwiązanie analityczne nie jest możliwe. 23/27

Regresja logistyczna Uczenie - metoda Gradientu Prostego Algorytm gradientu prostego: Initialize w repeat w w α E(w) until convergence Funkcja celu: Gradient: E(w) = N (y n ln σ n + (1 y n ) ln (1 σ n )) n=1 E(w) = Funkcja celu jest wypukła. N (σ n y n )x n n=1 24/27

Integracja modeli probabilistycznych Niech dany będzie zbiór pewnych modeli (źródeł wiedzy, ekspertów) probabilistycznych: M = {m 1, m 2,..., m K }. Dla każdego modelu mamy prawdopodobieństwo a priori p(m k ). Dla każdego modelu jesteśmy wstanie wyznaczyć prawdopodobieństwo a posteriori na klasę p(y x, m k ). Prawdopodobieństwo a posteriori dla zintegrowanego zespołu modeli jesteśmy w stanie wyznaczyć wykorzystując regułę brzegową: K p(y x) = p(y x, m k )p(m k ). k=1 25/27

Selekcja modeli probabilistycznych Naszym celem jest wybranie najbardziej wiarygodnego modelu m z M. Korzystając z reguły Bayesa możemy zapisać prawdopodobieństwo, że model został wybrany dla zadanego zbioru danych. p(m D) = p(d m)p(m), P (D) gdzie p(d m) reprezentuje wiarygodność, że dane D zostały wygenerowane z modelu m. Wybieramy ten model, dla którego wartość prawdopodobieństwa p(m D) jest najwyższa. 26/27

Literatura Należy zapoznać się z treścią książki (Rozdział 4 i 7): Murphy, Kevin P. Machine learning: a probabilistic perspective. MIT Press, 2012. 27/27