WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Podobne dokumenty
WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Rozpoznawanie obrazów

Rozpoznawanie obrazów

Podstawowe modele probabilistyczne

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce

WYKŁAD 1. Wprowadzenie w tematykę kursu

Metody systemowe i decyzyjne w informatyce

WYKŁAD 2. Problem regresji - modele liniowe

Metody systemowe i decyzyjne w informatyce

WYKŁAD 6. Reguły decyzyjne

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

SPOTKANIE 2: Wprowadzenie cz. I

SPOTKANIE 3: Regresja: Regresja liniowa

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Optymalizacja systemów

WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska

Metody systemowe i decyzyjne w informatyce

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Rozpoznawanie obrazów

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Testowanie hipotez statystycznych.

Modele zapisane w przestrzeni stanów

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Jądrowe klasyfikatory liniowe

SPOTKANIE 1: Wprowadzenie do uczenia maszynowego

Metody probabilistyczne klasyfikatory bayesowskie

Wprowadzenie do uczenia maszynowego. Jakub Tomczak

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Fuzja sygnałów i filtry bayesowskie

1 Klasyfikator bayesowski

Metody systemowe i decyzyjne w informatyce

Klasyfikacja naiwny Bayes

Elementy modelowania matematycznego

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Metoda największej wiarygodności

1.1 Wstęp Literatura... 1

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Rozpoznawanie obrazów

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Wprowadzenie. Data Science Uczenie się pod nadzorem

Testowanie hipotez statystycznych.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Testowanie hipotez statystycznych.

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Metoda najmniejszych kwadratów

Komputerowa analiza danych doświadczalnych

Elementy inteligencji obliczeniowej

Ważne rozkłady i twierdzenia c.d.

Własności statystyczne regresji liniowej. Wykład 4

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Testowanie hipotez statystycznych. Wprowadzenie

Klasyfikacja metodą Bayesa

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

PROCESY STOCHASTYCZNE. PEWNE KLASY PROCESÓW STOCHASTYCZNYCH Definicja. Procesem stochastycznym nazywamy rodzinę zmiennych losowych X(t) = X(t, ω)

Metody Rozmyte i Algorytmy Ewolucyjne

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Zmienne losowe ciągłe i ich rozkłady

Komputerowa analiza danych doświadczalnych

Wykład 3 Jednowymiarowe zmienne losowe

Elementy statystyki wielowymiarowej

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Wrocław University of Technology. Uczenie głębokie. Maciej Zięba

Zmienne losowe ciągłe i ich rozkłady

Weryfikacja hipotez statystycznych

Metody probabilistyczne

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Prawdopodobieństwo i statystyka r.

Agnieszka Nowak Brzezińska Wykład III

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Opis wykonanych badań naukowych oraz uzyskanych wyników

SMOP - wykład. Rozkład normalny zasady przenoszenia błędów. Ewa Pawelec

Wykład 11: Martyngały: definicja, twierdzenia o zbieżności

Prawdopodobieństwo i statystyka

Metoda największej wiarogodności

Zmienne losowe. Powtórzenie. Dariusz Uciński. Wykład 1. Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Transkrypt:

Wrocław University of Technology WYKŁAD 3 Klasyfikacja: modele probabilistyczne Maciej Zięba Politechnika Wrocławska

Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami (klasami), które przyjmują wartości nominalne. Celem uczenia jest skonstruowanie klasyfikatora separującego obiekty należące do różnych klas. Klasyfikator konstruowany jest tak, aby możliwe było przewidywanie klas nowych, niesklasyfikowanych obserwacji. 2/28

Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami (klasami), które przyjmują wartości nominalne. Celem uczenia jest skonstruowanie klasyfikatora separującego obiekty należące do różnych klas. Klasyfikator konstruowany jest tak, aby możliwe było przewidywanie klas nowych, niesklasyfikowanych obserwacji. 2/28

Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami (klasami), które przyjmują wartości nominalne. Celem uczenia jest skonstruowanie klasyfikatora separującego obiekty należące do różnych klas. Klasyfikator konstruowany jest tak, aby możliwe było przewidywanie klas nowych, niesklasyfikowanych obserwacji. 2/28

Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami (klasami), które przyjmują wartości nominalne. Celem uczenia jest skonstruowanie klasyfikatora separującego obiekty należące do różnych klas. Klasyfikator konstruowany jest tak, aby możliwe było przewidywanie klas nowych, niesklasyfikowanych obserwacji. 2/28

Podstawowe problemy Klasyfikacja: Rozpoznawanie znaków Cel: Dane: Określenie, jaki znak (cyfra, litera) znajduje się na obrazku. Zestaw obrazków treningowych reprezentujących różne znaki wraz z korespondującymi etykietami. Wydobywane są cechy obrazka różnicujące reprezentowane znaki. Na podstawie cech i wykorzystując dane treningowe wykonywana jest klasyfikacja obrazka do najbardziej prawdopodobnego znaku. 3/28

Podstawowe problemy Klasyfikacja: Detekcja obiektów Cel: Dane: Wykrycie obiektu na obrazie. Obraz na którym bada się wystąpienie obiektu, oraz zestaw obrazów treningowych przedstawiających dany obiekt. Do analizy obrazu wykorzystuje się okno przesuwne. W każdym kroku obraz z okna przesuwnego klasyfikowany jest jako obiekt poszukiwany lub nie. 4/28

Podstawowe problemy Klasyfikacja: Detekcja SPAMU Cel: Dane: Zbadać, czy dana wiadomość jest SPAMEM. Zestaw zawierający zaetykietowane wiadomości mailowe. Wydobywane są cechy (występowanie słów) różnicujące SPAM od zwykłej poczty. Klasyfikacja nowej wiadomości odbywa się z wykorzystaniem wydobytych cech. 5/28

Podstawowe problemy Klasyfikacja: Credit Scoring Cel: Dane: Zbadać zdolność kredytową klienta bankowego. Charakterystyki klientów bankowych pochodzące z systemów informatycznych i kwestionariuszy. Wydobywane są cechy mające wpływ na decyzje kredytowe. Klasyfikatory do oceny zdolności kredytowej są powszechnie stosowanym narzędziem. 6/28

Probabilistyczna reprezentacja wiedzy Wiedza reprezentowania jest w postaci rozkładów prawdopodobieństwa. Proces podejmowania decyzji odbywa się poprzez wybór najbardziej prawdopodobnego wariantu. Przykład: p(176, 85 rugbista) = 0.17; p(176, 85 skoczek) = 0.01. Wniosek: bardziej prawdopodobne jest, że jeśli osoba jest rugbistą, to ma 176 cm wzrostu i waży 85 kg. 7/28

Probabilistyczna reprezentacja wiedzy Wiedza reprezentowania jest w postaci rozkładów prawdopodobieństwa. Proces podejmowania decyzji odbywa się poprzez wybór najbardziej prawdopodobnego wariantu. Przykład: p(176, 85 rugbista) = 0.17; p(176, 85 skoczek) = 0.01. Wniosek: bardziej prawdopodobne jest, że jeśli osoba jest rugbistą, to ma 176 cm wzrostu i waży 85 kg. 7/28

Podejmowanie decyzji w warunkach niepewności Niech dana będzie zmienna losowa Y reprezentującą klasę, a Y oznacza zbiór możliwych klas. Niech wektor zmiennych losowych X reprezentuje wektor cech, a X niech reprezentuje przestrzeń możliwych wartości wektorów. Z reguły Bayesa możemy zapisać wzór na prawdopodobieństwo, że obiekt opisany wektorem cech x należy od klasy y. p(y = y X = x) = p(y = y)p(x = x Y = y). p(x = x) p(y x) = p(y)p(x y) p(x) = p(y)p(x y) y Y p(y )p(x y ). Interesuje nas znalezienie takiej klasy y Y, dla której wartość prawdopodobieństwa p(y x) jest najwyższa: arg max p(y x) = arg max p(y)p(x y). y Y y Y 8/28

Podejmowanie decyzji w warunkach niepewności Przykład Rozważamy osobę, która ma 176 cm wzrostu i waży 85 kg (x = [176, 85]) i chcemy określić, czy osoba jest rugbistą, czy też skoczkiem. Dla każdego y mamy dane prawdopodobieństwa p(x y): p(176, 85 rugbista) = 0.17, p(176, 85 skoczek) = 0.01. Prawdopodobieństwa p(y) są następujące: p(skoczek) = 0.2, p(rugbista) = 0.8. Natomiast p(y)p(x y) są równe: p(176, 85 skoczek)p(skoczek) = 0.01 0.2 = 0.002. p(176, 85 rugbista)p(rugbista) = 0.17 0.8 = 0.136. 9/28

Podejmowanie decyzji w warunkach niepewności Przykład Rozważamy osobę, która ma 176 cm wzrostu i waży 85 kg (x = [176, 85]) i chcemy określić, czy osoba jest rugbistą, czy też skoczkiem. Dla każdego y mamy dane prawdopodobieństwa p(x y): p(176, 85 rugbista) = 0.17, p(176, 85 skoczek) = 0.01. Prawdopodobieństwa p(y) są następujące: p(skoczek) = 0.2, p(rugbista) = 0.8. Natomiast p(y)p(x y) są równe: p(176, 85 skoczek)p(skoczek) = 0.01 0.2 = 0.002. p(176, 85 rugbista)p(rugbista) = 0.17 0.8 = 0.136. 9/28

Podejmowanie decyzji w warunkach niepewności Przykład Jeżeli chcemy znać dokładną wartość prawdopodobieństwa, że osoba która ma 176 cm wzrostu i waży 85 kg (x = [176, 85]) to rugbista, wówczas korzystamy ze wzoru Bayesa: p(176, 85 rugbista)p(rugbista) p(rugbista 176, 85) = = p(176, 85) p(176, 85 rugbista)p(rugbista) = p(176, 85 rugbista)p(rugbista) + p(176, 85 skoczek)p(skoczek) 0.136 = 0.002 + 0.136 = 0.136 0.138 0.98. W sposób analogiczny wyznacza się prawdopodobieństwo, że osoba która ma 176 cm wzrostu i waży 85 kg (x = [176, 85]) to skoczek. 10/28

Klasyfikator Naiwnego Bayesa Przykład Jedna z najpowszechniej stosowanych probabilistycznych metod klasyfikacji. Centralnym założeniem tej metody jest to, że zakłada ona niezależność pomiędzy cechami: p(x) = p(x 1 ) p(x M ) Możemy więc przedstawić p(y x) w następującej postaci: p(y x) = p(y)p(x 1 y) p(x M y). p(x 1 ) p(x M ) Rozpatrując przywołany przykład mamy: p(rugbista 176, 85) = p(rugbista)p(176 rugbista)p(85 rugbista). p(176)p(85) 11/28

Klasyfikator Naiwnego Bayesa Procedura uczenia czystościowego W praktyce nie mamy danych rozkładów prawdopodobieństw p(y), p(x 1 y),..., p(x M y). Mamy natomiast dane zawarte w zbiorze treningowym D = {(x n, y n )} N n=1. Zakładamy więc, że każdy z rozkładów jest opisany pewnymi parametrami: p(y θ), p(x 1 y, θ),..., p(x M y, θ). Proces uczenia odbywa się poprzez estymację MLE lub MAP parametrów rozkładów θ. Przyjmijmy dla naszego przykładu następujące rozkłady: rozkład dwupunktowy dla p(y θ). rozkłady Gaussa dla p(x1 y, θ), p(x 2 y, θ). Dodatkowo, przyjmijmy że wykonujemy estymację MLE. 12/28

Procedura estymacji rozkładu dla klasy Procedura uczenia czystościowego Mamy dwie możliwe wartości klasy. Kodujemy je w ten sposób, że jedna wartość odpowiada 1 a druga 0. Zakładamy, że rozkład p(y θ) jest rozkładem dwupunktowym: p(y θ) = θ y (1 θ) 1 y Parametr θ ma interpretację prawdopodobieństwa wystąpienia pierwszej wartości klasy. Estymator MLE dla parametru θ: θ MLE = m N, gdzie m oznacza liczbę obserwacji należących do klasy etykietowanej 1. 13/28

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista 14/28

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y 14/28

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y Przyjmujemy kodowanie 1 rugbista, 0 skoczek. 14/28

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y Przyjmujemy kodowanie 1 rugbista, 0 skoczek. Wykonujemy estymację MLE dla parametru θ: θ MLE = 7 14 = 1 2. 14/28

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y Przyjmujemy kodowanie 1 rugbista, 0 skoczek. Wykonujemy estymację MLE dla parametru θ: θ MLE = 7 14 = 1 2. 14/28

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y Przyjmujemy kodowanie 1 rugbista, 0 skoczek. Wykonujemy estymację MLE dla parametru θ: θ MLE = 7 14 = 1 2. 14/28

Procedura estymacji rozkładu dla klasy Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(y θ): p(y θ) = θ y (1 θ) 1 y Przyjmujemy kodowanie 1 rugbista, 0 skoczek. Wykonujemy estymację MLE dla parametru θ: Wynika z tego że: θ MLE = 7 14 = 1 2. p(y = 1) = θ = 1 = p(y = 0). 2 14/28

Procedura estymacji rozkładu dla atrybutów Procedura uczenia czystościowego Zakładamy, że rozkład p(x i y, θ) dla pojedynczego, i-tego atrybutu jest rozkładem Gaussa: p(x i y, θ) = N (x i µ y, σ y ) Parametr θ = [µ, σ 2 ] reprezentuje średnią i odchylenie standardowe rozkładu normalnego. Estymator MLE dla parametru µ y : µ y = 1 N I(y n = y)x n. N y n=1 gdzie N y oznacza liczbę obserwacji należących do klasy y. Estymator MLE dla parametru σ 2 y: σy 2 = 1 N I(y n = y)(x n µ y ) 2 N y n=1 15/28

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista 16/28

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(x 1 y, θ) dla atrybutu Wzrost: 16/28

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładu p(x 1 y, θ) dla atrybutu Wzrost: Przyjmujemy rozkład normalny N (x i µ y, σ y ). 16/28

Procedura estymacji rozkładu dla atrybutów Przykład Interesuje nas znalezienie rozkładu p(x 1 y, θ) dla atrybutu Wzrost: Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Przyjmujemy rozkład normalny N (x i µ y, σ y ). Wykonujemy estymację MLE dla parametrów dot. rugbistów (y = 1): µ 1 = 184.29, σ1 2 = 29.57, 1 p(x 1 y = 1) = e (x 184.29)2 2 29.57 2π 29.57 16/28

Procedura estymacji rozkładu dla atrybutów Przykład Interesuje nas znalezienie rozkładu p(x 1 y, θ) dla atrybutu Wzrost: Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Przyjmujemy rozkład normalny N (x i µ y, σ y ). Wykonujemy estymację MLE dla parametrów dot. rugbistów (y = 1): µ 1 = 184.29, σ1 2 = 29.57, 1 p(x 1 y = 1) = e (x 184.29)2 2 29.57 2π 29.57 Wykonujemy estymację MLE dla parametrów dot. skoczków (y = 0): µ 0 = 176.00, σ0 2 = 49.67. 1 p(x 1 y = 1) = e (x 176.00)2 2 49.67 2π 49.67 16/28

Procedura estymacji rozkładu dla atrybutów Atrybut nominalny Zakładamy, że rozkład p(x i y, θ) dla pojedynczego, i-tego atrybutu nominalnego jest rozkładem wielopunktowy: p(x i = j y, θ) = θ j,y, gdzie estymator MLE dla θ j,y wynosi: θ j,y = m j,y N y gdzie m j,y stanowi liczbę obserwacji dla obiektów należących do klasy y i dla których x i = j, natomiast N y to liczba obiektów należących do klasy y. 17/28

Procedura estymacji rozkładu dla atrybutów CHAPTER 2. OVERVIEW OF CLASSIFICATION METHODS 28 Atrybut nominalny - przykład Credit amount Employment status Personal status Credit status (class) A 2,3 : x 13000$ A 4,3 : full-time job A 5,2 : married B 1,2 :bad A 2,1 : x<4000$ A 4,1 : unemployment A 5,2 : married B 1,1 :good A 2,1 : x<4000$ A 4,3 : full-time job A 5,1 : single B 1,1 :good A 2,2 :4000$applex<13000$ A 4,2 : part-time job A 5,1 : single B 1,1 :good A 2,3 : x 13000$ A 4,3 : full-time job A 5,3 : divorced B 1,2 :bad A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,2 :bad A 2,2 :4000$applex<13000$ A 4,2 : part-time job A 5,3 : divorced B 1,2 :bad A 2,2 :4000$applex<13000$ A 4,1 : unemployment A 5,1 : single B 1,2 :bad A 2,1 : x<4000$ A 4,2 : part-time job A 5,3 : divorced B 1,1 :good A 2,3 : x 13000$ A 4,3 : full-time job A 5,1 : single B 1,1 :good A 2,2 :4000$applex<13000$ A 4,3 : full-time job A 5,2 : married B 1,1 :good A 2,2 :4000$applex<13000$ A 4,3 : full-time job A 5,3 : divorced B 1,1 :good Do której Table klasy 2.1: Exemplary należy obiekt training klient set for który creditchce scoring kredyt classification powyżej problem 4000$, jest żonaty i ma stałą pracę na pełen etat? 2.3.2 Decision rules and trees Decision rules and trees are nonparametric classifiers which have one fundamental advantage: 18/28

Klasyfikator GDA Rozpatrujemy klasyfikator Gaussowskiej Analizy Dyskryminacyjnej (ang. Gaussian Discriminative Analysis, GDA). Interesuje nas znalezienie takiej klasy y Y, dla której wartość prawdopodobieństwa p(y x) jest najwyższa: arg max p(y x) = arg max p(y)p(x y). y Y y Y Zakładamy, że p(y) modelujemy rozkładem dwupunktowym: p(y θ) = θ y (1 θ) 1 y Zakładamy, że p(x y) modelujemy wielowymiarowym rozkładem Gaussa: 1 N (x µ y, Σ y ) = (2π) M 2 Σ y 1 2 e 1 2 (x µ y )T Σ 1 y (x µ y ) 19/28

Wielowymiarowy rozkład Gaussa Własności rozkładu Funkcja rozkładu prawdopodobieństwa: 1 N (x µ, Σ) = (2π) M 2 Σ 1 2 Podstawowe własności rozkładu: E[X] = µ, cov[x] = Σ. e (x µ)t Σ 1 (x µ) Estymatory MLE dla parametrów są następujące: ˆµ MLE = 1 N N x n, n=1 ˆΣ MLE = 1 N (x n ˆµ N MLE )(x n ˆµ MLE ) T. n=1 20/28

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista 21/28

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładów p(x y) dla rugbistów (y = 1) i skoczków (y = 0). 21/28

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładów p(x y) dla rugbistów (y = 1) i skoczków (y = 0). Przyjmujemy rozkład normalny N (x µ y, Σ y ). 21/28

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładów p(x y) dla rugbistów (y = 1) i skoczków (y = 0). Przyjmujemy rozkład normalny N (x µ y, Σ y ). Wykonujemy estymację MLE dla parametrów dot. rugbistów (y = 1): [ ] 29.57 13.39 µ 1 = [184.29, 91.14], Σ 1 = 13.39 31.14 21/28

Procedura estymacji rozkładu dla atrybutów Przykład Wzrost Waga Klasa 176 88 rugbista 168 63 skoczek 183 89 rugbista 178 63 skoczek 192 102 rugbista 188 93 rugbista 172 59 skoczek 177 64 skoczek 186 88 rugbista 172 68 skoczek 175 65 skoczek 186 85 rugbista 190 72 skoczek 179 93 rugbista Interesuje nas znalezienie rozkładów p(x y) dla rugbistów (y = 1) i skoczków (y = 0). Przyjmujemy rozkład normalny N (x µ y, Σ y ). Wykonujemy estymację MLE dla parametrów dot. rugbistów (y = 1): [ ] 29.57 13.39 µ 1 = [184.29, 91.14], Σ 1 = 13.39 31.14 Wykonujemy estymację MLE dla parametrów dot. skoczków (y = 0): [ ] 49.67 17.29 µ 0 = [176.00, 64.86], Σ 0 = 17.29 17.13 21/28

Procedura estymacji rozkładu dla atrybutów Przykład µ 0 = [176.00, 64.86] [ ] 49.67 17.29 Σ 0 = 17.29 17.13 µ 1 = [184.29, 91.14] [ ] 29.57 13.39 Σ 1 = 13.39 31.14 22/28

Procedura estymacji rozkładu dla atrybutów Przykład µ 0 = [176.00, 64.86] [ ] 49.67 17.29 Σ 0 = 17.29 17.13 µ 1 = [184.29, 91.14] [ ] 29.57 13.39 Σ 1 = 13.39 31.14 22/28

Procedura estymacji rozkładu dla atrybutów Przykład µ 0 = [176.00, 64.86] [ ] 49.67 17.29 Σ 0 = 17.29 17.13 µ 1 = [184.29, 91.14] [ ] 29.57 13.39 Σ 1 = 13.39 31.14 22/28

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 23/28

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 1 + 2 2 M = 1 + 4 M 23/28

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 1 + 2 2 M = 1 + 4 M 2. Ile parametrów trzeba oszacować, aby wyuczyć GDA? 23/28

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 1 + 2 2 M = 1 + 4 M 2. Ile parametrów trzeba oszacować, aby wyuczyć GDA? 1 + 2 M + 2 (M + 1) M 2 = 1 + 3 M + M 2 23/28

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 1 + 2 2 M = 1 + 4 M 2. Ile parametrów trzeba oszacować, aby wyuczyć GDA? 1 + 2 M + 2 (M + 1) M 2 = 1 + 3 M + M 2 3. Naiwny Bayes jest szczególnym przypadkiem klasyfikatora GDA, jakie warunki muszą spełniać parametry? 23/28

Klasyfikator GDA i Naiwnego Bayesa Własności 1. Załóżmy że rozpatrujemy problem klasyfikacji: dwie klasy, mamy M atrybutów, każdy z atrybutów opisany jest jednowymiarowym rozkładem Gaussa. Ile parametrów trzeba oszacować, aby wyuczyć Naiwnego Bayesa? 1 + 2 2 M = 1 + 4 M 2. Ile parametrów trzeba oszacować, aby wyuczyć GDA? 1 + 2 M + 2 (M + 1) M 2 = 1 + 3 M + M 2 3. Naiwny Bayes jest szczególnym przypadkiem klasyfikatora GDA, jakie warunki muszą spełniać parametry? Dla każdej z klas macierz Σ y musi być diagonalna 23/28

Modele probabilistyczne stosowane do klasyfikacji Modele generujące (ang. generative models) modelujemy osobno rozkłady p(y) i p(x y). Wtedy p(x, y) = p(x y)p(y), wtedy: p(y x) = p(y)p(x y) p(x) Przykład:GDA, Naiwny Bayes. = p(y)p(x y) y Y p(y )p(x y ). Modele dyskryminujące (ang. discriminative models) bezpośrednio modelujemy rozkład warunkowy na klasę: Przykład:Regresja logistyczna. p(y x) 24/28

Regresja logistyczna Modelujemy rozkład p(y = 1 x) następująco: p(y = 1)p(x y = 1) p(y = 1 x) = p(y = 1)p(x y = 1) + p(y = 0)p(x y = 0) 1 = = σ(f(x, w)) 1 + exp ( f(x, w)) gdzie funkcja σ( ) nazywana jest sigmoidalną funkcją logistyczną, f(x, w) definiuje się następująco: f(x, w) = M w m x m = w T x, m=1 i posiada następującą interpretację: f(x, w) = ln p(y = 1)p(x y = 1) p(y = 0)p(x y = 0). 25/28

Regresja logistyczna Własności funkcji logistycznej Przyjmuje wartości z przedziału [0, 1], σ( ) = 0, σ( ) = 1. Przyjmuje wartość 1 2 dla 0, σ(0) = 1 2. Spełnia następującą własność: prawdą jest więc że: σ( a) = 1 σ(a), p(y = 0 x) = 1 p(y = 1 x) = σ( f(x, w)) Daje możliwość wyrażenia pochodnej poprzez postać funkcji: dσ(a) da = σ(a)(1 σ(a)). 26/28

Regresja logistyczna Uczenie Procedura uczenia sprowadza się do znalezienia wartości parametrów w modelu: p(y = 1 w, x) = 1 1 + exp ( w T x) = σ(wt x) Proces estymacji w odbywa się na drodze maksymalizacji funkcji wiarygodności na podstawie danych D = {(x n, y n )} N n=1: gdzie σ n = σ(w T x n ). p(y N n=1 X N n=1, w) = N n=1 Negatywny logarytm z funkcji wiarygodności: ln p(y N n=1 X N n=1, w) = σ yn n (1 σ n ) 1 yn, N (y n ln σ n + (1 y n ) ln (1 σ n )) n=1 Rozwiązanie analityczne nie jest możliwe. 27/28

Regresja logistyczna Uczenie - metoda Gradientu Prostego Algorytm gradientu prostego: Initialize w repeat w w α E(w) until convergence Funkcja celu: Gradient: E(w) = N (y n ln σ n + (1 y n ) ln (1 σ n )) n=1 E(w) = Funkcja celu jest wypukła. N (σ n y n )x n n=1 28/28