Klasyfikacja naiwny Bayes

Podobne dokumenty
Klasyfikacja Support Vector Machines

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Metody systemowe i decyzyjne w informatyce

Podstawowe modele probabilistyczne

Hard-Margin Support Vector Machines

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

Rozpoznawanie obrazów

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

SPOTKANIE 3: Regresja: Regresja liniowa

Previously on CSCI 4622

Rozpoznawanie obrazów

Metody probabilistyczne klasyfikatory bayesowskie

Rozpoznawanie obrazów

WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska

Metody systemowe i decyzyjne w informatyce

1 Klasyfikator bayesowski

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Laboratorium 4. Naiwny klasyfikator Bayesa.

1.1 Wstęp Literatura... 1

Metody systemowe i decyzyjne w informatyce

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

Sieć przesyłająca żetony CP (counter propagation)

Metody systemowe i decyzyjne w informatyce

STATYSTYKA MATEMATYCZNA

Fuzja sygnałów i filtry bayesowskie

STATYSTYKA MATEMATYCZNA WYKŁAD 1

Estymacja parametrów rozkładu cechy

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Metody systemowe i decyzyjne w informatyce

Metody eksploracji danych 5. Klasyfikacja (kontynuacja)

Wprowadzenie. Data Science Uczenie się pod nadzorem

Algorytmy estymacji stanu (filtry)

Wykład 3. Rozkład normalny

Wprowadzenie do uczenia maszynowego. Jakub Tomczak




tum.de/fall2018/ in2357

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

WYKŁAD 2. Problem regresji - modele liniowe

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

6. Zmienne losowe typu ciagłego ( ) Pole trapezu krzywoliniowego

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów

Jądrowe klasyfikatory liniowe

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

STATYSTYKA MATEMATYCZNA

Spam or Not Spam That is the question

Zastosowania sieci neuronowych

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Klasyfikacja metodą Bayesa

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

Logistic Regression. Machine Learning CS5824/ECE5424 Bert Huang Virginia Tech

Eksploracja danych - wykład IV

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

LABORATORIUM 6 ESTYMACJA cz. 2

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

O ŚREDNIEJ STATYSTYCZNEJ

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Machine learning Lecture 5

Prawdopodobieństwo czerwonych = = 0.33

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Metody Eksploracji Danych. Klasyfikacja

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Procesy stochastyczne

Statystyczna analiza danych (molekularnych) estymacja bayesowska i MLE

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Ekonometria Bayesowska

Testy parametryczne 1

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

Elementy wspo łczesnej teorii inwersji

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Metoda największej wiarygodności

Procesy stochastyczne







STATYSTYKA MATEMATYCZNA

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Logika Stosowana. Wykład 9 - Wnioskowanie indukcyjne Część 2 Wnioskowanie bayesowskie. Marcin Szczuka. Instytut Matematyki UW

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

SMOP - wykład. Rozkład normalny zasady przenoszenia błędów. Ewa Pawelec

Metody systemowe i decyzyjne w informatyce

Wprowadzenie do statystyki oraz analizy danych

1 Obliczenia na danych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Wizualizacja danych 2D i 3D - Gnuplot

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Transkrypt:

Klasyfikacja naiwny Bayes LABORKA Piotr Ciskowski

NAIWNY KLASYFIKATOR BAYESA wyjaśnienie

Naiwny klasyfikator Bayesa żródło: Internetowy Podręcznik Statystyki Statsoft dane uczące 2 klasy - prawdopodobieństwo a priori: 1 ( ) = p C 1 n n 2 ( ) = p C 2 n n

Naiwny klasyfikator Bayesa żródło: Internetowy Podręcznik Statystyki Statsoft nowy punkt - szansa, że w tym miejscu zielony/czerwony: ( 1 1 2 ) ( 2 1 2 ) p C x, x =? p C x, x =? ( 1, 2 1) p x x C ( 1, 2 2 ) p x x C ( 1, 2 1) ( 1 1) ( 2 1) ( k 1) p x x C = p x C p x C = p x C d k = 1 d (, ) ( ) ( ) ( ) p x x C = p x C p x C = p x C = 1 2 2 1 2 2 2 k j j 1,, r k = 1

Naiwny klasyfikator Bayesa żródło: Internetowy Podręcznik Statystyki Statsoft nowy punkt - prawdopodobieństwo a posteriori: ( 1 1 2 ) ( 2 1 2 ) p C x, x =? p C x, x =? ( 1 1, 2 ) = ( 1) ( 1, 2 1) = ( j ) ( 1 1) ( 2 1) p C x x p C p x x C p C p x C p x C d (, ) ( ) (, ) ( ) ( ) p C x x p C p x x C p C p x C = = = 2 1 2 2 1 2 2 j k j j 1,, r k = 1

Naiwny klasyfikator Bayesa żródło: http://en.wikipedia.org/wiki/naive_bayes_classifier independent feature model naive Bayes probability model decision rule: - pick the hypothesis that is most probable - MAP decision rule - maximum a posteriori classify ( x1,, xd ) = arg max p ( C = c) p ( X i = xi C = c) c d i= 1

Naiwny klasyfikator Bayesa żródło: http://en.wikipedia.org/wiki/naive_bayes_classifier estymacja parametrów modelu prawdopodobieństwa a priori klas - maximum likelihood v equiprobable classes rozkłady cech - maximum likelihood v generate nonparametric model from data set - identification v assume a distibution - event model

Naiwny klasyfikator Bayesa żródło: http://en.wikipedia.org/wiki/naive_bayes_classifier Gaussian naive Bayes rozkłady cech w klasach: 1 p ( x = v c) = e 2πσ 2 c ( v µ ) 2 2σ c 2 c µ c średnia cechy x w klasie c σ c2 wariancja cechy x w klasie c

Naiwny klasyfikator Bayesa żródło: http://en.wikipedia.org/wiki/naive_bayes_classifier multivariate naive Bayes the likelihood of a document given a class C: n ( ) ( 1,, n ) = i ( i ) + ( 1 i ) 1 ( i ) p F F C F p w C F p w C i= 1 F i boolean expressing the occurence or absense of the i-th term from the vocabulary p(w i C) - probability of class C generating the term w i do klasyfikacji krótkich tekstów

NAIWNY KLASYFIKATOR BAYESA przykład. Sex classification

zbiór uczący:

zbiór uczący: >> sex = { 'male' ; 'male' ; 'male' ; 'male' ;... 'female' ; 'female' ; 'female' ; 'female' } >> height = [ 6 ;... % w stopach ;-) 5.92 ;... 5.58 ;... 5.92 ;... 5 ;... 5.5 ;... 5.42 ;... 5.75 ]

zbiór uczący c.d.: >> weight = [ 180 ;... % w funtach ;-) 190 ;... 170 ;... 165 ;... 100 ;... 150 ;... 130 ;... 150 ] >> footsize = [ 12 ;... % w calach ;-) 11 ;... 12 ;... 10 ;... 6 ;... 8 ;... 7 ;... 9 ]

nowa osoba do sprawdzenia: >> newperson = [ 6, 130, 8 ] narysuj dane uczące i nową osobę wzrost-waga: >> x12 = [ height, weight ] >> gscatter ( x12(:,1), x12(:,2), sex ) ; >> line ( newperson(1), newperson(2),... 'marker', 'x',... 'color', 'k',... 'markersize', 10,... 'linewidth', 2 ) >> set ( legend, 'location', 'best' ) >> xlabel ( 'height' ) >> ylabel ( 'weight' )

narysuj dane uczące i nową osobę wzrost-stopa: >> figure >> x13 = [ height, footsize ] >> gscatter ( x13(:,1), x13(:,2), sex ) ; >> line ( newperson(1), newperson(3),... 'marker', 'x',... 'color', 'k',... 'markersize', 10,... 'linewidth', 2 ) >> set ( legend, 'location', 'best' ) >> xlabel ( 'height' ) >> ylabel ( 'foot size' )

narysuj dane uczące i nową osobę waga-stopa: >> figure >> x23 = [ weight, footsize ] >> gscatter ( x23(:,1), x23(:,2), sex ) ; >> line ( newperson(2), newperson(3),... 'marker', 'x',... 'color', 'k',... 'markersize', 10,... 'linewidth', 2 ) >> set ( legend, 'location', 'best' ) >> xlabel ( 'weight' ) >> ylabel ( 'foot size' )

ustal parametry klasyfikatora: - zał. rozkład wszystkich cech: gaussowski >> meanheightm = mean ( height (1:4) ) % 5.8550 >> varheightm = var ( height (1:4) ) % 0.0350 >> meanweightm = mean ( weight (1:4) ) % 176.2500 >> varweightm = var ( weight (1:4) ) % 122.9167 >> meanfootsizem = mean ( footsize (1:4) ) % 11.2500 >> varfootsizem = var ( footsize (1:4) ) % 0.9167

ustal parametry klasyfikatora: - zał. rozkład wszystkich cech: gaussowski >> meanheightf = mean ( height (5:8) ) % 5.4175 >> varheightf = var ( height (5:8) ) % 0.0972 >> meanweightf = mean ( weight (5:8) ) % 132.5000 >> varweightf = var ( weight (5:8) ) % 558.3333 >> meanfootsizef = mean ( footsize (5:8) ) % 7.5000 >> varfootsizef = var ( footsize (5:8) ) % 1.6667

ustal parametry klasyfikatora: - zał. rozkład wszystkich cech: gaussowski >> Pmale = 0.5 ; % p(male) >> Pfemale = 0.5 ; % p(female) % prawdopodobieństwa a priori

oblicz prawdopodobieństwa a posteriori dla badanego przypadku, czyli dla: newperson = [ 6, 130, 8 ] - zał. rozkład wszystkich cech: gaussowski ( 6, 130, 8) p sex = M h = w = f = = ( 6, 130, 8) p sex = F h = w = f = = = = ( = ) ( = 6, = 130, = 8 = ) p sex M p h w f sex M ( = 6, = 130, = 8) p h w f ( = ) ( = 6 = ) ( = 130 = ) ( = 8 = ) p sex M p h sex M p w sex M p f sex M ( = 6, = 130, = 8) p h w f ( = ) ( = 6, = 130, = 8 = ) p sex F p h w f sex F ( = 6, = 130, = 8) p h w f ( = ) ( = 6 = ) ( = 130 = ) ( = 8 = ) p sex F p h sex F p w sex F p f sex F ( = 6, = 130, = 8) p h w f ( = 6, = 130, = 8) = ( = ) ( = 6, = 130, = 8 = ) + ( = ) ( = 6, = 130, = 8 = ) p h w f p sex F p h w f sex F p sex M p h w t sex M

oblicz prawdopodobieństwa a posteriori dla badanego przypadku, czyli dla: newperson = [ 6, 130, 8 ] - zał. rozkład wszystkich cech: gaussowski ( = = 6, = 130, = 8) = ( = ) ( = 6 = ) ( = 130 = ) ( = 8 = ) ( = = 6, = 130, = 8) = ( = ) ( = 6 = ) ( = 130 = ) ( = 8 = ) p sex M h w f p sex M p h sex M p w sex M p f sex M p sex F h w f p sex F p h sex F p w sex F p f sex F ( 6 µ ) 2 h M 2 1 2σ h M p h = sex = M = e 2 2π σ h M p h = 6 sex = F =? 1 p( h = 6 sex = M ) = e 2π σ 2 h M ( h µ ) 2 h M 2σ 2 h M ( 6 ) ( ) ( ) ( ) p w = 130 sex = M =? p w = 130 sex = F =? ( ) ( ) p f = 8 sex = M =? p f = 8 sex = F =?

oblicz prawdopodobieństwa a posteriori dla badanego przypadku, czyli dla: newperson = [ 6, 130, 8 ] - zał. rozkład wszystkich cech: gaussowski Ph6male = 1./(sqrt(2*pi*varHeightM))*exp(-(6-meanHeightM)^2/(2*varHeightM)) Ph6female = 1./(sqrt(2*pi*varHeightF))*exp(-(6-meanHeightF)^2/(2*varHeightF)) Pw130male = 1./sqrt(2*pi*varWeightM)*exp(-(130-meanWeightM)^2/(2*varWeightM)) Pw130female = 1./sqrt(2*pi*varWeightF)*exp(-(130-meanWeightF)^2/(2*varWeightF)) Pf8male = 1./sqrt(2*pi*varFootSizeM)*exp(-(8-meanFootSizeM)^2/(2*varFootSizeM)) Pf8female = 1./sqrt(2*pi*varFootSizeF)*exp(-(8-meanFootSizeF)^2/(2*varFootSizeF)) Pmale_h6w130f8 = Pmale * Ph6male * Pw130male * Pf8male Pfemale_h6w130f8 = Pfemale * Ph6female * Pw130female * Pf8female Pmale_h6w130f8 = 6.1971e-09 Pfemale_h6w130f8 = 5.3779e-04 female