Metody probabilistyczne klasyfikatory bayesowskie

Podobne dokumenty
Logika Stosowana. Wykład 9 - Wnioskowanie indukcyjne Część 2 Wnioskowanie bayesowskie. Marcin Szczuka. Instytut Matematyki UW

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Elementy modelowania matematycznego

Indukcja drzew decyzyjnych

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Agnieszka Nowak Brzezińska Wykład III

Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych. Podstawowe pojęcia

Agnieszka Nowak Brzezińska Wykład III

Klasyfikacja metodą Bayesa

Metody systemowe i decyzyjne w informatyce

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

SZTUCZNA INTELIGENCJA

Prawdopodobieństwo czerwonych = = 0.33

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Algorytmy klasyfikacji

Analiza danych. TEMATYKA PRZEDMIOTU

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Sztuczna inteligencja : Algorytm KNN

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun

Metody systemowe i decyzyjne w informatyce

Prawdopodobieństwo i statystyka

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Sieć przesyłająca żetony CP (counter propagation)

5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i

Wnioskowanie bayesowskie

Schemat programowania dynamicznego (ang. dynamic programming)

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Rozpoznawanie obrazów

Entropia Renyi ego, estymacja gęstości i klasyfikacja

Rozpoznawanie obrazów

Laboratorium 4. Naiwny klasyfikator Bayesa.

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Klasyfikacja naiwny Bayes

Algorytmy stochastyczne Wykład 12, Uczenie parametryczne w sieciach bayesowskich

Metody numeryczne. materiały do wykładu dla studentów. 1. Teoria błędów, notacja O

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Fuzja sygnałów i filtry bayesowskie

teoria informacji Kanały komunikacyjne, kody korygujące Mariusz Różycki 25 sierpnia 2015

Współczesna technika inwersyjna - dokad zmierzamy? Wojciech Dȩbski

Wprowadzenie. Data Science Uczenie się pod nadzorem

Systemy uczące się wykład 1

CLUSTERING. Metody grupowania danych

Sztuczna Inteligencja Projekt

166 Wstęp do statystyki matematycznej

RÓWNANIA NIELINIOWE Maciej Patan

Klasyfikacja bayesowska

Wykład 6. Wyszukiwanie wzorca w tekście

Sztuczna Inteligencja Projekt

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Sprawozdanie z zadania Modele predykcyjne (2)

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Projekt Sieci neuronowe

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

dr inż. Jarosław Forenc

Luty 2001 Algorytmy (4) 2000/2001

Układy równań liniowych. Krzysztof Patan

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Algorytmy stochastyczne, wykład 08 Sieci bayesowskie

Wstęp do programowania

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

PRZEDMIOTOWY SYSTEM OCENIANIA - MATEMATYKA

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Regresyjne metody łączenia klasyfikatorów

Systemy uczące się wykład 2

Rachunek prawdopodobieństwa- wykład 2

Podstawowe modele probabilistyczne

Metody klasyfikacji danych - część 1 p.1/24

Autostopem przez galaiktykę: Intuicyjne omówienie zagadnień. Tom I: Optymalizacja. Nie panikuj!

Sympozjum Trwałość Budowli

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Systemy Wspomagania Decyzji

Laboratorium 5. Adaptatywna sieć Bayesa.

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Prawdopodobieństwo i statystyka

Metody probabilistyczne

Podstawy metod probabilistycznych. dr Adam Kiersztyn

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Spam or Not Spam That is the question

Technologie baz danych

Optymalizacja systemów

SPOTKANIE 11: Reinforcement learning

10. Wstęp do Teorii Gier

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

Co to jest klasyfikacja? Klasyfikacja a grupowanie Naiwny klasyfikator Bayesa

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Drzewa Decyzyjne, cz.2

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Transkrypt:

Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin Szczuka http://www.mimuw.edu.pl/ szczuka/mme/

Niezorientowani w ogólnej teorii prawdopodobieństwa po dziś dzień zapytują, czemu właściwie Trurl uprawdopodobnił smoka, a nie elfa czy krasnala, a czynią to z ignorancji, nie wiedza bowiem, że smok jest po prostu bardziej od krasnala prawdopodobny (...) Stanisław Lem, Cyberiada

Plan wykładu Prawdopodobieństwa, twierdzenie Bayes a. MAP i ML. Wyliczanie prawdopodobieństw z danych. Optymalny klasyfikator bayesowski (BOC). Naiwny klasyfikator bayesowski (NBC). Zasada minimalnego opisu.

Motywacja Dysponując zbiorem etykietowanych przykładów i nowym przykładem chcielibyśmy umieć powiedzieć jaka jest najbardziej prawdopodobna wartość decyzji dla tego przykładu. Jakie jest prawdopodobieństwo przypisania nowego przykładu do jakiejś klasy w świetle posiadanych danych treningowych.

Notacja T - zbiór danych treningowych. T d - zbiór danych treningowych o decyzji d. T d a i =v - zbiór danych treningowych o wartości atrybutu a i równej v i decyzji d. H - przestrzeń hipotez. V S H,T - przestrzeń wersji, podzbiór tych hipotez z H, które są zgodne z T. 0 Pr(A) 1 - prawdopodobieństwo A. Pr(A B) - prawdopodobieństwo zdarzenia A pod warunkiem B.

Prawdopodobieństwo Pr(A B) = Pr(A) Pr(A B) = Pr(B) Pr(B A). Pr(A B) = Pr(A) + Pr(B) Pr(A B). Jeśli A 1,..., A n są wzajemnie wykluczające: n Pr(A i) = 1 Pr(B) = n Pr(B A i) Pr(A i ) i=1 i=1

Twierdzenie Bayesa Sformułowanie, które wykorzystamy dalej. Dla dowolnej hipotezy h H i zbioru danych T X zachodzi: Pr(T h) Pr(h) Pr(h T ) = Pr(T )

Uwagi do wzoru Bayesa Pr(h T ) - prawdopodobieństwo a posteriori hipotezy h przy posiadaniu danych T - tego szukamy. Pr(T ) - prawdopodobieństwo danych. Nie musimy go znać (na szczęście), żeby porównywać prawdopodobieństwa a posteriori hipotez. Potrzebujemy wyznaczyć Pr(h) i Pr(T h). Na razie zakładamy, że potrafimy je wyznaczyć, a także, że mamy ustalone H.

Maximum A Posteriori - MAP Mając dany zbiór T, klasyfikujemy nowy przykład x X wykorzystując hipotezę h MAP H czyli przypisujemy obiektowi x wartość decyzji zwróconą przez h MAP (x), gdzie: h MAP = arg max h H Pr(h T ) = arg max h H Pr(T h) Pr(h)

Maximum Likelihood - ML Mając dany zbiór T, klasyfikujemy nowy przykład x X wykorzystując hipotezę h ML H czyli przypisujemy obiektowi x wartość decyzji zwróconą przez h ML (x), gdzie: h ML = arg max h H Pr(T h).

Uwagi do ML i MAP Obie metody wymagają znajomości Pr(T h). W przypadku MAP musimy też znać Pr(h), aby wykorzystać wzór Bayesa. MAP jest dość naturalny, ale ma pewne istotne słabości. Obie metody zakładają, że zbiór treningowy nie zawiera błędów i że poszukiwana hipoteza występuje w H. ML jest bliski intuicyjnemu rozumieniu uczenia w oparciu o przykłady. Jest to proces wyboru hipotezy, która podaje najlepszy powód dla istnienia posiadanego przez nas zbioru danych.

Słabości MAP Reguła MAP wybiera najbardziej prawdopodobną hipotezę, podczas gdy nas tak naprawdę interesuje wybranie najbardziej prawdopodobnej wartości decyzji dla konkretnego przykładu. Przyjmijmy C = 0, 1, H = {h MAP, h 1,..., h m }, 1 i m h(x) = 0, h MAP (x) = 1 oraz Pr(h MAP T ) m i=1 Pr(h i T )

Wyznaczanie prawdopodobieństw Pr(h) - prostszy kawałek. To prawdopodobieństwo może wynikać ze stosowanej metody konstruowania hipotez, lub (najczęściej) wszystkie hipotezy są jednakowo prawdopodobne. W tym dugim przypadku: Pr(h) = 1 H Problem stanowi rozmiar H. To może być ogromna przestrzeń. Ponadto, w wielu rzeczywistych zastosowaniach nie znamy całego H.

Wyznaczanie prawdopodobieństwa apriori Pr(T h) - trudniejszy kawałek. Zauważmy, że nas interesuje tylko podejmowanie decyzji. Chcemy tylko wiedzieć, jakie jest prawdopodobieństwo, że zbiór przykładów T będzie zgodny (będzie miał tą samą decyzję) z hipotezą h. To daje nam: Pr(T h) = 1 if h V S H,T 0 if h / V S H,T Niestety, pozostaje stary problem z rozmiarem i znajomością H.

Użyteczność ML i MAP MAP i/lub ML mogą, pomimo wad, znaleźć zastosowanie w pewnych szczególnych sytuacjach, na przykład gdy: Przestrzeń hipotez jest bardzo ściśle ograniczona (i mała). Wykorzystujemy MAP i/lub ML do porównania (kilku) konkurujących hipotez skonstruowanych wcześniej innymi metodami. To wiąże się z zagadnieniami uczenia warstwowego.

Klasyfikatory bayesowskie Optymalny klasyfikator bayesowski (Bayesian Optimal Classifier BOC) zawsze zwraca najbardziej prawdopodobną wartość decyzji dla danego przykładu i próbki uczącej. Nie może zatem być pokonany przez żaden algorytm uczący, jeśli porównujemy błędy rzeczywiste (globalne). Niestety, BOC jest niezbyt dobrze stosowalny w praktyce, gdyż wykorzystuje pełną przestrzeń hipotez. Hipoteza, którą zwraca BOC może nie należeć do H.

BOC Niech c(.) będzie przybliżanym pojęciem, T próbką treningową. gdzie: h BOC = arg max d C Pr(c(x) = d T ) = h H Pr(c(x) = d T ) Pr(c(x) = d h) Pr(h T ) Pr(c(x) = d h) = 1 if h(x) = d 0 if h(x) d

Naiwny klasyfikator bayesowski Niech x będzie nowym przykładem, który mamy sklasyfikować. Powinniśmy wybrać taką hipotezę (decyzję) h, że: h(x ) = arg max d C Pr(c(x) = d n i=1 a i(x) = a i (x )) czyli, ze wzoru Bayesa arg max d C Pr(c(x) = d) Pr( n i=1 a i(x) = a i (x ) c(x) = d)

Naiwny Bayes Naiwny klasyfikator bayesowski (Naïve Bayes classifier - NBC). Jeżeli przyjmiemy (naiwne) założenie, że poszczególne atrybuty (kolumny) sa niezależne, to wzór z poprzedniego slajdu przyjmuje postać: arg max d C Pr(c(x) = d) n i=1 Pr(a i(x) = a i (x ) c(x) = d) Rzeczy, które pozostaje nam wyliczyć (z danych) to: Pr(c(x) = d) i Pr(a i (x) = v c(x) = d). First Prev Next Last Go Back Full Screen Close Quit

NBC - prawdopodobieństwa Ponownie (patrz Wykład 5), wykorzystamy m- estymatę by otrzymać: Pr(a i (x) = v c(x) = d) = T d a i v + mp T + m Jeśli nie mamy dodatkowej wiedzy o rozkładzie wartości atrybutów to zwykle ustalamy jednakowe prawdopodobieństwo wszystkich wartości czyli p = 1 A i, gdzie A i jest (skończonym) zbiorem możliwych wartości atrybutu a i. Najczęściej ustalamy m = A i.

Złożoność NBC Dla każdego przykładu musimy zwiększać licznik wystąpień odpowiedniej klasy decyzyjnej i wartości odpowiednich atrybutów. To daje razem: O(n T ) Jest to najniższa złożoność (liczba kroków), jaką może osiągnąć rozsądny algorytm uczący się. Ponadto, każdy pojedynczy krok w NBC jest bardzo prosty i szybki.

Zagadnienia praktyczne Atrybuty numeryczne (ciągłe) - mogą być obsługiwane przez samą metodę, ale zdrowy rozsadek nakazuje dokonać dyskretyzacji. Brakująca informacja może zostać zaniedbana przy uczeniu jeśli nie jest zbyt powszechna. Przy klasyfikacji brakujące wartości mogą być pomijane lub zastępowane najbardziej prawdopodobnymi w tym miejscu. Algorytm jest bardzo odporny na tego rodzaju zakłócenia. Wprowadzenie funkcji błędu uzywającej kosztów jest proste.

Podsumowanie - plusy Prostota naiwnego klasyfikatora bayesowskiego. Odporność na zakłócenia. Zasada najkrótszego opisu MDL principle.

Podsumowanie - minusy Ogólne metody (ML, MAP, BOC) można stosować tylko w bardzo ograniczonym zakresie. Naiwne założenie niezależności w NBC. Niezbyt intuicyjna interpretacja wyników.