Logika Stosowana. Wykład 9 - Wnioskowanie indukcyjne Część 2 Wnioskowanie bayesowskie. Marcin Szczuka. Instytut Matematyki UW

Podobne dokumenty
Metody probabilistyczne klasyfikatory bayesowskie

Elementy modelowania matematycznego

Logika Stosowana. Wykład 2 - Logika modalna Część 2. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017

Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych. Podstawowe pojęcia

Algorytmy klasyfikacji

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Logika Stosowana. Wykład 1 - Logika zdaniowa. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Wnioskowanie bayesowskie

Logika stosowana. Ćwiczenia Wnioskowanie przez abdukcję. Marcin Szczuka. Instytut Matematyki, Uniwersytet Warszawski

Wprowadzenie. Data Science Uczenie się pod nadzorem

Indukowane Reguły Decyzyjne I. Wykład 3

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

Klasyfikacja metodą Bayesa

Metody indukcji reguł

Agnieszka Nowak Brzezińska Wykład III

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Prawdopodobieństwo i statystyka

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Rozpoznawanie obrazów

Metoda tabel semantycznych. Dedukcja drogi Watsonie, dedukcja... Definicja logicznej konsekwencji. Logika obliczeniowa.

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Systemy uczące się wykład 2

Wyk lad 8: Leniwe metody klasyfikacji

Podstawowe modele probabilistyczne

Współczesna technika inwersyjna - dokad zmierzamy? Wojciech Dȩbski

Logika Stosowana. Wykład 7 - Zbiory i logiki rozmyte Część 3 Prawdziwościowa logika rozmyta. Marcin Szczuka. Instytut Informatyki UW

O ISTOTNYCH OGRANICZENIACH METODY

Spis treści. Definicje prawdopodobieństwa. Częstościowa definicja prawdopodobieństwa. Wnioskowanie_Statystyczne_-_wykład

Złożoność informacyjna Kołmogorowa. Paweł Parys

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

M T E O T D O ZI Z E E A LG L O G R O Y R TM

Analiza danych. TEMATYKA PRZEDMIOTU

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Wstęp do programowania

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Spacery losowe generowanie realizacji procesu losowego

Indukcja drzew decyzyjnych

SZTUCZNA INTELIGENCJA

Prawdopodobieństwo czerwonych = = 0.33

Podstawy metod probabilistycznych. dr Adam Kiersztyn

Metody systemowe i decyzyjne w informatyce

Granica kompresji Kodowanie Shannona Kodowanie Huffmana Kodowanie ciągów Kodowanie arytmetyczne. Kody. Marek Śmieja. Teoria informacji 1 / 35

domykanie relacji, relacja równoważności, rozkłady zbiorów

Indukcja matematyczna

Procesy stochastyczne

11. Gry Macierzowe - Strategie Czyste i Mieszane

Sympozjum Trwałość Budowli

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

SZTUCZNA INTELIGENCJA

Przeszukiwanie z nawrotami. Wykład 8. Przeszukiwanie z nawrotami. J. Cichoń, P. Kobylański Wstęp do Informatyki i Programowania 238 / 279

5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i

Porównanie czasów działania algorytmów sortowania przez wstawianie i scalanie

Obliczenia inspirowane Naturą

Procesy stochastyczne

Modele Obliczeń. Wykład 1 - Wprowadzenie. Marcin Szczuka. Instytut Matematyki, Uniwersytet Warszawski

TEORETYCZNE PODSTAWY INFORMATYKI

Indukcja. Materiały pomocnicze do wykładu. wykładowca: dr Magdalena Kacprzak

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Testowanie hipotez statystycznych

KRZYSZTOF WÓJTOWICZ Instytut Filozofii Uniwersytetu Warszawskiego

Logika Stosowana. Wykład 2 - Logika modalna Część 3. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2017/2018

CLUSTERING. Metody grupowania danych

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 15, Kryptografia: algorytmy asymetryczne (RSA)

Teoretyczne podstawy informatyki

SID Wykład 7 Zbiory rozmyte

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Quick Launch Manual:

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 14, Kryptografia: algorytmy asymetryczne (RSA)

Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału.

Logika intuicjonistyczna

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

Komputerowa analiza danych doświadczalnych

Dowód pierwszego twierdzenia Gödela o. Kołmogorowa

Technologie i systemy oparte na logice rozmytej

SZTUCZNA INTELIGENCJA

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

System bonus-malus z mechanizmem korekty składki

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Metody Statystyczne. Metody Statystyczne

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

zdarzenie losowe - zdarzenie którego przebiegu czy wyniku nie da się przewidzieć na pewno.

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Transkrypt:

Logika Stosowana Wykład 9 - Wnioskowanie indukcyjne Część 2 Wnioskowanie bayesowskie Marcin Szczuka Instytut Matematyki UW Wykład monograficzny, semestr letni 2016/2017 Marcin Szczuka (MIMUW) Logika Stosowana 2017 1 / 34

Niezorientowani w ogólnej teorii nieprawdopodobieństwa po dziś dzień zapytują, czemu właściwie Trurl uprawdopodobnił smoka, a nie elfa czy krasnala, a czynią tak z ignorancji, nie wiedzą bowiem, że smok jest po prostu bardziej od krasnala prawdopodobny (...) Stanisław Lem Cyberiada: Wyprawa trzecia, czyli smoki prawdopodobieństwa Marcin Szczuka (MIMUW) Logika Stosowana 2017 2 / 34

Plan wykładu 1 Wprowadzenie 2 Wnioskowanie bayesowskie 3 Bayesowska predykcja i wspomaganie decyzji Zadanie klasyfikacji Wybór hipotezy - MAP i ML Optymalny klasyfikator bayesowski Naiwny klasyfikator bayesowski 4 Wybór hipotezy w ogólności Marcin Szczuka (MIMUW) Logika Stosowana 2017 3 / 34

Miara prawdziwości / wiarygodności Przypomnijmy, że aby indukcyjny system wnioskowania zachowywał pożądaną spójność zazwyczaj wymaga się od niego, aby możliwe było ustalenie stopnia wsparcia dla prawdziwości sformułowanych w nim wniosków. Mierzy on siłę wpływu prawdziwości przesłanek na prawdziwość wniosku. Od systemu (semi-)formalnego i miary prawdziwości będziemy wymagać: 1 Spełniania kryterium zgodności (CoA). 2 Zapewnienia, aby stopień pewności, z jakim przyjmujemy wniosek nie przewyższał stopnia pewności z którym uznajemy przesłanki oraz stopnia ufności w stosowane reguły inferencji (quasi-monotoniczność). 3 Możliwości wskazania granicy między pożądanymi, a nonsensownymi wnioskami. 4 Możliwie wysokiej intuicyjności. Marcin Szczuka (MIMUW) Logika Stosowana 2017 4 / 34

Rozumowania probabilistyczne Już pierwsze próby uporządkowania rozumowań indukcyjnych zmierzały w stronę wykorzystania prawdopodobieństwa i statystyki, często rozumianych w sposób płytki i nieścisły. Z czasem rozumowania oparte o metody probabilistyczne, szczególnie o wnioskowanie bayesowskie, znalazły się w centrum zainteresowania filozofów i logików dążących do uporządkowania i sformalizowania wnioskowania przez indukcję (logiki indukcyjnej). Elementy wnioskowań probabilistycznych można znaleźć u Pascala, Fermata i wielu innych. Współczesne podejście formalne do logiki indukcyjnej opartej na prawdopodobieństwie zainaugurował John Maynard Keynes w Treatise on Probability (1921). Rudolf Carnap rozwinął te idee w Logical Foundations of Probability (1950) i wielu kolejnych pracach. Po uporządkowaniu teorii prawdopodobieństwa przez Kołmogorowa wnioskowania probabilistyczne uzyskały też przyzwoitą podstawę teoretyczną. Marcin Szczuka (MIMUW) Logika Stosowana 2017 5 / 34

Probabilistyczna logika indukcyjna W przypadku logik indukcyjnych (w tym probabilistycznych) nie ma większego sensu rozważać relacji i jej związku z relacją =. Natomiast dla relacji = zamiast mówić o wynikaniu logicznym w ścisłym sensie, mówimy o funkcji wsparcia (prawdopodobieństwie) prawdziwości. Funkcja wsparcia Funkcja P : L [0, 1], gdzie L jest zbiorem wyrażeń (językiem), jest funkcją wsparcia, jeżeli dla A, B, C będących wyrażeniami w L: 1 Istnieje co najmniej jedna para wyrażeń D, E L dla której P (D E) < 1. 2 Jeżeli B = A, to P (A B) = 1. 3 Jeżeli = (B C), to P (A B) = P (A C). 4 Jeżeli C = (A B), to albo P (A B C) = P (A C) + P (B C) albo D L P (D C) = 1. 5 P ((A B) C) = P (A (B C)) P (B C) Marcin Szczuka (MIMUW) Logika Stosowana 2017 6 / 34

Probabilistyczna logika indukcyjna Łatwo zauważyć, że warunki dla funkcji wsparcia P, są niczym innym jak warunkami dla miary prawdopodobieństwa. W warunkach dla funkcji P operator odpowiada koncepcyjnie wynikaniu (logical entailment), czyli podstawowemu krokowi wnioskowania. Łatwo zauważyć, że dla ustalonego systemu formalnego funkcja P nie musi być wyznaczona jednoznacznie. Zauważmy, że warunki na P zgadzają sie w podstawowych punktach z warunkami dla prawdopodobieństwa (bezwarunkowego), wystarczy położyć P (A) = P (A (D D)) dla jakiegoś D. Jednakże te warunki pozwalają też ustalić wartość P (A C) w sytuacji gdy prawdopodobieństwo przesłanki C jest równe 0 (czyli P (C) = P (C (D D)) = 0). Warunek 1 (nietrywialność) można wyrazić też jako A L P ((A A) (A A)) < 1. Marcin Szczuka (MIMUW) Logika Stosowana 2017 7 / 34

Plan wykładu 1 Wprowadzenie 2 Wnioskowanie bayesowskie 3 Bayesowska predykcja i wspomaganie decyzji Zadanie klasyfikacji Wybór hipotezy - MAP i ML Optymalny klasyfikator bayesowski Naiwny klasyfikator bayesowski 4 Wybór hipotezy w ogólności Marcin Szczuka (MIMUW) Logika Stosowana 2017 8 / 34

Prawdopodobieństwo Zanim przejdziemy dalej musimy ustalić (uproszczone) aksjomaty i podstawowe własności dla miary (prawdopodobieństwa), którą będziemy się posługiwać. Dla odróżnienia od poprzednich oznaczeń, będziemy używać Pr na oznaczenie miary prawdopodobieństwa. Aksjomaty prawdopodobieństwa dyskretnego (Kołmogorow) 1 Dla każdego zdarzenia A Ω wartość Pr(A) [0, 1]. 2 Prawdopodobieństwo całkowite Pr(Ω) = 1. 3 Addytywność jeśli A 1,..., A n są wzajemnie wykluczające, to n Pr(A i ) = 1 Pr(B) = i=1 n Pr(B A i ) Pr(A i ). i=1 Z aksjomatem 2 możemy mieć trudności. Marcin Szczuka (MIMUW) Logika Stosowana 2017 9 / 34

Własności prawdopodobieństwa Pr(A B) = Pr(B) Pr(A B) = Pr(A) Pr(B A) Pr(A B) = Pr(A) + Pr(B) Pr(A B) Pr(A B) - prawdopodobieństwo zdarzenia A pod warunkiem B. Pr(A B) = Pr(A B) Pr(B) Reguła Bayes a Pr(A B) = Pr(B A) Pr(A) Pr(B) Marcin Szczuka (MIMUW) Logika Stosowana 2017 10 / 34

Wnioskowanie bayesowskie Z powodów które staną sie jasne w następnej części wykładu będziemy używać następujących oznaczeń. T X - zbiór przesłanek (evidence set) pochodzących z jakiejś (ogromnej) przestrzeni. h H - wniosek (hipoteza) pochodząca z (ogromnej) przestrzeni hipotez. V S H,T - przestrzeń wersji, podzbiór tych hipotez z H, które są zgodne z T. Reguła wnioskowania (Bayes a) Dla dowolnej hipotezy h H i zbioru danych T X zachodzi: Pr(h T ) = Pr(T h) Pr(h) Pr(T ) Czyli prawdopodobieństwo (stopień wiarygodności) wniosku h ustalamy na podstawie prawdopodobieństwa przesłanek i stopnia w jakim hipoteza uprawdopodobnia przesłanki. Marcin Szczuka (MIMUW) Logika Stosowana 2017 11 / 34

Uwagi do reguły wnioskowania Pr(h T ) - prawdopodobieństwo a posteriori hipotezy h przy posiadaniu przesłanek (danych) T - tego szukamy. Pr(T ) - prawdopodobieństwo zbioru przesłanek (danych). Nie musimy go znać (na szczęście), żeby porównywać prawdopodobieństwa a posteriori hipotez. Jeżeli jednak musimy je wyznaczyć explicite, to możemy mieć kłopot. Potrzebujemy wyznaczyć Pr(h) i Pr(T h). Na razie zakładamy, że potrafimy je wyznaczyć, a także, że mamy ustalone H. Pr(T h) określa stopień w jakim wybór hipotezy h uprawdopodobnia wystąpienie (prawdziwość) przesłanek ze zbioru T. Marcin Szczuka (MIMUW) Logika Stosowana 2017 12 / 34

Plan wykładu 1 Wprowadzenie 2 Wnioskowanie bayesowskie 3 Bayesowska predykcja i wspomaganie decyzji Zadanie klasyfikacji Wybór hipotezy - MAP i ML Optymalny klasyfikator bayesowski Naiwny klasyfikator bayesowski 4 Wybór hipotezy w ogólności Marcin Szczuka (MIMUW) Logika Stosowana 2017 13 / 34

Plan wykładu 1 Wprowadzenie 2 Wnioskowanie bayesowskie 3 Bayesowska predykcja i wspomaganie decyzji Zadanie klasyfikacji Wybór hipotezy - MAP i ML Optymalny klasyfikator bayesowski Naiwny klasyfikator bayesowski 4 Wybór hipotezy w ogólności Marcin Szczuka (MIMUW) Logika Stosowana 2017 14 / 34

Wspomaganie decyzji Prawdziwą przydatność wnioskowania bayesowskiego można ocenić w zastosowaniach, z których najpopularniejszym jest wspomaganie decyzji (klasyfikacji). Wspomaganie decyzji (klasyfikacji) jest szczególnym przykładem wykorzystania metod wnioskowań indukcyjnych takich jak predykcja, wnioskowanie przez analogię i indukcja eliminacyjna. Będziemy konstruować klasyfikatory bayesowskie, to jest algorytmy (procedury), które na podstawie próbki nauczą się wyznaczać prawdopodobieństwo wartości decyzji (klasyfikacji) dla nowych przykładów. Ograniczenie wnioskowania do zadania klasyfikacji pozwala na uzyskanie efektywnych obliczeniowo metod jego automatyzacji. Marcin Szczuka (MIMUW) Logika Stosowana 2017 15 / 34

Klasyfikatory - pojęcia podstawowe Dziedzina (przestrzeń, uniwersum) to pewien zbiór X, z którego pochodzą (którego elementami są) nasze przykłady. Element x X nazywamy przykładem (instancją, przypadkiem, rekordem, entką, wektorem, obiektem, wierszem). Atrybut (cecha, pomiar, kolumna) to pewna funkcja a : X A. Zbiór A jest nazywany dziedziną wartości atrybutu, lub prościej dziedziną atrybutu. Zakładamy, że każdy przykład x X jest całkowicie reprezentowany przez wektor gdzie a 1 (x),..., a n (x), a i : X A i dla i = 1,..., n. n nazywamy czasem rozmiarem (długością) przykładu. W naszych zastosowaniach wyróżniamy specjalny atrybut nazywany decyzją (klasą) lub atrybutem decyzyjnym, tradycyjnie oznaczany dec lub d. Marcin Szczuka (MIMUW) Logika Stosowana 2017 16 / 34

Dane tablicowe Outlook Temp Humid Wind EnjoySpt sunny hot high FALSE no sunny hot high TRUE no overcast hot high FALSE yes rainy mild high FALSE yes rainy cool normal FALSE yes rainy cool normal TRUE no overcast cool normal TRUE yes sunny mild high FALSE no..... rainy mild high TRUE no Marcin Szczuka (MIMUW) Logika Stosowana 2017 17 / 34

Klasyfikatory Zbiór treningowy (próbka treningowa/ucząca) to podzbiór T X. To odpowiednik zbioru przesłanek. T d - podzbiór danych treningowych o decyzji d. To odpowiednik zbioru przesłanek wspierających konkretną hipotezę. T d a i =v - podzbiór danych treningowych o wartości atrybutu a i równej v i decyzji d. To odpowiednik zbioru przesłanek konkretnego rodzaju, wspierających konkretną hipotezę. Zbiór hipotez H to teraz zbiór możliwych warunków na decyzję postaci (dec = d), gdzie d V dec. Zadanie klasyfikacji Mając daną próbkę treningową T wyznaczyć jak najlepiej (najbardziej wiarygodnie) wartość dec(x) dla nowego przykładu x X (tj. x / T ). Pytanie: Jak wybrać najlepszą wartość decyzji? Marcin Szczuka (MIMUW) Logika Stosowana 2017 18 / 34

Plan wykładu 1 Wprowadzenie 2 Wnioskowanie bayesowskie 3 Bayesowska predykcja i wspomaganie decyzji Zadanie klasyfikacji Wybór hipotezy - MAP i ML Optymalny klasyfikator bayesowski Naiwny klasyfikator bayesowski 4 Wybór hipotezy w ogólności Marcin Szczuka (MIMUW) Logika Stosowana 2017 19 / 34

Wybór hipotezy - MAP W zadaniu klasyfikacji bayesowskiej chodzi o to, by znając przykłady z przeszłości (treningowe) i wartości atrybutów (poza decyzją) dla nowego przykładu x wyznaczyć dla niego najprawdopodobniejszą wartość decyzji. Trzeba zatem wyznaczyć za pomocą wzoru Bayesa taką hipotezę h, która maksymalizuje wsparcie. Hipoteza MAP - Maximum A Posteriori Mając dany zbiór T, klasyfikujemy nowy przykład x X wykorzystując hipotezę h MAP H czyli przypisujemy obiektowi x wartość decyzji zwróconą przez h MAP (x), gdzie: h MAP = arg max h H Pr(h T ) = arg max Pr(T h) Pr(h) h H W typ podejściu wybieramy hipotezę która jest najbardziej prawdopodobna wśród dostępnych. Marcin Szczuka (MIMUW) Logika Stosowana 2017 20 / 34

Wybór hipotezy - ML Hipoteza ML - Maximum Likelihood Mając dany zbiór T, klasyfikujemy nowy przykład x X wykorzystując hipotezę h ML H czyli przypisujemy obiektowi x wartość decyzji zwróconą przez h ML (x), gdzie: h ML = arg max Pr(T h). h H W typ podejściu wybieramy hipotezę która najlepiej uzasadnia (uprawdopodobnia) zbiór przykładów treningowych. Zwróćmy uwagę, że sama hipoteza h może w tym podejściu być bardzo mało prawdopodobna, za to bardzo dobrze dopasowana do danych. Marcin Szczuka (MIMUW) Logika Stosowana 2017 21 / 34

Uwagi do ML i MAP Obie metody wymagają znajomości Pr(T h). W przypadku MAP musimy też znać Pr(h), aby wykorzystać wzór Bayesa. MAP jest dość naturalny, ale ma pewne istotne słabości. W szczególności, promuje dominujące wartości decyzji. Obie metody zakładają, że zbiór treningowy nie zawiera błędów i że poszukiwana hipoteza występuje w H. ML jest bliski intuicyjnemu rozumieniu uczenia w oparciu o przykłady. Jest to proces wyboru hipotezy, która podaje najlepszy powód dla istnienia posiadanego przez nas zbioru danych. Reguła MAP wybiera najbardziej prawdopodobną hipotezę, podczas gdy nas tak naprawdę interesuje wybranie najbardziej prawdopodobnej wartości decyzji dla konkretnego przykładu. Przyjmijmy V dec = {0, 1}, H = {h MAP, h 1,..., h m }, 1 i m h(x) = 0, h MAP (x) = 1 oraz m Pr(h MAP T ) Pr(h i T ) Marcin Szczuka (MIMUW) Logika Stosowana 2017 22 / 34 i=1

Wyznaczanie prawdopodobieństw Pr(h) - prostszy kawałek. To prawdopodobieństwo może wynikać ze stosowanej metody konstruowania hipotez, lub (najczęściej) wszystkie hipotezy są jednakowo prawdopodobne. W tym drugim przypadku: Pr(h) = 1 H Problem stanowi rozmiar H. To może być ogromna przestrzeń. Ponadto, w wielu rzeczywistych zastosowaniach nie znamy całego H. Pr(T h) - trudniejszy kawałek. Zauważmy, że nas interesuje tylko podejmowanie decyzji. Chcemy tylko wiedzieć, jakie jest prawdopodobieństwo, że zbiór przykładów T będzie zgodny (będzie miał tą samą decyzję) z hipotezą h. To daje nam: { 1 gdy h V SH,T Pr(T h) = 0 gdy h / V S H,T Niestety, pozostaje stary problem z rozmiarem i znajomością H. Marcin Szczuka (MIMUW) Logika Stosowana 2017 23 / 34

ML i MAP w praktyce MAP i/lub ML mogą, pomimo wad, znaleźć zastosowanie w pewnych szczególnych sytuacjach, na przykład gdy: Przestrzeń hipotez jest bardzo ściśle ograniczona (i mała). Wykorzystujemy MAP i/lub ML do porównania (kilku) konkurujących hipotez skonstruowanych wcześniej innymi metodami. To wiąże się z zagadnieniami tzw. uczenia warstwowego (ang. layered learning). Marcin Szczuka (MIMUW) Logika Stosowana 2017 24 / 34

Plan wykładu 1 Wprowadzenie 2 Wnioskowanie bayesowskie 3 Bayesowska predykcja i wspomaganie decyzji Zadanie klasyfikacji Wybór hipotezy - MAP i ML Optymalny klasyfikator bayesowski Naiwny klasyfikator bayesowski 4 Wybór hipotezy w ogólności Marcin Szczuka (MIMUW) Logika Stosowana 2017 25 / 34

Optymalny klasyfikator bayesowski Optymalny klasyfikator bayesowski (Bayesian Optimal Classifier BOC) zawsze zwraca najbardziej prawdopodobną wartość decyzji dla danego przykładu i próbki uczącej. Nie może zatem być pokonany przez żaden algorytm uczący, jeśli porównujemy błędy rzeczywiste (globalne). Niestety, BOC jest niezbyt dobrze stosowalny w praktyce, gdyż wykorzystuje pełną przestrzeń hipotez. Niech c(.) będzie przybliżaną decyzją, T próbką treningową. h BOC = arg max d V dec Pr(c(x) = d T ) gdzie: Pr(c(x) = d T ) = h H Pr(c(x) = d h) Pr(h T ) Pr(c(x) = d h) = { 1 if h(x) = d 0 if h(x) d Hipoteza, którą zwraca BOC może nie należeć do H. Marcin Szczuka (MIMUW) Logika Stosowana 2017 26 / 34

Plan wykładu 1 Wprowadzenie 2 Wnioskowanie bayesowskie 3 Bayesowska predykcja i wspomaganie decyzji Zadanie klasyfikacji Wybór hipotezy - MAP i ML Optymalny klasyfikator bayesowski Naiwny klasyfikator bayesowski 4 Wybór hipotezy w ogólności Marcin Szczuka (MIMUW) Logika Stosowana 2017 27 / 34

Naiwny klasyfikator bayesowski Niech x będzie nowym przykładem, który mamy sklasyfikować. Powinniśmy wybrać taką hipotezę (decyzję) h, że: n h(x ) = arg max Pr(c(x) = d a i (x) = a i (x )) d V dec czyli, ze wzoru Bayesa arg max d C Pr(c(x) = d) Pr( n i=1 i=1 a i (x) = a i (x ) c(x) = d) Jeżeli przyjmiemy (naiwne) założenie, że poszczególne atrybuty (kolumny) są niezależne jako zmienne losowe, to: arg max Pr(c(x) = d) n Pr(a i (x) = a i (x ) c(x) = d) d C i=1 Rzeczy, które pozostaje nam wyliczyć (z danych) to: Pr(c(x) = d) i Pr(a i (x) = v c(x) = d). Marcin Szczuka (MIMUW) Logika Stosowana 2017 28 / 34

NBC - technikalia Zwykle wykorzystujemy m-estymatę by otrzymać: Pr(a i (x) = v c(x) = d) = T d a i v + mp T + m Jeśli nie mamy dodatkowej wiedzy o rozkładzie wartości atrybutów to zwykle ustalamy jednakowe prawdopodobieństwo wszystkich wartości czyli p = 1 A i, gdzie A i jest (skończonym) zbiorem możliwych wartości atrybutu a i. Najczęściej ustalamy m = A i. Złożoność NBC Dla każdego przykładu musimy zwiększać licznik wystąpień odpowiedniej klasy decyzyjnej i wartości odpowiednich atrybutów. To daje razem: O(n T ) Jest to najniższa złożoność (liczba kroków), jaką może osiągnąć rozsądny algorytm uczący się klasyfikacji. Ponadto, każdy pojedynczy krok w NBC jest bardzo prosty i szybki. Marcin Szczuka (MIMUW) Logika Stosowana 2017 29 / 34

Plan wykładu 1 Wprowadzenie 2 Wnioskowanie bayesowskie 3 Bayesowska predykcja i wspomaganie decyzji Zadanie klasyfikacji Wybór hipotezy - MAP i ML Optymalny klasyfikator bayesowski Naiwny klasyfikator bayesowski 4 Wybór hipotezy w ogólności Marcin Szczuka (MIMUW) Logika Stosowana 2017 30 / 34

Oczekiwania względem hipotez Przechodząc na nieco wyższy poziom abstrakcji, możemy postawić wymaganie, by wybierana hipoteza nie tylko dobrze pasowała do rzeczywistości, ale była także jak najprostsza. Jest to swoiste odwołanie do brzytwy Ockhama (lex parsimoniae). Przyjmujemy najprostsze z możliwych wyjaśnienie, przy czym w ujęciu Williama z Ockham za najprostszą powinniśmy przyjmować hipotezę, która wymaga poczynienia najsłabszych (najmniej licznych) założeń. W praktyce, szczególnie informatycznej, lex parsimoniae zastępuje się często zasadą najkrótszego (minimalnego) opisu (MDL - Minimum Description Length). MDL - zasada najkrótszego opisu Za najlepszą hipotezę uważamy taką, która prowadzi do najlepszej kompresji danych. To znaczy, ze przy przyjęcie tej hipotezy pozwala napisać możliwie najkrótszy/najprostszy algorytm odtwarzający dane. W przypadku klasyfikatorów, często oznacza to po prostu przyjęcie hipotezy o najkrótszym opisie. Marcin Szczuka (MIMUW) Logika Stosowana 2017 31 / 34

MDL i klasyfikacja bayesowska Klasyfikatory bayesowskie są ogólnie uważane za jedne z najlepszych producentów hipotez zgodnych z zasadą MDL. Dla porównywania długości opisów w najprostszym przykładzie przyjmiemy, że długość ta jest logarytmem (dwójkowym) opisu (prawdopodobieństwa). Logarytmując stronami wzór Bayesa dostajemy: log Pr(h T ) = log Pr(h) + log Pr(T h) log Pr(T ) Podstawiając L(.) za log Pr(.) otrzymujemy: L(h T ) = L(h) + L(T h) L(T ) gdzie L(h), L(T h) reprezentują długość opisu h i długość opisu danych T przy ustalonym h, przy założeniu znajomości odpowiednich optymalnych kodowań. Marcin Szczuka (MIMUW) Logika Stosowana 2017 32 / 34

MDL i klasyfikacja bayesowska Wybieramy zatem hipotezę minimalizującą długość opisu, czyli: h MDL = arg min h H L Enc H (h) + L EncD (T h) Przyjmując, że Enc H i Enc D są optymalnymi kodowaniami dla, odpowiednio, hipotezy i danych, dostajemy: h MDL = h MAP. Intuicyjnie, zasada najkrótszego opisu pomaga znaleźć balans między jakością, a prostotą hipotezy. MDL jest może być praktycznie użyteczna w ocenie (rankingu) hipotez pochodzących z różnych źródeł, np. uzyskanych przez konkurujące rodzaje algorytmów klasyfikacji. Przydaje się także w metodach upraszczających hipotezy np. przy filtrowaniu reguł decyzyjnych czy przycinaniu drzew decyzyjnych. Czesto jest także wykorzystywana w roli warunku stopu dla algorytmów uczenia się reguł z danych. Marcin Szczuka (MIMUW) Logika Stosowana 2017 33 / 34

Złożoność Kołmogorowa MDL jest także silnie związana z pojęciem złożoności Kołmogorowa (Kolmogorov Complexity, descriptive complexity, Kolmogorov Chaitin complexity, algorithmic entropy). Złożoność Kołmogorowa dla łańcucha symboli (ciągu danych), skończonego lub nieskończonego, to długość najkrótszego programu, który generuje dany łańcuch. Oczywiście pojęcie długości programu jest dość skomplikowane i wymaga formalizacji, przeważnie z wykorzystaniem języków akceptowanych przez maszyny Turinga. Wyliczanie złożoności Kołmogorowa jest zwykle bardzo trudne, a czasami niewykonalne (nierozstrzygalne). Weźmy na przykład dwa ciągi: 1415926535897932384626433832795028841971 - ma bardzo niską złożoność Kołmogorowa, ponieważ istnieje bardzo prosty program generujący cyfry rozwinięcia liczby π. 5230619672181840811135324016881717004139 - jako losowy ciąg liczb ma potencjalnie dużą złożoność Kołmogorowa. Marcin Szczuka (MIMUW) Logika Stosowana 2017 34 / 34