Logika Stosowana. Wykład 9 - Wnioskowanie indukcyjne Część 2 Wnioskowanie bayesowskie. Marcin Szczuka. Instytut Matematyki UW

Logika Stosowana Wykład 9 - Wnioskowanie indukcyjne Część 2 Wnioskowanie bayesowskie Marcin Szczuka Instytut Matematyki UW Wykład monograficzny, semestr letni 2016/2017 Marcin Szczuka (MIMUW) Logika Stosowana 2017 1 / 34

Niezorientowani w ogólnej teorii nieprawdopodobieństwa po dziś dzień zapytują, czemu właściwie Trurl uprawdopodobnił smoka, a nie elfa czy krasnala, a czynią tak z ignorancji, nie wiedzą bowiem, że smok jest po prostu bardziej od krasnala prawdopodobny (...) Stanisław Lem Cyberiada: Wyprawa trzecia, czyli smoki prawdopodobieństwa Marcin Szczuka (MIMUW) Logika Stosowana 2017 2 / 34

Plan wykładu 1 Wprowadzenie 2 Wnioskowanie bayesowskie 3 Bayesowska predykcja i wspomaganie decyzji Zadanie klasyfikacji Wybór hipotezy - MAP i ML Optymalny klasyfikator bayesowski Naiwny klasyfikator bayesowski 4 Wybór hipotezy w ogólności Marcin Szczuka (MIMUW) Logika Stosowana 2017 3 / 34

Miara prawdziwości / wiarygodności Przypomnijmy, że aby indukcyjny system wnioskowania zachowywał pożądaną spójność zazwyczaj wymaga się od niego, aby możliwe było ustalenie stopnia wsparcia dla prawdziwości sformułowanych w nim wniosków. Mierzy on siłę wpływu prawdziwości przesłanek na prawdziwość wniosku. Od systemu (semi-)formalnego i miary prawdziwości będziemy wymagać: 1 Spełniania kryterium zgodności (CoA). 2 Zapewnienia, aby stopień pewności, z jakim przyjmujemy wniosek nie przewyższał stopnia pewności z którym uznajemy przesłanki oraz stopnia ufności w stosowane reguły inferencji (quasi-monotoniczność). 3 Możliwości wskazania granicy między pożądanymi, a nonsensownymi wnioskami. 4 Możliwie wysokiej intuicyjności. Marcin Szczuka (MIMUW) Logika Stosowana 2017 4 / 34

Rozumowania probabilistyczne Już pierwsze próby uporządkowania rozumowań indukcyjnych zmierzały w stronę wykorzystania prawdopodobieństwa i statystyki, często rozumianych w sposób płytki i nieścisły. Z czasem rozumowania oparte o metody probabilistyczne, szczególnie o wnioskowanie bayesowskie, znalazły się w centrum zainteresowania filozofów i logików dążących do uporządkowania i sformalizowania wnioskowania przez indukcję (logiki indukcyjnej). Elementy wnioskowań probabilistycznych można znaleźć u Pascala, Fermata i wielu innych. Współczesne podejście formalne do logiki indukcyjnej opartej na prawdopodobieństwie zainaugurował John Maynard Keynes w Treatise on Probability (1921). Rudolf Carnap rozwinął te idee w Logical Foundations of Probability (1950) i wielu kolejnych pracach. Po uporządkowaniu teorii prawdopodobieństwa przez Kołmogorowa wnioskowania probabilistyczne uzyskały też przyzwoitą podstawę teoretyczną. Marcin Szczuka (MIMUW) Logika Stosowana 2017 5 / 34

Probabilistyczna logika indukcyjna W przypadku logik indukcyjnych (w tym probabilistycznych) nie ma większego sensu rozważać relacji i jej związku z relacją =. Natomiast dla relacji = zamiast mówić o wynikaniu logicznym w ścisłym sensie, mówimy o funkcji wsparcia (prawdopodobieństwie) prawdziwości. Funkcja wsparcia Funkcja P : L [0, 1], gdzie L jest zbiorem wyrażeń (językiem), jest funkcją wsparcia, jeżeli dla A, B, C będących wyrażeniami w L: 1 Istnieje co najmniej jedna para wyrażeń D, E L dla której P (D E) < 1. 2 Jeżeli B = A, to P (A B) = 1. 3 Jeżeli = (B C), to P (A B) = P (A C). 4 Jeżeli C = (A B), to albo P (A B C) = P (A C) + P (B C) albo D L P (D C) = 1. 5 P ((A B) C) = P (A (B C)) P (B C) Marcin Szczuka (MIMUW) Logika Stosowana 2017 6 / 34

Probabilistyczna logika indukcyjna Łatwo zauważyć, że warunki dla funkcji wsparcia P, są niczym innym jak warunkami dla miary prawdopodobieństwa. W warunkach dla funkcji P operator odpowiada koncepcyjnie wynikaniu (logical entailment), czyli podstawowemu krokowi wnioskowania. Łatwo zauważyć, że dla ustalonego systemu formalnego funkcja P nie musi być wyznaczona jednoznacznie. Zauważmy, że warunki na P zgadzają sie w podstawowych punktach z warunkami dla prawdopodobieństwa (bezwarunkowego), wystarczy położyć P (A) = P (A (D D)) dla jakiegoś D. Jednakże te warunki pozwalają też ustalić wartość P (A C) w sytuacji gdy prawdopodobieństwo przesłanki C jest równe 0 (czyli P (C) = P (C (D D)) = 0). Warunek 1 (nietrywialność) można wyrazić też jako A L P ((A A) (A A)) < 1. Marcin Szczuka (MIMUW) Logika Stosowana 2017 7 / 34

Prawdopodobieństwo Zanim przejdziemy dalej musimy ustalić (uproszczone) aksjomaty i podstawowe własności dla miary (prawdopodobieństwa), którą będziemy się posługiwać. Dla odróżnienia od poprzednich oznaczeń, będziemy używać Pr na oznaczenie miary prawdopodobieństwa. Aksjomaty prawdopodobieństwa dyskretnego (Kołmogorow) 1 Dla każdego zdarzenia A Ω wartość Pr(A) [0, 1]. 2 Prawdopodobieństwo całkowite Pr(Ω) = 1. 3 Addytywność jeśli A 1,..., A n są wzajemnie wykluczające, to n Pr(A i ) = 1 Pr(B) = i=1 n Pr(B A i ) Pr(A i ). i=1 Z aksjomatem 2 możemy mieć trudności. Marcin Szczuka (MIMUW) Logika Stosowana 2017 9 / 34

Własności prawdopodobieństwa Pr(A B) = Pr(B) Pr(A B) = Pr(A) Pr(B A) Pr(A B) = Pr(A) + Pr(B) Pr(A B) Pr(A B) - prawdopodobieństwo zdarzenia A pod warunkiem B. Pr(A B) = Pr(A B) Pr(B) Reguła Bayes a Pr(A B) = Pr(B A) Pr(A) Pr(B) Marcin Szczuka (MIMUW) Logika Stosowana 2017 10 / 34

Wnioskowanie bayesowskie Z powodów które staną sie jasne w następnej części wykładu będziemy używać następujących oznaczeń. T X - zbiór przesłanek (evidence set) pochodzących z jakiejś (ogromnej) przestrzeni. h H - wniosek (hipoteza) pochodząca z (ogromnej) przestrzeni hipotez. V S H,T - przestrzeń wersji, podzbiór tych hipotez z H, które są zgodne z T. Reguła wnioskowania (Bayes a) Dla dowolnej hipotezy h H i zbioru danych T X zachodzi: Pr(h T ) = Pr(T h) Pr(h) Pr(T ) Czyli prawdopodobieństwo (stopień wiarygodności) wniosku h ustalamy na podstawie prawdopodobieństwa przesłanek i stopnia w jakim hipoteza uprawdopodobnia przesłanki. Marcin Szczuka (MIMUW) Logika Stosowana 2017 11 / 34

Uwagi do reguły wnioskowania Pr(h T ) - prawdopodobieństwo a posteriori hipotezy h przy posiadaniu przesłanek (danych) T - tego szukamy. Pr(T ) - prawdopodobieństwo zbioru przesłanek (danych). Nie musimy go znać (na szczęście), żeby porównywać prawdopodobieństwa a posteriori hipotez. Jeżeli jednak musimy je wyznaczyć explicite, to możemy mieć kłopot. Potrzebujemy wyznaczyć Pr(h) i Pr(T h). Na razie zakładamy, że potrafimy je wyznaczyć, a także, że mamy ustalone H. Pr(T h) określa stopień w jakim wybór hipotezy h uprawdopodobnia wystąpienie (prawdziwość) przesłanek ze zbioru T. Marcin Szczuka (MIMUW) Logika Stosowana 2017 12 / 34

Wspomaganie decyzji Prawdziwą przydatność wnioskowania bayesowskiego można ocenić w zastosowaniach, z których najpopularniejszym jest wspomaganie decyzji (klasyfikacji). Wspomaganie decyzji (klasyfikacji) jest szczególnym przykładem wykorzystania metod wnioskowań indukcyjnych takich jak predykcja, wnioskowanie przez analogię i indukcja eliminacyjna. Będziemy konstruować klasyfikatory bayesowskie, to jest algorytmy (procedury), które na podstawie próbki nauczą się wyznaczać prawdopodobieństwo wartości decyzji (klasyfikacji) dla nowych przykładów. Ograniczenie wnioskowania do zadania klasyfikacji pozwala na uzyskanie efektywnych obliczeniowo metod jego automatyzacji. Marcin Szczuka (MIMUW) Logika Stosowana 2017 15 / 34

Klasyfikatory - pojęcia podstawowe Dziedzina (przestrzeń, uniwersum) to pewien zbiór X, z którego pochodzą (którego elementami są) nasze przykłady. Element x X nazywamy przykładem (instancją, przypadkiem, rekordem, entką, wektorem, obiektem, wierszem). Atrybut (cecha, pomiar, kolumna) to pewna funkcja a : X A. Zbiór A jest nazywany dziedziną wartości atrybutu, lub prościej dziedziną atrybutu. Zakładamy, że każdy przykład x X jest całkowicie reprezentowany przez wektor gdzie a 1 (x),..., a n (x), a i : X A i dla i = 1,..., n. n nazywamy czasem rozmiarem (długością) przykładu. W naszych zastosowaniach wyróżniamy specjalny atrybut nazywany decyzją (klasą) lub atrybutem decyzyjnym, tradycyjnie oznaczany dec lub d. Marcin Szczuka (MIMUW) Logika Stosowana 2017 16 / 34

Dane tablicowe Outlook Temp Humid Wind EnjoySpt sunny hot high FALSE no sunny hot high TRUE no overcast hot high FALSE yes rainy mild high FALSE yes rainy cool normal FALSE yes rainy cool normal TRUE no overcast cool normal TRUE yes sunny mild high FALSE no..... rainy mild high TRUE no Marcin Szczuka (MIMUW) Logika Stosowana 2017 17 / 34

Klasyfikatory Zbiór treningowy (próbka treningowa/ucząca) to podzbiór T X. To odpowiednik zbioru przesłanek. T d - podzbiór danych treningowych o decyzji d. To odpowiednik zbioru przesłanek wspierających konkretną hipotezę. T d a i =v - podzbiór danych treningowych o wartości atrybutu a i równej v i decyzji d. To odpowiednik zbioru przesłanek konkretnego rodzaju, wspierających konkretną hipotezę. Zbiór hipotez H to teraz zbiór możliwych warunków na decyzję postaci (dec = d), gdzie d V dec. Zadanie klasyfikacji Mając daną próbkę treningową T wyznaczyć jak najlepiej (najbardziej wiarygodnie) wartość dec(x) dla nowego przykładu x X (tj. x / T ). Pytanie: Jak wybrać najlepszą wartość decyzji? Marcin Szczuka (MIMUW) Logika Stosowana 2017 18 / 34

Wybór hipotezy - MAP W zadaniu klasyfikacji bayesowskiej chodzi o to, by znając przykłady z przeszłości (treningowe) i wartości atrybutów (poza decyzją) dla nowego przykładu x wyznaczyć dla niego najprawdopodobniejszą wartość decyzji. Trzeba zatem wyznaczyć za pomocą wzoru Bayesa taką hipotezę h, która maksymalizuje wsparcie. Hipoteza MAP - Maximum A Posteriori Mając dany zbiór T, klasyfikujemy nowy przykład x X wykorzystując hipotezę h MAP H czyli przypisujemy obiektowi x wartość decyzji zwróconą przez h MAP (x), gdzie: h MAP = arg max h H Pr(h T ) = arg max Pr(T h) Pr(h) h H W typ podejściu wybieramy hipotezę która jest najbardziej prawdopodobna wśród dostępnych. Marcin Szczuka (MIMUW) Logika Stosowana 2017 20 / 34

Wybór hipotezy - ML Hipoteza ML - Maximum Likelihood Mając dany zbiór T, klasyfikujemy nowy przykład x X wykorzystując hipotezę h ML H czyli przypisujemy obiektowi x wartość decyzji zwróconą przez h ML (x), gdzie: h ML = arg max Pr(T h). h H W typ podejściu wybieramy hipotezę która najlepiej uzasadnia (uprawdopodobnia) zbiór przykładów treningowych. Zwróćmy uwagę, że sama hipoteza h może w tym podejściu być bardzo mało prawdopodobna, za to bardzo dobrze dopasowana do danych. Marcin Szczuka (MIMUW) Logika Stosowana 2017 21 / 34

Uwagi do ML i MAP Obie metody wymagają znajomości Pr(T h). W przypadku MAP musimy też znać Pr(h), aby wykorzystać wzór Bayesa. MAP jest dość naturalny, ale ma pewne istotne słabości. W szczególności, promuje dominujące wartości decyzji. Obie metody zakładają, że zbiór treningowy nie zawiera błędów i że poszukiwana hipoteza występuje w H. ML jest bliski intuicyjnemu rozumieniu uczenia w oparciu o przykłady. Jest to proces wyboru hipotezy, która podaje najlepszy powód dla istnienia posiadanego przez nas zbioru danych. Reguła MAP wybiera najbardziej prawdopodobną hipotezę, podczas gdy nas tak naprawdę interesuje wybranie najbardziej prawdopodobnej wartości decyzji dla konkretnego przykładu. Przyjmijmy V dec = {0, 1}, H = {h MAP, h 1,..., h m }, 1 i m h(x) = 0, h MAP (x) = 1 oraz m Pr(h MAP T ) Pr(h i T ) Marcin Szczuka (MIMUW) Logika Stosowana 2017 22 / 34 i=1

Wyznaczanie prawdopodobieństw Pr(h) - prostszy kawałek. To prawdopodobieństwo może wynikać ze stosowanej metody konstruowania hipotez, lub (najczęściej) wszystkie hipotezy są jednakowo prawdopodobne. W tym drugim przypadku: Pr(h) = 1 H Problem stanowi rozmiar H. To może być ogromna przestrzeń. Ponadto, w wielu rzeczywistych zastosowaniach nie znamy całego H. Pr(T h) - trudniejszy kawałek. Zauważmy, że nas interesuje tylko podejmowanie decyzji. Chcemy tylko wiedzieć, jakie jest prawdopodobieństwo, że zbiór przykładów T będzie zgodny (będzie miał tą samą decyzję) z hipotezą h. To daje nam: { 1 gdy h V SH,T Pr(T h) = 0 gdy h / V S H,T Niestety, pozostaje stary problem z rozmiarem i znajomością H. Marcin Szczuka (MIMUW) Logika Stosowana 2017 23 / 34

ML i MAP w praktyce MAP i/lub ML mogą, pomimo wad, znaleźć zastosowanie w pewnych szczególnych sytuacjach, na przykład gdy: Przestrzeń hipotez jest bardzo ściśle ograniczona (i mała). Wykorzystujemy MAP i/lub ML do porównania (kilku) konkurujących hipotez skonstruowanych wcześniej innymi metodami. To wiąże się z zagadnieniami tzw. uczenia warstwowego (ang. layered learning). Marcin Szczuka (MIMUW) Logika Stosowana 2017 24 / 34

Optymalny klasyfikator bayesowski Optymalny klasyfikator bayesowski (Bayesian Optimal Classifier BOC) zawsze zwraca najbardziej prawdopodobną wartość decyzji dla danego przykładu i próbki uczącej. Nie może zatem być pokonany przez żaden algorytm uczący, jeśli porównujemy błędy rzeczywiste (globalne). Niestety, BOC jest niezbyt dobrze stosowalny w praktyce, gdyż wykorzystuje pełną przestrzeń hipotez. Niech c(.) będzie przybliżaną decyzją, T próbką treningową. h BOC = arg max d V dec Pr(c(x) = d T ) gdzie: Pr(c(x) = d T ) = h H Pr(c(x) = d h) Pr(h T ) Pr(c(x) = d h) = { 1 if h(x) = d 0 if h(x) d Hipoteza, którą zwraca BOC może nie należeć do H. Marcin Szczuka (MIMUW) Logika Stosowana 2017 26 / 34

Naiwny klasyfikator bayesowski Niech x będzie nowym przykładem, który mamy sklasyfikować. Powinniśmy wybrać taką hipotezę (decyzję) h, że: n h(x ) = arg max Pr(c(x) = d a i (x) = a i (x )) d V dec czyli, ze wzoru Bayesa arg max d C Pr(c(x) = d) Pr( n i=1 i=1 a i (x) = a i (x ) c(x) = d) Jeżeli przyjmiemy (naiwne) założenie, że poszczególne atrybuty (kolumny) są niezależne jako zmienne losowe, to: arg max Pr(c(x) = d) n Pr(a i (x) = a i (x ) c(x) = d) d C i=1 Rzeczy, które pozostaje nam wyliczyć (z danych) to: Pr(c(x) = d) i Pr(a i (x) = v c(x) = d). Marcin Szczuka (MIMUW) Logika Stosowana 2017 28 / 34

NBC - technikalia Zwykle wykorzystujemy m-estymatę by otrzymać: Pr(a i (x) = v c(x) = d) = T d a i v + mp T + m Jeśli nie mamy dodatkowej wiedzy o rozkładzie wartości atrybutów to zwykle ustalamy jednakowe prawdopodobieństwo wszystkich wartości czyli p = 1 A i, gdzie A i jest (skończonym) zbiorem możliwych wartości atrybutu a i. Najczęściej ustalamy m = A i. Złożoność NBC Dla każdego przykładu musimy zwiększać licznik wystąpień odpowiedniej klasy decyzyjnej i wartości odpowiednich atrybutów. To daje razem: O(n T ) Jest to najniższa złożoność (liczba kroków), jaką może osiągnąć rozsądny algorytm uczący się klasyfikacji. Ponadto, każdy pojedynczy krok w NBC jest bardzo prosty i szybki. Marcin Szczuka (MIMUW) Logika Stosowana 2017 29 / 34

Oczekiwania względem hipotez Przechodząc na nieco wyższy poziom abstrakcji, możemy postawić wymaganie, by wybierana hipoteza nie tylko dobrze pasowała do rzeczywistości, ale była także jak najprostsza. Jest to swoiste odwołanie do brzytwy Ockhama (lex parsimoniae). Przyjmujemy najprostsze z możliwych wyjaśnienie, przy czym w ujęciu Williama z Ockham za najprostszą powinniśmy przyjmować hipotezę, która wymaga poczynienia najsłabszych (najmniej licznych) założeń. W praktyce, szczególnie informatycznej, lex parsimoniae zastępuje się często zasadą najkrótszego (minimalnego) opisu (MDL - Minimum Description Length). MDL - zasada najkrótszego opisu Za najlepszą hipotezę uważamy taką, która prowadzi do najlepszej kompresji danych. To znaczy, ze przy przyjęcie tej hipotezy pozwala napisać możliwie najkrótszy/najprostszy algorytm odtwarzający dane. W przypadku klasyfikatorów, często oznacza to po prostu przyjęcie hipotezy o najkrótszym opisie. Marcin Szczuka (MIMUW) Logika Stosowana 2017 31 / 34

MDL i klasyfikacja bayesowska Klasyfikatory bayesowskie są ogólnie uważane za jedne z najlepszych producentów hipotez zgodnych z zasadą MDL. Dla porównywania długości opisów w najprostszym przykładzie przyjmiemy, że długość ta jest logarytmem (dwójkowym) opisu (prawdopodobieństwa). Logarytmując stronami wzór Bayesa dostajemy: log Pr(h T ) = log Pr(h) + log Pr(T h) log Pr(T ) Podstawiając L(.) za log Pr(.) otrzymujemy: L(h T ) = L(h) + L(T h) L(T ) gdzie L(h), L(T h) reprezentują długość opisu h i długość opisu danych T przy ustalonym h, przy założeniu znajomości odpowiednich optymalnych kodowań. Marcin Szczuka (MIMUW) Logika Stosowana 2017 32 / 34

MDL i klasyfikacja bayesowska Wybieramy zatem hipotezę minimalizującą długość opisu, czyli: h MDL = arg min h H L Enc H (h) + L EncD (T h) Przyjmując, że Enc H i Enc D są optymalnymi kodowaniami dla, odpowiednio, hipotezy i danych, dostajemy: h MDL = h MAP. Intuicyjnie, zasada najkrótszego opisu pomaga znaleźć balans między jakością, a prostotą hipotezy. MDL jest może być praktycznie użyteczna w ocenie (rankingu) hipotez pochodzących z różnych źródeł, np. uzyskanych przez konkurujące rodzaje algorytmów klasyfikacji. Przydaje się także w metodach upraszczających hipotezy np. przy filtrowaniu reguł decyzyjnych czy przycinaniu drzew decyzyjnych. Czesto jest także wykorzystywana w roli warunku stopu dla algorytmów uczenia się reguł z danych. Marcin Szczuka (MIMUW) Logika Stosowana 2017 33 / 34

Złożoność Kołmogorowa MDL jest także silnie związana z pojęciem złożoności Kołmogorowa (Kolmogorov Complexity, descriptive complexity, Kolmogorov Chaitin complexity, algorithmic entropy). Złożoność Kołmogorowa dla łańcucha symboli (ciągu danych), skończonego lub nieskończonego, to długość najkrótszego programu, który generuje dany łańcuch. Oczywiście pojęcie długości programu jest dość skomplikowane i wymaga formalizacji, przeważnie z wykorzystaniem języków akceptowanych przez maszyny Turinga. Wyliczanie złożoności Kołmogorowa jest zwykle bardzo trudne, a czasami niewykonalne (nierozstrzygalne). Weźmy na przykład dwa ciągi: 1415926535897932384626433832795028841971 - ma bardzo niską złożoność Kołmogorowa, ponieważ istnieje bardzo prosty program generujący cyfry rozwinięcia liczby π. 5230619672181840811135324016881717004139 - jako losowy ciąg liczb ma potencjalnie dużą złożoność Kołmogorowa. Marcin Szczuka (MIMUW) Logika Stosowana 2017 34 / 34