Twierdzenie Bayesa Indukowane Reguły Decyzyjne Jakub Kuliński Nr albumu: 53623
Niniejszy skrypt ma na celu usystematyzowanie i uporządkowanie podstawowej wiedzy na temat twierdzenia Bayesa i jego zastosowaniu w regułach decyzyjnych. Twierdzenie Bayesa jest bezpośrednio związane z prawdopodobieństwem warunkowym i ma ono na celu jego korygowanie w oparciu o późniejsze uzyskanie dodatkowych informacji o zachodzących zdarzeniach. DEFINICJA 1 PRAWDOPODOBIEŃSTWO WARUNKOWE Prawdopodobieństwem warunkowym zajścia zdarzenia zdarzenia, gdzie, nazywamy liczbę: pod warunkiem zajścia Kluczowe z zrozumieniu Twierdzenia Bayesa jest dostrzeżenie, że mamy tu do czynienia ze zdarzeniami zachodzącymi po sobie i każde z nich niesie za sobą nową, dodatkową informację o tych zdarzeniach oraz, że te nowe informacje służą korygowaniu prawdopodobieństwa zdarzenia początkowego. W tym kontekście używa się pojęć prawdopodobieństwa a priori oraz prawdopodobieństwa a posteriori. DEFINICJA 2 PRAWDOPODOBIEŃSTWO A PRIORI Prawdopodobieństwem a priori nazywamy prawdopodobieństwo obliczane przed realizacją doświadczenia losowego. DEFINICJA 3 PRAWDOPODOBIEŃSTWO A POSTERIORI Prawdopodobieństwem a posteriori nazywamy prawdopodobieństwo obliczane po realizacji doświadczenia losowego. PRZYKŁAD 1 Instytut Gallup a do swoich badań na temat korzystania z kart płatniczych losowo dobiera pewną część populacji obywateli USA. Na podstawie własnej wiedzy proszę oszacować prawdopodobieństwa poniższych zdarzeń: 1) Jakie jest prawdopodobieństwo, że losowo wybrany respondent jest mężczyzną? 2) Po wylosowaniu respondenta ustalono, że palił(-a) on(-a) papierosy. Jakie jest teraz prawdopodobieństwo, że losowo wybrany respondent był mężczyzną? [2]
3) Które z powyższych prawdopodobieństw jest prawdopodobieństwem a priori/ a posteriori? ROZWIĄZANIE 1) Niemal połowę obywateli USA stanowią mężczyźni, zatem można oszacować, że prawdopodobieństwo wylosowania mężczyzny wynosi. Oznaczając zdarzenie Wylosowano mężczyznę jako, prawdopodobieństwo zdarzenia wynosi: ; 2) Pomimo tego, że część kobiet pali papierosy to znacznie większy odsetek palących jest wśród płci męskiej. Przypuszcza się, że 75% palaczy to mężczyźni. Bazując na dodatkowej informacji ( wybrany respondent jest palaczem zdarzenie ), szacujemy, że prawdopodobieństwo wylosowania palącego mężczyzny wynosi ; 3) Prawdopodobieństwo z 1) a priori (przed doświadczeniem) Prawdopodobieństwo z 2) a posteriori (po doświadczeniu) Po wyjaśnieniu kluczowych pojęć, można przejść do Twierdzenia Bayesa, które wyjaśnia nie tyle sam wynik doświadczenia losowego, co jego przebieg: TWIERDZENIE 1 WZÓR BAYESA Niech będzie ciągiem zdarzeń takim, że dla oraz oraz. Wtedy: gdzie: DOWÓD: Z definicji na prawdopodobieństwo warunkowe oraz całkowite otrzymujemy: [3]
PRZYKŁAD 2 Test na rzadką chorobę, która dotyka średnio 1 osobę na tysiąc, daje tzw. fałszywą pozytywną odpowiedź u 4% zdrowych, przy czym u chorych wynik pozytywny występuje zawsze. Jaka jest szansa, że osoba, u której test dał odpowiedź pozytywną, jest rzeczywiście chora? Założono, że u chorej osoby nie występują jakiekolwiek objawy choroby. ROZWIĄZANIE Niech: Zdarzenie oznacza pozytywną odpowiedź testu, Zdarzenie osobę chorą, Zdarzenie osobę zdrową. Ze wzoru Bayesa można obliczyć: ODPOWIEDŹ: Choć rachunki we wzorze Bayesa są dość proste, to ich wynik może wydawać się zaskakujący i sprzeczny z intuicją Szansa, że osoba, u której test wykazał odpowiedź pozytywną jest rzeczywiście chora, wynosi 2,44%. PRZYKŁAD 3 Automatyczny nadajnik ratunkowy ELT jest urządzeniem, które w razie wypadku lub awarii samolotu emituje sygnał ostrzegawczy. 75% tych urządzeń jest produkowanych przez Awaxes Corp., 20% przez Airsafe, a pozostałe przez chińskiego producenta Ciongshunshi. Nadajniki produkowane przez Awaxes Corp. charakteryzują się wysokim stopniem niezawodności 4 nadajniki na 100 posiadały wady fabryczne. Wśród urządzeń firmy Airsafe współczynnik ten jest nieznacznie wyższy 6%. Najgorzej radzi sobie firma Ciongshunshi, w której to aż 10 nadajników na 100 posiadało wady (co prawdopodobnie tłumaczy ich pozycję na rynku). Jakie jest prawdopodobieństwo, że uszkodzony nadajnik był wyprodukowany przez firmą Awaxes Corp.? [4]
ROZWIĄZANIE Wprowadzono następujące oznaczenia: Zdarzenie nadajnik jest niesprawny Zdarzenie nadajnik jest sprawny Zdarzenie nadajnik wyprodukowany przez Awaxes Corp., Zdarzenie nadajnik wyprodukowany przez Airsafe Zdarzenie nadajnik wyprodukowany przez Ciongshunshi. Szukane prawdopodobieństwo to. Z danych zadania wynika, że: Dane podstawiamy do wzoru z Twierdzenia 1: ODPOWIEDŹ: Prawdopodobieństwo, że uszkodzony nadajnik pochodził z firmy Awaxes Corp. wynosi 63,8% [5]
ZASTOSOWANIE TWIERDZENIA BAYESA W REGUŁACH DECYZYJNYCH NAIWNY KLASYFIKATOR BAYESA Naiwny klasyfikator Bayesa jest bardzo dobrym klasyfikatorem dla problemów charakteryzujących się mnogością wymiarów. Opiera się on na założeniu o wzajemnej niezależności zmiennych niezależnych. Zasadę działania klasyfikatora prezentuje przykład 4. PRZYKŁAD 4 W tabeli 1 przedstawiono zbiór treningowy z bazy danych zawierającej wyniki badania dotyczącego analizy profilu klientów pewnego sklepu z komputerami: Tabela 1 Zbiór treningowy Lp. Wiek Dochód Studia Ocena_kred Zakup_komp 1 <30 wysoki nie dobra nie 2 <30 wysoki nie znakomita nie 3 [30;40] wysoki nie dobra tak 4 >40 średni nie dobra tak 5 >40 niski tak dobra tak 6 >40 niski tak znakomita nie 7 [30;40] niski tak znakomita tak 8 <30 średni nie dobra nie 9 <30 niski tak dobra tak 10 >40 średni tak dobra tak 11 <30 średni tak znakomita tak 12 [30;40] średni nie znakomita tak 13 [30;40] wysoki tak dobra tak 14 >40 średni nie znakomita nie Za pomocą Naiwnego Klasyfikatora Bayesa proszę sprawdzić, czy obiekt X (tzn. osoba poniżej wieku 30 lat, ze średnim dochodem, z ukończonymi studiami i dobrą oceną kredytową) zdecyduje się na zakup komputera. ROZWIĄZANIE 1. Należy obliczyć, dla jakiej wartości i iloczyn osiąga maksimum, gdzie: oznacza prawdopodobieństwo a priori przynależności obiektu do klasy (tutaj: decyzja o zakupie komputera) dla gdzie 1- tak, 2- nie [6]
Ze zbioru treningowego obliczamy: 2. Następnie należy obliczyć prawdopodobieństwa warunkowe dla wszystkich wartości atrybutów: Ze zbioru treningowego obliczamy: 3. Otrzymane wartości podstawiamy do wzorów na oraz. ODPOWIEDŹ: Obiekt X (tzn. osoba poniżej 30 rż., ze średnim dochodem, dobrą oceną kredytową i ukończonymi studiami) przynależy do klasy tzn. najprawdopodobniej zdecyduje się na zakup komputera. [7]
Literatura: R. Sztencel, J. Jakubowski, Rachunek prawdopodobieństwa dla prawie każdego, Wydawnictwo Script, Warszawa 2006 Materiały dydaktyczne z zajęć Rachunek prawdopodobieństwa dr hab., prof. SGH Agata Boratyńska Materiały dydaktyczne z zajęć Informatyka - Politechnika Poznańska Materiały dydaktyczne Uniwersytetu w Waszyngotnie [8]