OLITECHNIKA WARSZAWSKA WYDZIAŁ MECHANICZNY ENERGETYKI I LOTNICTWA MEL WROWADZENIE DO SZTUCZNEJ INTELIGENCJI NS 586 Dr inŝ. Franciszek Dul
14. WNIOSKOWANIE STATYSTYCZNE W SIECI BAYESA
Wnioskowanie statystyczne okaŝemy jak zbudować model probabilistyczny świata w postaci tzw. sieci Bayesa który posłuŝy do efektywnego wnioskowania w warunkach niepewności.
14.1. Sieci Bayesa Sieć Bayesa jest to graf acykliczny skierowany który umoŝliwia zapis graficzny zaleŝności warunkowej zdarzeń. Sieć Bayesa: umoŝliwia intuicyjne ujęcie zaleŝności przyczynowych pomiędzy zmiennymi pozwala przedstawić zwięźle rozkład łączny prawdopodobieństwa. Składnia sieci Bayesa: zbiór węzłów po jednym dla kaŝdej zmiennej losowej węzły grafu połączenia odpowiadające zaleŝnościom pomiędzy zmiennymi krawędzie grafu rozkład prawdopodobieństwa warunkowego kaŝdego węzła przy znanych wartościach rozkładu prawdopodobieństwa rodziców X i RodziceX i Z 1 =0.12 Zmienna 1 Zmienna 2 Zmienna 3 Z 1 Z 2 Z 1 Rozkład warunkowy jest przedstawiany najczęściej w postaci tablic prawdopodobieństwa warunkowego conditional probability table CT które podają rozkład prawdopodobieństwa warunkowego dla X i dla kaŝdej kombinacji wartości rodziców. t f 0.80 0.20 Z 1 Z 3 Z 1 t f 0.45 0.06
14.1. Sieci Bayesa rzykład sieci Bayesa Sieć Bayesa dla modelu opisującego zaleŝności pomiędzy bólem zęba ubytkiem wykryciem ubytku oraz pogodą. Zmienne losowe zadania: BólZęba Ubytek Wykrycie oraz ogoda. ogoda Ubytek BólZęba Wykrycie BólZęba i Wykrycie są niezaleŝne warunkowo przy danej wartości zmiennej Ubytek. ogoda jest niezaleŝna od pozostałych zmiennych i vice versa. Topologia sieci Bayesa pozwala opisać niezaleŝność absolutną lub warunkową zmiennych.
14.1. Sieci Bayesa Bardziej złoŝony przykład sieci Bayesa Opis problemu Jestem w pracy. Dzwoni do mnie sąsiad Jan z informacją Ŝe uruchomił się alarm w moim domu. Druga sąsiadka Maria nie dzwoni. Alarm jest czasami włączany przez róŝne wstrząsy. Czy miało miejsce włamanie do mojego domu? Zmienne losowe w nawiasach nazwy skrócone: Włamanie W Wstrząsy S Alarm A MariaDzwoni M JanDzwoni J. Wiedza o zadaniu: Alarm moŝe uruchomić włamywacz. Alarm mogą teŝ uruchomić wstrząsy np. od przelatującego samolotu. Włączony alarm moŝe ale nie musi skłonić Marię lub Jana do zadzwonienia do mnie. Topologia sieci Bayesa powinna odzwierciedlać powyŝszą wiedzę przyczynową.
14.1. Sieci Bayesa Sieć Bayesa dla problemu włamania W 0.001 Włamanie S 0.002 Wstrząsy W S A WS T T 0.95 T F 0.94 F T 0.29 F F 0.01 Alarm Jan Dzwoni A J A T 0.90 F 0.05 Maria Dzwoni A M A T 0.70 F 0.01
14.1. Sieci Bayesa Zwartość reprezentacji za pomocą sieci Bayesa Rozmiar zadania jest równy liczbie wszystkich elementów w tablicach prawdopodobieństw warunkowych. Dla problemu włamania jest to 1+1+4+2+2=10 prawdopodobieństw. JeŜeli jest n zmiennych i kaŝda zmienna ma nie więcej niŝ k rodziców to cała sieć opisana jest za pomocą On 2 k liczb. Rozmiar rośnie więc liniowo względem n w przeciwieństwie do wzrostu wykładniczego O2 n dla pełnego rozkładu łącznego. Dla problemu włamania tabela prawdopodobieństwa łącznego zawiera 2 5-1 = 31 prawdopodobieństw. W S A J M
14.2. Semantyka sieci Bayesa Rozkład łączny prawdopodobieństwa jest iloczynem rozkładów węzłowych n 1... X n = i = X i Rodzice X 1 i X Wnioskowanie na podstawie sieci Bayesa jest analogiczne do wnioskowania z rozkładu łącznego. rzykład W problemie włamania wyznaczyć rozkład prawdopodobieństwa dla zdarzenia Z = Jan dzwoni Maria dzwoni alarm działa nie ma włamania i nie ma wstrząsów = j m a w s j m a w s = = j a m a a w s w s = 0.90 0.70 0.01 0.999 0.998 = 0.0062 W 0.001 Włamanie W S A WS T T 0.95 T F 0.94 F T 0.29 F F 0.01 Jan Dzwoni Alarm A J A T 0.90 F 0.05 S 0.002 Wstrząsy A M A T 0.70 F 0.01 Maria Dzwoni
14.2. Semantyka sieci Bayesa Budowanie sieci Bayesa 1. Wybrać porządek zmiennych losowych X 1 X n ; 2. Dla i = 1 n : dodać X i do sieci; wybrać spośród X 1 X i-1 takich rodziców dla których X i RodziceX i = X i X 1... X i-1 i narysować odpowiednie strzałki w sieci. Uwaga! Wybór ten nie musi być jednoznaczny. Taki wybór rodziców gwarantuje właściwe reprezentowanie rozkładu łącznego: X 1 X n = i =1 X i X 1 X i-1 reguła łańcuchowa = i =1 X i RodziceX i z konstrukcji
14.2. Semantyka sieci Bayesa Topologia sieci oraz jej zwartość zaleŝą od początkowego wyboru porządku zmiennych. rzykład ZałóŜmy Ŝe wybraliśmy porządek zmiennych: M J A W S; J M = J? Nie A J M = A J? Nie A J M = A? Nie W A J M = W? Nie W A J M = W A? Tak S W A J M = S A? Nie S W A J M = S A W? Tak Maria Dzwoni Włamanie Alarm Jan Dzwoni Wstrząsy Taki porządek zmiennych wprowadził dwie nowe krawędzie. Sieć jest mniej zwarta niŝ poprzednio: trzeba zapamiętać 1 + 2 + 4 + 2 + 4 = 13 prawdopodobieństw.
14.2. Semantyka sieci Bayesa Określenie właściwej topologii sieci jest sztuką. Włamanie Maria Dzwoni Maria Dzwoni Wstrząsy Jan Dzwoni Jan Dzwoni Alarm Alarm Wstrząsy Jan Dzwoni Włamanie Włamanie Maria Dzwoni Wstrząsy a10 prawdopodobieństw b 13 prawdopodobieństw c 31 prawdopodobieństw Wszystkie powyŝsze sieci są równowaŝne ale: sieć a jest typu przyczyna skutek. sieć b jest typu skutek przyczyna. sieć c ma topologię nadmiarową odpowiadającą pełnemu rozkładowi łącznemu. Wnioskowanie przyczyna skutek prowadzi zazwyczaj do sieci o najprostszej topologii. WaŜne jest aby nie pominąć istotnych zaleŝności pomiędzy zmiennymi. Alarm
14.4. Wnioskowanie ścisłe w sieci Bayesa = = y y e e e X X X α α rawdopodobieństwo zmiennej X przy danych wartościach zmiennych E = e jest równe Wyznaczmy w zagadnieniu włamania prawdopodobieństwo zdarzenia Wlamanie JanDzwoni=prawdaMariaDzwoni=prawda = = m j a s W m j W m j W α α Dla przypadku w = Włamanie=prawda otrzymujemy s a = s a a m a j s w a s w m j w α gdzie: j = JanDzwoni=prawda m = MariaDzwoni=prawda o przegrupowaniu składników otrzymujemy = s a a m a j s w a s w m j w α Zmienne ukryte y: a =Alarm s = Wstrzasy
14.4. Wnioskowanie ścisłe w sieci Bayesa Wyznaczenie prawdopodobieństwa dla w = Włamanie=prawda B 0.001 Włamanie B E A BE T T 0.95 T F 0.94 F T 0.29 F F 0.01 Jan Dzwoni w j m = α w Alarm A J A T 0.90 F 0.05 0.5985 a ws 0.95 E 0.002 Wstrząsy A M A T 0.70 F 0.01 Maria Dzwoni s 0.002 s s w jm = α 0.000592238 w 0.001 0.598525 0.01197 + 0.000025 a ws 0.05 + a a 0.592238 0.591041 a w s 0.94 w s j s 0.998 0.5922 0.59223 + a m a 0.00003 a w s 0.06 j a 0.90 0.63 j a 0.05 0.0005 j a 0.90 0.63 j a 0.05 0.0005 m a 0.70 0.70 m a 0.01 0.01 m a 0.70 0.70 m a 0.01 0.01
14.4. Wnioskowanie ścisłe w sieci Bayesa Wyznaczenie prawdopodobieństwa dla w = Włamanie=fałsz w j m = α w B 0.001 Włamanie B E A BE T T 0.95 T F 0.94 F T 0.29 F F 0.01 Jan Dzwoni Alarm A J A T 0.90 F 0.05 0.1827 a ws 0.29 E 0.002 Wstrząsy A M A T 0.70 F 0.01 Maria Dzwoni s 0.002 s a s w jm = α 0.001492 w 0.999 0.183055 0.000366 + 0.000355 + a ws 0.71 a 0.001493 0.001127 a w s 0.001 s 0.998 w s 0.00113 + 0.00063 j a m 0.0005 a a w s 0.999 j a 0.90 0.63 j a 0.05 0.0005 j a 0.90 0.63 j a 0.05 0.0005 m a 0.70 0.70 m a 0.01 0.01 m a 0.70 0.70 m a 0.01 0.01
14.4. Wnioskowanie ścisłe w sieci Bayesa rawdopodobieństwo zdarzenia W jm jest więc równe W j m = w j m w j m α = 1 /0.000592 + 0.001492 = W j m = α 0.000592 α 0.001492 479.8245 = 479.8245 0.000592 0.001492 = 0.284 0.716 Oznacza to Ŝe e prawdopodobieństwo włamania gdy dzwonią oboje sąsiedzi wynosi ok. 28% Wady wnioskowania ścisłego w sieciach Bayesa: Składniki wyraŝenia dla prawdopodobieństwa są obliczane wielokrotnie np. j am a czy j am a. ZłoŜoność obliczeniowa dla sieci z n zmiennymi boolowskimi jest wykładnicza - O2 n ale jest niŝsza niŝ w przypadku ogólnym w którym jest równa On 2 n. =
14.5. Wnioskowanie przybliŝone w sieci Bayesa Ze względu na wielką złoŝoność obliczeniową wyznaczania prawdopodobieństwa na podstawie sieci Bayesa w praktyce stosuje się najczęściej wnioskowania przybliŝone. Algorytm Monte Carlo próbkowania zmiennych losowych Idea: przy duŝej liczbie próbkowań prawdopodobieństwo określone jako liczba próbek danej wartości zmiennej w stosunku do liczby wszystkich próbkowań dąŝy do wartości dokładnej N x x = lim N N rzykład: rzut monetą Moneta = orzeł reszka prawdopodobieństwo ścisłe Moneta = 0.5 0.5 zaś przybliŝone N orzeł N reszka N orzeł N reszka N N rzykład: kolejne rzuty monetą prowadzą do oszacowań: N reszka = { 0.00.30.40.550.430.49...}
14.5. Wnioskowanie przybliŝone w sieci Bayesa róbkowanie losowe w sieci Bayesa. Zasada: próbkowanie kaŝdej zmiennej w kolejności określonej przez sieć. rzykład: sieć Bayesa dla problemu mokrej trawy uporządkowana następująco: [ Chmury Zraszacz Deszcz MokraTrawa ] C=0.5 Chmury C Z t f 0.10 0.90 Zraszacz Deszcz C t f D 0.80 0.20 MokraTrawa Z D M t t t f f t f f 0.99 0.90 0.90 0.00
14.5. Wnioskowanie przybliŝone w sieci Bayesa rzykład próbkowania w sieci Bayesa 1. Chmury = 0.5 0.5. róbkowanie: prawda; 2. Zraszacz Chmury=prawda = 0.1 0.9 róbkowanie: fałsz; 3. Deszcz Chmury=prawda = 0.8 0.2 róbkowanie: prawda; 4. MokraTrawa Zraszacz=fałszDeszcz=prawda = 0.90.1 róbkowanie: prawda; róbkowanie zwróciło więc zdarzenie zgodne z siecią Z 1 = [prawdafałszprawda prawda]. Kolejne próbkowanie moŝe zwrócić inne zdarzenie np. Z 2 = [prawda prawdafałsz prawda]. Z sieci Bayesa wynika Ŝe prawdopodobieństwo S S x 1...x n wybranej próbki [x 1...x n ] wynosi S S n x1... x = x rodzice X n i= 1 i jest równe prawdopodobieństwu zdarzenia reprezentowanego przez sieć Bayesa S S x... xn = x1... x 1 n i i
14.5. Wnioskowanie przybliŝone w sieci Bayesa JeŜeli N S x 1...x n jest liczbą wylosowań próbki [x 1...x n ] to N S x1... xn lim = SS x1... xn = x1... x N N W przykładzie mokrej trawy prawdopodobieństwa zdarzeń wylosowanych z sieci Bayesa wynoszą S S Z 1 = 0.5 0.9 0.8 0.9 = 0.324 S S Z 2 = 0.5 0.1 0.2 0.9 = 0.009. rzy duŝej liczbie próbkowań N zdarzenie Z 1 będzie wybrane w 32.4% zaś zdarzenie Z 2 - tylko w 0.9% przypadków. Koszt C wnioskowania przybliŝonego w sieciach Bayesa jest zazwyczaj duŝo niŝszy niŝ koszt wnioskowania ścisłego C << O2 n Istnieją równieŝ inne metody wnioskowania przybliŝonego w sieciach Bayesa np. metoda Monte Carlo dla łańcucha Markowa Markov chain Monte Carlo. n
UŜyteczność sieci Bayesa Sieci Bayesa stanowią wygodną formę reprezentacji zaleŝności zdarzeń. ozwalają teŝ znacznie zredukować rozmiar reprezentacji a takŝe koszt wnioskowania stochastycznego. Wnioskowanie przybliŝone w sieciach Bayesa cechuje się niskim kosztem przy zadowalających dokładnościach uzyskiwanych rozkładów prawdopodobieństw. Sieci Bayesa są równieŝ wykorzystywane do opisu dynamicznych zjawisk stochastycznych stanowiąc podstawę filtru Kalmana.
14.7. Inne metody wnioskowania probabilistycznego odejście stochastyczne jest szeroko stosowane w wielu dziedzinach wiedzy i praktyki: w fizyce genetyce ekonomii ubezpieczeniach bankowości... W sztucznej inteligencji podejście probabilistyczne jest uŝywane dopiero od lat 70. XX wieku głównie w systemach ekspertowych. owodem był wykładniczy koszt wnioskowania wcześniej nie znano algorytmów dla sieci Bayesa. Dlatego do wnioskowania w warunkach niepewności stosowano podejścia alternatywne takie jak: wnioskowanie domyślne reprezentacja niepewności za pomocą reguł reprezentacja ignorancji teoria Dempstera-Shafera reprezentacja nieprecyzyjności za pomocą logiki rozmytej. anuje przekonanie Ŝe wnioskowanie stochastyczne jest bardziej uniwersalne niŝ powyŝsze wnioskowania alternatywne.
14.7. Inne metody wnioskowania probabilistycznego Metody wnioskowania oparte na regułach Metody wnioskowania wykorzystujące reguły są oparte na logice zdań lub logice pierwszego rzędu. Wnioskowanie logiczne jest uzupełnione czynnikiem określającym stopień wiarygodności fudge factor np. A 25 0.3 zapewni dojazd na czas; Uwzględnienie stopnia wiarygodności umoŝliwia sterowanie wnioskowaniem logicznym. Jednak z podejściem takim wiąŝą się trudności. rzykład Czy mokra trawa jest wynikiem deszczu czy teŝ włączenia zraszacza? Zraszacz 0.99 MokraTrawa; MokraTrawa 0.7 Deszcz; Zraszacz MokraTrawa Deszcz roblem: czy zraszacz powoduje deszcz? Mimo takich problemów wnioskowanie z czynnikiem pewności jest stosowane z powodzeniem w wielu systemach ekspertowych np. MYCIN.
14.7. Inne metody wnioskowania probabilistycznego Teoria Dempstera-Shafera reprezentacji ignorancji Teoria Dempstera-Shafera opisuje róŝnice pomiędzy niepewnością a ignorancją. Funkcja wiarygodności BelX opisuje prawdopodobieństwo tego Ŝe obserwacje potwierdzają twierdzenie X. rzykład Dla zdarzenia Reszka przy rzucie niepewną monetą i przy braku obserwacji zarówno BelReszka=0 jak i Bel Reszka=0. JeŜeli stwierdzi się z 90% pewnością Ŝe moneta jest dobra Reszka=0.5 to BelReszka = 0.9 0.5 = 0.45; podobnie Bel Reszka = 0.45. Istniejąca 10% luka wyraŝa niepewność co do jakości monety. Reguła Dempstera określa sposób wyznaczania wartości funkcji Bel na podstawie obserwacji. Teoria Dempstera-Shafera definiuje przedziały prawdopodobieństwa np. dla wyrzucenia reszki przedział prawdopodobieństwa wynosi [01] przed weryfikacją monety zaś po jej weryfikacji [0.450.55].
14.7. Inne metody wnioskowania probabilistycznego Logika rozmyta i reprezentacja nieprecyzyjności Teoria zbiorów rozmytych określa nieprecyzyjność twierdzeń. rzykład Czy zdanie Jan jest wysoki wzrost 175cm jest prawdziwe? Najczęstsza odpowiedź: Jan jest wysoki w pewnym stopniu. UWAGA! Nieprecyzyjność nie jest niepewnością wzrost Jana jest znany. Teoria zbiorów rozmytych określa stopień prawdziwości twierdzeń np. WysokiJan [01] zamiast WysokiJan=fałsz. Stopień prawdziwości opisuje zazwyczaj rozkład typu probit 1.0 Wysoki 0.0 1.0 1.5 2.0 m 2.5
14.7. Inne metody wnioskowania probabilistycznego Logika rozmyta i reprezentacja nieprecyzyjności Logika rozmyta umoŝliwia wnioskowanie z wyraŝeniami logicznymi określonymi w zbiorach rozmytych. Miara prawdziwości T określona jest regułami: TA B = min TA TB TA B = max TA TB T A = 1 TA. TWysokiJan = 0.6 TCięŜkiJan = 0.4. TWysokiJan CięŜkiJan = 0.4 OK. ale TWysokiJan WysokiJan = 0.4??? Sterowanie rozmyte słuŝy do syntezy sterowania przy uŝyciu reguł rozmytych. Sterowanie rozmyte jest szeroko stosowane w wielu urządzeniach np.: pralkach kamerach wideo sprzęcie AGD.
odsumowanie Sieci Bayesa stanowią naturalną reprezentację niezaleŝności warunkowej określanej przyczynowo. Topologia sieci i tablice prawdopodobieństwa warunkowego CT pozwalają na zwartą reprezentację rozkładu łącznego prawdopodobieństwa. Wnioskowanie ścisłe w sieci Bayesa jest kosztowne ~O2 n. Wnioskowanie przybliŝone za pomocą próbkowania zdarzeń pozwala obniŝyć koszt obliczeń przy zachowaniu akceptowalnej dokładności. Sieci Bayesa są szczególnie przydane i łatwe do zastosowania w systemach ekspertowych. Istnieją inne sposoby uwzględniania niepewności: reguły niepewności reprezentacja ignorancji logika rozmyta.