Motywacja Wiedza o świecie jak a posiada agent inteligentny jest z konieczności niepe lna i niepewna. Nawet w przypadkach kiedy móg lby on zdobyć wiedz e kompletn a i pewn a, może to być niepraktyczne. W sztucznej inteligencji od dawna próbowano budować mechanizmy i formalizmy pozwalaj ace wnioskować i dzia lać w takich warunkach, poprzez dodanie oszacowania wiarygodności posiadanych faktów do wnioskowania logicznego. Przyk ladami mog a być: logiki modalne, logika trójwartościowa, logiki niemonotoniczne, logika rozmyta, logika probabilistyczna, i inne. Praktyczne zastosowania tych metod okazuj a si e jednak ograniczone. Dopiero stosunkowo niedawno wzros lo zainteresowanie wykorzystaniem prawdopodobieństwa w sposób bezpośredni. To podejście przynios lo duży sukces, i metody oparte na reprezentowaniu wiedzy agenta o świecie w postaci prawdopodobieństw sa jednymi z najbardziej dynamicznie rozwijaj acych si e technik sztucznej inteligencji. W tym schemacie reprezentacji metod a wnioskowania jest matematyczny rachunek prawdopodobieństwa. Przegl ad poj eć z prawdopodobieństwa motywacja 1 Prawdopodobieństwo bezwarunkowe Prawdopodobieństwo bezwarunkowe (a priori) określa liczbowo szans e wyst apienia jakiegoś zjawiska, gdy nie sa znane żadne okoliczności zwi azane z tym zjawiskiem (np. czy ono w rzeczywistości si e wydarzy lo). Graficzna wizualizacja zdarzeń i ich prawdopodobieństw: A A P(A) = powierzchnia kó lka P( A) = dope lnienie do prostok ata powierzchnia prostok ata = 1 Np.: prawdopodobieństwo, że zg laszaj acy si e do lekarza pacjent jest chory na nietypowe zapalenie p luc SARS (Severe Acute Respiratory Syndrome, zwane również nietypowym zapaleniem p luc) może wynosić P(SARS) = 0.0001 Jednak gdyby lekarz wiedzia l, że pacjent w laśnie przyjecha l z Hong-Kongu 1 i ma typowe objawy nietypowego zapalenia p luc, to prawdopodobieństwo posiadania przez niego choroby wywo lanej tym wirusem należa loby określić zupe lnie inaczej. 1 Wyjaśnienie: ten przyk lad powsta l w roku 2003 kiedy w Chinach szala la epidemia SARS. Przegl ad poj eć z prawdopodobieństwa prawdopodobieństwo bezwarunkowe 2 Aksjomaty prawdopodobieństwa 0 P(A) 1 P(True) = 1 P(False) = 0 P(A B) = P(A)+P(B) P(A B) P(A B) P(A B) P(B) P(A) P(True) Przegl ad poj eć z prawdopodobieństwa prawdopodobieństwo bezwarunkowe 3 Wi ecej o aksjomatach prawdopodobieństwa Z danych aksjomatów można wyprowadzić wiele użytecznych zależności: P( A) = 1 P(A) (1) P(A) = P(A B)+P(A B) (2) (i inne). Aksjomaty prawdopodobieństwa maj a g l eboki sens ścis le trzymanie si e ich gwarantuje niepope lnienie b l edu w obstawianiu swoich szans. Inaczej mówi ac, gdyby w jakiejś grze losowej agent zastosowa l w swoim rozumowaniu prawdopodobieństwa naruszaj ace te aksjomaty, i gotów by l przyjmować zak lady zgodne z tymi prawdopodobieństwami, to istnieje strategia obstawiania w tych zak ladach, gwarantuj aca wygran a jego przeciwnikowi. Przegl ad poj eć z prawdopodobieństwa prawdopodobieństwo bezwarunkowe 4
Zmienne losowe Zmienna losowa reprezentuje jakieś zjawisko losowe, które może przyjmować wartości z pewnego zbioru (dziedziny zmiennej losowej). Np.: chc ac określić jaka b edzie dziś pogoda i z jakim prawdopodobieństwem, możemy potraktować dzisiejsz a pogod e (Pogoda DZI Ś) jako zmienn a losow a, której wartości należ a do zbioru: {S lońce,chmury,deszcz,śnieg} Zestaw wartości prawdopodobieństw wszystkich możliwych wartości zmiennej losowej nazywamy rozk ladem prawdopodobieństwa tej zmiennej losowej. Rozk lad prawdopodobieństwa dla zmiennej losowej Pogoda DZI Ś można zapisać: P(Pogoda DZIŚ ) = {0.8,0.1,0.09,0.01} Przegl ad poj eć z prawdopodobieństwa zmienne losowe 5 L aczny rozk lad prawdopodobieństw Możemy brać pod uwag e kilka zmiennych losowych opisuj acych różne zjawiska losowe. Zdarzeniem atomowym nazywamy przypisanie wartości wszystkim zmiennym losowym, czyli kombinacja tych wartości. Na przyk lad, dla dwóch zmiennych losowych X i Y można skonstruować tabel e zdarzeń atomowych: Y = y1 Y = y2... Y = yk X = x1 X = x2... X = xn L aczny rozk lad prawdopodobieństwa (JPD) dla zbioru zmiennych losowych jest tabel a prawdopodobieństw wszystkich zdarzeń atomowych. W polu tabeli w rz edzie j i kolumnie i znajduje si e prawdopodobieństwo jednoczesnego przyj ecia przez zmienn a X wartości xi i przez zmienn a Y wartości yj, czyli P(X = xi Y = yj). Sumuj ac w tej tabeli wzd luż rz edów lub kolumn możemy otrzymać prawdopodobieństwa dla poszczególnych wartości pojedynczych zmiennych. Suma wszystkich prawdopodobieństw ca lej tabeli daje 1.0. Przegl ad poj eć z prawdopodobieństwa zmienne losowe 6 Pos lugiwanie si e tabel a JPD Maj ac wype lnion a tabel e JPD możemy obliczać prawdopodobieństwa dowolnych zdarzeń. Na przyk lad: Prawdopodobieństwo zdarzenia polegaj acego na przyj eciu przez zmienn a X wartości xi P(X = xi) możemy obliczyć przez zsumowanie wszystkich wartości w kolumnie i tabeli JPD. Prawdopodobieństwo zdarzenia polegaj acego na tym, że zmienna X przyjmie wartość xi lub że zmienna Y przyjmie wartość yj możemy obliczyć przez zsumowanie wszystkich wartości w kolumnie i i rz edzie j tabeli JPD, licz ac zawartość pola (i,j) tabeli tylko raz. Jak widać wynik b edzie dok ladnie ten sam, jak gdyby obliczać z tabeli wartości wed lug wzoru: P(A B) = P(A)+P(B) P(A B) Jednak aby w ten sposób pos lugiwać si e prawdopodobieństwami musimy obliczyć prawdopodobieństwa wszystkich zdarzeń atomowych, i kompletnie wype lnić tabel e JPD, co może być kosztowne. Przegl ad poj eć z prawdopodobieństwa zmienne losowe 7 Obliczanie prawdopodobieństw atomowych Sk ad pochodz a dane o prawdopodobieństwach? Można je zgromadzić statystycznie, można dokonać analizy i obliczyć jako inherentne cechy zjawiska fizycznego, można również zwi azać te prawdopodobieństwa z agentem, charakteryzuj ac jego punkt widzenia na świat. Na przyk lad, jakie jest prawdopodobieństwo zdarzenia, że s lońce b edzie istnia lo jutro? Można próbować to obliczyć na wiele sposobów, przyjmuj ac różne punkty widzenia: nie da si e określić, bo nie sposób przeprowadzić niezb ednych eksperymentów, poprzednie podobne eksperymenty dowodz a, że s lońce zawsze istnieje, wi ec prawdopodobieństwo wynosi 1, prawdopodobieństwo wynosi 1 ǫ gdzie ǫ jest prawdopodobieństwem wybuchu gwiazdy danego dnia, prawdopodobieństwo wynosi d/(d+1) gdzie d jest liczb a dni dotychczasowego istnienia s lońca, prawdopodobieństwo można określić buduj ac model istnienia i rozpadu s lońca na podstawie zachowania innych, podobnych gwiazd. Przegl ad poj eć z prawdopodobieństwa zmienne losowe 8
Prawdopodobieństwo warunkowe Prawdopodobieństwo warunkowe (a posteriori) P(A B) prawdopodobieństwo zdarzenia A obliczane tylko w sytuacjach, w których B jest spe lnione. Jest zwi azane z bezwarunkowym wzorem: P(A B) = P(A B) P(B) (3) Wzór ten można wyt lumaczyć nast epuj aco: aby obliczyć prawdopodobieństwo P(A B) musimy wzi ać u lamek przypadków zdarzenia A B we wszystkich przypadkach zdarzenia B. P(A B) P(B) P(A) Przegl ad poj eć z prawdopodobieństwa prawdopodobieństwo warunkowe 9 Inne wyt lumaczenie można przedstawić na podstawie wzoru odwróconego: P(A B) = P(A B)P(B) (4) Aby obliczyć P(A B) musimy wiedzieć, że nast api lo B, i wiedz ac to, wtedy obliczyć prawdopodobieństwo A. (Albo na odwrót.) Ważny, cz esto przydatny wzór wi aż acy bezwarunkowe prawdopodobieństwo zdarzenia z warunkowym otrzymujemy z po l aczenia wzorów (2, str.4) i (4): P(A) = P(A B)P(B)+P(A B)P( B) (5) Należy podkreślić, że prawdopodobieństwo warunkowe dla ustalonego warunku spe lnia wszystkie aksjomaty prawdopodobieństwa, a zatem posiada wszystkie w lasności prawdopodobieństwa bezwarunkowego, na przyk lad: P(A B)+P( A B) = 1 (6) Przegl ad poj eć z prawdopodobieństwa prawdopodobieństwo warunkowe 10 Dlaczego prawdopodobieństwo warunkowe? Rozważmy klasyczn a zagadk e, znan a jako Monty Hall problem (1975): Bierzemy udzia l w grze telewizyjnej. Mamy wybrać jedne z trojga drzwi, gdzie za jednymi z nich stoi samochód do wygrania. Nie posiadamy żadnych dodatkowych informacji, wi ec wybieramy np. drzwi numer 1. Wtedy prowadz acy gr e otwiera jedne z pozosta lych dwojga drzwi za lóżmy, że sa to drzwi numer 3 za którymi jest pusto, i daje nam możliwość zmiany pierwotnego wyboru, lub pozostania przy swoim. Co powinniśmy zrobić, żeby zmaksymalizować szans e wygrania auta? Pierwotne prawdopodobieństwo wygranej wynosi lo 1/3. Po otwarciu drzwi nr 3 musimy uznać, że wzros lo, tylko pytanie o ile? Możnaby przyj ać, że teraz gra jakby zaczyna si e od nowa, mamy tylko dwoje drzwi do wyboru, i prawdopodobieństwo wygranej by loby równe 1/2. Ale można też przyj ać inny punkt widzenia, że prowadz acy, wiedz ac gdzie stoi samochód, otworzy l inne drzwi, w ten sposób przekazuj ac nam cz eść swojej wiedzy. Prawdopodobieństwo, że wygrana jest za drzwiami nr 2 lub 3 wynosi lo 2/3, i teraz nadal tyle wynosi, ponieważ wynika to z losowego jej rozmieszczenia. Tylko my teraz wiemy, których z drzwi 2 lub 3 nie należy wybierać. Przegl ad poj eć z prawdopodobieństwa prawdopodobieństwo warunkowe 11 Który z powyższych punktów widzenia jest s luszny? Czy to jest tylko kwestia naszego subiektywnego wyboru który punkt widzenia przyjmiemy? Otóż nie, jest to rzecz najzupe lniej obiektywna. Można przeprowadzić seri e eksperymentów, i obliczyć prawdopodobieństwo znalezienia samochodu za drzwiami pierwotnie wybranymi, i za tymi drugimi. Obliczona wartość prawdopodobieństwa może potwierdzić s luszność jednego możliwych wyjaśnień. 2 Musimy pos lugiwać si e prawdopodobieństwem warunkowym, ilekroć chcemy wyliczyć prawdopodobieństwo jakiegoś zdarzenia w sytuacji, gdy posiadamy jak aś wiedz e o innych, być może zależnych zdarzeniach. P(A) jest poprawnym prawdopodobieństwem zdarzenia A o ile nie posiadamy żadnej wiedzy. Jeśli jednak wiemy, że B, to poprawnym prawdopodobieństwem zdarzenia A jest P(A B), a gdybyśmy dowiedzieli si e, że jeszcze C, to musimy już pos lugiwać si e prawdopodobieństwem P(A B C). W ten sposób możemy uważać, że prawdopodobieństwo bezwarunkowe P(A) jest prawdopodobieństwem warunkowym P(A ) w sytuacji, gdy nie posiadamy żadnej wiedzy. Prawdopodobieństwa warunkowe można obliczać z tablicy l acznego rozk ladu prawdopodobieństwa JPD za pomoc a wzoru (3). Jednak nie tak si e zwykle robi. 2 Oczywiście s luszne jest drugie wyjaśnienie, i zmiana wyboru na drzwi nr 2 zwi eksza szanse wygranej do 2/3. Przegl ad poj eć z prawdopodobieństwa prawdopodobieństwo warunkowe 12
Regu la Bayesa Z dwukrotnego zastosowania wzoru (3) możemy uzyskać nast epuj ac a prost a zależność, zwan a regu l a Bayesa, b ed ac a podstaw a wielu procesów wnioskowania probabilistycznego: P(B A) = P(A B)P(B) P(A) (7) Dlaczego ta regu la ma znaczenie? Wróćmy do przyk ladu z pacjentem z objawami SARS, niezwykle groźnej choroby. Za lóżmy, że u pacjenta przeprowadzono test na obecność wirusa, i wypad l on pozytywnie. Czy pacjenta należy koniecznie hospitalizować i rozpocz ać leczenie? Okazuje si e, że to zależy! Przeprowadzony test nigdy nie jest ca lkowicie niezawodny. Jeśli jest dobry, to zapewnia wysokie prawdopodobieństwo wyniku pozytywnego (potwierdzaj acego obecność wirusa) w przypadkach, kiedy wirus rzeczywiście jest obecny. Równie ważne okazuje si e wymaganie, żeby test z wysokim prawdopodobieństwem dawa l wynik negatywny w przypadkach braku wirusa. Czyli test zapewnia odpowiednio wysok a wartość P(T SARS) jak również P(T SARS). Jednak to co interesuje lekarza, a przede wszystkim jego pacjenta, to jest wartość P(SARS T ) albo P( SARS T ). Przegl ad poj eć z prawdopodobieństwa regu la Bayesa 13 Regu la Bayesa przyk lad Jak widać, aby na podstawie przeprowadzonego badania próbki krwi wnioskować o prawdopodobieństwie choroby, konieczne jest odwrócenie warunków prawdopodobieństwa warunkowego, czyli w laśnie skorzystanie z regu ly Bayesa. Za lóżmy, że test na SARS daje wynik pozytywny w 95% przypadków obecności wirusa. W przypadku braku wirusa, test daje wynik negatywny (tzn. prawid lowy) w 90% przypadków. Wiadomo, że wirus wyst epuje u 0.01% ogó lu ludności. P(SARS) = 0.0001 P(T SARS) = 0.95 P(T SARS) = 0.90 Rozważmy pacjenta, dla którego test da l wynik pozytywny. Jakie jest prawdopodobieństwo, że pacjent ma SARS? Musimy obliczyć P(SARS T )! Przegl ad poj eć z prawdopodobieństwa regu la Bayesa 14 P(SARS T ) = P(T SARS)P(SARS) P(T ) brakuje nam wartości P(T ), któr a możemy wyliczyć z wzoru (5, str.10): P(T ) = P(T SARS)P(SARS)+P(T SARS)P( SARS) P(T ) = 0.95 0.0001+0.10 0.9999 P(T ) = 0.000095+0.09999 P(T ) = 0.100085 i w końcu obliczamy interesuj ac a wartość: P(SARS T ) = 0.95 0.0001 0.100085 P(SARS T ) = 0.00094919 czyli poniżej jednego promila! Prawie dziesi eć razy powyżej przeci etnej, ale czy dosyć aby rozpocz ać być może kosztown a i nieoboj etn a dla zdrowia terapi e?? Przegl ad poj eć z prawdopodobieństwa regu la Bayesa 15 Widać, że posiadaj ac wiedz e przyczynowo-skutkow a o mechanizmach choroby i wynikach testów, możemy obliczać interesuj ace nas prawdopodobieństwa diagnostyczne. Może nasuwać si e pytanie, dlaczego trzeba te prawdopodobieństwa każdorazowo obliczać; czemu producent testu podaje wartości P(T SARS) i P(T SARS), zamiast od razu wygodnie wyliczyć potrzebn a użytkownikowi testu wartość P(SARS T )? Odpowiedź wynika z latwiejszej dost epności danych przyczynowych niż diagnostycznych, których określanie może być z lożone. Na przyk lad, gdyby wyst api l nag ly wzrost zachorowań na SARS (epidemia Epi), to wartość P(SARS) gwa ltownie by wzros la, a za ni a również P(SARS T ). Jednak wartość P(T SARS) powinna pozostać bez zmian, ponieważ odzwierciedla ona jedynie fizjologi e choroby i dzia lanie testu. Zatem wcześniejsze obliczenia pozostan a s luszne, po uwzgl ednieniu zwi ekszonej wartości P(SARS). 3 3 Zmianie ulegnie wtedy również wartość P(T ) obliczane jako P(T Epi), jednak możemy j a obliczyć: P(T Epi) = P(T SARS,Epi)P(SARS Epi) + P(T SARS,Epi)(1 P(SARS Epi)) Przegl ad poj eć z prawdopodobieństwa regu la Bayesa 16
Regu la Bayesa niezależność warunków Powróćmy do naszego pacjenta, z pozytywnym wynikiem testu SARS. Być może otrzymana wartość prawdopodobieństwa nie jest wystarczaj aca do definitywnego stwierdzenia choroby, i zakwalifikowania pacjenta na leczenie. Wyobraźmy sobie, że istnieje drugi test o innych charakterystykach, i oczywiście o innym rozk ladzie prawdopodobieństw. Jeśli potraktujemy ten drugi test jako trzeci a zmienn a losow a, to po uzyskaniu jego wyniku musimy obliczać prawdopodobieństwo SARS jako uwarunkowane wynikami obu testów. W ogólnym przypadku wzór na P(SARS Test 1 Test 2) b edzie uwzgl ednia l zależności pomi edzy wynikami obu testów. To oznacza konieczność obliczania, w przypadku wielu zmiennych losowych, dużej liczby prawdopodobieństw, co teoretycznie niweczy zalety użycia prawdopodobieństwa warunkowego zamiast JPD. Ważnym elementem jest zauważenie, że wyniki obu testów zależ a tylko od wyst epowania wirusa, a nie od siebie nawzajem. Po uwzgl ednieniu tej obserwacji upraszczaj a si e wzory, i potrzebne jest tylko wyliczenie prawdopodobieństw warunkowych wyników poszczególnych testów. SARS T1 T2 Przegl ad poj eć z prawdopodobieństwa regu la Bayesa 17 P(SARS T 1,T 2 ) = P(SARS T 1 T 2 ) P(T 1 T 2 ) = P(T 1 T 2 SARS)P(SARS) P(T 1 T 2 ) = P(T 1 SARS)P(T 2 SARS)P(SARS) P(T 1 )P(T 2 ) Gdyby oba testy mia ly identyczne charakterystyki jak w obliczonym wcześniej przyk ladzie, to otrzymany pozytywny wynik z obu testów wskazywa lby na prawdopodobieństwo choroby równe 0.009025, czyli już prawie 100 razy wi eksze niż przy braku informacji. Przegl ad poj eć z prawdopodobieństwa regu la Bayesa 18 Sieci przekonań L aczny rozk lad prawdopodobieństwa pozwala znajdować odpowiedzi na pytania dotycz ace dziedziny problemowej, lecz trudno si e nim pos lugiwać przy wielu zmiennych. Ponadto, określanie prawdopodobieństw dla zdarzeń atomowych może wymagać przeprowadzenia kompleksowych badań statystycznych. Jak wynika z przedstawionego przyk ladu z wirusem SARS, można zbudować graf przedstawiaj acy rzeczywiste zależności mi edzy zmiennymi losowymi, i po wyznaczeniu ich prawdopodobieństw warunkowych efektywnie obliczać prawdopodobieństwa innych zdarzeń. Ściślej, sieci a przekonań (belief network, Bayesian network, probabilistic network) nazywamy nast epuj acy graf: w ez lami sieci s a zmienne losowe, luki sieci sa skierowane, i luk X Y ma intuicyjne znaczenie: zmienna X ma bezpośredni wp lyw na Y, każdy w eze l X ma zwi azan a z nim tablic e prawdopodobieństw warunkowych określaj acych wp lyw wywierany na X przez jego rodziców (poprzedników w grafie), sieć nie może mieć cykli (skierowanych). Budowa sieci polega na wyznaczeniu jej topologii, oraz prawdopodobieństw warunkowych dla w ez lów, dla których istniej a bezpośrednie zależności. Probabilistyczne sieci przekonań koncepcja 19 Idea sieci przekonań zasadza si e na wzgl ednej latwości, z jak a możemy wyznaczać prawdopodobieństwa tych bezpośrednich zależności. Prawdopodobieństwa innych zdarzeń b edziemy wyznaczać już z gotowej sieci. Probabilistyczne sieci przekonań koncepcja 20
Sieci przekonań przyk lad Przyk lad: system alarmowy w mieszkaniu, reaguje na w lamania oraz, niestety, również na drobne trz esienia (ziemi). S asiedzi John i Mary s a umówieni, żeby zadzwonić do w laściciela gdy us lysz a alarm. John jest nadgorliwy i bierze różne zdarzenia (np. dzwonek telefonu) za sygna l alarmowy (i wtedy zawsze dzwoni). Mary rozpoznaje alarm poprawnie, lecz cz esto s lucha g lośnej muzyki i może go w ogóle nie dos lyszeć. B edzie nas interesować określenie prawdopodobieństwa tego, że w razie w lamania ktoś zadzwoni, żeby nas zawiadomić, jak również tego, że zawiadomienie o w lamaniu może być fa lszywe. Burglary Earthquake Alarm JohnCalls MaryCalls Probabilistyczne sieci przekonań koncepcja 21 Zauważmy, że ignorujemy tutaj wiele istotnych czynników, np. to czy Mary s lucha w danej chwili muzyk e czy nie, ponieważ to może być niemożliwe do ustalenia, i reprezentujemy ca l a niepewność i nieokreśloność sytuacji w prawdopodobieństwach warunkowych danych zmiennych losowych. Ogólnie, musimy określić prawdopodobieństwa warunkowe dla zmiennych losowych w zależności od innych zmiennych, które s a reprezentowane w naszej sieci. Konkretnie, musimy określić prawdopodobieństwa warunkowe dla każdej wartości zmiennej losowej X dla wszystkich kombinacji wartości zmiennych losowych, od których zmienna X zależy. Burglary Earthquake P(Alarm Burglary,Earthquake) (w lamanie) (trz.ziemi) True False True True 0.950 0.050 True False 0.940 0.060 False True 0.290 0.710 False False 0.001 0.999 Probabilistyczne sieci przekonań koncepcja 22 Zestaw takich prawdopodobieństw tworzy tablic e prawdopodobieństw warunkowych CPT (conditional probability table). Dla zmiennych, które nie zależ a od niczego musimy określić prawdopodobieństwa a priori. W takim przypadku tabela CPT ma tylko jeden rz ad z wartościami prawdopodobieństw dla możliwych wartości zmiennej losowej (sumuj acymi si e do 1.0). Kompletna sieć przekonań dla przyk ladu z systemem alarmowym: P(B) Burglary.001 Earthquake P(E).002 B T T F F E T F T F P(A B,E).95.94.29.001 Alarm JohnCalls A P(J A) A P(M A) T F.90 MaryCalls T F.05.70.01 Probabilistyczne sieci przekonań koncepcja 23 Przyk ladowa sieć w systemie JavaBayes Probabilistyczne sieci przekonań koncepcja 24
Konstrukcja sieci przekonań Można widzieć sieć przekonań jako pewn a reprezentacj e l acznego rozk ladu prawdopodobieństw zmiennych losowych. Ten rozk lad jest tabel a określaj ac a pojedyncze prawdopodobieństwa zdarzeń typu P(X1 = x1,..., Xn = xn). W skrócie zapisujemy to prawdopodobieństwo jako: P(x1,...,xn). Korzystaj ac z faktu, że prawdopodobieństwo koniunkcji możemy wyrazić przez iloczyn prawdopodobieństw warunkowych przez prawdopodobieństwa zależności (wzór (3) na stronie 9), mamy: P(x1,...,xn) = n i=1 P(xi Poprzedniki(Xi)) (8) Zatem każda pozycja w tablicy prawdopodobieństwa l acznego jest iloczynem odpowiednich elementów w tablicy CPT, czyli CPT jest elementarn a reprezentacj a l acznego rozk ladu prawdopodobieństwa JPD. Probabilistyczne sieci przekonań konstrukcja 25 Dla poprzedniego przyk ladu, obliczmy prawdopodobieństwo, że rozleg l si e alarm, przy czym nie wyst api lo ani trz esienie ziemi ani w lamanie, ale oboje John i Mary zadzwonili. P(J M A B E) = P(J A)P(M A)P(A B E)P( B)P( E) = 0.90 0.70 0.001 0.999 0.998 = 0.00062 W ten sposób można odpowiadać na dowolne zapytania wyliczaj ac pozycje l acznego rozk ladu prawdopodobieństwa, np. przez wyliczenie ca lej tabeli JPD (joint probability distribution), z tabeli CPT. Jednak jeśli mamy wiele zmiennych to ta metoda jest bardzo pracoch lonna i istniej a bardziej bezpośrednie i efektywne metody. Probabilistyczne sieci przekonań konstrukcja 26 Algorytm budowy sieci przekonań Otrzymany wzór na prawdopodobieństwo l aczne można w ogólności przedstawić w nast epuj acy sposób: P(x1,...,xn) = P(xn xn 1,...,x1)P(xn 1,...,x1) =... = P(xn xn 1,...,x1) P(x2 x1)p(x1) = n i=1 P(xi xi 1,...,x1) Z porównania powyższego równania z równaniem (8) na stronie 25 możemy wyci agn ać wniosek, że: P(Xi Xi 1,...,X1) = P(Xi Poprzedniki(Xi)) (9) o ile tylko Poprzedniki(Xi) {xi 1,..., x1} Ostatni a zależność latwo jest osi agn ać numeruj ac zmienne losowe zgodnie z cz eściowym porz adkiem określonym przez luki na sieci. Probabilistyczne sieci przekonań konstrukcja 27 Te wyniki można zinterpretować w ten sposób, że sieć przekonań jest poprawn a reprezentacj a dziedziny pod warunkiem, że każdy w eze l jest warunkowo niezależny od swoich (dalszych) przodków, prócz bezpośrednich rodziców. (Inaczej: ca la zależność jednej zmiennej od drugiej wyrażona jest w jawnej zależności od rodziców, inne zależności sa wtórne.) Wskazuje nam to w jaki wi ec sposób musimy konstruować sieci przekonań. Intuicyjnie, bezpośrednimi rodzicami w ez la Xi powinny być wszystkie te w ez ly X1,...,Xi 1, które bezpośrednio wp lywaj a na Xi, i żadne inne. Dla zmiennych z przedstawionego wcześniej przyk ladu, można przypuszczać, że B wp lywa na M, ale nie wp lywa bezpośrednio. Można to podsumować nast epuj aco: P(M J,A,B,E) = P(M A) Probabilistyczne sieci przekonań konstrukcja 28
Ogólny algorytm konstrukcji sieci: 1. Wybierz zbiór zmiennych losowych Xi opisuj acych dziedzin e. 2. Wybierz porz adek na tych zmiennych. 3. Dopóty, dopóki pozosta ly jeszcze zmienne: (a) Wybierz zmienn a Xi, która zależy bezpośrednio tylko do zmiennych już wybranych, i dodaj do sieci w eze l dla niej (b) Ustal Poprzedniki(Xi) jako minimalny zbiór w ez lów już umieszczonych w sieci, tak by by la spe lniona w lasność niezależności (9) na stronie 27 (c) Określ prawdopodobieństwa warunkowe dla Xi. Algorytm ten gwarantuje, że sieć nie b edzie mia la cykli, jak również, że nie b ed a określane żadne nadmiarowe wartości prawdopodobieństw, które mog lyby naruszyć aksjomaty prawdopodobieństwa (z wyj atkiem jednej dope lniaj acej liczby w każdym rz edzie). Probabilistyczne sieci przekonań konstrukcja 29 Probabilistyczne sieci przekonań konstrukcja 30 Zwartość sieci i nieoptymalne porz adki w ez lów Sieci przekonań s a zwykle w naturalny sposób zwarte, ponieważ zwykle tylko niewielka liczba zmiennych losowych, spośród być może wielkiej ich liczby, wp lywa na każd a pojedyncz a zmienn a. Na przyk lad, dla sieci o n = 20 w ez lach, w której maksymalna liczba zależności dla w ez lów wynosi k = 5, dla zmiennych binarnych tablice CPT dla w ez lów b ed a mia ly maksymalnie 2 k = 32 wartości prawdopodobieństwa do określenia, co daje dla ca lej sieci n 2 k = 640 wartości. Kompletna tablica JPD ma 2 n 1,000,000 wartości. Ta oszcz edność jest możliwa tylko wtedy, gdy zmienne maj a bezpośredni a zależność tylko od pewnej (ma lej) liczby innych zmiennych, czyli warunkow a niezależność od wi ekszości zmiennych. Gdyby zmienne w sieci mia ly zależności od wszystkich innych zmiennych to reprezentacja tych zależności w postaci sieci przekonań mia laby niewielki sens. Jednak w wi ekszości zagadnień praktycznych istnieje silna struktura problemu, któr a można w efektywny sposób wykorzystać w budowie sieci. Probabilistyczne sieci przekonań konstrukcja 31 Czasami można to osi agn ać, ignoruj ac pewne zależności o niewielkim prawdopodobieństwie (np. bezpośredni wp lyw trz esień ziemi na fakt czy sasiedzi zadzwoni a czy nie, który może być znacz acy lub nie). Wprowadza to pewn a niedok ladność w sieci, ale może znacznie uprościć jej konstrukcj e. Jednak znacznie bardziej na zwartość wp lywa poprawne określenie porz adku zmiennych. MaryCalls MaryCalls JohnCalls JohnCalls Alarm Earthquake Burglary Burglary Earthquake Alarm Powyższe przyk lady ilustruj a wyniki otrzymane z konstrukcji sieci przy niew laściwej kolejności rozpatrywania w ez lów (np. M,J,A,B,E). Probabilistyczne sieci przekonań konstrukcja 32
Wnioskowanie w sieciach przekonań przyk lad Przyk lad wnioskowania diagnostycznego: mamy sieć opisuj ac a podstawowe zjawiska towarzysz ace uruchamianiu samochodu. Stan pocz atkowy: auto nie chce odpalić. Mamy zdarzenia obserwowalne (w ez ly zielone), i zdarzenia identyfikuj ace konkluzje wnioskowania diagnostycznego (przyczyny awarii w ez ly pomarańczowe). W ez ly szare sa w ez lami wewn etrznymi, które, opisuj ac pewne zjawiska wewn etrzne i zależności, pozwalaj a zmniejszyć wielkość sieci. battery age alternator broken fanbelt broken battery dead no charging battery meter battery flat no oil no gas fuel line blocked starter broken lights oil light gas gauge car won t start dipstick Probabilistyczne sieci przekonań wnioskowanie 33 Wnioskowanie w sieciach przekonań przyk lad (2) Bardziej rozbudowany przyk lad, s luż acy do przewidywania kosztów odszkodowania (medical, liability, property), na podstawie danych z formularza ubezpieczeniowego (pozosta le niewyszarzone w ez ly). SocioEcon Age GoodStudent ExtraCar Mileage RiskAversion VehicleYear SeniorTrain DrivingSkill MakeModel DrivingHist DrivQuality Antilock Airbag CarValue HomeBase AntiTheft Ruggedness Accident Theft OwnDamage Cushioning OtherCost OwnCost MedicalCost LiabilityCost PropertyCost Probabilistyczne sieci przekonań wnioskowanie 34 Procesy wnioskowania w sieciach przekonań Maj ac skonstruowan a sieć przekonań możemy prowadzić różne procesy wnioskowania ogólnie podpadaj ace pod nast epuj acy schemat. Cz eść zmiennych losowych uznajemy za zmienne faktowe, i mamy dla nich dok ladne (pewne) wartości. Inny zbiór zmiennych uznajemy za zmienne zapytaniowe i chcemy dla nich obliczyć prawdopodobieństwo warunkowe wzgl edem zmiennych faktowych P(Zapytaniowe Faktowe). Jest naturalne, że zmiennymi faktowymi b ed a zmienne zwi azane z obserwacjami agenta, a zmiennymi zapytaniowymi zmienne istotne dla podejmowania przez agenta decyzji o jego akcjach. Jest to przyk lad wnioskowania diagnostycznego. Takie wnioskowanie nie zawsze zgodne jest z intuicjami ludzi odnośnie prawdopodobieństwa. Na przyk lad, wiedz ac, że J, chcemy obliczyć P(B J). Mylny tok rozumowania: jeśli alarm dzwoni to John prawie na pewno do nas zadzwoni, a system alarmowy jest prawie 100%-owo dok ladny, zatem P(B J) b edzie duże, prawie 90%. Jednak to wnioskowanie nie bierze pod uwag e faktu, że trz esienia ziemi też powoduj a w l aczenie si e systemu alarmowego (i telefon Johna), a sa Probabilistyczne sieci przekonań wnioskowanie 35 o wiele bardziej (50 ) prawdopodobne. W rzeczywistości, gdy policzymy dok ladnie P(B J) to otrzymamy wartość 0.016. Za lóżmy dalej, że zaraz po telefonie Johna zadzwoni la do nas Mary. Chcemy teraz obliczyć P(B J M), która to wartość wzrasta tylko do 0.29. Podobnie P(E J M) = 0.18, gdy P(A J M) = 0.76. Wnioskowanie diagnostyczne nie jest jedynym rodzajem wnioskowania. Innym rodzajem jest wnioskowanie przyczynowo-skutkowe polegaj ace na określaniu prawdopodobieństwa skutków, gdy znamy przyczyny. Na przyk lad P(J B) = 0.86, P(M B) = 0.67. Jeszcze innym rodzajem wnioskowania jest wnioskowanie mi edzyprzyczynowe, np. wiemy A, określamy najpierw P(B A) = 0.376. Jednak gdybyśmy wiedzieli równocześnie, że E, wtedy P(B A E) idzie w dó l i wynosi tylko 0.003. Pomimo, iż w lamania i trz esienia ziemi s a niezależne, wiedza o wyst apieniu jednego zmniejsza szanse wyst apienia drugiego. Jak również możliwe s a inne schematy wnioskowania, np. P(A J E) = 0.03 albo P(B J E) = 0.017. Probabilistyczne sieci przekonań wnioskowanie 36
Zastosowania sieci przekonań Poza wyliczaniem wartości przekonań o wyst apieniu pewnych faktów, sieci przekonań mog a s lużyć do innych procesów: Podejmowanie decyzji l acznie na podstawie prawdopodobieństw na sieci i innych możliwości agenta. Określanie jakie inne fakty należy poznać aby uzyskać użyteczn a informacj e. Przeprowadzenie analizy czu lości w celu określenia, które elementy modelu maj a najwi ekszy (krytyczny) wp lyw na wyniki. Wyjaśnianie i prezentacja wyników wnioskowania probabilistycznego użytkownikowi. Probabilistyczne sieci przekonań wnioskowanie 37