Zarządzanie wiedzą Wykład 9 Reprezentacja niepewności w systemach inteligentnych Probabilistyka Joanna Kołodziejczyk 13 maj 2011
Plan wykładu 1 Niepewność 2 Belief Networks 3 SE
Pochodzenie niepewności Niepewność wiedzy podstawowej np.. pewne przyczyny chorób są nieznane i nie są prezentowane w podstawach wiedzy medycznej. Niepewność działań Chcąc wykonać działanie można przedstawić warunki jego odpalenia jako relatywnie krótką listę warunków początkowych. W rzeczywistości liczba faktów do uwzględnienia jest przytłaczająco duża. Niepewność postrzegania np.. czujniki AGENTA nie podają dokładnej informacji o świecie i AGENT nigdy nie wie wszystkiego o swoim położeniu. W dodatku do czujników dociera szum.
Jak wyraża się niepewność? Wnioskowanie niemonotoniczne np.. Zakładam, że samochód nie ma dziury w oponie. W związku z tym mogę wnioskować, że dojadę do pracy. Problem w tych systemach jest określenie jakie założenia są poprawne, jak radzić sobie ze sprzecznościami powstałymi w wyniki wprowadzenia nowego założenia. Zastosowanie współczynników wiarygodności Zastosowanie w MYCIN np. reguły: zraszacz mokra trawa (cf = 0.99). Wyraża na ile wiarygodny jest fakt czy reguła w skali [-1,1].
Jak wyraża się niepewność? Prawdopodobieństwo Dobry dla systemów z danymi, w których można obliczyć prawdopodobieństwo zdarzeń. Wartości prawdopodobieństwa wykorzystuje się jako stopień przekonania (degree of belief). Logika rozmyta Wyraża w skali [0, 1] stopień prawdziwości (degree of truth) i nie powinien być mylony z intuicyjnym dla nas probabilistycznym szacowaniem przekonania.
Plan wykładu 1 Niepewność 2 Belief Networks Diagram Założenie o niezależności 3 SE
Czy to się uda? Cherniak in Bayesian Networks without Tears Nevertheless, despite what seems to be their obvious importance, the ideas and techniques have not spread much beyond the research community responsible for them. This is probably because the ideas and techniques are not that easy to understand.
Przykład Najlepszym sposobem, aby zrozumieć sieci bayesowskie jest próba zbudowania modelu sytuacji, w której przyczynowość odgrywa rolę aczkolwiek zrozumienie tego, co faktycznie się dzieje jest niekompletne, więc musimy opisać rzeczy probabilistycznie. Przykład Wracając do domu wieczorem pan X zanim do niego wejdzie chcę wiedzieć czy ktoś jest w domu (jednym ze sposobów jest np. podwójne przekręcenie zamka lub zamknięcie na dwa zamki). Żona wychodząc z domu zostawia zapalone światło nad drzwiami wejściowymi. Jednakże zapala też światło, gdy spodziewa się gości. W domu jest też pies. Gdy nie ma nikogo w domu, to pies biega przed domem za ogrodzeniem. Jednakże biega też, gdy cierpi na niestrawność. Jeżeli pies jest wypuszczony, to pan X powinien usłyszeć jego warczenie (lub coś co wydaje się być warczeniem), choć czasami może mylić się słysząc warczenie innych psów.
Diagram do przykładu Można użyć takich diagramów, by przewidzieć co się stanie (jeśli rodzina jest poza domem, pies jest wypuszczony) lub wyprowadzić z przyczyn obserwowane efekty (jeśli świeci się światło i pies jest wypuszczony, to rodzina jest poza domem).
Istotne cechy przykładu 1 Związki przyczynowe nie są bezwzględne. Bywa, że wszyscy wyjdą z domu i nie zostawią zapalonego światła lub nie wypuszczą psa. 2 W takich wypadkach można skorzystać z diagramu mimo wszystko, choć dowody wskazują na różne konkluzje. Czy powinno się domniemywać, że nikogo nie ma w domu, gdy światło jest zapalone, ale nie słychać psa? A co w przypadku, gdy słychać psa, ale światło jest zgaszone? 3 Jeżeli znane będą odpowiednie prawdopodobieństwa warunkowe, np. P(fo lo, hb), to wszystko będzie dane. 4 Nie zawsze będzie można uzyskać prawdopodobieństwa dla wszystkich możliwych kombinacji okoliczności. 5 Sieci bayesowskie pozwalają na ich obliczanie z małego zestawu prawdopodobieństw, odnoszących się jedynie sąsiednich węzłów.
Sieci Bayesowskie Belief networks Sieci bayesowskie Bayesian networks lub sieci probabilistyczne, sieci przyczynowe czy mapy wiedzy to popularna struktura wykorzystywana we wnioskowaniu w warunkach niepewności z wykorzystaniem prawdopodobieństwa.
Sieci Bayesowskie Jest to graf, który można zdefiniować jako: Zbiór zmiennych losowych tworzy węzły w sieci. Zmienne losowe mogą być binarne (trzęsienie ziemi: tak lub nie), dyskretne (trzęsienie ziemi: no-quake, trembler, rattler, major, and catastrophe) oraz ciągłe (trzęsienie ziemi: w skali Richtera). Zbiór skierowanych krawędzi łączy pary węzłów. Strzałka z węzła X do Y oznacza, że X jest rodzicem Y i X ma bezpośredni wpływ na Y. Każdy węzeł ma przypisane CPT conditional probability table (tablicę prawdopodobieństw warunkowych), poza korzeniem. Każdy węzeł w korzeniu ma prior probability table (tablicę prawdopodobieństw a priori). CTP określa liczbowo wpływ jaki mają rodzice na węzły potomne. W grafie nie ma cykli, czyli jest to acykliczny graf skierowany DAG.
Więcej o krawędziach Niezależność W sieciach bayesa krawędzie mówią o niezależności zmiennych losowych (spełniają założenie niezależności). Założenie to implikuje jakie rozkłady prawdopodobieństw są niezbędne do wykonania wnioskowania.
Wnioskowanie czyli podaj prawdopodobieństwo zdarzenia Sieci bayesowskie pozwalają na obliczenie prawdopodobieństwa warunkowego węzła w sieci przy założeniu, że wartości niektórych węzłów zostały zaobserwowane. Na przykład, jeśli zauważono, że światło jest on (lo = true), ale nie słychać psa (hb = false), można obliczyć warunkowe prawdopodobieństwo (fo) ze względu na te dowody. (Wynik to 0.5). Takie obliczenie, to ewaluacja sieci bayesowkich przy danym dowodzie. W bardziej realistyczne przypadkach, sieci mają tysiące węzłów, które mogą być ewaluowane wielokorotnie, za każdym razem, gdy pojawia się nowa informacja (nowy dowód). Gdy pojawia się nowy dowód rodzi się pokusa myślenia, że zmienia się prawdopodobieństwo węzłów, gdy rzeczywiście zmienia się prawdopodobieństwo warunkowe węzłów ze względu na zmienne dowody. Potocznie mówi się o zmianie przekonania węzła.
Niezależność węzłów dyskusja Zgodnie z teorią prawdopodobieństwa, by uzyskać pełny rozkład prawdopodobieństwa wymagane jest na przykład dla n binarnych zmiennych losowych 2 n 1 prawdopodobieństw łącznych. Zatem pełny rozkład dla rozpatrywanego przykładu wymaga 31 wartości, a zostało określonych tylko 10. Im większa sieć tym większy zysk.
Niezależność węzłów przykład Czy zmienne losowe family-out i hear-bark są niezależne? Intuicyjnie nie, bo jeśli rodzina opuszcza dom, to jest bardziej prawdopodobne, że pies jest wypuszczony i dlatego jest bardziej prawdopodobne go usłyszeć. A co jeśli wiadomo że pies jest na pewno w (lub poza) domem? Czy nadal są niezależne? P(hb fo, do)? = P(hb do) TAK, są niezależne, bo to, czy słychać warczenie nie ma nic wspólnego z tym czy ktoś jest w domu, gdy wiadomo, że pies jest wypuszczony. P(fo bp)? = P(fo) P(fo bp, do)? = P(fo do)
Probabilistyczna interpretacja krawędzi Interpretacja przyczynowa krawędzi grafu Nieobecność rodziny ma bezpośrednie połączenie, związek przyczynowy z byciem psa na zewnątrz, co z kolei ma bezpośredni związek z jego słyszeniem. Interpretacja probabilistyczna krawędzi grafu Wykorzystuje się założenie niezależności, które narzuca interpretacja przyczynowa. Gdyby chcieć uzyskać bezpośrednią zależność pomiędzy słyszeniem warczenia psa i bycia rodziny poza domem, należałoby dodać bezpośrednie połączenie pomiędzy tymi węzłami (gdyż prawdziwa jest zależność, iż pies częściej warczy, gdy rodzina jest poza domem niż jeżeli w nim pozostała).
Zasada niezależności Zasadyaokreślająca zależność i niezależność w sieciach bayesowskich Zmienna a jest zależna od zmiennej b, przy danych dowodach E = e 1... e n, jeśli istnieje ścieżka d-connecting z a do b przy danym E. P(a b) = P(a) E jest niepuste. E nie zawiera a ani b. Jeżeli a nie jest zależne od b przy dnaym E, to a jest niezależne od b przy dnaym E. Jednakże P(a b, e) P(a e)
Różne możliwości połączeń węzłów
d-connecting Definicja d-connecting Ścieżka z węzła q do r jest d-connecting przy danych dowodach E, jeżeli każdy wewnętrzny węzeł n w ścieżce: 1 jest linear lub diverging i nie jest elementem E 2 jest converging i n lub jakikolwiek z jego potomków jest w E. Definicja d-separate Dwa węzły są d-separate jeżeli nie istnieje d-connecting ścieżka pomiędzy nimi.
Interpretacja d-connecting 1 Niezależność liniowa: Blokowanie przez dowód (fo do hb) do E. 2 Niezależność zbieżna: (fo bp do) (jeśli dwia zdarzenia mogą spowodować ten sam stan rzeczy i brak innych połączeń pomiędzy nimi, to są one niezależne). 3 Zależność zbieżna: (zakłada się że do E zatem istnieje d-connecting pomiędzy fo i bp) (wiedząc, że rodzina jest w domu powinno to nieznacznie zwiększyć prawdopodobieństwo problemów gastrycznych psa.)
Łączny rozkład prawdopodobieństwa Definicja Łączny rozkład prawdopodobieństwa zbioru zmiennych losowych v 1... v n definiuje się jako P(v 1... v n ) Dla zmiennych boolowskich (a, b) trzeba podać prawdopodobieństwa P(ab), P( ab), P(a b) i P( a b). Przykład Dany jest łączny rozkład prawdopodobieństwa dwóch zmiennych losowych a, b a a b 0.04 0.06 b 0.01 0.89 Suma rozkładu łącznego jest równa 1. Aby mieć pełen rozkład trzeba podać 2 n 1 wartości.
Sieć bayesowska jako pełna reprezentacja łącznego rozkładu prawdopodobieństwa Dla sieci N składającej się z węzłów v 1... v n prawdziwe jest, że P(v 1... v n ) = P(v 1 )P(v 2 v 1 )... P(v n v 1... v n 1 ) Sortowanie topologiczne węzłów Każda zmienna jest przed swoimi potomkami. Rozkład łączny dla przykładu Prawdziwy jest łączny rozkład prawdopodobieństwa w sieci bayesowkiej, przy założeniu niezależności zmiennych: P(fo bp lo do hp) = P(fo)(BP)P(lo fo)p(do fo bp)p(hb do)
Spójność rozkładu w sieci Niespójność Brak spójność może być następstwem dużej liczby wartości w sieci. Na przykład: P(a b) = 0.7, P(b a) = 0.3, P(b) = 0.5 = P(a) > 1, bo z prawa Bayesa P(a b) = P(a)P(b a) P(b) Spójność stąd P(a) = P(b)P(a b) P(b a) = 0.5 0.7 0.3 > 1 Spójność w sieci bayesowskiej jest zagwarantowane, gdy zapewnia się spójność dla lokalnych rozkładów.
Obliczanie sieci rozwiązanie dokładne Cel: Znaleźć przekonanie (prawdopodobieństwo warunkowe), gdy dane są dowody (zaobserwowane zdarzenia). (Zadanie NP-trudne) Polytree (a singly connected network) Jest to graf nieskierowany mający nie więcej niż jedną ścieżkę pomiędzy węzłami. Obliczenia w takim grafie można wykonać w czasie liniowym.
Plan wykładu 1 Niepewność 2 Belief Networks 3 SE Przykład 1 Przykład 2 prognoza pogody
Probabilistyczne systemy regułowe Reguła probabilistyczna Sieci bayesowskie można przedstawić jako zbiór reguł. Ogólny schemat reguły, to: IF D(owód) jest TRUE THEN H(ipoteza) jest TRUE (z prawdopodobienstwem P) Dla boolowskich zmiennych losowych reguła Bayesa ma postać P(H D) = P(D H)p(H) P(D H)p(H) + P(D H)P( H)
Wskaźnik wiarygodności i iloraz szans Wskaźnik wiarygodności (Likelihood ratio) L(D H) = P(D H) P(D H) Iloraz szans (Odds ratio) 1 Dla hipotezy 2 Warunkowy O(H) = P(H) P( H) = P(H) 1 P(H) O(H D) = P(H D) P( H D) Reguła Bayesa oparta na L i O O(H D) = L(H D)O(H)
Obliczanie wniosku i stopnia przekonania przykład W środku nocy budzi nas alarm informujący o włamaniu. Istnieje 95% szansy, że włamanie włączy alarm: P(alarm wlamanie) = 0.95. W oparciu o wcześniejsze fałszywe alarmy obliczono, że jest niewielka szansa (1%), że alarm włączył się bez przyczyny: P(alarm wlamanie) = 0, 01. W oparciu o dane o przestępczości jest szansa 1 na 1000, że danej nocy do danego domu nastąpi włamanie: p(wlamanie) = 0.0001 Jaki jest stopień przekonania o włamaniu?
Obliczanie wniosku i stopnia przekonania przykład 1 O(wlamanie alarm) = L(alarm wlamanie)o(wlamanie) 2 O(wlamanie alarm) = 0.95 0.01 0.0001 1 0.0001 = 0.0095 3 P(wlamanie alarm) = O(wlamanie alarm) 1+O(wlamanie alarm) = 0.00941 Choć to samo można uzyskać z twierdzenia Bayesa: P(wlamanie alarm) = 0.95 0.0001 0.95 0.0001 + 0.01 (1 0.0001) = 0.00941 Wniosek Retrospektywne wsparcie dla hipotezy o włamaniu dawane przez dowód w postaci włączonego alarmu zostało wzmocnione ponad stukrotnie (0.0001 do 0.0094).
Prognozowanie pogody Zadanie: Określić czy będzie, lub czy nie będzie padał deszcz następnego dnia. Dane: Reguły: minimalna temperatura w ciągu dnia maksymalna temperatura w ciągu dnia, opady w mm aktualny stan: pada lub nie pada itd... 1 IF dziś pada [LS = 2.5 LN = 0.6] THEN jutro pada {P(jp) = 0.5} 2 IF dziś nie pada [LS = 1.6 LN = 0.4] THEN jutro nie pada {P(jnp) = 0.5}
Dane
Co to jest LS i LN? LS Likelihood of Sufficiency Jest miarą ufności w hipotezę, jeżeli przedstawiony został dowód. LS = P(D H) P(D H) LN Likelihood of Necessity Jest miarą ufności w hipotezę, jeżeli dowód nie został przedstawiony. LS = P( D H) P( D H) LN nie może być wyprowadzony z LS.
Jak ekspert określa LS i LN? Zaleta: nie musi opierać się na prawdopodobieństwach warunkowych. Ekspert podaj LS i LN bezpośrednio pilnując się zasad: 1 duże LS >> 1 silnie potwierdza hipotezę H, gdy dany jest dowód D 2 niskie LN(0 < LN < 1) oznacza, że reguła silnie osłabia hipotezę ( H), gdy nie ma dowodu D. Z LN i LS łatwo wyprowadzić prawdopodobieństwa warunkowe i zastosować regułę Bayes a. W przykładzie: 1 LS = 2.5 oznacza, że jeżeli dziś pada, to z dużym prawdopodobieństwem będzie padać jutro, 2 LN = 0.6 oznacza, że istnieje szansa, że pomimo, że dziś nie pada to jutro będzie padać.
Jak oblicza się prawdopodobieństwo hipotezy? Prawdopodobieństwo a priori konsekwencji p(h) jest konwertowane na szansę a priori. O(H) = P(H)/1 P(H). Szansa warunkowa jest obliczana przy użyciu LS jeżeli poprzednik(przesłanka) reguły jest prawdziwa lub przy użyciu LN jeżeli przesłanka jest fałszywa: O(H D) = LS O(H) i O(H D) = LN O(H) Szansa warunkowa jest wykorzystana do obliczenia prawdopodobieństwa warunkowego: P(H D) = P(H D) = O(H D) 1+O(H D) O(H D) 1+O(H D) i
Obliczenia dla przykładu odpalenie reguły 1 Dowód D: dziś pada. O(jp) = O(jp)/1 O(jp) = 1 Dowód D zwiększa szansę na opad przez LS: O(jp dp) = LS O(jp) = 2.5 1 = 2.5 P(jp dp) = O(jp dp)/(1 + O(jp dp)) = 0.71 Wniosek: Prawdopodobieństwo jutrzejszego opadu wzrasta z 0.5 do 0.71 poprzez przedstawienie dowodu D.
Obliczenia dla przykładu odpalenie reguły 2 Dowód D: dziś pada. O(jnp) = O(jnp)/1 O(jnp) = 1 Dowód D zmniejsza szansę na brak opadu przez LN: O(jnp dp) = LN O(jnp) = 0.4 1 = 0.4 P(jnp dp) = O(jnp dp)/(1 + O(jnp dp)) = 0.29 Wniosek: prawdopodobieństwo, że jutro nie będzie padać, gdy dziś pada jest 0.29, czyli zmniejszyło się z powody zaistnienia D.
Obliczenia dla przykładu Dziś nie pada Obliczenia wykonuje się w sposób analogiczny. Oblicza się prawdopodobieństwa, że jutro nie będzie padać, lub będzie deszczowo, gdy dowód D mówi, że dziś nie pada. 1 Z prawdopodobieństwom 0.62 nie będzie padać, gdy dziś nie pada. 2 Z prawdopodobieństwom 0.38 będzie padało, gdy dziś nie padało
Rozbudowa systemu prognozowania pogody Powiększamy bazę wiedzy na temat prognozowania pogody o inne parametry. Wskaźniki są uzyskiwane poprzez analizę danych zbieranych z lat poprzednich. Pewne zależności są widoczne i można je ująć w reguły, które uszczegółowią analizę i sprawią, że wnioskowanie będzie bardziej wiarygodna. Reguły 1 i 2 takie jak we wcześniejszym przykładzie.
Rozbudowa systemu prognozowania pogody Dalsze reguły: 3. IF dziś pada AND wilgotność jest niska [LS = 10 LN = 1] THEN jutro nie pada {P(jnp) = 0, 5} 4. IF dziś pada AND wilgotność jest niska AND temperatura jest niska [LS = 1.5 LN = 1] THEN jutro nie pada {P(jnp) = 0, 5} 5. IF dziś nie pada AND temperatura jest wysoka [LS = 2 LN = 0.9] THEN jutro pada {P(jp) = 0, 5} 6. IF dziś nie pada AND temperatura jest wysoka AND niebo jest pochmurne [LS = 5LN = 1] THEN jutro pada {P(jp) = 0, 5}
Działanie SE d.1 Pytanie: Jaka jest dziś pogoda? Odp: PADA Obliczenia (wcześniej na slajdach): na podstawie reguły 1 P(jp dp) = 0.71 Obliczenia (wcześniej na slajdach): na podstawie reguły 2 P(jnp dp) = 0.29 Wniosek: jutro: pada [0.71], nie pada [0.29]
Działanie SE d.2 Pytanie: Jaka jest dziś wilgotność? Odp: NISKA Obliczenia: prawdopodobieństwo a priori zmienione po poprzednim kroku stąd: O(jnp) = 0.29/(1 0.29) = 0.41 Obliczenia: na podstawie reguły 3: O(jnp dp nw) = 10 0.41 = 4.1 Obliczenia: P(jnp dp nw) = 4.1/(1 + 4.1) = 0.81 Wniosek: jutro: pada [0.71], nie pada [0.81]
Działanie SE d.3 Pytanie: Jaka jest dziś temperatura? Odp: NISKA Obliczenia: prawdopodobieństwo a priori zmienione po poprzednim kroku stąd: O(jnp) = 0.81/(1 0.81) = 4.26 i O(jp) = 0.71/(1 0.71) = 2.45 Obliczenia: na podstawie reguły 4: O(jnp dp nw nt) = 1.5 4.26 = 6.4 Obliczenia: P(jnp dp nw nt) = 6.4/(1 + 6.4) = 0.86 Obliczenia: na podstawie reguły 5: O(jp dp nt) = 0.9 2.45 = 2.2 Obliczenia: PO(jp dp nt) = 2.2/(1 + 2.2) = 0.69 Wniosek: jutro: pada [0,69], nie pada [0,86]
Działanie SE d.4 Pytanie: Jakie jest niebo? Odp: NIEZACHMURZONE Obliczenia: prawdopodobieństwo a priori zmienione po poprzednim kroku stąd: O(jp) = 0.69/(1 0.69) = 2.23 Obliczenia: na podstawie reguły 6: O(jp dp nw nt np) = 1 2.23 = 2.23 P(jp dp nw nt np) = 2.23/(1 + 2.23) = 0.69 Wniosek: jutro: pada [0,69], nie pada [0,86]