Realizacja niepewności wiedzy w systemach ekspertowych Instytut Informatyki, Uniwersytet Śląski, ul. Będzinska 39, Sosnowiec, Polska Tel (32) 2 918 381, Fax (32) 2 918 283 21 czerwca 2010
Table of contents 1 Wprowadzenie 2 3 4 4 5 6
Słowem wstępu... Od zarania dziejów człowiek staje przed koniecznością dokonania wyborów o mniejszym bądź większym znaczeniu. W bardzo złożonych systemach często wkrada się niepewność, której nie można traktować jako losowość, dającą się opisywać klasycznym rachunkiem prawdopodobieństwa bądź statystyką, gdyż ona ma zastosowanie tylko dla zjawisk masowych (często powtarzalnych). Nie ma zaś metod radzenia sobie z przypadkami rzadkimi.
... Wprowadzenie Wiedzą niepewną będziemy określać taką wiedzę, której ekspert tę wiedzę przekazujący ufa w większej części, i zakłada, że w większości przypadków ta wiedza się sprawdza w rzeczywistości. Jednak nie ma on 100% przekonania o tym, że będzie ona prawdziwa w każdej sytuacji. Ekspert przekazuje przecież wiedzę będącą wynikiem jego doświadczeń, nie jest zatem powiedziane, że wszyscy eksperci muszą podzielać takie samo zdanie. Mało tego, specyfika problemu analizowanego przez eksperta może być na tyle trudna do opisania, że jedyne co ekspert może zrobić to określić stopień swojego subiektywnego przekonania o spełnialności tej wiedzy w rzeczywistości. Z niepewnością w wiedzy wiążą się także tzw. pojęcia nieostre oraz po prostu wiedza niespójna.
... Wprowadzenie... pojęcia nieostre, Niepewność pojęcia niespójne, wiedzy jest zagadnieniem bardzo złożonym i powodowana jest wieloma czynnikami. Wiedzą niepewną w bazie wiedzy zarówno w częściach warunkowych jak i decyzyjnych szum informacyjny, reguł, mogą być: dane niekompletne.
Pojęcia nieostre Pojęcia nieostre Pojęcia nieostre występują zawsze wtedy gdy wiedza zapisana jest przy użyciu pojęć typu: stan pacjenta stabilny czy odpowiednia dawka leku. Bez odpowiedniego aparatu matematycznego wspomagającego tak zapisaną wiedzę np. w postaci współczynników pewności czy np. probabilistyki, wnioskowanie w takim systemie jest niemożliwe Pojęcia niespójne Niepewność objawia się w ten sposób np., że przy takich samych warunkach w danej bazie wiedzy mamy reguły o innych decyzjach, które uniemożliwiają podjęcie jednoznacznej decyzji. Ten rodzaj niepewności wiedzy rozwiązują doskonale zbiory przybliżone
Szum informacyjny Szum informacyjny Jest specyficznym rodzajem niepewności wiedzy, dlatego, że nie istnieje jednoznaczny sposób identyfikacji takiego szumu i sposobów rozwiązania tego problemu. Szum informacyjny może powstawać z winy eksperta przekazującego wiedzę, bądź z winy inżyniera wiedzy, który na etapie akwizycji wiedzy, źle zapisał w systemie ekspertowym wiedzę pobraną od eksperta. Nie są to jedyne przypadki powstania szumu. Źródłem powstania szumu informacyjnego może być chociażby problem techniczny. Mogły zawieść urządzenia zapisujące i odczytujące dane, które przykładowo na etapie 80% transmisji danych uniemożliwią ich dalszą transmisję
... Wprowadzenie Dane niekompletne Zapisanej wiedzy, w której nie dysponujemy pełną informacją, nie można w 100% ufać. W przypadku danych niekompletnych wyróżnia się wiele metod uzupełniania takich braków w danych (poprzez zastępowanie brakujących danych np. wartością średnią w zbiorze) jednak metody takie możliwe są do stosowania jedynie w przypadku gdy takich braków jest stosunkowo mało, zaś obserwacji w zbiorze odpowiednio dużo, by móc np. wartość średnią uznawać za miarodajną.
- reprezentacja wiedzy niepewnej w bazach wiedzy Niepewność może występować zarówno w faktach jak i w regułach. Do rozwiązania problemu niepewności w bazach wiedzy wykorzystuje się: prawdopodobieństwo zajścia jakiegoś zdarzenia (faktu), zbiory rozmyte, współczynnik CF, teoria Dempstera-Sheffera, zbiory przybliżone, gdzie wiedza pewna jest określona przez dolne lub górne przybliżenie zbioru, a to, co znajduje się na brzegu reprezentuje wiedzę niepewną (brzeg to różnica między górnym a dolnym przybliżeniem zbioru).
Pojęcie nieostre Z pojęciami nieostrymi mamy do czynienia bardzo często w świecie rzeczywistym i przyznamy z pewnością, że każdy człowieka przyjmuje własną interpretację tego typu pojęć. To samo pojęcie dla dwóch różnych ludzi może mieć zupełnie inne znaczenie. Wracając do przykładu naszej bazy wiedzy z regułami rozwiązującymi problem postępowania w przypadku awarii prądu. Z pojęciem nieostrym mielibyśmy do czynienia w przypadku gdyby reguła: będzie miała postać: 2: brak_prądu = Zupelny if dzialaja_gniazdka = Nie and swieci_swiatlo = Nie 2: brak_pradu = Zupełny if dzialaja_gniazdka = Nie and swieci_swiatlo = raczej nie ; bo wówczas, określenie faktu, że świeci_światło z wartością raczej nie nie pozwala nam być do końca pewnym, czy na pewno nie świeci. Wartość raczej nie sprawia, że jesteśmy bardziej skłonni do przyrównania z wartością nie, ale to tylko nasze subiektywne przypuszczenie.
Dwa różne podejścia do rozwiązania problemu pojęć nieostrych współczynniki pewności, sieci bayesowskie czy teoria Dempstera-Shafera, bądź logika rozmyta.
Dwa różne podejścia do rozwiązania problemu pojęć nieostrych współczynniki pewności, sieci bayesowskie czy teoria Dempstera-Shafera, bądź logika rozmyta.
Zbiory rozmyte Zbiory rozmyte wchodzą w kolizję z klasyczną logiką, która oparta jest na prawie wyłączonego środka "tertium non datur", oznaczającego, że zdanie może być albo prawdziwe, albo fałszywe, że dany przedmiot może należeć do zbioru lub nie. W przypadku zbiorów rozmytych owo trzecie wyjście istnieje: przedmiot może bowiem należeć do zbioru w pewnym tylko stopniu (a tym samym jednocześnie w określonym stopniu do niego nie należeć). Dlatego, w teorii zbiorów rozmytych niezwykle istotne są właściwości charakteryzujące obiekty, gdyż to one decydują o przynależności tych obiektów różnych zbiorów obiektów. Właściwość (cecha) dobrze określona wyznacza dla danego zbioru jednoznaczne granice oddzielające elementy należące od nie należących do niego. Jeśli bowiem przyjmujemy, że U to przestrzeń rozważanych obiektów, zbiór taki będziemy mogli określać przez funkcję f wyznaczającą przynależność obiektów do zbioru f w : U {0, 1}, gdzie w oznacza zbiór obiektów. Jeśli teraz oznaczymy przez X zbiór odpowiadający pewnej właściwości, to funkcja przynależności określona jest następująco: lub: f x (u) = 1 dla u X f x (u) = 0 dla u X
Niestety, istnieją takie właściwości, dla których trudno jest określić granicę rozdzielającą elementy spełniające tę właściwość od elementów jej nie spełniających. W tym celu wykorzystuje się właśnie funkcję przynależności, która przekształca przestrzeń U w odcinek [0, 1]. Po prostu, zdanie postaci: "Prawdopodobieństwo chłodu w dniu 1 stycznia 2000 wynosi 60 %źnaczy co innego niż stwierdzenie "Tego dnia jest chłodno w 60 % ". Stosując logikę rozmytą możemy tym zdaniem wyrazić stopień naszego przekonania o istniejących, rzeczywistych warunkach atmosferycznych, że jest raczej zimno niż ciepło. Wnioskowanie rozmyte przebiegać powinno zgodnie z algorytmem: wyznaczenie wartości funkcji f dla poszczególnych pojęć rozmytych występujących w warunkach reguł, wyznaczenie obszarów rozmytych na podstawie wartości obliczonych w punkcie pierwszym, zestawienie obszarów rozmytych, wyznaczenie wynikowego obszaru rozmytego, dokonanie defuzyfikacji wynikowego obszaru rozmytego, czyli zamiany tego zbioru na pewną wartość liczbową.
Geneza LOGIKI ROZMYTEJ 1 Kamienie milowe znaczące rozwój tej teorii to: koncepcja zbioru rozmytego, zbiory rozmyte a miary prawdopodobieństwa, zmienne lingwistyczne i wnioskowanie przybliżone, rozmyte programowanie dynamiczne i podejmowanie decyzji, rozmyta interpretacja języka, rozmyta algebra, rozmyte procesy stochastyczne i inne prace matematyczne. 2 Twórcy logiki rozmytej (ang. fuzzy logic) powołują się na polskiego matematyka Łukasiewicza, który pierwszy wprowadził logikę wielowartościową. 3 Praktyczne zastosowanie: układy sterowania. Wiele prac konstrukcyjnych i teoretycznych dotyczących doboru reguł sterowania i parametrów sterownika.powstały systemy samoorganizujące się, systemy człowiek-maszyna, których pięknym przykładem jest zbudowany przez japończyków helikopter sterowany głosem, rozumiejący polecenia takie jak: leć trochę wyżej, skręć nieco w lewo,itp. 4 Urządzenia powszechnego użytku, takich jak pralki, odkurzacze, odbiorniki radiowe i telewizyjne. Systemem ogniskowania niektórych modeli kamer Cannon zarządza układ rozmyty, który samodzielnie decyduje co jest obiektem filmowania i odpowiednio ustawia ostrość. W latach 1988-90 japończycy opracowali i wprowadzili do produkcji (firma Omron) pierwszy rozmyty mikroprocesor FP1000. Od tej pory rozmyte układy scalone torują sobie coraz śmielej drogę na rynek, chociaż z pewnym trudem upowszechniają się, gdyż inżynierowie nie znają podstaw nowej techniki.
Pojęcie zbioru rozmytego W klasycznej teorii zbiorów obowiązują m.in. dwa prawa: prawo niesprzeczności prawo wyłączonego środka. Inaczej mówiąc, każdy element należy albo do zbioru, albo do jego dopełnienia. Nie może należeć do obu naraz. Jeśli mamy np. pojęcia: dzień i noc, to one się wzajemnie wykluczają. Temperatura otoczenia może być tylko albo ujemna, albo nieujemna. W teorii zbiorów rozmytych przyjmuje, że element może należeć częściowo do zbioru jak i do jego dopełnienia. Stopień przynależności elementu x do zbioru A określa funkcja przynależności, oznaczana zwykle ma(x), o wartościach w przedziale [0, 1].Zbiory rozmyte opisują najczęściej pojęcia lingwistyczne używane często w życiu codziennym jak np. chłodno, gorąco.
Chłodno czy gorąco Przykład funkcji przynależności dla zbioru rozmytego chłodno, określonego w przestrzeni temperatur (np. 40.. + 500C). Sytuacja, gdy ma(x) = 1 oznacza pełną przynależność elementu x do zbioru A. Sytuacja, gdy ma(x) = 0 oznacza brak tej przynależności.
Zmienne lingwistyczne Pojęcie zmiennej lingwistycznej,zawdzięczane Zadehowi jest w zasadzie proste i intuicyjne, chociaż formalizm matematyczny jest dość skomplikowany. W potocznej mowie posługujemy się takimi pojęciami jak zimno i gorąco. Możemy utworzyć zmienną lingwistyczną o nazwie temperatura, rozbudowując powyższy przykład następująco: x - temperatura - nazwa zmiennej lingwistycznej, X - przestrzeń temperatur, czyli przedział [-20,+40]0C, {Mróz, Zimno, Chłodno, Ciepło, Gorąco} - wartości zmiennej lingwistycznej, przy czym: - dla temperatur [-20,0] zmienna lingwistyczna przyjmuje wartość mróz, - dla temperatur [-5,10] zmienna lingwistyczna przyjmuje wartość zimno, - dla temperatur [5,20] zmienna lingwistyczna przyjmuje wartość chłodno, - dla temperatur [15,30] zmienna lingwistyczna przyjmuje wartość ciepło, - dla temperatur [25,40] zmienna lingwistyczna przyjmuje wartość gorąco.
Temperatura
Zmienne lingwistyczne Założymy, że funkcje przynależności poszczególnych zbiorów rozmytych: mróz..gorąco mają kształt trapezowy o parametrach odpowiednio dobranych dla powyższych zbiorów: Dana wartość zmiennej x może należeć jednocześnie do kilku zbiorów rozmytych, z różnym stopniem przynależńości. Na przykład temperatura 14C należy do zbioru chłodno ze stopniem przynależności 0, 4 i zbioru ciepło ze stopniem przynależności 0, 6. Proces wyznaczania nazw zbiorów i stopni przynależności dla danego x nazywa się fuzzyfikacją. Podobnie wzrost człowieka, poziom wody w zbiorniku, możemy traktować jako zmienną lingwistyczn ą wprowadzając wartości lingwistyczne: niski, średni, wysoki oraz określając odpowiednie funkcje przynależności.
Zbiory rozmyte
Zastosowanie
Funkcje przynależności
Operacje na zbiorach rozmytych
Reguły rozmyte
Wnioskowanie rozmyte
Schemat przetwarzania danych z wykorzystaniem wnioskowania rozmytego Przetwarzanie wstępne, przetwarzanie końcowe Celem jest przekształcenie danych doprowadzonych do wejścia systemu do formatu akceptowanego przez moduł wnioskowania.analogicznie przetwarzanie końcowe służy do konwersji danych wyjściowych z tego modułu do postaci zgodniej z wymogami układów zewnętrznych.sam moduł wnioskowania oczekuje na wejściu ciągu liczb rzeczywistych i zwraca również ciąg takich liczb (crisp values) fuzyfikacja (rozmywanie): polega na transformacji wartości z dziedziny liczb rzeczywistych na wartości z dziedziny zbiorów rozmytych. w Tym celu dokonuje się wyznaczenia wartości funkcji przynależności dla kolejnych zmiennych lingwistycznych i dla danej rzeczywistej wartości wejściowej.
Schemat przetwarzania danych z wykorzystaniem wnioskowania rozmytego interpretacja reguł rozmytych W pierwszej kolejności realizowany jest proces obliczenia mocy reguł. w tym celu dla każdej zmiennej w przesłankach reguły wyznaczane są stopnie przynależności do odpowiedniego zbioru rozmytego. Jeśli moc reguły jest zerowa, uznaje się, że nie nastąpiła aktywacja reguły. Wyznaczany jest też zbiór rozmyty będący rezultatem uaktywnienia reguły. Zależy on od kształtu odpowiedniej funkcji przynależności oraz obliczonej mocy reguły. W najstępnym kroku następuje agregacja aktywnych reguł. Polega ona na sumowaniu rozmytych zbiorów wynikowych ze wszystkich reguł. Otrzymany zbiór rozmyty jest zbiorem wynikowym wnioskowania rozmytego. defuzyfikacja : po zakończeniu procedury agregacji reguł, wynikiem wnioskowania jest zbiór rozmyty. Zadaniem defuzyfikacji (zwanej też wyostrzaniem), jest zatem przekształcenie odwrotne do rozmywania, czyli transformacja wartości z dziedziny liczb rzeczywistych, której to można dokonać na wiele sposobów w zależności od konkretnego zastosowania.
Etapy projektowania systemu rozmytego określenie zadania oraz sposobu jego realizacji określenie zmiennych lingwistycznych i odpowiadających ich atrybutów rozmytych określenie funkcji przynależności określenie bazy reguł rozmytych wybór metody defizyfikacji
1 Firma ufundowała wakacyjne praktyki dla studentów, którzy uzyskali najlepsze wyniki z przedmiotów ścisłych (elektronika, informatyka, matematyka) oraz z języków (angielski, niemiecki). 2 Słowo najlepszy to wartość lingwistyczna, którą opisano oddzielnie dla przedmiotów ścisłych (NS) i języków (NJ). 3 Celem jest teraz określenie funkcji przynależności...
Funkcja przynależności dla zbioru rozmytego NS
Funkcja przynależności dla zbioru rozmytego NJ
Szukamy najlepszych studentów w ramach przedmiotów Najlepszy z elektroniki: G 1 = 1 x 1 + 0.2 x 2 + 1 x 3 + 0.4 x 4 + 1 x 5 + 1 x 6
Szukamy najlepszych studentów w ramach przedmiotów Najlepszy z informatyki: G 2 = 1 x 1 + 0.8 x 2 + 1 x 3 + 1 x 4 + 0.6 x 5 + 0.4 x 6
Szukamy najlepszych studentów w ramach przedmiotów Najlepszy z matematyki: G 3 = 0.6 x 1 + 0 x 2 + 0.2 x 3 + 0 x 4 + 1 x 5 + 1 x 6
Szukamy najlepszych studentów w ramach przedmiotów Najlepszy z języka angielskiego: G 4 = 0 x 1 + 0.2 x 2 + 0.4 x 3 + 0.6 x 4 + 0.8 x 5 + 0.6 x 6
Szukamy najlepszych studentów w ramach przedmiotów Najlepszy z języka niemieckiego: G 5 = 1 x 1 + 0.2 x 2 + 0.4 x 3 + 0.2 x 4 + 0.8 x 5 + 1 x 6
Szukamy najlepszych studentów w ramach przedmiotów Najlepszy z elektroniki: Najlepszy z informatyki: Najlepszy z matematyki: G 1 = 1 x 1 + 0.2 x 2 + 1 x 3 + 0.4 x 4 + 1 x 5 + 1 x 6 G 2 = 1 x 1 + 0.8 x 2 + 1 x 3 + 1 x 4 + 0.6 x 5 + 0.4 x 6 G 3 = 0.6 + 0 + 0.2 + 0 + 1 + 1 x 1 x 2 x 3 x 4 x 5 x 6 Najlepszy z języka angielskiego: G 4 = 0 + 0.2 + 0.4 + 0.6 + 0.8 + 0.6 x 1 x 2 x 3 x 4 x 5 x 6 Najlepszy z języka niemieckiego: G 5 = 1 + 0.2 + 0.4 + 0.2 + 0.8 + 1 x 1 x 2 x 3 x 4 x 5 x 6
Szukamy najlepszych studentów w ramach przedmiotów Podstawiając dane do wzoru: D = G 1 G 2 G 3 G 4 G 5 Decyzja rozmyta typu minimum jest postaci: D = 0 x 1 + 0 x 2 + 0.2 x 3 + 0 x 4 + 0.6 x 5 + 0.4 x 6 Czyli x 5 Charakteryzuje się największym stopniem przynależności!
Zastosowania sterowniki fuzzy controllers sterowanie swiatlami na wjezdzie na autostrade sprzet powszechnego uzytku (np. pralki) w polaczeniu z innymi narzedziami AI, np. sieciami neuronowymi rozpoznawanie slów (cyfr itp.)
Pojęcia niespójne Zbiory przybliżone pozwalają reprezentować niepewność w wiedzy za pomocą pojęć dolnego i górnego przybliżenia zbioru.
Sieci bayesowskie łączące w sobie cechy: graficznej reprezentacji pozwalającej przedstawiać zależności przyczynowe oraz warunkowych prawdopodobieństw zmiennych względem ich bezpośrednich przyczyn, cieszą się dość dużą popularnością w pracach związanych z wnioskowaniem w systemach ekspertowych opartych na wiedzy niepewnej. Prekursorem sieci bayesowskich był Judea Pearl, który w 1988 roku zaproponował je jako reprezentację wiedzy niepewnej w sztucznej inteligencji.
Prawdopodobieństwo warunkowe - sieci Bayes a Wykorzystuje się w tym celu twierdzenie Bayes a, określające prawdopodobieństwo warunkowe. Jest to oczywiście prawdopodobieństwo zajścia zdarzenia A pod warunkiem zdarzenia B - co odpowiada prostej regule "Jeżeli B to A", którego ogólna postać wygląda następująco: P(B/A) P(A) P(A/B) = P(B) i oznacza, że stwierdzenia A może być uznane jako prawdziwe wtedy, kiedy stwierdzenie B jest uznane jako prawdziwe. Znajomość prawdopodobieństwa warunkowego pozwala na realizację procesów wnioskowania, które polegają na rozpatrywaniu prawdopodobieństwa stwierdzeń traktowanych jako pewne hipotezy.
Prawdopodobieństwo warunkowe - sieci Bayes a Aby np. określić prawdopodobieństwo faktu, że dany student ma przyznane stypendium, przy założeniu, że nie posiadamy żadnej wiedzy na ten temat, zgodnie z teorią prawdopodobieństwa musimy określić zdarzenia elementarne dotyczące badanej dziedziny. Zatem jeśli założymy, że istnieją tylko dwa elementarne zdarzenia D = {α, β}, gdzie odpowiednio: α - to zdarzenie polegające na tym, że dany student ma przyznane stypendium, β - to zdarzenie polegające na tym, że dany student nie ma przyznanego stypendium, to wykorzystując rachunek prawdopodobieństwa możemy stwierdzić, że: prawdopodobieństwo zajścia zdarzenia αjest równe prawdopodobieństwu zajścia zdarzenia β i wynosi P(α) = P(β) = 1 2.
Prawdopodobieństwo warunkowe - sieci Bayes a Dostosowując się do wzoru Bayes a, w przypadku, gdy mamy dwa fakty: A- jeżdżę na rowerze, oraz B- jest ładna pogoda, gdzie P(A) = 0, 2i P(B) = 0, 4 oraz równocześnie w bazie wiedzy istnieją reguły : R1 : Jeżeli jest ładna pogoda to jeżdżę na rowerze- co po prostu oznacza P(A/B) R2 : Jeżeli jeżdżę na rowerze to jest ładna pogoda- co odpowiednio oznacza P(B/A), to znając prawdopodobieństwo zajścia zdarzenia B pod warunkiem A, tzn., gdy wiemy, że P(B/A) = 0, 8, możemy także określić prawdopodobieństwo zajścia zdarzenia Apod warunkiem B. Korzystając z wzoru Bayes a otrzymujemy wartość P(A/B) = [(0, 8 0, 4)/0, 2] = 0, 4. Wzór ten pozwala nam ustalić pewną hipotezę pod warunkiem, że znamy hipotezę przeciwną.
Prawdopodobieństwo warunkowe to prawdopodobieństwo zajścia zdarzenia A pod warunkiem zdarzenia B - co odpowiada prostej regule Jeżeli B to A, którego ogólna postać wygląda następująco: P(B/A) P(A) P(A/B) = P(B) i oznacza, że stwierdzenie A może być uznane jako prawdziwe wtedy, kiedy stwierdzenie B jest uznane jako prawdziwe. Znajomość prawdopodobieństwa warunkowego pozwala na realizację procesów wnioskowania, które polegają na rozpatrywaniu prawdopodobieństwa stwierdzeń traktowanych jako pewne hipotezy. O ich popularności w dużej mierze zadecydowały wydajne metody wnioskowania. Znaleźć można wiele zastosowań w sztucznej inteligencji, ekonomii, medycynie, genetyce czy statystyce. Sieć Bayesa stanowi numeryczny model związków przyczynowo-skutkowych zachodzących pomiędzy elementami zbioru obserwacji i hipotez. Stosując twierdzenie Bayesa, można dokonywać zarówno wnioskowania progresywnego (wnioskowanie w przód), jak i wnioskowania regresywnego (wnioskowanie wstecz).
Przetwarzanie wiedzy niepewnej - Zastosowanie teorii prawdopodobieństwa do reprezentacji wiedzy niepewnej wydaje się stosunkowo oczywiste. Określenia w postaci: prawdopodobnie, najczęściej itp. skłaniają do wykorzystania rachunku prawdopodobieństwa. Liczba reprezentująca prawdopodobieństwo odzwierciedla jedynie wiedzę obserwatora o świecie, nie oddaje więc prawdopodobieństwa obiektywnego. Punktem wyjścia dla różnych metod probabilistycznych jest twierdzenie Bayesa. Załóżmy, że mamy zbiór wzajemnie wyłączających się hipotez: dla których jest spełnione H = {h 1,..., h n }, P(h i ) > 0, i = 1, 2,..., n. Mamy również do dyspozycji zbiór obserwacji E = {e 1,..., e m }. Każdy fragment obserwacji e i jest niezależny warunkowo względem każdej hipotezy.
Reprezentacja wiedzy niepewnej Rozważmy przykład w którym n = m = 1. Mamy zatem jedną obserwację e oraz jedną hipotezę h. Załóżmy, że interesuje nas związek przyczynowo skutkowy pomiędzy obserwacją e a hipotezą h reprezentowany przez regułę: Jeżeli e To h co może być przedstawione graficznie: e h Obserwacja e oraz hipoteza h są reprezentowane przez wierzchołki grafu, natomiast natomiast wnioskowanie przez krawędź.
Reprezentacja wiedzy niepewnej Rozpatrywana reguła może być rozpatrywana w modelu Bayesa następująco: P(h e) = P(e h)p(h) P(e) Powyższy wzór jest szczególnym przypadkiem wzoru Bayesa, który w jednej ze swych postaci może być podany następująco: m P(h i )P(e 1,..., e m h i ) P(h i e 1,..., e m ) = n k=1 P(e 1,..., e m h k )P(h k ) = j=1 P(e j h i ) n m k=1 j=1 P(e j h k )P(h k ) P(h i) co uzyskujemy wykorzystując założoną uprzednio warunkową niezależność każdej obserwacji e i względem każdej hipotezy, co można opisać wzorem: m P(e 1,..., e m h i ) = P(e j h i ), dla i = 1,..., n j=1
Reprezentacja wiedzy niepewnej W warunkach rzeczywistych nigdy nie występuje jedna reguła, zatem również zamiast prostego grafu z jedną krawędzią i dwoma wierzchołkami otrzymamy sieć. Taka sieć nazywana siecią wnioskowań może mieć następującą postać: a b d E c F G gdzie: a, b, c, d to obserwacje, zaś E, F, G to hipotezy. Taka sieć wnioskowań może być opisana poprzez zbiór wierzchołków oraz zbiór krawędzi. Każdy wierzchołek reprezentuje obserwację lub hipotezę, każda krawędź jest określona w ten sposób, że podaje się dla niej informacje o wierzchołkach które dana krawędź łączy, oraz ewentualnie dla grafów skierowanych informację o kierunku krawędzi.
Definicja sieci Bayesowskiej G to graf określony zbiorem wierzchołków N i krawędzi E. CP to zbiór prawdopodobieństw warunkowych opisujących prawdopodobieństwo przejścia od jednego wierzchołka grafu do drugiego. Pod pojęciem sieci Bayesowskiej rozumieć będziemy trójkę: B = {N, E, CP}, gdzie dwójka {N, E} jest zorientowanym grafem acyklicznym zbudowanym na podstawie zadanych prawdopodobieństw warunkowych zawartych w zbiorze CP.
Definicja sieci Bayesa Sieć Bayesa Sieć Bayesa stanowi numeryczny model związków przyczynowo-skutkowych zachodzących między elementami zbioru obserwacji i hipotez. Stosując twierdzenie Bayesa, można dokonywać zarówno wnioskowania progresywnego (wnioskowanie w przód), jak i wnioskowania regresywnego (wnioskowanie wstecz).
Przykład syntezy sieci Bayesa A G Niech zbiór pewnych zmiennych identyfikujących obserwacje i hipotezy ma następującą postać: Z = {A, B, C, D, E, F, G, H}, B F H CP = {P(A), P(B A), P(C B), P(C F), P(D C), P(E CH), P(F G), P(G), P(H G)} To pozwala zbudować graf skierowany, który opisuje sieć Bayesa:B = {N, E, CP}, co można C przedstawić graficznie: D E Sieć Bayesa stanowi numeryczny model związków przyczynowo-skutkowych zachodzących pomiędzy elementami zbioru obserwacji i hipotez. Możliwe jest wówczas wnioskowanie progresywne (w przód), jak i wnioskowanie regresywne (wstecz).
Podsumowanie Prezentowana metoda reprezentacji i przetwarzania wiedzy niepewnej ma Metoda probabilistyczna ma charakter wybitnie numeryczny. Zarówno struktura sieci Bayes a jak również metody wnioskowania oparte są całkowicie o metody probabilistyczne (czy podobne jak np. teoria Dempster a-shafer a). Wady: realizacja praktyczna takiej reprezentacji wiedzy, umiarkowana zdolność do generowania objaśnień (ang. explanations ) procesu wnioskowania powodowana wybitnie numerycznym jego charakterem, złożoność obliczeniowa i pamięciowa procesu wnioskowania.
Problemy wynikające ze stosowania reprezentacji niepewności opartej na probabilistyce Wartość prawdopodobieństwa musi się sumować do jedynki, co oznacza, że jeśli P(a) = 0.3, to P( A) = 1 P(a) = 1 0.3 = 0.7. Gdy za pomocą teorii prawdopodobieństwa modelujemy wybrany fragment rzeczywistości (często bardzo złożony), nie możemy się ograniczać do logiki dwuwartościowej i prawa tertium non datur tłumaczonego jako trzeciego wyjścia nie ma. Czasami jesteśmy w stanie jedynie powiedzieć, że prawdopodobieństwo zajścia pewnego zdarzenia wynosi np. 0.7 i, że jest ono możliwe przy zajściu pewnych zdarzeń je warunkujących. Możemy jednak zauważyć, że zdarzenie to zajdzie jeśli choć jedno z tych zdarzeń je warunkujących nastąpi, ale i gdy np. wszystkie trzy zajdą w rzeczywistości. Fakt, że zdarzenia nie są niezależne nie pozwala w łatwy sposób operować rachunkiem prawdopodobieństwa. Twórcą wiedzy w bazie wiedzy jest ekspert z danej dziedziny, który najczęściej nie potrafi posługiwać się statystykami i umiejętnością określania prawdopodobieństwa poprawnie. Ekspert przedstawia tylko swoją subiektywną ocenę.
Budowa sieci bayesowskiej dla bazy wiedzy zasilanie.bw Reguły w bazie wiedzy zasilanie.bw są budowane przy użyciu dwójek <atrybut, wartość>. Jeśli podstawimy za zmienne zdania symbolizujące pewne zdarzenia opisywane w tej bazie wiedzy to otrzymamy następujący wejściowy zbiór danych: A: co_zrobic = Zgłosić awarię w rejonie energetycznym B: brak_pradu = Zupełny C: prad_u_sasiadow = Nie mają D: prad_u_sasiadow = Mają E: bezpiecznik_glowny = Bezpiecznik główny włączony F: co_zrobic = Włączyć główny bezpiecznik G: bezpiecznik_glowny = Bezpiecznik główny wyłączony H: co_zrobic = Kontrola bezpiecznika obwodu gniazdek I: brak_pradu = W obwodzie gniazdek J: co_zrobic = Kontrola bezpiecznika obwodu świateł K: brak_pradu = W obwodzie świateł L: co_zrobic = Wszystko działa normalnie M: brak_pradu = Jest jak zawsze N: dzialaja_gniazdka = Nie O: swieci_swiatlo = Nie P: dzialaja_gniazdka = Tak R: swieci_swiatlo = Tak Niepewność ws: wiedzy lodowka_dziala = Nie
Analizując reguły w bazie zasilanie.bw możemy wyróżnić zbiory obserwacji i hipotez N, z których będzie można zbudować sieć. Dopiero gdy tę sieć opatrzymy zbiorem prawdopodobieństw warunkowych CP nazwiemy sieć siecią bayesowską - o ile oczywiście spełni ona założenia sieci bayesowskich o grafach acyklicznych i skierowanych. W naszym zbiorze obserwacjami będą: B, C, D, E, G, I, K, M, N, O, P, R, S, T, U oraz V zaś do zbioru hipotez zaliczymy A, F, H, J, L, B, I, K, M, N oraz P. Schemat sieci bayesowskiej (bez uwzględnienia wartości prawdopodobieństw warunkowych) dla takiej bazy wiedzy wygląda następująco:
Niech zbiór prawdopodobieństw warunkowych CP dla takich obserwacji i hipotez będzie następujący: CP = {P(A B&C), P(A B&D&E), P(F B&D&G), P(B), P(D), P(G), P(E), P(H D&I), P(I N&R), P(R), P(N S&T), P(S), P(T), P(J K&O), P(P U&V), P(U), P(V), P(O), P(L M), P(M P&R)}.
Rozkład prawdopodobieństw: P(A,..., V) = p(a B&C)p(A B&D&E)p(F B&D&G)p(B)p(D)p(G)p(E)p(H D&I)p(I N&R)p(R)p(N S&T) p(s)p(t)p(j K&O)p(P U&V)p(U)p(V)p(O)p(L M)p(M P&R). Jak widać, powstały graf jest grafem skierowanym i acyklicznym, a więc spełnia podstawowe założenia sieci bayesowskiej.
Przykład Wprowadzenie 1 A pogoda (słonecznie/pochmurno/deszczowo/wietrznie) 2 B czas wolny (tak/nie) 3 X humor (bardzo dobry/dobry/nietęgi) 4 C zajęcie na zewnątrz (spacer/basen/rower) 5 D zajęcie w domu(komputer/książka/gotowanie)
Przykład Wprowadzenie
Przykład Wprowadzenie
Przykład Wprowadzenie
Narzędzia do budowy sieci bayesowskich Bardzo wiele grup naukowców na całym świecie zajmuje się sieciami bayesowskimi, ich budową, analizą i optymalizacją. Ogromne zasługi ma zespół profesora Marka Drużdżela z University of Pittsburgh. Zespół opracował narzędzie SMILE+ (ang. Structural Modeling, Inference, and Learning Engine) dostarczające graficznej metody reprezentacji dla systemów decyzyjnych w postaci sieci bayesowskich. Do zbioru bibliotek stanowiących system SMILE zbudowano interfejs użytkownika GeNIe. Narzędzie cieszy się sporym zainteresowaniem na całym świecie.
Inne narzędzia: Microsoft Bayesian Network Editor - narzędzie wspomagające budowę sieci wnioskowań bayesowskich. Realizacja dwóch algorytmów rekomendacji kolejnych kroków w procesie ewaluacji sieci (czyli na przykład wskazują zmienną, której zmiana wartości najbardziej wpłynie na uzyskane wyniki). W praktyce pozwala to na uzyskanie listy zmiennych (węzłów) uporządkowanych według ich wagi i wpływu na proces wnioskowania, co jest możliwe dzięki przypisaniu węzłom pewnych typów decyzyjnych reprezentujących rolę, jaką pełni dany węzeł w sieci. HUGIN EXPERT - narzędzie służące do obliczeń prawdopodobieństw i niepewności parametrów. Dedykowane jest nie tylko na platformę Windows ale również UNIXowe stacje robocze. Dostępna na stronie http://www.hugin.dk/, Netica Bayesian Network Software from Norsys - oprogramowanie, którego wersja demonstracyjna (jest dostępna poprzez witrynęhttp://www.norsys.com/) jest zupełnie wystarczająca by zaprojektować sieć bayesowską i przeprowadzić w takiej sieci wnioskowanie.
Mycin Wprowadzenie System Mycin, który powstał w latach siedemdziesiątych na Uniwersytecie Stanford i którego autorem jest Edward H. Shortliffe, jest uznawany za wzorcowy (medyczny) system ekspertowy. Prace nad jego powstaniem rozpoczęły się w roku 1972 (i trwały kilka lat) w ramach Projektu Programowania Heurystycznego realizowanego w Stanford University, rozwijanego we współpracy z Zespołem Chorób Infekcyjnych (Infectious Diseases Group) ze Stanford Medical School. Pracę Shortliffe a nadzorował m.in. Bruce Buchanan. System Mycin cechuje się wysokim poziomem kompetencji w zakresie generowanych konkluzji. Jego zadaniem jest diagnoza bakteryjnej choroby krwi i zaproponowanie odpowiedniej terapii. System prowadzi swego rodzaju dialog z lekarzem, w którym lekarz przekazuje swoją wiedzę dotyczącą badanej próbki krwi (m.in. wiek i płeć pacjenta, data pobrania krwi, itp), a system - po zadaniu około 50-60 pytań - wyświetla wyniki do jakich doszedł. Zaletą systemu była szybkość podejmowania trafnych decyzji, do których nie potrzebuje wyników czasochłonnych badań krwi ani wszystkich odpowiedzi na zadane lekarzowi pytania.