Motywacja. prawdopodobieństwa.

Podobne dokumenty
Motywacja. Prawdopodobieństwo bezwarunkowe

Motywacja. posiada agent inteligentny jest z konieczności niepe lna i niepewna. Nawet w przypadkach kiedy móg lby on zdobyć wiedz e kompletna

Motywacja. Prawdopodobieństwo bezwarunkowe. Wi ecej o aksjomatach prawdopodobieństwa. Aksjomaty prawdopodobieństwa. rozk lad prawdopodobieństw

Wi ecej o aksjomatach prawdopodobieństwa

Statystyka w analizie i planowaniu eksperymentu

SYSTEM DIAGNOSTYCZNY OPARTY NA LOGICE DOMNIEMAŃ. Ewa Madalińska. na podstawie prac:

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Wyk lad 14 Cia la i ich w lasności

Statystyka w analizie i planowaniu eksperymentu

Testowanie hipotez statystycznych

Mikro II: Popyt, Preferencje Ujawnione i Równanie S luckiego

Rozdzia l 11. Przestrzenie Euklidesowe Definicja, iloczyn skalarny i norma. iloczynem skalarnym.

Mikro II: Popyt, Preferencje Ujawnione i Równanie S luckiego

Drzewa podstawowe poj

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Mikro II: Popyt, Preferencje Ujawnione i Równanie S luckiego

ep do matematyki aktuarialnej Micha l Jasiczak Wyk lad 5 Kalkulacja sk ladki netto I

Testowanie hipotez statystycznych

Normy wektorów i macierzy

Testowanie hipotez statystycznych

Grupy i cia la, liczby zespolone

Wyk lad 9 Podpierścienie, elementy odwracalne, dzielniki zera

Wyk lad 7 Baza i wymiar przestrzeni liniowej

Algorytmy stochastyczne, wykład 08 Sieci bayesowskie

Paradygmaty programowania. Paradygmaty programowania

Sztuczna Inteligencja i Systemy Doradcze

Rachunek zdań - semantyka. Wartościowanie. ezyków formalnych. Semantyka j. Logika obliczeniowa. Joanna Józefowska. Poznań, rok akademicki 2009/2010

Jeden przyk lad... czyli dlaczego warto wybrać MIESI.

Statystyka w analizie i planowaniu eksperymentu

Wprowadzenie do logiki. Andrzej Sza las

Architektura systemów komputerowych

STATYSTYKA MATEMATYCZNA dla ZPM I dr inż Krzysztof Bryś wyk lad 1,2 KLASYCZNY RACHUNEK PRAWDOPODOBIEŃSTWA

Jak matematyka pomaga w wyszukiwanie wzorca

Wnioskowanie bayesowskie

Na podstawie: AIMA, ch13. Wojciech Jaśkowski. 15 marca 2013

Statystyka w analizie i planowaniu eksperymentu lista nr 7

WYK LAD 2: PODSTAWOWE STRUKTURY ALGEBRAICZNE, PIERWIASTKI WIELOMIANÓW, ROZK LAD FUNKCJI WYMIERNEJ NA U LAMKI PROSTE

Modelowanie Niepewności

STYSTYSTYKA dla ZOM II dr inż Krzysztof Bryś Wykad 1

Wyk lad 4 Dzia lania na macierzach. Określenie wyznacznika

Wyk lad 7 Metoda eliminacji Gaussa. Wzory Cramera

Statystyka w analizie i planowaniu eksperymentu

1 Praktyczne metody wyznaczania podstawowych miar bez zastosowania komputerów

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Wyk lad 3 Wielomiany i u lamki proste

Paradygmaty programowania. Paradygmaty programowania

Wyk lad 3 Wyznaczniki

celu przyjmijmy: min x 0 = n t Zadanie transportowe nazywamy zbilansowanym gdy podaż = popyt, czyli n

Statystyka w analizie i planowaniu eksperymentu

1 Rozk ad normalny. Szczególnym przypadkiem jest standardowy rozk ad normalny N (0; 1), wartości

w teorii funkcji. Dwa s lynne problemy. Micha l Jasiczak

Rachunek prawdopodobieństwa

Systemy ekspertowe - wiedza niepewna

Klasyfikacja metodą Bayesa

Sztuczna inteligencja : Tworzenie sieci Bayesa

Spacery losowe generowanie realizacji procesu losowego

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA. Spis pojȩċ teoretycznych

Analiza zrekonstruowanych śladów w danych pp 13 TeV

Dyskretne modele populacji

Agnieszka Nowak Brzezińska Wykład III

PODSTAWOWE W LASNOŚCI W ZBIORZE LICZB RZECZYWISTYCH

Wyk lad 5 Grupa ilorazowa, iloczyn prosty, homomorfizm

Prawdopodobieństwo warunkowe Twierdzenie o prawdopodobieństwie całkowitym

Ćwiczenie 6. Hurtownie danych

1 Analiza wariancji H 1 : 1 6= 2 _ 1 6= 3 _ 1 6= 4 _ 2 6= 3 _ 2 6= 4 _ 3 6= 4

ep do matematyki aktuarialnej Micha l Jasiczak Wyk lad 1 Wprowadzajacy

P. Urzyczyn: Materia ly do wyk ladu z semantyki. Uproszczony 1 j. ezyk PCF

Algebra i jej zastosowania ćwiczenia

Wyk lad 8 macierzy i twierdzenie Kroneckera-Capellego

Dyskretne modele populacji

us lugi katalogowe? Czym różni si e serwer katalogowy od serwera bazy danych:

Wyk lad 5 W lasności wyznaczników. Macierz odwrotna

1 Rekodowanie w podgrupach i obliczanie wartości w podgrupach

+ r arcsin. M. Przybycień Rachunek prawdopodobieństwa i statystyka π r x

STATYSTYKA MATEMATYCZNA

Ekonomia matematyczna i dynamiczna optymalizacja

Rachunku prawdopodobieństwa: rys historyczny, aksjomatyka, prawdopodobieństwo warunkowe,

Przydzia l zasobów. Przyk ladami takich zasobów sa: peryferyjne, jak drukarki, nap edy optyczne, itp.,

Ekstrema funkcji wielu zmiennych.

Uruchamianie SNNS. Po uruchomieniu. xgui & lub snns & pojawia si e okno. programu. Symulator sztucznych sieci neuronowych SNNS 1

2. Graficzna prezentacja algorytmów

Mikro II: Wymiana i Asymetria Informacji

Pochodne cz ¾astkowe i ich zastosowanie.

ep do matematyki aktuarialnej Micha l Jasiczak Wyk lad 2 Tablice trwania życia

Statystyka w analizie i planowaniu eksperymentu

Modelowanie rynków finansowych

Agnieszka Nowak Brzezińska Wykład III

Procesy Stochastyczne - Zestaw 1

Wyk lad 12. (ii) najstarszy wspó lczynnik wielomianu f jest elementem odwracalnym w P. Dowód. Niech st(f) = n i niech a bedzie

Uczenie nienadzorowane

(α + β) a = α a + β a α (a + b) = α a + α b (α β) a = α (β a). Definicja 4.1 Zbiór X z dzia laniami o wyżej wymienionych w lasnościach

Paradygmaty programowania

Wyk lad 1 Podstawowe struktury algebraiczne

Wyznaczniki, macierz odwrotna, równania macierzowe

Metoda Simplex bez użycia tabel simplex 29 kwietnia 2010

Sekwencyjne problemy decyzyjne

Sekwencyjne problemy decyzyjne

25 lutego 2013, godzina 23: 57 strona 1. P. Urzyczyn: Materia ly do wyk ladu z semantyki. Logika Hoare a

Wyk ad II. Stacjonarne szeregi czasowe.

Transkrypt:

Motywacja Wiedza o świecie jaka posiada agent inteligentny jest z konieczności niepe lna i niepewna. Nawet w przypadkach kiedy móg lby on zdobyć wiedz e kompletna i pewna, może to być niepraktyczne. W sztucznej inteligencji od dawna próbowano budować mechanizmy i formalizmy pozwalajace wnioskować i dzia lać w takich warunkach, poprzez dodanie oszacowania wiarygodności posiadanych faktów do wnioskowania logicznego. Przyk ladami moga być: logiki modalne, logika trójwartościowa, logiki niemonotoniczne, logika rozmyta, logika probabilistyczna, i inne. Praktyczne zastosowania tych metod okazuja si e jednak ograniczone. Dopiero stosunkowo niedawno wzros lo zainteresowanie wykorzystaniem prawdopodobieństwa w sposób bezpośredni. To podejście przynios lo duży sukces, i metody oparte na reprezentowaniu wiedzy agenta o świecie w postaci prawdopodobieństw sa jednymi z najbardziej dynamicznie rozwijajacych si e technik sztucznej inteligencji. W tym schemacie reprezentacji metoda wnioskowania jest matematyczny rachunek prawdopodobieństwa. Przeglad poj eć z prawdopodobieństwa motywacja 1

Prawdopodobieństwo bezwarunkowe Prawdopodobieństwo bezwarunkowe (a priori) określa liczbowo szans e wystapienia jakiegoś zjawiska, gdy nie sa znane żadne okoliczności zwiazane z tym zjawiskiem (np. czy ono w rzeczywistości si e wydarzy lo). Graficzna wizualizacja zdarzeń i ich prawdopodobieństw: A A P(A) = powierzchnia kó lka P( A) = dope lnienie do prostokata powierzchnia prostokata = 1 Np.: prawdopodobieństwo, że zg laszajacy si e do lekarza pacjent jest chory na nietypowe zapalenie p luc SARS (Severe Acute Respiratory Syndrome, zwane również nietypowym zapaleniem p luc) może wynosić P(SARS) = 0.0001 Jednak gdyby lekarz wiedzia l, że pacjent w laśnie przyjecha l z Hong-Kongu 1 i ma typowe objawy nietypowego zapalenia p luc, to prawdopodobieństwo posiadania przez niego choroby wywo lanej tym wirusem należa loby określić zupe lnie inaczej. 1 Wyjaśnienie: ten przyk lad powsta l w roku 2003 kiedy w Chinach szala la epidemia SARS. Przeglad poj eć z prawdopodobieństwa prawdopodobieństwo bezwarunkowe 2

Aksjomaty prawdopodobieństwa 0 P(A) 1 P(True) = 1 P(False) = 0 P(A B) = P(A)+P(B) P(A B) P(A B) P(A B) P(B) P(A) P(True) Przeglad poj eć z prawdopodobieństwa prawdopodobieństwo bezwarunkowe 3

Wi ecej o aksjomatach prawdopodobieństwa Z danych aksjomatów można wyprowadzić wiele użytecznych zależności: (i inne). P( A) = 1 P(A) (1) P(A) = P(A B)+P(A B) (2) Aksjomaty prawdopodobieństwa maja g l eboki sens ścis le trzymanie si e ich gwarantuje niepope lnienie b l edu w obstawianiu swoich szans. Inaczej mówiac, gdyby w jakiejś grze losowej agent zastosowa l w swoim rozumowaniu prawdopodobieństwa naruszajace te aksjomaty, i gotów by l przyjmować zak lady zgodne z tymi prawdopodobieństwami, to istnieje strategia obstawiania w tych zak ladach, gwarantujaca wygrana jego przeciwnikowi. Przeglad poj eć z prawdopodobieństwa prawdopodobieństwo bezwarunkowe 4

Zmienne losowe Zmienna losowa reprezentuje jakieś zjawisko losowe, które może przyjmować wartości z pewnego zbioru (dziedziny zmiennej losowej). Np.: chcac określić jaka b edzie dziś pogoda i z jakim prawdopodobieństwem, możemy potraktować dzisiejsza pogod e (Pogoda DZI Ś) jako zmienna losowa, której wartości należa do zbioru: {S lońce,chmury,deszcz,śnieg} Zestaw wartości prawdopodobieństw wszystkich możliwych wartości zmiennej losowej nazywamy rozk ladem prawdopodobieństwa tej zmiennej losowej. Rozk lad prawdopodobieństwa dla zmiennej losowej Pogoda DZI Ś można zapisać: P(Pogoda DZIŚ ) = {0.8,0.1,0.09,0.01} Przeglad poj eć z prawdopodobieństwa zmienne losowe 5

L aczny rozk lad prawdopodobieństw Możemy brać pod uwag e kilka zmiennych losowych opisujacych różne zjawiska losowe. Zdarzeniem atomowym nazywamy przypisanie wartości wszystkim zmiennym losowym, czyli kombinacja tych wartości. Na przyk lad, dla dwóch zmiennych losowych X i Y można skonstruować tabel e zdarzeń atomowych: Y = y 1 Y = y 2... Y = y k X = x 1 X = x 2... X = x n Laczny rozk lad prawdopodobieństwa (JPD) dla zbioru zmiennych losowych jest tabela prawdopodobieństw wszystkich zdarzeń atomowych. W polu tabeli w rz edzie j i kolumnie i znajduje si e prawdopodobieństwo jednoczesnego przyj ecia przez zmienna X wartości x i i przez zmienna Y wartości y j, czyli P(X = x i Y = y j ). Sumujac w tej tabeli wzd luż rz edów lub kolumn możemy otrzymać prawdopodobieństwa dla poszczególnych wartości pojedynczych zmiennych. Suma wszystkich prawdopodobieństw ca lej tabeli daje 1.0. Przeglad poj eć z prawdopodobieństwa zmienne losowe 6

Pos lugiwanie si e tabela JPD Majac wype lniona tabel e JPD możemy obliczać prawdopodobieństwa dowolnych zdarzeń. Na przyk lad: Prawdopodobieństwo zdarzenia polegajacego na przyj eciu przez zmienna X wartości x i P(X = x i ) możemy obliczyć przez zsumowanie wszystkich wartości w kolumnie i tabeli JPD. Prawdopodobieństwo zdarzenia polegajacego na tym, że zmienna X przyjmie wartość x i lub że zmienna Y przyjmie wartość y j możemy obliczyć przez zsumowanie wszystkich wartości w kolumnie i i rz edzie j tabeli JPD, liczac zawartość pola (i,j) tabeli tylko raz. Jak widać wynik b edzie dok ladnie ten sam, jak gdyby obliczać z tabeli wartości wed lug wzoru: P(A B) = P(A)+P(B) P(A B) Jednak aby w ten sposób pos lugiwać si e prawdopodobieństwami musimy obliczyć prawdopodobieństwa wszystkich zdarzeń atomowych, i kompletnie wype lnić tabel e JPD, co może być kosztowne. Przeglad poj eć z prawdopodobieństwa zmienne losowe 7

Obliczanie prawdopodobieństw atomowych Skad pochodza dane o prawdopodobieństwach? Można je zgromadzić statystycznie, można dokonać analizy i obliczyć jako inherentne cechy zjawiska fizycznego, można również zwiazać te prawdopodobieństwa z agentem, charakteryzujac jego punkt widzenia na świat. Na przyk lad, jakie jest prawdopodobieństwo zdarzenia, że s lońce b edzie istnia lo jutro? Można próbować to obliczyć na wiele sposobów, przyjmujac różne punkty widzenia: nie da si e określić, bo nie sposób przeprowadzić niezb ednych eksperymentów, poprzednie podobne eksperymenty dowodza, że s lońce zawsze istnieje, wi ec prawdopodobieństwo wynosi 1, prawdopodobieństwo wynosi 1 ǫ gdzie ǫ jest prawdopodobieństwem wybuchu gwiazdy danego dnia, prawdopodobieństwo wynosi d/(d+1) gdzie d jest liczba dni dotychczasowego istnienia s lońca, prawdopodobieństwo można określić budujac model istnienia i rozpadu s lońca na podstawie zachowania innych, podobnych gwiazd. Przeglad poj eć z prawdopodobieństwa zmienne losowe 8

Problem Monty Halla (1975) Bierzemy udzia l w grze telewizyjnej. Mamy wybrać jedne z trojga drzwi, gdzie za jednymi z nich stoi samochód do wygrania. Nie posiadamy żadnych dodatkowych informacji, wi ec wybieramy np. drzwi numer 1. Wtedy prowadzacy gr e otwiera jedne z pozosta lych dwojga drzwi za lóżmy, że sa to drzwi numer 3 za którymi jest pusto, i daje nam możliwość zmiany pierwotnego wyboru, lub pozostania przy swoim. Co powinniśmy zrobić, żeby zmaksymalizować szans e wygrania auta? Pierwotne prawdopodobieństwo wygranej wynosi lo 1/3. Po otwarciu drzwi nr 3 musimy uznać, że wzros lo, tylko pytanie o ile? Możnaby przyjać, że teraz gra jakby zaczyna si e od nowa, mamy tylko dwoje drzwi do wyboru, i prawdopodobieństwo wygranej b edzie równe 1/2. Ale można też przyjać inny punkt widzenia, że prowadzacy, wiedzac gdzie stoi samochód, otworzy l inne drzwi, w ten sposób przekazujac nam cz eść swojej wiedzy. Prawdopodobieństwo, że wygrana jest za drzwiami nr 2 lub 3 wynosi lo 2/3, i teraz nadal tyle wynosi, ponieważ wynika to z losowego jej rozmieszczenia. Tylko my teraz wiemy, których z drzwi 2 lub 3 nie należy wybierać. Który z powyższych punktów widzenia jest s luszny? Czy to jest tylko kwestia naszego subiektywnego wyboru który punkt widzenia przyjmiemy? Prawdopodobieństwo warunkowe wnioskowanie na prawdopodobieństwach 9

Jednak jest to rzecz najzupe lniej obiektywna. Można przeprowadzić seri e eksperymentów, i obliczyć prawdopodobieństwo znalezienia samochodu za drzwiami pierwotnie wybranymi, i za tymi drugimi. Obliczona wartość prawdopodobieństwa potwierdzi s luszność jednego z możliwych wyjaśnień. 2 Rozważmy inne przyk lady: Lekarz oszacowa l prawdopodobieństwo wystapienia groźnej choroby pacjenta, lecz po przeprowadzeniu specjalistycznych badań wysz lo ono bardzo niskie, np. 0.001 i lekarz zdecydowa l o niepodejmowaniu leczenia tylko obserwacji pacjenta. Jednak pojawi ly si e nowe objawy, mogace z pewnym prawdopodobieństwem, np. 0.005 potwierdzać pierwotna groźna diagnoz e. Jak zaktualizować prawdopodobieństwo tej choroby? Student oszacowa l prawdopodobieństwo p 1 zdania trudnego egzaminu, aby podjać decyzj e: czy powinien systematycznie si e nauczyć, czy może poprzestać na znajomości pytań z lat poprzednich (i szablonu odpowiedzi). Wysz lo, że nie warto si e uczyć. Lecz nagle wyk ladowca zapowiedzia l, że u loży nowe trudniejsze pytania. Wiadomo, że takie zapowiedzi wyk ladowcy sa bardzo niepewne. Jest on cz lowiekiem bardzo zaj etym, może blefować, i z prawdopodobienstwem p 2 nic nowego nie u loży. Jednak ryzyko oblania egzaminu trzeba obliczyć od nowa, tylko jak? 2 Oczywiście s luszne jest drugie wyjaśnienie, i zmiana wyboru na drzwi nr 2 zwi eksza szanse wygranej do 2/3. Prawdopodobieństwo warunkowe wnioskowanie na prawdopodobieństwach 10

Wnioskowanie na prawdopodobieństwach Powyższe scenariusze ilustruja przyk lady wnioskowania jakie chcielibyśmy prowadzić na zmiennych losowych i prawdopodobieństwach. W wielu praktycznych sytuacjach pewne prawdopodobieństwa moga być dobrze znane, ale gdy sytuacja si e zmienia należa loby przeprowadzić nowe badania by zaktualizować te prawdopodobieństwa. Jest to uciażliwe i nie zawsze możliwe. Zamiast tego wygodnie jest stosować prawdopodobieństwo warunkowe. Prawdopodobieństwo warunkowe wnioskowanie na prawdopodobieństwach 11

Prawdopodobieństwo warunkowe wnioskowanie na prawdopodobieństwach 12

Prawdopodobieństwo warunkowe Prawdopodobieństwo warunkowe (a posteriori) P(A B) prawdopodobieństwo zdarzenia A obliczane tylko w sytuacjach, w których B jest spe lnione. Jest zwiazane z bezwarunkowym wzorem: P(A B) = P(A B) P(B) (3) Wzór ten można wyt lumaczyć nast epuj aco: aby obliczyć prawdopodobieństwo P(A B) musimy wziać u lamek przypadków zdarzenia A B we wszystkich przypadkach zdarzenia B. P(A B) P(B) P(A) Prawdopodobieństwo warunkowe definicja i w lasności 13

Inne wyt lumaczenie można przedstawić na podstawie wzoru odwróconego: P(A B) = P(A B)P(B) (4) Aby obliczyć P(A B) musimy wiedzieć, że nastapi lo B, i wiedzac to, wtedy obliczyć prawdopodobieństwo A. (Albo na odwrót.) Ważny, cz esto przydatny wzór wiaż acy bezwarunkowe prawdopodobieństwo zdarzenia z warunkowym otrzymujemy z po laczenia wzorów (2, str.4) i (4): P(A) = P(A B)P(B)+P(A B)P( B) (5) Należy podkreślić, że prawdopodobieństwo warunkowe dla ustalonego warunku spe lnia wszystkie aksjomaty prawdopodobieństwa, a zatem posiada wszystkie w lasności prawdopodobieństwa bezwarunkowego, na przyk lad: P(A B)+P( A B) = 1 (6) Prawdopodobieństwo warunkowe definicja i w lasności 14

Musimy pos lugiwać si e prawdopodobieństwem warunkowym, ilekroć chcemy wyliczyć prawdopodobieństwo jakiegoś zdarzenia w sytuacji, gdy posiadamy jakaś wiedz e o innych, być może zależnych zdarzeniach. P(A) jest poprawnym prawdopodobieństwem zdarzenia A o ile nie posiadamy żadnej wiedzy. Jeśli jednak wiemy, że B, to poprawnym prawdopodobieństwem zdarzenia A jest P(A B), a gdybyśmy dowiedzieli si e, że jeszcze C, to musimy już pos lugiwać si e prawdopodobieństwem P(A B C). W ten sposób możemy uważać, że prawdopodobieństwo bezwarunkowe P(A) jest prawdopodobieństwem warunkowym P(A ) w sytuacji, gdy nie posiadamy żadnej wiedzy. Prawdopodobieństwa warunkowe można obliczać z tablicy lacznego rozk ladu prawdopodobieństwa JPD za pomoca wzoru (3). Jednak nie tak si e zwykle robi. Prawdopodobieństwo warunkowe definicja i w lasności 15

Prawdopodobieństwo warunkowe definicja i w lasności 16

Regu la Bayesa Z dwukrotnego zastosowania wzoru (3) możemy uzyskać nast epuj ac a prosta zależność, zwana regu la Bayesa, b ed ac a podstawa wielu procesów wnioskowania probabilistycznego: P(B A) = P(A B)P(B) (7) P(A) Dlaczego ta regu la ma znaczenie? Wróćmy do przyk ladu z pacjentem z objawami SARS, niezwykle groźnej choroby. Za lóżmy, że u pacjenta przeprowadzono test na obecność wirusa, i wypad l on pozytywnie. Czy pacjenta należy koniecznie hospitalizować i rozpoczać leczenie? Okazuje si e, że to zależy! Przeprowadzony test nigdy nie jest ca lkowicie niezawodny. Jeśli jest dobry, to zapewnia wysokie prawdopodobieństwo wyniku pozytywnego (potwierdzajacego obecność wirusa) w przypadkach, kiedy wirus rzeczywiście jest obecny. Równie ważne okazuje si e wymaganie, żeby test z wysokim prawdopodobieństwem dawa l wynik negatywny w przypadkach braku wirusa. Czyli test zapewnia odpowiednio wysoka wartość P(T SARS) jak również P(T SARS). Jednak to co interesuje lekarza, a przede wszystkim jego pacjenta, to jest wartość P(SARS T ) albo P( SARS T ). Prawdopodobieństwo warunkowe regu la Bayesa 17

Regu la Bayesa przyk lad Jak widać, aby na podstawie przeprowadzonego badania próbki krwi wnioskować o prawdopodobieństwie choroby, konieczne jest odwrócenie warunków prawdopodobieństwa warunkowego, czyli w laśnie skorzystanie z regu ly Bayesa. Za lóżmy, że test na SARS daje wynik pozytywny w 95% przypadków obecności wirusa. W przypadku braku wirusa, test daje wynik negatywny (tzn. prawid lowy) w 90% przypadków. Wiadomo, że wirus wyst epuje u 0.01% ogó lu ludności. P(SARS) = 0.0001 P(T SARS) = 0.95 P(T SARS) = 0.90 Rozważmy pacjenta, dla którego test da l wynik pozytywny. Jakie jest prawdopodobieństwo, że pacjent ma SARS? Musimy obliczyć P(SARS T )! Prawdopodobieństwo warunkowe regu la Bayesa 18

P(SARS T ) = P(T SARS)P(SARS) P(T ) brakuje nam wartości P(T ), która możemy wyliczyć z wzoru (5, str.14): P(T ) = P(T SARS)P(SARS)+P(T SARS)P( SARS) i w końcu obliczamy interesujac a wartość: P(T ) = 0.95 0.0001+0.10 0.9999 P(T ) = 0.000095+0.09999 P(T ) = 0.100085 P(SARS T ) = 0.95 0.0001 0.100085 P(SARS T ) = 0.00094919 czyli poniżej jednego promila! Prawie dziesi eć razy powyżej przeci etnej, ale czy dosyć aby rozpoczać być może kosztowna i nieoboj etn a dla zdrowia terapi e?? Prawdopodobieństwo warunkowe regu la Bayesa 19

Widać, że posiadajac wiedz e przyczynowo-skutkowa o mechanizmach choroby i wynikach testów, możemy obliczać interesujace nas prawdopodobieństwa diagnostyczne. Może nasuwać si e pytanie, dlaczego trzeba te prawdopodobieństwa każdorazowo obliczać; czemu producent testu podaje wartości P(T SARS) i P(T SARS), zamiast od razu wygodnie wyliczyć potrzebna użytkownikowi testu wartość P(SARS T )? Odpowiedź wynika z latwiejszej dost epności danych przyczynowych niż diagnostycznych, których określanie może być z lożone. Na przyk lad, gdyby wystapi l nag ly wzrost zachorowań na SARS (epidemia Epi), to wartość P(SARS) gwa ltownie by wzros la, a za nia również P(SARS T ). Jednak wartość P(T SARS) powinna pozostać bez zmian, ponieważ odzwierciedla ona jedynie fizjologi e choroby i dzia lanie testu. Zatem wcześniejsze obliczenia pozostana s luszne, po uwzgl ednieniu zwi ekszonej wartości P(SARS). 3 3 Zmianie ulegnie wtedy również wartość P(T ) obliczane jako P(T Epi), jednak możemy j a obliczyć: P(T Epi) = P(T SARS,Epi)P(SARS Epi) + P(T SARS,Epi)(1 P(SARS Epi)) Prawdopodobieństwo warunkowe regu la Bayesa 20

Regu la Bayesa niezależność warunków Powróćmy do naszego pacjenta, z pozytywnym wynikiem testu SARS. Być może otrzymana wartość prawdopodobieństwa nie jest wystarczajaca do definitywnego stwierdzenia choroby, i zakwalifikowania pacjenta na leczenie. Wyobraźmy sobie, że istnieje drugi test o innych charakterystykach, i oczywiście o innym rozk ladzie prawdopodobieństw. Jeśli potraktujemy ten drugi test jako trzecia zmienna losowa, to po uzyskaniu jego wyniku musimy obliczać prawdopodobieństwo SARS jako uwarunkowane wynikami obu testów. W ogólnym przypadku wzór na P(SARS Test 1 Test 2 ) b edzie uwzgl ednia l zależności pomi edzy wynikami obu testów. To oznacza konieczność obliczania, w przypadku wielu zmiennych losowych, dużej liczby prawdopodobieństw, co teoretycznie niweczy zalety użycia prawdopodobieństwa warunkowego zamiast JPD. Ważnym elementem jest zauważenie, że wyniki obu testów zależa tylko od wyst epowania wirusa, a nie od siebie nawzajem. Po uwzgl ednieniu tej obserwacji upraszczaja si e wzory, i potrzebne jest tylko wyliczenie prawdopodobieństw warunkowych wyników poszczególnych testów. SARS T 1 T 2 Prawdopodobieństwo warunkowe regu la Bayesa 21

P(SARS T 1,T 2 ) = P(SARS T 1 T 2 ) P(T 1 T 2 ) = P(T 1 T 2 SARS)P(SARS) P(T 1 T 2 ) = P(T 1 SARS)P(T 2 SARS)P(SARS) P(T 1 )P(T 2 ) Gdyby oba testy mia ly identyczne charakterystyki jak w obliczonym wcześniej przyk ladzie, to otrzymany pozytywny wynik z obu testów wskazywa lby na prawdopodobieństwo choroby równe 0.009025, czyli już prawie 100 razy wi eksze niż przy braku informacji. Prawdopodobieństwo warunkowe regu la Bayesa 22

Sieci przekonań L aczny rozk lad prawdopodobieństwa pozwala znajdować odpowiedzi na pytania dotyczace dziedziny problemowej, lecz trudno si e nim pos lugiwać przy wielu zmiennych. Ponadto, określanie prawdopodobieństw dla zdarzeń atomowych może wymagać przeprowadzenia kompleksowych badań statystycznych. Jak wynika z przedstawionego przyk ladu z wirusem SARS, można zbudować graf przedstawiajacy rzeczywiste zależności mi edzy zmiennymi losowymi, i po wyznaczeniu ich prawdopodobieństw warunkowych efektywnie obliczać prawdopodobieństwa innych zdarzeń. Ściślej, sieci a przekonań (belief network, Bayesian network, probabilistic network) nazywamy nast epuj acy graf: w ez lami sieci sa zmienne losowe, luki sieci sa skierowane, i luk X Y ma intuicyjne znaczenie: zmienna X ma bezpośredni wp lyw na Y, każdy w eze l X ma zwiazan a z nim tablic e prawdopodobieństw warunkowych określajacych wp lyw wywierany na X przez jego rodziców (poprzedników w grafie), sieć nie może mieć cykli (skierowanych). Probabilistyczne sieci przekonań koncepcja 23

Budowa sieci polega na wyznaczeniu jej topologii, oraz prawdopodobieństw warunkowych dla w ez lów, dla których istnieja bezpośrednie zależności. Idea sieci przekonań zasadza si e na wzgl ednej latwości, z jaka możemy wyznaczać prawdopodobieństwa tych bezpośrednich zależności. Prawdopodobieństwa innych zdarzeń b edziemy wyznaczać już z gotowej sieci. Probabilistyczne sieci przekonań koncepcja 24

Sieci przekonań przyk lad Przyk lad: system alarmowy w mieszkaniu, reaguje na w lamania oraz, niestety, również na drobne trz esienia (ziemi). Sasiedzi John i Mary sa umówieni, żeby zadzwonić do w laściciela gdy us lysz a alarm. John jest nadgorliwy i bierze różne zdarzenia (np. dzwonek telefonu) za sygna l alarmowy (i wtedy zawsze dzwoni). Mary rozpoznaje alarm poprawnie, lecz cz esto s lucha g lośnej muzyki i może go w ogóle nie dos lyszeć. B edzie nas interesować określenie prawdopodobieństwa tego, że w razie w lamania ktoś zadzwoni, żeby nas zawiadomić, jak również tego, że zawiadomienie o w lamaniu może być fa lszywe. Burglary Earthquake Alarm JohnCalls MaryCalls Probabilistyczne sieci przekonań koncepcja 25

Zauważmy, że ignorujemy tutaj wiele istotnych czynników, np. to czy Mary s lucha w danej chwili muzyk e czy nie, ponieważ to może być niemożliwe do ustalenia, i reprezentujemy ca l a niepewność i nieokreśloność sytuacji w prawdopodobieństwach warunkowych danych zmiennych losowych. Ogólnie, musimy określić prawdopodobieństwa warunkowe dla zmiennych losowych w zależności od innych zmiennych, które sa reprezentowane w naszej sieci. Konkretnie, musimy określić prawdopodobieństwa warunkowe dla każdej wartości zmiennej losowej X dla wszystkich kombinacji wartości zmiennych losowych, od których zmienna X zależy. Burglary Earthquake P(Alarm Burglary,Earthquake) (w lamanie) (trz.ziemi) True False True True 0.950 0.050 True False 0.940 0.060 False True 0.290 0.710 False False 0.001 0.999 Probabilistyczne sieci przekonań koncepcja 26

Zestaw takich prawdopodobieństw tworzy tablic e prawdopodobieństw warunkowych CPT (conditional probability table). Dla zmiennych, które nie zależa od niczego musimy określić prawdopodobieństwa a priori. W takim przypadku tabela CPT ma tylko jeden rzad z wartościami prawdopodobieństw dla możliwych wartości zmiennej losowej (sumujacymi si e do 1.0). Kompletna sieć przekonań dla przyk ladu z systemem alarmowym: Burglary P(B).001 Earthquake P(E).002 B T T F F E T F T F P(A B,E).95.94.29.001 Alarm JohnCalls A T F P(J A).90.05 MaryCalls A T F P(M A).70.01 Probabilistyczne sieci przekonań koncepcja 27

Przyk ladowa sieć w systemie JavaBayes Probabilistyczne sieci przekonań koncepcja 28

Konstrukcja sieci przekonań Można widzieć sieć przekonań jako pewna reprezentacj e lacznego rozk ladu prawdopodobieństw zmiennych losowych. Ten rozk lad jest tabela określajac a pojedyncze prawdopodobieństwa zdarzeń typu P(X 1 = x 1,...,X n = x n ). W skrócie zapisujemy to prawdopodobieństwo jako: P(x 1,...,x n ). Korzystajac z faktu, że prawdopodobieństwo koniunkcji możemy wyrazić przez iloczyn prawdopodobieństw warunkowych przez prawdopodobieństwa zależności (wzór (3) na stronie 13), mamy: P(x 1,...,x n ) = n P(x i Poprzedniki(X i )) (8) i=1 Zatem każda pozycja w tablicy prawdopodobieństwa lacznego jest iloczynem odpowiednich elementów w tablicy CPT, czyli CPT jest elementarna reprezentacja lacznego rozk ladu prawdopodobieństwa JPD. Probabilistyczne sieci przekonań konstrukcja 29

Dla poprzedniego przyk ladu, obliczmy prawdopodobieństwo, że rozleg l si e alarm, przy czym nie wystapi lo ani trz esienie ziemi ani w lamanie, ale oboje John i Mary zadzwonili. P(J M A B E) = P(J A)P(M A)P(A B E)P( B)P( E) = 0.90 0.70 0.001 0.999 0.998 = 0.00062 W ten sposób można odpowiadać na dowolne zapytania wyliczajac pozycje lacznego rozk ladu prawdopodobieństwa, np. przez wyliczenie ca lej tabeli JPD (joint probability distribution), z tabeli CPT. Jednak jeśli mamy wiele zmiennych to ta metoda jest bardzo pracoch lonna i istnieja bardziej bezpośrednie i efektywne metody. Probabilistyczne sieci przekonań konstrukcja 30

Algorytm budowy sieci przekonań Otrzymany wzór na prawdopodobieństwo laczne można w ogólności przedstawić w nast epuj acy sposób: P(x 1,...,x n ) = P(x n x n 1,...,x 1 )P(x n 1,...,x 1 ) =... = P(x n x n 1,...,x 1 ) P(x 2 x 1 )P(x 1 ) n = P(x i x i 1,...,x 1 ) i=1 Z porównania powyższego równania z równaniem (8) na stronie 29 możemy wyciagn ać wniosek, że: P(X i X i 1,...,X 1 ) = P(X i Poprzedniki(X i )) (9) o ile tylko Poprzedniki(X i ) {x i 1,...,x 1 } Ostatnia zależność latwo jest osiagn ać numerujac zmienne losowe zgodnie z cz eściowym porzadkiem określonym przez luki na sieci. Probabilistyczne sieci przekonań konstrukcja 31

Te wyniki można zinterpretować w ten sposób, że sieć przekonań jest poprawna reprezentacja dziedziny pod warunkiem, że każdy w eze l jest warunkowo niezależny od swoich (dalszych) przodków, prócz bezpośrednich rodziców. (Inaczej: ca la zależność jednej zmiennej od drugiej wyrażona jest w jawnej zależności od rodziców, inne zależności sa wtórne.) Wskazuje nam to w jaki wi ec sposób musimy konstruować sieci przekonań. Intuicyjnie, bezpośrednimi rodzicami w ez la X i powinny być wszystkie te w ez ly X 1,...,X i 1, które bezpośrednio wp lywaj a na X i, i żadne inne. Dla zmiennych z przedstawionego wcześniej przyk ladu, można przypuszczać, że B wp lywa na M, ale nie wp lywa bezpośrednio. Można to podsumować nast epuj aco: P(M J,A,B,E) = P(M A) Probabilistyczne sieci przekonań konstrukcja 32

Ogólny algorytm konstrukcji sieci: 1. Wybierz zbiór zmiennych losowych X i opisujacych dziedzin e. 2. Wybierz porzadek na tych zmiennych. 3. Dopóty, dopóki pozosta ly jeszcze zmienne: (a) Wybierz zmienna X i, która zależy bezpośrednio tylko do zmiennych już wybranych, i dodaj do sieci w eze l dla niej (b) Ustal Poprzedniki(X i ) jako minimalny zbiór w ez lów już umieszczonych w sieci, tak by by la spe lniona w lasność niezależności (9) na stronie 31 (c) Określ prawdopodobieństwa warunkowe dla X i. Algorytm ten gwarantuje, że sieć nie b edzie mia la cykli, jak również, że nie b ed a określane żadne nadmiarowe wartości prawdopodobieństw, które mog lyby naruszyć aksjomaty prawdopodobieństwa (z wyjatkiem jednej dope lniajacej liczby w każdym rz edzie). Probabilistyczne sieci przekonań konstrukcja 33

Probabilistyczne sieci przekonań konstrukcja 34

Zwartość sieci i nieoptymalne porzadki w ez lów Sieci przekonań sa zwykle w naturalny sposób zwarte, ponieważ zwykle tylko niewielka liczba zmiennych losowych, spośród być może wielkiej ich liczby, wp lywa na każda pojedyncza zmienna. Na przyk lad, dla sieci o n = 20 w ez lach, w której maksymalna liczba zależności dla w ez lów wynosi k = 5, dla zmiennych binarnych tablice CPT dla w ez lów b ed a mia ly maksymalnie 2 k = 32 wartości prawdopodobieństwa do określenia, co daje dla ca lej sieci n 2 k = 640 wartości. Kompletna tablica JPD ma 2 n 1,000,000 wartości. Ta oszcz edność jest możliwa tylko wtedy, gdy zmienne maja bezpośrednia zależność tylko od pewnej (ma lej) liczby innych zmiennych, czyli warunkowa niezależność od wi ekszości zmiennych. Gdyby zmienne w sieci mia ly zależności od wszystkich innych zmiennych to reprezentacja tych zależności w postaci sieci przekonań mia laby niewielki sens. Jednak w wi ekszości zagadnień praktycznych istnieje silna struktura problemu, która można w efektywny sposób wykorzystać w budowie sieci. Probabilistyczne sieci przekonań konstrukcja 35

Czasami można to osiagn ać, ignorujac pewne zależności o niewielkim prawdopodobieństwie (np. bezpośredni wp lyw trz esień ziemi na fakt czy sasiedzi zadzwonia czy nie, który może być znaczacy lub nie). Wprowadza to pewna niedok ladność w sieci, ale może znacznie uprościć jej konstrukcj e. Jednak znacznie bardziej na zwartość wp lywa poprawne określenie porzadku zmiennych. MaryCalls MaryCalls JohnCalls JohnCalls Alarm Earthquake Burglary Burglary Earthquake Alarm Powyższe przyk lady ilustruja wyniki otrzymane z konstrukcji sieci przy niew laściwej kolejności rozpatrywania w ez lów (np. M,J,A,B,E). Probabilistyczne sieci przekonań konstrukcja 36

Wnioskowanie w sieciach przekonań przyk lad Przyk lad wnioskowania diagnostycznego: mamy sieć opisujac a podstawowe zjawiska towarzyszace uruchamianiu samochodu. Stan poczatkowy: auto nie chce odpalić. Mamy zdarzenia obserwowalne (w ez ly zielone), i zdarzenia identyfikujace konkluzje wnioskowania diagnostycznego (przyczyny awarii w ez ly pomarańczowe). W ez ly szare sa w ez lami wewn etrznymi, które, opisujac pewne zjawiska wewn etrzne i zależności, pozwalaja zmniejszyć wielkość sieci. battery age alternator broken fanbelt broken battery dead no charging battery meter battery flat no oil no gas fuel line blocked starter broken lights oil light gas gauge car won t start dipstick Probabilistyczne sieci przekonań wnioskowanie 37

Wnioskowanie w sieciach przekonań przyk lad (2) Bardziej rozbudowany przyk lad, s lużacy do przewidywania kosztów odszkodowania (medical, liability, property), na podstawie danych z formularza ubezpieczeniowego (pozosta le niewyszarzone w ez ly). Age GoodStudent RiskAversion SeniorTrain SocioEcon Mileage VehicleYear ExtraCar DrivingSkill MakeModel DrivingHist Antilock DrivQuality Airbag CarValue HomeBase AntiTheft Ruggedness Accident OwnDamage Theft Cushioning OtherCost OwnCost MedicalCost LiabilityCost PropertyCost Probabilistyczne sieci przekonań wnioskowanie 38

Procesy wnioskowania w sieciach przekonań Majac skonstruowana sieć przekonań możemy prowadzić różne procesy wnioskowania ogólnie podpadajace pod nast epuj acy schemat. Cz eść zmiennych losowych uznajemy za zmienne faktowe, i mamy dla nich dok ladne (pewne) wartości. Inny zbiór zmiennych uznajemy za zmienne zapytaniowe i chcemy dla nich obliczyć prawdopodobieństwo warunkowe wzgl edem zmiennych faktowych P(Zapytaniowe Faktowe). Jest naturalne, że zmiennymi faktowymi b ed a zmienne zwiazane z obserwacjami agenta, a zmiennymi zapytaniowymi zmienne istotne dla podejmowania przez agenta decyzji o jego akcjach. Jest to przyk lad wnioskowania diagnostycznego. Takie wnioskowanie nie zawsze zgodne jest z intuicjami ludzi odnośnie prawdopodobieństwa. Na przyk lad, wiedzac, że J, chcemy obliczyć P(B J). Mylny tok rozumowania: jeśli alarm dzwoni to John prawie na pewno do nas zadzwoni, a system alarmowy jest prawie 100%-owo dok ladny, zatem P(B J) b edzie duże, prawie 90%. Jednak to wnioskowanie nie bierze pod uwag e faktu, że trz esienia ziemi też powoduja w laczenie si e systemu alarmowego (i telefon Johna), a sa o wiele bardziej (50 ) prawdopodobne. W rzeczywistości, gdy policzymy dok ladnie P(B J) to otrzymamy wartość 0.016. Za lóżmy dalej, że zaraz po telefonie Johna zadzwoni la do nas Mary. Chcemy Probabilistyczne sieci przekonań wnioskowanie 39

teraz obliczyć P(B J M), która to wartość wzrasta tylko do 0.29. Podobnie P(E J M) = 0.18, gdy P(A J M) = 0.76. Wnioskowanie diagnostyczne nie jest jedynym rodzajem wnioskowania. Innym rodzajem jest wnioskowanie przyczynowo-skutkowe polegajace na określaniu prawdopodobieństwa skutków, gdy znamy przyczyny. Na przyk lad P(J B) = 0.86, P(M B) = 0.67. Jeszcze innym rodzajem wnioskowania jest wnioskowanie mi edzyprzyczynowe, np. wiemy A, określamy najpierw P(B A) = 0.376. Jednak gdybyśmy wiedzieli równocześnie, że E, wtedy P(B A E) idzie w dó l i wynosi tylko 0.003. Pomimo, iż w lamania i trz esienia ziemi sa niezależne, wiedza o wystapieniu jednego zmniejsza szanse wystapienia drugiego. Jak również możliwe sa inne schematy wnioskowania, np. P(A J E) = 0.03 albo P(B J E) = 0.017. Probabilistyczne sieci przekonań wnioskowanie 40

Zastosowania sieci przekonań Poza wyliczaniem wartości przekonań o wystapieniu pewnych faktów, sieci przekonań moga s lużyć do innych procesów: Podejmowanie decyzji lacznie na podstawie prawdopodobieństw na sieci i innych możliwości agenta. Określanie jakie inne fakty należy poznać aby uzyskać użyteczna informacj e. Przeprowadzenie analizy czu lości w celu określenia, które elementy modelu maja najwi ekszy (krytyczny) wp lyw na wyniki. Wyjaśnianie i prezentacja wyników wnioskowania probabilistycznego użytkownikowi. Probabilistyczne sieci przekonań wnioskowanie 41