Agenty inteligentne (Intelligent Agents) Na podstawie An Introduction to MultiAgent Systems oraz slajdów Michaela Wooldridge'a

Podobne dokumenty
Propozycja integracji elementów ±wiata gry przy u»yciu drzew zachowa«

Metody numeryczne i statystyka dla in»ynierów

Lab. 02: Algorytm Schrage

MiASI. Modelowanie systemów informatycznych. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

MiASI. Modelowanie analityczne. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

Agenty wnioskuj ce dedukcyjnie (Deductive Reasoning Agents) Na podstawie An Introduction to MultiAgent Systems oraz slajdów Michaela Wooldridge'a

Zarządzanie projektami. wykład 1 dr inż. Agata Klaus-Rosińska

Modelowanie i analiza systemów informatycznych

Listy i operacje pytania

JAO - J zyki, Automaty i Obliczenia - Wykªad 1. JAO - J zyki, Automaty i Obliczenia - Wykªad 1

Maszyny Turinga i problemy nierozstrzygalne. Maszyny Turinga i problemy nierozstrzygalne

Zmiany przepisów ustawy -Karta Nauczyciela. Warszawa, kwiecień 2013

Model obiektu w JavaScript

Agenty reaktywne i hybrydowe (Reactive and hybrid agents) Na podstawie An Introduction to MultiAgent Systems oraz slajdów Michaela Wooldridge'a

Programowanie wspóªbie»ne

Projekt konceptualny z Baz Danych "Centralny system zarz dzania salami na AGH"

Wzorce projektowe strukturalne cz. 1

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

Podstawy modelowania w j zyku UML

Zarządzanie Zasobami by CTI. Instrukcja

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Subversion - jak dziaªa

KLAUZULE ARBITRAŻOWE

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

Metodydowodzenia twierdzeń

POMOC PSYCHOLOGICZNO-PEDAGOGICZNA Z OPERONEM. Vademecum doradztwa edukacyjno-zawodowego. Akademia

Procedura diagnozowania i informowania rodziców(prawnych opiekunów) o osiągnięciach edukacyjnych dzieci

1 Metody iteracyjne rozwi zywania równania f(x)=0

Maªgorzata Murat. Modele matematyczne.

Programowanie wspóªbie»ne

Logika dla matematyków i informatyków Wykªad 1

Strategia rozwoju kariery zawodowej - Twój scenariusz (program nagrania).

Program szkoleniowy Efektywni50+ Moduł III Standardy wymiany danych

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Przykªady problemów optymalizacji kombinatorycznej

Harmonogramowanie projektów Zarządzanie czasem

Podstawy modelowania w j zyku UML

U M O W A. zwanym w dalszej części umowy Wykonawcą

Programowanie wspóªbie»ne

A = n. 2. Ka»dy podzbiór zbioru sko«czonego jest zbiorem sko«czonym. Dowody tych twierdze«(elementarne, lecz nieco nu» ce) pominiemy.

przewidywania zapotrzebowania na moc elektryczn

PRACOWNIA ZARZĄDZANIA, DIAGNOZY EDUKACYJNEJ I SZKOLNICTWA ZAWODOWEGO ODN W ZIELONEJ GÓRZE

Geometria Algebraiczna

Statystyka matematyczna

Twierdzenie Wainera. Marek Czarnecki. Warszawa, 3 lipca Wydziaª Filozoi i Socjologii Uniwersytet Warszawski

Wykªad 4. Funkcje wielu zmiennych.

- 70% wg starych zasad i 30% wg nowych zasad dla osób, które. - 55% wg starych zasad i 45% wg nowych zasad dla osób, które

Strategia czy intuicja?

Bazy danych. Andrzej Łachwa, UJ, /15

i, lub, nie Cegieªki buduj ce wspóªczesne procesory. Piotr Fulma«ski 5 kwietnia 2017

Część II.A. Informacje o studiach podyplomowych ANALIZA DANYCH METODY, NARZĘDZIA, PRAKTYKA (nazwa studiów podyplomowych)

Wzorce projektowe kreacyjne

Metody numeryczne i statystyka dla in»ynierów

Twierdzenie Bayesa. Indukowane Reguły Decyzyjne Jakub Kuliński Nr albumu: 53623

Systemy Agentowe główne cechy. Mariusz.Matuszek WETI PG

Programowanie wspóªbie»ne

2 Liczby rzeczywiste - cz. 2

Uchwała Nr XXII / 242 / 04 Rady Miejskiej Turku z dnia 21 grudnia 2004 roku

Kwantowa teoria wzgl dno±ci

Lekcja 5 Programowanie - Nowicjusz

Ekonometria Bayesowska

19. Obiektowo± 1 Kacze typowanie. 2 Klasy

Ekonometria. wiczenia 13 Metoda ±cie»ki krytycznej. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Licencję Lekarską PZPN mogą uzyskać osoby spełniające następujące wymagania:

GENERALNY INSPEKTOR OCHRONY DANYCH OSOBOWYCH

Podstawy statystycznego modelowania danych Analiza prze»ycia

Użytkowanie elektronicznego dziennika UONET PLUS.

Filozoa Clojure. Mateusz Dereniowski. 15 lipca Instytut Informatyki Uniwersytetu Wrocªawskiego

epuap Ogólna instrukcja organizacyjna kroków dla realizacji integracji

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Lekcja 6 Programowanie - Zaawansowane

Funkcje, wielomiany. Informacje pomocnicze

1. Reforma procesu kształcenia jako filar linii programowej PSRP

Android. Podstawy tworzenia aplikacji. Piotr Fulma«ski. March 4, 2015

Programowanie funkcyjne. Wykªad 13

Praca Dyplomowa Magisterska

ZARZĄDZENIE NR 155/2014 BURMISTRZA WYSZKOWA z dnia 8 lipca 2014 r.

Przypomnienie najważniejszych pojęć z baz danych. Co to jest baza danych?

Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd.

Lekcja 9 - LICZBY LOSOWE, ZMIENNE

Zarządzenie Nr 0151/18/2006 Wójta Gminy Kornowac z dnia 12 czerwca 2006r.

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych ul. Koszykowa 75, Warszawa

Zadanie 1. (8 punktów) Dana jest nast puj ca macierz: M =

Chess. Joanna Iwaniuk. 9 marca 2010

Uchwała nr 647/XXV/2012 Rady Miejskiej w Piasecznie z dnia r.

2) Drugim Roku Programu rozumie się przez to okres od 1 stycznia 2017 roku do 31 grudnia 2017 roku.

Umowa w sprawie przyznania grantu Marie Curie 7PR Wykaz klauzul specjalnych

OBIEKTYWNO SUBIEKTYWNO

Robotyka mobilna. Architektury sterowania w robotyce. Dariusz Pazderski 1. 2 pa¹dziernika Wykªady z robotyki mobilnej studia niestacjonarne

REGULAMIN KONTROLI ZARZĄDCZEJ W MIEJSKO-GMINNYM OŚRODKU POMOCY SPOŁECZNEJ W TOLKMICKU. Postanowienia ogólne

Ekonometria Bayesowska

Ekstremalnie fajne równania

POLITECHNIKA WROCŠAWSKA WYDZIAŠ ELEKTRONIKI PRACA DYPLOMOWA MAGISTERSKA

5. (8 punktów) EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

ZAPYTANIE OFERTOWE. MERAWEX Sp. z o.o Gliwice ul. Toruńska 8. ROZWÓJ PRZEDSIĘBIORSTWA MERAWEX Sp. z o.o. POPRZEZ EKSPORT.

II. WNIOSKI I UZASADNIENIA: 1. Proponujemy wprowadzić w Rekomendacji nr 6 także rozwiązania dotyczące sytuacji, w których:

Transkrypt:

Agenty inteligentne (Intelligent Agents) Na podstawie An Introduction to MultiAgent Systems oraz slajdów Michaela Wooldridge'a

Denicja agenta Agent jestem systemem komputerowym zdolnym do autonomicznego dziaªania w pewnym ±rodowisku, aby osi gn przekazane mu cele. Agent prowadzi ci gªa interakcj ze ±rodowiskiem, w którym funkcjonuje obserwuj decyduj dziaªaj obserwuj decyduj...

Agent i ±rodowisko

Agent i ±rodowisko W wi kszo±ci dziedzin agent nie ma peªnej kontroli nad ±rodowiskiem (w najlepszym przypadku jest to cz ±ciowa kontrola) Ta sama akcja wykonana w takich samych (pozornie) warunkach mo»e mie zupeªnie ró»ne efekty, mo»e si tak»e zako«czy niepowodzeniem Agent musi by przygotowany na ewentualno± niepowodzenia wykonanej akcji

Wªa±ciwo±ci ±rodowiska (1) Dost pne niedost pne (accessible inaccessible) W ±rodowisku dost pnym agent mo»e uzyska kompletn, dokªadn i aktualn informacj o stanie ±rodowiska Im bardziej dost pne ±rodowisko, tym ªatwiej zbudowa agenta, który b dzie w nim dziaªaª...ale ju» ±rodowiska o umiarkowanej zªo»ono±ci s niedost pne

Wªa±ciwo±ci ±rodowiska (2) Deterministyczne niedeterministyczne (deterministic nondeterministic) W ±rodowisku deterministycznym ka»da akcja ma jednoznacznie okre±lony efekt (brak niepewno±ci zwi zanej z wykonaniem akcji) rodowiska niedeterministyczne (np. ±wiat zyczny) s wi kszym wyzwaniem dla twórców agentów

Wªa±ciwo±ci ±rodowiska (3) Statyczne dynamiczne (static dynamic) rodowisko statyczne zmienia si jedynie pod wpªywem akcji agenta W ±rodowisku dynamicznym funkcjonuj inne procesy (tak»e inne agenty), które wpªywaj na jego stan niezale»nie od dziaªa«rozwa»anego agenta wiat zyczny jest ±rodowiskiem (bardzo) dynamicznym

Wªa±ciwo±ci ±rodowiska (4) Dyskretne ci gªe (discrete continuous) rodowisko jest dyskretne, je±li liczba mo»liwych akcji i obserwowanych stanów jest staªa i sko«czona rodowisko gry w GO jest dyskretne, natomiast ±rodowisko drogowe ( prowadzenie samochodu) jest ci gªe

Poj cie autonomii Autonomia to najwa»niejsza cecha agenta (chocia» nie ±wiadczy o jego inteligencji) Autonomia obejmuje caªe spektrum... od peªnej wolno±ci w przyjmowaniu celów, przekona«(dotycz cych ±rodowiska) oraz akcji... do realizacji otrzymanych» da«w ±ci±le okre±lony sposób (agenty usªugowe, service agents) W przypadku agentów autonomi rozumiemy jako samodzielny wybór tych akcji, które pozwalaj na realizacje przekazanego celu ( narzucony cel, ale wolno± w planowaniu akcji)

Regulowana autonomia Kontrola (podejmowanie decyzji) przekazywana przez agenta czªowiekowi w pewnych specycznych warunkach: kiedy agent jest przekonany,»e czªowiek podejmie lepsz decyzj kiedy agent nie posiada umiej tno±ci/kompetencji pozwalaj cych na samodzielne podj cie decyzji kiedy jest bardzo du»a niepewno± zwi zana ze ±rodowiskiem kiedy konsekwencje decyzji mog spowodowa szkody

Decyzje i akcje Agent ma zestaw akcji ( zdolno± do modykowana ±rodowiska) Akcje s zwi zane z warunkami wst pnymi (preconditions), które opisuj warunki stosowalno±ci akcji (mo»liwe stany ±rodowiska, w których mo»na jest zastosowa ) Dla agenta kluczowym problemem jest podj cie decyzji, któr akcj wybra i wykona, aby jak najlepiej speªni przekazany cel Architektury agentów Architektury (programowe) dla systemów podejmowania decyzji, które s osadzone w pewnym ±rodowisku

Przykªady (prostych) agentów Systemy sterowania Ka»dy system sterowania mo»na uzna za agenta Trywialny system termostat (cel: utrzymanie pewnej temperatury, akcje: wyª czenie lub wyª cznie ogrzewania) Bardziej zªo»one systemy z rozbudowanymi strategiami/modelami decyzyjnymi Procesy (daemons) programowe Ka»dy program, który monitoruje i modykuje ±rodowisko programowe mo»na uzna za agenta Proste przykªady: ltry anty-spamowe, programy anty-wirusowe

Inteligentne agenty Inteligentny agent powinien demonstrowa 3 rodzaje zachowania (w celu realizacji/osi gni cia przekazanych mu celów): 1 Reaktywno± (reactivity) zdolno± do obserwacji ±rodowiska i do szybkiego reagowania na zachodz ce zmiany 2 Proaktywno± (pro-activeness) zdolno± do przej cia inicjatywy w celu realizacji celu (zachowanie sterowane celem, goal-driven behavior) 3 Zdolno±ci spoªeczne (social abilities) zdolno± do prowadzenia interakcji z innymi agentami (oraz lud¹mi)

Reaktywno± i proaktywno± Wa»ne (i jednocze±nie trudne) jest osi gni cie odpowiedniej równowagi pomi dzy reaktywno±ci i proaktywno±ci Agenty powinny osi ga swoje cele w sposób systematyczny, np. tworz c i wykonuj c zªo»one plany... ale nie powinni wykonywa tych planów na ±lepo bez kontroli ±rodowiska (plan mo»e nie zadziaªa, cel mo»e straci sens) W takich sytuacjach agenty powinny odpowiednio zareagowa i np. zmodykowa plan... ale agenty nie powinny skupia si tylko na dziaªaniu reaktywnym, aby nie straci mo»liwo±ci realizacji gªównego celu

Zdolno±ci socjalne Prawdziwy ±wiat to ±rodowisko wieloagentowe agenty mog osi gn niektóre swoje cele tylko wchodz c w interakcje z innymi agentami Zdolno±ci socjalne to zdolno±ci do kooperacji/wspóªpracy (cooperation) pracy razem w grupie w celu osi gni cia wspólnego celu koordynacji (coordination) zarz dzania zale»no±ciami pomi dzy akcjami wykonywanymi przez ró»nych agentów negocjacji (negotiation) osi gania porozumienia we wspólnych kwestiach W najprostszej sytuajci zdolno±ci socjalne to zdolno± do komunikacji (wymiany wiadomo±ci)

Agenty i obiekty (1) Czy agenty i obiekty to nie to samo? Obiekty zawieraj (encapsulate) pewien stan Obiekty komunikuj si wymieniaj c wiadomo±ci Obiekty oferuj metody odpowiadaj ce operacjom, jakie mog by u»yte, aby wpªyn na ich stan

Agenty i obiekty (2) Agenty zakªadaj znacznie wy»szy poziom autonomii w szczególno±ci same decyduj, czy wykonywa akcje na» danie innych agentów Objects do it for free; agents do it because they want to (or do it for money)... Agenty s zdolne do elastycznego (reaktywnego, proaktywnego i spoªecznego) zachowania standardowe modele obiektowe nie zajmuj si tym (operuj na ni»szym poziomie abstrakcji) MAS s z natury wielow tkowe ka»dy agent posiada co najmniej jeden w tek

Agenty jako systemy intencjonalne Przypisanie agentom stanów mentalnych (przekona«,»ycze«, obaw,...) w celu wytªumaczenia i zrozumienia ich zachowania ( postawa intencjonalna, intentional stance) Mo»liwo± budowy wysokopoziomowych (abstrakcyjnych) modeli dla zªo»onych systemów, gdzie reprezentacja niskopoziomowa staje si niepraktyczna Agenty jako systemy intencjonalne (intentional systems) stanowi kolejny i bardziej ogólny paradygmaty projektowania i tworzenia systemów Rosn cy poziom abstrakcji: abstrakcja proceduralna abstrakcyjne typy danych obiekty agenty

Ogólna architektura agenta Zakªadamy,»e ±rodowisko mo»e by w dowolnym (dyskretnym) stanie ze sko«czonego zbioru E { } E = e,e,... Agent posiada zestaw akcji Ac, za pomoc których mo»e zmienia stan ±rodowiska { } Ac = α,α,... Przebieg (run) agenta w ±rodowisku to sekwencja przeplataj cych si stanów ±rodowiska oraz akcji α r : e 0 α 0 1 α e1 2 α e2 3 α u 1 e3 e u

Mo»liwe przebiegi Niech R oznacza zbiór wszystkich mo»liwych sko«czonych przebiegów dla zbioru stanów E oraz zbioru akcji Ac Niech R Ac oznacza podzbiór wszystkich tych przebiegów, które ko«cz si akcj Niech R E oznacza podzbiór wszystkich tych przebiegów, które ko«cz si stanem ±rodowiska

rodowisko (1) Zachowanie si ±rodowiska opisane jest za pomoc funkcji transformacji stanu (state transformer function) τ : R Ac 2 E rodowiska s zale»ne od historii nowy stan jest (cz ±ciowo) zdeterminowany przez sekwencj wcze±niejszych stanów i akcji niedeterministyczne wyst puje niepewno± co do wyniku danej akcji Je±li τ (r) =, to nie wyst puje kolejny stan dla r przebieg si ko«czy

rodowisko (2) rodowisko Env jest formalnie zdeniowane jako trójka Env = E,e 0,τ gdzie E jest zbiorem mo»liwych stanów, e 0 E jest stanem pocz tkowym ±rodowiska, a τ jest funkcj transformacji stanu (albo funkcj przej±cia)

Agent Agent jest reprezentowany przez funkcj mapuj c przebieg na akcj Ag : R E Ac Agent w sposób deterministyczny wybiera kolejn akcj do wykonania bior c pod uwag zaobserwowane do tej pory zachowanie systemu (dotychczasowy przebieg) Niech A G oznacza zbiór wszystkich mo»liwych agentów

System System jest zdeniowany jako para agent±rodowisko Ag,Env Ka»dy system jest zwi zany ze zbiorem mo»liwych przebiegów agenta Ag w ±rodowisku Env oznaczonym jako R (Ag,Env) Zakªadamy,»e R (Ag,Env) zawiera tylko przebiegi, które si sko«czyªy (τ (r) = )

Przebieg Sekwencja (e 0,α 0,e 1,α 1,e 2 ) reprezentuje przebieg agenta Ag w ±rodowisku Env = E,e 0, τ je±li 1 e 0 jest stanem pocz tkowym w Env 2 α 0 = Ag (e 0 ) 3 dla u > 0, e u τ (e 0,α 0,,α u 1 ) i α u = Ag (e 0, α 0,,e u )

Agent w peªni reaktywny Agent w peªni reaktywny (purely reactive) wybiera akcj do wykonania bez uwzgl dnienia historii tylko na podstawie aktualnego stanu ±rodowiska Formalnie, agent w peªni reaktywny (albo czysto reaktywny) jest reprezentowany jako Ag : E Ac Termostat jest przykªadem czysto reaktywnego agenta { off ife = temperature OK action (e) = on otherwise

Agenty ze stanem (1) W celu budowy rzeczywistych agentów uszczegóªowienie ogólnego modelu i wprowadzenie komponentów zwi zanych ze sterowaniem i przechowywaniem danych Te komponenty tworz architektur agenta (i mog by realizowane na ró»ne sposoby)

Agent ze stanem (2) Agent posiada pewn struktur danych stan wewn trzny (state) u»ywany do zapisu historii. Niech I b dzie zbiorem wszystkich mo»liwych stanów wewn trznych agenta Funkcja percepcji see reprezentuje zdolno± agenta do pozyskiwania informacji ze ±rodowiska i transformowania jej do perceptu (obiektu percepcji, percept) see : E Per

Agent ze stanem (3) Funkcja next ustala nowy stan agenta na podstawie jego aktualnego stanu oraz perceptu next : I Per I Funkcja wyboru akcji jest zdeniowana jako action : I Ac

P tla kontrolna agenta 1 Rozpocznij dziaªanie z pocz tkowym stanem wewn trznym i 0 2 Obserwuj stan ±rodowiska i wygeneruj percept see (e) 3 Aktualizuj swój stan wewn trzny za pomoc funkcji next zmiana na i 1 = next (i 0,see (e)) 4 Wykorzystaj funkcj action do wyboru kolejnej akcji action (i 1 ) 5 Wykonaj wybran akcj 6 Wró do kroku 2

Zadania dla agenta Agent jest tworzony, aby wykonywa zadania (realizowa cele) dla u»ytkownika Zadania (cele) musz by podane przez u»ytkownika......ale chcemy powiedzie agentowi, co ma zrobi bez tªumaczenia jak to zrobi

U»yteczno±ci dla stanów (1) Powi zanie u»yteczno±ci z poszczególnymi stanami ±rodowiska zadaniem agenta jest osi gni cie stanów, które maksymalizuj u»yteczno± Specykacja zadania w formie (prostej) funkcji u»yteczno±ci (utility function) u : E R

U»yteczno±ci dla stanów (2) Ale jak zdeniowa u»yteczno± dla caªego przebiegu? podej±cie pesymistyczne u»yteczno± najgorszego stanu w przebiegu podej±cie optymistyczne u»yteczno± najlepszego stanu w przebiegu suma u»yteczno±ci stanów w przebiegu ±rednia u»yteczno± stanów w przebiegu Wada: ocena lokalna bez mo»liwo±ci oceny przebiegu w dªu»szej perspektywie czasowej

U»yteczno±ci dla przebiegów Inne rozwi zanie: przypisanie u»yteczno±ci nie do poszczególnych stanów, ale do caªych przebiegów u : R R To podej±cie pozwala na uwzgl dnienie perspektywy dªugookresowej

U»yteczno± w Tileworld (1) Symulowane ±rodowisko na dwuwymiarowej planszy z agentami, kafelkami, przeszkodami i dziurami Agent mo»e porusza si w 4 podstawowych kierunkach i je±li znajduje si obok kafelka, mo»e go popycha Dziury musz by zakrywane kafelkami agent dostaje za to punkty i jego celem jest zakrycie maksymalnej liczby dziur rodowisko zmienia si dziury pojawiaj si i znikaj w sposób losowy

U»yteczno± w Tileworld (2) Dany przebieg r jest oceniany za pomoc nast puj cej funkcji u»yteczno±ci u (r) = liczba dziur zakrytych w r l aczna liczba dziur w r

Zmiany ±rodowiska w Tileworld

Oczekiwana u»yteczno± Niech P (r Ag,Env) oznacza prawdopodobie«stwo wyst pienia przebiegu r dla agenta Ag w ±rodowisku Env P (r Ag,Env) = 1 r R(Ag,Env) Oczekiwana u»yteczno± agenta Ag w ±rodowisku Env (dla danego P i u) wynosi EU (Ag,Env) = r R(Ag,Env) u (r)p (r Ag,Env)

Agent optymalny Agent optymalny Ag opt w ±rodowisku Env to agent, który maksymalizuje oczekiwan u»yteczno± Ag opt = arg maxeu (Ag,Env) Ag A G Agent optymalny nie musi by zawsze najlepszy jednak zazwyczaj jest!

Problemy z funkcj u»yteczno±ci 1 Dla wi kszo±ci problemów zdeniowanie funkcji u»yteczno±ci jest nietrywialne (lub wr cz niemo»liwe) 2 Intuicyjnie wygodniej jest rozwa»a cele do osi gni cia ni» u»yteczno±ci Pomimo tych problemów u»yteczno±ci sprawuj si dobrze dla pewnych (mniej zªo»onych) scenariuszy (np. Tileworld)...

Predykatowa specykacja zadania Specjalny przypadek funkcji u»yteczno±ci, która przypisuje przebiegowi warto± 0 lub 1 je±li przebieg uzyskuje ocen 1, wówczas agent odnosi sukces w przeciwnym razie agent ponosi kl sk Tak funkcj u»yteczno±ci okre±la si jako predykatow specykacj zadania (predicate task specication) i deniuje jako Ψ : R {0,1}

rodowisko zadania (1) rodowisko zadania (task environment) to para Env, Ψ, gdzie Env jest ±rodowiskiem, a Ψ jest predykatow specykacj zadania Niech T E b dzie zbiorem wszystkich ±rodowisk zadania rodowisko zadania deniuje wªa±ciwo±ci ±rodowiska, w którym b dzie dziaªaª agent kryteria oceniaj ce, czy agent odniósª sukces, czy te» poniósª kl sk

rodowisko zadania (2) Niech R Ψ (Ag,Env) oznacza zbiór wszystkich przebiegów agenta Ag w ±rodowisku Env, które speªniaj Ψ R Ψ (Ag,Env) = {r r R (Ag,Env) Ψ(r) = 1} Agent Ag odnosi sukces w ±rodowisku zadaniowym Env, Ψ je±li ka»dy przebieg prowadzi do sukcesu (denicja pesymistyczna) r R (Ag,Env) : Ψ(r) = 1 (R Ψ (Ag,Env) = R (Ag,Env)) co najmniej jeden przebieg prowadzi do sukcesu (denicja optymistyczna) r R (Ag,Env) : Ψ(r) = 1 (R Ψ (Ag,Env) /0)

Prawdopodobie«stwo sukcesu Prawdopodobie«stwo P (Ψ Ag,Env) speªniania Ψ przez agenta Ag w ±rodowisku Env jest zdeniowane jako P (Ψ Ag,Env) = r R Ψ (Ag,Env) P (r Ag,Env) P (Ψ Ag,Env) warto rozwa»a dla optymistycznej denicji sukcesu dla pesymistycznej zawsze równe 1.0

Zadania osi gni cia i utrzymania Dwa podstawowe typy zada«(defniowane poprzez predykatow specykacj zadania): 1 zadania osi gni cia (achievement tasks) osi gni cie pewnego stanu rzeczy φ 2 zadania utrzymania (maintenance tasks) utrzymanie pewnego stanu rzeczy ψ

Zadanie osi gni cia Zadanie osi gni cia zdeniowane jest poprzez zbiór G zawieraj cy dobre lub docelowe stany ±rodowiska (G E ) Agent odnosi sukces, je±li osi ga jeden (dowolny) ze stanów ze zbioru G gra przeciw ±rodowisku Env, G oznacza ±rodowisko zadania osi gni cia ze stanami docelowymi G i ±rodowiskiem Env

Zadanie utrzymania Zadanie utrzymania jest zdeniowane poprzez zbiór B zawieraj cy zªe stany (lub stany pora»ki) ±rodowiska(b E ) Agent odnosi sukces je±li uda mu si unikn wszystkich stanów ze zbioru B, tzn. nigdy nie wykonuje»adnej akcji prowadz cej do stanu z B ±rodowisko gra przeciwko agentowi Env, B oznacza ±rodowisko zadania utrzymania ze stanami pora»ki B i ±rodowiskiem Env

Synteza agentów Synteza agentów to problem automatycznego programowania (równie» rozwa»any w ramach AI trenowanie graczy komputerowych w grach) Cel: automatyczne stworzenie na podstawie ±rodowiska zadania specykacji takiego agenta, który odniesie sukces w tym ±rodowisku Formalnie, algorytm syntezy agenta syn mo»e by reprezentowany przez nast puj ca funkcj ( oznacza null) syn : T E (A G { })

Solidno± i kompletno± (1) Algorytm syntezy syn jest 1 solidny (sound), je±li ka»dy stworzony agent odnosi sukces we wskazanym ±rodowisku zadania (agent nie zawsze musi zosta stworzony!) 2 kompletny (complete), je±li gwarantuje stworzenie agenta, o ile tylko istnieje agent odnosz cy sukces w ±rodowisku zadania (stworzony agent nie musi odnosi sukcesu!) Idealny algorytm syntezy powinien by solidny i kompletny, przy czym ta pierwsza cecha jest bardziej istotna

Solidno± i kompletno± (2) Formalnie algorytm syn jest solidny, je±li syn ( Env,Ψ ) = Ag = R (Ag,Env) = R Ψ (Ag,Env) kompletny, je±li Ag A G : R (Ag,Env) = R Ψ (Ag,Env) = syn ( Env,Ψ )