Inteligentne Agenty. Na podstawie: AIMA ch2 i slajdów S. Russel a. Wojciech Jaśkowski. 14 marca

Podobne dokumenty
Inteligentne Agenty. Na podstawie: AIMA ch2 i slajdów S. Russel a. Wojciech Jaśkowski. 18 marca Inteligentne Agenty

WPROWADZENIE DO SZTUCZNEJ INTELIGENCJI

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD II: Agent i jego środowisko

Wykład 2. Inteligentni agenci. w oparciu o: S. Russel, P. Norvig. Artificial Intelligence. A Modern Approach. Inteligentni agenci (2g)

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD III: Problemy agenta

wykład 2 Inteligentny agent i jego otoczenie Przeszukiwanie dla problem-solving dr inż. Joanna Kołodziejczyk Zakład Sztucznej Inteligencji ISZiMM

Problemy Decyzyjne Markowa

Problemy Decyzyjne Markowa

Algorytmy estymacji stanu (filtry)

Podstawy sztucznej inteligencji

Systemy Agentowe główne cechy. Mariusz.Matuszek WETI PG

Autonomia robotów. Cezary Zieliński Instytut Automatyki i Informatyki Stosowanej Wydział Elektroniki i Technik Informacyjnych Politechnika Warszawska

Systemy agentowe. Uwagi organizacyjne i wprowadzenie. Jędrzej Potoniec

wykład 1 Inteligentny agent i jego otoczenie Szukanie jako metoda rozwiązywania problemów dr inż. Joanna Kołodziejczyk

SPOTKANIE 11: Reinforcement learning

WPROWADZENIE DO SZTUCZNEJ INTELIGENCJI

Uczenie ze wzmocnieniem

Systemy hybrydowe reaktywno-racjonalne

Uczenie ze wzmocnieniem aplikacje

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

Aby mówić o procesie decyzyjnym Markowa musimy zdefiniować następujący zestaw (krotkę): gdzie:

Uczenie ze wzmocnieniem aplikacje

Na podstawie: AIMA, ch13. Wojciech Jaśkowski. 15 marca 2013

Wojciech Jaśkowski. 6 marca 2014

Uczenie ze wzmocnieniem

10. Wstęp do Teorii Gier

Wykład VII. Pokusa nadużycia, poprawność motywacyjna

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Optymalizacja ciągła

Jazda autonomiczna Delphi zgodna z zasadami sztucznej inteligencji

Wykład XIII. Poprawność motywacyjna

Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku.

Metody Inteligencji Sztucznej i Obliczeniowej

Uczenie ze wzmocnieniem

LEKCJA 1. Co to jest programowanie? CEL Zapoznanie uczniów z pojęciami takim jak programowanie, programista, komendy, sekwencje. CZAS TRWANIA 45 minut

Uczenie ze wzmocnieniem

Akademia Młodego Ekonomisty

Obliczenia inspirowane Naturą

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Jak opisać wymagania zamawiającego wybrane elementy

Priorytetyzacja przypadków testowych za pomocą macierzy

Optymalizacja. Przeszukiwanie lokalne

Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A

Klasy abstrakcyjne i interfejsy

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Algorytmy mrówkowe (optymalizacja kolonii mrówek, Ant Colony optimisation)

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Risk-Aware Project Scheduling. SimpleUCT

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Mariusz Nowak Instytut Informatyki Politechnika Poznańska

Modelowanie Niepewności

KARTA PRZEDMIOTU. Systemy czasu rzeczywistego: D1_9

Sztuczna inteligencja i uczenie maszynowe w robotyce i systemach autonomicznych: AI/ML w robotyce, robotyka w AI/ML

1 S t r o n a. Teoria Gier Praca domowa 1 - rozwiązania

Sztuczna Inteligencja i Systemy Doradcze

Powstawanie i samoorganizacja języka pomiędzy agentami

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Klasyfikacja metodą Bayesa

Systemy uczące się wykład 1

Sztuczna inteligencja

Podstawy inżynierii oprogramowania

Jacek Skorupski pok. 251 tel konsultacje: poniedziałek , sobota zjazdowa

Lista środków trwałych - Środki trwałe. 3 Środki trwałe. 3.1 Lista środków trwałych.

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI

Teoria gier. Wykład7,31III2010,str.1. Gry dzielimy

Sieci Mobilne i Bezprzewodowe laboratorium 2 Modelowanie zdarzeń dyskretnych

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Losowość w rozproszonym modelu

Świat rzeczywisty i jego model

ZUPEŁNIE NOWE. volvo V40 ZACZYNA SIĘ OD CIEBIE

Teoria gier. Teoria gier. Odróżniać losowość od wiedzy graczy o stanie!

Mechatronika i inteligentne systemy produkcyjne. Modelowanie systemów mechatronicznych Platformy przetwarzania danych

Dobór parametrów algorytmu ewolucyjnego

Obliczenia inspirowane Naturą

Lock Manager Deadlock Źródła Jak starczy czasu. Dreadlocks. Konrad Błachnio MIMUW 19 maja 2010

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Algorytmy dla gier dwuosobowych

Instytut Konstrukcji i Eksploatacji Maszyn Katedra Logistyki i Systemów Transportowych. Badania operacyjne. Dr inż.

PLAN REALIZACJI MATERIAŁU NAUCZANIA FIZYKI W GIMNAZJUM WRAZ Z OKREŚLENIEM WYMAGAŃ EDUKACYJNYCH

Materiały wykładowe (fragmenty)


Globalny Partner na rzecz bezpiecznego świata

Inżynieria Wiedzy i Systemy Ekspertowe. Niepewność wiedzy. dr inż. Michał Bereta Politechnika Krakowska

Elementy systemu logistycznego w przedsiębiorstwie - zarządzanie logistyczne

M T E O T D O ZI Z E E A LG L O G R O Y R TM

Wykład 2. Poprawność algorytmów

Roboty grają w karty

Systemy Wspomagania Decyzji

Dzisiejszy wykład. Wzorce projektowe. Visitor Client-Server Factory Singleton

Modelowanie sytuacji konfliktowych, w których występują dwie antagonistyczne strony.

Modelowanie i obliczenia techniczne. dr inż. Paweł Pełczyński

Rozszerzony konspekt przedmiotu Inteligentne maszyny i systemy

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Metody systemowe i decyzyjne w informatyce

E2_PA Podstawy automatyki Bases of automatic. Elektrotechnika II stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny)

UCHWAŁA NR 46/2013. Senatu Akademii Marynarki Wojennej im. Bohaterów Westerplatte z dnia 19 września 2013 roku

ZARZĄDZANIU. Wykład VI. dr Jan Kazimirski

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych

Transkrypt:

Na podstawie: AIMA ch2 i slajdów S. Russel a i Na podstawie: AIMA ch2 i slajdów S. Russel a Instytut Informatyki, Politechnika Poznańska 14 marca 2014 Instytut Informatyki, Politechnika Poznańska 14 marca 2014

i environment percepts actions actuators sensors? agent Agent {człowiek, robot, bot (ang. softbot), termostat, etc.} Funkcja agenta mapuje historię obserwacji na akcje f : P A Program agenta jest konkretną implementacją funkcji agenta. i i i i 1. Agent jest wszystkim, o czym możemy pomyśleć, że postrzega swoje środowisko za pomocą sensorów (obserwacje) i działa w tym środowisku (wykonuje akcje) za pomocą aktuatorów 2. Historia obserwacji - wszystkie obserwacje, które agent mógł zaobserwować za swojego życia 3. Wybór akcji, jaką wykona agent zależy tylko i wyłącznie od sekwencji obserwacji agenta do danej chwili. Natomiast nie zależy od czegoś czego agent nie zaobserwował 4. Funkcję agenta można stabularyzować i ona w pełni scharakteryzuje agenta (zewnętrznie), ale wewnętrznie może być zaimplementowana i inny sposób niż tabela (w postaci programu agenta). Te dwa pojęcia są różne: abstrakcyjny matematyczny opis agenta i jego implementacja environment percepts actions actuators sensors? agent Agent {człowiek, robot, bot (ang. softbot), termostat, etc.} Funkcja agenta mapuje historię obserwacji na akcje f : P A Program agenta jest konkretną implementacją funkcji agenta.

i environment percepts actions actuators sensors? agent Agent {człowiek, robot, bot (ang. softbot), termostat, etc.} Funkcja agenta mapuje historię obserwacji na akcje f : P A Program agenta jest konkretną implementacją funkcji agenta. i i i i 1. Agent jest wszystkim, o czym możemy pomyśleć, że postrzega swoje środowisko za pomocą sensorów (obserwacje) i działa w tym środowisku (wykonuje akcje) za pomocą aktuatorów 2. Historia obserwacji - wszystkie obserwacje, które agent mógł zaobserwować za swojego życia 3. Wybór akcji, jaką wykona agent zależy tylko i wyłącznie od sekwencji obserwacji agenta do danej chwili. Natomiast nie zależy od czegoś czego agent nie zaobserwował 4. Funkcję agenta można stabularyzować i ona w pełni scharakteryzuje agenta (zewnętrznie), ale wewnętrznie może być zaimplementowana i inny sposób niż tabela (w postaci programu agenta). Te dwa pojęcia są różne: abstrakcyjny matematyczny opis agenta i jego implementacja environment percepts actions actuators sensors? agent Agent {człowiek, robot, bot (ang. softbot), termostat, etc.} Funkcja agenta mapuje historię obserwacji na akcje f : P A Program agenta jest konkretną implementacją funkcji agenta.

Świat odkurzacza A B i i Świat odkurzacza Świat odkurzacza A B Typy obserwacji: pozycja i zawartość, np. [A, brudno] Akcje: lewo, prawo, odkurz, nic Typy obserwacji: pozycja i zawartość, np. [A, brudno] Akcje: lewo, prawo, odkurz, nic

Przykład: Stabularyzowana funkcja agenta i i Przykład: Stabularyzowana funkcja agenta Przykład: Stabularyzowana funkcja agenta Historia obserwacji Akcja [A, czysto] prawo [A, brudno] odkurz [B, czysto] prawo [B, brudno] odkurz [A, czysto], [A, czysto] prawo [A, czysto], [A, brudno] odkurz.. Historia obserwacji [A, czysto] [A, brudno] [B, czysto] [B, brudno] [A, czysto], [A, czysto] [A, czysto], [A, brudno]. Akcja prawo odkurz prawo odkurz prawo odkurz.

Przykład: program agenta Program agenta (odruchowego, ang. reflex agent): if status = brudno then return odkurz else if pozycja = A then return prawo else if pozycja = B then return lewo Pytania 1. Jaka funkcja agenta jest odpowiednia? 2. Czy może być zaimplementowana zwięźle (program agenta)? i i Przykład: program agenta Przykład: program agenta 1. Innymi słowy, co powoduje, że agent jest dobry, zły, inteligentny albo głupi? 2. W ogólności agentem może być wszystko (np. kalkulator), ale interesują nas agenty tylko wtedy, gdy problem jest nietrywialny i środowisko złożone, tak że podejmowanie decyzji jest złożone. Program agenta (odruchowego, ang. reflex agent): if status = brudno then return odkurz else if pozycja = A then return prawo else if pozycja = B then return lewo Pytania 1. Jaka funkcja agenta jest odpowiednia? 2. Czy może być zaimplementowana zwięźle (program agenta)?

Przykład: program agenta Program agenta (odruchowego, ang. reflex agent): if status = brudno then return odkurz else if pozycja = A then return prawo else if pozycja = B then return lewo Pytania 1. Jaka funkcja agenta jest odpowiednia? 2. Czy może być zaimplementowana zwięźle (program agenta)? i i Przykład: program agenta Przykład: program agenta 1. Innymi słowy, co powoduje, że agent jest dobry, zły, inteligentny albo głupi? 2. W ogólności agentem może być wszystko (np. kalkulator), ale interesują nas agenty tylko wtedy, gdy problem jest nietrywialny i środowisko złożone, tak że podejmowanie decyzji jest złożone. Program agenta (odruchowego, ang. reflex agent): if status = brudno then return odkurz else if pozycja = A then return prawo else if pozycja = B then return lewo Pytania 1. Jaka funkcja agenta jest odpowiednia? 2. Czy może być zaimplementowana zwięźle (program agenta)?

Miara jakości czyli po owocach ich poznacie Ocena agenta na podstawie konsekwencji akcji agenta, tj. stanów Miara jakości (ang. performance measure) dokonuje oceny sekwencji stanów, np. 1 punkt za pole posprzątane do momentu T? 1 punkt za to, że pole jest czyste w danym kroku t minus 1 punkt za każdy ruch? Projektowanie miary jakości: lepiej uwzględniać oczekiwania dot. (czysta podłoga) niż brać pod uwagę to, jak nam się wydaje agent powinien się zachowywać (codzienne sprzątanie). i Miara jakości czyli po owocach ich poznacie Miara jakości czyli po owocach ich poznacie Ocena agenta na podstawie konsekwencji akcji agenta, tj. stanów Miara jakości (ang. performance measure) dokonuje oceny sekwencji stanów, np. 1 punkt za pole posprzątane do momentu T? 1. Ocena na podstawie konsekwencji akcji agenta ( po owocach ich poznacie ), czyli na podstawie sekwencji stanów. Uwaga: nie na podstawie stanów agenta ale na postawie stanów. 2. Wybór miary jakości agenta należy do projektanta. Ocena powinna być oparta na stanach. Pytanie, czy lepiej, żeby świat był posprzątany częściej ale słabiej czy więcej brudu, czy też mocniej nie mają jasnych odpowiedzi. 1 punkt za to, że pole jest czyste w danym kroku t minus 1 punkt za każdy ruch? Projektowanie miary jakości: lepiej uwzględniać oczekiwania dot. (czysta podłoga) niż brać pod uwagę to, jak nam się wydaje agent powinien się zachowywać (codzienne sprzątanie).

i Ocena czy agent jest racjonalny zależy od: 1. miary jakości, która definiuje kryterium sukcesu, 2. wiedzy a priori agenta o środowisku, 3. akcji, które agent wykonuje, 4. historii obserwacji agenta (doświadczenia). Ocena czy agent jest racjonalny zależy od: 1. miary jakości, która definiuje kryterium sukcesu, 2. wiedzy a priori agenta o środowisku, 3. akcji, które agent wykonuje, 4. historii obserwacji agenta (doświadczenia). 1. Czyli wiedzy, którą miał zanim został w tym środowisku umieszczony

i Agent racjonalny wybiera zawsze akcję, która maksymalizuje oczekiwaną wartość miary jakości, biorąc pod uwagę aktualną wiedzę agenta. Zawsze = dla każdej możliwej historii obserwacji. Wiedza = a priori + historia obserwacji. Agent racjonalny wybiera zawsze akcję, która maksymalizuje oczekiwaną wartość miary jakości, biorąc pod uwagę aktualną wiedzę agenta. Zawsze = dla każdej możliwej historii obserwacji. Wiedza = a priori + historia obserwacji.

(przykład) i (przykład) (przykład) A Czy agent: jeśli brudno, odkurz; jeśli czysto rusz się? jest racjonalny? B A B 1. To zależy od def. miary oceny! I od wiedzy o środowisku: co jeśli brud się może pojawiać? 2. Czy agent kupujący raz w tygodniu los w Lotto jest racjonalny? [Nie!] 3. Czy ubezpieczanie się jest racjonalne? [Nie!] Czy agent: jeśli brudno, odkurz; jeśli czysto rusz się? jest racjonalny?

(cechy) 1. racjonalny wszechwiedzący wszechwiedzący agent zna dokładnie wynik akcji, które wykona racjonalność: maksymalizacja oczekiwanej wartości miary jakości a priori perfekcja: maksymalizacja wartości miary jakości a posteriori częścią racjonalności jest aktywne zdobywanie informacji (eksploracja) i uczenie się ( autonomia) 2. Dlatego: racjonalny skuteczny i (cechy) (cechy) 1. Przykład z przechodzeniem przez ulicę i samolotem, z luku którego wypada bagaż i zabija przechodnia. 2. Eksploracja: Kiepski efekt z powodu braku wiedzy nie jest więc wymówką. 3. Agentowi brakuje autonomii, jeśli bazuje tylko na wiedzy a priori swojego twórcy a nie na wiedzy, którą zdobywa. Racjonalny agent powinien być autonomiczny. 1. racjonalny wszechwiedzący wszechwiedzący agent zna dokładnie wynik akcji, które wykona racjonalność: maksymalizacja oczekiwanej wartości miary jakości a priori perfekcja: maksymalizacja wartości miary jakości a posteriori częścią racjonalności jest aktywne zdobywanie informacji (eksploracja) i uczenie się ( autonomia) 2. Dlatego: racjonalny skuteczny

i Aby zaprojektować racjonalnego agenta należy określić środowisko, w którym agent ma działać. = Performance, Environment, Actuators, Sensors 1. Środowisko=problem, Agent=rozwiązanie Aby zaprojektować racjonalnego agenta należy określić środowisko, w którym agent ma działać. = Performance, Environment, Actuators, Sensors

(przykład) Automatyczny kierowca taksówki Miara jakości: bezpieczeństwo, zyski, stosowanie się do prawa ruchu drogowego, komfort jazdy, czas dojazdu,... Środowisko: drogi, ruch uliczny, piesi, pogoda, pasażerowie,... Aktuatory: kierownica, pedał gazu, hamulca, klakson, sytenzator mowy, ekran... Sensory: obraz z kamer, akcelerometry, wskaźnik paliwa, GPS, klawiatura (dla pasażera), sensory silnika, zegary... i (przykład) 1. Agent nie musi być fizyczny. Agentami są także agenty softwarowe (np. Zakupowy Agent Internetowy) (przykład) Automatyczny kierowca taksówki Miara jakości: bezpieczeństwo, zyski, stosowanie się do prawa ruchu drogowego, komfort jazdy, czas dojazdu,... Środowisko: drogi, ruch uliczny, piesi, pogoda, pasażerowie,... Aktuatory: kierownica, pedał gazu, hamulca, klakson, sytenzator mowy, ekran... Sensory: obraz z kamer, akcelerometry, wskaźnik paliwa, GPS, klawiatura (dla pasażera), sensory silnika, zegary...

Obserwowalność całkowicie obserwowalne znany stan (sensory) w każdym momencie dotyczy tylko aspektów mających znaczenie z p. widzenia miary oceny konsekwencja: agent nie musi pamiętać częściowo obserwowalne zaszumione lub niedokładne sensory brak sensorów nieobserwowalne brak sensorów i Obserwowalność Obserwowalność całkowicie obserwowalne znany stan (sensory) w każdym momencie dotyczy tylko aspektów mających znaczenie z p. widzenia miary oceny konsekwencja: agent nie musi pamiętać częściowo obserwowalne zaszumione lub niedokładne sensory brak sensorów nieobserwowalne brak sensorów 1. Jest bardzo dużo różnych środowisk. Warto je pokategoryzować wg ustalonych kryteriów. 2. Sensory agenta dają dostęp w każdym momencie czasowym do całkowitego stanu (lub tylko istotnej jego części istotnej ze względu na możliwe akcje) 3. Środowisko może być także w ogóle nieobserwowalne wtedy także agenty mogą być skuteczne

Liczność agentów i Liczność agentów Liczność agentów Jednoagentowe elementy mogą być traktowane jako agenty lub nie w zależności od ich celów Wieloagentowe środowisko kompetytywne racjonalność może wymagać losowości środowisko kooperatywne (lub mieszane) racjonalność może wymagać komunikacji Jednoagentowe elementy mogą być traktowane jako agenty lub nie w zależności od ich celów Wieloagentowe środowisko kompetytywne racjonalność może wymagać losowości środowisko kooperatywne (lub mieszane) racjonalność może wymagać komunikacji

Determinizm Deterministyczne nowy stan = f(aktualny stan, akcja) (ta definicja ignoruje niepewność związaną z akcjami innych agentów w ch wieloagentowych) Stochastyczne i Determinizm Determinizm Deterministyczne nowy stan = f(aktualny stan, akcja) (ta definicja ignoruje niepewność związaną z akcjami innych agentów w ch wieloagentowych) Stochastyczne akcje opisane są wynikami opisanymi prawdopodobieństwem ich wystąpienia Niedeterministyczne akcje mają możliwe wyniki, ale bez prawd. Uwagi: Środowisko jest niepewne jeśli nie jest w pełni obserwowalne lub nie jest deterministyczne. częściowo obserwowalne może wyglądać jakby było niedeterministyczne i zwykle traktujemy je tak ze względu na stopień skomplikowania akcje opisane są wynikami opisanymi prawdopodobieństwem ich wystąpienia Niedeterministyczne akcje mają możliwe wyniki, ale bez prawd. Uwagi: Środowisko jest niepewne jeśli nie jest w pełni obserwowalne lub nie jest deterministyczne. częściowo obserwowalne może wyglądać jakby było niedeterministyczne i zwykle traktujemy je tak ze względu na stopień skomplikowania

Epizodyczność i Epizodyczność Epizodyczność Epizodyczne czas dzielony jest na (niepodzielne) epizody. epizod = obserwacje + 1 akcja. epizody są niezależne nie trzeba planować Sekwencyjne aktualna decyzja może wpłynąć na decyzje w przyszłości Epizodyczne czas dzielony jest na (niepodzielne) epizody. epizod = obserwacje + 1 akcja. epizody są niezależne nie trzeba planować 1. Zadania klasyfikacji, np. na linii produkcyjnej 2. Szachy, kierowca taksówki Sekwencyjne aktualna decyzja może wpłynąć na decyzje w przyszłości

Statyczne i dynamiczne i Statyczne i dynamiczne Statyczne i dynamiczne Statyczne Czeka na akcję agenta Dynamiczne Dynamiczne: może się zmienić w czasie gdy agent myśli Semidynamiczne Jeśli środowisko się nie zmienia podczas myślenia, ale upływający czas liczy się do do miary jakości. Statyczne Czeka na akcję agenta Dynamiczne 1. Gra w szachy 2. real-time 3. Gra w szachy z zegarem Dynamiczne: może się zmienić w czasie gdy agent myśli Semidynamiczne Jeśli środowisko się nie zmienia podczas myślenia, ale upływający czas liczy się do do miary jakości.

Ciągłość i Ciągłość Ciągłość Dyskretne vs. ciągłe Dotyczy natury: stanu świata czasu, obserwacji i akcji Dyskretne vs. ciągłe Dotyczy natury: stanu świata czasu, obserwacji i akcji 1. Możemy mieć ciągły czasowo i ciągłe akcje, ale dyskretne obserwacje (np. kamera - kierowca taksówki)

Znane i nieznane Nie jest to cecha : dotyczy wiedzy projektanta (lub agenta) o mechanice. Znane Nieznane konsekwencje akcji (lub ich rozkłady prawd., gdy stochastyczne) są znane konsekwencje akcji są nieznane wymaga uczenia się nie ma związku z tym czy jest (całkowicie lub częściowo) obserwowalne. Najtrudniejsza kombinacja: częściowo obserwowalne, wieloagentowe, stochastyczne, sekwencyjne, dynamiczne, ciągłe i nieznane i Znane i nieznane Znane i nieznane Nie jest to cecha : dotyczy wiedzy projektanta (lub agenta) o mechanice. Znane Nieznane 1. Pasjans: znane i częściowo obserwowalne 2. Gra komputerowa, ale nie wiadomo jak się ją steruje (które klawisze co robią) jest nieznana, ale całkowicie obserwowalna 3. Najtrudniejsza kombinacja: kierowca taksówki w wypożyczonym samochodzie w dalekim kraju, gdzie nie zna zasad ruchu drogowego. 4. Najtrudniejsza kombinacja: Świat rzeczywisty konsekwencje akcji (lub ich rozkłady prawd., gdy stochastyczne) są znane konsekwencje akcji są nieznane wymaga uczenia się nie ma związku z tym czy jest (całkowicie lub częściowo) obserwowalne. Najtrudniejsza kombinacja: częściowo obserwowalne, wieloagentowe, stochastyczne, sekwencyjne, dynamiczne, ciągłe i nieznane

Przykłady Przykłady Przykłady Pasjans Chińczyk Taxi Klas. obrazu Obserwowalne? Deterministyczne? Epizodyczne? Statyczne? Dyskretne? Wieloagentowe? [zadanie 0] Obserwowalne? Deterministyczne? Epizodyczne? Statyczne? Dyskretne? Wieloagentowe? [zadanie 0] Pasjans Chińczyk Taxi Klas. obrazu

Przykłady Przykłady Przykłady Pasjans Chińczyk Taxi Klas. obrazu częściowo całkowicie częściowo całkowicie Obserwowalne? Deterministyczne? Epizodyczne? Statyczne? Dyskretne? Wieloagentowe? Pasjans Chińczyk Taxi Klas. obrazu Obserwowalne? częściowo całkowicie częściowo całkowicie Deterministyczne? Epizodyczne? Statyczne? Dyskretne? Wieloagentowe?

Przykłady Przykłady Przykłady Pasjans Chińczyk Taxi Klas. obrazu częściowo całkowicie częściowo całkowicie Obserwowalne? Deterministyczne? tak(+) nie nie tak Epizodyczne? Statyczne? Dyskretne? Wieloagentowe? Pasjans Chińczyk Taxi Klas. obrazu Obserwowalne? częściowo całkowicie częściowo całkowicie Deterministyczne? tak(+) nie nie tak Epizodyczne? Statyczne? Dyskretne? Wieloagentowe?

Przykłady Przykłady Przykłady Pasjans Chińczyk Taxi Klas. obrazu częściowo całkowicie częściowo całkowicie Obserwowalne? Deterministyczne? tak(+) nie nie tak Epizodyczne? nie nie nie tak Statyczne? Dyskretne? Wieloagentowe? Pasjans Chińczyk Taxi Klas. obrazu Obserwowalne? częściowo całkowicie częściowo całkowicie Deterministyczne? tak(+) nie nie tak Epizodyczne? nie nie nie tak Statyczne? Dyskretne? Wieloagentowe?

Przykłady Przykłady Przykłady Pasjans Chińczyk Taxi Klas. obrazu częściowo całkowicie częściowo całkowicie Obserwowalne? Deterministyczne? tak(+) nie nie tak Epizodyczne? nie nie nie tak Statyczne? tak tak nie tak/semi(*) Dyskretne? Wieloagentowe? Pasjans Chińczyk Taxi Klas. obrazu Obserwowalne? częściowo całkowicie częściowo całkowicie Deterministyczne? tak(+) nie nie tak Epizodyczne? nie nie nie tak Statyczne? tak tak nie tak/semi(*) Dyskretne? Wieloagentowe?

Przykłady Przykłady Przykłady Pasjans Chińczyk Taxi Klas. obrazu częściowo całkowicie częściowo całkowicie Obserwowalne? Deterministyczne? tak(+) nie nie tak Epizodyczne? nie nie nie tak Statyczne? tak tak nie tak/semi(*) Dyskretne? tak tak nie tak(*) Wieloagentowe? Pasjans Chińczyk Taxi Klas. obrazu Obserwowalne? częściowo całkowicie częściowo całkowicie Deterministyczne? tak(+) nie nie tak Epizodyczne? nie nie nie tak Statyczne? tak tak nie tak/semi(*) Dyskretne? tak tak nie tak(*) Wieloagentowe?

Przykłady Pasjans Chińczyk Taxi Klas. obrazu Obserwowalne? częściowo całkowicie częściowo całkowicie Deterministyczne? tak(+) nie nie tak Epizodyczne? nie nie nie tak Statyczne? tak tak nie tak/semi(*) Dyskretne? tak tak nie tak(*) Wieloagentowe? nie tak tak nie (*) dyskusyjne (+) tak, ale ze względu na częściową obserwowalność może wydawać się stochastyczne Przykłady 1. Klasyfikacja obrazu wizyjnego, jeśli to jest taśma produkcyjna, to czas gra rolę, stąd semi Przykłady Pasjans Chińczyk Taxi Klas. obrazu częściowo całkowicie częściowo całkowicie Obserwowalne? Deterministyczne? tak(+) nie nie tak Epizodyczne? nie nie nie tak Statyczne? tak tak nie tak/semi(*) Dyskretne? tak tak nie tak(*) Wieloagentowe? nie tak tak nie (*) dyskusyjne (+) tak, ale ze względu na częściową obserwowalność może wydawać się stochastyczne

Typy agentów i Typy agentów Typy agentów Cztery typy agentów w kolejności coraz większej ogólności: 1. agent odruchowy (ang. simple reflex agent) 2. agent odruchowy z modelem (ang. model-based reflex agent) 3. agent celowy (ang. goal-based agent) 4. agent z f. użyteczności (ang. utility-based agent) Wszystkie typy agentów mogą być przekształcone w agentów uczących się Cztery typy agentów w kolejności coraz większej ogólności: 1. agent odruchowy (ang. simple reflex agent) 2. agent odruchowy z modelem (ang. model-based reflex agent) 3. agent celowy (ang. goal-based agent) 4. agent z f. użyteczności (ang. utility-based agent) Wszystkie typy agentów mogą być przekształcone w agentów uczących się

Condition action rules Sensors Actuators Agent odruchowy (simple reflex agent) Agent Sensors i Agent odruchowy (simple reflex agent) Agent odruchowy (simple reflex agent) Agent ignoruje historię (bez pamięci) np. prosty system regułowy What the world is like now What action I should do now może być racjonalny jeśli świat całkowicie obserwowalny Environment Condition action rules What the world is like now What action I should do now Environment 1. Np. agent świata odkurzacza Actuators ignoruje historię (bez pamięci) np. prosty system regułowy może być racjonalny jeśli świat całkowicie obserwowalny

State How the world evolves What my actions do Condition action rules Sensors Actuators Agent odruchowy z modelem świata State How the world evolves What my actions do Condition action rules Sensors What the world is like now What action I should do now Environment i Agent odruchowy z modelem świata Agent odruchowy z modelem świata Agent What the world is like now What action I should do now Utrzymywać wiedzę stanie świata (w szczególności o jego nieobserwowalnej części) wewnętrzny stan agenta. Zwykle wiedza ta jest niepewna. stan świata = aktualizacja(stan świata, akcja, obserwacja, model) Uaktualnianie wewnętrznego stanu agenta wymaga wiedzy o tym jak działa świat (model świata). Environment Agent Actuators Utrzymywać wiedzę stanie świata (w szczególności o jego nieobserwowalnej części) wewnętrzny stan agenta. Zwykle wiedza ta jest niepewna. stan świata = aktualizacja(stan świata, akcja, obserwacja, model) Uaktualnianie wewnętrznego stanu agenta wymaga wiedzy o tym jak działa świat (model świata).

State How the world evolves What my actions do Goals Sensors What it will be like if I do action A Actuators Agent celowy (goal-based agent) State How the world evolves What my actions do Goals Sensors What the world is like now What it will be like if I do action A What action I should do now Environment i Agent celowy (goal-based agent) 1. Np. czy taksówka jest w miejscu docelowym 2. Zwykle tutaj mamy do czynienia z agentami, którzy wykonują jakiegoś rodzaju przeszukiwanie lub planowanie. Agent celowy (goal-based agent) Agent What the world is like now What action I should do now Nie ma reguł, ale zna cel, potrafi ocenić konsekwencje swoich akcji (czy akcja prowadzi do osiągnięcia celu). Dyskretny cel, zwykle: planowanie, przeszukiwanie. Environment Agent Actuators Nie ma reguł, ale zna cel, potrafi ocenić konsekwencje swoich akcji (czy akcja prowadzi do osiągnięcia celu). Dyskretny cel, zwykle: planowanie, przeszukiwanie.

odruchowy vs. celowy i odruchowy vs. celowy odruchowy vs. celowy Agent odruchowy: If Światła hamowania Then wciskam hamulec Agent celowy: Widzę światła hamowania. Która akcje doprowadzi mnie do celu? przyspienie stała prędkość zwolnienie? Cel jest dyskretny: [szczęśliwy, nieszęśliwy]. Nie ważne ile czasu to zajmie. Agent odruchowy: If Światła hamowania Then wciskam hamulec Agent celowy: Widzę światła hamowania. Która akcje doprowadzi mnie do celu? 1. Analogia do problemu przeszukiwania i problemu optymalizacji przyspienie stała prędkość zwolnienie? Cel jest dyskretny: [szczęśliwy, nieszęśliwy]. Nie ważne ile czasu to zajmie.

State How the world evolves What my actions do Utility Sensors What it will be like if I do action A How happy I will be in such a state Actuators Agent z f. użyteczności State How the world evolves What my actions do Utility Sensors What the world is like now What it will be like if I do action A How happy I will be in such a state What action I should do now Environment i Agent z f. użyteczności Agent z f. użyteczności Agent What the world is like now What action I should do now Funkcja użyteczności: stan świata R. 1. Ma to szczególne znaczenie, gdy: i) jest wiele celów. f. użyteczności pozwala na kompromis pomiędzy nimi ii) cele są osiągane probabilistycznie. Wtedy możliwe jest działanie w oparciu o oczekiwaną użyteczność Im większa wartość tym stan świata jest bardziej pożądany przez agenta. Funkcja użyteczności uwewnętrznia miarę jakości. f. użyteczności jest zgodna z miarą jakości = agent jest racjonalny Environment Agent Actuators Funkcja użyteczności: stan świata R. Im większa wartość tym stan świata jest bardziej pożądany przez agenta. Funkcja użyteczności uwewnętrznia miarę jakości. f. użyteczności jest zgodna z miarą jakości = agent jest racjonalny

Agent z f. użyteczności, c.d Agent z f. użyteczności: Widzę światła hamowania. Do stanów o jakiej użyteczności prowadzą mnie akcje: przyspieszenie: -0.5 stała prędkość: -0.1 zwolnienie? +1.2 i Agent z f. użyteczności, c.d Agent z f. użyteczności, c.d Agent z f. użyteczności: Widzę światła hamowania. Do stanów o jakiej użyteczności prowadzą mnie akcje: przyspieszenie: -0.5 stała prędkość: -0.1 zwolnienie? +1.2 Częściowa obserwowalność lub stochastyczność Agent. z f. użyteczności maksymalizuje oczekiwaną wartość użyteczności Każdy agent racjonalny zachowuje się jak gdyby posiadał f. użyteczności, której oczekiwaną wartość maksymalizuje. Częściowa obserwowalność lub stochastyczność Agent. z f. użyteczności maksymalizuje oczekiwaną wartość użyteczności Każdy agent racjonalny zachowuje się jak gdyby posiadał f. użyteczności, której oczekiwaną wartość maksymalizuje.

Performance standard feedback learning goals Critic Learning element Problem generator changes knowledge Sensors Performance element Actuators Agent uczący się (ogólnie) Performance standard Critic Sensors i Agent uczący się (ogólnie) Agent uczący się (ogólnie) Agent Element wykonawczy agent Element uczący zmienia agenta dzięki informacji zwrotnej Krytyk wygrałem czy przegrałem? Niezmienny standard jakości czy wygrana jest pożądana? Element eksploracyjny eksploracja świata Environment feedback learning goals Learning element changes knowledge Performance element Environment 1. Critic obserwacje nie wystarczą, bo jeśli wiem, że jest szach-mat, to nie wiem jak tę sytuację ocenić - czy jest pożądana czy nie. Problem generator Agent Actuators Element wykonawczy agent Element uczący zmienia agenta dzięki informacji zwrotnej Krytyk wygrałem czy przegrałem? Niezmienny standard jakości czy wygrana jest pożądana? Element eksploracyjny eksploracja świata

Podsumowanie oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie i Podsumowanie Podsumowanie oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie Funkcja jakości ocenia sekwencję stanów Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Program agenta implementuje pewną funkcję agenta definiują środowisko zadania Środowiska można określić jako: obserwowalne? deterministyczne? epizodyczne? statyczne? dyskretne? wieloagentowe? Podstawowe architektury agentów: reflex, model-based reflex, goal-based, utility-based Funkcja jakości ocenia sekwencję stanów Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Program agenta implementuje pewną funkcję agenta definiują środowisko zadania Środowiska można określić jako: obserwowalne? deterministyczne? epizodyczne? statyczne? dyskretne? wieloagentowe? Podstawowe architektury agentów: reflex, model-based reflex, goal-based, utility-based

Podsumowanie oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie i Podsumowanie Podsumowanie oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie Funkcja jakości ocenia sekwencję stanów Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Program agenta implementuje pewną funkcję agenta definiują środowisko zadania Środowiska można określić jako: obserwowalne? deterministyczne? epizodyczne? statyczne? dyskretne? wieloagentowe? Podstawowe architektury agentów: reflex, model-based reflex, goal-based, utility-based Funkcja jakości ocenia sekwencję stanów Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Program agenta implementuje pewną funkcję agenta definiują środowisko zadania Środowiska można określić jako: obserwowalne? deterministyczne? epizodyczne? statyczne? dyskretne? wieloagentowe? Podstawowe architektury agentów: reflex, model-based reflex, goal-based, utility-based

Podsumowanie oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie i Podsumowanie Podsumowanie oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie Funkcja jakości ocenia sekwencję stanów Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Program agenta implementuje pewną funkcję agenta definiują środowisko zadania Środowiska można określić jako: obserwowalne? deterministyczne? epizodyczne? statyczne? dyskretne? wieloagentowe? Podstawowe architektury agentów: reflex, model-based reflex, goal-based, utility-based Funkcja jakości ocenia sekwencję stanów Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Program agenta implementuje pewną funkcję agenta definiują środowisko zadania Środowiska można określić jako: obserwowalne? deterministyczne? epizodyczne? statyczne? dyskretne? wieloagentowe? Podstawowe architektury agentów: reflex, model-based reflex, goal-based, utility-based

Podsumowanie oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie i Podsumowanie Podsumowanie oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie Funkcja jakości ocenia sekwencję stanów Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Program agenta implementuje pewną funkcję agenta definiują środowisko zadania Środowiska można określić jako: obserwowalne? deterministyczne? epizodyczne? statyczne? dyskretne? wieloagentowe? Podstawowe architektury agentów: reflex, model-based reflex, goal-based, utility-based Funkcja jakości ocenia sekwencję stanów Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Program agenta implementuje pewną funkcję agenta definiują środowisko zadania Środowiska można określić jako: obserwowalne? deterministyczne? epizodyczne? statyczne? dyskretne? wieloagentowe? Podstawowe architektury agentów: reflex, model-based reflex, goal-based, utility-based

Podsumowanie oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie i Podsumowanie Podsumowanie oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie Funkcja jakości ocenia sekwencję stanów Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Program agenta implementuje pewną funkcję agenta definiują środowisko zadania Środowiska można określić jako: obserwowalne? deterministyczne? epizodyczne? statyczne? dyskretne? wieloagentowe? Podstawowe architektury agentów: reflex, model-based reflex, goal-based, utility-based Funkcja jakości ocenia sekwencję stanów Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Program agenta implementuje pewną funkcję agenta definiują środowisko zadania Środowiska można określić jako: obserwowalne? deterministyczne? epizodyczne? statyczne? dyskretne? wieloagentowe? Podstawowe architektury agentów: reflex, model-based reflex, goal-based, utility-based