Inteligentne Agenty. Na podstawie: AIMA ch2 i slajdów S. Russel a. Wojciech Jaśkowski. 18 marca Inteligentne Agenty

Podobne dokumenty
Inteligentne Agenty. Na podstawie: AIMA ch2 i slajdów S. Russel a. Wojciech Jaśkowski. 14 marca

WPROWADZENIE DO SZTUCZNEJ INTELIGENCJI

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD II: Agent i jego środowisko

Wykład 2. Inteligentni agenci. w oparciu o: S. Russel, P. Norvig. Artificial Intelligence. A Modern Approach. Inteligentni agenci (2g)

Elementy kognitywistyki II: Sztuczna inteligencja. WYKŁAD III: Problemy agenta

Algorytmy estymacji stanu (filtry)

Problemy Decyzyjne Markowa

Problemy Decyzyjne Markowa

wykład 2 Inteligentny agent i jego otoczenie Przeszukiwanie dla problem-solving dr inż. Joanna Kołodziejczyk Zakład Sztucznej Inteligencji ISZiMM

Systemy Agentowe główne cechy. Mariusz.Matuszek WETI PG

Autonomia robotów. Cezary Zieliński Instytut Automatyki i Informatyki Stosowanej Wydział Elektroniki i Technik Informacyjnych Politechnika Warszawska

Podstawy sztucznej inteligencji

Systemy agentowe. Uwagi organizacyjne i wprowadzenie. Jędrzej Potoniec

Uczenie ze wzmocnieniem aplikacje

Uczenie ze wzmocnieniem

Uczenie ze wzmocnieniem aplikacje

wykład 1 Inteligentny agent i jego otoczenie Szukanie jako metoda rozwiązywania problemów dr inż. Joanna Kołodziejczyk

WPROWADZENIE DO SZTUCZNEJ INTELIGENCJI

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

SPOTKANIE 11: Reinforcement learning

Uczenie ze wzmocnieniem

Modelowanie Niepewności

Na podstawie: AIMA, ch13. Wojciech Jaśkowski. 15 marca 2013

Wojciech Jaśkowski. 6 marca 2014

Systemy hybrydowe reaktywno-racjonalne

Uczenie ze wzmocnieniem

10. Wstęp do Teorii Gier

Akademia Młodego Ekonomisty

Uczenie ze wzmocnieniem

Wykład VII. Pokusa nadużycia, poprawność motywacyjna

Metody Inteligencji Sztucznej i Obliczeniowej

Aby mówić o procesie decyzyjnym Markowa musimy zdefiniować następujący zestaw (krotkę): gdzie:

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Teoria gier. Wykład7,31III2010,str.1. Gry dzielimy

Optymalizacja ciągła

Teoria gier. Teoria gier. Odróżniać losowość od wiedzy graczy o stanie!

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Wykład XIII. Poprawność motywacyjna

Algorytmy dla gier dwuosobowych

Sztuczna Inteligencja i Systemy Doradcze

Klasy abstrakcyjne i interfejsy

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku.

Mikroekonomia. Wykład 11

LEKCJA 1. Co to jest programowanie? CEL Zapoznanie uczniów z pojęciami takim jak programowanie, programista, komendy, sekwencje. CZAS TRWANIA 45 minut

Priorytetyzacja przypadków testowych za pomocą macierzy

Podstawy inżynierii oprogramowania

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Sieci Mobilne i Bezprzewodowe laboratorium 2 Modelowanie zdarzeń dyskretnych

Powstawanie i samoorganizacja języka pomiędzy agentami

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

1 S t r o n a. Teoria Gier Praca domowa 1 - rozwiązania

Jazda autonomiczna Delphi zgodna z zasadami sztucznej inteligencji

Sztuczna inteligencja i uczenie maszynowe w robotyce i systemach autonomicznych: AI/ML w robotyce, robotyka w AI/ML

KARTA PRZEDMIOTU. Systemy czasu rzeczywistego: D1_9

Klasyfikacja metodą Bayesa

JAKIEGO RODZAJU NAUKĄ JEST

Co ma piekarz do matematyki?

Inżynieria Wiedzy i Systemy Ekspertowe. Niepewność wiedzy. dr inż. Michał Bereta Politechnika Krakowska

M T E O T D O ZI Z E E A LG L O G R O Y R TM

Ćwiczenie 1 Planowanie trasy robota mobilnego w siatce kwadratów pól - Algorytm A

Obliczenia inspirowane Naturą

Risk-Aware Project Scheduling. SimpleUCT

Ekonomia. Wykład dla studentów WPiA. Wykład 3: (Nie)racjonalność wyborów

Losowość w rozproszonym modelu

Jak opisać wymagania zamawiającego wybrane elementy

7. Pętle for. Przykłady

Lista środków trwałych - Środki trwałe. 3 Środki trwałe. 3.1 Lista środków trwałych.

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

ZUPEŁNIE NOWE. volvo V40 ZACZYNA SIĘ OD CIEBIE

Świat rzeczywisty i jego model

Autor: Przemysław Jóskowiak. Wydawca: Stratego24 Przemysław Jóskowiak ul. Piękna 20, Warszawa. Kontakt:

Systemy Wspomagania Decyzji

dr inż. Jarosław Forenc

Formacyjne znaczenie programowania w kształceniu menedżerów

KARTA PRZEDMIOTU. Techniki przetwarzania sygnałów, D1_3

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Ile waży arbuz? Copyright Łukasz Sławiński

RZECZYWISTOŚĆ SPOŁECZNA: DZIAŁANIA SPOŁECZNE, GRUPA SPOŁECZNA, ZACHOWANIA ZBIOROWE, Jagoda Mrzygłocka-Chojnacka

Teoria gier. Łukasz Balbus Anna Jaśkiewicz

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Sztuczna inteligencja

Systemy uczące się wykład 1

Model procesu dydaktycznego


Mariusz Nowak Instytut Informatyki Politechnika Poznańska

8. Podejmowanie Decyzji przy Niepewności

Globalny Partner na rzecz bezpiecznego świata

Modelowanie sytuacji konfliktowych, w których występują dwie antagonistyczne strony.

Optymalizacja. Przeszukiwanie lokalne

Jak badać kompetencje? Narzędzia badawcze nie tylko dla HR. Maciej Głogowski

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI

Metody systemowe i decyzyjne w informatyce

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Rozszerzony konspekt przedmiotu Inteligentne maszyny i systemy

Algorytmy mrówkowe (optymalizacja kolonii mrówek, Ant Colony optimisation)

Wykład 7 i 8. Przeszukiwanie z adwersarzem. w oparciu o: S. Russel, P. Norvig. Artificial Intelligence. A Modern Approach

Biostatystyka, # 3 /Weterynaria I/

Spadające jabłuszka. licencja CC-BY-SA Uznanie autorstwa Na tych samych warunkach 3.0 Polska. Strona 51

Transkrypt:

Na podstawie: AIMA ch2 i slajdów S. Russel a Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 18 marca 2016 Na podstawie: AIMA ch2 i slajdów S. Russel a Wojciech Jaśkowski Instytut Informatyki, Politechnika Poznańska 18 marca 2016

Agenty i środowiska sensors Agenty i środowiska Agenty i środowiska Agenty i środowiska sensors percepts? environment agent actions actuators Agent {człowiek, robot, bot (ang. softbot), termostat, etc.} Funkcja agenta mapuje historię obserwacji na akcje f : P A environment percepts actions actuators? agent Agent {człowiek, robot, bot (ang. softbot), termostat, etc.} Funkcja agenta mapuje historię obserwacji na akcje f : P A 1. Agent jest wszystkim, o czym możemy pomyśleć, że postrzega swoje środowisko za pomocą sensorów (obserwacje) i działa w tym środowisku (wykonuje akcje) za pomocą aktuatorów 2. Historia obserwacji - wszystkie obserwacje, które agent mógł zaobserwować za swojego życia 3. Wybór akcji, jaką wykona agent zależy tylko i wyłącznie od sekwencji obserwacji agenta do danej chwili. Natomiast nie zależy od czegoś czego agent nie zaobserwował 4. Funkcję agenta można stabularyzować i ona w pełni scharakteryzuje agenta (zewnętrznie), ale wewnętrznie może być zaimplementowana i inny sposób niż tabela (w postaci programu agenta). Te dwa pojęcia są różne: abstrakcyjny matematyczny opis agenta i jego implementacja

Agenty i środowiska sensors Agenty i środowiska Agenty i środowiska Agenty i środowiska sensors percepts? environment agent actions actuators Agent {człowiek, robot, bot (ang. softbot), termostat, etc.} Funkcja agenta mapuje historię obserwacji na akcje f : P A Program agenta jest konkretną implementacją funkcji agenta. environment percepts actions actuators? agent Agent {człowiek, robot, bot (ang. softbot), termostat, etc.} Funkcja agenta mapuje historię obserwacji na akcje f : P A Program agenta jest konkretną implementacją funkcji agenta. 1. Agent jest wszystkim, o czym możemy pomyśleć, że postrzega swoje środowisko za pomocą sensorów (obserwacje) i działa w tym środowisku (wykonuje akcje) za pomocą aktuatorów 2. Historia obserwacji - wszystkie obserwacje, które agent mógł zaobserwować za swojego życia 3. Wybór akcji, jaką wykona agent zależy tylko i wyłącznie od sekwencji obserwacji agenta do danej chwili. Natomiast nie zależy od czegoś czego agent nie zaobserwował 4. Funkcję agenta można stabularyzować i ona w pełni scharakteryzuje agenta (zewnętrznie), ale wewnętrznie może być zaimplementowana i inny sposób niż tabela (w postaci programu agenta). Te dwa pojęcia są różne: abstrakcyjny matematyczny opis agenta i jego implementacja

Świat odkurzacza Agenty i środowiska Świat odkurzacza Świat odkurzacza A B Typy obserwacji: pozycja i zawartość, np. [A, brudno] Akcje: lewo, prawo, odkurz, nic A B 1. 2 2 2 = 8 Typy obserwacji: pozycja i zawartość, np. [A, brudno] Akcje: lewo, prawo, odkurz, nic

Świat odkurzacza Agenty i środowiska Świat odkurzacza Świat odkurzacza A B Typy obserwacji: pozycja i zawartość, np. [A, brudno] Akcje: lewo, prawo, odkurz, nic Ile jest różnych stanów tego świata?[zadanie 0] A B 1. 2 2 2 = 8 Typy obserwacji: pozycja i zawartość, np. [A, brudno] Akcje: lewo, prawo, odkurz, nic Ile jest różnych stanów tego świata?[zadanie 0]

Przykład: stabularyzowana funkcja agenta Agenty i środowiska Przykład: stabularyzowana funkcja agenta Przykład: stabularyzowana funkcja agenta Historia obserwacji Akcja [A, czysto] prawo [A, brudno] odkurz [B, czysto] prawo [B, brudno] odkurz [A, czysto], [A, czysto] prawo [A, czysto], [A, brudno] odkurz.. Historia obserwacji [A, czysto] [A, brudno] [B, czysto] [B, brudno] [A, czysto], [A, czysto] [A, czysto], [A, brudno]. Akcja prawo odkurz prawo odkurz prawo odkurz.

Przykład: program agenta Agenty i środowiska Przykład: program agenta Przykład: program agenta Program agenta (odruchowego, ang. reflex agent): if status = brudno then return odkurz else if pozycja = A then return prawo else if pozycja = B then return lewo Program agenta (odruchowego, ang. reflex agent): if status = brudno then return odkurz else if pozycja = A then return prawo else if pozycja = B then return lewo 1. Innymi słowy, co powoduje, że agent jest dobry, zły, inteligentny albo głupi? 2. W ogólności agentem może być wszystko (np. kalkulator), ale interesują nas agenty tylko wtedy, gdy problem jest nietrywialny i środowisko złożone, tak że podejmowanie decyzji jest złożone.

Przykład: program agenta Agenty i środowiska Przykład: program agenta Przykład: program agenta Program agenta (odruchowego, ang. reflex agent): if status = brudno then return odkurz else if pozycja = A then return prawo else if pozycja = B then return lewo Pytania 1 Jaka funkcja agenta jest odpowiednia? 2 Czy może być zaimplementowana zwięźle (program agenta)? Program agenta (odruchowego, ang. reflex agent): if status = brudno then return odkurz else if pozycja = A then return prawo else if pozycja = B then return lewo 1. Innymi słowy, co powoduje, że agent jest dobry, zły, inteligentny albo głupi? 2. W ogólności agentem może być wszystko (np. kalkulator), ale interesują nas agenty tylko wtedy, gdy problem jest nietrywialny i środowisko złożone, tak że podejmowanie decyzji jest złożone. Pytania 1 Jaka funkcja agenta jest odpowiednia? 2 Czy może być zaimplementowana zwięźle (program agenta)?

Miara jakości czyli po owocach ich poznacie Racjonalność Miara jakości czyli po owocach ich poznacie Miara jakości czyli po owocach ich poznacie Ocena agenta na podstawie konsekwencji akcji agenta, tj. stanów środowiska Miara jakości (ang. performance measure) dokonuje oceny sekwencji stanów środowiska, np. 1 punkt za pole posprzątane do momentu T 1 punkt za to, że pole jest czyste w danym kroku t minus 1 punkt za każdy ruch Projektowanie miary jakości: lepiej uwzględniać oczekiwania dot. środowiska (czysta podłoga) niż brać pod uwagę to, jak nam się wydaje agent powinien się zachowywać (codzienne sprzątanie). Ocena agenta na podstawie konsekwencji akcji agenta, tj. stanów środowiska Miara jakości (ang. performance measure) dokonuje oceny sekwencji stanów środowiska, np. 1 punkt za pole posprzątane do momentu T 1 punkt za to, że pole jest czyste w danym kroku t minus 1 punkt za każdy ruch 1. Ocena na podstawie konsekwencji akcji agenta ( po owocach ich poznacie ), czyli na podstawie sekwencji stanów. Uwaga: nie na podstawie stanów agenta ani historii obserwacji ale na postawie stanów środowiska. 2. Wybór miary jakości agenta należy do projektanta. Ocena powinna być oparta na stanach środowiska. Pytanie, czy lepiej, żeby świat był posprzątany częściej ale słabiej czy więcej brudu, czy też mocniej nie mają jasnych odpowiedzi. Projektowanie miary jakości: lepiej uwzględniać oczekiwania dot. środowiska (czysta podłoga) niż brać pod uwagę to, jak nam się wydaje agent powinien się zachowywać (codzienne sprzątanie).

Racjonalność Racjonalność Racjonalność Racjonalność Ocena czy agent jest racjonalny zależy od: 1 miary jakości, która definiuje kryterium sukcesu, 2 wiedzy a priori agenta o środowisku, 3 akcji, które agent wykonuje, 4 historii obserwacji agenta (doświadczenia). Ocena czy agent jest racjonalny zależy od: 1 miary jakości, która definiuje kryterium sukcesu, 1. Czyli wiedzy, którą miał zanim został w tym środowisku umieszczony 2 wiedzy a priori agenta o środowisku, 3 akcji, które agent wykonuje, 4 historii obserwacji agenta (doświadczenia).

Racjonalność Racjonalność Racjonalność Racjonalność Racjonalność Agent racjonalny wybiera zawsze akcję, która maksymalizuje oczekiwaną wartość miary jakości, biorąc pod uwagę aktualną wiedzę agenta. Zawsze = dla każdej możliwej historii obserwacji. Wiedza = a priori + historia obserwacji. Racjonalność Agent racjonalny wybiera zawsze akcję, która maksymalizuje oczekiwaną wartość miary jakości, biorąc pod uwagę aktualną wiedzę agenta. Zawsze = dla każdej możliwej historii obserwacji. Wiedza = a priori + historia obserwacji.

Racjonalność (przykład) Racjonalność Racjonalność (przykład) Racjonalność (przykład) A B Czy agent: jeśli brudno, odkurz; jeśli czysto rusz się? jest racjonalny?[zadanie 1] A B 1. To zależy od def. miary oceny! I od wiedzy o środowisku: co jeśli brud się może pojawiać? 2. Czy agent kupujący raz w tygodniu los w Lotto jest racjonalny? [Raczej nie, ale zależy od miary jakości] 3. Czy ubezpieczanie się jest racjonalne? [Raczej nie, ale zależy od miary jakości] Czy agent: jeśli brudno, odkurz; jeśli czysto rusz się? jest racjonalny?[zadanie 1]

Racjonalność (cechy) Racjonalność Racjonalność (cechy) Racjonalność (cechy) 1 racjonalny wszechwiedzący wszechwiedzący agent zna dokładnie wynik akcji, które wykona ( szklana kula ) racjonalność: maksymalizacja oczekiwanej wartości miary jakości a priori perfekcja: maksymalizacja wartości miary jakości a posteriori ale: częścią racjonalności jest aktywne zdobywanie informacji (eksploracja) i uczenie się ( autonomia) 2 Dlatego: racjonalny skuteczny 1 racjonalny wszechwiedzący wszechwiedzący agent zna dokładnie wynik akcji, które wykona ( szklana kula ) racjonalność: maksymalizacja oczekiwanej wartości miary jakości a priori perfekcja: maksymalizacja wartości miary jakości a posteriori ale: częścią racjonalności jest aktywne zdobywanie informacji (eksploracja) i uczenie się ( autonomia) 2 Dlatego: racjonalny skuteczny 1. Przykład z przechodzeniem przez ulicę i samolotem, z luku którego wypada bagaż i zabija przechodnia. 2. Eksploracja: Kiepski efekt z powodu braku wiedzy nie jest więc wymówką. 3. Agentowi brakuje autonomii, jeśli bazuje tylko na wiedzy a priori swojego twórcy a nie na wiedzy, którą zdobywa. Racjonalny agent powinien być autonomiczny.

PEAS PEAS PEAS PEAS Aby zaprojektować racjonalnego agenta należy określić środowisko, w którym agent ma działać. PEAS = Performance, Environment, Actuators, Sensors 1. Środowisko=problem, Agent=rozwiązanie Aby zaprojektować racjonalnego agenta należy określić środowisko, w którym agent ma działać. PEAS = Performance, Environment, Actuators, Sensors

PEAS (przykład) PEAS PEAS (przykład) PEAS (przykład) Automatyczny kierowca taksówki Miara jakości: bezpieczeństwo, zyski, stosowanie się do prawa ruchu drogowego, komfort jazdy, czas dojazdu,... Środowisko: drogi, ruch uliczny, piesi, pogoda, pasażerowie,... Aktuatory: kierownica, pedał gazu, hamulca, klakson, sytenzator mowy, ekran... Sensory: obraz z kamer, akcelerometry, wskaźnik paliwa, GPS, klawiatura (dla pasażera), sensory silnika, zegary... Automatyczny kierowca taksówki Miara jakości: bezpieczeństwo, zyski, stosowanie się do prawa ruchu drogowego, komfort jazdy, czas dojazdu,... Środowisko: drogi, ruch uliczny, piesi, pogoda, pasażerowie,... Aktuatory: kierownica, pedał gazu, hamulca, klakson, sytenzator mowy, ekran... Sensory: obraz z kamer, akcelerometry, wskaźnik paliwa, GPS, klawiatura (dla pasażera), sensory silnika, zegary... 1. Agent nie musi być fizyczny. Agentami są także agenty softwarowe (np. Zakupowy Agent Internetowy)

Obserwowalność Cechy środowisk Obserwowalność Obserwowalność całkowicie obserwowalne znany stan środowiska (sensory) w każdym momencie dotyczy tylko aspektów mających znaczenie z p. widzenia miary oceny konsekwencja: agent nie musi pamiętać częściowo obserwowalne zaszumione lub niedokładne sensory brak sensorów nieobserwowalne brak sensorów całkowicie obserwowalne znany stan środowiska (sensory) w każdym momencie dotyczy tylko aspektów mających znaczenie z p. widzenia miary oceny konsekwencja: agent nie musi pamiętać częściowo obserwowalne 1. Jest bardzo dużo różnych środowisk. Warto je pokategoryzować wg ustalonych kryteriów. 2. Sensory agenta dają dostęp w każdym momencie czasowym do całkowitego stanu środowiska (lub tylko istotnej jego części istotnej ze względu na możliwe akcje) 3. Środowisko może być także w ogóle nieobserwowalne wtedy także agenty mogą być skuteczne zaszumione lub niedokładne sensory brak sensorów nieobserwowalne brak sensorów

Liczność agentów Cechy środowisk Liczność agentów Liczność agentów Jednoagentowe elementy środowiska mogą być traktowane jako agenty lub nie w zależności od ich celów Wieloagentowe środowisko kompetytywne racjonalność może wymagać losowości środowisko kooperatywne (lub mieszane) racjonalność może wymagać komunikacji Jednoagentowe elementy środowiska mogą być traktowane jako agenty lub nie w zależności od ich celów Wieloagentowe środowisko kompetytywne racjonalność może wymagać losowości środowisko kooperatywne (lub mieszane) racjonalność może wymagać komunikacji

Determinizm Deterministyczne nowy stan = f(aktualny stan, akcja) (ta definicja ignoruje niepewność związaną z akcjami innych agentów w środowiskach wieloagentowych) Stochastyczne wyniki akcji są opisane prawdopodobieństwem ich wystąpienia Niedeterministyczne dane są możliwe wyniki akcji, ale bez prawd. Cechy środowisk Determinizm Determinizm Deterministyczne nowy stan = f(aktualny stan, akcja) (ta definicja ignoruje niepewność związaną z akcjami innych agentów w środowiskach wieloagentowych) Stochastyczne wyniki akcji są opisane prawdopodobieństwem ich wystąpienia Niedeterministyczne dane są możliwe wyniki akcji, ale bez prawd. 1. Niedeterministyczne: zwykle w sytuacji, gdy miara jakości każe agentowi działać skutecznie dla wszystkich wyników akcji (przykład: kryterium minimax w grach kompetytywnych)

Determinizm Uwagi: Deterministyczne nowy stan = f(aktualny stan, akcja) (ta definicja ignoruje niepewność związaną z akcjami innych agentów w środowiskach wieloagentowych) Stochastyczne wyniki akcji są opisane prawdopodobieństwem ich wystąpienia Niedeterministyczne dane są możliwe wyniki akcji, ale bez prawd. Środowisko jest niepewne jeśli nie jest w pełni obserwowalne lub nie jest deterministyczne. częściowo obserwowalne może wyglądać jakby było stochastyczne i zwykle traktujemy je tak ze względu na stopień skomplikowania. Cechy środowisk Determinizm Determinizm Uwagi: Deterministyczne nowy stan = f(aktualny stan, akcja) (ta definicja ignoruje niepewność związaną z akcjami innych agentów w środowiskach wieloagentowych) Stochastyczne wyniki akcji są opisane prawdopodobieństwem ich wystąpienia Niedeterministyczne dane są możliwe wyniki akcji, ale bez prawd. Środowisko jest niepewne jeśli nie jest w pełni obserwowalne lub nie jest deterministyczne. częściowo obserwowalne może wyglądać jakby było stochastyczne i zwykle traktujemy je tak ze względu na stopień skomplikowania. 1. Niedeterministyczne: zwykle w sytuacji, gdy miara jakości każe agentowi działać skutecznie dla wszystkich wyników akcji (przykład: kryterium minimax w grach kompetytywnych)

Epizodyczność Cechy środowisk Epizodyczność Epizodyczność Epizodyczne czas dzielone jest na (niepodzielne) epizody. epizod = obserwacje + 1 akcja. epizody są niezależne nie trzeba planować Sekwencyjne aktualna decyzja może wpłynąć na decyzje w przyszłości Epizodyczne czas dzielone jest na (niepodzielne) epizody. epizod = obserwacje + 1 akcja. epizody są niezależne nie trzeba planować Sekwencyjne aktualna decyzja może wpłynąć na decyzje w przyszłości 1. Zadania klasyfikacji, np. na linii produkcyjnej 2. Szachy, kierowca taksówki 3. Uwaga terminologiczna: inni autorzy (np. Sutton & Barto, 1998) używają nazwy epizodyczny w kontekście środowisk sekwencyjnych. Wtedy epizodyczny znaczy, że zadanie jest dzielone na niezależne epizody, ale każdy z epizodów może mieć charakter sekwencyjny. W tym sensie zadania epizodyczne są różne od zadań nieustających (ang. continuing), które mogą trwać bez końca (i nie resetują się )

Statyczne i dynamiczne Cechy środowisk Statyczne i dynamiczne Statyczne i dynamiczne Statyczne Czeka na akcję agenta Dynamiczne Dynamiczne: może się zmienić w czasie gdy agent myśli Semidynamiczne Jeśli środowisko się nie zmienia podczas myślenia, ale upływający czas liczy się do do miary jakości. Statyczne Czeka na akcję agenta Dynamiczne Dynamiczne: może się zmienić w czasie gdy agent myśli Semidynamiczne Jeśli środowisko się nie zmienia podczas myślenia, ale upływający czas liczy się do do miary jakości. 1. Gra w szachy 2. real-time 3. Gra w szachy z zegarem

Ciągłość Cechy środowisk Ciągłość Ciągłość Dyskretne vs. ciągłe Dotyczy natury: stanu świata czasu, obserwacji i akcji. Dyskretne vs. ciągłe Dotyczy natury: stanu świata czasu, obserwacji i akcji. 1. Możemy mieć ciągły czasowo i ciągłe akcje, ale dyskretne obserwacje (np. kamera kierowca taksówki)

Znane i nieznane Nie jest to cecha środowiska: dotyczy wiedzy projektanta (lub agenta) o mechanice środowiska. Znane konsekwencje akcji (lub ich rozkłady prawd., gdy stochastyczne) są znane Nieznane konsekwencje akcji są nieznane wymaga uczenia się nie ma związku z tym czy jest (całkowicie lub częściowo) obserwowalne. Najtrudniejsza kombinacja: częściowo obserwowalne, wieloagentowe, stochastyczne, sekwencyjne, dynamiczne, ciągłe i nieznane Cechy środowisk Znane i nieznane Znane i nieznane Nie jest to cecha środowiska: dotyczy wiedzy projektanta (lub agenta) o mechanice środowiska. Znane konsekwencje akcji (lub ich rozkłady prawd., gdy stochastyczne) są znane Nieznane konsekwencje akcji są nieznane wymaga uczenia się nie ma związku z tym czy jest (całkowicie lub częściowo) obserwowalne. Najtrudniejsza kombinacja: częściowo obserwowalne, wieloagentowe, stochastyczne, sekwencyjne, dynamiczne, ciągłe i nieznane 1. Pasjans: znane i częściowo obserwowalne 2. Gra komputerowa, ale nie wiadomo jak się ją steruje (które klawisze co robią) jest nieznana, ale całkowicie obserwowalna 3. Najtrudniejsza kombinacja: kierowca taksówki w wypożyczonym samochodzie w dalekim kraju, gdzie nie zna zasad ruchu drogowego. 4. Najtrudniejsza kombinacja: Świat rzeczywisty

Przykłady Cechy środowisk Przykłady Przykłady Pasjans Chińczyk Taxi Klas. obrazu Obserwowalne? Deterministyczne? Epizodyczne? Statyczne? Dyskretne? Wieloagentowe? [zadanie 2] Obserwowalne? Deterministyczne? Epizodyczne? Statyczne? Dyskretne? Wieloagentowe? [zadanie 2] Pasjans Chińczyk Taxi Klas. obrazu

Przykłady Cechy środowisk Przykłady Przykłady Pasjans Chińczyk Taxi Klas. obrazu częściowo całkowicie częściowo całkowicie Obserwowalne? Deterministyczne? Epizodyczne? Statyczne? Dyskretne? Wieloagentowe? Pasjans Chińczyk Taxi Klas. obrazu Obserwowalne? częściowo całkowicie częściowo całkowicie Deterministyczne? Epizodyczne? Statyczne? Dyskretne? Wieloagentowe?

Przykłady Cechy środowisk Przykłady Przykłady Pasjans Chińczyk Taxi Klas. obrazu częściowo całkowicie częściowo całkowicie Obserwowalne? Deterministyczne? tak(+) nie nie tak Epizodyczne? Statyczne? Dyskretne? Wieloagentowe? Pasjans Chińczyk Taxi Klas. obrazu Obserwowalne? częściowo całkowicie częściowo całkowicie Deterministyczne? tak(+) nie nie tak Epizodyczne? Statyczne? Dyskretne? Wieloagentowe?

Przykłady Cechy środowisk Przykłady Przykłady Pasjans Chińczyk Taxi Klas. obrazu częściowo całkowicie częściowo całkowicie Obserwowalne? Deterministyczne? tak(+) nie nie tak Epizodyczne? nie nie nie tak Statyczne? Dyskretne? Wieloagentowe? Pasjans Chińczyk Taxi Klas. obrazu Obserwowalne? częściowo całkowicie częściowo całkowicie Deterministyczne? tak(+) nie nie tak Epizodyczne? nie nie nie tak Statyczne? Dyskretne? Wieloagentowe?

Przykłady Cechy środowisk Przykłady Przykłady Pasjans Chińczyk Taxi Klas. obrazu częściowo całkowicie częściowo całkowicie Obserwowalne? Deterministyczne? tak(+) nie nie tak Epizodyczne? nie nie nie tak Statyczne? tak tak nie tak/semi(*) Dyskretne? Wieloagentowe? Pasjans Chińczyk Taxi Klas. obrazu Obserwowalne? częściowo całkowicie częściowo całkowicie Deterministyczne? tak(+) nie nie tak Epizodyczne? nie nie nie tak Statyczne? tak tak nie tak/semi(*) Dyskretne? Wieloagentowe?

Przykłady Cechy środowisk Przykłady Przykłady Pasjans Chińczyk Taxi Klas. obrazu częściowo całkowicie częściowo całkowicie Obserwowalne? Deterministyczne? tak(+) nie nie tak Epizodyczne? nie nie nie tak Statyczne? tak tak nie tak/semi(*) Dyskretne? tak tak nie tak(*) Wieloagentowe? Pasjans Chińczyk Taxi Klas. obrazu Obserwowalne? częściowo całkowicie częściowo całkowicie Deterministyczne? tak(+) nie nie tak Epizodyczne? nie nie nie tak Statyczne? tak tak nie tak/semi(*) Dyskretne? tak tak nie tak(*) Wieloagentowe?

Przykłady Cechy środowisk Przykłady Przykłady Pasjans Chińczyk Taxi Klas. obrazu częściowo całkowicie częściowo całkowicie Obserwowalne? Deterministyczne? tak(+) nie nie tak Epizodyczne? nie nie nie tak Statyczne? tak tak nie tak/semi(*) Dyskretne? tak tak nie tak(*) Wieloagentowe? nie tak tak nie (*) dyskusyjne (+) tak, ale ze względu na częściową obserwowalność może wydawać się stochastyczne Pasjans Chińczyk Taxi Klas. obrazu Obserwowalne? częściowo całkowicie częściowo całkowicie Deterministyczne? tak(+) nie nie tak Epizodyczne? nie nie nie tak Statyczne? tak tak nie tak/semi(*) Dyskretne? tak tak nie tak(*) Wieloagentowe? nie tak tak nie (*) dyskusyjne (+) tak, ale ze względu na częściową obserwowalność może wydawać się stochastyczne 1. Klasyfikacja obrazu wizyjnego, jeśli to jest taśma produkcyjna, to czas gra rolę, stąd semi

Typy agentów Struktura agentów Typy agentów Typy agentów Cztery typy agentów w kolejności coraz większej ogólności: 1 agent odruchowy (ang. simple reflex agent) 2 agent odruchowy z modelem (ang. model-based reflex agent) 3 agent celowy (ang. goal-based agent) 4 agent z f. użyteczności (ang. utility-based agent) Wszystkie typy agentów mogą być przekształcone w agentów uczących się Cztery typy agentów w kolejności coraz większej ogólności: 1 agent odruchowy (ang. simple reflex agent) 2 agent odruchowy z modelem (ang. model-based reflex agent) 3 agent celowy (ang. goal-based agent) 4 agent z f. użyteczności (ang. utility-based agent) Wszystkie typy agentów mogą być przekształcone w agentów uczących się

Condition action rules Sensors What the world is like now What action I should do now Actuators Agenty i środowiska Racjonalność PEAS Cechy środowisk Struktura agentów Agent odruchowy (simple reflex agent) Agent Sensors Struktura agentów Agent odruchowy (simple reflex agent) Agent odruchowy (simple reflex agent) Agent ignoruje historię (bez pamięci) np. prosty system regułowy może być racjonalny (w szczególności) jeśli świat całkowicie obserwowalny Environment Condition action rules What the world is like now What action I should do now Environment 1. Np. agent świata odkurzacza Actuators ignoruje historię (bez pamięci) np. prosty system regułowy może być racjonalny (w szczególności) jeśli świat całkowicie obserwowalny

State How the world evolves What my actions do Condition action rules Sensors What the world is like now What action I should do now Actuators Agenty i środowiska Racjonalność PEAS Cechy środowisk Struktura agentów Agent odruchowy z modelem świata State How the world evolves What my actions do Condition action rules Sensors What the world is like now What action I should do now Environment Struktura agentów Agent odruchowy z modelem świata Agent odruchowy z modelem świata Agent Utrzymuje wiedzę stanie świata (w szczególności o jego nieobserwowalnej części) wewnętrzny stan agenta. Zwykle wiedza ta jest niepewna. stan świata = aktualizacja(stan świata, akcja, obserwacja, model) 1. Uaktualnianie wewnętrznego stanu agenta wymaga wiedzy o tym jak działa świat (model świata). Environment Agent Actuators Utrzymuje wiedzę stanie świata (w szczególności o jego nieobserwowalnej części) wewnętrzny stan agenta. Zwykle wiedza ta jest niepewna. stan świata = aktualizacja(stan świata, akcja, obserwacja, model)

State How the world evolves What my actions do Goals Sensors What the world is like now What it will be like if I do action A What action I should do now Actuators Agenty i środowiska Racjonalność PEAS Cechy środowisk Struktura agentów Agent celowy (z modelem świata) (goal-based agent) State How the world evolves What my actions do Goals Sensors What the world is like now What it will be like if I do action A What action I should do now Environment Struktura agentów Agent celowy (z modelem świata) (goal-based agent) Agent celowy (z modelem świata) (goal-based agent) Agent Nie ma reguł, ale zna cel, potrafi ocenić konsekwencje swoich akcji (czy akcja prowadzi do osiągnięcia celu). Dyskretny cel, zwykle: planowanie, przeszukiwanie. 1. Np. czy taksówka jest w miejscu docelowym 2. Zwykle tutaj mamy do czynienia z agentami, którzy wykonują jakiegoś rodzaju przeszukiwanie lub planowanie. Environment Agent Actuators Nie ma reguł, ale zna cel, potrafi ocenić konsekwencje swoich akcji (czy akcja prowadzi do osiągnięcia celu). Dyskretny cel, zwykle: planowanie, przeszukiwanie.

odruchowy vs. celowy Struktura agentów odruchowy vs. celowy odruchowy vs. celowy Agent odruchowy: If Światła hamowania Then wciskam hamulec Agent celowy: Widzę światła hamowania. Jaka akcja (lub sekwencja akcji) doprowadzi mnie do celu? przyspienie stała prędkość zwolnienie? Agent odruchowy: If Światła hamowania Then wciskam hamulec Agent celowy: Widzę światła hamowania. Jaka akcja (lub sekwencja akcji) doprowadzi mnie do celu? przyspienie stała prędkość zwolnienie?

State How the world evolves What my actions do Utility Sensors What the world is like now What it will be like if I do action A How happy I will be in such a state What action I should do now Actuators Agenty i środowiska Racjonalność PEAS Cechy środowisk Struktura agentów Agent z f. użyteczności (też z modelem) State How the world evolves What my actions do Utility Sensors What the world is like now What it will be like if I do action A How happy I will be in such a state What action I should do now Environment Struktura agentów Agent z f. użyteczności (też z modelem) Agent z f. użyteczności (też z modelem) Agent Funkcja użyteczności: stan świata R. Im większa wartość tym stan świata jest bardziej pożądany przez agenta. Funkcja użyteczności uwewnętrznia miarę jakości. f. użyteczności jest zgodna z miarą jakości = agent jest racjonalny 1. Ma to szczególne znaczenie, gdy: i) jest wiele celów. f. użyteczności pozwala na kompromis pomiędzy nimi ii) cele są osiągane probabilistycznie. Wtedy możliwe jest działanie w oparciu o oczekiwaną użyteczność. 2. W literaturze używa się także (nawet częściej) nazwy funkcja wartości zamiast funkcja użyteczności. Environment Agent Actuators Funkcja użyteczności: stan świata R. Im większa wartość tym stan świata jest bardziej pożądany przez agenta. Funkcja użyteczności uwewnętrznia miarę jakości. f. użyteczności jest zgodna z miarą jakości = agent jest

Agent z f. użyteczności, c.d Struktura agentów Agent z f. użyteczności, c.d Agent z f. użyteczności, c.d Agent z f. użyteczności: Widzę światła hamowania. Do stanów o jakiej użyteczności prowadzą mnie akcje: przyspieszenie: -0.5 stała prędkość: -0.1 zwolnienie? +1.2 Częściowa obserwowalność lub stochastyczność Agent. z f. użyteczności maksymalizuje oczekiwaną wartość użyteczności. Każdy agent racjonalny zachowuje się jak gdyby posiadał f. użyteczności, której oczekiwaną wartość maksymalizuje. Agent z f. użyteczności: Widzę światła hamowania. Do stanów o jakiej użyteczności prowadzą mnie akcje: przyspieszenie: -0.5 stała prędkość: -0.1 zwolnienie? +1.2 Częściowa obserwowalność lub stochastyczność Agent. z f. użyteczności maksymalizuje oczekiwaną wartość użyteczności. Każdy agent racjonalny zachowuje się jak gdyby posiadał f. użyteczności, której oczekiwaną wartość maksymalizuje.

Performance standard feedback learning goals Critic Learning element Problem generator changes knowledge Sensors Performance element Actuators Agenty i środowiska Racjonalność PEAS Cechy środowisk Struktura agentów Agent uczący się (ogólnie) Performance standard Struktura agentów Agent uczący się (ogólnie) Agent uczący się (ogólnie) Agent Element wykonawczy agent Element uczący zmienia agenta dzięki informacji zwrotnej Krytyk wygrałem czy przegrałem? Niezmienny standard jakości czy wygrana jest pożądana? Element eksploracyjny eksploracja świata Environment Critic Sensors feedback learning goals Learning element changes knowledge Performance element Environment 1. Critic obserwacje nie wystarczą, bo jeśli wiem, że jest szach-mat, to nie wiem jak tę sytuację ocenić - czy jest pożądana czy nie. Problem generator Agent Actuators Element wykonawczy agent Element uczący zmienia agenta dzięki informacji zwrotnej Krytyk wygrałem czy przegrałem? Niezmienny standard jakości czy wygrana jest pożądana? Element eksploracyjny eksploracja świata

Podsumowanie Agenty oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie Struktura agentów Podsumowanie Podsumowanie Agenty oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie

Podsumowanie Agenty oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie Struktura agentów Podsumowanie Podsumowanie Agenty oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie Funkcja jakości ocenia sekwencję stanów środowiska Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Funkcja jakości ocenia sekwencję stanów środowiska Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości

Podsumowanie Agenty oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie Struktura agentów Podsumowanie Podsumowanie Agenty oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie Funkcja jakości ocenia sekwencję stanów środowiska Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Program agenta implementuje pewną funkcję agenta Funkcja jakości ocenia sekwencję stanów środowiska Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Program agenta implementuje pewną funkcję agenta

Podsumowanie Agenty oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie Funkcja jakości ocenia sekwencję stanów środowiska Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Program agenta implementuje pewną funkcję agenta PEAS definiują środowisko zadania Środowiska można określić jako: obserwowalne? deterministyczne? epizodyczne? statyczne? dyskretne? wieloagentowe? Struktura agentów Podsumowanie Podsumowanie Agenty oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie Funkcja jakości ocenia sekwencję stanów środowiska Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Program agenta implementuje pewną funkcję agenta PEAS definiują środowisko zadania Środowiska można określić jako: obserwowalne? deterministyczne? epizodyczne? statyczne? dyskretne? wieloagentowe?

Podsumowanie Agenty oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie Funkcja jakości ocenia sekwencję stanów środowiska Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Program agenta implementuje pewną funkcję agenta PEAS definiują środowisko zadania Środowiska można określić jako: obserwowalne? deterministyczne? epizodyczne? statyczne? dyskretne? wieloagentowe? Podstawowe architektury agentów: reflex, model-based reflex, goal-based, utility-based Struktura agentów Podsumowanie Podsumowanie Agenty oddziałują ze środowiskiem za pomocą aktuatorów i sensorów Funkcja agenta opisuje co agent robi w każdym stanie Funkcja jakości ocenia sekwencję stanów środowiska Agent racjonalny maksymalizuje oczekiwaną wartość funkcji jakości Program agenta implementuje pewną funkcję agenta PEAS definiują środowisko zadania Środowiska można określić jako: obserwowalne? deterministyczne? epizodyczne? statyczne? dyskretne? wieloagentowe? Podstawowe architektury agentów: reflex, model-based reflex, goal-based, utility-based