WYKŁAD 5 Systemy hybrydowe reaktywno-racjonalne Sterowanie REAKTYWNE Zalety: bardzo szybko reaguje na zmiany otoczenia, ograniczone wymagania na moc obliczeniową oraz pamięć, system reaktywny rozbudowany o reprezentację stanu, pozwala wygenerować dowolnie złożone zachowanie. Wady: nie ma możliwości zaawansowanego rozpatrywania alternatywnych planów / rozwiązań, każde rozwiązanie musi być wypracowane wcześniej (zakodowane off-line przez twórcę systemu lub wypracowane drogą ewolucji), oddziaływania pomiędzy zachowaniami / reakcjami, muszą być przewidywane i rozwiązywane już w czasie budowania systemu, dodanie nowego zachowania może zaburzyć oddziaływania pomiędzy istniejącymi zachowaniami. Dopasowanie do otoczenia: otoczenie w pełni obserwowalne dynamiczne niedeterministyczne ciągła przestrzeń stanów Sterowanie RACJONALNE (deliberatywne) pozwala zakodować ogólną procedurę rozwiązywania wszystkich zadań (pewnej klasy), możliwe jest wyznaczenie sterowania optymalnego, możliwe jest prognozowanie rezultatów sterowania. wymaga dokładnych modeli stanu agenta i otoczenia, zakłada bezbłędne wykonanie zaplanowanego sterowania, duże wymagania obliczeniowo pamięciowe, czas planowania zazwyczaj jest trudny do przewidzenia, sekwencyjny (szeregowy) cykl pracy poszczególnych podsystemów (percepcji, filtrowania, modelowania, prognozowania, planowania,...). otoczenie częściowo obserwowalne statyczne deterministyczne dyskretna przestrzeń stanów 1
Typowe cele działania: zmienne, silnie zależne od czasu i stanu bezpośredniego otoczenia, słabo powiązane z realizacją abstrakcyjnych idei oraz celów wysoko-poziomowych. Oddziaływania z otoczeniem: percepcja otoczenia i wykonanie działań są obarczone zakłóceniami, współistnienie wielu agentów, agenci są mobilni (układ odniesienia agenta zmienia się względem układu otoczenia), agenci nie komunikują się między sobą. Reprezentacja: jak najprostsza, zazwyczaj tylko stanu aktualnego, względem układu odniesienia związanego z agentem (różni agenci mogą postrzegać ten sam świat w zupełnie inny sposób). Czasoprzestrzeń działania: pojedynczy moment czasu, alternatywnie: małe okno czasowe uwzględniające kilka ostatnich momentów życia systemu (pamięć krótkoterminowa), pętle sprzężenia zwrotnego bezpośrednio łączące sensory i efektory. stałe, niezależne od czasu, mocno powiązane z realizacją abstrakcyjnych idei, typowe jest występowanie punktów pośrednich sekwencji celów wyznaczających zadania częściowe. działania są wykonywane bezbłędnie alternatywne działania mogą się różnić stopniem użyteczności i kosztem wykonania, agent niemobilny (układ odniesienia agenta pokrywa się z układem odniesienia otoczenia) agenci mogą się porozumiewać między sobą złożona, szczegółowa, modelująca różne atrybuty agenta i elementów otoczenia, względem układu odniesienia związanego z otoczeniem (różni agenci postrzegają świat w taki sam sposób). rozciągnięta w czasie: przeszłość-teraźniejszość-przyszłość i w przestrzeni (blisko, daleko) odpowiednik pamięci długoterminowej 2
Architektury hybrydowe są połączeniem składowych reaktywnych i racjonalnych w taki sposób, aby utrzymać zalety obydwu w/w podejść z jednoczesnym pominięciem ich wad. Wiele możliwości zorganizowania poszczególnych składowych: Jak połączyć różne składowe systemu sterowania? Potencjalnie możliwe są trzy rozwiązania:! jednolity system sterowania obejmujący jednocześnie zagadnienia reaktywności i abstrakcyjnego wnioskowania (na razie nie istnieje),! dwuwarstwowy system hybrydowy z wyraźnie wydzieloną reaktywną warstwą sterowania niskopoziomowego oraz nadrzędną warstwą abstrakcyjnego modelowania i planowania na poziomie makro-działań (najczęstsza propozycja),! system wielowarstwowy z płynnym przejściem od reaktywności do abstrakcyjnego modelowania i planowania. 3
Wielowarstwowa dekompozycja systemu sterowania. Podstawowymi kryteriami pozwalającymi scharakteryzować poszczególne warstwy są zmiany poziomu abstrakcji wykorzystywanych danych, uniwersalność wypracowanego sterowania, czas reakcji systemu oraz możliwość prognozowania osiąganych rezultatów końcowych. Warstwa 1 - Refleksy - implementuje natychmiastowe i bezpośrednie transformacje sensory efektory, wykonywane z dużą częstotliwością (pojedyncze milisekundy). Refleksy realizują podstawowe akcje ochronne i zabezpieczające. Są aktywowane przez bezpośrednie wykrywanie wzorców w bieżących danych sensorycznych. Nie ma żadnych form modelowania lub wnioskowania. Wszystkie konflikty rozwiązywane są poprzez priorytety i mechanizm blokowania refleksów o niższym priorytecie przez refleksy o wyższym priorytecie. W efekcie zagwarantowany jest krótki czas odpowiedzi systemu na dynamiczne zmiany otoczenia. Ta warstwa implementowana jest najczęściej w postaci odruchów bezwarunkowych, sieci neuronowych, sterowników rozmytych lub jawnie zadanych dyskretnych matryc odwzorowań typu pobudzenie akcja. Warstwa 2 - Reakcje - poziom pośredni, który również dostarcza szybkich reakcji na pobudzenia ale w sposób bardziej wyrafinowany niż refleksy. Reakcje mogą wykorzystywać wewnętrzne zmienne charakteryzujące stan/etap odpowiedzi systemu na zaobserwowany stan otoczenia. Reakcje najczęściej implementowane są za pomocą automatów skończonych sterujących wykonywaniem sekwencji podstawowych akcji w odpowiedzi na zaobserwowane wzorce w sygnałach sensorycznych. Warto zwrócić uwagę na fakt, że tak zaimplementowane reakcje odpowiadają idei Fixed Action Pattern (FAP) wykorzystywanej w psychologii. Na tym poziomie występuje większa swoboda działania niż w przypadku refleksów, jednakże główny nacisk jest nadal położony na szybkość reakcji systemu. Nie są rozpatrywane 4
żadne cele długoterminowe. Podstawowym zadaniem jest detekcja występowania oczekiwanych wzorców w sygnałach pomiarowych. Przy czym sygnały pomiarowe można podzielić na dwie kategorie: dane pomiarowe z fizycznych sensorów oraz dane pomiarowe z sensorów wirtualnych (pomiary wypracowywane na podstawie modeli wyższych poziomów). Połączenie wykrycia wzorców w danych z sensorów fizycznych i wirtualnych generuje wydarzenia inicjujące działanie odpowiednich reakcji. W ten sposób na tym pośrednim poziomie dokonywana jest specyficzna fuzja podejścia typowo reaktywnego (obserwacja świata rzeczywistego) oraz klasycznego wnioskowania (analiza świata modeli). Reakcje są z góry zaplanowane ale mogą być sparametryzowane lub modyfikowane, aby umożliwić lokalne dostrojenie do rzeczywistego stanu świata. Warstwa 3 Złożone działania (behaviours) - na najwyższym poziomie klasyczny proces modelowania i wnioskowania wypracowuje plany składające się z zadań częściowych a następnie wybiera, szereguje i nadzoruje działanie dostępnych zachowań (makro-akcji). Zadaniem wybranych zachowań jest osiąganie wypracowanych celi częściowych. System ten dokonuje analizy obserwowanych stanów świata i prognozuje możliwe zmiany po zastosowaniu odpowiednich zachowań. Prognozowanie dokonywane jest na podstawie posiadanych modeli świata. Jednocześnie modele te są na tyle proste, aby ich konserwacja była jak najmniej złożona oraz na tyle abstrakcyjne aby drobne zmiany świata nie powodowały konieczności aktualizacji modeli. Wnioskowanie na poziomie makro-akcji systemu pozwala na wprowadzenie wysokiego poziomu abstrakcji wykorzystywanych modeli a reaktywne zachowania zapewniają lokalną adaptację wypracowanych planów do rzeczywistego stanu świata. 5
RÓŻNE RODZAJE RELACJI POMIĘDZY WARSTWAMI Architektura ZDECENTRALIZOWANA (warstwy działają równolegle i w pełni niezależnie) Architektura HIERARCHICZNA (warstwy działają sekwencyjnie, wyższy poziom kontroluje działanie warstw niższych) Architektura WSPÓŁBIEŻNA (warstwy działają równolegle ale nie są niezależnie - mogą na siebie oddziaływać) 6
PODSUMOWANIE: Tradycyjna architektura hybrydowa: Kompetencje:! ma szereg warstw! niższe warstwy są reaktywne! wyższe warstwy są racjonalne - deliberatywne! warstwy reaktywne nie muszą posiadać reguł dla każdego możliwego stanu, bo inaczej wystąpi eksponencjalny wzrost ilości stanów/reguł (to nie są plany uniwersalne)! warstwy reaktywne posiadają zakodowane reguły opisujące najbardziej prawdopodobne (wiarygodne) lub najbardziej ważne - krytyczne sytuacje! dla wszystkich pozostałych sytuacji (nie ujętych przez reguły reaktywne) system agenta przełącza się w stan planowania racjonalnego,! proces uczenia maszynowego może umożliwiać wykrywanie regularności w rezultatach planowania racjonalnego, a kompilacje takich planów mogą być dodawane jako nowe reguły modułów reaktywnych Analogie: reaktywność krótkoterminowa pamięć typu ( cache memory ) deliberatywność długoterminowa pamięć ( main memory ) 7