ZASTOSOWANIE DWUOSOBOWEJ GRY RÓŻNICZKOWEJ O SUMIE ZEROWEJ DO STEROWANIA ELEMENTEM MECHATRONICZNYM

MODELOWANIE INŻYNIERSKIE 2016 nr 60, ISSN 1896-771X ZASTOSOWANIE DWUOSOBOWEJ GRY RÓŻNICZKOWEJ O SUMIE ZEROWEJ DO STEROWANIA ELEMENTEM MECHATRONICZNYM Zenon Hendzel 1a, Paweł Penar 1b 1 Katedra Mechaniki Stosowanej i Robotyki, Politechnika Rzeszowska a zenhen@prz.edu.pl, b ppenar@prz.edu.pl Streszczenie W artykule opisano zastosowanie teorii gier różniczkowych do sterowania modułem napędowym mobilnego robota kołowego. Omówiono rozwiązanie dwuosobowej gry różniczkowej o sumie zerowej wynikające z teorii punktu siodłowego Nasha. Teoria dwuosobowych gier o zerowej sumie i związana z nią teoria sterowania typu wynika z rozwiązania równania Hamiltona-Jacobiego-Isaaca (HJI). Ta problematyka występuje w teorii optymalnego sterowania obiektami dynamicznymi. Zastosowanie sterowania wynikającego z teorii gier różniczkowych gwarantuje optymalne rozwiązanie względem przyjętego wskaźnika jakości przy założeniu, że występują najbardziej niekorzystne zakłócenia. Przyjęte rozwiązania zweryfikowano na obiekcie rzeczywistym. Uzyskane wyniki potwierdziły poprawność przyjętych założeń i efektywność metody. Słowa kluczowe: gry różniczkowe, sterowanie optymalne, moduł napędowy USE TWO-PERSON ZERO-SUM DIFFERENTIAL GAME IN CONTROL THE MECHATRONIC ELEMENT Summary In the paper we discuss the application of the differential game theory to motor control of a wheeled robot. We present the solution of two-player zero-sum differential game obtained from the Nash equilibrium theory. Two-player zero-sum game theory and related control theory of type are following from the solutions of the Hamilton-Jacobi- Isaacs (HJI) equations of the optimal control theory in dynamics. Differential game control guarantee optimal solution for a performance index assuming that wrost case disturbance. The proposed solution is verified for a real object. The obtained results demonstrated the correctness of assumptions and efficiency of used method. Keywords: differential game, optimal control theory, wheeled control robot motor 1. WSTĘP Teoria gier dynamicznych, łącząc ze sobą teorią gier i teorię sterowania optymalnego, stanowi uogólnienie problemu optymalizacji typu minimax. Do podobszaru gier dynamicznych należą gry różniczkowe, których nazwa wskazuje na charakter równań, które opisują obiekt sterowania. Ich rozwiązanie bazuje na zasadzie optymalności Bellmana [1]. W przypadku gry dwuosobowej o sumie zerowej jeden gracz maksymalizuje, a drugi minimalizuje przyjęty wskaźnik jakości. Rozwiązaniem gry dwuosobowej o sumie zerowej jest punkt siodłowy Nasha [6], który jest rozwiązaniem sterowania typu [3]. Ten fakt łączy teorię gier różniczkowych z teorią systemów dyssypatywnych [1,7]. Obiekt sterowana, jakim jest moduł napędowy mobilnego robota kołowego (MRK), można 21

ZASTOSOWANIE DWUOSOBOWEJ GRY RÓŻNICZKOWEJ O SUMIE ZEROWEJ (...) opisać z wykorzystaniem modelu liniowego [2]. Dla takich modeli gra różniczkowa o sumie zerowej posiada rozwiązania analityczne [1]. W pracy [3] przedstawiono zastosowanie dyskretnej, liniowo-kwadratowej gry różniczkowej o sumie zerowej. Rozważania teoretyczne uzupełniono symulacją zastosowania gry różniczkowej w sterowaniu modułem napędowym mobilnego robota kołowego. Trudnością związaną z rozwiązaniem gry różniczkowej, w której równania dynamiczne są nieliniowe, jest brak rozwiązań analitycznych. Dlatego rozwiązanie gier różniczkowych o sumie zerowej dla nieliniowych obiektów dynamicznych bazują na metodach aproksymacyjnego programowania dynamicznego, co szeroko opisano w wielu pracach (np. [4, 5, 8-10]). W artykule przedstawiono zastosowanie dwuosobowej gry różniczkowej o sumie zerowej w sterowaniu modułem napędowym MRK. Niniejszy artykuł podzielono na dwie części: teoretyczną i eksperymentalną. W ramach omawianej tematyki przeprowadzono symulację oraz weryfikację przyjętego rozwiązania na obiekcie rzeczywistym. 2. OPTYMALNE STEROWANIE TYPU OBIEKTEM NIELINIOWYM. GRY RÓŻNICZKOWE O SUMIE ZEROWEJ Dany jest obiekt sterowania z wyjściem (1) (2) gdzie, to stan układu należący do przestrzeni stanu, to macierz wyjścia, a to nieliniowe funkcje. Sygnały i to odpowiednio sygnał sterowania będący graczem minimalizującym i sygnał gracza maksymalizującego, który pełni rolę zakłóceń. Wyjście z systemu oznaczone przez, służy określeniu struktury wskaźnika jakości sterowania. Z obiektem sterowania (1) związano wskaźnik jakości (3) gdzie to czas początkowy, to wzmocnienie związane ze sterowaniem typu, a oraz to macierze projektowe. Postać wskaźnika jakości (3) wynika z teorii systemów dyssypatywnych, co pokazano m.in. w pracach [1, 7]. Dla obiektu sterowania (1), w nieskończonym horyzoncie czasowym, można określić wzmocnienie typu, które jest wzmocnieniem typu wejście-wyjście [1]. Wzmocnienie dla obiektu (1) jest mniejsze lub równe, jeśli: (4) Sterowanie typu polega na wyznaczeniu najmniejszej wartości takiej, że dla dowolnego spełniona jest nierówność (5) Na podstawie [1] wiadomo, że wyznaczenie wzmocnienia dla obiektu sterowania (1) jest równoważne poszukiwaniu optymalnej wartości funkcji. Zgodnie z pracami [1, 7] problem sterowania typu jest równoważny minimalizacji wskaźnika jakości. Takie podejście sprowadza zagadnienie stabilności typu do teorii gier różniczkowych o sumie zerowej. 2.1 CIĄGŁA GRA RÓŻNICZKOWA O SUMIE ZEROWEJ Jak podano w pracy [6], rozwiązaniem ciągłej gry różniczkowej o sumie zerowej, w której obiekt sterowania dany jest zależnością (1), wyjście zależnością (2), a wskaźnik jakości ma postać (3), są takie sygnały i, dla których spełniona jest nierówność (6) Innymi słowy, rozwiązaniem gry różniczkowej o sumie zerowej jest para sygnałów które określają punkt siodłowy, nazywany punktem siodłowym Nasha [6]. Stąd rozwiązanie, będące punktem siodłowym, stanowi optymalną strategię gry dla każdego z graczy. Problem gry różniczkowej o sumie zerowej można zapisać za pomocą równania Hamiltona-Jacobiego-Isaaca (HJI) [1, 4], tj. (7) lub (8) Równanie HJI określa warunek wystarczający optymalności, podobnie jak równanie Hamiltona-Jacobiego- Bellmana. Jak podano m.in w pracach [1, 9], punkt siodłowy jest dany równaniami o oraz (9) (10) 22

Zenon Hendzel, Paweł Penar W wielu pracach wskazano, że rozwiązanie gry różniczkowej o sumie zerowej na podstawie (9) i (10) jest bardzo trudne ze względu na występowanie gradientu wskaźnika jakości, który pozostaje nieznany. W przypadku liniowym rozwiązanie gry różniczkowej o sumie zerowej sprowadza się do rozwiązania równania Riccatiego, co dla przypadku dyskretnego pokazano w pracy [3]. W przypadku nieliniowym do aproksymacji wskaźnika jakości stosuje się strukturę aktor-krytyk. W tej strukturze krytyk jest realizowany przez sieć neuronową [4, 5, 8-10]. 2.2 LINIOWO-KWADRATOWA GRA RÓŹNICZKOWA O SUMIE ZEROWEJ Dany jest liniowy, stacjonarny obiekt sterowania [1, 7]: (11) gdzie to macierz obiektu sterowania, to macierz sterowań, to macierz zakłóceń, a to macierz wyjścia. Wymiary macierzy są dopasowane do wymiarowości stanu, sterowania i zakłóceń. Z obiektem sterowania (11) związano wskaźnik jakości postaci (12) którego wartość ma być minimalizowana, przy czym a. Sterowanie pełni rolę gracza minimalizującego, a zakłócenie to gracz maksymalizujący. W wielu pracach, m.in. w [1], przedstawiono rozwiązanie liniowo-kwadratowej gry różniczkowej o sumie zerowej. Rozwiązaniem tego zagadnienia jest para sygnałów optymalnych, które można wyznaczyć z zależności oraz (13) (14) Występujące w zależnościach (13) i (14) macierze i to wzmocnienia, które wyznaczamy jako gdzie macierz to macierz równania Riccatiego, wyznaczana z równania postaci (15) Jak wiadomo z pracy [6], funkcja wartości dla układu liniowego może być wyznaczona z zależności (16) 3. SYMULACJA I WERYFIKACJA GRY RÓŻNICZKOWEJ W przykładzie wykorzystano liniowo-kwadratową grę różniczkową do stabilizacji kąta obrotu wału napędowego modułu MRK, który składa się z silnika prądu stałego, przekładni i enkodera. Na podstawie pracy [2] model liniowy modułu napędowego MRK można zapisać jako (17) gdzie to kąt obrotu wału silnika, to stała czasowa, to wzmocnienie a to napięcie podawane na silnik pełniące rolę sterowania. Korzystając z podstawienia (18) oraz uwzględniając człon związany z zakłóceniami, zależność (17) można zapisać za pomocą równania stanu (11), które w formie macierzowo-wektorowej przyjmuje postać (19) Elementy wektora stanu mają interpretacje kąta obrotu i prędkości kątowej wału modułu napędowego. Korzystając z procedury care zaimplementowanej w pakiecie Matlab/Simulink i przyjmując,,, i, wyznaczono wartość macierzy będącej rozwiązaniem równania Riccatiego (15) (20) Na podstawie macierzy można wyznaczyć wartości wzmocnień (21) Zadaniem układu sterowania jest osiągnięcie wartości zadanej, przy czym (22) Przyjmując wartość wektora wzmocnienia i parametry modelu, przeprowadzono symulację sprowadzania modułu napędowego MRK (bez zakłóceń, tj. ) do wartości zadanej. Czas symulacji to 8 [s]. Symulację numeryczną zaproponowanego rozwiązania przeprowadzono z krokiem dyskretyzacji. Na rys. 1 zamieszczono przebieg rozwiązania dla przypadku wymuszenia skokowego, otrzymując przebiegi rozwiązań współrzędnych stanu sterowanego obiektu,. 23

ZASTOSOWANIE DWUOSOBOWEJ GRY RÓŻNICZKOWEJ O SUMIE ZEROWEJ (...) Rys. 1: Przebieg sygnału wymuszenie oraz współrzędnych stanu, tj. i, uzyskany w symulacji numerycznej dla przypadku gdy Rys. 4: Porównanie przebiegów wskaźników jakości i wyznaczonych dla dyskretnych wartości czasu Wyniki symulacji numerycznej porównano z wynikami weryfikacji na obiekcie rzeczywistym, co pokazano na rys. 2 i 3. Rozbieżności widoczne na rys. 2 i 3 wynikają z niedokładności parametrycznych i strukturalnych przyjętego modelu matematycznego. Na rys. 4 porównano przebiegi wskaźników jakości i uzyskane odpowiednio w przypadku symulacji i weryfikacji dla dyskretnych wartości czasu. Różnice w przebiegach wskaźników jakości i, analogicznie do przebiegów zmiennych stanu (rys. 2 i 3), są konsekwencją niedokładności modelu. Rys. 5: Przebieg zmiennych stanu i uzyskany podczas weryfikacji na obiekcie rzeczywistym na który działał moment oporowy, z naniesionym przebiegiem wartości zadanej Rys. 2: Porównanie przebiegów zmiennej stanu (symula- (weryfikacja numerycznej), wartości zadanej oraz cja) w przypadku gdy Rys. 3: Porównanie przebiegów zmiennej stanu (symulacja numerycznej) z (weryfikacja) w przypadku gdy 24

Zenon Hendzel, Paweł Penar (23) lub przedstawić na wykresie (rys. 7). Rys. 6: Przebieg sterowania uzyskany podczas weryfikacji na obiekcie rzeczywistym na który działał moment oporowy Stosując analogiczne sterowanie od stanu, tj. ze wzmoc- w postaci nieniem i wprowadzając zakłócenia momentu oporowego, dla przeprowadzono kolejny test na obiekcie rzeczywistym. Wprowadzony moment oporowy spowodował zakłócenia, które są obserwowane w przebiegach zmiennych stanu. Uzyskany w ten sposób przebieg zmiennych stanu pokazano na rys. 5. Dodatkowo na rys. 6 pokazano przebieg sterowania. Rys. 7: Sygnał generowany przez gracza maksymalizującego który pełni rolę zakłóceń Rys. 8: Porównanie przebiegu zmiennych stanu uzyskanych w symulacji numerycznej ( ) oraz zmiennych stanu obiektu rzeczywistego ( ) na który działał moment oporowy Rys. 9: Porównanie przebiegu graczaa minimalizującego pełniąw symulacji numerycznej cego rolę sterowania uzyskanego ( ) z sygnałem uzyskanym podczas weryfikacji ( ) W celu odwzorowania w symulacji numerycznej obecno- sygnał gracza ści momentu oporowego należy dobrać maksymalizującego, który pełni rolę wprowadzonego zakłócenia. Przebieg sygnału został dobrany tak, by przebieg zmiennych stanu uzyskany z symulacji numerycznej i przebieg zmiennych stanu obiektu rze- oporowy, były czywistego na który działał moment jak najbliższe. Korzystając z metody prób i błędów, ustalono, że sygnał gracza maksymalizującego można przybliżyć funkcją 25

ZASTOSOWANIE DWUOSOBOWEJ GRY RÓŻNICZKOWEJ O SUMIE ZEROWEJ (...) sygnału graczy sterujących sterowania. i, pełniących rolę Z uwagi na fakt, że sygnał generowany przez gracza maksymalizującego dla obiektu rzeczywistego jest nie- jakości, który mierzalny, do wyznaczenia wskaźnika uwzględnia wpływ zakłóceń, wykorzystano sygnał dany przez zależność (23). Wyznaczone przebiegi pokazano na rys. 10. Rys. 10: Porównanie przebiegu wskaźnika jakości wyznadziałała zakłócenie czonego dla obiektu rzeczywistego na który z wskaźnikiem jakości wyznaczonym dla przypadku gdy Z zależności przedstawionych w pkt. 2 wynika, że teoria gier różniczkowych jest związanaa z zagadnieniem stabil- opisanego w ności typu. Dla obiektu sterowania postaci (12) wzmocnienie może być wyznaczone z zależności (4). Korzystając z uzyskanego przebiegu zmiennych stanu, przebiegu gracza minimalizujące- wyzna- go oraz przebiegu gracza maksymalizującego czonego z równania (23), można wyznaczyć wzmocnienie. Jego przebieg wraz z naniesioną wartością wzmocnienia pokazano na rys. 11. Z rys. 11 wynika, że spełniony jest warunek sterowania typu, tzn.. Jak wynika z przeprowadzonych badań, jest to naj- mniejsza możliwa wartość dla przyjętych zakłóceń i dla której istnieje rozwiązanie gry różniczkowej. 4. PODSUMOWANIE Rys. 11: Przebieg wzmocnienia z naniesioną wartością wzmocnienia Korzystając z zależności (11), w której sterowanie u* (gracz minimalizujący) wyznaczono na podstawie zależ- ma ności (13), a sygnał gracza maksymalizującego postać (23), przeprowadzono symulację numeryczną rozpatrywanego przykładu. Otrzymane przebiegi zmienzmiennych stanu nych stan porównano z przebiegiem obiektu rzeczywistego na który działał moment oporowy (rys. 8). Dodatkowo na rys. 9 porównano przebieg W niniejszym artykule przedstawiono wykorzystanie gry różniczkowej o sumie zerowej do sterowania obiektem liniowym, jakim jest moduł napędowy mobilnego robota kołowego. Uzyskane rozwiązania zweryfikowano na obiekcie rzeczywistym. Otrzymane wyniki potwierdzają poprawność przyjętych założeń oraz wyników symulacji numerycznej. Przedstawione rozwiązanie prowadzi do uzyskania sterowania optymalnego ze względu na przyjęty wskaź- zakłóceń. Co nik jakości przy najgorszym przypadku więcej, wyznaczenie punktu siodłowego Nasha jest tożsame z rozwiązaniem problemu sterowania typu. Ważnym elementem rozwiązania postawionego problemu jest dobór współczynnika, który wyznaczono metodą prób i błędów zgodnie z ideą metody sterowania typu [1,7]. Literatura 1. Abu-Khalaf M., Huang J., Lewis F..L.: Nonlinear / Constrained Feedback Control. Londyn: Springer 2006. ISBN 978-1-84628-350-5 2. Hendzel Z., Gierlak P.: Sterowanie robotów kołowych i manipulacyjnych. Rzeszów: OWPRz, 2011. ISBN 978-83- 1799-696-2 3. Hendzel Z., Penar P.: Zastosowanie teorii gier różniczkowych w sterowaniu modułem napędowym mobilnego robota kołowego. Przegląd Mechaniczny, 2016, nr 1-2, s. 54 60. 4. Kyriakos G.V., Lewis F.L.: Online solution of nonlinear two-player zero-sum games using synchronous policy iteration. International Journal of Robust and Nonlinear Control 2012, No. 13, Vol. 22, p. 1460-1483 26

Zenon Hendzel, Paweł Penar 5. Marcus A. J.: Differential game-based control methods for uncertain continuous-time nonlinear systems. Praca doktorska. Gainesville: University of Florida, 2011. 6. Starr A.W., Ho Y.C.: Nonzero-sum differential games. Journal Optimization Theory And Applications 1969, No 3, Vol. 3, p. 184 206 7. Van der Schaft A.J.: -gain analysis of nonlinear systems and nonlinear state feedback hinf control. IEEE Transactions on Automatic Control, 1992, No. 6 Vol. 37, p.770-784. 8. Wu H.N., Luo B.: Neural network based online simultaneous policy update algorithm for solving the HJI equation in nonlinear control. IEEE Transactions on Neural Networks and Learning Systems, 2012, No.12, Vol. 23, p. 1884-1895. 9. Yasini S., Naghibi Sistani M. B., Karimpour A.: Policy iteration algorithm based on experience replay to solve control problem of partially unknown nonlinear systems. Control Conference (ECC), 2014, p. 2103-2108. 10. Yasini S., Sistani M.B., Karimpour A.: Approximate dynamic programming for two-player zero-sum game related to control of unknown nonlinear continuous-time systems. International Journal of Control, Automation and Systems. 2014, No. 1, Vol. 13, p. 99-109. Artykuł dostępny na podstawie licencji Creative Commons Uznanie autorstwa 3.0 Polska. http://creativecommons.org/licenses/by/3.0/pl 27