Wojciech Kryszewski Sterowanie Optymalne Wykład monograficzny Wydział FTIMS Politechnika Łódzka Łódź 214
c Copyright by Wojciech Kryszewski Politechnka Łódzka Skład komputerowy L A TEX w wykonaniu autora
Spis treści i Spis treści 1 Wstęp 1 1.1 Równania różniczkowe...................................... 1 1.1.A Mierzalność, całkowalność i funkcje absolutnie ciągłe................. 1 1.1.B Problem Cauchy ego i rozwiązania........................... 2 1.1.C Liniowe równania różniczkowe.............................. 3 1.2 Problemy teorii sterowania.................................... 7 2 Sterowalność 1 2.1 Sterowalność układów liniowych................................. 1 2.2 Zasada Bang-Bang........................................ 15 2.3 Obserwowalność układów liniowych............................... 17 2.4 Sterowalność układów nieliniowych............................... 18 3 Problemy optymalnego sterowania 2 3.1 Zagadnienie czasowo optymalne dla układów liniowych.................... 2 3.1.A Problem jednoznaczności i punkty osiągalne...................... 29 3.1.B Wyznaczanie strategii optymalno-czasowej....................... 31 3.1.C Warunek dostateczny dla sterowania optymalno-czasowego.............. 33 3.1.D Transwersalność i warunki dostateczne w ogólnym przypadku............ 36 3.2 Sterowania optymalne w zagadnieniu Bolzy.......................... 39 3.2.A Wprowadzenie...................................... 39 3.2.B Inkluzje różniczkowe................................... 4 3.2.C Problem Bolzy...................................... 42 3.2.D Istnienie strategii optymalnej w problemie Bolzy z ustalonym celem........ 44 3.2.E Istnienie strategii optymalnej w problemie Bolzy z ustalonym czasem........ 47 3.2.F Równanie Bellmana i funkcja wartości......................... 47 3.2.G Metoda programowania dynamicznego......................... 49 3.3 Zasada maksimum Pontriagina................................. 49
Rozdział 1 Wstęp 1.1 Równania różniczkowe 1.1.A Mierzalność, całkowalność i funkcje absolutnie ciągłe Niech I będzie przedziałem na prostej R. Funkcja u : I R jest prosta, gdy jest mierzalna i przyjmuje skończoną liczbę wartości, tzn. istnieje zbiór {c 1,..., c n } R taki, że dla dowolnego i = 1,..., n, zbiór I i := {t I u(t) = c i } jest mierzalny (w sensie Lebesgue a) i n i=1 I i = I. Funkcja u : I R jest schodkowa, gdy istnieje skończony ciąg I 1,..., I n przedziałów rozłącznych takich, że I = n i=1 I i = I i dla dowolnego i = 1,..., n, u Ii = c i const.. Oczywiście każda funkcja schodkowa jest prosta, ale nie na odwrót. 1.1.1 Uwaga: Funkcja u : I R jest mierzalna wtedy i tylko wtedy, gdy jest prawie wszędzie granicą funkcji schodkowych. Mówimy, że funkcja f : I R jest całkowalna, gdy jest mierzalna i I f(t) dt <. Mówimy, że funkcja f jest lokalnie całkowalna, gdy jest całkowalna na każdym ograniczonym (skończonym) podprzedziale przedziału I. Mówimy, że funkcja f : I R jest absolutnie ciągła, gdy dla dowolnego ε > istnieje taka δ >, że k f(b i ) f(a i ) < ε, i=1 o ile a 1 < b 1 a 2 < b 2... a k < b k, a 1, b k I, oraz k i=1 (b i = a i ) < δ. 1.1.2 Twierdzenie (Lebesgue a): Funkcja f : I R jest absolutnie ciągła wtedy i tylko wtedy, gdy istnieje funkcja całkowalna g : I R taka, że f(t) = f(a) + g(s) ds, t I, a gdzie a I jest ustalonym punktem (równoważnie ustalonym dowolnie punktem). Co więcej f jest prawie wszędzie różniczkowalna i f(t) = f (t) = g(t) dla p.w. t I. Funkcja f : I R jest lokalnie absolutnie ciągła, gdy jest absolutnie ciągła na dowolnym skończonym podprzedziale przedziału I. Tak więc f jest lokalnie absolutnie ciągła wtedy i tylko wtedy, gdy istnieje lokalnie całkowalna funkcja g : I R taka, że f(t) = f(a) + a g(s) ds.
2 1. Wstęp Funkcja wektorowa f : I R N, f = (f 1,..., f N ) jest mierzalna (odp. całkowalna, lokalnie całkowalna, absolutnie ciągła, lokalnie absolutnie ciągła) wtedy i tylko wtedy, gdy dla dowolnego i = 1,..., N, mierzalna (odp. całkowalna, lokalnie całkowalna, absolutnie ciągła, lokalnie absolutnie ciągła) jest funkcja f i. Potrzebować będziemy pewnego kryterium słabej zwartości w przestrzeni L 1 (I, R k ), gdzie I R jest zwartym przedziałem. 1.1.3 Twierdzenie (Dunford-Pettis): Zbiór A L 1 (I, R k ) jest względnie słabo zwarty wtedy i tylko wtedy, gdy: (a) A jest ograniczony; (b) dla każdego ε > istnieje δ taka, że jeśli B A, µ(b) < δ, to B w(x) dx < ε dla wszystkich w A. 1.1.4 Lemat: Jeśli funkcja u : [, + ) R n R m jest taka, że dla każdego x R n funkcja u(, x) : [, + ) R m jest mierzalna i dla p.w. t, u(t, ) jest ciągła, to dla dowolnej funkcji mierzalnej x : [, + ) R n funkcja [, + ) t u(t, x(t)) jest mierzalna. 1.1.B Problem Cauchy ego i rozwiązania Jak wyżej, niech I będzie przedziałem i niech f : I R N R N. Zakładamy, że f jest odwzorowaniem Caratheodory ego, tzn.: dla p.w. t I, funkcja f(t, ) : R n R n jest ciągła; dla dowolnego x R n, funkcja f(, x) : I R n jest mierzalna; dla każdego ograniczonego zbioru C R n istnieje lokalnie całkowalna funkcja ϕ : I R taka, że f(t, x) ϕ(t), o ile t I oraz x C. 1.1.5 Twierdzenie: Jeśli v : J R n jest funkcją ciągłą, gdzie J I jest podprzedziałem, to funkcja J t f(t, v(t)) jest lokalnie całkowalna. Rozwiązaniem równania różniczkowego ẋ = f(t, x) nazywa się lokalnie absolutnie ciągłą funkcję x : J R n, gdzie J I jest podprzedziałem, taką, że ẋ(t) = f(t, x(t)) dla p.w. t J. Jeśli t J oraz x(t ) = x, to mówimy, że x jest rozwiązaniem problemu początkowego { ẋ = f(t, x); x(t ) = x. 1.1.6 Twierdzenie (Peano): Przypuśćmy, że f jest odwzorowaniem Caratheódory ego. Wówczas, dla dowolnych t I i x R N powyższy problem początkowy ma rozwiązanie określone na pewnym poprzedziale J I. Jeśli, dodatkowo, dla każdego ograniczonego C R n istnieje lokalnie całkowalna funkcja ϕ : I R taka, że f(t, x) f(t, y) ϕ(t) x y, t I, x, y C,
1.1. Równania różniczkowe 3 to istnieje dokładnie jedno wysycone (tzn. maksymalne w sensie przedziału istnienia) rozwiązanie problemu początkowego. Jeśli, dodatkowo, istnieją lokalnie całkowalne funkcje α, β : I R takie, że f(t, x) α(t) + β(t) x dla dowolnych t I oraz x R n, to jednoznaczne rozwiązanie problemu początkowego x(, t, x ) istnieje na przedziale I. Przy powyższych założeniach odwzorowanie I R n (t, x ) x(t; t, x ) R n jest ciągła (tzw. ciągła zależność od warunków początkowych). Powiada się, że f ma wzrost subliniowy, gdy wyżej β const; f jest odwzorowaniem spełniającym lokalny warunek Lipschitza jeżeli wyżej stała jest funkcja ϕ. 1.1.7 Wniosek: Jeśli funkcja f : I R n R n ma następujące własności: dla każdego x R n, funkcja f(, x) jest mierzalna; f ma wzrost subliniowy; f spełnia lokalny warunek Lipschitza, to dla dowolnych t I, x R n istnieje dokładnie jedno rozwiązanie problemu początkowego określone na całym przedziale I; ma także miejsce ciągła zależność od warunków początkowych. 1.1.8 Wniosek: Przy powyższych założeniach odnośnie f, jeżeli u : [, + ) R n R m jest mierzalna ze względu na pierwszą zmienną i lokalnie Lipschitza ze względu na drugą zmienną, to istnieje dokładnie jedno rozwiązanie x : I R n równania ẋ = f(t, x, u(t, x)), x() = x R n. Dowód tego faktu może być dobrym ćwiczeniem. Ważną rolę niekiedy odgrywa następująca nierówność. 1.1.9 Twierdzenie (Nierówność Gronwalla): Niech p L (J, R), q L 1 loc (J, R), q oraz niech α : J R będzie absolutnie ciągła. Jeśli, dla dowolnego t J, p(t) α(t) + p(s)q(s) ds, a to, dla dowolnego t J, ( ) p(t) α(t) exp q(s) ds a 1.1.C Liniowe równania różniczkowe Symbolem M(m n) oznacza przestrzeń macierzy o m wierszach i n kolumnach. Jest jasne, że jeśli A M(m n), A = [a ij ] 1 i m,1 j n to można uważać, że A jest przekształceniem liniowym R n R m : dla x = (x 1, x 2,..., x n ), A(x) = y = (y 1,..., y m ) gdzie n y i = a ij x j, 1 i m. j=1 Przestrzeń M(m n) jest przestrzenią Banacha wraz z normą operatorową A ; przypomnijmy, że A := inf{c > A(c) c x, x R n }.
4 1. Wstęp oraz Ćwiczenie: Pokazać, że m A A m max i n a 2 ij i=1 j=1 n a ij. j=1 Rozważmy odwzorowanie A : J M(n n) gdzie J R jest przedziałem, A = [a ij ] 1 i,j n oraz a ij : J R, 1 i, j n, są funkcjami lokalnie całkowalnymi. Ćwiczenie: Funkcja J t A(t) jest lokalnie całkowalna. Załóżmy dalej, że b : J R N jest funkcją lokalnie całkowalną. Interesować nas będą równania różniczkowe postaci x = A(t)x + b(t). Jasne, że spełnione są założenia twierdzenie twierdzenie Peano 1.1.6; zatem dla dowolnego t I oraz x R n istnieje dokładnie jedno rozwiązanie x : I R n. W dalszym ciągu będziemy chcieli znaleźć dokładną postać rozwiązania wyjściowego równania. Zaczniemy najpierw od równania jednorodnego: x = A(t)x, x(t ) = x. Symbolem x( ; t, x ) oznaczmy funkcję J R n będącą rozwiązaniem tego równania. Zatem x( ; t, x ) C(J, R n ), x(t ; t, x ) = x i x (t; t, x ) = A(t)x(t; t, x ) dla p.w. t J. 1.1.1 Twierdzenie: Maja miejsce następujące własności: (i) Zbiór {x( ; t, x ) x R n } jest podprzestrzenią liniową w C(J, R n ); (ii) Dla ustalonych t, t J, odwzorowanie R n x x(t; t, x ) R n jest przekształceniem liniowym; zatem istnieje macierz X(t; t ) M(n n) ( 1 ) taka, że x(t; t, x ) = X(t; t )x ; (iii) funkcja macierzowa J t X(t; t ) M(n n) jest absolutnie ciągła (tzn. absolutnie ciągłe są jej współczynniki) i zachodzi (iv) dla dowolnych t, t, s J, X (t; t ) = A(t)X(t; t ), X(t ; t ) = I; X(t; s)x(s; t ) = X(t; t ). Stąd X(t; t ) 1 = X(t ; t); zatem X(t; t ) jest izomorfizmem; (v) odwzorowanie R n x x( ; t, x ) C(J, R n ) jest izomorfizmem przestrzeni R n i przestrzeni rozwiązań równania jednorodnego. Dowód: Łatwo pokazać, że jeśli x 1, x 2 R n i λ 1, λ 2 R, to funkcja u = λ 1 x( ; t, x 1 ) + λ 2 x( ; t, x 2 ) jest rozwiązaniem równania jednorodnego i u(t ) = λ 1 x 1 + λ 2 x 2. Zatem x( ; t, λ 1 x 1 + λ 2 x 2 ) = λ 1 x( ; t, x 1 ) + λ 2 x( ; t, x 2 ). 1 Funkcja J J (t, t ) X(t; t ) M(n n) nazywana jest rezolwentą równania jednorodnego.
1.1. Równania różniczkowe 5 W szczególności, dla dowolnego t J x(t; t, λ 1 x 1 + λ 2 x 2 ) = λ 1 x(t; t, x 1 ) + λ 2 x(t; t, x 2 ). Można wiec napisać, że x(t; t, x ) = X(t; t )x gdzie X(t; t ) M(n n) dla każdych T, t J. Dowodzi to punktów (i) oraz (ii). Rozważmy macierzowe równanie różniczkowe X = A(t)X, X(t ) = I. Analogicznie jak poprzednio z twierdzenie Peano wynika, że zagadnienie to posiada dokładnie jedno absolutnie ciągłe rozwiązanie X : J M(n n). Niech, dla dowolnego x R n, x(t) := X(t)x. Wtedy x (t) = X (t)x = A(t)X(t)x = A(t)x(t)oraz x(t ) = X(t )x = x. Zatem Z dowolności x wnosimy, że X(t)x = x(t) = x(t; t, x ) = X(t; t )x. X(t) = X(t; t ). Ustalmy dowolne s, t J oraz x R n ; rozważmy funkcje x(t) := X(t; t ) oraz y(t) = X(t; s)x(s; t )x, t J. Wtedy x(s) = X(s; t )x = y(s). Ponadto (bezpośrednio różniczkując) widzimy, że x (t) = A(t)x(t), y (t) = A(t)y(t) dla p.w. t J. Zatem (z jednoznaczności istnienia rozwiązań) wynika, że x y. Z dowolności x wynika teza. Teza (v) wynika natychmiast z poprzednich rozważań. 1.1.11 Uwaga: Z powyższego twierdzenie wynika, że dla dowolnego t J, funkcja X(t ; ) jest absolutnie ciągła. Zajmiemy się teraz znowu równaniem niejednorodnym x = A(t)x + b(t), x(t ) = x R n. Wiemy, że zagadnienie to posiada wyznaczone jednoznacznie rozwiązanie x : J R n. Szukamy tego rozwiązania w postaci x(t) = X(t; t )z(t), t J, gdzie z(t) = X(t; t ) 1 x(t) = X(t ; t)x(t) jest funkcją absolutnie ciągłą. Zauważmy, że dla p.w. t J, x (t) = X (t; t )z(t) + X(t; t )z (t) = A(t)X(t; t )z(t) + X(t; t )z (t) oraz skąd otrzymujemy, że x (t) = A(t)x(t) + b(t) = A(t)X(t; t )z(t) + b(t) z (t) = X(t; t ) 1 b(t) = X(t ; t)b(t). Dodatkowo x = x(t ) = X(t ; t )z(t ) = z(t ). Zatem z(t) = x + X(t ; s)b(s) ds t i, w takim razie, ostatecznie x(t) = X(t; t )x + X(t; t ) t X(t ; s)b(s) ds = X(t; t )x + t X(t; s)b(s) ds.
6 1. Wstęp Jest to tzw. wzór Duhamela. Widać więc, żeby znaleźć rozwiązanie równania niejednorodnego lub jednorodnego należy wyznaczyć rezolwentę X(t; t ). Rozważymy kilka przypadków: 1. n = 1; wtedy A(t) = a(t), t J gdzie a : J R jest funkcja lokalnie całkowalną. Wówczas, dla dowolnych t, t J, a(s) ds X(t; t ) = e t, t J. Gdy a R jest funkcja stałą, to dla wszystkich t, t R. X(t; t ) = e (t t )a 2. Niech n > 1 i Niech A(t) = A będzie stałym polem macierzowym. Rozważmy szereg ( ) 1 n! An, n którego wyrazami są macierze 1 n! An, n (przypomnijmy, że A 1 := A i dla n 2, A n := A n 1 A;! = 1 i A := I). Szereg ten jest bezwzględnie zbieżny; jest on bowiem bezwzględnie ograniczony: dla dowolnego m, m n= 1 n! An m n= 1 n! A n e A. Sumę tego szeregu nazywamy eksponentą macierzy A i oznaczamy symbolem exp A; zatem exp A := n= 1 n! An. 1.1.12 Lemat: Funkcja R R t X(t; t ) := exp(t t )A jest rezolwentą równania jednorodnego postaci x = Ax. Dowód: Oczywiście X(t ; t ) = I. Należy sprawdzić, że X (t; t ) = AX(t; t ). W tym celu zauważmy, że szereg ( (n!) 1 (t t ) n A n ) n i szereg pochodnych ( [ (n 1)!] 1 (t t ) n 1 A n ) n 1 są jednostajnie zbieżne (np. na mocy twierdzenie Weierstrassa). Zatem ( Innymi słowy n= ) 1 n! (t t ) n A n = 1 (n 1)! (t t ) n 1 A n = A n=1 n= X (t; t ) = AX(t; t ). 1 n! (t t ) n A n. 1.1.13 Wniosek: Zachodzą następujące własności: (i) exp((t + s)a) = exp ta exp sb; (ii) exp(a+b) = exp A exp B = exp B exp A o ile macierze A, B komutują (tzn. AB = BA). Dowód: Wystarczy udowodnić warunek (ii). Funkcje R t exp t(a + B) i R t exp ta exp tb spełniają równanie X = (A + B)X, X() = I
1.2. Problemy teorii sterowania 7 (sprawdzić). Z jednoznaczności wynika, że są one równe; w szczególności, dla t = 1, exp(a+b) = exp A exp B. 3. Przejdziemy teraz do sytuacji ogólnej. W tej sytuacji znalezienie postaci rezolwenty jest znacznie trudniejsze. Ograniczymy się jedynie do następującej uwagi: jeśli macierze A(s) są przemienne, tzn. A(s 1 )A(s 2 ) = A(s 2 )A(s 1 ) dla dowolnych s 1, s 2 J, to X(t; t ) = n= ( 1 t ) n ( ) A(s) ds = exp A(s) ds. n! t t Łatwo dostrzec, że jest to bardzo proste uogólnienie sytuacji, w której A(t) = A było polem macierzowym stałym. Uwga: Napiszmy wreszcie wzór Duhamela w sytuacji, w której t = (tzn. zakładamy, że J). Niech X(t) := X(t; ), t J. Wtedy, dla dowolnych s, t J, X(; s) = X 1 (s) i X(t; s) = X(t)X 1 (s) 1.2 Problemy teorii sterowania x(t;, x ) = X(t)x + X(t) X 1 (s)b(s) ds. Sprecyzujemy obecnie jakiego rodzaju problemy są przedmiotem zainteresowania teorii sterowania. Układ dynamiczny Układ mechaniczny zmieniający się w czasie opisywany jest zwykłe równaniem różniczkowym w (zwięzłej) postaci ẋ = f(t, x), ( ) lub ẋ(t) = f(t, x(t)), gdzie t R jest czasem, x = (x 1,..., x N ) R N opisuje stan układu, tzn. każda ze współrzędnych x i, i = 1,..., N, opisuje określony parametr stanu układu, zaś funkcja f : R R N R N jest polem wektorowym zależnym od czasu, które wpływa na dynamikę zmian (zauważmy, że po lewej stronie równania występuję pochodna J t ẋ(t) = (ẋ 1 (t),..., ẋ N (t)), która opisuję prędkość zmian parametrów stanu). Mówimy, że funkcja x : [t, t 1 ] R N, gdzie t t 1, jest rozwiązaniem równania ( ), gdy jest funkcją co najmniej absolutnie ciągłą i dla p.w. wszystkich t [t, t 1 ], ẋ(t) = f(t, x(t)). Rozwiązania mogą istnieć lub nie; zwykle założenia są takie, by rozwiązania istniały globalnie tzn. na dowolnym przedziale [t, t 1 ]. Na ogół mamy do czynienia z sytuację, w której jeśli znany jest stan x R N układu w określonej chwili t I, tzn. wartość x(t ) = x, to jednoznacznie jest wyznaczony jest stan x(t) dla każdegot R. Jak wiadomo w tym celu wystarczy założyć to co we Wniosku 1.1.7. Od tej pory to założenie to przyjmowane jest milcząco, chyba, że powiemy inaczej. Dla ustalonych (t, x ) R R N, symbolem x( ; t, x ) oznaczamy rozwiązanie problemu ẋ = f(t, x), x(t ) = x. Uwaga: Jeśli pole f nie zależy od czasu, to mówimy, że mamy do czynienia z równaniem autonomicznym. Łatwo sprawdzić (sprawdzić!), że wówczas jeśli funkcja x : R R N, to także ( )
8 1. Wstęp funkcja y : R R N, gdzie y(t) := x(t + T ), gdzie T R jest dowolnym czasem,jest również rozwiązaniem. Układy sterowania Przypuśćmy, że dynamika f układu postaci ( ) zależy dodatkowo od pewnego parametru u R M, tzn. f : R R N R M R M. W takim razie, dla danego warunku początkowego (t, x ) R R N i ustalonego u R M, rozwiązanie x( ) = x( ; t, x ) zależy od parametru u: ẋ(t) = f(t, x(t), u) dla p.w. t R. Oczywiście można także wziąć funkcję R t u(t) R M i rozważyć problem ẋ(t) = f(t, x(t), u(t)), t R, ( ) o ile spełnione są założenia, przy których takie zagadnienie ma sens: na przykład naturalne założenie uwzględni ciągłość f ze względu na ostatnią zmienną, a także mierzalność dopuszczalnych funkcji u( ). Takie funkcje nazywa się sterowaniami lub strategiami, zaś rozwiązania nazywa się też odpowiedziami układu. Kolejnym naturalnym założeniem jest ograniczenie dopuszczalnych sterowań: zakłada się, że zadany jest zbiór U R M (np. U := {u = (u 1,..., u M ) R M u i 1, i = 1,..., M}) i dopuszczalnymi nazywa się funkcje ze zbioru U := {u : R R M u jest funkcja mierzalną, u(t) U, t R}. Zauważmy, że przy tych założeniach, dla dowolnych (t, x ) R R N i u U istnieje dokładnie jedno rozwiązanie x( ; t, x ; u) problemu ( ) (kwestia założeń dotyczących f, zbioru U jest zawsze otwarta, tzn. musi być starannie omówiona. Przykład: Jeśli nie zakładać liniowego wzrostu, to odpowiedzi mogą istnieć na przedziałach mniejszych niż przedziały istnienia dla strategii. Niekiedy rozważa się też problem sterowania w tzw. pętli zamkniętej, jeśli dopuszcza się strategie zależne od stanu, tzn. funkcje u : I R n U oraz rozwiązania problemu ẋ = f(t, u(t, x)), x(t ) = x R n. Podstawowe zagadnienia teorii sterowania dotyczą szeroko rozumianej optymalizacji dynamiki (własności trajektorii) układu z punkty widzenia różnych celów. Chodzi o taki wybór strategii, by odpowiadająca mu odpowiedź miała określone własności. W zależności od postawionego celu otrzymuje się różnego rodzaju zagadnienia szczegółowe: Sterowalność Niech x 1 R n. Mówimy, że punkt (stan) jest osiągalny (ze stanu początkowego x w czasie t ) przez układ ( ) jeśli istnieje taka strategia u Ω, że x(t ; u; t, x ) = x 1 dla pewnego T t. W szczególności, oprócz ustalenia pożądanego stanu można ustalić czas T, w którym dany stan ma być osiągnięty. Uogólniając można pytać o istnienie sterowań przeprowadzających układ ze stanu x do stanu x 1 S, gdzie S R n jest ustalonym zbiorem. Można również rozważać problem sterowalności przy założeniu ograniczeń na dopuszczalne sterowania. Obserwowalność W wielu sytuacjach bezpośredniej obserwacji podlega nie stan x(t; u; t, x ) układu poddanego sterowaniu u Ω w czasie t J, lecz pewna wartość w(t) = h(x(t; u; t, x )) gdzie h : R n R m jest zadaną funkcją. Mówi się, że układ ( ) jest obserwowalny jeżeli znajomość strategii u Ω i obserwacji w( ) można jednoznacznie wyznaczyć stan początkowy x. Stabilizowalność Załóżmy, że układ ( ) jest autonomiczny i załóżmy, że dla pewnych x R n i u U, f(x, u) =. Mówimy, że funkcja k : R n U taka, że k(x) = u jest sprzężeniem stabilizującym, gdy x jest stabilnym położeniem równowagi równania x = f(x, k(x(t))), t J, x() = x.
1.2. Problemy teorii sterowania 9 Optymalność W tzw. problemie optymalno-czasowym chodzi o znalezienie strategii u U, która nie tylko przeprowadza wyjściowy stan x do celu x 1, lecz również czyni to w minimalnym czasie. W innych zagadnieniach czas sterowania T jest ustalony, a należy znaleźć strategię, która minimalizuje zadany funkcjonał kosztu T g(x(t; u; t, x ), u(t)) dt + G(x(T ; u)), gdzie g, G są ustalonymi funkcjami; powiadamy, że funkcja g realizuje tzw. koszt bieżący, zaś G realizuje koszt końcowy.
Rozdział 2 Sterowalność 2.1 Sterowalność układów liniowych Rozważamy autonomiczny problem ( ), tzn. układ ẋ = f(x, u), x() = x, u U, (NL) gdzie f : R n U R n jest funkcją ciągłą spełniającą założenia gwarantujące istnienie odpowiedzi x( ; u;, x ) na I = R dla każdej strategii u U (zbiór U jest zadany). Dla u U, x( ) := x( ; u; x ) = x( ; u;, x ) jest odpowiedzią na strategię u, tzn. x (t) = f(x(t), u(t)) dla p.w. t R i x() = x Racjonalne jest założenie f(, ) = oraz U. Ćwiczenie: Uzasadnić racjonalność tych założeń. Zdefiniujmy zbiór osiągalny w czasie t C(t) := {x R n x(t; u; x ) = dla pewnego u U}. i zbiór osiągalny C := t C(t). Tak więc C(t) jest zbiorem tych stanów układu sterowania, które można (poprzez użycie właściwej strategii u U) doprowadzić do stanu w czasie t, zaś C jest zbiorem tych stanów, które można doprowadzić do stanu w jakimś czasie za pomocą strategii ze zbioru U. Jasne, że C() = {}. 2.1.1 Uwaga: Czasem bardziej naturalne jest rozważać zbiory osiągalne R(t), jako zbiory stanów, do których można dojść po czasie t ze stany początkowego x =. Takie podejście jest symetryczne w następującym sensie. Zbiór C(t) jest zbiorem R(t) dla układu zadanego poprzez dynamikę ż = f(z, u). Istotnie, jeśli x C(t), to istnieje strategia u U taka, że x(t) := x(t; u; x ) =. Zdefiniujmy funkcję z : R R n wzorem z(s) := x(t s) dla s R; wtedy z (s) = x (t s) = f(x(t s), v(s)) = f(z(s), v(s)), gdzie v(s) := u(t s) dla s R; ponadto z() = i z(t) = x, czyli x R(t).
2.1. Sterowalność układów liniowych 11 O kilku własnościach zbioru C mówi: 2.1.2 Fakt: Niech t 1, t 2 : jeśli t 1 < t 2, to C(t 1 ) C(t 2 ); zbiór C jest łukowo spójny; zbiór C jest otwarty wtedy i tylko wtedy, gdy jest we wnętrzu C, int C. Dowód: Jeśli x C(t 1 ), to znajdzie się strategia u U dla której x(t 1 ; u; x ) =. Jeśli po czasie t 1 włączyć strategię u, tzn. rozważyć sterowanie v(s) = u(s) dla s [, t 1 ] i v(s) = dla s (t 1, t 2 ], to x(t 2 ; v; x ) = ; czyli x C(t 2 ). Jeśli wziąć x 1, x 2 C, tzn. znajdą się strategie u i U i czasy t i, i = 1, 2 takie, że x(t i ; u i ; x i ) =. Wtedy x([, t i ]; u i ; x i ) C: rzeczywiście np. dla i = 1 niech x = x(t; u 1 ; x i ) dla pewnego t [, t 1 ]. Pokażemy, że x C. Niech v(s) := u 1 (s+t), s R oraz z(s) := x(s+t; u 1 ; x 1 ). Wówczas z (s) = x (s+t, u 1 ; x 1 ) = f(z(s), v(s), z() = x(t; u 1 ; x 1 ) = x, z(t 1 t) = x(t 1 ; u 1 ; x 1 ) =, czyli x C(t 1 t) C. Stąd wynika, że punkty x 1, x 2 łączy połączenie dróg x( ; u 1 ; x 1 ) oraz x( ; u 2 ; x 2 ). Jeśli zbiór C jest otwarty, to oczywiście int C, bo C. Przypuśćmy teraz, że int C, tzn. B(, δ) C dla pewnego δ > i niech x C. Istnieje strategia u U i t, że x(t ; u ; x ) =. Z twierdzenia o ciągłej zależności od warunków początkowych istnieje δ 1 >, że jeśli y B(x, δ 1 ), to x(t ; u ; y) = x 1 B(, δ ) C. Zatem znajdzie się strategia u 1, która poprowadzi układ ze stanu y do w jakimś czasie t 1. Wtedy połączenie strategii u i u 1 będzie strategią prowadzącą z y do w czasie t + t 1. 2.1.3 Przykład: W układzie ẋ = f(x, u), x R 2, u U := [ 1, 1] R, gdzie f(x, u) = (, u), C(t) = {(, y) y [ t, t]}, czyli C = {(, y) y R}. Ćwiczenie: Znaleźć C(t) i C dla układu, w którym f(x, u) = x + (, u), gdzie u U = [ 1, 1] R. Szczególnym przypadkiem układu (NL) jest układ, w którym f(x, u) = Ax+Bu dla x R n oraz u U R m, gdzie A M(n n) i B M(n m), czyli układ liniowy ẋ = Ax + Bu, x() = x R n. (L) Zgodnie z wcześniejszymi rozważaniami dla dowolnego t gdzie X(t) jest rezolwentą układy jednorodnego x(t; u; x ) = X(t)x + X(t s)bu(s) ds, t k A k X(t) = exp ta =, t R. k! k= 2.1.4 Fakt: Dla ustalonych t R i x R n, przekształcenie U u x(t; u; x ) jest afiniczne; podobnie przekształcenie U u Φ t (u) := {x R n x(t; u; x ) = } jest liniowe. W szczególności jeśli zbiór U jest symetryczny (odp. wypukły), to C(t) jest też symetryczny (odp. wypukły). Dowód: Pierwsze z przekształceń jest ewidentnie afiniczne. Drugie zaś ma postać: U u Φ t (u) = X( s)bu(s) ds. Jeśli zbiór U jest symetryczny (odp. wypukły), to także zbiór U jest taki. Teza wynika z faktu,
12 2. Sterowalność że obrazy zbiorów symetrycznych (odp. wypukłych) są również symetryczne (odp. wypukłe). Wreszcie C(t) = Φ t (U). 2.1.5 Definicja: Macierzą sterowalności dla układu (L) nazywa się macierz M := [B AB A 2 B... A n 1 B] M(n mn). 2.1.6 Twierdzenie: rank M = n wtedy i tylko wtedy, gdy int C. Dowód: Przez sprzeczność załóżmy, że rank A < n (oczywiście rank A n); istnieje więc taki wektor y R n, że y T M = R mn ; zatem też y T B = y T A k B = dla k = 1,..., n 1. Wtedy y T A k B = dla wszystkich k. Rzeczywiście z twierdzenie Cayleya-Hamiltona p(a) =, gdzie p(λ) := det(λi A), λ C, jest wielomianem charakterystycznym macierzy A. Możemy napisać n 1 p(λ) = λ n + β j λ j, j= gdzie β j R, j =,..., n 1, są współczynnikami p. tak więc (tutaj A := I macierz jednostkowa) Zatem n 1 A n = β j A j j= n 1 y T A n B = β j y T A j B =. Gdy k > n, to y T A k B = y T ( n 1 j= Ak n+j B) = przez indukcję. Stąd wynika, że dla dowolnego t i u U, y T Φ t (u) = y T j= X( s)bu(s) ds = k= ( s) k y T A k B u(s) ds =. k! A zatem y, Φ t (u) = co oznacza, że C(t) {y} i C {y}. Więc int C =. Na odwrót: przypuśćmy, że int C. Stąd int C(t) dla każdego t >. Ponieważ zbiór C(t) = Φ t (U) jest wypukły, z twierdzenie o hiperpłaszczyźnie podpierającej, znajdzie się y R n, że y, z dla dowolnego z C(t); symetryczność wszakże dodatkow pokazuje, ze y, z = dla wszystkich z C(t). Tak więc y, Φ t (u) =. Stąd dla dowolnego u U, a więc y, X( s)bu(s) ds = y T X( s)b, u(s) ds = y T X( s)b = y T exp( sa)b = dla dowolnego s R. Kładąc s = otrzymamy y T B =. Zaś różniczkując względem dostaniemy y T A exp( sa)b =,
2.1. Sterowalność układów liniowych 13 co znowu kładąc s = pokazuje, że y T AB =. Postępując tak dalej, otrzymamy, że y T A k B = dla wszystkich k. A więc y T M = i rank M < n.. 2.1.7 Uwaga: Kluczową rolę w tym rozumowaniu pełniły stwierdzenia: 1. Jeśli ϕ : [, t] R m jest funkcją ciągłą oraz dla dowolnej ψ : [, t] R m całkowalnej i ograniczonej zachodzi ϕ(t), ψ(t) dt =, to ϕ(t) = dla dowolnego t [, t]. Fakt ten dopuszcza uogólnienia: teza pozostaje prawdziwa, jeśli w miejsce ψ wziąć (ograniczone) funkcje schodkowe lub funkcję gładkie. 2. Jeśli K R n jest zbiorem domkniętym i wypukłym, to dowolny punkt x K := K \ int K (tzn. dowolny punkt brzegowy) jest punktem podparcia, tzn. istnieje b R n taki, że y, x x (czyli b, x α := b, x ) dla dowolnego x K ( 1 ). 2.1.8 Uwaga: W trakcie dowodu pokazaliśmy też, że rank M = n wtedy i tylko wtedy, gdy dla dowolnego niezerowego b R n, R t b T e ta B nie jest funkcją tożsamościowo równą. Mówimy, ze układ sterowania (L) jest całkowicie sterowalny, gdy C = R n, a więc gdy z każdego punktu x R n można, po pewnym czasie i przy dobrze dobranej strategii, dotrzeć do. 2.1.9 Przykład: W układzie ẋ = x + u (n = m = 1 i U = [, 1]) rank M = 1, lecz C = ( 1, 1). Zauważmy, że w tym przykładzie Φ t (u) = e s u(s) ds, a więc Φ t (u) < 1 dla dowolnego u U. Tak więc na ogół warunek rzędu n macierzy sterowania nie wystarczy dla całkowitej sterowalności. Zachodzi: 2.1.1 Twierdzenie: Układ (L) jest całkowicie sterowalny wtedy i tylko wtedy, gdy rank M = n i Re λ dla dowolnego λ σ(a). Dowód: Przypuśćmy, że układ nie jest całkowicie sterowalny; zatem istnieje y R n \ C. Z twierdzenie o oddzielaniu wynika, że istnieje taki niezerowy b R n, że b, x α dla wszystkich x C i dla pewnego α R. Czyli, że dla każdego t, α b, Φ t (u) = b, e sa Bu(s) ds. o ile u U. To jest sprzeczne: znajdziemy bowiem t >, że b, Φ t (u) > α dla pewnego u U. Niech v(t) := b T e ta B, t R. Wiemy, że ta funkcja nie jest tożsamościowo zerem. Unormujmy ją, tzn. rozważmy { v(t) v(t) 1 gdy v(t) ; u(t) := gdy v(t) =. Oczywiście u U i dla dowolnego t R α Φ t (u) = b, e sa Bu(s) ds = b T e sa B, v(s) v(s) 1 ds = v(s) ds. Oznacza to, że funkcja ϕ(t) := t v(s) ds jest poprawnie określona. Ponadto ϕ (t) = v(t) dla p.w. t, lim t ϕ(t) = i ϕ nie jest tożsamościowo zerem. Jeżeli n 1 P (λ) = λ n + β j λ j 1 Tak sformułowane twierdzenie nie jest prawdziwe w przestrzeniach nieskończenie wymiarowych: trzeba założyć, że int K. j=
14 2. Sterowalność jest wielomianem charakterystycznym A, to (z twierdzenie Cayleya) n 1 P (A) = A n + β j A j = tzn. P (A) jest macierzą zerową. Jeśli P ( D) oznacza operator różniczkowy, który działa na funkcję f (dostatecznie wiele razy różniczkowalną) wg. wzoru gdzie f () (t) := f(t), to j= n 1 P (D)f(t) = ( 1) n f (n) (t) + ( 1) j β j f (j) (t), j= P ( D)v(t) = P ( D)(b T e ta B = b T e ta P (A)B =. Stąd n 1 (P ( D)ϕ(t)) = ( 1) n ϕ (n) (t) + ( 1) j β j ϕ (j) (t) = j= n 1 = ( 1) (n) ( ϕ ) (n) + ( 1) j ( ϕ ) (j) = P ( D)v(t) =. j= Tak więc funkcja ϕ jest rozwiązaniem równania postaci (P ( D)ϕ) =, lim t ϕ(t) =. Wobec tego (z ogólnej teorii) ϕ(t) jest kombinacją liniową składników postaci e Re λ (p(t) cos(im λt) + q(t) sin(im λ)), gdzie p(t), q(t) są wielomianami, zaś λ jest pierwiastkiem równania λp ( λ) =, czyli λ = lub λ = γ jest wartością własną macierzy A. W takim razie Re λ : jest to sprzeczne, gdyz wówczas nie zachodzi, że ϕ(t) przy t. Na odwrót: przypuśćmy, że rank M < n. Wtedy C(t) zawiera się w pewnej hiperpłaszczyźnie i, stąd C R n. Załóżmy wobec tego, że Re λ > dla pewnej wartości własnej λ σ(a) = σ(a T ). Niech y C n będzie wektorem własnym A T odpowiadającym wartości własnej λ,tzn. A T y = λy. Wtedy y T A = λy T. Czyli y T A 2 = λy T A = λ 2 y T. Zatem dla dowolnego k 1, y T A k = λ k y T i dalej y T e ta = e λt y T dla dowolnego t R. Jeśli y = a + ib, a, b R N, a, to y T = a T + ib T oraz (porównując części rzeczywiste i urojone) a T e ta = e Re λt (cos(im λt) sin(im λt)). ( ) Tak więc, dla x C a T x = a T e sa Bu(s) ds
2.2. Zasada Bang-Bang 15 dla pewnej strategii u U i czasu t >. W świetle równości ( ) i (oczywistego) oszacowania prawej strony tegoż, otrzymamy że a T x α dla pewnego α R: sprzeczne, gdy C = R n. 2.1.11 Uwaga: Jeśli odstąpić od zbioru ograniczeń na strategie dopuszczalne (tzn. kłaść U = R m ) to warunek dotyczący wartości własnych A nie jest potrzebny i mamy twierdzenie: Układ liniowy (L) jest całkowicie sterowalny wtedy i tylko wtedy, gdy rank M = n. Dowód jest natychmiastowy: całkowita sterowalność (tzn. równość C = R n ) implikuje, że int C, czyli, że rank M = n. Jeśli zaś rank M = n, to stosując sterowania ze zbioru U, gdzie jak poprzednio U = [ 1, 1] m, int C, czyli D(, δ) C dla pewnego δ >. Jeśli y $ n, z = δ u 1 u D(, δ) C więc znajdzie się u U takie, że x(t; u, z) = dla pewnego t, tzn. z = Φ t (u). A więc z = Φ t ( y δ 1 u). 2.2 Zasada Bang-Bang Załóżmy ponownie, że U = [ 1, 1] m. Strategia u U = {u : R R m u mierzalna u(t) U} jest strategią bang - bang, jeśli dla dowolnego i = 1,..., m, u i (t) = 1 dla prawie wszystkich t R. 2.2.1 Twierdzenie: Niech t > i załóżmy, że x C(t) dla liniowego układu sterowania (L). Wtedy istnieje strategia bang-bang u taka, że = x(t; u, x ). Zanim podamy dowód przypomnimy kilka faktów z analizy funkcjonalnej. Gdy E jest przestrzenią Banacha (nad R), to symbolem E oznaczamy przestrzeń (topologicznie) sprzężoną do E, tzn. E = L(E, R) jest przestrzenią funkcjonałów liniowych i ciągłych na E z normą p = inf{c x, p C x }, p E, tutaj i niżej, : E E R jest dualnością między E i E czyli dal x E i p E. x, p := p(x) Niech J := [, t]. Przestrzeń L (J, R m ) jest sprzężona do L 1 (J, R m ) w tym sensie, dla dowolnego p [L 1 (J, R m )] istnieje dokładnie jedna funkcja v L (J, R m ) taka, że u, p = J u(t) v(t) dt, u L 1 (J, R m ), i dla dowolnego v L (J, R m ), funkcja L 1 (J, R m ) u J u(t) v(t) dt R jest elementem przestrzeni [L 1 (J, R m )]. Co więcej p = v L. 2.2.2 Uwaga: Oczywiście L 1 (J, R m ) [L (J, R m )] w tym sensie jeśli u L 1 (J, R m ), to u jednoznacznie wyznacza funkcjonał p [L (J, R m )] dany wzorem v, p := u(t) v(t) dt, v L (J, R m ). J
16 2. Sterowalność Jednak [L (J, R m )] jest przestrzenią większą niż L 1 (J, R m ). Rzeczywiście (dowód dla m = 1). Rozważmy funkcjonał p C(J, R) dany wzorem v, p := v() dla v C(J, R). Wtedy v, p = v() v L. Z twierdzenia Hahna-Banacha można przedłużyć p na całą przestrzeń L (J, R) z zachowaniem normy. Twierdzę, że p L 1 (J, R). Gdyby nie, to istniałaby funkcja u L 1 (J, R) taka, że v() = u(t)v(t) dt J dla dowolnej funkcji ciągłej v. Ustalmy < a < t. Oczywiście funkcja charakterystyczna χ [a,t] jest granicą p.w. funkcji ciągłych v n (jakich) takich, że v n () =. Wtedy, wykorzystując twierdzenie Lebesgue a o zbieżności zmajoryzowanej, a u(t) dt = Niech v(s) 1 na J. Wtedy sprzeczność. J χ [a,t] (s)u(s) ds = lim v n (s)u(s) ds = v n () =. n 1 = v, p = J u(s) dt = lim u(s) ds = : a a 2.2.3 Twierdzenie (Banach-Alaoglu): Niech B := {p E p 1}, gdzie E jest ośrodkową przestrzenią unormowaną. Wtedy zbiór B jest ciągowo -słabo zbieżny, tzn. każdy ciąg (p n ) B zawiera podciąg -słabo zbieżny (do pewnego p B ) ( 2 ). Można np. wziąć E = L 1 (J, R m ). Jest to ośrodkowa przestrzeń Banacha. Niech E będzie przestrzenią liniową, K E. Punkt x K jest punktem ekstremalnym zbioru K jeśli z warunku x = (1 α)x 1 + αx 2 gdzie x 1, x 2 K i α (, 1) wynika, że x 1 = x 2. Punkt y K nazywamy eksponowanym jeśli istnieje hiperpłaszczyzna podpierająca K w y która dotyka zbioru K tylko w punkcie y. Innymi słowy istnieje taki funkcjonał p N K (y), p taki, że dla x K, z warunku p, x = p, y wynika, że x = y (innymi słowy: istnieje p N K (y), p taki, że dla x y, x K, p, x < p, y ). Łatwo dostrzec, że 2.2.4 Fakt: Jeśli y K jest punktem eksponowanym, to jest punktem ekstremalnym. Dowód: Przypuśćmy, że y = (1 λ)y 1 + λy 2, y 1, y 2 K, λ (, 1). Przypuśćmy, że y 1 y 2 (w konsekwencji y 1 y i y 2 y). Skoro y jest punktem eksponowanym, to istnieje p N K (y), p taki, że p, y i < p, y, i = 1, 2. Lecz wówczas p, y = (1 λ) p, y 1 + λ p, y 2 < p, y : sprzeczność. Fakt odwrotny nie zachodzi. 2.2.5 Przykład: Niech D 2 := {x R 2 x 1}. Wybierzmy punkt x D 2 i wystawmy dwie styczne do okręgu {x x = 1} przechodzące przez x. Punkty styczności oznaczmy przez p, q. Wtedy p, q są punktami ekstremalnymi, które nie sa eksponowane. 2.2.6 Twierdzenie (Kreina-Milmana): Jeśli zbiór K E, gdzie E jest przestrzenią unormowaną, jest -słabo zwarty, to K ma co najmniej jeden punkt ekstremalny. Jeśli dodatkowo K jest zbiorem wypukłym, to jest -słabym domknięciem zbioru swoich punktów ekstremalnych. 2 Nawiasem mówiąc -słaba topologia na B jest metryzowalna.
2.3. Obserwowalność układów liniowych 17 Jest to konsekwencja znacznie ogólniejszego twierdzenie w brzmieniu: Niech E będzie liniowo-topologiczną przestrzenią, dla której E rozdziela punkty. Wtedy dowolny zbiór zwarty K E posiada punkty ekstremalne. Dowód (twierdzenia 2.2.1): Niech K = {u U x(t; u, x ) = }. Zauważmy, że u K wtedy i tylko wtedy, gdy x = Φ t (u) = e sa Bu(s) ds. Pokażemy, że K jest słabo zwarty i wypukły. Wypukłość jest oczywista. Oczywiście zbiór U (a raczej zbiór obcięć funkcji z tego zbioru do odcinka J) jest ograniczonym podzbiorem L (J, R n ). Jest więc -słabo zwarty (bo jest on -słabo domknięty). Jasne, że K U jest również -słabo domknięty (wystarcza sprawdzić ciągową domkniętość): istotnie, jeśli u n K i u n dąży -słabo do u U, to x = e sa Bu n (x) ds e sa Bu(s) ds. Czyli x = Φ t (u) więc u K. Zgodnie z twierdzeniem Kreina-Milmana w K znajdzie się punkt ekstremalny v. Wystarczy pokazać, że jest to sterowanie bang-bang. Przypuśćmy, że v nie jest strategią bang-bang, tzn. znajdzie się i = 1,..., m, zbiór I J miary I > taki, że v i (t) < 1 dla t I. Niech I n := {t I v i (t) 1 1/n}. Oczywiście I = n N I n oraz I n I n+1, n N. Stąd < I = lim n I n. W taki razie istnieje n, że I n >. Innymi słowy możemy założyć, że dla pewnego ε >, v i (t) 1 ε dla t I. Wybierzmy funkcję w U taką, że: dla j = 1,..., m, j i, w j (t) = dla t J; rozbijmy zbiór I = I 1 I 2 tak, by I 1, I 2 > oraz dobierzmy liczby α, β tak, aby α 2 + β 2 >, α, β 1 oraz α e sa Be i ds + β e sa Be i ds = I 1 I 2 gdzie e i jest i-tym wektorem z bazy kanonicznej w R m ( 3 ); wreszcie kładziemy w i = αχ I1 + βχ I2. Połóżmy v (t) := v(t) + εw(t), v (t) := v(t) εw(t), t J. wtedy v, v K. Rzeczywiście: v, v U (to jest oczywiste) oraz Φ t (v ) = Φ t (v) + εφ t (v ) = x ε(α e sa Be i ds + β I 1 e sa Be i ds) = x. I 2 Lecz wówczas v = 1 2 v + 1 2 v co jest sprzeczne z ekstremalnością v. 2.3 Obserwowalność układów liniowych Załóżmy, że mamy do czynienia z układem dynamicznym, którego ewolucja wygląda następująco: ẋ = Ax, 3 Trzeba starannie przemyśleć dobór liczb α i β.
18 2. Sterowalność gdzie A M(n n). Załóżmy dalej, że obserwator nie zna wartości x(t), gdzie x( ) = x( ; x ) jest rozwiązaniem problemu ẋ = Ax, x() = x, lecz jedynie zniekształconą wartośc y(t) := Cx(t), gdzie C = M(m n) jest zadaną macierzą. Mówimy, że rozważany układ jest obserwowalny, jeśli z warunku Cx 1 (t) = Cx 2 (t) przy t [, T ] (T > ), gdzie x 1, x 2 sa rozwiązaniami, wynika, że x 1 () = x 2 (). 2.3.1 Twierdzenie: Rozważany układ jest obserwowalny wtedy i tylko wtedy, gdy rank N = n, gdzie N := [C T, A T C T, [A T ] 2 C T,..., [A T ] n 1 C T ] = n. Dowód: Udowodnimy jedynie dostateczność podanego warunku (zauważmy, że warunek orzeka, że jest we wnętrzu zbioru sterowania dla liniowego układu sterowania postaci: ẋ = A T x + C T u, u U, gdzie jak zwykle U := {u : R R m u jest funkcją mierzalną i u(t) [ 1, 1] m }.). Przypuśćmy, że układ nie jest obserwowalny. A więc znajdą się rozwiązania x 1, x 2 takie, że Cx 1 ( ) = Cx 2 ( ) na pewnym odcinku [, T ], T >, lecz x 1 () x 2 (). Wówczas, kładąc x := x 1 x 2 mamy ẋ(t) = Ax(t), x := x() = x 1 () x 2 (). Zatem x(t) = exp( ta)x, t R ale Cx(t) = dla wszystkich t [, T ]. Tak więc, dla k, = (Cx(t)) (k) = CA k x. Innymi słowy x T [AT ] k C T. Dowodzi to, że rank N < n. 2.3.2 Ćwiczenie: Udowodnić konieczność podanego warunku. 2.4 Sterowalność układów nieliniowych Rozważmy układ postaci ẋ = f(x, u), x() = x R n, (NL) gdzie f : R n R m R n spełnia założenia gwarantujące globalne i jednoznaczność rozwiązań. Symbol x( ; u, x ) oznacza rozwiązanie zadanego równania przy ustalonej strategii u calu. Przypuśćmy, że istnieje pochodna f (, ) L(R n+m, R n ) = M(n (n + m)). A więc istnieją również pochodne A := f x (, ) M(n n) i B := f u (, ) M(n m) względem zespołów zmiennych x oraz u, odpowiednio, oraz gdzie α(x,u) x + u, gdy x i u. f(x, u) = Ax + Bu + α(x, u), 2.4.1 Twierdzenie: Jeśli C oznacza tak jak poprzednio zbiór sterowania dla układu (N L), to int C wtedy i tylko wtedy, gdy rank M = n, gdzie M = [B AB A 2 B... A n 1 B].
2.4. Sterowalność układów nieliniowych 19
Rozdział 3 Problemy optymalnego sterowania Przypuśćmy, że dany jest układ sterowania ẋ = f(t, x, u), gdzie f : R R n R m R n jest funkcją zapewniającą globalne i jednoznaczne istnienie rozwiązań dla dowolnego warunku początkowego i dowolnego sterowania u U, gdzie jak poprzednio U = {u : R R m u jest funkcją mierzalną oraz u(t) U dla p.w. t R} jest zbiorem sterowań dopuszczalnych, U R m jest ustalonym zbiorem. Dla x R n i u U, x( ; x, u) oznacza rozwiązanie startujące z punktu x pod wpływem sterowania u. Rozważmy dwie funkcje l : R R n R m R i g : R R n R, czas T > i warunek początkowy. Zdefiniujmy tzw. funkcjonał kosztu J(u, x, T ) := T l(t, x(t), u(t)) dt + g(t, x(t )), U, gdzie x( ) = x( ; x, u). Tak więc warunkowi sterowaniu u. warunkowi początkowemu x i czasowi T przyporządkowujemy koszt ewolucji, w którym całka pełni rolę tzw. kosztu bieżącego, zaś drugi składnik tzw. kosztu końcowego. Oczywiście można również interpretować J(u, x, T ) jako funkcję wypłaty, którą interpretujemy jako zysk ewolucji. Interesuje nas obecnie optymalizacja kosztu lub zysku, a zatem taki dobór parametrów u U, x R n oraz czasu T, aby wartość J(u, x, T ) była możliwie najmniejsza (lub największa) ( 1 ). Oczywiście zasadne jest nakładanie na u i x oraz T określonych dodatkowych warunków: np. można ustalić x i T lecz rozważać tylko te sterowania, które po czasie T sprowadzą stan x(t ) do określonego celu R R n. W takiej sytuacji optymalizacja musi uwzględniać te naturalnie postawione więzy na parametry. 3.1 Zagadnienie czasowo optymalne dla układów liniowych Rozważmy układ liniowy: ẋ = Ax + Bu, gdzie jak poprzednio A M(n n), B M(n m), u U oraz U = [ 1, 1] m. Przypomnijmy, że dla stanu początkowego x R n i t R(t; x ) = {x = x(t; x, u) u U} 1 Łatwo dostrzec, że bez ograniczenia ogólności można rozważać tylko optymalizację kosztów; tak też będziemy postępować poniżej.
3.1. Zagadnienie czasowo optymalne dla układów liniowych 21 jest zbiorem osiągalnym ze stanu x w czasie t. Oczywiście x R(x ; t) x = x(t; x, u) = e ta x + 3.1.1 Uwaga: Dla uproszczenie dalszej notacji kładziemy Y (s) := e sa B(s), s. e (t s)a Bu(s) ds dla pewnego u U. Tak więc x R(t; x ) wtedy i tylko wtedy, gdy istnieje u U takie, że x = e ta (x + Widać więc, że zbiór R(t; x ) jest wypukły. 3.1.2 Uwaga: Zauważmy, że gdzie A(t) := {y(t; u) := Y (s)u(s) ds). R(t; x ) = e ta (x + A(t)), Jest jasne, że zbiór A(t) jest również wypukły; dodatkowo Y (s)u(s) ds u U}, t. A(t) = e ta R(t; x ) x. Oczywiście zbiory A(t) i R(t; x ) są homeomorficzne poprzez (liniowy) homeomorfizm. 3.1.3 Ćwiczenie: Sprawdzić, że zbiór U jest -słabo domknięty. Wykorzystując twierdzenie Alaoglu stwierdzić, że zbiór U jest -słabo zwarty. Pokazać, że zbiory R(t; x ) i A(t) są zwarte. Przypomnijmy, że dla zbiorów zwartych A, B R n określona jest odległość Hausdorffa H(A, B) := max{sup d(a, B), sup d(b, A)}. a A b B Odległość Hausdorffa jest metryką w przestrzeni zwartych podzbiorów R n. 3.1.4 Lemat: Odwzorowanie wielowartościowe [, + ) R n (t, x ) R(t; x ) jest ciągłe w sensie Hausdorffa. Odwzorowanie [, + ) t A(t) R n jest jednostajnie ciągłe w sensie Hausdorffa. Dowód: Dla x 1, x 2 R n oraz t 1 t 2, jeśli y 1 R(t 1 ; x 1 ) to y 1 = e t1a (x 1 + 1 gdzie u U. Wtedy 2 y 2 = e t2a (x 2 + Y (s)u(s) ds) R(t 2 ; x 2 ). Zatem Y (s)u(s) ds), 2 d(y 1, R(t 2 ; x 2 )) y 1 y 2 e t1a x 1 x 2 + x 2 e t1a e t2a + Y (s) ds. t 1 Teza wynika z absolutnej ciągłości całki ( 2 ).. 3.1.5 Lemat: Jeśli y int R(t; x ) dla pewnego t >, to istnieje δ > takie, że y R(x 1 ; s) o ile t s < δ oraz x x 1 < δ. Analogiczne sformułowanie dotyczy A, tzn. jeśli y int A(t) dla t >, to y A(s), o ile t s < δ, gdzie δ > jest odpowiednio dobrane. 2 Zweryfikować ostatnia część lematu.
22 3. Problemy optymalnego sterowania Dowód: Skoro y int R(t; x ), to istnieje takie ε >, że D(y, 2ε) R(t; x ). Z ciągłości w sensie Hausdorffa (a w zasadzie wystarczy wykorzystać tylko dolną półciągłość odwzorowania R( ; )), istnieje δ > takie, że d H (R(t; x ), R(s; x 1 )) < ε o ile t s < δ i x x 1 < δ. Załóżmy, że t s < δ i x x 1 < δ. Wtedy B(y, ε) R(s; x 1 ). Istotnie: wiemy, że D(y, 2ε) B(R(s; x 1 ), ε). Przypuśćmy, że istnieje z B(y, ε) taki, że z R(s; x 1 ). Z twierdzenia o oddzielaniu istnieje p R n, p = 1, taki, że α := p, z > sup p, x. x R(s;x 1 ) Znajdziemy wówczas punkt b R(t; x ) taki, że b y = 2ε oraz p, b z = b z > ε. Wtedy d(b, R(s; x 1 )) > ε: sprzeczność. 3.1.6 Uwaga: Powyższy lemat wynika nie tylko tylko z ciągłości R( ; ). Nietrudno podać przykład odwzorowania ciągłego (w sensie metryki Hausdorffa) o niewypukłych wartościach, dla którego opisany fakt nie ma miejsca. Niech z : [, + ) R n będzie pewną funkcją ciągłą. Zajmiemy się teraz pytaniem czy istnieje strategia (sterowanie) optymalna u U, tzn. taka, że z(t ) = x(t ; x, u ). Jak zostało powiedziane wyżej istnienie strategii optymalnej jest równoważne inkluzji z(t ) R(t ; x ). Równoważenie w(t ) A(t ), gdzie w(t) := e ta z(t) x, t. Mając powyższe lematy łatwo udowodnić następujący podstawowy fakt. 3.1.7 Twierdzenie: Załóżmy, problem jest sterowalny, tzn. istnieje czas T i sterowanie u U takie, że z(t ) = x(t ; x, u). Wówczas istnieje sterowanie optymalne. Dowód: Założenie oznacza, że w(t ) A(T ). Zdefiniujmy t := inf{t w(t) A(t)}. Wtedy t T. Istnieje ciąg (t n ) taki, że w(t n ) A(t n ) oraz t n t. Niech w(t n ) = y(t n ; u n ) = n Y (s)u n(s) ds, gdzie u n U, dla n 1. Wtedy w(t ) y(t, u n ) w(t ) w(t n ) + y(t n ; u n ) y(t ; u n ) w(t ) w(t n ) + M n t Y (s) ds gdzie M = sup u U u = 1. Ciągłość funkcji w( ) oraz absolutna ciągłość całki dowodzą, że y(t ; u n ) w(t ) przy n. Oczywiście y(t ; u n ) A(t ). Domkniętość A(t ) implikuje, że w(t ) A(t ). 3.1.8 Ćwiczenie: Z zasady bang-bang wywnioskować, że R(t; x ) = R (t; x ) = {x(t; x, u) u U }, gdzie przypomnijmy U jest zbiorem strategii bang-bang (w U), tzn. u U wtedy i tylko wtedy, gdy u(t) jest punktem ekstremalnym zbioru U (czyli de facto wierzchołkiem kostki U). Przez analogię kładziemy A (t) := {y = Y (s)u(s) dx u U }, t.
3.1. Zagadnienie czasowo optymalne dla układów liniowych 23 3.1.9 Wniosek: Jeśli istnieje czas t taki, że z(t) R(t; x ) to istnieje sterowanie bang-bang czaso-optymalne. 3.1.1 Uwaga: Zauważmy, że jeżeli minimalny czas t >, to w(t ) A(t ) (równoważnie z(t ) R(t ; x )). Istotnie, gdyby w(t ) int A(t ), to dla dowolnego t < t dostatecznie bliskiego t, w(t) A(t) na mocy ciągłości w oraz lematu 3.1.5. 3.1.11 Ćwiczenie: Czytelnik zechce przeprowadzić dokładne rozumowanie. Wprowadzimy teraz pewną wygodna terminologię. Stożki, stożki normalne: Stożkiem w przestrzeni Banacha E nazywamy zbiór C E taki, że dla dowolnego x C i λ, λx C. Stożek C E jest wypukły wtedy i tylko wtedy, gdy dla dowolnych x, y C, x + y C (sprawdzić). Stożkiem normalnym do zbioru K E w punkcie x K nazwiemy zbiór N K (x ) := {p E sup p, x x }. x K Stożek N K (x ) jest zawsze niepusty bo N K (x ). 3.1.12 Ćwiczenie: Sprawdzić, że N K (x ) jest stożkiem wypukłym domkniętym. Jeśli istnieje p N K (x ), p, to hiperpłaszczyznę {x E p, x x = } nazywamy hiperpłaszczyzną podpierającą zbiór K w punkcie x, zaś x nazwiemy punktem podparcia zbioru K. Już wiemy, że jeśli K R n jest domknięty i wypukły, to dowolny punkt brzegowy x K jest punktem podparcia: tzn. istnieje p N K (x ), p. 3.1.13 Uwaga: Z uwagi 3.1.1 wynika, że punkt w(t ) jest punktem podparcia zbioru A(t ), a z(t ) jest punktem podparcia R(t ; x ). A więc stożek N A(t )(w(t )) zawiera wektory niezerowe. Obecnie podamy warunek konieczny jaki spełnia sterowanie czaso-optymalne. 3.1.14 Twierdzenie: Jeżeli u U jest sterowaniem czaso-optymalnym z optymalnym czasem t >, to dla dowolnego p N A(t )(w(t )), Y (t)p, u (t) = max v U Y (t)p, v, gdzie Y (t) oznacza macierz sprzężoną (transponowaną) do Y (t), dla p.w. t [, t ]. Dla dowolnego t [, t ] punkt y(t; u ) trajektorii odpowiadającej strategii u należy do brzegu A(t) i p N A(t) y(t; u )). Dowód: Niech p będzie elementem stożka normalnego do A(t ) w punkcie w(t ), tzn. p N A(t )(w(t )). Zatem, dla dowolnego x A(t ), p, x w(t ). ( ) Niech u będzie strategią czasowo-optymalną, zaś u U inną strategią. Wtedy dla x := Y (s)u(s) ds A(t ) mamy ( ); zatem p, Y (s)[u(t) u (s)] ds. ( )
24 3. Problemy optymalnego sterowania Równoważnie: dla dowolnej strategii u U, Twierdzę, że wówczas, dla p.w. t [, t ], Y (s)p, u (s) u(s) ds. Y (t)p, u (t) = max u U Y (t)p, u. ( ) Oczywiście Y (t)p, u (t) max u U Y (t)p, u dla dowolnego t [, t ]. Trzeba więc uzasadnić nierówność. Dla n N, niech Wtedy Z n := {t [, t ] Y (t)p, u (t) max v U Y (t)p, v 1/n}. {t [, t ] Y (t)p, u (t) < max Y (t)p, v } = Z n. v U n N Zauważmy, że funkcja [, t ] t max u U Y (t)p, u jest mierzalna (w tym celu wystarczy spostrzec, że dla każdego t [, t ], max Y (t)p, u = max u U u U Q m Y (t)p, u a ostatnia funkcja jest mierzalna). Stąd, dla dowolnego n N, Z n jest zbiorem mierzalnym. Przypuśćmy, że dla pewnego n miara Z n jest dodatnia, Z n = ε n >. Można udowodnić (w oparciu o tzw. twierdzenie Fillipova), że istnieje funkcja mierzalna v : Z n U taka, że Y (t)p, v(t) = max u U Y (t)p, u. W takim razie, dla t Z n, Rozważmy Wówczas u U i sprzeczność. Y (t)p, u (t) Y (t)p, v(t) 1/n. u(t) := { u (t) dla t [, t ] \ Z n ; v(t) dla t Z n. Y (s)p, u (s) u(s) ds = Y (s)p, u (s) v(s) ds µ(z n )/n < : Z n Widzimy więc, że dla p.w. t [, t ]. Y (t)p, u (t) = max u U Y (t)p, u, Niech teraz t będzie takim punktem z odcinka [, t ], że zachodzi ( ). Zatem, dla każdego u U, Y (t)p, u u (t). W taki razie p, Y (s)u (s) = max p, Y (s)v v U ( )
3.1. Zagadnienie czasowo optymalne dla układów liniowych 25 dla p.w. t [, t ]. Jeśli u U i t t, to p, y(t; u) y(t; u ) = p, Y (s)(u(s) u (s)) ds. Stąd wnosimy, że p, y y(t; u ) dla dowolnego y A(t), t [, t ]. Dowodzi to, że y(t; u ) A(t) oraz p N A(t) (y(t; u )). 3.1.15 Uwaga: (1) Z warunku koniecznego wynika Y (t)p jest elementem stożka normalnego do zbioru U w punkcie u (t). Wobec tego, dla t [, t ], jeżeli Y (t)p, to u (t) {u U Y (t)p, u = max v U Y (t)p, v }. Innymi słowy, dla p.w. t [, t ], jeśli Y (t)p, to punkt u (t) jest punktem podparcia zbioru U. Wiemy więc, że istnieje sterowanie optymalne przyjmujące wartości w zbiorze W wierzchołków kostki U (o ile problem jest sterowalny) i wiemy też, że jeśli u jest sterowaniem optymalnym, to przyjmuje wartości w tych punktach brzegu, które są punktami podparcia. (2) Mało tego: weźmy t [, t ] taki, że ( ) zachodzi. Dla uproszczenie notacji, niech q := Y (t)p i przypuśćmy, że q. Wiemy, że Zauważmy dalej, że u (t) {u U q, u = max q, u }. u U max u U q, u = max q, u. u W Otrzymany wynik zgadza się z tym, że u przyjmuje wartości w W. 3.1.16 Uwaga: (1) Przypuśćmy, że dane jest sterowanie u U spełniające warunek konieczny dla pewnego p N A(t )(w(t )), p, tzn. p, Y (t)u(t) = max p, Y (t)v v U dla p.w. t [, t ]. Niech q = y(t ; u) wtedy, oczywiście, q A(t ) oraz Z drugiej strony Wobec tego p, q w(t ). p, Y (t)u(t) p, Y (t)u (t). p, q = p, w(t ). A więc q należy do przecięcia A(t ) z hiperpłaszczyzną podpierającą ten zbiór (tzn. A(t )) w punkcie w(t ) wyznaczoną przez p. (2) Przypuśćmy teraz, że dla pewnego p oraz u U, p, Y (t)u (t) = max p, Y (t)v v U dla p.w. t [, t ]. Niech q = y(t ; u ). Wtedy q A(t ). Dla dowolnego innego q A(t ), istnieje u U takie, że q = y(t ; u) = Y (s)u(s) ds.
26 3. Problemy optymalnego sterowania Z drugiej strony p, Y (s)u (s) p, Y (s)u(s) ; stąd Czyli p N A(t )(q ) i q A(t ). p, q p, q. Warto obecnie przeformułować to twierdzenie w języku zbiorów osiągalnych R(t; x ), t. Przypomnijmy, że dla dowolnego t [, t ] oraz x(t; x, u) = e ta (x + y(t; u)). R(t; x ) = e ta (x + A(t)) Jeżeli p N A(t) (y(t; u )), to [e ta ] p N R(t;x )(x(t; u ) dla wszystkich t [, t ]. Istotnie: jeśli x R(t; x ), to y = e ta (x e ta x ) A(t) oraz y(t; u ) = e ta (x(t; u ) e ta x ). Zatem p, y y(t; u ) = p, e ta (x x(t; u )) = [e ta ] p, x x(t; u ). Otrzymaliśmy więc: 3.1.17 Wniosek: Jeśli u jest strategią optymalno-czasową z minimalnym czasem t >, to optymalna trajektoria x( ; x, u ) ma następujące własności: dla dowolnego t [, t ], x(t; u ) R(t; x ) i dla dowolnego p takiego, że [e t A ] p N R(t ;x )(z(t )), dla p.w. t [, t ], p, e ta B(t)u (t) = max u U p, e ta B(t)u. Ponadto [e ta ] p N R(t;x )(x(t; u )) dla p.w. t [, t ]. ( ) 3.1.18 Uwaga: Warto jeszcze zbadać wyrażenie [, t ] t (e ta ) p występujące w warunku koniecznym ( ) powyżej. Mianowicie funkcja [, + ) t (e ta ) p jest rozwiązaniem tzw. równania sprzężonego posatci ż = A (t)z, z() = p. 3.1.19 Ćwiczenie: Sprawdzić tę zależność. Teraz biorąc pod uwagę postać U (tzn U = [ 1, 1] m ) wyznaczymy dodatkowe warunki konieczne na optymalną strategię. 3.1.2 Przykład: Zgodnie z warunkiem koniecznym sterowania optymalnego, jeśli u U jest sterowaniem optymalnym (o optymalnym czasie t > ), to istnieje wektor p taki, że Y (t)p, u (t) = max v U Y (t)p, v dla p.w. t [, t ]. Znajdziemy warunki na to, by sterowanie u( ) U maksymalizowało wyrażenie Y (t)p, v przy v U. Dla dowolnego t, n Y (t)p, u(t) = [Y (t)p] j u j (t). j=1 Ponieważ u j 1, to wyrażenie po lewej stronie osiąga wartość maksymalną o ile, dla j = 1,..., m, u j = sgn [Y (t)p] j (dla tych t i j = 1,..., m, dla których [Y (t)p] j ). Aby uprościć notację, dla wektora b R r piszemy a = sgn b jeśli a j = sgn b j, j = 1,..., n (sgn = ). W takim razie: sterowanie u maksymalizuje wyrażenie Y (t)p, u(t) o ile u(t) = sgn (Y (t)p).