Teoria sterowania i optymalizacji Wykład monograficzny r.ak. 2006/07 Wojciech Kryszewski 1. Wprowadzenie Rozważamy układ sterowania opisany przez liniowe równanie różniczkowe x = A(t)x + B(t)u(t), t J, x(0) = x 0 R n, ( ) gdzie A : J M(n n), B : J M(n r), J := [0, ), są funkcjami lokalnie całkowalnymi, zaś u : J R r jest funkcją lokalnie istotnie ograniczoną. Dokładniej, dla t J, A(t) = [a ij (t)] 1 i,j n, B(t) = [b ij ] 1 i n, 1 j r oraz u(t) = (u 1 (t),..., u r (t)); zakładamy, że dla dowolnych i, j, a ij, b ij L 1 loc (J, R) oraz u i L loc (J, R). Zwykle będziemy zakładać, że dopuszczalne sterowania u przyjmują wartości w ustalonym zwartym zbiorze U R r. Przyjmijmy wtedy, że Ω := {u : J R r u jest mierzalna, u(s) U dla s J} jest zbiorem dopuszczalnych sterowań. Ustalmy funkcję u Ω. Trajektorią układu nazywamy rozwiązanie (tzn. funkcję absolutnie ciągłą) x( ; u) : J R n danego równania (tzn. taką, że dla p.w. t J, x (t; u) = A(t)x(t; u) + B(t)u(t) oraz x(0; u) = x 0 ). Oczywiście trajektoria zależy od wyboru sterowanie; dlatego też niekiedy sterowania nazywa się strategiami, zaś odpowiadające im trajektorie odpowiedziami. Wartość x(t; u), t J, nazywamy stanem układu poddanego sterowaniu u Ω. W przypadku układu ( ) stan układu jest determinowany poprzez wybór strategii u oraz czas t. Oczywiście można rozważać również nieliniowe układy sterowania postaci x = f(t, x, u), t J, x(0) = x 0 R n, gdzie f : J R n R r R n jest funkcją spełniającą odpowiednie warunki wystarczające dla istnienia rozwiązań, tzn. takie, by dla dowolnej funkcji u Ω, istniała funkcja absolutnie ciągła x( ; u) : J R n, że x (y; u) = f(t, x(t; u), u(t)) dla p.w. t J. W takiej sytuacji może się okazać, że istnieją różne rozwiązania, tzn. odpowiedź układu nie jest jednoznaczna i stan układu poddanego sterowaniu u Ω jest również niejednoznaczny. Podstawowe zagadnienia teorii sterowania dotyczą szeroko rozumianej optymalizacji dynamiki (własności trajektorii) układu z punkty widzenia różnych celów. Chodzi o taki wybór strategii, by odpowiadająca mu odpowiedź miała określone własności.
2 W. Kryszewski W zależności od postawionego celu otrzymuje się różnego rodzaju zagadnienia szczegółowe: Sterowalność Niech x 1 R n. Mówimy, że punkt (stan) jest osiągalny przez układ ( ) jeśli istnieje taka strategia u Ω, że x(t ; u) = x 1 dla pewnego T 0. W szczególności, oprócz ustalenia pożądanego stanu można ustalić czas T, w którym dany stan ma być osiągnięty. Obserwowalność W wielu sytuacjach bezpośredniej obserwacji podlega nie stan x(t; u) układu poddanego sterowaniu u Ω w czasie t J, lecz pewna wartość w(t) = h(x(t; u)) gdzie h : R n R m jest zadaną funkcją. Mówi się, że układ ( ) jest obserwowalny jeżeli znajomość strategii u Ω i obserwacji w( ) można jednoznacznie wyznaczyć stan początkowy x 0. Stabilizowalność Załóżmy, że układ ( ) jest autonomiczny, tzn. ma postać x = Ax + Bu, x(0) = x 0, gdzie A M(n n) i B M(n r) są macierzami stałymi. Załóżmy, że dla pewnych x R n i u U, Ax + Bu = 0. Mówimy, że funkcja k : R n U taka, że k(x) = u jest sprzężeniem stabilizującym, gdy x jest stabilnym położeniem równowagi układu x = Ax + Bk(x(t)), t J, x(0) = x 0. Optymalność W tzw. problemie optymalno-czasowym chodzi o znalezienie strategii u Ω, która nie tylko przeprowadza wyjściowy stan x 0 do celu x 1, lecz również czyni to w minimalnym czasie. W innych zagadnieniach czas sterowania T jest ustalony, a należy znaleźć strategię, która minimalizuje zadany funkcjonał kosztu T 0 g(x(t, u), u(t)) dt + G(x(T ; u)), gdzie g, G są ustalonymi funkcjami; powiadamy, że funkcja g realizuje tzw. bieżący, zaś G realizuje koszt końcowy. koszt 2. Liniowy problem czasowo-optymalny Zajmować się będziemy różnymi wariantami problemu optymalno-czasowego przede wszystkim dla układów liniowych. Niech z : J R n będzie funkcją ciągłą. Nasz problem polega na znalezieniu strategii u Ω takiej, że x(t ; u ) = z(t ) dla pewnego minimalnego czasu t 0, gdzie x( ; u ) jest trajektorią (odpowiedzią) układu poddanego sterowaniu u. Tak sformułowany problem ma naturalną interpretację geometryczną. Niech, dla t 0, A(t) := {x(t; u) u Ω}.
Teoria sterowania 3 Jest to tzw. zbiór osiągalny w czasie t. Jest jasne, że A(0) = {x 0 }. Zagadnienie sterowalności dotyczy pytania czy istnieje czas T 0 taki, że z(t ) A(T )? Niech t := inf{t 0 z(t) A(t)}. Pytanie brzmi: Czy istnieje strategia u Ω taka, że x(t ; u ) = z(t )? Równoważne pytanie Czy z(t ) A(t )? Jeśli bowiem z(t ) A(t ), to z(t ) = x(t ; u ) dla pewnego u Ω. Odwrotne wynikanie jest oczywiste w świetle definicji zbioru A(t ). 2.0.1. Przykład: Rozważmy pojazd kosmiczny o masie M poruszający się w linii pionowej, z dyszą skierowaną ku powierzchni lądowania. Niech h oznacza odległość podstawy statku od powierzchni lądowania, niech u będzie przyspieszeniem siły ciągu spowodowaną wyrzucaniem gazów powstających podczas spalania paliwa. Załóżmy, że początkowa masa paliwa jest m 0, zaś siła ciągu jest proporcjonalna do szybkości zmian masy paliwa. Mamy następujące równanie ruchu (równanie Newtona) (M + m(t))h (t) = g(m + m(t)) + u, m (t) = ku(t), gdzie k > 0 jest stałą proporcjonalności, zaś g jest przyspieszeniem ziemskim, przy warunkach początkowych m(0) = m 0, h(0) = h 0, h (0) = h 1. Pilot (dysponujący przepustnicą) kontroluje przyspieszenie u, na który narzuca się ograniczania 0 u c (dla prostoty c = 1). Zatem U = [0, 1] = C 1 i Ω = {u : J [0, c] u jest funkcją mierzalną}. Ustalmy T > 0. Zagadnienie miękkiego lądowania polega na znalezieniu takiego sterowania u( ) Ω, by dla odpowiadającego mu rozwiązania h( ; u), m(t) 0, h(t) 0 dla t [0, T ] oraz h(t ) = 0 i h (T ) = 0. Jest to jak widać problem sterowalności. Problem minimalno-czasowy pojawia się w sposób naturalny, gdy nie ustalamy czasu lądowania, lecz chcemy wylądować w możliwie minimalnym czasie. Przekształcimy teraz nasz problem do postaci ( ). Niech M(t) = M + m(t), t J. Mamy układ równań M(t)h (t) = gm(t) + u(t)m(t), m (t) = ku(t) t J, M(0) = M 0 := M + m 0, h(0) = h 0, h (0) = h 1. Zatem, wprowadziwszy zmienną v(t) = h (t) mamy v (t) = g + u(t) h (t) = v(t) m (t) = ku(t) i w zapisie macierzowym x (t) = Ax(t) + Bu(t) gdzie x = (v, h, m) oraz A = g 0 0 1 0 0 0 0 0, B = 1 0 k.
4 W. Kryszewski 2.1. Liniowe równania różniczkowe Symbolem M(m n) oznacza przestrzeń macierzy o m wierszach i n kolumnach. Jest jasne, że jeśli A M(m n), A = [a ij ] 1 i m,1 j n to można uważać, że A jest przekształceniem liniowym R n R m : dla x = (x 1, x 2,..., x n ), A(x) = y = (y 1,..., y m ) gdzie n y i = a ij x j, 1 i m. j=1 Przestrzeń M(m n) jest przestrzenią Banacha wraz z normą operatorową A. Jeżeli y = Ax, x R n, to dla dowolnego 1 i m, Zatem W takim razie gdzie C := m i=1 n j=1 a2 ij ( n ) 2 yi 2 a ij x j x 2 y 2 = j=1 m yi 2 x 2 i=1 y C x. Z definicji więc m A i=1 m i=1 n a 2 ij. Podobnie można szacować następująco (przy powyższych oznaczeniach): y = m yi 2 m max y i ; i i=1 j=1 n j=1 n j=1 a 2 ij. a 2 ij. Zatem W takim razie max i y i max j x j max i j=1 y m x max i A m max i a ij x max i n a ij. j=1 n a ij. j=1 n a ij. j=1 Rozważmy odwzorowanie A : J M(n n) gdzie J R jest przedziałem, A = [a ij ] 1 i,j n oraz a ij : J R, 1 i, j n, są funkcjami lokalnie całkowalnymi.
Teoria sterowania 5 Zauważmy najpierw, że funkcja A : J R (chodzi o funkcję J t A(t) R) jest mierzalna. Istotnie: niech {x k } k N będzie zbiorem gęstym i przeliczalnym w kuli {x R n x 1}. Wtedy, dla dowolnego t J, A(t) = sup A(t)x = sup A(t)x k. x 1 k N Dla dowolnego k N, funkcja f k : J t A(t)x k R n jest mierzalna (bowiem każda jej współrzędna fi k (t) = n j=1 a ij(t)x k j, 1 i n, jest, jako suma funkcji mierzalnych, mierzalna). Zatem funkcja J t f k (t) R jet mierzalna. Zatem funkcja A(t) = sup f k (t) k N jest także mierzalna. Następnie zauważmy, że funkcja A jest lokalnie całkowalna. W tym celu, wykorzystując powyższe oszacowania na normę A(t), możemy napisać A(t) n x max i n a ij (t). Lokalna całkowalność wszystkich funkcji a ij dowodzi, że również funkcja A(t) jest lokalnie całkowalna. Załóżmy, że b : J R N jest funkcją lokalnie całkowalną. Interesować nas będą równania różniczkowe postaci j=1 x = A(t)x + b(t). Rozwiązaniem (globalnym) tego równania nazwiemy absolutnie ciągłą funkcję x : J R n taką, że dla p.w. t J, x (t) = A(t)x(t) + b(t). Poza rozwiązaniami globalnymi można także mówić o rozwiązaniach lokalnych, które określone są na podprzedziałach zawartych w J. Interesować nas będą rozwiązania spełniające tzw. warunki początkowe: niech t 0 J i x 0 R n. Poszukujemy takiego rozwiązania x : J R N, że x(t 0 ) = x 0. 2.1.1. Twierdzenie: Dla dowolnych t 0 J i x 0 R n istnieje dokładnie jedno rozwiązanie x : J R n takie, że x(t 0 ) = x 0. Dowód: Przedział J można przedstawić jako sumę przeliczalną J = n=1 gdzie I n jest przedziałem domkniętym, t 0 I n dla dowolnego n 1 i I n I m dla m n. Ustalmy n 1 i rozważmy przestrzeń X, której elementami są funkcje I n
6 W. Kryszewski ciągłe x : I n R n, tzn. X := C(I n, R n ). Przestrzeń X jest oczywiście przestrzenią wektorową. Dobrze wiadomo, że X jest przestrzenią Banacha z normą Dla x X, rozważmy wyrażenie ( x := sup exp t I n x := sup t I n x(t), x X. ) A(s) ds x(t). t 0 t Bez trudu można sprawdzić, że : X R jest normą ( 1 ) tzw. normą Bieleckiego, tzn. λx = λ x, x + y x + y oraz x = 0 wtedy i tylko wtedy, gdy x 0 (x jest funkcja tożsamościowo równą zero). Dodatkowo X wraz z ta nową normą jest przestrzenią Banacha. W tym celu wystarczy zauważyć, że dana norma jest równoważna zwykłej normie : dla x X mamy mianowicie, że x x, x M n x gdzie ( t ) M n := sup exp A(s) ds. t I n t 0 W dalszym ciągu rozważmy operator F : X X zadany wzorem F (x)(t) = x 0 + t t 0 (A(s)x(s) + b(s)) ds, t [0, T ], x X. Precyzyjnie mówiąc, operator ten funkcji x X przyporządkowuje funkcję F (x) zadaną powyższym wzorem. Sprawdzimy, że F jest poprawnie określony, tzn. dla x X, F (x) X. Przede wszystkim funkcja [0, T ] s A(s)x(s) jest mierzalna; jej lokalna całkowalność wynika natychmiast z nierówności A(s)x(s) A(s) x(s), s [0, T ], w której funkcja po prawej stronie jako iloczyn funkcji lokalnie całkowalnej (więc całkowalnej na [0, T ]) i ciągłej jest funkcją całkowalną. Pokazaliśmy, że wzór jest poprawny, zaś F (x) jest funkcją ciągłą (nawet absolutnie ciągłą). Pokażemy teraz, że operator F spełnia założenia twierdzenia Banacha o punkcie stałym, tzn. istnieje stała 0 λ1 taka, że Istotnie dla dowolnego t I n, F (x) F (y) λ x y. F (x)(t) F (y)(t) = t t 0 A(s)(x(s) y(s)) ds. 1 W tym miejscu, a także w innych symbol jest nieco nadużywany; czytelnik powinien jednak bez trudu, z samego kontekstu, orientować się jakie jest znaczenie tego symbolu w każdej sytuacji, w której jest on stosowany.
Teoria sterowania 7 Zatem, dla dowolnego t I n, t t 0, F (x)(t) F (y)(t) t x y e t 0 t e t 0 s s t A(z) dz s 0 t A(z) e dz 0 A(s) x(s) y(s) ds t 0 A(z) dz A(s) ds = Analogicznie dla 0 t < t 0, ( F (x)(t) F (y)(t) e t t A(s) ds 0 ( t ) t A(s) e ds 0 1 x y. ) 1 x y. Zatem gdzie F (x) F (y) ( 1 e t λ := t A(s) ds 0 (1 e In A(t) dt ). ) x y λ x y Z twierdzenia Banacha operator F posiada punkt stały x n X; tzn. dla dowolnego t I n, x n (t) = x 0 + t Oznacza to, że x n (t 0 ) = x 0 oraz dla p.w. t I n, t 0 (A(s)x n (s) + b(s)) ds. x n(t) = A(t)x n (t) + b(t). Zauważmy jeszcze, że jeżeli m n, to x m (t) = x n (t) przy t I n. Istotnie obcięcie u := x m In jest rozwiązaniem równania na odcinku I n ; jest zatem punktem stałym operatora F ; taki punkt stały jest wyznaczony jednoznacznie: stąd teza. Określmy teraz funkcję x : J R n wzorem x(t) = x n (t) o ile t I n. Określenie to jest poprawne w świetle powyższych rozważań. 2.1.2. Uwaga: Jednoznaczność rozwiązania wynika również z nierówności Gronwalla. Załóżmy mianowicie, że funkcje x, y : J R n są rozwiązaniami. Zatem dla p.w. t J i x(t 0 ) = y(t 0 ). Wtedy x (t) = A(t)x(t) + b(t), y (t) = A(t)y(t) + b(t) (x y) (t) = A(t)(x y)(t) i Zatem, dla t t 0, x(t) y(y) = t t 0 A(s)(x(s) y(s)) ds. x(t) y(t) t t 0 A(s) x(s) y(s) ds.
8 W. Kryszewski Funkcja p(t) = x(t) y(t) jest lokalnie istotnie ograniczona, funkcja q(t) = A(t) jest lokalnie całkowalna i nieujemna. Z nierówności Gronwalla x(t) y(t) 0. Podobnie można wykazać, że dla 0 t t 0, x(t) = y(t). W dalszym ciągu będziemy chcieli znaleźć dokładną postać rozwiązania wyjściowego równania. Wiadomo (z dowodu twierdzenia Banacha i metody iteracji), że rozwiązanie jest punktem operatora F zatem x = lim n F n (x 0 ) gdzie x 0 : J R n jest dowolną funkcją ciągłą na J, np. x 0 jest funkcją stałą J t x 0 (stąd też przyjęta notacja). Ciąg iteracji F n (x 0 ) jest zbieżny jednostajnie na zwartych podprzedziałach przedziału J. Podamy jednak inną metodę. Zaczniemy najpierw od równania jednorodnego: x = A(t)x, x(t 0 ) = x 0. Symbolem x( ; t 0, x 0 ) oznaczmy funkcję J R n będącą rozwiązaniem tego równania. Zatem x( ; t 0, x 0 ) C(J, R n ), x(t 0 ; t 0, x 0 ) = x 0 i x (t; t 0, x 0 ) = A(t)x(t; t 0, x 0 ) dla p.w. t J. 2.1.3. Twierdzenie: Maja miejsce następujące własności: (i) Zbiór {x( ; t 0, x 0 ) x 0 R n } jest podprzestrzenią liniową w C(J, R n ); (ii) Dla ustalonych t, t 0 J, odwzorowanie R n x 0 x(t; t 0, x 0 ) R n jest przekształceniem liniowym; zatem istnieje macierz X(t; t 0 ) M(n n) ( 2 ) taka, że x(t; t 0, x 0 ) = X(t; t 0 )x 0 ; (iii) funkcja macierzowa J t X(t; t 0 ) M(n n) jest absolutnie ciągła (tzn. absolutnie ciągłe są jej współczynniki) i zachodzi (iv) dla dowolnych t, t 0, s J, X (t; t 0 ) = A(t)X(t; t 0 ), X(t 0 ; t 0 ) = I; X(t; s)x(s; t 0 ) = X(t; t 0 ). Stąd X(t; t 0 ) 1 = X(t 0 ; t); zatem X(t; t 0 ) jest izomorfizmem; (v) odwzorowanie R n x 0 x( ; t 0, x 0 ) C(J, R n ) jest izomorfizmem przestrzeni R n i przestrzeni rozwiązań równania jednorodnego. Dowód: Łatwo pokazać, że jeśli x 1, x 2 R n i λ 1, λ 2 R, to funkcja u = λ 1 x( ; t 0, x 1 )+ λ 2 x( ; t 0, x 2 ) jest rozwiązaniem równania jednorodnego i u(t 0 ) = λ 1 x 1 + λ 2 x 2. Zatem x( ; t 0, λ 1 x 1 + λ 2 x 2 ) = λ 1 x( ; t 0, x 1 ) + λ 2 x( ; t 0, x 2 ). 2 Funkcja J J (t, t 0 ) X(t; t 0 ) M(n n) nazywana jest rezolwentą równania jednorodnego.
Teoria sterowania 9 W szczególności, dla dowolnego t J x(t; t 0, λ 1 x 1 + λ 2 x 2 ) = λ 1 x(t; t 0, x 1 ) + λ 2 x(t; t 0, x 2 ). Można wiec napisać, że x(t; t 0, x 0 ) = X(t; t 0 )x 0 gdzie X(t; t 0 ) M(n n) dla każdych T, t 0 J. Dowodzi to punktów (i) oraz (ii). Rozważmy macierzowe równanie różniczkowe X = A(t)X, X(t 0 ) = I. Analogicznie jak poprzednio (wykorzystując twierdzenie Banacha dla operatora F (X)(t) = I + t t 0 A(s)X(s) ds zadanego na przestrzeni (macierzowych) funkcji J M(n n) w odpowiedni sposób unormowanej) można wykazać, że zagadnienie to posiada dokładnie jedno absolutnie ciągłe rozwiązanie X : J M(n n). Niech, dla dowolnego x 0 R n, x(t) := X(t)x 0. Wtedy x (t) = X (t)x 0 = A(t)X(t)x 0 = A(t)x(t)oraz x(t 0 ) = X(t 0 )x 0 = x 0. Zatem Z dowolności x 0 wnosimy, że X(t)x 0 = x(t) = x(t; t 0, x 0 ) = X(t; t 0 )x 0. X(t) = X(t; t 0 ). Ustalmy dowolne s, t 0 J oraz x 0 R n ; rozważmy funkcje x(t) := X(t; t 0 ) oraz y(t) = X(t; s)x(s; t 0 )x 0, t J. Wtedy x(s) = X(s; t 0 )x 0 = y(s). Ponadto (bezpośrednio różniczkując) widzimy, że x (t) = A(t)x(t), y (t) = A(t)y(t) dla p.w. t J. Zatem (z jednoznaczności istnienia rozwiązań) wynika, że x y. Z dowolności x 0 wynika teza. Teza (v) wynika natychmiast z poprzednich rozważań. 2.1.4. Uwaga: Z powyższego twierdzenie wynika, że dla dowolnego t 0 J, funkcja X(t 0 ; ) jest absolutnie ciągła. Zajmiemy się teraz znowu równaniem niejednorodnym x = A(t)x + b(t), x(t 0 ) = x 0 R n. Wiemy, że zagadnienie to posiada wyznaczone jednoznacznie rozwiązanie x : J R n. Szukamy tego rozwiązania w postaci x(t) = X(t; t 0 )z(t), t J, gdzie z(t) = X(t; t 0 ) 1 x(t) = X(t 0 ; t)x(t) jest funkcją absolutnie ciągłą. Zauważmy, że dla p.w. t J, x (t) = X (t; t 0 )z(t) + X(t; t 0 )z (t) = A(t)X(t; t 0 )z(t) + X(t; t 0 )z (t) oraz x (t) = A(t)x(t) + b(t) = A(t)X(t; t 0 )z(t) + b(t)
10 W. Kryszewski skąd otrzymujemy, że z (t) = X(t; t 0 ) 1 b(t) = X(t 0 ; t)b(t). Dodatkowo x 0 = x(t 0 ) = X(t 0 ; t 0 )z(t 0 ) = z(t 0 ). Zatem i, w takim razie, ostatecznie x(t) = X(t; t 0 )x 0 + X(t; t 0 ) Jest to tzw. wzór Duhamela. z(t) = x 0 + t t t 0 X(t 0 ; s)b(s) ds t 0 X(t 0 ; s)b(s) ds = X(t; t 0 )x 0 + t t 0 X(t; s)b(s) ds. Widać więc, żeby znaleźć rozwiązanie równania niejednorodnego lub jednorodnego należy wyznaczyć rezolwentę X(t; t 0 ). Rozważymy kilka przypadków: 1. n = 1; wtedy A(t) = a(t), t J gdzie a : J R jest funkcja lokalnie całkowalną. Wówczas, dla dowolnych t, t 0 J, Gdy a R jest funkcja stałą, to dla wszystkich t, t 0 R. t t a(s) X(t; t 0 ) = e ds 0, t J. X(t; t 0 ) = e (t t 0)a 2. Niech n > 1 i Niech A(t) = A będzie stałym polem macierzowym. Rozważmy szereg ( ) 1 n! An, n 0 którego wyrazami są macierze 1 n! An, n 0 (przypomnijmy, że A 1 := A i dla n 2, A n := A n 1 A; 0! = 1 i A 0 := I). Szereg ten jest bezwzględnie zbieżny; jest on bowiem bezwzględnie ograniczony: dla dowolnego m 0, m n=0 1 n! An m n=0 1 n! A n e A. Sumę tego szeregu nazywamy eksponentą macierzy A i oznaczamy symbolem exp A; zatem 1 exp A := n! An. 2.1.5. Lemat: Funkcja R R t X(t; t 0 ) := exp(t t 0 )A jest rezolwentą równania jednorodnego postaci x = Ax. n=0
Teoria sterowania 11 Dowód: Oczywiście X(t 0 ; t 0 ) = I. Należy sprawdzić, że X (t; t 0 ) = AX(t; t 0 ). W tym celu zauważmy, że szereg ( (n!) 1 (t t 0 ) n A n ) n 0 i szereg pochodnych ( [ (n 1)!] 1 (t t 0 ) n 1 A n ) n 1 są jednostajnie zbieżne (np. na mocy twierdzenie Weierstrassa). Zatem ( n=0 ) 1 n! (t t 0) n A n = n=1 1 (n 1)! (t t 0) n 1 A n = A n=0 1 n! (t t 0) n A n. Innymi słowy X (t; t 0 ) = AX(t; t 0 ). 2.1.6. Wniosek: Zachodzą następujące własności: (i) exp((t + s)a) = exp ta exp sb; (ii) exp(a + B) = exp A exp B = exp B exp A o ile macierze A, B komutują (tzn. AB = BA). Dowód: Wystarczy udowodnić warunek (ii). Funkcje R t exp t(a + B) i R t exp ta exp tb spełniają równanie X = (A + B)X, X(0) = I (sprawdzić). Z jednoznaczności wynika, że są one równe; w szczególności, dla t = 1, exp(a + B) = exp A exp B. 3. Przejdziemy teraz do sytuacji ogólnej. Podobnie jak w uwadze powyżej X( ; t 0 ) jest punktem stałym operatora całkowego F (X)(t) = I + t t 0 A(s)X(s) ds, X C(J, R n ), który można wyznaczyć metodą sukcesywnych iteracji: Zatem wyznaczymy F n (I), n 1. Niech t J. Dla n = 1 mamy Dla n = 2 I + X( ; t 0 ) = lim n F n (I). F (I)(t) = I + t t 0 A(s) ds. F 2 (I)(t) = F (F (I))(t) = I + A(s 1 )F (I)(s 1 ) ds 1 = t ( 0 s1 ) t t s1 A(s 1 ) I + A(s 2 ) ds 2 ds 1 = I + A(s) ds + A(s 1 ) A(s 2 ) ds 2 ds 1. t 0 t 0 t 0 t 0 t 0 t t
12 W. Kryszewski Ogólnie dla n 2 F n (I)(t) = I + t s1 t t A(s) ds + A(s 1 ) t 0 t 0 s1 sn 1 t 0 A(s 2 ) ds 2 ds 1 +... + A(s 1 ) A(s 2 )... A(s n 1 ) A(s n ) ds n ds n 1...ds 1. t 0 t 0 t 0 Zatem t s1 sn 1 X(t; t 0 ) = A(s 1 ) A(s 2 )... A(s n 1 ) A(s n ) ds n ds n 1...ds 1. t 0 t 0 t 0 n=0 Nadamy temu wyrażeniu inną, bardziej strawną postać. trzecim wyrazem powyższego szeregu: Zajmiemy się najpierw t t 0 A(s 1 ) t 0 s1 t 0 A(s 2 ) ds 2 ds 1 = t s1 Z twierdzenia Fubiniego t s1 A(s 1 )A(s 2 ) ds 2 ds 1 = t 0 gdzie jest trójkątem t 0 t 0 A(s 1 )A(s 2 ) ds 2 ds 1. A(s 1 )A(s 2 ) ds 1 ds 2 := {(s 1, s 2 ) t 0 s 1 t 0, t 0 s 2 s 1 }. Po zmianie kolejności całkowania (znowu wykorzystujemy twierdzenie Fubiniego) t t A(s 1 )A(s 2 ) ds 1 ds 2 = A(s 1 )A(s 2 ) ds 1 ds 2. s 2 Zamieniając nazwy zmiennych w całce po prawej stronie otrzymamy t t t ( t ) A(s 1 )A(s 2 ) ds 1 ds 2 = A(s 2 )A(s 1 ) ds 2 ds 1 = A(s 2 ) ds 2 A(s 1 ) ds 1. s 1 s 1 W takim razie 2 A(s 1 )A(s 2 ) ds 1 ds 2 = t 0 t s1 t 0 t 0 t 0 t 0 A(s 1 )A(s 2 ) ds 2 ds 1 + t t t 0 s 1 A(s 2 )A(s 1 ) ds 2 ds 1 Zbiór, po którym całkujemy drugie wyrażenie po prawej stronie jest trójkątem := {(s 1, s 2 ) t 0 s 1 t 0, s 1 s 2 t}, który uzupełnia kwadrat {(s 1, s 2 ) t 0 s 1, s 2 t}. Wprowadzimy obecnie tzw. operator chronologicznego uporządkowania (T A) 2 : J 2 M(n n) dany wzorem { (T A) 2 A(s1 )A(s (s 1, s 2 ) = 2 ) gdy s 1 s 2 ; A(s 2 )A(s 1 ) gdy s 1 s 2.
Teoria sterowania 13 Biorąc to pod uwagę możemy napisać t s1 t 0 t 0 A(s 1 )A(s 2 ) ds 2 ds 1 = (T A) 2 (s 1, s 2 ) ds 1 ds 2 oraz t t A(s 2 )A(s 1 ) ds 2 ds 1 = t 0 s 1 (T A) 2 (s 1, s 2 ) ds 1 ds 2. Zatem drugi wyraz rozważanego szeregu ma postać 1 2 t t t 0 t 0 (T A) 2 (s 2, s 2 ) ds 1 ds 2. Jeśli rozważyć operator chronologicznego uporządkowania (T A) n : J n M(n n) zadany wzorem (T A) n (s 1, s 2,..., s n ) = A(s i1 )A(s i2 )... A(s in ) gdzie s i1 s i2... s in, to podobnie jak wyżej można udowodnić, że n-ty wyraz szeregu ma postać Wobec tego 1 n! X(t; t 0 ) = t t t 0 n=0 t 0... 1 n! t t t t 0 t 0 (T A) n (s 1, s 2,..., s n ) ds 1 ds 2...ds n. t 0... t t 0 (T A) n (s 1, s 2,..., s n ) ds 1 ds 2...ds n. Załóżmy, że operatory A(s) są przemienne, tzn. A(s 1 )A(s 2 ) = A(s 2 )A(s 1 ) dla dowolnych s 1, s 2 J. Wtedy, oczywiście, dla dowolnych s 1,..., s n J, (T A) n (s 1,..., s n ) = A(s 1 )... A(s n ) oraz t t t ( t ) n... (T A) n (s 1, s 2,..., s n ) ds 1 ds 2...ds n = A(s) ds. t 0 t 0 t 0 t 0 Wobec tego, w tej sytuacji, ( 1 t ) n ( t ) X(t; t 0 ) = A(s) ds = exp A(s) ds. n! t 0 t 0 n=0 Łatwo dostrzec, że jest to bardzo proste uogólnienie sytuacji, w której A(t) = A było polem macierzowym stałym. Wypiszmy wreszcie wzór Duhamela w sytuacji, w której t 0 = 0 (tzn. zakładamy, że 0 J). Niech X(t) := X(t; 0), t J. Wtedy, dla dowolnych s, t J, X(0; s) = X 1 (s) i X(t; s) = X(t)X 1 (s) x(t; 0, x 0 ) = X(t)x 0 + X(t) t 0 X 1 (s)b(s) ds.
14 W. Kryszewski 2.2. Sformułowanie problemu Rozważamy liniowy układ sterowania x = A(t)x + B(t)u(t), t J, x(0) = x 0 R n, ( ) gdzie A : J M(n n), B : J M(n r), J := [0, ), są funkcjami lokalnie całkowalnymi oraz u Ω := {u : J R r u(s) U, s J, u jest mierzalna} gdzie U jest zbiorem zwartym w R r. Ponadto niech z : J R n będzie pewną funkcją ciągłą. Przypomnijmy, że dla dowolnego u Ω istnieje dokładnie jedno rozwiązanie x( ; u) : J R n (tzn. funkcja absolutnie ciągła taka, że x (t; u) = A(t)(x(t; u) + B(t)u(t) dla p.w. t J oraz x(0; u) = x 0 ). Niech A(t) = {x(t; u) u Ω}. Jest to, jak już powiedzieliśmy, tzw. zbiór osiągalny. Kwestia sterowalności tj. istnienia czasu t J takiego, że dla pewnego sterowania u Ω, z(t) = x(t, u) jest równoważna zagadnieniu znalezienia czasu t J takiego, by z(t) A(t). Niech t := inf{t J z(t) A(t)}. Zajmiemy się teraz pytaniem czy istnieje strategia (sterowanie) optymalna u Ω, tzn. taka, że z(t ) = x(t ; u ). Jak zostało powiedziane wyżej istnienie strategii optymalnej jest równoważne inkluzji z(t ) A(t ). Zaczniemy od pewnego przeformułowania problemu. Niech X : J M(n n) będzie rezolwentą problemu jednorodnego X = A(t)X, X(0) = I. Wówczas, jak wiadomo, rozwiązanie ma postać x(t; u) = X(t)x 0 + X(t) t 0 X 1 (s)b(s)u(s) ds. Zatem, dla pewnego T J, z(t ) = x(t ; u) wtedy i tylko wtedy, gdy tzn. wtedy i tylko wtedy, gdy T z(t ) = X(T )x 0 + X(T ) X 1 (s)b(s)u(s) ds, 0 X 1 (T )z(t ) x 0 = T 0 X 1 (s)b(s)u(s) ds.
Teoria sterowania 15 Niech Y (t) := X 1 (s)b(s), w(t) := X 1 z(t) x 0, t J. Z założenia współczynniki macierzy B sa lokalnie całkowalne i X 1 ( ) jest funkcją absolutnie ciągłą; zatem współczynniki macierzy Y są lokalnie całkowalne. Podobnie argumentując widzimy, że w : J R n jest funkcją ciągłą. Przy tych oznaczeniach problem sterowalności jest równoważny problemowi istnienia strategii u Ω i czasu T 0 takiego, że w(t ) = T 0 Y (s)u(s) ds. Jednocześnie problem optymalno-czasowy dotyczy istnienia dopuszczalnej strategii u Ω takiej, że w(t ) = t 0 Y (s)u (s) ds. Wtedy oraz Niech, dla t 0, R(t) := {y = y(t; u) = t 0 Y (s)u(s) ds u Ω}. A(t) = X(t)[x 0 + R(t)] = {X(t)(x 0 + y) y R(t)} z(t) A(t) w(t) R(t). Widać więc, że strategia optymalna istnieje wtedy i tylko wtedy, gdy w(t ) R(t ) dla pewnego czasu t 0 takiego, że w(t) R(t) przy 0 t < t. Niech, dla t 0, Ω[0, t] := {u : J R r u jest mierzalna i u(s) U, 0 s t} będzie zbiorem dopuszczalnych strategii dopuszczalnych na odcinku [0, t]. Wtedy { t } R(t) = Y (s)u(s) u Ω[0, t]. Jako natychmiastowy wniosek z twierdzenia 3.12.16 mamy 0 2.2.1. Twierdzenie Dla dowolnego t J, zbiór osiągalny R(t) jest zwarty i wypukły. Jeśli U jest zbiorem symetrycznym (tzn. jeśli u U, to u U), to R(t) jest również zbiorem symetrycznym. Ponadto { t } R(t) = R 0 (t) := Y (s)u(s) ds u Ω 0 [0, t], gdzie, dla t J, 0 Ω 0 [0, t] = {u Ω[0, t] u(s) ext(co U), s [0, t]}. Sterowania ze zbioru Ω 0 nazwiemy sterowaniami bang-bang.
16 W. Kryszewski 2.3. Istnienie sterowań optymalnych i warunki konieczne istnienia W celu stwierdzenie istnienia strategii optymalno-czasowych zbadamy przede wszystkim odwzorowanie R( ). 2.3.1. Lemat: Odwzorowanie wielowartościowe R : J BC(R n ) jest jednostajnie ciągłe względem metryki Hausdorffa. Dowód: Weźmy t 1, t 2 J, t 1 t 2 ; jeżeli y R(t 1 ), to y = t 1 0 u Ω. Oczywiście y := t 2 Y (s)u(s) ds R(t 0 2). zatem d(y, R(t 2 )) y y M t2 t 1 Y (s) ds gdzie M := sup u U u. Zatem, dla dowolnego ε > 0, istnieje δ > 0 taka, że d(y, R(t 2 )) M t2 t 1 Y (s) ds < ε Y (s)u(s) ds gdzie o ile t 2 t 1 < δ. Analogicznie, dla każdego y R(t 2 ), d(y, R(t 1 )) < ε przy założeniu, że t 2 t 1 < δ. Reasumując, jeżeli t 2 t 1 < δ, to d H (R(t 1 ), R(t 2 )) < ε. 2.3.2. Lemat: Jeśli y int R(t) dla pewnego t > 0, to istnieje δ > 0 takie, że y int R(s) o ile t s < δ. Dowód: Skoro y int R(t), to istnieje takie ε > 0, że D(y, 2ε) R(t). Z lematu 2.3.1 (a w zasadzie wystarczy wykorzystać tylko dolną półciągłość odwzorowania R( )), istnieje δ > 0 takie, że d H (R(t), R(s)) < ε o ile t s < δ. Załóżmy, że t s < δ. Wtedy B(y, ε) R(s). Istotnie: wiemy, że D(y, 2ε) B(R(s), ε). Przypuśćmy, że istnieje z B(y, ε) taki, że z R(s). Z twierdzenia o oddzielaniu istnieje p R n, p = 1, taki, że α := p, z > sup p, x. x R(s) Znajdziemy wówczas punkt b R(t) taki, że b y = 2ε oraz p, b z = b z > ε. Wtedy d(b, R(s)) > ε: sprzeczność. 2.3.3. Uwaga: Powyższy lemat nie wynika tylko z ciągłości R( ). Nietrudno podać przykład odwzorowania ciągłego (w sensie metryki Hausdorffa) o niewypukłych wartościach, dla którego opisany fakt nie ma miejsca. Mając powyższe lematy łatwo udowodnić następujący podstawowy fakt. 2.3.4. Twierdzenie: Załóżmy, problem jest sterowalny, tzn. istnieje czas T 0 i sterowanie u Ω takie, że z(t ) = x(t ; u). Wówczas istnieje sterowanie optymalne.
Teoria sterowania 17 Dowód: Założenie oznacza, że w(t ) R(T ). Zdefiniujmy t := inf{t J w(t) R(t)}. Wtedy 0 t T. Istnieje ciąg (t n ) taki, że w(t n ) R(t n ) oraz t n t. Niech w(t n ) = y(t n ; u n ) = t n 0 Y (s)u n (s) ds, gdzie u n Ω, dla n 1. Wtedy w(t ) y(t, u n ) w(t ) w(t n ) + y(t n ; u n ) y(t ; u n ) w(t ) w(t n ) + M tn t Y (s) ds gdzie M = sup u U u. Ciągłość funkcji w( ) oraz absolutna ciągłość całki dowodzą, że y(t ; u n ) w(t ) przy n. Oczywiście y(t ; u n ) R(t ). Domkniętość R(t ) implikuje, że w(t ) R(t ). Z twierdzenia 2.2.1 lub 3.12.16, wiemy, że R(t ) = R 0 (t ). Zatem 2.3.5. Wniosek: Jeżeli problem jest sterowalny, to istnieje optymalna strategia u : [0, t ] U taka, że u (s) ext(co U) dla dowolnego s [0, t ]. 2.3.6. Uwaga: Zauważmy, że jeżeli minimalny czas t > 0, to w(t ) R(t ). Istotnie, gdyby w(t ) int R(t ), to dla dowolnego t < t dostatecznie bliskiego t, w(t) int R(t) na mocy ciągłości w oraz lematu 2.3.2. W szczególności punkt w(t ) jest punktem podparcia zbioru R(t ). Przejdziemy teraz do twierdzenia, w którym będą sformułowane warunki konieczne dla istnienia strategii optymalno-czasowej. Niech teraz p 0 będzie elementem stożka normalnego do R(t ) w punkcie w(t ), tzn. p N R(t ). Na mocy faktu 3.9.13 (lub wniosku 3.9.16) takie wektory istnieją bo w(t ), jako punkt brzegowy jest punktem podparcia. Zatem, dla dowolnego x R(t ), p, x w(t ) 0. Niech u będzie strategią czasowo-optymalną, zaś u Ω inną strategią. Wtedy x := t Y (s)u(s) ds 0 R(t ); zatem p, t Równoważnie, dla dowolnej strategii u Ω, t 0 0 Y (s)[u(t) u (s)] ds 0. Y (s)p, u (s) u(s) ds 0 gdzie Y (t) oznacza macierz sprzężoną (transponowaną) do Y (t). ( ) Twierdzę, że wówczas, dla p.w. t [0, t ], Y (t)p, u (t) = max u U Y (t)p, u. Oczywiście Y (t)p, u (t) max u U Y (t)p, u dla dowolnego t [0, t ]. n N, niech Z n := {t [0, t] Y (t)p, u (t) max v U Y (t)p, v 1/n}. ( ) Dla
18 W. Kryszewski Wtedy {t [0, t ] Y (t)p, u (t) < max Y (t)p, v } = Z n. v U n N Zauważmy, że funkcja [0, t ] t max u U Y (t)p, u jest mierzalna (w tym celu wystarczy spostrzec, że dla każdego t [0, t ], max Y (t)p, u = max u U u U Q r Y (t)p, u a ostatnia funkcja jest mierzalna). Stąd, dla dowolnego n N, Z n jest zbiorem mierzalnym. Przypuśćmy, że dla pewnego n miara Z n jest dodatnia, µ(z n ) = ε n > 0. Można udowodnić (w oparciu o twierdzenie Fillipova), że istnieje funkcja mierzalna v : Z n U taka, że Y (t)p, v(t) = max u U Y (t)p, u. W takim razie, dla t Z n, Rozważmy 0 Y (t)p, u (t) Y (t)p, v(t) 1/n. u(t) := { u (t) dla t [0, t ] \ Z n ; v(t) dla t Z n. Wówczas u Ω i t Y (s)p, u (s) u(s) ds = Y (s)p, u (s) v(s) ds µ(z n )/n < 0 : Z n sprzeczność. Widzimy więc, że dla p.w. t [0, t ]. Y (t)p, u (t) = max u U Y (t)p, u, ( ) 2.3.7. Uwaga: (1) Niech teraz t będzie takim punktem z odcinka [0, t ], że zachodzi ( ). Zatem, dla każdego u U, Y (t)p, u u (t) 0. Stąd Y (t)p jest elementem stożka normalnego do zbioru U w punkcie u (t). Wobec tego, dla t [0, t ], jeżeli Y (t)p 0, to u (t) = {u U Y (t)p, u = max v U Y (t)p, v }. Innymi słowy, dla p.w. t [0, t ], jeśli Y (t)p 0, to punkt u (t) jest punktem prawie eksponowanym: jest on punktem podparcia zbioru U. Wiemy więc, że istnieje sterowanie optymalne przyjmujące wartości w zbiorze ext(co U) ext(u) (o ile problem jest sterowalny) i wiemy też, że jeśli u jest sterowaniem optymalnym, to przyjmuje wartości w tych punktach brzegu, które są punktami podparcia. (2) Mało tego: weźmy t [0, t ] taki, że ( ) zachodzi. Dla uproszczenie notacji, niech q := Y (t)p i przypuśćmy, że q 0. Wiemy, że u (t) {u U q, u = max q, u }. u U
Teoria sterowania 19 Zauważmy dalej, że max q, u = max u U q, u = max u co ext(co U) q, u. u ext(co K) Otrzymany wynik zgadza się z tym, że u przyjmuje wartości w ext(co U). (3) Ponadto wnosimy, że dla dowolnego t [0, t ], punkt y(t; u ) := t Y 0 (s)u (s) ds leży na brzegu zbioru R(t) oraz, dla dowolnego u Ω t p, y(t; u) y(t; u ) = p Y (s)[u(s) u (s)] ds 0. Stąd, dla dowolnego y R(t), p, y y(t; u ) 0, tzn. normalnego do zbioru R(t) w punkcie y(t; u ). Udowodniliśmy więc następujące twierdzenie. 0 p jest elementem stożka 2.3.8. Twierdzenie (warunek konieczny sterowanie optymalno-czasowego): Jeżeli u Ω jest sterowaniem optymalnym z optymalnym czasem t > 0, wtedy dla dowolnego wektora p 0, p N R(t )(w(t )), Y (t)p, u (t) = max v U Y (t)p, v dla p.w.t [0, t ]. Dla dowolnego t [0, t ], punkt trajektorii odpowiadającej sterowaniu u, tzn. y(t; u ) R(t) i p N R(t) (y(t; u )). 2.3.9. Uwaga: (1) Przypuśćmy, że dane jest sterowanie u Ω spełniające warunek konieczny dla pewnego p N R(t )N(w(t )), p 0, tzn. p, Y (t)u(t) = max p, Y (t)v v U dla p.w. t [0, t ]. Niech q = y(t ; u) wtedy, oczywiście, q R(t ) oraz Z drugiej strony Wobec tego p, q w(t ) 0. p, Y (t)u(t) p, Y (t)u (t). p, q = p, w(t ). A więc q należy do przecięcia R(t ) z hiperpłaszczyzną podpierającą zbiór R(t ) w punkcie w(t ) wyznaczoną przez p. (2) Przypuśćmy teraz, że dla pewnego p 0 oraz u Ω, p, Y (t)u (t) = max p, Y (t)v v U dla p.w. t [0, t ]. Niech q = y(t ; u ). Wtedy q R(t ). Dla dowolnego q R(t ), istnieje u Ω takie, że q = y(t ; u) = t 0 Y (s)u(s) ds.
20 W. Kryszewski Z drugiej strony p, Y (s)u (s) p, Y (s)u(s) ; stąd Czyli p N R(t )(q ) i q R(t ). p, q p, q. Warto obecnie przeformułować to twierdzenie w języku zbiorów osiągalnych A(t), t 0. Przypomnijmy, że dla dowolnego t [0, t ] oraz x(t; u) = X(t)x 0 + X(t)y(t; u). A(t) = X(t)x 0 + X(t)R(t) Jeżeli p N R(t) (y(t; u )), to [X 1 (t)] p N A(t) (x(t; u ) dla wszystkich t [0, t ]. Istotnie: jeśli x A(t), to y = X 1 (t)(x X(t)x 0 ) R(t) oraz y(t; u ) = X 1 (t)(x(t; u ) X(t)x 0 ). Zatem 0 p, y y(t; u ) = p, X 1 (t)(x x(t; u )) = [X 1 (t)] p, x x(t; u ). Otrzymaliśmy więc 2.3.10. Wniosek: Jeśli u jest strategią optymalno-czasową z minimalnym czasem t > 0, to optymalna trajektoria x( ; u ) ma następujące własności: dla dowolnego t [0, t ], x(t; u ) A(t) i dla dowolnego p 0 takiego, że [X 1 (t )] p N A(t )(z(t )), dla p.w. t [0, t ], p, X 1 (t)b(t)u (t) = max u U p, X 1 (t)b(t)u. Ponadto [X 1 (t)] p N A(t) (x(t; u )). 2.3.11. Uwaga: Warto jeszcze zbadać wyrażenie p, X 1 (t)b(t)u (t), = (X 1 (t)) p, B(t, u (t). Mianowicie funkcja J t (X 1 (t)) p jest rozwiązaniem tzw. równania sprzężonego posatci ż = A (t)z, z(0) = p. Istotnie d X 1 (t + h) X 1 (t) dt X 1 (t) = lim h 0 h Zatem = lim h 0 X 1 (t + h) X(t) X(t + h) X 1 (t) = h X 1 (t) dx(t) X 1 (t) = X 1 (t)a(t)x(t)x 1 (t) = X 1 (t)a(t). dt d[x 1 (t)] = A (t)[x 1 (t)]. dt
Teoria sterowania 21 Dla przykładu rozważymy szczególną sytuację, w której U = {u R r u j 1, j = 1,...r}, tzn. U jest kostką r-wymiarową. Zgodnie z warunkiem koniecznym sterowania optymalnego (twierdzenie 2.3.8) jeśli u Ω jest sterowaniem optymalnym (o optymalnym czasie t > 0), to istnieje wektor p 0 taki, że Y (t)p, u (t) = max u U Y (t)p, u dla p.w. t [0, t ]. W takim razie znajdziemy warunki na to, by sterowanie u( ) maksymalizowało wyrażenie Y (t)p, u przy u U. Mamy mianowicie, dla dowolnego t 0, Y (t)p, u(t) = r [Y (t)p] j u j (t). j=1 Ponieważ u j 1, to wyrażenie po lewej stronie osiąga wartość maksymalną o ile, dla j = 1,..., r, u j = sgn [Y (t)p] j (dla tych t i j = 1,..., r, dla których [Y (t)p] j 0. Aby uprościć notację, dla wektora b R r piszemy a = sgn b jeśli a j = sgn b j, j = 1,..., r (sgn 0 nie jest określone). W takim razie, sterowanie u maksymalizuje wyrażenie Y (t)p, u(t) o ile u(t) = sgn (Y (t)p). Aby zilustrować te rozważania podamy dwa przykłady. 2.3.12. Przykład: Rozważmy układ sterowania zadany przez równanie postaci x + x = u, u 1. Równoważny mu układ równań ma postać { x = y y = x + u. Zatem mamy problem liniowy gdzie A = x = Ax + Bu [ 0 1 1 0 W takim razie [ ] cos t sin t X(t) = e At = sin t cos t ] [ 0, B = 1 ]. oraz Y (t) = e At B = [ sin t cos t ]. Wtedy, dla p = (p 1, p 2 ), p 0, Y (t)p = p 1 sin t + p 2 cos t. Jeśli istnieje sterowanie ( ) optymalne u, to zgodnie z powyższym istnieje niezerowy wektor p = p oraz u musi mieć postać p 1 p, p 2 p u (t) = sgn (Y (t)p) = p ( sin t p 1 p + cos t p ) 2. p
22 W. Kryszewski Zauważmy, że dla pewnego δ [ π, π] ponieważ Wreszcie u (t) = sgn sin(t + δ). sin t p 1 p + cos t p 2 p = sin(t + δ) ( ) 2 ( ) 2 p1 p2 + = 1. p p 2.3.13. Przykład: Rozważmy układ { x = x + u y = y + u, gdzie, jak wyżej, u 1. Zatem W takim razie A = [ 1 0 0 1 ] [ 1, B = 1 [ e Y (t) = e At t B = Dal dowolnego t 0, zbiór osiągalny R(t) leży na przekątnej {(x, y) x = y} pomiędzy punktami ( 1 + e t, 1 + e t ) i (1 e t, 1 e t ). Wektorem normalnym do R(t) w punkcie (0, 0) R(t) jest np. wektor p = ( 1, 1). Wtedy jednak p Y (t) = 0 dla wszystkich t; zatem brak jakiejkolwiek informacji o postaci u (pamiętajmy, że p jest elementem stożka normalnego do zbioru R(t ) w punkcie w(t )). Zaistniała sytuacja powstaje np. jeżeli w(t) po raz pierwszy uderza R(t) w punkcie np. (0, 0) i wtedy, jak powiedziano wyżej, podany warunek konieczny z twierdzenia 2.3.8 nie dostarcza żadnych informacji. Nie mniej jednak łatwo znaleźć sterowania, które realizuje spotkanie z w(t). 2.3.14. Uwaga: Aby inaczej opisać podany w twierdzeniu 2.3.8 warunek konieczny zdefiniujmy Hamiltonian H : R n R n J U R wzorem H(p, x, t, u) := p, A(t)x + B(t)u, p, x R n, t J, u U, oraz rozważmy układ { ẋ = H = A(t)x + B(t)u; p ṗ = H = x A (t)p. Pierwsze z równań tego układu odpowiada wyjściowemu równaniu, zaś ogólnym rozwiązaniem drugiego równania jest p(t) = [X 1 (t)] p, t 0, dla pewnego p R n ( 3 ). Niech 3 Poprzez bezpośrednie sprawdzenie e t ]. ]. M(p, x, t) = max H(p, x, t, u). u U
Teoria sterowania 23 Zasada maksimum Pontriagina orzeka, że jeśli u jest sterowaniem optymalnym, to dla pewnego nietrywialnego rozwiązania p( ) (tzn. przy warunku początkowym p 0) drugiego z równań powyższego układu hamiltonowskiego mamy: dla p.w. t [0, t ]. Zauważmy, że w naszym przypadku Zatem, dla p.w. t [0, t ], H(p(t), x(t; u ), t, u (t)) = M(p(t), x(t; u ), t) M(p, x, t) = p, A(t)x + max p, B(t)u. u U p(t), A(t)x(t; u ) + B(t)u (t) = p(t), A(t)x(t; u ) + max p(t), B(t)u. u U Stąd, dla p.w. t [0, t ], p(t), B(t)u (t) = max p(t), B(t)u. u U Uwzględniając postać p( ), zasada Pontriagina orzeka zatem, że dla p.w. t [0, t ], Wziąwszy pod uwagę, że [X 1 (t)] p, B(t)u (t) = max u U [X 1 (t)] p, B(t)u. [X 1 (t)] p, B(t)u = B (t)[x 1 (t)] p, u = Y (t)p, u otrzymujemy warunek równoważny podanemu w twierdzeniu 2.3.8. 2.4. Problem jednoznaczności i punkty osiągalne Rozważmy układ { ẋ1 = u 1 ẋ 2 = u 2 gdzie u 1, u 2 1. Wtedy X(t) I (bo A(t) 0) dla t 0 i, wobec tego, dla t 0, [ ] 1 0 B = Y (t) =. 0 1 Zatem, dla dowolnego t 0, { t R(t) = 0 } u(s) ds u Ω. Łatwo więc sprawdzić, że R(t) jest kwadratem o bokach równoległych do osi i długości 2t, t 0. Przypuśćmy, że celem jest uderzenie w 0 w minimalnym czasie (tzn. z(t) 0 oraz w(t) x 0 dla t 0). Połóżmy y 0 := x 0.
24 W. Kryszewski Niech u = (u 1, u 2) Ω będzie strategią optymalno-czasową, przy której punkt y 0 osiągany jest w czasie t. Wtedy, jak wiemy, punkt y 0 leży na brzegu R(t ) i u (t) = sgn (Y (t)p) gdzie p 0 jest elementem stożka N R(t )(y 0 ). Jeśli np. y 0 = (t, t), gdzie t ( t, t ), to p = (1, 0) i wtedy Y (t)p = (1, 0) dla dowolnego t 0. Zatem wiemy, że u 1(t) = 1, lecz nie mamy żadnej informacji odnośnie u 2. Jeśli zaś y 0 = (t, t ) (tzn. y 0 jest wierzchołkiem R(t )), to np. p = (1, 1) i wtedy Y (t)p = (1, 1); zatem u 1 = u 2 = 1. Wracamy do rozważań ogólnych. Jak poprzednio przedmiotem naszego zainteresowania jest układ liniowy zaś rozważania będą dotyczyć zbioru ẋ = A(t)x + b(t)u, x(0) = x 0 { t R(t) = 0 } Y (s)u(s) ds u Ω, t 0 gdzie Y (s) := X 1 (s)b(s), s 0, i Ω = {u : J U u jest funkcja mierzalną} gdzie U R r jest zbiorem zwartym. Mówimy, że punkt q R n jest osiągalny w czasie t > 0 (zawsze będziemy zakładać, że t > 0; jest to równoważne temu, że q 0) jeśli q R(t ); tzn., dla pewnej strategii u Ω, q = y(t ; u ) = t 0 Y (s)u (s) ds. Zagadnienie jednoznaczności dotarcia do punktu q można formułować na różne sposoby. Przede wszystkim wprowadźmy terminologię: trajektorię y(, u), gdzie u Ω, taką, że q = y(t ; u), nazywamy trajektorią docierającą do q w czasie t ; sterowanie u Ω takie, że q = y(t ; u) nazwiemy sterowaniem doprowadzającym do q w czasie t ; dwie trajektorie y( ; u 1 ), y( ; u 2 ) docierające do q w czasie t są równe, gdy y(t; u 1 ) = y(t; u 2 ) dla wszystkich t [0, t ]; mówimy o jednoznaczności trajektorii na [0, t ] (docierających do q ) jeśli z warunku q = y(t ; u 1 ) = y(t ; u 2 ) wynika, że y( ; u 1 ) y( ; u 2 ) na odcinku [0, t ]. Inne pojęcie jednoznaczności związane jest z istotną równością sterowań, którą teraz wyjaśnimy. Powiemy, że dwa sterowania u 1, u 2 Ω są istotnie równe na odcinku [0, t], t > 0, jeśli dla p.w. s [0, t], u 1 (s) u 2 (s) ker B(s). Konsekwentnie powiemy, że sterowanie u Ω jest istotnie bang-bang na odcinku [0, t], t > 0, jeśli istnieje sterowanie bang-bang v Ω (tzn. takie, że v(t) ext(co U) dla p.w. t [0, t] ( 4 ))) takie, że u, v są istotnie równe na [0, t]. 4 Przypomnijmy, że ext(co U) ext(u) na mocy twierdzenia Milmana
Teoria sterowania 25 2.4.1. Uwaga: (1) Oczywiście równość p.w. strategii implikuje ich istotną równość, lecz nie na odwrót. (2) Relacja istotnej równości jest relacją równoważności. (3) Jeśli u 1, u 2 Ω są istotnie równe na [0, t ] i u 1 doprowadza do q w czasie t, to również u 2 doprowadza do q w czasie t. Faktycznie, dla p.w. s [0, t ], Zatem Y (s)u 1 (s) = X 1 (s)b(s)u 1 (s) = X 1 (s)b(s)u 2 (s) = Y (s)u 2 (s). q = y(t ; u 1 ) = t 0 Y (s)u 1 (s) ds = t 0 Y (s)u 2 (s) ds = y(t ; u 2 ). Mówimy, że mamy do czynienia z jednoznacznością sterowań doprowadzających do q w czasie [0, t ] jeżeli, dla u 1, u 2 Ω, z faktu y(t, u 1 ) = y(t, u 2 ) = q wynika, że u 1, u 2 są istotnie równe. 2.4.2. Fakt: Jednoznaczność sterowań doprowadzających do q w czasie t pociąga za sobą jednoznaczność trajektorii docierających do q w tym czasie Dowód: Przypuśćmy, że mamy do czynienia z jednoznacznością sterowań i załóżmy, że y(t ; u 1 ) = y(t ; u 2 ) = q. Z założenia wynika, że trajektorie u 1 i u 2 są istotnie równe. W takim razie, dla każdego t [0, t ], y(t; u 1 ) = t 0 Y (s)u 1 (s) ds = = t 0 t 0 X 1 (s)b(s)u 1 (s) ds = X 1 (s)b(s)u 2 (s) ds = y(t; u 2 ) gdyż, dla p.w. s [0, t] B(s)u 1 (s) = B(s)u 2 (s). Implikacja przeciwna jest również prawdziwa choć nie jest to takie oczywiste 2.4.3. Przykład: Rozważmy układ { ẋ1 = u 1 + u 2 ; ẋ 2 = u 1 + u 2, gdzie u 1, u 2 1 oraz x 0 = ( 1, 1). Chodzi o dotarcie do punktu (0, 0) (czyli z(t) = 0 dla dowolnego t 0). W układzie tym, dla dowolnego t 0, A(t) 0, X(t) = I oraz B(t) = [ 1 1 1 1 Zatem Y (t) = X 1 (t)b(t) = B(t) i poszukujemy trajektorii, która dociera do y 0 = (1, 1). Łatwo widać, że istotnie różne sterowania u 1 = (1, 0) i u 2 = (0, 1) realizują ten cel w czasie t = 1 i dodatkowo trajektorie y(t; u 1 ) = y(t; u 2 ) dla dowolnego t [0, 1]. Jednak w przykładzie tym nie mamy do czynienia z jednoznacznością trajektorii docierających do punktu (1, 1) w czasie t = 1. Rzeczywiście trajektoria odpowiadająca ].
26 W. Kryszewski sterowaniu u 1 (t) = (1, 0) ma postać y(t; u 1 ) = (t, t), zaś trajektoria odpowiadające sterowaniu u 2 (t) = ( π 4 cos π 2 t, π 4 cos π 2 t) dla s [0, 1] ma postać y 1 (t; u 2 ) = t 0 π 2 cos π 2 t dt = sin π 2 = y 2(t; u 2 ). 2.4.4. Twierdzenie: Następujące warunki są równoważne: (i) jednoznaczność trajektorii docierających do punktu q w czasie t ; (ii) każde sterowanie doprowadzające do q w czasie t jest istotnie bang-bang sterowaniem; (iii) sterowanie doprowadzające doq w czasie t jest wyznaczone jednoznaczne z dokładnością do istotnej równości. Dowód: Implikacja (ii) (i) jest prawdziwa. Pokażemy zatem implikację (i) (ii). Oczywiście zakładamy, że q R(t ). Niech q = y(t ; u). Wiemy, że istnieje sterowanie bang-bang u takie, że q = y(t ; u ). Zatem, dla dowolnego t [0, t ], y(t; u) = y(t; u ). W szczególności, dla p.w. s [0, t ], pochodne y (s; u) = y (s; u ) (funkcje y( ; u) oraz y( ; u ) są absolutnie ciągłe i mają pochodne p.w). Z drugiej strony, dla p.w. s [0, t ], X 1 B(s)u(s) = y (s; u) = y (s; u ) = X 1 (s)b(s)u (s). Odwracalność X 1 (s) dowodzi, że B(s)u(s) = b(s)u (s) dla p.w. s [0, t ]; czyli u, u są istotnie równe. To samo rozumowanie dowodzi, że mamy do czynienia z jednoznacznością sterowań doprowadzających do q w czasie t. Z kolei tego typu jednoznaczność pokazuje, że każde sterowanie doprowadzające do q w czasie t jest istotnie bang-bang. Wnioskiem z udowodnionego twierdzenia jest, że oba typy jednoznaczności sa równoważne; dodatkowo wiemy, że ta jednoznacznie (z dokładnością do istotnej równości) wyznaczona strategia doprowadzająca do punktu q jest istotnie bang-bang. 2.4.5. Twierdzenie: Punkt q jest osiągalny w czasie t poprzez jednoznacznie wyznaczoną trajektorię wtedy i tylko wtedy, gdy jest punktem ekstremalnym zbioru R(t ). Dowód: Niech q ext(r(t )) i przypuśćmy niewprost, że istnieją strategie u 1, u 2 oraz czas t (0, t ) taki, że y 1 = y(t; u 1 ) y(t, u 2 ) = y 2 oraz q = y(t ; u 1 ) = y(t ; u 2 ). Niech q 1 := y 1 + (q y 2 ), q 2 := y 2 + (q y 1 ). Wtedy punkt q 1 można osiągnąć w czasie t stosując strategie u 1 na odcinku [0, t] oraz strategie u 2 na odcinku (t, t ]; podobnie można osiągnąć punkt q 2. Wobec tego q 1, q 2 R(t ); jednocześnie q = 1 2 q 1 + 1 2 q 2. Lecz q 1 q 2. Powoduje to, że q ext(r(t )): sprzeczność. Dowód później.
Teoria sterowania 27 2.5. Wyznaczanie strategii optymalno-czasowej W poprzednim paragrafie pokazaliśmy, że jeśli w(t ) jest punktem ekstremalnym zbioru R(t ), to istnieje dokładnie jedno (z dokładnością do istotnej równości) sterowanie istotnie bang-bang, które doprowadza do punktu q = w(t ). To niestety jeszcze nie daje odpowiedzi na ważniejsze pytanie (przynajmniej z rachunkowego punktu widzenia) kiedy optymalna czasowo strategia wyznaczona jest poprzez warunek konieczny z twierdzenia 2.3.8. Jak widzieliśmy poprzednio warunek konieczny może nie dostarczać informacji o sterowaniu optymalnym i, na ogół, nie wyznacza jednoznacznie takiego sterowania. Przypomnijmy, ż warunek konieczny z twierdzenia 2.3.8 orzeka, że jeśli u jest sterowaniem optymalno-czasowym z czasem minimalnym t > 0, to dla dowolnego wektora p 0, p N R(t )(w(t )), dla p.w. t [0, t ]. p, Y (t)u (t) = Y (t)p, u (t) = max Y (t)p, u = max p, Y (t)u u U u U Powiemy, że warunek konieczny istotnie wyznacza sterowanie optymalne jeśli, dla pewnego p 0 0, p 0 N R(t )(w(t ))) i dla sterowań u 1, u 2, które ten warunek spełniają, tzn. p 0, Y (t)u i (t) = max u U p 0, Y (t)u, i = 1, 2, wynika, że u 1 i u 2 są istotnie równe. 2.5.1. Twierdzenie: Sterowanie optymalne u jest istotnie wyznaczone przez warunek konieczny wtedy i tylko wtedy, gdy q = w(t ) jest punktem eksponowanym zboru R(t ). Dowód: Załóżmy, że sterowanie optymalne u jest istotnie wyznaczone przez warunek konieczny i przypuśćmy niewprost, że q nie jest punktem eksponowanym. Zatem, dla dowolnego wektora p N R(t )(q ), p 0, hiperpłaszczyzna podpierająca {y R n p, y = p, q } dotyka zbioru R(t ) w punkcie q(p) q. W szczególności niech q := q(p 0 ), gdzie p 0 0, p 0 N R(t )(w(t )) bedzie takie jak w definicji istotnego wyznaczania. Oczywiście q jest punktem podparcia zbioru R(t ). Zatem z ogólnych rozważań prowadzących do dowodu twierdzenie 2.3.8 wynika, że dla sterowania u 1, które doprowadza do punktu q, p 0, Y (t)u 1 (t) = max u U p 0, Y (t)u dla p.w. t [0, t ]. Zgodnie z założeniem, wówczas u i u 1 są istotnie równe. Lecz wówczas q = y(t ; u ) = y(t ; u 1 ) = q: sprzeczność. Na odwrót, przypuśćmy, że q jest punktem eksponowanym. Oznacza to, że istnieje wektor p 0 N R(t )(q ) taki, że p 0 0 i hiperpłaszczyna wyznaczona przez p 0 podpierająca R(t ) w punkcie q dotyka tego zbioru tylko w punkcie q. Punkt eksponowany jest ekstremalny, zatem, na mocy twierdzenia 2.4.5, punkt q można osiągnąć poprzez jednoznacznie wyznaczoną trajektorię. To z kolei, ma mocy twierdzenia 2.4.4 oznacza,
28 W. Kryszewski że trajektorie doprowadzające do punktu q w czasie t są istotnie równe. Przypuśćmy, że u 1 jest sterowaniem spełniającym warunek konieczny (dla istniejącego p 0 ). Sterowanie u 1 doprowadza do punktu q 1 R(t ). W szczególności p, q 1 = p, q (patrz uwaga 2.3.9). Zatem q 1 należy do hiperpłaszczyzna podpierającej R(t ) w punkcie q. Zatem q 1 = q, co dowodzi, ze u 1 i u są istotnie równe i kończy dowód. Zajmiemy się teraz kwestią następującą: kiedy warunek konieczny jednoznacznie wyznacza sterowanie optymalno-czasowe? Przede wszystkim, dla p 0 i t > 0, max (t)p, u = max (t)p, u u U u co U (= max u co ext(co U) Y (t)p, u = max u ext(co U) Y (t)p, u ). Ponadto sterowanie optymalno-czasowe u Ω spełnia ψ p (t), B(t)u (t) = max u co U ψ p(t), B(t)u gdzie ψ p (t) jest rozwiązaniem równania sprzężonego ψ p (t) = A (t)ψ p (t), ψ p (0) = p N R(t )(w(t )), p 0. 2.5.2. Uwaga: Załóżmy teraz, że dla pewnego t [0, t ] funkcja U u ψ p (t), B(t)v przyjmuje maximum w dokładnie jednym punkcie u 0 (oczywiście u 0 co U). Wówczas punkt u 0 jest punktem ekstremalnym zbioru co U. Istotnie, przede wszystkim zbiór W (t) := {u co U ψ p (t), B(t)u = max v U ψ p(t), B(t)v } jest zbiorem ekstremalnym w co U: Niech u 1, u 2 co U, λ (0, 1) oraz u = (1 λ)u 1 + λu 2 W (t). Gdyby u 1 W (t) lub u 2 W (t), to u W (t). Zatem u 1, u 2 W (t). Z założenia W (t) redukuje się do punktu u 0 (bo u 0 W (t)). Jeśli zbiór co U jest ściśle wypukły, tzn. każdy jego punkt brzegowy jest ekstremalny, to dla dowolnego t [0, t ], W (t) redukuje się do punktu i, wobec tego, sterowanie optymalno-czasowe jest wyznaczone jednoznacznie. Zauważmy wreszcie, że zbiór U jest ściśle wypukły wtedy i tylko wtedy, gdy każdy punkt brzegowy jest eksponowany. Dostateczność jest oczywista. Dla konieczności przypuśćmy, że istnieje u U, który nie jest eksponowany lecz tylko ekstremalny. Zatem dla dowolnego funkcjonału podpierającego p 0 (p N U (u)), hiperpłaszczyzna podpierająca dotyka zbioru U w punkcie u u. Wtedy odcinek [u; u ] jest zbiorem ekstremalnym nie redukującym się do punktu. Zajmiemy się teraz sytuacją, w której macierze A i B są stałe. Załóżmy dodatkowo, że istnieje zbiór ściśle wypukły U 0 oraz conajwyżej przeliczalna rodzina funkcjonałów liniowych f i : R r R, i N, taka że co U = {u U 0 f i (u) a i, i N}. Przy tym zakładamy, że każde ograniczenie f i (u) a i jest istotne.
Teoria sterowania 29 2.5.3. Twierdzenie: Załóżmy, że dla dowolnego wektora w R r takiego, że f i (w) = 0 dla pewnego i N, macierz [Bw, ABw,..., A n 1 Bw] ma rząd n. Wówczas sterowanie optymalno-czasowe jest wyznaczone jednoznacznie. Dowód: Niech u będzie sterowaniem optymalno-czasowym doprowadzającym do q = w(t ) w czasie t > 0. Na mocy warunku koniecznego istnieje niezerowe rozwiązanie ψ równania sprzężonego, że zachodzi ψ(t), Bu (t) = max ψ(t), Bv v co U dla p.w. t [0, t ]. Przypuśćmy, że sterowanie u nie jest jednoznaczne i istnieje inne sterowanie u Ω doprowadzające do q w czasie t ; ono również spełnia warunek konieczny. Zatem dany jest zbiór D [0, t ] miary dodatniej, na którym u (t) u(t) oraz ψ(t), B(u (t) u(t)) = 0. Niech, dla t [0, t ], W (t) := {u co U ψ(t), Bu = sup ψ(t), Bv }. v co U Zbiór W (t) jest podzbiorem ekstremalnym zbioru co U. Jest to więc albo punkt ekstremalny (W (t) redukuje się do punktu), albo podzbiór którejś ze ścian {u co U f i (u) = a i }, i N. Dla t D, u (t), u(t) W (t) zatem dim aff(w (t)) = k t 1. W taki razie istnieje i N taki, że f i (w t ) = 0 gdzie w t pochodzi z pewnej k t -wymiarowej podprzestrzeni liniowej H t R r (konkretnie H t = affw (t) w gdzie w W (t)). Ponieważ zbiór D jest nieprzeliczalny i, dla t D, H t jest zbiorem nieprzeliczalnym, musi istnieć co najmniej przeliczalny zbiór D 1 [0, t ], pewien wskaźnik i N oraz w ker f i takie, że f i (w) = 0 oraz ψ(t), Bw = 0 dla t D 1. Z ciągłości ψ(t), Bw = 0 dla t cl D 1. Zauważmy, że ψ, jako rozwiązanie równania liniowego o stałych współczynnikach. Zatem ψ( ), Bw jest funkcją analityczną zerującą się na conajmniej zwartym nieskónczonym zbiorze. W takim razie, z tzw. twierdzenia o jednoznaczności dla funkcji analitycznych, ψ(t), Bw = 0 dla dowolnego t [0, t ]. Zróżniczkujmy tę zależność stronami n 1-razy: dla dowolnego t [0, t ], A ψ(t), Bw = 0,..., ( 1) n 1 (A ) n 1 ψ(t), Bw = 0. W taki razie, dla wszystkich t [0, t ]. ψ(t), Bw = 0,... ψ(t), A n 1 Bw = 0. Z założenia ψ(t) 0: sprzeczność. Jeśli zbiór ma nieprzeliczalną liczbę ścian, to udowodnione twierdzenie jest na ogół fałszywe.