Edward Kozłowski Optymalne sterowanie dyskretnymi systemami stochastycznymi Lublin 2018
Optymalne sterowanie dyskretnymi systemami stochastycznymi
Monografie Politechnika Lubelska Politechnika Lubelska Wydział Zarządzania ul. Nadbystrzycka 38 20-618 Lublin
Edward Kozłowski Optymalne sterowanie dyskretnymi systemami stochastycznymi Wydawnictwo Politechniki Lubelskiej Lublin 2018
Recenzenci: prof. dr hab. Jerzy Kozicki, Instytut Matematyki UMCS Publikacja wydana za zgodą Rektora Politechniki Lubelskiej Copyright by Politechnika Lubelska 2018 ISBN: 978-83-7947-316-8 Wydawca: Wydawnictwo Politechniki Lubelskiej www.biblioteka.pollub.pl/wydawnictwa Realizacja: Biblioteka Politechniki Lubelskiej Ośrodek ds. Wydawnictw i Biblioteki Cyfrowej ul. Nadbystrzycka 36A, 20-618 Lublin tel. 81 538-46-59, email: wydawca@pollub.pl www.biblioteka.pollub.pl Druk: TOP Agencja Reklamowa Agnieszka Łuczak www.agencjatop.pl Elektroniczna wersja książki dostępna w Bibliotece Cyfrowej PL www.bc.pollub.pl Nakład: 100 egz.
Spis tre±ci Wst p 8 1 Podstawowe wiadomo±ci 13 1.1 Miara. Podstawowe wªasno±ci miary.............. 13 1.2 Elementy rachunku prawdopodobie«stwa............ 21 1.2.1 Przestrze«probabilistyczna................ 21 1.2.2 Zmienne losowe. Wektory losowe............ 24 1.2.3 Warto± oczekiwana. Warunkowa warto± oczekiwana 28 1.3 Procesy stochastyczne...................... 33 1.4 Optymalne zatrzymanie procesów losowych.......... 36 1.5 Teoria ltracji........................... 39 1.5.1 Wyznaczenie warunkowego rozkªadu.......... 39 1.5.2 Filtracja ci gów warunkowo normalnych........ 41 2 Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego 49 2.1 Optymalne sterowanie systemami stochastycznymi z czasem dyskretnym............................ 52 2.1.1 Postawienie zadania................... 52 2.1.2 Wyznaczenie optymalnego sterowania.......... 57 2.2 Optymalne sterowanie liniowo-kwadratowe........... 62 2.2.1 Problem sterowania liniowym obiektem z losowym przesuni ciem....................... 63 2.2.2 Sterowanie systemem liniowym z peªn informacj.. 65 5
6 Spis tre±ci 2.2.3 Sterowanie systemem liniowym z niepeªn informacj. 69 2.2.4 Wpªyw informacji o systemie liniowym na koszty sterowania......................... 75 2.2.5 Wpªyw horyzontu na koszty sterowania........ 80 3 Optymalne sterowanie adaptacyjne dla horyzontu losowego niezale»nego od stanów systemu 85 3.1 Postawienie zadania....................... 86 3.2 Sterowanie dla horyzontu losowego o sko«czonej liczbie realizacji 89 3.2.1 Optymalne sterowanie dla zadania planistycznego... 89 3.2.2 Optymalne sterowanie dla zadania operacyjnego.... 96 3.2.3 Wyznaczenie optymalnego sterowania.......... 101 3.3 Sterowanie dla horyzontu losowego o przeliczalnej liczbie realizacji.............................. 103 3.3.1 Postawienie zadania................... 103 3.3.2 Wyznaczenie ε optymalnego sterowania........ 109 3.4 Optymalne sterowanie liniowo-kwadratowe z losowym horyzontem............................ 113 3.4.1 Optymalne sterowanie dla losowego horyzontu o sko«czonej liczbie realizacji.............. 115 3.4.2 Optymalne sterowanie dla losowego horyzontu o przeliczalnej liczbie realizacji............. 122 4 Optymalne zatrzymanie systemów sterowanych 129 4.1 Postawienie zadania....................... 131 4.2 Optymalne zatrzymanie systemu przy pomocy sterowania.. 133 4.2.1 Zamiana stopowania na sterowanie........... 133 4.2.2 Wyznaczenie optymalnego sterowania i momentu zatrzymania........................ 135 4.2.3 Algorytm wyznaczenia optymalnego sterowania i momentu zatrzymania................. 139 4.3 Optymalne zatrzymanie sterowanych systemów stochastycznych142 4.4 Ró»nice i podobie«stwa zada«optymalnego zatrzymania... 147
Spis tre±ci 7 4.5 Zbiory optymalnego zatrzymania................ 149 4.6 Optymalne sterowanie i zatrzymanie dla zadania liniowo-kwadratowego...................... 152 5 Optymalna trajektoria 161 5.1 Wyznaczenie trajektorii dla systemów stochastycznych z czasem dyskretnym....................... 162 5.1.1 Postawienie zadania................... 162 5.1.2 Wyznaczenie optymalnej trajektorii........... 166 5.2 Optymalna trajektoria dla zadania liniowo-kwadratowego.. 170 5.2.1 Optymalna trajektoria dla zadania z ustalonym horyzontem........................ 170 5.2.2 Optymalna trajektoria dla zadania z losowym horyzontem niezale»nym od stanów systemu...... 177 Bibliograa 182
Wst p Teoria sterowania jest to nauka o zasadach i metodach sterowania systemami obiektami, urz dzeniami, procesami. Zadania z teorii sterowania polegaj na analizie i modelowaniu matematycznym pewnych systemów oraz konstrukcji algorytmu regulatora dla realizacji okre±lonego celu. Do modelowania systemu wykorzystujemy wiedz z ró»nych dziedzin nauki: zyki, techniki, chemii, medycyny, socjologii itp., natomiast do konstrukcji optymalnych sterowa«wykorzystywane s narz dzia z matematyki, statystyki, rachunku prawdopodobie«stwa. Do± cz sto na zachowanie systemów wpªywaj zaburzenia zewn trzne, które powoduj,»e nie mo»emy dokªadnie przewidzie reakcji systemu na sterowanie. Ponadto nieznajomo± parametrów systemu tak»e uniemo»liwia okre±lenie dokªadnych sterowa«. Zarówno nieznajomo± parametrów oraz wyst powanie zaburze«zewn trznych wpªywaj na wielko± sterowa«oraz wielko± wska¹nika jako±ci. W wielu przypadkach identykacja parametrów jest dokonywana poprzez sterowanie systemem podczas realizacji celu. W szczególno±ci stosuje si koncepcj adaptacji, która bazuje na dostrajaniu regulatora w p tli oraz idei dziaªania w celu samouczenia. Wyznaczenie sterowa«polega na optymalizacji wska¹nika jako±ci, który okre±la cel sterowania. Wska¹nik jako±ci zale»y zarówno od stanów systemu, jak i od sterowa«. W przypadku nieznajomo±ci parametrów systemu optymalne sterowanie musi mie dualn natur : z jednej strony powinno odpowiednio szybko umo»liwia gromadzenie wiedzy o parametrach, z drugiej za± realizowa cel. Realizacja tych dwóch odr bnych, a jednocze±nie wspóªzale»nych zada«stanowi istot problemu adaptacyjnego sterowania. Umiej tne mo- 9
10 Wst p delowanie systemów technicznych oraz odpowiednie sterowanie nimi zasadniczo jest du»ym wyzwaniem dla naukowców, analityków, in»ynierów. Ze wzgl du na ogromne potencjalne znaczenie dla zastosowa«problem sterowania adaptacyjnego przyci gaª uwag badaczy od dawna. Pierwsze publikacje pojawiªy sie póª wieku temu i s znaczone takimi nazwiskami, jak Wiener N., Astrom K., Feldbaum A.A., Bellman R., Kulikowski R., Fleming W.H., Rishel R., Bene² V.E., Karatzas I. Literatura przedmiotu jest ogromna, aspekty praktyczne przedstawiane s w setkach ksi»ek i artyku- ªów. Okazuje si,»e nieznajomo± horyzontu sterowania równie» wywiera do± du»y wpªyw na warto± wska¹nika jako±ci oraz wielko±ci sterowa«. W niektórych zadaniach przyj cie ustalonego i niezale»nego horyzontu sterowania nie prowadzi do adekwatnego modelu sytuacji. Na przykªad w zadaniach typu selearning, w problemach sztucznej inteligencji, zarz dzaniu portfelem inwestycyjnym przyjmuje si,»e horyzont dziaªania zale»ny jest od otrzymanych wyników. Wskazane jest, aby zatrzyma proces w pierwszym momencie uzyskania satysfakcjonuj cych efektów. Widzimy,»e w ka»dym momencie, oprócz wyznaczenia sterowa«, dodatkowo nale»y podj decyzj odno±nie kontynuacji b d¹ zatrzymania sterowania systemem. W innych przypadkach nie mamy w ogóle»adnego wpªywu na horyzont sterowania. Przykªadowo czas "»ycia" produktu, czas bezawaryjnej pracy urz dzenia technicznego czy te» liczba strat poniesionych w procesie produkcji nie jest znana odgórnie. Powstaje pytanie: jak sterowa systemem, je»eli horyzont nie jest sprecyzowany. Monograa przedstawia matematyczne aspekty dotycz ce wyznaczenia optymalnego sterowania systemami stochastycznymi z czasem dyskretnym. W rozdziale pierwszym przedstawiono podstawowe wiadomo±ci z teorii miary, teorii rachunku prawdopodobie«stwa, procesów stochastycznych, teorii ltracji oraz zasad optymalnego zatrzymania procesów losowych. W rozdziale drugim omówiono problematyk adaptacyjnego sterowania systemami stochastycznymi, która polega na gromadzeniu wiedzy o parametrach systemu i jednocze±nie realizacji celu. Pokazano równie» ró»nice po-
Wst p 11 mi dzy sterowaniami w warunkach peªnej i niepeªnej informacji o parametrach systemu. Dodatkowo zwrócono uwag na wpªyw horyzontu sterowania na wska¹nik jako±ci. W kolejnym rozdziale przedstawiono zagadnienie optymalnego sterowania systemem dla przypadku, gdy horyzont sterowania jest losowy i nie zale»y od stanów systemu. W rozdziale czwartym zaprezentowano problem optymalnego zatrzymania dla systemów sterowanych. Zostaªy zaproponowane dwa sposoby rozwi zania tego problemu. Jeden z nich polega na rozszerzeniu wektora sterowa«o dodatkow zmienn decyzyjn dotycz c zatrzymania systemu stopowanie przy pomocy sterowania. Drugi ze sposobów bazuje na zastosowaniu optymalnych zasad zatrzymania procesów losowych. W ostatnim rozdziale niniejszego opracowania problem wyznaczenia optymalnego sterowania zast piono problemem równowa»nym, który polega na wyznaczeniu optymalnej trajektorii dla systemu sterowanego. Pod poj ciem trajektorii rozumie si uporz dkowany ci g stanów systemu. System, który porusza si po optymalnej trajektorii, realizuje ten sam cel jak dla problemu optymalnego sterowania. Wobec powy»szego dla ka»dego z momentów znaj c optymalne stany systemu mo»emy okre±li sterowanie. Na±laduj c bezpo±rednio te stany system realizuje cel sterowania. W ka»dym z omówionych wy»ej zagadnie«do wyznaczenia optymalnych sterowa«b d¹ te» optymalnej trajektorii wykorzystano programowanie dynamiczne wstecz. Dodatkowo podano algorytmy wyznaczenia optymalnych sterowa«i optymalnej trajektorii. Materiaª zawarty w pracy mo»e by pomocny studentom, pracownikom naukowym oraz osobom, które s zainteresowane teori optymalnego sterowania oraz metodami konstrukcji optymalnych regulatorów dla systemów stochastycznych z czasem dyskretnym.
Rozdziaª 1 Podstawowe wiadomo±ci Istnieje du»o znakomitych ksi»ek, które szczegóªowo omawiaj ro»- norodne zagadnienia z teorii miary, teorii rachunku prawdopodobie«stwa, procesów stochastycznych np.[26], [27], [29], [47], [50], [75], [79], [84], [88], [90], [95], [96], [112], [113], [115][118], [120], [121], [123], [124]. Poni»ej krótko przedstawione zostan tylko niezb dne wiadomo±ci. W celu pogª bienia wiedzy i uzyskania wi cej informacji z analizy funkcjonalnej i rachunku prawdopodobie«stwa kieruj czytelnika do ksi»ek. Poni»ej przyjmujemy N zbiór liczb naturalnych, N 0 = N {0}, R zbiór liczb rzeczywistych, C zbiór liczb zespolonych, natomiast R + = {x R : x 0}. 1.1 Miara. Podstawowe wªasno±ci miary Denicja 1.1 Niech X b dzie pewn przestrzeni. Rodzin M nazywamy algebr ciaªem je»eli: 1., X M; 2. je»eli A, B M, to A B M, A B M; 3. je»eli A M, to Ā = X\A M. Denicja 1.2 Pewn rodzin F przestrzeni X nazywamy σ algebr σ ciaªem je»eli: 1. X F; 2. je»eli A F, to Ā F; 13
14 1. Podstawowe wiadomo±ci 3. je»eli A 1, A 2,... F, to A i F. i=1 Ciaªo M jest klas podzbiorów przestrzeni X zamkni t ze wzgl du na operacje sko«czonego dodawania, mno»enia i odejmowania zbiorów. σ ciaªo F jest pewn klas podzbiorów przestrzeni X zamkni t ze wzgl du na operacje przeliczalnego dodawania, mno»enia i odejmowania zbiorów. Na tej samej przestrzeni X mog by zadane ró»ne σ ciaªa. Najmniejsze σ ciaªo F 0 = {, X} zªo»one ze zbioru pustego i przestrzeni X nazywa si trywialnym, natomiast rodzina wszystkich mo»liwych podzbiorów przestrzeni X postaci F = {A : A X} jest najwi kszym σ ciaªem. Uwaga 1.1 Niech D b dzie dowoln rodzin podzbiorów zbioru X. Istnieje wówczas jednoznacznie okre±lone σ ciaªo zawieraj ce wszystkie mo»liwe podzbiory zbioru D. Najmniejsze σ ciaªo zawieraj ce rodzin D czyli, generowane przez D oznaczamy przez σ D. Uwaga 1.2 Niech {F t } b dzie ci giem σ ciaª okre±lonych na przestrzeni X, wtedy F = F t jest równie» σ ciaªem. t Denicja 1.3 Niech X b dzie przestrzeni topologiczn. σ ciaªo zawieraj ce wszystkie zbiory otwarte w przestrzeni X nazywamy σ ciaªem zbiorów borelowskich w X i oznaczamy B X. Denicja 1.4 Funkcj µ Z okre±lon na klasie wszystkich podzbiorów zbioru X o warto±ciach R + speªniaj c warunki: 1. µ Z 0; 2. je»eli A B, to µ Z A µ Z B; 3. dla dowolnego ci gu {A n } n N podzbiorów zbioru X µ Z A n µ Z A n nazywamy miar zewn trzn. n=1 n=1
1.1. Miara. Podstawowe wªasno±ci miary 15 Denicja 1.5 Ka»d funkcj µ okre±lon na F o warto±ciach w R + speªniaj c warunki: 1. dla ka»dego A F µ A 0 ; 2. µ A < przynajmniej dla jednego A F; 3. je»eli A 1, A 2,... F oraz A i A j = dla dowolnych i j, to nazywamy miar. µ A n = n=1 µ A n Uwaga 1.3 Je»eli µ X <, to miar nazywamy miar sko«czon. n=1 Miara µ okre±lona na F ma nast puj ce wªasno±ci: 1. µ = 0; 2. je»eli A B, to µ A µ B; 3. je»eli A, B F, to µ A B = µ A + µ B µ A B 4. je»eli A 1 A 2... F, to µ i=1 5. je»eli... A 2 A 1 F, to µ i=1 A i = lim n µ A n ; A i = lim n µ A n. Denicja 1.6 Par X, F nazywamy przestrzeni mierzaln, natomiast trójk X, F, µ nazywamy przestrzeni z miar. Denicja 1.7 Warunek Caratheodory'ego Niech µ Z b dzie miar zewn trzn na X. wtedy i tylko wtedy gdy Mówimy,»e zbiór A speªnia warunek Caratheodory'ego, µ Z C = µ Z C A + µ Z C\A dla dowolnego C X.
16 1. Podstawowe wiadomo±ci Oczywi±cie ka»de σ ciaªo F mo»na rozszerzy na zbiory typu à = A B, gdzie A F, natomiast B A 0 F oraz µ Z A 0 = 0. Rodzina F zawieraj ca zbiory à jest σ ciaªem. Twierdzenie 1.1 Twierdzenie Caratheodory'ego Je»eli µ Z jest miar zewn trzn w zbiorze X oraz F oznacza rodzin wszystkich podzbiorów zbioru X speªniaj cych warunek Caratheodory'ego, to 1. F jest σ ciaªem w X; 2. je»eli µ Z A = 0, to A F; 3. miara zewn trzna µ Z zaw»ona do F jest miar zupeªn. Twierdzenie Caratheodory'ego uªatwia konstrukcj ró»nych miar. Widzimy,»e wystarczy skonstruowa miar zewn trzn µ Z warunki w denicji s sªabsze na przestrzeni X, a nast pnie zaw zi dziedzin miary zewn trznej µ Z do zbiorów A, które speªniaj warunek Caratheodory'ego. Poni»ej przedstawione zostan klasyczne sposoby okre±lania miar. Dyskretna przestrze«mierzalna. Niech zbiór X = {x 1, x 2,...} b dzie co najwy»ej zbiorem przeliczalnym, natomiast F σ ciaªem zbioru X. Dowolna miara µ na X, F jest zadana poprzez ci g {µ n } n 1 postaci µ n = µ {x n } 0. Ponadto dla dowolnego A F µ A = x i A µ i. Je»eli µ X = µ {x n } = n=1 µ {x n } = n=1 to miara µ jest miar sko«czon. Przestrze«mierzalna R, B R. µ n <, Niech R oznacza zbiór liczb rzeczywistych prost, natomiast a, b dowolny odcinek postaci a, b, [a, b], a, b], [a, b, gdzie a b. Niech A oznacza rodzin zbiorów postaci A = n=1 n a i, b i, 1.1 i=1
1.1. Miara. Podstawowe wªasno±ci miary 17 gdzie n < oraz a i, b i a j, b j = dla i j. Tak zdeniowana rodzina A jest ciaªem natomiast nie jest σ ciaªem. Denicja 1.8 σ ciaªo generowane poprzez rodzin zbiorów A nazywamy σ ciaªem zbiorów borelowskich oraz oznaczamy B R. Elementy B R nazywamy zbiorami borelowskimi. W sposób podobny deniujemy przestrze«mierzaln [a, b], B [a, b]. Niech σ ciaªo B [a, b] skªada si ze zbiorów A [a, b] oraz A B R. Rodzin B [a, b] nazywamy σ ciaªem zbiorów borelowskich na [a, b]. Denicja 1.9 Dla dowolnego a b miar µ λ a, b = b a nazywamy miar Lebesgue'a okre±lon na R, B R. Oczywi±cie miara Lebesgue'a okre±lona na prostej R jest miar zewn trzn, natomiast z twierdzenia Caratheodory'ego wynika,»e jest ona miar zupeªn. Poniewa» µ λ R =, zatem miara Lebesgue'a na R nie jest sko«czona. Denicja 1.10 Funkcj F x = µ, x], x R speªniaj c warunki: 1. F x jest funkcj niemalej c ; 2. F = lim F x = 0, F = lim F x < ; x x 3. F x prawostronnie ci gªa dla x 0 R lim x x + 0 F x = F x 0 0 lewostronne granice lim x x 0 nazywamy dystrybuant. F x = F x 0 oraz ma Mi dzy dystrybuant F a miar µ istnieje wzajemnie jednoznaczna zale»no±, co oznacza,»e maj c miar mo»na okre±li dystrybuant i odwrotnie. Z denicji powy»ej wynika,»e dla ka»dej miary sko«czonej µ miary przypisuj cej sko«czon warto± przestrzeni mierzalnej okre±lonej na R, B R istnieje jednoznacznie okre±lona dystrybuanta F oraz F = lim F x = µ R. x
18 1. Podstawowe wiadomo±ci Je»eli F jest dystrybuant okre±lon na R, to istnieje dokªadnie jedna miara µ okre±lona na R, B R taka,»e dla dowolnych a, b R, a b µ a, b] = F b F a. W sposób identyczny deniujemy µ [a, b] = F b F a 0, µ a, b = F b 0 F a, µ [a, b = F b 0 F a 0. Je»eli zbiór A jest okre±lony za pomoc 1.1, to n µ a i, b i = i=1 n µ a i, b i, gdzie n < oraz a i, b i a j, b j = dla i j. Zatem dla dowolnego zbioru A A A jest zbiorem postaci 1.1 mamy µ A <. Przestrze«mierzalna R n, B R n. i=1 Niech R n oznacza zbiór wektorów x = x 1,..., x n R n, elementami którego s liczby rzeczywiste. Na tej przestrzeni deniujemy rodzin A n, która skªada si ze zbiorów postaci gdzie A k A = A 1... A n = n A k, A dla dowolnego 1 k n, natomiast A oznacza rodzin zbiorów postaci 1.1. Tak zdeniowana rodzina A n jest ciaªem. i=1 Denicja 1.11 σ ciaªo generowane poprzez rodzin zbiorów A n nazywamy σ ciaªem zbiorów borelowskich oraz oznaczamy B R n. Elementy B R n nazywamy zbiorami borelowskimi. Denicja 1.12 Miar n n µ λ a i, b i = b i a i, i=1 i=1 gdzie a i b i dla ka»dego 1 i n, nazywamy miar Lebesgue'a okre±lon na R n, B R n.
1.1. Miara. Podstawowe wªasno±ci miary 19 Oczywi±cie miara Lebesgue'a na R n jest miar zewn trzn, natomiast z twierdzenia Caratheodory'ego wynika,»e jest ona miar zupeªn. Miara Lebesgue'a na R n nie jest sko«czona, µ λ R n =. Miar sko«czon na σ ciele zbiorów borelowskich B R n okre±lamy za pomoc dystrybuanty n wymiarowej. Denicja 1.13 Funkcj F x 1, x 2,..., x n, x 1, x 2,..., x n R speªniaj c nast puj ce warunki: 1. F x 1, x 2,..., x n jest funkcj niemalej c wzgl dem ka»dej wspóªrz dnej, tzn. 1... n F x 1, x 2,..., x n 0, gdzie i operator ró»nicowania wzgl dem zmiennej x i jest dany wzorem i F x 1, x 2,..., x n =F x 1,..., x i 1, x i + h i,.x i+1,..., x n F x 1,..., x i 1, x i,.x i+1,..., x n oraz h 1 0,...,h n 0; 2. je»eli istnieje co najmniej jedna zmienna x i, to F x 1,..., x i 1,,.x i+1,..., x n = lim F x 1, x 2,..., x n = 0, x i je»eli natomiast x i dla ka»dego i = 1, 2,..., n, to F,..., = lim x 1,...,x n F x 1,..., x n < ; 3. F x 1, x 2,..., x n jest prawostronnie ci gªa oraz ma lewostronne granice wzgl dem ka»dej wspóªrzednej x i, 1 i n nazywamy n wymiarow dystrybuant. Z twierdzenia Caratheodory'ego wynika,»e je»eli F x 1, x 2,..., x n jest n wymiarow dystrybuant, to istnieje dokªadnie jedna miara na R n, B R n, taka»e n F x 1, x 2,..., x n = µ, x i ]. 1.2 i=1
20 1. Podstawowe wiadomo±ci Odwrotnie, je»eli µ jest miar sko«czon na R n, B R n, to funkcja F x 1, x 2,..., x n dana wzorem 1.2 jest n wymiarow dystrybuant oraz µ R n = F,...,. Zatem maj c miar sko«czon mo»na okre±li n wymiarow dystrybuant i odwrotnie. Funkcje mierzalne. Niech X, A b dzie przestrzeni mierzaln. Denicja 1.14 Funkcj rzeczywist f x, x X nazywamy A mierzaln, je»eli dla dowolnego zbioru borelowskiego B B R f 1 B A, gdzie f 1 B = {x X : f x B} oznacza przeciwobraz zbioru B. Denicja funkcji mierzalnej oznacza,»e przeciwobraz dowolnego podzbioru borelowskiego R jest zbiorem mierzalnym w X. Do werykacji mierzalno±ci funkcji wykorzystujemy nast puj ce twierdzenie. Twierdzenie 1.2 Funkcja f x okre±lona na przestrzeni mierzalnej X, A jest A mierzalna, je»eli dla dowolnego a R zbiór {x X : f x a} jest zbiorem mierzalnym. Ka»d funkcj g y, y R nazywamy funkcj borelowsk, je»eli jest ona B R mierzalna. Twierdzenie 1.3 Niech X, A b dzie przestrzeni mierzaln. Funkcja zªo-»ona h x = g f x, x X jest A mierzalna, je»eli f x, x X jest A mierzalna, natomiast g y, y R jest funkcj borelowsk. Twierdzenie 1.4 Niech X, A b dzie przestrzeni mierzaln oraz funkcje f 1, f 2,... okre±lone na X s A mierzalne. Funkcje f 1 x+f 2 x, f 1 x f 2 x, 1 f 1 x pod warunkiem f 1 x 0, f 1 x, max {f 1 x, f 2 x}, min {f 1 x, f 2 x}, sup f n x, inf f n x s równie» funkcjami mierzalnymi. n n
1.2. Elementy rachunku prawdopodobie«stwa 21 Denicja 1.15 Funkcj mierzaln f x okre±lon na X, A nazywamy funkcj prost, je»eli przyjmuje sko«czenie wiele warto±ci. Funkcj prost f x mo»emy przedstawi w postaci f x = m a k I Ak x, x X, i=1 gdzie a k R, A k A dla k = 1,..., m, m < oraz A i A j = dla i j. Denicja 1.16 Niech f x b dzie funkcj mierzaln okre±lon na przestrzeni mierzalnej X, A. Rodzin A f = { f 1 B : B B R } nazywamy σ ciaªem generowanym przez funkcj f x. Šatwo udowodni,»e A f jest σ ciaªem, dodatkowo A f A. Twierdzenie poni»ej przedstawia sposób wyznaczenia klasy wszystkich funkcji mieralnych wzgl dem σ ciaªa A f. Twierdzenie 1.5 Funkcja h x, x X jest funkcj mierzaln wzgl dem σ ciaªa A f, wtedy i tylko wtedy, je»eli istnieje funkcja borelowska g y, y R, taka»e h x = g f x dla dowolnego x X. 1.2 Elementy rachunku prawdopodobie«stwa 1.2.1 Przestrze«probabilistyczna. Rachunek prawdopodobie«stwa jest dziaªem matematyki zajmuj cym si badaniem i wykrywaniem praw w zakresie zjawisk losowych, np. losowy charakter napi cia pr du, czas poprawnej pracy elementów, stopy zwrotu z inwestycji w poszczególne aktywa. W ka»dej teorii istniej poj cia pierwotne: w arytmetyce - liczba, w geometrii - punkt, prosta, pªaszczyzna.
22 1. Podstawowe wiadomo±ci W rachunku prawdopodobie«stwa poj ciem pierwotnym jest zdarzenie elementarne ω. Przez przestrze«zdarze«elementarnych Ω rozumiemy zbiór tych zdarze«, które s elementarnymi, niepodzielnymi wynikami do±wiadczenia czy te» obserwacji. Zdarzeniem losowym nazywamy dowolny podzbiór przestrzeni zdarze«elementarnych. Oczywi±cie zdarzeniem pewnym jest podzbiór zawieraj cy wszystkie elementy tej przestrzeni zdarzeniem pewnym jest Ω. Zdarzeniem niemo»liwym jest zbiór pusty. Niech F oznacza σ ciaªo przestrzeni zdarze«elementarnych Ω. Zgodnie z powy»sz denicj elementy σ ciaªa F s zdarzeniami losowymi. Je-»eli Ω jest zbiorem przeliczalnym lub sko«czonym, to ka»de σ ciaªo F jest zbiorem wszystkich podzbiorów zbioru Ω. Denicja 1.17 Ka»d funkcj P okre±lon na F o warto±ciach w [0, 1] speªniaj c warunki: 1. P Ω = 1; 2. dla ka»dego A F 0 P A 1; 3. je»eli A 1, A 2,... F oraz A i A j = dla dowolnych i j, to P A i = i=1 P A i i=1 nazywamy miar prawdopodobie«stwa. Trójk Ω, F, P przestrze«ω z miar P okre±lon na F nazywamy przestrzeni probabilistyczn zupeªn przestrzeni probabilistyczn. Wielko± P A oznacza prawdopodobie«stwo zdarzenia A. Je»eli Ω, F, P jest przestrzeni probabilistyczn, to speªnione s nast puj ce wªasno±ci: 1. P = 0; 2. dla dowolnego A F P Ā = 1 P A; 3. je»eli A B, to P A P B; 4. je»eli A, B F, to P A B = P A + P B P A B; 5. je»eli A 1 A 2... F, to P i=1 A i = lim n P A n ;
1.2. Elementy rachunku prawdopodobie«stwa 23 6. je»eli... A 2 A 1 F, to P i=1 A i = lim n P A n. Denicja 1.18 Zdarzenia A i B s niezale»ne niezale»ne wzgl dem miary P lub niezale»nie stochastycznie, je»eli P A B = P A P B. Mówimy,»e zdarzenia losowe A 1, A 2,..., A m s niezale»ne, je»eli dla dowolnych wska¹ników 1 i 1 < i 2 <... < i m m, 2 m n speªniona jest równo± P A i1 A i2... A im = P A i1 P A i2...p A im. Denicja 1.19 Prawdopodobie«stwem warunkowym zdarzenia A pod warunkiem,»e zaszªo zdarzenie B takie,»e P B > 0, nazywamy wielko± P A B = P AB P B. Je»eli zdarzenia A i B s niezale»ne oraz P A > 0 i P B > 0, to P A B = P A i P B A = P B. Twierdzenie 1.6 Zaªó»my,»e zdarzenia A 1, A 2,... F speªniaj warunki: 1. P A i > 0 dla i 1; 2. P A i A j = 0 dla i j; 3. A i = Ω. i=1 Dla dowolnego B F zachodzi równo± P B = P B A i P A i. 1.3 i=1 Wzór 1.3 nazywamy wzorem na prawdopodobie«stwo caªkowite.
24 1. Podstawowe wiadomo±ci 1.2.2 Zmienne losowe. Wektory losowe Denicja 1.20 Zmienn losow okre±lon na Ω, F, P nazywamy ka»d funkcj ξ : Ω R mierzaln wzgl dem σ ciaªa F. Zatem dla dowolnego zbioru borelowskiego B B R przeciwobraz ξ 1 B = {ω Ω : ξ ω B} jest zdarzeniem losowym. Bez zmiejszenia ogólno±ci poni»ej przy okre±leniu zmiennej losowej ξ argument ω b dziemy pomija. Z twierdzenia 1.4 wynika»e suma, ró»nica, iloczyn, iloraz pod warunkiem,»e mianownik jest ró»ny od zera zmiennych losowych równie» jest zmienn losow. Z twierdzenia 1.5 wynika,»e je»eli ξ jest zmienn losow oraz g x, x R jest funkcj borelowsk, to η = g ξ równie» jest zmienn losow, poniewa» funkcja η ω = g ξ ω, ω Ω jest F mierzalna. Denicja 1.21 Niech ξ : Ω R b dzie zmienn losow. σ ciaªo zawieraj ce zdarzenia ξ 1 B = {ω Ω : ξ ω B} dla dowolnego B B R nazywamy σ ciaªem generowanym przez zmienn losow ξ oraz oznaczamy F ξ lub σ ξ. Z denicji wynika,»e F ξ F, tzn. σ ciaªo F ξ zawiera wszystkie zdarzenia losowe A F, zaj±cie wyst pienie których obserwujemy na podstawie realizacji zmiennej losowej ξ. Twierdzenie 1.7 Niech ξ : Ω R b dzie zmienn losow natomiast g x, x R dowoln funkcj borelowsk. Zmienna losowa η = g ξ jest F ξ mierzalna. Odwrotnie, je»eli zmienna losowa η jest F ξ mierzalna, to istnieje funkcja borelowska g x taka,»e η = g ξ. Z ka»d zmienn losow ξ jest powi zana miara P ξ okre±lona na B R, która jest dana wzorem P ξ B = P ξ 1 B dla dowolnego B B R.
1.2. Elementy rachunku prawdopodobie«stwa 25 Miar P ξ nazywamy rozkªadem zmiennej losowej ξ. Dla ka»dej miary na B R istnieje jednoznacznie okre±lona dystrybuanta. Denicja 1.22 Funkcj F ξ x = P ξ, x] = P ω Ω : ξ ω x, x R nazywamy dystrybuant zmiennej losowej ξ. Denicja 1.23 Zmienna losowa ξ jest zmienn losow dyskretn zmienn losow o rozkªadzie dyskretnym, je»eli przyjmuje ona warto±ci z co najwy»ej przeliczalnego zbioru {a 1, a 2,...} z prawdopodobie«stwami {p 1, p 2,...}, gdzie p n 0 oraz p n = 1. n Zmienn losow ξ mo»emy przedstawi w postaci ξ ω = n a n I An ω, gdzie A n F, n A n = Ω oraz A i A j = dla i j, p n = P A n, natomiast { 1, ω A, I A ω = 0, ω / A. Funkcj I A : Ω {0, 1} nazywamy indykatorem zbioru A. Dystrybuanta zmiennej losowej ξ o rozkªadzie dyskretnym jest dana wzorem F ξ x = p n dla x R. n:a n n Punkty a 1, a 2,... s punktami nieci gªo±ci pierwszego rodzaju dystrybuanty zmiennej losowej ξ o rozkªadzie dyskretnym, F ξ a n F ξ a n 0 = p n. Dla dowolnego B B R P ξ B = p n. n:a n B Denicja 1.24 Zmienna losowa ξ jest zmienn losow ci gª zmienn losow o rozkªadzie ci gªym, je»eli istnieje nieujemna funkcja p ξ x 0,
26 1. Podstawowe wiadomo±ci x R,»e dla ka»dego zbioru borelowskiego B B R P ξ B = B p ξ s ds oraz p ξ s ds = 1. Funkcj p ξ x nazywamy funkcj g sto±ci zmiennej losowej ξ. Dystrybuanta zmiennej losowej ξ o rozkªadzie ci gªym F ξ x = x p ξ s ds dla x R jest funkcj ci gª i ró»niczkowaln na R oraz df ξx dx = p ξ x. Wobec powy»szego prawdopodobie«stwo zdarzenia {ξ B}, B B R wyznaczamy za pomoc caªki Lebesgue'aStieltjesa P ξ B = P {ξ B} = B df ξ x. Zaªó»my,»e zmienne losowe ξ 1,..., ξ n s okre±lone na Ω, F, P. Denicja 1.25 Wektorem losowym ξ = ξ 1,..., ξ n okre±lonym na Ω, F, P nazywamy ka»d funkcj ξ : Ω R n mierzaln wzgl dem σ ciaªa F. Denicja 1.26 σ ciaªo zawieraj ce zdarzenia ξ 1 B = {ω Ω : ξ ω B} dla dowolnego B B R n nazywamy σ ciaªem generowanym przez wektor losowy ξ : Ω R n oraz oznaczamy F ξ lub σ ξ. Denicja 1.27 Funkcj F ξ x 1,..., x n = P ξ ξ 1 x 1,..., ξ n x n = P ω Ω : ξ ω x, x = x 1,..., x n R n nazywamy dystrybuant wektora losowego ξ.
1.2. Elementy rachunku prawdopodobie«stwa 27 Dla dowolnego zbioru borelowskiego B B R n prawdopodobie«stwo zdarzenia {ξ B} wyznaczamy za pomoc caªki Lebesgue'aStieltjesa P ξ B = P {ξ B} = B df ξ x 1,..., x n. Je»eli p ξ x 1,..., x n jest funkcj g sto±ci wektora losowego ξ, to dla dowolnego B B R n oraz x 1,..., x n R n P ξ B = F ξ x 1,..., x n = B x 1 p ξ s 1,..., s n ds 1...ds n,... x n p ξ s 1,..., s n ds 1...ds n. Denicja 1.28 Mówimy,»e ci g {ξ n } 1 i n jest ci giem niezale»nych zmiennych losowych, je»eli dla dowolnych zbiorów borelowskich B 1,..., B n B R zdarzenia losowe {ξ 1 B 1 },..., {ξ n B n } s niezale»ne. Twierdzenie 1.8 Zmienne losowe ξ 1,..., ξ n s niezale»ne wtedy i tylko wtedy, gdy dla x 1,..., x n R F ξ x 1,..., x n = n F ξi x i. i=1 Niezale»no± zmiennych losowych jest powi zana z niezale»no±ci σ ciaª generowanych poprzez te zmienne losowe. Mówimy,»e σ ciaªa F, G s niezale»ne, je»eli niezale»ne s dowolne zdarzenia losowe A F, B G, zatem P A B = P A P B. Zmienne losowe ξ 1,..., ξ n s niezale»ne, wtedy i tylko wtedy gdy niezale»ne s σ ciaªa F ξ 1,..., F ξn generowane poprzez te zmienne losowe. Dla dowolnych zbiorów borelowskich B 1,..., B n B R mamy P ξ 1 B 1,..., ξ n B n = P ξ1,...,ξ n B 1... B n = n P ξi B i. i=1
28 1. Podstawowe wiadomo±ci Poj cia niezale»no±ci zmiennych losowych oraz odpowiadaj cych im σ ciaª b d wykorzystywane przy wyznaczeniu warunkowych warto±ci oczekiwanych. O ile nie b dzie konieczne poni»ej wska¹niki przy funkcjach rozkªadu i dystrybuantach zmiennej losowej b d pomijane. 1.2.3 Warto± oczekiwana. Warunkowa warto± oczekiwana Denicja 1.29 Warto±ci oczekiwan zmiennej losowej ξ okre±lonej na przestrzeni probabilistycznej Ω, F, P nazywamy wielko± Eξ = m ξ = ξ ω P dω. Ω Widzimy, ze warto± oczekiwana zmiennej losowej ξ jest caªk Lebesgue'a funkcji ξ ω wzgl dem miary P. Je»eli miara P ξ i funkcja F ξ s rozkªadem i dystrybuant zmiennej losowej ξ na B R, to Eξ = m ξ = R sp ξ ds = sdf ξ s. Wªasno±ci warto±ci oczekiwanej: 1. je»eli istniej warto±ci oczekiwane Eξ i E ξ oraz Eξ <, E ξ <, to Eξ E ξ ; 2. EI A = I A ω P dω = P A, gdzie I A jest indykatorem zbioru A; 3. je»eli Eξ istnieje, to dla dowolnych a, b R Ω E aξ + b = aeξ + b ;
1.2. Elementy rachunku prawdopodobie«stwa 29 4. je»eli istniej warto±ci oczekiwane Eξ i Eη oraz Eξ <, Eη <, to E ξ + η = Eξ + Eη ; 5. je»eli ξ η, to Eξ Eη; 6. je»eli f : R R jest dowoln funkcj borelowsk, to Ef ξ = f s df ξ s ; 7. je»eli f : R R jest funkcj wypukª oraz caªkowaln, to speªniona jest nierówno± f Eξ Ef ξ. Powy»sz nierówno± nazywamy nierówno±ci Jensena. W przypadku gdy f : R R jest funkcj wkl sª, to Ef ξ f Eξ. Dla dowolnego ustalonego a R funkcja f x = min x, a jest funkcj wkl sª, zatem E min ξ, a min Eξ, a. Denicja 1.30 Wariancj zmiennej losowej ξ nazywamy wielko± Wªasno±ci wariancji: 1. varξ = Eξ 2 m 2 ξ 0; 2. dla dowolnych a, b R varξ = E ξ m ξ 2 = s m ξ 2 df ξ s. var aξ + b = a 2 V arξ ;
30 1. Podstawowe wiadomo±ci 3. je»eli {ξ i } 1 i n jest ci giem niezale»nych zmiennych losowych oraz varξ i < dla dowolnego 1 i n, to n var ξ i = i=1 n V arξ i. i=1 Denicja 1.31 Kowariancj zmiennych losowych ξ, η : Ω R nazywamy wielko± cov ξ, η = E ξ m ξ η m η. Wªasno±ci kowariancji: 1. je»eli Eξ 2 < oraz Eη 2 <, to cov ξ, η varξ varη ; 2. je»eli zmienne losowe ξ, η s niezale»ne, to cov ξ, η = 0 ; 3. varξ = cov ξ, ξ; 4. var ξ + η = varξ + varη + 2cov ξ, η. Niech ξ = ξ 1,..., ξ n b dzie n wymiarowym wektorem losowym. Macierz Σ ξ = {cov ξ i, ξ j } 1 i,j n R n n nazywamy macierz kowariancji oraz Σ ξ = Eξξ T m ξ m T ξ. Je»eli P {ω : ξ ω = η ω} = 1, to mówimy»e zmienne losowe ξ i η s równe prawie pewnie wzgl dem miary P lub te» równe z prawdopodobie«stwem 1 oraz oznaczamy ξ = η pp.. Denicja 1.32 Warunkow warto±ci oczekiwan zmiennej losowej ξ okre- ±lonej na Ω, F, P wzgl dem σ ciaªa G F nazywamy zmienn losow E ξ G, która speªnia nast puj ce warunki: 1. E ξ G jest G mierzalna; 2. dla dowolnego A G speªniona jest nierówno± ξ ω P dω = E ξ G ω P dω. A A
1.2. Elementy rachunku prawdopodobie«stwa 31 Poni»ej zakªadamy,»e warto±ci oczekiwane zmiennych losowych istniej oraz s sko«czone. Wªasno±ci warunkowej warto±ci oczekiwanej: 1. je»eli ξ = C = const pp., to E ξ G = C pp.; 2. je»eli P ξ η = 1, to E ξ G E η G pp.; 3. je»eli a, b R oraz E ξ <, E η <, to E aξ + bη G = ae ξ G + be η G pp.; 4. je»eli E ξ < oraz G = {, Ω}, to E ξ G = Eξ pp.; 5. je»eli E ξ <, to E ξ G E ξ G pp.; 6. je»eli G 1 G 2 F, to E E ξ G 2 G 1 = E E ξ G 1 G 2 = E ξ G 1 pp.; 7. je»eli zmienna losowa ξ jest G mierzalna, to E ξ G = ξ pp.; 8. E E ξ G = Eξ pp.; 9. je»eli zmienna losowa ξ nie zale»y od G tzn. σ ciaªa F ξ i G s niezale»ne, to E ξ G = Eξ pp.; 10. je»eli E ξη < oraz zmienna losowa η jest G mierzalna, to E ξη G = ηe ξ G pp.. Zmienn losow E ξ F η = E ξ η, gdzie F η = σ {η}, nazywamy warunkow warto±ci oczekiwan zmiennej losowej ξ wzgl dem zmiennej losowej η. W pracy wykorzystywane b d wektory losowe o rozkªadzie normalnym rozkªadzie Gaussa. Niech ξ : Ω R n b dzie wektorem losowym o rozkªadzie normalnym N m, Σ, gdzie m R n, Σ R n n oraz m = Eξ, Σ = E ξ m ξ m T. Zakªadamy,»e macierz Σ jest macierz nieosobliw detσ 0, wi c tak»e dodatnio okre±lon. okre±lona wzorem γx, m, Σ = Funkcja g sto±ci rozkªadu normalnego N m, Σ jest 1 2π n Σ exp 1 2 x mt Σ 1 x m. 1.4
32 1. Podstawowe wiadomo±ci natomiast dla dowolnego z R n funkcja charakterystyczna wektora losowego ξ jest dana wzorem ϕ ξ z = E exp iz T ξ = exp iz T m 1 2 zt Σz. 1.5 Wªasno±ci wektorów losowych o rozkªadzie normalnym: 1. Je»eli wektor losowy ξ : Ω R n ma rozkªad normalny Nm, Σ, macierz A R n n jest macierz deterministyczn, a R n wektorem deterministycznym, to wektor losowy µ = Aξ+a ma rozkªad normalny N Am + a, AΣA T, gdzie wektor warto±ci oczekiwanych wynosi Eµ = E Aξ + a = Am + a, natomiast macierz kowariancji cov µ, µ = E µ Eµ µ Eµ T = E Aξ + a Am a Aξ + a Am a T = E A ξ m A ξ m T = AΣA T. Funkcja charakterystyczna wektora losowego µ jest równa ϕ µ z = E exp iz T µ = exp iz T Am + a 1 2 zt AΣA T z. 1.6 2. Niech wektor losowy ε : Ω R n ma rozkªad normalny N 0, I, gdzie 0 R n jest wektorem o wspóªrz dnych zerowych oraz macierz I R n n jest macierz jednostkow. Zatem Eε j = 0 dla dowolnego 1 j n oraz { 1, dla i = j, Eε i ε j = 0, dla i j, poniewa» skªadowe wektora losowego ε s niezale»ne. Je»eli wektor losowy ξ ma rozkªad normalny N m, Σ, to z wªasno±ci 1 wynika,»e
1.3. Procesy stochastyczne 33 wektor ξ mo»emy przedstawi w postaci ξ = Σ 1 2 ε + m. 3. Niech θ : Ω R k i ξ : Ω R n b d wektorami losowymi o rozkªadach normalnych N m θ, Σ θ i N m ξ, Σ ξ odpowiednio. Je»eli wektory losowe θ i ξ s niezale»ne, to macierz kowariancji wektorów θ i ξ jest macierz zerow oraz dla dowolnych x R k, z R n funkcja charakterystyczna wektora θ, ξ R k+n jest dana wzorem ϕ θ,ξ x, z = E exp i x T θ + z T ξ = ϕ θ x ϕ ξ z = exp ix T m θ 1 2 xt Σ θ x exp iz T m ξ 1 2 zt Σ ξ z. 1.3 Procesy stochastyczne Zachowanie wiele zjawisk technicznych, zycznych, ekonomicznych itp. opisujemy za pomoc ci gu zmiennych losowych. W pracy do matematycznego opisu tych zjawisk wykorzystane b d funkcje losowe zale»ne od czasu, które nazywamy procesami stochastycznymi. Niech Ω, F, P b dzie przestrzeni probabilistyczn. Denicja 1.33 Rodzin {ξ t } t T zmiennych losowych ξ t = ξ t ω : Ω R zale»nych od parametru t T = [0, nazywamy procesem stochastycznym losowym z czasem ci gªym. Je»eli parametr t T = N 0, to rodzin {ξ t } t T nazywamy szeregiem czasowym lub procesem stochastycznym z czasem dyskretnym. W zale»no±ci od potrzeb b dziemy przyjmowa T = [0, lub T = N 0. W przypadku, gdy ξ t = ξ t ω : Ω R n dla t T, to rodzin {ξ t } t T nazywamy n wymiarowym procesem stochastycznym. Zatem proces stochastyczny {ξ t } t T jest funkcj, która odwzorowuje T Ω w przestrze«mierzaln R lub R n w przypadku procesu n wymiarowego. Dla ustalonego ω Ω funkcj ξ t : T R lub ξ t : T R n nazywamy trajektori lub realizacj procesu stochastycznego.
34 1. Podstawowe wiadomo±ci Niech B oznacza rodzin zbiorów borelowskich w R lub R n w przypadku n wymiarowym. Z ka»dym procesem stochastycznym {ξ t } t T powi zane s σ ciaªa F ξ t = σ {ω : ξ s, s t}. Przez F ξ t rozumiemy zdarzenia, które zaszªy do momentu t. Dla ka»dego t T F ξ t oznacza σ ciaªo generowane poprzez rodzin zbiorów {ω : ξ s B, s t}, gdzie B B, tzn. σ ciaªo wzgl dem którego mierzalne s zmienne losowe ξ s, s t. Denicja 1.34 Proces stochastyczny {ξ t } t T nazywamy procesem mierzalnym, je»eli dla dowolnego B B {ω, t : ξ s B} F B T, gdzie B T jest σ ciaªem zbiorów borelowskich na T. Niech {F t } t T b dzie niemalej c rodzin σ ciaª, tzn. F s F t F dla s t. Mówimy,»e mierzalny proces stochastyczny {ξ t } t T jest zgodny z rodzin σ ciaª {F t } t T, je»eli dla dowolnego t T zmienne losowe ξ t s F t mierzalne. Oznacza to,»e dla t T wielko± ξ t jest caªkowicie wyznaczona poprzez F t. Ogólnie przyjmujemy F t = F ξ t. Niektóre procesy posiadaj pewn wªasno±, któr obrazowo mo»na scharakteryzowa jako: przyszªo± nie zale»y od przyszªo±ci, gdy znana jest tera¹niejszo±. Takie procesy stanowi klas procesów Markowa. Denicja 1.35 Proces stochastyczny {ξ t } t T nazywamy procesem Markowa, je»eli dla dowolnego k N oraz 0 t 1 < t 2 <... < t k oraz dowolnego B B speªniona jest równo± P ξ tk B ξt1,..., ξ tk 1 = P ξtk B ξ tk 1. 1.7 W lewej cz ±ci równania 1.7 prawdopodobie«stwo warunkowe wyznaczamy wzgl dem σ ciaªa generowanego poprzez ci g ξ t1,..., ξ tk 1, natomiast w prawej cz ± i tego równania prawdopodobie«stwo warunkowe wyznaczamy wzgl dem σ ciaªa generowanego poprzez ξ tk 1. Widzimy,»e dla procesów Markowa warunkowy rozkªad ξ tk, gdy znane s warto±ci ξ t1,..., ξ tk 1, zale»y
1.3. Procesy stochastyczne 35 tylko od ξ tk 1. Z denicji wynika,»e je»eli proces stochastyczny {ξ t } t T jest procesem Markowa, to dla dowolnych 0 s t oraz B B P ξ t B F s = P ξ t B ξ s. Twierdzenie 1.9 Proces stochastyczny {ξ t } t T jest procesem Markowa wtedy i tylko wtedy, gdy dla dowolnej ograniczonej funkcji f oraz dowolnych 0 t 1 < t 2 <... < t k E f ξ tk ξ t1,..., ξ tk 1 = E f ξtk ξ tk 1. Szczególnym przypadkiem procesów Markowa s procesy o przyrostach niezale»nych. Mówimy,»e proces stochastyczny {ξ t } t T jest procesem o przyrostach niezale»nych, je»eli dla dowolnego k N oraz 0 t 1 < t 2 <... < t k ró»nice ξ t2 ξ t1,..., ξ tk ξ tk 1 s niezale»ne. Denicja 1.36 Proces stochastyczny {ξ t } t T wzgl dem rodziny F = {F t } t T speªniaj cy warunek E ξ t < dla t T nazywamy: 1. martyngaªem, je»eli E ξ t F s = ξ s pp. dla t s; 2. nadmartyngaªem, je»eli E ξ t F s ξ s pp. dla t s; 3. podmartyngaªem, je»eli E ξ t F s ξ s pp. dla t s. Bardzo wa»n klas procesów stochastycznych stanowi procesy gaussowskie. Denicja 1.37 Proces stochastyczny {ξ t } t T nazywamy procesem Gaussa gaussowskim, normalnym je»eli dla dowolnego k N oraz t 1, t 2,..., t k T rozkªad ª czny ξ t1,..., ξ tk jest rozkªadem normalnym. Proces Gaussa jest caªkowicie okre±lony poprzez warto± ±redni m ξ t = Eξ t oraz macierz kowariancji Σ ξ t, s = cov ξ t, ξ s dla t, s T. Je»eli {ξ t } t T jest procesem Gaussa, to liniowe przeksztaªcenie tego procesu jest równie» procesem Gaussa.
36 1. Podstawowe wiadomo±ci 1.4 Optymalne zatrzymanie procesów losowych Niech Ω, F, P b dzie przestrzeni probabilistyczn, natomiast {F t } t T, T = [0, oznacza niemalej c rodzin σ ciaª, tzn. F s F t F dla s t. W teorii optymalnego zatrzymania procesów losowych decyduj ce znaczenie maj momenty Markowa. Zmienn losow τ : Ω T { } nazywamy momentem Markowa wzgl dem rodziny {F t } t T, je»eli dla ka»dego t T {ω : τ ω t} F t. Momenty Markowa s to zmienne losowe, które nie zale» od przyszªo±ci. Je»eli P τ < = 1, to moment Markowa τ nazywamy momentem zatrzymania. W denicji powy»ej wyra»enie {ω : τ ω t} F t oznacza,»e odpowied¹ na pytanie, czy moment zatrzymania τ nie przekracza t, zale»y od obserwacji zdarze«do momentu t zale»y od F t. Poni»ej podane zostan podstawowe wªasno±ci momentów Markowa, które bezpo±rednio s wykorzystywane podczas konstrukcji zasad zatrzymania procesów stochastycznych. 1. Je»eli τ jest momentem Markowa wzgl dem rodziny {F t } t T, to {ω : τ ω < t} F t oraz {ω : τ ω = t} F t dla t T. 2. Je»eli τ 1 i τ 2 s momentami Markowa, to min τ 1, τ 2, max τ 1, τ 2 oraz τ 1 + τ 2 s momentami Markowa. 3. Niech τ 1, τ 2,... b dzie ci giem momentów Markowa, wtedy moment sup τ n równie» jest momentem Markowa. 4. Moment Markowa τ wzgl dem rodziny {F t } t T jest zmienn losow F τ mierzaln. 5. Je»eli τ i ς s momentami Markowa oraz τ ς pp., to F τ F ς. 6. Niech {ξ t } t T b dzie procesem stochastycznym wzgl dem rodziny {F t } t T oraz τ = τ ω b dzie momentem Markowa takim,»e P τ < = 1. Funkcja ξ τ = ξ τω ω jest F τ mierzalna. 7. Niech {ξ t } t T b dzie procesem stochastycznym wzgl dem rodziny
1.4. Optymalne zatrzymanie procesów losowych 37 {F t } t T, natomiast D zbiorem domkni tym. Moment τ = inf {t 0 : ξ t D} jest momentem Markowa wzgl dem rodziny {F t } t T. Dowody tych wªasno±ci mo»na znale¹ np. w [79], [122]. Poni»ej przedstawione zostan optymalne zasady zatrzymania procesów stochastycznych oraz sposób wyznaczenia momentu zatrzymania. Niech {ξ t } 0 t N, ξ t = ξ t ω : Ω R n dla 0 t N b dzie procesem stochastycznym z czasem dyskretnym wzgl dem rodziny F = {F t } 0 t N speªnij cy wªasno± E ξ t < dla 0 t N oraz g : R n R b dzie funkcj mierzaln, tak»e Eg ξ t < dla ka»dego 0 t N, gdzie g x = min {g x, 0}. Warto± funkcji g x nazywamy wygran zyskiem dla realizacji x. Niech τ b dzie momentem Markowa τ o realizacjach w zbiorze {0, 1,..., N}, gdzie horyzont N <. Dla dowolnego 0 j N klas momentów Markowa o relizacjach w zbiorze {j, j + 1,..., N} oznaczamy przez T j, N = {τ : j τ ω N} oraz przyjmujemy T = T 0, N. Wyznaczenie optymalnego momentu zatrzymania τ dla procesu stochastycznego {ξ t } 0 t N sprowadza si do rozwi zaniu zadania V N 0 = sup Eg ξ τ. 1.8 τ T Wielko± V N 0 = Eg ξ τ oznacza oczekiwan wygran oczekiwany zysk, je»eli proces {ξ t } 0 t N zostanie zatrzymany w momencie τ. Aby wyznaczy optymalny moment zatrzymania skonstruujemy ci g { υ N t } 0 t N postaci υ N t = max { g ξ t, E υ N t+1 F t } 1.9 z warunkiem pocz tkowym υ N N = ξ N oraz deniujemy moment τ N 0 = min { 0 t N : g ξ t = υt N }. 1.10
38 1. Podstawowe wiadomo±ci Ci g { υt N } nazywamy kopert otoczk Snell'a. Twierdzenie poni»ej 0 t N przedstawia podstawow zasad dotycz c optymalnego zatrzymania procesów losowych na przedziale czasowym 0 t N. Wi cej na temat teorii optymalnych zasad zatrzymania mo»na znale¹ np. w [33], [122]. Twierdzenie 1.10 Niech ci g { υ N t } 0 t N speªnia równanie 1.9 oraz moment τ0 N b dzie okre±lony za pomoc 1.10. Wówczas zachodz nast puj ce wªasno±ci: 1. τ0 N T ; 2. E g ξ τ F N0 0 = υ0 N ; 3. E g ξ τ F 0 E g ξ τ F N0 0 dla dowolnego τ T ; 4. V N 0 = Eυ N 0. Dowód powy»szego twierdzenia mo»na znale¹ np. w [122], [124]. jest najmniejszym nadmartyngaªem domi- Wniosek 1.1 Ci g { υt N } nuj cym ci g {g ξ t } 0 t N. 0 t N Wniosek 1.2 Moment τ = τ N 0 jest optymalnym momentem zatrzymania w klasie momentów Markowa T dla procesu stochastycznego {g ξ t } 0 t N oraz najwi ksza oczekiwana wygrana wynosi V0 N = Eg ξ τ. N0 Z momentami decyzyjnymi t = 0, 1,..., N s powi zane pewne podzbiory w R n. Niech dla dowolnego 0 t N G N t = { x R n : g x = υ N t } oraz St N = R n \G N t. Ci gi zbiorów { G N } t 0 t N i { St N } okre±laj odpowiednio obszary zatrzymania i kontynuacji obserwacji procesu {ξ t } 0 t N 0 t N. W zwi zku z powy»szym,»eby okre±li optymaln decyzj w momencie t, nale»y sprawdzi do którego ze zbiorów nale»y ξ t, tzn. je»eli ξ t G N t, to w tym momencie zatrzymujemy proces {ξ t } 0 t N, w przeciwnym razie kontynuujemy obserwacj tego procesu.
1.5. Teoria ltracji 39 Wniosek 1.3 Optymalny moment zatrzymania procesu {ξ t } 0 t N wynosi τ N 0 = min { 0 t N : ξ t G N t }. Uwaga 1.4 Ci gi zbiorów zatrzymania { G N } t 0 t N i kontynuacji { St N speªniaj wªasno±ci G N 0 G N 1... G N N = R n } 0 t N oraz = S N N S N N 1... S N 0. Rozwi zanie zadania 1.8 dla przypadku gdy horyzont N = mo»na znale¹ w [33], [122], [124]. 1.5 Teoria ltracji 1.5.1 Wyznaczenie warunkowego rozkªadu Niech Ω, F, P b dzie przestrzeni probabilistyczn. Poni»ej rozwa-»amy proces stochastyczny z czasem dyskretnym ξ = {ξ t } t N0, elementy którego s okre±lone za pomoc równania ξ t+1 = f t, ξ, θ + σ t, ξ ε t+1, 1.11 gdzie f : N R n R k R n, σ : N R n R n m oraz f t, ξ, θ = f ξ 0,..., ξ t, θ i σ t, ξ = σ ξ 0,..., ξ t, natomiast {ε t } t N jest ci giem niezale»nych m wymiarowych wektorów losowych o rozkªadzie normalnym N 0, I, 0 R m jest wektorem o wspóªrz dnych zerowych, I R m m jest macierz jednostkow. Zakªadamy,»e wektor losowy θ : Ω R k ma rozkªad p θ oraz jest stochastycznie niezale»ny od elementów ci gu {ε t } t N. Zagadnienie ltracji polega na wyznaczeniu warunkowego rozkªadu wektora θ na podstawie realizacji {ξ s } 0 s t patrz np. [19],, [21], [48], [79], [86], [89], [98], [99], [101]. Niech F ξ t = σ {ξ 0, ξ 1,..., ξ t } i F ξθ t = F ξ t σ {θ}, t N oznaczaj niemalej ce rodziny σ ciaª na przestrzeni Ω, F, P. Je»eli ξ 0 jest wektorem deterministycznym, to wystarczy przyj F ξ 0 = {, Ω}.
40 1. Podstawowe wiadomo±ci Twierdzenie 1.11 Niech dla dowolnego t N funkcje f t, ξ, θ R n, σ t, ξ R n m s mierzalne ze wzgl du na σ ciaªo F ξ t. Wówczas warunkowy rozkªad zmiennej losowej ξ ze wzgl du na σ ciaªo F ξ t równy, t N jest P dθ F ξ t = pθ t γ ξ j, fj 1, ξ, θ, Σj 1, ξ j=1 dθ. 1.12 t px γ ξ j, fj 1, ξ, x, Σj 1, ξ dx j=1 gdzie Σt, ξ = σ t, ξ σ T t, ξ, natomiast γx, m, Σ jest funkcj g sto±ci rozkªadu N m, Σ dan wzorem 1.4. Dowód. Niech p i p 0 oznaczaj g sto± apioryczn wektora losowego θ i wektora stanu ξ 0 odpowiednio. Z niezale»no±ci θ i ξ 0 wynika,»e rozkªad ª czny jest równy µ 0 θ, ξ 0 = pθp 0 ξ 0. Zauwa»my,»e dla dowolnego t N i dowolnej ograniczonej borelowskiej funkcji h mamy E h θ, ξ 0,..., ξ t, ξ t+1 = E E h θ, ξ 0,..., ξ t, ξ t+1 F ξθ t. Wobec powy»szego Eh θ, ξ 0,..., ξ t+1 = Z drugiej strony h x, ξ 0,..., ξ t+1 µ t+1 x, ξ 0,..., ξ t+1 dxdξ 0...dξ t+1. 1.13 = = Eh θ, ξ 0,..., ξ t+1 = Eh θ, ξ 0,..., ξ t, f t, ξ, θ + σ t, ξ ε t+1 h x, ξ 0,..., ξ t, f t, ξ, x + σ t, ξ w µ t x, ξ 0,..., ξ t γ w, 0, I m dxdξ0...dξ t dw h x, ξ 0,..., ξ t, ξ t+1 µ t x, ξ 0,..., ξ t γ ξ t+1, f t, ξ, x, Σ t, ξ dxdξ 0...dξ t+1, 1.14
1.5. Teoria ltracji 41 gdzie γ w, 0, I m jest funkcj g sto±ci rozkªadu N 0, I m dan wzorem 1.4, 0 R m jest wektorem zerowym, I m R m m macierz jednostkow. Porównuj c 1.13 i 1.14 otrzymujemy µ t+1 θ, ξ 0,..., ξ t+1 = µ t θ, ξ 0,..., ξ t γ ξ t+1, f t, ξ, θ, Σ t, ξ. 1.15 Zatem dla systemu 1.11 rozkªad ª czny wektorów θ, ξ 0,..., ξ t jest równy µ t θ, ξ 0,..., ξ t = pθp 0 y 0 t γ ξ j, f j 1, ξ, θ, Σ j 1, ξ. j=1 Dla dowolnego t N warunkowy rozkªad wektora losowego θ ze wzgl du na σ ciaªo F ξ t jest dany wzorem P dθ F ξ t = µ t θ ξ 0,..., ξ t dθ = µ tθ, ξ 0,..., ξ t µt x, ξ 0,..., ξ t dx dθ, który sprowadzamy do postaci 1.12. 1.5.2 Filtracja ci gów warunkowo normalnych Niech Ω, F, P b dzie przestrzeni probabilistyczn, natomiast elementy procesu stochastycznego z czasem dyskretnym ξ = {ξ t } t N0 b d okre±lone za pomoc równania ξ t+1 = f 0 t, ξ + f 1 t, ξ θ + σ t, ξ ε t+1, 1.16 gdzie f 0 : N R n R n, f 1 : N R n R n k, σ : N R n R n m oraz f 0 t, ξ = f 0 ξ 0,..., ξ t, f 1 t, ξ = f 1 ξ 0,..., ξ t i σ t, ξ = σ ξ 0,..., ξ t, natomiast {ε t } t N jest ci giem niezale»nych wektorów losowych o rozkªadzie normalnym N 0, I, natomiast 0 R m jest wektorem o wspóªrz dnych zerowych, macierz I R m m jest macierz jednostkow. Zakªadamy,»e wektor losowy θ : Ω R k ma rozkªad normalny N m 0, γ 0 oraz jest stochastycznie niezale»ny od elementów szeregu {ε t } t N. Niech F ξ t = F ξ 0 σ {ξ 1, ξ 2,..., ξ t }, F ξθ t = F ξ t σ {θ}, t N oznacza niemalej ce rodziny σ ciaª na Ω, F, P.
42 1. Podstawowe wiadomo±ci Jak zobaczymy poni»ej warunkowy rozkªad wektora θ na podstawie realizacji {ξ s } 0 s t jest rozkªadem normalnym, dodatkowo optymalny estymator w sensie ±redniokwadratowym wektora nieznanych parametrów θ "ltr Kalmana - Bucy" pokrywa si z warunkow warto±ci oczekiwan m t = E θ F ξ t, natomiast bª d estymacji ltracji jest równy warunkowej macierzy kowariancji Q t = E θ m t θ m t T F ξ t Wielko± bª du estymacji okre±lamy jako ±lad z macierzy warunkowej kowariancji. W rozwa»anym przypadku wektor m t i macierz γ t, t N zostan wyprowadzone z twierdzenia o korelacji normalnej oraz zostan przedstawione w postaci równa«rekurencyjnych, co jest bardzo u»yteczne od strony praktycznej. Wi cej na temat ltracji mo»na znale w [48], [79], [86], [98], [99], [101]. Dowody twierdze«przedstawionych poni»ej dla rozszerzonego modelu obserwacyjnego znajduj si w [79].. Twierdzenie 1.12 Twierdzenie o korelacji normalnej Niech θ : Ω R k i ξ : Ω R n b d wektorami o rozkªadach normalnych odpowiednio N m θ, Q θ i N m ξ, Q ξ, gdzie m θ R k, m ξ R n, Q θ R k k, Q ξ R n n. Przyjmijmy Q θξ = E θ m θ ξ m ξ T. Wtedy Q θξ R k n, a wektor warunkowej warto±ci oczekiwanej E θ ξ oraz macierz warunkowej kowariancji dane s wzorami cov θ, θ ξ = E θ E θ ξ θ E θ ξ T ξ E θ ξ = m θ + Q θξ Q 1 ξ ξ m ξ, 1.17 cov θ, θ ξ = Q θ Q θξ Q 1 ξ Q T θξ. 1.18
1.5. Teoria ltracji 43 Dowód. Rozwa»my wektor losowy µ dany wzorem µ = θ m θ Q θξ Q 1 ξ ξ m ξ. 1.19 Niech wektor 0 R k b dzie wektorem o wspóªrz dnych zerowych wektor zerowy oraz macierz R k n b dzie macierz o elementach zerowych macierz zerowa. Warto± oczekiwana wektora µ jest równa Eµ = Eθ m θ Q θξ Q 1 ξ Eξ m ξ = 0, natomiast macierz kowariancji wektorów µ i ξ m ξ jest równa Eµ ξ m ξ T = E θ m θ ξ m ξ T Q θξ Q 1 ξ E ξ m ξ ξ m ξ T = Q θξ Q θξ Q 1 ξ Q ξ =. 1.20 Ze wzoru 1.20 wynika,»e wektory µ i ξ s niezale»ne. Zatem E µ ξ = Eµ = 0. Wobec powy»szego z równania 1.19, bior c obustronnie operator warunkowej warto±ci oczekiwanej ze wzgl du na ξ, otrzymujemy 0 = E θ ξ m θ Q θξ Q 1 ξ ξ m ξ. Tym samym stwierdzamy prawdziwo± wzoru 1.17. Ze wzoru 1.17 wynika θ E θ ξ = θ m θ Q θξ Q 1 ξ ξ m ξ = µ. 1.21 Z równania 1.21 oraz niezale»no±ci µ i ξ otrzymujemy cov θ, θ ξ = E θ E θ ξ θ E θ ξ T ξ = E µµ T ξ = Eµµ T, 1.22
44 1. Podstawowe wiadomo±ci natomiast z równania 1.19 mamy Eµµ T = Q θ + Q θξ Q 1 ξ Q ξ Q 1 Q T θξ 2Q θξq 1 ξ ξ Q T θξ = Q θ Q θξ Q 1 ξ Q T θξ. 1.23 Podstawiaj c 1.23 do 1.22 otrzymujemy wzór 1.18. Wniosek 1.4 Je»eli θ i ξ s zmiennymi losowymi o rozkªadach normalnych N m θ, σθ 2 i N m ξ, σξ 2 odpowiednio oraz kowariancja zmiennych losowych θ i ξ wynosi cov θ, ξ = rσ θ σ ξ, gdzie r jest wspóªczynnikiem korelacji zmiennych θ i ξ oraz σξ 2 > 0, to z twierdzenia o korelacji normalnej otrzymujemy E θ ξ = m θ + cov θ, ξ σ 2 ξ cov θ, θ ξ = σ 2 θ cov2 θ, ξ σ 2 ξ ξ m ξ = m θ + r σ θ σ ξ ξ m ξ, = σθ 2 1 r 2. Wniosek 1.5 Je»eli θ i ξ 1,..., ξ k s zmiennymi losowymi o rozkªadach normalnych N m θ, σ 2 θ i N m1, σ 2 1,..., N mk, σ 2 k odpowiednio oraz zmienne losowe ξ 1,..., ξ k s niezale»ne, to warunkowa warto± oczekiwana zmiennej losowej θ ze wzgl du na ξ 1,..., ξ k wynosi E θ ξ 1,..., ξ k = m θ + k i=1 cov θ, ξ i σ 2 i ξ i m i. Poni»ej zakªadamy,»e funkcje f 0 t, ξ, f 1 t, ξ, σ t, ξ w równaniu 1.16 speªniaj nast puj ce zaªo»enia: 1. dla dowolnego t N wektor f 0 t, ξ R n oraz macierze f 1 t, ξ R n k, σ t, ξ R n m s mierzalne ze wzgl du na σ ciaªo F ξ t ; 2. z prawdopodobie«stwem jeden elementy wektora f 0 t, ξ i macierzy f 1 t, ξ, σ t, ξ s ograniczone, tzn. dla t N 0 P f 0 i t, ξ c = 1, P f 1 ij t, ξ c = 1, P σ is t, ξ c = 1
1.5. Teoria ltracji 45 dla 1 i n, 1 j k, 1 s m, c < oraz E f 0 t, ξ 2 <, E f 1 t, ξ 2 <, E σ t, ξ 2 < ; 3. warunkowy rozkªad wektora losowego θ : Ω R k ze wzgl du na F ξ 0 jest rozkªadem normalnym N m 0, Q 0. Procesy stochastyczne z czasem dyskretnym okre±lone za pomoc równania 1.16 maj wªasno± warunkowej normalno±ci. Twierdzenie poni»ej podaje sposób wyznaczenia warunkowego rozkªadu wektora losowego θ na podstawie realizacji {ξ s } 0 s t dla dowolnego t N 0. Warto±ci estymatorów wektora losowego θ wyznaczone zaostan za pomoc twierdzenia o korelacji normalnej. Twierdzenie 1.13 Je»eli speªnione s zaªo»enia 1-3, to warunkowy rozkªad wektora losowego θ ze wzgl du na σ ciaªo F ξ t jest rozkªadem normalnym N m t, Q t, gdzie wektor warunkowych warto±ci oczekiwanych m t oraz macierz bª du estymacji γ t okre±lone s za pomoc równa«rekurencyjnych m t+1 = m t + γ t f1 T t, ξ f 1 t, ξ γ t f1 T t, ξ + σ t, ξ σ T t, ξ 1 ξ t+1 f 0 t, ξ f 1 t, ξ m t, 1.24 Q t+1 = γ t γ t f1 T t, ξ f 1 t, ξ γ t f1 T t, ξ + σ t, ξ σ T t, ξ 1 A1 t, ξ γ t 1.25 z warunkami pocz tkowymi m 0 i Q 0 odpowiednio. Dowód. Prawdziwo± twierdzenia udowodniona zostanie za pomoc indukcji matematycznej. Zaªó»my,»e dla dowolnego t 1 warunkowy rozkªad P θ x F ξ t jest rozkªadem normalnym N m t, Q t, gdzie m t = E θ oraz Q t = cov θ, θ. Z równania 1.16 wynika,»e F ξ t warunkowa warto± oczekiwana wektora ξ t+1 ze wzgl du na σ ciaªo F ξ t jest równa F ξ t
46 1. Podstawowe wiadomo±ci F ξ E ξ t+1 t = f 0 t, ξ + f 1 t, ξ m t, 1.26 natomiast macierz warunkowej kowariancji jest równa Q ξ F t = cov ξ ξ t+1, ξ t+1 t = E ξ t+1 E ξ t+1 F ξ t ξ t+1 E ξ t+1 F ξ t T F ξ t = f 1 t, ξ Q t f T 1 t, ξ + σ t, ξ σ T t, ξ. 1.27 Macierz warunkowej kowariancji wektorów θ i ξ t+1 jest dana wzorem Q θξ t F ξ = cov θ, ξ t+1 t = E θ m t f 1 t, ξ θ m t + σ t, ξ ε t+1 T ξ F t = Q t A T 1 t, ξ. 1.28 Korzystaj c z twierdzenia o korelacji normalnej, otrzymujemy E θ F ξ t+1 = E θ F ξ t Zdeniujmy wektor losowy µ t postaci µ t = θ E Q θξ t 1 + Q θξ t Q ξ t ξ t+1 E Q ξ t Ze wzoru 1.30 otrzymujemy θ F ξ t+1 = θ E θ 1 ξ t+1 E F ξ E µ t t = 0, F ξ cov µ t, µ t t = Q t Q θξ t F ξ t ξ t+1 F ξ t 1 Q ξ t ξ t+1 F ξ t. 1.29. 1.30 Q θξ t T.
1.5. Teoria ltracji 47 Warunkowa macierz kowariancji wektorów µ t F ξ i ξ t+1 E ξ t+1 t jest równa E µ t ξ t+1 E ξ t+1 F ξ t T F 1 ξ t = Q θξ t Q θξ t Q ξ t Q ξ t =, 1.31 gdzie wektor 0 R k jest wektorem o wspóªrz dnych zerowych wektor zerowy oraz macierz R k n jest macierz o elementach zerowych macierz F ξ zerowa. Zatem µ t i ξ t+1 E ξ t+1 t jak równie» µ t i ξ t+1 s stochastycznie niezale»ne. Z równania 1.30 wynika,»e funkcja charakterystyczna wektora losowego θ ze wzgl du na σ ciaªo F ξ t+1 jest równa E exp iz T θ ξ F = exp iz T E θ E t+1 F ξ t exp iz T µ t F ξ t+1 + Q θξ t Z niezale»no±ci µ t i ξ t+1 otrzymujemy E exp 1 Q ξ t ξ t+1 E ξ t+1 F ξ t. 1.32 exp iz T ξ µ t F t+1 12 zt Q t Q θξ t = E Q ξ t exp iz T ξ µ t F t 1 T z. 1.33 Q θξ t Podstawiaj c 1.26-1.28 oraz 1.33 do wzoru 1.32 otrzymujemy E exp iz T θ ξ F t+1 = exp iz T m t+1 1 2 zt Q t+1 z, gdzie m t+1 i Q t+1 s okre±lone za pomoc wzorów 1.24-1.25. St d warunkowy rozkªad wektora losowego θ ze wzgl du na σ ciaªo F ξ t+1 jest rozkªadem normalnym N m t+1, Q t+1. Twierdzenie poni»ej przedstawia efektywne rozwi zania równa«rekurencyjnych 1.24-1.25, które reprezentuj wektor warunkowych warto±ci oczekiwanych m t oraz macierz bª du estymacji Q t wektora losowego θ.
48 1. Podstawowe wiadomo±ci Twierdzenie 1.14 Je»eli dla t N 0 macierze B t, ξ B T t, ξ s nieosobliwe, to rozwi zania równa«1.24-1.25 dane s wzorami m t+1 = I + Q 0 m 0 + Q 0 t f1 T i, ξ σ i, ξ σ T i, ξ 1 f1 i, ξ i=0 1 t f1 T i, ξ σ i, ξ σ T i, ξ 1 ξi+1 f 0 i, ξ, 1.34 i=0 Q t+1 = I + Q 0 t f1 T i, ξ σ i, ξ σ T i, ξ 1 1 f1 i, ξ Q 0, 1.35 i=0 gdzie I R k k jest macierz jednostkow. Dowód twierdzenia mo»na znale w [68], [79].
Rozdziaª 2 Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego Problemy optymalnego sterowania systemami deterministycznymi i stochastycznymi s dobrze znane w literaturze przedmiotu zarówno dla czasu dyskretnego, jak i dla czasu ci gªego patrz np. [1], [3], [4], [23], [36], [38], [85], [91], [92], [97], [98], [108], [114]. Nie mniej jednak wpªyw czynnika losowego na system powoduje istotn ró»nic w sterowaniu obiektem stochastycznym, w odró»nieniu od sterowania obiektem deterministycznym. Czynnik losowy mo»e by spowodowany zarówno nieznajomo±ci parametrów systemu, jak i zaburzeniem zewn trznym wyst puj cym w modelu. Jak zobaczymy poni»ej, horyzont tak»e wpªywa na realizacj celu sterowania. Niech Ω, F, P b dzie zupeªn przestrzeni probabilistyczn, U R l lub U C l, l N b dzie zbiorem dopuszczalnych sterowa«, natomiast Y R n lub Y C n, n N przestrzeni stanów sygnaªów wyj±ciowych. Denicja 2.1 Sterowany system stochastyczny jest to system, w którym sygnaªowi wej±ciowemu u U odpowiada wektor losowy y : Ω U Y o rozkªadzie prawdopodobie«stwa P y w przestrzeni mierzalnej sygnaªów wyj- ±ciowych Y, B. 49
50 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego Poni»ej poj cia system stochastyczny oraz sterowany system stochastyczny b dziemy u»ywa zamiennie. Funkcja P y jest miar okre±lon na σ ciele B podzbiorów zbioru Y oraz dla ka»dego S B jest funkcj zmienniej u, tzn. P y S u. Niech T R + b dzie zbiorem momentów decyzyjnych, w którym sterujemy systemem. Zachowanie systemu stochastycznego w dowolnym momencie t T modelujemy za pomoc funkcji f : T U Ω Y. Denicja 2.2 Dyskretnym sterowanym systemem stochastycznym nazywamy proces stochastyczny {y t } t T z czasem dyskretnym, gdzie y t def = f t, u t s, ω dla ka»dego momentu decyzyjnego t T, natomiast s R + oznacza czas odpowiedzi systemu na sygnaª wej±ciowy u t s. Zatem dla ustalonego momentu t T, czasu odpowiedzi s > 0 i sterowania u t s U sygnaª wyj±ciowy y t ω = f t, u t s, ω jest wektorem losowym zmienn losow w przypadku jednowymiarowym y t : Ω Y. Ci g sterowa«{u t } t T nazywamy regulatorem. Przy ustalonym ω Ω oraz ustalonym regulatorze {u t } t T ci g {y t } t T jest ci giem wektorów o warto±ciach w przestrzeni stanów, który nazywamy realizacj trajektori systemu stochastycznego {y t } t T. Denicja systemu stochastycznego opiera si na poj ciu wektora losowego y t w przypadku jednowymiarowym - zmiennej losowej, który zale»y od parametru t czasu i sterowania u t s. Wobec powy»szego mamy do czynienia ze sparametryzowan rodzin wektorów lub zmiennych losowych. Rozkªady tych zmiennych losowych, a w szczególno±ci ich pierwsze i drugie momenty równie» mog zale»e od czasu t i sterowania u t s. Zazwyczaj zakªada si,»e odst py pomi dzy momentami, w których obserwujemy stany systemu, s jednakowe t i+1 t i = s > 0 dla i N 0 stany systemu s obserwowane w momentach 0, s, 2s, 3s,... Dla uproszczenia przyjmujemy,»e czas odpowiedzi systemu na sygnaª jest równy jeden s = 1. W zale»no±ci od potrzeb jako zbiór momentów decyzyjnych b dziemy przyjmowa T = N 0 lub T = {0, 1,..., N} N 0.
2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego 51 Gªównym celem teorii sterowania jest wyznaczenie regulatora {u t } t T, który speªnia okre±lone wªasno±ci. W zale»no±ci od typu wªasno±ci rozwi - zywane s ró»norodne zagadnienia szczegóªowe, np. zagadnienia dotycz ce sterowaªno±ci, stabilno±ci, optymalno±ci patrz np. [30], [49], [55], [109]. W teorii optymalnego sterowania zadanie polega na wyznaczeniu ci gu sterowa«{u t } t T, dla którego wskanik jako±ci osi ga warto± najmniejsz lub najwi ksz. Wska¹nik jako±ci w wielu przypadkach zale»y od stanów systemu i sterowa«oraz deniujemy J {y t } t T, {u t } t T. Zasadniczo zachowanie ka»dego systemu, którym sterujemy, zale»y od parametrów. Steruj c systemem stochastycznym, nie zawsze posiadamy informacj o warto±ciach tych parametrów. W przypadku gdy parametry systemu s znane steruj cemu, mamy do czynienia z kompletn informacj o systemie. Je»eli parametry systemu nie s znane, to w trakcie realizacji gªównego celu sterowania dodatkowo musimy wzbogaci nasz wiedz o nich. Przyjmujemy,»e dziaªanie steruj ce podejmowane w chwili i tej mo»e bazowa tylko na obserwacjach poprzednich stanów systemu, tj. y 0, y 1,..., y i oraz na znajomo±ci rozkªadów a priori parametrów systemu. Jednocze±nie steruj c systemem i obserwuj c jego stany, wzbogacamy nasz wiedz odno- ±nie funkcjonowania systemu, co powoduje,»e mo»emy dokªadniej nim sterowa. Zatem rozkªad a posteriori w chwili i tej charakteryzuje stan wiedzy o parametrach systemu zawartej w obserwacji y 1,..., y i, tym samym zale»y od dziaªa«steruj cych podj tych w chwilach poprzedzaj cych, które bezpo- ±rednio wpªywaj na obserwowane stany. St d widzimy,»e optymalne sterownie systemem stochastycznym z nieznanymi parametrami ma podwójne zadanie: z jednej strony dziaªanie systemu polega na gromadzeniu wiedzy o parametrach, z drugiej za± na optymalnej realizacji celu. Denicja 2.3 Sterowanie adaptacyjne jest to metoda sterowania systemami z nieznanymi parametrami lub parametrami zmieniaj cymi si w czasie, gdzie te parametry s identykowane dopasowywane, dostrajane poprzez regulator. Wobec powy»szego metod sterowania, w której wyst puj dziaªania sterowania i uczenia si jednocze±nie, nazywamy sterowaniem adaptacyjnym
52 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego patrz np. [4], [6][8], [10][12], [16][18], [34], [35], [38], [57], [72], [78], [85], [87], [91], [92], [97], [98], [103], [108], [110], [118]. Jak zobaczymy poni»ej, koszty sterowania systemami z peªn i niepeªn informacj s ró»ne. Ró»nic tych kosztów nazywamy kosztem uczenia si. W dalszej kolejno±ci omówiony zostanie problem wyboru optymalnego horyzontu. Mianowicie realizuj c to samo zadnie dla ró»nych horyzontów czasowych uzyskamy ró»ne efekty: ró»ne prawa sterowania oraz ró»ne wielko±ci kosztów. 2.1 Optymalne sterowanie systemami stochastycznymi z czasem dyskretnym 2.1.1 Postawienie zadania Na przestrzeni probabilistycznej Ω, F, P deniujemy ci g {w i } 1 i N niezale»nych wektorów losowych w i : Ω R m o rozkªadzie normalnym N 0, I m, gdzie 0 R m jest wektorem zerowym, natomiast I m R m m macierz jednostkow. Niech ξ : Ω R k b dzie wektorem losowym o rozkªadzie a priori P dξ, natomiast y 0 : Ω R n stanem pocz tkowym o rozkªadzie P dy 0. Je»eli stan pocz tkowy y 0 dla sterowanego systemu stochastycznego jest znany, to jako rozkªad stanu pocz tkowego przyjmujemy delta-miar Diraca zcentrowan w punkcie y 0, tzn. P y = { 0, gdy y y0, 1, gdy y = y 0. Zakªadamy stochastyczn niezale»no± wszystkich wymienionych obiektów. { } Deniujemy niemalej ce rodziny σ ciaª {F i } 0 i N oraz F ξ i, gdzie 0 i N F i = σ {y 0 } σ {w s : s = 1, 2,..., i}, F ξ i = F i σ {ξ} oraz przyjmujemy F = F ξ N. Poni»ej rozwa»amy system stochastyczny o równaniu stanu y i+1 = fξ, y i, u i + σξ, y i w i+1, 2.1
2.1. Optymalne sterowanie systemami stochastycznymi... 53 gdzie i = 0,..., N 1, y i R n, f : R k R n R l R n oraz σ : R k R n M n, m, gdzie M n, m jest zbiorem macierzy o n wierszach i k kolumnach. O funkcjach f, σ zakªadamy,»e s ciagªe wzgl dem wszystkich argumentów. Steruj c systemem stochastycznym 2.1 z czasem dyskretnym podejmujemy dziaªania steruj ce w chwilach 0, 1,..., N 1. Wielko± N oznacza horyzont sterowania. Dla dowolnego 0 i N 1 wektor u i R l mierzalny ze wzgl du na σ-ciaªo F i nazywamy dziaªaniem steruj cym. Dla ustalonego horyzontu czasowego N steruj c systemem 2.1 w momentach i = 0, 1,..., N 1 podejmujemy ci g dziaªa«{u i } 0 i N 1. Wobec powy»szego sterowanie u = u 0, u 1,...,u N 1 nazywamy sterowaniem dopuszczalnym. Na ci g dziaªa«steruj cych {u i } 0 i N 1 nie nakªadamy dodatkowych ogranicze«. Klas sterowa«dopuszczalnych oznaczamy przez U. Aby sformuªowa cel sterowania wprowadzimy funkcj strat g : R n R l R oraz funkcj dziedziczenia h : R n R. Zakªadamy,»e g y, u oraz h y sa ci gªe i ograniczone. Wska¹nik jako±ci deniujemy jako sum strat w chwilach j = 0, 1,..., N 1 oraz dziedziczenia na ko«cu horyzontu czasowego N. Funkcja celu reprezentuje strat caªkowit oraz jest okre±lona wzorem J N u = E N 1 i=0 gy i, u i + hy N. 2.2 Problem sterowania adaptacyjnego systemem stochastycznym 2.1 polega na minimalizacji strat caªkowitych. Aby wyznaczy optymalne sterowanie systemem 2.1 nale»y rozwi za zadanie inf J N u, 2.3 u U tzn. nale»y wyznaczy takie sterowanie dopuszczalne u = u 0,..., u N 1 dla którego inmum jest osi gni te.
54 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego Dynamika systemu 2.1 zale»y od parametrów ξ. Je»eli dokªadna warto± tych parametrów nie jest znana steruj cemu, to realizuj c gªówny cel sterowania, który polega na minimalizacji wska¹nika jako±ci 2.2, dodatkowo obserwujemy trajektori systemu oraz analizujemy jego zachowanie, tym samym wzbogacamy nasz wiedz o dziaªaniu tego systemu, dokªadniej o parametrach ξ. Sterowanie adaptacyjne polega na odpowiednio szybkim gromadzeniu wiedzy o systemie 2.1 oraz optymalizacji wska¹nika jako±ci 2.2. Do rozwi zania zadania 2.3 zostanie wykorzystane podej±cie R.Rishela patrz np. [91][94]. Dla systemów z niepeªn informacj o parametrach systemu 2.1 dodatkowo wykorzystamy zaganienie ltracji, które polega na oszacowaniu warunkowego rozkªadu nieznanych parametrów ξ. Twierdzenie 2.1 Je»eli funkcje g : R n R l R i h : R n R s ci gªe, wypukªe i ograniczone, funkcje f : R k R n R l R n, g : R n R l R n s funkcjami klasy C 1 ze wzgl du na zmienn steruj c u R l oraz det Σ ξ, y 0 dla ξ, y R k R n, gdzie Σξ, y = σξ, yσ T ξ, y, to speªnienie równania u gy j, u j + E N 1 i=j+1 gy i, u i + hy N y j+1 fξ, y j, u j T Σ 1 ξ, y i u fξ, y j, u j F j = 0 2.4 dla wszystkich j 0, 1,,..., N 1 jest warunkiem koniecznym optymalnego sterowania u = u 0, u 1,..., u N 1, gdzie 0 = col 0,..., 0 R l. Dowód. W równaniu stanu 2.1 wektor losowy w j+1 : Ω R m ma rozkªad normalny N 0, I m. Zatem dla dowolnego 0 j N 1 warunkowy rozkªad stanu systemu jest dany wzorem F ξ P dy j+1 j = γy j+1, fξ, y j, u j, Σξ, y j dy j+1, gdzie funkcja g sto±ci γ jest okre±lona za pomoc 1.4.
2.1. Optymalne sterowanie systemami stochastycznymi... 55 W przypadku gdy parametry ξ s znane, to dla dowolnego Y R n wielko± P y j+1 Y F ξ j = Y P ds F ξ j oznacza prawdopodobie«stwo,»e w chwili j + 1 realizacja systemu 2.1 b dzie nale»aªa do zbioru Y, je»eli do momentu j ten system pokonaª trajektori {y i : 0 i j}. Z niezale»no- ±ci zaburze«zewn trznych w 1,..., w N wynika,»e ª czny rozkªad zmiennych ξ, y 0, y 1,..., y j, dla 1 j N jest dany wzorem P dξ, dy 0,..., dy i = P dξ P dy 0 P dy 1,..., dy j 2.5 oraz dla 1 i j N P dy i,..., dy j = j P dy k F k 1. 2.6 Zatem dla dowolnego 0 j N 1 wska¹nik jako±ci 2.2 mo»emy przedstawi w postaci lub j J N u = E gy i, u i + E N 1 i=j+1 i=0 k=i N 1 i=j+1 g y i, u i + h y N F ξ j j J N u = gy i, u i P dξ, dy 0, dy 1...dy j + i=1 gy i, u i + hy N P dy j+1,..., dy N P dξ, dy 0, dy 1...dy j. 2.7 Ustalmy liczb j {0,..., N 1}. Niech u = u + ɛv j, gdzie u = u 0, u 1,..., u N 1 R l N oznacza sterowanie optymalne systemem 2.1, ɛ skalar, natomiast v j : R n j+1 R l N jest dane wzorem
56 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego v j = c j 0, cj 1,..., cj N 1, gdzie { col c j i = κ1,..., κ l, dla i = j, col 0,..., 0, dla i j oraz κ s y 0,..., y j : R n j+1 R dla 1 s l jest dowoln funkcj borelowsk. W momencie j dla sterowania u j realizuj cego inmum funkcjonaªu J zdeniowanego wzorem 2.2 wariacja powinna by równa zero, innymi sªowy, je»eli sterowanie u j jest optymalne, to znika wariacja funkcjonaªu J patrz np. [40], [111], [119]. Zatem warunek konieczny istnienia optymalnego sterowania w momencie j mo»emy przedstawi za pomoc równania Korzystaj c z rozwini cia 2.7 otrzymujemy ɛ J N u + ɛv j = 0. 2.8 ɛ 0 N 1 ɛ J N u + ɛv j = u gy j, u j + ɛv j + u P dy j+1,..., dy N, c j j i=j+1 gy i, u i + ɛv j + hy N P dξ, dy 0, dy 1...dy j. 2.9 Ze wzorów 2.5-2.6 mamy u P j+1,n dy j+1,..., dy N = y j+1 fξ, y j, u j + ɛv j T Σ 1 ξ, y j u fξ, y j, u jp dy j+1,..., dy N. 2.10 Podstawiaj c 2.10 do 2.9 oraz korzystaj c z warunku 2.8 otrzymujemy równanie N 1 u gy j, u j + i=j+1 Σ 1 ξ, y j u fξ, y j, u jp dy j+1,..., dy N, c j j gy i, u i + hy N y j+1 fξ, y j, u j T P dξ, dy 0, dy 1...dy j = 0. 2.11
2.1. Optymalne sterowanie systemami stochastycznymi... 57 Poniewa» warunek 2.11 musi by speªniony dla dowolngo c j j = col κ 1,..., κ l, gdzie κ s, 1 s l s funkcjami borelowskimi mierzalnymi wzgl dem σ ciaªa F j, zatem otrzymujemy tez. Uwaga 2.1 Je»eli we wzorze 2.2 funkcjonaª strat g dodatkowo zale»y od parametrów systemu ξ tzn. gξ, y j, u j lub dodatkowo od przyszªych stanów np. gξ, y j, y j+1, u j lub gy j, y j+1, u j, to warunek konieczny optymalnego sterowania 2.4 jest podobny, z tym»e w wy»ej wymienionych przypadkach gradient funkcjonaªu strat u g w równaniu 2.4 wchodzi pod znak operatora warunkowej warto±ci oczekiwanej. Dowody przebiegaj w sposób identyczny oraz mo»na je znale¹ np. w pracach [6], [11], [16], [15]. 2.1.2 Wyznaczenie optymalnego sterowania Rozwi zanie zadania 2.3 polega na wyznaczeniu ci gu optymalnych sterowa«{u i } 0 i N 1 systemem 2.1. Do wyznaczenia optymalnych sterowa«zostanie wykorzystane programowanie dynamiczne. Dla dowolnego 0 j N deniujemy funkcje Bellmana patrz [23] w sposób nast puj cy V N j ξ, y 0,..., y j = E N 1 i=j natomiast dla momentu N przyjmujemy g y i, u i + h y N F ξ j, 2.12 V N N ξ, y 0,..., y N = hy N. 2.13 Funkcja Bellmana Vj N ξ, y 0,..., y j reprezentuje oczekiwane koszty sterowania i dziedziczenia od momentu j do ko«ca horyzontu N dla przypadku gdy znane s parametry ξ R k systemu 2.1. warunkowej warto±ci oczekiwanej otrzymujemy Vj N ξ, y 0,..., y j = inf u j gy j, u j + E = gy j, u j + E Korzystaj c z wªasno±ci Vj+1ξ, N y 0,..., y j+1 j+1ξ, y 0,..., y j+1 F ξ j V N F ξ j, 2.14
58 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego gdzie u j oznacza sterowanie optymalne w chwili j. Widzimy,»e funkcje Bellmana maj ksztaªt teleskopowy. Ze wzoru 2.14 wynika,»e trajektorii y 0, y 1,..., y j oraz parametrom ξ odpowiada sterowanie u j dla 0 j < N 1. Oczywi±cie pokonuj c trajektori y 0, y 1,..., y j na system 2.1 oddziaªywaª ci g sterowa«u 0, u 1,..., u j 1. Dla uproszczenia przyjmujemy Vj N ξ, y 0,..., y j = Vj N ξ, y 0,..., y j, u 0,..., u j 1. Je»eli parametry ξ R k s nieznane, to wielko± V N j y 0,..., y j = E Vj N ξ, y 0,..., y j+1 F j = inf u j g yj, u j + E V N j+1ξ, y 0,..., y j+1 F j 2.15 reprezentuje oczekiwane koszty sterowania i dziedziczenia od momentu j do ko«ca horyzontu N. Uwaga 2.2 Funkcja Bellmana okre±lona wzorami 2.132.14 ma nast puj ce wªasno±ci: 1. dla ustalonego parametru ξ R k proces stochastyczny {y t } 1 t N dany wzorem 2.1 ma wªasno± Markowa oraz warto± funkcji Bellmana w momencie j zale»y od stanu systemu w tym momencie, tzn. Vj N ξ, y 0,..., y j = Vj N ξ, y j 2.16 dla 0 j N, natomiast na potrzeby konstrukcji algorytmu wyznaczenia optymalnych sterowa«oraz oszacowania kosztów sterowa«w warunkach niepeªnej informacji o systemie w dalszej cz ±ci pracy wykorzystujemy oznaczenia V N j ξ, y 0,..., y j, 0 j N; 2. zgodnie ze wzorem 2.16 dla dowolnego ξ R k i y R n mamy Vj N ξ, y = V N j 0 ξ, y, zatem warto± funkcji Bellmana V N j ξ, y 0,..., y j w momencie j {0, 1,..., N} zale»y od parametru ξ, stanu systemu y i dªugo±ci horyzontu N j dokªadniej od pozostaªego czasu sterowania.
2.1. Optymalne sterowanie systemami stochastycznymi... 59 Podobnie jak w pracach [7][16], [38], [44], [91], [92] przedstawiona { } zostanie procedura wyznaczenia optymalnego ci gu sterowa«u j 0 j N 1 dla systemu 2.1. Ze wzorów 2.12 oraz 2.14 otrzymujemy u gy j, u j + E N 1 i=j+1 gy i, u i + hy N y j+1 fξ, y j, u j T Σ 1 ξ, y j u fξ, y j, u j F j = u gy j, u j + E Vj+1 N ξ, y0,..., y j, fξ, y j, u j + σξ, y j w j+1 σξ, y j w j+1 T Σ 1 ξ, y j u fξ, y j, u j F j. Uwaga 2.3 Dla dowolnego 0 j N 1 warunek konieczny 2.4 istnienia optymalnego sterowania u j u gy j, u j + mo»emy przedstawi za pomoc równania V N j+1ξ, y 0,..., y j, fξ, y j, u j + σξ, y j xx T σ T ξ, y j Σ 1 ξ, y j u fξ, y j, u jγ x, 0, I m P dξ F j dx = 0, gdzie P dξ F j oznacza warunkowy rozkªad zmiennej losowej ξ wzgl dem σ ciaªa F j. Dla dowolnych systemów wyznaczenie warunkowego rozkªadu P dξ F j, 1 j N 1 zostaªo omówione w poprzednim rozdziale. W przypadku gdy rozkªad a priori wektora nieznanych parametrów ξ jest rozkªadem normalnym oraz funkcja f w równaniu 2.1 jest funkcj liniow ze wzgl du na ξ, to warunkowy rozkªad P dξ F j, 1 j N 1 jest rozkªadem normalnym o statystykach generowanych przez ltr Kalmana Bucy, warto±ci których wyznaczamy korzystaj c z twierdze«1.13-1.14. Wi cej na temat ltracji ci gów warunkowo normalnych mo»na znale¹ np. w [79], [99], [101]. Uwaga 2.4 Steruj c systemem stochastycznym w warunkach peªnej informacji parametry systemu ξ s znane steruj cemu od momentu j do momentu N ponosimy koszty sterowania wielko±ci V N j ξ, y 0,..., y j dla 0 j N 1. W warunkach niepeªnej informacji o systemie parametry systemu s modelowane za pomoc wektora losowego ξ : Ω R k oraz nie
60 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego s znane steruj cemu oczekiwany koszt realizacji celu V j N y 0,..., y j koszty sterowania i uczenia si jednocze±nie od momentu j do momentu N jest dany wzorem 2.15 oraz zale»y bezpo±rednio od rozkªadu a priori wektora losowego ξ, trajektorii y 0,..., y j oraz sterowa«u 0,..., u j 1 po±rednio, natomiast w przypadku peªnej informacji patrz wzór 2.16 zale»y od parametrów ξ i poªo»enia y j. Porównuj c koszty sterowania systemami z peªn i niepeªn informacj wynika,»e dla 0 j N 1 dodatkowy koszt zwi zany z nieznajomo±ci parametrów ξ wynosi C j = V j N y 0,..., y j Vj N ξ, y 0,..., y j. Koszt C 0 oznacza oczekiwany caªkowity koszt uczenia si podczas realizacji celu sterowania. Uwaga 2.5 Do wyznaczenia optymalnego sterowania w warunkach peªnej i niepeªnej informacji o systemie korzystamy z równania 2.4. W warunkach peªnej informacji sterowanie u j, 0 j N 1 wyznaczamy na podstawie trajektorii y 0,..., y j i wektora ξ, zatem przyjmujemy u j def = u j ξ, y 0,..., y j. 2.17 W przypadku niepeªnej informacji sterowanie adaptacyjne u j, 0 j N 1 wyznaczamy na podstawie trajektorii y 0,..., y j i warunkowego rozkªadu P dξ F j, wobec powy»szego przyjmujemy ū j def = ū j y 0,..., y j. 2.18 Uwaga 2.6 W przypadku niepeªnej informacji o systemie w zastosowaniach in»ynierskich wykorzystuje si sterowanie "dostrojone", które polega na wykorzystaniu sterowa«jak w przypadku peªnej informacji o systemie, z tym»e nieznany parametr zostaje zast piony estymatorem. Ogólnie, sterowanie adaptacyjne ró»ni si od sterowania "dostrojonego", tzn. dla 0 j N 1 ū j y 0,..., y j u j E ξ F j, y 0,..., y j.
2.1. Optymalne sterowanie systemami stochastycznymi... 61 Poni»ej przedstawiony zostanie algorytm wyznaczenia ci gu optymalnych sterowa«u j w warunkach niepeªnej informacji. Podobnie { } 0 j N 1 jak w pracach [7][16], [57][66] przedstawiony poni»ej algorytm wykorzystuje metod programowania dynamicznego wstecz patrz np. [23], [38], [44], [92], [109], gdzie za pomoc techniki teleskopowej konstruowane s funkcje Bellmana 2.14. Algorytm wyznaczania optymalnego sterowania. 1. Deniujemy V N N ξ, y 0,..., y N = hy N oraz kªadziemy j = N. 2. Kªadziemy j = j 1. 3. Deniujemy Ṽ N j+1ξ, y 0,..., y j, u j, w j+1 = V N j+1ξ, y 0,..., y j, fξ, y j, u j +σξ, y j w j+1. 4. Wyznaczamy Zj N y 0,..., y j, u j = N E Ṽj+1 ξ, y 0,..., y j, u j, w j+1 wj+1σ T T ξ, y j Σ 1 ξ, y j u fξ, y j, u j F j = Ṽj+1ξ, N y 0,..., y j, u j, xx T σ T ξ, y j Σ 1 ξ, y j u fξ, y j, u j γ x, I m dxp dξ F j. 5. Szukamy optymalnego sterowania u j speªniaj cego warunek u gy j, u j + Z N j y 0,..., y j, u j = 0.
62 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego 6. Wyznaczamy warto±ci funkcji Bellmana dla momentu j Vj N ξ, y 0,..., y j = gy j, u j+ V N j+1ξ, y 0,..., y j, fξ, y j, u j + σξ, y j xγ x, I m dx. 7. Je»eli j = 0 to zatrzymujemy, w przeciwnym razie wracamy do punktu 2. Uwaga 2.7 W przypadku peªnej informacji o systemie algorytm wyznaczenia optymalnego sterowania jest podobny. W tym celu wystarczy warunkowy rozkªad P dξ F j zast pi rozkªadem punktowym. 2.2 Optymalne sterowanie liniowo-kwadratowe Problem sterowania liniowo-kwadratowego Linear Quadratic Control Problem jest dobrze znany w literaturze przedmiotu patrz np. [13], [36], [38], [44], [57], [71], [92], [104], [108]. Zachowanie obiektu systemu jest okre±lone za pomoc równania liniowego ze wzgl du na sterowanie, natomiast wska¹nik jako±ci jest form kwadratow. W tej cz ±ci rozdziaªu przedstawiony zostanie problem sterowania liniowym systemem stochastycznym z losowym przesuni ciem. Ten problem pojawia si, gdy sterujemy obiektem b d¹ identycznymi obiektami w ró»nych warunkach, natomiast dokªadnej informacji o otoczeniu nie posiadamy np. na dynamik statku morskiego wpªywaj pr dy wodne oraz warunki atmosferyczne zmieniaj ce si w czasie, na dynamik statku powietrznego wpªywaj warunki atmosferyczne. Zatem oprócz sterowania obiektem nale»y dodatkowo wzbogaca wiedz o funkcjonowaniu systemu np. wpªywu otoczenia na system. Dla liniowego systemu stochastycznego wyznaczone zostan prawa sterowania. Podane zostan równie» prawa sterowania systemem liniowym dla przypadków peªnej i niepeªnej informacji o systemie. Dodatkowo pokazana zostanie ró»nica warto±ci funkcjonaªów jako±ci dla wy»ej wymienionych przypadków. Je»eli parametry systemu nie s znane, to steruj cy ponosi dodatkowe koszty, które okre±lamy jako koszty uczenia si. Na koniec
2.2. Optymalne sterowanie liniowo-kwadratowe 63 rozdziaªu porównane zostan sterowania liniowo-kwadratowe dla systemów stochastycznego i deterministycznego parametry systemu s znane oraz nie wyst puj zaburzenia zewn trzne w systemie. Jak zobaczymy poni»ej nie mniej istotnym czynnikiem wpªywaj cym na wska¹nik jako±ci jest horyzont sterowania, a mianowicie pokazany zostanie wpªyw horyzontu na koszty sterowania liniowymi systemami stochastycznymi i deterministycznymi. 2.2.1 Problem sterowania liniowym obiektem z losowym przesuni ciem Niech Ω, F, P b dzie zupeªn przestrzeni probabilistyczn, na której deniujemy ci g {w i } 1 i N niezale»nych wymiarowych wektorów losowych w i : Ω R m o rozkªadzie normalnym N 0, I m, 0 R m jest wektorem zerowym, natomiast I m R m m macierz jednostkow. Niech ξ : Ω R k b dzie wektorem losowym o rozkªadzie normalnym Nm 0, Γ 0, gdzie m 0 R k, Γ 0 R k k. Poni»ej rozwa»amy problem sterowania stochastycznym systemem liniowym o równaniu stanu y i+1 = Ay i + Bξ Cu i + σw i+1, 2.19 gdzie i = 0,..., N 1, y i R n, A R n n, B R n k, C R n l, σ R n m. Zakªadamy,»e speªnione s nast puj ce nierówno±ci A <, B <, C <, σ <, gdzie oznacza norm macierzy jako A = max Ax. Macierz A nazywana jest macierz transformacji stanów, natomiast k wymiarowy wektor ξ reprezentuje parametry x 1 systemu np. wpªyw otoczenia w którym dziaªa system. Skªadnik Bξ reprezentuje dodatkowe przesuni cie wywoªane np. losowymi czynnikami zewn trznymi systemu 2.19 wyst puj ce w przedziale czasowym i, i + 1]. Przyjmujemy,»e w przypadku peªnej informacji o systemie 2.19 wektor ξ R k jest deterministyczny np. wpªyw otoczenia jest znany steruj cemu, zatem przesuni cie Bξ jest staªe. W przypadku niepeªnej informacji o systemie ξ : Ω R k jest wektorem losowym o rozkªadzie normalnym, wtedy przesuni cie Bξ
64 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego równie» jest wektorem losowym o rozkªadzie NBm 0, BΓ 0 B T. Zakªadamy,»e stan pocz tkowy y 0 systemu 2.19 ma rozkªad P dy 0. Je»eli stan pocz tkowy jest znany y 0 jest wektorem deterministycznym to wystarczy przyj,»e y 0 ma rozkªad punktowy. Zakªadamy stochastyczn niezale»no± w 1,..., w N, ξ, y 0 oraz deniujemy σ ciaªa F k = σ {y 0 } σ {w i : i = 1, 2,..., k} oraz F ξ k = F k σ {ξ}, gdzie F = F ξ N. Dla j = 0, 1,..., N 1 wektor u j R l mierzalny wzgl dem σ ciaªa F j nazywamy dziaªaniem steruj cym w chwili j, natomiast ci g {u i } 0 j N 1 sterowaniem dopuszczalnym. Klas wszystkich sterowa«dopuszczalnych oznaczamy przez U. Rozwa»my zadanie sterowania stochastycznym systemem liniowym2.19, gdzie w kolejnych N krokach nale»y przeprowadzi ten system ze stanu pocz tkowego y 0 do stanu celu a R n. Dodatkowo koszty zwi zane ze sterowaniem nakªady energetyczne oraz straty spowodowane nietraeniem do celu byªy jak najmniejsze. Przyjmujemy,»e macierze R i R l l dla i = 0,..., N 1 oraz Q N R n n s dodatnio okre±lone. Dla momentów i = 0, 1,..., N 1 nakªady energetyczne koszty zwi - zane ze sterowaniem systemu 2.19 s równe u T i R iu i, natomiast straty zwi zane z nietraeniem do celu stanu a wynosz y N a T Q N y N a. Widzimy,»e zarówno funkcjonaªy kosztów, jak i funkcjonaª dziedziczenia s okre±lone za pomoc form kwadratowych. Wska¹nik jako±ci reprezentuje koszt caªkowity, który jest sum kosztów sterowania i strat ko«cowych, oraz jest dany wzorem J N u = E N 1 i=0 u T i R i u i + y N a T Q N y N a. 2.20 Cel sterowania polega na wyznaczeniu takiego prawa sterowania u = u 0,..., u N 1, dla którego ª czne koszty nakªady energetyczne wraz z ko«cowymi stratami s najmniejsze. Rozwi zuj c zadanie 2.3 wyznaczymy optymalne sterowanie systemem 2.19. Uwaga 2.8 Dla zadania 2.3 ze wska¹nikiem jako±ci 2.20 system liniowy jest przeprowadzany ze stanu pocz tkowego y 0 do celu a, natomiast dokonu-
2.2. Optymalne sterowanie liniowo-kwadratowe 65 j c przesuni cia ukªadu wspóªrz dnych o wektor a, przeprowadzamy system w nowym ukªadzie ze stanu y 0 a do pocz tku ukªadu wspóªrz dnych. 2.2.2 Sterowanie systemem liniowym z peªn informacj Najpierw wyznaczymy optymalne sterowanie dla liniowego systemu stochastycznego 2.19 z peªn informacj. W tym przypadku przyjmujemy,»e warto±ci parametrów systemu ξ s znane steruj cemu. Wyznaczaj c optymalne sterowanie w momentach j = 0, 1,..., N 1 wykorzystujemy znajomo± zarówno bie» cego, jak i poprzednich stanów systemu y 0,..., y j oraz wiedz o parametrach systemu ξ, tzn. u j def = u j ξ, y 0,..., y j. Aby rozwi za zadanie 2.3 najpierw konstruujemy funkcje Bellmana funkcje ze struktur teleskopow. Zgodnie z uwag 2.2 dla dowolnego momentu j {0,..., N 1} funkcje Bellmana deniujemy wzorem V N j ξ, y 0,..., y j = infe u T u j R j u j + Vj+1 N ξ, y j+1 j z warunkiem pocz tkowym F ξ j 2.21 V N N ξ, y 0,..., y N = y N a T Q N y N a. 2.22 Stosownie do powy»szych oznacze«najmniejsza warto± wska¹nika jako±ci jest równa warto±ci funkcji Bellmana dla momentu j = 0, tzn. inf J N u, ξ = V0 N ξ, y 0. 2.23 u U Sposób wyznaczenia ci gu optymalnych sterowa«{ u j } dla systemów 0 j N 1 2.19 ze znanymi parametrami ξ R k podaje twierdzenie poni»ej. Twierdzenie 2.2 Niech macierze R i R l l dla 0 i N 1 oraz { } Q N j R n n, 0 j N s dodatnio okre±lone oraz ci g macierzy Q N j 0 j N 1
66 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego speªnia równanie Q N j = Q N j+1 Q N j+1 T A N j 1 C Rj + A N j 1 C T QN j+1 A N j 1 C 1 A N j 1 C T Q N j+1, 2.24 gdzie R j = 1 2 Rj + R T j, QN j = 1 2 Q N j + Q N j T 2.25 z warunkiem pocz tkowym Q N N = Q N. Optymalnym rozwi zaniem zadania 2.23 dla systemu liniowego 2.19 w warunkach peªnej informacji jest: 1. optymalne sterowanie u j systemem 2.19 w momentach 0 j N 1 jest równe u j = Rj + A N j 1 C T 1 QN j+1 A N j 1 C A N j 1 C T Q N j+1 A N j y j + ψ N j ξ a ; 2.26 2. warto± funkcji Bellmana dla momentu j = 0,..., N 1 jest równa V N j ξ, y 0,..., y j = A N j y j + ψ N j ξ a T Q N j A N j y j + ψ N j ξ a + ϕ N j, 2.27 gdzie funkcje ϕ N j, ψ j s dane wzorami A ϕ N j = ϕ N j+1 + tr N j 1 σ T Q N j+1 A N j 1 σ 2.28 z warunkiem pocz tkowym ϕ N N = 0 oraz ψ j ξ = Λ j Bξ, Λ j = I + A +... + A max0,j 1, 2.29 natomiast I R n n jest macierz jednostkow.
2.2. Optymalne sterowanie liniowo-kwadratowe 67 Dowód. Teza udowodniona zostanie za pomoc indukcji matematycznej. Najpierw wyznaczymy warto± funkcji Bellmana dla momentu N 1. Dla systemu 2.19 ze wzorów 2.212.22 otrzymujemy V N N 1 ξ, y 0,..., y N 1 = inf u N 1 E u T N 1R N 1 u T N 1 + Ay N 1 + Bξ Cu N 1 + σw N a Q N N Ay N 1 + Bξ Cu N 1 + σw N a F ξ N 1. Z wªasno±ci warunkowej warto±ci oczekiwanej mamy zatem E wnσ T T F ξ Q N σw N N 1 = tr σ T Q N Nσ = ϕ N N 1, V N N 1 ξ, y 0,..., y N 1 = inf u N 1 u T N 1 RN 1 + C T Q N NC u N 1 2u T N 1C T Q N N Ay N 1 + Bξ a + ϕ N N 1 + Ay N 1 + Bξ a T Q N N Ay N 1 + Bξ a. Optymalne sterowanie dla momentu N 1 jest równe 2.30 u N 1 = RN 1 + C T QN N C 1 C T Q N N Ay N 1 + ψ 1 ξ a. 2.31 Podstawiaj c optymalne sterowanie 2.31 do wzoru 2.30 otrzymujemy,»e warto± funkcji Bellmana w chwili N 1 wynosi V N N 1 ξ, y 0,..., y N 1 = Ay N 1 + ψ 1 ξ a T Q N N 1 Ay N 1 + ψ 1 ξ a + ϕ N N 1, 2.32 gdzie Q N N 1 = QN N Q N N T C RN 1 + C T QN N C 1 C T Q N N. Zakªadamy,»e wzory 2.262.27 s prawdziwe dla dowolnego momentu j = 1, 2,..., N 1 oraz sprawdzamy je dla momentu j 1. Ze wzoru 2.21
68 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego warto± funkcji Bellmana w chwili j 1 jest równa V N j 1 ξ, y 0,..., y j 1 = inf u j 1 E u T j 1R j 1 u j 1 + ϕ N j + A N j y j + ψ N j ξ a T Q N j A N j y j + ψ N j ξ a F ξ j 1 Z równania 2.19 otrzymujemy. V N j 1 ξ, y 0,..., y j 1 = inf u j 1 E { u T j 1R j 1 u j 1 + ϕ N j + A N j Ay j 1 + Bξ Cu j 1 + σw j + ψ N j ξ a T Q N j A N j Ay j 1 + Bξ Cu j 1 + σw j + ψ N j ξ a F ξ j 1 R j 1 + A N j C T Q N j A N j C = inf u j 1 u T j 1 u j 1 + tr A N j σ T Q N j A N j σ + ϕ N j 2u T j 1 A N j C T Q N j A N j+1 y j 1 + ψ N j+1 ξ a + A N j+1 y j 1 + ψ j 1 ξ a T Q N j A N j+1 y j 1 + ψ N j+1 ξ a. Optymalne sterowanie dla momentu j 1 jest równe u j 1 = Rj 1 + A N j C T 1 QN j A N j C 2.33 A N j C T Q N j A N j+1 y j 1 + ψ N j+1 ξ a. 2.34 Podstawiaj c optymalne sterowanie 2.34 do 2.33 otrzymujemy V j 1 ξ, y 0,..., y j 1 = A N j+1 y j 1 + ψ N j+1 ξ a T Q N j 1 A N j+1 y j 1 + ψ N j+1 ξ a + ϕ N j 1, 2.35 gdzie Q N j 1 i ϕn j 1 s zdeniowane za pomoc wzorów 2.24 i 2.28. Uwaga 2.9 Z powy»szego twierdzenia wynika,»e dla sterowania liniowo kwadratowego zarówno optymalne sterowanie w chwili 0 j N 1, jak i funkcja Bellmana 2.21 zale» od warto±ci parametrów ξ i stanu y j nie zale» od stanów poprzednich y 0,..., y j 1, tzn. V N j ξ, y 0,..., y j = V N j ξ, y j.
2.2. Optymalne sterowanie liniowo-kwadratowe 69 Uwaga 2.10 Je»eli R i = R dla 0 i N 1, to ze wzorów 2.24 i 2.28 wynikaj nast puj ce równo±ci Q N j = Q N+s j+s oraz ϕ N j = ϕ N+s j+s dla 0 j N, j, s, N N. Zgodnie z uwag powy»ej oraz korzystaj c ze wzoru 2.27 otrzymujemy V N j ξ, y = V N j 0 ξ, y dla dowolnego ξ R k i y R n oraz 0 j N, j, N N. Zatem warto± funkcji Bellmana Vj N ξ, y suma oczekiwanych kosztów sterowania systemem 2.19 i dziedziczenia zale»y od czasu pozostaªego do ko«ca horyzontu sterowania N j. 2.2.3 Sterowanie systemem liniowym z niepeªn informacj W przypadku niepeªnej informacji o parametrach systemu stochastycznego zakªadamy,»e steruj cy zna dynamik zachowania liniowego systemu 2.19 znane jest równanie stanu oraz nie zna dokªadnych warto±ci parametrów ξ, natomiast posiada wiedz odno±nie rozkªadu a priori wektora losowego ξ. W zwi zku z powy»szym steruj cy posiada tylko cz ±ciow wiedz o dziaªaniu funkcjonowaniu, zachowaniu systemu stochastycznego 2.19. Poni»ej zakªadamy,»e wektor losowy ξ : Ω R k ma rozkªad normalny N m 0, Γ 0. Podejmuj c sterowanie w chwili 0 j N 1 wykorzystujemy znajomo± zaobserwowane warto±ci bie» cego i poprzednich stanów systemu y 0,..., y j oraz sterowa«u 0,..., u j 1, zatem przyjmujemy ū j def = ū j y 0,..., y j, u 0,..., u j 1. Do rozwi zania zadania 2.3 w warunkach niepeªnej informacji o systemie 2.19 wykorzystane zostan funkcje Bellmanna V N j ξ, y 0,.., y j, 0 j N dane wzrorami 2.21-2.22. Dla dowolnego j {0,..., N 1}
70 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego deniujemy V N j y 0,.., y j = infe ū T ū j R j ū j + V N j+1 ξ, y j+1 F j j 2.36 oraz V N N y 0,.., y N = y N a T Q N y N a. 2.37 Dla momentu j {0, 1,..., N 1} wielko± V j N y 0,.., y j reprezentuje najmniejszy oczekiwany koszt sterowania systemem 2.19 w warunkach niepeªnej informacji od momentu j do ko«ca horyzontu czasowego N. Zatem najmniejsza warto± wska¹nika jako±ci 2.20 jest równa inf J N ū = V j N y 0. ū U { } Sposób wyznaczenia ci gu optymalnych sterowa«ū j w warunkach niepeªnej informacji o liniowym systemie stochastycznym 2.19 0 j N 1 przedstawiony zostanie w twierdzeniu. Do dowodu twierdzenia wykorzystane zostan lematy przedstawione poni»ej. Lemat 2.1 Niech ξ : Ω R k b dzie wektorem losowym, Ψ R k k b dzie macierz deterministyczn, {F j } j 0 okre±la niemalej c rodzin σ ciaª na zupeªnej przestrzeni probabilistycznej Ω, F, P oraz Γ j oznacza drugi moment centralny wektora losowego ξ warunkowany na σ ciele F j Γ j = E [[ξ ] E ξ F j ] [ξ E ξ F j ] T Fj. Dla dowolnego 0 i < j mamy E [ ξ T ΨE ξ F j ] ] F i = E [E ξ F j T ΨE ξ F j F i = 2.38 = E ξ F i T ΨE ξ F i + tr [Ψ Γ i Γ j ] oraz E [ ξ T Ψξ F i ] = E ξ Fi T ΨE ξ F i + tr ΨΓ i. 2.39
2.2. Optymalne sterowanie liniowo-kwadratowe 71 Dowód. Dla dowolnego 0 i < j korzystaj c z wªasno±ci warunkowej warto±ci oczekiwanej otrzymujemy E [ ξ T ΨE ξ F j ] [ [ F i = E E ξ T ΨE ξ F j ] ] F j F i [ ] = E E ξ F j T ΨE ξ F j F i = tr E [ΨE ] ξ F j E ξ F j T Fi = tr { ΨE [ E ξξ T ]} { Fj Γj F i = tr ΨE ξξ T } F i tr {ΨΓj } ] = tr Ψ [E ξ F i E ξ F i T +Γ i tr {ΨΓ j } = E ξ F i T ΨE ξ F i + tr [Ψ Γ i Γ j ]. Ponadto mamy E [ ξ T Ψξ ] { Fi = tr ΨE ξξ T } Fi ] = tr Ψ [E ξ F i E ξ F i T +Γ i = E ξ F i T ΨE ξ F i + tr ΨΓ i. co dowodzi prawdziwo±ci twierdzenia Dla systemu liniowego 2.19 w dowolnym momencie j {0, 1,..., N 1} wyznaczamy warunkowy rozkªad P dξ F j na podstawie informacji dotycz cej stanów y 0,..., y j i sterowa«u 0,..., u j 1. Wyznaczenie optymalnego estymatora ltra KalmanaBucy wektora losowego ξ polega na oszacowaniu wektora warunkowych warto±ci oczekiwanych m j = E ξ F j oraz wyznaczeniu macierzy warunkowej kowariancji macierzy bª du estymacji Γ j = E ξ m j ξ m j T F j. Zagadnienie ltracji ci gów warunkowo normalnych przedstawione zostaªo w poprzednim rozdziale. Wi cej na temat estymacji parametrycznej dla systemów liniowych mo»na znale w pracach [24], [79], [98], [99], [101]. Przykªady konstrukcji optymalnych ltrów dla systemów liniowych z nieznanymi parametrami zostaªy omówione w [17], [18], [20]. Lemat poni»ej przedstawia wªasno±ci warunkowego rozkªadu wektora nieznanych parametrów ξ dla systemu liniowego 2.19. Lemat 2.2 Zakªadamy,»e liniowy system stochastyczny jest okre±lony za pomoc równania 2.19, rozkªad a priori ze wzgl du na σciaªo F 0 wektora losowego ξ jest rozkªadem normalnym N m 0, Γ 0, z prawdopodobie«stwem
72 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego jeden elementy wektora Ay j Cu j, j N 0 i elementy macierzy B, σ s ograniczone, tzn. P Ay j Cu j i c = 1, P B il c = 1, P σ is c = 1 dla 1 i n, 1 l k, 1 s m, c < oraz E Ay j Cu j 2 <, B 2 <, σ 2 <. Dla dowolnego j N 0 warunkowy rozkªad wektora losowego ξ wzgl dem σciaªa F j jest rozkªadem normalnym N m j, Γ j, gdzie warunkowa warto± oczekiwana wektora losowego m j oraz macierz warunkowej kowariancji Γ j s dane wzorami m j = I + jγ 0 B T σσ T 1 1 B j 1 m + Γ 0 B T σσ T 1 [yi+1 Ay i + Cu i ] i=0 2.40 oraz Γ j = I + jγ 0 B T σσ T 1 B 1 Γ0. 2.41 Teza lematu wynika bezpo±rednio z twierdzenia 1.14. Twierdzenie 2.3 Niech liniowy system stochastyczny b dzie okre±lony równaniem 2.19, wektor losowy ξ : Ω R k ma rozkªad normalny N m 0, Γ 0 { } wzgl dem σciaªa F 0, ci g macierzy Q N j speªnia równanie 2.24 0 j N oraz macierze R i R l l, 0 i N 1 oraz Q N j R n n, 0 j N s dodatnio okre±lone. Rozwi zaniem zadania 2.3 w przypadku niepeªnej informacji o systemie jest: 1. dla momentów 0 j N 1 optymalne sterowanie systemem liniowym 2.19 jest równe
2.2. Optymalne sterowanie liniowo-kwadratowe 73 ū j = Rj + A N j+1 C T 1 QN j+1 A N j+1 C A N j+1 C T Q N j+1 A N j y j + ψ N j E ξ F j a, 2.42 gdzie funkcjonaª ψ j jest dany wzorem 2.29, estymator wektora losowego ξ wzorem 2.40, natomiast macierze R j i Q N j s okre±lone za pomoc 2.25; 2. oczekiwany koszt sterowa«od momentu j = 0,..., N 1 do ko«ca horyzontu N wynosi V N j y 0,..., y j = A N j y j + ψ N j E ξ F j a T Q N j A N j y j + ψ N j E ξ F j a + ϕ N j + Ψ N j, 2.43 gdzie Ψ N j = tr Λ N j B T Q N j+1λ N j BΓ j, 2.44 natomiast dla 0 j N 1 warto± ϕ N j jest dana wzorem 2.28, macierz I jest macierz jednostkow, Λ j = I + A +... + A max0,j 1 oraz macierze warunkowej kowariancji Γ j dane s wzorami 2.41. Dowód. Dla dowolnego momentu j {0, 1, 2,..., N 1} korzystaj c ze wzoru 2.36 oraz funkcji Bellmana Vj N ξ, y 0,..., y j okre±lonej za pomoc równa«2.21-2.22 szukamy optymalnego sterowania ū j. W warunkach niepeªnej informacji o systemie warto± funkcji Bellmana jest równa V N j y 0,..., y j = infe ū T ū j R j ū j + A N j 1 y j+1 + ψ N j 1 ξ a T Q N j+1 j A N j 1 y j+1 + ψ N j 1 ξ a + ϕ N j+1 Fj. Z wªasno±ci warunkowej warto±ci oczekiwanej otrzymujemy V N j y 0,..., y j = inf ū j u T j R j + A N j 1 C T Q N j+1 A N j 1 C u j
74 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego A + E N j y j + A N j 1 Bξ + ψ N j 1 ξ a T Q N j+1 A N j y j + A N j 1 Bξ + ψ N j 1 ξ a 2u T j A N j 1 C T A N j y j 1 + A N j 1 Bξ + ψ N j 1 ξ a F j Q N j+1 A + tr N j 1 σ T Q N j+1 A N j 1 σ + ϕ N j+1. 2.45 Ze wzoru 2.29 mamy ψ N j ξ = A N j 1 Bξ + ψ N j 1 ξ. Zatem optymalne sterowanie w chwili j jest równe ū j = Rj + A N j 1 C T 1 A QN j+1 A N j 1 C N j 1 C T Q N j+1 A N j y j + ψ N j E ξ F j a. 2.46 Z lematu 2.1 wynika,»e A E N j y j 1 + ψ N j ξ a T Q N j+1 A N j y j 1 + ψ N j ξ a F j = A N j y j 1 + ψ N j E ξ F j a T Q N j+1 A N j y j 1 + ψ N j E ξ F j a + tr Λ N j B T Q N j+1λ N j BΓ j. 2.47 Ostatecznie, podstawiaj c 2.46 i 2.47 do 2.45 otrzymujemy V N j y 0,..., y j = A N j y j + ψ N j E ξ F j a T Q N j A N j y j + ψ N j E ξ F j a + ϕ N j + Ψ N j, gdzie Q N j, ΨN j, ϕn j speªnia równania 2.24, 2.44, 2.28 odpowiednio. Uwaga 2.11 Je»eli R i = R dla 0 i N 1, to ze wzorów 2.24 oraz 2.28 wynika,»e Q N j = Q N+s j+s, oraz ϕn j = ϕ N+s j+s,
2.2. Optymalne sterowanie liniowo-kwadratowe 75 natomiast ze wzorów 2.41 i 2.44 Ψ N j Ψ N+s j+s dla 0 j N, j, s, N N. Przyjmijmy V j N y j = V j N 0 j N. Wobec powy»szego dla dowolnego y R n y 0,..., y j dla V N j y N+s V j+s y oraz V N j y V N j 0 y dla 0 j N, j, s, N N. Zatem, steruj c systemem 2.19 z niepeªn informacj, funkcja V j N y 0,..., y j reprezentuj ca oczekiwane koszty sterowania i dziedziczenia jest dana wzorem 2.43 oraz zale»y od momentu, w którym znajduje si system porównaj z uwag 2.10. 2.2.4 Wpªyw informacji o systemie liniowym na koszty sterowania W tej cz ±ci rozdziaªu przedstawione zostan ró»nice i podobie«stwa sterowa«stochastycznym systemem liniowym 2.19 w warunkach peªnej i niepeªnej informacji. Równie» oszacowane zostan koszty, które nale»y ponie± dodatkowo w przypadku nieznajomo±ci parametrów systemu. wzorów 2.26 i 2.42 wynika,»e dla dowolnego j {0, 1,..., N 1} w warunkach peªnej informacji optymalne sterowanie systemem 2.19 jest równe Ze u j = H j A N j y j + Λ j Bξ a, 2.48 natomiast w warunkach niepeªnej informacji ū j = H j A N j y j + Λ j Bm j a, 2.49
76 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego gdzie H j = Rj + A N j+1 C T QN j+1 A N j+1 C 1 A N j+1 C T Q N j+1, Λ j = I + A +... + A j 1 oraz m j = E ξ F j jest najlepszym estymatorem w sensie ±rednio-kwadratowym wektora losowego ξ, który wyznaczamy za pomoc 2.40, natomiast { } ci g Q N j speªnia równanie 2.24. 0 j N Uwaga 2.12 Do wyznaczenia optymalnego sterowania liniowokwadratowego w chwili j {0, 1,..., N 1} w przypadku peªnej informacji o systemie wykorzystujemy znajomo± bie» cego stanu y j i warto±ci parametrów ξ, natomiast w przypadku niepeªnej informacji warto±ci y 0,..., y j. Ze wzorów 2.48 oraz 2.49 zgodnie z oznaczeniami 2.17-2.18 wynika ū j y 0,..., y j = u j E ξ F j, y 0,..., y j, zatem dla systemu 2.19 ze wska¹nikiem jako±ci 2.20 konstrukcja optymalnych sterowa«w warunkach peªnej i niepeªnej informacji jest podobna. W przypadku niepeªnej informacji wystarczy w miejsce nieznanego parametru podstawi jego estymator. Porównuj c koszty sterowania V j N y 0,..., y j i Vj N ξ, y 0,..., y j zdeniowane wzorami 2.27 i 2.43 widzimy,»e nieznajomo± parametrów ξ systemu 2.19 parametrów odpowiadaj cych za przesuni cie generuje dodatkowe koszty. Dla dowolnego j = 0, 1,..., N 1 oraz y R n ró»nica oczekiwanych kosztów sterowania od momentu j do ko«ca horyzontu N jest równa V N j y 0,..., y j V N j E ξ F j, y 0,..., y j = Ψ N j, gdzie Ψ N j jest dane wzorem 2.44. Wielko± Ψ N j oznacza warto± informacji o parametrach ξ. Je»eli w chwili j = 0 przyjmiemy,»e ξ = m 0 oraz system znajduje si w punkcie y 0, to warto± informacji o nieznanych parametrach ξ przy przeprowadzeniu systemu 2.19 w N krokach ze stanu y 0 do punktu
2.2. Optymalne sterowanie liniowo-kwadratowe 77 a jest równa Ψ N 0 = tr B T I + A +... + A N 1 T Q N 1 I + A +... + A N 1 BΓ 0. Wielko± Ψ N 0 oznacza dodatkowy oczekiwany koszt, który zostanie poniesiony przez steruj cego podczas realizacji celu w N krokach. Zarówno dla przypadków peªnej i niepeªnej informacji o parametrach systemu wielko± ϕ N j = N i=j+1 A tr N i σ T Q N i A N i σ oznacza dodatkowy oczekiwany koszt spowodowany zaburzeniami zewn trznymi od momentu j do ko«ca horyzontu N. Wielko± ϕ N 0 reprezentuje oczekiwany koszt spowodowany ci giem zaburze«zewn trznych {w i } 1 i N podczas sterowania systemem 2.19. Uwaga 2.13 Dla liniowego systemu stochastycznego 2.19 zarówno Ψ N j, 0 j N 1 koszt spowo- warto± informacji o parametrze ξ, jak i ϕ N j dowany zaburzeniami zewn trznymi zale» od horyzontu czasowego N. Dla dowolnego j {0, 1,..., N 1} deniujemy Ṽ N j y 0,..., y j = inf ũ j E ū T j R j ū j + V N j+1 y 0,..., y j+1 F j 2.50 porównaj z 2.36. Z wªasno±ci warunkowej warto±ci oczekiwanej mamy Ṽj N y 0,..., y j = infu T ū j R j + A N j 1 C T Q N j+1 A N j 1 C u j j A + E N j y j + A N j 1 Bξ + ψ N j 1 E ξ F j+1 a T Q N j+1 A N j y j + A N j 1 Bξ + ψ N j 1 E ξ F j+1 a 2u T j A N j 1 C T A N j y j 1 + A N j 1 Bξ + ψ N j 1 E ξ F j+1 a F j Q N j+1 A + tr N j 1 σ T Q N j+1 A N j 1 σ + ϕ N j+1 + Ψ N j+1.
78 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego Zatem optymalne sterowanie w chwili j jest dane wzorem 2.42, natomiast z lematu 1 otrzymujemy Ṽ N j y 0,..., y j = V N j E ξ F j, y j + Ψ N j+1 + Υ N j, gdzie Υ N j = tr B T 2A N j 1 T + Λ N j 1 Q N j+1 Λ N j 1 B Γ j Γ j+1 A + tr N j 1 B T Q N j+1 A N j 1 BΓ j, natomiast Ψ N j jest dane wzorem 2.44. Wielko± Ṽ N j y 0,..., y j V N j y 0,..., y j = Υ N j + Ψ N j+1 Ψ N j oznacza koszt uczenia si na przedziale czasowym j, j + 1]. Przykªad 2.1 Rozwa»amy problem sterowania liniowym systemem stochastycznym o równaniu stanu 2.19, gdzie [ ] [ ] 0.8 0.1 1.2 0.5 A =, B =, 0 1 0.05 0.8 [ ] [ ] 1.5 0.1 0.35 0.03 C =, σ =. 0.04 1.1 0.02 0.4 Zadanie polega na przeprowadzeniu systemu przy najmniejszych kosztach suma nakªadów energetycznych wraz ze stratami ko«cowymi musz by najmniejsze ze stanu y 0 = do stanu a = np. w 15 krokach [ ] [ ] 0 60 0 35 N = 15. Macierze odpowiadaj ce za koszty sterowania i dziedziczenia dla wska¹nika jako±ci 2.20 s równe [ ] [ ] 0.64 0.05 1.25 0 R j =, dla j = 0, 1,..., 14, Q N = 0.01 0.95 0 0.75 odpowiednio. Zakªadamy,»e w warunkach niepeªnej informacji wektor para-
2.2. Optymalne sterowanie liniowo-kwadratowe 79 metrów ξ odpowiadaj cych za przesuni cie jest wektorem losowym o rozkªadzie normalnym N m 0, Γ 0, gdzie [ ] [ ] 1 0.4 0.02 m 0 =, Γ 0 =, 0.5 0.02 0.1 natomiast w warunkach peªnej informacji przyjmujemy ξ = m 0. Rysunek 2.1: Symulacje trajektorii systemu 2.19 oraz warto±ci funkcji Bellmana. Warto±ci optymalnych sterowa«w warunkach peªnej i niepeªnej informacji o systemie 2.19 wyznaczamy ze wzorów 2.48 i 2.49 odpowiednio, natomiast w warunkach niepeªnej informacji dla wektora losowego ξ warto±ci parametrów rozkªadu a posteriori N m j, Γ j, j = 1,..., N 1 wyznaczamy ze wzorów 2.40 i 2.41. Rysunek 2.1a prezentuje przykªadowe symulacje zachowania systemu 2.19. Krzywa granatowa przedstawia przykªadow trajektori dla przypadku peªnej informacji o systemie, natomiast krzywa czerwona dla przypadku niepeªnej informacji. Zachowanie funkcji Bellmana Vj N rysunku 2.1b. ξ, y 0,..., y j, V N j y 0,..., y j dla j = 0,..., N s pokazane na Tabela 2.1 zawiera symulacj systemu 2.19 {y i } 0 i N, które s oznaczone na rysunku 2.1a znacznikiem, wielko±ci optymalnych sterowa«{u i } 0 i N 1 w warunkach peªnej informacji, warto±ci funkcji Bellmana
80 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego Tabela 2.1: Symulacja systemu 2.19 w warunkach peªnej informacji, sterowania optymalne, warto±ci funkcji Bellmana, koszt zaburze«zewn trznych. i y i u i Vi N ξ, y 0,..., y i ϕ N j 0 0, 0 0.389, 2.246 217.263 0.612 1 1.757, 3.046 0.494, 2.206 209.981 0.603 2 3.504, 5.984 0.624, 2.164 203.203 0.593 3 5.539, 8.985 0.987, 2.094 195.999 0.583 4 7.479, 11.185 0.987, 2.094 192.433 0.571 5 10.353, 14.359 1.229, 1.987 183.675 0.559 6 12.824, 16.814 1.536, 1.922 178.183 0.545 7 15.246, 19.672 1.913, 1.792 170.830 0.53 8 18.009, 21.931 2.391, 1.694 165.293 0.513 9 21.716, 25.196 2.952, 1.428 153.708 0.493 10 26.25, 27.292 3.657, 1.253 143.542 0.47 11 30.588, 28.934 4.567, 1.103 133.345 0.442 12 35.174, 30.850 5.731, 0.832 119.262 0.405 13 41.209, 32.725 7.142, 0.411 96.235 0.355 14 48.268, 34.204 8.961, 0.25 63.258 0.275 15 56.454, 34.156 16.251 0 { { Vj N ξ, y 0,..., y j }0 j N oraz zaburzeniami zewn trznymi. ϕ N j } 0 j N oczekiwane koszty spowodowane Tabela 2.2 natomiast przedstawia stany systemu 2.19 {y i } 0 i N, które s oznaczone na rysunku 2.1a znacznikiem, wielko±ci optymalnych sterowa«{ũ i } 0 i N 1 w warunkach niepeªnej informacji o systemie, warto±ci estymatorów {m i } 0 i N wektora nieznanych parametrów ξ, warto- { } ±ci funkcji Bellmana V N j y 0,..., y j. Dodatkowo w tabeli 2.2 podane { } 0 j N s wielko±ci kosztów Ψ N j spowodowanych nieznajomo±ci parametrów systemu, które s ponoszone przez steruj cego od momentu j do ko«ca 0 j N { } horyzontu sterowania N. Widzimy, ze zarówno ci gi kosztów ϕ N j { } 0 j N i Ψ N j s ci gami nierosn cymi. 0 j N 2.2.5 Wpªyw horyzontu na koszty sterowania W wielu zadaniach sterowania obiektami stochastycznymi b d¹ deterministycznymi horyzont czas sterowania obiektem jest ustalany odgórnie. Wobec powy»szego je»eli znany jest przedziaª czasowy w jakim sterujemy
2.2. Optymalne sterowanie liniowo-kwadratowe 81 Tabela 2.2: Symulacja systemu 2.19 w warunkach niepeªnej informacji, warto- ±ci optymalnych sterowa«, warto±ci estymatorów nieznanych parametrów, warto±ci funkcji Bellmana, warto±ci kosztów nieznajomo±ci parametrów systemu. i y i ũ N i m i V j y 0,..., y j Ψ N i 0 0, 0 0.389, 2.246 1, 0.5 219.167 1.904 1 1.663, 2.735 0.459, 2.185 0.951, 0.538 212.295 0.626 2 3.164, 5.377 0.630, 2.147 0.898, 0.542 209.2 0.409 3 5.076, 8.245 0.789, 2.068 0.906, 0.568 200.920 0.297 4 7.004, 10.826 1.001, 2.144 0.919, 0.444 198.995 0.225 5 9.513, 14.104 1.228, 1.978 0.995, 0.514 185.305 0.174 6 12.397, 16.501 1.536, 1.935 1.011, 0.478 180.505 0.136 7 14.896, 18.720 1.919, 1.787 0.967, 0.512 176.329 0.105 8 17.403, 20.951 2.407, 1.711 0.953, 0.483 172.779 0.081 9 20.654, 23.615 2.957, 1.382 0.942, 0.578 161.941 0.061 10 24.475, 25.855 3.643, 1.212 1.001, 0.566 151.748 0.043 11 29.014, 27.597 4.552, 1.084 1.017, 0.529 141.921 0.029 12 34.508, 29.668 5.729, 0.814 0.986, 0.535 125.342 0.016 13 40.910, 31.191 7.139, 0.385 0.979, 0.555 101.49 0.006 14 48.023, 33.141 8.962, 0.285 0.965, 0.575 66.585 0.005 15 56.282, 33.771 16.252 0 obiektem, to stosuj c twierdzenia 2.2 i 2.3 dla systemów z czasem dyskretnym w warunkach peªnej i niepeªnej informacji wyznaczamy prawa sterowania. Niestety koszt sterowania zale»y liczby sterowa«, dokªadniej od dªugo±ci przedziaªu czasowego w jakim sterujemy obiektem. Aby wyznaczy optymalny horyzont nale»y rozwi za zadanie czasooptymalne inf inf J N u. 2.51 N N u U Zadania czasooptymalne s omawiane w literaturze przedmiotu, patrz np. [11], [105], [109]. Poni»ej zobaczymy,»e horyzont ma do± du»y wpªyw na warto± wska¹nika jako±ci. Przykªad 2.2 Zaªó»my,»e zachowanie systemu liniowego jest okre±lone za pomoc równania y i+1 = Ay i Cu i + σw i+1 2.52 dla i {0, 1,..., N 1}, gdzie {w i } 1 i N jest ci giem niezale»nych dwuwymiarowych wektorów losowych o rozkªadzie normalnym N 0, I, 0 = 0, 0 T,
82 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego I macierz jednostkow. Macierze odpowiadaj ce za koszty sterowania i dziedziczenia s równe [ ] [ ] 0.64 0.05 2.2 0 R i =, Q N = 0.01 0.95 0 1.5 dla i = 0, 1,..., N 1, natomiast macierze transformacji stanów i sterowa«[ ] [ ] 0.9 0.2 1.5 0.1 A =, C =. 0.6 1 0.04 1.1 Dla systemu stochastycznego przyjmujemy [ 2.8 0.7 σ = 0.2 1.4 ], natomiast dla systemu deterministycznego macierz σ jest macierz zerow. Zadanie polega na przeprowadzeniu [ ] systemów deterministycznego [ ] i stochastycznego 2.52 ze stanu y 0 = do stanu a = przy najmniej- 0 60 0 35 szych kosztach, z tym»e horyzont nie mo»e przekroczy np. maksymalnego czasu sterowania równego 20 N 20. Korzystaj c ze wzorów 2.23 i 2.27 dla ustalonego horyzontu N oczekiwany caªkowity koszt sterowania jest równy inf J N u = V0 N y 0 = χ N 0 y 0 + ϕ N 0, u U gdzie χ N 0 y 0 = [ A N y 0 a ] T Q N 0 [ A N y 0 a ]. W przypadku systemu stochastycznego dla ka»dego momentu j {0, 1,..., N 1} koszt eliminacji przyszªych zaburze«zewn trznych {w i } j+1 i N wynosi [ A = ϕ N j+1 + tr N j 1 σ ] T Qj+1 A N j 1 σ z warunkiem pocz tkowym ϕ N j ϕ N N = 0. Dla systemu deterministycznego ϕn 0 = ϕn 1 =... = ϕn N = 0. Rozwi zuj c osobno dla systemów deterministycznego i stochastycznego zadanie inf inf J N u = inf V 0 N y 0 0 N 20 u U 0 N 20
2.2. Optymalne sterowanie liniowo-kwadratowe 83 wyznaczymy optymalne horyzonty sterowa«dla tych systemów. Rysunek 2.2a przedstawia koszty sterowania systemem deterministycznym σ jest macierz zerow χ N 0 y 0 dla N = 0, 1, 2,..., 20. Z rysunku wida,»e ci g kosztów sterowa«{ χ N 0 y 0 } jest ci giem nierosn cym 1 N 20 wraz ze wzrostem horyzontu N koszty realizacji celu sterowania nie rosn. Na rysunku 2.2b przedstawione s koszty zwi zane z wpªywem zaburze«zewn trznych ϕ N 0 podczas sterowania systemem 2.52. Z rysunku wida,»e ci g kosztów sterowa«{ ϕ N } 0 jest ci giem niemalej cym. Zatem wydªu»aj c horyzont sterowania N dla systemu stochastycznego ponosimy coraz 1 N 20 wi ksze koszty spowodowane wpªywem zaburze«zewn trznych. Rysunek 2.2: Koszty sterowania systemem deterministycznym oraz koszty eliminacji zaburze«zewn trznych dla systemu 2.52. Rysunek 2.3a przedstawia oczekiwane koszty sterowania V N 0 y 0 = χ N 0 y 0 + ϕ N 0 systemem stochastycznym 2.52 dla horyzontu N = 0, 1, 2,..., 20, natomiast rysunek 2.3b pokazuje warto±ci V N 0 y 0 dla N [4, 11]. Widzimy,»e dla N = 7 oczekiwane koszty sterowania systemem stochastycznym 2.52 s najmniejsze. Zatem, steruj c systemem deterministycznym σ jest macierz zerow nale»y ustali horyzont N = 20, natomiast steruj c systemem stochastycznym nale»y przyj c N = 7.
84 2. Optymalne sterowanie adaptacyjne dla horyzontu deterministycznego Rysunek 2.3: Koszty sterowania systemem stochastycznym 2.52. Dla systemu deterministycznego wydªu»aj c horyzont sterowania N ponosimy mniejsze koszty, poniewa» istnieje mo»liwo± rozªo»enia nakªadów energetycznych w czasie. W przypadku sterowania systemem stochastycznym dodatkowo nale»y uwzgl dni koszty ϕ N 0 zwi zane z wpªywem zaburze«zewn trznych. Nadmierne wydªu»anie horyzontu sterowania N mo»e nie by opªacalne ϕ N 0 jest funkcj niemalej c ze wzgl du na N. Tak jak ilustruje przykªad powy»ej, poniewa» horyzonty sterowania dla systemów stochastyczeego i deterministycznego s ró»ne, to optymalne sterowania dla tych systemów równie» s ró»ne. Wniosek 2.1 Prawa sterowania po±rednio zale» od dªugo±ci przedziaªu czasowego, w którym sterujemy obiektem. Prosty przykªad pokazuje,»e horyzont sterowania ma wpªyw na koszty realizacji celu J N u wielko± wska¹nika jako±ci 2.2, 2.20. Wniosek 2.2 Je»eli horyzont sterowania N jest ustalony, to prawa sterowania systemami 2.1, 2.19 wyznaczamy korzystaj c z twierdze«2.13. Je»eli horyzont sterowania nie jest okre±lony, to najpierw nale»y rozwi za zadanie 2.51 okre±laj c przedziaª czasowy dokªadniej horyzont N, w którym b dzie realizowany cel sterowania 2.3.
Rozdziaª 3 Optymalne sterowanie adaptacyjne dla horyzontu losowego niezale»nego od stanów systemu Wi kszo± zada«z teorii sterowania jest zdeniowana dla ustalonego horyzontu patrz np. [2], [6], [7], [10], [13], [15], [16], [38], [44], [71], [91], [92], [98], [108]. Przedziaª, w którym sterujemy systemem, jest ustalany odgórnie lub poprzez rozwi zanie zadania czasooptymalnego. W poprzednim rozdziale pokazano,»e optymalne sterowanie zale»y nie tylko od stanu systemu i momentu w którym sterujemy, ale równie» od horyzontu. Dodatkowy problem sterowania obiektem powstaje, gdy horyzont nie jest znany nie jest ustalony odgórnie. Jak w takim przypadku skonstruowa prawa sterowania? Zadania z losowym horyzontem s mniej widoczne w literaturze przedmiotu i mo»na je podzieli na dwa typy. Pierwszy typ zada«optymalnego sterowania z nieznanym horyzontem polega na uwzgl dnieniu mo»liwo±ci zatrzymania systemu dotyczy optymalnego zatrzymania procesu sterowania obiektem, zobacz np. [8], [11], [15], [25], [28], [51], [52], [61], [63]. 85
86 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... Optymalny moment zatrzymania sterowania systemem zale»y od stanu tego systemu. Zadania tego typu zostan omówione w kolejnym rozdziale. Drugi typ zada«optymalnego sterowania dotyczy przypadku, gdy horyzont sterowania nie zale»y od zachowania systemu stan systemu nie ma wpªywu na czas dziaªania, sterowania systemem, patrz np. [57], [58], [59], [60]. Z tak sytuacj mamy do czynienia na przykªad w procesie produkcyjnym, gdy nie mamy gwarancji,»e w okre±lonym przedziale czasowym maszyny produkcyjne b d dziaªa bezawaryjnie, b d wykonywa zaprogramowane czynno±ci prawidªowo czas bezawaryjnej pracy urz dze«nie jest znany, np. [41]. Horyzont sterowania opisuj cy np. liczb mo»liwych strat, liczb elementów wymienianych podczas procesu decyzyjnego, czas prawidªowej pracy maszyny, czas "»ycia" produktu itp. modelujemy za pomoc zmiennej losowej niezale»nej od stanów systemu. Zadania tego typu zostan omówione w bie» cym rozdziale. Rozwi zanie polega na konstrukcji zadania zast pczego, dokªadniej na modykacji wska¹nika jako±ci. 3.1 Postawienie zadania Niech Ω, F, P b dzie przestrzeni probabilistyczn. Na tej przestrzeni deniujemy ci g niezale»nych wektorów losowych {w i } i 1 o rozkªadzie normalnym N 0, I m, gdzie w i : Ω R m dla i 1, 0 R m jest wektorem zerowym, natomiast I m R m m macierz jednostkow. Niech ξ : Ω R k b dzie wektorem losowym o rozkªadzie a priori P dξ, który reprezentuje nieznane parametry systemu. Wektor y 0 oznacza stan pocz tkowy systemu. Ogólnie zakªadamy,»e wektor y 0 : Ω R n ma rozkªad P dy 0. W przypadku, gdy y 0 jest wektorem deterministycznym, to wystarczy przyj,»e y 0 ma rozkªad punktowy. Zakªadamy,»e wszystkie wymienione obiekty s stochastycznie niezale»ne. Na przestrzeni probabilistycznej { } Ω, F, P deniujemy niemalej ce rodziny σ ciaª {F i } i 0 oraz F ξ i gdzie F i = σ y 0 σ {w s : s = 1, 2,..., i}, F ξ i = F i σ {ξ}. i 0,
3.1. Postawienie zadania 87 Poni»ej rozwa»amy problem sterowania systemem stochastycznym o równaniu stanu y i+1 = fξ, y i, u i + σξ, y i w i+1, 3.1 gdzie i N 0, y i R n, f : R k R n R l R n oraz σ : R k R n R n m. Zakªadamy,»e funkcje f, σ s ci gªe wzgl dem wszystkich argumentów. Wektor u j R l mierzalny ze wzgl du na σciaªo F j nazywamy dziaªaniem steruj cym w chwili j N 0, natomiast u = u 0, u 1,... sterowaniem dopuszczalnym. Klas wszystkich sterowa«oznaczamy przez U. Niech τ : Ω N 0 b dzie zmienn losow o rozkªadzie dyskretnym, tzn. P τ = k = p k, 0 p k 1 dla k N 0 oraz p i = 1. Zmienna losowa τ oznacza horyzont sterowania systemem 3.1. Zakªadamy,»e horyzont sterowania τ nie zale»y od stanów systemu. Przyjmujemy nast puj ce oznaczenia: F τ = σ {τ}, F ξτ j = F ξ j σ {τ > j} oraz F j τ = F j σ {τ > j}. W przypadku gdy τ : Ω {0, 1, 2,..., N} przyjmujemy F = F ξτ N, natomiast dla przypadku gdy τ : Ω N 0, to przyjmujemy F = lim F ξτ t t. Niech funkcja g : R n R l R oznacza warto± strat, natomiast funkcja h : R n R wielko± dziedziczenia na ko«cu horyzontu sterowania τ. Zakªadamy,»e funkcje g i h s ci gªe wzgl dem swoich argumentów oraz ograniczone. Dla ka»dego momentu j < τ dokonujemy sterowania u j oraz ponosimy koszty w wysoko±ci gy j, u j. W chwili τ nie dokonujemy sterowania systemem 3.1, natomiast ponosimy koszty dziedziczenia hy τ koszty zwi zanie ze stanem systemu y τ. Je»eli zmienna losowa τ przyjmie warto± 0, to w takim przypadku system nie b dzie sterowany, zatem nie ponosimy»adnych kosztów sterowania, natomiast ponosimy tylko koszt dziedziczenia wielko±ci h y 0. i=0 Wska¹nik jako±ci deniujemy jako sum strat kosztów, nakªadów energetycznych dla momentów 0, 1,..., τ 1 oraz dziedziczenia dla horyzontu sterowania τ. Caªkowity koszt sterownia J τ u deniujemy wzorem J τ u = E τ 1 i= 1 gy i, u i + hy τ F τ, 3.2
88 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... gdzie gy 1, u 1 = 0. We wzorze 3.2 bierzemy operator warto±ci oczekiwanej wzgl dem σciaªa generowanego przez zmienn losow τ. Wska¹nik jako±ci J τ u zale»y od τ, a zatem jest zmienn losow. Gªównym celem sterowania adaptacyjnego jest minimalizacja caªkowitych kosztów sterowania 3.2. Zatem, steruj c systemem 3.1 z losowym horyzontem niezale»nym od stanów, nale»y rozwi za zadanie inf EJ τ u 3.3 u U oraz wyznaczy sterowanie u dla którego inmum jest osi gni te. Tak skonstruowane zadanie 3.3 jest zadaniem typu planistycznego. Operator E jest operatorem warto±ci oczekiwanej po zmiennej losowej τ. Uwaga 3.1 Je»eli horyzont sterowania zostanie zast piony warto±ci deterministyczn [Eτ] w przypadku sterowania systemem 3.1 z losowym horyzontem τ niezale»nym od stanów systemu, gdzie [ ] oznacza cz ± caªkowit z liczby rzeczywistej lub np. zaokr glenie do liczby naturalnej, to do rozwi zania zadania stosujemy bezpo±rednio twierdzenie 2.1. sterowa«dla zada«3.3 i 3.4 s ró»ne. inf J [Eτ] u, 3.4 u U Warunki konieczne optymalno±ci Zbiór realizacji zmiennej losowej τ reprezentuj cej horyzont sterowania mo»e by sko«czony b d¹ przeliczalny. Poni»ej zostan przedstawione rozwi zania zadania 3.3 dla dwóch przypadków. W rozdziale 3.2 b dzie przedstawiony problem optymalnego sterowania z losowym horyzontem τ o sko«czonej liczbie realizacji. Zadanie 3.3 zostanie przeksztaªcone do zadania optymalnego sterowania z ustalonym horyzontem. W rozdziale 3.3 b dzie rozwa»any problem optymalnego sterowania z losowym horyzontem τ, gdzie zbiór realizacji jest zbiorem przeliczalnym. W tym przypadku zadanie 3.3 zostanie zmodykowane do zadania optymalnego sterowania z niesko«czonym horyzontem.
3.2. Sterowanie dla horyzontu losowego o sko«czonej liczbie realizacji 89 3.2 Sterowanie dla horyzontu losowego o sko«czonej liczbie realizacji 3.2.1 Optymalne sterowanie dla zadania planistycznego Niech system stochastyczny b dzie okre±lony za pomoc równania stanu 3.1. Zakªadamy równie»,»e horyzont sterowania we wska¹niku jako- ±ci 3.2 jest losowy i nie zale»y od stanów systemu 3.1. Przyjmujemy,»e losowy horyzont τ ma sko«czon liczb realizacji, tzn. τ : Ω {0, 1, 2,..., N}, o rozkªadzie P τ = k = p k dla k {0, 1, 2,..., N}, gdzie p k 0 oraz N p k = 1. Wielko± p k, 0 k N oznacza prawdopodobie«stwo zatrzymania systemu w momencie k. Rozwi zuj c zadanie 3.3 wyznaczymy optymalne sterowanie. Ze wzoru na prawdopodobie«stwo caªkowite funkcjonaª 3.2 mo»emy przedstawi w postaci N EJ τ u = E J τ u τ = j P τ = j = P τ = 0 E h y 0 τ = 0 j=0 N j 1 + P τ = j E g y i, u i + h y j τ = j. St d otrzymujemy j=1 i=0 k=0 EJ τ u = P τ = 0 h y 0 N 1 + E g y j, u j N N P τ = i + h y j P τ = j. j=0 i=j+1 j=1 Zatem warto± oczekiwana wska¹nika jako±ci 3.2 jest równa N J N u = EJ τ u = E φ j y j, u j, 3.5 j=0
90 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... gdzie dla dowolnego 0 j N N φ j y j, u j = g y j, u j p i + h y j p j natomiast s j = P τ > j = i=j+1 = g y j, u j s j + h y j p j, 3.6 N i=j+1 p i oznacza prawdopodobie«stwo prze»ycia systemu momentu j, tzn. prawdopodobie«stwo,»e horyzont jest wi kszy od j. Poniewa» s N = P τ > N = 0, zatem φ N y N, u N = h y N p N. 3.7 Dla momentu N patrz wzór 3.7 koszt sterowania jest równy iloczynowi kosztu dziedziczenia h y N i prawdopodobie«stwa zatrzymania systemu. W chwili N nie podejmujemy»adnego sterowania oraz przyjmujemy u N = col 0, 0,..., 0 R l. Ze wzoru 3.6 wynika,»e w chwili j = 0, 1,..., N 1 oczekiwany koszt sterowania φ j y j, u j systemem stochastycznym 3.1 jest równy sumie iloczynu nakªadów energetycznych g y j, u j i prawdopodobie«stwa prze»ycia momentu j prawdopodobie«stwa,»e system zostanie zatrzymany w momencie pó¹niejszym ni» j oraz iloczynu kosztu dziedziczenia h y j i prawdopodobie«stwa,»e horyzont wynosi j. Wobec powy»szego zadanie optymalnego sterowania 3.3 z losowym horyzontem τ o sko«czonej liczbie realizacji zast pujemy zadaniem optymalnego sterowania ze sko«czonym horyzontem N. Aby wyznaczy optymalne prawa sterowania systemem 3.1 nale»y rozwi za zadanie inf J N u, 3.8 u U gdzie wska¹nik jako±ci J N u jest dany wzorem 3.5.
3.2. Sterowanie dla horyzontu losowego o sko«czonej liczbie realizacji 91 Uwaga 3.2 Warto± oczekiwan wska¹nika jako±ci 3.2 równie» mo»emy przedstawi w postaci N 1 J N u = E g y j, u j I τ>j + h y j I τ=j + h y N I τ=n, 3.9 j=0 { 1, x A, gdzie I τ>j = I {ω:τω>j}, I τ=j = I {ω:τω=j} oraz I A = 0, x / A. Denicja 3.1 Sterowanie u 0, u 1,..., τ 1 u u 0, u 1,..., N 1 u nazywamy optymalnym sterowaniem dla systemu 3.1 z losowym horyzontem τ : Ω {0, 1, 2,..., N} o sko«czonej liczbie realizacji, gdzie u 0, u 1,..., u N 1 jest rozwi zaniem zadania 3.8. Twierdzenie poni»ej przedstawia warunki konieczne wyznaczenia optymalnego sterowania dla zadania 3.8. Twierdzenie 3.1 Zaªó»my,»e funkcje g : R n R l R i h : R n R s ci gªe, wypukªe i ograniczone, funkcje f : R k R n R l R n i g : R n R l R s funkcjami klasy C 1 ze wzgl du na zmienn steruj c u R l oraz det Σ ξ, y 0 dla ξ, y R k R n, gdzie Σξ, y = σξ, yσ T ξ, y. Je»eli u jest optymalnym sterowaniem dla zadania 3.8, to dla dowolnego j {0, 1, 2,..., N 1} speªniona jest równo± N E φ i y i, u i y j+1 fξ, y j, u j T Σ 1 ξ, y i u fξ, y j, u j F j i=j+1 +P τ > j uj g y j, u j = 0, 3.10 gdzie φ j, 0 j N s dane wzorami 3.6-3.7, natomiast 0 = col 0,..., 0 R l. Dowód. Stosuj c bezpo±rednio twierdzenie 2.1 otrzymujemy tez. Uwaga 3.3 Za pomoc twierdzenia powy»ej wyznaczamy sterowanie optymalne u = u 0, u 1,..., u N 1 dla systemu 3.1, natomiast steruj c tym
92 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... systemem z losowym horyzontem τ : Ω {0, 1,..., N} czas sterowania jest losowy nale»y zastosowa sterowanie u 0, u 1,..., τ 1 u u. Przykªad poni»ej pokazuje ró»nice w sterowaniach bardzo prostego systemu liniowego dla przypadków z ustalonym i losowym horyzontem. Przykªad 3.1 Niech liniowy system stochastyczny b dzie okre±lony za pomoc równania y j+1 = ξu j + w j+1 3.11 dla j N 0. Przyjmujemy,»e parametr ξ R jest znany oraz {w i } i 1 jest ci giem niezale»nych zmiennych losowych o rozkªadzie normalnym N0, σ 2. System przeprowadzamy z punktu y 0 R do punktu a R. Jako funkcjonaª kosztów przyjmujemy g y, u = u 2, natomiast jako funkcjonaª dziedziczenia h y = y a 2. Nale»y zauwa»y,»e na stan bie» cy systemu 3.11 nie wpªywa warto± poprzednich stanów system jest sterowany w p tli otwartej. Horyzont sterowania τ nie jest znany i nie zale»y od stanów systemu oraz przyjmujemy,»e jest zmienn losow o sko«czonej liczbie realizacji. Prawdopodobie«stwo,»e system zostanie zatrzymany w momencie k {0, 1, 2,..., N} jest równe P τ = k = p k, gdzie p k 0 oraz N p k = 1. adnych ogranicze«na wielko± sterowania nie nakªadamy. k=0 Aby wyznaczy optymalne sterowanie nale»y rozwi za zadanie inf u J N u, 3.12 gdzie wska¹nik jako±ci N J N u = E s j u 2 j + p j y j a 2 3.13 j=0 zale»y od sterowania u = u 0, u 1,..., u N 1, natomiast prawdopodobie«stwo prze»ycia s j = P τ > j. System maksymalnie mo»e by sterowany do
3.2. Sterowanie dla horyzontu losowego o sko«czonej liczbie realizacji 93 momentu N 1, natomiast w chwili N ponosimy tylko koszt dziedziczenia p N y N a 2 oraz s N = 0. Do wyznaczenia optymalnych sterowa«deniujemy funkcje Bellmana V j y j = inf u j E s j u 2 j + p j y j a 2 + V j+1 y j+1 F j 3.14 dla 0 j N 1. Dla momentu N warto± funkcji Bellmana jest równa V N y N = p N y N a 2. Dla dowolnego j = 0, 1,..., N 1 optymalne sterowanie jest równe u j = ap j+1ξ s j + p j+1 ξ 2, 3.15 natomiast warto± funkcji Bellmana dla momentów 0 j N wynosi V j y j = p j y j a 2 + s j σ 2 + a 2 ϕ j, 3.16 gdzie z warunkiem pocz tkowym ϕ N = 0. ϕ j = ϕ j+1 + a 2 ξ 2 p 2 j+1 s j + p j+1 ξ 2 3.17 Wzór 3.16 udowodnimy za pomoc indukcji matematycznej. Zakªadamy,»e jest on prawdziwy dla dowolnego j + 1 oraz sprawdzamy dla momentu j. Ze wzoru 3.14 warto± funkcji Bellmana dla systemu 3.11 w chwili j jest równa V j y j = inf u j E s j u 2 j + p j y j a 2 + s j+1 σ 2 + a 2 + p j+1 ξu j + w j+1 a 2 ϕ j+1 F j.
94 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... Z wªasno±ci warunkowej warto±ci oczekiwanej V j y j = inf u j sj + p j+1 ξ 2 2 u 2 j 2aξp j+1 u j + p j y j a 2 + s j+1 + p j+1 σ 2 + a 2 ϕ j+1. 3.18 Zatem optymalne sterowanie w momencie j jest dane wzorem 3.15. Podstawiaj c 3.15 do 3.18 mamy V j y j = p j y j a 2 + s j+1 + p j+1 σ 2 + a 2 ϕ j+1 a 2 ξ 2 p 2 j+1 s j + p j+1 ξ 2. Poniewa» s j = s j+1 + p j+1 oraz korzystaj c ze wzoru 3.17 otrzymujemy 3.16. Oczekiwany koszt sterowania systemem 3.11 wynosi inf u J N u = V 0 y 0 = p 0 y 0 a 2 + s 0 σ 2 + a 2 N 1 a 2 ξ 2 k=0 p 2 k+1 s k + p k+1 ξ 2. Uwaga 3.4 Otrzymane wyniki optymalne sterowanie 3.15 oraz wyznaczenie warto±ci funkcji Bellmana 3.14 mo»na wykorzysta równie» dla sterowania systemem dla przypadku z ustalonym horyzontem N. W tym celu wystarczy przyj P τ = N = p N = 1 oraz P τ = j = p j = 0 dla j = 0, 1,..., N 1. Optymalne sterowanie jest dane wzorem u j = { 0, j = 0, 1,..., N 1, aξ 1+ξ 2, j = N, 3.19 natomiast warto± funkcji Bellmana V j y j = { σ 2 + a2, 1+ξ 2 j = 0, 1,..., N 1, y N a 2, j = N. 3.20 Uwaga 3.5 Optymalne sterowania systemem stochastycznym 3.11 system bez pami ci poprzednich stanów dla przypadków z horyzontem deterministycznym i z horyzontem losowym s caªkowicie ró»ne. Je»eli horyzont jest ustalony, to system pozostaje w bezczynno±ci w momentach j = 0, 1,..., N 2,
3.2. Sterowanie dla horyzontu losowego o sko«czonej liczbie realizacji 95 natomiast dziaªanie steruj ce podejmujemy tylko w momencie j = N 1. Je»eli horyzont sterowania jest losowy nie wiemy ile razy b dziemy sterowa systemem, to zgodnie ze wzorem 3.15 dziaªania steruj ce nale»y podejmowa w ka»dej chwili, która nie jest momentem ko«cowym. Uwaga 3.6 Je»eli zadanie 3.12 zast pujemy zadaniem 3.4, to, zgodnie z uwag powy»ej, dziaªania steruj ce dla systemu 3.11 powinny by podejmowane tylko w momencie j = [Eτ] 1. Uwaga 3.7 Dla systemu 3.11 systemu sterowanego w p tli otwartej widzimy,»e w przypadku ustalonego horyzontu oczekiwany koszt sterowania V 0 y 0 nie zale»y od stanu pocz tkowego y 0, natomiast w przypadku losowego horyzontu oczekiwany koszt sterowania V 0 y 0 zale»y od stanu poczatkowego y 0 wystarczy porówna 3.20 i 3.16. Rysunek 3.1: Warto±ci optymalnych sterowa«dla systemu stochastycznego 3.11 z losowym horyzontem τ o rozkªadzie dwumianowym.
96 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... Przykªad 3.2 Niech liniowy system stochastyczny b dzie okre±lony za pomoc równania 3.11, natomiast wska¹nik jako±ci za pomoc 3.13. Poni»ej zakªadamy,»e horyzont sterowania τ ma rozkªad dwumianowy P τ = j = N p j 1 p N j, j gdzie 0 p 1 oraz 0 j N. Dodatkowo przyjmujemy,»e N = 10, a = 5, ξ = 2. Rysunek 3.1 przedstawia map wielko±ci sterowa«dla 0 < p < 1. W przypadku gdy p = 1, to optymalne sterowanie jest dane wzorem 3.19. W przypadku gdy p 0, to lim P τ = 0 = 1, natomiast p 0 lim P τ = j = 0 dla 1 j N. Zatem lim s j = 0 dla 0 j N 1. p 0 p 0 Ze wzoru 3.15 otrzymujemy lim p 0 u j = a ξ dla dowolnego momentu j = 0, 1,..., N 1. 3.2.2 Optymalne sterowanie dla zadania operacyjnego Twierdzenie 3.1 podaje warunki konieczne optymalnego sterowania dla zadania planistycznego zadania w którym wykorzystujemy tylko informacj a priori dotycz c horyzontu losowego τ. Steruj c obiektem 3.1 w ka»dym momencie mo»emy równie» wykorzysta informacj a posteriori dotycz c horyzontu τ. Je»eli system znajduje si w momencie j oraz ten moment nie jest horyzontem tzn. system powinien by sterowany w tym momencie, oznacza to,»e system byª sterowany w chwilach 0, 1,..., j 1 oraz mo»e by zatrzymany w chwilach j + 1,..., N. Poni»ej odpowiemy na pytanie w jaki sposób dodatkowa informacja o horyzoncie τ dokªadniej informacja o warunkowym rozkªadzie zmiennej τ w momencie j < τ wpªywa na sterowanie obiektem.
3.2. Sterowanie dla horyzontu losowego o sko«czonej liczbie realizacji 97 Wska¹nik jako±ci J N u okre±lony wzorem 3.5 mo»emy przedstawi równie» za pomoc rozwini cia J N u = E h y 0 P τ = 0 + P τ > 0 g y 0, u 0 1 + h y 1 P τ = 1 + P τ > 1 g y 1, u 1 P τ > 0 1 + h y 2 P τ = 2 +... + P τ > N 1 P τ > 1 P τ = N g y N 1, u N 1 + h y N.... P τ > N 1 Poniewa» zmienna losowa τ : Ω {0, 1, 2,..., N}, zatem P τ = N = P τ > N 1. Korzystaj c ze wzoru na prawdopodobie«stwo warunkowe mamy J N u = E g y 0, u 0 + h y 1 P τ = 1 τ > 0 h y 0 P τ = 0 + P τ > 0 + P τ > 1 τ > 0 g y 1, u 1 + h y 2 P τ = 2 τ > 1 +... + P τ > N 1 τ > N 2 g y N 1, u N 1 + h y N. 3.21 Dla dowolnego 0 j N 1 wska¹nik jako±ci 3.21 mo»emy równie» przedstawi w postaci J N u = E j 1 g y k, u k P τ > k + h y k P τ = k + h y j P τ = j k=0 + P τ > j g y j, u j + N 1 s=j+1 g y s, u s P τ > s τ > j + h y s P τ = s τ > j + h y N P τ = N τ > j. 3.22 Warunki konieczne optymalnego sterowania dla zadania operacyjnego podaje twierdzenie poni»ej. Twierdzenie 3.2 Zaªó»my,»e funkcje g : R n R l R i h : R n R s ci gªe, wypukªe i ograniczone, funkcje f : R k R n R l R n
98 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... i g : R n R l R n s funkcjami klasy C 1 ze wzgl du na zmienn steruj c u R l oraz det Σ ξ, y 0 dla ξ, y R k R n, gdzie Σξ, y = σξ, yσ T ξ, y. Je»eli moment j {0, 1, 2,..., N 1} nie jest horyzontem sterowania w momencie j system 3.1 nie zostanie zatrzymany, to optymalne sterowanie u j dla zadania 3.8 speªnia równanie N E φ i j y i, u i y j+1 fξ, y j, u j T Σ 1 ξ, y i u fξ, y j, u j F j τ i=j+1 + uj g y j, u j = 0, 3.23 gdzie 0 = col 0,..., 0 R l, φ i j dla 0 j < i N 1 jest dane wzorem φ i j y i, u i = g y i, u i P τ > i τ > j + h y i P τ = i τ > j, 3.24 natomiast φ N j y i, u i = h y i P τ = N τ > j. 3.25 Dowód. Z równania 3.1 wynika,»e dla dowolnego 1 i N warunkowy rozkªad wektora y i jest dany wzorem P F ξ dy i i 1 = γy i, fξ, y i 1, u i 1, Σξ, y i 1 dy i, gdzie γ jest funkcj g sto±ci rozkªadu normalnego okre±lon wzorem 1.4. Poniewa» zaburzenia zewn trzne w 1,..., w N oraz wektor losowy ξ s wzajemnie niezale»ne, to rozkªady ª czne P dξ, dy 0,..., dy j oraz P dy j,..., dy i dla dla 1 j i N s okre±lone za pomoc wzorów 2.5 i 2.6 odpowiednio. Korzystaj c z wªasno±ci warunkowej warto±ci oczekiwanej dla dowolnego j {0, 1,..., N 1} funkcjonaª 3.5 mo»emy przedstawi w postaci j J N u = E φ i y i, u i + I τ>j E i=0 N i=j+1 φ i y i, u i F ξτ j
3.2. Sterowanie dla horyzontu losowego o sko«czonej liczbie realizacji 99 j 1 = φ i y i, u i + h y j P τ = j + P τ > j g y j, u j + i=0 N i=j+1 φ i y i, u i P τ > j P j+1,n dy j+1,..., dy N P dξ, dy 0,..., dy j. 3.26 Dla dowolnych 0 j < i N korzystaj c ze wzoru na prawdopodobie«stwo warunkowe oraz wzoru 3.6 otrzymujemy φ i j y i, u i = φ iy i, u i P τ > j = g y i, u i P τ > i τ > j + h y i P τ > i τ > j. 3.27 Niech u oznacza optymalne sterowanie oraz przyjmujemy u = u +ɛv, gdzie ɛ R. Ustalamy liczb j {0,..., N 1} oraz deniujemy v : R n j+1 R l N, v = 0,..., 0, ṽ j, 0,..., 0, 0 = col 0,..., 0 R l, gdzie ṽ j : R n j+1 R l, ṽ j = col v 1,..., v l oraz v s = v s y 0,..., y j : R n j+1 R l dla 1 s l jest dowoln funkcj borelowsk. Je»eli j {0,..., N 1} nie jest momentem zatrzymania systemu 3.1, to z równania 3.26 otrzymujemy ɛ J N u + ɛv = N i=j+1 P τ > j uj g j y j, u j + φ i j y i, u i uj P j+1,n dy j+1,..., dy N, ṽ j P dξ, dy 0,..., dy j. 3.28 Ze wzorów 2.6 oraz 1.4 mamy uj P j+1,n dy j+1,..., dy N = y j+1 fξ, y j, u j Σ 1 ξ, y j uj fξ, y j, u j P j+1,n dy j+1,..., dy N. 3.29
100 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... Warunek konieczny optymalnego sterowania w momencie j {0,..., N 1} mo»emy przedstawi za pomoc równania ɛ J N u + ɛv = 0. 3.30 ɛ=0 Podstawiaj c 3.29 do 3.28 oraz z warunku 3.30 otrzymujemy P τ > j uj g j y j, u j + N i=j+1 y j+1 fξ, y j, u j Σ 1 ξ, y j uj fξ, y j, u j φ i j y i, u i P dy j+1...dy N, ṽ j P dξ, dy 0,..., dy j = 0. 3.31 Poniewa» warunek 3.31 powinien by speªniony dla dowolnego ṽ j = col v 1,..., v l, gdzie v s = v s y 0,..., y j : R n j+1 R l dla 1 s l s funkcjami borelowskimi mierzalnymi wzgl dem σciaªa F j, zatem otrzymujemy tez. Uwaga 3.8 Mno» c obustronnie równanie 3.23 poprzez P τ > j oraz korzystaj c ze wzoru 3.27 otrzymujemy 3.10. Warunek konieczny optymalnego sterowania mo»emy równie» przedstawi za pomoc równania N E φ i y i, u i y j+1 fξ, y j, u j T Σ 1 ξ, y i u fξ, y j, u j F j τ i=j+1 + uj g y j, u j = 0, 3.32 gdzie φ i, 0 i N s okre±lone za pomoc 3.63.7. Wniosek 3.1 Optymalne sterowanie systemem 3.1 z losowym horyzontem niezale»nym od stanów systemu zarówno dla regulatora planistycznego, jak i operacyjnego wyznaczamy ze wzoru 3.10 lub ze wzoru 3.23. Do konstrukcji algorytmu wyznaczenia optymalnego sterowania wykorzystany zostanie warunek 3.10.
3.2. Sterowanie dla horyzontu losowego o sko«czonej liczbie realizacji 101 Wniosek 3.2 Warunki konieczne 3.10 i 3.23 optymalnego sterowania systemem 3.1 przedstawione w twierdzeniach 3.1 i 3.2 równie» mo»emy wykorzysta do zadania 2.3 z ustalonym horyzontem N. W tym celu wystarczy przyj,»e rozkªad zmiennej losowej τ jest rozkªadem punktowym P τ = N = 1 oraz P τ = i = 0 dla i = 0, 1, 2,..., N 1. 3.2.3 Wyznaczenie optymalnego sterowania Rozwi zanie zadania optymalnego sterowania systemem 3.1 z losowym horyzontem τ : Ω {0, 1,..., N} polega na wyznaczeniu ci gu sterowa«u j, natomiast bezpo±rednio steruj c tym systemem stosu- { } 0 j N 1 { { } jemy sterowanie u j }0 j τ 1 u j. Poni»ej przedstawiony zostanie algorytm wyznaczenia optymalnego sterowania systemem 3.1. 0 j N 1 Do konstrukcji ci gu optymalnych sterowa«regulatora wykorzystane zostanie programowanie dynamiczne wstecz. Dla dowolnego 0 j N 1 deniujemy funkcje Bellmana patrz np. [23], [38], [44] N Vj N ξ, y 0,..., y j = inf φ j y j, u j + E φ i y i, u u i j i=j+1 F ξ j = φ j y j, u j + E Vj+1ξ, N y 0,..., y j+1 F ξ j z warunkiem pocz tkowym 3.33 V N N ξ, y 0,..., y N = h y N P τ = N, gdzie φ j y, u s dane wzorem 3.6. Je»eli moment j {0, 1,..., N 1} nie jest horyzontem sterowania system nie zostaª zatrzymany w chwili j, to zgodnie z rozwini ciem 3.21 wielko± E Vj+1ξ, N y 0,..., y j+1 F j τ 1 = P τ > j E Vj+1ξ, N y 0,..., y j+1 F j reprezentuje oczekiwane koszty sterowania i dziedziczenia od momentu j + 1 do horyzontu losowego τ.
102 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... Ze wzoru 3.33 warunek konieczny optymalno±ci sterowania 3.10 mo»emy przedstawi za pomoc równania uj g y j, u j P τ > j + V j+1 ξ, y 0,..., y j, fξ, y j, u j + σξ, y j x x T σ T ξ, y j Σ 1 ξ, y j uj fξ, y j, u jγ x, 0, I m dxp dξ F j = 0, gdzie P dξ F j oznacza rozkªad wektora nieznanych parametrów ξ wzgl dem σ ciaªa F j. Algorytm wyznaczenia optymalnego sterowania. 1. Deniujemy V N ξ, y 0,..., y N = h y N P τ = N oraz przyjmujemy j = N. 2. Kªadziemy j = j 1. 3. Deniujemy Ṽ j+1 ξ, y 0,..., y j, u j, x = V N j+1ξ, y 0,..., y j, fξ, y j, u j + σξ, y j x. 4. Wyznaczamy Z j y 0,..., y j, u j = P τ > j uj g y j, u j + Ṽ j+1 ξ, y 0,..., y j, u j, x x T Σ 1 2 ξ, yj uj fξ, y j, u j γ x, I m dxp dξ F j. 5. Wyznaczamy optymalne sterowanie u j speªniaj ce warunek Z j y 0,..., y j, u j = 0. 6. Wyznaczamy warto±ci funkcji Bellmana dla momentu j V j ξ, y 0,..., y j = h y j P τ = j + g y j, u j P τ > j + V j+1 ξ, y0,..., y j, fξ, y j, u j + σξ, y j x γ x, I m dx.
3.3. Sterowanie dla horyzontu losowego o przeliczalnej liczbie realizacji 103 7. Je»eli j = 0 to zatrzymujemy, w przeciwnym razie wracamy do punktu 2. Uwaga 3.9 Algorytm powy»ej podaje sposób wyznaczenia optymalnego sterowania { u 0, u 1,..., N 1} u tak jak dla przypadku gdy τ ω = N. Oczywi±cie steruj c systemem 3.1 nie znamy warto±ci horyzontu zmiennej losowej τ. Bezpo±rednio steruj c systemem 3.1 z losowym horyzontem τ stosujemy sterowanie { u 0, u 1,..., { τ 1} u u 0, u 1,..., N 1} u. 3.3 Sterowanie dla horyzontu losowego o przeliczalnej liczbie realizacji 3.3.1 Postawienie zadania W poprzedniej cz ±ci rozdziaªu przedstawione zostaªo rozwi zanie zadania 3.3 dotycz cego sterowania systemem 3.1 z losowym horyzontem τ : Ω {0, 1, 2,..., N} niezale»nym od stanów systemu, gdzie zbiór realizacji zmiennej losowej opisuj cej horyzont sterowania jest zbiorem sko«czonym. W tym przypadku zadanie optymalnego sterowania z losowym horyzontem zostaªo zast pione zadaniem optymalnego sterowania z ustalonym horyzontem. Algorytm wyznaczenia optymalnego sterowania wykorzystuje zasad programowania dynamicznego wstecz tzn. polega na zastosowaniu techniki teleskopowej podczas kontrukcji funkcji Bellmana. Funkcje Bellmana zaczynamy konstruowa od momentu N, gdzie warto± tej funkcji jest równa iloczynowi prawdopodobie«stwa,»e system zostanie zatrzymany w momencie N oraz warto±ci funkcji dziedziczenia. Natomiast powstaje pytanie jak wyznaczy optymalne sterowania, je»eli zbiór realizacji zmiennej losowej opisuj cej horyzont sterowania jest zbiorem przeliczalnym patrz np. [32], [54]. Poni»ej rozwa»amy problem sterowania systemem stochastycznym 3.1 z losowym horyzontem τ : Ω N 0 niezale»nym od stanów systemu. Zbiór realizacji zmiennej losowej τ jest zbiorem przeliczalnym.
104 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... Warto± oczekiwana funkcjonaªu jako±ci 3.2 jest równa τ 1 EJ τ u = E P τ = 0 h y 0 + P τ > 0 E gy i, u i + hy τ F 0 τ i=0 = E P τ = 0 h y 0 + P τ > 0 E gy 0, u 0 + P τ = 1 τ > 0 h y 1 τ 1 +P τ = 1 τ > 0 E gy i, u i + hy τ F 1 τ F 0 τ =... 3.34 i=1 Przyjmujemy τ 1 Jj τ u = E gy i, u i + hy τ F j τ, 3.35 i=j zatem otrzymujemy J τ j u = gy j, u j + E P τ = j + 1 τ > j h y j+1 +P τ > j + 1 τ > j J j+1 u F τ j. 3.36 Wielko± J τ j u, j N 0 oznacza oczekiwane koszty sterowania i dziedziczenia od momentu j do momentu losowego τ. Zgodnie z powy»szym warto± wska¹nika jako±ci 3.34 jest równa EJ τ u = E P τ = 0 h y 0 + P τ > 0 J τ 0 u. 3.37 Z drugiej strony, korzystaj c z denicji prawdopodobie«stwa warunkowego, wzór 3.34 mo»emy przedstawi w postaci EJ τ u = E P τ = 0 h y 0 + P τ > 0 E gy i, u i + hy τ F 0 τ 1 = E P τ = 0 h y 0 + P τ > 0 gy 0, u 0 τ 1 +E P τ = 1 h y 1 + P τ > 1 E gy i, u i + hy τ F 1 F 0... i=1 i=0
3.3. Sterowanie dla horyzontu losowego o przeliczalnej liczbie realizacji 105 Oczekiwany koszt sterowania EJ τ u jest równy J u = EJ τ u = E φ j y j, u j, 3.38 j=0 gdzie φ j y, u = g y, u P τ > j + h y P τ = j. 3.39 Zadanie optymalnego sterowania 3.3 z losowym horyzontem τ o niesko«- czonej liczbie realizacji zast pujemy zadaniem optymalnego sterowania z niesko«czonym horyzontem. Aby wyznaczy optymalne sterowanie systemem 3.1 nale»y rozwi za zadanie inf J u. 3.40 u U Denicja 3.2 Sterowanie u 0, u 1,..., τ 1 u u = u 0, u 1,... nazywamy optymalnym sterowaniem dla systemu 3.1 z losowym horyzontem τ : Ω N 0 o przeliczalnej liczbie realizacji, gdzie u 0, u 1,... jest rozwi - zaniem zadania 3.40. W przypadku gdy sterujemy systemem deterministycznym b d¹ stochastycznym z niesko«czonym horyzontem czasowym nale»y dodatkowo uwzgl dni problem dotycz cy zbie»no±ci wska¹nika jako±ci. Lemat poni-»ej podaje ograniczenie górne dotycz ce wska¹nika jako±ci 3.38, natomiast ograniczenie dolne szacowane jest w sposób podobny. Lemat 3.1 Niech fukcjonaªy g : R n R l R, h : R n R b d ograniczone oraz speªnione s nierówno±ci g U c < i h U h <. Je»eli τ ma rozkªad dyskretny p i = P τ = i dla i N 0 oraz 0 p i 1, p i = 1, to i=0 J u = E φ j y j, u j U c Eτ + U h, j=0 gdzie φ j y, u jest dane wzorem 3.39.
106 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... Dowód. Je»eli zmienna losowa τ : Ω N 0 ma rozkªad dyskretny o przeliczalnej liczbie realizacji, gdzie p i = P τ = i, i N 0 oraz 0 p i 1, p i = 1, to zachodzi nast puj ca równo± i=0 P τ > j = j=0 = j=0 i=j+1 ip i = i=1 p i = p i + p i +... i=1 i=2 ip i = Eτ. 3.41 i=0 Wzór 3.41 jest równie» prawdziwy, w przypadku gdy zmienna losowa τ ma rozkªad dyskretny o sko«czonej liczbie realizacji. Korzystaj c ze wzoru 3.41 otrzymujemy J u = φ j y j, u j = j=0 g y j, u j P τ > j + h y j P τ = j j=0 U c P τ > j + U h P τ = j = U c Eτ + U h. j=0 co dowodzi prawdziwo±ci j=0 twierdzenia Twierdzenie po»niej podaje warunki konieczne istnienia optymalnego sterowania systemem 3.1 dla zadania 3.40. Twierdzenie 3.3 Zaªó»my,»e funkcje g : R n R l R i h : R n R s ci gªe, wypukªe i ograniczone, funkcje f : R k R n R l R n i g : R n R l R s funkcjami klasy C 1 ze wzgl du na zmienn steruj c u R l oraz det Σ ξ, y 0 dla ξ, y R k R n, gdzie Σξ, y = σξ, yσ T ξ, y. Je»eli u = u 0, u 1,... jest optymalnym sterowaniem dla zadania 3.40, to dla dowolnego j N 0 speªniona jest równo± E i=j+1 φ i y i, u i y j+1 fξ, y j, u j T Σ 1 ξ, y i u fξ, y j, u j F j + uj g y j, u j P τ > j = 0, 3.42 gdzie φ j jest dane wzorem 3.39 oraz 0 = col 0,..., 0 R l.
3.3. Sterowanie dla horyzontu losowego o przeliczalnej liczbie realizacji 107 Dowód. Korzystaj c z wªasno±ci warunkowej warto±ci oczekiwanej dla dowolnego j N 0 funkcjonaª 3.38 mo»emy przedstawi w postaci j J u = E φ i y i, u i + E i=0 i=j+1 φ i y i, u i F ξ j j 1 = φ i y i, u i + h y j P τ = j + P τ > j g y j, u j + i=0 i=j+1 φ i y i, u i P j+1, dy j+1, dy j+2,... P dξ, dy 0,..., dy j, 3.43 gdzie rozkªady ª czne P dξ, dy 0,..., dy j i P j+1, dy j+1, dy j+2,... s dane wzorami 2.52.6. Niech u oznacza optymalne sterowanie oraz przyjmujemy u = u + ɛv, gdzie ɛ skalar. Ustalmy j N 0 oraz deniujemy v : R n j+1 R l N, v = 0,..., 0, ṽ j, 0,..., 0 = col 0,..., 0 R l, gdzie ṽ j : R n j+1 R l, ṽ j = col v 1,..., v l oraz v s = v s y 0,..., y j : R n j+1 R l dla 1 s l jest dowoln funkcj borelowsk. Je»eli j N 0 nie jest momentem zatrzymania systemu 3.1, to z równania 3.43 otrzymujemy ɛ J u + ɛv = P τ > j g uj jy j, u j + i=j+1 uj P j+1, dy j+1, dy j+2,..., ṽ j P dξ, dy 0,..., dy j. 3.44 φ i y i, u i Ze wzorów 2.6 oraz 1.4 mamy uj P j+1,n dy j+1,..., dy N = y j+1 fξ, y j, u j Σ 1 ξ, y j uj fξ, y j, u j P j+1, dy j+1, dy j+2,.... 3.45 Warunek konieczny istnienia optymalnego sterowania w momencie j N 0 mo»emy przedstawi za pomoc równania ɛ J u + ɛv = 0. 3.46 ɛ=0
108 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... Podstawiaj c 3.45 do 3.44 oraz korzystaj c z warunku 3.46 otrzymujemy P τ > j g uj jy j, u j + i=j+1 y j+1 fξ, y j, u j Σ 1 ξ, y j uj fξ, y j, u j φ i y i, u i P j+1, dy j+1, dy j+2,..., ṽ j P dξ, dy 0,..., dy j = 0. 3.47 Poniewa» warunek 3.47 powinien by speªniony dla dowolnego ṽ j = col v 1,..., v l, gdzie v s = v s y 0,..., y j : R n j+1 R l dla 1 s l s funkcjami borelowskimi mierzalnymi wzgl dem σciaªa F j, zatem otrzymujemy tez. Twierdzenie powy»ej podaje warunki konieczne istnienia sterowania optymalnego u = u 0, u 1,..., natomiast steruj c systemem 3.1 z losowym horyzontem τ : Ω N 0 nale»y zastosowa sterowanie u 0, u 1,..., u τ u. Uwaga 3.10 Wyznaczenie optymalnego sterowania u polega na zastosowaniu idei programowania dynamicznego wstecz. Od strony praktycznej konstrukcja funkcji Bellmana z warunkiem pocz tkowym dla horyzontu nie jest mo»liwa. Dlatego poni»ej podana zostanie konstrukcja sterowania dla zadania z horyzontem sko«czonym, gdzie ró»nica warto±ci wska¹ników jako- ±ci dla zada«ze sko«czonym i niesko«czonym horyzontem sterowania nie przekracza ε > 0. Niech u k = u 0, u 1,..., u k 1, 0, 0,...,, gdzie u j R l dla 0 j k 1 oraz 0 = col 0,..., 0 R l. Bezpo±rednio rozwi zanie zadania 3.40 z horyzontem niesko«czonym polegaj ce na wyznaczeniu optymalnego sterowania u = u 0, u 1,... jest nierealistyczne. Zadanie 3.40 zast pujemy zadaniem z horyzontem sko«czonym gdzie J N u N = N 1 j=0 inf J N u N, 3.48 u N φ j y j, u j + P τ = N h y N, 3.49
3.3. Sterowanie dla horyzontu losowego o przeliczalnej liczbie realizacji 109 z tym»e dla ustalonego ε > 0 moment N, do którego podejmujemy dziaªania steruj ce, wyznaczamy w sposób nast puj cy N N ε = min k N 0 : P τ > j g y j, u j + P τ = j h y j < ε. j=k j=k 3.50 Rozwi zuj c zadanie 3.48 wyznaczymy ci g optymalnych sterowa«{u i } 0 i N 1. Dodatkowo przyjmujemy,»e od momentu N system 3.1 zachowuje si w sposób bierny nie sterujemy tym systemem, tzn. u j = col 0,..., 0 R l dla j N. Zatem dla momentu N zdeniowanego za pomoc wzoru 3.50 speªniona jest nierówno± P τ = N h y N < ε. Denicja 3.3 Sterowanie u 0, u 1,..., u τ 1 u N = u 0, u 1,..., u N 1, 0,... nazywamy ε optymalnym sterowaniem dla systemu 3.1 z losowym horyzontem τ : Ω N 0 o przeliczalnej liczbie realizacji. 3.3.2 Wyznaczenie ε optymalnego sterowania Rozwi zanie zadania optymalnego sterowania systemem stochastycznym 3.1 z losowym horyzontem τ : Ω N 0 polega na wyznaczeniu ci gu { } sterowa«u j, natomiast steruj c tym systemem stosujemy sterowanie { j N{ 0 } u j }0 j τ 1 u j. Do konstrukcji algorytmu wyznaczenia optymalnego sterowania systemem 3.1 wykorzystana zostanie zasada j N 0 programowania dynamicznego wstecz. Dla dowolnego j N 0 deniujemy funkcj Bellmana patrz np. [23], [38] V j ξ, y 0,..., y j = inf φ j y j, u j + E u j i=j+1 = φ j y j, u j + E V j+1 ξ, y 0,..., y j+1 φ i y i, u i F ξ j = F ξ j. 3.51
110 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... Wielko± V j ξ, y 0,..., y j reprezentuje oczekiwane przyszªe koszty sterowania systemem 3.1 pod warunkiem,»e znane s parametry systemu ξ. Warunek konieczny optymalnego sterowania 3.42 mo»emy przedstawi w postaci u φ j y j, u j + V j+1 ξ, y 0,..., y j, fξ, y j, u j + σξ, y j x x T σ T ξ, y j Σ 1 ξ, y j u fξ, y j, u jγ x, I m dxp dξ F j = 0, 3.52 gdzie P dξ F j oznacza rozkªad wektora nieznanych parametrów ξ warunkowany na σ ciele F j. Ze wzoru 3.51 mamy V N ξ, y 0,..., y N = N 1 J u j=0 φ j yj, u j. 3.53 Dla ustalonego ε > 0 konstruuj c optymalne sterowanie dla zadania zast pczego 3.40 z niesko«czonym horyzontem najpierw, zgodnie z uwag 3.10, nale»y wyznaczy najmniejszy horyzont N, dla którego speªniona jest nierówno± V N ξ, y 0,..., y N P τ > j g y j, u j + j=n P τ = j h y j < ε. j=n 3.54 Powy»sza nierówno± oznacza,»e steruj c systemem 3.1 od momentu N N 0 oczekiwany przyszªy koszt sterowania nie przekracza ε > 0. Zgodnie z powy»szym je»eli od momentu N nie podejmujemy dziaªa«steruj cych tzn. u j = 0 = col 0,..., 0 R l dla j N, to równie» suma przyszªych oczekiwanych kosztów nie przekroczy ε > 0. Zatem w chwili N przewidywany koszt dziedziczenia P τ = N h y N równie» nie przekroczy ε. Pojawia si problem wyznaczenia momentu N N 0. Lematy podane poni»ej s pomocne podczas oszacowania horyzontu N, dla którego speªniona jest nierówno± 3.54.
3.3. Sterowanie dla horyzontu losowego o przeliczalnej liczbie realizacji 111 Lemat 3.2 Niech zmienna losowa τ ma rozkªad dyskretny P τ = i = p i, gdzie 0 p i 1 dla i N 0 oraz p i = 1. Dla dowolnego s 0 zachodzi i=0 równo± s 1 p i = Eτ s + j=s i=j+1 j=0 i=0 j=s i=j+1 j=s j=0 j=0 j p i. 3.55 Dowód. Z denicji rozkªadu dyskretnego mamy s 1 p i = P τ > j = P τ > j P τ > j. Ze wzoru 3.48 otrzymujemy s 1 s 1 P τ > j = Eτ [1 P τ j] = Eτ s + P τ j. j=s j=0 j=0 co dowodzi prawdziwo±ci lemy Lemat 3.3 Zaªó»my,»e zmienna losowa τ ma rozkªad dyskretny 0 p i 1 dla i 0 oraz p i = 1. Je»eli funkcje g U c < i h U h <, i=0 to dla dowolnego s N 0 speªniona jest nierówno± s 1 V s ξ, y 0,..., y s U c Eτ s + P τ j + U h P τ s. Dowód. Bezpo±rednio korzystaj c ze wzorów 3.39 i 3.53 otrzymujemy V s ξ, y 0,..., y s U c P τ > i + U h P τ = i. j=0 i=s i=s Korzystaj c z lematu 3.2 otrzymujemy s 1 V s ξ, y 0,..., y s U c Eτ s + P τ j + U h P τ = i, j=0 i=s
112 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... co dowodzi tezy.[4] Od strony praktycznej ograniczenia górne U c < i U h < dla funkcjonaªów kosztów i dziedziczenia obieramy w sposób nast puj cy: maksymalnie mo»liwy koszt dziedziczenia jest równy h y 0 oraz otrzymujemy w przypadku, gdy horyzont sterowania τ ω = 0, zatem przyjmujemy h y 0 U h < ; zgodnie z wnioskiem 2.1 najwi kszy koszt sterowania poniesiemy w przypadku gdy τ ω = 1, zatem przyjmujemy g y 0, u 0 U c <, gdzie u 0 jest rozwi zaniem zadania inf u 0 E g y 0, u 0 + h y 1. Algorytm wyznaczenia optymalnego sterowania. 1. Ustalamy ε > 0 dopuszczalny bª d dla wska¹nika jako±ci 3.38. 2. Wyznaczamy horyzont sterowania N speªniaj cy warunek 3.50 jako N = min s N s 1 0 : U c Eτ s + P τ j + U h P τ s ε. j=0 3. Deniujemy V N ξ, y 0,..., y N = P τ = N h y N oraz przyjmujemy j = N. 4. Kªadziemy j = j 1. 5. Deniujemy Ṽ j+1 ξ, y 0,..., y j, u j, x = V j+1 ξ, y 0,..., y j, fξ, y j, u j + σξ, y j x.
3.4. Optymalne sterowanie liniowo-kwadratowe z losowym horyzontem 113 6. Wyznaczamy Z j y 0,..., y j, u j = u φ j y j, u j + Ṽ j+1 ξ, y 0,..., y j, u j, x x T Σ 1 ξ, y j u fξ, y j, u j γ x, I m dxp dξ F j. 7. Szukamy optymalnego sterowania u j speªniaj cego warunek Z j y 0,..., y j, u j = 0. 8. Wyznaczamy V j ξ, y 0,..., y j = φ j y j, u j + V j+1 ξ, y0,..., y j, fξ, y j, u j + σξ, y j x γ x, I m dx. 9. Je»eli j = 0, to zatrzymujemy, w przeciwnym razie wracamy do punktu 4. Uwaga 3.11 Porównuj c prawa sterowa«dla systemów z losowym horyzontem o sko«czonej i przeliczalnej liczbie realizacji widzimy,»e s one konstruowane w sposób podobny wystarczy porówna warunki konieczne 3.23 i 3.42. W przypadku, gdy horyzont jest zmienn losow o przeliczalnej liczbie realizacji, to zadanie optymalnego sterowania z niesko«czonym horyzontem 3.40 zast pujemy zadaniem ze sko«czonym horyzontem 3.48, gdzie dla ustalonego ε > 0 dodatkowo speªniony jest warunek 3.50. 3.4 Optymalne sterowanie liniowo-kwadratowe z losowym horyzontem W rozdziale 2.2 przedstawiony zostaª problem sterowania liniowokwadratowego w warunkach peªnej i niepeªnej informacji o systemie dla ustalonego horyzontu. Dodatkowo pokazano,»e horyzont ma do± du»y wpªyw
114 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... na warto± wska¹nika jako±ci. W tej cz ±ci rozdziaªu równie» przedstawiona zostanie problematyka sterowania liniowo-kwadratowego, z tym»e gªówny akcent zostanie skierowany na wyznaczenie praw sterowania stochastycznym systemem liniowym z kwadaratowym wska¹nikiem jako±ci. Poni»ej przyjmujemy,»e horyzont jest losowy oraz nie zale»y od stanów systemu. Dodatkowo podane zostan ró»nice w sterowaniu dla przypadków, gdy horyzont jest znany i losowy nieznany. Niech stochastyczny system liniowy b dzie okre±lony za pomoc równania y j+1 = Ay j Cu j + d + σw j+1 3.56 dla j N 0, gdzie y j, d R n, A R n n, C R n l, σ R n m oraz {w i } i 1 oznacza ci g niezale»nych wektorów losowych o rozkªadzie normalnym N 0, I m, 0 R m jest wektorem zerowym, I m R m m macierz jednostkow. Na przestrzeni probabilistycznej Ω, F, P deniujemy rodzin σciaª F j = σ {y i : i = 0, 1,..., j}. Poni»ej zakªadamy,»e A <, C <, σ <, gdzie oznacza norm macierzy A = max x 1 Ax, oraz d, d <. Klasyczne zadanie sterowania liniowokwadratowego polega na przeprowadzeniu w N krokach systemu 3.56 z punktu y 0 do celu a R n. Dla zadania sterowania liniowokwadratowego z losowym horyzontem przyjmujemy,»e horyzont sterowania jest zmienn losow τ : Ω N 0 niezale»n od stanów systemu oraz F τ = σ {τ}. Dla momentów i = 0, 1,..., τ 1 koszty sterowania systemem 3.56 s równe u T i Ru i, natomiast warto± funkcjonaªu dziedziczenia w chwili τ jest równa y τ a T Q y τ a. Poni»ej zakªadamy,»e macierze R i Q s dodatnio okre±lone. Wska¹nik jako±ci jest zdeniowany jako ª czne koszty sterowania i koszty strat w momencie zatrzymania oraz jest dany wzorem J τ u = E τ 1 i= 1 u T i Ru i + y τ a T Q y τ a F τ, 3.57 gdzie R R l l, Q R n n oraz u 1 = col 0, 0,..., 0. Je»eli system 3.56
3.4. Optymalne sterowanie liniowo-kwadratowe z losowym horyzontem 115 zostanie zatrzymany w momencie zero tzn. τ ω = 0, to koszt sterowania wynosi u T 1 Ru 1 = 0, natomiast koszt dziedziczenia jest równy y 0 a T Q y 0 a. Cel sterowania polega na wyznaczeniu prawa sterowania u = u 0,..., u τ 1, dla którego ª czne koszty sterowania nakªady energetyczne wraz z ko«cowymi stratami straty zwi zane z nietraeniem do celu byªyby jak najmniejsze. Rozwi za zadanie 3.3 wyznaczymy prawa sterowania u = u 0,..., u τ 1. 3.4.1 Optymalne sterowanie dla losowego horyzontu o sko«czonej liczbie realizacji Niech horyzont sterowania systemem 3.56 b dzie okre±lony za pomoc zmiennej losowej τ o sko«czonej liczbie realizacji, tzn. τ : Ω {0, 1, 2,..., N} oraz P τ = k = p k, 0 p k 1 dla 0 k N, N p i = 1. Najpierw oszacujemy warto± oczekiwan wska¹nika jako±ci i=0 3.57 oraz deniujemy J N u = EJ τ u. Ze wzorów 3.53.7 mamy J N u = E gdzie N 1 i=0 dla 0 i N. u T i R i u i + y i a T Q i y i a + y N a T Q N y N a, R i = RP τ > i = R N i=j+1 3.58 p i, 3.59 Q i = P τ = i Q = p i Q 3.60 Z 3.58 wynika,»e przewidywany koszt sterowania w chwili 0 j N 1 jest równy sumie kosztów P τ > j u T j Ru j iloczyn kosztu sterowania u T j Ru j i prawdopodobie«stwa P τ > j,»e system w momencie j b dzie sterowany, tzn. system zostanie zatrzymany w momencie pó¹niejszym oraz P τ = j y j a T Q y j a iloczyn kosztu dziedziczenia y j a T Q y j a i prawdopodobie«stwa P τ = j,»e system zostanie zatrzymany w momencie j.
116 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... W celu wyznaczenia optymalnych praw sterowania systemem 3.56 nale»y rozwi za zadanie zast pcze 3.8, gdzie wska¹nik jako±ci J N u jest dany wzorem 3.58. Uwaga 3.12 W przypadku gdy horyzont sterowania jest ustalony oraz przyjmujemy τ = N, to Q i = 0, R i = R dla 0 i N 1 oraz Q N = Q. Rozwi zanie zadania z ustalonym horyzontem przedstawia twierdzenie 2.2. Dla dowolnego momentu j = 0,..., N 1 deniujemy funkcj Bellmana V N j y j = inf u j u T j R j u j + y j a T Q j y j a + E V N j+1 y j+1 F j 3.61 z warunkiem pocz tkowym V N N y N = y N a T Q N y N a. 3.62 Z równania 3.58 wynika,»e inf u U J N u = V N 0 y 0. 3.63 Steruj c systemem 3.56 z losowym horyzontem τ nale»y zastosowa sterowanie u 0,..., τ 1 u u = u 0,..., N 1 u, gdzie J N u = inf J N u. Sposób wyznaczenia optymalnego sterowania u przedstawia twierdzenie poni»ej. u U Twierdzenie 3.4 Zaªó»my,»e macierze R R l l i Q R n n s dodatnio okre±lone, macierze R j, 0 j N 1 i Q i, 0 i N s dane wzorami 3.59-3.60 odpowiednio, natomiast dla 0 i N 1 K i = Q i + A T K i+1 Ki+1C T Ri + C T Ki+1 C 1 C T K i+1 A, 3.64 L i = A T L i+1 + 2K i+1 d 2Q i a Ki+1C T Ri + C T Ki+1 C 1 C T 2K i+1 d + L i+1, 3.65
3.4. Optymalne sterowanie liniowo-kwadratowe z losowym horyzontem 117 M i = a T Q i a + d T K i+1 d + tr K i+1 σσ T + d T L i+1 + M i+1 K i+1 d + 1 2 L i+1 T C R i + C T K i+1c 1 C T K i+1 d + 1 2 L i+1, 3.66 gdzie K N = Q N, L N = 2Q N a, M N = a T Q N a oraz R i = 1 2 Ri + Ri T, K i+1 = 1 2 Ki+1 + Ki+1 T. Je»eli det Ri + C T Ki+1 C 0 dla 0 i N 1 to optymalne sterowanie jest równe u i = Ri + C T Ki+1 C 1 C T K i+1 Ay i + d + 1 2 L i+1. 3.67 Warto± funkcji Bellmana 3.61 jest dana wzorem V N i y i = y T i K i y i + y T i L i + M i 3.68 dla 0 i N oraz najmniejszy oczekiwany koszt sterowania wynosi inf u U J N u = V N 0 y 0. Dowód. Dla momentu N warto± funkcji Bellmana wyznaczamy ze wzoru 3.62, zatem otrzymujemy V N N y N = y T NK N y N + y T NL N + M N. Nast pnie dowiedziemy prawdziwo±ci wzoru 3.68 dla dowolnego momentu i {0, 1,..., N 1}. Zakªadamy,»e wzór 3.68 jest prawdziwy dla momentu i + 1. Ze wzoru 3.61 oraz wªasno±ci warunkowej warto±ci oczekiwanej dla momentu i otrzymujemy,»e warto± funkcji Bellmana jest równa V N i y i = inf {u T u i Ri + C T K i+1 C u i + Ay i + d T L i+1 + M i+1 i 2u T i C K T i+1 Ay i + d + 1 2 L i+1 + y i a T Q i y i a + Ay i + d T K Ay i + d + tr K i+1 σσ T }. 3.69
118 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... Zatem, optymalne sterowanie w chwili i jest równe u i = Ri + C T Ki+1 C 1 C T K i+1 Ay i + d + 1 2 L i+1. 3.70 Podstawiaj c 3.70 do 3.69 otrzymujemy V N i y i = a T Q i a + d T K i+1 d + d T L i+1 + M i+1 + tr K i+1 σσ T K i+1 d + 1 T 2 L i+1 C Ri + C T Ki+1C 1 C T K i+1 d + 1 2 L i+1 + yi T Q i + A T K i+1 A A T Ki+1C T Ri + C T Ki+1 C 1 C T K i+1 A + yi T A T 2K i+1 d + L i+1 2Q i a A T Ki+1C T Ri + C T Ki+1 C 1 C T 2K i+1 d + L i+1 = y T i K i y i + y T i L i + M i, y i gdzie K i, L i, M i s dane wzorami 3.643.66. Uwaga 3.13 Twierdzenie 3.4 podaje sposób konstrukcji optymalnego sterowania dla systemu liniowego 3.56 z losowym horyzontem niezale»nym od stanów systemu. Przedstawione rozwi zanie mo»na wykorzysta dla zadania z horyzontem ustalonym. Zarówno dla horyzontu deterministycznego N, jak i dla horyzontu losowego τ : Ω {0, 1, 2,..., N} optymalne sterowanie u i, 0 i N 1 systemem 3.56 jest dane wzorem 3.67, oczekiwany koszt sterowania wynosi V0 N y 0 = y0 T K 0y 0 + y0 T L 0 + M 0. Do wyznaczenia ci gów {K i } 0 i N, {L i } 0 i N, {M i } 0 i N patrz wzory 3.643.66 dla zadania z losowym horyzontem przyjmujemy Q i = P τ = i Q dla 0 i N, R i = P τ > i R dla 0 i N 1. Dla zadania z horyzontem ustalonym N przyjmujemy P τ = N = 1, zatem Q N = Q, natomiast dla 0 i N 1 macierz Q i jest macierz zerow oraz R i = R.
3.4. Optymalne sterowanie liniowo-kwadratowe z losowym horyzontem 119 Przykªad 3.3 Niech liniowy system stochastyczny b dzie okre±lony za pomoc równania y i+1 = y i Cu i + σw i+1, 3.71 gdzie y i, u i R 2 dla i N 0 oraz {w i } i 1 b dzie ci giem niezale»nych wektorów losowych w i : Ω R 2 o rozkªadzie normalnym N 0, I 2, gdzie 0 = col 0, 0 R 2 wektorem zerowym, I 2 R 2 2 macierz jednostkow. Zadanie polega na przeprowadzeniu systemu 3.71 ze stanu y 0 do celu a w czasie losowym τ : Ω {0, 1,..., N}. Poni»ej zakªadamy,»e horyzont sterowania τ jest zmienn losow o rozkªadzie dwumianowym z prawdopodobie«stwem sukcesu 0 s 1 oraz N = 10. Rozwi zuj c zadanie 3.3 dla wska¹nika jako±ci 3.58 reprezentuj cego caªkowity koszt sterowania wyznaczymy optymalne sterowanie systemem 3.71. Z twierdzenia 3.4 wynika,»e je»eli det Ri + C T Ki+1 C 0 dla i = 0, 1,..., N 1, to optymalne sterowanie dla momentów 0 i N 1 jest dane wzorem u i = Ri + C T Ki+1 C 1 C T K i+1 y i a, 3.72 gdzie K i = Q i + K i+1 K T i+1c Ri + C T Ki+1 C 1 C T K i+1 3.73 oraz K N = Q N, natomiast macierze R i i Q i s dane wzorami 3.593.60, R i = 1 2 Ri + Ri T, Ki+1 = 1 2 Ki+1 + Ki+1 T oraz p i = N s i 1 s N i. i Zarówno macierze R i = R i s, Q i = Q i s, K i = K i s, jak i optymalne sterowanie u i = u i s zale» od prawdopodobie«stwa sukcesu 0 s 1. Warto±ci funkcji Bellmana s równe V N i y i, s = y i a T K i y i a + N tr K j σσ T 3.74 j=i+1
120 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... dla 0 i N 1 oraz V N N y N, s = y N a T K N y N a. Najmniejszy oczekiwany koszt sterowania wynosi inf J N u = V0 N y 0, s = y 0 a T K 0 y 0 a + u U N tr K j σσ T. 3.75 j=1 Wielko± N tr K j σσ T reprezentuje dodatkowy koszt zwi zany z wyst powaniem zaburze«zewn trznych w systemie 3.71. Poni»ej przyjmujemy macierze R =, Q =, C =, [ ] [ ] [ ] 0.7 0.02 0.9 0.03 1.3 0.7 0.02 0.5 0.03 1.4 0.2 2 [ ] 0.5 0.02 σ =, stan pocz tkowy oraz stan docelowy s równe 0.03 0.9 [ ] [ ] 0 120 y 0 =, a = odpowiednio. Rysunek 3.2 przedstawia symulacje 0 75 trajektorii systemu 3.71 przy zastosowaniu sterowania 3.72 dla prawdopodobie«stw sukcesu s = 0.1, 0.2,..., 1. Dla s = 1 mamy klasyczne zadanie z ustalonym horyzontem N. Z rysunku 3.2 widzimy,»e system równomiernie pokonuje ±cie»k z punktu y 0 do punktu a realizacje ci gu {y i } 0 i N s równomiernie rozªo»one na drodze od y 0 do celu a. Je»eli 0 < s < 1, to system 3.71 wi ksze odlegªo±ci pokonuje na pocz tku, a nast pnie jest dosterowywany do celu a. Im mniejsze prawdopodobie«stwo sukcesu s, tym wi ksze s nakªady energetyczne zwi zane ze sterowaniem w momentach pocz tkowych. Dla ustalonego y 0 oraz celu a warto±ci oczekiwanych kosztów sterowania V N 0 y 0, s najmniejsze warto±ci dla wska¹nika jako±ci 3.75 dla ró»nych wielko±ci prawdopodobie«stwa sukcesu s przedstawia rysunek 3.3. Uwaga 3.14 Analizuj c zachowanie prostego systemu liniowego mo»emy stwierdzi : nie mo»na bezpo±rednio wykorzysta warto±ci sterowa«wyznaczonych dla zada«z horyzontem deterministycznym do zada«z losowym hory- j=1
3.4. Optymalne sterowanie liniowo-kwadratowe z losowym horyzontem 121 zontem z uwagi 3.12 wynika,»e prawa sterowania s konstruowane w sposób podobny, natomiast warto±ci sterowa«s ró»ne!; warto±ci sterowa«podczas transformacji systemu ze stanu y i do y i+1, 0 i N dla systemów z horyzontem losowym s zdecydowanie wi ksze w pocz tkowych momentach sterowa«ni» na ko«cu horyzontu, natomiast dla systemów z horyzontem deterministycznym warto±ci sterowa«s równomiernie rozªo»one w czasie na caªej trajektorii; dla systemów z losowym horyzontem warto±ci sterowa«s wi ksze do momentu [Eτ] [ ] oznacza cz ± caªkowit z liczby oraz do tego momentu system w znacznym stopniu realizuje cel sterowania prawie tra- a do punktu a, natomiast po momencie [Eτ] warto±ci sterowa«s mniejsze oraz koszty s ponoszone gªównie z powodu zaburze«wyst puj cych w systemie po przekroczeniu momentu [Eτ] system praktycznie oscyluje dookoªa punktu docelowego a. Rysunek 3.2: Symulacje zachowa«systemu liniowego z losowym horyzontem o rozkªadzie dwumianowym.
122 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... Rysunek 3.3: Zale»no± kosztu sterowania z losowym horyzontem o rozkªadzie dwumianowym od prawdopodobie«stwa sukcesu s. 3.4.2 Optymalne sterowanie dla losowego horyzontu o przeliczalnej liczbie realizacji Zaªó»my,»e horyzont sterowania systemem 3.56 jest okre±lony za pomoc zmiennej losowej τ o przeliczalnej liczbie realizacji, tzn. τ : Ω N 0 oraz P τ = k = p k, 0 p k 1 dla 0 k N, p i = 1. Na pocz tek oszacujemy warto± oczekiwan wska¹nika jako±ci 3.57 oraz deniujemy J u = EJ τ u. Ze wzorów 3.383.39 mamy J u = E i=0 i=0 u T i R i u i + y i a T Q i y i a, 3.76 gdzie R i, Q i dla 0 i N s dane wzorami 3.593.60. Ze wzoru 3.76 wynika,»e oczekiwany koszt sterowania w chwili 0 j < jest równy sumie kosztów P τ > j u T j Ru j oraz P τ = j y j a T Q y j a. Rozwi zuj c zadanie 3.40 dla wska¹nika jako±ci, który jest okre- ±lony wzorem 3.76, wyznaczamy prawa optymalnego sterowania systemem
3.4. Optymalne sterowanie liniowo-kwadratowe z losowym horyzontem 123 3.56. Dla dowolnego momentu j N 0 deniujemy funkcj Bellmana Vj y j = infe u T u j R j u j + y j a T Q j y j a + V j+1 y j+1 F j. j Zgodnie z powy»szym otrzymujemy 3.77 inf u U J u = V 0 y 0. Steruj c systemem 3.56 z losowym horyzontem τ : Ω N 0 nale»y zastosowa sterowanie u 0, u 1..., τ 1 u u = u 0, u 1,..., gdzie u jest rozwi - zaniem zadania 3.40, zatem J u = inf J u. u U Bezpo±rednio rozwi zanie zadania 3.40 z horyzontem niesko«czonym jest nierealistyczne. Zadanie3.40 zast pujemy zadaniem z horyzontem sko«czonym 3.48, rozwi zuj c które wyznaczymy εoptymalne sterowania. Wska¹nik jako±ci deniujemy w sposób nast puj cy J N u N 1 =E N 1 i=0 u T i R i u i + y i a T Q i y i a + y N a T Q N y N a. 3.78 Aby rozwi za zadanie 3.48 dla wska¹nika jako±ci 3.78 najpierw nale»y ustali odpowiedni horyzont N, po osi gni ciu którego system biernie ewaluuje nie sterujemy dalej obiektem oraz od momentu N oczekiwany koszt sterowania VN y N nie przekroczy ustalonego ε > 0. Powstaje zatem problem doboru odpowiedniego horyzontu dla zadania 3.48. Ze wzoru 3.77 otrzymujemy,»e dla dowolnego u U speªniona jest nierówno± y N a T Q N y N a < VN y N E u T i R i u i + y i a T Q i y i a F N. i=n
124 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... Dla dowolnego ε > 0 wyznaczamy horyzont sterowania N, dla kórego speªniona jest nierówno± E i=n u T i R i u i + y i a T Q i y i a F N < ε. Nierówno± powy»ej speªniona jest równie» i dla optymalnego sterowania u. Uwaga 3.15 Najwi kszy koszt sterowania systemem 3.56 ponosimy dla zadania z horyzontem N = 1, inf E u T Ru + y 1 a T Q y 1 a, 3.79 u U natomiast najwi kszy koszt dziedziczenia ponosimy dla zadania z horyzontem N = 0. równe Dla zadania 3.79 optymalne sterowanie systemem 3.56 jest ú = R + C T QC 1 C T Q Ay 0 + d a. Niech dla zadania 3.40 ze wska¹nikiem jako±ci 3.76 wielko±ci U c i U h oznaczaj górne ograniczenia funkcjonaªów kosztów sterowania u T i R iu i i dziedziczenia y i a T Q i y i a, i N 0 odpowiednio. Zgodnie z uwag powy»ej warto±ci U c i U h speªniaj nierówno±ci ú T Rú U c <, 3.80 y 0 a T Q y 0 a U k <. 3.81 Korzystaj c z lematu 3.3 dla dowolnego ε > 0 ustalamy horyzont sterowania N N ε, gdzie N ε = min s N s 1 0 : U c Eτ s + P τ j + U h P τ s ε. j=0 3.82 Zatem dla dowolnego N N ε i optymalnego sterowania u zachodzi nierówno± J u J N 1 u N 1 VN y N < ε.
3.4. Optymalne sterowanie liniowo-kwadratowe z losowym horyzontem 125 Dla ustalonego N rozwi zuj c zadanie zast pcze 3.48, gdzie wska¹nik { } jako±ci jest dany wzorem 3.78, otrzymujemy ci g sterowa«u j. 0 j N 1 Sposób wyznaczenia ci gu sterowa«optymalnych podaje twierdzenie 3.4, natomiast jako ε optymalne sterowanie dla zadania 3.40 przyjmujemy u ε = u 0, u 1,..., u N 1, 0, 0,..., gdzie 0 = col 0,..., 0 R l. Uwaga 3.16 Dla horyzontu N speªniaj cego warunek 3.82 zachodzi nierówno± V 0 y 0 V N 0 y 0 < ε, gdzie V 0 y 0 jest dane wzorem 3.76, natomiast V N 0 y 0 speªnia 3.61. Uwaga 3.17 Dla systemu liniowego 3.56 z losowym horyzontem o przeliczalnej liczbie realizacji ε optymalne sterowania dla momentów 0, 1,..., N 1 wyznaczamy jak dla zadania z losowym horyzontem τ : Ω {0, 1,..., N} o sko«czonej liczbie realizacji, gdzie dla horyzontu N speªniony jest warunek 3.82. Przykªad 3.4 Rozwa»amy problem sterowania liniowym systemem stochastycznym, który jest okre±lony za pomoc równania 3.71. Zadanie polega na przeprowadzeniu systemu 3.71 ze stanu y 0 do celu a w czasie losowym τ : Ω N 0, gdzie horyzont sterowania τ jest zmienn losow o rozkªadzie Poissone'a z intensywno±ci λ = 10. Przyjmujemy,»e macierze R, Q, C, σ, stan pocz tkowy y 0 oraz cel a s identyczne jak dla przykªadu 3.3. Stosownie do postawionego problemu wyznaczymy ε optymalne sterowanie systemem 3.71 z losowym horyzontem o rozkªadzie Poissone'a. W tym celu rozwi zujemy zadanie 3.48 oraz zakªadamy,»e ró»nica pomi dzy wska¹nikami jako±ci 3.76 i 3.78 nie przekracza ε > 0. Korzystaj c ze wzorów 3.803.81 szacujemy ograniczenia dla funkcjonaªu kosztu sterowania oraz funkcjonaªu dziedziczenia, które ustalamy na poziomie U c = 2407.2 i U h = 21375 odpowiednio. Nast pnie okre±lamy horyzont N N ε, moment do którego co najwy»ej podejmujemy dziaªania steruj ce, natomiast od momentu N system zachowuje si w sposób bierny u j = col 0, 0 dla j N. Wielko± N ε szacujemy korzystaj c ze wzoru 3.82. Tabela 3.1 podaje warto±ci N ε w zale»no±ci od ε maksymalna dopuszczalna ró»nica pomi dzy wska¹nikami jako±ci dla horyzontu niesko«czonego
126 3. Optymalne sterowanie adaptacyjne dla horyzontu losowego... i sko«czonego 3.76 i 3.78 odpowiednio. Twierdzenie 3.4 podaje sposób wyznaczenia ci gu optymalnych sterowa«{u i } 0 i N 1 dla ustalonego horyzontu N. Tabela 3.1: Warto±ci horyzontu N dla εoptymalnych sterowa«. ε 0.1 0.01 0.001 10 4 10 5 10 6 10 7 10 8 N 27 29 31 33 35 37 38 40 Rysunek 3.4: Symulacje zachowa«systemu liniowego 3.71 z losowym horyzontem o rozkªadzie Poissone'a z intensywno±ci λ = 10 oraz dokªadno±ci wska¹nika jako±ci ε = 0.001. Poni»ej przyjmujemy ε = 0.001 oraz rozwi zujemy zadanie 3.48 dla N = 31 patrz tabela 3.1. Korzystaj c ze wzorów 3.723.73 wyznaczamy ε optymalne sterowanie u ε = u 0, u 1,..., u 30, 0, 0,... Macierze R j i Q j dla 0 j N s okre±lone za pomoc 3.593.60 odpowiednio oraz λ λj p j = e j!, natomiast ci g macierzy {K i } 0 i N 1 speªnia równanie 3.73 z warunkiem
3.4. Optymalne sterowanie liniowo-kwadratowe z losowym horyzontem 127 pocz tkowym K N = Q N. Rysunek 3.4 przedstawia symulacj trajektorii systemu 3.71. Identycznie jak dla problemu opisanego w przykªadzie 3.3 mo»emy stwierdzi,»e sterowania systemem 3.71 nie s równomiernie rozªo»one w czasie. Dla systemów z horyzontem losowym odlegªo±ci pomi dzy stanami y i i y i+1 s zdecydowanie wi ksze w pocz tkowych momentach sterowa«, natomiast z upªywem czasu malej. Dla systemów z losowym horyzontem warto±ci sterowa«s wi ksze do momentu [Eτ] [ ] oznacza cz ± caªkowit z liczby oraz po momencie [Eτ] system praktycznie oscyluje dookoªa punktu docelowego a.
Rozdziaª 4 Optymalne zatrzymanie systemów sterowanych W zadaniach optymalnego sterowania przyj cie ustalonego horyzontu N horyzontu niezale»nego od wyników sterowania nie prowadzi do adekwatnego modelowania sytuacji, czasami uniemo»liwia osi gni cie lepszych efektów. Problem wyznaczenia optymalnego horyzontu dla systemu sterowanego w literaturze jest nazywany zadaniem optymalnoczasowym patrz np. [14], [105]. W rozdziale drugim niniejszej pracy patrz rozdziaª 2.2.5 pokazany zostaª wpªyw horyzontu sterowania na warto± wska¹nika jako- ±ci. Horyzont sterownia zostaª zdeniowany jako zmienna deterministyczna. Warto± tej zmiennej wyznaczamy wybieramy ze zbioru mo»liwych momentów przed rozpocz ciem sterowania obiektem. W tym przypadku horyzont sterowania zale»y od stanu pocz tkowego. Wydaje si,»e najbardziej racjonalnym podej±ciem jest uzale»nienie czasu sterowania systemem obiektem od bie» cych stanów systemu. Na przykªad w pracach [76], [77] horyzont sterowania jest okre±lony jako moment, dla którego stan systemu znajduje si w s siedztwie pewnego celu punktu, powierzchni, lub moment, dla którego stan systemu speªnia okre- ±lone warunki. Od strony praktycznej jest to rozs dne i uzasadnione. W pracach typu self-learning, data mining, rozpoznawania obrazów, trenowania sieci neuronowych czy te» w problemach sztucznej inteligencji przyj- 129
130 4. Optymalne zatrzymanie systemów sterowanych muje si,»e czas uczenia si systemu zale»y od otrzymanych wyników. Steruj c systemem ponosimy koszty, ale z drugiej strony obserwuj c reakcj systemu na impuls steruj cy poznajemy jego dziaªanie. Oczywi±cie im dªu»ej sterujemy, tym dokªadniej mo»emy pozna zachowanie systemu, ale równie» ponosimy wi ksze koszty. Powstaje zatem pytanie: jak dªugo powinni±my sterowa systemem? Wskazane jest aby zatrzyma system w pierwszym momencie uzyskania satysfakcjonuj cych rezultatów patrz np. [8], [9], [10], [15]. Zatem»eby lepiej zrealizowa cel w zadaniach optymalnego sterowania nale»y uwzgl dni mo»liwo± zatrzymania systemu procesu sterowania systemem. Wobec powy»szego w ka»dym momencie oprócz wyznaczenia optymalnego sterowania nale»y równie» podj decyzj odno±nie kontynuowania b d¹ zatrzymania sterowania tym systemem. Zadania tego typu nazywamy zadaniami optymalnego sterowania ze stopowaniem systemu stochastycznego. Oprócz zadania optymalnego sterowania równolegle nale»y rozwi zywa zadanie optymalnego stopowania. Podobnie jak w rozdziale 3, równie» i w tym przypadku horyzont sterowania nie jest znany losowy, nie mniej jednak w rozwa»anym przypadku horyzont sterowania zale»y od stanów systemu. Problem optymalnego zatrzymania procesów losowych zarówno z czasem ci gªym, jak i z czasem dyskretnym jest dobrze znany w probabilistyce, nansach, teorii gier, teorii sterowania np. [22], [31], [33], [45], [53], [56], [70], [102], [122]. Problem optymalnego stopowania wyst puje równie» w zadaniach sterowania systemami stochastycznymi np. [39], [42], [43], [46]. Zadanie polega na wyznaczeniu momentu zatrzymania systemu, dla którego wska¹nik jako±ci osi ga warto± ekstremaln. Zatem w ka»dym momencie nale»y odpowiedzie na pytanie: czy system powinien by dalej sterowany? W przypadku odpowiedzi twierdz cej nale»y dodatkowo poda wielko± sterowania systemem. W tym rozdziale przedstawione zostan dwa podej±cia rozwi zania wy»ej omówionego problemu. Jedno z nich polega na mo»liwo- ±ci stopowania zatrzymania procesu przy pomocy sterowania. To podej±cie zostaªo zaproponowane w pracach [8], [9], [61]. Podej±cie drugie oparte jest na konstrukcji koperty Snell'a patrz np. [51], [52], [64], [65], [122], [123].
4.1. Postawienie zadania 131 4.1 Postawienie zadania Niech Ω, F, P b dzie przestrzeni probabilistyczn. Na przestrzeni probabilistycznej deniujemy ci g niezale»nych wektorów losowych {w i } i 1 o rozkªadzie normalnym N 0, I m, gdzie w i : Ω R m dla i 1, 0 R m jest wektorem zerowym, natomiast I m R m m macierz jednostkow. Niech ξ : Ω R k oraz y 0 : Ω R n b d wektorami losowymi o rozkªadach P dξ i P dy 0 odpowiednio. Wektor ξ oznacza nieznane parametry systemu, natomiast y 0 oznacza stan pocz tkowy systemu je»eli y 0 jest wektorem deterministycznym, to wystarczy przyj,»e y 0 ma rozkªad punktowy. Zakªadamy,»e wszystkie wymienione objekty s stochastycznie niezale»ne. stanu Rozwa»amy problem sterowania systemem stochastycznym o równaniu y i+1 = fξ, y i, u i + σξ, y i w i+1, 4.1 gdzie i = 0,..., N 1, y i R n, f : R k R n R l R n oraz σ : R k R n R n m. Zakªadamy,»e funkcje f, σ s ci gªe wzgl dem wszystkich argumentów. Wektor u j R l mierzalny wzgl dem σciaªa F j oznacza dziaªanie steruj ce w chwili j N 0, natomiast ci g u = {u t } t 0 sterowanie dopuszczalne. Klas sterowa«dopuszczalnych oznaczamy przez U. Na przestrzeni probabilistycznej Ω, F, P deniujemy niemalej ce rodziny { } σ ciaª {F i } i 0 oraz F ξ i, gdzie F i = σ y 0 σ {w s : s = 1, 2,..., i}, i 0 F ξ i = F i σ ξ. Niech τ : Ω {0, 1,..., N} b dzie momentem Markowa wzgl dem rodziny σciaª F j, 0 j N oraz P τ N = 1. oznacza moment zatrzymania systemu 4.1. Zmienna losowa τ Zatem horyzont sterowania systemem jest losowy oraz nie przekracza czasu ko«cowego N. W dalszej cz ±ci monograi poj cie zatrzymanie systemu traktujemy jako zako«czenie procesu sterowania tym systemem. W rozwa»anym przypadku zatrzymujemy proces stochastyczny {y j } 0 j N, realizacje którego zale» nie tylko od parametrów ξ, ale i od sterowa«tzn. y j+1 = y j+1 ξ, u 0,..., u j dla j 0. Dla dowolnego 0 j N klas momentów Markowa o realizacjach w zbiorze {j, j + 1,..., N} oznaczamy przez T j, N. Klas wszystkich momentów
132 4. Optymalne zatrzymanie systemów sterowanych Markowa oznaczamy przez T = T 0, N. Niech funkcje g : R n R l R i h : R n R oznaczaj warto±ci strat kosztów i dziedziczenia odpowiednio. Zakªadamy,»e s one ci gªe wzgl dem swoich argumentów oraz ograniczone. Dla dowolnego horyzontu t N 0 wska¹nik jako±ci deniujemy jako sum strat lub kosztów dla momentów 0 j t 1 steruj c system 4.1 ponosimy straty koszty wielko±ci gy j, u j w chwilach 0 j t 1 oraz dziedziczenia hy t dla momentu t. Caªkowity koszt sterownia J u, t systemem 4.1 jest równy J u, t = E t 1 gy i, u i + hy t. 4.2 i=0 Gªównym celem sterowania jest minimalizacja caªkowitych kosztów sterowania 4.2. System 4.1 mo»e by zatrzymany w dowolnym momencie nie przekraczaj cym czasu ko«cowego N. Aby optymalnie sterowa tym systemem nale»y rozwi za zadanie inf J u, τ. 4.3 u,τ U T Rozwi zanie zadania 4.3 polega na wyznaczeniu optymalnego momentu stopu τ oraz sterowania u = u 0,..., u τ 1, dla którego inmum jest osi - gni te. Problem optymalnego sterowania ze stopowaniem systemu stochastycznego jest zªo»ony, wymaga rozwi zywania dwóch zada«jednocze±nie: zadania optymalnego sterowania i zadania optymalnego stopowania. Zatem w ka»dym momencie decyzyjnym nale»y odpowiedzie na pytania: czy system powinien by sterowany oraz jakie jest optymalne sterowanie. Poni»ej przedstawione zostan dwa sposoby rozwi zania zadania 4.3. Jeden z nich polega na modykacji wska¹nika jako±ci poprzez zast pienie zmiennej okre±laj cej moment stopu zmienn steruj c. Jest to podej±cie zaproponowane przez T. Banka i E. Kozªowskiego patrz [8], [9], [15]. Rozwi zanie tak zmodykowanego zadania nie wymaga wykorzystania narz dzi dotycz cych optymalnego zatrzymania procesów losowych klasyczna, czysto probabilistyczna metoda nie jest rozwa»ana w tym przypadku.
4.2. Optymalne zatrzymanie systemu przy pomocy sterowania 133 Inny sposób rozwi zania zadania 4.3 polega na wykorzystaniu zagadnienia optymalnego stopowania procesów stochastycznych. Jest to klasyczne podej±cie proponowane w matematycznych monograach. Podej±cie to wymaga konstrukcji koperty otoczki Snell'a jako najmniejszego nadmartyngaªu najwi kszego podmartyngaªu dominuj cego zatrzymywany proces. Dowodzi si,»e optymalny moment stopu jest pierwszym momentem zrównania si procesów dominuj cego zdominowanego i stopowanego. W odró»nieniu od klasycznej teorii optymalnego stopowania procesu stochastycznego w zadaniu optymalnego sterowania ze stopowaniem 4.3 nale»y stopowa nie jeden proces, lecz rodzin procesów indeksowanych sterowaniem. Oznacza to konstrukcj nie jednej koperty Snell'a, lecz caªej ich rodziny. Dopiero z tej rodziny nale»y wybra otoczk. Czas optymalnego zatrzymania systemu 4.1 jest to moment przeci cia wska¹nika jako±ci 4.2 z wybran otoczk. 4.2 Optymalne zatrzymanie systemu przy pomocy sterowania 4.2.1 Zamiana stopowania na sterowanie Poni»ej wprowadzamy ide zamiany stopowania na sterowanie oraz sformuªujemy problem równowa»ny dla zadania 4.3. Metoda stopowania procesu przy pomocy sterowania polega na rozszerzeniu wektora sterowania o zmienn binarn. Modykujemy poj cie sterowania jak nast puje. F j mierzalny proces u = θ, u nazywamy rozszerzonym sterowaniem dopuszczalnym, gdzie θ = θ 0, θ 1,..., θ N 1, dla 0 i N 1 oraz u = u 0, u 1,..., u N 1. W ka»dym momencie i decyzja θ i y 0, y 1,..., y i : R n i+1 {0, 1} o zatrzymaniu systemu 4.1 zale»y od trajektorii y 0, y 1,..., y i tego systemu do momentu i. Wektor θ : Ω {0, 1} N oznacza sterowanie decyzyjne dotycz ce zatrzymania systemu 4.1, natomiast u sterowanie dopuszczalne. Je»eli w momencie i kontynuujemy sterowanie systemem 4.1, to przyjmujemy θ i = 1. Je»eli w momencie i zatrzymujemy system 4.1, to przyjmujemy
134 4. Optymalne zatrzymanie systemów sterowanych θ i = 0 oraz θ j = 0 dla i < j N 1. Klas sterowa«dopuszczalnych rozszerzonych oznaczamy przez U. Zmienn opisuj c moment stopu τ w zadaniu 4.3 zast pujemy wektorem steruj cym θ w sposób nast puj cy: je»eli τ ω = k to przyjmujemy θ = θ 0, θ 1,..., θ N 1, gdzie { 1, dla 0 i k 1 θ i = 0, i k. Niech dla 0 i j < N. ψj i θ i θ s, dla i j, s=j 1, dla i < j 4.4 Uwaga 4.1 Je»eli system 4.1 jest sterowany do momentu 0 j < N 1 oraz zatrzymany w momencie j + 1, to θ i = ψ i 0 θ = { 1, dla 0 i j, 0, dla j < i < N. Koszt sterowania w momencie i {0, 1,..., N 1} jest równy φ i θ i, y i, u i = θ i gy i, u i + 1 θ i h y i. 4.5 Oznacza to,»e je»eli w momencie 0 i < N zmienna θ i = 1, to ponosimy koszt sterowania wielko±ci gy i, u i, w przeciwnym razie θ i = 1 ponosimy tylko koszt dziedziczenia h y i. Analizuj c koszt sterowania systemem 4.1 deniujemy wska¹nik jako±ci dla caªego horyzontu N. Wobec powy»szego oczekiwany caªkowity koszt sterowania jest równy J u = E N 1 i=0 φ i θ i, y i, u i ψ i 1 0 θ + h y N ψ N 1 0 θ, 4.6 gdzie z 4.4 mamy ψ 1 0 θ = 1. W rozwa»anym przypadku horyzont losowy
4.2. Optymalne zatrzymanie systemu przy pomocy sterowania 135 τ w zadaniu 4.3 zostaje zast piony poprzez wektor sterowa«decyzyjnych θ = θ 0, θ 1,..., θ N 1. Zmianie ulega równie» i wska¹nik jako±ci 4.2. Modykacja polega na wymno»eniu w ka»dym momencie 0 i < N kosztu sterowania φ i zale»nego od zmiennej decyzyjnej θ i danego wzorem 4.5 przez ψ i 1 0 θ oraz funkcji dziedziczenia h poprzez ψ N 1 0 θ. Po dokonanej modykacji wska¹nika 4.6 rozwa»amy klasyczne zadanie z ustalonym horyzontem N. Aby wyznaczy± optymalne prawa sterowania dla systemu 4.1, gdzie w ka»dym momencie 0 i < N dodatkowo podejmujemy decyzj odno±nie kontynuacji b d¹ zaprzestania sterowania tym systemem, nale»y rozwi za zadanie inf J u. 4.7 u U 4.2.2 Wyznaczenie optymalnego sterowania i momentu zatrzymania Zadanie 4.7 jest to zadanie sterowania adaptacyjnego, które jest po- ª czone z problemem stopowania w momencie losowym nie wi kszym ni» N. Je»eli system zostanie zatrzymany w momencie N, wtedy wektor sterowania decyzyjnego jest równy θ = 1, 1,..., 1 tzn. θ i = 1 dla ka»dego i {0, 1,..., N 1} oraz min {i : θ i = 0, 0 i N 1} =. Zgodnie z konstrukcj wska¹nika jako±ci 4.6 moment zatrzymania systemu 4.1 jest równy τ = min min {i : θ i = 0, 0 i N 1}, N. Dla zadania 4.7 podane zostan warunki konieczne optymalno±ci oraz algorytm prowadz cy do wyznaczenia optymalnego sterowania i momentu stopu. Uwaga 4.2 Zast puj c problem 4.3 zadaniem 4.7 dokonujemy zamiany problemu sterowania adaptacyjnego z losowym horyzontem na równowa»ny problem sterowania adaptacyjnego z ustalonym horyzontem ale dla zmodykowanego wska¹nika jako±ci, z tym»e sterowanie dopuszczalne rozszerzamy o zmienn decyzyjn dotycz c zatrzymania systemu. Twierdzenie 4.1 Niech funkcje g : R n R l R i h : R n R s ci gªe, wypukªe i ograniczone, funkcje f : R k R n R l R n i g : R n R l R s funkcjami klasy C 1 ze wzgl du na zmienn steruj c
136 4. Optymalne zatrzymanie systemów sterowanych u R l oraz det Σ ξ, y 0 dla ξ, y R k R n, gdzie Σξ, y = σξ, yσ T ξ, y. Je»eli u = θ, u jest rozszerzonym optymalnym sterowaniem systemem 4.1 dla zadania 4.7, to dla dowolnego j 0, 1,..., N 1: 1. warunekiem koniecznym optymalnego sterowania w momencie j jest speªnie równania uj g j y j, u j + E N 1 i=j+1 φ i θi, y i, u i ψj+1 i 1 θ + h y N ψj+1 N 1 θ y j+1 fξ, y j, u j Σ 1 ξ, y j u f ξ, y j, u j Fj } = 0, 4.8 gdzie 0 = col 0,..., 0 R l oraz ψj i θ dla 0 i j < N jest dane wzorem 4.4; 2. warto± zmiennej decyzyjnej θ j jest równa θ j = { 1, dla Z N j y 0,..., y j + g j y j, u j h y j, 0, w przeciwnym razie, 4.9 gdzie Z N j y 0,..., y j = E N 1 i=j+1 φ i θi, y i, u i ψj+1 i 1 θ + h y N ψj+1 i 1 θ F j 4.10. Dowód. Korzystaj c z wªasno±ci warunkowej warto±ci oczekiwanej dla dowolnego j {0, 1,..., N 1} funkcjonaª 4.6 mo»emy przedstawi w postaci J u = E E j i=0 N 1 i=j+1 φ i θ i, y i, u i ψ i 1 0 θ + ψ j 0 θ φ i θ i, y i, u i ψ i 1 j θ + h y N ψ N 1 j θ F j. 4.11
4.2. Optymalne zatrzymanie systemu przy pomocy sterowania 137 Zatem j i 1 Ju = φ i θ i, y i, u i θ l P dξ, dy 0,.., dy j i=0 + j θ l l=0 N 1 l=0 i=j+1 φ i θ i, y i, u i i 1 l=j+1 N 1 θ l + h y N P dy j+1,.., dy N P dξ, dy 0,.., dy j, 4.12 l=0 θ l gdzie rozkªady ª czne P dξ, dy 0,..., dy j i P j+1,n dy j+1,..., dy N s dane wzorami 2.52.6. Niech u = θ, u oznacza sterowanie optymalne, gdzie u bezpo±rednie sterowanie systemem, θ optymalne sterowanie decyzyjne dotycz ce zatrzymania systemu 4.1. Ustalamy liczb 0 j < N 1 reprezentuj c moment w którym podejmujemy decyzj. Przyjmujemy u = u + ɛv, gdzie ɛ > 0, natomiast v : R n j+1 R l N, v = 0,..., 0, ṽ j, 0,..., 0, 0 = col 0,..., 0 R l, gdzie ṽ j : R n j+1 R l, ṽ j = col v 1,..., v l oraz v s = v s y 0,..., y j : R n j+1 R l dla 1 s l s dowoln funkcj borelowsk. Warunek konieczny istnienia optymalnego sterowania systemem 4.1 dla momentu j {0, 1,,..., N 1} jest dany wzorem Korzystaj c z rozwini cia 4.12 otrzymujemy ɛ Jθ, u + ɛv = i 1 l=j+1 θ l + h y N j 1 θl l=0 N 1 l=j+1 ɛ Jθ, u + ɛv = 0. 4.13 ɛ=0 θ l θ j uj g j y j, u j + θ j N 1 i=j+1 φ i θ i, y i, u i u P dy j+1,.., dy N, ṽ j P dξ, dy 0,.., dy j. 4.14
138 4. Optymalne zatrzymanie systemów sterowanych Ze wzorów 2.5-2.6 mamy u P dy j+1,.., dy N = y j+1 fξ, y j, u j Σ 1 ξ, y j u fξ, y j, u jp dy j+1,.., dy N. 4.15 Podstawiaj c 4.15 do 4.14 oraz korzystaj c z warunku 4.13 otrzymujemy N 1 g uj jy j, u j + i=j+1 y j+1 fξ, y j, u j Σ 1 ξ, y j u fξ, y j, u j φ i θi, y i, u i ψj+1 i 1 θ + h N y N ψj+1 N 1 θ θ j P dy j+1,.., dy N, ṽ j ψ i 1 0 θ P dξ, dy 0,.., dy j = 0. 4.16 Warunek 4.16 powinien by speªniony dla dowolnego ṽ j = col v 1,..., v l, gdzie v s = v s y 0,..., y j : R n j+1 R l dla 1 s l oraz θj s funkcjami borelowskimi mierzalnymi wzgl dem σciaªa F j. Wobec powy»szego, je»eli w momencie j {0, 1,..., N 1} kontynuujemy sterowanie systemem 4.1 oraz θj = 1, to optymalne sterowanie u j, 0 j N 1 speªnia warunek 4.8. Je»eli dla momentu j {0, 1,..., N 1} speªniony jest warunek J 1,..., 1, 1, θ j+1,..., θ N 1, u J 1,..., 1, 0, θ j+1,..., θ N 1, u, 4.17 to zatrzymujemy system 4.1 oraz przyjmujemy θj = 0, poniewa» w przypadku kontynuacji sterowania zostan poniesione wi ksze koszty ni» w przypadku zatrzymania systemu. Nierówno± 4.17 oznacza,»e w momencie j nie ma szans na popraw wska¹nika jako±ci w przyszªo±ci. Je»eli nierówno± 4.17 nie jest speªniona, to przyjmujemy θj = 1 oraz kontynuujemy sterowanie systemem 4.1. Warunek 4.9 bezpo±rednio wynika z 4.17. Uwaga 4.3 Od strony praktycznej dla ka»dego momentu 0 j < N wyznaczamy najpierw sterowanie u j, które speªnia warunek 4.8, a nast pnie ze wzoru 4.9 wyznaczamy θj. Je»eli w momencie j okazuje si»e θ j = 1, to stosujemy sterowanie u j, w przeciwnym razie nie sterujemy obiektem.
4.2. Optymalne zatrzymanie systemu przy pomocy sterowania 139 4.2.3 Algorytm wyznaczenia optymalnego sterowania i momentu zatrzymania Rozwi zanie zadania 4.7 optymalnego sterowania z zatrzymaniem systemu 4.1 polega na wyznaczeniu ci gu rozszerzonych sterowa«{θi, u i } 0 i<n, gdzie optymalne sterowanie u i speªnia równanie 4.8, natomiast warto± zmiennej decyzyjnej θi odno±nie kontynuacji sterowania jest dana wzorem 4.9. Poni»ej przedstawiony zostanie algorytm wyznaczenia optymalnych sterowa«systemem 4.1 oraz decyzji dotycz cych zatrzymania tego systemu. Do wyznaczenia sterowa«i momentu zatrzymania wykorzystana zostanie zasada programowania dynamicznego wstecz. Dla dowolnego j {0,..., N 1} funkcjonaª 4.6 mo»emy przedstawi w postaci J θ, u = E j 1 i=0 g y j, u j + E φ i θ i, y i, u i ψ0 i 1 θ + ψ j 1 0 θ h y j 1 θ j + θ j N 1 i=j+1 φ i θ i, y i, u i ψ i 1 j+1 θ + h y N ψ N 1 j+1 θ F j. { } Zgodnie z twierdzeniem 4.1 rozszerzone sterowanie u = θj, u j 0 j<n 1 jest optymalne, je»eli dla dowolnego 0 j N 1 sterowanie u j i decyzja θ j speªniaj warunki 4.84.9. Dla dowolnego 0 j N 1 deniujemy funkcj Bellmana W N j N 1 ξ, y 0,..., y j = E φ i θi, y i, u i ψj+1 i 1 θ + h N y N ψj+1 N 1 θ i=j F ξ j 4.18 która reprezentuje oczekiwane koszty sterowania systemem 4.1 od momentu j, w przypadku je»eli znane s parametry systemu. Korzystaj c z wªasno±ci warunkowej warto±ci oczekiwanej dla 0 j N 1 mamy Wj N ξ, y 0,..., y j = inf φ u j θ j, y j, u j + θ j E W N j j+1ξ, y 0,..., y j+1 F ξ j, θ j {0,1} 4.19,
140 4. Optymalne zatrzymanie systemów sterowanych gdzie W N N ξ, y 0,..., y N = h y N. 4.20 { } Uwaga 4.4 Niech Vj kξ, y 0,..., y j b dzie ci giem funkcji Bellmana 0 j k dla zadania 2.3 z ustalonym horyzontem k, które s zdeniowane za pomoc równa«2.142.13. Wielko± Vj kξ, y 0,..., y j zale»y od momentu j do ko«ca horyzontu sterowa«k oraz dla 0 j N 1 przyjmujemy V j j ξ, y 0,..., y j = h y j. Dla dowolnego momentu j {0, 1,..., N} warto± funkcji Bellmana Wj Nξ, y 0,..., y j jest równa W N j ξ, y 0,..., y j = min V j j ξ, y 0,..., y j,..., Vj N ξ, y 0,..., y N. 4.21 Uwaga 4.5 Wielko± W N j y 0,..., y j = E W N j ξ, y 0,..., y j F j dla 0 j N reprezentuje najmniejsze oczekiwane koszty sterowania od momentu j do zatrzymania systemu 4.1. Ci g W { } N j y 0,..., y j okre±la 0 j N wyznacza pewn otoczk najmniejszych kosztów. Zgodnie z twierdzeniem 4.1 moment zatrzymania systemu 4.1 jest równy τ = min { 0 j N : W N j y 0,..., y j = h y j }. Algorytm wyznaczenia sterowania i momentu zatrzymania 1. Deniujemy W N N ξ, y 0,..., y N = h y N. oraz przyjmujemy j = N. 2. Kªadziemy j = j 1. 3. Deniujemy W N j+1 ξ, y 0,..., y j, u j, x = W j+1 ξ, y 0,..., y j, fξ, y j, u j + σξ, y j x.
4.2. Optymalne zatrzymanie systemu przy pomocy sterowania 141 4. Wyznaczamy Zj N y 0,..., y j, u j = W N j+1ξ, y 0,..., y j, u j, xx T σ T ξ, y j Σ 1 ξ, y j u fξ, y j, u j γ x, 0 k, I k dxp dξ F j, gdzie 0 k R k jest wektorem zerowym, natomiast I k R k k macierz jednostkow. 5. Szukamy optymalne sterowanie u j, dla którego speªniony jest warunek uj gy j, u j + Z N j y 0,..., y j, u j = 0, gdzie 0 = col 0,..., 0 R l. 6. Obliczamy = Zj N y 0,..., y j = E W N j+1 ξ, y 0,..., y j, u j, w j+1 F j W j+1 N ξ, y0,..., y j, u j, w j+1 γ x, 0 k, I k dxp dξ F j. 7. Je»eli gy j, u j + Z N j y 0,..., y j h y j, = 0 oraz zatrzy- to zmienna decyzyjna θj = 1, w przeciwnym razie θ j mujemy proces sterowania systemem. 8. Wyznaczamy warto± funkcji Bellmana W N j ξ, y 0,..., y j = φ j θ j, y j, u j + θj Wj+1 N ξ, y0,..., y j, fξ, y j, u j + σξ, y j x γ x, 0 k, I k dx. 9. Je»eli j = 0 to zatrzymujemy, w przeciwnym razie wracamy do punktu 2.
142 4. Optymalne zatrzymanie systemów sterowanych 4.3 Optymalne zatrzymanie sterowanych systemów stochastycznych Rozwi zanie zadania 4.3 polega na wyznaczeniu optymalnego momentu zatrzymania τ : Ω {0, 1,..., N} dla systemu 4.1 oraz optymalnego sterowania u τ = u 0, u 1,..., u τ jednocze±nie. Aby rozwi za zadanie 4.3 nale»y zastosowa zasad optymalnego zatrzymania procesów stochastycznych z czasem dyskretnym patrz np. [33], [86], [122], [124]. Zgodnie z klasyczn zasad zatrzymania procesów losowych wyznaczenie optymalnego momentu stopu dla zadania 4.3 polega na konstrukcji koperty Snell'a, która jest okre±lona jako najwi kszy podmartyngaª dominuj cy zatrzymywany proces. Pierwszy moment, dla którego warto± procesu stochastycznego i otoczki Snell'a s równe, jest momentem zatrzymania tego procesu. Zªo»ono± zatrzymania systemu 4.1 dla zadania 4.3 polega na tym,»e zamiast jednego procesu stochastycznego nale»y rozwa»a rodzin procesów indeksowanych sterowaniem. W tym celu nale»y skonstruowa otoczk dla caªej rodziny kopert Snell'a. Jak zobaczymy poni»ej moment zatrzymania systemu 4.1 speªniaj cego cel sterowania 4.3 jest to moment zrównania si kosztu dziedziczenia jako procesu stochastycznego {h y j } 0 j N i otoczki dla rodziny kopert Snell'a. Do wyznaczenia otoczki Snell'a wykorzystamy technik programowania dynamicznego wstecz. Dla dowolnego j {0, 1,..., N 1} konstruujemy funkcj Bellmana { Sj N ξ, y 0,..., y j = inf h y j, g y j, u j + E S j+1 ξ, y 0,..., y j+1 u j z warunkiem pocz tkowym F ξ j } 4.22 S N N ξ, y 0,..., y N = h y N. 4.23 Otoczk Snell'a { Sj y 0,..., y j } dla systemu sterowanego 4.1 deniujemy w sposób nast puj cy. Dla dowolnego momentu j {0, 1,..., N 0 j N 1}
4.3. Optymalne zatrzymanie sterowanych systemów stochastycznych 143 przyjmujemy S N j y 0,..., y j = inf u j { h yj, g y j, u j + E S N j+1 ξ, y 0,..., y j+1 F j }, natomiast S N N y 0,..., y N = h y N. 4.24 Uwaga 4.6 Warto± funkcji Bellmana S N j ξ, y 0,..., y j okre±la najmniejszy mo»liwy do osi gni cia caªkowity koszt sterowania od momentu j dla przypadku, gdy znane s parametry ξ R k. Je»eli S N j ξ, y 0,..., y j jest wypukªa wzgl dem ξ, to z nierówno±ci Jensena dla dowolnego 0 j N mamy S j Ny 0,..., y j E Sj N ξ, y 0,..., y j F j. W zadaniu 4.3 moment zatrzymania τ jest momentem Markowa wzgl dem rodziny σciaª F j, 0 j N oraz P τ N = 1. Twierdzenie poni»ej podaje sposób rozwi zania tego zadania, dokªadniej sposób wyznaczenia momentu zatrzymania systemu 4.1 oraz warunek konieczny istnienia optymalnego sterowania. Twierdzenie 4.2 Niech funkcje g : R n R l R i h : R n R s ci gªe, wypukªe i ograniczone, funkcje f : R k R n R l R n i g : R n R l R s funkcjami klasy C 1 ze wzgl du na zmienn steruj c u R l oraz det Σ ξ, y 0 dla ξ, y R k R n, gdzie Σξ, y = σξ, yσ T ξ, y. Rozwi zaniem zadania 4.3 jest: 1. optymalny moment zatrzymania systemu 4.1 τ = min { 0 j N : h y j = S N j y 0,..., y j }, 4.25 gdzie S j N y 0,..., y j dla 0 j N jest dane wzorem 4.24; 2. je»eli j {0, 1,..., N 1} nie jest momentem zatrzymania, to optymalne sterowanie u j systemem 4.1 speªnia równanie u gy j, u j + E S N j+1ξ, y 0,..., y j, fξ, y j, u j + σξ, y j w j+1 y j+1 fξ, y j, u j T Σ 1 ξ, y j u fξ, y j, u j F j = 0, 4.26 gdzie 0 = col 0,..., 0 R l.
144 4. Optymalne zatrzymanie systemów sterowanych Dowód. Rozwa»my najpierw zadanie optymalnego stopowania w klasie T N, N. Optymalny moment zatrzymania wynosi τ 0 = N oraz koszt dziedziczenia w momencie N jest równy S N N y 0,..., y N = E S N N ξ, y 0,..., y N F N = h yn. W klasie T N 1, N mo»emy zatrzyma system 4.1 w chwili N 1 lub sterowa tym systemem do momentu N. Je»eli zatrzymamy system 4.1, to ponosimy tylko koszt dziedziczenia h y N 1. Je»eli sterujemy tym systemem w momencie N 1 oraz zatrzymujemy go w chwili N, to ponosimy koszty sterowania wielko±ci g y N 1, u N 1 podczas przeprowadzenia systemu ze stanu y N 1 do stanu y N i dziedziczenia hy N. Optymalny koszt dla klasy T N 1, N jest równy S N N 1 y 0,..., y N 1 = inf u N 1 {h y N 1, g y N 1, u N 1 + E S N N ξ, y 0,..., y N F N 1 } oraz optymalny moment zatrzymania wynosi τ 1 = { N 1, je»eli SN N 1 y 0,..., y N 1 = h y N 1, τ 0, je»eli S N N 1 y 0,..., y N 1 < h y N 1. Je»eli moment N 1 tzn. τ 1 = τ 0 nie jest momentem zatrzymania, to nale»y dalej sterowa systemem 4.1. Zgodnie z twierdzeniem 2.1 warunek konieczny optymalnego sterowania w momencie N 1 jest dany wzorem u gy N 1, u N 1 + E hy N y N fξ, y N 1, u N 1 T Σ 1 ξ, y N 1 u fξ, y N 1, u N 1 F N 1 = 0. W podobny sposób wyznaczamy momenty zatrzymania w klasach T N 2, N,..., T 0, N = T. Dla klasy T j, N, 0 j N 1 mo»emy zatrzyma system 4.1 w momencie j lub optymalnie sterowa systemem w chwili j do momentów j + 1,..., N. Je»eli system 4.1 zostanie zatrzy-
4.3. Optymalne zatrzymanie sterowanych systemów stochastycznych 145 many w momencie j, to ponosimy tylko koszt dziedziczenia wielko±ci h y j. Je»eli w chwili j nadal sterujemy systemem 4.1, to ponosimy koszt sterowania wielko±ci g y j, u j podczas transformacji systemu ze stanu y j do stanu y j+1 oraz oczekiwane koszty sterowania w chwilach pó¹niejszych wielko±ci E Sj+1 N ξ, y 0,..., y j+1 F j. Wobec powy»szego optymalny koszt w klasie T j, N jest równy S N j y 0,..., y j = inf u j { h yj, g y j, u j + E S N j+1 ξ, y 0,..., y j+1 F j }, natomiast optymalny moment zatrzymania w klasie T j, N wynosi { j, je»eli τ j SN = j y 0,..., y j = h y j, τ j 1, je»eli S j N y 0,..., y j < h y j. Je»eli j nie jest momentem zatrzymania, to nadal sterujemy systemem 4.1. Wyznaczenie optymalnego sterowania w momencie j polega na rozwi zaniu zadania inf u j g y j, u j + E S N j+1 ξ, y 0,..., y j, fξ, y j, u j + σξ, y j w j+1 F j. 4.27 Je»eli u j jest optymalnym sterowaniem w momencie j, to oczekiwany najmniejszy koszt sterowania od momentu j wynosi S j N y 0,..., y j = g y j, u j + E S N j+1 ξ, y0,..., y j, fξ, y j, u j + σξ, y j w j+1 Fj. Warunek konieczny optymalnego sterowania zadania 4.27 jest dany wzorem u gy j, u j + E Sj+1 N ξ, y 0,..., y j+1 y j+1 fξ, y j, u j T Σ 1 ξ, y j u fξ, y j, u j F k = 0. co dowodzi prawdziwo±ci twierdzenia
146 4. Optymalne zatrzymanie systemów sterowanych Poni»ej przedstawiony zostanie algorytm, który podaje sposób wyznaczenia ci gu optymalnych sterowa«u j oraz konstrukcj momentu { } 0 j<n zatrzymania systemu 4.1. Algorytm ten wykorzystuje zasad programowania dynamicznego wstecz oraz wyniki zawarte w twierdzeniu 4.2. Algorytm wyznaczenia optymalnego sterowania i momentu zatrzymania 1. Deniujemy S N N ξ, y 0,..., y N = h y N oraz j = N. 2. Kªadziemy j = j 1. 3. Deniujemy S N j+1ξ, y 0,..., y j, u j, w = S N j+1 ξ, y 0,..., y j, fξ, y j, u j + σξ, y j w. 4. Wyznaczamy Zj N y 0,..., y j, u j = S N j+1ξ, y 0,..., y j, u j, xx T σ T ξ, y j Σ 1 ξ, y j u fξ, y j, u j γ x, 0 k, I k dxp dξ F j, gdzie 0 k R k jest wektorem zerowym, natomiast I k R k k macierz jednostkow. 5. Szukamy optymalne sterowanie u j, dla którego speªniony jest warunek uj g j y j, u j + Z N j y 0,..., y j, u j = 0. 6. Wyznaczamy S j+1y N 0,..., y j = E SN j+1 ξ, y 0,..., y j, u j+1, w j+1 F j = S j+1 N ξ, y0,..., y j, u j+1, w j+1 γ x, 0 k, I k dxp dξ F j
4.4. Ró»nice i podobie«stwa zada«optymalnego zatrzymania 147 7. Je»eli gy j, u j + S N j+1 y 0,..., y j h y j, to zatrzymujemy proces sterowania systemem 4.1 oraz τ = j, w przeciwnym razie kontynuujemy sterowanie. 8. Wyznaczamy warto± funkcji Bellmana Sj N ξ, y 0,..., y j = g j yj, u j + Sj+1 N ξ, y0,..., y j, fξ, y j, u j + σξ, y j x γ x, 0 k, I k dx. 9. Je»eli j = 0, to zatrzymujemy proces sterowania oraz τ = 0, w przeciwnym razie wracamy do punktu 2. 4.4 Ró»nice i podobie«stwa zada«optymalnego zatrzymania Porównuj c przedstawione wy»ej sposoby rozwi zania zadania 4.3 i zadania 4.7, które wykorzystuj odpowiednio zasad optymalnego zatrzymania procesów losowych i zamian stopowania na sterowanie, widzimy,»e wyst puj zarówno podobie«stwa i ró»nice. Do wyznaczenia ci gów optymalnych sterowa«zarówno dla zadania 4.3, jak i dla zadania zast pczego 4.7 wykorzystana zostaªa zasada programowania dynamicznego wstecz. Wydawa by si mogªo,»e wprowadzenie zmiennej steruj cej θ j w równaniu 4.19 powinno dawa podobny efekt jak równanie 4.22, poniewa» dla dowolnych f 1 i f 2 speªniona jest równo± 0 j N min f 1, f 2 = min θf 1 + 1 θ f 2. θ {0,1} { } Nie mniej jednak konstrukcje ci gu funkcji Bellmana Wj Nξ, y 0,..., y j { } 0 j N i ci gu funkcji Bellmana Sj Nξ, y 0,..., y j zdeniowanych odpowiednio wzorami 4.194.20 i 4.224.23 s zupeªnie inne.
148 4. Optymalne zatrzymanie systemów sterowanych Zgodnie z uwag 4.4 dla zadania zast pczego 4.7 polegaj cego na zamianie problemu stopowania na sterowanie, warto± W N j ξ, y 0,..., y j, 0 j < N mo»emy oszacowa jako najmniejsz warto± z funkcji Bellmana V j j ξ, y 0,..., y j,..., Vj N ξ, y 0,..., y N dla zadania 2.3 z ustalonym horyzontem N. Konstrukcja zmiennej steruj cej θ = θ 0,..., θ N 1 umo»- liwia speªnienie równo±ci 4.21. Natomiast dla zadania 4.3 bezpo±rednie wyznaczenie funkcji Bellmana S N j ξ, y 0,..., y j, 0 j < N za pomoc V j j ξ, y 0,..., y j,..., Vj N ξ, y 0,..., y N nie jest mo»liwe. Wniosek 4.1 Dla dowolnych ξ R k, y i R k, 0 i j N speªniona jest nierówno± S N j ξ, y 0,..., y j W N j ξ, y 0,..., y j V N j ξ, y 0,..., y j, gdzie funkcje Bellmana V N j ξ, y 0,..., y j, W N j ξ, y 0,..., y j, S N j ξ, y 0,..., y j s dane wzorami 2.14, 4.19, 4.22 odpowiednio. Zatem oczekiwane koszty sterowania od momentu j dla zada«2.3, 4.7, 4.3 odpowiednio speªniaj nierówno± S N j y 0,..., y j W N j y 0,..., y j V N j y 0,..., y j. Dla momentu N natomiast zachodzi równo± S N N ξ, y 0,..., y N = W N N ξ, y 0,..., y N = V N N ξ, y 0,..., y N = h y N. Uwaga 4.7 W warunkach peªnej informacji o systemie 4.1 wektor { W N j y 0,..., y j } 0 j N ξ R k jest znany warto±ci funkcji { } 0 j N i SN j y 0,..., y j s równe warto±ciom funkcji Bellmana danymi wzorami 4.19 i 4.22 odpowiedno S N j y 0,..., y j = S N j ξ, y 0,..., y j = S N j ξ, y j, W N j y 0,..., y j = W N j ξ, y 0,..., y j = W N j ξ, y j.
4.5. Zbiory optymalnego zatrzymania 149 Wniosek 4.2 Optymalny moment zatrzymania systemu 4.1 dla zadania 4.7 zadania wykorzystuj cego zamian stopowania na sterowanie jest równy τ = min { 0 j N : W N j y 0,..., y j = h y j } oraz nie przekracza momentu zatrzymania dla zadania 4.3 zadania wykorzystuj cego zasad optymalnego zatrzymania τ = min { 0 j N : SN j y 0,..., y j = h y j }. 4.5 Zbiory optymalnego zatrzymania Decyzja czy moment j {0, 1,..., N} jest momentem zatrzymania systemu stochastycznego 4.1 zale»y gªównie od trajektorii {y i } 0 i j tego systemu. Zatem z momentami decyzyjnymi s powi zane pewne podzbiory w R n. Te podzbiory nie s staªe, zale» zarówno od momentu decyzyjnego, jak i od dost pnej informacji o parametrach systemu. Dla dowolnego momentu 0 j N przestrze«r n mo»emy podzieli na dwa rozª czne zbiory: zbiór zatrzymania i zbiór kontynuacji sterowania. Denicja 4.1 Dla momentu 0 j N zbiór G S jn y 0,..., y j 1 = { y R n : S N j y 0,..., y j 1, y = h y } 4.28 nazywamy zbiorem optymalnego zatrzymania dla zadania 4.3. Denicja 4.2 Dla momentu 0 j N zbiór G W jn y 0,..., y j 1 = { y R n : W N j y 0,..., y j 1, y = h y } 4.29 nazywamy zbiorem optymalnego zatrzymania dla zadania 4.7. Uwaga 4.8 Zgodnie z uwag 4.7 zbiory optymalnego zatrzymania dla zada«z peªn i niepeªn informacj s ró»ne. W przypadku peªnej informacji o systemie zbiór zatrzymania zale»y od parametrów systemu ξ i momentu
150 4. Optymalne zatrzymanie systemów sterowanych j, natomiast w warunkach niepeªnej informacji o systemie zbiór zatrzymania zale»y od rozkªadu a priori wektora losowego ξ, trajektorii {y i } 0 i j oraz momentu decyzyjnego j. Uwaga 4.9 Z uwagi 4.7 wynika,»e w przypadku peªnej informacji o systemie 4.1 dla momentu 0 j N zbiory optymalnych zatrzyma«dla zada«4.3 i 4.7 zale» od parametrów systemu G S jn ξ = { y R n : S N j ξ, y = h y }, 4.30 G W jn ξ = { y R n : W N j ξ, y = h y }. 4.31 Poniewa» optymalne stopowanie w klasie T N, N polega na zatrzymaniu systemu, zatem G S NN y 0,..., y N 1 = G W NN y 0,..., y N 1 = G S NN ξ = G W NN ξ = R n. Dla zada«4.3 i 4.7 w momencie 0 j N 1 zbiory optymalnego zatrzymania G S jn y 0,..., y j 1 i G W jn y 0,..., y j 1 odpowiednio s zbiorami stanów systemu, dla których koszt dziedziczenia nie przekracza oczekiwanych kosztów zwi zanych z kontynuacj sterowania innymi sªowy jest to zbiór stanów systemu dla których nie mamy szans na osi gni cie lepszego efektu, je»eli b dziemy dalej sterowa systemem. Zatem dla dowolnego momentu 0 j N 1 zbiory optymalnego zatrzymania dla zada«4.3 i 4.7 mo»emy przedstawi w postaci G S jn y 0,..., y j 1 = { y R n : h y inf u j g y, u j +E S N j+1 ξ, y 0,..., y j 1, y, y j+1 F j } 4.32 i G W jn y 0,..., y j 1 = { y R n : h y inf u j g y, u j +E W N j+1 ξ, y 0,..., y j 1, y, y j+1 F j }. 4.33
4.5. Zbiory optymalnego zatrzymania 151 Ze wzorów 4.32 4.33 widzimy,»e dla dowolnego momentu j {0, 1,..., N 1} zbiór stanów systemu, w których system powinien by zatrzymany, zale»y od kosztu sterowania g y j, u j i warto±ci funkcji Bellmana S N j+1 ξ, y 0,..., y j+1 i W N j+1 ξ, y 0,..., y j+1. Zatem dla dowolnych momentów decyzyjnych zbiory otymalnego zatrzymania s ró»ne. Dla zadania 4.3 ci g G S jn y 0,..., y j 1 deniuje niemalej c rodzin { } zbio- 0 j N rów optymalnego zatrzymania, która odpowiada ci gowi funkcji Bellmana { { } Sj N ξ, y 0,..., y j }0 j N. Dla zadania 4.7 ci g G W jn y 0,..., y j 1 0 j N deniuje niemalej c rodzin zbiorów optymalnego zatrzymania, która odpowiada ci gowi funkcji Bellmana Wj N ξ, y 0,..., y j { } 0 j N. Moment optymalnego zatrzymania τ systemu 4.1 dla zadania 4.3 jest to pierwszy moment, dla którego stan systemu nale»y do zbioru optymalnego zatrzymania τ = min { 0 j N : y j G S jn y 0,..., y j 1 }. Równie» dla zadania 4.7 moment optymalnego zatrzymania τ wyznaczamy jako τ = min { 0 j N : y j G W jn y 0,..., y j 1 }. Z wniosku 4.1 wynika,»e dla dowolnego momentu j {0, 1,..., N 1} mamy G S jn y 0,..., y j 1 G W jn y 0,..., y j 1, zatem τ τ. Dla zadania 4.3 optymalna decyzja dotycz ca zatrzymania systemu 4.1 w momencie 0 j N jest nast puj ca: je»eli y j / G S jn y 0,..., y j 1 to w momencie j system powinien by sterowany, w przeciwnym razie tzn. y j G S jn y 0,..., y j 1 w momencie j system powinien by zatrzymany. W podobny sposób okre±lamy decyzj o zatrzymaniu systemu 4.1 w momencie 0 j N dla zadania 4.7: je»eli y j / G W jn y 0,..., y j 1 to w momencie j system powinien by sterowany, w przeciwnym razie tzn. y j G W jn y 0,..., y j 1 w momencie j system powinien by zatrzymany.
152 4. Optymalne zatrzymanie systemów sterowanych Denicja 4.3 W momencie j {0, 1,..., N 1} warto± L S jn y 0,..., y j 1 = max { h y : y G S jn y 0,..., y j 1 } 4.34 oznacza najwi kszy akceptowalny koszt dziedziczenia dla zadania 4.3»eby zatrzyma system. Denicja 4.4 W momencie j {0, 1,..., N 1} warto± L W jn y 0,..., y j 1 = max { h y : y G W jn y 0,..., y j 1 } 4.35 oznacza najwi kszy akceptowalny koszt dziedziczenia dla zadania 4.7»eby zatrzyma system. Wniosek 4.3 Poniewa» G S jn y 0,..., y j 1 G W jn y 0,..., y j 1 dla dowolnego j {0, 1,..., N 1}, zatem L S jn y 0,..., y j 1 L W jn y 0,..., y j 1. 4.6 Optymalne sterowanie i zatrzymanie dla zadania liniowo-kwadratowego W rozdziale 2.2 przedstawiony zostaª klasyczny problem sterowania liniowo-kwadratowego z ustalonym horyzontem, w którym to dodatkowo zwrócono uwag,»e horyzont ma do± du»y wpªyw na realizacj celu. W tej cz ±ci rozdziaªu równie» przedstawiona zostanie problematyka sterowania liniowo-kwadratowego, z tym»e gªówny akcent zostanie skierowany na wyznaczenie optymalnego momentu zatrzymania podczas sterowania stochastycznym systemem liniowym z kwadaratowym wska¹nikiem jako±ci. Niech system stochastyczny b dzie okre±lony za pomoc równania stanu y i+1 = Ay i Cu i + d + σw i+1, 4.36 gdzie i = 0,..., N 1, y i R n, A R n n, C R n l, σ R n m, d R n oraz A <, C <, σ <, d, d <, {w i } i 1 oznacza ci g niezale»nych wektorów losowych o rozkªadzie normalnym N 0, I m, 0 R m
4.6. Optymalne sterowanie i zatrzymanie dla zadania... 153 jest wektorem zerowym, I m R m m macierz jednostkow. Na przestrzeni probabilistycznej Ω, F, P deniujemy niemalej c rodzin σ ciaª {F i } i 0, gdzie F i = σ {w s : s = 1, 2,..., i}. Klasyczne zadanie sterowania liniowokwadratowego polega na przeprowadzeniu w N krokach systemu 4.36 z punktu y 0 do celu a R n. W odró»nieniu od klasycznego zadania rozwa»amy dodatkowo mo»liwo± zatrzymania systemu jeszcze przed momentem N. W ka»dym momencie j = 0, 1,..., N mo»emy podj decyzj odno±nie sterowania b d¹ zatrzymania systemu. W momencie 0 j < N ponosimy koszt sterowania wysoko±ci u T j R ju j, je»eli system jest sterowany, lub koszt dziedziczenia y j a T Q y j a, je»eli system zostanie zatrzymany. Celem sterowania jest minimalizacja caªkowitych kosztów zwi zanych ze sterowaniem i dziedziczeniem. Zamiana stopowania na sterowanie dla liniowego systemu stochastycznego Steruj c systemem 4.36 w ka»dej chwili 0 i < N podejmujemy decyzj odno±nie sterowania i zatrzymania systemu. Niech u = θ, u oznacza rozszerzone sterowanie, gdzie decyzje dotycz ce zatrzymania systemu s okre±lone wektorem θ = θ 0, θ 1,..., θ N 1, θ i {0, 1} dla 0 i N 1, natomiast u = u 0, u 1,..., u N 1 oznacza sterowanie dopuszczalne. Je»eli moment 0 i < N nie jest momentem zatrzymania, to θ i = 1 oraz koszt sterowania jest równy u T i R iu i. Natomiast je»eli moment 0 i N jest momentem zatrzymania, to θ i = 0 oraz straty zwi zane z nietraeniem do celu a R n s równe y i a T Q y i a. Koszt sterowania w momencie i jest dany wzorem φ i θ i, y i, u i = θ i u T i R i u i + 1 θ i y i a T Q y i a. 4.37 Caªkowity koszt sterowania jest równy J u = E N 1 i=0 φ i θ i, y i, u i ψ i 1 0 θ + y N a T Q y N a ψ N 1 0 θ, 4.38
154 4. Optymalne zatrzymanie systemów sterowanych gdzie ψ0 i θ, 0 i < N jest dane wzorem 4.4. Do rozwi zania zadania 4.7 konstruujemy ci g funkcji Bellmana. Dla momentu N przyjmujemy W N N y N = y N a T Q y N a, 4.39 natomiast dla momentów j = 0, 1, 2,..., N 1 W N j { y j = min θ j u T j R j u j + 1 θ j y j a T Q y j a u j,θ j +θ j E W N j+1 y j+1 F j }. 4.40 Dla dowolnego 0 k N zdeniujemy ci g macierzy speªnia równanie { } Q k j, który 0 j k T Q k j = Q k j+1 Qj+1 k A k j 1 C T 1 T R j + A C k j 1 Qk j+1 A C k j 1 A C k j 1 Q k j+1 4.41 z warunkiem pocz tkowym Q k k = Q, gdzie R j, Qk j s dane wzorem 2.25. Korzystaj c z twierdzenia 2.2 oraz uwagi 4.4 funkcje Bellmana zdeniowane wzorami 4.394.40 mo»emy przedstawi w postaci W N j { y = min V j j } j+1 y, Vj y,..., Vj N y, 4.42 gdzie dla j k N T Vj k y = A k j y + Λ k j d a Q k j A k j y + Λ k j d a + ϕ k j, 4.43 natomiast T ϕ k j = ϕ k j+1 + tr A σ k j 1 Q k j+1 A k j 1 σ 4.44
4.6. Optymalne sterowanie i zatrzymanie dla zadania... 155 z warunkiem pocz tkowym ϕ k k = 0 oraz Λ s = I + A +... + A max0,s 1, 4.45 I R n n jest macierz jednostkow. Rozwi zanie zadania 4.7 zamiany stopowania na sterowanie dla wska¹nika jako±ci 4.38 przedstawia twierdzenie poni»ej. Twierdzenie 4.3 Niech macierze R i R l l dla 0 i N 1 oraz Q R n n s dodatnio okre±lone oraz dla dowolnego 0 k N ci g macierzy Q k j speªnia równanie 4.41. Optymalnym rozwi zaniem { } zadania 0 j k 4.7 dla systemu liniowego 4.36 jest: 1. je»eli moment 0 j N nie jest momentem zatrzymania, to optymalne sterowanie systemem 4.36 w tym momencie jest równe u j = T 1 R j + A C k j 1 Qk j+1 A k j 1 C T A k j 1 C Q k j+1 A k j y j + Λ k j d a, 4.46 gdzie przewidywany horyzont k speªnia równanie Wj N y = Vj k y, j k N oraz Wj N y i Vj k y dane s wzorami 4.424.45; 2. warto± zmiennej decyzyjnej dotycz cej zatrzymania systemu w momencie 0 j N 1 wyznaczamy ze wzoru θ j = { 0, je»eli W N j y j = y j a T Q y j a, 1, je»eli W N j y j < y j a T Q y j a. 4.47 Dowód. Stosuj c bezpo±rednio twierdzenie 4.1 oraz uwag 4.4 otrzymujemy tez. Optymalne zatrzymanie liniowego systemu sterowanego W przypadku gdy sterujemy systemem 4.36 do momentu t N, to ponosimy caªkowity koszt suma kosztów sterowa«i dziedziczenia wielko±ci J u, t = E t 1 u T i Ru i + y t a T Q y t a. 4.48 i=0
156 4. Optymalne zatrzymanie systemów sterowanych Gªównym celem sterowania jest minimalizacja caªkowitych kosztów 4.48. Aby optymalnie sterowa tym systemem nale»y rozwi za zadanie 4.3, które polega na wyznaczeniu zarówno optymalnego momentu τ : Ω {0, 1,..., N} zatrzymania systemu 4.36, jak równie» optymalnego sterowania u = u 0,..., τ 1 u. Do rozwi zania zadania 4.3 konstruujemy ci g funkcji Bellmana. Dla momentu N przyjmujemy S N N y N = y N a T Q y N a, 4.49 natomiast dla momentów j = 0, 1, 2,..., N 1 S N j { y j = min y j a T Q y j a, u T u j R j u j + E Sj+1 N y j+1 } F j. j 4.50 Twierdzenie poni»ej przedstawia warunki konieczne wyznaczenia optymalnego sterowania systemem 4.36 oraz sposób wyznaczenia optymalnego momentu zatrzymania. Twierdzenie 4.4 Niech macierze R i R l l dla 0 i N 1 oraz Q R n n s dodatnio okre±lone. Rozwi zaniem zadania 4.3 jest: 1. optymalny moment zatrzymania systemu liniowego 4.36 { } τ = min 0 j N : y j a T Q y j a = Sj N y j, 4.51 gdzie Sj N y j dla 0 j N jest dane wzorem 4.494.50; 2. je»eli moment j {0, 1,..., N 1} nie jest momentem zatrzymania, to optymalne sterowanie u j systemem 4.36 jest równe u j = R j + Rj T 1 E Sj+1y N j+1 y j+1 Ay j + Cu j d T σσ T 1 C Fj. 4.52 Dowód. Stosuj c bezpo±rednio twierdzenie 4.2 otrzymujemy tez. Przykªad 4.1 Wyznaczymy zbiory optymalnego zatrzymania dla liniowego systemu stochastycznego, który jest okre±lony za pomoc równania 4.36. [ ] [ ] 1.25 0.2 1.5 0.1 Poni»ej przyjmujemy macierze R =, Q =, 0.2 1.8 0.1 3.2
4.6. Optymalne sterowanie i zatrzymanie dla zadania... 157 [ ] [ ] [ ] 1.1 0 1.3 0.1 0.95 0.2 A =, C =, σ =, stan pocz tkowy y 0 = oraz d =, cel sterowania a =, natomiast 0 0.9 0.5 2.5 0.1 1.2 [ ] [ ] [ ] 0 0 40 0 0 60 horyzont sterowania N = 20. Rysunek 4.1: Warto±ci funkcji Bellmana S20y oraz S19y, 20 obszar zatrzymania dla momentu j = 19. Bezpo±rednio ze wzorów 4.49-4.50 wyznaczamy warto±ci funkcji Bellmana w momentach j = 0, 1,..., N. Na rysunku 4.1a powierzchnia zaznaczona kolorem granatowym przedstawia warto±ci funkcji Bellmana dla momentu j = 20, natomiast powierzchnia zaznaczona kolorem czerwonym przedstawia warto±ci funkcji Bellmana dla momentu j = 19. Równie» widzimy,»e w pewnym otoczeniu punktu a R 2 speªniona jest nierówno± S20 20 y S20 19 y. Rysunek 4.1b przedstawia G S 19,20 obszar zatrzymania systemu 4.36 w momencie j = 19, który wyznaczamy za pomoc wzoru 4.30. Rzut ortogonalny przeci cia powierzchni przedstawiaj cych warto±ci funkcji Bellmana
158 4. Optymalne zatrzymanie systemów sterowanych Rysunek 4.2: Warto±ci funkcji Bellmana S 20y, S 20 19y oraz S 20 15y. S20 20 y i S20 19 y na przestrze«r2 jest to zbiór { y R 2 : S20 20 y = S20 19 y}, który jest zaznaczony na rysunku 4.1b krzyw koloru czarnego, natomiast zbiór punktów { y R 2 : S20 20 y < S20 19 y} jest zaznaczony jako obszar koloru czerwonego. Dla momentów j = 0, 1, 2,..., 19 zbiory optymalnego zatrzymania systemu 4.36 wygl daj w sposób podobny, z tym»e G S 0,20 GS 1,20... GS 19,20. Zgodnie z denicj funkcji Bellmana 4.49-4.50 dla dowolnych 0 i j N 1 speªniona jest nierówno± S 20 i y S 20 j y, y R2. Na rysunku 4.2 przedstawione s warto±ci funkcji Bellmana dla momentów j = 20 powierzchnia zaznaczona kolorem granatowym, j = 19 powierzchnia zaznaczona kolorem czerwonym oraz j = 15 powierzchnia zaznaczona kolorem zielonym. Rysunek 4.3 przedstawia warto±ci najwi kszych akceptowalnych kosztów dziedziczenia L S j,20 dla momentów 0 j 19, które szacujemy korzystaj c ze wzoru 4.34. Zgodnie z wnioskiem 4.3 warto±ci akceptowalnych kosztów dziedziczenia speªniaj nierówno± L S 0,20 LS 1,20... LS 19,20. Z rysunku wida,»e dla momentów j = 0, 1,..., 15 maksymalny akceptowalny